Acerca de la implementación de cargas de trabajo de AI/ML en clústeres de Servicio TKG

Las cargas de trabajo de AI/ML se pueden implementar en clústeres de Servicio TKG mediante la tecnología GPU de NVIDIA.

Compatibilidad con TKGS para cargas de trabajo de AI/ML

Es posible implementar cargas de trabajo de uso intensivo de recursos informáticos en clústeres de Servicio TKG. En este contexto, una carga de trabajo con uso intensivo de recursos informáticos es una aplicación de inteligencia artificial (AI) o aprendizaje automático (ML) que requiere el uso de un dispositivo acelerador de GPU.

Para facilitar la ejecución de cargas de trabajo de AI/ML en un entorno de Kubernetes, VMware se asoció con NVIDIA para admitir la plataforma GPU Cloud de NVIDIA. Esto significa que puede implementar imágenes de contenedor desde el catálogo de NGC en clústeres de TKGS. Para obtener más información sobre la compatibilidad con GPU de NVIDIA en vSphere 8, consulte el artículo de vGPU en la zona técnica.

Modos GPU compatibles

La implementación de cargas de trabajo de AI/ML basadas en NVIDIA en clústeres de Servicio TKG requiere el uso de la edición para Ubuntu de Tanzu Kubernetes, versiones 1.22 o posteriores. vSphere admite dos modos: vGPU de NVIDIA Grid y Acceso directo de GPU con un dispositivo de DirectPath I/O dinámico. Para obtener más información, consulte Sistemas operativos compatibles y plataformas de Kubernetes en la documentación de NVIDIA.

Tabla 1. Máquinas virtuales de vSphere con vGPU de NVIDIA
Sistema operativo	TKr	vSphere with Tanzu	Descripción
Ubuntu 20.04 LTS	1.22-1.2x* (última hasta 1.28)	7.0 U3c 8.0 U2 o superior	El controlador del administrador de hosts NVIDIA instalado en cada host ESXi virtualiza el dispositivo GPU. Este se comparte después entre varias GPU virtuales (vGPU) de NVIDIA. Nota: El planificador de recursos distribuidos (Distributed Resource Scheduler, DRS) de vSphere distribuye las máquinas virtuales de vGPU usando el método “breadth-first” entre los hosts que componen un clúster de vSphere. Para obtener más información, consulte Colocación de DRS de máquinas virtuales de vGPU en la guía Administrar recursos de vSphere. Cada vGPU de NVIDIA se define por la cantidad de memoria del dispositivo GPU. Por ejemplo, si el dispositivo GPU tiene una cantidad total de 32 GB de RAM, puede crear 8 vGPU con 4 GB de memoria cada uno.

Tabla 2. Máquinas virtuales de vSphere con Acceso directo de GPU
Sistema operativo	TKr	vSphere with Tanzu	Descripción
Ubuntu 20.04 LTS	1.22-1.2x* (última hasta 1.28)	7.0 U3c 8.0 U2 o superior	En la misma clase de máquina virtual en la que se configura el perfil de la vGPU de NVIDIA, se incluye compatibilidad con un dispositivo de redes de acceso directo mediante la instancia dinámica de DirectPath I/O. En este caso, vSphere DRS determina la colocación de máquinas virtuales.