Las cargas de trabajo de AI/ML se pueden implementar en clústeres de TKG en Supervisor mediante la tecnología vGPU de NVIDIA.

Compatibilidad con TKG para cargas de trabajo de AI/ML

Es posible implementar cargas de trabajo de uso intensivo de recursos informáticos en clústeres de TKG en Supervisor. En este contexto, una carga de trabajo con uso intensivo de recursos informáticos es una aplicación de inteligencia artificial (AI) o aprendizaje automático (ML) que requiere el uso de un dispositivo acelerador de GPU.

Para facilitar la ejecución de cargas de trabajo de AI/ML en un entorno de Kubernetes, VMware se asocia con NVIDIA para admitir la plataforma vGPU Cloud de NVIDIA en vSphere with Tanzu. Esto significa que puede implementar imágenes de contenedor desde el catálogo de NGC en clústeres de TKG en Supervisor.

Para obtener más información sobre la compatibilidad con vGPU en vSphere 8, consulte el artículo de vGPU en la zona técnica.
Nota: El planificador de recursos distribuidos (Distributed Resource Scheduler, DRS) de vSphere distribuye las máquinas virtuales de vGPU usando el método “breadth-first” entre los hosts que componen un clúster de vSphere. Para obtener más información, consulte Colocación de DRS de máquinas virtuales de vGPU en la guía Administrar recursos de vSphere.

Modos vGPU compatibles

La implementación de cargas de trabajo de AI/ML en TKG requiere el uso del archivo OVA de Ubuntu que está disponible a través de la red de entrega de contenido de vSphere with Tanzu. TKG admite dos modos de operaciones de GPU: vGPU y vGPU con Instancia dinámica de DirectPath I/O.

Modo Configuración Descripción

NVIDIA + TKGS + Ubuntu + vGPU

vGPU de NVIDIA

El controlador del administrador de hosts NVIDIA instalado en cada host ESXi virtualiza el dispositivo GPU. Este se comparte después entre varias GPU virtuales (vGPU) de NVIDIA.

Cada vGPU de NVIDIA se define por la cantidad de memoria del dispositivo GPU. Por ejemplo, si el dispositivo GPU tiene una cantidad total de 32 GB de RAM, puede crear 8 vGPU con 4 GB de memoria cada uno.

NVIDIA + TKG + Ubuntu + vGPU + acceso directo a la NIC

vGPU de NVIDIA

y

Instancia dinámica de DirectPath I/O

En la misma clase de máquina virtual en la que se configura el perfil de la vGPU de NVIDIA, se incluye compatibilidad con un dispositivo de redes de acceso directo mediante la instancia dinámica de DirectPath I/O. En este caso, vSphere DRS determina la colocación de máquinas virtuales.