Acerca de la implementación de cargas de trabajo de AI/ML en clústeres TKGS

Las cargas de trabajo de AI/ML se pueden implementar en clústeres TKGS mediante vSphere with Tanzu y la tecnología vGPU de NVIDIA.

Anuncio de la compatibilidad con TGKS para cargas de trabajo de AI/ML

A partir del lanzamiento de vSphere with Tanzu versión 7 Update 3, revisión mensual 1, puede implementar cargas de trabajo de uso intensivo de recursos informáticos en los clústeres de Tanzu Kubernetes aprovisionados por servicio Tanzu Kubernetes Grid. En este contexto, una carga de trabajo con uso intensivo de recursos informáticos es una aplicación de inteligencia artificial (AI) o aprendizaje automático (ML) que requiere el uso de un dispositivo acelerador de GPU.

Para facilitar la ejecución de cargas de trabajo de AI/ML en un entorno de Kubernetes, VMware se asocia con NVIDIA para admitir la plataforma GPU Cloud de NVIDIA en vSphere with Tanzu. Esto significa que puede implementar imágenes de contenedor desde el catálogo de NGC en clústeres de Tanzu Kubernetes aprovisionados por servicio Tanzu Kubernetes Grid.

Para obtener más información sobre la arquitectura conjunta de NVIDIA y VMware para la empresa lista para AI, consulte Acelerar cargas de trabajo en vSphere 7 with Tanzu: una vista previa técnica de clústeres de Kubernetes con GPU.

Modos vGPU compatibles

La implementación de cargas de trabajo de AI/ML en TKGS requiere el uso del archivo OVA de Ubuntu que está disponible a través de la red de entrega de contenido de vSphere with Tanzu. TKGS admite dos modos de operaciones de GPU: vGPU y vGPU con acceso directo a la NIC. En la tabla se describen los dos modos con más detalles.

Modo	Configuración	Descripción
NVIDIA + TKGS + Ubuntu + vGPU	vGPU de NVIDIA	El controlador del administrador de hosts NVIDIA instalado en cada host ESXi virtualiza el dispositivo GPU. Este se comparte después entre varias GPU virtuales (vGPU) de NVIDIA. Cada vGPU de NVIDIA se define por la cantidad de memoria del dispositivo GPU. Por ejemplo, si el dispositivo GPU tiene una cantidad total de 32 GB de RAM, puede crear 8 vGPU con aproximadamente 4 GB de memoria cada uno.
NVIDIA + TKGS + Ubuntu + vGPU + acceso directo a la NIC	vGPU de NVIDIA y Instancia dinámica de DirectPath I/O	En la misma clase de máquina virtual en la que se configura el perfil de la vGPU de NVIDIA, se incluye compatibilidad con un dispositivo de redes de acceso directo mediante la instancia dinámica de DirectPath I/O. En este caso, vSphere DRS determina la colocación de máquinas virtuales.

Modo

Configuración

Descripción

NVIDIA + TKGS + Ubuntu + vGPU

vGPU de NVIDIA

El controlador del administrador de hosts NVIDIA instalado en cada host ESXi virtualiza el dispositivo GPU. Este se comparte después entre varias GPU virtuales (vGPU) de NVIDIA.

Cada vGPU de NVIDIA se define por la cantidad de memoria del dispositivo GPU. Por ejemplo, si el dispositivo GPU tiene una cantidad total de 32 GB de RAM, puede crear 8 vGPU con aproximadamente 4 GB de memoria cada uno.

NVIDIA + TKGS + Ubuntu + vGPU + acceso directo a la NIC

vGPU de NVIDIA

Instancia dinámica de DirectPath I/O

En la misma clase de máquina virtual en la que se configura el perfil de la vGPU de NVIDIA, se incluye compatibilidad con un dispositivo de redes de acceso directo mediante la instancia dinámica de DirectPath I/O. En este caso, vSphere DRS determina la colocación de máquinas virtuales.

Introducción

Para configurar la vGPU de NVIDIA para TKGS, consulte los siguientes temas:

Si utiliza la vGPU con acceso directo a la NIC, consulte también el siguiente tema: Anexo del administrador de vSphere para implementar cargas de trabajo de AI/ML en clústeres TKGS (vGPU e Instancia dinámica de DirectPath I/O).

Si utiliza el servidor de licencias delegado (DLS) de NVIDIA para su cuenta de NVAIE, consulte también el siguiente tema: Anexo de operadores de clúster para implementar cargas de trabajo de AI/ML en clústeres TKGS (DLS).