Para permitir que los desarrolladores implementen cargas de trabajo de AI/ML en clústeres TKG 2, como administrador de vSphere, configure el entorno de Supervisor para que admita el hardware de NVIDIA GPU.

Paso 1 del administrador: revisar los requisitos del sistema

Consulte los siguientes requisitos del sistema para configurar el entorno de implementación de cargas de trabajo de AI/ML en clústeres de TKG.
Requisito Descripción

infraestructura de vSphere 8

vCenter Server y hosts ESXi

Licencia de administración de cargas de trabajo

Espacios de nombres de vSphere y Supervisor

OVA de TKR Ubuntu

Notas de la versión de las versiones de Tanzu Kubernetes

Controlador de host NVIDIA vGPU

Descargue el VIB del sitio web de NGC. Si desea más información, consulte la documentación del controlador del software vGPU.

Servidor de licencias NVIDIA para vGPU

FQDN proporcionado por la organización

Paso 2 del administrador: instalar un dispositivo NVIDIA GPU compatible en hosts ESXi

Para implementar cargas de trabajo de AI/ML en TKG, instale uno o varios dispositivos NVIDIA GPU compatibles en cada host ESXi que contenga el clúster de vCenter en el que se habilitará Administración de cargas de trabajo.

Para ver los dispositivos NVIDIA GPU compatibles, consulte la guía de compatibilidad de VMware.

La lista de dispositivos de GPU NVIDIA compatibles. Haga clic en un modelo de dispositivo GPU para ver más detalles y suscribirse a fuentes RSS.

El dispositivo NVIDIA GPU debe admitir los perfiles de vGPU NVIDIA AI Enterprise (NVAIE) más recientes. Consulte la documentación de GPU compatibles con el software NVIDIA Virtual GPU para obtener instrucciones.

Por ejemplo, el siguiente host ESXi tiene dos dispositivos NVIDIA GPU A100 instalados.

La pestaña Dispositivos de gráficos de vSphere Client enumera los dispositivos NVIDIA GPU A100.

Paso 3 del administrador: configurar cada host ESXi para operaciones de vGPU

Configure cada host ESXi para vGPU habilitando Compartidos directos y SR-IOV.

Habilitar Compartidos directos en cada host ESXi

Para que la funcionalidad NVIDIA vGPU se desbloquee, habilite el modo Compartidos directos en cada host ESXi que contenga el clúster de vCenter en el que se habilitará Administración de cargas de trabajo.

Para habilitar Compartidos directos, realice los siguientes pasos. Para obtener más instrucciones, consulte Configurar dispositivos de gráficos en la documentación de vSphere.
  1. Inicie sesión en vCenter Server mediante vSphere Client.
  2. Seleccione un host ESXi en el clúster de vCenter.
  3. Seleccione Configurar > Hardware > Gráficos.
  4. Seleccione el dispositivo acelerador de NVIDIA GPU.
  5. Edite la configuración de dispositivos de gráficos.
  6. Seleccione Compartidos directos.
  7. Seleccione Reiniciar el servidor X.Org.
  8. Haga clic en Aceptar para guardar la configuración.
  9. Haga clic con el botón secundario en el host ESXi y póngalo en el modo de mantenimiento.
  10. Reinicie el host.
  11. Cuando el host vuelva a ejecutarse, salga del modo de mantenimiento.
  12. Repita este proceso para cada host ESXi en el clúster de vCenter en el que se habilitará Administración de cargas de trabajo.

La página Editar la configuración de dispositivos de gráficos con las opciones Compartidos directos y Reiniciar el servidor X.Org seleccionadas.

La pestaña Dispositivos de gráficos de vSphere Client muestra los dispositivos NVIDIA GPU A100 con el modo Compartidos directos habilitado.

Activar el BIOS de SR-IOV para dispositivos NVIDIA GPU A30 y A100

Si utiliza los dispositivos GPU NVIDIA A30 o A100, los cuales son necesarios para GPU de varias instancias (modo MIG), debe habilitar SR-IOV en el host ESXi. Si SR-IOV no está habilitado, no se pueden iniciar las máquinas virtuales del nodo del clúster de Tanzu Kubernetes. Si esto ocurre, verá el siguiente mensaje de error en el panel Tareas recientes de vCenter Server en el que está habilitada Administración de cargas de trabajo.

Could not initialize plugin libnvidia-vgx.so for vGPU nvidia_aXXX-xx. Failed to start the virtual machine. Module DevicePowerOn power on failed.

Para habilitar SR-IOV, inicie sesión en el host ESXi mediante la consola web. Seleccione Administrar > Hardware . Seleccione el dispositivo NVIDIA GPU y haga clic en Configurar SR-IOV. Desde ahí, puede activar SR-IOV. Para ver más instrucciones, consulte Single Root I/O Virtualization (SR-IOV) en la documentación de vSphere.

vGPU con Instancia dinámica de DirectPath I/O

Si utiliza vGPU con Instancia dinámica de DirectPath I/O, realice la siguiente configuración adicional.
  1. Inicie sesión en vCenter Server mediante vSphere Client.
  2. Seleccione el host ESXi de destino en el clúster de vCenter.
  3. Seleccione Configurar > Hardware > Dispositivos PCI.
  4. Seleccione la pestaña Todos los dispositivos PCI.
  5. Seleccione el dispositivo acelerador de NVIDIA GPU de destino.
  6. Haga clic en Alternar acceso directo.
  7. Haga clic con el botón secundario en el host ESXi y póngalo en el modo de mantenimiento.
  8. Reinicie el host.
  9. Cuando el host vuelva a ejecutarse, salga del modo de mantenimiento.

Paso 4 del administrador: instalar el controlador del administrador de hosts de NVIDIA en cada host ESXi

Para ejecutar las máquinas virtuales del nodo del clúster de Tanzu Kubernetes con aceleración de gráficos NVIDIA vGPU, instale el controlador del administrador de hosts de NVIDIA en cada host ESXi que contenga el clúster de vCenter en el que se habilitará Administración de cargas de trabajo.

Los componentes del controlador del administrador de hosts NVIDIA vGPU se empaquetan en un paquete de instalación de vSphere (VIB). La organización le proporciona el VIB de NVAIE a través de su programa de licencias NVIDIA GRID. VMware no proporciona los VIB de NVAIE ni hace que estén disponibles para descargarlos. Como parte del programa de licencias NVIDIA, su organización configura un servidor de licencias. Consulte la Guía de inicio rápido del software de GPU virtual para obtener más información.

Una vez que se configure el entorno de NVIDIA, ejecute el siguiente comando en cada host ESXi, reemplace la dirección del servidor de licencias NVIDIA y la versión del VIB de NVAIE con los valores adecuados para su entorno. Para obtener más instrucciones, consulte Instalar y configurar el VIB de NVIDIA en ESXi en la base de conocimientos de soporte de VMware.
Nota: La versión del VIB de NVAIE instalada en los hosts ESXi debe coincidir con la versión de software de vGPU instalada en las máquinas virtuales del nodo. La siguiente versión es solo un ejemplo.
esxcli system maintenanceMode set --enable true
esxcli software vib install -v ftp://server.domain.example.com/nvidia/signed/NVIDIA_bootbank_NVIDIA-VMware_ESXi_7.0_Host_Driver_460.73.02-1OEM.700.0.0.15525992.vib
esxcli system maintenanceMode set --enable false
/etc/init.d/xorg restart

Paso 5 del administrador: comprobar que los hosts ESXi estén listos para las operaciones de NVIDIA vGPU

Para comprobar que cada host ESXi esté listo para las operaciones de NVIDIA vGPU, realice las siguientes comprobaciones en cada host ESXi del clúster de vCenter en el que se habilitará Administración de cargas de trabajo:
  • Acceda mediante SSH al host ESXi, entre en el modo de shell y ejecute el comando nvidia-smi. La interfaz de administración del sistema NVIDIA es una utilidad de línea de comandos que proporciona el administrador de hosts de NVIDIA vGPU. Al ejecutar este comando, se devuelven los controladores y las GPU en el host.
  • Ejecute el siguiente comando para comprobar que el controlador de NVIDIA esté instalado correctamente: esxcli software vib list | grep NVIDA.
  • Compruebe que el host esté configurado con Compartidos directos de GPU y que SR-IOV esté activado (si utiliza dispositivos NVIDIA A30 o A100).
  • Con vSphere Client, en el host ESXi que está configurado para GPU, cree una nueva máquina virtual con un dispositivo PCI incluido. El perfil de NVIDIA vGPU debe aparecer y se debe poder seleccionar.La pestaña Personalizar hardware con el perfil de NVIDIA vGPU seleccionado.

Paso 6 del administrador: habilitar administración de cargas de trabajo

Para habilitar Administración de cargas de trabajo, consulte Implementar TKG 2 con Supervisor.
Nota: Omita este paso si ya tiene un clúster de vCenter con Administración de cargas de trabajo habilitada, siempre que ese clúster utilice los hosts ESXi que configuró para vGPU.

Paso 7 del administrador: crear o actualizar una biblioteca de contenido con una TKR para Ubuntu

NVIDIA vGPU requiere el sistema operativo Ubuntu. No es posible utilizar la edición de PhotonOS de una versión de Tanzu Kubernetes para clústeres de vGPU.

VMware proporciona ediciones de Ubuntu de versiones de Tanzu Kubernetes. A partir de vSphere 8, la edición de Ubuntu se especifica mediante una anotación en el YAML del clúster.

Cree o actualice una biblioteca de contenido existente con una TKR de Ubuntu compatible. Consulte Administrar las versiones de Tanzu Kubernetes para clústeres de TKG 2 en Supervisor.
Nota: Omita este paso si ya tiene una biblioteca de contenido TKR existente configurada en vCenter. No cree una segunda biblioteca de contenido para las TKR. Si lo hace, puede provocar inestabilidad en el sistema.

Paso 8 del administrador: crear una clase de máquina virtual personalizada con el perfil de vGPU

El siguiente paso consiste en crear una clase de máquina virtual personalizada con un perfil de vGPU. El sistema utilizará esta definición de clase cuando cree los nodos del clúster de Tanzu Kubernetes.

Siga las instrucciones siguientes para crear una clase de máquina virtual personalizada con un perfil de vGPU.
  1. Inicie sesión en vCenter Server con vSphere Client.
  2. Seleccione Administración de cargas de trabajo.
  3. Seleccione Servicios
  4. Seleccione Clases de VM.
  5. Haga clic en Crear clase de VM.
  6. En la pestaña Configuración, configure la clase de máquina virtual personalizada.
    Campo de configuración Descripción
    Nombre Introduzca un nombre descriptivo para la clase de máquina virtual personalizada, como vmclass-vgpu-1.
    Recuento de vCPU 2
    Reserva de recursos de CPU Opcional, acepte para dejar en blanco
    Memoria 80 GB, por ejemplo
    Reserva de recursos de memoria 100 % (obligatorio cuando se configuran dispositivos PCI en una clase de máquina virtual)
    Dispositivos PCI
    Nota: Al seleccionar Sí para Dispositivos PCI, se indica al sistema que se utiliza un dispositivo GPU y se cambia la configuración de la clase de máquina virtual para admitir la configuración de vGPU.

    Por ejemplo:

    ""

  7. Haga clic en Siguiente.
  8. En la pestaña Dispositivos PCI, seleccione la opción Agregar dispositivo PCI > vGPU de NVIDIA.
  9. Configure el modelo NVIDIA vGPU.
    Campo NVIDIA vGPU Descripción
    Modelo Seleccione el modelo del dispositivo de hardware GPU NVIDIA de los disponibles en el menú vGPU de NVIDIA > Modelo. Si el sistema no muestra ningún perfil, ninguno de los hosts del clúster tiene dispositivos PCI compatibles.
    Uso compartido de GPU

    Este ajuste define cómo se comparte el dispositivo GPU entre máquinas virtuales habilitadas para GPU. Existen dos tipos de implementaciones de vGPU: Uso compartido de tiempo y Uso compartido de GPU de varias instancias.

    En el modo de Uso compartido de tiempo, el programador de vGPU indica a la GPU que realice el trabajo para cada máquina virtual habilitada para vGPU en serie durante un período de tiempo con el mejor objetivo de esfuerzo de equilibrar el rendimiento entre las vGPU.

    El modo MIG permite que varias máquinas virtuales habilitadas para vGPU se ejecuten en paralelo en un solo dispositivo GPU. El modo MIG se basa en una arquitectura de GPU más reciente y solo se admite en dispositivos NVIDIA A100 y A30. Si no ve la opción MIG, el dispositivo PCI que seleccionó no lo admite.

    Modo GPU Cálculo
    Memoria de GPU 8 GB, por ejemplo
    Número de vGPU 1, por ejemplo

    Por ejemplo, este es un perfil de NVIDIA vGPU configurado en el modo Uso compartido de tiempo:

    La pestaña Dispositivos PCI con el perfil NVIDIA vGPU que configuró en el modo Uso compartido de tiempo.

    Por ejemplo, aquí se muestra un perfil de NVIDIA vGPU configurado en el modo MIG con un dispositivo GPU compatible:

    La pestaña Dispositivos PCI con el perfil NVIDIA vGPU que configuró en el modo Uso compartido de GPU de varias instancias.

  10. Haga clic en Siguiente.
  11. Revise y confirme las selecciones que hizo.
  12. Haga clic en Finalizar.
  13. Compruebe que la nueva clase de máquina virtual personalizada esté disponible en la lista de clases de máquinas virtuales.

vGPU con Instancia dinámica de DirectPath I/O

Si utiliza vGPU con Instancia dinámica de DirectPath I/O, complete la siguiente configuración adicional. Agregue una segunda configuración de dispositivo PCI a la clase de máquina virtual personalizada que creó con Instancia dinámica de DirectPath I/O especificada y el dispositivo PCI compatible seleccionado. Cuando se crea una instancia de una clase de máquina virtual de este tipo, vSphere Distributed Resource Scheduler (DRS) determina la colocación de la máquina virtual.
  1. Seleccione Administración de cargas de trabajo.
  2. Seleccione Servicios
  3. Seleccione Clases de VM.
  4. Edite la clase de máquina virtual personalizada que ya está configurada con el perfil de NVIDIA vGPU.
  5. Seleccione la pestaña Dispositivos PCI.
  6. Haga clic en Agregar dispositivo PCI.
  7. Seleccione la opción Instancia dinámica de DirectPath I/O.

    ""

  8. Seleccione el Dispositivo PCI.

    Por ejemplo:

    ""
  9. Haga clic en Siguiente.
  10. Revise y confirme las selecciones que hizo.
  11. Haga clic en Finalizar.
  12. Compruebe que la nueva clase de máquina virtual personalizada esté disponible en la lista de clases de máquinas virtuales.

Paso 9 del administrador: crear y configurar un espacio de nombres de vSphere

Cree un espacio de nombres de vSphere para cada clúster de TKG vGPU que tenga previsto aprovisionar. Para configurar el espacio de nombres de vSphere, agregue usuarios o grupos de SSO de vSphere con permisos de edición y asocie una directiva de almacenamiento para volúmenes persistentes. Asocie la biblioteca de contenido de TKR y la clase de máquina virtual personalizada con el espacio de nombres de vSphere. Consulte Configurar los espacios de nombres de vSphere para clústeres de TKG 2 en Supervisor.

Paso 10 del administrador: comprobar que se pueda acceder al clúster supervisor

La última tarea de administración consiste en comprobar que el Supervisor esté aprovisionado y disponible para que lo pueda utilizar el operador del clúster a fin de aprovisionar un clúster TKG para cargas de trabajo de AI/ML.

Consulte Conectarse a clústeres de TKG en Supervisor mediante la autenticación de vCenter SSO.