Como especialista en datos, puede utilizar Automation Service Broker para implementar máquinas virtuales de aprendizaje profundo para el desarrollo de IA.

Nota: Esta documentación se basa en VMware Aria Automation 8.18. Para obtener información sobre la funcionalidad de VMware Private AI Foundation en VMware Aria Automation 8.18.1, consulte Implementar máquinas virtuales de aprendizaje profundo mediante elementos del catálogo de autoservicio en VMware Aria Automation en la documentación de VMware Private AI Foundation con NVIDIA.

Cuando se solicita una estación de trabajo de IA (VM) en el catálogo de Automation Service Broker, se aprovisiona una máquina virtual de aprendizaje profundo habilitada para GPU que se puede configurar con los contenedores vCPU, vGPU, Memoria y AI/ML NGC que se quiera desde NVIDIA.

Implementar una máquina virtual de aprendizaje profundo en un dominio de carga de trabajo de VI

Como especialista en datos, puede implementar un entorno de desarrollo definido por software con una GPU desde el catálogo de Automation Service Broker de autoservicio.

Puede personalizar la máquina virtual habilitada para GPU con parámetros de máquina para modelar los requisitos de desarrollo, preinstalar marcos de AI/ML como PyTorch, TensorFlow, y CUDA, para cumplir con los requisitos de formación e inferencia, y especificar los paquetes de AI/ML del registro de NVIDIA NGC mediante una clave de acceso al portal.

Procedimiento

  1. En la página Catálogo de Automation Service Broker, busque la tarjeta AI Workstation y haga clic en Solicitar.
  2. Seleccione un proyecto.
  3. Introduzca un nombre y una descripción para la implementación.
  4. Configure los parámetros de la Estación de trabajo AI.
    Ajuste Valor de ejemplo
    Clase de VM A100 pequeña: 1 vGPU (16 GB), 8 CPU y 16 GB de memoria
    Tamaño de disco de datos 32 GB
    Contraseña de usuario Introduzca una contraseña para el usuario predeterminado. Es posible que se le solicite que restablezca la contraseña cuando inicie sesión por primera vez.
    Clave pública SSH Este ajuste es opcional.
  5. Seleccione un paquete de software para instalarlo en su estación de trabajo.
    Ajuste Descripción
    PyTorch El contenedor de NGC PyTorch está optimizado para aceleración de GPU y contiene un conjunto validado de bibliotecas que habilitan y optimizan el rendimiento de GPU. Este contenedor también contiene software para acelerar cargas de trabajo de ETL (DALI, RAPIDS), formación (cuDNN, NCCL) e inferencia (TensorRT).
    TensorFlow El contenedor de NGC TensorFlow está optimizado para aceleración de GPU y contiene un conjunto validado de bibliotecas que habilitan y optimizan el rendimiento de GPU. Este contenedor también puede contener modificaciones en el código fuente de TensorFlow para maximizar el rendimiento y la compatibilidad. Este contenedor también contiene software para acelerar cargas de trabajo de ETL (DALI, RAPIDS), formación (cuDNN, NCCL) e inferencia (TensorRT).
    Muestras de CUDA Esta es una recopilación de contenedores para ejecutar cargas de trabajo de CUDA en las GPU. La colección incluye muestras de CUDA se encuentran en contenedores, como por ejemplo, vectorAdd (para demostrar la adición de vectores), nbody (o simulación de n-cuerpos gravitacionales) y otros ejemplos. Estos contenedores se pueden utilizar para validar la configuración de software de las GPU en el sistema o simplemente para ejecutar algunas cargas de trabajo de ejemplo.
  6. (opcional) Introduzca un cloud-init personalizado que desee instalar además del cloud-init definido para el paquete de software.
    VMware Aria Automation combina el cloud-init del paquete de software con el cloud-init personalizado.
  7. Haga clic en Enviar.

Resultados

La pestaña Descripción general de la implementación contiene un resumen del software que se instaló, junto con instrucciones sobre cómo acceder a la aplicación, los servicios y la máquina virtual de estación de trabajo.

Agregar exportador de DCGM para supervisión de carga de trabajo de lista de distribución

Puede utilizar DCGM Exporter para supervisar una carga de trabajo de aprendizaje profundo que utiliza capacidad de GPU.

DCGM-Exporter es un exportador para Prometheus que supervisa el estado de la empresa y obtiene métricas de las GPU. Aprovecha DCGM mediante enlaces de Go para recopilar telemetría de GPU y expone métricas de GPU a Prometheus mediante un endpoint HTTP (/metrics). DCGM-Exporter puede ser independiente o implementarse como parte del operador de GPU NVIDIA.

Antes de comenzar

Compruebe que haya implementado correctamente una máquina virtual de aprendizaje profundo.

Procedimiento

  1. Inicie sesión en la máquina virtual de aprendizaje profundo a través de SSH.

    Para PyTorch y TensorFlow, inicie sesión desde el bloc de notas de JupyterLab.

  2. Ejecute el contenedor DCGM Exporter mediante el siguiente comando.
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
    Por ejemplo, para ejecutar dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 desde el catálogo de NVIDIA NGC, ejecute el siguiente comando:
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
  3. Una vez completada la instalación de DCGM Exporter, podrá visualizar métricas de vGPU en Prometheus y Grafana.
    1. Instalar Prometheus y Grafana.
    2. Ver métricas de vGPU en Prometheus.
    3. Ver métricas en Grafana.

Implementar una estación de trabajo habilitada para GPU con un servidor de inferencias Triton de NVIDIA

Como especialista en datos, puede implementar una estación de trabajo habilitada para GPU con un servidor de inferencias Triton de NVIDIA desde el catálogo de Automation Service Broker de autoservicio.

El servidor de inferencias Triton de NVIDIA es una solución que permite realizar inferencias, ya sea en entornos en la nube o en dispositivos Edge, optimizada para las CPU y las GPU. El servidor de inferencias Triton admite un protocolo HTTP/REST y GRPC que permite a los clientes remotos solicitar inferencias para diversos marcos de aprendizaje automático, incluidos TensorFlow, PyTorch, entre otros. Para las implementaciones en Edge, el servidor de inferencias Triton está disponible como una biblioteca compartida con una API de C que permite que la funcionalidad completa de Triton se incluya directamente en una aplicación.

La estación de trabajo implementada incluye Ubuntu 22.04, un controlador de vGPU de NVIDIA, motor de Docker, Container Toolkit de NVIDIA y Servidor de inferencias Triton de NVIDIA.

Procedimiento

  1. En la página Catálogo de Automation Service Broker, busque la tarjeta Servidor de inferencias Triton y haga clic en Solicitar.
  2. Seleccione un proyecto.
  3. Introduzca un nombre y una descripción para la implementación.
  4. Configure los parámetros de la Estación de trabajo AI.
    Ajuste Valor de ejemplo
    Clase de VM A100 pequeña: 1 vGPU (16 GB), 8 CPU y 16 GB de memoria

    Se requieren clases de máquinas virtuales compatibles con la memoria virtual unificada (Unified Virtual Memory, UVM) para ejecutar el Servidor de inferencias Triton

    Tamaño de disco de datos 32 GB
    Contraseña de usuario Introduzca una contraseña para el usuario obsoleto. Es posible que se le solicite que restablezca la contraseña cuando inicie sesión por primera vez.
    Clave pública SSH Este ajuste es opcional.
  5. (opcional) Introduzca un cloud-init personalizado que desee instalar además del cloud-init definido para el paquete de software.
    VMware Aria Automation combina el cloud-init del paquete de software con el cloud-init personalizado.
  6. Haga clic en Enviar.