Como especialista en datos, puede utilizar Automation Service Broker para implementar máquinas virtuales de aprendizaje profundo para el desarrollo de IA.
Cuando se solicita una estación de trabajo de IA (VM) en el catálogo de Automation Service Broker, se aprovisiona una máquina virtual de aprendizaje profundo habilitada para GPU que se puede configurar con los contenedores vCPU, vGPU, Memoria y AI/ML NGC que se quiera desde NVIDIA.
Implementar una máquina virtual de aprendizaje profundo en un dominio de carga de trabajo de VI
Como especialista en datos, puede implementar un entorno de desarrollo definido por software con una GPU desde el catálogo de Automation Service Broker de autoservicio.
Procedimiento
Resultados
Agregar exportador de DCGM para supervisión de carga de trabajo de lista de distribución
Puede utilizar DCGM Exporter para supervisar una carga de trabajo de aprendizaje profundo que utiliza capacidad de GPU.
DCGM-Exporter es un exportador para Prometheus que supervisa el estado de la empresa y obtiene métricas de las GPU. Aprovecha DCGM mediante enlaces de Go para recopilar telemetría de GPU y expone métricas de GPU a Prometheus mediante un endpoint HTTP (/metrics). DCGM-Exporter puede ser independiente o implementarse como parte del operador de GPU NVIDIA.
Antes de comenzar
Compruebe que haya implementado correctamente una máquina virtual de aprendizaje profundo.
Procedimiento
- Inicie sesión en la máquina virtual de aprendizaje profundo a través de SSH.
Para PyTorch y TensorFlow, inicie sesión desde el bloc de notas de JupyterLab.
- Ejecute el contenedor DCGM Exporter mediante el siguiente comando.
docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
Por ejemplo, para ejecutar dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 desde el catálogo de NVIDIA NGC, ejecute el siguiente comando:docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
- Una vez completada la instalación de DCGM Exporter, podrá visualizar métricas de vGPU en Prometheus y Grafana.
Implementar una estación de trabajo habilitada para GPU con un servidor de inferencias Triton de NVIDIA
Como especialista en datos, puede implementar una estación de trabajo habilitada para GPU con un servidor de inferencias Triton de NVIDIA desde el catálogo de Automation Service Broker de autoservicio.
La estación de trabajo implementada incluye Ubuntu 22.04, un controlador de vGPU de NVIDIA, motor de Docker, Container Toolkit de NVIDIA y Servidor de inferencias Triton de NVIDIA.