En tant qu'expert en science des données, vous pouvez utiliser Automation Service Broker pour déployer des machines virtuelles Deep Learning pour le développement d'IA.
Lorsque vous demandez une instance d'AI Workstation (VM) dans le catalogue de Automation Service Broker, provisionnez une VM Deep Learning prenant en charge les GPU, qui peut être configurée avec les conteneurs vCPU, vGPU, Mémoire et AI/ML souhaités à partir de NVIDIA.
Déployer une machine virtuelle Deep Learning sur un domaine de charge de travail VI
En tant qu'expert en science des données, vous pouvez déployer un environnement de développement défini par logiciel de GPU unique à partir du catalogue Automation Service Broker en libre-service.
Procédure
Résultats
Ajouter l'exportateur DCGM pour la surveillance de la charge de travail DL
Vous pouvez l'exportateur DCGM pour surveiller une charge de travail Deep Learning qui utilise la capacité de GPU.
DCGM-Exporter est un outil d'exportation pour Prometheus qui surveille la santé de l'entreprise et permet d'obtenir les mesures des GPU. Il exploite DCGM à l'aide de liaisons Go pour collecter la télémétrie GPU et expose les mesures GPU à Prometheus à l'aide d'un point de terminaison HTTP (/metrics). DCGM-Exporter peut être autonome ou déployé dans le cadre de l'opérateur NVIDIA GPU.
Avant de commencer
Vérifiez que vous avez déployé correctement une machine virtuelle Deep Learning.
Procédure
- Connectez-vous à la machine virtuelle Deep Learning sur SSH.
Pour PyTorch et TensorFlow, connectez-vous à partir du bloc-notes JupyterLab.
- Exécutez le conteneur Exportateur DCGM à l'aide de la commande suivante.
docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
Par exemple, pour exécuter dcgm-exporter :3.2.5-3.1.8-ubuntu22.04 à partir du catalogue NVIDIA NGC, exécutez la commande suivante :docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
- Une fois l'installation de DCGM Exporter terminée, visualisez les mesures vGPU dans Prometheus et Grafana.
Déployer une station de travail prenant en charge les GPU avec NVIDIA Triton Inference Server
En tant qu'expert en science des données, vous pouvez déployer une station de travail prenant en charge les GPU avec NVIDIA Triton Inference Server à partir du catalogue Automation Service Broker en libre-service.
La station de travail déployée inclut Ubuntu 22.04, un pilote vGPU NVIDIA, le moteur Docker, NVIDIA Container Toolkit et NVIDIA Triton Inference Server.