Déploiement de machines virtuelles Deep Learning

En tant qu'expert en science des données, vous pouvez utiliser Automation Service Broker pour déployer des machines virtuelles Deep Learning pour le développement d'IA.

Note : Cette documentation est basée sur VMware Aria Automation 8.18. Pour plus d'informations sur la fonctionnalité VMware Private AI Foundation dans VMware Aria Automation 8.18.1, reportez-vous à la section Déployer des machines virtuelles Deep Learning en utilisant les éléments de catalogue en libre-service dans VMware Aria Automation dans la documentation de VMware Private AI Foundation avec NVIDIA.

Lorsque vous demandez une instance d'AI Workstation (VM) dans le catalogue de Automation Service Broker, provisionnez une VM Deep Learning prenant en charge les GPU, qui peut être configurée avec les conteneurs vCPU, vGPU, Mémoire et AI/ML souhaités à partir de NVIDIA.

Déployer une machine virtuelle Deep Learning sur un domaine de charge de travail VI

En tant qu'expert en science des données, vous pouvez déployer un environnement de développement défini par logiciel de GPU unique à partir du catalogue Automation Service Broker en libre-service.

Vous pouvez personnaliser la machine virtuelle prenant en charge les GPU grâce aux paramètres de machine afin de modéliser les exigences de développement, préinstaller les structures AI/ML telles que PyTorch, TensorFlow et CUDA pour répondre aux exigences de formation et d'inférence, et spécifier les modules AI/ML à partir du registre NVIDIA NGC via une clé d'accès au portail.

Procédure

Sur la page Catalogue de Automation Service Broker, recherchez la carte AI Workstation et cliquez sur Demande.
Sélectionnez un projet.
Entrez un nom et une description pour votre déploiement.

Configurez les paramètres du poste de travail AI.

Paramètre	Exemple de valeur
Classe de VM	`A100 Small - 1 vGPU (16 GB), 8 CPUs and 16 GB Memory`
Taille du disque de données	`32 GB`
Mot de passe utilisateur	Entrez un mot de passe pour l'utilisateur par défaut. Vous pouvez être invité à réinitialiser votre mot de passe lors de la première connexion.
Clé publique SSH	Ce paramètre est facultatif.

Sélectionnez un bundle de logiciels à installer sur votre poste de travail.

Paramètre	Description
PyTorch	Le conteneur NGC PyTorch est optimisé pour l'accélération GPU et contient un ensemble validé de bibliothèques qui activent et optimisent les performances des GPU. Ce conteneur contient également des logiciels pour l'accélération des charges de travail ETL (DALI, RAPIDS), de formation (cuDNN, NCCL) et d'inférence (TensorRT).
TensorFlow	Le conteneur NGC TensorFlow est optimisé pour l'accélération GPU et contient un ensemble validé de bibliothèques qui activent et optimisent les performances des GPU. Ce conteneur peut également contenir des modifications du code source TensorFlow afin d'optimiser les performances et la compatibilité. Ce conteneur contient également des logiciels pour l'accélération des charges de travail ETL (DALI, RAPIDS), de formation (cuDNN, NCCL) et d'inférence (TensorRT).
Exemples CUDA	Il s'agit d'un ensemble de conteneurs pour exécuter des charges de travail CUDA sur les GPU. La collection inclut des exemples CUDA conteneurisés : vectorAdd (pour démontrer l'ajout de vecteurs), nbody (ou simulation gravitationnelle n-body) et d'autres exemples. Ces conteneurs peuvent être utilisés pour valider la configuration logicielle des GPU dans le système ou simplement pour exécuter des exemples de charges de travail.

(Facultatif) Entrez une instance personnalisée de cloud-init que vous souhaitez installer en plus du cloud-init défini pour le bundle de logiciels.
VMware Aria Automation fusionne le cloud-init du bundle de logiciels et le cloud-init personnalisé.
Cliquez sur Envoyer.

Résultats

L'onglet Présentation du déploiement contient un résumé du logiciel qui a été installé, ainsi que des instructions sur l'accès à l'application, aux services et à la machine virtuelle de poste de travail.

Ajouter l'exportateur DCGM pour la surveillance de la charge de travail DL

Vous pouvez l'exportateur DCGM pour surveiller une charge de travail Deep Learning qui utilise la capacité de GPU.

DCGM-Exporter est un outil d'exportation pour Prometheus qui surveille la santé de l'entreprise et permet d'obtenir les mesures des GPU. Il exploite DCGM à l'aide de liaisons Go pour collecter la télémétrie GPU et expose les mesures GPU à Prometheus à l'aide d'un point de terminaison HTTP (/metrics). DCGM-Exporter peut être autonome ou déployé dans le cadre de l'opérateur NVIDIA GPU.

Avant de commencer

Vérifiez que vous avez déployé correctement une machine virtuelle Deep Learning.

Procédure

Connectez-vous à la machine virtuelle Deep Learning sur SSH.
Pour PyTorch et TensorFlow, connectez-vous à partir du bloc-notes JupyterLab.

Exécutez le conteneur Exportateur DCGM à l'aide de la commande suivante.

docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag

Par exemple, pour exécuter dcgm-exporter :3.2.5-3.1.8-ubuntu22.04 à partir du catalogue NVIDIA NGC, exécutez la commande suivante :

docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04

Une fois l'installation de DCGM Exporter terminée, visualisez les mesures vGPU dans Prometheus et Grafana.

Déployer une station de travail prenant en charge les GPU avec NVIDIA Triton Inference Server

En tant qu'expert en science des données, vous pouvez déployer une station de travail prenant en charge les GPU avec NVIDIA Triton Inference Server à partir du catalogue Automation Service Broker en libre-service.

NVIDIA Triton Inference Server fournit une solution d'inférence cloud et Edge optimisée pour les CPU et les GPU. Triton Inference Server prend en charge un protocole HTTP/REST et GRPC qui permet aux clients distants de demander l'inférence pour diverses infrastructures d'apprentissage automatique, notamment TensorFlow, PyTorch, etc. Pour les déploiements Edge, Triton Inference Server est disponible en tant que bibliothèque partagée avec une API C qui permet d'inclure toutes les fonctionnalités de Triton directement dans une application.

La station de travail déployée inclut Ubuntu 22.04, un pilote vGPU NVIDIA, le moteur Docker, NVIDIA Container Toolkit et NVIDIA Triton Inference Server.

Procédure

Sur la page Catalogue de Automation Service Broker, recherchez la carte Triton Inference Server et cliquez sur Demande.
Sélectionnez un projet.
Entrez un nom et une description pour votre déploiement.

Configurez les paramètres du poste de travail AI.

Paramètre	Exemple de valeur
Classe de VM	`A100 Small - 1 vGPU (16 GB), 8 CPUs and 16 GB Memory` Des classes de machine virtuelle avec prise en charge de la mémoire virtuelle unifiée (UVM) sont requises pour exécuter Triton Inference Server.
Taille du disque de données	`32 GB`
Mot de passe utilisateur	Saisissez un mot de passe pour l'utilisateur par défaut. Vous pouvez être invité à réinitialiser votre mot de passe lors de la première connexion.
Clé publique SSH	Ce paramètre est facultatif.

(Facultatif) Entrez une instance personnalisée de cloud-init que vous souhaitez installer en plus du cloud-init défini pour le bundle de logiciels.
VMware Aria Automation fusionne le cloud-init du bundle de logiciels et le cloud-init personnalisé.
Cliquez sur Envoyer.