Provisionner un cluster TKG accéléré par GPU à l'aide d'un catalogue en libre-service dans VMware Private AI Foundation with NVIDIA

Les ingénieurs et les développeurs DevOps peuvent utiliser VMware Aria Automation pour provisionner des clusters TKG accélérés par GPU pour héberger des charges de travail d'IA de conteneur sur l'instance de superviseur dans un domaine de charge de travail VI.

Le workflow de déploiement d'un cluster TKG accéléré par GPU comporte deux parties :

En tant qu'administrateur de cloud, ajoutez des éléments de catalogue en libre-service à Automation Service Broker pour Private AI dans un nouvel espace de noms sur le superviseur.
En tant que scientifique des données ou ingénieur DevOps, utilisez un élément de catalogue de cluster Kubernetes d'IA pour déployer un cluster TKG accéléré par GPU sur un nouvel espace de noms du superviseur.

Créer des éléments de catalogue en libre-service d'IA dans VMware Aria Automation

En tant qu'administrateur de cloud, vous pouvez utiliser l'assistant de configuration de catalogue pour Private AI dans VMware Aria Automation afin d'ajouter rapidement des éléments de catalogue pour le déploiement de machines virtuelles à apprentissage profond ou de clusters TKG accélérés par GPU dans un domaine de charge de travail VI.

Les scientifiques de données peuvent utiliser des éléments de catalogue d'apprentissage profond pour le déploiement de VM à apprentissage profond. Les ingénieurs DevOps peuvent utiliser les éléments du catalogue pour le provisionnement de clusters TKG prêts pour l'IA. Lorsque vous l'exécutez, l'assistant de configuration de catalogue pour Private AI ajoute deux éléments de catalogue au catalogue Service Broker : un pour une machine virtuelle à apprentissage profond et un autre pour un cluster TKG.

Lorsque vous l'exécutez, l'assistant de configuration de catalogue pour Private AI ajoute deux éléments de catalogue au catalogue Service Broker : un pour une machine virtuelle à apprentissage profond et un autre pour un cluster TKG. Vous pouvez exécuter l'assistant dans les cas suivants :

Activation du provisionnement de charges de travail d'IA sur un autre superviseur.
Intégration d'une modification de votre licence NVIDIA AI Enterprise, y compris le fichier .tok de la configuration client et le dispositif License Server, ou l'URL de téléchargement des pilotes invités vGPU pour un environnement déconnecté.
Intégration d'une modification d'image de VM à apprentissage profond.
Utilisation d'autres classes de VM vGPU ou sans GPU, d'une stratégie de stockage ou d'un registre de conteneur.
Création d'éléments de catalogue dans un nouveau projet.

Conditions préalables

Vérifiez que VMware Private AI Foundation with NVIDIA est disponible pour le domaine de charge de travail VI.
Vérifiez que les conditions préalables pour le déploiement de VM à apprentissage profond sont en place.
Créer une bibliothèque de contenu avec des images de VM à apprentissage profond pour VMware Private AI Foundation with NVIDIA.

Procédure

Accédez à la page d'accueil de VMware Aria Automation et cliquez sur Démarrage rapide.
Exécutez l'assistant de configuration de catalogue Private AI Automation Services pour Private AI Automation.

Reportez-vous à Ajouter des éléments Private AI au catalogue Automation Service Broker dans la documentation du produit VMware Aria Automation.

Provisionner un cluster TKG accéléré par GPU à l'aide d'un catalogue en libre-service dans VMware Aria Automation

Dans VMware Private AI Foundation with NVIDIA, en tant qu'ingénieur DevOps, vous pouvez provisionner un cluster TKG accéléré avec des GPU NVIDIA à partir de VMware Aria Automation à l'aide d'éléments de catalogue en libre-service du cluster Kubernetes d'IA dans Automation Service Broker. Ensuite, vous pouvez déployer des images de conteneur d'IA à partir de NVIDIA NGC sur le cluster.

Note : VMware Aria Automation crée un espace de noms lorsque vous provisionnez un cluster TKG accéléré par GPU.

Procédure

Dans un environnement connecté, déployez dans Automation Service Broker un élément de catalogue du cluster Kubernetes d'IA sur l'instance de superviseur configurée par l'administrateur de cloud.
Reportez-vous à la section Déployer un cluster Tanzu Kubernetes avec IA activée.
Dans un environnement déconnecté, chargez les composants de l'opérateur NVIDIA GPU sur des emplacements internes et modifiez l'élément de catalogue du cluster Kubernetes d'IA pour l'instance de superviseur configurée par l'administrateur de cloud.
1. Fournissez un référentiel de modules Ubuntu local et chargez les images de conteneur du module opérateur NVIDIA GPU dans le registre Harbor pour le superviseur.
2. Fournissez un référentiel local de graphiques Helm avec des définitions de graphiques de l'opérateur NVIDIA GPU.
3. Mettez à jour les définitions des graphiques Helm de l'opérateur NVIDIA GPU pour utiliser le référentiel de modules Ubuntu local et le registre Harbor privé.
4. Sur la page Conception > Modèles de cloud d'Automation Assembler, modifiez directement le modèle de cloud Cluster Kubernetes d'IA ou clonez le modèle de cloud et modifiez ce dernier.
  1. Ajoutez une ConfigMap pour utiliser le référentiel Ubuntu local dans l'opérateur NVIDIA GPU.
  2. Mettez à jour l'URL du référentiel de graphiques Helm.
  3. Déployez le modèle de cloud.
5. Déployez l'élément de catalogue Cluster Kubernetes d'IA modifié ou cloné sur l'instance de superviseur.

Que faire ensuite

Pour plus d'informations sur l'accès au cluster TKG à l'aide de kubectl, accédez à Consommer > Déploiements > Déploiements dans Automation Service Broker.
Déployez une image de conteneur d'IA à partir du catalogue NVIDIA NGC.
Dans un environnement déconnecté, vous devez charger les images de conteneur d'IA dans un registre de conteneur privé. Reportez-vous à la section Configuration d'un registre Harbor privé dans VMware Private AI Foundation with NVIDIA.