Les ingénieurs et les développeurs DevOps peuvent utiliser VMware Aria Automation pour provisionner des clusters TKG accélérés par GPU pour héberger des charges de travail d'IA de conteneur sur l'instance de superviseur dans un domaine de charge de travail VI.
Le workflow de déploiement d'un cluster TKG accéléré par GPU comporte deux parties :
- En tant qu'administrateur de cloud, ajoutez des éléments de catalogue en libre-service à Automation Service Broker pour Private AI dans un nouvel espace de noms sur le superviseur.
- En tant que scientifique des données ou ingénieur DevOps, utilisez un élément de catalogue de cluster Kubernetes d'IA pour déployer un cluster TKG accéléré par GPU sur un nouvel espace de noms du superviseur.
Créer des éléments de catalogue en libre-service d'IA dans VMware Aria Automation
En tant qu'administrateur de cloud, vous pouvez utiliser l'assistant de configuration de catalogue pour Private AI dans VMware Aria Automation afin d'ajouter rapidement des éléments de catalogue pour le déploiement de machines virtuelles à apprentissage profond ou de clusters TKG accélérés par GPU dans un domaine de charge de travail VI.
Les scientifiques de données peuvent utiliser des éléments de catalogue d'apprentissage profond pour le déploiement de VM à apprentissage profond. Les ingénieurs DevOps peuvent utiliser les éléments du catalogue pour le provisionnement de clusters TKG prêts pour l'IA. Lorsque vous l'exécutez, l'assistant de configuration de catalogue pour Private AI ajoute deux éléments de catalogue au catalogue Service Broker : un pour une machine virtuelle à apprentissage profond et un autre pour un cluster TKG.
Lorsque vous l'exécutez, l'assistant de configuration de catalogue pour Private AI ajoute deux éléments de catalogue au catalogue Service Broker : un pour une machine virtuelle à apprentissage profond et un autre pour un cluster TKG. Vous pouvez exécuter l'assistant dans les cas suivants :
- Activation du provisionnement de charges de travail d'IA sur un autre superviseur.
- Intégration d'une modification de votre licence NVIDIA AI Enterprise, y compris le fichier .tok de la configuration client et le dispositif License Server, ou l'URL de téléchargement des pilotes invités vGPU pour un environnement déconnecté.
- Intégration d'une modification d'image de VM à apprentissage profond.
- Utilisation d'autres classes de VM vGPU ou sans GPU, d'une stratégie de stockage ou d'un registre de conteneur.
- Création d'éléments de catalogue dans un nouveau projet.
Conditions préalables
- Vérifiez que VMware Private AI Foundation with NVIDIA est disponible pour le domaine de charge de travail VI.
- Vérifiez que les conditions préalables pour le déploiement de VM à apprentissage profond sont en place.
- Créer une bibliothèque de contenu avec des images de VM à apprentissage profond pour VMware Private AI Foundation with NVIDIA.
Procédure
Provisionner un cluster TKG accéléré par GPU à l'aide d'un catalogue en libre-service dans VMware Aria Automation
Dans VMware Private AI Foundation with NVIDIA, en tant qu'ingénieur DevOps, vous pouvez provisionner un cluster TKG accéléré avec des GPU NVIDIA à partir de VMware Aria Automation à l'aide d'éléments de catalogue en libre-service du cluster Kubernetes d'IA dans Automation Service Broker. Ensuite, vous pouvez déployer des images de conteneur d'IA à partir de NVIDIA NGC sur le cluster.
Procédure
Que faire ensuite
- Pour plus d'informations sur l'accès au cluster TKG à l'aide de kubectl, accédez à dans Automation Service Broker.
- Déployez une image de conteneur d'IA à partir du catalogue NVIDIA NGC.
Dans un environnement déconnecté, vous devez charger les images de conteneur d'IA dans un registre de conteneur privé. Reportez-vous à la section Configuration d'un registre Harbor privé dans VMware Private AI Foundation with NVIDIA.