En tant qu'ingénieur DevOps, vous pouvez provisionner un cluster Tanzu Kubernetes Grid accéléré avec des GPU NVIDIA à l'aide de l'élément de catalogue Cluster Kubernbetes d'IA dans le catalogue Automation Service Broker en libre-service. Ensuite, vous pouvez déployer des images de conteneur d'IA à partir de NVIDIA NGC sur le cluster.
Le cluster TKG contient un opérateur GPU NVIDIA, qui est un opérateur Kubernetes responsable de la configuration du pilote NVIDIA approprié pour le matériel GPU NVIDIA sur les nœuds de cluster TKG. Le cluster déployé est prêt à être utilisé pour les charges de travail AI/ML sans nécessiter de configuration supplémentaire liée au GPU.
Le déploiement contient un espace de noms de superviseur, un cluster TKG avec trois nœuds de travail, plusieurs ressources à l'intérieur du cluster TKG et une application Carvel qui déploie l'application GPU Operator.
Pour un cluster Tanzu Kubernetes Grid basé sur RAG, utilisez l'élément de catalogue Cluster Kubernetes RAG d'IA. Reportez-vous à la section Déployer une charge de travail RAG sur un cluster TKG à l'aide d'un élément de catalogue en libre-service dans VMware Aria Automation.
Conditions préalables
- Vérifiez que votre administrateur de cloud a configuré Private AI Automation Services pour votre projet.
- Vérifiez que vous êtes autorisé à demander des éléments de catalogue d'IA.
Procédure
- Sur la page Catalogue dans Automation Service Broker, recherchez la carte Cluster Kubernetes d'IA et cliquez sur Demander.
- Sélectionnez un projet.
- Entrez un nom et une description pour le déploiement.
- Sélectionnez le nombre de nœuds du panneau de contrôle.
Paramètre Exemple de valeur Nombre de nœuds 1 Classe de VM best-effort-4xlarge - 16 CPU et 128 Go de mémoire La sélection de la classe définit les ressources disponibles dans la machine virtuelle.
- Sélectionnez le nombre de nœuds de travail.
Paramètre Description Nombre de nœuds 3 Classe de VM best-effort-4xlarge-a100-40c - 1 vGPU (40 Go), 16 CPU et 120 Go de mémoire Réplicas de découpage temporel 1 Le découpage temporel définit un ensemble de réplicas pour un GPU partagé entre les charges de travail.
- Fournissez la clé API NVIDIA AI Enterprise.
- Cliquez sur Envoyer.
Que faire ensuite
Exécutez une image de conteneur d'IA. Dans un environnement connecté, utilisez le catalogue NVIDIA NGC. Dans un environnement déconnecté, utilisez le registre Harbor sur le superviseur.