Dans VMware Private AI Foundation with NVIDIA, en tant qu'ingénieur DevOps, provisionnez un cluster TKG qui utilise des GPU NVIDIA à l'aide de l'API Kubernetes. Dans un environnement déconnecté, vous devez également configurer un référentiel de modules Ubuntu local et utiliser le registre Harbor pour le superviseur.
Conditions préalables
Vérifiez auprès de l'administrateur de cloud que les conditions préalables suivantes sont en place pour l'infrastructure prête pour l'IA.
- VMware Private AI Foundation with NVIDIA est configuré pour un environnement déconnecté. Reportez-vous à la section Préparation de VMware Cloud Foundation pour le déploiement de charges de travail Private AI.
- Machine ayant accès au point de terminaison du superviseur et au référentiel Helm local hébergeant le dispositif pour les définitions de graphique de l'opérateur NVIDIA GPU.
Procédure
- Provisionnez un cluster TKG sur l'espace de noms vSphere configuré par l'administrateur de cloud.
Reportez-vous à la section Provisionner un cluster TKGS pour NVIDIA vGPU.
- Installez l'opérateur NVIDIA GPU.
helm install --wait gpu-operator ./gpu-operator-4-1 -n gpu-operator
- Surveillez l'opération.
watch kubectl get pods -n gpu-operator
Étapes suivantes
Déployez une image de conteneur d'IA à partir du registre Harbor vers le superviseur.