Provisionner un cluster TKG accéléré par GPU à l'aide de la commande kubectl dans un environnement VMware Private AI Foundation with NVIDIA déconnecté

Dans VMware Private AI Foundation with NVIDIA, en tant qu'ingénieur DevOps, provisionnez un cluster TKG qui utilise des GPU NVIDIA à l'aide de l'API Kubernetes. Dans un environnement déconnecté, vous devez également configurer un référentiel de modules Ubuntu local et utiliser le registre Harbor pour le superviseur.

Conditions préalables

Vérifiez auprès de l'administrateur de cloud que les conditions préalables suivantes sont en place pour l'infrastructure prête pour l'IA.

VMware Private AI Foundation with NVIDIA est configuré pour un environnement déconnecté. Reportez-vous à la section Préparation de VMware Cloud Foundation pour le déploiement de charges de travail Private AI.
Machine ayant accès au point de terminaison du superviseur et au référentiel Helm local hébergeant le dispositif pour les définitions de graphique de l'opérateur NVIDIA GPU.

Procédure

Provisionnez un cluster TKG sur l'espace de noms vSphere configuré par l'administrateur de cloud.
Reportez-vous à la section Provisionner un cluster TKGS pour NVIDIA vGPU.

Installez l'opérateur NVIDIA GPU.

helm install --wait gpu-operator ./gpu-operator-4-1 -n gpu-operator

Surveillez l'opération.
```
watch kubectl get pods -n gpu-operator
```

Étapes suivantes

Déployez une image de conteneur d'IA à partir du registre Harbor vers le superviseur.