In VMware Private AI Foundation with NVIDIA in qualità di tecnico DevOps, utilizzando l'API Kubernetes, eseguire il provisioning di un cluster TKG che utilizza GPU NVIDIA. In un ambiente disconnesso, è necessario configurare anche un repository di pacchetti Ubuntu locale e utilizzare il registro Harbor per il supervisore.
Prerequisiti
Verificare con l'amministratore del cloud che siano soddisfatti i prerequisiti seguenti per l'infrastruttura pronta per AI.
- VMware Private AI Foundation with NVIDIA è configurato per un ambiente disconnesso. Vedere Preparazione di VMware Cloud Foundation per la distribuzione del carico di lavoro di Private AI.
- Una macchina che ha accesso all'endpoint supervisore e al repository Helm locale che ospita le definizioni del grafico di NVIDIA GPU Operator.
Procedura
- Eseguire il provisioning di un cluster TKG nello spazio dei nomi vSphere configurato dall'amministratore del cloud.
- Installare NVIDIA GPU Operator.
helm install --wait gpu-operator ./gpu-operator-4-1 -n gpu-operator
- Monitorare l'operazione.
watch kubectl get pods -n gpu-operator
Passaggi successivi
Distribuire un'immagine del container AI dal registro Harbor al supervisore.