Provisioning di un cluster TKG con accelerazione GPU tramite il comando kubectl in un ambiente di VMware Private AI Foundation with NVIDIA disconnesso

In VMware Private AI Foundation with NVIDIA in qualità di tecnico DevOps, utilizzando l'API Kubernetes, eseguire il provisioning di un cluster TKG che utilizza GPU NVIDIA. In un ambiente disconnesso, è necessario configurare anche un repository di pacchetti Ubuntu locale e utilizzare il registro Harbor per il supervisore.

Prerequisiti

Verificare con l'amministratore del cloud che siano soddisfatti i prerequisiti seguenti per l'infrastruttura pronta per AI.

VMware Private AI Foundation with NVIDIA è configurato per un ambiente disconnesso. Vedere Preparazione di VMware Cloud Foundation per la distribuzione del carico di lavoro di Private AI.
Una macchina che ha accesso all'endpoint supervisore e al repository Helm locale che ospita le definizioni del grafico di NVIDIA GPU Operator.

Procedura

Eseguire il provisioning di un cluster TKG nello spazio dei nomi vSphere configurato dall'amministratore del cloud.
Vedere Provisioning di un cluster TKGS per NVIDIA vGPU.

Installare NVIDIA GPU Operator.

helm install --wait gpu-operator ./gpu-operator-4-1 -n gpu-operator

Monitorare l'operazione.
```
watch kubectl get pods -n gpu-operator
```

Passaggi successivi

Distribuire un'immagine del container AI dal registro Harbor al supervisore.