Bereitstellen eines GPU-beschleunigten TKG-Clusters mithilfe des kubectl-Befehls in einer getrennten VMware Private AI Foundation with NVIDIA-Umgebung

In VMware Private AI Foundation with NVIDIA stellen Sie als DevOps-Ingenieur mithilfe der Kubernetes-API einen TKG-Cluster bereit, der NVIDIA-GPUs verwendet. In einer nicht verbundenen Umgebung müssen Sie zusätzlich ein lokales Ubuntu-Paket-Repository einrichten und die Harbor-Registrierung für den Supervisor verwenden.

Voraussetzungen

Stellen Sie mit dem Cloud-Administrator sicher, dass die folgenden Voraussetzungen für die KI-fähige Infrastruktur erfüllt sind.

VMware Private AI Foundation with NVIDIA ist für eine getrennte Umgebung konfiguriert. Weitere Informationen finden Sie unter Vorbereiten von VMware Cloud Foundation für die Bereitstellung von Private AI-Arbeitslasten.
Eine Maschine mit Zugriff auf den Supervisor-Endpoint und auf das lokale Helm-Repository, auf denen die Diagrammdefinitionen des NVIDIA GPU-Operators gehostet werden.

Prozedur

Stellen Sie einen TKG-Cluster auf dem vom Cloud-Administrator konfigurierten vSphere-Namespace bereit.
Weitere Informationen finden Sie unter Bereitstellen eines TKGS-Clusters für NVIDIA vGPU.

Installieren Sie den NVIDIA GPU-Operator.

helm install --wait gpu-operator ./gpu-operator-4-1 -n gpu-operator

Überwachen Sie den Vorgang.
```
watch kubectl get pods -n gpu-operator
```

Nächste Schritte

Stellen Sie dem Supervisor ein KI-Container-Image aus der Harbor-Registrierung bereit.