In VMware Private AI Foundation with NVIDIA stellen Sie als DevOps-Ingenieur mithilfe der Kubernetes-API einen TKG-Cluster bereit, der NVIDIA-GPUs verwendet. In einer nicht verbundenen Umgebung müssen Sie zusätzlich ein lokales Ubuntu-Paket-Repository einrichten und die Harbor-Registrierung für den Supervisor verwenden.
Voraussetzungen
Stellen Sie mit dem Cloud-Administrator sicher, dass die folgenden Voraussetzungen für die KI-fähige Infrastruktur erfüllt sind.
- VMware Private AI Foundation with NVIDIA ist für eine getrennte Umgebung konfiguriert. Weitere Informationen finden Sie unter Vorbereiten von VMware Cloud Foundation für die Bereitstellung von Private AI-Arbeitslasten.
- Eine Maschine mit Zugriff auf den Supervisor-Endpoint und auf das lokale Helm-Repository, auf denen die Diagrammdefinitionen des NVIDIA GPU-Operators gehostet werden.
Prozedur
- Stellen Sie einen TKG-Cluster auf dem vom Cloud-Administrator konfigurierten vSphere-Namespace bereit.
Weitere Informationen finden Sie unter Bereitstellen eines TKGS-Clusters für NVIDIA vGPU.
- Installieren Sie den NVIDIA GPU-Operator.
helm install --wait gpu-operator ./gpu-operator-4-1 -n gpu-operator
- Überwachen Sie den Vorgang.
watch kubectl get pods -n gpu-operator
Nächste Schritte
Stellen Sie dem Supervisor ein KI-Container-Image aus der Harbor-Registrierung bereit.