Bereitstellen eines GPU-beschleunigten TKG-Clusters mithilfe des kubectl-Befehls in einer getrennten VMware Private AI Foundation with NVIDIA-Umgebung

In VMware Private AI Foundation with NVIDIA stellen Sie als DevOps-Ingenieur mithilfe der Kubernetes-API einen TKG-Cluster bereit, der NVIDIA-GPUs verwendet. In einer nicht verbundenen Umgebung müssen Sie zusätzlich ein lokales Ubuntu-Paket-Repository einrichten und die Harbor-Registrierung für den Supervisor verwenden.

Voraussetzungen

Stellen Sie mit dem Cloud-Administrator sicher, dass die folgenden Voraussetzungen für die KI-fähige Infrastruktur erfüllt sind.

VMware Private AI Foundation with NVIDIA wird bereitgestellt und konfiguriert. Weitere Informationen finden Sie unter Bereitstellen von VMware Private AI Foundation with NVIDIA.
Eine Inhaltsbibliothek mit Ubuntu-TKr-Images wird dem Namespace für KI-Arbeitslasten hinzugefügt. Weitere Informationen finden Sie unter Konfigurieren einer Inhaltsbibliothek mit Ubuntu TKr für eine getrennte VMware Private AI Foundation with NVIDIA-Umgebung.
Eine Maschine, die Zugriff auf den Supervisor-Endpoint hat.

Prozedur

Stellen Sie einen TKG-Cluster auf dem vom Cloud-Administrator konfigurierten vSphere-Namespace bereit.
Weitere Informationen finden Sie unter Bereitstellen eines TKGS-Clusters für NVIDIA vGPU.
Schließen Sie die Einrichtung des TKG-Clusters ab.
Weitere Informationen finden Sie unter Installieren von VMware vSphere with VMware Tanzu (Air-Gapped).
1. Stellen Sie ein lokales Ubuntu-Paket-Repository bereit und laden Sie die Container-Images im NVIDIA GPU-Operator-Paket in die Harbor-Registrierung für den Supervisor hoch.
2. Aktualisieren Sie die Helm-Diagramm-Definitionen des NVIDIA GPU-Operators, um das lokale Ubuntu-Paket-Repository und die private Harbor-Registrierung zu verwenden.
3. Geben Sie NVIDIA-Lizenzinformationen an.
4. Installieren Sie den NVIDIA GPU-Operator.

Nächste Schritte

Stellen Sie ein KI-Container-Image aus der Harbor-Registrierung für den Supervisor bereit.