Bereitstellen eines GPU-beschleunigten TKG-Clusters mithilfe eines Self-Service-Katalogs in VMware Private AI Foundation with NVIDIA

DevOps-Ingenieure und Entwickler können VMware Aria Automation verwenden, um GPU-beschleunigte TKG-Cluster zum Hosten von Container-KI-Arbeitslasten auf der Supervisor-Instanz in einer VI-Arbeitslastdomäne bereitzustellen.

Der Workflow für die Bereitstellung eines GPU-beschleunigten TKG-Clusters umfasst zwei Teile:

Als Cloud-Administrator fügen Sie Self-Service-Katalogelemente für Private AI für einen neuen Namespace auf dem Supervisor zu Automation Service Broker hinzu.
Als Datenwissenschaftler oder DevOps-Ingenieur verwenden Sie ein AI-Kubernetes-Cluster-Katalogelement, um einen GPU-beschleunigten TKG-Cluster in einem neuen Namespace auf dem Supervisor bereitzustellen.

Erstellen von KI-Self-Service-Katalogelementen in VMware Aria Automation

Als Cloud-Administrator können Sie den Assistenten für die Katalogeinrichtung für Private AI in VMware Aria Automation verwenden, um schnell Katalogelemente für die Bereitstellung von Deep Learning-VMs oder GPU-beschleunigten TKG-Clustern in einer VI-Arbeitslastdomäne hinzuzufügen.

Datenwissenschaftler können Deep Learning-Katalogelemente für die Bereitstellung von Deep Learning-VMs verwenden. DevOps-Ingenieure können die Katalogelemente für die Bereitstellung von KI-fähigen TKG-Clustern verwenden. Bei jeder Ausführung fügt der Assistent für die Katalogeinrichtung für Private AI zwei Katalogelemente zum Service Broker-Katalog hinzu: eines für eine Deep Learning-VM und eines für einen TKG-Cluster.

Bei jeder Ausführung fügt der Assistent für die Katalogeinrichtung für Private AI zwei Katalogelemente zum Service Broker-Katalog hinzu: eines für eine Deep Learning-VM und eines für einen TKG-Cluster. Sie können den Assistenten jedes Mal ausführen, wenn Sie Folgendes benötigen:

Aktivieren der Bereitstellung von KI-Arbeitslasten auf einem anderen Supervisor.
Berücksichtigen einer Änderung Ihrer NVIDIA AI Enterprise-Lizenz, einschließlich der .tok-Datei für die Clientkonfiguration und des Lizenzservers oder der Download-URL für die vGPU-Gasttreiber für eine getrennte Umgebung.
Integrieren einer Deep Learning-VM-Image-Änderung.
Verwenden anderer vGPU- oder Nicht-GPU-VM-Klassen, Speicherrichtlinien oder Containerregistrierungen.
Erstellen von Katalogelementen in einem neuen Projekt.

Voraussetzungen

Stellen Sie sicher, dass VMware Private AI Foundation with NVIDIA für die VI-Arbeitslastdomäne verfügbar ist.
Stellen Sie sicher, dass die Voraussetzungen für die Bereitstellung von Deep Learning-VMs vorhanden sind.
Erstellen einer Inhaltsbibliothek mit Deep Learning-VM-Images für VMware Private AI Foundation with NVIDIA.

Prozedur

Navigieren Sie zur VMware Aria Automation-Startseite und klicken Sie auf Schnellstart.
Führen Sie den Assistenten für die Einrichtung des Private AI Automation Services-Katalogs für Private AI Automation aus.

Weitere Informationen finden Sie unter Hinzufügen von Private AI-Elementen zum Automation Service Broker-Katalog in der VMware Aria Automation-Produktdokumentation.

Bereitstellen eines GPU-beschleunigten TKG-Clusters mithilfe eines Self-Service-Katalogs in VMware Aria Automation

In VMware Private AI Foundation with NVIDIA können Sie als DevOps-Ingenieur einen mit NVIDIA-GPUs beschleunigten TKG-Cluster aus VMware Aria Automation bereitstellen, indem Sie Self-Service-Katalogelemente eines KI-Kubernetes-Clusters in Automation Service Broker verwenden. Anschließend können Sie KI-Container-Images von NVIDIA NGC auf dem Cluster bereitstellen.

Hinweis: VMware Aria Automation erstellt jedes Mal einen Namespace, wenn Sie einen GPU-beschleunigten TKG-Cluster bereitstellen.

Prozedur

Stellen Sie in einer verbundenen Umgebung in Automation Service Broker ein KI-Kubernetes-Cluster-Katalogelement auf der vom Cloud-Administrator konfigurierten Supervisor-Instanz bereit.
Weitere Informationen finden Sie unter Bereitstellen eines KI-fähigen Tanzu Kubernetes-Clusters.
Laden Sie in einer getrennten Umgebung die Komponenten des NVIDIA GPU-Operators an internen Standorten hoch und ändern Sie das KI-Kubernetes-Cluster-Katalogelement für die vom Cloud-Administrator konfigurierte Supervisor-Instanz.
1. Stellen Sie ein lokales Ubuntu-Paket-Repository bereit und laden Sie die Container-Images im NVIDIA GPU-Operator-Paket in die Harbor-Registrierung für den Supervisor hoch.
2. Stellen Sie ein lokales Helm-Diagramm-Repository mit NVIDIA GPU-Operator-Diagrammdefinitionen bereit.
3. Aktualisieren Sie die Helm-Diagramm-Definitionen des NVIDIA GPU-Operators, um das lokale Ubuntu-Paket-Repository und die private Harbor-Registrierung zu verwenden.
4. Ändern Sie auf der Seite Design > Cloud-Vorlagen von Automation Assembler direkt die KI-Kubernetes-Cluster-Cloud-Vorlage oder klonen Sie die Cloud-Vorlage und ändern Sie den Klon.
  1. Fügen Sie eine ConfigMap zu hinzu, um das lokale Ubuntu-Repository im NVIDIA GPU-Operator zu verwenden.
  2. Aktualisieren Sie die URL des Helm-Diagramm-Repositorys.
  3. Stellen Sie die Cloud-Vorlage bereit.
5. Stellen Sie das geänderte oder geklonte KI-Kubernetes-Cluster-Katalogelement auf der Supervisor-Instanz bereit.

Nächste Maßnahme

Wenn Sie Informationen zum Zugriff auf den TKG-Cluster mithilfe von kubectl benötigen, navigieren Sie in Automation Service Broker zu Nutzung > Bereitstellungen > Bereitstellungen.
Stellen Sie ein KI-Container-Image aus dem NVIDIA NGC-Katalog bereit.
In einer nicht verbundenen Umgebung müssen Sie die KI-Container-Images in eine private Containerregistrierung hochladen. Weitere Informationen finden Sie unter Einrichten einer Private Harbor-Registrierung in VMware Private AI Foundation with NVIDIA.