Bereitstellen eines GPU-beschleunigten Tanzu Kubernetes Grid-Clusters

Als DevOps-Ingenieur können Sie einen GPU-beschleunigten Tanzu Kubernetes Grid-Cluster (TKG) anfordern, auf dem Worker-Knoten KI-/ML-Arbeitslasten über den Automation Service Broker-Self-Service-Katalog ausführen können.

Hinweis: Diese Dokumentation basiert auf VMware Aria Automation 8.18. Informationen zur VMware Private AI Foundation-Funktionalität in VMware Aria Automation 8.18.1 finden Sie unter Bereitstellen eines GPU-beschleunigten TKG-Clusters mithilfe eines Self-Service-Katalogelements in VMware Aria Automation in der Dokumentation zu VMware Private AI Foundation mit NVIDIA.

Der TKG-Cluster enthält einen NVIDIA GPU-Operator. Bei diesem handelt es sich um einen Kubernetes Operator, der für die Einrichtung des geeigneten NVIDIA-Treibers für die NVIDIA GPU-Hardware auf den TKG-Clusterknoten verantwortlich ist. Der bereitgestellte Cluster kann für KI-/ML-Arbeitslasten verwendet werden, ohne dass ein zusätzliches GPU-bezogenes Setup erforderlich ist.

Die Bereitstellung enthält einen Supervisor-Namespace, einen TKG-Cluster mit drei Arbeitsknoten, mehrere Ressourcen innerhalb des TKG-Clusters und eine Carvel-Anwendung, die die GPU-Operator-Anwendung bereitstellt.

Prozedur

Suchen Sie auf der Seite Katalog in Automation Service Broker die Karte KI-Kubernetes-Cluster und klicken Sie auf Anfordern.
Wählen Sie ein Projekt aus.
Geben Sie einen Namen und eine Beschreibung für Ihre Bereitstellung ein.

Wählen Sie die Anzahl der Steuerungsbereichsknoten aus.

Einstellung	Beispielwert
Anzahl der Knoten	`1`
VM-Klasse	`best-effort-4xlarge – 16 CPUs und 128 GB Arbeitsspeicher` Die Klassenauswahl definiert die innerhalb der virtuellen Maschine verfügbaren Ressourcen.

Wählen Sie die Anzahl der Arbeitsknoten aus.

Einstellung	Beschreibung
Anzahl der Knoten	`3`
VM-Klasse	`best-effort-4xlarge-a100-40c – 1 vGPU (40 GB), 16 CPUs und 120 GB Arbeitsspeicher`
Zeitaufteilung mit Replikaten	`1` Die Zeitaufteilung definiert einen Satz von Replikaten für eine GPU, die von Arbeitslasten gemeinsam genutzt wird.

Geben Sie den NVIDIA AI Enterprise-API-Schlüssel an.
Klicken Sie auf Senden.