Als DevOps-Ingenieur können Sie einen GPU-beschleunigten Tanzu Kubernetes Grid-Cluster (TKG) anfordern, auf dem Worker-Knoten KI-/ML-Arbeitslasten über den Automation Service Broker-Self-Service-Katalog ausführen können.
Der TKG-Cluster enthält einen NVIDIA GPU-Operator. Bei diesem handelt es sich um einen Kubernetes Operator, der für die Einrichtung des geeigneten NVIDIA-Treibers für die NVIDIA GPU-Hardware auf den TKG-Clusterknoten verantwortlich ist. Der bereitgestellte Cluster kann für KI-/ML-Arbeitslasten verwendet werden, ohne dass ein zusätzliches GPU-bezogenes Setup erforderlich ist.
Die Bereitstellung enthält einen Supervisor-Namespace, einen TKG-Cluster mit drei Arbeitsknoten, mehrere Ressourcen innerhalb des TKG-Clusters und eine Carvel-Anwendung, die die GPU-Operator-Anwendung bereitstellt.
Prozedur
- Suchen Sie auf der Seite Katalog in Automation Service Broker die Karte KI-Kubernetes-Cluster und klicken Sie auf Anfordern.
- Wählen Sie ein Projekt aus.
- Geben Sie einen Namen und eine Beschreibung für Ihre Bereitstellung ein.
- Wählen Sie die Anzahl der Steuerungsbereichsknoten aus.
Einstellung Beispielwert Anzahl der Knoten 1 VM-Klasse best-effort-4xlarge – 16 CPUs und 128 GB Arbeitsspeicher Die Klassenauswahl definiert die innerhalb der virtuellen Maschine verfügbaren Ressourcen.
- Wählen Sie die Anzahl der Arbeitsknoten aus.
Einstellung Beschreibung Anzahl der Knoten 3 VM-Klasse best-effort-4xlarge-a100-40c – 1 vGPU (40 GB), 16 CPUs und 120 GB Arbeitsspeicher Zeitaufteilung mit Replikaten 1 Die Zeitaufteilung definiert einen Satz von Replikaten für eine GPU, die von Arbeitslasten gemeinsam genutzt wird.
- Geben Sie den NVIDIA AI Enterprise-API-Schlüssel an.
- Klicken Sie auf Senden.