Als DevOps-Ingenieur können Sie einen mit NVIDIA GPUs beschleunigten Tanzu Kubernetes Grid-Cluster bereitstellen, indem Sie das Katalogelement „KI-Kubernetes-Cluster“ im Self-Service-Katalog von Automation Service Broker verwenden. Anschließend können Sie KI-Container-Images aus NVIDIA NGC im Cluster bereitstellen.
Der TKG-Cluster enthält einen NVIDIA GPU-Operator, der als Kubernetes-Operator für die Einrichtung des geeigneten NVIDIA-Treibers für die NVIDIA GPU-Hardware auf den TKG-Clusterknoten verantwortlich ist. Der bereitgestellte Cluster kann für KI-/ML-Arbeitslasten verwendet werden, ohne dass eine zusätzliche GPU-bezogene Einrichtung benötigt wird.
Die Bereitstellung enthält einen Supervisor-Namespace, einen TKG-Cluster mit drei Arbeitsknoten, mehrere Ressourcen innerhalb des TKG-Clusters und eine Carvel-Anwendung, die die GPU Operator-Anwendung bereitstellt.
Verwenden Sie für einen RAG-basierten Tanzu Kubernetes Grid-Cluster das Katalogelement KI-Kubernetes-RAG-Cluster. Weitere Informationen finden Sie unter Bereitstellen einer RAG-Arbeitslast in einem TKG-Cluster mithilfe eines Self-Service-Katalogelements in VMware Aria Automation.
Voraussetzungen
- Stellen Sie sicher, dass der Cloud-Administrator Private AI Automation Services für das Projekt konfiguriert hat.
- Stellen Sie sicher, dass Sie über die Berechtigungen zum Anfordern von KI-Katalogelementen verfügen.
Prozedur
- Suchen Sie auf der Seite Katalog in Automation Service Broker nach der Karte KI-Kubernetes-Cluster und klicken Sie auf Anfordern.
- Wählen Sie ein Projekt aus.
- Geben Sie einen Namen und eine Beschreibung für die Bereitstellung ein.
- Wählen Sie die Anzahl der Steuerungsebenenknoten aus.
Einstellung Beispielwert Anzahl der Knoten 1 VM-Klasse best-effort-4xlarge – 16 CPUs and 128 GB Arbeitsspeicher Mit der Klassenauswahl werden die innerhalb der virtuellen Maschine verfügbaren Ressourcen definiert.
- Wählen Sie die Anzahl der Worker-Knoten aus.
Einstellung Beschreibung Anzahl der Knoten 3 VM-Klasse best-effort-4xlarge-a100-40c – 1 vGPU (40 GB), 16 CPUs und 120 GB Arbeitsspeicher Replikate mit Zeitaufteilung 1 Mit der Zeitaufteilung wird ein Satz von Replikaten für eine GPU definiert, die von Arbeitslasten gemeinsam genutzt wird.
- Geben Sie den API-Schlüssel für NVIDIA AI Enterprise an.
- Klicken Sie auf Senden.
Nächste Maßnahme
Führen Sie ein KI-Container-Image aus. Verwenden Sie in einer verbundenen Umgebung den NVIDIA NGC-Katalog. Verwenden Sie in einer getrennten Umgebung die Harbor-Registrierung auf dem Supervisor.