Vorgehensweise zum Bereitstellen von VMware Private AI Foundation-Katalogelementen im Automation Service Broker

Wenn der Cloud-Administrator Private AI Automation Services in VMware Aria Automation eingerichtet hat, können Sie KI-Arbeitslasten mithilfe des Automation Service Broker-Katalogs anfordern.

Private AI Automation Services unterstützt zwei Katalogelemente in Automation Service Broker, auf die Benutzer mit den entsprechenden Berechtigungen zugreifen und die von Benutzern angefordert werden können.

KI-Arbeitsstation – eine GPU-fähige virtuelle Maschine, die mit der gewünschten vCPU und vGPU, dem gewünschten Arbeitsspeicher und der gewünschten KI-/ML-Software von NVIDIA konfiguriert werden kann.
KI-Kubernetes-Cluster – ein GPU-fähiger Tanzu Kubernetes-Cluster, der mit einem NVIDIA GPU-Operator konfiguriert werden kann.

Wichtig: Das Private AI Automation Services-Angebot ist für VMware Aria Automation 8.16.2 verfügbar.

Bevor Sie beginnen

Stellen Sie sicher, dass Private AI Automation Services für Ihr Projekt konfiguriert ist und Sie über Berechtigungen zum Anfordern von KI-Katalogelementen verfügen.

Beachten Sie, dass es sich hier bei allen Werten um Anwendungsbeispiele handelt. Ihre Kontowerte hängen von Ihrer Umgebung ab.

Bereitstellen einer Deep Learning-VM in einer VI-Arbeitslastdomäne

Als Datenwissenschaftler können Sie eine einzelne softwaredefinierte GPU-Entwicklungsumgebung über den Automation Service Broker-Self-Service-Katalog bereitstellen. Sie können eine GPU-fähige virtuelle Maschine mit Maschinenparametern erstellen, um die Entwicklungsanforderungen zu modellieren, die KI-/ML-Softwarekonfigurationen zur Erfüllung von Schulungs- und Inferenzanforderungen angeben und die KI-/ML-Pakete aus der NVIDIA NGC-Registrierung über einen Portalzugriffsschlüssel festlegen.

Prozedur

Klicken Sie auf die Registerkarte Verbrauchen in Automation Service Broker.
Klicken Sie auf Katalog.
Die verfügbaren Katalogelemente stehen Ihnen basierend auf dem ausgewählten Projekt zur Verfügung. Wenn Sie kein Projekt ausgewählt haben, werden alle verfügbaren Katalogelemente im Katalog angezeigt.
Suchen Sie nach der Karte KI-Arbeitsstation und klicken Sie auf Anfordern.
Wählen Sie ein Projekt aus.
Geben Sie einen Namen und eine Beschreibung für Ihre Bereitstellung ein.

Konfigurieren Sie die Parameter der KI-Arbeitsstation.

Einstellung	Beispielwert
VM-Klasse	`A100 klein – 1 vGPU (16 GB), 8 CPUs und 16 GB Arbeitsspeicher`
Größe der Datenfestplatte	`8 GB`
Benutzerkennwort	Geben Sie ein Kennwort für den Standardbenutzer ein. Sie werden bei der ersten Anmeldung unter Umständen aufgefordert, Ihr Kennwort zurückzusetzen.
Öffentlicher SSH-Schlüssel	Diese Einstellung ist optional.

Wählen Sie ein Softwarepaket aus, das auf Ihrer Arbeitsstation installiert werden soll.

Einstellung	Beschreibung
PyTorch	Der PyTorch NGC-Container ist für die GPU-Beschleunigung optimiert und enthält einen validierten Satz an Bibliotheken, die die GPU-Leistung aktivieren und optimieren. Dieser Container enthält auch Software zur Beschleunigung von Arbeitslasten für ETL (DALI, RAPIDS), Schulungen (cuDNN, NCCL) und Inferenz (TensorRT).
TensorFlow	Der TensorFlow NGC-Container ist für die GPU-Beschleunigung optimiert und enthält einen validierten Satz an Bibliotheken, die die GPU-Leistung aktivieren und optimieren. Dieser Container kann auch Änderungen am TensorFlow-Quellcode enthalten, um Leistung und Kompatibilität zu maximieren. Dieser Container enthält auch Software zur Beschleunigung von Arbeitslasten für ETL (DALI, RAPIDS), Schulungen (cuDNN, NCCL) und Inferenz (TensorRT).
CUDA-Beispiele	Hierbei handelt es sich um eine Sammlung von Containern zum Ausführen von CUDA-Arbeitslasten auf den GPUs. Die Sammlung umfasst containerisierte CUDA-Beispiele wie vectorAdd (zur Veranschaulichung der Vektorhinzufügung), nbody (oder Gravitations-N-Körper-Simulation) und andere Beispiele. Diese Container können zur Validierung der Softwarekonfiguration von GPUs im System oder einfach zur Ausführung bestimmter Beispielarbeitslasten verwendet werden.
DCGM Exporter	Bei NVIDIA Data Center GPU Manager (DCGM) handelt es sich um eine Suite von Tools zum Verwalten und Überwachen von NVIDIA-Datencenter-GPUs in Clusterumgebungen. Die Überwachungsstacks bestehen in der Regel aus einem Collector, einer Zeitreihendatenbank zum Speichern von Metriken und einer Visualisierungsebene. DCGM Exporter fungiert als Exporter für Prometheus zum Überwachen des Systemzustands und Abrufen von Metriken aus GPUs.
Triton Inference Server	Triton Inference Server stellt eine Inferenzlösung für Cloud und Edge bereit, die sowohl für CPUs als auch für GPUs optimiert ist. Triton unterstützt ein HTTP/REST- und GRPC-Protokoll, mit dem Remote-Clients Inferenzen für jedes Modell anfordern können, das vom Server verwaltet wird. Für Edge-Bereitstellungen steht Triton als gemeinsam genutzte Bibliothek mit einer C-API zur Verfügung, mit der die gesamte Funktionalität von Triton direkt in eine Anwendung aufgenommen werden kann.
Workflow „Generative KI“ – RAG	Diese Referenzlösung zeigt, wie Sie geschäftlichen Nutzen aus der generativen KI ziehen können, indem Sie ein vorhandenes grundlegendes LLM durch Erweiterung an Ihren Geschäftsanwendungsfall anpassen. Dieser Vorgang erfolgt mittels Retrieval Augmented Generation (RAG), wobei Fakten aus einer Wissensdatenbank abgerufen werden, die die Geschäftsdaten eines Unternehmens enthält. Eine Referenzlösung für einen leistungsstarken RAG-basierten KI-Chatbot wird in dieser Kurzbeschreibung erläutert, einschließlich Code, der im Github für generative KI-Beispiele von NVIDIA für Entwickler verfügbar ist. Achten Sie besonders darauf, wie Sie ein LLM mit Ihren domänenspezifischen Geschäftsdaten erweitern können, um agile KI-Anwendungen zu erstellen, die auf neue Entwicklungen reagieren können.

Geben Sie zusätzlich zu der für das Softwarepaket definierten cloud-init eine benutzerdefinierte cloud-init ein, die Sie installieren möchten.
VMware Aria Automation führt die cloud-init aus dem Softwarepaket und die benutzerdefinierte cloud-init zusammen.
Geben Sie den Zugriffsschlüssel des NVIDIANGC-Portals an.
Klicken Sie auf Senden.

Bereitstellen eines KI-fähigen Tanzu Kubernetes-Clusters

Als DevOps-Ingenieur können Sie einen GPU-fähigen Tanzu Kubernetes-Cluster anfordern, in dem KI-/ML-Arbeitslasten von Worker-Knoten ausgeführt werden können.

Der TKG-Cluster enthält einen NVIDIA GPU-Operator. Bei diesem handelt es sich um einen Kubernetes Operator, der für die Einrichtung des geeigneten NVIDIA-Treibers für die NVIDIA GPU-Hardware auf den TKG-Clusterknoten verantwortlich ist. Der bereitgestellte Cluster kann für KI-/ML-Arbeitslasten verwendet werden, ohne dass ein zusätzliches GPU-bezogenes Setup erforderlich ist.

Prozedur

Suchen Sie nach der Karte KI-Kubernetes-Cluster und klicken Sie auf Anfordern.
Wählen Sie ein Projekt aus.
Geben Sie einen Namen und eine Beschreibung für Ihre Bereitstellung ein.

Wählen Sie die Anzahl der Steuerungsbereichsknoten aus.

Einstellung	Beispielwert
Anzahl der Knoten	`1`
VM-Klasse	`cpu-only-medium – 8 CPUs und 16 GB Arbeitsspeicher` Die Klassenauswahl definiert die innerhalb der virtuellen Maschine verfügbaren Ressourcen.

Wählen Sie die Anzahl der Arbeitsknoten aus.

Einstellung	Beschreibung
Anzahl der Knoten	`3`
VM-Klasse	`a100-medium – 4 vGPU (64 GB), 16 CPUs und 32 GB Arbeitsspeicher`

Klicken Sie auf Senden.

Ergebnisse

Die Bereitstellung enthält einen Supervisor-Namespace, einen TKG-Cluster mit drei Arbeitsknoten, mehrere Ressourcen innerhalb des TKG-Clusters und eine Carvel-Anwendung, die die GPU-Operator-Anwendung bereitstellt.

Überwachen der Private AI-Bereitstellungen

Sie verwenden die Seite „Bereitstellungen“, um Ihre Bereitstellungen und die verknüpften Ressourcen zu verwalten, Änderungen an Bereitstellungen vorzunehmen, Fehler in Bereitstellungen zu beheben, die Ressourcen zu ändern und nicht verwendete Bereitstellungen zu löschen.

Zum Verwalten Ihrer Bereitstellungen klicken Sie auf Verbrauchen > Bereitstellungen > Bereitstellungen.

Weitere Informationen finden Sie unter Vorgehensweise zum Verwalten meiner Automation Service Broker-Bereitstellungen.