Als Datenwissenschaftler oder DevOps-Ingenieur können Sie Automation Service Broker verwenden, um NVIDIA RAG-Arbeitslasten bereitzustellen.
Bereitstellen einer RAG-Workstation
Als Datenwissenschaftler können Sie eine GPU-fähige Workstation mit der RAG-Referenzlösung (Retrieval Augmented Generation) aus dem Automation Service Broker-Self-Service-Katalog bereitstellen.
Prozedur
- Suchen Sie auf der Seite Katalog in Automation Service Broker die Karte AI RAG Workstation und klicken Sie auf Anfordern.
- Wählen Sie ein Projekt aus.
- Geben Sie einen Namen und eine Beschreibung für Ihre Bereitstellung ein.
- Konfigurieren Sie die RAG-Workstation-Parameter.
Einstellung Beispielwert VM-Klasse A100 klein – 1 vGPU (16 GB), 8 CPUs und 16 GB Arbeitsspeicher Mindestspezifikation für VM-Klassen:- CPU: 10 vCPUs
- CPU-RAM: 64 GB
- GPU: 2 x H100
- GPU-Arbeitsspeicher: 50 GB
Größe der Datenfestplatte 3 Gi Benutzerkennwort Geben Sie ein Kennwort für den Standardbenutzer ein. Sie werden bei der ersten Anmeldung unter Umständen aufgefordert, Ihr Kennwort zurückzusetzen. Öffentlicher SSH-Schlüssel Diese Einstellung ist optional. - Installieren Sie Softwareanpassungen.
- (Optional) Wenn Sie zusätzlich zu der für das RAG-Softwarepaket definierten cloud-init eine benutzerdefinierte cloud-init installieren möchten, aktivieren Sie das Kontrollkästchen und fügen Sie den Inhalt des Konfigurationspakets ein.
VMware Aria Automation führt die cloud-init aus dem RAG-Softwarepaket und die benutzerdefinierte cloud-init zusammen.
- Geben Sie den Zugriffsschlüssel des NVIDIA NGC-Portals an.
- Geben Sie die Anmeldedaten für den Docker-Hub ein.
- (Optional) Wenn Sie zusätzlich zu der für das RAG-Softwarepaket definierten cloud-init eine benutzerdefinierte cloud-init installieren möchten, aktivieren Sie das Kontrollkästchen und fügen Sie den Inhalt des Konfigurationspakets ein.
- Klicken Sie auf Senden.
Ergebnisse
Bereitstellen eines GPU-beschleunigten Tanzu Kubernetes Grid RAG-Clusters
Als DevOps-Ingenieur, der den Automation Service Broker-Self-Service-Katalog verwendet, können Sie einen GPU-fähigen Tanzu Kubernetes Grid RAG-Cluster bereitstellen, in dem Worker-Knoten eine RAG-Referenzlösung ausführen können, die das Llama2-13b-chat-Modell verwendet.
Die Bereitstellung enthält einen Supervisor-Namespace und einen Tanzu Kubernetes Grid-Cluster. Der TKG-Cluster enthält zwei Supervisor-Namespaces – einen für den NVIDIA GPU-Operator und den anderen für den NVIDIA RAG LLM-Operator, die beide im TKG-Cluster vorinstalliert sind. Carvel-Anwendungen für jeden Operator werden innerhalb dieser beiden Namespaces bereitgestellt.
Prozedur
- Suchen Sie auf der Seite Katalog in Automation Service Broker die Karte KI-Kubernetes RAG-Cluster und klicken Sie auf Anfordern.
- Wählen Sie ein Projekt aus.
- Geben Sie einen Namen und eine Beschreibung für Ihre Bereitstellung ein.
- Wählen Sie die Anzahl der Steuerungsbereichsknoten aus.
Einstellung Beispielwert Anzahl der Knoten 1 VM-Klasse best-effort-2xlarge – 8 CPUs und 64 GB Arbeitsspeicher Die Klassenauswahl definiert die innerhalb der virtuellen Maschine verfügbaren Ressourcen.
- Wählen Sie die Anzahl der Arbeitsknoten aus.
Einstellung Beschreibung Anzahl der Knoten 3 VM-Klasse best-effort-4xlarge-a100-40c – 1 vGPU (40 GB), 16 CPUs und 120 GB Arbeitsspeicher Mindestspezifikation für VM-Klassen:- CPU: 10 vCPUs
- CPU-RAM: 64 GB
- GPU: 2 x H100
- CPU-Arbeitsspeicher: 50 GB
Zeitaufteilung mit Replikaten 1 Die Zeitaufteilung definiert einen Satz von Replikaten für eine GPU, die von Arbeitslasten gemeinsam genutzt wird.
- Geben Sie den NVIDIA AI Enterprise-API-Schlüssel an.
- Klicken Sie auf Senden.