Als Datenwissenschaftler oder DevOps-Ingenieur können Sie Automation Service Broker verwenden, um NVIDIA RAG-Arbeitslasten bereitzustellen.

Bereitstellen einer RAG-Workstation

Als Datenwissenschaftler können Sie eine GPU-fähige Workstation mit der RAG-Referenzlösung (Retrieval Augmented Generation) aus dem Automation Service Broker-Self-Service-Katalog bereitstellen.

Diese RAG-Referenzlösung zeigt, wie Sie geschäftlichen Nutzen aus der generativen KI ziehen können, indem Sie ein vorhandenes grundlegendes LLM durch Erweiterung an Ihren Geschäftsanwendungsfall anpassen. Dieser Vorgang erfolgt mittels Retrieval Augmented Generation (RAG), wobei Fakten aus einer Wissensdatenbank abgerufen werden, die die Geschäftsdaten Ihres Unternehmens enthält. Achten Sie besonders darauf, wie Sie ein LLM mit Ihren domänenspezifischen Geschäftsdaten erweitern können, um agile KI-Anwendungen zu erstellen, die auf neue Entwicklungen reagieren können.

Prozedur

  1. Suchen Sie auf der Seite Katalog in Automation Service Broker die Karte AI RAG Workstation und klicken Sie auf Anfordern.
  2. Wählen Sie ein Projekt aus.
  3. Geben Sie einen Namen und eine Beschreibung für Ihre Bereitstellung ein.
  4. Konfigurieren Sie die RAG-Workstation-Parameter.
    Einstellung Beispielwert
    VM-Klasse A100 klein – 1 vGPU (16 GB), 8 CPUs und 16 GB Arbeitsspeicher
    Mindestspezifikation für VM-Klassen:
    • CPU: 10 vCPUs
    • CPU-RAM: 64 GB
    • GPU: 2 x H100
    • GPU-Arbeitsspeicher: 50 GB
    Größe der Datenfestplatte 3 Gi
    Benutzerkennwort Geben Sie ein Kennwort für den Standardbenutzer ein. Sie werden bei der ersten Anmeldung unter Umständen aufgefordert, Ihr Kennwort zurückzusetzen.
    Öffentlicher SSH-Schlüssel Diese Einstellung ist optional.
  5. Installieren Sie Softwareanpassungen.
    1. (Optional) Wenn Sie zusätzlich zu der für das RAG-Softwarepaket definierten cloud-init eine benutzerdefinierte cloud-init installieren möchten, aktivieren Sie das Kontrollkästchen und fügen Sie den Inhalt des Konfigurationspakets ein.
      VMware Aria Automation führt die cloud-init aus dem RAG-Softwarepaket und die benutzerdefinierte cloud-init zusammen.
    2. Geben Sie den Zugriffsschlüssel des NVIDIA NGC-Portals an.
    3. Geben Sie die Anmeldedaten für den Docker-Hub ein.
  6. Klicken Sie auf Senden.

Ergebnisse

Ihre Workstation umfasst Folgendes: Ubuntu 22.04, NVIDIA vGPU-Treiber, Docker-Engine, NVIDIA-Container-Toolkit und eine RAG-Referenzlösung, die das Llama-2-13b-Chat-Modell verwendet.

Bereitstellen eines GPU-beschleunigten Tanzu Kubernetes Grid RAG-Clusters

Als DevOps-Ingenieur, der den Automation Service Broker-Self-Service-Katalog verwendet, können Sie einen GPU-fähigen Tanzu Kubernetes Grid RAG-Cluster bereitstellen, in dem Worker-Knoten eine RAG-Referenzlösung ausführen können, die das Llama2-13b-chat-Modell verwendet.

Die Bereitstellung enthält einen Supervisor-Namespace und einen Tanzu Kubernetes Grid-Cluster. Der TKG-Cluster enthält zwei Supervisor-Namespaces – einen für den NVIDIA GPU-Operator und den anderen für den NVIDIA RAG LLM-Operator, die beide im TKG-Cluster vorinstalliert sind. Carvel-Anwendungen für jeden Operator werden innerhalb dieser beiden Namespaces bereitgestellt.

Prozedur

  1. Suchen Sie auf der Seite Katalog in Automation Service Broker die Karte KI-Kubernetes RAG-Cluster und klicken Sie auf Anfordern.
  2. Wählen Sie ein Projekt aus.
  3. Geben Sie einen Namen und eine Beschreibung für Ihre Bereitstellung ein.
  4. Wählen Sie die Anzahl der Steuerungsbereichsknoten aus.
    Einstellung Beispielwert
    Anzahl der Knoten 1
    VM-Klasse best-effort-2xlarge – 8 CPUs und 64 GB Arbeitsspeicher

    Die Klassenauswahl definiert die innerhalb der virtuellen Maschine verfügbaren Ressourcen.

  5. Wählen Sie die Anzahl der Arbeitsknoten aus.
    Einstellung Beschreibung
    Anzahl der Knoten 3
    VM-Klasse best-effort-4xlarge-a100-40c – 1 vGPU (40 GB), 16 CPUs und 120 GB Arbeitsspeicher
    Mindestspezifikation für VM-Klassen:
    • CPU: 10 vCPUs
    • CPU-RAM: 64 GB
    • GPU: 2 x H100
    • CPU-Arbeitsspeicher: 50 GB
    Zeitaufteilung mit Replikaten 1

    Die Zeitaufteilung definiert einen Satz von Replikaten für eine GPU, die von Arbeitslasten gemeinsam genutzt wird.

  6. Geben Sie den NVIDIA AI Enterprise-API-Schlüssel an.
  7. Klicken Sie auf Senden.