Als DevOps-Ingenieur können Sie mithilfe des Automation Service Broker-Self-Service-Katalogs einen GPU-fähigen Tanzu Kubernetes Grid RAG-Cluster bereitstellen, in dem Worker-Knoten eine RAG-Referenzlösung ausführen können, die das Modell „Llama2-13b-chat“ verwendet.

Die Bereitstellung enthält einen Supervisor-Namespace und einen Tanzu Kubernetes Grid-Cluster. Der TKG-Cluster enthält zwei Supervisor-Namespaces, die beide im TKG-Cluster vorinstalliert sind – einen für den NVIDIA GPU-Operator und den anderen für den NVIDIA RAG LLM-Operator. Carvel-Anwendungen für jeden Operator werden innerhalb dieser beiden Namespaces bereitgestellt.

Prozedur

  1. Suchen Sie auf der Seite Katalog in Automation Service Broker nach der Karte KI-Kubernetes-RAG-Cluster und klicken Sie auf Anfordern.
  2. Wählen Sie ein Projekt aus.
  3. Geben Sie einen Namen und eine Beschreibung für die Bereitstellung ein.
  4. Wählen Sie die Anzahl der Steuerungsebenenknoten aus.
    Einstellung Beispielwert
    Anzahl der Knoten 1
    VM-Klasse best-effort-2xlarge - 8 CPUs and 64 GB Memory

    Mit der Klassenauswahl werden die innerhalb der virtuellen Maschine verfügbaren Ressourcen definiert.

  5. Wählen Sie die Anzahl der Worker-Knoten aus.
    Einstellung Beschreibung
    Anzahl der Knoten 3
    VM-Klasse best-effort-4xlarge-a100-40c – 1 vGPU (40 GB), 16 CPUs und 120 GB Arbeitsspeicher
    Mindestspezifikation für VM-Klassen:
    • CPU: 10 vCPUs
    • CPU-RAM: 64 GB
    • GPU: 2xH100
    • GPU-Arbeitsspeicher: 50 GB
    Replikate mit Zeitaufteilung 1

    Mit der Zeitaufteilung wird ein Satz von Replikaten für eine GPU definiert, die von Arbeitslasten gemeinsam genutzt wird.

  6. Geben Sie den API-Schlüssel für NVIDIA AI Enterprise an.
  7. Klicken Sie auf Senden.