Als DevOps-Ingenieur können Sie mithilfe des Automation Service Broker-Self-Service-Katalogs einen GPU-fähigen Tanzu Kubernetes Grid RAG-Cluster bereitstellen, in dem Worker-Knoten eine RAG-Referenzlösung ausführen können, die das Modell „Llama2-13b-chat“ verwendet.
Die Bereitstellung enthält einen Supervisor-Namespace und einen Tanzu Kubernetes Grid-Cluster. Der TKG-Cluster enthält zwei Supervisor-Namespaces, die beide im TKG-Cluster vorinstalliert sind – einen für den NVIDIA GPU-Operator und den anderen für den NVIDIA RAG LLM-Operator. Carvel-Anwendungen für jeden Operator werden innerhalb dieser beiden Namespaces bereitgestellt.
Prozedur
- Suchen Sie auf der Seite Katalog in Automation Service Broker nach der Karte KI-Kubernetes-RAG-Cluster und klicken Sie auf Anfordern.
- Wählen Sie ein Projekt aus.
- Geben Sie einen Namen und eine Beschreibung für die Bereitstellung ein.
- Wählen Sie die Anzahl der Steuerungsebenenknoten aus.
Einstellung Beispielwert Anzahl der Knoten 1 VM-Klasse best-effort-2xlarge - 8 CPUs and 64 GB Memory Mit der Klassenauswahl werden die innerhalb der virtuellen Maschine verfügbaren Ressourcen definiert.
- Wählen Sie die Anzahl der Worker-Knoten aus.
Einstellung Beschreibung Anzahl der Knoten 3 VM-Klasse best-effort-4xlarge-a100-40c – 1 vGPU (40 GB), 16 CPUs und 120 GB Arbeitsspeicher Mindestspezifikation für VM-Klassen:- CPU: 10 vCPUs
- CPU-RAM: 64 GB
- GPU: 2xH100
- GPU-Arbeitsspeicher: 50 GB
Replikate mit Zeitaufteilung 1 Mit der Zeitaufteilung wird ein Satz von Replikaten für eine GPU definiert, die von Arbeitslasten gemeinsam genutzt wird.
- Geben Sie den API-Schlüssel für NVIDIA AI Enterprise an.
- Klicken Sie auf Senden.