Als DevOps-Ingenieur können Sie auf einem TKG-Cluster in einem Supervisor eine RAG-Arbeitslast auf Basis der RAG-Beispiel-Pipeline von NVIDIA bereitstellen, die eine von VMware Data Services Manager verwaltete PostgreSQL-Datenbank vom Typ „pgvector“ verwendet.

Voraussetzungen

Prozedur

  1. Stellen Sie einen GPU-beschleunigten TKG-Cluster bereit.
    Sie können Sie einen der folgenden Workflows verwenden.
    Bereitstellungsworkflow Schritte
    Mithilfe eines Katalogelements in VMware Aria Automation Bereitstellen eines GPU-beschleunigten Tanzu Kubernetes Grid-RAG-Clusters.
    Mithilfe des Befehls kubectl
    1. Stellen Sie einen GPU-beschleunigten TKG-Cluster mithilfe des Befehls kubectl bereit.
    2. Installieren Sie den RAG LLM-Operator.

      Weitere Informationen finden Sie unter Installieren des RAG LLM-Operators.

  2. Wenn Sie den Befehl kubectl zum Bereitstellen des TKG-Clusters verwendet haben, installieren Sie den NVIDIA RAG LLM-Operator auf dem TKG-Cluster.

    Weitere Informationen finden Sie unter Installieren des RAG LLM-Operators.

    Während der Bereitstellung wird mithilfe des Katalogelements KI-Kubernetes-RAG-Cluster in VMware Aria Automation der NVIDIA RAG LLM-Operator automatisch auf dem TKG-Cluster installiert.

  3. Laden Sie die Manifeste für die NVIDIA-Beispiel-RAG-Pipeline herunter.
    Weitere Informationen finden Sie unter Beispiel-RAG-Pipeline.
  4. Konfigurieren Sie die Beispiel-RAG-Pipeline mit der PostgreSQL-Datenbank „pgvector“.
    1. Bearbeiten Sie eine Beispiel-Pipeline-YAML-Datei.
      Weitere Informationen finden Sie unter Schritt 4 in Beispiel-RAG-Pipeline.
    2. Konfigurieren Sie in der YAML-Datei die Beispiel-Pipeline mit der PostgreSQL-Datenbank „pgvector“, indem Sie die Verbindungszeichenfolge der Datenbank verwenden.
      Weitere Informationen finden Sie unter Vektordatenbank für RAG-Beispiel-Pipeline.
  5. Um eine externe IP-Adresse für die Beispiel-Chat-Anwendung anzugeben, legen Sie in der YAML-Datei frontend.service.type auf loadBalancer fest.
  6. Starten Sie die Beispiel-RAG-Pipeline.
    Weitere Informationen finden Sie unter Beispiel-RAG-Pipeline.
  7. Für den Zugriff auf die Beispiel-Chat-Anwendung führen Sie den folgenden Befehl aus, um die externe IP-Adresse der Anwendung abzurufen.
    kubectl -n rag-sample get service rag-playground
  8. Öffnen Sie in einem Webbrowser die Beispiel-Chat-Anwendung unter http://application_external_ip:3001/orgs/nvidia/models/text-qa-chatbot.