Auf einem TKG-Cluster in einem Supervisor können Sie eine RAG-Arbeitslast basierend auf der RAG-Beispiel-Pipeline von NVIDIA bereitstellen, die eine pgvector-PostgreSQL-Datenbank verwendet, die von VMware Data Services Manager verwaltet wird.

Voraussetzungen

Prozedur

  1. Stellen Sie einen GPU-beschleunigten TKG-Cluster bereit.
  2. Installieren Sie den RAG LLM-Operator.
    Weitere Informationen finden Sie unter Installieren des RAG LLM-Operators.
  3. Laden Sie die Manifeste für die NVIDIA-Beispiel-RAG-Pipeline herunter.
    Weitere Informationen finden Sie unter Beispiel-RAG-Pipeline.
  4. Konfigurieren Sie die Beispiel-RAG-Pipeline mit der PostgreSQL-Datenbank „pgvector“.
    1. Bearbeiten Sie eine Beispiel-Pipeline-YAML-Datei.
      Weitere Informationen finden Sie unter Schritt 4 in Beispiel-RAG-Pipeline.
    2. Konfigurieren Sie in der YAML-Datei die Beispiel-Pipeline mit der PostgreSQL-Datenbank „pgvector“, indem Sie die Verbindungszeichenfolge der Datenbank verwenden.
      Weitere Informationen finden Sie unter Vektordatenbank für RAG-Beispiel-Pipeline.
  5. Um eine externe IP-Adresse für die Beispiel-Chat-Anwendung anzugeben, legen Sie in der YAML-Datei frontend.service.type auf loadBalancer fest.
  6. Starten Sie die Beispiel-RAG-Pipeline.
    Weitere Informationen finden Sie unter Beispiel-RAG-Pipeline.
  7. Für den Zugriff auf die Beispiel-Chat-Anwendung führen Sie den folgenden Befehl aus, um die externe IP-Adresse der Anwendung abzurufen.
    kubectl -n rag-sample get service rag-playground
  8. Öffnen Sie in einem Webbrowser die Beispiel-Chat-Anwendung unter http://application_external_ip:3001/orgs/nvidia/models/text-qa-chatbot.