Auf einem TKG-Cluster in einem Supervisor können Sie eine RAG-Arbeitslast basierend auf der RAG-Beispiel-Pipeline von NVIDIA bereitstellen, die eine pgvector-PostgreSQL-Datenbank verwendet, die von VMware Data Services Manager verwaltet wird.
Prozedur
- Stellen Sie einen GPU-beschleunigten TKG-Cluster bereit.
- Installieren Sie den RAG LLM-Operator.
- Laden Sie die Manifeste für die NVIDIA-Beispiel-RAG-Pipeline herunter.
- Konfigurieren Sie die Beispiel-RAG-Pipeline mit der PostgreSQL-Datenbank „pgvector“.
- Bearbeiten Sie eine Beispiel-Pipeline-YAML-Datei.
- Konfigurieren Sie in der YAML-Datei die Beispiel-Pipeline mit der PostgreSQL-Datenbank „pgvector“, indem Sie die Verbindungszeichenfolge der Datenbank verwenden.
- Um eine externe IP-Adresse für die Beispiel-Chat-Anwendung anzugeben, legen Sie in der YAML-Datei
frontend.service.type
auf loadBalancer
fest.
- Starten Sie die Beispiel-RAG-Pipeline.
- Für den Zugriff auf die Beispiel-Chat-Anwendung führen Sie den folgenden Befehl aus, um die externe IP-Adresse der Anwendung abzurufen.
kubectl -n rag-sample get service rag-playground
- Öffnen Sie in einem Webbrowser die Beispiel-Chat-Anwendung unter http://application_external_ip:3001/orgs/nvidia/models/text-qa-chatbot.