In un cluster TKG in un supervisore è possibile distribuire un carico di lavoro RAG basato sulla pipeline di esempio RAG di NVIDIA che utilizza un database PostgreSQL pgvector gestito da VMware Data Services Manager.

Prerequisiti

Procedura

  1. Eseguire il provisioning di un cluster TKG con accelerazione GPU.
  2. Installare l'operatore RAG LLM.
  3. Scaricare i manifesti per la pipeline RAG di esempio di NVIDIA.
  4. Configurare la pipeline RAG di esempio con il database PostgreSQL pgvector.
    1. Modificare il file YAML della pipeline di esempio.
      Vedere il passaggio 4 in Pipeline RAG di esempio.
    2. Nel file YAML configurare la pipeline di esempio con il database PostgreSQL pgvector utilizzando la stringa di connessione del database.
  5. Per fornire un IP esterno per l'applicazione della chat di esempio, nel file YAML impostare frontend.service.type su loadBalancer.
  6. Avviare la pipeline RAG di esempio.
  7. Per accedere all'applicazione di chat di esempio, eseguire il comando seguente per ottenere l'indirizzo IP esterno dell'applicazione.
    kubectl -n rag-sample get service rag-playground
  8. In un browser Web, aprire l'applicazione di chat di esempio all'indirizzo http://application_external_ip:3001/orgs/nvidia/models/text-qa-chatbot.