Distribuzione di un carico di lavoro RAG in un cluster TKG

In un cluster TKG in un supervisore è possibile distribuire un carico di lavoro RAG basato sulla pipeline di esempio RAG di NVIDIA che utilizza un database PostgreSQL pgvector gestito da VMware Data Services Manager.

Prerequisiti

Verificare che VMware Private AI Foundation with NVIDIA sia disponibile per il dominio del carico di lavoro VI. Vedere Distribuzione di VMware Private AI Foundation with NVIDIA.
Distribuzione di un database vettore in VMware Private AI Foundation with NVIDIA.

Procedura

Eseguire il provisioning di un cluster TKG con accelerazione GPU.
Vedere Distribuzione dei carichi di lavoro AI nei cluster TKG in VMware Private AI Foundation with NVIDIA.
Installare l'operatore RAG LLM.
Vedere Installazione dell'operatore RAG LLM.
Scaricare i manifesti per la pipeline RAG di esempio di NVIDIA.
Vedere Pipeline RAG di esempio.
Configurare la pipeline RAG di esempio con il database PostgreSQL pgvector.
1. Modificare il file YAML della pipeline di esempio.
  Vedere il passaggio 4 in Pipeline RAG di esempio.
2. Nel file YAML configurare la pipeline di esempio con il database PostgreSQL pgvector utilizzando la stringa di connessione del database.
  Vedere Database vettore per la pipeline di esempio RAG.
Per fornire un IP esterno per l'applicazione della chat di esempio, nel file YAML impostare frontend.service.type su loadBalancer.
Avviare la pipeline RAG di esempio.
Vedere Pipeline RAG di esempio.
Per accedere all'applicazione di chat di esempio, eseguire il comando seguente per ottenere l'indirizzo IP esterno dell'applicazione.
```
kubectl -n rag-sample get service rag-playground
```
In un browser Web, aprire l'applicazione di chat di esempio all'indirizzo http://application_external_ip:3001/orgs/nvidia/models/text-qa-chatbot.