In un cluster TKG in un supervisore è possibile distribuire un carico di lavoro RAG basato sulla pipeline di esempio RAG di NVIDIA che utilizza un database PostgreSQL pgvector gestito da VMware Data Services Manager.
Procedura
- Eseguire il provisioning di un cluster TKG con accelerazione GPU.
- Installare l'operatore RAG LLM.
- Scaricare i manifesti per la pipeline RAG di esempio di NVIDIA.
- Configurare la pipeline RAG di esempio con il database PostgreSQL pgvector.
- Modificare il file YAML della pipeline di esempio.
- Nel file YAML configurare la pipeline di esempio con il database PostgreSQL pgvector utilizzando la stringa di connessione del database.
- Per fornire un IP esterno per l'applicazione della chat di esempio, nel file YAML impostare
frontend.service.type
su loadBalancer
.
- Avviare la pipeline RAG di esempio.
- Per accedere all'applicazione di chat di esempio, eseguire il comando seguente per ottenere l'indirizzo IP esterno dell'applicazione.
kubectl -n rag-sample get service rag-playground
- In un browser Web, aprire l'applicazione di chat di esempio all'indirizzo http://application_external_ip:3001/orgs/nvidia/models/text-qa-chatbot.