En tant qu'ingénieur DevOps, vous pouvez déployer sur un cluster TKG dans un superviseur une charge de travail RAG basée sur l'exemple de pipeline RAG de NVIDIA qui utilise une base de données PostgreSQL pgvector gérée par VMware Data Services Manager.
Procédure
- Provisionnez un cluster TKG accéléré par GPU.
Vous pouvez utiliser l'un des workflows suivants.
- Si vous avez utilisé la commande kubectl pour provisionner le cluster TKG, installez NVIDIA RAG LLM Operator sur le cluster TKG.
Reportez-vous à la section Installer l'opérateur LLM RAG.
Lors du déploiement, l'élément de catalogue Cluster Kubernetes RAG d'IA dans VMware Aria Automation installe automatiquement NVIDIA RAG LLM Operator sur le cluster TKG.
- Téléchargez les manifestes de l'exemple de pipeline NVIDIA RAG.
- Configurez l'exemple de pipeline RAG avec la base de données PostgreSQL pgvector.
- Modifiez le fichier YAML de l'exemple de pipeline.
- Dans le fichier YAML, configurez l'exemple de pipeline avec la base de données PostgreSQL pgvector à l'aide de la chaîne de connexion de la base de données.
- Afin de fournir une adresse IP externe pour l'exemple d'application de conversation, définissez
frontend.service.type
sur loadBalancer
dans le fichier YAML.
- Démarrez l'exemple de pipeline RAG.
- Pour accéder à l'exemple d'application de conversation, exécutez la commande suivante pour obtenir l'adresse IP externe de l'application.
kubectl -n rag-sample get service rag-playground
- Dans un navigateur Web, ouvrez l'exemple d'application de conversation à l'adresse http://application_external_ip:3001/orgs/nvidia/models/text-qa-chatbot.