Sur un cluster TKG dans un superviseur, vous pouvez déployer une charge de travail RAG basée sur l'exemple de pipeline RAG de NVIDIA qui utilise une base de données PostgreSQL pgvector gérée par VMware Data Services Manager.

Conditions préalables

Procédure

  1. Provisionnez un cluster TKG accéléré par GPU.
  2. Installez l'opérateur LLM RAG.
    Reportez-vous à la section Installer l'opérateur LLM RAG.
  3. Téléchargez les manifestes de l'exemple de pipeline NVIDIA RAG.
    Reportez-vous à la section Exemple de pipeline RAG.
  4. Configurez l'exemple de pipeline RAG avec la base de données PostgreSQL pgvector.
    1. Modifiez le fichier YAML de l'exemple de pipeline.
      Reportez-vous à l'étape 4 de la section Exemple de pipeline RAG.
    2. Dans le fichier YAML, configurez l'exemple de pipeline avec la base de données PostgreSQL pgvector à l'aide de la chaîne de connexion de la base de données.
  5. Afin de fournir une adresse IP externe pour l'exemple d'application de conversation, définissez frontend.service.type sur loadBalancer dans le fichier YAML.
  6. Démarrez l'exemple de pipeline RAG.
    Reportez-vous à la section Exemple de pipeline RAG.
  7. Pour accéder à l'exemple d'application de conversation, exécutez la commande suivante pour obtenir l'adresse IP externe de l'application.
    kubectl -n rag-sample get service rag-playground
  8. Dans un navigateur Web, ouvrez l'exemple d'application de conversation à l'adresse http://application_external_ip:3001/orgs/nvidia/models/text-qa-chatbot.