En tant qu'ingénieur DevOps, vous pouvez déployer sur un cluster TKG dans un superviseur une charge de travail RAG basée sur l'exemple de pipeline RAG de NVIDIA qui utilise une base de données PostgreSQL pgvector gérée par VMware Data Services Manager.

Conditions préalables

Procédure

  1. Provisionnez un cluster TKG accéléré par GPU.
    Vous pouvez utiliser l'un des workflows suivants.
    Workflow de provisionnement Étapes
    En utilisant un élément de catalogue dans VMware Aria Automation Déployer un cluster RAG Tanzu Kubernetes Grid accéléré par GPU.
    En utilisant la commande kubectl
    1. Provisionnez un cluster TKG accéléré par GPU à l'aide de la commande kubectl.
    2. Installez l'opérateur LLM RAG.

      Reportez-vous à la section Installer l'opérateur LLM RAG.

  2. Si vous avez utilisé la commande kubectl pour provisionner le cluster TKG, installez NVIDIA RAG LLM Operator sur le cluster TKG.

    Reportez-vous à la section Installer l'opérateur LLM RAG.

    Lors du déploiement, l'élément de catalogue Cluster Kubernetes RAG d'IA dans VMware Aria Automation installe automatiquement NVIDIA RAG LLM Operator sur le cluster TKG.

  3. Téléchargez les manifestes de l'exemple de pipeline NVIDIA RAG.
    Reportez-vous à la section Exemple de pipeline RAG.
  4. Configurez l'exemple de pipeline RAG avec la base de données PostgreSQL pgvector.
    1. Modifiez le fichier YAML de l'exemple de pipeline.
      Reportez-vous à l'étape 4 de la section Exemple de pipeline RAG.
    2. Dans le fichier YAML, configurez l'exemple de pipeline avec la base de données PostgreSQL pgvector à l'aide de la chaîne de connexion de la base de données.
  5. Afin de fournir une adresse IP externe pour l'exemple d'application de conversation, définissez frontend.service.type sur loadBalancer dans le fichier YAML.
  6. Démarrez l'exemple de pipeline RAG.
    Reportez-vous à la section Exemple de pipeline RAG.
  7. Pour accéder à l'exemple d'application de conversation, exécutez la commande suivante pour obtenir l'adresse IP externe de l'application.
    kubectl -n rag-sample get service rag-playground
  8. Dans un navigateur Web, ouvrez l'exemple d'application de conversation à l'adresse http://application_external_ip:3001/orgs/nvidia/models/text-qa-chatbot.