En tant qu'ingénieur DevOps utilisant le catalogue d'Automation Service Broker en libre-service, vous pouvez provisionner un cluster RAG Tanzu Kubernetes Grid avec GPU activé, dans lequel les nœuds worker peuvent exécuter une solution RAG de référence qui utilise le modèle Llama2-13b-chat.

Le déploiement contient un espace de noms de superviseur et un cluster Tanzu Kubernetes Grid. Le cluster TKG contient deux espaces de noms de superviseur : un pour l'opérateur GPU NVIDIA et l'autre pour l'opérateur LLM RAG NVIDIA, tous deux préinstallés sur le cluster TKG. Les applications Carvel pour chaque opérateur sont déployées dans ces deux espaces de noms.

Procédure

  1. Sur la page Catalogue dans Automation Service Broker, recherchez la carte Cluster RAG Kubernetes d'IA et cliquez sur Demander.
  2. Sélectionnez un projet.
  3. Entrez un nom et une description pour le déploiement.
  4. Sélectionnez le nombre de nœuds du panneau de contrôle.
    Paramètre Exemple de valeur
    Nombre de nœuds 1
    Classe de VM best-effort-2xlarge - 8 CPU et 64 Go de mémoire

    La sélection de la classe définit les ressources disponibles dans la machine virtuelle.

  5. Sélectionnez le nombre de nœuds de travail.
    Paramètre Description
    Nombre de nœuds 3
    Classe de VM best-effort-4xlarge-a100-40c - 1 vGPU (40 Go), 16 CPU et 120 Go de mémoire
    Spécifications minimales de classe de VM :
    • CPU : 10 vCPU
    • RAM de CPU : 64 Go
    • GPU : 2xH100
    • Mémoire du GPU : 50 Go
    Réplicas de découpage temporel 1

    Le découpage temporel définit un ensemble de réplicas pour un GPU partagé entre les charges de travail.

  6. Fournissez la clé API NVIDIA AI Enterprise.
  7. Cliquez sur Envoyer.