Déploiement de charges de travail RAG

En tant qu'expert en science des données ou ingénieur DevOps, vous pouvez utiliser Automation Service Broker pour déployer des charges de travail RAG NVIDIA.

Note : Cette documentation est basée sur VMware Aria Automation 8.18. Pour plus d'informations sur la fonctionnalité VMware Private AI Foundation dans VMware Aria Automation 8.18.1, reportez-vous à la section Déploiement de charges de travail RAG en utilisant les éléments de catalogue en libre-service dans VMware Aria Automation dans la documentation de VMware Private AI Foundation avec NVIDIA.

Déployer un poste de travail RAG

En tant qu'expert en science des données, vous pouvez déployer une station de travail prenant en charge les GPU avec la solution de référence de génération augmentée par récupération (RAG, Retrieval Augmented Generation) à partir du catalogue Automation Service Broker en libre-service.

La solution de référence RAG montre comment trouver de la valeur dans l'IA générative en augmentant une LLM de base existante afin de l'adapter à votre cas d'utilisation d'entreprise. Cela s'effectue à l'aide de la fonctionnalité de génération augmentée par récupération (RAG, Retrieval Augmented Generation) qui récupère les faits d'une base de connaissances d'entreprise contenant les données commerciales de votre société. Soyez particulièrement attentif aux façons dont vous pouvez augmenter un LLM avec vos données d'entreprise spécifiques à votre domaine pour créer des applications d'IA agiles et réactives aux nouveaux développements.

Procédure

Sur la page Catalogue de Automation Service Broker, recherchez la carte AI RAG Workstation et cliquez sur Demande.
Sélectionnez un projet.
Entrez un nom et une description pour votre déploiement.

Configurez les paramètres du poste de travail RAG.

Paramètre	Exemple de valeur
Classe de VM	`A100 Small - 1 vGPU (16 GB), 8 CPUs and 16 GB Memory` Spécification de classe de machine virtuelle : CPU : 10 vCPU RAM CPU : 64 Go GPU : 2 × H100 Mémoire GPU : 50 Go
Taille du disque de données	`3 Gi`
Mot de passe utilisateur	Saisissez un mot de passe pour l'utilisateur par défaut. Vous pouvez être invité à réinitialiser votre mot de passe lors de la première connexion.
Clé publique SSH	Ce paramètre est facultatif.

Installer les personnalisations du logiciel.
1. (Facultatif) Si vous souhaitez installer un cloud-init personnalisé en plus du cloud-init défini pour le bundle de logiciels RAG, cochez la case et collez le contenu du module de configuration.
  VMware Aria Automation fusionne le cloud-init du bundle de logiciels RAG et le cloud-init personnalisé.
2. Fournissez votre clé d'accès au portail NVIDIANGC.
3. Entrez les informations d'identification de Docker Hub.
Cliquez sur Envoyer.

Résultats

Votre station de travail inclut Ubuntu 22.04, un pilote vGPU NVIDIA, un moteur Docker, NVIDIA Container Toolkit et une solution RAG de référence qui utilise le modèle Llama-2-13b-chat.

Déployer un cluster RAG Tanzu Kubernetes Grid accéléré par GPU

En tant qu'ingénieur DevOps utilisant le catalogue Automation Service Broker en libre-service, vous pouvez provisionner un cluster RAG Tanzu Kubernetes Grid prenant en charge les GPU, dans lequel les nœuds worker peuvent exécuter une solution RAG de référence qui utilise le modèle Llama2-13b-chat.

Le déploiement contient un espace de noms de superviseur et un cluster Tanzu Kubernetes Grid. Le cluster TKG contient deux espaces de noms de superviseur : un pour l'opérateur GPU NVIDIA et l'autre pour l'opérateur LLM RAG NVIDIA, tous deux préinstallés sur le cluster TKG. Les applications Carvel pour chaque opérateur sont déployées dans ces deux espaces de noms.

Procédure

Sur la page Catalogue dans Automation Service Broker, recherchez la carte AI Kubernetes RAG Cluster et cliquez sur Demande.
Sélectionnez un projet.
Entrez un nom et une description pour votre déploiement.

Sélectionnez le nombre de nœuds du panneau de contrôle.

Paramètre	Exemple de valeur
Nombre de nœuds	`1`
Classe de VM	`best-effort-2xlarge - 8 CPUs and 64 GB Memory` La sélection de classe définit les ressources disponibles dans la machine virtuelle.

Sélectionnez le nombre de nœuds de travail.

Paramètre	Description
Nombre de nœuds	`3`
Classe de VM	`best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPUs and 120 GB Memory` Spécification de classe de machine virtuelle : CPU : 10 vCPU RAM CPU : 64 Go GPU : 2 × H100 Mémoire GPU : 50 Go
Réplicas de découpage temporel	`1` Le découpage temporel définit un ensemble de réplicas pour un GPU partagé entre les charges de travail.

Fournissez la clé API d'entreprise d'IA NVIDIA.
Cliquez sur Envoyer.