Si votre administrateur de cloud a configuré Private AI Automation Services dans VMware Aria Automation, vous pouvez demander des charges de travail d'IA à l'aide du catalogue Automation Service Broker.

Private AI Automation Services prend en charge deux éléments de catalogue dans Automation Service Broker auxquels les utilisateurs disposant des autorisations respectives peuvent accéder et qu'ils peuvent demander.

  • Station de travail d'IA : machine virtuelle prenant en charge les GPU qui peut être configurée avec le vCPU, le vGPU, la mémoire et le logiciel IA/ML NVIDIA souhaités.
  • Cluster Kubernetes d'IA : cluster Tanzu Kubernetes prenant en charge les GPU qui peut être configuré avec NVIDIA GPU Operator.
Important : L'offre Private AI Automation Services est disponible pour VMware Aria Automation 8.16.2.

Avant de commencer

  • Vérifiez que Private AI Automation Services est configuré pour votre projet et que vous disposez des autorisations pour demander des éléments de catalogue d'IA.

N'oubliez pas que toutes les valeurs correspondent ici à des exemples de cas d'utilisation. Les valeurs de votre compte dépendent de votre environnement.

Déployer une machine virtuelle Deep Learning sur un domaine de charge de travail VI

En tant qu'expert en science des données, vous pouvez déployer un environnement de développement défini par logiciel de GPU unique à partir du catalogue Automation Service Broker en libre-service. Vous pouvez personnaliser la machine virtuelle prenant en charge les GPU grâce aux paramètres de machine afin de modéliser les exigences de développement, spécifier les configurations logicielles IA/ML pour répondre aux exigences de formation et d'inférence, et spécifier les modules IA/ML à partir du registre NVIDIA NGC via une clé d'accès au portail.

Procédure

  1. Cliquez sur l'onglet Consommer dans Automation Service Broker.
  2. Cliquez sur Catalogue.
    Les éléments de catalogue disponibles le sont en fonction du projet que vous avez sélectionné. Si vous n'avez pas sélectionné de projet, tous les éléments du catalogue disponibles s'affichent dans le catalogue.
  3. Localisez la carte Station de travail d'IA, puis cliquez sur Demander.
  4. Sélectionnez un projet.
  5. Entrez un nom et une description pour votre déploiement.
  6. Configurez les paramètres du poste de travail AI.
    Paramètre Exemple de valeur
    Classe de VM A100 Small - 1 vGPU (16 GB), 8 CPUs and 16 GB Memory
    Taille du disque de données 8 GB
    Mot de passe utilisateur Saisissez un mot de passe pour l'utilisateur par défaut. Vous pouvez être invité à réinitialiser votre mot de passe lors de la première connexion.
    Clé publique SSH Ce paramètre est facultatif.
  7. Sélectionnez un bundle de logiciels à installer sur votre poste de travail.
    Paramètre Description
    PyTorch Le conteneur NGC PyTorch est optimisé pour l'accélération GPU et contient un ensemble validé de bibliothèques qui activent et optimisent les performances des GPU. Ce conteneur contient également des logiciels pour l'accélération des charges de travail ETL (DALI, RAPIDS), de formation (cuDNN, NCCL) et d'inférence (TensorRT).
    TensorFlow Le conteneur NGC TensorFlow est optimisé pour l'accélération GPU et contient un ensemble validé de bibliothèques qui activent et optimisent les performances des GPU. Ce conteneur peut également contenir des modifications du code source TensorFlow afin d'optimiser les performances et la compatibilité. Ce conteneur contient également des logiciels pour l'accélération des charges de travail ETL (DALI, RAPIDS), de formation (cuDNN, NCCL) et d'inférence (TensorRT).
    Exemples CUDA Il s'agit d'un ensemble de conteneurs pour exécuter des charges de travail CUDA sur les GPU. La collection inclut des exemples CUDA conteneurisés : vectorAdd (pour démontrer l'ajout de vecteurs), nbody (ou simulation gravitationnelle n-body) et d'autres exemples. Ces conteneurs peuvent être utilisés pour valider la configuration logicielle des GPU dans le système ou simplement pour exécuter des exemples de charges de travail.
    Exportateur DCGM NVIDIA Data Center GPU Manager (DCGM) est une suite d'outils pour la gestion et la surveillance des GPU de centre de données NVIDIA dans des environnements de cluster. Les piles de surveillance se composent généralement d'un collecteur, d'une base de données de série chronologique pour stocker les mesures et d'une couche de visualisation. DCGM-Exporter est un outil d'exportation pour Prometheus permettant de surveiller la santé et d'obtenir des mesures des GPU.
    Serveur d'inférence Triton Le serveur d'inférence Triton fournit une solution d'inférence cloud et Edge optimisée pour les CPU et les GPU. Triton prend en charge un protocole HTTP/REST et GRPC qui permet aux clients distants de demander l'inférence pour n'importe quel modèle géré par le serveur. Pour les déploiements Edge, Triton est disponible en tant que bibliothèque partagée avec une API C qui permet d'inclure toutes les fonctionnalités de Triton directement dans une application.
    Workflow d'IA générative - RAG Cette solution de référence montre comment trouver de la valeur dans l'IA générative en augmentant une LLM de base existante afin de l'adapter à votre cas d'utilisation d'entreprise. Cela est effectué à l'aide de la fonctionnalité de génération augmentée par récupération (RAG, Retrieval Augmented Generation) qui récupère les faits d'une base de connaissances d'entreprise contenant les données commerciales d'une entreprise. Une solution de référence pour un chatbot d'IA puissant basé sur la RAG est décrite dans cette note, y compris le code disponible dans le référentiel Github des exemples d'IA générative de NVIDIA pour les développeurs. Soyez particulièrement attentif aux façons dont vous pouvez augmenter un LLM avec vos données d'entreprise spécifiques à votre domaine pour créer des applications d'IA agiles et réactives aux nouveaux développements.
  8. Entrez une instance personnalisée de cloud-init que vous souhaitez installer en plus du cloud-init défini pour le bundle de logiciels.
    VMware Aria Automation fusionne le cloud-init du bundle de logiciels et le cloud-init personnalisé.
  9. Fournissez votre clé d'accès au portail NVIDIANGC.
  10. Cliquez sur Envoyer.

Déployer un cluster Tanzu Kubernetes prenant en charge l'IA

En tant qu'ingénieur DevOps, vous pouvez demander un cluster Tanzu Kubernetes prenant en charge les GPU, dans lequel les nœuds worker peuvent exécuter des charges de travail IA/ML.

Le cluster TKG contient un opérateur NVIDIA GPU Operator, qui est un opérateur Kubernetes responsable de la configuration du pilote NVIDIA approprié pour le matériel NVIDIA GPU sur les nœuds de cluster TKG. Le cluster déployé est prêt à l'utilisation pour les charges de travail IA/ML sans configuration supplémentaire liée au GPU.

Procédure

  1. Localisez la carte Cluster Kubernetes d'IA, puis cliquez sur Demander.
  2. Sélectionnez un projet.
  3. Entrez un nom et une description pour votre déploiement.
  4. Sélectionnez le nombre de nœuds du panneau de contrôle.
    Paramètre Exemple de valeur
    Nombre de nœuds 1
    Classe de VM cpu-only-medium - 8 CPUs and 16 GB Memory

    La sélection de classe définit les ressources disponibles dans la machine virtuelle.

  5. Sélectionnez le nombre de nœuds de travail.
    Paramètre Description
    Nombre de nœuds 3
    Classe de VM a100-medium - 4 vGPU (64 GB), 16 CPUs and 32 GB Memory
  6. Cliquez sur Envoyer.

Résultats

Le déploiement contient un espace de noms de superviseur, un cluster TKG avec trois nœuds de travail, plusieurs ressources dans le cluster TKG et une application carvel qui déploie l'application d'opérateur GPU.

Surveiller les déploiements Private AI

Vous utilisez la page Déploiements pour gérer vos déploiements et les ressources associées, apporter des modifications aux déploiements, assurer le dépannage des échecs de déploiement, effectuer des modifications sur les ressources et détruire les déploiements inutilisés.

Pour gérer vos déploiements, sélectionnez Consommer > Déploiements > Déploiements.

Pour plus d'informations, reportez-vous à la section Gestion de mes déploiements Automation Service Broker.