En tant qu'administrateur de cloud, vous pouvez utiliser la pile VMware Cloud Foundation pour gérer l'infrastructure prenant en charge les GPU et les domaines de charge de travail AI/ML. Dans VMware Aria Automation, vous pouvez configurer et fournir des machines virtuelles Deep Learning (DL VM) et des clusters Tanzu Kubernetes Grid (TKG) prenant en charge les GPU en tant qu'éléments de catalogue que les experts en science des données et les équipes DevOps de votre organisation peuvent demander dans le catalogue Automation Service Broker en libre-service.
Présentation de VMware Private AI Foundation
VMware Private AI Foundation avec NVIDIA fournit une plate-forme de provisionnement de charges de travail d'IA sur VMware Cloud Foundation avec des GPU NVIDIA. En outre, l'exécution de charges de travail d'IA basées sur des conteneurs NVIDIA GPU Cloud (NGC) est spécifiquement validée par VMware by Broadcom. Pour en savoir plus, reportez-vous à la section Présentation de VMware Private AI Foundation avec NVIDIA.
Private AI Automation Services est le nom collectif de toutes les fonctionnalités VMware Private AI Foundation disponibles dans VMware Aria Automation.
Pour démarrer avec Private AI Automation Services, exécutez l'assistant de configuration de catalogue dans VMware Aria Automation. L'assistant vous aide à connecter VMware Private AI Foundation à VMware Aria Automation.
Fonctionnement de l'assistant de configuration de catalogue
- Ajoutez un compte de cloud vCenter. Les comptes de cloud fournissent les informations d'identification à utiliser pour collecter des données de votre instance de vCenter et y déployer des ressources.
- Ajoutez une licence NVIDIA.
- Sélectionnez le contenu à ajouter au catalogue Automation Service Broker.
- Créez un projet. Le projet lie vos utilisateurs aux régions de compte de cloud, afin qu'ils puissent déployer des modèles de cloud avec des réseaux et des ressources de stockage sur votre instance de vCenter.
- Station de travail d'IA : machine virtuelle prenant en charge les GPU qui peut être configurée avec le vCPU, le vGPU, la mémoire et le logiciel IA/ML de NVIDIA souhaités.
- Cluster Kubernetes d'IA : cluster Tanzu Kubernetes prenant en charge les GPU qui peut être configuré avec l'opérateur NVIDIA GPU Operator.
Vous pouvez exécuter l'assistant plusieurs fois si vous voulez modifier l'un des paramètres fournis, par exemple pour modifier une licence, ou si vous souhaitez créer des éléments de catalogue d'IA pour d'autres projets. Chaque fois que vous exécutez l'assistant, deux nouveaux éléments de catalogue sont créés en plus des éléments créés précédemment.
Avant de commencer
- Vérifiez que vous exécutez VMware Aria Automation 8.17.
- Vérifiez que vous exécutez VMware Cloud Foundation 5.1.1, qui inclut vCenter 8.0 Update U2b.
- Vérifiez que vous avez ajouté un compte de cloud vCenter dans VMware Aria Automation.
- Vérifiez que vous disposez d'une organisation NVIDIA GPU Cloud Enterprise avec un abonnement au service cloud premium.
- Vérifiez que vous disposez d'un cluster superviseur prenant en charge les GPU via la fonctionnalité de gestion de la charge de travail.
- Configurez VMware Aria Automation pour VMware Private AI Foundation avec NVIDIA. Reportez-vous à la section Configurer VMware Aria Automation pour VMware Private AI Foundation avec NVIDIA.
- Terminez le démarrage rapide de VMware Cloud Foundation avant d'exécuter l'assistant de configuration de catalogue. Les clusters SDDC et superviseur doivent être enregistrés dans VMware Aria Automation. Reportez-vous à la section Prise en main de VMware Aria Automation avec le démarrage rapide de VMware Cloud Foundation.
- Vérifiez que vous avez généré le fichier de licence .tok à partir du serveur de licence NVIDIA et que vous disposez de votre clé d'API du portail NVIDIA NGC. La clé d'accès au portail NVIDIA NGC est utilisée pour télécharger et installer des pilotes vGPU.
- Configurez Single Sign-On (SSO) pour l'interface de consommation de cloud (CCI). Reportez-vous à la section Configuration de Single Sign-On pour CCI.
- Vérifiez que vous êtes abonné à la bibliothèque de contenu à l'aide de la page https://packages.vmware.com/dl-vm/lib.json.
Procédure
- Après avoir installé VMware Aria Automation et vous y être connecté pour la première fois, cliquez sur Lancer le démarrage rapide.
- Sur la carte Private AI Automation Services, cliquez sur Démarrer.
- Sélectionnez le compte de cloud auquel provisionner l'accès.
N'oubliez pas que toutes les valeurs correspondent ici à des exemples de cas d'utilisation. Les valeurs de votre compte dépendent de votre environnement.
- Sélectionnez un compte de cloud vCenter.
- Sélectionnez un superviseur prenant en charge les GPU.
- Entrez un nom de région.
Envisagez d'utiliser un nom descriptif pour votre région qui aide vos utilisateurs à distinguer les régions prenant en charge les GPU des autres régions disponibles.
Une région est automatiquement sélectionnée si le superviseur est déjà configuré avec une région.
- Cliquez sur Suivant.
- Fournissez des informations sur votre serveur de licences NVIDIA.
- Sélectionnez le type de serveur de licences NVIDIA.
- Une instance de CLS (Cloud License Service) est hébergée sur le portail de licences NVIDIA.
- Une instance de DLS (Delegated License Service) est hébergée sur site à un emplacement et est accessible à partir d'un réseau privé. Si vous sélectionnez ce type de serveur, vous devez également fournir l'emplacement du serveur.
- Copiez et collez le contenu du fichier de licence.
La clé d'API du portail de licences NVIDIA est utilisée pour évaluer si un utilisateur a le droit de télécharger les pilotes de vGPU NVIDIA. La clé d'API doit être un UUID.Note : La clé d'API que vous générez à partir du portail de licences NVIDIA n'est pas la même que la clé d'API NVAIE.
- Cliquez sur Suivant.
- Sélectionnez le type de serveur de licences NVIDIA.
- Configurez les éléments du catalogue.
- Sélectionnez l'image de machine virtuelle à utiliser pour créer la machine virtuelle de station de travail.
- Sélectionnez les classes de machine virtuelle que vous souhaitez mettre à la disposition des utilisateurs de votre catalogue.
Vous devez ajouter au moins une classe compatible GPU et une classe non compatible GPU.
- Les classes de machine virtuelle prenant en charge les GPU sont utilisées pour la machine virtuelle Deep Learning et pour les nœuds worker du cluster Kubernetes. Lorsque l'élément de catalogue est déployé, le cluster Kubernetes est créé avec les classes de machine virtuelle sélectionnées.
- Des nœuds non compatibles avec le GPU sont requis pour exécuter les plans de contrôle Kubernetes.
- Sélectionnez la classe de stockage à appliquer aux machines virtuelles.
- Spécifiez le registre de conteneur dans lequel vous souhaitez extraire les ressources NVIDIA GPU Cloud.
Si vous sélectionnez un registre autohébergé, les éléments du catalogue nécessitent une configuration manuelle supplémentaire une fois l'assistant terminé. Contactez les services professionnels VMware by Broadcom.
- Cliquez sur Suivant.
- Configurez l'accès aux éléments du catalogue en créant un projet et en attribuant des utilisateurs.
Les projets sont utilisés pour gérer des personnes, des ressources attribuées, des modèles de cloud et des déploiements.
- Entrez un nom et une description pour le projet.
Le nom du projet ne doit contenir que des caractères alphanumériques minuscules ou des traits d'union (-).
- Pour rendre les éléments du catalogue disponibles pour d'autres utilisateurs, ajoutez un Administrateur et des Membres.
Les administrateurs ont plus d'autorisations que les membres. Pour plus d'informations, reportez-vous à la section Présentation des rôles d'utilisateur de VMware Aria Automation.
- Cliquez sur Suivant.
- Entrez un nom et une description pour le projet.
- Vérifiez votre configuration sur la page Résumé.
Envisagez d'enregistrer les détails de votre configuration avant d'exécuter l'assistant.
- Cliquez sur Terminer.
Résultats
Les éléments de catalogue Station de travail d'IA et Cluster Kubernetes d'IA sont créés dans le catalogue Automation Service Broker et les utilisateurs de votre organisation peuvent désormais les déployer.
Étape suivante
- Vérifiez que le modèle est disponible dans le catalogue pour les membres des projets sélectionnés avec lesquels vous avez partagé le contenu et surveillez le processus de provisionnement pour garantir un déploiement correct. Reportez-vous à la section Déploiement d'éléments de catalogue PAIF.
- Si vous souhaitez contrôler la durée d'existence d'un déploiement, créez un bail. Reportez-vous à la section Définition des stratégies Automation Service Broker.
- Pour modifier les entrées utilisateur au moment de la demande, vous pouvez créer un formulaire personnalisé. Reportez-vous à la section Personnalisation d'une icône et d'un formulaire de demande Automation Service Broker.
Dépannage
- Si l'assistant de configuration de catalogue échoue, exécutez-le à nouveau pour un autre projet.