Workflow de l'administrateur vSphere pour le déploiement de charges de travail AI/ML sur des clusters TKGS

Pour permettre aux développeurs de déployer des charges de travail AI/ML sur des clusters TKG, en tant qu'administrateur vSphere, vous configurez l'environnement Superviseur pour prendre en charge le matériel NVIDIA GPU.

Étape 1 pour l'administrateur : Vérification de la configuration système requise

Reportez-vous à la configuration système requise suivante pour configurer l'environnement de déploiement de charges de travail AI/ML sur des clusters TKG.

Serveur	Description
Infrastructure vSphere 8	vCenter Server et hôtes ESXi
Licence de gestion de la charge de travail	Espaces de noms vSphere et Superviseur
Fichier OVA TKR Ubuntu	Notes de mise à jour des versions de Tanzu Kubernetes
Pilote d'hôte NVIDIA vGPU	Téléchargez le VIB à partir du site Web NGC. Pour plus d'informations, reportez-vous à la documentation relative au pilote logiciel de vGPU.
License Server NVIDIA pour vGPU	Nom de domaine complet fourni par votre organisation

Étape 2 pour l'administrateur : Installation du périphérique NVIDIA GPU pris en charge sur les hôtes ESXi

Pour déployer des charges de travail AI/ML sur TKG, installez un ou plusieurs périphériques NVIDIA GPU pris en charge sur chaque hôte ESXi comprenant le cluster vCenter où la Gestion de la charge de travail sera activée.

Pour afficher les périphériques NVIDIA GPU compatibles, reportez-vous au Guide de compatibilité VMware.

Liste des périphériques GPU NVIDIA compatibles. Cliquez sur un modèle de périphérique GPU pour afficher plus de détails et pour vous abonner aux flux RSS.

Le périphérique NVIDA GPU doit prendre en charge les derniers profils vGPU de NVIDIA AI Enterprise (NVAIE). Reportez-vous à la documentation sur les GPU pris en charge par le logiciel NVIDIA Virtual GPU pour obtenir des instructions.

Par exemple, deux périphériques NVIDIA GPU A100 sont installés sur l'hôte ESXi suivant.

L'onglet Périphériques graphiques de vSphere Client répertorie les périphériques GPU NVIDIA A100.

Étape 3 pour l'administrateur : Configuration de chaque hôte ESXi pour les opérations vGPU

Pour chaque hôte ESXi comprenant le cluster vCenter sur lequel la Gestion de la charge de travail est activée, configurez l'hôte pour NVIDIA vGPU en activant Partagés en direct et SR-IOV.

Activer Partagés en direct sur chaque hôte ESXi

Pour déverrouiller la fonctionnalité NVIDIA vGPU, activez le mode Partagés en direct sur chaque hôte ESXi comprenant le cluster vCenter sur lequel la Gestion de la charge de travail sera activée.

Pour activer le mode Partagés en direct, procédez comme suit. Pour obtenir des instructions supplémentaires, reportez-vous à la section Configurer des graphiques virtuels sur vSphere.

Connectez-vous à vCenter Server à l'aide du vSphere Client.
Sélectionnez un hôte ESXi dans le cluster vCenter.
Sélectionnez Configurer > Matériel > Graphiques > Périphériques graphiques.
Sélectionnez le périphérique accélérateur NVIDIA GPU.
Modifiez les paramètres des périphériques graphiques.
Sélectionnez Partagés en direct.
Pour des performances optimales, dans Stratégie d'attribution de GPU de relais partagé, sélectionnez Étendre des machines virtuelles sur les GPU
Cliquez sur OK pour enregistrer la configuration.
Notez que les paramètres prendront effet après le redémarrage de l'hôte.
Cliquez avec le bouton droit sur l'hôte ESXi et mettez-le en mode maintenance.
Redémarrez l'hôte.
Lorsque l'hôte s'exécute à nouveau, faites-le sortir du mode maintenance.
Répétez ce processus pour chaque hôte ESXi dans le cluster vSphere où la Gestion de la charge de travail sera activée.

Activer le BIOS SR-IOV pour les périphériques NVIDIA GPU A30 et A100

Si vous utilisez les périphériques NVIDIA GPU A30 ou A100, qui sont requis pour le GPU à plusieurs instances (mode MIG), vous devez activer SR-IOV sur l'hôte ESXi. Si SR-IOV n'est pas activé, les machines virtuelles du nœud de cluster Tanzu Kubernetes ne peuvent pas démarrer. Si cela se produit, le message d'erreur suivant s'affiche dans le volet Tâches récentes du vCenter Server où la Gestion de la charge de travail est activée.

Could not initialize plugin libnvidia-vgx.so for vGPU nvidia_aXXX-xx. Failed to start the virtual machine. Module DevicePowerOn power on failed.

Pour activer SR-IOV, connectez-vous à l'hôte ESXi à l'aide de la console Web. Sélectionnez Gérer > Matériel. Sélectionnez le périphérique NVIDIA GPU et cliquez sur Configurer SR-IOV. À partir de là, vous pouvez activer SR-IOV. Pour obtenir des instructions supplémentaires, reportez-vous à la section Single Root I/O Virtualization (SR-IOV) de la documentation vSphere.

vGPU avec E/S DirectPath dynamique (périphérique activé pour le relais)

Si vous utilisez vGPU avec E/S DirectPath dynamique, effectuez la configuration supplémentaire suivante.

Connectez-vous à vCenter Server en utilisant vSphere Client.
Sélectionnez un hôte ESXi cible dans le cluster vCenter.
Sélectionnez Configurer > Matériel > Périphériques PCI.
Sélectionnez l'onglet Tous les périphériques PCI.
Sélectionnez le périphérique accélérateur de NVIDIA GPU cible.
Cliquez sur Basculer le relais.
Cliquez avec le bouton droit sur l'hôte ESXi et mettez-le en mode maintenance.
Redémarrez l'hôte.
Lorsque l'hôte s'exécute à nouveau, faites-le sortir du mode maintenance.

Étape 4 pour l'administrateur : Installation du pilote du gestionnaire d'hôte NVIDIA sur chaque hôte ESXi

Pour exécuter des machines virtuelles de nœud de cluster Tanzu Kubernetes avec l'accélération graphique NVIDIA vGPU, installez le pilote du gestionnaire d'hôte NVIDIA sur chaque hôte ESXi comprenant le cluster vCenter où la Gestion de la charge de travail sera activée.

Les composants du pilote du gestionnaire d'hôte NVIDIA vGPU sont regroupés dans un bundle d'installation de vSphere (VIB). Le VIB NVAIE vous est fourni par votre organisation via son programme d'attribution de licences NVIDIA GRID. VMware ne fournit pas de VIB NVAIE ou ne les rend pas disponibles au téléchargement. Dans le cadre du programme d'attribution de licences NVIDIA, votre organisation configure un serveur d'attribution de licences. Pour plus d'informations, reportez-vous au Guide de démarrage rapide du logiciel NVIDIA Virtual GPU.

Une fois l'environnement NVIDIA configuré, exécutez la commande suivante sur chaque hôte ESXi et remplacez l'adresse du License Server NVIDIA et la version du VIB NVAIE par les valeurs appropriées pour votre environnement. Pour obtenir des instructions supplémentaires, reportez-vous à l'article Installation et configuration du VIB NVIDIA sur ESXi de la base de connaissances du VMware Support.

Note : La version du VIB NVAIE installée sur les hôtes ESXi doit correspondre à la version du logiciel vGPU installée sur les machines virtuelles du nœud. La version ci-dessous n'est qu'un exemple.

esxcli system maintenanceMode set --enable true
esxcli software vib install -v ftp://server.domain.example.com/nvidia/signed/NVIDIA_bootbank_NVIDIA-VMware_ESXi_7.0_Host_Driver_460.73.02-1OEM.700.0.0.15525992.vib
esxcli system maintenanceMode set --enable false
/etc/init.d/xorg restart

Étape 5 pour l'administrateur : Vérifier que les hôtes ESXi sont prêts pour les opérations NVIDIA vGPU

Pour vérifier que chaque hôte ESXi est prêt pour les opérations NVIDIA vGPU, effectuez les vérifications suivantes sur chaque hôte ESXi du cluster vCenter dans lequel la Gestion de la charge de travail sera activée :

Utilisez le SSH pour vous connecter à l'hôte ESXi, entrez en mode interpréteur de commandes et exécutez la commande nvidia-smi. L'interface de gestion du système NVIDIA est un utilitaire de ligne de commande fourni par le gestionnaire d'hôte NVIDA vGPU. L'exécution de cette commande renvoie les GPU et les pilotes sur l'hôte.
Exécutez la commande suivante pour vérifier que le pilote NVIDIA est correctement installé : esxcli software vib list | grep NVIDA.
Vérifiez que l'hôte est configuré avec le mode Partagés en direct pour le GPU et que le SR-IOV est activé (si vous utilisez des périphériques NVIDIA A30 ou A100).
À l'aide du vSphere Client, sur l'hôte ESXi configuré pour le GPU, créez une machine virtuelle avec un périphérique PCI inclus. Le profil NVIDIA vGPU doit s'afficher et être sélectionnable.

Étape 6 pour l'administrateur : Activation de la gestion de la charge de travail

Pour activer la fonctionnalité Gestion de la charge de travail, reportez-vous à la section Déploiement de clusters Service TKG.

Note : Ignorez cette étape si vous disposez déjà d'un cluster vSphere sur lequel la Gestion de la charge de travail est activée, en supposant que ce cluster utilise les hôtes ESXi que vous avez configurés pour le vGPU.

Étape 7 pour l'administrateur : Création ou mise à jour d'une bibliothèque de contenu avec une instance de TKR Ubuntu

NVIDIA vGPU requiert le système d'exploitation Ubuntu. Vous ne pouvez pas utiliser l'édition PhotonOS d'une version de Tanzu Kubernetes pour les clusters vGPU.

VMware fournit des éditions Ubuntu de versions de Tanzu Kubernetes. À partir de vSphere 8, l'édition Ubuntu est spécifiée à l'aide d'une annotation dans le cluster YAML.

Créez ou mettez à jour une bibliothèque de contenu existante avec une instance de TKR Ubuntu prise en charge. Reportez-vous à la section Administration des versions de Kubernetes pour les clusters Service TKG.

Note : Ignorez cette étape si vous disposez déjà d'une bibliothèque de contenu TKR existante configurée sur vCenter. Ne créez pas de deuxième bibliothèque de contenu pour les TKR. Cela peut entraîner une instabilité du système.

Étape 8 pour l'administrateur : Création d'une classe de machine virtuelle personnalisée avec le profil vGPU

Créez une classe de machine virtuelle personnalisée avec un profil vGPU. Vous utiliserez ensuite cette classe de machine virtuelle dans la spécification de cluster pour créer les nœuds de cluster TKGS. Reportez-vous aux instructions suivantes : Créer une classe de machine virtuelle personnalisée pour les périphériques NVIDIA vGPU.

Étape 9 pour l'administrateur : Configuration de l'Espace de noms vSphere

Créez un Espace de noms vSphere pour chaque cluster TKG vGPU que vous prévoyez de provisionner. Reportez-vous à la section Créer un Espace de noms vSphere pour héberger des clusters Service TKG.

Configurez l'Espace de noms vSphere en ajoutant des utilisateurs ou des groupes SSO vSphere disposant des autorisations de modification, puis attachez une stratégie de stockage pour les volumes persistants. Reportez-vous à la section Configurez un Espace de noms vSphere pour des clusters Service TKG.

Associez la bibliothèque de contenu TKR dans laquelle l'image Ubuntu souhaitée est stockée avec l'Espace de noms vSphere. Reportez-vous à la section Associer la bibliothèque de contenu TKR à l'Service TKG.

Associez la classe de machine virtuelle personnalisée à l' Espace de noms vSphere.

Dans Sélectionner l'Espace de noms vSphere, sélectionnez la vignette Service de machine virtuelle et cliquez sur Gérer des classes de machines virtuelles.
Localisez la classe de machine virtuelle personnalisée que vous avez créée dans la liste des classes.
Sélectionnez (cochez) la classe et cliquez sur Ajouter.

Pour des commandes supplémentaires, consultez Associer les classes de machines virtuelles à l'Espace de noms vSphere.

Étape 10 pour l'administrateur : Vérifier que la Superviseur est prêt

La dernière tâche d'administration consiste à vérifier que le Superviseur est provisionné et disponible pour être utilisé par l'opérateur de cluster afin de provisionner un cluster TKG pour les charges de travail AI/ML.

Reportez-vous à la section Connexion à des clusters Service TKG à l'aide de l'authentification vCenter SSO.