Pour permettre aux développeurs de déployer des charges de travail AI/ML sur des clusters TKG, en tant qu'administrateur vSphere, vous configurez l'environnement Superviseur pour prendre en charge le matériel NVIDIA GPU.
Étape 1 pour l'administrateur : Vérification de la configuration système requise
Serveur | Description |
---|---|
Infrastructure vSphere 8 |
vCenter Server et hôtes ESXi |
Licence de gestion de la charge de travail |
Espaces de noms vSphere et Superviseur |
Fichier OVA TKR Ubuntu | |
Pilote d'hôte NVIDIA vGPU |
Téléchargez le VIB à partir du site Web NGC. Pour plus d'informations, reportez-vous à la documentation relative au pilote logiciel de vGPU. |
License Server NVIDIA pour vGPU |
Nom de domaine complet fourni par votre organisation |
Étape 2 pour l'administrateur : Installation du périphérique NVIDIA GPU pris en charge sur les hôtes ESXi
Pour déployer des charges de travail AI/ML sur TKG, installez un ou plusieurs périphériques NVIDIA GPU pris en charge sur chaque hôte ESXi comprenant le cluster vCenter où la Gestion de la charge de travail sera activée.
Pour afficher les périphériques NVIDIA GPU compatibles, reportez-vous au Guide de compatibilité VMware.
Le périphérique NVIDA GPU doit prendre en charge les derniers profils vGPU de NVIDIA AI Enterprise (NVAIE). Reportez-vous à la documentation sur les GPU pris en charge par le logiciel NVIDIA Virtual GPU pour obtenir des instructions.
Par exemple, deux périphériques NVIDIA GPU A100 sont installés sur l'hôte ESXi suivant.
Étape 3 pour l'administrateur : Configuration de chaque hôte ESXi pour les opérations vGPU
Pour chaque hôte ESXi comprenant le cluster vCenter sur lequel la Gestion de la charge de travail est activée, configurez l'hôte pour NVIDIA vGPU en activant Partagés en direct et SR-IOV.
Activer Partagés en direct sur chaque hôte ESXi
Pour déverrouiller la fonctionnalité NVIDIA vGPU, activez le mode Partagés en direct sur chaque hôte ESXi comprenant le cluster vCenter sur lequel la Gestion de la charge de travail sera activée.
- Connectez-vous à vCenter Server à l'aide du vSphere Client.
- Sélectionnez un hôte ESXi dans le cluster vCenter.
- Sélectionnez .
- Sélectionnez le périphérique accélérateur NVIDIA GPU.
- Modifiez les paramètres des périphériques graphiques.
- Sélectionnez Partagés en direct.
- Pour des performances optimales, dans Stratégie d'attribution de GPU de relais partagé, sélectionnez Étendre des machines virtuelles sur les GPU
- Cliquez sur OK pour enregistrer la configuration.
- Notez que les paramètres prendront effet après le redémarrage de l'hôte.
- Cliquez avec le bouton droit sur l'hôte ESXi et mettez-le en mode maintenance.
- Redémarrez l'hôte.
- Lorsque l'hôte s'exécute à nouveau, faites-le sortir du mode maintenance.
- Répétez ce processus pour chaque hôte ESXi dans le cluster vSphere où la Gestion de la charge de travail sera activée.
Activer le BIOS SR-IOV pour les périphériques NVIDIA GPU A30 et A100
Si vous utilisez les périphériques NVIDIA GPU A30 ou A100, qui sont requis pour le GPU à plusieurs instances (mode MIG), vous devez activer SR-IOV sur l'hôte ESXi. Si SR-IOV n'est pas activé, les machines virtuelles du nœud de cluster Tanzu Kubernetes ne peuvent pas démarrer. Si cela se produit, le message d'erreur suivant s'affiche dans le volet Tâches récentes du vCenter Server où la Gestion de la charge de travail est activée.
Could not initialize plugin libnvidia-vgx.so for vGPU nvidia_aXXX-xx. Failed to start the virtual machine. Module DevicePowerOn power on failed.
Pour activer SR-IOV, connectez-vous à l'hôte ESXi à l'aide de la console Web. Sélectionnez Configurer SR-IOV. À partir de là, vous pouvez activer SR-IOV. Pour obtenir des instructions supplémentaires, reportez-vous à la section Single Root I/O Virtualization (SR-IOV) de la documentation vSphere.
. Sélectionnez le périphérique NVIDIA GPU et cliquez survGPU avec E/S DirectPath dynamique (périphérique activé pour le relais)
- Connectez-vous à vCenter Server en utilisant vSphere Client.
- Sélectionnez un hôte ESXi cible dans le cluster vCenter.
- Sélectionnez .
- Sélectionnez l'onglet Tous les périphériques PCI.
- Sélectionnez le périphérique accélérateur de NVIDIA GPU cible.
- Cliquez sur Basculer le relais.
- Cliquez avec le bouton droit sur l'hôte ESXi et mettez-le en mode maintenance.
- Redémarrez l'hôte.
- Lorsque l'hôte s'exécute à nouveau, faites-le sortir du mode maintenance.
Étape 4 pour l'administrateur : Installation du pilote du gestionnaire d'hôte NVIDIA sur chaque hôte ESXi
Pour exécuter des machines virtuelles de nœud de cluster Tanzu Kubernetes avec l'accélération graphique NVIDIA vGPU, installez le pilote du gestionnaire d'hôte NVIDIA sur chaque hôte ESXi comprenant le cluster vCenter où la Gestion de la charge de travail sera activée.
Les composants du pilote du gestionnaire d'hôte NVIDIA vGPU sont regroupés dans un bundle d'installation de vSphere (VIB). Le VIB NVAIE vous est fourni par votre organisation via son programme d'attribution de licences NVIDIA GRID. VMware ne fournit pas de VIB NVAIE ou ne les rend pas disponibles au téléchargement. Dans le cadre du programme d'attribution de licences NVIDIA, votre organisation configure un serveur d'attribution de licences. Pour plus d'informations, reportez-vous au Guide de démarrage rapide du logiciel NVIDIA Virtual GPU.
esxcli system maintenanceMode set --enable true esxcli software vib install -v ftp://server.domain.example.com/nvidia/signed/NVIDIA_bootbank_NVIDIA-VMware_ESXi_7.0_Host_Driver_460.73.02-1OEM.700.0.0.15525992.vib esxcli system maintenanceMode set --enable false /etc/init.d/xorg restart
Étape 5 pour l'administrateur : Vérifier que les hôtes ESXi sont prêts pour les opérations NVIDIA vGPU
- Utilisez le SSH pour vous connecter à l'hôte ESXi, entrez en mode interpréteur de commandes et exécutez la commande
nvidia-smi
. L'interface de gestion du système NVIDIA est un utilitaire de ligne de commande fourni par le gestionnaire d'hôte NVIDA vGPU. L'exécution de cette commande renvoie les GPU et les pilotes sur l'hôte. - Exécutez la commande suivante pour vérifier que le pilote NVIDIA est correctement installé :
esxcli software vib list | grep NVIDA
. - Vérifiez que l'hôte est configuré avec le mode Partagés en direct pour le GPU et que le SR-IOV est activé (si vous utilisez des périphériques NVIDIA A30 ou A100).
- À l'aide du vSphere Client, sur l'hôte ESXi configuré pour le GPU, créez une machine virtuelle avec un périphérique PCI inclus. Le profil NVIDIA vGPU doit s'afficher et être sélectionnable.
Étape 6 pour l'administrateur : Activation de la gestion de la charge de travail
Étape 7 pour l'administrateur : Création ou mise à jour d'une bibliothèque de contenu avec une instance de TKR Ubuntu
NVIDIA vGPU requiert le système d'exploitation Ubuntu. Vous ne pouvez pas utiliser l'édition PhotonOS d'une version de Tanzu Kubernetes pour les clusters vGPU.
VMware fournit des éditions Ubuntu de versions de Tanzu Kubernetes. À partir de vSphere 8, l'édition Ubuntu est spécifiée à l'aide d'une annotation dans le cluster YAML.
Étape 8 pour l'administrateur : Création d'une classe de machine virtuelle personnalisée avec le profil vGPU
Créez une classe de machine virtuelle personnalisée avec un profil vGPU. Vous utiliserez ensuite cette classe de machine virtuelle dans la spécification de cluster pour créer les nœuds de cluster TKGS. Reportez-vous aux instructions suivantes : Créer une classe de machine virtuelle personnalisée pour les périphériques NVIDIA vGPU.
Étape 9 pour l'administrateur : Configuration de l'Espace de noms vSphere
Créez un Espace de noms vSphere pour chaque cluster TKG vGPU que vous prévoyez de provisionner. Reportez-vous à la section Créer un Espace de noms vSphere pour héberger des clusters Service TKG.
Configurez l'Espace de noms vSphere en ajoutant des utilisateurs ou des groupes SSO vSphere disposant des autorisations de modification, puis attachez une stratégie de stockage pour les volumes persistants. Reportez-vous à la section Configurez un Espace de noms vSphere pour des clusters Service TKG.
Associez la bibliothèque de contenu TKR dans laquelle l'image Ubuntu souhaitée est stockée avec l'Espace de noms vSphere. Reportez-vous à la section Associer la bibliothèque de contenu TKR à l'Service TKG.
- Dans Sélectionner l'Espace de noms vSphere, sélectionnez la vignette Service de machine virtuelle et cliquez sur Gérer des classes de machines virtuelles.
- Localisez la classe de machine virtuelle personnalisée que vous avez créée dans la liste des classes.
- Sélectionnez (cochez) la classe et cliquez sur Ajouter.
Étape 10 pour l'administrateur : Vérifier que la Superviseur est prêt
La dernière tâche d'administration consiste à vérifier que le Superviseur est provisionné et disponible pour être utilisé par l'opérateur de cluster afin de provisionner un cluster TKG pour les charges de travail AI/ML.
Reportez-vous à la section Connexion à des clusters Service TKG à l'aide de l'authentification vCenter SSO.