Conditions requises de déploiement de VMware Private AI Foundation with NVIDIA

Déployez des composants de VMware Private AI Foundation with NVIDIA de votre environnement VMware Cloud Foundation dans un domaine de charge de travail VI sur lequel certains composants NVIDIA doivent être installés.

Versions logicielles VMware requises

Reportez-vous à la section Composants VMware dans VMware Private AI Foundation with NVIDIA.

Périphériques GPU NVIDIA pris en charge

Avant d'utiliser VMware Private AI Foundation with NVIDIA, assurez-vous que les GPU sur vos hôtes ESXi sont pris en charge par VMware by Broadcom :

Tableau 1. Composants NVIDIA pris en charge pour VMware Private AI Foundation with NVIDIA
Composant NVIDIA	Options prises en charge
GPU NVIDIA	NVIDIA A100 NVIDIA L40S NVIDIA H100
Mode de partage de GPU	Découpage temporel GPU multi-instances (MIG)

Logiciel NVIDIA requis

Le périphérique GPU doit prendre en charge les derniers profils vGPU de NVIDIA AI Enterprise (NVAIE). Pour plus d'informations, reportez-vous à la documentation des GPU pris en charge par le logiciel NVIDIA Virtual GPU.

Pilote d'hôte NVIDIA vGPU (y compris le VIB pour les hôtes ESXi), compatible avec votre version de VMware Cloud Foundation. Reportez-vous aux Notes de mise à jour du logiciel Virtual GPU pour VMware vSphere.
Opérateur NVIDIA GPU compatible avec la version Kubernetes des clusters TKG déployés. Reportez-vous aux Notes de mise à jour de l'opérateur NVIDIA GPU et à Notes de mise à jour de VMware Tanzu Kubernetes.

Configuration requise de VMware Cloud Foundation

Avant de déployer VMware Private AI Foundation with NVIDIA, une configuration spécifique doit être disponible dans VMware Cloud Foundation.

VMware Cloud Foundation sur vSAN ReadyNodes™.
Une licence VMware Cloud Foundation.
Une licence de module complémentaire VMware Private AI Foundation with NVIDIA.
Vous avez besoin de la licence de module complémentaire VMware Private AI Foundation with NVIDIA pour accéder aux fonctionnalités suivantes :
- La configuration de Private AI dans VMware Aria Automation pour les éléments de catalogue afin de faciliter le provisionnement de machines virtuelles à apprentissage profond accélérées par GPU et de clusters TKG.
- Provisionnement de bases de données PostgreSQL à l'aide de l'extension pgvector avec l'assistance de l'entreprise.
- Déploiement et utilisation de l'image de machine virtuelle à apprentissage profond fournie par VMware by Broadcom.
- Workflow de déploiement guidé dans vSphere Client.
Vous pouvez déployer des charges de travail d'IA avec et sans superviseur activé, et utiliser les mesures de GPU dans vCenter Server et VMware Aria Operations avec la licence VMware Cloud Foundation.
Ajoutez votre licence VMware Private AI Foundation with NVIDIA en tant que licence de solution au système de gestion des licences dans l'instance de vCenter Server de gestion. Vous pouvez ajouter la licence de l'une des manières suivantes :
- Lors de la première utilisation du workflow de déploiement guidé dans vSphere Client.
- À l'aide de l'interface utilisateur de gestion des licences dans vSphere Client. Reportez-vous à la section Gestion des licences vSphere.
Produit NVIDIA vGPU sous licence incluant le fichier VIB du pilote d'hôte pour les hôtes ESXi et les pilotes du SE invité. Pour plus d'informations, reportez-vous à la documentation des GPU pris en charge par le logiciel NVIDIA Virtual GPU.
Fichier VIB du pilote d'hôte NVIDIA vGPU téléchargé à partir de https://nvid.nvidia.com/
Une image vSphere Lifecycle Manager avec le fichier VIB du pilote du gestionnaire d'hôte vGPU disponible dans SDDC Manager. Reportez-vous à la section Gestion des images de vSphere Lifecycle Manager dans VMware Cloud Foundation.
Au moins 3 hôtes ESXi avec GPU activé à inclure dans le cluster par défaut d'un domaine de charge de travail VI.
Pilote d'hôte NVIDIA vGPU installé et vGPU configuré sur chaque hôte ESXi dans le cluster pour les charges de travail d'IA.
1. Sur chaque hôte ESXi, activez SR-IOV dans le BIOS et Partagés en direct sur les périphériques graphiques pour les opérations d'IA.
  Pour plus d'informations sur la configuration de SR-IOV, reportez-vous à la documentation de votre fournisseur du matériel. Pour plus d'informations sur la configuration de Partagés en direct sur les périphériques graphiques, reportez-vous à la section Configurer des graphiques virtuels sur vSphere.
2. Installez le pilote d'hôte NVIDIA vGPU sur chaque hôte ESXi de l'une des manières suivantes :
  - Installez le pilote sur chaque hôte et ajoutez le fichier VIB du pilote à l'image vSphere Lifecycle du cluster.
    Reportez-vous au Guide de démarrage rapide du logiciel NVIDIA Virtual GPU.
  - Ajoutez le fichier VIB du pilote à l'image vSphere Lifecycle du cluster et corrigez les hôtes.
3. Pour utiliser le partage de GPU multi-instances (MIG), activez-le sur chaque hôte ESXi du cluster.
  Reportez-vous à la section Guide de l'utilisateur de NVIDIA MIG.