VMware Private AI Foundation with NVIDIA s'exécute en plus de l'ajout de la prise en charge de VMware Cloud Foundation pour toutes les charges de travail d'IA dans les domaines de charge de travail VI avec vSphere IaaS control plane provisionné à l'aide de kubectl et de VMware Aria Automation.

Figure 1. Exemple d'architecture pour VMware Private AI Foundation with NVIDIA


Tableau 1. Composants pour l'exécution de charges de travail d'IA dans VMware Private AI Foundation with NVIDIA
Composant Description
Hôtes ESXi avec GPU activé Hôtes ESXi configurés de la manière suivante :
  • Le GPU NVIDIA doit être pris en charge pour VMware Private AI Foundation with NVIDIA. Le GPU est partagé entre les charges de travail à l'aide du découpage temporel ou du mécanisme de GPU multi-instances (MIG).
  • Le pilote du gestionnaire d'hôte NVIDIA vGPU doit être installé afin que vous puissiez utiliser des profils vGPU basés sur MIG ou le découpage temporel.
Superviseur Un ou plusieurs clusters vSphere doivent être activés pour vSphere IaaS control plane afin que vous puissiez exécuter des machines virtuelles et des conteneurs sur vSphere à l'aide de l'API Kubernetes. Un superviseur est un cluster Kubernetes, servant de plan de contrôle pour gérer les clusters de charge de travail et les machines virtuelles.
Registre Harbor Registre d'images local dans un environnement déconnecté dans lequel vous hébergez les images de conteneur téléchargées à partir du catalogue NVIDIA NGC.
Cluster NSX Edge Cluster de nœuds NSX Edge qui fournit un routage nord-sud à 2 niveaux pour le superviseur et les charges de travail qu'il exécute.

La passerelle de niveau 0 sur le cluster NSX Edge est en mode actif-actif.

Opérateurs NVIDIA
  • Opérateur NVIDIA GPU. Automatise la gestion de tous les composants logiciels NVIDIA requis pour provisionner le GPU dans les conteneurs d'un cluster Kubernetes. L'opérateur NVIDIA GPU est déployé sur un cluster TKG.
  • Opérateur réseau NVIDIA. L'opérateur réseau NVIDIA permet également de configurer les pilotes mellanox appropriés pour les conteneurs à l'aide de fonctions virtuelles pour la mise en réseau haut débit, RDMA et GPUDirect.

    L'opérateur réseau fonctionne conjointement avec l'opérateur GPU pour activer GPUDirect RDMA sur des systèmes compatibles.

    L'opérateur réseau NVIDIA est déployé sur un cluster TKG.

Base de données vectorielle Base de données PostgreSQL sur laquelle l'extension pgvector est activée afin que vous puissiez l'utiliser dans les charges de travail d'IA de génération augmentée de récupération (RAG).
  • Portail de licences NVIDIA
  • NVIDIA Delegated License Service (DLS)
Utilisez le portail de licences NVIDIA pour générer un jeton de configuration client afin d'attribuer une licence au pilote vGPU invité dans la machine virtuelle à apprentissage profond et les opérateurs GPU sur les clusters TKG.

Dans un environnement déconnecté ou pour que vos charges de travail obtiennent des informations de licence sans utiliser de connexion Internet, hébergez les licences NVIDIA localement sur un dispositif DLS (Delegated License Service).

Bibliothèque de contenu Les bibliothèques de contenu stockent les images pour les machines virtuelles à apprentissage profond et pour les versions de Tanzu Kubernetes. Utilisez ces images pour le déploiement de charges de travail d'IA dans l'environnement VMware Private AI Foundation with NVIDIA. Dans un environnement connecté, les bibliothèques de contenu extraient leur contenu des bibliothèques de contenu publiques gérées de VMware. Dans un environnement déconnecté, vous devez charger manuellement les images requises ou les extraire d'un serveur miroir de bibliothèque de contenu interne.
Catalogue NVIDIA GPU Cloud (NGC) Portail des conteneurs optimisés pour le GPU de l'IA et de l'apprentissage automatique qui sont testés et prêts à s'exécuter sur des GPU NVIDIA pris en charge sur site au-dessus de VMware Private AI Foundation with NVIDIA.

En tant qu'administrateur de cloud, utilisez les composants de gestion dans VMware Cloud Foundation

Tableau 2. Composants de gestion dans VMware Private AI Foundation with NVIDIA
Composant de gestion Description
SDDC Manager Utilisez SDDC Manager pour les tâches suivantes :
  • Déployez un domaine de charge de travail VI avec GPU activé basé sur des images vSphere Lifecycle Manager et ajoutez-y des clusters.
  • Déployez un cluster NSX Edge dans des domaines de charge de travail VI à utiliser par les instances de superviseur et dans le domaine de gestion pour les composants de VMware Aria Suite de VMware Private AI Foundation with NVIDIA.
  • Déployez une instance de VMware Aria Suite Lifecycle intégrée au référentiel SDDC Manager.
Instance de vCenter Server de domaine de charge de travail VI Utilisez cette instance de vCenter Server pour activer et configurer un superviseur.
NSX Manager de domaine de charge de travail VI SDDC Manager utilise cette instance de NSX Manager pour déployer et mettre à jour des clusters NSX Edge.
VMware Aria Suite Lifecycle Utilisez VMware Aria Suite Lifecycle pour déployer et mettre à jour VMware Aria Automation, ainsi que VMware Aria Operations.
VMware Aria Automation Utilisez VMware Aria Automation pour ajouter des éléments de catalogue en libre-service pour le déploiement de charges de travail d'IA pour les ingénieurs DevOps et les scientifiques des données.
VMware Aria Operations Utilisez VMware Aria Operations pour surveiller la consommation de GPU dans les domaines de charge de travail avec GPU activé.
VMware Data Services Manager Utilisez VMware Data Services Manager pour créer des bases de données vectorielles, telles qu'une base de données PostgreSQL avec l'extension pgvector.