À propos du déploiement de charges de travail AI/ML sur des clusters TKGS

Vous pouvez déployer des charges de travail AI/ML sur des clusters TKGS à l'aide de vSphere with Tanzu et de la technologie vGPU NVIDIA.

Annonce de la prise en charge de TGKS pour les charges de travail AI/ML

À partir de vSphere with Tanzu version 7 Update 3, correctif mensuel 1, il est possible de déployer des charges de travail de calcul intensives sur des clusters Tanzu Kubernetes provisionnés par le Service Tanzu Kubernetes Grid. Dans ce contexte, une charge de travail de calcul intensive est une application d'intelligence artificielle (IA) ou de machine-learning (ML) qui nécessite l'utilisation d'un périphérique accélérateur GPU.

Pour faciliter l'exécution des charges de travail AI/ML dans un environnement Kubernetes, VMware s'est associé à NVIDIA pour prendre en charge la plate-forme cloud NVIDIA GPU sur vSphere with Tanzu. Cela signifie que vous pouvez déployer des images de conteneur à partir du catalogue NGC sur des clusters Tanzu Kubernetes provisionnés par le Service Tanzu Kubernetes Grid.

Pour en savoir plus sur l'architecture conjointe de NVIDIA et VMware pour entreprise compatible avec l'IA, reportez-vous à Accélérer les charges de travail sur vSphere 7 avec Tanzu - Version d’évaluation technique des clusters Kubernetes avec GPU.

Modes vGPU pris en charge

Le déploiement de charges de travail AI/ML sur TKGS nécessite l'utilisation du fichier OVA Ubuntu disponible via le réseau de distribution de contenu vSphere with Tanzu. TKGS prend en charge deux modes d'opérations GPU : vGPU et vGPU avec relais de carte réseau. Le tableau décrit ces deux modes plus en détail.

Mode	Configuration	Description
NVIDIA + TKGS + Ubuntu + vGPU	vGPU NVIDIA	Le périphérique GPU est virtualisé par le pilote NVIDIA Host Manager installé sur chaque hôte ESXi. Le périphérique GPU est ensuite partagé entre plusieurs GPU virtuels (vGPU) NVIDIA. Chaque vGPU NVIDIA est défini par la quantité de mémoire provenant du périphérique GPU. Par exemple, si le périphérique GPU dispose d'une quantité totale de RAM de 32 Go, vous pouvez créer 8 vGPU avec environ 4 Go de mémoire chacun.
NVIDIA + TKGS + Ubuntu + vGPU + relais de carte réseau	vGPU NVIDIA et E/S DirectPath dynamique	Dans la même classe de machine virtuelle que celle dans laquelle vous configurez le profil NVIDIA vGPU, vous incluez la prise en charge d'un périphérique de mise en réseau relais à l'aide de l'E/S DirectPath dynamique. Dans ce cas, vSphere DRS détermine le placement des machines virtuelles.

Mode

Configuration

Description

NVIDIA + TKGS + Ubuntu + vGPU

vGPU NVIDIA

Le périphérique GPU est virtualisé par le pilote NVIDIA Host Manager installé sur chaque hôte ESXi. Le périphérique GPU est ensuite partagé entre plusieurs GPU virtuels (vGPU) NVIDIA.

Chaque vGPU NVIDIA est défini par la quantité de mémoire provenant du périphérique GPU. Par exemple, si le périphérique GPU dispose d'une quantité totale de RAM de 32 Go, vous pouvez créer 8 vGPU avec environ 4 Go de mémoire chacun.

NVIDIA + TKGS + Ubuntu + vGPU + relais de carte réseau

vGPU NVIDIA

E/S DirectPath dynamique

Dans la même classe de machine virtuelle que celle dans laquelle vous configurez le profil NVIDIA vGPU, vous incluez la prise en charge d'un périphérique de mise en réseau relais à l'aide de l'E/S DirectPath dynamique. Dans ce cas, vSphere DRS détermine le placement des machines virtuelles.

Démarrage

Pour configurer NVIDIA vGPU pour TKGS, reportez-vous aux rubriques suivantes :

Si vous utilisez vGPU avec le relais de carte réseau, reportez-vous également à la rubrique suivante : Addendum pour l'administrateur vSphere pour le déploiement de charges de travail AI/ML sur des clusters TKGS (vGPU et E/S DirectPath dynamique).

Si vous utilisez le serveur DLS (Delegated Licensing Server) NVIDIA pour votre compte NVAIE, reportez-vous également à la rubrique suivante : Addendum à l'intention des opérateurs de cluster pour le déploiement de charges de travail AI/ML sur des clusters TKGS (DLS).