Vous pouvez déployer des charges de travail AI/ML sur des clusters TKG sur Superviseur à l'aide de la technologie vGPU NVIDIA.

Prise en charge de TKG pour les charges de travail AI/ML

Vous pouvez déployer des charges de travail de calcul intensives sur des clusters TKG sur Superviseur. Dans ce contexte, une charge de travail de calcul intensive est une application d'intelligence artificielle (IA) ou de machine-learning (ML) qui nécessite l'utilisation d'un périphérique accélérateur GPU.

Pour faciliter l'exécution des charges de travail AI/ML dans un environnement Kubernetes, VMware s'est associé à NVIDIA pour prendre en charge la plate-forme cloud NVIDIA GPU sur vSphere with Tanzu. Cela signifie que vous pouvez déployer des images de conteneur à partir du catalogue NGC sur des clusters TKG provisionnés par le Superviseur.

Pour plus d'informations sur la prise en charge de vGPU dans vSphere 8, consultez l' article sur les vGPU sur Tech Zone.
Note : vSphere Distributed Resource Scheduler (DRS) distribue les machines virtuelles vGPU de manière étendue sur les hôtes comprenant un cluster vSphere. Pour plus d'informations, reportez-vous à la section Placement DRS des machines virtuelles vGPU dans le guide Gestion des ressources vSphere.

Modes vGPU pris en charge

Le déploiement de charges de travail AI/ML sur TKG nécessite l'utilisation du fichier OVA Ubuntu disponible via le réseau de distribution de contenu vSphere with Tanzu. TKG prend en charge deux modes d'opérations GPU : vGPU et vGPU avec E/S DirectPath dynamique.

Mode Configuration Description

NVIDIA + TKGS + Ubuntu + vGPU

vGPU NVIDIA

Le périphérique GPU est virtualisé par le pilote NVIDIA Host Manager installé sur chaque hôte ESXi. Le périphérique GPU est ensuite partagé entre plusieurs GPU virtuels (vGPU) NVIDIA.

Chaque vGPU NVIDIA est défini par la quantité de mémoire provenant du périphérique GPU. Par exemple, si le périphérique GPU dispose d'une quantité totale de RAM de 32 Go, vous pouvez créer 8 vGPU avec 4 Go de mémoire chacun.

NVIDIA + TKG + Ubuntu + vGPU + relais de carte réseau

vGPU NVIDIA

et

E/S DirectPath dynamique

Dans la même classe de machine virtuelle que celle dans laquelle vous configurez le profil NVIDIA vGPU, vous incluez la prise en charge d'un périphérique de mise en réseau relais à l'aide de l'E/S DirectPath dynamique. Dans ce cas, vSphere DRS détermine le placement des machines virtuelles.