À propos du déploiement de charges de travail AI/ML sur des clusters Service TKG

Vous pouvez déployer des charges de travail AI/ML sur des clusters Service TKG à l'aide de la technologie NVIDIA GPU.

Prise en charge de TKGS pour les charges de travail AI/ML

Vous pouvez déployer des charges de travail de calcul intensives sur des clusters Service TKG. Dans ce contexte, une charge de travail de calcul intensive est une application d'intelligence artificielle (IA) ou de machine-learning (ML) qui nécessite l'utilisation d'un périphérique accélérateur GPU.

Pour faciliter l'exécution de charges de travail AI/ML dans un environnement Kubernetes, VMware s'est associé à NVIDIA pour prendre en charge la plate-forme cloud NVIDIA GPU. Cela signifie que vous pouvez déployer des images de conteneur à partir du catalogue NGC sur des clusters TKGS. Pour plus d'informations sur la prise en charge de vSphere 8 NVIDIA GPU, consultez l'article sur les vGPU sur Tech Zone.

Modes GPU pris en charge

Le déploiement de charges de travail AI/ML basées sur NVIDIA sur des clusters Service TKG nécessite l'utilisation de l'édition Ubuntu des versions de Tanzu Kubernetes, versions 1.22 ou ultérieures. vSphere prend en charge deux modes : NVIDIA Grid vGPU et relais GPU à l'aide d'un périphérique Dynamic DirectPath I/O. Pour plus d'informations, reportez-vous à la section Systèmes d'exploitation et plates-formes Kubernetes pris en charge dans la documentation de NVIDIA.

Tableau 1. Machines virtuelles vSphere avec NVIDIA vGPU
SE	TKr	vSphere with Tanzu	Description
Ubuntu 20.04 LTS	1.22 - 1.2x* (dernière version jusqu'à 1.28)	7.0 U3c 8.0 U2 et versions ultérieures	Le périphérique GPU est virtualisé par le pilote NVIDIA Host Manager installé sur chaque hôte ESXi. Le périphérique GPU est ensuite partagé entre plusieurs GPU virtuels (vGPU) NVIDIA. Note : vSphere Distributed Resource Scheduler (DRS) distribue les machines virtuelles vGPU de manière étendue sur les hôtes comprenant un cluster vSphere. Pour plus d'informations, reportez-vous à la section Placement DRS des machines virtuelles vGPU dans le guide Gestion des ressources vSphere. Chaque vGPU NVIDIA est défini par la quantité de mémoire provenant du périphérique GPU. Par exemple, si le périphérique GPU dispose d'une quantité totale de RAM de 32 Go, vous pouvez créer 8 vGPU avec 4 Go de mémoire chacun.

Tableau 2. VM vSphere avec relais GPU
SE	TKr	vSphere with Tanzu	Description
Ubuntu 20.04 LTS	1.22 - 1.2x* (dernière version jusqu'à 1.28)	7.0 U3c 8.0 U2 et versions ultérieures	Dans la même classe de machine virtuelle que celle dans laquelle vous configurez le profil NVIDIA vGPU, vous incluez la prise en charge d'un périphérique de mise en réseau relais à l'aide de l'E/S DirectPath dynamique. Dans ce cas, vSphere DRS détermine le placement des machines virtuelles.