Sobre a implantação de cargas de trabalho de IA/ML em clusters TKG 2 em Supervisor

Você pode implantar cargas de trabalho de IA/ML em clusters TKG em Supervisor usando a tecnologia NVIDIA vGPU.

Suporte do TKG 2 para cargas de trabalho de IA/ML

Você pode implantar cargas de trabalho com uso intensivo de computação em clusters TKG em Supervisor. Nesse contexto, uma carga de trabalho com uso intensivo de computação é um aplicativo de inteligência artificial (IA) ou aprendizado de máquina (ML) que requer o uso de um dispositivo acelerador de GPU.

Para facilitar a execução de cargas de trabalho de IA/ML em um ambiente Kubernetes, a VMware firmou uma parceria com a NVIDIA para oferecer suporte à plataforma NVIDIA vGPU Cloud em vSphere with Tanzu. Isso significa que você pode implantar imagens de contêiner do Catálogo NGC em clusters TKG em Supervisor.

Para obter mais informações sobre o suporte a vGPU no vSphere 8, consulte o artigo vGPU no Tech Zone.

Modos de vGPU compatíveis

A implantação de cargas de trabalho de IA/ML no TKG requer o uso do Ubuntu OVA que está disponível por meio da rede de entrega de conteúdo vSphere with Tanzu. O TKG oferece suporte a dois modos de operações de GPU: vGPU e vGPU com Dynamic DirectPath IO.

Modo	Configuração	Descrição
NVIDIA + TKGS + Ubuntu + vGPU	NVIDIA vGPU	O dispositivo GPU é virtualizado pelo driver NVIDIA Host Manager instalado em cada host ESXi. O dispositivo de GPU é então compartilhado entre várias GPUs virtuais (vGPUs) da NVIDIA. Cada NVIDIA vGPU é definida pela quantidade de memória do dispositivo GPU. Por exemplo, se o dispositivo GPU tiver uma quantidade total de RAM de 32 GB, você poderá criar 8 vGPUs com 4 GB de memória cada.
NVIDIA + TKG + Ubuntu + vGPU + NIC Passthrough	NVIDIA vGPU e E/S dinâmica do DirectPath	Na mesma Classe de VM em que você configura o perfil NVIDIA vGPU, você inclui suporte para um dispositivo de rede de passagem usando o Dynamic DirectPath IO. Nesse caso, vSphere DRS determina o posicionamento da VM.

Modo

Configuração

Descrição

NVIDIA + TKGS + Ubuntu + vGPU

NVIDIA vGPU

O dispositivo GPU é virtualizado pelo driver NVIDIA Host Manager instalado em cada host ESXi. O dispositivo de GPU é então compartilhado entre várias GPUs virtuais (vGPUs) da NVIDIA.

Cada NVIDIA vGPU é definida pela quantidade de memória do dispositivo GPU. Por exemplo, se o dispositivo GPU tiver uma quantidade total de RAM de 32 GB, você poderá criar 8 vGPUs com 4 GB de memória cada.

NVIDIA + TKG + Ubuntu + vGPU + NIC Passthrough

NVIDIA vGPU

E/S dinâmica do DirectPath

Na mesma Classe de VM em que você configura o perfil NVIDIA vGPU, você inclui suporte para um dispositivo de rede de passagem usando o Dynamic DirectPath IO. Nesse caso, vSphere DRS determina o posicionamento da VM.