Você pode implantar cargas de trabalho de IA/ML em clusters TKG em Supervisor usando a tecnologia NVIDIA vGPU.
Suporte do TKG 2 para cargas de trabalho de IA/ML
Você pode implantar cargas de trabalho com uso intensivo de computação em clusters TKG em Supervisor. Nesse contexto, uma carga de trabalho com uso intensivo de computação é um aplicativo de inteligência artificial (IA) ou aprendizado de máquina (ML) que requer o uso de um dispositivo acelerador de GPU.
Para facilitar a execução de cargas de trabalho de IA/ML em um ambiente Kubernetes, a VMware firmou uma parceria com a NVIDIA para oferecer suporte à plataforma NVIDIA vGPU Cloud em vSphere with Tanzu. Isso significa que você pode implantar imagens de contêiner do Catálogo NGC em clusters TKG em Supervisor.
Para obter mais informações sobre o suporte a vGPU no vSphere 8, consulte o artigo vGPU no Tech Zone.
Modos de vGPU compatíveis
A implantação de cargas de trabalho de IA/ML no TKG requer o uso do Ubuntu OVA que está disponível por meio da rede de entrega de conteúdo vSphere with Tanzu. O TKG oferece suporte a dois modos de operações de GPU: vGPU e vGPU com Dynamic DirectPath IO.
Modo | Configuração | Descrição |
---|---|---|
NVIDIA + TKGS + Ubuntu + vGPU |
NVIDIA vGPU |
O dispositivo GPU é virtualizado pelo driver NVIDIA Host Manager instalado em cada host ESXi. O dispositivo de GPU é então compartilhado entre várias GPUs virtuais (vGPUs) da NVIDIA. Cada NVIDIA vGPU é definida pela quantidade de memória do dispositivo GPU. Por exemplo, se o dispositivo GPU tiver uma quantidade total de RAM de 32 GB, você poderá criar 8 vGPUs com 4 GB de memória cada. |
NVIDIA + TKG + Ubuntu + vGPU + NIC Passthrough |
NVIDIA vGPU e E/S dinâmica do DirectPath |
Na mesma Classe de VM em que você configura o perfil NVIDIA vGPU, você inclui suporte para um dispositivo de rede de passagem usando o Dynamic DirectPath IO. Nesse caso, vSphere DRS determina o posicionamento da VM. |