Sobre a implantação de cargas de trabalho de AI / ML em clusters TKGS

Você pode implantar cargas de trabalho de AI / ML em clusters TKGS usando a tecnologia vSphere with Tanzu e NVIDIA vGPU.

Anunciando o suporte do TGKS para cargas de trabalho de IA / ML

Começando com o lançamento da vSphere with Tanzu versão 7, atualização 3, patch 1 mensal, você pode implantar cargas de trabalho de processamento intensivo em clusters do Tanzu Kubernetes provisionados pelo Tanzu Kubernetes Grid Service. Nesse contexto, uma carga de trabalho de processamento intensivo é um aplicativo de inteligência artificial (IA) ou de aprendizado de máquina (ML) que requer o uso de um dispositivo acelerador de GPU.

Para facilitar a execução de cargas de trabalho de AI / ML em um ambiente Kubernetes, a VMware fez uma parceria com a NVIDIA para oferecer suporte à plataforma de nuvem de GPU NVIDIA no vSphere with Tanzu. Isso significa que você pode implantar imagens de contêiner do Catálogo do NGC em clusters do Tanzu Kubernetes provisionados pelo Tanzu Kubernetes Grid Service.

Para saber mais sobre a arquitetura conjunta NVIDIA e VMware para a empresa pronta para a IA, consulte Accelerating Workloads on vSphere 7 with Tanzu - A Technical Preview of Kubernetes Clusters with GPUs .

Modos vGPU compatíveis

A implantação de cargas de trabalho de AI / ML no TKGS requer o uso do OVA do Ubuntu que está disponível por meio da rede de distribuição de conteúdo do vSphere with Tanzu. O TKGS oferece suporte a dois modos de operações de GPU: vGPU e vGPU com passagem de NIC. A tabela descreve os dois modos em mais detalhes.

Modo	Configuração	Descrição
NVIDIA + TKGS + Ubuntu + vGPU	NVIDIA vGPU	O dispositivo GPU é virtualizado pelo driver NVIDIA Host Manager instalado em cada host ESXi. O dispositivo GPU é então compartilhado entre várias GPUs virtuais NVIDIA (vGPUs). Cada vGPU NVIDIA é definida pela quantidade de memória do dispositivo GPU. Por exemplo, se o dispositivo GPU tiver uma quantidade total de RAM de 32 GB, você poderá criar 8 vGPUs com aproximadamente 4 GB de memória cada.
NVIDIA + TKGS + Ubuntu + vGPU + NIC Passthrough	NVIDIA vGPU e Dynamic DirectPath IO	Na mesma classe de VM em que você configura o perfil NVIDIA vGPU, você inclui suporte para um dispositivo de rede de passagem usando o Dynamic DirectPath IO. Nesse caso, o vSphere DRS determina o posicionamento da VM.

Modo

Configuração

Descrição

NVIDIA + TKGS + Ubuntu + vGPU

NVIDIA vGPU

O dispositivo GPU é virtualizado pelo driver NVIDIA Host Manager instalado em cada host ESXi. O dispositivo GPU é então compartilhado entre várias GPUs virtuais NVIDIA (vGPUs).

Cada vGPU NVIDIA é definida pela quantidade de memória do dispositivo GPU. Por exemplo, se o dispositivo GPU tiver uma quantidade total de RAM de 32 GB, você poderá criar 8 vGPUs com aproximadamente 4 GB de memória cada.

NVIDIA + TKGS + Ubuntu + vGPU + NIC Passthrough

NVIDIA vGPU

Dynamic DirectPath IO

Na mesma classe de VM em que você configura o perfil NVIDIA vGPU, você inclui suporte para um dispositivo de rede de passagem usando o Dynamic DirectPath IO. Nesse caso, o vSphere DRS determina o posicionamento da VM.

Introdução

Para configurar o NVIDIA vGPU para TKGS, consulte os seguintes tópicos:

Se você estiver usando o vGPU com NIC Passthrough, consulte também o seguinte tópico: vSphere Administrator Addendum for Deploying AI / ML Workloads on TKGS Clusters (vGPU with NIC Passthrough).

Se você estiver usando o NVIDIA Delegated Licensing Server (DLS) para a sua conta NVAIE, consulte também o seguinte tópico: Cluster Operator Addendum for Deploying AI / ML Workloads on TKGS Clusters (DLS).