vSphere Administrator Addendum for Deploying AI / ML Workloads on TKGS Clusters (vGPU with NIC Passthrough)

Consulte este tópico delta se você estiver configurando o TKGS para oferecer suporte a cargas de trabalho de AI / ML usando vGPU com passagem de NIC.

Ajustes de fluxo de trabalho do administrador do vSphere para vGPU com passagem de NIC

Para usar o vGPU com passagem de NIC, siga o mesmo fluxo de trabalho do vGPU com as seguintes alterações.

Admin Etapa 2: Habilitar passagem para o dispositivo PCI

Para usar o vGPU com NIC Passthrough, configure cada host ESXi para o vGPU descrito aqui: Etapa 2 do administrador: configurar cada ESXi host para operações vGPU.

Além disso, ative a passagem para o dispositivo de GPU da seguinte maneira.

Faça logon no vCenter Server usando o vSphere Client.
Selecione o host de destino ESXi no vCenter Cluster.
Selecione Configure (Configure) > Hardware (Hardware) > PCI Devices (PCI Devices).
Selecione a guia All PCI Devices .
Selecione o dispositivo de destino do acelerador de GPU NVIDIA.
Clique em Alternar Passagem (Toggle Passthrough).
Clique com o botão direito do mouse no host ESXi e coloque-o no modo de manutenção.
Reinicie o host.
Quando o host estiver em execução novamente, tire-o do modo de manutenção.

Admin Etapa 3: instalar o driver NVIDIA Host Manager em cada ESXi host

Para usar o vGPU com passagem de NIC, essa etapa não é necessária e pode ser ignorada.

Etapa 7 do administrador: criar uma classe de VM personalizada com o perfil vGPU

Para usar o vGPU com passagem de NIC, configure uma classe de VM personalizada com um perfil de NVIDIA vGPU conforme descrito aqui: Etapa 7 do administrador: criar uma classe de VM personalizada com o perfil vGPU.

A esta classe de VM você adiciona uma segunda configuração de dispositivo PCI com o Dynamic DirectPath IO especificado e o dispositivo de passagem PCI selecionado. Quando uma classe de VM desse tipo é instanciada, o vSphere Distributed Resource Scheduler (DRS) determina o posicionamento da VM.

Consulte as instruções a seguir para criar uma classe de VM personalizada com suporte para vGPU com passagem de NIC. Para obter orientação adicional, consulte Adicionar dispositivos PCI a uma classe de VM no vSphere with Tanzu.

Faça logon no vCenter Server usando o vSphere Client.
Selecione Workload Management .
Selecione Serviços .
Selecione VM Classes .
Edite a classe de VM personalizada que já está configurada com um perfil do NVIDIA vGPU .
Selecione a guia Dispositivos PCI .
Clique em Add PCI Device (Add PCI Device).
Selecione a opção Dynamic DirectPath IO (Dynamic DirectPath IO).
Selecione o dispositivo PCI que você ativou para a passagem de NIC.
Por exemplo:
Clique em Avançar.
Revise e confirme suas seleções.
Por exemplo:
Clique em Concluir.
Verifique se a nova classe de VM personalizada está disponível na lista de classes de VM.