vSphere Fluxo de trabalho do administrador para implantação de cargas de trabalho de IA/ML em clusters TKG 2 em Supervisor

Para permitir que os desenvolvedores implantem cargas de trabalho de IA/ML em clusters TKG 2, como administrador do vSphere, você configura o ambiente do Supervisor para oferecer suporte ao hardware de GPU NVIDIA.

Etapa 1 do administrador: analisar os requisitos do sistema

Consulte os seguintes requisitos de sistema para configurar o ambiente para implantação de cargas de trabalho de IA/ML em clusters TKG.

Requisito	Descrição
vSphere 8 infraestrutura	hosts vCenter Server e ESXi
Licença de gerenciamento de carga de trabalho	vSphere Namespaces e Supervisor
TKR Ubuntu OVA	Tanzu Kubernetes Release Notes Release Notes
Driver de host NVIDIA vGPU	Faça download do VIB do site do NGC. Para obter mais informações, consulte a documentação do driver de software vGPU.
NVIDIA License Server para vGPU	FQDN fornecido pela sua organização

Etapa 2 do administrador: instalar o dispositivo de GPU NVIDIA compatível em ESXi hosts

Para implantar cargas de trabalho de IA/ML no TKG, instale um ou mais dispositivos de GPU NVIDIA compatíveis em cada ESXi host que compreende o vCenter Cluster em que o Gerenciamento de carga de trabalho (Workload Management) será ativado.

Para visualizar os dispositivos de GPU NVIDIA compatíveis, consulte o VMwareGuia de Compatibilidade.

A lista de dispositivos de GPU NVIDIA compatíveis. Clique em um modelo de dispositivo de GPU para visualizar mais detalhes e para assinar feeds RSS.

O dispositivo de GPU NVIDA deve oferecer suporte aos perfis de vGPU do NVIDIA AI Enterprise (NVAIE) mais recentes. Consulte a documentação GPUs compatíveis com o software GPU virtual NVIDIA para obter orientação.

Por exemplo, o seguinte host ESXi tem dois dispositivos NVIDIA GPU A100 instalados nele.

A guia Dispositivos gráficos no vSphere Client lista os dispositivos NVIDIA GPU A100.

Etapa 3 do administrador: configurar cada host ESXi para operações de vGPU

Configure cada host ESXi para vGPU ativando o Shared Direct e o SR-IOV.

Ativar o Shared Direct em cada ESXi Host

Para que a funcionalidade da NVIDIA vGPU seja desbloqueada, ative o modo Shared Direct em cada host ESXi que compreende o vCenter Cluster em que o Workload Management será ativado.

Para ativar o Shared Direct, conclua as etapas a seguir. Para obter orientações adicionais, consulte Configurando dispositivos gráficos na documentação vSphere.

Faça logon no vCenter Server usando o vSphere Client.
Selecione um host ESXi no cluster vCenter.
Selecione Configurar (Configure) > Hardware > Gráficos (Graphics).
Selecione o dispositivo acelerador de GPU NVIDIA.
Edite as configurações do dispositivo gráfico.
Selecione Shared Direct.
Selecione o servidor Reiniciar X.Org (Restart X.Org).
Clique em OK para salvar a configuração.
Clique com o botão direito do mouse no host ESXi e coloque-o no modo de manutenção.
Reinicie o host.
Quando o host estiver em execução novamente, retire-o do modo de manutenção.
Repita esse processo para cada host ESXi no cluster vCenter em que o Gerenciamento de carga de trabalho (Workload Management) será ativado.

A página Editar configurações do dispositivo gráfico com as opções Shared Direct e Reiniciar servidor X.Org selecionadas.

A guia Dispositivos gráficos no vSphere Client lista os dispositivos NVIDIA GPU A100 com o modo Direto compartilhado ativado.

Ativar BIOS SR-IOV para dispositivos NVIDIA GPU A30 e A100

Se estiver usando os dispositivos de GPU NVIDIA A30 ou A100, que são necessários para a GPU de várias instâncias (modo MIG), você deve habilitar o SR-IOV no o host ESXi. Se o SR-IOV não estiver ativado, as VMs de nó de cluster Tanzu Kubernetes não poderão ser iniciadas. Se isso ocorrer, você verá a seguinte mensagem de erro no painel Tarefas recentes do vCenter Server em que o Gerenciamento de carga de trabalho está ativado.

Could not initialize plugin libnvidia-vgx.so for vGPU nvidia_aXXX-xx. Failed to start the virtual machine. Module DevicePowerOn power on failed.

Para habilitar o SR-IOV, faça login no host ESXi usando o console da web. Selecione Gerenciar (Manage) > Hardware (Hardware ). Selecione o dispositivo GPU NVIDIA e clique em Configurar SR-IOV (Configure SR-IOV). A partir daqui, você pode ativar o SR-IOV. Para obter orientações adicionais, consulte Virtualização de E/S de raiz única (SR-IOV) na documentação do vSphere.

vGPU com Dynamic DirectPath IO

Se você estiver usando a vGPU com o Dynamic DirectPath IO, execute a seguinte configuração adicional.

Faça login no vCenter Server usando o vSphere Client.
Selecione o host ESXi de destino no cluster vCenter.
Selecione Configurar (Configure) > Hardware > Dispositivos PCI (PCI Devices).
Selecione a guia Todos os dispositivos PCI.
Selecione o dispositivo acelerador de GPU NVIDIA de destino.
Clique em Alternar passagem (Toggle Passthrough).
Clique com o botão direito do mouse no host ESXi e coloque-o no modo de manutenção.
Reinicie o host.
Quando o host estiver em execução novamente, retire-o do modo de manutenção.

Etapa 4 do administrador: Instalar o driver do NVIDIA Host Manager em cada host ESXi

Para executar VMs de nó de cluster Tanzu Kubernetes com aceleração gráfica NVIDIA vGPU, instale o driver do gerenciador de host NVIDIA em cada host ESXi que compreende o vCenter Cluster em que o Gerenciamento de carga de trabalho será ativado.

Os componentes do driver do gerenciador de host NVIDIA vGPU são empacotados em um pacote de instalação vSphere (VIB). O NVAIE VIB é fornecido a você por sua organização por meio do programa de licenciamento NVIDIA GRID. A VMware não fornece VIBs NVAIE nem as disponibiliza para download. Como parte do programa de licenciamento da NVIDIA, sua organização configura um servidor de licenciamento. Consulte o Guia de início rápido do software GPU virtual da NVIDIA para obter mais informações.

Depois que o ambiente NVIDIA estiver configurado, execute o seguinte comando em cada host ESXi, substitua o endereço do servidor de licença NVIDIA e a versão NVAIE VIB pelos valores apropriados para seu ambiente. Para obter orientações adicionais, consulte Instalando e configurando o NVIDIA VIB em ESXi na VMware Base de conhecimento de suporte.

Observação: A versão do NVAIE VIB instalada em hosts ESXi deve corresponder à versão do software vGPU instalada nas VMs do nó. A versão abaixo é apenas um exemplo.

esxcli system maintenanceMode set --enable true
esxcli software vib install -v ftp://server.domain.example.com/nvidia/signed/NVIDIA_bootbank_NVIDIA-VMware_ESXi_7.0_Host_Driver_460.73.02-1OEM.700.0.0.15525992.vib
esxcli system maintenanceMode set --enable false
/etc/init.d/xorg restart

Etapa 5 do administrador: verificar se os hosts do ESXi estão prontos para operações da NVIDIA vGPU

Para verificar se cada host ESXi está pronto para operações da NVIDIA vGPU, realize as seguintes verificações em cada host ESXi no cluster vCenter em que o Workload Management será ativado:

SSH no host ESXi, entre no modo shell e execute o comando nvidia-smi. A NVIDIA System Management Interface é um utilitário de linha de comando fornecido pelo gerenciador de host NVIDA vGPU. A execução desse comando retorna as GPUs e os drivers no host.
Execute o seguinte comando para verificar se o driver NVIDIA está instalado corretamente: esxcli software vib list | grep NVIDA.
Verifique se o host está configurado com GPU compartilhada direta e se o SR-IOV está ativado (se você estiver usando dispositivos NVIDIA A30 ou A100).
Usando o vSphere Client, no host ESXi configurado para GPU, crie uma nova máquina virtual com um dispositivo PCI incluído. O perfil NVIDIA vGPU deve aparecer e ser selecionável.

Etapa 6 do administrador: ativar o gerenciamento de carga de trabalho

Para ativar o Gerenciamento de carga de trabalho (Workload Management), consulte Implantando o TKG 2 com Supervisor.

Observação: Ignore esta etapa se você já tiver um cluster vCenter com o Gerenciamento de carga de trabalho (Workload Management) ativado, supondo que o cluster esteja usando os hosts ESXi que você configurou para vGPU.

Etapa 7 do administrador: Criar ou atualizar uma biblioteca de conteúdo com um TKR Ubuntu

A NVIDIA vGPU requer o sistema operacional Ubuntu. Não é possível usar a edição PhotonOS de uma versão Tanzu Kubernetes para clusters de vGPU.

VMware fornece edições do Ubuntu de Tanzu Kubernetes versões. A partir do vSphere 8, a edição do Ubuntu é especificada usando uma anotação no YAML do cluster.

Crie ou atualize uma biblioteca de conteúdo existente com um Ubuntu TKR compatível. Consulte Administrando versões de Tanzu Kubernetes para clusters TKG 2 em Supervisor.

Observação: Ignore esta etapa se você já tiver uma biblioteca de conteúdo TKR existente configurada em vCenter. Não crie uma segunda biblioteca de conteúdo para TKRs. Isso pode causar instabilidade no sistema.

Etapa 8 do administrador: criar uma classe de VM personalizada com o perfil de vGPU

A próxima etapa é criar uma classe de VM personalizada com um perfil de vGPU. O sistema usará essa definição de classe ao criar os nós de cluster Tanzu Kubernetes.

Siga as instruções abaixo para criar uma classe de VM personalizada com um perfil de vGPU.

Faça login no vCenter Server usando o vSphere Client.
Selecione Gerenciamento de carga de trabalho.
Selecione Serviços.
Selecione Classes de VMs.
Clique em Criar classe de VM.

Na guia Configuração, configure a Classe de VM personalizada.

Campo de Configuração	Descrição
Nome	Digite um nome autodescritivo para a classe de VM personalizada, como `vmclass-vgpu-1`.
Contagem de vCPU	`2`
Reserva de recursos de CPU	Opcional, OK para deixar em branco
Memória	`80` GB, por exemplo
Reserva de recursos de memória	100% (obrigatório quando dispositivos PCI são configurados em uma classe de VM)
Dispositivos PCI	Sim Observação: A seleção de Sim para dispositivos PCI informa ao sistema que você está usando um dispositivo GPU e altera a configuração da Classe da VM para oferecer suporte à configuração da vGPU.

Por exemplo:

Clique em Avançar.
Na guia Dispositivos PCI, selecione a opção Adicionar dispositivo PCI (Add PCI Device) > NVIDIA vGPU.

Configure o modelo da NVIDIA vGPU.

Campo NVIDIA vGPU	Descrição
Modelo	Selecione o modelo do dispositivo de hardware da GPU NVIDIA entre os disponíveis no menu NVIDIA vGPU > Modelo (Model). Se o sistema não mostrar nenhum perfil, nenhum dos hosts no cluster terá suporte a dispositivos PCI.
Compartilhamento de GPU	Essa configuração define como o dispositivo de GPU é compartilhado entre VMs habilitadas para GPU. Há dois tipos de implementações de vGPU: Time Sharing e Multi-Instance GPU Sharing. No modo de compartilhamento de tempo, o programador de vGPU instrui a GPU a realizar o trabalho para cada VM habilitada para vGPU em série por um período de tempo com a meta de melhor esforço de balancear o desempenho entre vGPUs. O modo MIG permite que várias VMs habilitadas para vGPU sejam executadas em paralelo em um único dispositivo GPU. O modo MIG é baseado em uma arquitetura de GPU mais recente e é compatível apenas com dispositivos NVIDIA A100 e A30. Se a opção MIG não for exibida, o dispositivo PCI selecionado não é compatível com ela.
Modo GPU	Cálculo
Memória da GPU	`8` GB, por exemplo
Número de vGPUs	1, por exemplo

Por exemplo, aqui está um perfil NVIDIA vGPU configurado no modo Time Sharing:

A guia Dispositivos PCI com o perfil NVIDIA vGPU que você configurou no modo de compartilhamento de tempo.

Por exemplo, aqui está um perfil NVIDIA vGPU configurado no modo MIG com dispositivo GPU compatível:

A guia Dispositivos PCI com o perfil NVIDIA vGPU que você configurou no modo Compartilhamento de GPU de várias instâncias.

Clique em Avançar.
Revise e confirme suas seleções.
Clique em Concluir.
Verifique se a nova Classe de VM personalizada está disponível na lista de Classes de VM.

vGPU com Dynamic DirectPath IO

Se você estiver usando a vGPU com o Dynamic DirectPath IO, conclua a seguinte configuração adicional. Adicione uma segunda configuração de dispositivo PCI à classe de VM personalizada que você criou com o Dynamic DirectPath IO especificado e o dispositivo PCI compatível selecionado. Quando uma Classe de VM desse tipo é instanciada, o vSphere Agendador de Recursos Distribuídos (DRS) determina o posicionamento da VM.

Selecione Gerenciamento de carga de trabalho.
Selecione Serviços.
Selecione Classes de VMs.
Edite a classe de VM personalizada que já está configurada com o perfil NVIDIA vGPU.
Selecione a guia Dispositivos PCI.
Clique em Adicionar dispositivo PCI (Add PCI Device).
Selecione a opção Dynamic DirectPath IO.
Selecione o Dispositivo PCI.
Por exemplo:
Clique em Avançar.
Revise e confirme suas seleções.
Clique em Concluir.
Verifique se a nova Classe de VM personalizada está disponível na lista de Classes de VM.

Etapa 9 do administrador: criar e configurar um vSphere Namespace

Crie um vSphere Namespace para cada cluster de vGPU TKG que você planeja provisionar. Configure o vSphere Namespace adicionando vSphere usuários/grupos de SSO com permissões de Edição e anexe uma política de armazenamento para volumes permanentes. Associe a biblioteca de conteúdo do TKR e a classe de VM personalizada ao vSphere Namespace. Consulte Configurando vSphere Namespaces para clusters TKG 2 em Supervisor.

Etapa 10 do administrador: Verificar se o Cluster do Supervisor está acessível

A última tarefa de administração é verificar se o Supervisor está provisionado e disponível para uso pelo Operador de Cluster para provisionar um cluster TKG para cargas de trabalho de IA/ML.

Consulte Conectando-se a clusters TKG em Supervisor usando a autenticação de SSO do vCenter.