Como engenheiro do DevOps, você pode solicitar um cluster Tanzu Kubernetes Grid (TKG) acelerado por GPU, no qual os nós de trabalhador podem executar cargas de trabalho de IA/ML no catálogo do Automation Service Broker de autoatendimento.

Observação: Esta documentação é baseada no VMware Aria Automation 8.18. Para obter informações sobre a funcionalidade do VMware Private AI Foundation no VMware Aria Automation 8.18.1, consulte Instalar um cluster TKG acelerado por GPU usando um item de catálogo de autoatendimento no VMware Aria Automation, na documentação do VMware Private AI Foundation com NVIDIA.

O cluster TKG contém um operador de GPU NVIDIA, que é um operador Kubernetes responsável por configurar o driver NVIDIA adequado para o hardware de GPU NVIDIA nos nós do cluster TKG. O cluster implantado está pronto para uso para cargas de trabalho de AI/ML sem precisar de configuração adicional relacionada à GPU.

A implantação contém um namespace de supervisor, um cluster TKG com três nós de trabalho, vários recursos dentro do cluster TKG e um aplicativo Carvel que implanta o aplicativo Operador de GPU.

Procedimento

  1. Na página Catálogo no Automation Service Broker, localize o cartão Cluster do Kubernetes de IA e clique em Solicitar.
  2. Selecione um projeto.
  3. Digite um nome e uma descrição para a sua implantação.
  4. Selecione o número de nós do painel de controle.
    Configuração Valor de amostra
    Contagem de nós 1
    Classe de VM best-effort-4xlarge - 16 CPUs e 128 GB de memória

    A seleção de classe define os recursos disponíveis na máquina virtual.

  5. Selecione o número de nós de trabalho.
    Configuração Descrição
    Contagem de nós 3
    Classe de VM best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPUs e 120 GB de Memória
    Réplicas de corte de tempo 1

    O corte de tempo define um conjunto de réplicas para uma GPU que é compartilhada entre cargas de trabalho.

  6. Forneça chave de API empresarial de IA do NVIDIA.
  7. Clique em Enviar.