Como engenheiro do DevOps, você pode solicitar um cluster Tanzu Kubernetes Grid (TKG) acelerado por GPU, no qual os nós de trabalhador podem executar cargas de trabalho de IA/ML no catálogo do Automation Service Broker de autoatendimento.
O cluster TKG contém um operador de GPU NVIDIA, que é um operador Kubernetes responsável por configurar o driver NVIDIA adequado para o hardware de GPU NVIDIA nos nós do cluster TKG. O cluster implantado está pronto para uso para cargas de trabalho de AI/ML sem precisar de configuração adicional relacionada à GPU.
A implantação contém um namespace de supervisor, um cluster TKG com três nós de trabalho, vários recursos dentro do cluster TKG e um aplicativo Carvel que implanta o aplicativo Operador de GPU.
Procedimento
- Na página Catálogo no Automation Service Broker, localize o cartão Cluster do Kubernetes de IA e clique em Solicitar.
- Selecione um projeto.
- Digite um nome e uma descrição para a sua implantação.
- Selecione o número de nós do painel de controle.
Configuração Valor de amostra Contagem de nós 1 Classe de VM best-effort-4xlarge - 16 CPUs e 128 GB de memória A seleção de classe define os recursos disponíveis na máquina virtual.
- Selecione o número de nós de trabalho.
Configuração Descrição Contagem de nós 3 Classe de VM best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPUs e 120 GB de Memória Réplicas de corte de tempo 1 O corte de tempo define um conjunto de réplicas para uma GPU que é compartilhada entre cargas de trabalho.
- Forneça chave de API empresarial de IA do NVIDIA.
- Clique em Enviar.