Para permitir que os desenvolvedores implantem cargas de trabalho de IA/ML em clusters TKG, como operador de cluster, você configura o ambiente Kubernetes para oferecer suporte a operações de vGPU da NVIDIA.
Etapa 1 do operador: verificar os pré-requisitos
Estas instruções pressupõem que o administrador do vSphere configurou o ambiente para NVIDIA vGPU. Consulte vSphere Fluxo de trabalho do administrador para implantação de cargas de trabalho de IA/ML em clusters TKG 2 em Supervisor.
Estas instruções pressupõem que você esteja instalando a edição NVIDIA AI Enterprise (NVAIE) do GPU Operator, que é pré-configurada e otimizada para uso com o vSphere with Tanzu. O Operador de GPU NVAIE é diferente do Operador de GPU que está disponível no catálogo público do NGC. Consulte NVIDIA AI Enterprise para obter mais informações.
Estas instruções pressupõem que você esteja instalando o NVAIE GPU Operator versão 2.2 (v1.11.1) usando sua imagem de driver vGPU pré-compilada. Consulte Versão do operador de GPU NVIDIA para obter mais informações.
Ao provisionar o cluster do TKG, você deve usar a edição Ubuntu do TKR. Com o TKG 2 em vSphere 8 Supervisor, a edição do Ubuntu é especificada no YAML do cluster usando a anotação.
Etapa 2 do operador: provisionar um cluster TKG 2 para vGPU
- Instale o Kubernetes CLI Tools for vSphere.
- Usando o vSphere Plugin for kubectl, autentique com Supervisor.
kubectl vsphere login --server=IP-ADDRESS --vsphere-username USERNAME
- Usando kubectl, alterne o contexto para o vSphere Namespace que o administrador vSphere criou para o cluster de GPU TKG.
kubectl config get-contexts
kubectl config use-context TKG-GPU-CLUSTER-NAMESPACE
- Obtenha o nome da classe de VM personalizada com o perfil de vGPU que o administrador do vSphere criou.
kubectl get virtualmachineclassbindings
Observação: A classe de VM deve estar associada ao destino vSphere Namespace. - Obtenha o NOME TKR para o Ubuntu Tanzu Kubernetes release que o administrador do vSphere sincronizou da biblioteca de conteúdo e adicionou ao vSphere Namespace.
kubectl get tkr
- Crie o YAML para provisionar o cluster TKG habilitado para vGPU.
Comece com o exemplo fornecido aqui: Exemplo de v1alpha3: TKC com Ubuntu TKR. Use as informações que você coletou da saída dos comandos anteriores para personalizar a especificação do cluster.
- Provisione o cluster executando o seguinte comando kubectl.
kubectl apply -f CLUSTER-NAME.yaml
Por exemplo:kubectl apply -f tkg-gpu-cluster-1.yaml
- Verifique o provisionamento do cluster.
Monitore a implantação de nós de cluster usando kubectl.
kubectl get tanzukubernetesclusters -n NAMESPACE
- Faça login no cluster do TKG usando o vSphere Plugin for kubectl.
kubectl vsphere login --server=IP-ADDRESS --vsphere-username USERNAME \ --tanzu-kubernetes-cluster-name CLUSTER-NAME --tanzu-kubernetes-cluster-namespace NAMESPACE-NAME
- Verifique o cluster.
Use os seguintes comandos para verificar o cluster:
kubectl cluster-info
kubectl get nodes
kubectl get namespaces
kubectl api-resources
Operador Etapa 3: Instalar o Operador de GPU com NVIDIA AI Enterprise
A NVIDIA fornece um Operador de GPU para clientes NVIDIA AI Enterprise pré-configurado. Estas instruções pressupõem que você esteja usando esta versão pré-configurada do Operador de GPU. Essas instruções são baseadas nas instruções fornecidas pela NVIDIA para Instalar o operador da GPU, mas foram atualizadas para o TKG 2 em vSphere 8.
- Instale o Helm consultando a documentação do Helm.
- Crie o namespace Kubernetes
gpu-operator
.kubectl create namespace gpu-operator
- Crie um arquivo de configuração de licença de vGPU vazio.
sudo touch gridd.conf
- Gere e baixe um token de licença de cliente NLS.
Consulte a Seção 4.6. Gerando um token de configuração do cliente do Guia do usuário do sistema de licença NVIDIA.
- Renomeie o token de licença do cliente NLS que você baixou para
client_configuration_token.tok
. - Crie o objeto ConfigMap
licensing-config
no namespacegpu-operator
.Incluir o arquivo de configuração de licença da vGPU (gridd.conf
) e o token de licença do cliente NLS (*.tok
) neste ConfigMapkubectl create configmap licensing-config \ -n gpu-operator --from-file=gridd.conf --from-file=<path>/client_configuration_token.tok
- Crie um segredo de pull de imagem para o registro privado que contém o driver gráfico do software NVIDIA vGPU em contêiner para Linux para uso com o NVIDIA GPU Operator.
Crie o segredo de pull da imagem no namespace
gpu-operator
com o nome do segredo do registrongc-secret
e o nome do registro privadonvcr.io/nvaie
. Inclua sua chave de API do NGC e seu endereço de e-mail nos campos indicados.kubectl create secret docker-registry ngc-secret \ --docker-server=‘nvcr.io/nvaie’ \ --docker-username=‘$oauthtoken’ \ --docker-password=<YOUR_NGC_API_KEY> \ --docker-email=<YOUR_EMAIL_ADDRESS> \ -n gpu-operator
- Baixe o gráfico do leme para o NVAIE GPU Operator versão 2.2.
Substitua SUA CHAVE DE API.
helm fetchhttps://helm.ngc.nvidia.com/nvaie/charts/gpu-operator-2-2-v1.11.1.tgz--username=‘$oauthtoken’ \ --password=<YOUR API KEY>
- Instale o NVAIE GPU Operator versão 2.2 no cluster TKG.
helm install gpu-operator ./gpu-operator-2-2-v1.11.1.tgz -n gpu-operator
Etapa 4 do operador: implantar uma carga de trabalho de IA/ML
O Catálogo de Nuvem da GPU NVIDIA oferece várias imagens de contêiner prontas para uso que você pode usar para executar cargas de trabalho de IA/ML em seus clusters Tanzu Kubernetes habilitados para vGPU. Para obter mais informações sobre as imagens disponíveis, consulte a documentação do NGC.