Para permitir que os desenvolvedores implantem cargas de trabalho de IA/ML em clusters TKG, como operador de cluster, você configura o ambiente Kubernetes para oferecer suporte a operações de vGPU da NVIDIA.

Etapa 1 do operador: verificar os pré-requisitos

Estas instruções pressupõem que o administrador do vSphere configurou o ambiente para NVIDIA vGPU. Consulte vSphere Fluxo de trabalho do administrador para implantação de cargas de trabalho de IA/ML em clusters TKG 2 em Supervisor.

Estas instruções pressupõem que você esteja instalando a edição NVIDIA AI Enterprise (NVAIE) do GPU Operator, que é pré-configurada e otimizada para uso com o vSphere with Tanzu. O Operador de GPU NVAIE é diferente do Operador de GPU que está disponível no catálogo público do NGC. Consulte NVIDIA AI Enterprise para obter mais informações.

Estas instruções pressupõem que você esteja instalando o NVAIE GPU Operator versão 2.2 (v1.11.1) usando sua imagem de driver vGPU pré-compilada. Consulte Versão do operador de GPU NVIDIA para obter mais informações.

Ao provisionar o cluster do TKG, você deve usar a edição Ubuntu do TKR. Com o TKG 2 em vSphere 8 Supervisor, a edição do Ubuntu é especificada no YAML do cluster usando a anotação.

Etapa 2 do operador: provisionar um cluster TKG 2 para vGPU

Para provisionar um cluster TKG 2 para hospedar cargas de trabalho de vGPU, conclua as etapas a seguir.
  1. Instale o Kubernetes CLI Tools for vSphere.

    Consulte Instale o Kubernetes CLI Tools for vSphere.

  2. Usando o vSphere Plugin for kubectl, autentique com Supervisor.
    kubectl vsphere login --server=IP-ADDRESS --vsphere-username USERNAME
  3. Usando kubectl, alterne o contexto para o vSphere Namespace que o administrador vSphere criou para o cluster de GPU TKG.
    kubectl config get-contexts
    kubectl config use-context TKG-GPU-CLUSTER-NAMESPACE
  4. Obtenha o nome da classe de VM personalizada com o perfil de vGPU que o administrador do vSphere criou.
    kubectl get virtualmachineclassbindings
    Observação: A classe de VM deve estar associada ao destino vSphere Namespace.
  5. Obtenha o NOME TKR para o Ubuntu Tanzu Kubernetes release que o administrador do vSphere sincronizou da biblioteca de conteúdo e adicionou ao vSphere Namespace.
    kubectl get tkr
  6. Crie o YAML para provisionar o cluster TKG habilitado para vGPU.

    Comece com o exemplo fornecido aqui: Exemplo de v1alpha3: TKC com Ubuntu TKR. Use as informações que você coletou da saída dos comandos anteriores para personalizar a especificação do cluster.

  7. Provisione o cluster executando o seguinte comando kubectl.
    kubectl apply -f CLUSTER-NAME.yaml
    Por exemplo:
    kubectl apply -f tkg-gpu-cluster-1.yaml
  8. Verifique o provisionamento do cluster.
    Monitore a implantação de nós de cluster usando kubectl.
    kubectl get tanzukubernetesclusters -n NAMESPACE
  9. Faça login no cluster do TKG usando o vSphere Plugin for kubectl.
    kubectl vsphere login --server=IP-ADDRESS --vsphere-username USERNAME \
    --tanzu-kubernetes-cluster-name CLUSTER-NAME --tanzu-kubernetes-cluster-namespace NAMESPACE-NAME
  10. Verifique o cluster.
    Use os seguintes comandos para verificar o cluster:
    kubectl cluster-info
    kubectl get nodes
    kubectl get namespaces
    kubectl api-resources

Operador Etapa 3: Instalar o Operador de GPU com NVIDIA AI Enterprise

A NVIDIA fornece um Operador de GPU para clientes NVIDIA AI Enterprise pré-configurado. Estas instruções pressupõem que você esteja usando esta versão pré-configurada do Operador de GPU. Essas instruções são baseadas nas instruções fornecidas pela NVIDIA para Instalar o operador da GPU, mas foram atualizadas para o TKG 2 em vSphere 8.

Conclua as etapas a seguir para instalar o Operador de GPU NVIDIA AI Enterprise no cluster TKG que você provisionou.
  1. Instale o Helm consultando a documentação do Helm.
  2. Crie o namespace Kubernetes gpu-operator.
    kubectl create namespace gpu-operator
  3. Crie um arquivo de configuração de licença de vGPU vazio.
    sudo touch gridd.conf
  4. Gere e baixe um token de licença de cliente NLS.

    Consulte a Seção 4.6. Gerando um token de configuração do cliente do Guia do usuário do sistema de licença NVIDIA.

  5. Renomeie o token de licença do cliente NLS que você baixou para client_configuration_token.tok.
  6. Crie o objeto ConfigMap licensing-config no namespace gpu-operator.
    Incluir o arquivo de configuração de licença da vGPU ( gridd.conf) e o token de licença do cliente NLS ( *.tok) neste ConfigMap
    kubectl create configmap licensing-config \
        -n gpu-operator --from-file=gridd.conf --from-file=<path>/client_configuration_token.tok
  7. Crie um segredo de pull de imagem para o registro privado que contém o driver gráfico do software NVIDIA vGPU em contêiner para Linux para uso com o NVIDIA GPU Operator.
    Crie o segredo de pull da imagem no namespace gpu-operator com o nome do segredo do registro ngc-secret e o nome do registro privado nvcr.io/nvaie. Inclua sua chave de API do NGC e seu endereço de e-mail nos campos indicados.
    kubectl create secret docker-registry ngc-secret \
    --docker-server=‘nvcr.io/nvaie’ \
    --docker-username=‘$oauthtoken’ \
    --docker-password=<YOUR_NGC_API_KEY> \
    --docker-email=<YOUR_EMAIL_ADDRESS> \
    -n gpu-operator
  8. Baixe o gráfico do leme para o NVAIE GPU Operator versão 2.2.
    Substitua SUA CHAVE DE API.
    helm fetchhttps://helm.ngc.nvidia.com/nvaie/charts/gpu-operator-2-2-v1.11.1.tgz--username=‘$oauthtoken’ \
    --password=<YOUR API KEY>
  9. Instale o NVAIE GPU Operator versão 2.2 no cluster TKG.
    helm install gpu-operator ./gpu-operator-2-2-v1.11.1.tgz -n gpu-operator

Etapa 4 do operador: implantar uma carga de trabalho de IA/ML

O Catálogo de Nuvem da GPU NVIDIA oferece várias imagens de contêiner prontas para uso que você pode usar para executar cargas de trabalho de IA/ML em seus clusters Tanzu Kubernetes habilitados para vGPU. Para obter mais informações sobre as imagens disponíveis, consulte a documentação do NGC.