Consulte este tópico delta se você estiver usando o NVIDIA Delegated Licensing Server (DLS) para sua conta NVIDIA AI Enterprise.
Adendo do operador de cluster para a implantação de cargas de trabalho de AI / ML em clusters TKGS
A NVIDIA fornece um novo sistema de Servidor de Licenciamento NVIDIA (NLS) chamado DLS, que significa Servidor de Licenciamento Delegado. Para obter mais informações, consulte a documentação da NVIDIA.
Se estiver a utilizar DLS para a sua conta NVAIE, os passos para preparar e implementar o operador de GPU NVAIE são diferentes do que está documentado aqui: Fluxo de trabalho do operador de cluster para a implantação de cargas de trabalho de AI / ML em clusters TKGS. Especificamente, as etapas 9 e 10 são modificadas da seguinte maneira.
Etapa 9 do operador: preparar para instalar o operador NVAIE GPU
- Crie um segredo.
kubectl create secret docker-registry registry-secret \ --docker-server=<users private NGC registry name> --docker-username='$oauthtoken' \ --docker-password=ZmJj…………Ri \ --docker-email=<user-email-address> -n gpu-operator-resources
Observação: A senha é a chave de API do usuário que foi criada anteriormente no portal NVIDIA GPU Cloud (NGC). - Obtenha um token de cliente do servidor DLS.
Um usuário que deseja usar uma licença vGPU precisará obter um token desse servidor de licença DLS chamado “Token de cliente. O mecanismo para fazer isso está na documentação da NVIDIA.
- Crie um objeto ConfigMap no cluster TKGS usando o token de cliente.
Coloque o arquivo de token de cliente em um arquivo em <path> /client_configuration_token.tok.
Em seguida, execute o seguinte comando:
kubectl delete configmap licensing-config -n gpu-operator-resources; > gridd.conf kubectl create configmap licensing-config \ -n gpu-operator-resources --from-file=./gridd.conf --from-file=./client_configuration_token.tok
Observação: O arquivo grid.conf usado pelo DLS está vazio. No entanto, ambos os parâmetros "--from-file" são necessários.
Etapa 10 do operador: instalar o operador NVAIE GPU
- Instale o NVAIE GPU Operator no cluster TKGS.
- Instale o Helm consultando a documentação do Helm .
- Adicione o repositório do
gpu-operator
Helm.helm repo add nvidia https://nvidia.github.io/gpu-operator
- Instale o GPU Operator usando o Helm.
export PRIVATE_REGISTRY="<user’s private registry name>" export OS_TAG=ubuntu20.04 export VERSION=470.63.01 export VGPU_DRIVER_VERSION=470.63.01-grid export NGC_API_KEY=Zm……………Ri <- The user’s NGC AP Key export REGISTRY_SECRET_NAME=registry-secret helm show chart . kubectl delete crd clusterpolicies.nvidia.com helm install gpu-operator . -n gpu-operator-resources \ --set psp.enabled=true \ --set driver.licensingConfig.configMapName=licensing-config \ --set operator.defaultRuntime=containerd \ --set driver.imagePullSecrets={$REGISTRY_SECRET_NAME} \ --set driver.version=$VERSION \ --set driver.repository=$PRIVATE_REGISTRY \ --set driver.licensingConfig.nlsEnabled=true
- Verifique se o DLS funcionou.
De dentro de um pod do DaemonSet do driver NVIDIA que foi implantado pelo GPU Operator, execute o comando
nvidia-smi
para verificar se o DLS está funcionando.Primeiro, execute o seguinte comando para entrar no pod e abrir uma sessão de shell:kubectl exec -it nvidia-driver-daemonset-cvxx6 nvidia-driver-ctr -n gpu-operator-resources – bash
Agora você pode executar o comando para verificar a configuração do DLS.nvidia-smi
Se o DLS estiver configurado corretamente, esse comando deve retornar "Licenciado" na saída.