Reportez-vous à cette rubrique delta si vous utilisez le serveur DLS (Delegated Licensing Server) NVIDIA pour votre compte NVIDIA AI Enterprise.
Addendum à l'intention des opérateurs de cluster pour le déploiement de charges de travail AI/ML sur des clusters TKGS
NVIDIA fournit un nouveau système NVIDIA Licensing Server (NLS), appelé DLS (pour Delegated Licensing Server ou Serveur de licence délégué). Pour plus d'informations, reportez-vous à la documentation relative à NVIDIA.
Si vous utilisez le système DLS pour votre compte NVAIE, les étapes de préparation et de déploiement de l'opérateur GPU NVAIE sont différentes de celles indiquées dans cette documentation : Workflow de l'opérateur de cluster pour le déploiement de charges de travail AI/ML sur des clusters TKGS. Plus spécifiquement, les étapes 9 et 10 ont été modifiées comme suit.
Étape 9 pour l'opérateur : Préparation de l'installation de l'opérateur NVAIE GPU
- Créez un secret.
kubectl create secret docker-registry registry-secret \ --docker-server=<users private NGC registry name> --docker-username='$oauthtoken' \ --docker-password=ZmJj…………Ri \ --docker-email=<user-email-address> -n gpu-operator-resources
Note : Le mot de passe est la clé API d'utilisateur qui a été précédemment créée sur le portail NVIDIA GPU Cloud (NGC). - Obtenez un jeton client auprès du serveur DLS.
Un utilisateur qui souhaite utiliser une licence vGPU devra obtenir un jeton, appelé « Jeton client », auprès de ce serveur de licence DLS. Le mécanisme utilisé à cet effet est décrit dans la documentation NVIDIA.
- Créez un objet ConfigMap dans le cluster TKGS à l'aide du jeton client.
Placez le fichier de jeton client dans un fichier sous <path>/client_configuration_token.tok.
Exécutez ensuite la commande suivante :
kubectl delete configmap licensing-config -n gpu-operator-resources; > gridd.conf kubectl create configmap licensing-config \ -n gpu-operator-resources --from-file=./gridd.conf --from-file=./client_configuration_token.tok
Note : Le fichier grid.conf utilisé par le DLS est vide. Cependant, les deux paramètres "--from-file" sont requis.
Étape 10 pour l'opérateur : Installation de l'opérateur GPU NVAIE
- Installez l'opérateur NVAIE GPU dans le cluster TKGS.
- Installez Helm en vous référant à la documentation Helm.
- Ajoutez le référentiel d'
gpu-operator
suivant :helm repo add nvidia https://nvidia.github.io/gpu-operator
- Installez l'opérateur GPU à l'aide de Helm.
export PRIVATE_REGISTRY="<user’s private registry name>" export OS_TAG=ubuntu20.04 export VERSION=470.63.01 export VGPU_DRIVER_VERSION=470.63.01-grid export NGC_API_KEY=Zm……………Ri <- The user’s NGC AP Key export REGISTRY_SECRET_NAME=registry-secret helm show chart . kubectl delete crd clusterpolicies.nvidia.com helm install gpu-operator . -n gpu-operator-resources \ --set psp.enabled=true \ --set driver.licensingConfig.configMapName=licensing-config \ --set operator.defaultRuntime=containerd \ --set driver.imagePullSecrets={$REGISTRY_SECRET_NAME} \ --set driver.version=$VERSION \ --set driver.repository=$PRIVATE_REGISTRY \ --set driver.licensingConfig.nlsEnabled=true
- Vérifiez que le DLS a fonctionné.
Dans un espace NVIDIA Driver DaemonSet déployé par l'opérateur GPU, exécutez la commande
nvidia-smi
pour vérifier que DLS fonctionne.Tout d'abord, exécutez la commande suivante pour accéder à l'espace et établir une session d'interpréteur :kubectl exec -it nvidia-driver-daemonset-cvxx6 nvidia-driver-ctr -n gpu-operator-resources – bash
Vous pouvez maintenant exécuter la commande pour vérifier la configuration du DLS.nvidia-smi
Si le DLS est correctement configuré, cette commande doit renvoyer la mention « Sous licence » dans la sortie.