Reportez-vous à cette rubrique delta si vous utilisez le serveur DLS (Delegated Licensing Server) NVIDIA pour votre compte NVIDIA AI Enterprise.

Addendum à l'intention des opérateurs de cluster pour le déploiement de charges de travail AI/ML sur des clusters TKGS

NVIDIA fournit un nouveau système NVIDIA Licensing Server (NLS), appelé DLS (pour Delegated Licensing Server ou Serveur de licence délégué). Pour plus d'informations, reportez-vous à la documentation relative à NVIDIA.

Si vous utilisez le système DLS pour votre compte NVAIE, les étapes de préparation et de déploiement de l'opérateur GPU NVAIE sont différentes de celles indiquées dans cette documentation : Workflow de l'opérateur de cluster pour le déploiement de charges de travail AI/ML sur des clusters TKGS. Plus spécifiquement, les étapes 9 et 10 ont été modifiées comme suit.

Étape 9 pour l'opérateur : Préparation de l'installation de l'opérateur NVAIE GPU

Effectuez les étapes suivantes pour préparer l'installation de l'opérateur GPU à l'aide d'un DLS.
  1. Créez un secret.
    kubectl create secret docker-registry registry-secret \
      --docker-server=<users private NGC registry name> 
      --docker-username='$oauthtoken' \
      --docker-password=ZmJj…………Ri \
      --docker-email=<user-email-address> -n gpu-operator-resources
    
    Note : Le mot de passe est la clé API d'utilisateur qui a été précédemment créée sur le portail NVIDIA GPU Cloud (NGC).
  2. Obtenez un jeton client auprès du serveur DLS.

    Un utilisateur qui souhaite utiliser une licence vGPU devra obtenir un jeton, appelé « Jeton client », auprès de ce serveur de licence DLS. Le mécanisme utilisé à cet effet est décrit dans la documentation NVIDIA.

  3. Créez un objet ConfigMap dans le cluster TKGS à l'aide du jeton client.

    Placez le fichier de jeton client dans un fichier sous <path>/client_configuration_token.tok.

    Exécutez ensuite la commande suivante :

    kubectl delete configmap licensing-config -n gpu-operator-resources; > gridd.conf
    kubectl create configmap licensing-config \
      -n gpu-operator-resources --from-file=./gridd.conf --from-file=./client_configuration_token.tok
    
    Note : Le fichier grid.conf utilisé par le DLS est vide. Cependant, les deux paramètres "--from-file" sont requis.

Étape 10 pour l'opérateur : Installation de l'opérateur GPU NVAIE

Effectuez les étapes suivantes pour installer l'opérateur GPU NVAIE à l'aide d'un DLS. Pour obtenir des commandes supplémentaires, reportez-vous à la documentation de l'opérateur GPU.
  1. Installez l'opérateur NVAIE GPU dans le cluster TKGS.
    • Installez Helm en vous référant à la documentation Helm.
    • Ajoutez le référentiel d'gpu-operator suivant :
      helm repo add nvidia https://nvidia.github.io/gpu-operator
    • Installez l'opérateur GPU à l'aide de Helm.
      export PRIVATE_REGISTRY="<user’s private registry name>"
      export OS_TAG=ubuntu20.04
      export VERSION=470.63.01
      export VGPU_DRIVER_VERSION=470.63.01-grid
      export NGC_API_KEY=Zm……………Ri  <- The user’s NGC AP Key
      export REGISTRY_SECRET_NAME=registry-secret
      
      helm show chart .
      kubectl delete crd clusterpolicies.nvidia.com
      helm install gpu-operator . -n gpu-operator-resources \
        --set psp.enabled=true \
        --set driver.licensingConfig.configMapName=licensing-config \
        --set operator.defaultRuntime=containerd \
        --set driver.imagePullSecrets={$REGISTRY_SECRET_NAME} \
        --set driver.version=$VERSION \
        --set driver.repository=$PRIVATE_REGISTRY \
        --set driver.licensingConfig.nlsEnabled=true
      
  2. Vérifiez que le DLS a fonctionné.

    Dans un espace NVIDIA Driver DaemonSet déployé par l'opérateur GPU, exécutez la commande nvidia-smi pour vérifier que DLS fonctionne.

    Tout d'abord, exécutez la commande suivante pour accéder à l'espace et établir une session d'interpréteur :
    kubectl exec -it nvidia-driver-daemonset-cvxx6 nvidia-driver-ctr -n gpu-operator-resources – bash
    Vous pouvez maintenant exécuter la commande pour vérifier la configuration du DLS.
    nvidia-smi

    Si le DLS est correctement configuré, cette commande doit renvoyer la mention « Sous licence » dans la sortie.