Wenn Sie den NVIDIA-DLS (Delegated Licensing Server) für Ihr NVIDIA AI Enterprise-Konto verwenden, erhalten Sie weitere Informationen in diesem Delta-Thema.

Nachtrag zum Cluster-Operator für die Bereitstellung von KI-/ML-Arbeitslasten auf TKGS-Clustern

NVIDIA stellt ein neues NLS-System (NVIDIA Licensing Server) mit der Bezeichnung DLS (Delegated Licensing Server) bereit. Weitere Informationen finden Sie in der Dokumentation zu NVIDIA.

Wenn Sie DLS für Ihr NVAIE-Konto verwenden, unterscheiden sich die Schritte zum Vorbereiten und Bereitstellen des NVAIE GPU-Operators von der hier dokumentierten Vorgehensweise: Cluster-Operator-Workflow für die Bereitstellung von KI-/ML-Arbeitslasten auf TKGS-Clustern. Insbesondere die Schritte 9 und 10 werden wie folgt geändert.

Schritt 9 für Operatoren: Vorbereiten der Installation des NVAIE GPU-Operators

Führen Sie die folgenden Schritte aus, um die Installation des GPU-Operators mithilfe eines DLS vorzubereiten.
  1. Erstellen Sie einen geheimen Schlüssel.
    kubectl create secret docker-registry registry-secret \
      --docker-server=<users private NGC registry name> 
      --docker-username='$oauthtoken' \
      --docker-password=ZmJj…………Ri \
      --docker-email=<user-email-address> -n gpu-operator-resources
    
    Hinweis: Als Kennwort fungiert der API-Schlüssel des Benutzers, der zuvor im NGC-Portal (NVIDIA GPU Cloud) erstellt wurde.
  2. Rufen Sie ein Client-Token aus dem DLS-Server ab.

    Ein Benutzer, der eine vGPU-Lizenz verwenden möchte, muss ein Token mit der Bezeichnung „Client-Token“ aus diesem DLS-Lizenzserver abrufen. Die Vorgehensweise hierfür finden Sie in der Dokumentation zu NVIDIA.

  3. Erstellen Sie mithilfe des Client-Tokens ein ConfigMap-Objekt im TKGS-Cluster.

    Platzieren Sie die Datei des Client-Tokens in einer Datei unter <path>/client_configuration_token.tok.

    Führen Sie dann den folgenden Befehl aus:

    kubectl delete configmap licensing-config -n gpu-operator-resources; > gridd.conf
    kubectl create configmap licensing-config \
      -n gpu-operator-resources --from-file=./gridd.conf --from-file=./client_configuration_token.tok
    
    Hinweis: Die vom DLS verwendete Datei „grid.conf“ ist leer. Es sind jedoch beide Parameter vom Typ „--from-file“ erforderlich.

Schritt 10 für Operatoren: Installieren des NVAIE GPU-Operators

Führen Sie die folgenden Schritte aus, um den NVAIE GPU-Operator mithilfe eines DLS zu installieren. Weitere Informationen finden Sie in der Dokumentation zum GPU-Operator.
  1. Installieren Sie den NVAIE GPU-Operator im TKGS-Cluster.
    • Installieren Sie Helm und beachten Sie dabei die Helm-Dokumentation.
    • Fügen Sie das Helm-Repository gpu-operator hinzu.
      helm repo add nvidia https://nvidia.github.io/gpu-operator
    • Installieren Sie den GPU-Operator mithilfe von Helm.
      export PRIVATE_REGISTRY="<user’s private registry name>"
      export OS_TAG=ubuntu20.04
      export VERSION=470.63.01
      export VGPU_DRIVER_VERSION=470.63.01-grid
      export NGC_API_KEY=Zm……………Ri  <- The user’s NGC AP Key
      export REGISTRY_SECRET_NAME=registry-secret
      
      helm show chart .
      kubectl delete crd clusterpolicies.nvidia.com
      helm install gpu-operator . -n gpu-operator-resources \
        --set psp.enabled=true \
        --set driver.licensingConfig.configMapName=licensing-config \
        --set operator.defaultRuntime=containerd \
        --set driver.imagePullSecrets={$REGISTRY_SECRET_NAME} \
        --set driver.version=$VERSION \
        --set driver.repository=$PRIVATE_REGISTRY \
        --set driver.licensingConfig.nlsEnabled=true
      
  2. Stellen Sie sicher, dass DLS funktioniert hat.

    Führen Sie in einem vom GPU-Operator bereitgestellten DaemonSet-Pod eines NVIDIA-Treibers den Befehl nvidia-smi aus, um sicherzustellen, dass DLS funktioniert.

    Führen Sie zunächst den folgenden Befehl aus, um den Pod zu öffnen und eine Shell-Sitzung aufzurufen:
    kubectl exec -it nvidia-driver-daemonset-cvxx6 nvidia-driver-ctr -n gpu-operator-resources – bash
    Sie können den Befehl nun ausführen, um das DLS-Setup zu überprüfen.
    nvidia-smi

    Bei ordnungsgemäßer Einrichtung von DLS sollte „Lizenziert“ in der Ausgabe des Befehls zurückgegeben werden.