Wenn Sie den NVIDIA-DLS (Delegated Licensing Server) für Ihr NVIDIA AI Enterprise-Konto verwenden, erhalten Sie weitere Informationen in diesem Delta-Thema.
Nachtrag zum Cluster-Operator für die Bereitstellung von KI-/ML-Arbeitslasten auf TKGS-Clustern
NVIDIA stellt ein neues NLS-System (NVIDIA Licensing Server) mit der Bezeichnung DLS (Delegated Licensing Server) bereit. Weitere Informationen finden Sie in der Dokumentation zu NVIDIA.
Wenn Sie DLS für Ihr NVAIE-Konto verwenden, unterscheiden sich die Schritte zum Vorbereiten und Bereitstellen des NVAIE GPU-Operators von der hier dokumentierten Vorgehensweise: Cluster-Operator-Workflow für die Bereitstellung von KI-/ML-Arbeitslasten auf TKGS-Clustern. Insbesondere die Schritte 9 und 10 werden wie folgt geändert.
Schritt 9 für Operatoren: Vorbereiten der Installation des NVAIE GPU-Operators
- Erstellen Sie einen geheimen Schlüssel.
kubectl create secret docker-registry registry-secret \ --docker-server=<users private NGC registry name> --docker-username='$oauthtoken' \ --docker-password=ZmJj…………Ri \ --docker-email=<user-email-address> -n gpu-operator-resources
Hinweis: Als Kennwort fungiert der API-Schlüssel des Benutzers, der zuvor im NGC-Portal (NVIDIA GPU Cloud) erstellt wurde. - Rufen Sie ein Client-Token aus dem DLS-Server ab.
Ein Benutzer, der eine vGPU-Lizenz verwenden möchte, muss ein Token mit der Bezeichnung „Client-Token“ aus diesem DLS-Lizenzserver abrufen. Die Vorgehensweise hierfür finden Sie in der Dokumentation zu NVIDIA.
- Erstellen Sie mithilfe des Client-Tokens ein ConfigMap-Objekt im TKGS-Cluster.
Platzieren Sie die Datei des Client-Tokens in einer Datei unter <path>/client_configuration_token.tok.
Führen Sie dann den folgenden Befehl aus:
kubectl delete configmap licensing-config -n gpu-operator-resources; > gridd.conf kubectl create configmap licensing-config \ -n gpu-operator-resources --from-file=./gridd.conf --from-file=./client_configuration_token.tok
Hinweis: Die vom DLS verwendete Datei „grid.conf“ ist leer. Es sind jedoch beide Parameter vom Typ „--from-file“ erforderlich.
Schritt 10 für Operatoren: Installieren des NVAIE GPU-Operators
- Installieren Sie den NVAIE GPU-Operator im TKGS-Cluster.
- Installieren Sie Helm und beachten Sie dabei die Helm-Dokumentation.
- Fügen Sie das Helm-Repository
gpu-operator
hinzu.helm repo add nvidia https://nvidia.github.io/gpu-operator
- Installieren Sie den GPU-Operator mithilfe von Helm.
export PRIVATE_REGISTRY="<user’s private registry name>" export OS_TAG=ubuntu20.04 export VERSION=470.63.01 export VGPU_DRIVER_VERSION=470.63.01-grid export NGC_API_KEY=Zm……………Ri <- The user’s NGC AP Key export REGISTRY_SECRET_NAME=registry-secret helm show chart . kubectl delete crd clusterpolicies.nvidia.com helm install gpu-operator . -n gpu-operator-resources \ --set psp.enabled=true \ --set driver.licensingConfig.configMapName=licensing-config \ --set operator.defaultRuntime=containerd \ --set driver.imagePullSecrets={$REGISTRY_SECRET_NAME} \ --set driver.version=$VERSION \ --set driver.repository=$PRIVATE_REGISTRY \ --set driver.licensingConfig.nlsEnabled=true
- Stellen Sie sicher, dass DLS funktioniert hat.
Führen Sie in einem vom GPU-Operator bereitgestellten DaemonSet-Pod eines NVIDIA-Treibers den Befehl
nvidia-smi
aus, um sicherzustellen, dass DLS funktioniert.Führen Sie zunächst den folgenden Befehl aus, um den Pod zu öffnen und eine Shell-Sitzung aufzurufen:kubectl exec -it nvidia-driver-daemonset-cvxx6 nvidia-driver-ctr -n gpu-operator-resources – bash
Sie können den Befehl nun ausführen, um das DLS-Setup zu überprüfen.nvidia-smi
Bei ordnungsgemäßer Einrichtung von DLS sollte „Lizenziert“ in der Ausgabe des Befehls zurückgegeben werden.