如果要對 NVIDIA AI Enterprise 帳戶使用 NVIDIA 委派授權伺服器 (DLS),請參閱此增量主題。

在 TKGS 叢集上部署 AI/ML 工作負載的叢集營運人員附錄

NVIDIA 提供了一個新的 NVIDIA 授權伺服器 (NLS) 系統,即 DLS (委派授權伺服器)。如需詳細資訊,請參閱 NVIDIA 說明文件

如果要為 NVAIE 帳戶使用 DLS,則需要執行的 NVAIE GPU Operator 準備和部署步驟與此處記錄的步驟有所不同:在 TKGS 叢集上部署 AI/ML 工作負載的叢集營運人員工作流程。具體來說,步驟 9 和 10 有所不同,如下所示。

營運人員步驟 9:準備安裝 NVAIE GPU Operator

完成以下步驟,準備使用 DLS 安裝 GPU Operator。
  1. 建立密碼。
    kubectl create secret docker-registry registry-secret \
      --docker-server=<users private NGC registry name> 
      --docker-username='$oauthtoken' \
      --docker-password=ZmJj…………Ri \
      --docker-email=<user-email-address> -n gpu-operator-resources
    
    備註: 密碼是之前在 NVIDIA GPU Cloud (NGC) 入口網站上建立的使用者 API 金鑰。
  2. 從 DLS 伺服器獲取用戶端 Token。

    希望使用 vGPU 授權的使用者需要從該 DLS 授權伺服器獲取一個「用戶端 Token」。如需執行此操作的機制,請參閱 NVIDIA 說明文件

  3. 使用用戶端 Token 在 TKGS 叢集中建立一個 ConfigMap 物件。

    將用戶端 Token 檔案放置在位於 <path>/client_configuration_token.tok 的檔案中。

    然後執行下列命令:

    kubectl delete configmap licensing-config -n gpu-operator-resources; > gridd.conf
    kubectl create configmap licensing-config \
      -n gpu-operator-resources --from-file=./gridd.conf --from-file=./client_configuration_token.tok
    
    備註: DLS 使用的 grid.conf 檔案為空。但是,兩個「--from-file」參數都是必需的。

營運人員步驟 10:安裝 NVAIE GPU Operator

完成以下步驟,使用 DLS 安裝 NVAIE GPU Operator。如需其他指導,請參閱 GPU Operator 說明文件
  1. 在 TKGS 叢集中安裝 NVAIE GPU Operator
    • 透過參考 Helm 說明文件安裝 Helm。
    • 新增 gpu-operator Helm 存放庫。
      helm repo add nvidia https://nvidia.github.io/gpu-operator
    • 使用 Helm 安裝 GPU Operator。
      export PRIVATE_REGISTRY="<user’s private registry name>"
      export OS_TAG=ubuntu20.04
      export VERSION=470.63.01
      export VGPU_DRIVER_VERSION=470.63.01-grid
      export NGC_API_KEY=Zm……………Ri  <- The user’s NGC AP Key
      export REGISTRY_SECRET_NAME=registry-secret
      
      helm show chart .
      kubectl delete crd clusterpolicies.nvidia.com
      helm install gpu-operator . -n gpu-operator-resources \
        --set psp.enabled=true \
        --set driver.licensingConfig.configMapName=licensing-config \
        --set operator.defaultRuntime=containerd \
        --set driver.imagePullSecrets={$REGISTRY_SECRET_NAME} \
        --set driver.version=$VERSION \
        --set driver.repository=$PRIVATE_REGISTRY \
        --set driver.licensingConfig.nlsEnabled=true
      
  2. 驗證 DLS 是否正常工作。

    從 GPU Operator 部署的 NVIDIA 驅動程式 DaemonSet 網繭中,執行 nvidia-smi 命令以驗證 DLS 是否正常工作。

    首先,執行以下命令進入網繭並啟動 shell 工作階段:
    kubectl exec -it nvidia-driver-daemonset-cvxx6 nvidia-driver-ctr -n gpu-operator-resources – bash
    現在,您可以執行命令以驗證 DLS 設定。
    nvidia-smi

    如果 DLS 設定正確,此命令應在輸出中傳回「Licensed」。