如果要對 NVIDIA AI Enterprise 帳戶使用 NVIDIA 委派授權伺服器 (DLS),請參閱此增量主題。
在 TKGS 叢集上部署 AI/ML 工作負載的叢集營運人員附錄
NVIDIA 提供了一個新的 NVIDIA 授權伺服器 (NLS) 系統,即 DLS (委派授權伺服器)。如需詳細資訊,請參閱 NVIDIA 說明文件。
如果要為 NVAIE 帳戶使用 DLS,則需要執行的 NVAIE GPU Operator 準備和部署步驟與此處記錄的步驟有所不同:在 TKGS 叢集上部署 AI/ML 工作負載的叢集營運人員工作流程。具體來說,步驟 9 和 10 有所不同,如下所示。
營運人員步驟 9:準備安裝 NVAIE GPU Operator
完成以下步驟,準備使用 DLS 安裝 GPU Operator。
- 建立密碼。
kubectl create secret docker-registry registry-secret \ --docker-server=<users private NGC registry name> --docker-username='$oauthtoken' \ --docker-password=ZmJj…………Ri \ --docker-email=<user-email-address> -n gpu-operator-resources
備註: 密碼是之前在 NVIDIA GPU Cloud (NGC) 入口網站上建立的使用者 API 金鑰。 - 從 DLS 伺服器獲取用戶端 Token。
希望使用 vGPU 授權的使用者需要從該 DLS 授權伺服器獲取一個「用戶端 Token」。如需執行此操作的機制,請參閱 NVIDIA 說明文件。
- 使用用戶端 Token 在 TKGS 叢集中建立一個 ConfigMap 物件。
將用戶端 Token 檔案放置在位於 <path>/client_configuration_token.tok 的檔案中。
然後執行下列命令:
kubectl delete configmap licensing-config -n gpu-operator-resources; > gridd.conf kubectl create configmap licensing-config \ -n gpu-operator-resources --from-file=./gridd.conf --from-file=./client_configuration_token.tok
備註: DLS 使用的 grid.conf 檔案為空。但是,兩個「--from-file」參數都是必需的。
營運人員步驟 10:安裝 NVAIE GPU Operator
完成以下步驟,使用 DLS 安裝 NVAIE GPU Operator。如需其他指導,請參閱 GPU Operator
說明文件。
- 在 TKGS 叢集中安裝 NVAIE GPU Operator。
- 透過參考 Helm 說明文件安裝 Helm。
- 新增
gpu-operator
Helm 存放庫。helm repo add nvidia https://nvidia.github.io/gpu-operator
- 使用 Helm 安裝 GPU Operator。
export PRIVATE_REGISTRY="<user’s private registry name>" export OS_TAG=ubuntu20.04 export VERSION=470.63.01 export VGPU_DRIVER_VERSION=470.63.01-grid export NGC_API_KEY=Zm……………Ri <- The user’s NGC AP Key export REGISTRY_SECRET_NAME=registry-secret helm show chart . kubectl delete crd clusterpolicies.nvidia.com helm install gpu-operator . -n gpu-operator-resources \ --set psp.enabled=true \ --set driver.licensingConfig.configMapName=licensing-config \ --set operator.defaultRuntime=containerd \ --set driver.imagePullSecrets={$REGISTRY_SECRET_NAME} \ --set driver.version=$VERSION \ --set driver.repository=$PRIVATE_REGISTRY \ --set driver.licensingConfig.nlsEnabled=true
- 驗證 DLS 是否正常工作。
從 GPU Operator 部署的 NVIDIA 驅動程式 DaemonSet 網繭中,執行
nvidia-smi
命令以驗證 DLS 是否正常工作。首先,執行以下命令進入網繭並啟動 shell 工作階段:kubectl exec -it nvidia-driver-daemonset-cvxx6 nvidia-driver-ctr -n gpu-operator-resources – bash
現在,您可以執行命令以驗證 DLS 設定。nvidia-smi
如果 DLS 設定正確,此命令應在輸出中傳回「Licensed」。