NVIDIA AI Enterprise 계정에 대해 NVIDIA DLS(Delegated Licensing Server)를 사용하는 경우 이 델타 항목을 참조하십시오.

TKGS 클러스터에 AI/ML 워크로드를 배포하기 위한 클러스터 운영자 부록

NVIDIA는 Delegated Licensing Server를 의미하는 DLS라는 새로운 NLS(NVIDIA Licensing Server) 시스템을 제공합니다. 자세한 내용은 NVIDIA 설명서를 참조하십시오.

NVAIE 계정에 대해 DLS를 사용하는 경우 NVAIE GPU Operator 준비 및 배포 단계는 TKGS 클러스터에 AI/ML 워크로드를 배포하기 위한 클러스터 운영자 워크플로에 설명된 것과는 다릅니다. 특히 9단계와 10단계는 다음과 같이 수정됩니다.

운영자 9단계: NVAIE GPU Operator 설치 준비

DLS를 사용하여 GPU Operator 설치를 준비하려면 다음 단계를 완료하십시오.
  1. 암호를 생성합니다.
    kubectl create secret docker-registry registry-secret \
      --docker-server=<users private NGC registry name> 
      --docker-username='$oauthtoken' \
      --docker-password=ZmJj…………Ri \
      --docker-email=<user-email-address> -n gpu-operator-resources
    
    참고: 암호는 이전에 NGC(NVIDIA GPU Cloud) 포털에서 생성된 사용자 API 키입니다.
  2. DLS 서버에서 클라이언트 토큰을 가져옵니다.

    vGPU 라이센스를 사용하려는 사용자는 해당 DLS 라이센스 서버에서 '클라이언트 토큰'이라고 하는 토큰을 가져와야 합니다. 이 작업을 수행하기 위한 메커니즘은 NVIDIA 설명서에 나와 있습니다.

  3. 클라이언트 토큰을 사용하여 TKGS 클러스터에서 ConfigMap 개체를 생성합니다.

    클라이언트 토큰 파일을 <path>/client_configuration_token.tok에 배치합니다.

    그런 후 다음 명령을 실행합니다.

    kubectl delete configmap licensing-config -n gpu-operator-resources; > gridd.conf
    kubectl create configmap licensing-config \
      -n gpu-operator-resources --from-file=./gridd.conf --from-file=./client_configuration_token.tok
    
    참고: DLS에서 사용하는 grid.conf 파일은 비어 있습니다. 그러나 두 "--from-file" 매개 변수는 모두 필요합니다.

운영자 10단계: NVAIE GPU Operator 설치

DLS를 사용하여 NVAIE GPU Operator를 설치하려면 다음 단계를 완료하십시오. 추가 지침은 GPU Operator 설명서를 참조하십시오.
  1. TKGS 클러스터에 NVAIE GPU Operator를 설치합니다.
    • Helm 설명서를 참조하여 Helm을 설치합니다.
    • gpu-operator Helm 저장소를 추가합니다.
      helm repo add nvidia https://nvidia.github.io/gpu-operator
    • Helm을 사용하여 GPU Operator를 설치합니다.
      export PRIVATE_REGISTRY="<user’s private registry name>"
      export OS_TAG=ubuntu20.04
      export VERSION=470.63.01
      export VGPU_DRIVER_VERSION=470.63.01-grid
      export NGC_API_KEY=Zm……………Ri  <- The user’s NGC AP Key
      export REGISTRY_SECRET_NAME=registry-secret
      
      helm show chart .
      kubectl delete crd clusterpolicies.nvidia.com
      helm install gpu-operator . -n gpu-operator-resources \
        --set psp.enabled=true \
        --set driver.licensingConfig.configMapName=licensing-config \
        --set operator.defaultRuntime=containerd \
        --set driver.imagePullSecrets={$REGISTRY_SECRET_NAME} \
        --set driver.version=$VERSION \
        --set driver.repository=$PRIVATE_REGISTRY \
        --set driver.licensingConfig.nlsEnabled=true
      
  2. DLS가 작동했는지 확인합니다.

    GPU Operator가 배포한 NVIDIA 드라이버 DaemonSet 포드 내에서 nvidia-smi 명령을 실행하여 DLS가 작동 중인지 확인합니다.

    먼저 다음 명령을 실행하여 포드로 이동하고 셸 세션을 불러옵니다.
    kubectl exec -it nvidia-driver-daemonset-cvxx6 nvidia-driver-ctr -n gpu-operator-resources – bash
    이제 명령을 실행하여 DLS 설정을 확인할 수 있습니다.
    nvidia-smi

    DLS가 올바르게 설정되었다면 이 명령을 실행했을 때 출력에 "라이센스가 부여됨"이 반환됩니다.