데이터 과학자는 Automation Service Broker를 사용하여 AI 개발을 위한 딥 러닝 가상 시스템을 배포할 수 있습니다.

Automation Service Broker 카탈로그에서 AI 워크스테이션(VM)을 요청하면 원하는 vCPU, vGPU, 메모리 및 NVIDIA의 AI/ML NGC 컨테이너로 구성할 수 있는 GPU 지원 딥 러닝 VM을 프로비저닝합니다.

VI 워크로드 도메인에 딥 러닝 가상 시스템 배포

데이터 과학자는 셀프 서비스 Automation Service Broker 카탈로그에서 단일 GPU 소프트웨어 정의 개발 환경을 배포할 수 있습니다.

시스템 매개 변수를 사용하여 GPU 지원 가상 시스템을 사용자 지정하여 개발 요구 사항을 모델링하고, 교육 및 추론 요구 사항을 충족하도록 PyTorch, TensorFlow, CUDA와 같은 AI/ML 프레임워크를 사전 설치하고, 포털 액세스 키를 통해 NVIDIA NGC 레지스트리에서 AI/ML 패키지를 지정할 수 있습니다.

프로시저

  1. Automation Service Broker카탈로그 페이지에서 AI Workstation 카드를 찾고 요청을 클릭합니다.
  2. 프로젝트를 선택합니다.
  3. 배포의 이름과 설명을 입력합니다.
  4. AI 워크스테이션 매개 변수를 구성합니다.
    설정 샘플 값
    VM 클래스 A100 소형 - vGPU 1개(16GB), CPU 8개 및 메모리 16GB
    데이터 디스크 크기 32 GB
    사용자 암호 기본 사용자의 암호를 입력합니다. 처음 로그인할 때 암호를 재설정하라는 메시지가 표시될 수 있습니다.
    SSH 공용 키 이 설정은 선택 사항입니다.
  5. 워크스테이션에 설치할 소프트웨어 번들을 선택합니다.
    설정 설명
    PyTorch PyTorch NGC 컨테이너는 GPU 가속에 최적화되어 있으며 GPU 성능을 사용하도록 설정하고 최적화하는 검증된 라이브러리 집합을 포함합니다. 이 컨테이너에는 ETL(DALI, RAPIDS), 교육(cuDNN, NCCL) 및 TensorRT(유추) 워크로드를 가속화하기 위한 소프트웨어도 포함되어 있습니다.
    TensorFlow TensorFlow NGC 컨테이너는 GPU 가속에 최적화되어 있으며 GPU 성능을 사용하도록 설정하고 최적화하는 검증된 라이브러리 집합을 포함합니다. 이 컨테이너에는 성능 및 호환성을 최대화하기 위해 TensorFlow 소스 코드에 대한 수정 사항이 포함될 수도 있습니다. 이 컨테이너에는 ETL(DALI, RAPIDS), 교육(cuDNN, NCCL) 및 TensorRT(유추) 워크로드를 가속화하기 위한 소프트웨어도 포함되어 있습니다.
    CUDA 샘플 GPU에서 CUDA 워크로드를 실행하는 컨테이너 모음입니다. 컬렉션에는 컨테이너화된 CUDA 샘플(예: vectorAdd(벡터 추가를 시연하기 위해), nbody(또는 중력 n-body 시뮬레이션) 및 기타 예가 포함됩니다. 이러한 컨테이너는 시스템에서 GPU의 소프트웨어 구성을 검증하거나 일부 예제 워크로드를 실행하는 데 사용할 수 있습니다.
  6. (선택 사항) 소프트웨어 번들에 대해 정의된 cloud-init 외에 설치할 사용자 지정 cloud-init를 입력합니다.
    VMware Aria Automation은 소프트웨어 번들의 cloud-init와 사용자 지정 cloud-init를 병합합니다.
  7. 제출을 클릭합니다.

결과

배포 [개요] 탭에는 설치된 소프트웨어에 대한 요약과 함께 애플리케이션, 서비스 및 워크스테이션 VM에 액세스하는 방법에 대한 지침이 포함되어 있습니다.

DL 워크로드 모니터링을 위한 DCGM Exporter 추가

DCGM Exporter를 사용하여 GPU 용량을 사용하는 딥 러닝 워크로드를 모니터링할 수 있습니다.

DCGM-Exporter는 회사의 상태를 모니터링하고 GPU에서 메트릭을 가져오는 Prometheus의 내보내기 도구입니다. Go 바인딩을 사용하는 DCGM을 활용하여 GPU 원격 분석을 수집하고 HTTP 끝점(/metrics)을 사용하여 GPU 메트릭을 Prometheus에 노출합니다. DCGM-Exporter는 독립형이거나 NVIDIA GPU Operator의 일부로 배포할 수 있습니다.

시작하기 전에

딥 러닝 VM이 성공적으로 배포되었는지 확인합니다.

절차

  1. SSH를 통해 딥 러닝 VM에 로그인합니다.

    PyTorch 및 TensorFlow의 경우 JupyterLab 노트북에서 로그인합니다.

  2. 다음 명령을 사용하여 DCGM Exporter 컨테이너를 실행합니다.
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
    예를 들어 NVIDIA NGC 카탈로그에서 dcgm-exporter:3.2.5-3.1.8-ubuntu22.04를 실행하려면 다음 명령을 실행합니다.
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
  3. DCGM Exporter 설치가 완료되면 Prometheus 및 Grafana에서 vGPU 메트릭을 시각화합니다.
    1. Prometheus와 Grafana를 설치합니다.
    2. Prometheus에서 vGPU 메트릭을 봅니다.
    3. Grafana에서 메트릭을 시각화합니다.

NVIDIA Triton 추론 서버를 사용하여 GPU 지원 워크스테이션 배포

데이터 과학자는 셀프 서비스 Automation Service Broker 카탈로그의 NVIDIA Triton 추론 서버를 사용하여 GPU 지원 워크스테이션을 배포할 수 있습니다.

NVIDIA Triton 추론 서버는 CPU와 GPU 모두에 최적화된 클라우드 및 Edge 유추 솔루션을 제공합니다. Triton 추론 서버는 원격 클라이언트가 TensorFlow, PyTorch 등을 포함한 다양한 기계 학습 프레임워크에 대한 유추를 요청할 수 있도록 하는 HTTP/REST 및 GRPC 프로토콜을 지원합니다. Edge 배포의 경우 Triton 추론 서버는 Triton의 전체 기능을 애플리케이션에 직접 포함할 수 있는 C API를 통해 공유 라이브러리로 사용할 수 있습니다.

배포된 워크스테이션에는 Ubuntu 22.04, NVIDIA vGPU 드라이버, Docker Engine, NVIDIA Container Toolkit 및 NVIDIA Triton 추론 서버가 포함됩니다.

프로시저

  1. Automation Service Broker카탈로그 페이지에서 Triton 추론 서버 카드를 찾고 요청을 클릭합니다.
  2. 프로젝트를 선택합니다.
  3. 배포의 이름과 설명을 입력합니다.
  4. AI 워크스테이션 매개 변수를 구성합니다.
    설정 샘플 값
    VM 클래스 A100 소형 - vGPU 1개(16GB), CPU 8개 및 메모리 16GB

    Triton 추론 서버를 실행하려면 UVM(Unified Virtual Memory)을 지원하는 VM 클래스가 필요합니다.

    데이터 디스크 크기 32 GB
    사용자 암호 조각 모음 사용자의 암호를 입력합니다. 처음 로그인할 때 암호를 재설정하라는 메시지가 표시될 수 있습니다.
    SSH 공용 키 이 설정은 선택 사항입니다.
  5. (선택 사항) 소프트웨어 번들에 대해 정의된 cloud-init 외에 설치할 사용자 지정 cloud-init를 입력합니다.
    VMware Aria Automation은 소프트웨어 번들의 cloud-init와 사용자 지정 cloud-init를 병합합니다.
  6. 제출을 클릭합니다.