데이터 과학자는 Automation Service Broker를 사용하여 AI 개발을 위한 딥 러닝 가상 시스템을 배포할 수 있습니다.
Automation Service Broker 카탈로그에서 AI 워크스테이션(VM)을 요청하면 원하는 vCPU, vGPU, 메모리 및 NVIDIA의 AI/ML NGC 컨테이너로 구성할 수 있는 GPU 지원 딥 러닝 VM을 프로비저닝합니다.
VI 워크로드 도메인에 딥 러닝 가상 시스템 배포
데이터 과학자는 셀프 서비스 Automation Service Broker 카탈로그에서 단일 GPU 소프트웨어 정의 개발 환경을 배포할 수 있습니다.
프로시저
결과
DL 워크로드 모니터링을 위한 DCGM Exporter 추가
DCGM Exporter를 사용하여 GPU 용량을 사용하는 딥 러닝 워크로드를 모니터링할 수 있습니다.
DCGM-Exporter는 회사의 상태를 모니터링하고 GPU에서 메트릭을 가져오는 Prometheus의 내보내기 도구입니다. Go 바인딩을 사용하는 DCGM을 활용하여 GPU 원격 분석을 수집하고 HTTP 끝점(/metrics)을 사용하여 GPU 메트릭을 Prometheus에 노출합니다. DCGM-Exporter는 독립형이거나 NVIDIA GPU Operator의 일부로 배포할 수 있습니다.
시작하기 전에
딥 러닝 VM이 성공적으로 배포되었는지 확인합니다.
절차
- SSH를 통해 딥 러닝 VM에 로그인합니다.
PyTorch 및 TensorFlow의 경우 JupyterLab 노트북에서 로그인합니다.
- 다음 명령을 사용하여 DCGM Exporter 컨테이너를 실행합니다.
docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
예를 들어 NVIDIA NGC 카탈로그에서 dcgm-exporter:3.2.5-3.1.8-ubuntu22.04를 실행하려면 다음 명령을 실행합니다.docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
- DCGM Exporter 설치가 완료되면 Prometheus 및 Grafana에서 vGPU 메트릭을 시각화합니다.
NVIDIA Triton 추론 서버를 사용하여 GPU 지원 워크스테이션 배포
데이터 과학자는 셀프 서비스 Automation Service Broker 카탈로그의 NVIDIA Triton 추론 서버를 사용하여 GPU 지원 워크스테이션을 배포할 수 있습니다.
배포된 워크스테이션에는 Ubuntu 22.04, NVIDIA vGPU 드라이버, Docker Engine, NVIDIA Container Toolkit 및 NVIDIA Triton 추론 서버가 포함됩니다.