身為資料科學家,您可以使用 Automation Service Broker 部署用於 AI 開發的深度學習虛擬機器。
在 Automation Service Broker 目錄中請求 AI Workstation (虛擬機器) 時,可以佈建已啟用 GPU 的深度學習虛擬機器,該虛擬機器可以設定所需的 vCPU、vGPU、記憶體和 NVIDIA 的 AI/ML NGC 容器。
將深度學習虛擬機部署到 VI 工作負載網域
身為資料科學家,您可以從自助 Automation Service Broker 目錄中部署單一 GPU 軟體定義的開發環境。
程序
結果
新增 DCGM Exporter 以監控深度學習工作負載
您可以使用 DCGM Exporter 監控使用 GPU 容量的深度學習工作負載。
DCGM-Exporter 是 Prometheus 的匯出工具,用於監控公司運行狀況並從 GPU 取得度量。它利用 DCGM 透過 Go 繫結收集 GPU 遙測資料,並使用 HTTP 端點 (/metrics) 向 Prometheus 提供 GPU 度量。DCGM-Exporter 可以獨立部署,也可以作為 NVIDIA GPU Operator 的一部分進行部署。
開始之前
確認您已成功部署深度學習虛擬機器。
程序
- 透過 SSH 登入深度學習虛擬機器。
對於 PyTorch 和 TensorFlow,請從 JupyterLab 筆記本登入。
- 使用以下命令執行 DCGM Exporter 容器。
docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
例如,若要從 NVIDIA NGC 目錄執行 dcgm-exporter:3.2.5-3.1.8-ubuntu22.04,請執行以下命令:docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
- DCGM Exporter 安裝完成後,在 Prometheus 和 Grafana 中顯示 vGPU 度量。
部署具有 NVIDIA Triton Inference Server 且已啟用 GPU 的 Workstation
身為資料科學家,您可以從自助 Automation Service Broker 目錄部署具有 NVIDIA Triton Inference Server 且已啟用 GPU 的 Workstation。
部署的 Workstation 包括 Ubuntu 22.04、NVIDIA vGPU 驅動程式、Docker Engine、NVIDIA Container Toolkit 和 NVIDIA Triton Inference Server。