身為資料科學家,您可以使用 Automation Service Broker 部署用於 AI 開發的深度學習虛擬機器。

Automation Service Broker 目錄中請求 AI Workstation (虛擬機器) 時,可以佈建已啟用 GPU 的深度學習虛擬機器,該虛擬機器可以設定所需的 vCPU、vGPU、記憶體和 NVIDIA 的 AI/ML NGC 容器。

將深度學習虛擬機部署到 VI 工作負載網域

身為資料科學家,您可以從自助 Automation Service Broker 目錄中部署單一 GPU 軟體定義的開發環境。

您可以使用機器參數自訂已啟用 GPU 的虛擬機器以模擬開發需求,預先安裝 PyTorch、TensorFlow 和 CUDA 等 AI/ML 架構以符合訓練和推理需求,以及透過入口網站存取金鑰從 NVIDIA NGC 登錄指定 AI/ML 套件。

程序

  1. Automation Service Broker目錄頁面上,找到 AI Workstation 卡,然後按一下請求
  2. 選取專案。
  3. 輸入部署的名稱和說明。
  4. 設定 AI 工作站參數。
    設定 範例值
    虛擬機器類別 A100 Small - 1 個 vGPU (16 GB),8 個 CPU 和 16 GB 記憶體
    數據磁碟大小 32 GB
    使用者密碼 輸入預設使用者的密碼。當您第一次登入時,系統可能會提示您重設密碼。
    SSH 公開金鑰 此設定為選擇性。
  5. 選取要在工作站上安裝的軟體服務包。
    設定 說明
    PyTorch PyTorch NGC 容器已針對 GPU 加速進行最佳化,並且包含一組經驗證的連結庫,可啟用和最佳化 GPU 效能。此容器還包含用於加速 ETL (DALI、RAPIDS)、訓練 (cuDNN、NCCL) 和推斷 (TensorRT) 工作負載的軟體。
    TensorFlow TensorFlow NGC Container 已針對 GPU 加速進行最佳化,且包含一組經過驗證的連結庫,可啟用和最佳化 GPU 效能。此容器可能還包含對 TensorFlow 原始程式碼的修改,以最大化效能和相容性。此容器還包含用於加速 ETL (DALI、RAPIDS)、訓練 (cuDNN、NCCL) 和推斷 (TensorRT) 工作負載的軟體。
    CUDA 範例 這是在 GPU 上執行 CUDA 工作負載的容器集合。該集合包括容器化 CUDA 樣本,例如 vectorAdd (以示範向量新增)、nbody (或引力 n 體模擬) 和其他範例。這些容器可用於驗證系統中 GPU 的軟體組態,或僅用於執行某些範例工作負載。
  6. (選擇性) 輸入您想要安裝的自訂 cloud-init (針對軟體服務包定義的 cloud-init)。
    VMware Aria Automation 將合併軟體服務包中的 cloud-init 和自訂 cloud-init。
  7. 按一下提交

結果

部署的 [概觀] 索引標籤將包含所安裝軟體的摘要,以及有關如何存取應用程式、服務和 Workstation 虛擬機器的指示。

新增 DCGM Exporter 以監控深度學習工作負載

您可以使用 DCGM Exporter 監控使用 GPU 容量的深度學習工作負載。

DCGM-Exporter 是 Prometheus 的匯出工具,用於監控公司運行狀況並從 GPU 取得度量。它利用 DCGM 透過 Go 繫結收集 GPU 遙測資料,並使用 HTTP 端點 (/metrics) 向 Prometheus 提供 GPU 度量。DCGM-Exporter 可以獨立部署,也可以作為 NVIDIA GPU Operator 的一部分進行部署。

開始之前

確認您已成功部署深度學習虛擬機器。

程序

  1. 透過 SSH 登入深度學習虛擬機器。

    對於 PyTorch 和 TensorFlow,請從 JupyterLab 筆記本登入。

  2. 使用以下命令執行 DCGM Exporter 容器。
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
    例如,若要從 NVIDIA NGC 目錄執行 dcgm-exporter:3.2.5-3.1.8-ubuntu22.04,請執行以下命令:
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
  3. DCGM Exporter 安裝完成後,在 Prometheus 和 Grafana 中顯示 vGPU 度量。
    1. 安裝 Prometheus 和 Grafana
    2. 在 Prometheus 中檢視 vGPU 度量
    3. 在 Grafana 中顯示度量

部署具有 NVIDIA Triton Inference Server 且已啟用 GPU 的 Workstation

身為資料科學家,您可以從自助 Automation Service Broker 目錄部署具有 NVIDIA Triton Inference Server 且已啟用 GPU 的 Workstation。

NVIDIA Triton Inference Server 提供針對 CPU 和 GPU 最佳化的雲端和 Edge 推斷解決方案。Triton Inference Server 支援 HTTP/REST 和 GRPC 通訊協定,允許遠端用戶端請求推斷各種機器學習架構,包括 TensorFlow、PyTorch 等。對於 Edge 部署,Triton Inference Server 可作為具有 C API 的共用程式庫使用,可讓 Triton 的完整功能直接包含在應用程式中。

部署的 Workstation 包括 Ubuntu 22.04、NVIDIA vGPU 驅動程式、Docker Engine、NVIDIA Container Toolkit 和 NVIDIA Triton Inference Server。

程序

  1. Automation Service Broker目錄頁面上,找到 Triton Inferencing Server 卡,然後按一下請求
  2. 選取專案。
  3. 輸入部署的名稱和說明。
  4. 設定 AI 工作站參數。
    設定 範例值
    虛擬機器類別 A100 Small - 1 個 vGPU (16 GB),8 個 CPU 和 16 GB 記憶體

    執行 Triton Inferencing Server 時需要支援統一虛擬記憶體 (UVM) 的虛擬機器類別

    數據磁碟大小 32 GB
    使用者密碼 輸入預設用戶的密碼。當您第一次登入時,系統可能會提示您重設密碼。
    SSH 公開金鑰 此設定為選擇性。
  5. (選擇性) 輸入您想要安裝的自訂 cloud-init (針對軟體服務包定義的 cloud-init)。
    VMware Aria Automation 將合併軟體服務包中的 cloud-init 和自訂 cloud-init。
  6. 按一下提交