如果雲端管理員已在 VMware Aria Automation 中設定 Private AI Automation Services,則可以使用 Automation Service Broker 目錄請求 AI 工作負載。

Private AI Automation Services 支援 Automation Service Broker 中的兩個目錄項目,具有相應權限的使用者可以存取和請求這些目錄項目。

  • AI Workstation - 已啟用 GPU 的虛擬機器,可以從 NVIDIA 設定所需的 vCPU、vGPU、記憶體和 AI/ML 軟體。
  • AI Kubernetes 叢集 – 已啟用 GPU 的 Tanzu Kubernetes 叢集,可以設定 NVIDIA GPU Operator。
重要: Private AI Automation Services 產品適用於 VMware Aria Automation 8.16.2。

開始之前

  • 確認已為您的專案設定 Private AI Automation Services,並且您有權請求 AI 目錄項目。

請注意,此處的所有值均為使用案例範例。帳戶值取決於環境。

將深度學習虛擬機部署到 VI 工作負載網域

身為資料科學家,您可以從自助 Automation Service Broker 目錄中部署單一 GPU 軟體定義的開發環境。您可以使用機器參數自訂已啟用 GPU 的虛擬機器以模擬開發需求,指定 AI/ML 軟體組態以符合訓練和推理需求,以及透過入口網站存取金鑰從 NVIDIA NGC 登錄指定 AI/ML 套件。

程序

  1. 按一下 Automation Service Broker 中的耗用索引標籤。
  2. 按一下目錄
    可用的目錄項目取決於您選取的專案。如果您未選取專案,則可供您使用的所有目錄項目會顯示在目錄中。
  3. 找到 AI Workstation 卡,然後按一下請求
  4. 選取專案。
  5. 輸入部署的名稱和說明。
  6. 設定 AI 工作站參數。
    設定 範例值
    虛擬機器類別 A100 Small - 1 個 vGPU (16 GB),8 個 CPU 和 16 GB 記憶體
    數據磁碟大小 8 GB
    使用者密碼 輸入預設用戶的密碼。當您第一次登入時,系統可能會提示您重設密碼。
    SSH 公開金鑰 此設定為選擇性。
  7. 選取要在工作站上安裝的軟體服務包。
    設定 說明
    PyTorch PyTorch NGC 容器已針對 GPU 加速進行最佳化,並且包含一組經驗證的連結庫,可啟用和最佳化 GPU 效能。此容器還包含用於加速 ETL (DALI、RAPIDS)、訓練 (cuDNN、NCCL) 和推斷 (TensorRT) 工作負載的軟體。
    TensorFlow TensorFlow NGC Container 已針對 GPU 加速進行最佳化,且包含一組經過驗證的連結庫,可啟用和最佳化 GPU 效能。此容器可能還包含對 TensorFlow 原始程式碼的修改,以最大化效能和相容性。此容器還包含用於加速 ETL (DALI、RAPIDS)、訓練 (cuDNN、NCCL) 和推斷 (TensorRT) 工作負載的軟體。
    CUDA 範例 這是在 GPU 上執行 CUDA 工作負載的容器集合。該集合包括容器化 CUDA 樣本,例如 vectorAdd (以示範向量新增)、nbody (或引力 n 體模擬) 和其他範例。這些容器可用於驗證系統中 GPU 的軟體組態,或僅用於執行某些範例工作負載。
    DCGM Exporter NVIDIA Data Center GPU Manager (DCGM) 是一套工具,用於在叢集環境中管理和監控 NVIDIA 數據中心 GPU。監控堆疊通常由收集器、用於儲存度量的時間序列資料庫和可視化層組成。DCGM-Exporter 是 Prometheus 的導出工具,用於監控健全狀況並從 GPU 取得度量。
    Triton 推斷伺服器 Triton Inference 伺服器提供針對 CPU 和 GPU 最佳化的雲端和 Edge 推斷解決方案。Triton 支援 HTTP/REST 和 GRPC 通訊協定,允許遠端用戶端針對伺服器管理的任何模型要求推斷。對於Edge部署,Triton 可作為具有 C API 的共享連結庫使用,可讓Triton的完整功能直接包含在應用程式中。
    產生 AI 工作流程 - RAG 此參考解決方案示範了如何透過擴充現有的基礎 LLM 來符合您的業務使用案例,在生成 AI 中尋找業務價值。這是使用從包含公司業務數據的企業知識庫中擷取事實的增強產生 (RAG) 來完成的。本簡介說明瞭以RAG為基礎的強大 AI 聊天機器人的參考解決方案,其中包括 NVIDIA 的產生 AI 範例 Github 中可供開發人員使用的程式代碼。請特別注意如何透過網域特定業務數據來擴充 LLM,以建立敏捷且能回應新發展的 AI 應用程式。
  8. 輸入您想要安裝的自訂 cloud-init (針對軟體服務包定義的 cloud-init)。
    VMware Aria Automation 將合併軟體服務包中的 cloud-init 和自訂 cloud-init。
  9. 提供您的 NVIDIA NGC 入口網站存取金鑰。
  10. 按一下提交

部署已啟用 AI 的Tanzu Kubernetes叢集

身為 DevOps 工程師,您可以請求已啟用 GPU 的 Tanzu Kubernetes 叢集,Worker 節點可在這些叢集中執行 AI/ML 工作負載。

TKG 叢集包含一個 NVIDIA GPU Operator,它是 Kubernetes Operator,負責為 TKG 叢集節點上的 NVIDIA GPU 硬體設定正確的 NVIDIA 驅動程式。部署的叢集可用於 AI/ML 工作負載,而無需進行額外的 GPU 相關設定。

程序

  1. 找到 AI Kubernetes 叢集卡,然後按一下請求
  2. 選取專案。
  3. 輸入部署的名稱和說明。
  4. 選取控制窗格節點的數目。
    設定 範例值
    節點計數 1
    虛擬機器類別 cpu-only-medium - 8 個 CPU 和 16 GB 記憶體

    選取的類別將定義虛擬機器中的可用資源。

  5. 選取工作節點的數目。
    設定 說明
    節點計數 3
    虛擬機器類別 a100-medium - 4 個 vGPU (64 GB),16 個 CPU 和 32 GB 記憶體
  6. 按一下提交

結果

部署中包含一個主管命名空間、一個具有三個 Worker 節點的 TKG 叢集、TKG 叢集內的多個資源以及一個用於部署 GPU Operator 應用程式的 carvel 應用程式。

監控您的私人 AI 部署

您可以使用 [部署] 頁面管理部署和相關聯的資源,對部署進行變更,疑難排解失敗的部署,對資源進行變更,以及銷毀未使用的部署。

若要管理部署,請選取耗用 > 部署 > 部署

如需詳細資訊,請參閱如何管理我的 Automation Service Broker 部署