身為雲端管理員,您可以利用 VMware Cloud Foundation 堆疊來管理已啟用 GPU 的基礎結構和 AI/ML 工作負載網域。在 VMware Aria Automation 中,您可以提供已啟用 GPU 的深度學習虛擬機器 (DL VM) 和 Tanzu Kubernetes Grid (TKG) 叢集並將其設定為目錄項目,組織中的資料科學家和 DevOps 團隊可以在自助 Automation Service Broker 目錄中請求這些目錄項目。

備註: 本說明文件依據 VMware Aria Automation 8.18。如需 VMware Aria Automation 8.18.1 中 VMware Private AI Foundation 功能的相關資訊,請參閱 VMware Private AI Foundation with NVIDIA 說明文件中的 〈為 VMware Private AI Foundation with NVIDIA 設定 VMware Aria Automation〉

什麼是 VMware Private AI Foundation

VMware Private AI Foundation With NVIDIA 為在 VMware Cloud Foundation with NVIDIA GPU 上佈建 AI 工作負載提供了一個平台。此外,VMware by Broadcom 專門對依據 NVIDIA GPU Cloud (NGC) 容器執行 AI 工作負載進行了驗證。若要瞭解詳細資訊,請參閱〈什麼是 VMware Private AI Foundation with NVIDIA〉

Private AI Automation ServicesVMware Aria Automation 中提供的所有 VMware Private AI Foundation 功能的統稱。

若要開始使用 Private AI Automation Services,請在 VMware Aria Automation 中執行目錄設定精靈。該精靈可協助您將 VMware Private AI Foundation 連線至 VMware Aria Automation

目錄安裝精靈如何運作?

重要: 目錄安裝精靈依預設為未啟用。若要為您的組織啟用此精靈,請連絡 VMware by Broadcom 專業服務。
使用目錄安裝精靈,您可以執行下列工作:
  1. 新增雲端帳戶。雲端帳戶是用於從 vCenter 執行個體收集資料並將資源部署到其中的認證。
  2. 新增 NVIDIA 授權。
  3. 選取要新增至 Automation Service Broker 目錄的內容。
  4. 建立專案。此專案會將使用者與雲端帳戶區域連結在一起,讓他們能夠使用網路和儲存資源將雲端範本部署到 vCenter 執行個體。
首次執行目錄設定精靈後,將在 Automation Service Broker 目錄中建立下列目錄項目,可供組織中的使用者部署:
  • AI Workstation – 已啟用 GPU 的虛擬機器 (可以設定所需的 vCPU、vGPU、記憶體) 以及用於預先安裝 AI/ML 架構 (例如 PyTorch、CUDA Samples 和 TensorFlow) 的選項。
  • AI RAG Workstation – 已啟用 GPU 的虛擬機器,具有擷取增強產生 (RAG) 參考解決方案。
  • Triton Inference Server – 已啟用 GPU 的虛擬機器,具有 Triton Inference Server。
  • AI Kubernetes 叢集VMware Tanzu Kubernetes Grid 叢集,具有支援 GPU 的 Worker 節點,可執行 AI/ML 雲端原生工作負載。
  • AI Kubernetes RAG 叢集VMware Tanzu Kubernetes Grid 叢集,具有支援 GPU 的 Worker 節點,可執行參考 RAG 解決方案。

如果您需要變更您提供的任何設定 (例如授權變更)或您想要為其他專案建立 AI 目錄專案,則可以再次執行精靈多次。每次執行精靈時,除了任何先前建立的專案之外,系統都會為您建立五個新的目錄專案。

您可以修改精靈建立的目錄項目的範本,以滿足組織的特定需求。

開始之前

  • 確認您執行的是 VMware Aria Automation 8.18。
  • 確認您執行的是 VMware Cloud Foundation 5.1.1 或更新版本,其中包括 vCenter 8.0 Update U2b 或更新版本。
  • 確認您在 VMware Aria Automation 中擁有 vCenter 雲端帳戶。
  • 確認您擁有具有進階雲端服務訂閱的 NVIDIA GPU Cloud Enterprise 組織。
  • 透過工作負載管理 確認您已設定已啟用 GPU 的主管叢集。
  • VMware Private AI Foundation with NVIDIA 設定 VMware Aria Automation。請參閱〈為 VMware Private AI Foundation with NVIDIA 設定 VMware Aria Automation〉
  • 在執行目錄設定精靈之前,請完成 VMware Cloud Foundation 快速入門。SDDC 和主管叢集必須向 VMware Aria Automation 進行登錄。請參閱如何使用 VMware Cloud Foundation 快速入門開始使用 VMware Aria Automation
  • 確認您已從 NVIDIA 授權伺服器產生用戶端組態 Token,並且您擁有 NVIDIA NGC 入口網站 API 金鑰。NVIDIA NGC 入口網站存取金鑰用於下載和安裝 vGPU 驅動程式。
  • 為雲端耗用介面 (CCI) 設定 Single Sign-On (SSO)。請參閱〈為 CCI 設定 Single Sign-On〉
  • 確認您已在 https://packages.vmware.com/dl-vm/lib.json 中訂閱內容程式庫。

程序

  1. 安裝 VMware Aria Automation 並首次登入後,按一下啟動快速入門

    具有 [啟動快速入門] 動態磚的主控台。

  2. Private AI Automation Services 卡上,按一下啟動
  3. 選取要布建存取權的雲端帳戶。

    目錄設定精靈的第 1 步是選取雲端帳戶。

    請注意,此處的所有值均為使用案例範例。帳戶值取決於環境。

    1. 選取 vCenter 雲端帳戶。
    2. 選取已啟用 GPU 的主管。
    3. 輸入區域名稱。

      如果已為主管設定區域,則會自動選取區域。

      如果主管未與區域關聯,需要在此步驟新增一個區域。請考慮為區域使用說明性名稱,以協助使用者從其他可用區域區分已啟用 GPU 的區域。

    4. 下一步
  4. 提供 NVIDIA 授權伺服器的相關資訊。

    目錄設定精靈的第 2 步是新增授權。

    1. 複製並貼上 NVIDIA 用戶端組態 Token 的內容。

      需要用戶端組態 Token 才能啟用 vGPU 驅動程式的全部功能。

    2. 選取 NVIDIA vGPU 驅動程式的位置。
      • 雲端 – NVIDIA vGPU 驅動程式託管在 NVIDIA 授權入口網站上。

        必須提供 NVIDIA 授權入口網站 API 金鑰,該金鑰用於評估使用者是否有權下載 NVIDIA vGPU 驅動程式。API 金鑰必須為 UUID。

        備註:NVIDIA 授權入口網站產生的 API 金鑰與 NVAIE API 金鑰不同。
      • 本機 – NVIDIA vGPU 驅動程式託管在內部部署環境中,並從私人網路進行存取。

        必須為虛擬機器提供 vGPU 客體驅動程式的位置。

        對於氣隙環境,vGPU 驅動程式必須可透過私人網路或資料中心存取。

      如需詳細資訊,請參閱NVIDIA 授權系統說明文件
    3. 下一步
  5. 設定目錄專案。

    目錄設定精靈的第 3 步是設定目錄項目。

    1. 選取包含深度學習虛擬機器映像的內容程式庫。

      一次只能存取一個內容程式庫。如果內容程式庫包含 Kubernetes 映像,則會篩選掉這些映像。

    2. 選取要用於建立 Workstation 虛擬機器的虛擬機器映像。
    3. 選取要提供給目錄使用者的虛擬機器類別。
      您必須新增至少一個支援 GPU 的類別和一個不支援 GPU 的類別。
      • 已啟用 GPU 的虛擬機器類別用於深度學習虛擬機器和 TKG 叢集的 Worker 節點。部署目錄項目時,會使用所選虛擬機器類別建立 TKG 叢集。
      • 需要不支援 GPU 的節點,才能執行 Kubernetes 控制平面。
    4. 選取要套用至虛擬機器的儲存區原則。
    5. 指定要提取 NVIDIA GPU Cloud 資源的容器登錄。
    6. (可選) 設定 Proxy 伺服器。

      在無法直接存取網際網路的環境中,可使用 Proxy 伺服器下載 vGPU 驅動程式並提取非 RAG AI Workstation 容器。

      備註: AI Workstation 和 Triton Inference Server 目錄項目支援氣隙環境。AI RAG Workstation 和 AI Kubernetes 叢集項目不支援氣隙環境,需要網際網路連線。
    7. 下一步
  6. 透過建立專案並指派用戶來設定對目錄專案的存取權。

    目錄設定精靈的第 4 步是設定使用者對目錄項目的存取權。

    專案用於管理人員、指派的資源、雲端範本和部署。

    1. 輸入項目的名稱和說明。

      專案名稱只能包含小寫英數字元或連字號 (-)。

    2. 若要使目錄項目可供其他人使用,請新增管理員成員

      管理員比成員擁有的權限更多。如需詳細資訊,請參閱〈VMware Aria Automation 使用者角色有哪些〉

    3. 下一步
  7. 摘要頁面上驗證您的組態。

    在執行精靈之前,請考慮儲存組態的詳細數據。

  8. 按一下執行快速入門

結果

Automation Service Broker 目錄中將建立五個目錄項目 (AI WorkstationAI RAG WorkstationTriton Inferencing ServerAI Kubernetes 叢集AI Kubernetes RAG 叢集),組織中的使用者現在可以對其進行部署。

包含 Private AI Foundation 目錄項目的 Service Broker 目錄頁面視圖。

後續步驟

疑難排解

  • 如果目錄設定精靈失敗,請為其他專案再次執行該精靈。