身為雲端管理員,您可以利用 VMware Cloud Foundation 堆疊來管理已啟用 GPU 的基礎結構和 AI/ML 工作負載網域。在 VMware Aria Automation 中,您可以提供已啟用 GPU 的深度學習虛擬機器 (DL VM) 和 Tanzu Kubernetes Grid (TKG) 叢集並將其設定為目錄項目,組織中的資料科學家和 DevOps 團隊可以在自助 Automation Service Broker 目錄中請求這些目錄項目。

什麼是 VMware Private AI Foundation

VMware Private AI Foundation With NVIDIA 為在 VMware Cloud Foundation with NVIDIA GPU 上佈建 AI 工作負載提供了一個平台。此外,VMware by Broadcom 專門對依據 NVIDIA GPU Cloud (NGC) 容器執行 AI 工作負載進行了驗證。若要瞭解詳細資訊,請參閱〈什麼是 VMware Private AI Foundation with NVIDIA〉

Private AI Automation ServicesVMware Aria Automation 中提供的所有 VMware Private AI Foundation 功能的統稱。

重要: Private AI Automation Services 產品適用於 VMware Aria Automation 8.16.2。

若要開始使用 Private AI Automation Services,請在 VMware Aria Automation 中執行目錄設定精靈。該精靈可協助您將 VMware Private AI Foundation 連線至 VMware Aria Automation

目錄安裝精靈如何運作?

重要: 目錄安裝精靈依預設為未啟用。若要為您的組織啟用此精靈,請連絡 VMware by Broadcom 專業服務。
使用目錄安裝精靈,您可以執行下列工作:
  1. 新增 vCenter 雲端帳戶。雲端帳戶是用於從 vCenter 執行個體收集資料並將資源部署到其中的認證。
  2. 新增 NVIDIA 授權。
  3. 選取要新增至 Automation Service Broker 目錄的內容。
  4. 建立專案。此專案會將使用者與雲端帳戶區域連結在一起,讓他們能夠使用網路和儲存資源將雲端範本部署到 vCenter 執行個體。
首次執行目錄設定精靈後,將在 Automation Service Broker 目錄中建立兩個目錄項目,可供組織中的使用者部署:
  • AI Workstation – 已啟用 GPU 的虛擬機,可透過 NVIDIA 設定所需的 vCPU、vGPU、記憶體和 AI/ML 軟體。
  • AI Kubernetes 叢集 – 已啟用 GPU 的Tanzu Kubernetes叢集,可設定為使用 NVIDIA GPU Operator。

如果您需要變更您提供的任何設定 (例如授權變更)或您想要為其他專案建立 AI 目錄專案,則可以再次執行精靈多次。每次執行精靈時,除了任何先前建立的專案之外,系統都會為您建立兩個新的目錄專案。

開始之前

程序

  1. 安裝 VMware Aria Automation 並首次登入後,按一下啟動快速入門

    具有 [啟動快速入門] 動態磚的主控台。

  2. Private AI Automation Services 卡上,按一下啟動
  3. 選取要布建存取權的雲端帳戶。

    目錄設定精靈的第 1 步是選取雲端帳戶。

    請注意,此處的所有值均為使用案例範例。帳戶值取決於環境。

    1. 選取 vCenter 雲端帳戶。
    2. 選取已啟用 GPU 的主管。
    3. 輸入區域名稱。

      請考慮為區域使用說明性名稱,以協助使用者從其他可用區域區分已啟用 GPU 的區域。

      如果已為主管設定區域,則會自動選取區域。

    4. 下一步
  4. 提供 NVIDIA 授權伺服器的相關資訊。

    目錄設定精靈的第 2 步是新增授權。

    1. 選取 NVIDIA 授權伺服器類型。
      • 雲端授權服務 (CLS) 執行個體主控於 NVIDIA 授權入口網站中。
      • 委派授權服務 (DLS) 實例主控於某個位置的內部部署中,可從專用網存取。如果選取此伺服器類型,還必須提供伺服器的位置。
      如需詳細資訊,請參閱NVIDIA 授權系統說明文件
    2. 複製並貼上許可證文件的內容。
      NVIDIA 授權入口網站 API 金鑰用於評估使用者是否有權下載 NVIDIA vGPU 驅動程式。API 金鑰必須為 UUID。
      備註:NVIDIA 授權入口網站產生的 API 金鑰與 NVAIE API 金鑰不同。
    3. 下一步
  5. 設定目錄專案。

    目錄設定精靈的第 3 步是設定目錄項目。

    1. 選取要用於建立 Workstation 虛擬機器的虛擬機器映像。
    2. 選取要提供給目錄使用者的虛擬機器類別。
      您必須新增至少一個支援 GPU 的類別和一個不支援 GPU 的類別。
      • 已啟用 GPU 的虛擬機器類別用於深度學習虛擬機器和 Kubernetes 叢集的 Worker 節點。部署目錄項目時,會使用所選虛擬機器類別建立 Kubernetes 叢集。
      • 需要不支援 GPU 的節點,才能執行 Kubernetes 控制平面。
    3. 選取要套用至虛擬機的儲存區類別。
    4. 指定要提取 NVIDIA GPU Cloud 資源的容器登錄。

      如果您選取自我主控的登錄,則在您完成精靈之後,目錄專案需要其他手動設定。透過 Broadcom 專業服務部門連絡VMware。

    5. 下一步
  6. 透過建立專案並指派用戶來設定對目錄專案的存取權。

    目錄設定精靈的第 4 步是設定使用者對目錄項目的存取權。

    專案用於管理人員、指派的資源、雲端範本和部署。

    1. 輸入項目的名稱和說明。

      專案名稱只能包含小寫英數字元或連字號 (-)。

    2. 若要使目錄項目可供其他人使用,請新增管理員成員

      管理員比成員擁有的權限更多。如需詳細資訊,請參閱〈VMware Aria Automation 使用者角色有哪些〉

    3. 下一步
  7. 摘要頁面上驗證您的組態。

    在執行精靈之前,請考慮儲存組態的詳細數據。

  8. 按一下完成

結果

AI WorkstationAI Kubernetes 叢集目錄項目在 Automation Service Broker 目錄中建立,組織中的使用者現在可以部署這些目錄項目。

包含兩個 Private AI Foundation 目錄項目的 Service Broker 目錄頁面視圖。

後續步驟

疑難排解

  • 如果目錄設定精靈失敗,請為其他專案再次執行該精靈。