身為雲端管理員,您可以利用 VMware Cloud Foundation 堆疊來管理已啟用 GPU 的基礎結構和 AI/ML 工作負載網域。在 VMware Aria Automation 中,您可以提供已啟用 GPU 的深度學習虛擬機器 (DL VM) 和 Tanzu Kubernetes Grid (TKG) 叢集並將其設定為目錄項目,組織中的資料科學家和 DevOps 團隊可以在自助 Automation Service Broker 目錄中請求這些目錄項目。
什麼是 VMware Private AI Foundation?
VMware Private AI Foundation With NVIDIA 為在 VMware Cloud Foundation with NVIDIA GPU 上佈建 AI 工作負載提供了一個平台。此外,VMware by Broadcom 專門對依據 NVIDIA GPU Cloud (NGC) 容器執行 AI 工作負載進行了驗證。若要瞭解詳細資訊,請參閱〈什麼是 VMware Private AI Foundation with NVIDIA〉。
Private AI Automation Services 是 VMware Aria Automation 中提供的所有 VMware Private AI Foundation 功能的統稱。
若要開始使用 Private AI Automation Services,請在 VMware Aria Automation 中執行目錄設定精靈。該精靈可協助您將 VMware Private AI Foundation 連線至 VMware Aria Automation。
目錄安裝精靈如何運作?
- 新增 vCenter 雲端帳戶。雲端帳戶是用於從 vCenter 執行個體收集資料並將資源部署到其中的認證。
- 新增 NVIDIA 授權。
- 選取要新增至 Automation Service Broker 目錄的內容。
- 建立專案。此專案會將使用者與雲端帳戶區域連結在一起,讓他們能夠使用網路和儲存資源將雲端範本部署到 vCenter 執行個體。
- AI Workstation – 已啟用 GPU 的虛擬機,可透過 NVIDIA 設定所需的 vCPU、vGPU、記憶體和 AI/ML 軟體。
- AI Kubernetes 叢集 – 已啟用 GPU 的Tanzu Kubernetes叢集,可設定為使用 NVIDIA GPU Operator。
如果您需要變更您提供的任何設定 (例如授權變更)或您想要為其他專案建立 AI 目錄專案,則可以再次執行精靈多次。每次執行精靈時,除了任何先前建立的專案之外,系統都會為您建立兩個新的目錄專案。
開始之前
- 確認您執行的是 VMware Aria Automation 8.16.2。
- 確認您執行的是 VMware Cloud Foundation 5.1.1,其中包括 vCenter 8.0 Update U2b。
- 確認您在 VMware Aria Automation 中擁有 vCenter 雲端帳戶。
- 確認您擁有具有進階雲端服務訂閱的 NVIDIA GPU Cloud Enterprise 組織。
- 透過工作負載管理 確認您已設定已啟用 GPU 的主管叢集。
- 為 VMware Private AI Foundation with NVIDIA 設定 VMware Aria Automation。請參閱〈為 VMware Private AI Foundation with NVIDIA 設定 VMware Aria Automation〉。
- 在執行目錄設定精靈之前,請完成 VMware Cloud Foundation 快速入門。SDDC 和主管叢集必須向 VMware Aria Automation 進行登錄。請參閱如何使用 VMware Cloud Foundation 快速入門開始使用 VMware Aria Automation。
- 確認您已從 NVIDIA 授權伺服器產生授權 .tok 檔案,並且您擁有 NVIDIA NGC 入口網站 API 金鑰。NVIDIA NGC 入口網站存取金鑰用於下載和安裝 vGPU 驅動程式。
- 為雲端耗用介面 (CCI) 設定 Single Sign-On (SSO)。請參閱〈為 CCI 設定 Single Sign-On〉。
- 確認您已在 https://packages.vmware.com/dl-vm/lib.json 中訂閱內容程式庫。
程序
- 安裝 VMware Aria Automation 並首次登入後,按一下啟動快速入門。
- 在 Private AI Automation Services 卡上,按一下啟動。
- 選取要布建存取權的雲端帳戶。
請注意,此處的所有值均為使用案例範例。帳戶值取決於環境。
- 選取 vCenter 雲端帳戶。
- 選取已啟用 GPU 的主管。
- 輸入區域名稱。
請考慮為區域使用說明性名稱,以協助使用者從其他可用區域區分已啟用 GPU 的區域。
如果已為主管設定區域,則會自動選取區域。
- 按下一步。
- 提供 NVIDIA 授權伺服器的相關資訊。
- 選取 NVIDIA 授權伺服器類型。
- 雲端授權服務 (CLS) 執行個體主控於 NVIDIA 授權入口網站中。
- 委派授權服務 (DLS) 實例主控於某個位置的內部部署中,可從專用網存取。如果選取此伺服器類型,還必須提供伺服器的位置。
- 複製並貼上許可證文件的內容。
NVIDIA 授權入口網站 API 金鑰用於評估使用者是否有權下載 NVIDIA vGPU 驅動程式。API 金鑰必須為 UUID。備註: 從 NVIDIA 授權入口網站產生的 API 金鑰與 NVAIE API 金鑰不同。
- 按下一步。
- 選取 NVIDIA 授權伺服器類型。
- 設定目錄專案。
- 選取要用於建立 Workstation 虛擬機器的虛擬機器映像。
- 選取要提供給目錄使用者的虛擬機器類別。
您必須新增至少一個支援 GPU 的類別和一個不支援 GPU 的類別。
- 已啟用 GPU 的虛擬機器類別用於深度學習虛擬機器和 Kubernetes 叢集的 Worker 節點。部署目錄項目時,會使用所選虛擬機器類別建立 Kubernetes 叢集。
- 需要不支援 GPU 的節點,才能執行 Kubernetes 控制平面。
- 選取要套用至虛擬機的儲存區類別。
- 指定要提取 NVIDIA GPU Cloud 資源的容器登錄。
如果您選取自我主控的登錄,則在您完成精靈之後,目錄專案需要其他手動設定。透過 Broadcom 專業服務部門連絡VMware。
- 按下一步。
- 透過建立專案並指派用戶來設定對目錄專案的存取權。
專案用於管理人員、指派的資源、雲端範本和部署。
- 輸入項目的名稱和說明。
專案名稱只能包含小寫英數字元或連字號 (-)。
- 若要使目錄項目可供其他人使用,請新增管理員和成員。
管理員比成員擁有的權限更多。如需詳細資訊,請參閱〈VMware Aria Automation 使用者角色有哪些〉。
- 按下一步。
- 輸入項目的名稱和說明。
- 在摘要頁面上驗證您的組態。
在執行精靈之前,請考慮儲存組態的詳細數據。
- 按一下完成。
結果
AI Workstation 和 AI Kubernetes 叢集目錄項目在 Automation Service Broker 目錄中建立,組織中的使用者現在可以部署這些目錄項目。
後續步驟
- 確認目錄中的範本可供您與其共用內容的所選專案成員使用,並監控佈建程序以確保成功部署。請參閱〈如何部署 PAIF 目錄項目〉。
- 如果您要控制部署可存在的時間長度,請建立租用。請參閱〈設定 Automation Service Broker 原則〉。
- 若要在請求時修改使用者輸入,可以建立自訂表單。請參閱〈自訂 Automation Service Broker 圖示和請求表單〉。
疑難排解
- 如果目錄設定精靈失敗,請為其他專案再次執行該精靈。