身為雲端管理員,您可以利用 VMware Cloud Foundation 堆疊來管理已啟用 GPU 的基礎結構和 AI/ML 工作負載網域。在 VMware Aria Automation 中,您可以提供已啟用 GPU 的深度學習虛擬機器 (DL VM) 和 Tanzu Kubernetes Grid (TKG) 叢集並將其設定為目錄項目,組織中的資料科學家和 DevOps 團隊可以在自助 Automation Service Broker 目錄中請求這些目錄項目。
什麼是 VMware Private AI Foundation?
VMware Private AI Foundation With NVIDIA 為在 VMware Cloud Foundation with NVIDIA GPU 上佈建 AI 工作負載提供了一個平台。此外,VMware by Broadcom 專門對依據 NVIDIA GPU Cloud (NGC) 容器執行 AI 工作負載進行了驗證。若要瞭解詳細資訊,請參閱〈什麼是 VMware Private AI Foundation with NVIDIA〉。
Private AI Automation Services 是 VMware Aria Automation 中提供的所有 VMware Private AI Foundation 功能的統稱。
若要開始使用 Private AI Automation Services,請在 VMware Aria Automation 中執行目錄設定精靈。該精靈可協助您將 VMware Private AI Foundation 連線至 VMware Aria Automation。
目錄安裝精靈如何運作?
- 新增雲端帳戶。雲端帳戶是用於從 vCenter 執行個體收集資料並將資源部署到其中的認證。
- 新增 NVIDIA 授權。
- 選取要新增至 Automation Service Broker 目錄的內容。
- 建立專案。此專案會將使用者與雲端帳戶區域連結在一起,讓他們能夠使用網路和儲存資源將雲端範本部署到 vCenter 執行個體。
- AI Workstation – 已啟用 GPU 的虛擬機器 (可以設定所需的 vCPU、vGPU、記憶體) 以及用於預先安裝 AI/ML 架構 (例如 PyTorch、CUDA Samples 和 TensorFlow) 的選項。
- AI RAG Workstation – 已啟用 GPU 的虛擬機器,具有擷取增強產生 (RAG) 參考解決方案。
- Triton Inference Server – 已啟用 GPU 的虛擬機器,具有 Triton Inference Server。
- AI Kubernetes 叢集 – VMware Tanzu Kubernetes Grid 叢集,具有支援 GPU 的 Worker 節點,可執行 AI/ML 雲端原生工作負載。
- AI Kubernetes RAG 叢集 – VMware Tanzu Kubernetes Grid 叢集,具有支援 GPU 的 Worker 節點,可執行參考 RAG 解決方案。
如果您需要變更您提供的任何設定 (例如授權變更)或您想要為其他專案建立 AI 目錄專案,則可以再次執行精靈多次。每次執行精靈時,除了任何先前建立的專案之外,系統都會為您建立五個新的目錄專案。
您可以修改精靈建立的目錄項目的範本,以滿足組織的特定需求。
開始之前
- 確認您執行的是 VMware Aria Automation 8.18。
- 確認您執行的是 VMware Cloud Foundation 5.1.1 或更新版本,其中包括 vCenter 8.0 Update U2b 或更新版本。
- 確認您在 VMware Aria Automation 中擁有 vCenter 雲端帳戶。
- 確認您擁有具有進階雲端服務訂閱的 NVIDIA GPU Cloud Enterprise 組織。
- 透過工作負載管理 確認您已設定已啟用 GPU 的主管叢集。
- 為 VMware Private AI Foundation with NVIDIA 設定 VMware Aria Automation。請參閱〈為 VMware Private AI Foundation with NVIDIA 設定 VMware Aria Automation〉。
- 在執行目錄設定精靈之前,請完成 VMware Cloud Foundation 快速入門。SDDC 和主管叢集必須向 VMware Aria Automation 進行登錄。請參閱如何使用 VMware Cloud Foundation 快速入門開始使用 VMware Aria Automation。
- 確認您已從 NVIDIA 授權伺服器產生用戶端組態 Token,並且您擁有 NVIDIA NGC 入口網站 API 金鑰。NVIDIA NGC 入口網站存取金鑰用於下載和安裝 vGPU 驅動程式。
- 為雲端耗用介面 (CCI) 設定 Single Sign-On (SSO)。請參閱〈為 CCI 設定 Single Sign-On〉。
- 確認您已在 https://packages.vmware.com/dl-vm/lib.json 中訂閱內容程式庫。
程序
- 安裝 VMware Aria Automation 並首次登入後,按一下啟動快速入門。
- 在 Private AI Automation Services 卡上,按一下啟動。
- 選取要布建存取權的雲端帳戶。
請注意,此處的所有值均為使用案例範例。帳戶值取決於環境。
- 選取 vCenter 雲端帳戶。
- 選取已啟用 GPU 的主管。
- 輸入區域名稱。
如果已為主管設定區域,則會自動選取區域。
如果主管未與區域關聯,需要在此步驟新增一個區域。請考慮為區域使用說明性名稱,以協助使用者從其他可用區域區分已啟用 GPU 的區域。
- 按下一步。
- 提供 NVIDIA 授權伺服器的相關資訊。
- 複製並貼上 NVIDIA 用戶端組態 Token 的內容。
需要用戶端組態 Token 才能啟用 vGPU 驅動程式的全部功能。
- 選取 NVIDIA vGPU 驅動程式的位置。
- 雲端 – NVIDIA vGPU 驅動程式託管在 NVIDIA 授權入口網站上。
必須提供 NVIDIA 授權入口網站 API 金鑰,該金鑰用於評估使用者是否有權下載 NVIDIA vGPU 驅動程式。API 金鑰必須為 UUID。
備註: 從 NVIDIA 授權入口網站產生的 API 金鑰與 NVAIE API 金鑰不同。 - 本機 – NVIDIA vGPU 驅動程式託管在內部部署環境中,並從私人網路進行存取。
必須為虛擬機器提供 vGPU 客體驅動程式的位置。
對於氣隙環境,vGPU 驅動程式必須可透過私人網路或資料中心存取。
- 雲端 – NVIDIA vGPU 驅動程式託管在 NVIDIA 授權入口網站上。
- 按下一步。
- 複製並貼上 NVIDIA 用戶端組態 Token 的內容。
- 設定目錄專案。
- 選取包含深度學習虛擬機器映像的內容程式庫。
一次只能存取一個內容程式庫。如果內容程式庫包含 Kubernetes 映像,則會篩選掉這些映像。
- 選取要用於建立 Workstation 虛擬機器的虛擬機器映像。
- 選取要提供給目錄使用者的虛擬機器類別。
您必須新增至少一個支援 GPU 的類別和一個不支援 GPU 的類別。
- 已啟用 GPU 的虛擬機器類別用於深度學習虛擬機器和 TKG 叢集的 Worker 節點。部署目錄項目時,會使用所選虛擬機器類別建立 TKG 叢集。
- 需要不支援 GPU 的節點,才能執行 Kubernetes 控制平面。
- 選取要套用至虛擬機器的儲存區原則。
- 指定要提取 NVIDIA GPU Cloud 資源的容器登錄。
- 雲端 – 容器映像從 NVIDIA NGC 目錄提取。
- 本機 – 對於氣隙環境,容器從私人登錄提取。
您必須提供自行託管登錄的位置。如果登錄需要驗證,還必須提供登入認證。
可以將 Harbor 用作 NVIDIA NGC 目錄中容器映像的本機登錄。請參閱〈在 VMware Private AI Foundation with NVIDIA 中設定私人 Harbor 登錄〉。
- (可選) 設定 Proxy 伺服器。
在無法直接存取網際網路的環境中,可使用 Proxy 伺服器下載 vGPU 驅動程式並提取非 RAG AI Workstation 容器。
備註: AI Workstation 和 Triton Inference Server 目錄項目支援氣隙環境。AI RAG Workstation 和 AI Kubernetes 叢集項目不支援氣隙環境,需要網際網路連線。 - 按下一步。
- 選取包含深度學習虛擬機器映像的內容程式庫。
- 透過建立專案並指派用戶來設定對目錄專案的存取權。
專案用於管理人員、指派的資源、雲端範本和部署。
- 輸入項目的名稱和說明。
專案名稱只能包含小寫英數字元或連字號 (-)。
- 若要使目錄項目可供其他人使用,請新增管理員和成員。
管理員比成員擁有的權限更多。如需詳細資訊,請參閱〈VMware Aria Automation 使用者角色有哪些〉。
- 按下一步。
- 輸入項目的名稱和說明。
- 在摘要頁面上驗證您的組態。
在執行精靈之前,請考慮儲存組態的詳細數據。
- 按一下執行快速入門。
結果
在 Automation Service Broker 目錄中將建立五個目錄項目 (AI Workstation、AI RAG Workstation、Triton Inferencing Server、AI Kubernetes 叢集和 AI Kubernetes RAG 叢集),組織中的使用者現在可以對其進行部署。
後續步驟
- 確認目錄中的範本可供您與其共用內容的所選專案成員使用,並監控佈建程序以確保成功部署。請參閱〈如何部署 PAIF 目錄項目〉。
- 如果您要控制部署可存在的時間長度,請建立租用。請參閱〈設定 Automation Service Broker 原則〉。
- 若要在請求時修改使用者輸入,可以建立自訂表單。請參閱〈自訂 Automation Service Broker 圖示和請求表單〉。
疑難排解
- 如果目錄設定精靈失敗,請為其他專案再次執行該精靈。