若要使開發人員能夠在 TKG 叢集上部署 AI/ML 工作負載,vSphere 管理員應設定 主管 環境以支援 NVIDIA GPU 硬體。
管理員步驟 1:檢閱系統需求
需求 | 說明 |
---|---|
vSphere 8 基礎結構 |
vCenter Server 和 ESXi 主機 |
工作負載管理授權 |
vSphere 命名空間和 主管 |
TKR Ubuntu OVA | |
NVIDIA vGPU 主機驅動程式 |
|
用於 vGPU 的 NVIDIA 授權伺服器 |
您的組織提供的 FQDN |
管理員步驟 2:在 ESXi 主機上安裝受支援的 NVIDIA GPU 裝置
若要在 TKG 上部署 AI/ML 工作負載,請在將啟用工作負載管理的 vCenter 叢集中的每個 ESXi 主機上安裝一或多個受支援的 NVIDIA GPU 裝置。
若要檢視相容的 NVIDIA GPU 裝置,請參閱《VMware 相容性指南》。
NVIDA GPU 裝置應支援最新的 NVIDIA AI Enterprise (NVAIE) vGPU 設定檔。如需相關指導,請參閱 NVIDIA 虛擬 GPU 軟體支援的 GPU 說明文件。
例如,以下 ESXi 主機上安裝了兩個 NVIDIA GPU A100 裝置。
管理員步驟 3:針對 vGPU 操作設定每個 ESXi 主機
對於啟用了工作負載管理的 vCenter 叢集中的每個 ESXi 主機,請透過啟用直接共用和 SR-IOV 為 NVIDIA vGPU 設定主機。
在每個 ESXi 主機上啟用直接共用
若要解除鎖定 NVIDIA vGPU 功能,請在將啟用工作負載管理的 vCenter 叢集中的每個 ESXi 主機上啟用直接共用模式。
- 使用 vSphere Client 登入 vCenter Server。
- 選取 vCenter 叢集中的 ESXi 主機。
- 選取 。
- 選取 NVIDIA GPU 加速器裝置。
- 編輯圖形裝置設定。
- 選取直接共用。
- 對於共用傳遞 GPU 指派原則,為獲得最佳效能,請選取將虛擬機器分散給不同的 GPU
- 按一下確定可儲存組態。
- 請注意,這些設定將在重新啟動主機後生效。
- 在 ESXi 主機上按一下滑鼠右鍵,然後將其置於維護模式。
- 將主機重新開機。
- 當主機再次執行時,將其退出維護模式。
- 對支援工作負載管理的 vSphere 叢集中的每個 ESXi 主機重複此程序。
為 NVIDIA GPU A30 和 A100 裝置開啟 SR-IOV BIOS
如果使用多執行個體 GPU (MIG 模式) 所需的 NVIDIA A30 或 A100 GPU 裝置,則必須在 ESXi 主機上啟用 SR-IOV。如果未啟用 SR-IOV,Tanzu Kubernetes 叢集節點虛擬機器將無法啟動。如果發生這種情況,您會在啟用了工作負載管理的 vCenter Server 的最近的工作窗格中看到以下錯誤訊息。
Could not initialize plugin libnvidia-vgx.so for vGPU nvidia_aXXX-xx. Failed to start the virtual machine. Module DevicePowerOn power on failed.
若要啟用 SR-IOV,請使用 Web 主控台登入 ESXi 主機。選取設定 SR-IOV。您可以從此處開啟 SR-IOV。如需其他指導,請參閱 vSphere 說明文件中的單一根目錄 I/O 虛擬化 (SR-IOV)。
。選取 NVIDIA GPU 裝置,然後按一下vGPU 和動態 DirectPath IO (啟用了傳遞的裝置)
- 使用 vSphere Client 登入 vCenter Server。
- 選取 vCenter 叢集中的目標 ESXi 主機。
- 選取 。
- 選取所有 PCI 裝置索引標籤。
- 選取目標 NVIDIA GPU 加速器裝置。
- 按一下切換傳遞。
- 在 ESXi 主機上按一下滑鼠右鍵,然後將其置於維護模式。
- 將主機重新開機。
- 當主機再次執行時,將其退出維護模式。
管理員步驟 4:在每個 ESXi 主機上安裝 NVIDIA 主機管理器驅動程式
若要執行具有 NVIDIA vGPU 圖形加速的 Tanzu Kubernetes 叢集節點虛擬機器,請在將啟用工作負載管理的 vCenter 叢集中的每個 ESXi 主機上安裝 NVIDIA 主機管理器驅動程式。
NVIDIA vGPU 主機管理器驅動程式元件封裝在 vSphere 安裝服務包 (VIB) 中。NVAIE VIB 由您的組織透過其 NVIDIA GRID 授權方案提供給您。VMware 不提供 NVAIE VIB,也不提供下載服務。根據 NVIDIA 授權方案,授權伺服器由您的組織設定。如需詳細資訊,請參閱 NVIDIA 虛擬 GPU 軟體快速入門指南。
esxcli system maintenanceMode set --enable true esxcli software vib install -v ftp://server.domain.example.com/nvidia/signed/NVIDIA_bootbank_NVIDIA-VMware_ESXi_7.0_Host_Driver_460.73.02-1OEM.700.0.0.15525992.vib esxcli system maintenanceMode set --enable false /etc/init.d/xorg restart
管理員步驟 5:驗證 ESXi 主機是否已做好執行 NVIDIA vGPU 操作的準備
- 透過 SSH 登入 ESXi 主機,進入 shell 模式,然後執行命令
nvidia-smi
。NVIDIA 系統管理介面是由 NVIDA vGPU 主機管理員提供的命令列公用程式。執行此命令將傳回主機上的 GPU 和驅動程式。 - 執行以下命令以驗證是否已正確安裝 NVIDIA 驅動程式:
esxcli software vib list | grep NVIDA
。 - 驗證主機是否設定了 GPU 直接共用並開啟了 SR-IOV (如果使用的是 NVIDIA A30 或 A100 裝置)。
- 使用 vSphere Client,在為 GPU 設定的 ESXi 主機上建立一個包含 PCI 裝置的新虛擬機器。NVIDIA vGPU 設定檔應顯示且可選取。
管理員步驟 6:啟用工作負載管理
管理員步驟 7:使用 TKR Ubuntu 建立或更新內容程式庫
NVIDIA vGPU 需要使用 Ubuntu 作業系統。不能將 Tanzu Kubernetes 版本的 PhotonOS 版本用於 vGPU 叢集。
VMware 提供了 Ubuntu 版本的 Tanzu Kubernetes 版本。從 vSphere 8 開始,會在叢集 YAML 中使用註解指定 Ubuntu 版本。
管理員步驟 8:建立包含 vGPU 設定檔的自訂虛擬機器類別
建立包含 vGPU 設定檔的自訂虛擬機器類別。然後,將在叢集規格中使用此虛擬機器類別建立 TKGS 叢集節點。請參閱以下指示:為 NVIDIA vGPU 裝置建立自訂虛擬機器類別。
管理員步驟 9:設定 vSphere 命名空間
為計劃佈建的每個 TKG vGPU 叢集建立一個 vSphere 命名空間。請參閱建立 vSphere 命名空間 以託管 TKG 服務 叢集。
透過新增具有編輯權限的 vSphere SSO 使用者/群組設定 vSphere 命名空間,並連結用於持續性磁碟區的儲存區原則。請參閱為 TKG 服務 叢集設定 vSphere 命名空間。
將存儲了所需 Ubuntu 映像的 TKR 內容程式庫與 vSphere 命名空間 相關聯。請參閱將 TKR 內容程式庫與 TKG 服務 相關聯。
- 在 [選取 vSphere 命名空間] 中,選取虛擬機器服務動態磚,然後按一下管理虛擬機器類別。
- 在類別清單中找到您建立的自訂虛擬機器類別。
- 選取 (勾選) 類別,然後按一下新增。
管理員步驟 10:驗證 主管 是否就緒
最後一個管理工作是驗證 主管 是否已佈建,以及是否可供叢集操作員用於為 AI/ML 工作負載佈建 TKG 叢集。