若要使開發人員能夠在 TKG 叢集上部署 AI/ML 工作負載,vSphere 管理員應設定 主管 環境以支援 NVIDIA GPU 硬體。

管理員步驟 1:檢閱系統需求

根據以下系統需求設定環境,以便能夠在 TKG 叢集上部署 AI/ML 工作負載。
需求 說明

vSphere 8 基礎結構

vCenter Server 和 ESXi 主機

工作負載管理授權

vSphere 命名空間和 主管

TKR Ubuntu OVA

Tanzu Kubernetes 發行版本說明

NVIDIA vGPU 主機驅動程式

NGC 網站下載 VIB。如需詳細資訊,請參閱 vGPU 軟體驅動程式說明文件

用於 vGPU 的 NVIDIA 授權伺服器

您的組織提供的 FQDN

管理員步驟 2:在 ESXi 主機上安裝受支援的 NVIDIA GPU 裝置

若要在 TKG 上部署 AI/ML 工作負載,請在將啟用工作負載管理的 vCenter 叢集中的每個 ESXi 主機上安裝一或多個受支援的 NVIDIA GPU 裝置。

若要檢視相容的 NVIDIA GPU 裝置,請參閱《VMware 相容性指南》

相容的 NVIDIA GPU 裝置清單。按一下 GPU 裝置型號可檢視更多詳細資料並訂閱 RSS 摘要。

NVIDA GPU 裝置應支援最新的 NVIDIA AI Enterprise (NVAIE) vGPU 設定檔。如需相關指導,請參閱 NVIDIA 虛擬 GPU 軟體支援的 GPU 說明文件。

例如,以下 ESXi 主機上安裝了兩個 NVIDIA GPU A100 裝置。

vSphere Client 中的 [圖形裝置] 索引標籤列出了 NVIDIA GPU A100 裝置。

管理員步驟 3:針對 vGPU 操作設定每個 ESXi 主機

對於啟用了工作負載管理的 vCenter 叢集中的每個 ESXi 主機,請透過啟用直接共用和 SR-IOV 為 NVIDIA vGPU 設定主機。

在每個 ESXi 主機上啟用直接共用

若要解除鎖定 NVIDIA vGPU 功能,請在將啟用工作負載管理的 vCenter 叢集中的每個 ESXi 主機上啟用直接共用模式。

若要啟用 直接共用,請完成以下步驟。如需其他指導,請參閱 在 vSphere 上設定虛擬圖形
  1. 使用 vSphere Client 登入 vCenter Server
  2. 選取 vCenter 叢集中的 ESXi 主機。
  3. 選取設定 > 硬體 > 圖形 > 圖形裝置
  4. 選取 NVIDIA GPU 加速器裝置。
  5. 編輯圖形裝置設定。
  6. 選取直接共用
  7. 對於共用傳遞 GPU 指派原則,為獲得最佳效能,請選取將虛擬機器分散給不同的 GPU
  8. 按一下確定可儲存組態。
  9. 請注意,這些設定將在重新啟動主機後生效。
  10. 在 ESXi 主機上按一下滑鼠右鍵,然後將其置於維護模式。
  11. 將主機重新開機。
  12. 當主機再次執行時,將其退出維護模式。
  13. 對支援工作負載管理的 vSphere 叢集中的每個 ESXi 主機重複此程序。

為 NVIDIA GPU A30 和 A100 裝置開啟 SR-IOV BIOS

如果使用多執行個體 GPU (MIG 模式) 所需的 NVIDIA A30A100 GPU 裝置,則必須在 ESXi 主機上啟用 SR-IOV。如果未啟用 SR-IOV,Tanzu Kubernetes 叢集節點虛擬機器將無法啟動。如果發生這種情況,您會在啟用了工作負載管理vCenter Server最近的工作窗格中看到以下錯誤訊息。

Could not initialize plugin libnvidia-vgx.so for vGPU nvidia_aXXX-xx. Failed to start the virtual machine. Module DevicePowerOn power on failed.

若要啟用 SR-IOV,請使用 Web 主控台登入 ESXi 主機。選取管理 > 硬體。選取 NVIDIA GPU 裝置,然後按一下設定 SR-IOV。您可以從此處開啟 SR-IOV。如需其他指導,請參閱 vSphere 說明文件中的單一根目錄 I/O 虛擬化 (SR-IOV)

vGPU 和動態 DirectPath IO (啟用了傳遞的裝置)

如果要將 vGPU 與動態 DirectPath IO 搭配使用,請執行以下其他組態。
  1. 使用 vSphere Client 登入 vCenter Server
  2. 選取 vCenter 叢集中的目標 ESXi 主機。
  3. 選取設定 > 硬體 > PCI 裝置
  4. 選取所有 PCI 裝置索引標籤。
  5. 選取目標 NVIDIA GPU 加速器裝置。
  6. 按一下切換傳遞
  7. 在 ESXi 主機上按一下滑鼠右鍵,然後將其置於維護模式。
  8. 將主機重新開機。
  9. 當主機再次執行時,將其退出維護模式。

管理員步驟 4:在每個 ESXi 主機上安裝 NVIDIA 主機管理器驅動程式

若要執行具有 NVIDIA vGPU 圖形加速的 Tanzu Kubernetes 叢集節點虛擬機器,請在將啟用工作負載管理的 vCenter 叢集中的每個 ESXi 主機上安裝 NVIDIA 主機管理器驅動程式。

NVIDIA vGPU 主機管理器驅動程式元件封裝在 vSphere 安裝服務包 (VIB) 中。NVAIE VIB 由您的組織透過其 NVIDIA GRID 授權方案提供給您。VMware 不提供 NVAIE VIB,也不提供下載服務。根據 NVIDIA 授權方案,授權伺服器由您的組織設定。如需詳細資訊,請參閱 NVIDIA 虛擬 GPU 軟體快速入門指南

設定 NVIDIA 環境後,在每個 ESXi 主機上執行以下命令,將 NVIDIA 授權伺服器位址和 NVAIE VIB 版本取代為適合您環境的值。如需其他指導,請參閱 VMware 支援知識庫中的 在 ESXi 上安裝和設定 NVIDIA VIB
備註: 在 ESXi 主機上安裝的 NVAIE VIB 版本必須與節點虛擬機器上安裝的 vGPU 軟體版本相符。下面的版本僅作舉例之用。
esxcli system maintenanceMode set --enable true
esxcli software vib install -v ftp://server.domain.example.com/nvidia/signed/NVIDIA_bootbank_NVIDIA-VMware_ESXi_7.0_Host_Driver_460.73.02-1OEM.700.0.0.15525992.vib
esxcli system maintenanceMode set --enable false
/etc/init.d/xorg restart

管理員步驟 5:驗證 ESXi 主機是否已做好執行 NVIDIA vGPU 操作的準備

若要驗證每個 ESXi 主機是否都已準備好執行 NVIDIA vGPU 操作,請在將啟用 工作負載管理的 vCenter 叢集中的每個 ESXi 主機上執行以下檢查:
  • 透過 SSH 登入 ESXi 主機,進入 shell 模式,然後執行命令 nvidia-smi。NVIDIA 系統管理介面是由 NVIDA vGPU 主機管理員提供的命令列公用程式。執行此命令將傳回主機上的 GPU 和驅動程式。
  • 執行以下命令以驗證是否已正確安裝 NVIDIA 驅動程式:esxcli software vib list | grep NVIDA
  • 驗證主機是否設定了 GPU 直接共用並開啟了 SR-IOV (如果使用的是 NVIDIA A30 或 A100 裝置)。
  • 使用 vSphere Client,在為 GPU 設定的 ESXi 主機上建立一個包含 PCI 裝置的新虛擬機器。NVIDIA vGPU 設定檔應顯示且可選取。[自訂硬體] 索引標籤,其中選取了 NVIDIA vGPU 設定檔。

管理員步驟 6:啟用工作負載管理

若要啟用 工作負載管理,請參閱 部署 TKG 服務 叢集
備註: 如果您的 vSphere 叢集已啟用 工作負載管理,請跳過此步驟,即假定該叢集使用為 vGPU 設定的 ESXi 主機。

管理員步驟 7:使用 TKR Ubuntu 建立或更新內容程式庫

NVIDIA vGPU 需要使用 Ubuntu 作業系統。不能將 Tanzu Kubernetes 版本的 PhotonOS 版本用於 vGPU 叢集。

VMware 提供了 Ubuntu 版本的 Tanzu Kubernetes 版本。從 vSphere 8 開始,會在叢集 YAML 中使用註解指定 Ubuntu 版本。

使用支援的 Ubuntu TKR 建立或更新現有內容程式庫。請參閱 管理用於 TKG 服務 叢集的 Kubernetes 版本
備註: 如果您已在 vCenter 上設定了現有 TKR 內容程式庫,請略過此步驟。請勿為 TKR 建立第二個內容程式庫。這樣做可能會導致系統不穩定。

管理員步驟 8:建立包含 vGPU 設定檔的自訂虛擬機器類別

建立包含 vGPU 設定檔的自訂虛擬機器類別。然後,將在叢集規格中使用此虛擬機器類別建立 TKGS 叢集節點。請參閱以下指示:為 NVIDIA vGPU 裝置建立自訂虛擬機器類別

管理員步驟 9:設定 vSphere 命名空間

為計劃佈建的每個 TKG vGPU 叢集建立一個 vSphere 命名空間。請參閱建立 vSphere 命名空間 以託管 TKG 服務 叢集

透過新增具有編輯權限的 vSphere SSO 使用者/群組設定 vSphere 命名空間,並連結用於持續性磁碟區的儲存區原則。請參閱為 TKG 服務 叢集設定 vSphere 命名空間

將存儲了所需 Ubuntu 映像的 TKR 內容程式庫與 vSphere 命名空間 相關聯。請參閱將 TKR 內容程式庫與 TKG 服務 相關聯

將自訂虛擬機器類別與 vSphere 命名空間 相關聯。
  • 在 [選取 vSphere 命名空間] 中,選取虛擬機器服務動態磚,然後按一下管理虛擬機器類別
  • 在類別清單中找到您建立的自訂虛擬機器類別。
  • 選取 (勾選) 類別,然後按一下新增
如需其他指導,請參閱 將虛擬機器類別與 vSphere 命名空間 相關聯

管理員步驟 10:驗證 主管 是否就緒

最後一個管理工作是驗證 主管 是否已佈建,以及是否可供叢集操作員用於為 AI/ML 工作負載佈建 TKG 叢集。

請參閱使用 vCenter SSO 驗證連線至 TKG 服務 叢集