關於在 TKGS 叢集上部署 AI/ML 工作負載

您可以使用 vSphere with Tanzu 和 NVIDIA vGPU 技術在 TKGS 叢集上部署 AI/ML 工作負載。

宣佈 TGKS 支援 AI/ML 工作負載

從 vSphere with Tanzu 版本 7 Update 3 Monthly Patch 1 開始，可以將計算密集型工作負載部署到由 Tanzu Kubernetes Grid 服務佈建的 Tanzu Kubernetes 叢集。在此環境中，計算密集型工作負載是一款人工智慧 (AI) 或機器學習 (ML) 應用程式，需要使用 GPU 加速器裝置。

為了便於在 Kubernetes 環境中執行 AI/ML 工作負載，VMware 與 NVIDIA 合作以便在 vSphere with Tanzu 上支援 NVIDIA GPU Cloud 平台。這意味著，您可以在由 Tanzu Kubernetes Grid 服務佈建的 Tanzu Kubernetes 叢集上部署 NGC 目錄中的容器映像。

若要進一步瞭解適用於 AI 就緒企業的聯合 NVIDIA 和 VMware 架構，請參閱在 vSphere 7 with Tanzu 上加速工作負載 - 使用 GPU 的 Kubernetes 叢集的技術預覽版。

支援的 vGPU 模式

在 TKGS 上部署 AI/ML 工作負載需要使用可透過 vSphere with Tanzu 內容傳遞網路獲取的 Ubuntu OVA。TKGS 支援兩種 GPU 操作模式：vGPU 和具有 NIC 傳遞的 vGPU。下表詳細介紹了這兩種模式。

模式	組態	說明
NVIDIA + TKGS + Ubuntu + vGPU	NVIDIA vGPU	GPU 裝置由每個 ESXi 主機上安裝的 NVIDIA 主機管理器驅動程式虛擬化。然後在多個 NVIDIA 虛擬 GPU (vGPU) 之間共用 GPU 裝置。每個 NVIDIA vGPU 都由 GPU 裝置的記憶本量定義。例如，如果 GPU 裝置的 RAM 總量為 32 GB，則可以建立 8 個 vGPU，每個 vGPU 約 4 GB 記憶體。
NVIDIA + TKGS + Ubuntu + vGPU + NIC 傳遞	NVIDIA vGPU 和動態 DirectPath IO	在設定了 NVIDIA vGPU 設定檔的同一虛擬機器類別中，支援使用動態 DirectPath IO 的傳遞網路裝置。在這種情況下，vSphere DRS 可確定虛擬機器放置。

模式

組態

說明

NVIDIA + TKGS + Ubuntu + vGPU

NVIDIA vGPU

GPU 裝置由每個 ESXi 主機上安裝的 NVIDIA 主機管理器驅動程式虛擬化。然後在多個 NVIDIA 虛擬 GPU (vGPU) 之間共用 GPU 裝置。

每個 NVIDIA vGPU 都由 GPU 裝置的記憶本量定義。例如，如果 GPU 裝置的 RAM 總量為 32 GB，則可以建立 8 個 vGPU，每個 vGPU 約 4 GB 記憶體。

NVIDIA + TKGS + Ubuntu + vGPU + NIC 傳遞

NVIDIA vGPU

和

動態 DirectPath IO

在設定了 NVIDIA vGPU 設定檔的同一虛擬機器類別中，支援使用動態 DirectPath IO 的傳遞網路裝置。在這種情況下，vSphere DRS 可確定虛擬機器放置。

入門

若要為 TKGS 設定 NVIDIA vGPU，請參閱以下主題：

如果使用具有 NIC 傳遞的 vGPU，另請參閱以下主題：在 TKGS 叢集上部署 AI/ML 工作負載的 vSphere 管理員附錄 (vGPU 和動態 DirectPath IO)。

如果要將 NVIDIA 委派授權伺服器 (DLS) 用於 NVAIE 帳戶，另請參閱以下主題：在 TKGS 叢集上部署 AI/ML 工作負載的叢集營運人員附錄 (DLS)。