您可以使用 vSphere with Tanzu 和 NVIDIA vGPU 技術在 TKGS 叢集上部署 AI/ML 工作負載。
宣佈 TGKS 支援 AI/ML 工作負載
從 vSphere with Tanzu 版本 7 Update 3 Monthly Patch 1 開始,可以將計算密集型工作負載部署到由 Tanzu Kubernetes Grid 服務佈建的 Tanzu Kubernetes 叢集。在此環境中,計算密集型工作負載是一款人工智慧 (AI) 或機器學習 (ML) 應用程式,需要使用 GPU 加速器裝置。
為了便於在 Kubernetes 環境中執行 AI/ML 工作負載,VMware 與 NVIDIA 合作以便在 vSphere with Tanzu 上支援 NVIDIA GPU Cloud 平台。這意味著,您可以在由 Tanzu Kubernetes Grid 服務佈建的 Tanzu Kubernetes 叢集上部署 NGC 目錄中的容器映像。
若要進一步瞭解適用於 AI 就緒企業的聯合 NVIDIA 和 VMware 架構,請參閱在 vSphere 7 with Tanzu 上加速工作負載 - 使用 GPU 的 Kubernetes 叢集的技術預覽版。
支援的 vGPU 模式
在 TKGS 上部署 AI/ML 工作負載需要使用可透過 vSphere with Tanzu 內容傳遞網路獲取的 Ubuntu OVA。TKGS 支援兩種 GPU 操作模式:vGPU 和具有 NIC 傳遞的 vGPU。下表詳細介紹了這兩種模式。
模式 | 組態 | 說明 |
---|---|---|
NVIDIA + TKGS + Ubuntu + vGPU |
NVIDIA vGPU |
GPU 裝置由每個 ESXi 主機上安裝的 NVIDIA 主機管理器驅動程式虛擬化。然後在多個 NVIDIA 虛擬 GPU (vGPU) 之間共用 GPU 裝置。 每個 NVIDIA vGPU 都由 GPU 裝置的記憶本量定義。例如,如果 GPU 裝置的 RAM 總量為 32 GB,則可以建立 8 個 vGPU,每個 vGPU 約 4 GB 記憶體。 |
NVIDIA + TKGS + Ubuntu + vGPU + NIC 傳遞 |
NVIDIA vGPU 和 動態 DirectPath IO |
在設定了 NVIDIA vGPU 設定檔的同一虛擬機器類別中,支援使用動態 DirectPath IO 的傳遞網路裝置。在這種情況下,vSphere DRS 可確定虛擬機器放置。 |
入門
如果使用具有 NIC 傳遞的 vGPU,另請參閱以下主題:在 TKGS 叢集上部署 AI/ML 工作負載的 vSphere 管理員附錄 (vGPU 和動態 DirectPath IO)。
如果要將 NVIDIA 委派授權伺服器 (DLS) 用於 NVAIE 帳戶,另請參閱以下主題:在 TKGS 叢集上部署 AI/ML 工作負載的叢集營運人員附錄 (DLS)。