您可以使用 NVIDIA GPU 技術將 AI/ML 工作負載部署到 TKG 服務 叢集中。
TKGS 支援 AI/ML 工作負載
您可以將計算密集型工作負載部署到 TKG 服務 叢集。在此環境中,計算密集型工作負載是一款人工智慧 (AI) 或機器學習 (ML) 應用程式,需要使用 GPU 加速器裝置。
為了便於在 Kubernetes 環境中執行 AI/ML 工作負載,VMware 與 NVIDIA 合作以便支援 NVIDIA GPU Cloud 平台。這意味著,您可以在上的 TKGS 叢集中部署 NGC 目錄中的容器映像。如需有關 vSphere 8 NVIDIA GPU 支援的詳細資訊,請查看有關 Tech Zone 的 vGPU 文章。
支援的 GPU 模式
在
TKG 服務 叢集上部署以 NVIDIA 為基礎的 AI/ML 工作負載需要使用 Ubuntu 版的
Tanzu Kubernetes
版本 (即 1.22 或更新版本)。vSphere 支援兩種模式:NVIDIA Grid vGPU 和使用動態 DirectPath I/O 裝置的 GPU 傳遞。如需詳細資訊,請參閱 NVIDIA 說明文件中的
〈支援的作業系統和 Kubernetes 平台〉。
作業系統 | TKr | vSphere with Tanzu | 說明 |
---|---|---|---|
Ubuntu 20.04 LTS | 1.22 - 1.2x* (最新更新到 1.28) | 7.0 U3c 8.0 U2+ |
GPU 裝置由每個 ESXi 主機上安裝的 NVIDIA 主機管理器驅動程式虛擬化。然後在多個 NVIDIA 虛擬 GPU (vGPU) 之間共用 GPU 裝置。
備註: vSphere Distributed Resource Scheduler (DRS) 以廣度優先的方式將 vGPU 虛擬機器散佈在構成 vSphere 叢集的主機上。如需詳細資訊,請參閱《vSphere 資源管理》指南中的
〈vGPU 虛擬機器的 DRS 放置〉。
每個 NVIDIA vGPU 都由 GPU 裝置的記憶體數量定義。例如,如果 GPU 裝置的 RAM 總量為 32 GB,則可以建立 8 個 vGPU,每個 vGPU 的記憶體為 4 GB。 |
作業系統 | TKr | vSphere with Tanzu | 說明 |
---|---|---|---|
Ubuntu 20.04 LTS | 1.22 - 1.2x* (最新更新到 1.28) | 7.0 U3c 8.0 U2+ |
在設定了 NVIDIA vGPU 設定檔的同一虛擬機器類別中,支援使用動態 DirectPath IO 的傳遞網路裝置。在這種情況下,vSphere DRS 可確定虛擬機器放置。 |