您可以使用 NVIDIA GPU 技术在 TKG 服务 集群中部署 AI/ML 工作负载。

TKGS 支持 AI/ML 工作负载

您可以将计算密集型工作负载部署到 TKG 服务 集群。在此环境中,计算密集型工作负载是一款人工智能 (AI) 或机器学习 (ML) 应用程序,需要使用 GPU 加速器设备。

为了便于在 Kubernetes 环境中运行 AI/ML 工作负载,VMware 与 NVIDIA 合作以便支持 NVIDIA GPU Cloud 平台。这意味着,您可以在 TKGS 集群中部署 NGC 目录中的容器映像。有关 vSphere 8 NVIDIA GPU 支持的详细信息,请查看有关 Tech Zone 的 vGPU 文章

支持的 GPU 模式

TKG 服务 集群上部署基于 NVIDIA 的 AI/ML 工作负载需要使用 Ubuntu 版的 Tanzu Kubernetes 版本,即 1.22 或更高版本。vSphere 支持两种模式:NVIDIA Grid vGPU 和使用动态 DirectPath I/O 设备的 GPU 直通。有关详细信息,请参见 NVIDIA 文档中的 支持的操作系统和 Kubernetes 平台
表 1. 具有 NVIDIA vGPU 的 vSphere 虚拟机
操作系统 TKr vSphere with Tanzu 描述
Ubuntu 20.04 LTS 1.22 - 1.2x*(最新更新到 1.28)

7.0 U3c

8.0 U2+

GPU 设备由每个 ESXi 主机上安装的 NVIDIA 主机管理器驱动程序虚拟化。然后在多个 NVIDIA 虚拟 GPU (vGPU) 之间共享 GPU 设备。
注: vSphere Distributed Resource Scheduler (DRS) 以广度优先的方式将 vGPU 虚拟机分布在构成 vSphere 集群的主机上。有关详细信息,请参见《vSphere 资源管理》指南中的 vGPU 虚拟机的 DRS 放置

每个 NVIDIA vGPU 都由 GPU 设备的内存量定义。例如,如果 GPU 设备的 RAM 总量为 32 GB,则可以创建 8 个 vGPU,每个 vGPU 4 GB 内存。

表 2. 具有 GPU 直通的 vSphere 虚拟机
操作系统 TKr vSphere with Tanzu 描述
Ubuntu 20.04 LTS 1.22 - 1.2x*(最新更新到 1.28)

7.0 U3c

8.0 U2+

在配置了 NVIDIA vGPU 配置文件的同一虚拟机类中,支持使用动态 DirectPath IO 的直通网络设备。在这种情况下,vSphere DRS 可确定虚拟机放置。