关于在 TKG 服务集群上部署 AI/ML 工作负载

您可以使用 NVIDIA GPU 技术在 TKG 服务集群中部署 AI/ML 工作负载。

TKGS 支持 AI/ML 工作负载

您可以将计算密集型工作负载部署到 TKG 服务集群。在此环境中，计算密集型工作负载是一款人工智能 (AI) 或机器学习 (ML) 应用程序，需要使用 GPU 加速器设备。

为了便于在 Kubernetes 环境中运行 AI/ML 工作负载，VMware 与 NVIDIA 合作以便支持 NVIDIA GPU Cloud 平台。这意味着，您可以在 TKGS 集群中部署 NGC 目录中的容器映像。有关 vSphere 8 NVIDIA GPU 支持的详细信息，请查看有关 Tech Zone 的 vGPU 文章。

支持的 GPU 模式

在 TKG 服务集群上部署基于 NVIDIA 的 AI/ML 工作负载需要使用 Ubuntu 版的 Tanzu Kubernetes 版本，即 1.22 或更高版本。vSphere 支持两种模式：NVIDIA Grid vGPU 和使用动态 DirectPath I/O 设备的 GPU 直通。有关详细信息，请参见 NVIDIA 文档中的支持的操作系统和 Kubernetes 平台。

表 1. 具有 NVIDIA vGPU 的 vSphere 虚拟机
操作系统	TKr	vSphere with Tanzu	描述
Ubuntu 20.04 LTS	1.22 - 1.2x*（最新更新到 1.28）	7.0 U3c 8.0 U2+	GPU 设备由每个 ESXi 主机上安装的 NVIDIA 主机管理器驱动程序虚拟化。然后在多个 NVIDIA 虚拟 GPU (vGPU) 之间共享 GPU 设备。注： vSphere Distributed Resource Scheduler (DRS) 以广度优先的方式将 vGPU 虚拟机分布在构成 vSphere 集群的主机上。有关详细信息，请参见《vSphere 资源管理》指南中的 vGPU 虚拟机的 DRS 放置。每个 NVIDIA vGPU 都由 GPU 设备的内存量定义。例如，如果 GPU 设备的 RAM 总量为 32 GB，则可以创建 8 个 vGPU，每个 vGPU 4 GB 内存。

表 2. 具有 GPU 直通的 vSphere 虚拟机
操作系统	TKr	vSphere with Tanzu	描述
Ubuntu 20.04 LTS	1.22 - 1.2x*（最新更新到 1.28）	7.0 U3c 8.0 U2+	在配置了 NVIDIA vGPU 配置文件的同一虚拟机类中，支持使用动态 DirectPath IO 的直通网络设备。在这种情况下，vSphere DRS 可确定虚拟机放置。