您可以使用 NVIDIA vGPU 技术在 主管 上的 TKG 集群中部署 AI/ML 工作负载。

TKG 支持 AI/ML 工作负载

您可以将计算密集型工作负载部署到 主管 上的 TKG 集群。在此环境中,计算密集型工作负载是一款人工智能 (AI) 或机器学习 (ML) 应用程序,需要使用 GPU 加速器设备。

为了便于在 Kubernetes 环境中运行 AI/ML 工作负载,VMware 与 NVIDIA 合作以便在 vSphere with Tanzu 上支持 NVIDIA vGPU Cloud 平台。这意味着,您可以在 主管 上的 TKG 集群中部署 NGC 目录中的容器映像。

有关 vSphere 8 中 vGPU 支持的详细信息,请查看 有关 Tech Zone 的 vGPU 文章
注: vSphere Distributed Resource Scheduler (DRS) 以广度优先的方式将 vGPU 虚拟机分布在构成 vSphere 集群的主机上。有关详细信息,请参见《vSphere 资源管理》指南中的 vGPU 虚拟机的 DRS 放置

支持的 vGPU 模式

要在 TKG 上部署 AI/ML 工作负载,需要使用可通过 vSphere with Tanzu 内容交付网络获取的 Ubuntu OVA。TKG 支持两种 GPU 操作模式:vGPU 和具有动态 DirectPath IO 的 vGPU。

模式 配置 描述

NVIDIA + TKGS + Ubuntu + vGPU

NVIDIA vGPU

GPU 设备由每个 ESXi 主机上安装的 NVIDIA 主机管理器驱动程序虚拟化。然后在多个 NVIDIA 虚拟 GPU (vGPU) 之间共享 GPU 设备。

每个 NVIDIA vGPU 都由 GPU 设备的内存量定义。例如,如果 GPU 设备的 RAM 总量为 32 GB,则可以创建 8 个 vGPU,每个 vGPU 4 GB 内存。

NVIDIA + TKG + Ubuntu + vGPU + 网卡直通

NVIDIA vGPU

动态 DirectPath IO

在配置了 NVIDIA vGPU 配置文件的同一虚拟机类中,支持使用动态 DirectPath IO 的直通网络设备。在这种情况下,vSphere DRS 可确定虚拟机放置。