您可以使用 NVIDIA vGPU 技术在 主管 上的 TKG 集群中部署 AI/ML 工作负载。
TKG 2 支持 AI/ML 工作负载
您可以将计算密集型工作负载部署到 主管 上的 TKG 集群。在此环境中,计算密集型工作负载是一款人工智能 (AI) 或机器学习 (ML) 应用程序,需要使用 GPU 加速器设备。
为了便于在 Kubernetes 环境中运行 AI/ML 工作负载,VMware 与 NVIDIA 合作以便在 vSphere with Tanzu 上支持 NVIDIA vGPU Cloud 平台。这意味着,您可以在 主管 上的 TKG 集群中部署 NGC 目录中的容器映像。
有关 vSphere 8 中 vGPU 支持的详细信息,请查看有关 Tech Zone 的 vGPU 文章。
支持的 vGPU 模式
要在 TKG 上部署 AI/ML 工作负载,需要使用可通过 vSphere with Tanzu 内容交付网络获取的 Ubuntu OVA。TKG 支持两种 GPU 操作模式:vGPU 和具有动态 DirectPath IO 的 vGPU。
模式 | 配置 | 描述 |
---|---|---|
NVIDIA + TKGS + Ubuntu + vGPU |
NVIDIA vGPU |
GPU 设备由每个 ESXi 主机上安装的 NVIDIA 主机管理器驱动程序虚拟化。然后在多个 NVIDIA 虚拟 GPU (vGPU) 之间共享 GPU 设备。 每个 NVIDIA vGPU 都由 GPU 设备的内存量定义。例如,如果 GPU 设备的 RAM 总量为 32 GB,则可以创建 8 个 vGPU,每个 vGPU 4 GB 内存。 |
NVIDIA + TKG + Ubuntu + vGPU + 网卡直通 |
NVIDIA vGPU 和 动态 DirectPath IO |
在配置了 NVIDIA vGPU 配置文件的同一虚拟机类中,支持使用动态 DirectPath IO 的直通网络设备。在这种情况下,vSphere DRS 可确定虚拟机放置。 |