您可以使用 NVIDIA GPU 技术在 TKG 服务 集群中部署 AI/ML 工作负载。
TKGS 支持 AI/ML 工作负载
您可以将计算密集型工作负载部署到 TKG 服务 集群。在此环境中,计算密集型工作负载是一款人工智能 (AI) 或机器学习 (ML) 应用程序,需要使用 GPU 加速器设备。
为了便于在 Kubernetes 环境中运行 AI/ML 工作负载,VMware 与 NVIDIA 合作以便支持 NVIDIA GPU Cloud 平台。这意味着,您可以在 TKGS 集群中部署 NGC 目录中的容器映像。有关 vSphere 8 NVIDIA GPU 支持的详细信息,请查看有关 Tech Zone 的 vGPU 文章。
支持的 GPU 模式
在
TKG 服务 集群上部署基于 NVIDIA 的 AI/ML 工作负载需要使用 Ubuntu 版的
Tanzu Kubernetes
版本,即 1.22 或更高版本。vSphere 支持两种模式:NVIDIA Grid vGPU 和使用动态 DirectPath I/O 设备的 GPU 直通。有关详细信息,请参见 NVIDIA 文档中的
支持的操作系统和 Kubernetes 平台。
操作系统 | TKr | vSphere with Tanzu | 描述 |
---|---|---|---|
Ubuntu 20.04 LTS | 1.22 - 1.2x*(最新更新到 1.28) | 7.0 U3c 8.0 U2+ |
GPU 设备由每个 ESXi 主机上安装的 NVIDIA 主机管理器驱动程序虚拟化。然后在多个 NVIDIA 虚拟 GPU (vGPU) 之间共享 GPU 设备。
注: vSphere Distributed Resource Scheduler (DRS) 以广度优先的方式将 vGPU 虚拟机分布在构成 vSphere 集群的主机上。有关详细信息,请参见《vSphere 资源管理》指南中的
vGPU 虚拟机的 DRS 放置。
每个 NVIDIA vGPU 都由 GPU 设备的内存量定义。例如,如果 GPU 设备的 RAM 总量为 32 GB,则可以创建 8 个 vGPU,每个 vGPU 4 GB 内存。 |
操作系统 | TKr | vSphere with Tanzu | 描述 |
---|---|---|---|
Ubuntu 20.04 LTS | 1.22 - 1.2x*(最新更新到 1.28) | 7.0 U3c 8.0 U2+ |
在配置了 NVIDIA vGPU 配置文件的同一虚拟机类中,支持使用动态 DirectPath IO 的直通网络设备。在这种情况下,vSphere DRS 可确定虚拟机放置。 |