您可以使用 vSphere with Tanzu 和 NVIDIA vGPU 技术在 TKGS 集群上部署 AI/ML 工作负载。

宣布 TGKS 支持 AI/ML 工作负载

vSphere with Tanzu 版本 7 Update 3 Monthly Patch 1 开始,可以将计算密集型工作负载部署到由 Tanzu Kubernetes Grid 服务置备的 Tanzu Kubernetes 集群。在此环境中,计算密集型工作负载是一款人工智能 (AI) 或机器学习 (ML) 应用程序,需要使用 GPU 加速器设备。

为了便于在 Kubernetes 环境中运行 AI/ML 工作负载,VMware 与 NVIDIA 合作以便在 vSphere with Tanzu 上支持 NVIDIA GPU Cloud 平台。这意味着,您可以在由 Tanzu Kubernetes Grid 服务置备的 Tanzu Kubernetes 集群上部署 NGC 目录中的容器映像。

有关适用于 AI 就绪企业的联合 NVIDIA 和 VMware 架构的详细信息,请参见在 vSphere 7 with Tanzu 上加速工作负载 - 使用 GPU 的 Kubernetes 集群的技术预览版

支持的 vGPU 模式

要在 TKGS 上部署 AI/ML 工作负载,需要使用可通过 vSphere with Tanzu 内容交付网络获取的 Ubuntu OVA。TKGS 支持两种 GPU 操作模式:vGPU 和具有网卡直通的 vGPU。下表详细介绍了这两种模式。

模式 配置 描述

NVIDIA + TKGS + Ubuntu + vGPU

NVIDIA vGPU

GPU 设备由每个 ESXi 主机上安装的 NVIDIA 主机管理器驱动程序虚拟化。然后在多个 NVIDIA 虚拟 GPU (vGPU) 之间共享 GPU 设备。

每个 NVIDIA vGPU 都由 GPU 设备的内存量定义。例如,如果 GPU 设备的 RAM 总量为 32 GB,则可以创建 8 个 vGPU,每个 vGPU 约 4 GB 内存。

NVIDIA + TKGS + Ubuntu + vGPU + 网卡直通

NVIDIA vGPU

动态 DirectPath IO

在配置了 NVIDIA vGPU 配置文件的同一虚拟机类中,支持使用动态 DirectPath IO 的直通网络设备。在这种情况下,vSphere DRS 可确定虚拟机放置。

入门

如果将 vGPU 与网卡直通结合使用,另请参阅以下主题:在 TKGS 集群(vGPU 和动态 DirectPath IO)上部署 AI/ML 工作负载的 vSphere 管理员附录

如果要将 NVIDIA 委派许可服务器 (Delegated Licensing Server, DLS) 用于 NVAIE 帐户,另请参阅以下主题:在 TKGS 集群上部署 AI/ML 工作负载的集群运维人员附录 (DLS)