可以在 Tanzu Kubernetes Grid 置备的集群上部署人工智能和机器学习工作负载。部署人工智能和机器学习工作负载需要服务提供商执行一些初始设置,而且组织管理员和租户用户需要在集群创建工作流中执行一些配置。

要准备 VMware Cloud Director 环境以置备可处理人工智能和机器学习工作负载的集群,服务提供商必须创建 vGPU 策略并将 vGPU 策略添加到组织 VDC。有关如何执行这些任务的说明,请参阅创建和管理 vGPU 策略。服务提供商执行这些步骤后,租户用户可以将人工智能和机器学习工作负载部署到其 Tanzu Kubernetes Grid 集群。

要创建具有 vGPU 功能的 Tanzu Kubernetes Grid 集群,请参见创建 Tanzu Kubernetes Grid 集群。如果使用的是可与 VMware Cloud Director Container Service Extension 互操作的 Tanzu Kubernetes Grid 2.1 及更高版本,则以下部分不适用,您可以继续执行集群创建工作流。

注: 以下部分仅适用于 Tanzu Kubernetes Grid 1.6.1,VMware 不再支持该版本。要利用 vGPU 功能,请使用可与 VMware Cloud Director Container Service Extension 互操作的 Tanzu Kubernetes Grid 版本 2.1 及更高版本。

BIOS 固件限制

VMware Cloud Director Container Service Extension Tanzu Kubernetes Grid 模板使用 BIOS 固件构建,且无法更改此固件配置。此固件上的 BAR1 内存不能超过 256 MB。BAR1 内存超过 256 MB 的 NVIDIA Grid 显卡需要 EFI 固件。有关固件限制的详细信息,请参阅 VMware vSphere:NVIDIA 虚拟 GPU 软件文档

使用 EFI 固件创建自定义映像

要克服 Tanzu Kubernetes Grid 模板上存在的 BIOS 固件限制,可以在 vSphere 中使用 EFI 固件创建自定义映像。有关说明,请参阅已归档的 Tanzu Kubernetes Grid 1.6 文档中的 Linux 自定义计算机映像部分。要访问已归档的文档,请参见 VMware Tanzu Kubernetes Grid 文档 > 不支持的版本

要在 GPU 模板上成功创建 Linux 自定义计算机映像 ( Tanzu Kubernetes Grid 1.6),还必须在构建自定义映像时包含以下输入:
输入 描述
customizations.json 要在 vSphere 中为启用了 vGPU 的集群构建映像,请创建名为 customizations.json 的文件,并添加以下内容:
{
"vmx_version": "17"
}
metadata.json VERSION 必须与已建立的 Tanzu Kubernetes Grid 模板版本完全匹配,因为如果版本号不同于模板的版本号,Kubernetes Container Clusters UI 插件无法识别 OVA 文件。
以下示例概述了建议的文件命名约定:
模板和版本 元数据
适用于 TKG 1.6 的 Kubernetes 模板 ubuntu-2004-kube-v1.23.10+vmware.1-tkg.2-b53d41690f8742e7388f2c553fd9a181.ova
版本 v1.23.10+vmware.1-tkg.2-b53d41690f8742e7388f2c553fd9a181
build-node-ova-vsphere-ubuntu-2004-efi 使用以下命令可以针对启用了 vGPU 的集群运行 Image Builder。此命令指定使用 EFI 固件构建自定义映像。
服务提供商必须在 VMware Cloud Director 中为 vGPU 模板设置新目录,并将模板上载到此目录。当用户要创建启用了 vGPU 的集群时,他们可以在集群创建过程中选择此模板,然后该模板将利用该集群中的 vGPU。有关详细信息,请参见 创建目录并上载 OVA 文件