可以在 Tanzu Kubernetes Grid 置备的集群上部署人工智能和机器学习工作负载。部署人工智能和机器学习工作负载需要服务提供商执行一些初始设置,而且组织管理员和租户用户需要在集群创建工作流中执行一些配置。
要准备 VMware Cloud Director 环境以置备可处理人工智能和机器学习工作负载的集群,服务提供商必须创建 vGPU 策略并将 vGPU 策略添加到组织 VDC。有关如何执行这些任务的说明,请参阅创建和管理 vGPU 策略。服务提供商执行这些步骤后,租户用户可以将人工智能和机器学习工作负载部署到其 Tanzu Kubernetes Grid 集群。
要创建具有 vGPU 功能的 Tanzu Kubernetes Grid 集群,请参见创建 Tanzu Kubernetes Grid 集群。如果使用的是可与 VMware Cloud Director Container Service Extension 互操作的 Tanzu Kubernetes Grid 2.1 及更高版本,则以下部分不适用,您可以继续执行集群创建工作流。
BIOS 固件限制
VMware Cloud Director Container Service Extension Tanzu Kubernetes Grid 模板使用 BIOS 固件构建,且无法更改此固件配置。此固件上的 BAR1 内存不能超过 256 MB。BAR1 内存超过 256 MB 的 NVIDIA Grid 显卡需要 EFI 固件。有关固件限制的详细信息,请参阅 VMware vSphere:NVIDIA 虚拟 GPU 软件文档。
使用 EFI 固件创建自定义映像
要克服 Tanzu Kubernetes Grid 模板上存在的 BIOS 固件限制,可以在 vSphere 中使用 EFI 固件创建自定义映像。有关说明,请参阅已归档的 Tanzu Kubernetes Grid 1.6 文档中的 Linux 自定义计算机映像部分。要访问已归档的文档,请参见 VMware Tanzu Kubernetes Grid 文档 > 不支持的版本。
输入 | 描述 | ||||||
---|---|---|---|---|---|---|---|
customizations.json | 要在 vSphere 中为启用了 vGPU 的集群构建映像,请创建名为 customizations.json 的文件,并添加以下内容:{ "vmx_version": "17" } |
||||||
metadata.json | VERSION 必须与已建立的 Tanzu Kubernetes Grid 模板版本完全匹配,因为如果版本号不同于模板的版本号,Kubernetes Container Clusters UI 插件无法识别 OVA 文件。
以下示例概述了建议的文件命名约定:
|
||||||
build-node-ova-vsphere-ubuntu-2004-efi |
使用以下命令可以针对启用了 vGPU 的集群运行 Image Builder。此命令指定使用 EFI 固件构建自定义映像。 |