可以在 Tanzu Kubernetes Grid 置备的集群上部署人工智能和机器学习工作负载。部署人工智能和机器学习工作负载需要服务提供商执行一些初始设置,而且组织管理员和租户用户需要在集群创建工作流中执行一些配置。
要准备
VMware Cloud Director 环境以置备可处理人工智能和机器学习工作负载的集群,服务提供商必须创建 vGPU 策略并将 vGPU 策略添加到组织 VDC。服务提供商执行这些步骤后,租户用户可以将人工智能和机器学习工作负载部署到其
Tanzu Kubernetes Grid 集群。要创建具有 vGPU 功能的
Tanzu Kubernetes Grid 集群,请参见
创建 VMware Tanzu Kubernetes Grid 集群。
注: vGPU 支持仅扩展到了
Tanzu Kubernetes Grid 1.5。
BIOS 固件限制
VMware Cloud Director Container Service Extension Tanzu Kubernetes Grid 模板使用 BIOS 固件构建,且无法更改此固件配置。此固件上的 BAR1 内存不能超过 256 MB。BAR1 内存超过 256 MB 的 NVIDIA Grid 显卡需要 EFI 固件。有关固件限制的详细信息,请参阅 VMware vSphere:NVIDIA 虚拟 GPU 软件文档。
使用 EFI 固件创建自定义映像
要克服 Tanzu Kubernetes Grid 模板上存在的 BIOS 固件限制,服务提供商可以在 vSphere 中使用 EFI 固件创建自定义映像。有关说明,请参阅《以服务提供商身份使用 VMware Cloud Director Container Service Extension》中的“在 Tanzu Kubernetes Grid 集群上配置 vGPU 以允许人工智能和机器学习工作负载”部分。