作为云管理员,您可以利用 VMware Cloud Foundation 堆栈来管理启用了 GPU 的基础架构和 AI/ML 工作负载域。在 VMware Aria Automation 中,您可以提供启用了 GPU 的深度学习虚拟机 (DL VM) 和 Tanzu Kubernetes Grid (TKG) 集群并将其设置为目录项,组织中的数据科学家和 DevOps 团队可以在自助 Automation Service Broker 目录中请求这些目录项。
什么是 VMware Private AI Foundation?
VMware Private AI Foundation with NVIDIA 为在 VMware Cloud Foundation with NVIDIA GPU 上置备 AI 工作负载提供了一个平台。此外,VMware by Broadcom 专门对基于 NVIDIA GPU Cloud (NGC) 容器运行 AI 工作负载进行了验证。要了解更多信息,请参见什么是 VMware Private AI Foundation with NVIDIA。
Private AI Automation Services 是 VMware Aria Automation 中提供的所有 VMware Private AI Foundation 功能的统称。
要开始使用 Private AI Automation Services,请在 VMware Aria Automation 中运行目录设置向导。该向导可帮助您将 VMware Private AI Foundation 连接到 VMware Aria Automation。
目录设置向导的工作原理是什么?
- 添加 vCenter 云帐户。云帐户是用于从 vCenter 实例收集数据以及将资源部署到其中的凭据。
- 添加 NVIDIA 许可证。
- 选择要添加到 Automation Service Broker 目录的内容。
- 创建项目。该项目将您的用户与云帐户区域链接起来,以便他们可以将云模板连同网络和存储资源一起部署到您的 vCenter 实例中。
- AI Workstation – 启用了 GPU 的虚拟机,可以使用 NVIDIA 中所需的 vCPU、vGPU、内存和 AI/ML 软件进行配置。
- AI Kubernetes 集群 – 启用了 GPU 的Tanzu Kubernetes集群,可以使用 NVIDIA GPU 运算符进行配置。
如果需要更改提供的任何设置(如许可更改),或者如果要为其他项目创建 AI 目录项,则可以多次运行该向导。每次运行向导时,除了之前创建的任何项目外,都会为您创建两个新目录项。
开始之前
- 确认您运行的是 VMware Aria Automation 8.16.2。
- 确认您运行的是 VMware Cloud Foundation 5.1.1,其中包括 vCenter 8.0 Update U2b。
- 确认您在 VMware Aria Automation 中拥有 vCenter 云帐户。
- 确认您拥有具有高级云服务订阅的 NVIDIA GPU Cloud Enterprise 组织。
- 确认您具有通过工作负载管理配置的启用了 GPU 的主管集群。
- 为 VMware Private AI Foundation with NVIDIA 配置 VMware Aria Automation。请参见为 VMware Private AI Foundation with NVIDIA 设置 VMware Aria Automation。
- 在运行目录设置向导之前,请完成 VMware Cloud Foundation 快速入门。SDDC 和主管集群必须注册到 VMware Aria Automation。请参见如何使用 VMware Cloud Foundation 快速入门开始使用 VMware Aria Automation。
- 确认您已从 NVIDIA 许可服务器生成许可 .tok 文件,并且您拥有 NVIDIA NGC 门户 API 密钥。NVIDIA NGC 门户访问密钥用于下载和安装 vGPU 驱动程序。
- 为 Cloud Consumption Interface (CCI) 配置单点登录 (SSO)。请参见为 CCI 设置单点登录。
- 确认您已在 https://packages.vmware.com/dl-vm/lib.json 中订阅内容库。
过程
- 首次安装 VMware Aria Automation 并登录后,单击启动快速入门。
- 在 Private AI Automation Services 卡视图上,单击启动。
- 选择要置备访问权限的 云帐户。
请记住,此处的所有值均为用例示例。您的帐户值取决于您的环境。
- 选择 vCenter 云帐户。
- 选择启用了 GPU 的主管。
- 输入区域名称。
请考虑为区域使用描述性名称,以帮助用户区分启用了 GPU 的区域与其他可用区域。
如果主管已配置区域,则会自动选择一个区域。
- 单击下一步。
- 提供有关 NVIDIA 许可证服务器的信息。
- 选择 NVIDIA 许可服务器类型。
- 云许可证服务 (CLS) 实例托管在 NVIDIA 许可门户。
- 委派许可证服务 (DLS) 实例以内部部署方式托管在某个位置,可从专用网络进行访问。如果选择此服务器类型,则还必须提供服务器的位置。
- 复制并粘贴许可证文件的内容。
NVIDIA 许可门户 API 密钥用于评估用户是否有权下载 NVIDIA vGPU 驱动程序。API 密钥必须是 UUID。注: 从 NVIDIA 许可门户生成的 API 密钥与 NVAIE API 密钥不同。
- 单击下一步。
- 选择 NVIDIA 许可服务器类型。
- 配置目录项。
- 选择要用于创建 Workstation 虚拟机的虚拟机映像。
- 选择要提供给目录用户的虚拟机类。
您必须至少添加一个支持 GPU 的类和一个不支持 GPU 的类。
- 启用了 GPU 的虚拟机类用于深度学习虚拟机和 Kubernetes 集群的 Worker 节点。部署目录项时,会使用选定的虚拟机类创建 Kubernetes 集群。
- 运行 Kubernetes 控制平面需要不支持 GPU 的节点。
- 选择要应用于虚拟机的存储类。
- 指定要提取 NVIDIA GPU Cloud 资源的容器注册表。
如果选择自托管注册表,则目录项需要在完成向导后进行额外的手动配置。请联系 VMware by Broadcom 专业服务部门。
- 单击下一步。
- 通过创建项目并分配用户来配置对目录项的访问权限。
项目用于管理人员、分配的资源、云模板和部署。
- 输入项目的名称和描述。
项目名称只能包含小写字母数字字符或连字符 (-)。
- 要使目录项可供其他人使用,请添加管理员和成员。
管理员比成员拥有更多的权限。有关详细信息,请参见VMware Aria Automation 用户角色有哪些。
- 单击下一步。
- 输入项目的名称和描述。
- 在摘要页面上验证您的配置。
在运行向导之前,请考虑保存配置的详细信息。
- 单击完成。
结果
AI Workstation 和 AI Kubernetes 集群目录项在 Automation Service Broker 目录中创建,组织中的用户现在可以部署这些目录项。
后续操作
- 确认目录中的模板可供您与其共享内容的所选项目成员使用,并监控置备过程以确保成功部署。请参见如何部署 PAIF 目录项。
- 如果要控制部署可存在的时间,请创建租约。请参见设置 Automation Service Broker 策略。
- 要在请求时修改用户输入,可以创建自定义表单。请参见自定义 Automation Service Broker 图标和请求表单。
故障排除
- 如果目录设置向导失败,请为其他项目再次运行该向导。