作为数据科学家或 DevOps 工程师,您可以使用 Automation Service Broker 部署 NVIDIA RAG 工作负载。
注: 本文档基于
VMware Aria Automation 8.18。有关
VMware Aria Automation 8.18.1 中
VMware Private AI Foundation 功能的信息,请参见
VMware Private AI Foundation with
NVIDIA 文档中的
使用 VMware Aria Automation 中的自助目录项部署 RAG 工作负载。
部署 RAG Workstation
作为数据科学家,您可以从自助 Automation Service Broker 目录部署具有检索增强生成 (RAG) 参考解决方案且启用了 GPU 的 Workstation。
过程
- 在 Automation Service Broker 的目录页面上,找到 AI RAG Workstation 卡视图,然后单击请求。
- 选择一个项目。
- 输入部署的名称和描述。
- 配置 RAG Workstation 参数。
设置 示例值 虚拟机类 A100 Small - 1 个 vGPU (16 GB),8 个 CPU 和 16 GB 内存 最低虚拟机类规范:- CPU:10 个 vCPU
- CPU RAM:64 GB
- GPU:2 个 H100
- GPU 内存:50 GB
数据磁盘大小 3 Gi 用户密码 输入已设置用户的密码。首次登录时,系统可能会提示您重置密码。 SSH 公钥 此设置为可选项。 - 安装软件自定义设置。
- (可选) 如果除了为 RAG 软件包定义的 cloud-init 之外,还需要安装自定义 cloud-init,请选中该复选框并粘贴配置包的内容。
VMware Aria Automation 将合并 RAG 软件包中的 cloud-init 和自定义 cloud-init。
- 提供您的 NVIDIA NGC 门户访问密钥。
- 输入 Docker Hub 凭据。
- (可选) 如果除了为 RAG 软件包定义的 cloud-init 之外,还需要安装自定义 cloud-init,请选中该复选框并粘贴配置包的内容。
- 单击提交。
结果
部署 GPU 加速的 Tanzu Kubernetes Grid RAG 集群
作为使用自助 Automation Service Broker 目录的 DevOps 工程师,您可以置备启用了 GPU 的 Tanzu Kubernetes Grid RAG 集群,其中 Worker 节点可以运行使用 Llama2-13b-chat 模型的参考 RAG 解决方案。
部署包含一个主管命名空间和一个 Tanzu Kubernetes Grid 集群。TKG 集群包含两个主管命名空间 - 一个用于 NVIDIA GPU Operator,另一个用于 NVIDIA RAG LLM Operator,这两个命名空间都预安装在 TKG 集群上。每个 Operator 的 Carvel 应用程序都部署在这两个命名空间中。
过程
- 在 Automation Service Broker 的目录页面上,找到 AI Kubernetes RAG 集群卡视图,然后单击请求。
- 选择一个项目。
- 输入部署的名称和描述。
- 选择控制窗格节点数。
设置 示例值 节点计数 1 虚拟机类 best-effort-2xlarge - 8 个 CPU 和 64 GB 内存 选择的类将定义虚拟机中的可用资源。
- 选择工作节点数。
设置 说明 节点计数 3 虚拟机类 best-effort-4xlarge-a100-40c - 1 个 vGPU (40 GB)、16 个 CPU 和 120 GB 内存 最低虚拟机类规范:- CPU:10 个 vCPU
- CPU RAM:64 GB
- GPU:2 个 H100
- GPU 内存:50 GB
时间切片副本 1 时间切片为在工作负载之间共享的 GPU 定义一组副本。
- 提供 NVIDIA AI 企业 API 密钥。
- 单击提交。