部署 RAG 工作负载

作为数据科学家或 DevOps 工程师，您可以使用 Automation Service Broker 部署 NVIDIA RAG 工作负载。

注：本文档基于 VMware Aria Automation 8.18。有关 VMware Aria Automation 8.18.1 中 VMware Private AI Foundation 功能的信息，请参见 VMware Private AI Foundation with NVIDIA 文档中的使用 VMware Aria Automation 中的自助目录项部署 RAG 工作负载。

部署 RAG Workstation

作为数据科学家，您可以从自助 Automation Service Broker 目录部署具有检索增强生成 (RAG) 参考解决方案且启用了 GPU 的 Workstation。

RAG 参考解决方案演示了如何通过增加现有基础 LLM 以适应您的业务用例，在生成 AI 中找到业务价值。这是使用检索增强生成 (RAG) 完成的，RAG 从包含公司业务数据的企业知识库中检索事实。请特别注意使用特定于域的业务数据扩充 LLM 的方法，以创建能够敏捷并响应新发展的 AI 应用程序。

过程

在 Automation Service Broker 的目录页面上，找到 AI RAG Workstation 卡视图，然后单击请求。
选择一个项目。
输入部署的名称和描述。

配置 RAG Workstation 参数。

设置	示例值
虚拟机类	`A100 Small - 1 个 vGPU (16 GB)，8 个 CPU 和 16 GB 内存` 最低虚拟机类规范： CPU：10 个 vCPU CPU RAM：64 GB GPU：2 个 H100 GPU 内存：50 GB
数据磁盘大小	`3 Gi`
用户密码	输入已设置用户的密码。首次登录时，系统可能会提示您重置密码。
SSH 公钥	此设置为可选项。

安装软件自定义设置。
1. （可选） 如果除了为 RAG 软件包定义的 cloud-init 之外，还需要安装自定义 cloud-init，请选中该复选框并粘贴配置包的内容。
  VMware Aria Automation 将合并 RAG 软件包中的 cloud-init 和自定义 cloud-init。
2. 提供您的 NVIDIA NGC 门户访问密钥。
3. 输入 Docker Hub 凭据。
单击提交。

结果

您的 Workstation 包括 Ubuntu 22.04、NVIDIA vGPU 驱动程序、Docker Engine、NVIDIA Container Toolkit 以及使用 Llama-2-13b-chat 模型的参考 RAG 解决方案。

部署 GPU 加速的 Tanzu Kubernetes Grid RAG 集群

作为使用自助 Automation Service Broker 目录的 DevOps 工程师，您可以置备启用了 GPU 的 Tanzu Kubernetes Grid RAG 集群，其中 Worker 节点可以运行使用 Llama2-13b-chat 模型的参考 RAG 解决方案。

部署包含一个主管命名空间和一个 Tanzu Kubernetes Grid 集群。TKG 集群包含两个主管命名空间 - 一个用于 NVIDIA GPU Operator，另一个用于 NVIDIA RAG LLM Operator，这两个命名空间都预安装在 TKG 集群上。每个 Operator 的 Carvel 应用程序都部署在这两个命名空间中。

过程

在 Automation Service Broker 的目录页面上，找到 AI Kubernetes RAG 集群卡视图，然后单击请求。
选择一个项目。
输入部署的名称和描述。

选择控制窗格节点数。

设置	示例值
节点计数	`1`
虚拟机类	`best-effort-2xlarge - 8 个 CPU 和 64 GB 内存` 选择的类将定义虚拟机中的可用资源。

选择工作节点数。

设置	说明
节点计数	`3`
虚拟机类	`best-effort-4xlarge-a100-40c - 1 个 vGPU (40 GB)、16 个 CPU 和 120 GB 内存` 最低虚拟机类规范： CPU：10 个 vCPU CPU RAM：64 GB GPU：2 个 H100 GPU 内存：50 GB
时间切片副本	`1` 时间切片为在工作负载之间共享的 GPU 定义一组副本。

提供 NVIDIA AI 企业 API 密钥。
单击提交。