作为数据科学家或 DevOps 工程师,您可以使用 Automation Service Broker 部署 NVIDIA RAG 工作负载。

注: 本文档基于 VMware Aria Automation 8.18。有关 VMware Aria Automation 8.18.1 中 VMware Private AI Foundation 功能的信息,请参见 VMware Private AI Foundation with NVIDIA 文档中的 使用 VMware Aria Automation 中的自助目录项部署 RAG 工作负载

部署 RAG Workstation

作为数据科学家,您可以从自助 Automation Service Broker 目录部署具有检索增强生成 (RAG) 参考解决方案且启用了 GPU 的 Workstation。

RAG 参考解决方案演示了如何通过增加现有基础 LLM 以适应您的业务用例,在生成 AI 中找到业务价值。这是使用检索增强生成 (RAG) 完成的,RAG 从包含公司业务数据的企业知识库中检索事实。请特别注意使用特定于域的业务数据扩充 LLM 的方法,以创建能够敏捷并响应新发展的 AI 应用程序。

过程

  1. Automation Service Broker目录页面上,找到 AI RAG Workstation 卡视图,然后单击请求
  2. 选择一个项目。
  3. 输入部署的名称和描述。
  4. 配置 RAG Workstation 参数。
    设置 示例值
    虚拟机类 A100 Small - 1 个 vGPU (16 GB),8 个 CPU 和 16 GB 内存
    最低虚拟机类规范:
    • CPU:10 个 vCPU
    • CPU RAM:64 GB
    • GPU:2 个 H100
    • GPU 内存:50 GB
    数据磁盘大小 3 Gi
    用户密码 输入已设置用户的密码。首次登录时,系统可能会提示您重置密码。
    SSH 公钥 此设置为可选项。
  5. 安装软件自定义设置。
    1. (可选) 如果除了为 RAG 软件包定义的 cloud-init 之外,还需要安装自定义 cloud-init,请选中该复选框并粘贴配置包的内容。
      VMware Aria Automation 将合并 RAG 软件包中的 cloud-init 和自定义 cloud-init。
    2. 提供您的 NVIDIA NGC 门户访问密钥。
    3. 输入 Docker Hub 凭据。
  6. 单击提交

结果

您的 Workstation 包括 Ubuntu 22.04、NVIDIA vGPU 驱动程序、Docker Engine、NVIDIA Container Toolkit 以及使用 Llama-2-13b-chat 模型的参考 RAG 解决方案。

部署 GPU 加速的 Tanzu Kubernetes Grid RAG 集群

作为使用自助 Automation Service Broker 目录的 DevOps 工程师,您可以置备启用了 GPU 的 Tanzu Kubernetes Grid RAG 集群,其中 Worker 节点可以运行使用 Llama2-13b-chat 模型的参考 RAG 解决方案。

部署包含一个主管命名空间和一个 Tanzu Kubernetes Grid 集群。TKG 集群包含两个主管命名空间 - 一个用于 NVIDIA GPU Operator,另一个用于 NVIDIA RAG LLM Operator,这两个命名空间都预安装在 TKG 集群上。每个 Operator 的 Carvel 应用程序都部署在这两个命名空间中。

过程

  1. Automation Service Broker目录页面上,找到 AI Kubernetes RAG 集群卡视图,然后单击请求
  2. 选择一个项目。
  3. 输入部署的名称和描述。
  4. 选择控制窗格节点数。
    设置 示例值
    节点计数 1
    虚拟机类 best-effort-2xlarge - 8 个 CPU 和 64 GB 内存

    选择的类将定义虚拟机中的可用资源。

  5. 选择工作节点数。
    设置 说明
    节点计数 3
    虚拟机类 best-effort-4xlarge-a100-40c - 1 个 vGPU (40 GB)、16 个 CPU 和 120 GB 内存
    最低虚拟机类规范:
    • CPU:10 个 vCPU
    • CPU RAM:64 GB
    • GPU:2 个 H100
    • GPU 内存:50 GB
    时间切片副本 1

    时间切片为在工作负载之间共享的 GPU 定义一组副本。

  6. 提供 NVIDIA AI 企业 API 密钥。
  7. 单击提交