如果云管理员已在 VMware Aria Automation 中设置 Private AI Automation Services,则可以使用 Automation Service Broker 目录请求 AI 工作负载。

Private AI Automation Services 支持 Automation Service Broker 中的两个目录项,具有相应权限的用户可以访问和请求这些目录项。

  • AI Workstation - 启用了 GPU 的虚拟机,可以从 NVIDIA 配置所需的 vCPU、vGPU、内存和 AI/ML 软件。
  • AI Kubernetes 集群 – 启用了 GPU 的 Tanzu Kubernetes 集群,可以配置 NVIDIA GPU Operator。
重要说明: Private AI Automation Services 产品适用于 VMware Aria Automation 8.16.2。

开始之前

  • 确认已为您的项目配置 Private AI Automation Services,并且您有权请求 AI 目录项。

请记住,此处的所有值均为用例示例。您的帐户值取决于您的环境。

将深度学习虚拟机部署到 VI 工作负载域

数据科学家可以从自助 Automation Service Broker 目录中部署单个 GPU 软件定义的开发环境。您可以使用计算机参数自定义启用了 GPU 的虚拟机以模拟开发要求,指定 AI/ML 软件配置以满足培训和推理要求,以及通过门户访问密钥从 NVIDIA NGC 注册表指定 AI/ML 软件包。

过程

  1. 单击 Automation Service Broker 中的使用选项卡。
  2. 单击目录
    可用的目录项取决于您选择的项目。如果未选择项目,则目录中将显示可供您使用的所有目录项。
  3. 找到 AI Workstation 卡视图,然后单击请求
  4. 选择一个项目。
  5. 输入部署的名称和描述。
  6. 配置 AI Workstation 参数。
    设置 示例值
    虚拟机类 A100 Small - 1 个 vGPU (16 GB),8 个 CPU 和 16 GB 内存
    数据磁盘大小 8 GB
    用户密码 输入已设置用户的密码。首次登录时,系统可能会提示您重置密码。
    SSH 公钥 此设置为可选项。
  7. 选择要在 Workstation 上安装的软件包。
    设置 说明
    PyTorch PyTorch NGC 容器针对 GPU 加速进行了优化,并包含一组经验证的库,用于启用和优化 GPU 性能。此容器还包含用于加速 ETL(DALI、RAPIDS)、培训(cuDNN、NCCL)和推理 (TensorRT) 工作负载的软件。
    TensorFlow TensorFlow NGC 容器针对 GPU 加速进行了优化,并包含一组经验证的库,用于启用和优化 GPU 性能。此容器还可能包含对 TensorFlow 源代码的修改,以便最大限度提高性能和兼容性。此容器还包含用于加速 ETL(DALI、RAPIDS)、培训(cuDNN、NCCL)和推理 (TensorRT) 工作负载的软件。
    CUDA 示例 这是用于在 GPU 上运行 CUDA 工作负载的容器集合。该集合包括容器化 CUDA 示例,例如 vectorAdd(用于演示向量添加)、nbody(或引力 n 体模拟)和其他示例。这些容器可用于验证系统中 GPU 的软件配置,或者仅用于运行某些示例工作负载。
    DCGM 导出程序 NVIDIA Data Center GPU Manager (DCGM) 是一套用于管理和监控集群环境中的 NVIDIA 数据中心 GPU 的工具。监控堆栈通常由收集器、用于存储衡量指标的时间序列数据库和可视化层组成。DCGM-Exporter 是 Prometheus 的导出程序,用于监控运行状况并从 GPU 获取衡量指标。
    Triton 推理服务器 Triton Inference Server 提供了针对 CPU 和 GPU 优化的云和 Edge 推断解决方案。Triton 支持 HTTP/REST 和 GRPC 协议,该协议允许远程客户端请求推断服务器管理的任何模型。对于 Edge 部署,Triton 作为具有 C API 的共享库提供,该 API 允许将 Triton 的全部功能直接包含在应用程序中。
    生成 AI 工作流 - RAG 此参考解决方案演示了如何通过增加现有基础 LLM 以适应您的业务用例,在生成 AI 中找到业务价值。这是使用检索增强生成 (RAG) 完成的,该生成从包含公司业务数据的企业知识库中检索事实。本简介介绍了基于 RAG 的强大 AI 聊天机器人参考解决方案,其中包括 NVIDIA 的生成 AI 示例 Github 中为开发人员提供的代码。请特别注意使用特定于域的业务数据扩充 LLM 的方法,以创建能够敏捷并响应新发展的 AI 应用程序。
  8. 输入除了为软件包定义的 cloud-init 之外,还要安装的自定义 cloud-init。
    VMware Aria Automation 将合并软件包中的 cloud-init 和自定义 cloud-init。
  9. 提供您的 NVIDIANGC 门户访问密钥。
  10. 单击提交

部署启用了 AI 的Tanzu Kubernetes集群

DevOps 工程师可以请求启用了 GPU 的 Tanzu Kubernetes 集群,Worker 节点可在这些集群中运行 AI/ML 工作负载。

TKG 集群包含一个 NVIDIA GPU 运算符,它是 Kubernetes 运算符,负责为 TKG 集群节点上的 NVIDIA GPU 硬件设置正确的 NVIDIA 驱动程序。部署的集群可用于 AI/ML 工作负载,而无需进行额外的 GPU 相关设置。

过程

  1. 找到 AI Kubernetes 集群卡视图,然后单击请求
  2. 选择一个项目。
  3. 输入部署的名称和描述。
  4. 选择控制窗格节点数。
    设置 示例值
    节点计数 1
    虚拟机类 cpu-only-medium - 8 CPUs and 16 GB Memory

    选择的类将定义虚拟机中的可用资源。

  5. 选择工作节点数。
    设置 说明
    节点计数 3
    虚拟机类 a100-medium - 4 vGPU (64 GB), 16 CPUs and 32 GB Memory
  6. 单击提交

结果

部署中包含一个主管命名空间、一个具有三个 Worker 节点的 TKG 集群、TKG 集群内的多个资源以及一个用于部署 GPU Operator 应用程序的 carvel 应用程序。

监控您的专用 AI 部署

可以使用“部署”页面管理部署和关联的资源,对部署进行更改,对失败的部署进行故障排除,对资源进行更改以及销毁未使用的部署。

要管理部署,请选择使用 > 部署 > 部署

有关详细信息,请参见如何管理我的 Automation Service Broker 部署