作为数据科学家,您可以使用 Automation Service Broker 部署用于 AI 开发的深度学习虚拟机。

Automation Service Broker 目录中请求 AI Workstation(虚拟机)时,可以置备启用了 GPU 的深度学习虚拟机,该虚拟机可以配置所需的 vCPU、vGPU、内存和 NVIDIA 的 AI/ML NGC 容器。

将深度学习虚拟机部署到 VI 工作负载域

作为数据科学家,您可以从自助 Automation Service Broker 目录部署单个 GPU 软件定义的开发环境。

您可以使用计算机参数自定义启用了 GPU 的虚拟机以模拟开发要求,预安装 PyTorch、TensorFlow 和 CUDA 等 AI/ML 框架以满足培训和推断要求,以及通过门户访问密钥从 NVIDIA NGC 注册表指定 AI/ML 软件包。

过程

  1. Automation Service Broker目录页面上,找到 AI Workstation 卡视图,然后单击请求
  2. 选择一个项目。
  3. 输入部署的名称和描述。
  4. 配置 AI Workstation 参数。
    设置 示例值
    虚拟机类 A100 Small - 1 个 vGPU (16 GB),8 个 CPU 和 16 GB 内存
    数据磁盘大小 32 GB
    用户密码 输入默认用户的密码。首次登录时,系统可能会提示您重置密码。
    SSH 公钥 此设置为可选项。
  5. 选择要在 Workstation 上安装的软件包。
    设置 说明
    PyTorch PyTorch NGC 容器针对 GPU 加速进行了优化,并包含一组经验证的库,用于启用和优化 GPU 性能。此容器还包含用于加速 ETL(DALI、RAPIDS)、培训(cuDNN、NCCL)和推理 (TensorRT) 工作负载的软件。
    TensorFlow TensorFlow NGC 容器针对 GPU 加速进行了优化,并包含一组经验证的库,用于启用和优化 GPU 性能。此容器还可能包含对 TensorFlow 源代码的修改,以便最大限度提高性能和兼容性。此容器还包含用于加速 ETL(DALI、RAPIDS)、培训(cuDNN、NCCL)和推理 (TensorRT) 工作负载的软件。
    CUDA 示例 这是用于在 GPU 上运行 CUDA 工作负载的容器集合。该集合包括容器化 CUDA 示例,例如 vectorAdd(用于演示向量添加)、nbody(或引力 n 体模拟)和其他示例。这些容器可用于验证系统中 GPU 的软件配置,或者仅用于运行某些示例工作负载。
  6. (可选) 输入除了为软件包定义的 cloud-init 之外,还要安装的自定义 cloud-init。
    VMware Aria Automation 将合并软件包中的 cloud-init 和自定义 cloud-init。
  7. 单击提交

结果

部署的“概览”选项卡将包含所安装软件的摘要,以及有关如何访问应用程序、服务和 Workstation 虚拟机的说明。

添加 DCGM Exporter 以监控深度学习工作负载

您可以使用 DCGM Exporter 监控使用 GPU 容量的深度学习工作负载。

DCGM-Exporter 是 Prometheus 的导出程序,可监控公司的运行状况并获取 GPU 衡量指标。它利用 DCGM 通过 Go 绑定收集 GPU 遥测数据,并使用 HTTP 端点 (/metrics) 向 Prometheus 提供 GPU 衡量指标。DCGM-Exporter 可以独立部署,也可以作为 NVIDIA GPU Operator 的一部分进行部署。

开始之前

确认您已成功部署一个深度学习虚拟机。

过程

  1. 通过 SSH 登录到深度学习虚拟机。

    对于 PyTorch 和 TensorFlow,请从 JupyterLab 笔记本登录。

  2. 使用以下命令运行 DCGM Exporter 容器。
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
    例如,要从 NVIDIA NGC 目录运行 dcgm-exporter:3.2.5-3.1.8-ubuntu22.04,请运行以下命令:
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
  3. DCGM Exporter 安装完成后,在 Prometheus 和 Grafana 中显示 vGPU 衡量指标。
    1. 安装 Prometheus 和 Grafana
    2. 在 Prometheus 中查看 vGPU 衡量指标
    3. 在 Grafana 中显示衡量指标

部署具有 NVIDIA Triton Inference Server 且启用了 GPU 的 Workstation

作为数据科学家,您可以从自助 Automation Service Broker 目录部署具有 NVIDIA Triton Inference Server 且启用了 GPU 的 Workstation。

NVIDIA Triton Inference Server 提供了针对 CPU 和 GPU 优化的云和 Edge 推断解决方案。Triton Inference Server 支持 HTTP/REST 和 GRPC 协议,允许远程客户端请求推断各种机器学习框架,包括 TensorFlow、PyTorch 等。对于 Edge 部署,Triton Inference Server 作为具有 C API 的共享库提供,该 API 允许将 Triton 的全部功能直接包含在应用程序中。

部署的 Workstation 包括 Ubuntu 22.04、NVIDIA vGPU 驱动程序、Docker Engine、NVIDIA Container Toolkit 和 NVIDIA Triton Inference Server。

过程

  1. Automation Service Broker目录页面上,找到 Triton Inferencing Server 卡视图,然后单击请求
  2. 选择一个项目。
  3. 输入部署的名称和描述。
  4. 配置 AI Workstation 参数。
    设置 示例值
    虚拟机类 A100 Small - 1 个 vGPU (16 GB),8 个 CPU 和 16 GB 内存

    运行 Triton Inferencing Server 需要支持统一虚拟内存 (UVM) 的虚拟机类。

    数据磁盘大小 32 GB
    用户密码 输入已设置用户的密码。首次登录时,系统可能会提示您重置密码。
    SSH 公钥 此设置为可选项。
  5. (可选) 输入除了为软件包定义的 cloud-init 之外,还要安装的自定义 cloud-init。
    VMware Aria Automation 将合并软件包中的 cloud-init 和自定义 cloud-init。
  6. 单击提交