部署深度学习虚拟机

作为数据科学家，您可以使用 Automation Service Broker 部署用于 AI 开发的深度学习虚拟机。

注：本文档基于 VMware Aria Automation 8.18。有关 VMware Aria Automation 8.18.1 中 VMware Private AI Foundation 功能的信息，请参见 VMware Private AI Foundation with NVIDIA 文档中的使用 VMware Aria Automation 中的自助目录项部署深度学习虚拟机。

在 Automation Service Broker 目录中请求 AI Workstation（虚拟机）时，可以置备启用了 GPU 的深度学习虚拟机，该虚拟机可以配置所需的 vCPU、vGPU、内存和 NVIDIA 的 AI/ML NGC 容器。

将深度学习虚拟机部署到 VI 工作负载域

作为数据科学家，您可以从自助 Automation Service Broker 目录部署单个 GPU 软件定义的开发环境。

您可以使用计算机参数自定义启用了 GPU 的虚拟机以模拟开发要求，预安装 PyTorch、TensorFlow 和 CUDA 等 AI/ML 框架以满足培训和推断要求，以及通过门户访问密钥从 NVIDIA NGC 注册表指定 AI/ML 软件包。

过程

在 Automation Service Broker 的目录页面上，找到 AI Workstation 卡视图，然后单击请求。
选择一个项目。
输入部署的名称和描述。

配置 AI Workstation 参数。

设置	示例值
虚拟机类	`A100 Small - 1 个 vGPU (16 GB)，8 个 CPU 和 16 GB 内存`
数据磁盘大小	`32 GB`
用户密码	输入默认用户的密码。首次登录时，系统可能会提示您重置密码。
SSH 公钥	此设置为可选项。

选择要在 Workstation 上安装的软件包。

设置	说明
PyTorch	PyTorch NGC 容器针对 GPU 加速进行了优化，并包含一组经验证的库，用于启用和优化 GPU 性能。此容器还包含用于加速 ETL（DALI、RAPIDS）、培训（cuDNN、NCCL）和推理（TensorRT）工作负载的软件。
TensorFlow	TensorFlow NGC 容器针对 GPU 加速进行了优化，并包含一组经验证的库，用于启用和优化 GPU 性能。此容器还可能包含对 TensorFlow 源代码的修改，以便最大限度提高性能和兼容性。此容器还包含用于加速 ETL（DALI、RAPIDS）、培训（cuDNN、NCCL）和推理（TensorRT）工作负载的软件。
CUDA 示例	这是用于在 GPU 上运行 CUDA 工作负载的容器集合。该集合包括容器化 CUDA 示例，例如 vectorAdd（用于演示向量添加）、nbody（或引力 n 体模拟）和其他示例。这些容器可用于验证系统中 GPU 的软件配置，或者仅用于运行某些示例工作负载。

（可选） 输入除了为软件包定义的 cloud-init 之外，还要安装的自定义 cloud-init。
VMware Aria Automation 将合并软件包中的 cloud-init 和自定义 cloud-init。
单击提交。

结果

部署的“概览”选项卡将包含所安装软件的摘要，以及有关如何访问应用程序、服务和 Workstation 虚拟机的说明。

添加 DCGM Exporter 以监控深度学习工作负载

您可以使用 DCGM Exporter 监控使用 GPU 容量的深度学习工作负载。

DCGM-Exporter 是 Prometheus 的导出程序，可监控公司的运行状况并获取 GPU 衡量指标。它利用 DCGM 通过 Go 绑定收集 GPU 遥测数据，并使用 HTTP 端点 (/metrics) 向 Prometheus 提供 GPU 衡量指标。DCGM-Exporter 可以独立部署，也可以作为 NVIDIA GPU Operator 的一部分进行部署。

开始之前

确认您已成功部署一个深度学习虚拟机。

过程

通过 SSH 登录到深度学习虚拟机。
对于 PyTorch 和 TensorFlow，请从 JupyterLab 笔记本登录。

使用以下命令运行 DCGM Exporter 容器。

docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag

例如，要从 NVIDIA NGC 目录运行 dcgm-exporter:3.2.5-3.1.8-ubuntu22.04，请运行以下命令：

docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04

DCGM Exporter 安装完成后，在 Prometheus 和 Grafana 中显示 vGPU 衡量指标。

部署具有 NVIDIA Triton Inference Server 且启用了 GPU 的 Workstation

作为数据科学家，您可以从自助 Automation Service Broker 目录部署具有 NVIDIA Triton Inference Server 且启用了 GPU 的 Workstation。

NVIDIA Triton Inference Server 提供了针对 CPU 和 GPU 优化的云和 Edge 推断解决方案。Triton Inference Server 支持 HTTP/REST 和 GRPC 协议，允许远程客户端请求推断各种机器学习框架，包括 TensorFlow、PyTorch 等。对于 Edge 部署，Triton Inference Server 作为具有 C API 的共享库提供，该 API 允许将 Triton 的全部功能直接包含在应用程序中。

部署的 Workstation 包括 Ubuntu 22.04、NVIDIA vGPU 驱动程序、Docker Engine、NVIDIA Container Toolkit 和 NVIDIA Triton Inference Server。

过程

在 Automation Service Broker 的目录页面上，找到 Triton Inferencing Server 卡视图，然后单击请求。
选择一个项目。
输入部署的名称和描述。

配置 AI Workstation 参数。

设置	示例值
虚拟机类	`A100 Small - 1 个 vGPU (16 GB)，8 个 CPU 和 16 GB 内存` 运行 Triton Inferencing Server 需要支持统一虚拟内存 (UVM) 的虚拟机类。
数据磁盘大小	`32 GB`
用户密码	输入已设置用户的密码。首次登录时，系统可能会提示您重置密码。
SSH 公钥	此设置为可选项。

（可选） 输入除了为软件包定义的 cloud-init 之外，还要安装的自定义 cloud-init。
VMware Aria Automation 将合并软件包中的 cloud-init 和自定义 cloud-init。
单击提交。