作为数据科学家,您可以使用 Automation Service Broker 部署用于 AI 开发的深度学习虚拟机。
在 Automation Service Broker 目录中请求 AI Workstation(虚拟机)时,可以置备启用了 GPU 的深度学习虚拟机,该虚拟机可以配置所需的 vCPU、vGPU、内存和 NVIDIA 的 AI/ML NGC 容器。
将深度学习虚拟机部署到 VI 工作负载域
作为数据科学家,您可以从自助 Automation Service Broker 目录部署单个 GPU 软件定义的开发环境。
过程
结果
添加 DCGM Exporter 以监控深度学习工作负载
您可以使用 DCGM Exporter 监控使用 GPU 容量的深度学习工作负载。
DCGM-Exporter 是 Prometheus 的导出程序,可监控公司的运行状况并获取 GPU 衡量指标。它利用 DCGM 通过 Go 绑定收集 GPU 遥测数据,并使用 HTTP 端点 (/metrics) 向 Prometheus 提供 GPU 衡量指标。DCGM-Exporter 可以独立部署,也可以作为 NVIDIA GPU Operator 的一部分进行部署。
开始之前
确认您已成功部署一个深度学习虚拟机。
过程
- 通过 SSH 登录到深度学习虚拟机。
对于 PyTorch 和 TensorFlow,请从 JupyterLab 笔记本登录。
- 使用以下命令运行 DCGM Exporter 容器。
docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
例如,要从 NVIDIA NGC 目录运行 dcgm-exporter:3.2.5-3.1.8-ubuntu22.04,请运行以下命令:docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
- DCGM Exporter 安装完成后,在 Prometheus 和 Grafana 中显示 vGPU 衡量指标。
部署具有 NVIDIA Triton Inference Server 且启用了 GPU 的 Workstation
作为数据科学家,您可以从自助 Automation Service Broker 目录部署具有 NVIDIA Triton Inference Server 且启用了 GPU 的 Workstation。
部署的 Workstation 包括 Ubuntu 22.04、NVIDIA vGPU 驱动程序、Docker Engine、NVIDIA Container Toolkit 和 NVIDIA Triton Inference Server。