データ サイエンティストは、Automation Service Broker を使用して AI 開発用のディープ ラーニング仮想マシンを展開できます。
Automation Service Broker カタログ内の AI Workstation (仮想マシン) を申請する場合は、GPU 対応のディープ ラーニング仮想マシンをプロビジョニングします。この仮想マシンは、NVIDIA の目的の vCPU、vGPU、メモリ、AI/ML NGC コンテナを使用して構成できます。
VI ワークロード ドメインへのディープ ラーニング仮想マシンの展開
データ サイエンティストは、セルフサービス Automation Service Broker カタログから単一の GPU Software-Defined 開発環境を展開できます。
手順
結果
DL ワークロード監視のための DCGM Exporter の追加
DCGM Exporter を使用して、GPU 容量を使用するディープ ラーニング ワークロードを監視できます。
DCGM-Exporter は、企業の健全性を監視し、GPU からメトリックを取得する Prometheus のエクスポータです。Go バインドを使用する DCGM を活用して GPU テレメトリを収集し、HTTP エンドポイント (/metrics) を使用して GPU メトリックを Prometheus に公開します。DCGM-Exporter は、スタンドアローンにすることも、NVIDIA GPU Operator の一部として展開することもできます。
開始する前に
ディープ ラーニング仮想マシンが正常に展開されていることを確認します。
手順
- SSH を使用してディープ ラーニング仮想マシンにログインします。
PyTorch と TensorFlow では、JupyterLab Notebook からログインします。
- 次のコマンドを使用して DCGM Exporter コンテナを実行します。
docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
たとえば、NVIDIA NGC カタログから dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 を実行するには、次のコマンドを実行します。docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
- DCGM Exporter のインストールが完了したら、Prometheus と Grafana で vGPU メトリックを可視化します。
NVIDIA Triton 推論サーバを持つ GPU 対応の Workstation の展開
データ サイエンティストは、NVIDIA Triton 推論サーバを持つ GPU 対応の Workstation をセルフサービスの Automation Service Broker カタログから展開できます。
展開された Workstation には、Ubuntu 22.04、NVIDIA vGPU ドライバ、Docker Engine、NVIDIA Container Toolkit、NVIDIA Triton 推論サーバが含まれます。