ディープラーニング仮想マシンの展開

データサイエンティストは、Automation Service Broker を使用して AI 開発用のディープラーニング仮想マシンを展開できます。

注：このドキュメントは、 VMware Aria Automation 8.18 に基づいています。 VMware Aria Automation 8.18.1 の VMware Private AI Foundation 機能については、 VMware Private AI Foundation with NVIDIA ドキュメントの「 Deploy Deep Learning Virtual Machines by Using Self-Service Catalog Items in VMware Aria Automation」を参照してください。

Automation Service Broker カタログ内の AI Workstation (仮想マシン) を申請する場合は、GPU 対応のディープラーニング仮想マシンをプロビジョニングします。この仮想マシンは、NVIDIA の目的の vCPU、vGPU、メモリ、AI/ML NGC コンテナを使用して構成できます。

VI ワークロードドメインへのディープラーニング仮想マシンの展開

データサイエンティストは、セルフサービス Automation Service Broker カタログから単一の GPU Software-Defined 開発環境を展開できます。

マシンパラメータを使用して GPU 対応の仮想マシンをカスタマイズし、開発要件のモデル化、トレーニングと推論の要件を満たす AI/ML フレームワーク（PyTorch、TensorFlow、CUDA など）の事前インストール、ポータルアクセスキーを介した NVIDIA NGC レジストリからの AI/ML パッケージの指定を行うことができます。

手順

Automation Service Broker の [カタログ] 画面で、[AI Workstation] カードを見つけて [申請] をクリックします。
プロジェクトを選択します。
展開の名前と説明を入力します。

AI ワークステーションのパラメータを構成します。

設定	サンプル値
仮想マシンクラス	`A100 Small - 1 vGPU (16 GB)、8 CPU、16 GB のメモリ`
データディスクサイズ	`32 GB`
ユーザーパスワード	デフォルトユーザーのパスワードを入力します。初回ログイン時にパスワードのリセットを求められる場合があります。
SSH パブリックキー	このフィールド値の指定は任意です。

ワークステーションにインストールするソフトウェアバンドルを選択します。

設定	説明
PyTorch	PyTorch NGC Container は GPU アクセラレーション用に最適化されており、GPU パフォーマンスを有効および最適化する検証済みのライブラリセットが含まれています。このコンテナには、ETL (DALI、RAPIDS)、トレーニング (cuDNN、NCCL)、および推論 (TensorRT) ワークロードを高速化するためのソフトウェアも含まれています。
TensorFlow	TensorFlow NGC Container は GPU アクセラレーション用に最適化されており、GPU のパフォーマンスを有効および最適化する検証済みの一連のライブラリが含まれています。このコンテナには、パフォーマンスと互換性を最大化するために TensorFlow ソースコードに変更を加える場合もあります。このコンテナには、ETL (DALI、RAPIDS)、トレーニング (cuDNN、NCCL)、および推論 (TensorRT) ワークロードを高速化するためのソフトウェアも含まれています。
CUDA Samples	これは、GPU で CUDA ワークロードを実行するコンテナのコレクションです。コレクションには、vectorAdd（ベクトルの追加を示す）、nbody（または重力 n-body シミュレーション）などのコンテナ化された CUDA サンプルが含まれます。これらのコンテナは、システム内の GPU のソフトウェア構成を検証したり、単にいくつかのサンプルワークロードを実行したりするために使用できます。

（オプション） ソフトウェアバンドルに定義されている cloud-init に加えて、インストールするカスタム cloud-init を入力します。
VMware Aria Automation では、ソフトウェアバンドルの cloud-init とカスタム cloud-init をマージします。
[送信] をクリックします。

結果

展開の [概要] タブには、インストールされたソフトウェアのサマリと、アプリケーション、サービス、および Workstation 仮想マシンにアクセスする方法が表示されます。

DL ワークロード監視のための DCGM Exporter の追加

DCGM Exporter を使用して、GPU 容量を使用するディープラーニングワークロードを監視できます。

DCGM-Exporter は、企業の健全性を監視し、GPU からメトリックを取得する Prometheus のエクスポータです。Go バインドを使用する DCGM を活用して GPU テレメトリを収集し、HTTP エンドポイント (/metrics) を使用して GPU メトリックを Prometheus に公開します。DCGM-Exporter は、スタンドアローンにすることも、NVIDIA GPU Operator の一部として展開することもできます。

開始する前に

ディープラーニング仮想マシンが正常に展開されていることを確認します。

手順

SSH を使用してディープラーニング仮想マシンにログインします。
PyTorch と TensorFlow では、JupyterLab Notebook からログインします。

次のコマンドを使用して DCGM Exporter コンテナを実行します。

docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag

たとえば、NVIDIA NGC カタログから dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 を実行するには、次のコマンドを実行します。

docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04

DCGM Exporter のインストールが完了したら、Prometheus と Grafana で vGPU メトリックを可視化します。

NVIDIA Triton 推論サーバを持つ GPU 対応の Workstation の展開

データサイエンティストは、NVIDIA Triton 推論サーバを持つ GPU 対応の Workstation をセルフサービスの Automation Service Broker カタログから展開できます。

NVIDIA Triton 推論サーバは、CPU と GPU の両方に最適化されたクラウドおよび Edge 推論ソリューションを提供します。Triton 推論サーバでは HTTP/REST および GRPC プロトコルがサポートされます。これにより、リモートクライアントは TensorFlow や PyTorch などのさまざまな機械学習フレームワークに対して推論を要求できます。Edge の展開では、Triton の完全な機能をアプリケーションに直接含めることができる C API を使用して、Triton 推論サーバを共有ライブラリとして使用できます。

展開された Workstation には、Ubuntu 22.04、NVIDIA vGPU ドライバ、Docker Engine、NVIDIA Container Toolkit、NVIDIA Triton 推論サーバが含まれます。

手順

Automation Service Broker の [カタログ] 画面で、[Triton 推論サーバ] カードを見つけて [申請] をクリックします。
プロジェクトを選択します。
展開の名前と説明を入力します。

AI ワークステーションのパラメータを構成します。

設定	サンプル値
仮想マシンクラス	`A100 Small - 1 vGPU (16 GB)、8 CPU、16 GB のメモリ` Triton 推論サーバを実行するには、統合仮想メモリ (UVM) をサポートする仮想マシンクラスが必要です。
データディスクサイズ	`32 GB`
ユーザーパスワード	延期したユーザーのパスワードを入力します。初回ログイン時にパスワードのリセットを求められる場合があります。
SSH パブリックキー	このフィールド値の指定は任意です。

（オプション） ソフトウェアバンドルに定義されている cloud-init に加えて、インストールするカスタム cloud-init を入力します。
VMware Aria Automation では、ソフトウェアバンドルの cloud-init とカスタム cloud-init をマージします。
[送信] をクリックします。

VI ワークロード ドメインへのディープ ラーニング仮想マシンの展開

手順

結果

DL ワークロード監視のための DCGM Exporter の追加

開始する前に

手順

NVIDIA Triton 推論サーバを持つ GPU 対応の Workstation の展開

手順

VI ワークロードドメインへのディープラーニング仮想マシンの展開