データ サイエンティストは、Automation Service Broker を使用して AI 開発用のディープ ラーニング仮想マシンを展開できます。

注: このドキュメントは、 VMware Aria Automation 8.18 に基づいています。 VMware Aria Automation 8.18.1 の VMware Private AI Foundation 機能については、 VMware Private AI Foundation with NVIDIA ドキュメントの「 Deploy Deep Learning Virtual Machines by Using Self-Service Catalog Items in VMware Aria Automation」を参照してください。

Automation Service Broker カタログ内の AI Workstation (仮想マシン) を申請する場合は、GPU 対応のディープ ラーニング仮想マシンをプロビジョニングします。この仮想マシンは、NVIDIA の目的の vCPU、vGPU、メモリ、AI/ML NGC コンテナを使用して構成できます。

VI ワークロード ドメインへのディープ ラーニング仮想マシンの展開

データ サイエンティストは、セルフサービス Automation Service Broker カタログから単一の GPU Software-Defined 開発環境を展開できます。

マシン パラメータを使用して GPU 対応の仮想マシンをカスタマイズし、開発要件のモデル化、トレーニングと推論の要件を満たす AI/ML フレームワーク(PyTorch、TensorFlow、CUDA など)の事前インストール、ポータル アクセス キーを介した NVIDIA NGC レジストリからの AI/ML パッケージの指定を行うことができます。

手順

  1. Automation Service Broker[カタログ] 画面で、[AI Workstation] カードを見つけて [申請] をクリックします。
  2. プロジェクトを選択します。
  3. 展開の名前と説明を入力します。
  4. AI ワークステーションのパラメータを構成します。
    設定 サンプル値
    仮想マシン クラス A100 Small - 1 vGPU (16 GB)、8 CPU、16 GB のメモリ
    データ ディスク サイズ 32 GB
    ユーザー パスワード デフォルト ユーザーのパスワードを入力します。初回ログイン時にパスワードのリセットを求められる場合があります。
    SSH パブリック キー このフィールド値の指定は任意です。
  5. ワークステーションにインストールするソフトウェア バンドルを選択します。
    設定 説明
    PyTorch PyTorch NGC Container は GPU アクセラレーション用に最適化されており、GPU パフォーマンスを有効および最適化する検証済みのライブラリ セットが含まれています。このコンテナには、ETL (DALI、RAPIDS)、トレーニング (cuDNN、NCCL)、および推論 (TensorRT) ワークロードを高速化するためのソフトウェアも含まれています。
    TensorFlow TensorFlow NGC Container は GPU アクセラレーション用に最適化されており、GPU のパフォーマンスを有効および最適化する検証済みの一連のライブラリが含まれています。このコンテナには、パフォーマンスと互換性を最大化するために TensorFlow ソース コードに変更を加える場合もあります。このコンテナには、ETL (DALI、RAPIDS)、トレーニング (cuDNN、NCCL)、および推論 (TensorRT) ワークロードを高速化するためのソフトウェアも含まれています。
    CUDA Samples これは、GPU で CUDA ワークロードを実行するコンテナのコレクションです。コレクションには、vectorAdd(ベクトルの追加を示す)、nbody(または重力 n-body シミュレーション)などのコンテナ化された CUDA サンプルが含まれます。これらのコンテナは、システム内の GPU のソフトウェア構成を検証したり、単にいくつかのサンプル ワークロードを実行したりするために使用できます。
  6. (オプション) ソフトウェア バンドルに定義されている cloud-init に加えて、インストールするカスタム cloud-init を入力します。
    VMware Aria Automation では、ソフトウェア バンドルの cloud-init とカスタム cloud-init をマージします。
  7. [送信] をクリックします。

結果

展開の [概要] タブには、インストールされたソフトウェアのサマリと、アプリケーション、サービス、および Workstation 仮想マシンにアクセスする方法が表示されます。

DL ワークロード監視のための DCGM Exporter の追加

DCGM Exporter を使用して、GPU 容量を使用するディープ ラーニング ワークロードを監視できます。

DCGM-Exporter は、企業の健全性を監視し、GPU からメトリックを取得する Prometheus のエクスポータです。Go バインドを使用する DCGM を活用して GPU テレメトリを収集し、HTTP エンドポイント (/metrics) を使用して GPU メトリックを Prometheus に公開します。DCGM-Exporter は、スタンドアローンにすることも、NVIDIA GPU Operator の一部として展開することもできます。

開始する前に

ディープ ラーニング仮想マシンが正常に展開されていることを確認します。

手順

  1. SSH を使用してディープ ラーニング仮想マシンにログインします。

    PyTorch と TensorFlow では、JupyterLab Notebook からログインします。

  2. 次のコマンドを使用して DCGM Exporter コンテナを実行します。
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
    たとえば、NVIDIA NGC カタログから dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 を実行するには、次のコマンドを実行します。
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
  3. DCGM Exporter のインストールが完了したら、Prometheus と Grafana で vGPU メトリックを可視化します。
    1. Prometheus と Grafana をインストールします
    2. Prometheus で vGPU メトリックを表示します
    3. Grafana でメトリックを可視化します

NVIDIA Triton 推論サーバを持つ GPU 対応の Workstation の展開

データ サイエンティストは、NVIDIA Triton 推論サーバを持つ GPU 対応の Workstation をセルフサービスの Automation Service Broker カタログから展開できます。

NVIDIA Triton 推論サーバは、CPU と GPU の両方に最適化されたクラウドおよび Edge 推論ソリューションを提供します。Triton 推論サーバでは HTTP/REST および GRPC プロトコルがサポートされます。これにより、リモート クライアントは TensorFlow や PyTorch などのさまざまな機械学習フレームワークに対して推論を要求できます。Edge の展開では、Triton の完全な機能をアプリケーションに直接含めることができる C API を使用して、Triton 推論サーバを共有ライブラリとして使用できます。

展開された Workstation には、Ubuntu 22.04、NVIDIA vGPU ドライバ、Docker Engine、NVIDIA Container Toolkit、NVIDIA Triton 推論サーバが含まれます。

手順

  1. Automation Service Broker[カタログ] 画面で、[Triton 推論サーバ] カードを見つけて [申請] をクリックします。
  2. プロジェクトを選択します。
  3. 展開の名前と説明を入力します。
  4. AI ワークステーションのパラメータを構成します。
    設定 サンプル値
    仮想マシン クラス A100 Small - 1 vGPU (16 GB)、8 CPU、16 GB のメモリ

    Triton 推論サーバを実行するには、統合仮想メモリ (UVM) をサポートする仮想マシン クラスが必要です。

    データ ディスク サイズ 32 GB
    ユーザー パスワード 延期したユーザーのパスワードを入力します。初回ログイン時にパスワードのリセットを求められる場合があります。
    SSH パブリック キー このフィールド値の指定は任意です。
  5. (オプション) ソフトウェア バンドルに定義されている cloud-init に加えて、インストールするカスタム cloud-init を入力します。
    VMware Aria Automation では、ソフトウェア バンドルの cloud-init とカスタム cloud-init をマージします。
  6. [送信] をクリックします。