VMware Deep Learning VM イメージは、VMware Private AI Foundation with NVIDIA の一部として提供されます。これらは一般的な DL ワークロードで事前構成されており、VMware Cloud Foundation 環境での GPU アクセラレーションのために NVIDIA および VMware によって最適化および検証されています。

VMware Deep Learning VM 1.2 | 2024 年 10 月 9 日

これらのリリース ノートに対する追加および更新を確認してください。

コンテンツ ライブラリ

ディープ ラーニング仮想マシン イメージは、vSphere 仮想マシン テンプレートとして提供され、コンテンツ ライブラリで VMware によってホストおよび公開されます。これらのイメージを使用して、vSphere Client または VMware Aria Automation でディープ ラーニング仮想マシンを展開できます。

VMware Private AI Foundation with NVIDIA のディープ ラーニング仮想マシン イメージを含むコンテンツ ライブラリは、https://packages.vmware.com/dl-vm/lib.json URL で入手できます。接続された環境では、この URL に接続されたサブスクライブ済みコンテンツ ライブラリを作成し、切断された環境では、中央コンテンツ ライブラリからイメージをアップロードするローカル コンテンツ ライブラリを作成します。

互換性とアップグレード

VMware Deep Learning VM の最新リリースを使用します(環境でサポートされている場合)。

実行中のディープ ラーニング仮想マシンを新しいイメージに更新することはできません。新しいディープ ラーニング仮想マシン イメージ リリースを使用して、新しいディープ ラーニング仮想マシンをデプロイする必要があります。

インストール

vCenter Server インスタンスのコンテンツ ライブラリから AI 対応の VI ワークロード ドメインにディープ ラーニング仮想マシン イメージをデプロイします。次のシステムにディープ ラーニング仮想マシンをデプロイできます。

  • データ サイエンティスト、MLOps エンジニアまたは DevOps エンジニアの場合

    • VMware Aria Automation を使用して vSphere IaaS 制御プレーンのスーパーバイザーにデプロイ。

  • クラウド管理者の場合

    • vSphere クラスタに直接デプロイ。

  • DevOps エンジニアの場合

    • kubectl を使用して vSphere IaaS 制御プレーンのスーパーバイザーにデプロイ。

VMware Private AI Foundation with NVIDIA にディープ ラーニング仮想マシンをデプロイする』を参照してください。

VMware Deep Learning VM 1.2

イメージ スナップショット

VMware Deep Learning VM 1.2 は、VMware Cloud Foundation 5.2.1 で使用できます。

スナップショット

リリース日

互換性のある VMware Cloud Foundation バージョン

common-container-nv-vgpu-ubuntu-2204-v20240814

2024 年 10 月 9 日

VMware Cloud Foundation 5.2.1

新機能

  • ディープ ラーニング仮想マシン イメージには、Broadcom EULA と、VMware Private AI Foundation with NVIDIA SPD (特定のプログラム ドキュメント) が含まれています。

  • 組み込みの Miniconda 24.3.0 コンポーネントは Miniforge3 24.3.0 にアップデートされました。

  • pytorch2.3.0_py3.12 に加えて、Conda Environment Install OVF パラメータを使用して、pytorch1.13.1_py3.10tf2.16.1_py3.12、および tf1.15.5_py3.7 Conda 環境を仮想マシンのデプロイ中にインストールすることもできます。

  • 中央の Harbor レジストリに ML モデルを格納するための Private AI Services (pais) CLI バージョン 1.0.0 が利用可能になりました。

  • 接続された環境で、vGPU ゲスト ドライバをダウンロードする際に必要な資格は NVIDIA AI Enterprise のみです。

  • 接続された環境で、vGPU ゲスト ドライバのダウンロード中に表示されるエラー メッセージが改善されました。

サポート対象の NVIDIA GPU デバイス

VMware Deep Learning VM 1.2 は、ESXi ホストで次の GPU をサポートします。

NVIDIA コンポーネント

サポートされているオプション

NVIDIA GPU

  • NVIDIA A100

  • NVIDIA L40S

  • NVIDIA H100

GPU 共有モード

  • タイム スライス

  • マルチインスタンス GPU

VMware Deep Learning VM 1.2 のコンポーネント

このバージョンのディープ ラーニング仮想マシン イメージには、次のソフトウェアが含まれています。

ソフトウェア コンポーネント カテゴリ

ソフトウェア コンポーネント

バージョン

組み込み

Canonical Ubuntu

22.04

NVIDIA Container Toolkit

1.15.0

Docker Community Engine

26.0.2

Miniforge

24.3.0-0 (Python 3.10)

VMware Private AI Services (pais) CLI

1.0.0

自動的にプリインストール可能

NVIDIA vGPU ゲスト ドライバ

NVIDIA vGPU ホスト ドライバのバージョンに対応

PyTorch Conda 環境

2.3.0 (Python 3.12)、1.13.1 (Python 3.10)

TensorFlow Conda 環境

2.16.1 (Python 3.12)、1.15.5 (Python 3.7)

NVIDIA NGC からのディープ ラーニング (DL) ワークロード

CUDA サンプル

-

PyTorch

-

TensorFlow

-

DCGM Exporter

-

Triton Inference Server

-

NVIDIA RAG

-

解決した問題

  • cloud-init を使用してデプロイされたコンテナが root として実行されます。

  • ディープ ラーニング仮想マシンを再起動すると、最新の起動からのログ情報のみが /var/log/dl.log に表示されます。以前の起動からの DL ワークロード ログ情報が上書きされます。

  • パスワード OVF パラメータが設定されている場合、Conda 環境のインストールに失敗します。

VMware Deep Learning VM 1.1

イメージ スナップショット

VMware Deep Learning VM 1.1 は、VMware Cloud Foundation 5.2 で使用できます。

スナップショット

リリース日

互換性のある VMware Cloud Foundation バージョン

common-container-nv-vgpu-ubuntu-2204-v20240613

2024 年 7 月 23 日

VMware Cloud Foundation 5.2

新機能

  • ディープ ラーニング仮想マシン イメージに、組み込みの Miniconda インストールが含まれるようになりました。

  • ディープ ラーニング仮想マシン イメージに、検証済みの PyTorch Conda 環境マニフェストが含まれるようになりました。

  • Conda Environment Install OVF パラメータを使用して、仮想マシンのデプロイ中に自動的にインストールする Conda 環境のカンマ区切りのリストを指定できます。現在、pytorch2.3_py3.12 環境をインストールできます。

  • 初期化スクリプトの詳細なログについては、/var/log/vgpu-install.log を参照してください。

サポート対象の NVIDIA GPU デバイス

VMware Deep Learning VM 1.1 は、ESXi ホストで次の GPU をサポートします。

NVIDIA コンポーネント

サポートされているオプション

NVIDIA GPU

  • NVIDIA A100

  • NVIDIA L40S

  • NVIDIA H100

GPU 共有モード

  • タイム スライス

  • マルチインスタンス GPU

VMware Deep Learning VM 1.1 のコンポーネント

このバージョンのディープ ラーニング仮想マシン イメージには、次のソフトウェアが含まれています。

ソフトウェア コンポーネント カテゴリ

ソフトウェア コンポーネント

バージョン

組み込み

Canonical Ubuntu

22.04

NVIDIA Container Toolkit

1.15.0

Docker Community Engine

26.0.2

Miniconda

24.3.0-0 (Python 3.12)

自動的にプリインストール可能

NVIDIA vGPU ゲスト ドライバ

NVIDIA vGPU ホスト ドライバのバージョンに対応

PyTorch Conda 環境

2.3.0 (Python 3.12)

NVIDIA NGC からのディープ ラーニング (DL) ワークロード

CUDA サンプル

-

PyTorch

-

TensorFlow

-

DCGM Exporter

-

Triton Inference Server

-

NVIDIA RAG

-

解決した問題

  • 以前のバージョンの NVIDIA vGPU ドライバが NVIDIA ライセンス ポータルからダウンロードされない。

  • GuestBootstrap のステータスが正しく表示されないことがある。

  • ネットワークの問題が原因で、NVIDIA vGPU ドライバのダウンロードに失敗することがある。

  • イメージのビルド プロセス中に使用される authorized_keys SSH ファイルが ~/.ssh/ ディレクトリで使用可能になる。

VMware Deep Learning VM 1.0.1

イメージ スナップショット

VMware Deep Learning VM 1.0.1 は、VMware Cloud Foundation 5.1.1 で使用できます。

スナップショット

リリース日

互換性のある VMware Cloud Foundation バージョン

common-container-nv-vgpu-ubuntu-2204-v20240419

2024 年 5 月 6 日

VMware Cloud Foundation 5.1.1

新機能

  • NVIDIA Container Toolkit と Docker Community Engine のバージョンが更新されました。

  • OVF デプロイ ウィザードを使用してディープ ラーニング仮想マシンをデプロイするときに表示される OVF プロパティの説明が改善されました。

  • 切断された環境の vGPU ゲスト ドライバのダウンロード URL 形式で、NGINX や Apache HTTP Server などの Web サーバによって生成されるディレクトリ インデックス リストがサポートされるようになりました。

  • VMware Deep Learning VM のドキュメントへのリンクが Ubuntu オペレーティング システムの「Message Of The Day」に表示されます。

サポート対象の NVIDIA GPU デバイス

VMware Deep Learning VM 1.0.1 は、ESXi ホストで次の GPU をサポートします。

NVIDIA コンポーネント

サポートされているオプション

NVIDIA GPU

  • NVIDIA A100

  • NVIDIA L40S

  • NVIDIA H100

GPU 共有モード

  • タイム スライス

  • マルチインスタンス GPU

VMware Deep Learning VM 1.0.1 のコンポーネント

このバージョンのディープ ラーニング仮想マシン イメージには、次のソフトウェアが含まれています。

ソフトウェア コンポーネント カテゴリ

ソフトウェア コンポーネント

バージョン

組み込み

Canonical Ubuntu

22.04

NVIDIA Container Toolkit

1.15.0

Docker Community Engine

26.0.2

自動的にプリインストール可能

NVIDIA vGPU ゲスト ドライバ

NVIDIA vGPU ホスト ドライバのバージョンに対応

NVIDIA NGC からのディープ ラーニング (DL) ワークロード

CUDA サンプル

-

PyTorch

-

TensorFlow

-

DCGM Exporter

-

Triton Inference Server

-

NVIDIA RAG

-

解決した問題

  • ディープ ラーニング仮想マシンの OVF プロパティに設定されているレジストリ パスワードに、& < > " ' などの特殊文字が含まれていると、Docker プライベート コンテナ レジストリにログインできません。

  • セカンダリ コンテナ レジストリの OVF プロパティは処理されません。

  • エラーとセキュリティ警告のため、apt update の実行に失敗します。

  • 仮想マシンの起動時に実行される get-vgpu-driver.sh スクリプトの実行ステータスが、仮想マシン ツールのguestinfo.vmservice.bootstrap.condition 設定に反映されません。

VMware Deep Learning VM 1.0

イメージ スナップショット

VMware Deep Learning VM 1.0 は、VMware Cloud Foundation 5.1.1 で使用できます。

スナップショット

リリース日

互換性のある VMware Cloud Foundation バージョン

common-container-nv-vgpu-ubuntu-2204-v20240217

2024 年 3 月 26 日

VMware Cloud Foundation 5.1.1

サポート対象の NVIDIA GPU デバイス

VMware Deep Learning VM 1.0 は、ESXi ホストで次の GPU をサポートします。

NVIDIA コンポーネント

サポートされているオプション

NVIDIA GPU

  • NVIDIA A100

  • NVIDIA L40S

  • NVIDIA H100

GPU 共有モード

  • タイム スライス

  • マルチインスタンス GPU

VMware Deep Learning VM 1.0 のコンポーネント

ディープ ラーニング仮想マシン イメージの初期バージョンには、次のソフトウェアが含まれています。

ソフトウェア コンポーネント カテゴリ

ソフトウェア コンポーネント

バージョン

組み込み

Canonical Ubuntu

22.04

NVIDIA Container Toolkit

1.13.5

Docker Community Engine

25.03

自動的にプリインストール可能

NVIDIA vGPU ゲスト ドライバ

NVIDIA vGPU ホスト ドライバのバージョンに対応

NVIDIA NGC からのディープ ラーニング (DL) ワークロード

CUDA サンプル

-

PyTorch

-

TensorFlow

-

DCGM Exporter

-

Triton Inference Server

-

NVIDIA RAG

-

ライセンス情報

VMware Deep Learning VM リリースは、VMware Private AI Foundation with NVIDIA ライセンスで利用できます。『VMware Private AI Foundation with NVIDIA ガイド』を参照してください。

ドキュメント

VMware Cloud Foundation 環境でディープ ラーニング仮想マシンを実行するための概要と手順については、『VMware Private AI Foundation with NVIDIA ガイド』を参照してください。

check-circle-line exclamation-circle-line close-line
Scroll to top icon