vSphere Bitfusion が正常にインストールされたことを確認するには、サンプル ML ワークロードを実行して vSphere Bitfusion をテストします。vSphere Bitfusion 4.5 以降では、vSphere Bitfusion と GPU ベンチマークに関連するソフトウェアのインストール プロセスを自動化するスクリプトを vSphere Bitfusion クライアントから起動できます。

vSphere Bitfusion のセットアップの完了後、TensorFlow や PyTorch などの機械学習 (ML) アプリケーションを Bitfusion で実行する前に、追加の依存関係が必要になります。まず、NVIDIA CUDA、NVIDIA cuDNN、および Linux オペレーティング システムの依存関係をインストールする必要があります。その後、ML アプリケーションをインストールし、GPU ベンチマークを実行して vSphere Bitfusion 環境が動作していることを確認し、vSphere Bitfusion の全体的なパフォーマンスをテストすることができます。vSphere Bitfusion クライアントには、必要なすべてのインストール手順を自動化し、手動作業を最小限に抑えるスクリプトが含まれています。このスクリプトは、Ubuntu Linux 20.04 オペレーティング システムでのみ使用可能で、TensorFlow GPU ベンチマークを実行します。

別のオペレーティング システムを使用している場合や、詳細に理解する必要がある場合は、追加の依存関係と GPU ベンチマークを手動でインストールできます。手動手順では、Red Hat および CentOS オペレーティング システムでの PyTorch テストの実行など、vSphere Bitfusion のインストールを確認する追加のオプションが提示されます。詳細については、『vSphere Bitfusion サンプル ガイド』を参照してください。

スクリプトを使用した vSphere Bitfusion の依存関係と ML ベンチマークのインストール

vSphere Bitfusion 環境が動作していること、および vSphere Bitfusion のパフォーマンスを確認するには、client_vm_starter.sh スクリプトを使用して vSphere Bitfusion の追加の依存関係をインストールし、Tensorflow ベンチマークを実行します。

次の手順では、client_vm_starter.sh スクリプトによって NVIDIA CUDA、NVIDIA cuDNN、TensorFlow 2.6、TensorFlow ベンチマーク、および追加の依存関係がインストールされます。詳細については、スクリプト コマンド リファレンスを参照してください。

前提条件

  • vSphere Bitfusion サーバがインストールされていることを確認します。
  • vSphere Bitfusion サーバにサポート対象の NVIDIA ドライバがインストールされていることを確認します。
  • vSphere Bitfusion クライアントがインストールされ、有効になっていることを確認します。
  • vSphere Bitfusion クライアントが Ubuntu Linux 20.04 オペレーティング システムで実行されていることを確認します。
  • Ubuntu オペレーティング システムに関する root 権限があることを確認します。
  • vSphere Bitfusion クライアントに 20 GB 以上の空き容量があることを確認します。

手順

  1. vSphere Bitfusion クライアントのターミナルで、mkdir ~/bitfusion コマンドを実行して bitfusion フォルダを作成します。
  2. bitfusion フォルダに移動するには、cd ~/bitfusion/ コマンドを実行します。
  3. client_vm_starter.sh スクリプトをダウンロードするには、sudo wget https://packages.vmware.com/bitfusion/scripts/client_vm_starter.sh コマンドを実行します。
  4. このスクリプトを使用するには、sudo ./client_vm_starter.sh -p install_cuda_deps コマンドを実行します。
  5. TensorFlow tf_cnn_benchmarks.py ベンチマーク スクリプトを使用するには、次のコマンドを実行します。
    bitfusion run -n 1 -- python3 \
    ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py \
    --batch_size=64 \
    --model=resnet50 \
    --num_gpus=1 \
    --num_batches=100

結果

リモート サーバから、GPU を共有している vSphere Bitfusion に TensorFlow ベンチマークを実行できるようになりました。この結果により、vSphere Bitfusion が正常にデプロイされたことが確認されます。vSphere Bitfusion を使用せずに GPU ベンチマーク スクリプトを実行し、パフォーマンスを比較することができます。

次のタスク

ベンチマークがサポートするさまざまなモデルとパラメータは、規模の大きい調査での機械学習に役立ちます。詳細については、『VMware vSphere Bitfusion の使用』の「vSphere Bitfusion でのアプリケーションの起動」を参照してください。

スクリプト コマンド リファレンス

次のセクションに、client_vm_starter.sh インストール スクリプトで使用できるすべてのパラメータとオプションを示します。

要件

スクリプトを実行するには、要件を満たしていることを確認します。スクリプトを使用した vSphere Bitfusion の依存関係と ML ベンチマークのインストールを参照してください。

パラメータとオプション

パラメータ パラメータの説明 使用可能なオプション オプションの説明
-p install_bundle vSphere Bitfusion クライアント、NVIDIA CUDA、NVIDIA cuDNN、TensorFlow、および TensorFlow ベンチマークをインストールします。 -d Docker サービスと NVIDIA コンテナ ツールキットをインストールします。
-p install_cuda_deps NVIDIA CUDA、NVIDIA cuDNN、TensorFlow、および TensorFlow ベンチマークをインストールします。 -d Docker サービスと NVIDIA コンテナ ツールキットをインストールします。
-p list_clients 公式の vSphere Bitfusion リポジトリで使用可能な vSphere Bitfusion クライアント バージョンを一覧表示します。 - b X.Y.Z 特定のバージョンの vSphere Bitfusion をインストールします。たとえば、- b 4.0.1 です。
-p install_client vSphere Bitfusion クライアントをインストールします。
-p install_docker Docker サービスと NVIDIA コンテナ ツールキットをインストールします。
-p remove_client vSphere Bitfusion クライアントを削除します。
-p remove_bundle vSphere Bitfusion クライアント、NVIDIA CUDA、NVIDIA cuDNN、TensorFlow、および TensorFlow ベンチマークを削除します。

たとえば、次のスクリプト コマンドを実行できます。
  • vSphere Bitfusion クライアント、NVIDIA CUDA、NVIDIA cuDNN、TensorFlow、TensorFlow ベンチマーク、Docker サービス、および NVIDIA コンテナ ツールキットをインストールするには、sudo ./client_vm_starter.sh -p install_bundle -d コマンドを実行します。
  • NVIDIA CUDA、NVIDIA cuDNN、TensorFlow、TensorFlow ベンチマーク、Docker サービス、および NVIDIA コンテナ ツールキットをインストールするには、sudo ./client_vm_starter.sh -p install_cuda_deps -d コマンドを実行します。
  • vSphere Bitfusion 4.0.1 クライアントをインストールするには、sudo ./client_vm_starter.sh -p install_client -b 4.0.1 コマンドを実行します。
  • Docker サービスおよび NVIDIA コンテナ ツールキットをインストールするには、sudo ./client_vm_starter.sh -p install_docker コマンドを実行します。
  • 公式リポジトリで使用可能な BF クライアントを一覧表示するには、sudo ./client_vm_starter.sh -p list_clients コマンドを実行します。