若要驗證 vSphere Bitfusion 的安裝是否成功,可以透過執行範例 ML 工作負載來測試 vSphere Bitfusion。從 vSphere Bitfusion 4.5 開始,可以從 vSphere Bitfusion 用戶端啟動指令碼,以自動執行安裝 vSphere Bitfusion 的關聯軟體和 GPU 基準的程序。

完成 vSphere Bitfusion 設定後,需要安裝其他相依項,然後才能在 Bitfusion 中執行機器學習 (ML) 應用程式,例如 TensorFlow 或 PyTorch。首先,必須安裝 NVIDIA CUDA、NVIDIA cuDNN 和 Linux 作業系統相依項。然後,可以安裝 ML 應用程式並執行 GPU 基準,以驗證 vSphere Bitfusion 環境是否正常運作並測試 vSphere Bitfusion 的整體效能。vSphere Bitfusion 用戶端包含一個指令碼,可自動執行所有必需的安裝步驟並最大限度地減少手動操作。該指令碼只能在 Ubuntu Linux 20.04 作業系統上使用,並執行 TensorFlow GPU 基準。

或者,如果您具有不同的作業系統或需要更深入的瞭解,則可以手動安裝其他相依項和 GPU 基準。手動步驟為您提供了驗證 vSphere Bitfusion 安裝的其他選項,例如在 Red Hat 和 CentOS 作業系統上執行 PyTorch 測試。如需詳細資訊,請參閱vSphere Bitfusion 範例指南》

使用指令碼安裝 vSphere Bitfusion 相依項和 ML 基準

若要驗證 vSphere Bitfusion 環境是否正常運作並檢查 vSphere Bitfusion 的效能,可以使用 client_vm_starter.sh 指令碼安裝 vSphere Bitfusion 的其他相依項並執行 Tensorflow 基準。

在以下程序中,client_vm_starter.sh 指令碼將安裝 NVIDIA CUDA、NVIDIA cuDNN、TensorFlow 2.6、TensorFlow 基準和其他相依項。如需更多選項,請參閱指令碼命令參考

必要條件

  • 確認已安裝 vSphere Bitfusion 伺服器。
  • 確認 vSphere Bitfusion 伺服器上已安裝受支援的 NVIDIA 驅動程式。
  • 確認已安裝並啟動 vSphere Bitfusion 用戶端。
  • 確認 vSphere Bitfusion 用戶端在 Ubuntu Linux 20.04 作業系統上執行。
  • 確認您在 Ubuntu 作業系統上具有 root 權限。
  • 確認 vSphere Bitfusion 用戶端至少有 20 GB 的可用空間。

程序

  1. vSphere Bitfusion 用戶端的終端機中,透過執行 mkdir ~/bitfusion 命令建立一個 bitfusion 資料夾。
  2. 若要導覽至 bitfusion 資料夾,請執行 cd ~/bitfusion/ 命令。
  3. 若要下載 client_vm_starter.sh 指令碼,請執行 sudo wget https://packages.vmware.com/bitfusion/scripts/client_vm_starter.sh 命令。
  4. 若要使用指令碼,請執行 sudo ./client_vm_starter.sh -p install_cuda_deps 命令。
  5. 若要使用 TensorFlow tf_cnn_benchmarks.py 基準指令碼,請執行以下命令。
    bitfusion run -n 1 -- python3 \
    ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py \
    --batch_size=64 \
    --model=resnet50 \
    --num_gpus=1 \
    --num_batches=100

結果

您現在可以透過 vSphere Bitfusion 使用遠端伺服器的共用 GPU 執行 TensorFlow 基準。此結果可驗證 vSphere Bitfusion 部署是否成功。可以在不使用 vSphere Bitfusion 的情況下執行 GPU 基準指令碼並比較效能。

下一步

基準支援許多模型和參數,可協助您探索機器學習學科中的廣闊空間。如需詳細資訊,請參閱《使用 VMware vSphere Bitfusion》中的〈在 vSphere Bitfusion 中啟動應用程式〉

指令碼命令參考

以下章節列出了可用於 client_vm_starter.sh 安裝指令碼的所有參數和選項。

需求

若要執行指令碼,請確認已滿足需求。請參閱使用指令碼安裝 vSphere Bitfusion 相依項和 ML 基準

參數和選項

參數 參數說明 可用選項 選項說明
-p install_bundle 安裝 vSphere Bitfusion 用戶端、NVIDIA CUDA、NVIDIA cuDNN、TensorFlow 和 TensorFlow 基準。 -d 安裝 Docker 服務和 NVIDIA 容器工具組。
-p install_cuda_deps 安裝 NVIDIA CUDA、NVIDIA cuDNN、TensorFlow 和 TensorFlow 基準。 -d 安裝 Docker 服務和 NVIDIA 容器工具組。
-p list_clients 列出官方 vSphere Bitfusion 存放庫中可用的 vSphere Bitfusion 用戶端版本。 - b X.Y.Z 安裝特定版本的 vSphere Bitfusion。例如,- b 4.0.1
-p install_client 安裝 vSphere Bitfusion 用戶端。
-p install_docker 安裝 Docker 服務和 NVIDIA 容器工具組。
-p remove_client 移除 vSphere Bitfusion 用戶端。
-p remove_bundle 移除 vSphere Bitfusion 用戶端、NVIDIA CUDA、NVIDIA cuDNN、TensorFlow 和 TensorFlow 基準。

範例

例如,您可以執行下列指令碼命令。
  • 若要安裝 vSphere Bitfusion 用戶端、NVIDIA CUDA、NVIDIA cuDNN、TensorFlow、TensorFlow 基準、Docker 服務和 NVIDIA 容器工具組,請執行 sudo ./client_vm_starter.sh -p install_bundle -d 命令。
  • 若要安裝 NVIDIA CUDA、NVIDIA cuDNN、TensorFlow、TensorFlow 基準、Docker 服務和 NVIDIA 容器工具組,請執行 sudo ./client_vm_starter.sh -p install_cuda_deps -d 命令。
  • 若要安裝 vSphere Bitfusion 4.0.1 用戶端,請執行 sudo ./client_vm_starter.sh -p install_client -b 4.0.1 命令。
  • 若要安裝 Docker 服務和 NVIDIA 容器工具組,請執行 sudo ./client_vm_starter.sh -p install_docker 命令。
  • 若要列出官方存放庫中可用的 BF 用戶端,請執行 sudo ./client_vm_starter.sh -p list_clients 命令。