若要驗證 vSphere Bitfusion 的安裝是否成功,可以透過執行範例 ML 工作負載來測試 vSphere Bitfusion。從 vSphere Bitfusion 4.5 開始,可以從 vSphere Bitfusion 用戶端啟動指令碼,以自動執行安裝 vSphere Bitfusion 的關聯軟體和 GPU 基準的程序。
完成 vSphere Bitfusion 設定後,需要安裝其他相依項,然後才能在 Bitfusion 中執行機器學習 (ML) 應用程式,例如 TensorFlow 或 PyTorch。首先,必須安裝 NVIDIA CUDA、NVIDIA cuDNN 和 Linux 作業系統相依項。然後,可以安裝 ML 應用程式並執行 GPU 基準,以驗證 vSphere Bitfusion 環境是否正常運作並測試 vSphere Bitfusion 的整體效能。vSphere Bitfusion 用戶端包含一個指令碼,可自動執行所有必需的安裝步驟並最大限度地減少手動操作。該指令碼只能在 Ubuntu Linux 20.04 作業系統上使用,並執行 TensorFlow GPU 基準。
或者,如果您具有不同的作業系統或需要更深入的瞭解,則可以手動安裝其他相依項和 GPU 基準。手動步驟為您提供了驗證 vSphere Bitfusion 安裝的其他選項,例如在 Red Hat 和 CentOS 作業系統上執行 PyTorch 測試。如需詳細資訊,請參閱《vSphere Bitfusion 範例指南》。
使用指令碼安裝 vSphere Bitfusion 相依項和 ML 基準
若要驗證 vSphere Bitfusion 環境是否正常運作並檢查 vSphere Bitfusion 的效能,可以使用 client_vm_starter.sh 指令碼安裝 vSphere Bitfusion 的其他相依項並執行 Tensorflow 基準。
在以下程序中,client_vm_starter.sh 指令碼將安裝 NVIDIA CUDA、NVIDIA cuDNN、TensorFlow 2.6、TensorFlow 基準和其他相依項。如需更多選項,請參閱指令碼命令參考。
必要條件
- 確認已安裝 vSphere Bitfusion 伺服器。
- 確認 vSphere Bitfusion 伺服器上已安裝受支援的 NVIDIA 驅動程式。
- 確認已安裝並啟動 vSphere Bitfusion 用戶端。
- 確認 vSphere Bitfusion 用戶端在 Ubuntu Linux 20.04 作業系統上執行。
- 確認您在 Ubuntu 作業系統上具有 root 權限。
- 確認 vSphere Bitfusion 用戶端至少有 20 GB 的可用空間。
程序
結果
您現在可以透過 vSphere Bitfusion 使用遠端伺服器的共用 GPU 執行 TensorFlow 基準。此結果可驗證 vSphere Bitfusion 部署是否成功。可以在不使用 vSphere Bitfusion 的情況下執行 GPU 基準指令碼並比較效能。
下一步
基準支援許多模型和參數,可協助您探索機器學習學科中的廣闊空間。如需詳細資訊,請參閱《使用 VMware vSphere Bitfusion》中的〈在 vSphere Bitfusion 中啟動應用程式〉。
指令碼命令參考
以下章節列出了可用於 client_vm_starter.sh
安裝指令碼的所有參數和選項。
需求
若要執行指令碼,請確認已滿足需求。請參閱使用指令碼安裝 vSphere Bitfusion 相依項和 ML 基準。
參數和選項
參數 | 參數說明 | 可用選項 | 選項說明 |
---|---|---|---|
-p install_bundle |
安裝 vSphere Bitfusion 用戶端、NVIDIA CUDA、NVIDIA cuDNN、TensorFlow 和 TensorFlow 基準。 | -d |
安裝 Docker 服務和 NVIDIA 容器工具組。 |
-p install_cuda_deps |
安裝 NVIDIA CUDA、NVIDIA cuDNN、TensorFlow 和 TensorFlow 基準。 | -d |
安裝 Docker 服務和 NVIDIA 容器工具組。 |
-p list_clients |
列出官方 vSphere Bitfusion 存放庫中可用的 vSphere Bitfusion 用戶端版本。 | - b X.Y.Z |
安裝特定版本的 vSphere Bitfusion。例如,- b 4.0.1 。 |
-p install_client |
安裝 vSphere Bitfusion 用戶端。 | ||
-p install_docker |
安裝 Docker 服務和 NVIDIA 容器工具組。 | ||
-p remove_client |
移除 vSphere Bitfusion 用戶端。 | ||
-p remove_bundle |
移除 vSphere Bitfusion 用戶端、NVIDIA CUDA、NVIDIA cuDNN、TensorFlow 和 TensorFlow 基準。 |
範例
- 若要安裝 vSphere Bitfusion 用戶端、NVIDIA CUDA、NVIDIA cuDNN、TensorFlow、TensorFlow 基準、Docker 服務和 NVIDIA 容器工具組,請執行
sudo ./client_vm_starter.sh -p install_bundle -d
命令。 - 若要安裝 NVIDIA CUDA、NVIDIA cuDNN、TensorFlow、TensorFlow 基準、Docker 服務和 NVIDIA 容器工具組,請執行
sudo ./client_vm_starter.sh -p install_cuda_deps -d
命令。 - 若要安裝 vSphere Bitfusion 4.0.1 用戶端,請執行
sudo ./client_vm_starter.sh -p install_client -b 4.0.1
命令。 - 若要安裝 Docker 服務和 NVIDIA 容器工具組,請執行
sudo ./client_vm_starter.sh -p install_docker
命令。 - 若要列出官方存放庫中可用的 BF 用戶端,請執行
sudo ./client_vm_starter.sh -p list_clients
命令。