統一計算裝置架構 (CUDA) 是一種由 NVIDIA 開發的平行計算平台和程式設計模型,可在圖形處理單元 (GPU) 上進行一般計算。CUDA 使用 GPU 的處理能力大幅加快計算應用程式的速度。例如,TensorFlow 和 PyTorch 基準使用 CUDA。

在 Ubuntu 上安裝 NVIDIA CUDA

若要在 vSphere Bitfusion 中執行 AI 和 ML 工作流程,必須在 vSphere Bitfusion 用戶端的 Ubuntu Linux 作業系統上安裝 CUDA。

必要條件

確認已在 Linux 作業系統上安裝 vSphere Bitfusion 用戶端。

程序

  1. 導覽至虛擬機器上要下載 NVIDIA CUDA 發行版的目錄。
    cd <download_directory>
  2. 下載並移動 cuda-ubuntu2004.pin 檔案。
    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
    sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
  3. 使用 wget 命令下載適用於 Ubuntu 20.04 的 NVIDIA CUDA 發行版。
    wget <https://developer.download.nvidia.com/compute/cuda/11.0.3/local_installers/cuda-repo-ubuntu2004-11-0-local_11.0.3-450.51.06-1_amd64.deb>
  4. 使用 dpkg -i 命令安裝適用於 Ubuntu 20.04 的 CUDA 11 套件。
    sudo dpkg -i cuda-repo-ubuntu2004-11-0-local_11.0.3-450.51.06-1_amd64.deb
  5. 使用 apt-key 命令安裝金鑰以驗證軟體套件。
    apt-key 命令會管理 apt 用來驗證套件的金鑰清單。已使用這些金鑰進行驗證的套件將視為受信任。
    sudo apt-key add /var/cuda-repo-ubuntu2004-11-0-local/7fa2af80.pub
  6. 更新並安裝 CUDA 軟體套件。
    sudo apt-get update
    sudo apt-get install cuda
  7. (選擇性) 若要確認 GPU 磁碟分割大小或驗證 vSphere Bitfusion 部署上可用的資源,請執行 NVIDIA 系統管理介面 (nvidia-smi) 監控應用程式。
    bitfusion run -n 1 nvidia-smi
  8. 導覽至包含 CUDA 矩陣乘法 (matrixMul) 範例檔案的目錄。
    cd /usr/local/cuda/samples/0_Simple/matrixMul 
  9. 針對 matrixMul 範例檔案執行 makebitfusion run 命令。
    sudo make
    bitfusion run -n 1 ./matrixMul

下一步

安裝並設定 NVIDIA cuDNN。請參閱如何在 vSphere Bitfusion 中安裝 NVIDIA cuDNN

在 CentOS 或 Red Hat Linux 上安裝 NVIDIA CUDA

若要在 vSphere Bitfusion 中執行 AI 和 ML 工作流程,必須在 vSphere Bitfusion 用戶端的 CentOS 或 Red Hat Linux 作業系統上安裝 CUDA。

必要條件

確認已在 CentOS 或 Red Hat Linux 作業系統上安裝 vSphere Bitfusion 用戶端。

程序

  1. 導覽至虛擬機器上要下載 NVIDIA CUDA 發行版的目錄。
    cd <download_directory>
  2. 若要下載適用於 CentOS 8 或 Red Hat Linux 8 的 NVIDIA CUDA 11 套件,請執行 wget 命令。
    wget https://developer.download.nvidia.com/compute/cuda/11.0.3/local_installers/cuda-repo-rhel8-11-0-local-11.0.3_450.51.06-1.x86_64.rpm
  3. 若要安裝 CUDA 套件,請執行 rpm -i 命令。
    sudo rpm -i cuda-repo-rhel8-11-0-local-11.0.3_450.51.06-1.x86_64.rpm
  4. 按如下所示執行 yum clean allyum -y install 命令,以更新您的環境並安裝 CUDA 軟體套件。
    sudo yum clean all
    sudo yum -y install cuda
  5. (選擇性) 若要確認 GPU 磁碟分割大小或驗證 vSphere Bitfusion 部署上可用的資源,請執行 NVIDIA 系統管理介面 (nvidia-smi) 監控應用程式。
    bitfusion run -n 1 nvidia-smi
  6. 導覽至包含 CUDA 矩陣乘法 (matrixMul) 範例檔案的目錄。
    cd /usr/local/cuda/samples/0_Simple/matrixMul 
  7. 針對 matrixMul 範例檔案執行 makebitfusion run 命令。
    sudo make
    bitfusion run -n 1 ./matrixMul

下一步

安裝並設定 NVIDIA cuDNN。請參閱如何在 vSphere Bitfusion 中安裝 NVIDIA cuDNN