统一计算设备架构 (CUDA) 是由 NVIDIA 开发的一种并行计算平台和编程模型,用于在图形处理单元 (GPU) 上进行常规计算。CUDA 可利用 GPU 的处理能力大幅提高计算应用程序的速度。例如,TensorFlow 和 PyTorch 基准测试使用 CUDA。

在 Ubuntu 上安装 NVIDIA CUDA

要在 vSphere Bitfusion 中运行 AI 和 ML 工作流,必须在 vSphere Bitfusion 客户端的 Ubuntu Linux 操作系统上安装 CUDA。

前提条件

确认已在 Ubuntu Linux 操作系统上安装 vSphere Bitfusion 客户端。

过程

  1. 导航到虚拟机上要将 NVIDIA CUDA 发行版下载到其中的目录。
    cd <download_directory>
  2. 下载并移动 cuda-ubuntu2004.pin 文件。
    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
    sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
  3. 使用 wget 命令下载适用于 Ubuntu 20.04 的 NVIDIA CUDA 发行版。
    wget <https://developer.download.nvidia.com/compute/cuda/11.0.3/local_installers/cuda-repo-ubuntu2004-11-0-local_11.0.3-450.51.06-1_amd64.deb>
  4. 使用 dpkg -i 命令安装适用于 Ubuntu 20.04 的 CUDA 11 软件包。
    sudo dpkg -i cuda-repo-ubuntu2004-11-0-local_11.0.3-450.51.06-1_amd64.deb
  5. 使用 apt-key 命令安装密钥以对软件包进行身份验证。
    apt-key 命令可管理 apt 用于对软件包进行身份验证的密钥列表。使用这些密钥进行了身份验证的软件包将视为可信。
    sudo apt-key add /var/cuda-repo-ubuntu2004-11-0-local/7fa2af80.pub
  6. 更新并安装 CUDA 软件包。
    sudo apt-get update
    sudo apt-get install cuda
  7. (可选) 要确认 GPU 分区大小或验证 vSphere Bitfusion 部署上可用的资源,请运行 NVIDIA System Management Interface (nvidia-smi) 监控应用程序。
    bitfusion run -n 1 nvidia-smi
  8. 导航到包含 CUDA 矩阵乘法 (matrixMul) 示例文件的目录。
    cd /usr/local/cuda/samples/0_Simple/matrixMul 
  9. 针对 matrixMul 示例文件运行 makebitfusion run 命令。
    sudo make
    bitfusion run -n 1 ./matrixMul

下一步做什么

安装并配置 NVIDIA cuDNN。请参见如何在 vSphere Bitfusion 中安装 NVIDIA cuDNN

在 CentOS 或 Red Hat Linux 上安装 NVIDIA CUDA

要在 vSphere Bitfusion 中运行 AI 和 ML 工作流,必须在 vSphere Bitfusion 客户端的 CentOS 或 Red Hat Linux 操作系统上安装 CUDA。

前提条件

确认已在 CentOS 或 Red Hat Linux 操作系统上安装 vSphere Bitfusion 客户端。

过程

  1. 导航到虚拟机上要将 NVIDIA CUDA 发行版下载到其中的目录。
    cd <download_directory>
  2. 要下载适用于 CentOS 8 或 Red Hat Linux 8 的 NVIDIA CUDA 11 软件包,请运行 wget 命令。
    wget https://developer.download.nvidia.com/compute/cuda/11.0.3/local_installers/cuda-repo-rhel8-11-0-local-11.0.3_450.51.06-1.x86_64.rpm
  3. 要安装 CUDA 软件包,请运行 rpm -i 命令。
    sudo rpm -i cuda-repo-rhel8-11-0-local-11.0.3_450.51.06-1.x86_64.rpm
  4. 运行如下所示的 yum clean allyum -y install 命令以更新您的环境并安装 CUDA 软件包。
    sudo yum clean all
    sudo yum -y install cuda
  5. (可选) 要确认 GPU 分区大小或验证 vSphere Bitfusion 部署上可用的资源,请运行 NVIDIA System Management Interface (nvidia-smi) 监控应用程序。
    bitfusion run -n 1 nvidia-smi
  6. 导航到包含 CUDA 矩阵乘法 (matrixMul) 示例文件的目录。
    cd /usr/local/cuda/samples/0_Simple/matrixMul 
  7. 针对 matrixMul 示例文件运行 makebitfusion run 命令。
    sudo make
    bitfusion run -n 1 ./matrixMul

下一步做什么

安装并配置 NVIDIA cuDNN。请参见如何在 vSphere Bitfusion 中安装 NVIDIA cuDNN