VMware vSphere Bitfusion 可虚拟化硬件加速器(例如图形处理单元 (GPU)),以提供可通过网络访问的共享资源池,从而支持人工智能 (AI) 和机器学习 (ML) 工作负载。

vSphere Bitfusion 架构

vSphere Bitfusion 采用客户端-服务器架构。该产品允许多个客户端虚拟机 (VM) 运行人工智能 (AI) 和机器学习 (ML) 应用程序,以便在运行 vSphere Bitfusion 服务器软件的虚拟机上共享对远程 GPU 的访问。您可以在 vSphere Bitfusion 客户端计算机上运行应用程序,而提供加速的 GPU 则安装在网络中的 vSphere Bitfusion 服务器计算机上。应用程序可以打开文件、分配内存并调用 CUDA,就像在具有本地 GPU 的计算机上运行一样。

下图是一个小型 vSphere Bitfusion 集群的示例,例如一组 vSphere Bitfusion 服务器-客户端计算机和交换网络中的 vCenter Server。最小 vSphere Bitfusion 集群配置为一个客户端、一个服务器和一个 vCenter Server。您可以创建具有多个客户端和多个服务器的大型集群。

图 1. 小型 vSphere Bitfusion 集群的示例
包含三个服务器和两个客户端的小型 vSphere Bitfusion 集群图。所有组件均连接到同一 vCenter Server 实例。
  1. vSphere Bitfusion 服务器将向 vCenter Server 注册 vSphere Bitfusion 插件。
  2. vSphere Bitfusion 插件可启用 vSphere Bitfusion 客户端虚拟机。
  3. vSphere Bitfusion 客户端有权访问 vSphere Bitfusion 集群中的所有 vSphere Bitfusion 服务器。
注: 在使用 VMware vSphere Bitfusion 之前,您必须部署 vSphere Bitfusion 服务器以及安装并启用 vSphere Bitfusion 客户端。有关详细信息,请参见 《VMware vSphere Bitfusion 安装指南》

vSphere Bitfusion 功能

vSphere Bitfusion 客户端上启动 AI 或 ML 应用程序时,vSphere Bitfusion 会拦截应用程序的 CUDA 调用并查看调用的数据和数据指针。vSphere Bitfusion 服务器不需要连接到数据,只需连接到 vSphere Bitfusion 客户端。客户端会将数据和其余的 CUDA 调用传输至服务器。vSphere Bitfusion 服务器将处理调用,并将结果返回给客户端。

运行 AI 和 ML 应用程序时,vSphere Bitfusion 可以执行以下任务。

  • vSphere Bitfusion 服务器动态分配和访问 GPU 资源。

    应用程序可以共享并非专用于单个计算机的 GPU 资源,并且可以在配置的计算机、容器和环境中运行每个应用程序。应用程序将消耗网络上 vSphere Bitfusion 服务器池中的 GPU 加速服务,但仅在应用程序或会话运行期间消耗资源。在应用程序或会话完成后,GPU 将返回到池。

  • 访问 GPU 资源的分区,以与其他应用程序进行并发共享。

    共享 GPU 的另一个选项是对 GPU 进行分区。物理 GPU 的内存可以分为任意大小的部分,并同时分配给不同的应用程序。vSphere Bitfusion 使用介入技术执行共享。vSphere Bitfusion 会截获通常寻址本地加速器(在 PCIe 主机总线上)的 API 调用,并通过网络发送 API 调用及相关数据。vSphere Bitfusion 为 AI 和 ML 应用程序提供共享服务,并支持 CUDA API 将 NVIDIA GPU 作为目标。

vSphere Bitfusion 组件

vSphere Bitfusion 服务器
vSphere Bitfusion 服务器在具有本地安装 GPU 的 ESXi 主机上作为 VMware 设备运行,即具有预打包软件和服务的预配置虚拟机 (VM)。服务器需要访问本地 GPU,通常通过 VMware vSphere ® DirectPath I/O™ 访问。
vSphere Bitfusion 客户端
vSphere Bitfusion 客户端在运行 AI 和 ML 应用程序的虚拟机上运行。
vSphere Bitfusion 插件
vSphere Bitfusion 服务器将向 VMware vCenter Server 注册 vSphere Bitfusion 插件。该插件可监控和管理 vSphere Bitfusion 客户端与服务器。
vSphere Bitfusion 个集群
vSphere Bitfusion 集群是 vCenter Server 实例中所有 vSphere Bitfusion 服务器和客户端的集合。
vSphere Bitfusion
vSphere Bitfusion 客户端会在安装过程中创建一个 vSphere Bitfusion 组。只有该组的成员才能使用 vSphere Bitfusion。某些配置文件设置有适当的权限,组成员将继承相应的限制,以高效使用 vSphere Bitfusion
vSphere Client
通过 vSphere Client,可以使用 Web 浏览器连接到 vCenter Server 实例,以便管理 vSphere 基础架构。您可以通过 vSphere Client 访问 vSphere Bitfusion 插件。
命令行界面 (CLI)
您可以使用命令行界面 (CLI) 命令管理 vSphere Bitfusion 服务器和客户端。
vCenter Server
vCenter Server 是服务器管理软件,提供了一个集中式平台来控制您的 vSphere 环境。