VMware vSphere Bitfusion 可虚拟化硬件加速器(例如图形处理单元 (GPU)),以提供可通过网络访问的共享资源池,从而支持人工智能 (AI) 和机器学习 (ML) 工作负载。
vSphere Bitfusion 架构
vSphere Bitfusion 采用客户端-服务器架构。该产品允许多个客户端虚拟机 (VM) 运行人工智能 (AI) 和机器学习 (ML) 应用程序,以便在运行 vSphere Bitfusion 服务器软件的虚拟机上共享对远程 GPU 的访问。您可以在 vSphere Bitfusion 客户端计算机上运行应用程序,而提供加速的 GPU 则安装在网络中的 vSphere Bitfusion 服务器计算机上。应用程序可以打开文件、分配内存并调用 CUDA,就像在具有本地 GPU 的计算机上运行一样。
下图是一个小型 vSphere Bitfusion 集群的示例,例如一组 vSphere Bitfusion 服务器-客户端计算机和交换网络中的 vCenter Server。最小 vSphere Bitfusion 集群配置为一个客户端、一个服务器和一个 vCenter Server。您可以创建具有多个客户端和多个服务器的大型集群。

- 主 vSphere Bitfusion 服务器将向 vCenter Server 注册 vSphere Bitfusion 插件。
- vSphere Bitfusion 插件可启用 vSphere Bitfusion 客户端虚拟机。
- vSphere Bitfusion 客户端有权访问 vSphere Bitfusion 集群中的所有 vSphere Bitfusion 服务器。
vSphere Bitfusion 功能
在 vSphere Bitfusion 客户端上启动 AI 或 ML 应用程序时,vSphere Bitfusion 会拦截应用程序的 CUDA 调用并查看调用的数据和数据指针。vSphere Bitfusion 服务器不需要连接到数据,只需连接到 vSphere Bitfusion 客户端。客户端会将数据和其余的 CUDA 调用传输至服务器。vSphere Bitfusion 服务器将处理调用,并将结果返回给客户端。
运行 AI 和 ML 应用程序时,vSphere Bitfusion 可以执行以下任务。
- 从 vSphere Bitfusion 服务器动态分配和访问 GPU 资源。
应用程序可以共享并非专用于单个计算机的 GPU 资源,并且可以在配置的计算机、容器和环境中运行每个应用程序。应用程序将消耗网络上 vSphere Bitfusion 服务器池中的 GPU 加速服务,但仅在应用程序或会话运行期间消耗资源。在应用程序或会话完成后,GPU 将返回到池。
- 访问 GPU 资源的分区,以与其他应用程序进行并发共享。
共享 GPU 的另一个选项是对 GPU 进行分区。物理 GPU 的内存可以分为任意大小的部分,并同时分配给不同的应用程序。vSphere Bitfusion 使用介入技术执行共享。vSphere Bitfusion 会截获通常寻址本地加速器(在 PCIe 主机总线上)的 API 调用,并通过网络发送 API 调用及相关数据。vSphere Bitfusion 为 AI 和 ML 应用程序提供共享服务,并支持 CUDA API 将 NVIDIA GPU 作为目标。
vSphere Bitfusion 组件
- vSphere Bitfusion 服务器
- vSphere Bitfusion 服务器在具有本地安装 GPU 的 ESXi 主机上作为 VMware 设备运行,即具有预打包软件和服务的预配置虚拟机 (VM)。服务器需要访问本地 GPU,通常通过 VMware vSphere ® DirectPath I/O™ 访问。
- vSphere Bitfusion 客户端
- vSphere Bitfusion 客户端在运行 AI 和 ML 应用程序的虚拟机上运行。
- vSphere Bitfusion 插件
- vSphere Bitfusion 服务器将向 VMware vCenter Server 注册 vSphere Bitfusion 插件。该插件可监控和管理 vSphere Bitfusion 客户端与服务器。
- vSphere Bitfusion 个集群
- vSphere Bitfusion 集群是 vCenter Server 实例中所有 vSphere Bitfusion 服务器和客户端的集合。
- vSphere Bitfusion 组
- vSphere Bitfusion 客户端会在安装过程中创建一个 vSphere Bitfusion 组。只有该组的成员才能使用 vSphere Bitfusion。某些配置文件设置有适当的权限,组成员将继承相应的限制,以高效使用 vSphere Bitfusion。
- vSphere Client
- 通过 vSphere Client,可以使用 Web 浏览器连接到 vCenter Server 实例,以便管理 vSphere 基础架构。您可以通过 vSphere Client 访问 vSphere Bitfusion 插件。
- 命令行界面 (CLI)
- 您可以使用命令行界面 (CLI) 命令管理 vSphere Bitfusion 服务器和客户端。
- vCenter Server
- vCenter Server 是服务器管理软件,提供了一个集中式平台来控制您的 vSphere 环境。