VMware vSphere Bitfusion 可虚拟化硬件加速器(例如图形处理单元 (GPU)),以提供可通过网络访问的共享资源池,从而支持人工智能 (AI) 和机器学习 (ML) 工作负载。vSphere Bitfusion 可与 TensorFlow 和 PyTorch 等人工智能框架配合使用。可以在虚拟机或 Docker 容器中部署 vSphere Bitfusion,以便在数据中心环境中使用。通过 vSphere Bitfusion,可以监控网络中所有 GPU 服务器的运行状况、利用率、效率和可用性。此外,还可以监控客户端对 GPU 的使用情况并分配配额和时间限制。

vSphere 图,展示 vSphere Bitfusion 如何扩展 GPU 虚拟化。

是否想了解最新版本的 vSphere Bitfusion?请查看最新的 VMware vSphere Bitfusion 发行说明

了解 vSphere Bitfusion 的一些功能

了解 vSphere Bitfusion 的基本概念,及其如何虚拟化 GPU 并提供一个共享计算资源池以供 AI 和 ML 应用程序使用。

了解如何在 vSphere 环境中安装 vSphere Bitfusion 服务器和客户端,包括运行 vSphere Bitfusion 所需的软件和硬件要求

了解如何使用 vSphere Bitfusion 插件向集群中添加后续 vSphere Bitfusion 服务器

了解如何在多个 vCenter Server 实例或 Kubernetes 集群中激活 vSphere Bitfusion 客户端

您可以通过测试部署验证 vSphere Bitfusion 安装过程是否成功。

您可以使用准虚拟 RDMA (PVRDMA) 适配器来提高 vSphere Bitfusion 部署的性能。RDMA 允许从一台计算机内存到另一台计算机内存的直接内存访问,不会涉及操作系统或 CPU。

您可以升级 vSphere Bitfusion 集群,不会丢失当前的集群配置和监控数据。

了解如何通过添加、移除和修改网络接口vSphere Bitfusion 服务器连接到多个网络

可以vSphere Bitfusion 客户端添加标签以识别工作负载。

了解如何为所有 服务器和客户端续订证书vSphere Bitfusion

了解如何启动和停止 vSphere Bitfusion 应用程序,以及如何分配 GPU 以在同一 GPU 上运行多个应用程序。您还可以在特定 GPU 或服务器集上运行 AI 和 ML 工作负载。

可以在 vSphere Bitfusion测试网络的 MTU 帧大小

您可以配置 vSphere Bitfusion 保留详细和摘要使用情况数据的时间段。您可以使用衡量指标 REST API 下载数据。

您可以执行运行状况检查来检查 vSphere Bitfusion 服务器的性能、稳定性、可用系统资源和软件版本。您也可以检查特定于 vSphere Bitfusion 服务器的日志文件来对 vSphere Bitfusion 环境进行故障排除。

了解如何使用 vSphere ClientvSphere Bitfusion 插件提供的图形用户界面来监控 vSphere Bitfusion。您可以查看 vSphere Bitfusion 服务器和客户端的 GPU 分配和使用情况、内存使用情况、网络流量统计信息以及其他数据的当前和历史统计信息。您还可以将监控数据导出和下载.csv 文件以查看 vSphere Bitfusion 环境并进行故障排除。

了解如何使用监控插件软件包监控集群中的 vSphere Bitfusion 服务器。该软件包包含五十多个适用于监控应用程序(例如 Icinga、Naemon、Nagios、Hinken、Sensu)的标准插件。

了解如何备份还原 vSphere Bitfusion 数据库。通过备份数据库,您可以保存 vSphere Bitfusion 集群数据的配置、连接、运行状况和历史记录的快照。如果出现故障,您可以还原 vSphere Bitfusion 数据库并使用快照恢复集群。

了解如何通过 vSphere Bitfusion 安装并运行 AI 和 ML 应用程序,以及如何运行基准和测试以衡量 vSphere Bitfusion 部署的性能。要使用 TensorFlow、PyTorch 和 YOLO,还需要安装 NVIDIA CUDANVIDIA CUDA Deep Neural Network library (cuDNN)。CUDA 是由 NVIDIA 开发的计算库,用于在 GPU 上进行通用计算。cuDNN 是一个 GPU 加速的原语库,用于深度神经网络。

下载 vSphere Bitfusion

要开始部署,请下载 vSphere Bitfusion 设备和客户端软件包

观看视频

您可以通过阅读文档以及观看 VMware vSphere YouTube 频道上的视频,了解如何部署和运行 vSphere Bitfusion

了解有关 vSphere Bitfusion 的更多信息

要了解 vSphere Bitfusion 和 GPU 虚拟化,请参见以下资源。
  • 通过访问 vSphere Bitfusion 解决方案Cloud Platform Tech Zone 了解有关 vSphere Bitfusion 的更多信息。
  • 了解 TensorFlow - 一种用于机器学习的端到端开源平台。借助 TensorFlow,可以轻松地为桌面、移动、Web 和云环境创建机器学习模型。
  • 了解 PyTorchYOLO。您可以使用 PyTorch 实施基于 YOLO 的对象检测器,YOLO 是一种对象检测器,使用深度串联性神经网络学习的功能来检测对象。
  • vSphere BitfusionCUDA 集成,CUDA 是 NVIDIA 开发的一种并行计算平台,用于在 GPU 上进行通用计算。通过 CUDA,可以利用 GPU 的强大功能显著加快应用程序计算。使用 CUDA 开发的应用程序已部署到嵌入式系统、工作站、数据中心和云中的 GPU 中。
  • 了解 NVIDIA cuDNN 如何与 vSphere Bitfusion 集成以提高 GPU 性能,NVIDIA cuDNN 是一个 GPU 加速的原语库,可与深度神经网络结合使用。借助此集成,您可以专注于培训神经网络和开发软件应用程序,而不是在低级别的 GPU 性能调整方面花费时间。

使用 vSphere Bitfusion 文档

HTML 格式的 vSphere Bitfusion 文档反映了每个主要 vSphere Bitfusion 版本的最新更新版本。例如,版本 2.5 包含 2.5.x 版本的所有更新。

可以使用 MyLibrary 创建自定义文档集,仅包含满足您特定信息要求的内容。