更新时间:2020 年 9 月 08 日

VMware vSphere Bitfusion 2.0.2 | 2020 年 9 月 08 日 | 内部版本 4

包括若干修复、一个更新以支持 Caffee 框架,以及使用 bitfusion net_pref 命令时出现的已知问题。

更新时间:2020 年 8 月 04 日

VMware vSphere Bitfusion 2.0.1 | 2020 年 8 月 04 日 | 内部版本 3

修复及一些小更新。

更新时间:2020 年 7 月 09 日

VMware vSphere Bitfusion 2.0.0 | 2020 年 7 月 09 日 | 内部版本 11

请查看发行说明以了解新增内容及更新。

发行说明内容

本发行说明包含以下主题:

vSphere Bitfusion 的新增功能

VMware vSphere Bitfusion 共享诸如 GPU 等加速器以提供共享网络可访问资源池,从而支持基于 AI 和 ClML 的资源密集型工作负载。vSphere Bitfusion 可在 AI 框架、云、网络以及虚拟机、容器和笔记本等环境中运行。以下是 vSphere Bitfusion 版本中突出显示的一些功能。 

vSphere Bitfusion 2.0.2

  • 支持注册分段错误 (SIGSEGV) 处理程序的应用程序。修复了使用深度学习框架 Caffee 时出现的问题。
     
  • 修复了使用准虚拟 RDMA (PVRDMA) 时的运行状况检查问题。
     
  • 修复了使用 vSphere Bitfusion 客户端时潜在的冻结或挂起问题。
     
  • 修复了更新 vSphere Bitfusion 集群统计信息时可能出现的争用情况。

vSphere Bitfusion 2.0.1

  • 修复以正确检测 vSphere 7.0 b 及更高版本的许可证

  • NVIDIA 驱动程序已更新到版本 440.95.01

  • 支持 vCenter Server 实例中的多个数据中心。(这并不意味着多个 vCenter Server 实例可以支持 Bitfusion 服务器。)

vSphere Bitfusion 2.0.0

  • 动态远程共享。无需修改或重新编译 AI/ML 应用程序。它们在客户端计算机上运行,但其访问 GPU 的 API 调用会被截断并发送到托管物理 GPU 的 Bitfusion 服务器计算机上执行。会话或应用程序完成时会根据需要分配 GPU 并将其返回到池中。
     
  • 部分共享。GPU 内存可以分区为不同大小的任意扇区,然后分配给不同的客户端供并发使用。
     
  • vCenter Server 现在托管 vSphere Bitfusion 管理和分析功能。

兼容性

VMware 产品互操作性列表详细介绍了各版本的 VMware vSphere 组件(包括 ESXi、VMware vCenter Server、vSphere Client 和可选的 VMware 产品)与 vSphere Bitfusion 的兼容性。

要查看与 vSphere Bitfusion 2.0 兼容的硬件设备的列表,请参见《VMware 兼容性指南》

开始前

《安装指南》介绍了必备条件,但此处着重介绍其中几项。Bitfusion 服务器是具有直通 GPU 的物理服务器上的虚拟机(部署为 OVA)。

  • NVIDIA 允许其商业(数据中心类)GPU 通过

Bitfusion 客户端运行 AI/ML 应用程序,后者在网络中的服务器上共享 GPU。 

  • 建议的最小网络带宽为 10 Gbps
  • 客户端与服务器之间建议的最大网络延迟为 50 微秒
  • vSphere Bitfusion 支持 TCP 和 RoCE 传输
  • IPv6 不受支持
  • 不要将两个网络适配器连接到同一网络

许可:

  • Bitfusion 服务器必须部署在 ESXi 7 主机上,每两个 GPU 需要一个 Enterprise Plus 许可和 Bitfusion 加载项。

供您参考:

  • 针对客户端计算机上的 bitfusion 组成员增加了 ulimit。文件 /etc/security/limits.d/bitfusion-limits.conf 将通过客户端软件包自动安装在客户端上。其中包括以下设置:

    # max number of open files @bitfusion soft nofile 100000 @bitfusion hard nofile 100000
    # Unlimited locked-in-memory address space @bitfusion soft memlock unlimited @bitfusion hard memlock unlimited
    # Unlimited max resident set size @bitfusion soft rss unlimited @bitfusion hard rss unlimited

有关从 Bitfusion 集群中移除服务器的说明:

  • 在 vCenter Server 中,从“vSphere Bitfusion GUI”页面删除服务器。
  • 等待 1 ~ 2 分钟,以便服务器断开连接并更新其集群成员资格。
  • 关闭虚拟机电源。

但是,如果虚拟机/主机意外脱机,使用以下命令移除服务器的难度更大(因为分布式数据库软件)。  改为使用以下命令:

  • 登录到仍正常运行的服务器虚拟机,运行“bitfusion removenode”。它会自动检测停机的节点并相应地更新集群成员资格。

vSphere Bitfusion 2.0 的开源组件

有关适用于 vSphere Bitfusion 2.0 中分发的开源软件组件的版权声明和许可证,请访问 http://www.vmware.com。您需要登录您的 My VMware 帐户。然后,在下载菜单中选择 vSphere Bitfusion。在开源选项卡中,还可以下载需向 vSphere Bitfusion 最新可用版本提供其源代码或源代码变更的所有 GPL、LGPL 或其他类似许可证的源文件。

已知问题

vSphere Bitfusion 2.0.2

  • 在使用 PVRDMA 的 GPU 服务器集群上运行时,bitfusion net_perf 命令可能会停止运行或挂起。bitfusion net_perf 命令测试 vSphere Bitfusion 客户端和 vSphere Bitfusion 服务器之间的带宽和延迟。

vSphere Bitfusion 2.0.1

  • 在 OVA 部署过程中,会将 vSphere Bitfusion 版本报告为 2.0.0(而不是 2.0.1)。部署后,将报告正确版本。

vSphere Bitfusion 2.0.0

  • 缺陷:在当前版本的 Chrome(日志、备份)中,无法在插件内部进行下载。这是因为 Chrome 83 及更高版本在沙盒 iFrame 中限制下载。vSphere Bitfusion 团队正与 vCenter Server 团队合作以确定 U1 版本的解决方案
     
  • 必须按顺序将服务器添加到集群中。  不要同时引导所有这些文件。
     
  • 如果一个节点关闭,则无法将节点添加到集群中。用户需要删除或重新启动该节点,然后再添加一个新节点。  
  • 如果您删除了某个服务器,并且最终希望重新加入该服务器,则需要先移除其 /etc/bitfusion/bitfusion-manager.yaml 文件。

  • 在 vCenter Server 中执行服务器克隆操作时,无法在“客户 vApp 属性”对话框中更改是否配置其他网络适配器服务器。由于 vSphere Client 版本 7.0.0.10100 中存在错误,无法在克隆期间更改“配置网络适配器”的“是/否”值。 您可以通过两种不同的方法解决此问题:
    • 创建要克隆的原始副本时,请确保启用所需的网络接口。

    • 使用 vSphere Client 的“vApp 选项”编辑器更改这些设置的值。vCenter >(选择 Bitfusion 服务器虚拟机)> 配置 > vApp 选项 >(选择要编辑的字段)> 编辑。  
       
  • 扩展限制未知。  如果您计划拥有超过 25 个服务器,请咨询 VMware 支持人员。
check-circle-line exclamation-circle-line close-line
Scroll to top icon