更新时间:2020 年 12 月 03 日

VMware vSphere Bitfusion 2.5.1 | 2020 年 12 月 03 日 | 内部版本 13

多个修复。请参见“已解决的问题:vSphere Bitfusion 2.5.1”和“已知问题:其他问题”子部分。

VMware vSphere Bitfusion 2.5.0 | 2020 年 11 月 05 日 | 内部版本 10

发行说明内容

本发行说明包含以下主题:

关于 vSphere Bitfusion

VMware vSphere Bitfusion 共享图形处理单元 (GPU) 等加速器以提供共享网络可访问资源池,从而支持资源密集型人工智能 (AI) 和机器学习 (ML) 工作负载。vSphere Bitfusion 可在 AI 框架、云站点、网络以及虚拟机、容器和笔记本等环境中运行。

vSphere Bitfusion 2.5.0 的新增功能

  • 支持裸机客户端
  • 扩展了运行状况检查并改进了可用性
  • 支持 2.0.0 及更高版本的 vSphere Bitfusion 客户端
  • NVIDIA 驱动程序 450
  • NVIDIA CUDA 11
  • 支持 TensorFlow 2.3
  • 支持 PyTorch 1.5
  • 支持 TensorRT 7.1.3

系统要求

有关 vSphere Bitfusion 客户端和服务器的系统要求列表,请参见《vSphere Bitfusion 安装指南》。

开源组件

有关适用于 vSphere Bitfusion 2.5.0 中分发的开源软件组件的版权声明和许可证,请访问 http://www.vmware.com。可以下载任何 GPL、LGPL 或者其他类似许可证的源文件,这些许可证要求源代码或对源代码进行的修改适用于 vSphere Bitfusion 的最新可用版本。

已解决的问题

已解决的问题分为以下几组。

    vSphere Bitfusion 2.5.1

    • 支持包包含更多信息

      此版本包含支持包中的其他日志。

    • 如果在 ESXi 主机上部署了 vSphere Bitfusion 服务器,则无法提取主机配置文件

      本版本已修复该问题。

    • vSphere Bitfusion 无法验证 NTP 服务器配置

      本版本包含运行状况检查以验证是否已正确配置 NTP 服务器。

    • NTP 配置问题可能会导致 vSphere Bitfusion 服务器时钟不同步

      vSphere Bitfusion 服务器设备的默认 NTP 配置包含可解决此问题的改进。

    • 如果网络接口连接到不同的网络,vSphere Bitfusion 将无法为数据流量和管理流量使用单独的网络接口

      本版本已修复该问题。有两个新的客户机变量,您可以将其设置为使用所需的网络接口。您可以使用 guestinfo.bitfusion.server.web-ifaceguestinfo.bitfusion.server.mgmt-iface 变量将数据流量和管理流量分配给网络接口。

    • 在客户密码中输入特殊字符时,vSphere Bitfusion 服务器部署会失败

      本版本已修复该问题。

    vSphere Bitfusion 2.0.2

    • 使用 Caffee(一种深度学习框架)时,可能会出现问题

      增加了对注册分段错误 (SIGSEGV) 处理程序的应用程序的支持。

    • 使用准虚拟 RDMA (PVRDMA) 时,可能会出现运行状况检查问题

      本版本已修复该问题。

    • 使用 vSphere Bitfusion 客户端时,可能会出现潜在的冻结或挂起问题

      本版本已修复该问题。

    • 更新 vSphere Bitfusion 集群统计信息时,可能会出现争用情况

      本版本已修复该问题。

    vSphere Bitfusion 2.0.1

    • 使用 VMware vSphere 版本 7.0b 及更低版本时,可能会错误地检测到许可证

      本版本已修复该问题。

    • 增加了对 NVIDIA 驱动程序的支持

      本版本支持 NVIDIA 驱动程序版本 440.95.01。

    • 增加了对单个 vCenter Server 实例中的多个数据中心的支持。

      本版本支持同一 vCenter Server 实例中的多个数据中心。

    已知问题

    已知问题分为如下类别。

      GPU 问题

      • 不支持虚拟 GPU

        本版本不支持虚拟 GPU。

      • 将多个 GPU 添加到 vSphere Bitfusion 服务器虚拟机后,虚拟机无法启动

        将多个 GPU 添加到 vSphere Bitfusion 服务器虚拟机时,vCenter Server 会多次添加第一个 GPU。因此,虚拟机无法启动。

        解决办法:通过使用 vCenter vApp 选项编辑器,使用唯一值更新其他 GPU 的 PCI 总线 ID。

        1. 导航到 vSphere Bitfusion 服务器的虚拟机。
        2. 配置选项卡上,展开设置,然后选择 vApp 选项
        3. 单击编辑按钮。
        4. PCI 设备下拉菜单中,选择所有其他 GPU 的唯一 ID。
      • vSphere Bitfusion 服务器上使用的 GPU 的总显存大于 128 GB RAM 时,无法使用 GPU 直通

        默认情况下,GPU 直通的高级虚拟机属性 pciPassthru.64bitMMIOSizeGB 设置为 256。如果在单个 vSphere Bitfusion 服务器上使用总显存大于 128 GB RAM 的 GPU,则此配置可能会导致直通失败。

        解决办法:

        1. pciPassthru.64bitMMIOSizeGB 计算正确的值。计算 vSphere Bitfusion 服务器虚拟机使用的 PCI 设备(例如 GPU 和网卡)的数量,将该数值乘以 GPU 大小(以 GB 为单位),然后将该值向上舍入到下一个二次方。例如,要对 2 台 16 GB GPU 设备使用 GPU 直通,请将值向上舍入到 64 (2 * 16 = 32 * 2 = 64)。对于单个 16 GB GPU,请使用值 32。
        2. 修改虚拟机属性。
          1. 导航到虚拟机,选择该虚拟机,然后关闭其电源。
          2. 选择虚拟机后,选择操作 > 编辑设置 > 虚拟机选项 > 高级 > 编辑配置。  
          3. 搜索 pciPassthru 64bitMMIOSizeGB 并设置一个新值。
          4. 打开虚拟机电源。
      • 一个 GPU 可能在 vCenter Server 中出现多次

        一个 NVIDIA T4 GPU 可能在 vCenter Server 中出现多次。

        解决办法:在 ESXi 主机的 BIOS 设置中,启用 SR-IOV 支持。

      • 已从 vSphere Bitfusion 集群中删除的 vSphere Bitfusion 客户端仍然可以请求 GPU

        使用 vSphere Bitfusion 插件删除 vSphere Bitfusion 客户端版本 2.0.2 及更低版本后,该客户端可以继续从 vSphere Bitfusion 服务器请求 GPU。

        解决办法:执行以下任务之一。

        • 在虚拟机终端中,运行以下命令。
          • vmtoolsd --cmd info-set guestinfo.bitfusion.client.accesstoken
          • rm ~/.bitfusion/client.yaml
        • 使用 vSphere Bitfusion 插件吊销客户端的令牌。

      vSphere Bitfusion 服务器问题

      • 如果集群中的某个 vSphere Bitfusion 服务器处于脱机状态,则无法在该集群中添加新的 vSphere Bitfusion 服务器

        如果集群中的一个 vSphere Bitfusion 服务器虚拟机处于脱机状态,则无法将其他服务器添加到该集群。

        解决办法:执行以下任务之一。

        • 使用 vSphere Bitfusion 插件从集群中移除该服务器。
        • 使用 vSphere Client 在服务器虚拟机上设置客户机操作系统环境变量 guestinfo.bitfusion.server.cassandra-removenode
        • 在正在运行的 vSphere Bitfusion 服务器的终端中,运行 Bitfusion removenode 命令。
      • 使用已分配给正在运行的 vSphere Bitfusion 服务器的 GPU 时,无法启动 vSphere Bitfusion 服务器虚拟机

        将 GPU 分配给 Bitfusion 服务器虚拟机时,如果已将同一 GPU 分配给正在运行的 vSphere Bitfusion,则会阻止新服务器虚拟机启动。

      • 更改 vSphere Bitfusion 服务器上的时间可能会导致集群失败

        如果创建集群后服务器时间发生变化或未同步,则集群可能会失败。

        解决办法:  集群中的所有 vSphere Bitfusion 服务器都必须同步为同一时间。同步集群中所有服务器的时间并重新启动。

      • 服务器时间不同可能会导致集群失败

        如果使用 DHCP 设置 vSphere Bitfusion 服务器的 IP 地址,但 DHCP 服务器未提供 NTP 服务器信息,或者手动输入 vSphere Bitfusion 服务器的 IP 地址,由于服务器之间的时间不同,集群可能会失败。所有服务器都必须同步为同一时间。

        解决办法:在服务器的配置中,添加 NTP 服务器的 IP 地址。

      • 无法加入通过将虚拟机克隆到集群进行部署的 vSphere Bitfusion 服务器 

        克隆 vSphere Bitfusion 服务器的虚拟机并删除其他克隆的服务器虚拟机后,可能无法将新克隆的虚拟机加入集群。

      • 克隆 vSphere Bitfusion 服务器虚拟机后,由于缺少必填字段,无法启动新虚拟机

        在 vCenter Server 中的服务器虚拟机的克隆操作过程中,向导中的所有必填字段都未标记为必填字段。因此,虚拟机可能无法启动。

        解决办法:在虚拟机克隆操作过程中,输入以下信息。

        • 主机名
        • vCenter GUID
        • vCenter URL
        • vCenter 用户名
        • vCenter 密码(输入两次)
      • 删除源虚拟机后,无法启动克隆的虚拟机

        vSphere Bitfusion 虚拟机克隆操作完成后,如果在打开克隆的虚拟机电源之前删除源虚拟机,则克隆的虚拟机将无法启动。

        解决办法:打开克隆的虚拟机电源。然后,删除源虚拟机。

      • vSphere Bitfusion 插件将源自 vSphere Bitfusion 客户端的克隆虚拟机的活动标识为源自源虚拟机

        vSphere Bitfusion 客户端虚拟机克隆操作完成后,vSphere Bitfusion 插件将源自源虚拟机和克隆虚拟机的活动标识为仅源自源虚拟机。

        解决办法:在克隆的 vSphere Bitfusion 客户端虚拟机上的 /etc/hostname 中,更改主机名条目。

      其他问题

      • vSphere Bitfusion 集群的还原操作失败

        从备份还原 vSphere Bitfusion 集群后,一个或多个服务器可能无法访问。

        解决办法:重新启动无法访问的服务器上的 vSphere Bitfusion 服务。

        1. 要连接到无法访问的 vSphere Bitfusion 服务器的终端,请运行 ssh customer@$server_ip
        2. 运行 sudo systemctl bitfusion restart
      • 执行第一个 GPU 请求后,vSphere Bitfusion 客户端的 ID 发生更改

        如果启用 2.0.2 及更低版本的客户端虚拟机,则客户端 ID 将显示在 vSphere Bitfusion 插件中。客户端首次请求 GPU 后,该 ID 会发生更改。

      • 无法配置克隆 vSphere Bitfusion 服务器的网络适配器

        vCenter Server 中 vSphere Bitfusion 服务器虚拟机的克隆操作完成后,无法更改其他网络适配器的配置。

        解决办法:执行以下任务之一。

        • 创建原始虚拟机时,启用克隆虚拟机所需的网络接口。
        • 通过使用 vCenter vApp 选项编辑器,更改网络设置的值。
          1. 导航到 vSphere Bitfusion 服务器的虚拟机。
          2. 配置选项卡上,展开设置,然后选择 vApp 选项
          3. 单击编辑按钮。
        • 通过将以下客户机操作系统环境变量设置为 TrueFalse 来替代网络适配器配置。
          • guestinfo.bitfusion.host.net2.configure
          • guestinfo.bitfusion.host.net3.configure
          • guestinfo.bitfusion.host.net4.configure
      • 无法将多个网络接口连接到一个网络

        只能将一个网络接口连接到某特定网络。 

        解决办法:要将 Bitfusion 服务器连接到多个网络,请使用多个网络接口。

      • 不支持 Internet 协议版本 6

        本版本不支持 IPv6。

      check-circle-line exclamation-circle-line close-line
      Scroll to top icon