更新时间:2021 年 4 月 6 日

VMware vSphere Bitfusion 3.0.1 | 2021 年 4 月 6 日 | 内部版本 4

多个修复。请参见“已解决的问题:vSphere Bitfusion 3.0.1”

VMware vSphere Bitfusion 3.0 | 2021 年 3 月 11 日 | 内部版本 11

发行说明内容

本发行说明包含以下主题。

关于 vSphere Bitfusion

VMware vSphere Bitfusion 共享图形处理单元 (GPU) 等加速器以提供共享网络可访问资源池,从而支持资源密集型人工智能 (AI) 和机器学习 (ML) 工作负载。vSphere Bitfusion 可在 AI 框架、云站点、网络以及虚拟机、容器和笔记本等环境中运行。

vSphere Bitfusion 3.0 的新增功能

  • 为后续 vSphere Bitfusion 服务器提供全新的安装体验
  • 改进了对具有多个网络的 vSphere Bitfusion 服务器的支持
  • 在 vSphere Bitfusion 客户端上透明地安装 nvidia-smi 应用程序
  • NVIDIA 驱动程序 460
  • NVIDIA CUDA 11.1
  • 支持 TensorFlow 2.4
  • 支持 PyTorch 1.6
  • 支持 TensorRT 7.1.3
  • 支持 PaddlePaddle 2.0

系统要求

有关 vSphere Bitfusion 客户端和服务器的系统要求列表,请参见《vSphere Bitfusion 安装指南》

兼容性和互操作性

有关与 vSphere Bitfusion 兼容的版本、型号和产品的列表,请参见 VMware vSphere Bitfusion 兼容性和互操作性页面。

开源组件

有关适用于 vSphere Bitfusion 3.0 中分发的开源软件组件的版权声明和许可证,请访问 http://www.vmware.com。可以下载任何 GPL、LGPL 或者其他类似许可证的源文件,这些许可证要求源代码或对源代码进行的修改适用于 vSphere Bitfusion 的最新可用版本。

已解决的问题

已解决的问题分为以下几组。

vSphere Bitfusion 3.0.1
  • 使用 vSphere Bitfusion 插件安装后续服务器时,主网络只能是标准网络

    本版本已修复该问题。主网络可以是具有 VMXNET3 或 PVRDMA 适配器的分布式端口组。

  • CUDA 11.1 示例测试可能会导致 cuModuleGetGlobal_v2 模块失败

    本版本已修复该问题。

VMware vSphere Bitfusion 3.0
  • vSphere Bitfusion 服务器不响应 ping 请求

    本版本已修复该问题。

VMware vSphere Bitfusion 2.5.1
  • 支持包包含更多信息

    此版本包含支持包中的其他日志。

  • 如果在 ESXi 主机上部署了 vSphere Bitfusion 服务器,则无法提取主机配置文件

    本版本已修复该问题。

  • vSphere Bitfusion 无法验证 NTP 服务器配置

    本版本包含运行状况检查以验证是否已正确配置 NTP 服务器。

  • NTP 配置问题可能会导致 vSphere Bitfusion 服务器时钟不同步

    vSphere Bitfusion 服务器设备的默认 NTP 配置包含可解决此问题的改进。

  • 如果网络接口连接到不同的网络,vSphere Bitfusion 将无法为数据流量和管理流量使用单独的网络接口

    本版本已修复该问题。有两个新的客户机变量,您可以将其设置为使用所需的网络接口。您可以使用 guestinfo.bitfusion.server.web-ifaceguestinfo.bitfusion.server.mgmt-iface 变量将数据流量和管理流量分配给网络接口。

  • 在客户密码中输入特殊字符时,vSphere Bitfusion 服务器部署会失败

    本版本已修复该问题。

已知问题

已知问题分为如下类别。

GPU 问题
  • 不支持虚拟 GPU

    此版本不支持 NVIDIA 虚拟 GPU 软件和 NVIDIA GRID 虚拟 GPU 技术。

  • 部署后续 vSphere Bitfusion 服务器时,无法指定 GPU 内存

    使用 vSphere Bitfusion 插件安装后续服务器时,在选择 GPU 页面上指定 GPU 总内存对 vSphere Bitfusion 服务器中已部署的虚拟机不起作用。

  • 将多个 GPU 添加到 vSphere Bitfusion 服务器虚拟机后,虚拟机无法启动

    将多个 GPU 添加到 vSphere Bitfusion 服务器虚拟机时,vCenter Server 会多次添加第一个 GPU。因此,虚拟机无法启动。

    解决办法:使用唯一值更新其他 GPU 的 PCI 总线的 ID。

    1. 在 vSphere Client 中,右键单击清单中的 vSphere Bitfusion 虚拟机,然后选择编辑设置
    2. 从每个 PCI 设备下拉菜单中,选择 GPU 的唯一 ID。
  • vSphere Bitfusion 服务器上使用的 GPU 的总内存大于 128 GB 时,无法使用 GPU 直通

    默认情况下,GPU 直通的高级虚拟机属性 pciPassthru.64bitMMIOSizeGB 设置为 256。如果在单个 vSphere Bitfusion 服务器上使用总内存大于 128 GB 的 GPU,则此配置可能会导致直通失败。

    解决办法:

    1. pciPassthru.64bitMMIOSizeGB 计算正确的值。计算 vSphere Bitfusion 服务器虚拟机使用的 PCI 设备(例如 GPU 和网卡)的数量,将该数值乘以 GPU 大小(以 GB 为单位),然后将该值向上舍入到下一个二次方。例如,要对 2 台 16 GB GPU 设备使用 GPU 直通,请将值向上舍入到 64 (2 * 16 = 32 * 2 = 64)。对于单个 16 GB GPU,请使用值 32。
    2. 修改虚拟机属性。
      1. 导航到虚拟机,选择该虚拟机,然后关闭其电源。
      2. 选择虚拟机后,选择操作 > 编辑设置 > 虚拟机选项 > 高级 > 编辑配置。  
      3. 搜索 pciPassthru 64bitMMIOSizeGB 并设置一个新值。
      4. 打开虚拟机电源。
  • 一个 GPU 可能在 vCenter Server 中出现多次

    一个 NVIDIA T4 GPU 可能在 vCenter Server 中出现多次。

    解决办法:在 ESXi 主机的 BIOS 设置中,启用 SR-IOV 支持。

  • 已从 vSphere Bitfusion 集群中删除的 vSphere Bitfusion 客户端仍然可以请求 GPU

    使用 vSphere Bitfusion 插件删除 vSphere Bitfusion 客户端版本 2.0.2 及更低版本后,该客户端可以继续从 vSphere Bitfusion 服务器请求 GPU。

    解决办法:执行以下任务之一。

    • 如果使用 vSphere Bitfusion 插件启用客户端,请在 vSphere Bitfusion 客户端的虚拟机终端中运行以下命令。
      • vmtoolsd --cmd 'info-set guestinfo.bitfusion.client.accesstoken'​
      • rm ~/.bitfusion/client.yaml
    • 如果生成授权令牌以启用客户端,请使用 vSphere Bitfusion 插件撤销客户端的令牌。
  • 使用已分配给正在运行的 vSphere Bitfusion 服务器的 GPU 时,无法启动 vSphere Bitfusion 服务器虚拟机

    将 GPU 分配给 Bitfusion 服务器虚拟机时,如果已将同一 GPU 分配给正在运行的 vSphere Bitfusion 服务器,则会阻止新服务器虚拟机启动。您可以将一个 GPU 直通到另一个 vSphere Bitfusion 服务器。

vSphere Bitfusion 服务器问题
  • 更改 vSphere Bitfusion 服务器上的时间可能会导致集群失败

    如果创建集群后服务器时间发生变化或未同步,则集群可能会失败。

    解决办法:  集群中的所有 vSphere Bitfusion 服务器都必须同步为同一时间。同步集群中所有服务器的时间并重新启动。

  • 服务器时间不同可能会导致集群失败

    如果使用 DHCP 设置 vSphere Bitfusion 服务器的 IP 地址,但 DHCP 服务器未提供 NTP 服务器信息,或者手动输入 vSphere Bitfusion 服务器的 IP 地址,由于服务器之间的时间不同,集群可能会失败。所有服务器都必须同步为同一时间。

    解决办法:在服务器的配置中,添加 NTP 服务器的 IP 地址。

  • 无法加入通过将虚拟机克隆到集群进行部署的 vSphere Bitfusion 服务器 

    克隆 vSphere Bitfusion 服务器的虚拟机并删除其他克隆的服务器虚拟机后,可能无法将新克隆的虚拟机加入集群。

  • 如果集群中的某个 vSphere Bitfusion 服务器处于脱机状态,则无法在该集群中添加新的 vSphere Bitfusion 服务器

    如果集群中的一个 vSphere Bitfusion 服务器虚拟机处于脱机状态,则无法将其他服务器添加到该集群。

    解决办法:执行以下任务之一。

    • 使用 vSphere Bitfusion 插件从集群中移除该服务器。
    • 使用 vSphere Client 在服务器虚拟机上设置客户机操作系统环境变量 guestinfo.bitfusion.server.cassandra-removenode
    • 在正在运行的 vSphere Bitfusion 服务器的终端中,运行 Bitfusion removenode 命令。
  • 克隆 vSphere Bitfusion 服务器虚拟机或安装后续 vSphere Bitfusion 服务器后,由于所需字段缺失或不完整,新虚拟机无法启动

    在 vCenter Server 中的服务器虚拟机的克隆操作过程中,向导中的所有必填字段都未标记为必填字段。在 vCenter Server 中后续 vSphere Bitfusion 服务器的安装操作过程中,可能会错误地指定字段。因此,虚拟机可能无法启动。

    解决办法:执行以下任务之一。

    • 在克隆或安装操作过程中,确认已正确指定所有字段。
    • 克隆或安装操作完成后,使用 vCenter vApp 选项编辑器更改字段的值。有关所有属性的列表,请参见 vSphere Bitfusion vApp 属性
      1. 导航到 vSphere Bitfusion 服务器的虚拟机。
      2. 配置选项卡上,展开设置,然后选择 vApp 选项
      3. 从列表中选择一个属性,然后单击设置值按钮。
  • 删除源虚拟机后,无法启动克隆的虚拟机

    vSphere Bitfusion 虚拟机克隆操作完成后,如果在打开克隆的虚拟机电源之前删除源虚拟机,则克隆的虚拟机将无法启动。

    解决办法:打开克隆的虚拟机电源。然后,删除源虚拟机。

  • vSphere Bitfusion 插件将源自 vSphere Bitfusion 客户端的克隆虚拟机的活动标识为源自源虚拟机

    vSphere Bitfusion 客户端虚拟机克隆操作完成后,vSphere Bitfusion 插件将源自源虚拟机和克隆虚拟机的活动标识为仅源自源虚拟机。

    解决办法:在克隆的 vSphere Bitfusion 客户端虚拟机上的 /etc/hostname 中,更改主机名条目。

网络连接问题
  • 后续 vSphere Bitfusion 服务器的安装过程可能会失败 

    在部署后续 vSphere Bitfusion 服务器时,主 vSphere Bitfusion 服务器会使用 HTTPS API 连接到后续 ESXi 主机。如果 vSphere Bitfusion 服务器的管理网络接口和 ESXi 主机的 vmx0 接口使用大小为 9000 字节的 MTU,但您的网络不支持这两个接口之间的此 MTU 大小,则 HTTPS 连接可能会中止,并且安装过程可能会失败。

    解决办法:

    1. 确定两个接口之间支持的最大 MTU 大小。
      1. 要连接到 vSphere Bitfusion 服务器的终端,请运行 ssh customer@$server_ip
      2. 运行以下 shell 脚本。
        • target_host=(ESXi 主机 IP 或 DNS 名称)
          size=1272

          while ping -s $size -M do -c1 $target_host >&/dev/nulldo
              ((size+=4));
          done

          echo "Max MTU size: $((size-4+28))
    2. 将 ESXi 主机 vmx0 接口的 MTU 大小值更改为两个接口之间支持的最大 MTU 大小。
  • 无法配置克隆 vSphere Bitfusion 服务器的网络适配器

    在 vCenter Server 中的 vSphere Bitfusion 服务器虚拟机的克隆操作过程中,无法更改其他网络适配器的配置。

    解决办法:执行以下任务之一。

    • 创建原始虚拟机时,启用克隆虚拟机所需的网络接口。
    • 通过使用 vCenter vApp 选项编辑器,更改网络设置的值。有关所有属性的列表,请参见 vSphere Bitfusion vApp 属性
      1. 导航到 vSphere Bitfusion 服务器的虚拟机。
      2. 配置选项卡上,展开设置,然后选择 vApp 选项
      3. 从列表中选择一个属性,然后单击设置值按钮。
  • 无法将多个网络接口连接到一个网络

    只能将一个网络接口连接到某特定网络。 

    解决办法:要将 Bitfusion 服务器连接到多个网络,请使用多个网络接口。

  • 不支持 Internet 协议版本 6

    本版本不支持 IPv6。

其他问题
  • vSphere Bitfusion 集群的还原操作失败

    从备份还原 vSphere Bitfusion 集群后,您可能会遇到数据丢失问题,并且无法更改 vSphere Bitfusion 插件中的全局设置。

    解决办法:按顺序重新启动所有 vSphere Bitfusion 服务器,重新启动每个服务器后等待 60 秒。

  • 如果没有快速上载网络,从本地计算机中选择 OVA 文件可能会失败

    使用 vSphere Bitfusion 插件安装后续服务器时,如果没有快速上载网络,从本地计算机中选择 OVA 文件可能会失败。通常,大多数浏览器的超时限制为 5 分钟,vSphere Bitfusion OVA 文件大小约为 740 MB。 

    解决办法:从 URL 选择 OVA 文件。

  • 无法下载指定时间段的 vSphere Bitfusion 监控数据

    在 vSphere Bitfusion 插件的选项卡上单击下载 CSV 按钮时,将忽略指定的时间段,并且下载的文件包含 2 天的数据。

  • 执行第一个 GPU 请求后,vSphere Bitfusion 客户端的 ID 发生更改

    如果启用 2.0.2 及更低版本的客户端虚拟机,则客户端 ID 将显示在 vSphere Bitfusion 插件中。客户端首次请求 GPU 后,该 ID 会发生更改。

check-circle-line exclamation-circle-line close-line
Scroll to top icon