需要更多 GPU 资源时,可以向 vSphere Bitfusion 集群中添加更多服务器。

vSphere Bitfusion 服务器启动后, vSphere Bitfusion 将在 vCenter Server 中注册 vSphere Bitfusion 插件,从而形成一个 vSphere Bitfusion 集群,其中包含一个 vSphere Bitfusion 服务器。注册 vSphere Bitfusion 插件后,可以按照此过程中的步骤添加后续服务器。该 vSphere Bitfusion 插件使用主服务器的配置数据,因此可以加快后续服务器的部署。

或者,您也可以按照主服务器的部署过程在 vSphere Bitfusion 集群中添加新服务器。您可以在虚拟机 (VM) 上部署 vSphere Bitfusion 设备,自定义 vSphere Bitfusion OVF 模板,将 GPU 传递到 vSphere Bitfusion 服务器虚拟机,以及将虚拟机启用为 vSphere Bitfusion 服务器。

添加的 vSphere Bitfusion 服务器必须与第一个 vSphere Bitfusion 服务器属于同一个 vCenter Server 实例。

前提条件

  • 确认已安装主 vSphere Bitfusion 服务器。
  • 确认 vSphere Bitfusion 已注册到 vCenter Server 服务器。

过程

  1. vCenter Server主机和集群视图中,右键单击 ESXi 主机,然后选择 Bitfusion > 安装 Bitfusion 服务器
    此时将出现 安装 Bitfusion 服务器对话框。
  2. 选择 OVA 映像页面上,输入 vSphere Bitfusion OVA 文件的 URL 或浏览到该文件,然后单击下一步
  3. 验证模板详细信息页面上,查看 OVA 模板详细信息,然后单击下一步
  4. 选择名称和主机名页面上,输入虚拟机名称和 vSphere Bitfusion 服务器的主机名,然后单击下一步
    (可选)您可以指定 vSphere Bitfusion 服务器的主机 ID,例如,在升级 vSphere Bitfusion 服务器时。如果跳过此步骤,将自动生成并分配主机 ID。
  5. 选择存储页面上,定义在哪里以及如何存储已部署虚拟机的文件,然后单击下一步
  6. 选择网络页面上,指定网络适配器 1 的网络配置,然后单击下一步
    必须指定用于管理和数据流量的网络适配器 1 的配置。网络适配器 1 必须连接到与 vCenter Server 实例通信的网络。
    如果您的 vSphere Bitfusion 服务器需要其他网络适配器处理数据流量,可以单击 添加网络适配器并指定其他适配器的网络配置。
    选项 描述
    网络适配器 从下拉菜单中选择一个网络。
    适配器类型 选择要分配给虚拟机的网络适配器。
    注: vSphere Bitfusion 支持 VMXNET3 和 PVRDMA 适配器。
    DHCP/固定 IP 指定由 DHCP 服务器分配网络适配器的地址,还是使用固定 IPv4 地址。
    IPv4 地址 输入网络适配器的 IPv4 地址。如果使用 DHCP,请将此文本框留空。
    注: IPv6 不受支持。
    网络掩码 从下拉菜单中选择网络掩码。

    例如,如果您的网络使用网络掩码 /24,请选择 24 (255.255.255.0)

    网关 输入要用于设备的网络网关地址。如果使用 DHCP,请将此文本框留空。
    MTU 输入 MTU 大小。默认值为 1500。为获得最佳性能,请将 MTU 大小指定为网络硬件支持的最大 MTU 大小。
    注: 如果将 MTU 大小设置为大于 1500,请确认数据中心的网络交换机是否已启用巨型帧。
    DNS 服务器 输入要用于设备的 DNS 服务器地址。如果使用 DHCP,请将此文本框留空。
    DNS 搜索域 输入要用于设备的 DNS 搜索域地址。如果使用 DHCP,请将此文本框留空。
    NTP 输入要用于设备的 NTP 服务器地址。如果您使用的是 DHCP,并且 DHCP 服务器支持发送 NTP 服务器信息,请将此文本框留空。
  7. 选择 GPU 页面上,将 GPU 添加到后续服务器,然后单击下一步
    1. 单击添加 GPU
    2. GPU 设备下拉菜单中选择一个 GPU。
    3. (可选) 指定 GPU 的总内存。
      vSphere Bitfusion 插件使用在 选择 GPU 页面上添加的所有 GPU 的总 GPU 内存计算 vSphere Bitfusion 服务器虚拟机的最小内存值和建议的内存映射 I/O 大小值。
    4. (可选) 要接受 NVIDIA 许可证,请选中下载并安装 NVIDIA 驱动程序复选框。
      通过接受 NVIDIA 许可证, vSphere Bitfusion 会在首次引导虚拟机期间下载并安装 NVIDIA 驱动程序、CUDA 库和 NVIDIA Fabric Manager。
      注: 如果在无法访问 Internet 的环境(例如,使用气隙网络)中运行 vSphere Bitfusion,请不要选中该复选框。必须在部署 vSphere Bitfusion 设备后手动下载并安装 NVIDIA 软件。
    如果您的 vSphere Bitfusion 服务器需要额外的 GPU,您可以再次单击 添加 GPU 设备并指定 GPU 的设置。
  8. 自定义服务器页面上,指定 vSphere Bitfusion 服务器详细信息,然后单击下一步
    1. 指定虚拟机的 CPU 数量。
    2. 指定虚拟机的内存映射 I/O (MMIO) 大小(以 GB 为单位)。
    3. (可选) 输入客户帐户的密码。
      部署完成后,使用客户用户帐户通过控制台 shell 或 SSH 登录到 vSphere Bitfusion 服务器。如果跳过此步骤,您无法登录到后续服务器。
    4. (可选) 选中创建后打开虚拟机电源复选框。
      如果在打开虚拟机电源之前对其进行更改,可以取消选中该复选框。
  9. 摘要页面上,查看部署详细信息,然后单击完成

结果

用于安装 vSphere Bitfusion 服务器的新任务将显示在“近期任务”窗格中。该任务完成后,会在所选资源上创建新设备。

当新的 vSphere Bitfusion 服务器加入集群时, vCenter Server 将提供令牌、证书和配置以访问 vSphere Bitfusion 集群。