要在 vSphere Bitfusion 服务器上执行故障排除或维护,必须从 vSphere Bitfusion 集群中移除该服务器。

在关闭 vSphere Bitfusion 服务器以进行维护或执行故障排除时,vSphere Bitfusion 集群的运行状况会发生变化。当集群运行状态不正常时,您无法添加 vSphere Bitfusion 服务器或执行集群备份操作。如果已有一半或更多服务器关闭,集群将无法运行。如果服务器要关闭较长一段时间,可以通过从集群中移除服务器来防止任何潜在风险。

执行以下过程可立即从 vSphere Bitfusion 集群中移除服务器。任何使用 GPU 的正在运行的应用程序都会立即发生 GPU 故障,并且通常会返回错误状况。

前提条件

  • 可在服务器设置进行配置,以防止新的客户端连接到特定服务器。
  • 确认服务器上没有正在运行的应用程序。

过程

  1. vSphere Client 中,选择菜单 (vSphere Client 菜单图标) > Bitfusion
  2. 服务器选项卡上,从列表中选择一个服务器。
  3. 操作下拉菜单中,选择删除
  4. 在确认对话框中,单击删除
    vSphere Bitfusion 服务器不再列在 服务器选项卡上,但删除操作可能需要长达 10 分钟甚至更长时间。在此期间,将更新 Apache Cassandra 数据库。
  5. 验证删除操作是否已完成。
    1. 打开终端应用程序,然后运行 ssh customer@ip_address,其中 ip_address 是活动 vSphere Bitfusion 服务器的 IP 地址。
      可以从 vSphere Bitfusion 插件获取 vSphere Bitfusion 服务器 IP 地址。
    2. 运行 nodetool status 命令。
    3. 如果已删除的 vSphere Bitfusion 服务器仍显示在服务器列表中,请再次运行 nodetool status 命令,直到命令输出不显示已删除的服务器。
  6. (可选) 删除服务器虚拟机 (VM)。
    意外打开已移除虚拟机的电源可能会导致 vSphere Bitfusion 插件和集群信息被覆盖。

结果

您已从 vSphere Bitfusion 集群中删除所选的服务器。

下一步做什么

要重用虚拟机或底层硬件,可以执行以下任务之一。
  • 如果从集群中删除了服务器而未删除虚拟机,请删除虚拟机上的 /etc/bitfusion/bitfusion-manager.yaml 配置文件,将虚拟机作为 vSphere Bitfusion 服务器重新激活,重新启动 vSphere Bitfusion 服务,然后打开虚拟机电源。有关详细信息,请参见《安装 VMware vSphere Bitfusion》如何启动和停止 vSphere Bitfusion 服务中的“激活 vSphere Bitfusion 客户端”
  • 如果删除了服务器虚拟机,则可以通过创建一个虚拟机并部署 vSphere Bitfusion 服务器设备来将底层硬件重用为 vSphere Bitfusion 服务器。请参见如何安装后续 vSphere Bitfusion 服务器