当其中一个 NSX Controller 节点出现故障时,仍会有两个控制器在工作。此时群集的大多数节点保持工作,并且控制层面仍继续正常工作。

问题

NSX Controller 群集出现故障。

解决方案

  1. 登录到 vSphere Web Client
  2. 导航到网络和安全 (Networking & Security) > 安装和升级 (Installation and Upgrade) > 管理 (Management) > NSX Controller 节点 (NSX Controller Nodes)
  3. 对于每个节点,查看“对等”列。如果“对等”列显示绿色框,则表示群集中的对等控制器连接没有出现错误。红色框表示对等控制器连接出现错误。请单击该框以查看详细信息。
  4. 如果“对等”列显示控制器群集出现问题,请登录到每个 NSX Controller CLI 以执行详细诊断。请运行 show control-cluster status 命令以诊断每个控制器的状态。群集中的所有控制器必须具有相同的群集 UUID,但群集 UUID 可能与主控制器的 UUID 不同。您可以按照NSX Controller 部署问题中所述查找有关部署问题的信息。
  5. 在重新部署控制器节点或控制器群集之前,您可以尝试使用以下步骤来解决问题:
    1. 检查是否打开了控制器电源。
    2. 尝试在受影响的控制器与其他节点和管理器之间执行 ping 操作以检查网络路径。如果发现任何网络问题,请按照NSX Controller 部署问题中所述解决这些问题。
    3. 使用以下 CLI 命令检查 Internet 协议安全 (IPSec) 状态。
      • 使用 show control-cluster network ipsec status 命令验证是否启用了 IPSec。
      • 使用 show control-cluster network ipsec tunnels 命令验证 IPSec 隧道的状态。
      也可以使用 IPSec 状态信息向 VMware 技术支持人员提交凭单。
    4. 管理控制器群集的 IPSec VPN 共享密钥:

      控制器节点会相互通信,以便执行群集和存储操作。该通信受 IPSec VPN 的保护。在为控制器群集启用 IPSec VPN 后,会生成一个用于 IPSec 的共享密钥。如果密钥不同步,或者您遇到怀疑密钥泄露的场景,则必须轮换预共享密钥。

      • 要更改 IPSec VPN 密钥,请禁用 IPSec VPN 后再立即启用它。它会生成一个新密钥,然后将该密钥推送到所有控制器。

      有关启用和禁用 IPSec VPN 的详细信息,请参见 NSX 管理指南

    5. 如果该问题不是网络问题,您可以选择是重新引导还是重新部署。

    如果要重新引导节点,请确保每次只重新引导一个控制器。不过,如果控制器群集处于某种状态,其中的多个控制器节点发生故障,请同时重新引导所有这些节点。在重新引导正常运行的群集中的节点时,请始终确认随后正确重建了该群集,然后确认已正确完成群集重新分片。

  6. 如果决定重新部署控制器,请使用以下两种方法之一:
    • 方法 1:删除已损坏的控制器节点并重新部署新的控制器节点。
    • 方法 2:删除控制器群集并重新部署新的控制器群集。

      VMware 建议采用第二种方法。

后续步骤