高可用性 (HA) 确保 NSX Edge 设备提供的服务可用,即使硬件或软件故障导致单个设备不可用。NSX Edge HA 最大限度减少故障切换停机时间,而不是提供零停机时间,因为设备之间的故障切换可能需要重新启动某些服务。

例如,NSX Edge HA 同步有状态防火墙的连接跟踪器或负载平衡器保存的有状态信息。备份所有服务所需的时间不为零。已知的服务重新启动影响示例包括,在 NSX Edge 作为路由器运行时具有动态路由的非零停机时间。

有时,两个 NSX Edge HA 设备无法通信,并单方面决定变为活动状态。这是预期的行为,以便在备用 NSX Edge 不可用时保持活动 NSX Edge 服务的可用性。如果另一个设备仍然存在,在重新建立通信时,两个 NSX Edge HA 设备重新协商活动和备用状态。如果没有完成该协商,并且两个设备在重新建立连接时都宣称处于活动状态,则会观察到意外行为。观察到这种情况(称为脑裂)是由于以下环境条件造成的:

  • 物理网络连接问题,包括网络分区。

  • NSX Edge 上的 CPU 或内存争用。

  • 可能导致至少一个 NSX Edge HA 虚拟机变得不可用的临时存储问题。

    例如,从过度置备的存储中移走虚拟机时,将观察到 NSX Edge HA 稳定性和性能提高。特别是,在较大的通宵备份期间,较大的存储延迟峰值可能会影响 NSX Edge HA 稳定性。

  • 数据包交换涉及的物理或虚拟网络适配器上的拥塞。

除了环境问题以外,在 HA 配置引擎变为错误状态或 HA 守护进程失败时,将会观察到裂脑情况。

有状态高可用性

NSX Edge 设备处于活动状态,辅助设备处于待机状态。NSX Manager 为备用设备复制主设备的配置,您也可以手动添加两个设备。VMware 建议您在单独的资源池和数据存储上创建主设备和辅助设备。如果将主设备和辅助设备创建在同一数据存储上,则数据存储必须在群集的所有主机间共享,以便将 HA 设备对部署在不同的 ESX 主机上。如果数据存储为本地存储器,则两个虚拟机均部署在同一主机上。

所有 NSX Edge 服务均在活动设备上运行。主设备会维护备用设备的检测信号,并通过内部接口发送服务更新。

如果未在指定的时间内(默认值为 15 秒)收到主设备的检测信号,则主设备会被声明为已停止运行。备用设备进入活动状态,接管主设备的界面配置,然后启动先前在主设备上运行的 NSX Edge 服务。发生切换时,会在“设置和报告”的系统事件 (System Events)选项卡中显示一个系统事件。 负载平衡器和 VPN 服务需重新建立与 NSX Edge 的 TCP 连接,所以将出现短时间的服务中断。逻辑交换机连接和防火墙会话将在主设备和备用设备之间同步,但在切换过程中等待备用设备变为活动状态并接管相应任务时,服务会中断。

如果 NSX Edge 设备发生故障并报告错误状态,HA 将强制同步发生故障的设备以恢复该设备。恢复后,该设备具备当前活动设备的配置,并保持待机状态。如果 NSX Edge 设备已停止运行,您必须删除该设备,然后添加新设备。

NSX Edge 可确保即使在您使用 DRS 和 vMotion 之后,两个 HA NSX Edge 虚拟机也不在同一个 ESX 主机上(除非以手动方式通过 vMotion 将二者移至同一个主机)。两个虚拟机都在 vCenter 上部署,与您配置的设备处于同一资源池和数据存储中。将为 NSX Edge HA 中的 HA 虚拟机分配本地链路 IP,以便它们能够进行通信。您可以指定用于替代本地链接的管理 IP 地址。

如果配置了 syslog 服务器,则活动设备上的日志将发送到 syslog 服务器。

跨 vCenter NSX 环境中的高可用性

如果您在跨 vCenter NSX 环境中的 NSX Edge 上启用高可用性,则活动和备用 NSX Edge 设备必须位于同一个 vCenter Server 中。如果您将 NSX Edge HA 对的其中一个成员迁移到其他 vCenter Server 系统中,则两个 HA 设备将不再作为 HA 对运行,而且您可能会遇到流量中断问题。

vSphere High Availability

NSX Edge HA 与 vSphere HA 兼容。如果运行 NSX Edge 实例的主机停止运行,则 NSX Edge 会在备用主机上重新启动,从而确保 NSX Edge HA 对仍可以再进行一次故障切换。

如果未利用 vSphere HA,则处于活动状态的备用 NSX Edge HA 对在一次故障切换后仍将处于活动状态。但是,如果在还原第二个 HA 对之前再次出现故障切换,则将危及 NSX Edge 的可用性。

有关 vSphere HA 的详细信息,请参见《vSphere 可用性》