vSphere HA 群集的首选主机负责检测从属主机的故障。根据检测到的故障类型,在主机上运行的虚拟机可能需要进行故障切换。

在 vSphere HA 群集中,检测三种类型的主机故障:

  • 故障 - 主机停止运行。

  • 隔离 - 主机与网络隔离。

  • 分区 - 主机失去与首选主机的网络连接。

首选主机监控群集中从属主机的活跃度。此通信通过每秒交换一次网络检测信号来完成。当首选主机停止从从属主机接收这些检测信号时,它会在声明该主机已出现故障之前检查主机活跃度。首选主机执行的活跃度检查是要确定从属主机是否在与数据存储之一交换检测信号。请参见数据存储检测信号。而且,首选主机还检查主机是否对发送至其管理 IP 地址的 ICMP ping 进行响应。

如果首选主机无法直接与从属主机上的代理进行通信,则该从属主机不会对 ICMP ping 进行响应,并且该代理不会发出被视为已出现故障的检测信号。会在备用主机上重新启动主机的虚拟机。如果此类从属主机与数据存储交换检测信号,则首选主机会假定它处于某个网络分区或隔离网络中,因此会继续监控该主机及其虚拟机。请参见网络分区

当主机仍在运行但无法再监视来自管理网络上 vSphere HA 代理的流量时,会发生主机网络隔离。如果主机停止监视此流量,则它会尝试 ping 群集隔离地址。如果仍然失败,主机将声明自己已与网络隔离。

首选主机监控在独立主机上运行的虚拟机,如果发现虚拟机的电源已关闭,而且该首选主机负责这些虚拟机,则会重新启动这些虚拟机。

注:

如果您确保网络基础结构具有足够的冗余度且至少有一个网络路径始终可用,则主机网络隔离应该在极少数情况下才出现。