VMware vSphere® High Availability 集群的首选主机负责检测辅助主机的故障。根据检测到的故障类型,在主机上运行的虚拟机可能需要进行故障切换。

在 vSphere HA 集群中,检测三种类型的主机故障:

  • 故障。主机停止运行。
  • 隔离。主机出现网络隔离。
  • 分区。主机失去与首选主机的网络连接。

首选主机监控集群中辅助主机的活跃度。此通信通过每秒交换一次网络检测信号来进行。当首选主机停止从辅助主机接收这些检测信号时,它会在声明该主机出现故障之前检查主机活跃度。首选主机执行的活跃度检查用于确定辅助主机是否正在与其中一个数据存储交换检测信号。请参见数据存储检测信号。此外,首选主机还检查主机是否对发送至其管理 IP 地址的 ICMP ping 进行响应。

如果首选主机无法直接与辅助主机上的代理通信,则辅助主机不会响应 ICMP ping。如果代理未发出检测信号,则被视为出现故障。会在备用主机上重新启动主机的虚拟机。如果此类辅助主机正在与数据存储交换检测信号,首选主机会认为辅助主机在网络分区上或已与网络隔离。因此,首选主机会继续监控该主机及其虚拟机。请参见网络分区

当主机仍在运行但无法再监视来自管理网络上 vSphere HA 代理的流量时,会发生主机网络隔离。如果主机停止监视此流量,则它会尝试 ping 集群隔离地址。如果此 ping 也失败,主机会声明它已与网络隔离。

首选主机会监控隔离主机上正在运行的虚拟机。如果首选主机观察到虚拟机已关闭电源,且首选主机负责虚拟机,则会重新启动虚拟机。

注: 如果您确保网络基础架构具有足够的冗余度且至少有一个网络路径始终可用,则不太可能发生主机网络隔离。

Proactive HA 故障

当主机组件发生故障时,即发生了 Proactive HA 故障,这会导致冗余丢失或非灾难性故障。但是,主机上的虚拟机的功能行为不会受到影响。例如,如果主机出现电源故障,但是其他电源可用,则属于 Proactive HA 故障。

发生 Proactive HA 故障时,可在 vSphere Client 的“vSphere 可用性”部分自动执行修复操作。受影响主机上的虚拟机可以撤出到其他主机,并将该主机置于隔离模式或维护模式。

注: 您的集群必须使用 vSphere DRS,以便 Proactive HA 故障监控正常工作。