数据存储无法访问时,VMCP 可能不会终止并重新启动受影响的虚拟机。
问题
出现“全部路径异常 (APD)”或“永久设备丢失 (PDL)”故障,并且数据存储无法访问时,VMCP 可能无法解决受影响的虚拟机出现的问题。
原因
出现 APD 或 PDL 故障时,VMCP 可能不终止虚拟机,原因如下:
- 出现故障时虚拟机不受 vSphere HA 保护。
- 虚拟机已禁用 VMCP 模式。
而且,如果故障为 APD,VMCP 可能会因以下多种原因不终止虚拟机:
- 在终止虚拟机之前更正了 APD 故障。
- 与虚拟机兼容的主机上的容量不足
- 网络分区或隔离期间,受 APD 故障影响的主机无法查询首选主机的可用容量。在这种情况下,如果“虚拟机组件保护”设置为激进设置,vSphere HA 将遵从用户策略并终止虚拟机。
- vSphere HA 仅在以下超时到期后终止受 APD 影响的虚拟机:
- APD 超时(默认为 140 秒)。
- APD 故障切换滞后(默认为 180 秒)。要快速恢复,可以将此超时设置为 0。
注: 根据上述默认值,vSphere HA 将在 320 秒(APD 超时 + APD 故障切换滞后)后终止虚拟机
解决方案
要解决此问题,请检查并调整以下任意一项内容:
- 容量不足,无法重新启动虚拟机
- 用户配置的超时和滞后
- 影响虚拟机终止的用户设置
- “虚拟机组件保护”策略
- 必须启用主机监控或虚拟机重新启动优先级