高级自动修复功能可监控硬件和软件故障,并会自动尝试通过修复问题或更换硬件来修复问题。如果无法修复,自动修复过程会请求 SRE 进行手动干预。

发生事件时 Autoscaler 按顺序处理的功能:

  1. 监控 - VMC 平台持续监控设备群中每个 SDDC 和每个主机的系统运行状况。检测到故障时,事件将发送到自动修复功能。
    • 监控硬件和软件故障
    • 检测到故障时自动置备硬件
    • 尽可能自动修复故障
    • SRE 在自动解析不可用时手动干预
  2. 等待暂时性事件 - 检测到的一些故障可能是暂时性的。例如,由于临时连接问题,监控系统无法连接到主机。自动修复会等待 5 分钟以确定问题是否是暂时性的。问题解决后,自动修复将返回,但不执行任何操作。
  3. 添加主机 - 如果 5 分钟后错误未解决,则自动修复会开始将主机添加到 SDDC,即使您不知道该主机是否是必需的。现在添加主机可确保该主机在需要的时候可用。请注意,在更换 SDDC 中出现故障的主机之前,不会对此主机进行计费。
  4. 确定故障类型并采取措施 - 主机可能会由于各种原因出现故障,并需要执行不同的操作。例如,仍然连接到 vCenter Server 的主机上的 vSAN 磁盘故障可以通过软重启进行修复,而 PSOD 主机需要硬重启。这其中的自动修复逻辑十分复杂且不断演变,但您可以查看错误并采取干扰性最小的操作。自动修复是一个内部过程,客户无法访问逻辑。如果遇到任何问题,请联系 VMware 技术支持。
  5. 检查主机运行状况 - 下一步是检查修复操作是否修复了主机。如果故障主机在软重启或硬重启后正常运行,则自动修复可避免进一步中断 SDDC。它会收集并采取任何其他必要操作,并移除在步骤 2 中预先添加的新主机。
  6. 更换主机 - 如果无法恢复出现故障的主机,则 Autoscaler 将移除出现故障的主机,并将其替换为在步骤 2 添加的主机。在此阶段,Autoscaler 将移除出现故障的主机,并将其替换为在步骤 2 添加的主机。将触发 vSphere HA 和 vSAN,计算策略标记将连接到新主机。