了解自动修复

VMware Cloud on AWS Autoscaler 服务可监控 SDDC 基础架构的运行状况，检测早期故障和实际故障，并通过在故障发生之前或之后更换主机来自动修复基础架构。

AWS 基础架构安全可靠，但即使在最可靠的基础架构中也难免出现故障。AWS 架构框架可靠性支柱讨论了云可靠性的设计原则。VMware Cloud on AWS 对底层基础架构进行了抽象化并利用 vCenter Server 和 ESXi 的预测性故障分析功能，扩展了这些原则，可在发生故障时提供响应式修复，并提供可防止故障影响工作负载的预测性修复。

大多数自动修复过程都在后台执行，并且在不影响现有工作负载的情况下执行。自动修复可监控系统的运行状况，并在必要时快速地将硬件添加到 SDDC，从而在发生故障或检测到运行状况问题时将新主机插入到集群中，并将工作负载虚拟机从已发生故障或即将发生故障的硬件中撤出。此外，由于所有 VMware Cloud on AWS SDDC 都使用 VMware vSAN 和 vSphere HA，因此受主机故障影响的工作负载会自动重新放置并重新启动。

注：您无需为用于自动修复或计划内维护的额外主机付费。

自动修复高级架构

自动修复架构包括由 AWS 和 VMware 提供的组件。

AWS 向 VMware 发送主机级别信息，特别是 AWS 计划内维护事件。Autoscaler 服务接收这些通知，并自动修复 SDDC 中的所有问题。
SDDC 级别的监控服务从底层 VMware Cloud on AWS 组件接收通知。

有关详细信息，请参见 VMware Cloud 技术区文章功能简介：自动修复。

Autoscaler 服务从 SDDC 监控服务和 AWS 接收消息，并在 SDDC 上执行相应的修复操作。

响应式修复

响应式自动修复可监控硬件故障和软件故障，并尝试通过多种方式修复问题。自动修复是一个内部过程，并且不断发展。VMware Cloud on AWS 用户无权访问工作流或其配置，但为了帮助您更好地了解该工作流，下面简要概述了当前涉及的步骤。

1：监控: VMware Cloud on AWS 持续监控 SDDC 中每个主机的运行状况。检测到故障时，事件将发送到自动修复功能。
2：等待暂时性事件: 某些检测到的故障可能是暂时的。例如，由于临时的连接问题，监控系统无法访问主机。自动修复会等待五分钟，以确定问题是否是暂时性的。如果是，自动修复将返回而不执行任何操作。
3：添加主机: 如果错误在五分钟后未解决，自动修复会开始向 SDDC 添加主机。以这种方式预先添加主机可确保主机在需要时可用。请注意，在更换 SDDC 中出现故障的主机之前，不会对此主机进行计费。
4：确定故障类型并执行操作: 主机可能会由于各种不同的原因而发生故障，因此需要执行不同的操作。例如，仍然连接到 vCenter Server 的主机上的 vSAN 磁盘故障可以通过软重启进行修复，而 PSOD 主机需要硬重启。
5：检查主机运行状况: 下一步是检查修复操作是否修复了主机。如果故障主机在软重启或硬重启后正常运行，则自动修复可避免进一步中断 SDDC。它会收集并采取任何其他必要操作，并移除在步骤 3 中预先添加的新主机。
6：更换主机: 如果无法恢复出现故障的主机，则 Autoscaler 将移除出现故障的主机，并将其更换为在步骤 3 中添加的主机。将触发 vSphere HA 和 vSAN，计算策略标记将连接到新主机。

抢先式修复

除了响应式修复外，Autoscaler 还会监控多个独立源，以尝试在故障出现之前发现故障。如果该服务确定主机可能会遇到硬件故障，则会触发无中断抢先式计划内维护事件。在计划内维护完成之前，主机仍可能会出现故障，但通过预先启动主机更换，可以最大限度地降低影响。在计划内维护期间：

向集群添加新主机。将标记从要更换的主机复制到此新主机。
将故障主机置于维护模式并撤出全部数据。这会将任何虚拟机和/或 vSAN 数据无中断地移至集群内的其他主机。
从集群中移除故障主机。

Autoscaler 事件

当 Autoscaler 服务收到故障事件时，它会确定故障类型，然后执行相应的操作。SDDC 活动日志包括所有 Autoscaler 活动，但不显示触发相关活动的故障事件。

vCenter Server 事件

触发以检查主机连接状态的事件
当 ESXi 主机断开连接或无响应时，将触发事件。

DAS 事件

vSphere HA 事件：在未与主节点通信或 HA 关闭时创建事件。(FDM)
当主机关闭时，HA 系统将报告主机故障。

vSAN 个事件

主机上出现磁盘故障时。
vSAN 主机断开连接时。

EDRS 事件（非故障）

升级：禁用 EDRS。维护活动通常需要额外主机，此主机将添加为维护事件的一部分。EDRS 在任何计划内维护期间均处于禁用状态，以防止这些活动触发缩小/扩大事件。

AWS 事件

计划内维护事件。来自 AWS 的通知，指出检测到实例运行状况问题，应撤出该实例。
Personal Health Dashboard (PHD)。一个事件流，有助于了解各种硬件组件并有助于 VMware 预先发现硬件故障。
系统状态检查。监控实例所依赖的 AWS 系统的运行状况。此检查报告只有 AWS 才能修复的问题。在许多情况下，这些问题是暂时性的，无需执行任何操作。
实例状态检查。监控每个实例的软件和网络配置。此检查通过定期向网卡发出 ARP 请求来监控实例的可用性。除了报告 EC2 层的实例可用性之外，实例状态检查还会监控底层硬件利用率，并报告网络连接问题、内存耗尽、文件系统损坏和内核错误等。与系统状态检查不同，实例状态检查需要 VMware 交互才能解决。

SDDC 事件

vCenter Server 主机运行状况。