Elastic DRS 算法的工作原理

Elastic DRS 算法可监控集群中的资源利用率随时间变化的趋势。该算法会根据利用率高峰和随机情况生成扩大或缩小集群的建议，并生成警示。通过在集群中置备新主机或从集群中移除主机，可以立即处理此警示。

该算法每 5 分钟运行一次，并使用以下参数：

算法应纵向扩展或纵向缩减到的最大主机数和最小主机数。
CPU、内存和存储利用率阈值，以便针对成本或性能优化主机分配。这些阈值（在管理 SDDC 集群中的弹性页面上列出）是为每种 DRS 策略类型预定义的，用户无法更改。

扩大建议

当 CPU、内存或存储利用率其中任一项始终高于阈值时，会生成扩大建议。例如，如果存储利用率超过上限阈值，但内存和 CPU 利用率始终低于其相应阈值，则会生成扩大建议。将发布一个 vCenter Server 事件，指明集群上扩大操作的开始时间、完成时间或失败情况。

缩小建议

当 CPU、内存或存储利用率全都始终低于阈值时，会生成缩小建议。如果集群中的主机数达到指定的最小值，则不按照缩小建议执行操作。将发布一个 vCenter Server 事件，指明集群上缩小操作的开始时间、完成时间或失败情况。

注：

每当减少集群大小时，存储延迟都会因主机移除产生的进程开销而增加。此开销的持续时间随涉及的数据量而异。可能只需要 1 个小时，但极端情况下也可能会超过 48 小时。减小集群大小（缩小）时，受影响集群支持的工作负载虚拟机的存储延迟可能会显著增加。

扩展延伸集群

当 Elastic DRS 针对延伸（多个可用区）集群生成横向缩减或横向扩展事件时，将在两个可用区中移除或添加主机。

如果主机在任何延伸集群中出现故障，Elastic DRS 会尝试在其原始可用区中替换该主机。如果由于全部或部分可用区故障而无法执行此操作，Elastic DRS 将在剩余的可用区中横向扩展集群。它会在剩余的可用区中添加非计费主机，直到集群达到其原始主机计数。此横向扩展工作流取决于可用容量，无法保证执行。恢复出现故障的可用区后， Elastic DRS将缩小集群以移除额外的主机，从而保持原始主机计数。

有关 Elastic DRS 如何处理缩放和区域故障情形的详细信息，请参见 VMware Cloud 技术区文章 VMware Cloud on AWS：延伸集群。

两个建议之间的时间延迟

该算法包括一项安全检查，可避免处理频繁生成的事件以及让集群有时间适应上一个事件处理后发生的变化。将在两个事件之间强制执行以下时间间隔：

两个连续扩大事件之间存在 30 分钟延迟。
扩大集群后会延迟 3 小时处理缩小事件。

与其他操作建议的交互

以下操作可与 Elastic DRS 建议交互：

用户启动的添加或移除主机操作。
通常情况下，您不需要在启用 Elastic DRS 的集群中手动添加或移除主机。您仍可以执行这些操作，但 Elastic DRS 建议可能会在某个时刻将其恢复。

如果用户启动的添加或移除主机操作正在执行，将忽略 Elastic DRS 算法给出的当前建议。用户启动的操作完成后，该算法可能会根据资源利用率和当前选定策略的更改建议缩小或扩大操作。

如果在应用 Elastic DRS 建议时启动添加或移除主机的操作，则此添加或移除主机的操作会失败，并显示并发更新异常错误。
计划维护操作
计划维护操作意味着某个特定主机需要更换为新主机。计划维护操作正在执行时，会忽略 Elastic DRS 算法给出的当前建议。计划维护完成后，该算法会再次运行，并应用新建议。如果在对集群应用 Elastic DRS 建议时在此集群上启动计划维护事件，则此计划维护任务将排队。Elastic DRS 建议任务完成后，计划维护任务启动。
自动修复
在自动修复期间，故障主机将更换为新主机，并且其主机标记将应用于更换主机。自动修复正在执行时，会忽略 Elastic DRS 算法给出的当前建议。自动修复完成后，该算法会再次运行，并应用新建议。如果在对集群应用 Elastic DRS 建议时为此集群启动自动修复事件，则此自动修复任务将排队。Elastic DRS 建议任务完成后，自动修复任务启动。
SDDC 维护时段
如果 SDDC 正在进行维护或计划在未来 6 小时后进行计划维护，则会忽略 EDRS 建议。