集群容量仪表板通过提供自定义选项来帮助您以不同方式直观显示信息。使用此仪表板可突出显示需要注意的集群。集群容量仪表板专为容量团队而设计,而不是运维团队。它提供了一个长期的自上而下的视图,使容量团队能够规划老化硬件技术的未来扩展和更新。
设计注意事项
包括争用,因为它直接衡量性能。如果您的集群无法为其现有工作负载提供服务,则不要添加新的工作负载。按照定义,如果集群没有用于新工作负载的空间,则其容量已满。理想情况下,集群必须以 100% 利用率运行,而争用为 0%。在这种情况下,集群的效率很高,并且您的投资得到了充分利用。
利用率是容量的主要计数器,因为它实时反映了资源的实际使用情况。当利用率较高时,由于集群已满,过量置备比率是否远低于目标并不重要。此外,利用率不能很低。
分配是对利用率的补充,并非所有工作负载都是真实的。某些需求可能会突然出现,例如:
- 新置备的虚拟机
- 灾难恢复
- 容量不足的虚拟机
- 自动缩放虚拟机(负载平衡器后面的一组 Web 服务器)
包括回收,因为它可能会影响您的决策,并且浪费可能会很常见。容量可能较低,但如果能够回收大量浪费的资源,则可以推迟购买硬件。
浪费以新颜色显示。深灰色表示由于未使用容量而产生的浪费。低利用率导致的性能问题可能由其他地方的瓶颈造成。
如何使用仪表板
集群容量仪表板是分层的,当您在仪表板中自上而下工作时,可逐渐提供详细信息。
第一层显示两个分布图表。
- 按剩余容量划分的集群和按剩余时间划分的集群(天)条形图基于剩余容量和剩余时间对集群进行汇总。容量不足并不完全意味着时间已用尽。
- 两个条形图可结合使用。理想的情况是剩余容量少,剩余时间多。这表示您的资源经济高效且按预期运行。
第二层显示热图。
- 三个热图分别是剩余时间、剩余容量和虚拟机剩余时间。
- 为方便使用,集群大小保持不变。如果集群大小未标准化,请考虑使用 ESXi 主机数来显示大小差异。
第三层显示一个表,其中附有其他小组件以显示所选集群的详细信息。
- 集群容量列表小组件。如果需要注意任何集群,请选择集群以查看相关详细信息。
- 显示的利用率为三个月,而不是一周。将显示每日平均值,而不是每小时平均值,并且重点关注已消耗的 RAM,而不是处于活动状态的 RAM。
- 预留可能会影响集群的效率。如果集群大小不同,请通过显示相对值为预留数量做补充。
- 将显示虚拟机数量,因为新置备的虚拟机可能尚未处于活动状态。它们通常被误认为闲置,因为它们可能会持续数月未使用。当您看到虚拟机在增加,但需求仍然很低时,这是未来出现潜在需求的迹象。
- 工作负载可能较低,但过量置备比率较高?新置备的虚拟机往往会闲置数周,并突然增加。使用虚拟机计数小组件可查看最近是否有增长。
- 您可以检查其容量不足的原因。原因是出在实际工作负载还是预留上?
注意事项
- 在 ESXi 容量仪表板中添加向下钻取。启动此向下钻取的逻辑位置是集群容量列表小组件。将此小组件链接到目标仪表板中的 ESXi 主机表。
- 如果您有屏幕操作区域,请添加集群大小信息。添加集群大小。从容量角度来看,小型集群的效率较低,这是因为开销较高,并且无法支持较大的虚拟机。
- 峰值定义为所有 ESXi 主机中的最高值。如果峰值高于集群范围的平均值,则表示峰值不平衡,并且是容量不理想的常见原因。您可以添加峰值以补充平均利用率。找出导致不平衡的原因并进行优化。
- 添加峰值来为平均利用率做补充。这使您可以专注于失衡,这是容量欠佳的常见原因。找出失衡的根源,这可能是优化机会。
- 此仪表板不是为延伸集群设计的,因为它需要自己的容量模型。