VMware 管理员将集群利用率仪表板与集群争用仪表板结合使用,以进行性能管理。

设计注意事项

此仪表板支持集群争用仪表板。使用它可确定所选数据中心中具有高利用率的 vSphere 集群。当利用率超过 100% 时,性能可能会受到负面影响,尤其是在虚拟机遇到争用时。默认情况下,VMware Aria Operations 的收集时间间隔为 5 分钟。五分钟可能有 300 秒的数据点。如果有几秒钟出现峰值,而 300 秒内的剩余时间使用率较低,则可能看不到该峰值。

要查看所有性能管理仪表板中的常见设计注意事项,请参见性能仪表板

如何使用仪表板

  • CPU (%) 和内存 (%)。
    • 有关集群的 CPU 和内存利用率的概览,请查看 CPU 和内存分布图表。
    • 使用最近一周内的最高衡量指标。不使用平均值或第 95 百分位,因为这是利用率而不是争用。高利用率并不意味着性能不佳。
    • 将使用一周(而不是一天)并涵盖周末,为您提供更长的时间范围。根据您的运营情况调整时间轴。
    • 内存应高于 CPU,因为它是一种缓存形式。将使用“已消耗内存”计数器,因为它更适合“活动内存”计数器。
    • 低利用率实际上可能表示性能不佳,因为实际工作很少完成。图表使用深灰色表示低利用率。
  • 集群利用率。
    • 集群利用率表列出了所有集群,并按过去一周的最高利用率排序。如果表显示绿色,则无需进一步分析。
    • 您可以将时间段更改为您感兴趣的时间段。将相应地反映最大数量。
  • 从表中选择集群。
    • 所有利用率图表都显示所选集群的关键利用率衡量指标。
    • 对于内存,将明确显示高利用率计数器:“膨胀”、“已压缩”和“已交换”。请注意,即使利用率不是 90% 也是如此,表明过去压力较高。如果仅查看利用率,您可能会认为您是安全的。
    • 折线图显示集群中的 ESXi 主机的平均值和最高值。原因是不均衡,这种情况并不少见。有很多设置对其有影响,例如 DRS 设置、虚拟机预留、虚拟机 - 主机关联性、资源池、延伸集群和大型虚拟机。
    • 磁盘 IOPS 拆分为读取和写入,以深入了解行为。某些工作负载以读取为导向,而其他工作负载则以写入为导向。
    • 磁盘吞吐量不会显示,因为它会对所有流量求和。实际上,每个 ESXi 主机都有自己的限制。
    • 将添加 vMotion 折线图,因为如果 DRS 自动化级别未设置为最敏感的设置,则大量 vMotion 可以指示集群负载不稳定。

注意事项

  • 如果您的运维团队对利用率不应超过特定阈值实施某种形式的标准化,则可以将阈值添加到折线图中。阈值线有助于减少技术团队的工作,因为他们可以看到实际值与阈值的比较。
  • 请考虑添加第三个分发图表。在此第三个图表中显示膨胀计数器,因为它是对已消耗计数器的补充。如果没有膨胀,则高消耗值实际上优于较低的值。
  • 工作负载衡量指标可超过 100%,因为它是需求/可用容量 * 100。如果一个集群中有四台主机,每台主机以 100% 的需求运行,并且准入控制设置为 50%,则会出现这种情况。
  • 虚拟机利用率仪表板是对虚拟机争用仪表板的补充。有关详细信息,请参见 “集群争用”仪表板 中的注意事项。