vSAN 争用仪表板是用于管理 vSAN 性能的主仪表板。VMware 管理员或架构师可以使用它来监控 vSAN 集群性能并进行故障排除。如果确定存在性能问题,请使用 vSAN 利用率仪表板查看争用的原因是否为高利用率。

设计注意事项

要查看所有性能管理仪表板中的常见设计注意事项,请参见性能仪表板

vSAN 争用仪表板为 vSphere 集群容量做补充,并具有相同的设计注意事项。它侧重于存储和 vSAN 特定衡量指标,并且不重复已涵盖的内容。它不会列出任何非 vSAN 集群。

如何使用仪表板

  • vSAN 虚拟机延迟峰值、vSAN CPU 就绪峰值、vSAN 虚拟机延迟峰值。
    • 有关所有 vSAN 集群性能的概览,请查看三个分布图表。
    • “vSAN 虚拟机延迟峰值”图表显示集群中所有虚拟机遇到的磁盘延迟的分布情况。大多数虚拟机遇到的延迟应符合预期。例如,在全闪存系统中,虚拟机的磁盘延迟不应超过 20 毫秒。如果您的 vSAN 环境是全闪存,则必须将分布段调整为更严格的设置。
    • “vSAN CPU 就绪峰值”图表显示是否有任何 vSAN 内核模块需要等待 CPU。此数字应接近 0% 且低于 1%,因为 vSAN 不应等待 CPU 时间。与虚拟机环境相比,vSAN 具有更高的优先级,因为它位于内核空间中。
    • “vSAN 丢弃的数据包峰值”显示 vSAN 网络(而非虚拟机网络)中是否有任何 vSAN 集群丢弃数据包。vSAN 依靠网络使集群保持同步。此数字应接近 0% 且小于 1%。
  • vSAN 集群。
    • 它列出了所有 vSAN 集群,按最低性能排序。
    • 它列出了所有 ESXi 主机,按过去 24 小时的最差性能排序。如果整个表都显示绿色,则无需进一步分析。选择 24 小时而不是一周的原因是超过 24 小时的性能问题可能不相关。
    • 您可以将时间段更改为您感兴趣的时间段。将相应地反映最大数量。
  • 从 vSAN 集群表中选择一个 vSAN 集群。
    • 所有运行状况图表都显示所选集群的 KPI。
    • 如果您使用的是 SMART,则仪表板底部的两个热图会提供预警。

注意事项

  • 大型 vSAN 集群可以有多个组件。其中每个组件都可以有多个性能衡量指标。KPI 的总数可达到数百个衡量指标。例如,假设一个集群具有 10 个节点。它可能有 530 个计数器可供检查。VMware Aria Operations 会通过引入一组 KPI 来对它们进行汇总。此分析可将该数字减少到一个更易于管理的数字。下表显示了 KPI 及其公式。
    名称 这是什么
    最大容量磁盘延迟时间(毫秒) 所有容量磁盘中的最高延迟采用最差值,而不是平均值,因为单个容量磁盘的延迟已经是其所有虚拟机的平均值。如果磁盘上有 50 个虚拟机,并且有 30 个虚拟机发出 IO,则平均值为这 30 个虚拟机的平均值。
    最小磁盘组写入缓冲区可用空间 (%) 所有磁盘组写入缓冲区中的最低可用容量。如果此数字较低,则其中一个缓冲区不足。虽然您想要最大限度增加缓存,但数字较低是容量管理的预警。
    最大磁盘组读取缓存/写入缓冲区延迟时间(毫秒) 每个磁盘都有读取缓存读取延迟、读取缓存写入延迟(用于写入到缓存)、写入缓冲区写入延迟和写入缓冲区读取延迟(用于取消注册预备)。这将采用所有这四个数字中的最高值和所有磁盘组的最高值。它是最大值的最大值,因为四个数据点中的每个数据点都是其上所有虚拟机的平均值。
    磁盘组错误总数 总线重置总和 + 所有磁盘组中取消的命令的总和。您必须使用总和,但不能获得最大值,因为每个成员都应返回零。
    磁盘组拥堵总计超过 60 次 超出 60 的磁盘组拥堵数。60 在 vSAN 管理包中进行了硬编码,因为它是一个良好的起点。由于任何超过 60 的拥塞都会发出预警,因此会计算发生此类事件的次数。
    最大磁盘组拥堵值 所有磁盘组中的最高拥堵。数字较高表示至少有一个磁盘组未在工作。
    磁盘组最小可用容量 (%) 所有磁盘组中的最低可用容量。空间不足会触发重新均衡。
    最小磁盘组读取缓存命中率 (%) 磁盘组读取缓存的最低命中率。请确保此数字较高,因为这表示读取操作由缓存提供。
    vSAN 端口组丢包数总和 (%) 所有 vSAN VMkernel 端口接收丢包数与传输丢包数的总和。vSAN 网络中不应丢弃数据包。