使用客户机操作系统性能分析仪表板了解环境的实际性能。

某些计数器会直接影响 Windows 或 Linux(即在虚拟机中运行的操作系统)的性能。这些 KPI 不在 Hypervisor 的控制范围内。

Linux 和 Windows 等现代操作系统使用内存作为缓存,因为内存比磁盘更快。某些计数器会直接影响 Windows 或 Linux 的性能。这些 KPI 不在 Hypervisor 的控制范围内,这意味着 ESXi VMkernel 无法控制 KPI 值的增加或减少。KPI 可见性还需要使用代理,例如 VMware Tools。因此,它们通常不包括在性能监控中。

由于它们更靠近应用程序,因此了解它们的值并确定可接受的范围至关重要。环境中所有虚拟机之间的这些 KPI 的可接受级别各不相同。通过跨时间分析所有虚拟机的实际性能,您可以确定一个有事实依据的阈值。由于一个月有 8766 个 5 分钟的实例,每月分析 1000 个虚拟机表示您需要分析 880 万个数据点。

设计注意事项

仪表板使用渐进式披露来最大程度地减少信息过载,并确保网页加载速度更快。

在大型环境中,加载数千个虚拟机将延长 VMware Aria Operations 的加载时间。因此,虚拟机按数据中心进行分组。对于小型环境,提供 vSphere World,以便您可以查看环境中的所有虚拟机。

如何使用仪表板

从数据中心列表中选择数据中心。列出 CPU、内存和磁盘的三个表将显示所选数据中心或 vSphere World 中的虚拟机。每个表显示过去一周的最高值(基于五分钟收集周期的 2016 个数据点),因此使用 max 一词作为前缀,例如 Max Page-Out/sec(每秒最大页面调出)或 Max Guest OS Disk Queue(最大客户机操作系统磁盘队列)。

选择任意表中的任意虚拟机。将显示三个折线图。它们显示来自同一虚拟机的数据,以便于建立关联。

  • CPU 表小组件:
    • “最大 CPU 队列”列显示给定时间段内队列中的最大进程数。最佳做法是,将每个队列的数字保持低于 3。具有八个 CPU 的虚拟机具有八个队列,因此应将此数字保持低于 24。
    • CPU 超线程会提供两倍的队列,因为两个线程都散布在核心管道中。
    • CPU 上下文切换。存在与上下文切换关联的成本。此数字没有相关指导,而且差别很大。
  • 内存列表小组件:
    • 在内存分页中,现代操作系统(Linux 和 Windows)使用内存作为缓存,因为内存比磁盘快得多。内存可主动预取页面并预测未来需求(Windows 称之为“超级预取”)。调入和调出页面的速率可以揭示内存性能异常。突然变化(或长期持续的变化)可能指示页面错误。页面错误表示无法轻松获取页面,必须调入页面。如果页面错误发生得太频繁,则可能会影响应用程序的性能。虽然没有具体的指导,因为这因应用程序而异,但您可以查看相对大小。操作系统通常使用 4 KB 或 2 MB 页面大小。
  • 磁盘列表小组件:
    • 磁盘队列是不发送到虚拟机的排队的 IO 命令。它们保留在客户机操作系统中(在内核级别或驱动程序级别)。客户机操作系统中的高磁盘队列(伴随的是虚拟机上具有低 IOPS)可能表示 IO 命令在等待 Windows/Linux 处理时停滞。对于这些 IO 命令阈值没有具体的指导,因为这些命令因应用程序而异。您应在虚拟机层查看此信息和未完成的磁盘 IO。

注意事项

  • 除非满足 vSphere 必备条件,否则不会显示这些客户机操作系统小组件。有关详细信息,请参阅知识库文章 55697
  • 为环境确定可接受的阈值后,请考虑向表中添加阈值,以便轻松查看超过阈值的虚拟机。
  • CPU 队列是所有虚拟 CPU 的总和。较大的虚拟机可容纳较高的队列,因为它具有更多处理器。如果要比较不同大小的虚拟机,请创建一个超级指标,用于计算每个 vCPU 的队列。有关详细信息,请参见 创建超级指标
  • 按相同等级(例如金牌)的集群对虚拟机进行分组,以便查看每个环境的配置文件。
  • 对于较小的环境,请考虑将表从列出数据中心更改为列出集群。