使用客户机操作系统性能分析仪表板了解环境的实际性能。
某些计数器会直接影响 Windows 或 Linux(即在虚拟机中运行的操作系统)的性能。这些 KPI 不在 Hypervisor 的控制范围内。
Linux 和 Windows 等现代操作系统使用内存作为缓存,因为内存比磁盘更快。某些计数器会直接影响 Windows 或 Linux 的性能。这些 KPI 不在 Hypervisor 的控制范围内,这意味着 ESXi VMkernel 无法控制 KPI 值的增加或减少。KPI 可见性还需要使用代理,例如 VMware Tools。因此,它们通常不包括在性能监控中。
由于它们更靠近应用程序,因此了解它们的值并确定可接受的范围至关重要。环境中所有虚拟机之间的这些 KPI 的可接受级别各不相同。通过跨时间分析所有虚拟机的实际性能,您可以确定一个有事实依据的阈值。由于一个月有 8766 个 5 分钟的实例,每月分析 1000 个虚拟机表示您需要分析 880 万个数据点。
设计注意事项
仪表板使用渐进式披露来最大程度地减少信息过载,并确保网页加载速度更快。
在大型环境中,加载数千个虚拟机将延长 VMware Aria Operations 的加载时间。因此,虚拟机按数据中心进行分组。对于小型环境,提供 vSphere World,以便您可以查看环境中的所有虚拟机。
如何使用仪表板
从数据中心列表中选择数据中心。列出 CPU、内存和磁盘的三个表将显示所选数据中心或 vSphere World 中的虚拟机。每个表显示过去一周的最高值(基于五分钟收集周期的 2016 个数据点),因此使用 max 一词作为前缀,例如 Max Page-Out/sec(每秒最大页面调出)或 Max Guest OS Disk Queue(最大客户机操作系统磁盘队列)。
选择任意表中的任意虚拟机。将显示三个折线图。它们显示来自同一虚拟机的数据,以便于建立关联。
- CPU 表小组件:
- “最大 CPU 队列”列显示给定时间段内队列中的最大进程数。最佳做法是,将每个队列的数字保持低于 3。具有八个 CPU 的虚拟机具有八个队列,因此应将此数字保持低于 24。
- CPU 超线程会提供两倍的队列,因为两个线程都散布在核心管道中。
- CPU 上下文切换。存在与上下文切换关联的成本。此数字没有相关指导,而且差别很大。
- 内存列表小组件:
- 在内存分页中,现代操作系统(Linux 和 Windows)使用内存作为缓存,因为内存比磁盘快得多。内存可主动预取页面并预测未来需求(Windows 称之为“超级预取”)。调入和调出页面的速率可以揭示内存性能异常。突然变化(或长期持续的变化)可能指示页面错误。页面错误表示无法轻松获取页面,必须调入页面。如果页面错误发生得太频繁,则可能会影响应用程序的性能。虽然没有具体的指导,因为这因应用程序而异,但您可以查看相对大小。操作系统通常使用 4 KB 或 2 MB 页面大小。
- 磁盘列表小组件:
- 磁盘队列是不发送到虚拟机的排队的 IO 命令。它们保留在客户机操作系统中(在内核级别或驱动程序级别)。客户机操作系统中的高磁盘队列(伴随的是虚拟机上具有低 IOPS)可能表示 IO 命令在等待 Windows/Linux 处理时停滞。对于这些 IO 命令阈值没有具体的指导,因为这些命令因应用程序而异。您应在虚拟机层查看此信息和未完成的磁盘 IO。