虚拟机争用仪表板是虚拟机性能的主仪表板。它专为 VMware 管理员或架构师而设计。它可用于监控和故障排除。确定存在性能问题后,请使用虚拟机利用率仪表板查看争用是否由高利用率导致。
设计注意事项
此仪表板作为标准操作程序 (SOP) 的一部分使用。它是为日常使用而设计的,因此视图设置为显示过去 24 小时的数据。仪表板可为所选数据中心的虚拟机提供性能衡量指标。
要查看所有性能管理仪表板中的常见设计注意事项,请参见性能仪表板。
要了解所选计数器的性能概念及其阈值,请参见性能仪表板
如何使用仪表板
- 从数据中心表中选择一个数据中心。
- 对于较小的环境,请选择 vSphere World 以查看所有数据中心的所有虚拟机。
注: 虚拟机计数也包括已关闭电源的虚拟机。要排除已关闭电源的虚拟机,请修改该小组件并选择正在运行的虚拟机衡量指标。
- 对于较小的环境,请选择 vSphere World 以查看所有数据中心的所有虚拟机。
- 将自动显示两个条形图。
- 将它们一起使用可了解您的 CPU 就绪和内存争用分析。分析集群如何为虚拟机供应资源。对于每个虚拟机,它会选择过去 24 小时内最差的衡量指标。默认情况下,VMware Aria Operations 每 5 分钟收集一次数据,因此这是 288 个数据点中的最高值。收集每个虚拟机的值后,条形图就会将每个虚拟机置于各自的性能段中。段中的阈值考虑最佳做法,因此它们采用颜色编码。
- 对于任何关键环境,IaaS 应能充分满足所有虚拟机的需求。您必须在两个分布图表上看到绿色。出于开发目的,CPU 和内存的少量争用是可容许的。
- 所选数据中心的虚拟机性能。
- 按数据中心进行分析,因为性能问题往往会孤立在单个物理环境中。例如,国家/地区 A 的性能问题通常不会导致国家或地区 B 出现性能问题。
- 表按“KPI 违反列”排序,使您的注意力集中在 IaaS 未充分满足其需求的虚拟机上。
- 此表显示了 Windows 或 Linux 已知的主机名。这是应用程序团队或虚拟机所有者知道的名称,因为他们可能不熟悉虚拟机名称。
- 其余列显示性能计数器。由于目标是主动监控,因此在监控期间,计数器是最差的,而不是平均值。由于此处的操作上下文是性能而不是容量,因此表仅考虑过去 24 小时。建议每天使用,因为任何超过 24 小时的活动都被视为与性能故障排除角度无关。
- 列“KPI 违反”计算任何给定 5 分钟内的 SLA 违反次数。由于虚拟机使用 IaaS 的四个资源(CPU、内存、磁盘和网络),因此计数器的值介于 0 到 4 之间,0 表示理想情况。值 4 表示所有 4 项 IaaS 服务均未交付。无论服务等级如何,都使用相同的阈值,因为这是内部 KPI,而不是外部 SLA。您的内部阈值应更为严格,以便留出反应时间。
- 从表中选择虚拟机。
- 所有运行状况图表都显示该虚拟机的 KPI。
- 运行状况图表显示最后一个值、最低值和峰值。峰值应在阈值范围内。
注意事项
- 此仪表板相应地使用客户机操作系统计数器和虚拟机计数器。这两个层是不同的层,它们分别提供其他层可能无法提供的独特可见性。例如,当 VMkernel 由于必须处理其他操作(例如其他虚拟机、内核中断)而取消调度虚拟机时。客户机操作系统不知道原因。实际上,对于物理内核上运行的特定 vCPU,它会经历冻结时间,并且在再次调度时会经历时间跳跃。
- 客户机操作系统计数器在逻辑上需要 VMware Tools。
- 运行状况图表采用颜色编码。如果设置不适合您的环境,请更改设置。如果不确定要为您的环境设置哪些合适的数字,请配置衡量指标。客户机操作系统性能分析仪表板提供了有关如何分析衡量指标的示例。
- 对于具有一个或两个数据中心的小型环境,请将筛选器从数据中心更改为集群。在列出集群之后,您可以添加集群性能 (%) 衡量指标并按升序排序。这样,需要立即关注的集群将显示在最上面。
- 如果您有屏幕操作区域,请按集群或 ESXi 主机对虚拟机进行分组。这样,您就可以快速查看问题是出在特定集群还是 ESXi 主机中。
- 将默认时间轴从一周更改为一天,并根据需要将其更改为适合您的操作。
- 如果从此仪表板导航到虚拟机利用率仪表板的次数过多,请使用仪表板到仪表板导航功能添加连接。有关更多详细信息,请参见仪表板导航详细信息。