使用虚拟机可用性仪表板计算客户机操作系统的可用性。将计算客户机操作系统的可用性,因为即使虚拟机已打开电源,客户机操作系统也可能没有运行。可用性有两层,即使用者层和提供者层。此仪表板涵盖使用者层。您可以查看所选数据中心中的虚拟机、所选集群的正常运行时间趋势等。

设计注意事项

虚拟机可用性仪表板可帮助您检查虚拟机的可用性(正常运行时间百分比),因为可用性通常是 IaaS 提供商提供的服务的一部分。

此仪表板不会检查应用程序正常运行时间,因为在底层 Windows 或 Linux 启动时,应用程序(如数据库或 Web 服务器)会关闭。通常,IaaS 团队提供的服务仅适用于 Windows 或 Linux。有关应用程序的信息,请使用网络 ping 或特定于应用程序的代理,例如应用程序监控。

如何使用仪表板

  • 数据中心小组件中,单击列表中的任意数据中心。
    • 要查看整体信息,请单击 vSphere World 对象。
    • 单击任意数据中心后,将自动更新其他小组件。
    • 创建一个筛选器,以反映此小组件的服务等级。按服务等级(如金级、银级和铜级)进行分组,并将所选内容默认设置为金级。这样,监控不会混乱,因为关键工作负载较少,您可以将精力集中在重要虚拟机上。您可以通过为每个服务等级创建 VMware Aria Operations 自定义组来实现此目的。
  • 过去 30 天内按正常运行时间划分的虚拟机小组件显示按可用性分组的虚拟机的平均正常运行时间。段分布可帮助您满足大量环境的需要。如果只监控正常运行时间预计始终接近 100% 的生产虚拟机,请编辑该段以满足您的操作需求。
    • 所选数据中心小组件中的虚拟机显示当前部署到数据中心的所有虚拟机。显示上个月的平均正常运行时间。对于生产虚拟机,此数字预期为 100% 或接近 100%。
      注: 除非激活服务发现,并且在特定虚拟机上发现了服务/进程,否则“服务”列将为空。
    • “虚拟机”列包括所有虚拟机,包括已关闭电源的虚拟机。
  • 单击过去 30 天内按正常运行时间划分的虚拟机小组件中的任意虚拟机,以在处于已打开电源状态的所选虚拟机所选虚拟机正常运行时间趋势所选集群正常运行时间趋势小组件中查看该虚拟机的详细信息。
    • 所选虚拟机正常运行时间趋势小组件显示过去 30 天内所选虚拟机的客户机工具正常运行时间 (%)。
  • 客户机操作系统:服务小组件显示一段时间内的服务状态以及客户机操作系统中运行的进程或服务。如果在虚拟机中发现了客户机操作系统服务或进程,则会分析其可用性。这需要服务发现。
  • 运行虚拟机的 ESXi 主机小组件显示虚拟机的历史迁移。这对于确定虚拟机停机的原因非常有用。

注意事项

  • 衡量指标仅跟踪 VMware Tools 的可用性,而不是整个客户机操作系统的可用性。如果 VMware Tools 未启动,则会假定客户机操作系统已关闭。您可以通过添加几个显示活动证据的折线图来检查这是否为漏报。可靠的计数器包括磁盘 IOPS、磁盘吞吐量和网络传输吞吐量等 IO 计数器,因为 IO 需要 CPU 处理。CPU 使用情况不是可靠的计数器,因为虚拟机上的 VMkernel 的工作按 CPU 计数器计费。
  • VMware Aria Operations 展示了一个新的 ping 适配器。这样,您就可以通过创建添加 ping 信息的超级指标或使用代理检查进程(如应用程序监控)来提高正常运行时间测量的准确性。
  • 添加一个列出所选虚拟机属性的属性小组件,以提供有关虚拟机的更多上下文。在大型环境中,虚拟机名称本身可能无法提供足够的上下文。