Diagnostics for VMware Cloud Foundation 是一个集中式平台,用于监控 VMware Cloud Foundation 软件堆栈的整体运行状态。
它是一个自助平台,可帮助您对 VMware Cloud Foundation 的组件(包括 vCenter、ESXi 和 vSAN)、功能(例如 vSphere vMotion、快照和虚拟机置备)和其他问题(包括安全公告和证书)进行分析和故障排除。作为基础架构管理员,您可以使用诊断发现和自定义仪表板来监控环境的运行状态。内置仪表板是本机 VMware Aria Operations 仪表板的扩展。Diagnostics 将根据重要 VMware 安全公告验证您的环境是否为最新。
通过 Diagnostics,您可以解决与证书相关的问题或漏洞,例如 SSL 证书已过期。
Diagnostics 还在自助流程中为 vCenter 功能(例如 vSphere vMotion)提供相关信息,以帮助您诊断迁移问题。
-
通过主动识别和诊断运行问题,确保平台可用性。
-
保持环境的安全态势。
-
提供内置的已知问题检测、修复指导和支持知识库文章的链接。
-
自助服务可缩短了解问题原因并确定 VMware 软件环境的后续步骤所需的时间。
-
快速识别原因和修复选项,可帮助企业减少业务中断。
- vCenter:vCenter 运行状态:Ping 可访问性
- ESXi 运行状态:来自 vCenter 的连接
- VMware vSAN 运行状态:磁盘组状态、物理磁盘状态
- 一般问题:证书到期
- 工作负载置备(虚拟机):虚拟机置备请求和失败、置备发现和建议以及常规故障排除。
- vSphere vMotion:成功和失败的 vMotion、发现和建议以及常规故障排除。
- 快照:快照故障、发现和建议以及常规故障排除。
Diagnostics for VMware Cloud Foundation 使用交互式卡来显示数据。单击查看详细信息或查看仪表板可了解详细信息。请参见使用 VMware Cloud Foundation 诊断主题。
如果您的环境配置了 VMware Aria Operations 集成,将显示包含内容的诊断卡。要配置 VMware Aria Operations 集成,请按照设置 VMware Cloud Foundation 诊断中的说明进行操作。
VMware Cloud Foundation 诊断的工作原理
Diagnostics for VMware Cloud Foundation 整合了来自 VMware Skyline Advisor 和 VMware Skyline Health Diagnostics 的特征码,并集成了 VMware Aria Operations for Logs 以提供单一窗口用于进行监控和故障排除。Diagnostics 检测到的问题称为发现。Diagnostics 将扫描系统属性和产品日志,并显示您可以采取措施的发现。您可以查看发现,并决定适用于您的 VMware 软件环境的后续步骤。发现与系统运行状态报告(例如连接、服务状态或接口问题)不同。基于属性的发现可告知您可能影响环境的问题。基于日志的发现可告知您某个问题是否已经影响您的系统。Diagnostics 5.2 可使用超过 300 条基于属性和日志的规则。可以在此处查看所有特征码的列表。
在您的环境中遇到问题时,可以在 Diagnostics 中启动日志扫描,该扫描使用现有特征码来检测问题。当特征码与日志文件中的信息匹配时,将显示发现。发现包含有关匹配特征码和修复步骤的信息或知识库文章,可帮助解决问题。
主动发现基于使用 API 来检查系统属性的规则。这些规则每四小时自动运行一次。要检测环境中已发生的问题,可以通过单击刷新发现来启动日志扫描。要运行日志扫描,必须在环境中安装并集成 VMware Aria Operations for Logs。请参见设置 VMware Cloud Foundation 诊断。
VMware Cloud Foundation 诊断的架构图和数据流
要获取管理包的更新,请参见 VMware Aria Operations 发行说明。
如何在“诊断”仪表板中发现数据
Diagnostics 上的自助流程可以从其中一个卡或总体发现开始。故障排除的起点取决于报告或识别问题的方式。您可能会在 Diagnostics 仪表板中看到用于调查和纠正措施的触发器,或者从外部源收到报告,例如最终用户(非基础架构管理员)报告的问题。
有关更多详细信息,请查看 Diagnostics 卡自助流程流程图和 Diagnostics 发现自助流程流程图。
诊断卡自助流程
诊断发现自助流程
诊断规则
基于日志的规则可检测已知问题的实际发生,而基于属性的规则可指明问题存在于内部版本中且可能发生。所有这些规则都与特定的内部版本号相关。根据发现,您可以确定纠正措施是否适用于您的环境,以及应用这些措施的紧迫性。在某些情况下,纠正措施是应用修补程序或升级,这需要进行规划,您不能立即应用建议。Diagnostics 按严重性、组件、类型和功能对发现进行分类,并针对每个发现报告受影响的对象数量,这有助于评估发现的影响以及确定问题的修复优先级。
调查问题时,登录到 vCenter 实例可以帮助您获取更多详细信息,但这不是必需步骤。如果登录到 vCenter 实例无法获取足够的详细信息,则在 Diagnostics 中刷新基于日志的发现可能会提供更多相关数据。如果无法在“诊断发现”页面中确定环境中发生的问题的可能原因,可以参考故障排除指南,其中列出了特定于每个 Diagnostics 卡所反映情况的知识库文章,并提供了解决此类情况的步骤。故障排除指南链接在“工作负载置备”卡、“vMotion”卡和“快照”卡中提供,但包含 Diagnostics 监控的所有组件的故障排除信息。如果问题与 vMotion 失败有关,则可以使用 VMware Aria Operations 中的日志分析功能来检索日志语句。您可以在 vMotion 详细信息页面上查找操作 ID。
日志扫描失败时需执行的操作
如果对 VMware Aria Operations for Logs 实例的日志扫描由于持续时间较长而失败,请参阅此故障排除知识库文章,了解解决办法。