使用“故障排除”选项卡可确定系统无法通过警示建议或简单分析解决的问题的根本原因。
要对集群和主机系统出现的容量问题的症状进行故障排除,并确定出现这些问题的时间,可使用“故障排除”选项卡调查内存问题。
过程
- 在菜单中,单击环境,然后在左侧窗格中单击 vSphere 主机和集群并选择对象。例如,USA-Cluster。
- 单击警示选项卡,然后查看症状。
症状选项卡将显示所选集群上触发的症状。您会发现存在多种严重症状。
- 已提交项目的集群计算资源剩余时间非常少
- 集群计算资源剩余时间非常少
- 剩余容量非常少
- 调查严重症状。
- 指向每个严重症状以确定使用的衡量指标。
- 要仅查看影响集群的症状,请在快速筛选器文本框中输入集群。
当您指向
Cluster Compute Resource Time Remaining is critically low
时,衡量指标
Capacity|Time Remaining
就会显示。您将发现其值小于或等于零,这会导致容量症状在 USA-Cluster 上触发并生成警示。
- 单击事件 > 时间轴选项卡可查看一段时间内在 USA-Cluster 上触发的症状、警示和发生的事件,并确定出现问题的时间。
- 单击日历,然后选择过去 7 天作为范围。
多个事件显示为红色。
- 指向各个事件可查看详细信息。
- 要显示集群的数据中心上发生的事件,请单击显示来源,然后选择数据中心。
数据中心的警告事件将显示为黄色。
- 指向警告事件。
您将发现当晚晚些时候数据中心发生了硬阈值冲突。硬阈值冲突显示,“标志|工作负载”衡量指标值低于可接受值,并触发该冲突。
- 要查看受影响的子对象,请单击显示来源,然后选择主机系统。
- 单击事件选项卡可检查 USA-Cluster 上出现的变化,并确定出现的变化是否是集群出现警示或其他问题的根本原因。
- 查看图形。
通过查看该图可确定某一重复发生的事件是否导致了错误。每一事件都表明客户机文件系统的磁盘空间不足。受影响的对象将显示在图下方的窗格中。
- 单击各个红色三角形可确定受影响的对象并在该窗格中使其突出显示。
- 单击容量选项卡来评估容量和剩余时间的详细信息。
- 单击所有衡量指标选项卡可根据对象在环境拓扑中所处位置进行评估,以确定问题的可能原因。
- 在上视图中,选择 USA-Cluster。
- 在衡量指标窗格中,展开,然后双击剩余容量 (%)。
“剩余容量 (%)”计算将显示在右侧窗格中。
- 在衡量指标窗格中,展开,然后双击工作负载 (%)。“工作负载 (%)”计算将显示在右侧窗格中。
- 在工具栏中,单击日期控件,然后选择过去 7 天。
衡量指标图表表明,集群的容量在上周保持稳定水平,但“标志|工作负载 (%)”计算显示工作负载极端情况。
结果
您已分析了与集群上的问题相关的症状、时间轴、事件和衡量指标。通过分析,您确定集群上的工作负载过重导致集群开始出现容量不足。
下一步做什么
检查“详细信息”视图和热图以解读属性、衡量指标和警示。此外,查找对象的资源所出现的趋势和峰值、对象之间的资源分布以及数据图。您可以检查对象之间各种对象类型的使用情况。
检查“详细信息”视图和热图以解读属性、衡量指标和警示。此外,查找对象的资源所出现的趋势和峰值、对象之间的资源分布以及数据图。您可以检查对象之间各种对象类型的使用情况。请参见检查环境详细信息。