可使用“故障排除”选项卡确定警示建议或简单分析不能解决的问题的根本原因。

开始之前

可使用“分析”选项卡分析环境。请参见分析环境状态

关于此任务

要对群集和主机系统出现的容量问题的症状进行进一步故障排除,并确定出现这些问题的时间,可使用“故障排除”选项卡继续调查内存问题。

过程

  1. 单击环境 > vSphere 主机和群集 > USA-Cluster
  2. 单击故障排除选项卡,然后查看症状。

    症状选项卡将显示所选群集上触发的症状。您会发现存在多种严重症状。

    • 已提交项目的群集计算资源剩余时间非常少

    • 群集计算资源剩余时间非常少

    • 剩余容量非常少

  3. 分析严重症状。
    1. 将鼠标悬停在各个严重症状上方以确定所用衡量指标。
    2. 要仅查看影响群集的症状,请在快速筛选器文本框中输入群集

      将鼠标悬停在Cluster Compute Resource Time Remaining is critically low的上方时,将显示衡量指标 Badge|Time Remaining with committed projects (%)。您将发现其值小于或等于零,这会导致容量症状在 USA-Cluster 上触发并生成警示。

  4. 单击时间轴选项卡可查看一段时间内在 USA-Cluster 上触发的症状、警示和发生的事件,并确定出现问题的时间。
    1. 在工具栏上,单击选择事件类型
    2. 单击日期控件,然后选择过去 7 天

      多个事件显示为红色。

    3. 将鼠标悬停在各个事件上方可查看详细信息。
    4. 要显示群集的数据中心上发生的事件,请单击显示祖先事件,然后选择数据中心

      数据中心的警告事件将显示为黄色。

    5. 将鼠标悬停在警告事件的上方。

      您将发现密度开始变低,并且当晚晚些时候数据中心发生了硬阈值违反。硬阈值违反显示,Badge|Density 衡量指标值低于可接受值 25,并且该违反行为是值 14.89 触发的。

    6. 要查看受影响的子对象,请单击显示后代事件,然后选择主机系统
  5. 单击事件选项卡可检查 USA-Cluster 上出现的变化,并确定出现的变化是否是群集出现警示或其他问题的根本原因。
    1. 在工具栏上,单击各标志并查看发生的事件。

      “工作负载”标志可显示群集上发生的事件的图形。该图中的各点将显示若干个红色的三角形。对群集工作负载的事件进行故障排除

    2. 将鼠标悬停在各个红色三角形的上方。

      通过查看该图可确定某一重复发生的事件是否导致了错误。每一事件都表明客户机文件系统的磁盘空间不足。显示受影响的对象将显示在图下方的窗格中。

    3. 单击各个红色三角形可确定受影响的对象并在下面的窗格中对其进行突出显示。
  6. 单击所有衡量指标选项卡可根据对象在环境拓扑中所处位置进行评估,以确定问题的可能原因。
    1. 在上视图中,选择 USA-Cluster
    2. 在衡量指标窗格中,展开标志并双击 Badge|Capacity Remaining (%)

      Badge|Capacity Remaining (%) 计算已添加到右下窗格中。

    3. 在衡量指标窗格中,双击密度
    4. 在衡量指标窗格中,双击工作负载
    5. 在工具栏中,单击日期控件,然后选择过去 7 天

      衡量指标图表表明,群集的容量在上周保持稳定水平,但是群集密度在过去几天上升到了其最大值。Badge|Workload (%) 计算可显示与密度问题对应的工作负载极端情况。

结果

您已分析了与群集上的问题相关的症状、时间轴、事件和衡量指标,并确定过去几天群集上过重的工作负载导致群集密度下降,这一情况说明群集开始出现容量不足。

下一步做什么

检查“详细信息”视图和热图以解读属性、衡量指标和警示,查找对象的资源所出现的趋势和峰值、对象之间的资源分布以及数据图,从而检查对象之间各种资源类型的使用情况。