本主题介绍 VMware Aria Operations 中不同类型的警示、如何访问这些警示以及如何查看有关这些警示的更多信息。
警示类型
VMware Aria Operations 中的警示有三种类型。警示类型决定着问题的严重性。
- 运行状况警示
- 运行状况警示列表是指配置为影响环境运行状况的所有生成警示,需要立即关注。使用运行状况警示列表对问题进行评估和优先级区分并立即开始解决问题。
- 风险警示
- 风险警示是配置为指示环境中存在风险的所有生成警示。应在近期内解决风险警示,即生成警示的触发症状对环境的运行状况产生负面影响之前。
- 效率警示
- 效率警示列表中的所有已生成警示配置为指示环境中受监控对象存在使用效率问题。应解决效率警示问题,以回收浪费的空间或最大程度改善环境中对象的性能。
访问警示 VMware Aria Operations
所有警示或管理警示页面提供了 VMware Aria Operations 中生成的所有警示的列表。可使用警示列表确定环境状态并着手解决问题。
查找“所有警示”页面的位置
从左侧菜单中,单击
。查找“管理警示”页面的位置
作为管理员,要查看管理警示,可以单击“警示”菜单旁边的警告图标,或在左侧菜单中单击管理警示。仅当您是全局管理员用户或已分配到管理特权时,才能查看管理警示页面。
并单击“所有警示”和“管理警示”页面的工作原理
默认情况下,最初仅列出活动警示,并按时间对警示进行分组。可使用工具栏选项查看和管理列表中的警示。按住 Shift 或 Ctrl 键并单击可选择列表中的多行。
要查看警示详细信息,请单击警示名称。警示详细信息将显示在右侧,包括由警示触发的症状。系统会提供解决警示的建议以及用于运行建议的链接。“运行操作”按钮可能会显示在详细信息中。将鼠标悬停在按钮上,可了解单击按钮时将执行的建议。或者,您可以查看“警示”数据网格中的运行按钮和建议的修复。您可以按照激活“运行”选项的警示进行筛选,然后执行建议的任务,来解决“警示”数据网格中的警示。单击警示列表左下方的小方框,将建议的修复和运行列包含在数据网格中。
单击对其生成警示的对象的名称可查看对象详细信息,并访问与衡量指标和事件相关的其他信息。
如果从早期版本的 VMware Aria Operations 中迁移警示,则这些警示将以已取消状态列出,并且不会提供警示详细信息。
所有警示和管理警示选项
警示选项包含工具栏和数据网格选项。使用工具栏选项可对警示列表进行排序,以及取消、挂起或管理所有权。使用数据网格可查看警示和警示详细信息。
从列表中选择一个警示以激活“操作”菜单:
选项 | 描述 |
---|---|
取消警示 | 取消所选警示。如果将警示列表配置为仅显示活动警示,则取消的警示将从该列表中移除。 不需要解决警示时可将其取消。取消警示不会消除生成该警示的潜在状况。如果警示是由故障和事件症状触发的,取消警示将有效,因为这些症状仅在后续故障或事件在受监控对象上出现时才触发。如果警示是根据衡量指标或属性症状生成的,则仅在进入下一个收集和分析周期之后才取消警示。如果违反值仍存在,则将再次生成警示。 |
删除已取消的警示 | 通过选择一组警示或选择单个警示删除已取消的(非活动)警示。此选项对活动警示停用。 |
挂起 | 将某一警示挂起指定的分钟数。 调查警示期间,如果不希望警示影响所处理对象的运行状况、风险或效率,可挂起警示。如果指定时间过后问题仍存在,警示会重新激活并再次影响对象的运行状况、风险或效率。 挂起警示的用户将成为指定的所有者。 |
分配到 | 将警示分配给用户。您可以搜索特定的用户名,然后单击保存以将警示分配给选定的用户。 |
获取所有权 | 作为当前用户,您将担任该警示的所有者。 您只可以获取警示的所有权,不能分配所有权。 |
释放所有权 | 释放警示的全部所有权。 |
转到警示定义 | 切换到“警示定义”页面,其中显示了先前选择的警示的定义。 |
停用... | 提供了两个用于停用警示的选项:
注: 要激活“停用”选项,请从
分组依据下拉列表中选择
定义,然后单击警示定义组的名称。
|
打开外部应用程序 | 可以在所选对象上运行的操作。 例如,在 vSphere Client 中打开虚拟机。 |
选项 | 描述 |
---|---|
无 | 警示未分类到特定分组中。 |
时间 | 按触发时间对警示进行分组。这是默认选项。您还可以按 1 小时、4 小时、今天和昨天、当前周天数、上周和较早进行分组。 |
严重程度 | 按严重程度对警示进行分组。值包括(从最不重要值开始):信息/警告/紧急/严重。另请参见下表“所有警示数据网格选项”中的“严重程度”。 |
定义 | 按定义对警示进行分组,即将类似警示分组在一起。 |
对象类型 | 按触发警示的对象的类型对警示进行分组。例如,将主机上的警示分组在一起。 |
范围 | 按范围对警示进行分组。您可以在所选范围内搜索警示。 |
快速筛选器 | 描述 |
---|---|
筛选选项 | 将警示列表限制为与您所选择的筛选器匹配的警示。 例如,您可能已在“分组依据”菜单中选择“时间”选项。现在,您可以在“快速筛选器”菜单中选择“状态”->“活动”,“所有警示”/“管理警示”页面将仅显示活动警示,并按其触发时间进行排序。 |
选项(有关更多筛选器定义,另请参见“分组依据”和“所有警示数据网格”表) | |
警示 ID | 为警示指定的 ID。 |
警示 | 生成警示的警示定义的名称。 |
所有者 | 警示所属的操作员的名称。 |
影响 | 受警示影响的警示标志。受影响标志、运行状况、风险或效率表示已标识问题的紧急程度级别。 |
警示子类型 | 有关在所选对象上触发的警示类型的其他信息。这有助于按“警示类型”以外的详细级别对警示进行分类,以便可以将某些类型的警示分配给特定的系统管理员。例如,可用性、性能、容量、合规性和配置。 |
状态 | 警示的当前状态。 可能的值包括“活动”或“已取消”。 |
严重程度 | 警示在您环境中的重要性级别。 该级别基于警示定义创建时指定的级别,或者是最高症状严重程度(如果指定的级别为基于症状)。
可能的值包括:
|
触发时间 | 将鼠标悬停在对象名称上方时,工具提示中显示的为其生成警示的对象名称和对象类型。 单击对象名称可以查看对象详细信息选项卡,在这些选项卡中可以开始调查该对象出现的任何其他问题。 |
控制状况 |
用户与警示的交互状态。可能的值包括:
|
对象类型 | 在上面生成了警示的对象类型。 |
创建于 | 生成警示的日期和时间。 |
更新时间 | 上次修改警示的日期和时间。
只要出现以下更改之一就会更新警示:
|
取消时间 |
出于以下原因之一取消警示的日期和时间:
|
操作 | 选择是,根据已激活运行选项的警示进行筛选。选择否,根据已停用运行选项的警示进行筛选。 |
警示数据网格提供了所生成的警示列表,助您解决环境中的问题。每个列标题中的箭头可按升序或降序对列表进行排序。
选项 | 描述 |
---|---|
严重程度 | 严重程度是警示在您的环境中的重要性级别。 该级别基于警示定义创建时指定的级别,或者是最高症状严重程度(如果指定的级别为基于症状)。
可能的值包括:
|
警示 | 生成警示的警示定义的名称。 单击警示名称可在右侧显示警示详细信息。 |
触发时间 | 将鼠标悬停在对象名称上方时,工具提示中显示的为其生成警示的对象名称和对象类型。 单击对象名称可以查看对象详细信息选项卡,在这些选项卡中可以开始调查该对象出现的任何其他问题。 |
创建于 | 生成警示的日期和时间。 |
状态 | 警示的当前状态。 可能的值包括“活动”或“已取消”。 |
警示类型 | 描述针对所选对象触发的警示的类型,可帮助您对警示进行分类,以便将某些类型的警示分配给特定系统管理员。例如,应用程序、虚拟化/Hypervisor、硬件、存储、网络、管理和发现。 |
警示子类型 | 描述针对所选对象触发的警示类型的其他信息,与警示类型相比,该子类型可帮助您对警示进行更加细致的分类,以便将某些类型的警示分配给特定系统管理员。例如,可用性、性能、容量、合规性和配置。 |
重要性 | 显示警示的优先级。警示的重要性级别是使用智能排名算法确定的。 |
建议的修复 | 显示建议,帮助解决警示。 |
操作 | 单击此按钮,执行建议以解决警示问题。 |
查看警示信息
单击所有警示列表中的某个警示时,警示信息将显示在右侧。请查看警示信息以查看触发警示的症状、修复基本问题的建议,以及对警示原因进行故障排除。
查看警示信息的不同方法
- 从左侧菜单中,单击 ,然后单击警示列表中的某个警示。
- 从左侧菜单中,单击警示选项卡。 ,然后选择一个组、自定义数据中心、应用程序或清单对象。单击对象,然后单击
- 在菜单中,选择“搜索”,然后找到相关对象。单击对象,然后单击警示选项卡。
- “警示详细信息”选项卡
-
部分 描述 建议 查看警示的建议。单击 < 或 > 以循环访问建议。如果警示出现,要解决警示,请单击运行操作按钮。 其他建议 折叠此部分以查看其他建议。请参见需要更多信息? 部分中的链接以查看其他衡量指标、事件或显示为链接的其他详细信息。 警示基础 仅活动 默认情况下激活此选项。如果激活,将显示满足的所有活动警示症状/条件。如果停用,将显示警示的所有症状/条件。 症状 查看触发警示的症状。折叠每个症状,以查看其他信息。 条件 查看触发警示的条件。折叠每个条件以查看其他信息。 备注 输入有关警示的备注,然后单击提交进行保存。 关闭 单击 X 图标以关闭“警示详细信息”选项卡。 - “相关警示”选项卡
-
右侧显示的相关范围显示在其上触发警示的对象高一级和低一级的对象。此拓扑是固定的。您无法更改相关警示选项卡中的范围。
在右侧,可以看到以下内容:- 过去 30 天内,是否在对象上触发了同一警示。这有助于您了解这是反复出现的问题,还是新问题。
- 过去 30 天内,是否在同一环境中的其他对等方上触发了同一警示。这有助于您执行快速对等方分析以了解是否有其他方受同一问题影响。
- 在当前拓扑中触发的所有警示。这有助于您调查环境的上游或下游是否有其他警示影响对象的运行状况。
- “潜在证据”选项卡
-
查看潜在证据选项卡,以查看问题相关的潜在证据,从而查明根本原因。此选项卡显示可能与警示相关的事件、属性更改和异常衡量指标。时间范围和对象范围是固定的。要修改对象范围或时间范围并进一步进行调查,请单击启动工作台。这将运行故障排除工作台。
“潜在证据”选项卡中显示的时间范围是触发警示前的两小时三十分钟。VMware Aria Operations 将在此时间范围内查找潜在证据。
智能警示
每个企业都可以设置五个或更多的监控工具,全天候监控数据中心运营的各个方面。这可能会导致出现警示泛洪情况,即单个监控工具或多个工具针对同一问题生成多个警示。因此,IT 管理员必须筛选成千上万的警示,以过滤掉噪音并专注于关键问题,从而增加警示的量并引发警示风暴或警示噪音,从而导致团队无法识别最严重的警示。之所以会发生警示泛洪,是因为监控工具缺乏智能来了解所有警示都描述了相同的问题。
机器学习 (ML) 通过监控数百万个衡量指标、大量日志和应用程序跟踪,帮助自动管理包含数千个对象(如虚拟机、主机和数据存储)的复杂系统,以捕获整个堆栈的高分辨率图像。
VMware Aria Operations 通过智能警示集群帮助消除由于故障排除速度不够快和解决多个对象的严重问题而发生的业务停机。
“智能警示”选项卡的位置
从左侧菜单中,单击智能警示选项卡。
,然后单击智能警示集群的工作原理
智能警示(在 VMware Aria Operations 中也称为警示集群)根据相关警示的创建时间和拓扑距离将这些警示分组在一起。与处理由同一个根本问题引起的单个警示相比,此方法提供了一种更有组织、更高效的故障排除方法。警示集群基于 DBScan 算法完成。DBScan(具有噪声的应用程序的基于密度的空间集群)是一种不受监督的集群机器学习算法,它尝试将数据点紧密打包到人工集群中。在 VMware Aria Operations 环境中,DBScan 量身定制为了一种流算法,并配置了特定参数(例如,最小点数设置为 5,时间差设置为 5 分钟,拓扑距离设置为 1),以便仅考虑直接子项和父项。为警示集群故障排除提供了两个主要视图:智能警示生命周期和对象拓扑。
选项 | 描述 |
---|---|
筛选器 | 您可以按状态筛选警示集群。从状态下拉列表中选择活动或非活动,然后单击应用。 |
警示集群 | 警示集群卡显示以下内容:
|
对象 | 根对象的名称。 |
开始时间/结束时间 | 警示集群的开始时间是确定满足集群条件的第一个集群的时间。警示集群的结束时间是集群不再有资格成为警示集群的时间。 |
警示/对象 | 选择警示可以图形方式查看特定时间段内的警示。 选择对象可以查看警示集群的对象-关系图表。将鼠标悬停在该对象上,然后单击详细信息,可打开对象的“摘要”页面。 |
启动方式 | 单击启动方式可查看警示集群的生命周期。每个气泡显示警示和对象,将鼠标悬停在气泡上可查看更多详细信息。 |
故障排除 | 单击此项可启动故障排除工作台以进行进一步的故障排除。 |
图形图表 | 图形图表按时间显示所选警示集群的警示数量。
单击图表图例以按以下条件筛选警示:
单击日历图标,然后选择范围,或在起始时间和结束时间字段中选择日期,可以查看过去的警示。 |
分组依据 | 您可以按以下方式对警示进行分组:
|
筛选器 | 您可以按以下方式筛选警示:
|