NSX 事件目录
下表介绍了在 VMware NSX® 中触发警报的事件,包括警报消息以及解决这些警报的建议操作。严重性高于“低”的任何事件都会触发警报。警报信息显示在 NSX Manager 界面内的多个位置。警报和事件信息还与其他通知一起包含在标题栏的“通知”下拉菜单中。要查看警报,请导航到主页,然后单击警报选项卡。有关警报和事件的详细信息,请参阅《NSX 管理指南》中的“使用事件和警报”。
警报管理事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
警报服务过载 | 严重 | global-manager、manager、aas | 警报服务已过载。 |
使用 NSX UI 中的“警报”页面或使用 NSX API:GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED 来查看所有活动警报。对于每个活动警报,请遵循针对该警报的建议操作来调查根本原因。解决了足够数量的警报后,警报服务将再次开始报告新的警报。 |
3.0.0 |
警报数量过大 | 严重 | global-manager、manager、aas | 检测到特定警报类型的数量过大。 |
使用 NSX UI 中的“警报”页面或使用 NSX API:GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED 来查看 {event_id} 类型的所有活动警报。对于每个活动警报,请遵循针对该警报的建议操作来调查根本原因。解决了足够数量的警报后,警报服务将再次开始报告新的 {event_id} 警报。 |
3.0.0 |
审核日志运行状况事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
审核日志文件更新错误 | 严重 | global-manager、manager、edge、public-cloud-gateway、esx、kvm、bms | 至少有一个受监控的日志文件无法写入。 |
1.在管理器和全局管理器节点、Edge 和公有云网关节点以及 Ubuntu KVM 主机节点上,确保 /var/log 目录的权限为 775,所有权为 root:syslog。在 Rhel KVM 和 BMS 主机节点上,确保 /var/log 目录的权限为 755,所有权为 root:root。 |
3.1.0 |
远程日志记录服务器错误 | 严重 | global-manager、manager、edge、public-cloud-gateway | 由于远程日志记录服务器配置不正确,日志消息无法传送。 |
1.确保 {hostname_or_ip_address_with_port} 是正确的主机名或 IP 地址和端口。 |
3.1.0 |
容量事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
最小容量阈值 | 中等 | manager | 已违反最小容量阈值。 |
导航至 NSX UI 中的“容量”页面,并查看当前使用情况与阈值限制。如果当前使用情况正常,请考虑增加最小阈值。如果当前使用情况异常,请查看所配置的网络策略,以将使用率减少至等于或低于最小阈值。 |
3.1.0 |
最大容量阈值 | 高 | manager | 已违反最大容量阈值。 |
导航至 NSX UI 中的“容量”页面,并查看当前使用情况与阈值限制。如果当前使用情况正常,请考虑增加最大阈值。如果当前使用情况异常,请查看所配置的网络策略,以将使用率减少至等于或低于最大阈值。 |
3.1.0 |
最大容量 | 严重 | manager | 已违反最大容量。 |
确保创建的 NSX 对象数在 NSX 支持的限制范围内。如果有任何未使用的对象,请使用相应的 NSX UI 或 API 将其从系统中删除。请考虑增加所有管理器节点和/或 Edge 节点的规格。请注意,每个节点类型的规格应相同。如果不相同,将使用所部署的最低规格的容量限制。 |
3.1.0 |
证书事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
证书已过期 | 严重 | global-manager、manager | 证书已过期。 |
确保当前使用该证书的服务已更新为使用未过期的新证书。一旦不再使用过期的证书,就应通过调用 NSX API:DELETE {api_collection_path}{entity_id} 来将其删除。如果 NAPP Platform 使用过期的证书,则 NSX 与 NAPP Platform 之间的连接将断开。请查看 NAPP Platform 故障排除文档,以使用自签名 NAPP CA 证书恢复连接。 |
3.0.0 |
证书就要过期 | 高 | global-manager、manager | 证书就要过期。 |
确保当前使用该证书的服务已更新为使用非即将过期的新证书。一旦不再使用即将过期的证书,就应通过调用 NSX API:DELETE {api_collection_path}{entity_id} 来将其删除。 |
3.0.0 |
证书即将过期 | 中等 | global-manager、manager | 证书即将过期。 |
确保当前使用该证书的服务已更新为使用非即将过期的新证书。一旦不再使用即将过期的证书,就应通过调用 NSX API:DELETE {api_collection_path}{entity_id} 来将其删除。 |
3.0.0 |
推荐更新 CA 包 | 高 | global-manager、manager | 推荐更新受信任的 CA 包。 |
确保当前使用该受信任 CA 包的服务已更新为使用最近更新的受信任 CA 包。除非是由系统提供的包,否则可以使用 NSX API:PUT /policy/api/v1/infra/cabundles/{entity_id} 更新包。一旦不再使用过期的包,就应通过调用 NSX API:DELETE /policy/api/v1/infra/cabundles/{entity_id} 来将其删除(如果不是由系统提供)。 |
3.2.0 |
建议更新 CA 包 | 中等 | global-manager、manager | 建议更新受信任的 CA 包。 |
确保当前使用该受信任 CA 包的服务已更新为使用最近更新的受信任 CA 包。除非是由系统提供的包,否则可以使用 NSX API:PUT /policy/api/v1/infra/cabundles/{entity_id} 更新包。一旦不再使用过期的包,就应通过调用 NSX API:DELETE /policy/api/v1/infra/cabundles/{entity_id} 来将其删除(如果不是由系统提供)。 |
3.2.0 |
传输节点证书已过期 | 严重 | bms、edge、esx、kvm、public-cloud-gateway | 证书已过期。 |
将传输节点 {entity_id} 证书替换为未过期的证书。应通过调用 NSX API:POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id} 来替换过期的证书。如果传输节点使用的是过期证书,则传输节点和管理器节点之间的连接将断开。 |
4.1.0 |
传输节点证书就要过期 | 高 | bms、edge、esx、kvm、public-cloud-gateway | 证书就要过期。 |
将传输节点 {entity_id} 证书替换为未过期的证书。应通过调用 NSX API:POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id} 来替换过期的证书。如果未替换证书,则在证书过期后,传输节点和管理器节点之间的连接会断开。 |
4.1.0 |
传输节点证书即将过期 | 中等 | bms、edge、esx、kvm、public-cloud-gateway | 证书即将过期。 |
将传输节点 {entity_id} 证书替换为未过期的证书。应通过调用 NSX API:POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id} 来替换过期的证书。如果未替换证书,则在证书过期后,传输节点和管理器节点之间的连接会断开。 |
4.1.0 |
集群事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
集群已降级 | 中等 | global-manager、manager | 组成员已关闭。 |
1.调用 NSX CLI 命令“get cluster status”以查看集群中组成员的状态。 |
3.2.0 |
集群不可用 | 高 | global-manager、manager | 服务的所有组成员均已关闭。 |
1.确保节点上正在运行 {group_type} 服务。调用 NSX CLI: GET /api/v1/node/services/<service_name>/status 或 NSX CLI 命令 get service <service_name> 以确定该服务是否正在运行。如果未在运行,请调用 NSX API:POST /api/v1/node/services/<service_name>?action=restart 或 NSX CLI 命令 restart service <service_name> 以重新启动该服务。 |
3.2.0 |
CNI 运行状况事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
DPU 上的 Hyperbus Manager 连接关闭 | 中等 | dpu | DPU 上的 Hyperbus 无法与管理器节点通信。 |
DPU {dpu_id} 上可能缺少 hyperbus vmkernel 接口 (vmk50)。请参阅知识库文章 https://kb.vmware.com/s/article/67432。 |
4.0.0 |
Hyperbus Manager 连接关闭 | 中等 | esx、kvm | Hyperbus 无法与管理器节点通信。 |
可能缺少 hyperbus vmkernel 接口 (vmk50)。请参阅知识库文章 https://kb.vmware.com/s/article/67432。 |
3.0.0 |
通信事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
DPU 上的可访问性受限 | 中等 | dpu | 在 DPU 上,无法通过给定 DVS 上的 vmknic 访问给定收集器。 |
如果发出警告,这并不意味着收集器无法访问。由基于 DVS {dvs_alias} 的垂直项生成的导出流量仍然可以通过 DVS {dvs_alias} 以外的其他 DVS 上的 vmknic 访问收集器 {collector_ip}。如果无法接受此行为,用户可以尝试在 DVS {dvs_alias} 上创建包含堆栈 {stack_alias} 的 vmknic,并为其配置相应的 IPv4(6) 地址,然后在启用“通过 ESXi 使用 SSH 访问 DPU”的情况下调用 vmkping {collector_ip} -S {stack_alias} -I vmkX,以检查是否可以在 DPU {dpu_id} 上通过新创建的 vmknic 访问 {vertical_name} 收集器 {collector_ip}。 |
4.0.1 |
无法在 DPU 上访问收集器 | 严重 | dpu | 在 DPU 上,根本无法通过现有 vmknic 访问给定收集器。 |
要使 DVS 上的给定垂直项可以访问收集器,用户必须确保创建包含预期堆栈 {stack_alias} 的 vmknic 并为其配置相应的 IPv4(6) 地址,且与 {vertical_name} 收集器 {collector_ip} 的网络连接也正常。因此,用户必须在 DPU {dpu_id} 上进行检查,并执行所需的配置以确保满足条件。最后,如果在启用“通过 ESXi 使用 SSH 访问 DPU”的情况下调用 vmkping {collector_ip} -S {stack_alias} 成功,则表示问题已消失。 |
4.0.1 |
管理器集群延迟高 | 中等 | manager | 管理器节点之间的平均网络延迟高。 |
确保没有防火墙规则阻止管理器节点之间的 ping 流量。如果有其他高带宽服务器和应用程序共享本地网络,请考虑将这些服务器和应用程序移到其他网络。 |
3.1.0 |
至管理器节点的控制通道关闭太长时间 | 严重 | bms、edge、esx、kvm、public-cloud-gateway | 传输节点的控制平面与管理器节点的连接已长时间断开。 |
1.通过 ping 检查从传输节点 {entity_id} 到管理器节点 {appliance_address} 接口的连接。如果无法 ping 通,请检查网络连接问题。 |
3.1.0 |
至管理器节点的控制通道关闭 | 中等 | bms、edge、esx、kvm、public-cloud-gateway | 传输节点的控制平面与管理器节点的连接已断开。 |
1.通过 ping 检查从传输节点 {entity_id} 到管理器节点 {appliance_address} 接口的连接。如果无法 ping 通,请检查网络连接问题。 |
3.1.0 |
至传输节点的控制通道关闭 | 中等 | manager | 控制器服务与传输节点的连接已断开。 |
1.通过 ping 和 traceroute 检查控制器服务 {central_control_plane_id} 和传输节点 {entity_id} 接口之间的连接。可以在 NSX Manager 节点 admin CLI 上完成该操作。ping 测试不应出现丢包情况并具有一致的延迟值。VMware 建议延迟值为 150 毫秒或更短。 |
3.1.0 |
至传输节点的控制通道关闭时间过长 | 严重 | manager | 控制器服务与传输节点的连接断开太长时间。 |
1.通过 ping 和 traceroute 检查控制器服务 {central_control_plane_id} 和传输节点 {entity_id} 接口之间的连接。可以在 NSX Manager 节点 admin CLI 上完成该操作。ping 测试不应出现丢包情况并具有一致的延迟值。VMware 建议延迟值为 150 毫秒或更短。 |
3.1.0 |
管理器控制通道已关闭 | 严重 | manager | 管理器至控制器通道已关闭。 |
1.在管理器节点 {manager_node_name} ({appliance_address}) 上,请调用 NSX CLI 命令 get service applianceproxy,以定期检查 60 分钟内的服务状态。 |
3.0.2 |
至传输节点的管理通道关闭 | 中等 | manager | 至传输节点的管理通道已关闭。 |
确保管理器节点和传输节点 {transport_node_name} ({transport_node_address}) 之间存在网络连接,并且没有防火墙阻止节点之间的流量。在 Windows 传输节点上,通过在 Windows PowerShell 中调用命令 C:\NSX\nsx-proxy\nsx-proxy.ps1 status,确保在传输节点上正在运行 nsx-proxy 服务。如果未运行,请通过调用命令 C:\NSX\nsx-proxy\nsx-proxy.ps1 restart 重新启动该服务。在所有其他传输节点上,通过调用命令 /etc/init.d/nsx-proxy status,确保在传输节点上正在运行 nsx-proxy 服务。如果未运行,请通过调用命令 /etc/init.d/nsx-proxy restart 重新启动该服务。 |
3.0.2 |
至传输节点的管理通道长时间关闭 | 严重 | manager | 至传输节点的管理通道已关闭太长时间。 |
确保管理器节点和传输节点 {transport_node_name} ({transport_node_address}) 之间存在网络连接,并且没有防火墙阻止节点之间的流量。在 Windows 传输节点上,通过在 Windows PowerShell 中调用命令 C:\NSX\nsx-proxy\nsx-proxy.ps1 status,确保在传输节点上正在运行 nsx-proxy 服务。如果未运行,请通过调用命令 C:\NSX\nsx-proxy\nsx-proxy.ps1 restart 重新启动该服务。在所有其他传输节点上,通过调用命令 /etc/init.d/nsx-proxy status,确保在传输节点上正在运行 nsx-proxy 服务。如果未运行,请通过调用命令 /etc/init.d/nsx-proxy restart 重新启动该服务。 |
3.0.2 |
管理器 FQDN 查找失败 | 严重 | global-manager、bms、edge、esx、kvm、manager、public-cloud-gateway | 管理器节点 FQDN 的 DNS 查找失败。 |
1.将正确的 FQDN 分配给所有管理器节点,并确认 DNS 配置准确无误,以便能够成功查找所有管理器节点的 FQDN。 |
3.1.0 |
管理器 FQDN 反向查找失败 | 严重 | global-manager、manager | 管理器节点 IP 地址的反向 DNS 查找失败。 |
1.将正确的 FQDN 分配给所有管理器节点,并确认 DNS 配置准确无误,以便能够成功反向查找管理器节点的 IP 地址。 |
3.1.0 |
至管理器节点的管理通道关闭 | 中等 | bms、edge、esx、kvm、public-cloud-gateway | 至管理器节点的管理通道已关闭。 |
确保在传输节点 {transport_node_id} 和主管理器节点之间具有网络连接。还要确保没有防火墙阻止这两个节点之间的流量。请调用 /etc/init.d/messaging-manager status 命令,以确保正在管理器节点上运行消息管理器服务。如果消息管理器没有运行,请调用 /etc/init.d/messaging-manager restart 命令以重新启动该管理器。 |
3.2.0 |
到管理器节点的管理通道长时间关闭 | 严重 | bms、edge、esx、kvm、public-cloud-gateway | 到管理器节点的管理通道已关闭太长时间。 |
确保在传输节点 {transport_node_id} 和主管理器节点之间具有网络连接。还要确保没有防火墙阻止这两个节点之间的流量。请调用 /etc/init.d/messaging-manager status 命令,以确保正在管理器节点上运行消息管理器服务。如果消息管理器没有运行,请调用 /etc/init.d/messaging-manager restart 命令以重新启动该管理器。 |
3.2.0 |
网络延迟高 | 中等 | manager | 管理节点到传输节点的网络延迟高。 |
1.等待 5 分钟,以查看警报是否自动解决。 |
4.0.0 |
DHCP 事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
池租约分配失败 | 高 | edge、autonomous-edge、public-cloud-gateway | IP 池中的 IP 地址已用尽。 |
可以通过调用 NSX CLI 命令 get dhcp ip-pool 来查看 NSX UI 中或运行 DHCP 服务器的 Edge 节点上的 DHCP 池配置。也可以通过调用 NSX CLI 命令 get dhcp lease 来查看 Edge 节点上当前活动的租约。将租约数量与活动虚拟机数量进行比较。如果虚拟机数量少于活动租约数量,请考虑缩短 DHCP 服务器配置上的租约时间。也可以考虑通过访问 NSX UI 中的“网络”|“分段”|“分段”页面来扩展 DHCP 服务器的池范围。 |
3.0.0 |
池过载 | 中等 | edge、autonomous-edge、public-cloud-gateway | IP 池已过载。 |
可以通过调用 NSX CLI 命令 get dhcp ip-pool 来查看 NSX UI 中或运行 DHCP 服务器的 Edge 节点上的 DHCP 池配置。也可以通过调用 NSX CLI 命令 get dhcp lease 来查看 Edge 节点上当前活动的租约。将租约数量与活动虚拟机数量进行比较。如果虚拟机数量少于活动租约数量,请考虑缩短 DHCP 服务器配置上的租约时间。也可以考虑通过访问 NSX UI 中的“网络”|“分段”|“分段”页面来扩展 DHCP 服务器的池范围。 |
3.0.0 |
分布式防火墙事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
DFW CPU 使用率非常高 | 严重 | esx | DFW CPU 使用率非常高。 |
请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。请查看安全设计以进行优化。例如,如果规则不适用于整个数据中心,请使用“应用到”配置。 |
3.0.0 |
DPU 上的 DFW CPU 使用率非常高 | 严重 | dpu | DPU 上的 DFW CPU 使用率非常高。 |
请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。请查看安全设计以进行优化。例如,如果规则不适用于整个数据中心,请使用“应用到”配置。 |
4.0.0 |
DFW 内存使用率非常高 | 严重 | esx | DFW 内存使用率非常高。 |
通过在主机上调用 NSX CLI 命令 get firewall thresholds,查看当前的 DFW 内存使用率。请考虑将此主机上的工作负载重新均衡到其他主机。 |
3.0.0 |
DPU 上的 DFW 内存使用率非常高 | 严重 | dpu | DPU 上的 DFW 内存使用率非常高。 |
通过在 DPU 上调用 NSX CLI 命令 get firewall thresholds,查看当前的 DFW 内存使用率。请考虑将此主机上的工作负载重新均衡到其他主机。 |
4.0.0 |
DFW vMotion 故障 | 严重 | esx | DFW vMotion 失败,端口已断开连接。 |
在 NSX Manager 中检查主机上的虚拟机,然后通过 NSX Manager UI 手动重新推送 DFW 配置。可以通过 DFW 筛选器 {entity_id} 跟踪要重新推送的 DFW 策略。还要考虑找到 DFW 筛选器连接到的虚拟机,然后重新启动该虚拟机。 |
3.2.0 |
DFW 泛洪限制为警告 | 中等 | esx | DFW 泛洪限制已达到警告级别。 |
在 NSX Manager 中检查主机上的虚拟机,检查为协议 {protocol_name} 配置的 DFW 筛选器 {entity_id} 的泛洪警告级别。 |
4.1.0 |
DFW 泛洪限制为严重 | 严重 | esx | DFW 泛洪限制已达到严重级别。 |
在 NSX Manager 中检查主机上的虚拟机,检查为协议 {protocol_name} 配置的 DFW 筛选器 {entity_id} 的泛洪严重级别。 |
4.1.0 |
DFW 会话计数高 | 严重 | esx | DFW 会话计数高。 |
查看主机上的工作负载的网络流量负载水平。请考虑将此主机上的工作负载重新均衡到其他主机。 |
3.2.0 |
已超过每个 vNIC 的 DFW 规则限制 | 严重 | esx | 每个 vNIC 的 DFW 规则限制即将超过最大限制。 |
登录到 ESX 主机 {transport_node_name},并调用 NSX CLI 命令 get firewall <VIF_UUID> ruleset rules,以获取在相应 VIF 上配置的规则的统计信息。减少为 VIF {entity_id} 配置的规则数。 |
4.0.0 |
即将达到每个 vNIC 的 DFW 规则限制 | 中等 | esx | 每个 vNIC 的 DFW 规则限制即将达到最大限制。 |
登录到 ESX 主机 {transport_node_name},并调用 NSX CLI 命令 get firewall <VIF_UUID> ruleset rules,以获取在相应 VIF 上配置的规则的统计信息。减少为 VIF {entity_id} 配置的规则数。 |
4.0.0 |
已超过每个主机的 DFW 规则限制 | 严重 | esx | 每个主机的 DFW 规则限制即将超过最大限制。 |
登录到 ESX 主机 {transport_node_name},并调用 NSX CLI 命令 get firewall rule-stats total,以获取在 ESX 主机 {transport_node_name} 上配置的规则的统计信息。减少为主机 {transport_node_name} 配置的规则数。使用 NSX CLI 命令 get firewall <VIF_UUID> ruleset rules 检查为各种 VIF 配置的规则数。减少为各种 VIF 配置的规则数。 |
4.0.0 |
即将达到每个主机的 DFW 规则限制 | 中等 | esx | 每个主机的 DFW 规则限制即将达到最大限制。 |
登录到 ESX 主机 {transport_node_name},并调用 NSX CLI 命令 get firewall rule-stats total,以获取在 ESX 主机 {transport_node_name} 上配置的规则的统计信息。减少为主机 {transport_node_name} 配置的规则数。使用 NSX CLI 命令 get firewall <VIF_UUID> ruleset rules 检查为各种 VIF 配置的规则数。减少为各种 VIF 配置的规则数。 |
4.0.0 |
分布式 IDS IPS 事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
已达到最大事件数 | 中等 | manager | 已达到最大入侵事件数。 |
无需手动干预。清除作业将每 3 分钟自动启动一次,并删除 10% 的旧记录,以使系统中的入侵事件总计数低于 150 万个事件的阈值。 |
3.1.0 |
NSX IDPS 引擎内存使用率高 | 中等 | esx | NSX-IDPS 引擎内存使用率达到 75% 或更高。 |
请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。 |
3.1.0 |
DPU 上的 NSX IDPS 引擎内存使用率高 | 中等 | dpu | DPU 上的 NSX-IDPS 引擎内存使用率达到 75% 或更高。 |
请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。 |
4.0.0 |
NSX IDPS 引擎内存使用率中高 | 高 | esx | NSX-IDPS 引擎内存使用率达到 85% 或更高。 |
请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。 |
3.1.0 |
DPU 上的 NSX IDPS 引擎内存使用率中高 | 高 | dpu | DPU 上的 NSX-IDPS 引擎内存使用率达到 85% 或更高。 |
请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。 |
4.0.0 |
NSX IDPS 引擎内存使用率非常高 | 严重 | esx | NSX-IDPS 引擎内存使用率达到 95% 或更高。 |
请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。 |
3.1.0 |
DPU 上的 NSX IDPS 引擎内存使用率非常高 | 严重 | dpu | DPU 上的 NSX-IDPS 引擎内存使用率达到 95% 或更高。 |
请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。 |
4.0.0 |
NSX IDPS 引擎 CPU 使用率高 | 中等 | esx | NSX-IDPS 引擎 CPU 使用率达到 75% 或更高。 |
请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。 |
3.1.0 |
NSX IDPS 引擎 CPU 使用率中高 | 高 | esx | NSX-IDPS 引擎 CPU 使用率达到 85% 或更高。 |
请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。 |
3.1.0 |
NSX IDPS 引擎 CPU 使用率非常高 | 严重 | esx | NSX-IDPS 引擎 CPU 使用率超过 95% 或更高。 |
请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。 |
3.1.0 |
NSX IDPS 引擎关闭 | 严重 | esx | NSX IDPS 已通过 NSX 策略启用,并且已配置 IDPS 规则,但 NSX-IDPS 引擎已关闭。 |
1.检查 /var/log/nsx-syslog.log 以查看是否报告了错误。 |
3.1.0 |
DPU 上的 NSX IDPS 引擎关闭 | 严重 | dpu | 在 DPU 上,NSX IDPS 已通过 NSX 策略启用,并且已配置 IDPS 规则,但 NSX-IDPS 引擎已关闭。 |
1.检查 /var/log/nsx-idps/nsx-idps.log 和 /var/log/nsx-syslog.log,以查看是否报告了错误。 |
4.0.0 |
IDPS 引擎 CPU 超额订阅高 | 中等 | esx | 分布式 IDPS 引擎的 CPU 占用率高。 |
查看超额订阅的原因。请将某些应用程序移至其他主机。 |
4.0.0 |
IDPS 引擎 CPU 超额订阅非常高 | 高 | esx | 分布式 IDPS 引擎的 CPU 占用率非常高。 |
查看超额订阅的原因。请将某些应用程序移至其他主机。 |
4.0.0 |
IDPS 引擎网络超额订阅高 | 中等 | esx | 分布式 IDPS 引擎的网络利用率高。 |
查看超额订阅的原因。请查看 IDPS 规则以减少受 IDPS 服务限制的流量。 |
4.0.0 |
IDPS 引擎网络超额订阅非常高 | 高 | esx | 分布式 IDPS 引擎的网络利用率非常高。 |
查看超额订阅的原因。请查看 IDPS 规则以减少受 IDPS 服务限制的流量。 |
4.0.0 |
IDPS 引擎丢弃 CPU 超额订阅的流量 | 严重 | esx | 由于 CPU 超额订阅,分布式 IDPS 引擎已丢弃流量。 |
查看超额订阅的原因。请将某些应用程序移至其他主机。 |
4.0.0 |
IDPS 引擎丢弃网络超额订阅的流量 | 严重 | esx | 由于网络超额订阅,分布式 IDPS 引擎已丢弃流量。 |
查看超额订阅的原因。请查看 IDPS 规则以减少受 IDPS 服务限制的流量。 |
4.0.0 |
IDPS 引擎绕过 CPU 超额订阅的流量 | 严重 | esx | 由于 CPU 超额订阅,分布式 IDPS 引擎已绕过流量。 |
查看超额订阅的原因。请将某些应用程序移至其他主机。 |
4.0.0 |
IDPS 引擎绕过网络超额订阅的流量 | 严重 | esx | 由于网络超额订阅,分布式 IDPS 引擎已绕过流量。 |
查看超额订阅的原因。请查看 IDPS 规则以减少受 IDPS 服务限制的流量。 |
4.0.0 |
DNS 事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
转发器已关闭 | 高 | edge、autonomous-edge、public-cloud-gateway | DNS 转发器已关闭。 |
1.调用 NSX CLI 命令 get dns-forwarders status 以验证 DNS 转发器是否处于关闭状态。 |
3.0.0 |
转发器已禁用 | 信息 | edge、autonomous-edge、public-cloud-gateway | DNS 转发器已禁用。 |
1.调用 NSX CLI 命令 get dns-forwarders status 以验证 DNS 转发器是否处于已禁用状态。 |
3.0.0 |
转发器上游服务器超时 | 高 | edge、autonomous-edge、public-cloud-gateway | 一个 DNS 转发器上游服务器已超时。 |
1.调用 NSX API:GET /api/v1/dns/forwarders/{dns_id}/nslookup? address=<address>&server_ip={dns_upstream_ip}&source_ip=<source_ip>。此 API 请求会触发针对 DNS 转发器网络命名空间中上游服务器的 DNS 查找。<address> 是与上游服务器位于同一域的 IP 地址或 FQDN。<source_ip> 是位于上游服务器区域中的 IP 地址。如果此 API 返回连接超时响应,则可能存在网络错误或上游服务器问题。请检查 DSN 查找未能到达上游服务器或上游服务器未返回响应的原因。如果此 API 响应指示上游服务器正在应答,请继续执行步骤 2。 |
3.1.3 |
Edge 事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
Edge 节点设置不匹配 | 严重 | manager | Edge 节点设置不匹配。 |
查看此 Edge 传输节点 {entity_id} 的节点设置。执行以下任一操作来解决警报 - |
3.2.0 |
Edge 虚拟机 vSphere 设置不匹配 | 严重 | manager | Edge 虚拟机 vSphere 设置不匹配。 |
查看此 Edge 传输节点 {entity_id} 的 vSphere 配置。执行以下任一操作来解决警报 - |
3.2.0 |
Edge 节点设置和 vSphere 设置已更改 | 严重 | manager | Edge 节点设置和 vSphere 设置已更改。 |
查看此 Edge 传输节点 {entity_id} 的节点设置和 vSphere 配置。执行以下任一操作来解决警报 - |
3.2.0 |
Edge vSphere 位置不匹配 | 高 | manager | Edge vSphere 位置不匹配。 |
查看此 Edge 传输节点 {entity_id} 的 vSphere 配置。执行以下任一操作来解决警报 - |
3.2.0 |
Edge 虚拟机在 NSX 清单中存在,但在 vCenter 中不存在 | 严重 | manager | 自动 Edge 虚拟机在 NSX 清单中存在,但在 vCenter 中不存在。 |
虚拟机的受管对象引用 MoRef ID 采用格式 vm-number,在 vCenter UI 中选择 Edge 虚拟机时,它会显示在 URL 中。例如,https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary 中的 vm-12011。对于此 Edge 传输节点 {entity_id},请在 vCenter 中查找 MoRef ID 为 {vm_moref_id} 的虚拟机 {policy_edge_vm_name}。如果 Edge 虚拟机存在于 vCenter 中但具有其他 MoRef ID,请执行下面的操作。使用 NSX 添加或更新具有 JSON 请求工作负载属性 vm_id 和 vm_deployment_config 的放置 API,以更新该新虚拟机 MoRef ID 和 vSphere 部署参数。POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=addOrUpdatePlacementReferences。如果名称为 {policy_edge_vm_name} 的 Edge 虚拟机不存在于 vCenter 中,请使用 NSX 重新部署 API 为 Edge 节点部署新虚拟机。POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=redeploy。 |
3.2.1 |
Edge 虚拟机在 NSX 清单和 vCenter 中均不存在 | 严重 | manager | 自动 Edge 虚拟机在 NSX 清单和 vCenter 中均不存在。 |
虚拟机的受管对象引用 MoRef ID 采用格式 vm-number,在 vCenter UI 中选择 Edge 虚拟机时,它会显示在 URL 中。例如,https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary 中的 vm-12011。对于此 Edge 传输节点 {entity_id},请在 vCenter 中查找 MoRef ID 为 {vm_moref_id} 的虚拟机 {policy_edge_vm_name}。请执行下面的操作解决警报 - 请检查该虚拟机是否已在 vSphere 中被删除,或者是否具有其他 MoRef ID。 |
3.2.1 |
无法在重新部署期间删除 vCenter 中的旧虚拟机 | 严重 | manager | 在重新部署期间,对 vCenter 中的旧 Edge 虚拟机执行关闭电源和删除操作失败。 |
虚拟机的受管对象引用 MoRef ID 采用格式 vm-number,在 vCenter UI 中选择 Edge 虚拟机时,它会显示在 URL 中。例如,https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary 中的 vm-12011。对于此 Edge 传输节点 {entity_id},请在 vCenter 中查找 MoRef ID 为 {vm_moref_id} 的虚拟机 {policy_edge_vm_name}。请关闭 vCenter 中 MoRef ID 为 {vm_moref_id} 的旧 Edge 虚拟机 {policy_edge_vm_name} 的电源并将其删除。 |
3.2.1 |
Edge 硬件版本不匹配 | 中等 | manager | Edge 节点的硬件版本不匹配。 |
请按照知识库文章中的说明,解决 Edge 节点 {transport_node_name} 的硬件版本不匹配警报。 |
4.0.1 |
Edge 集群事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
Edge 集群成员切换失败 | 严重 | manager | Edge 集群成员切换失败警报 |
请查看 Edge 集群的可用容量。如果需要更多容量,请扩展 Edge 集群。请重试 Edge 集群成员切换操作。 |
4.0.0 |
Edge 运行状况事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
Edge CPU 使用率非常高 | 严重 | edge、public-cloud-gateway | Edge 节点 CPU 使用率非常高。 |
查看此 Edge 节点的配置、运行的服务以及大小。请考虑调整 Edge 设备的规格,或者将服务重新均衡到其他 Edge 节点,以实现工作负载合理分布。 |
3.0.0 |
Edge CPU 使用率高 | 中等 | edge、public-cloud-gateway | Edge 节点 CPU 使用率高。 |
查看此 Edge 节点的配置、运行的服务以及大小。请考虑调整 Edge 设备的规格,或者将服务重新均衡到其他 Edge 节点,以实现工作负载合理分布。 |
3.0.0 |
Edge 内存使用率非常高 | 严重 | edge、public-cloud-gateway | Edge 节点内存使用率非常高。 |
查看此 Edge 节点的配置、运行的服务以及大小。请考虑调整 Edge 设备的规格,或者将服务重新均衡到其他 Edge 节点,以实现工作负载合理分布。 |
3.0.0 |
Edge 内存使用率高 | 中等 | edge、public-cloud-gateway | Edge 节点内存使用率高。 |
查看此 Edge 节点的配置、运行的服务以及大小。请考虑调整 Edge 设备的规格,或者将服务重新均衡到其他 Edge 节点,以实现工作负载合理分布。 |
3.0.0 |
Edge 磁盘使用率非常高 | 严重 | edge、public-cloud-gateway | Edge 节点磁盘使用率非常高。 |
检查具有高使用率的分区,查看是否有任何不需要的大文件可以移除。 |
3.0.0 |
Edge 磁盘使用率高 | 中等 | edge、public-cloud-gateway | Edge 节点磁盘使用率高。 |
检查具有高使用率的分区,查看是否有任何不需要的大文件可以移除。 |
3.0.0 |
Edge 数据路径 CPU 使用率非常高 | 严重 | edge、autonomous-edge、public-cloud-gateway | Edge 节点数据路径 CPU 使用率非常高。 |
通过调用 NSX CLI 命令 get dataplane cpu stats 来查看 Edge 节点上的 CPU 统计信息,以便了解每个 CPU 内核的数据包速率。数据包速率越高,CPU 使用率就越高。请考虑调高 Edge 设备的规格,并将此 Edge 节点上的服务重新均衡到同一集群或其他 Edge 集群中的其他 Edge 节点。 |
3.0.0 |
Edge 数据路径 CPU 使用率高 | 中等 | edge、autonomous-edge、public-cloud-gateway | Edge 节点数据路径 CPU 使用率高。 |
通过调用 NSX CLI 命令 get dataplane cpu stats 来查看 Edge 节点上的 CPU 统计信息,以便了解每个 CPU 内核的数据包速率。数据包速率越高,CPU 使用率就越高。请考虑调高 Edge 设备的规格,并将此 Edge 节点上的服务重新均衡到同一集群或其他 Edge 集群中的其他 Edge 节点。 |
3.0.0 |
Edge 数据路径配置失败 | 高 | edge、autonomous-edge、public-cloud-gateway | Edge 节点数据路径配置失败。 |
确保 Edge 节点与管理器节点的连接正常。从 Edge 节点的 NSX CLI 中,调用命令 get services 以检查服务的运行状况。如果数据平面服务已停止,请调用命令 start service dataplane 来启动该服务。 |
3.0.0 |
Edge 数据路径 Cryptodrv 已关闭 | 严重 | edge、autonomous-edge、public-cloud-gateway | Edge 节点加密驱动程序已关闭。 |
根据需要升级 Edge 节点。 |
3.0.0 |
Edge 数据路径 Mempool 使用率高 | 中等 | edge、autonomous-edge、public-cloud-gateway | Edge 节点数据路径 Mempool 使用率高。 |
以 root 用户身份登录,并调用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show 和 edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap 来检查 DPDK 内存使用率。 |
3.0.0 |
Edge 全局 ARP 表使用率高 | 中等 | edge、autonomous-edge、public-cloud-gateway | Edge 节点全局 ARP 表使用率高。 |
以 root 用户身份登录,并调用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show,然后检查 neigh 缓存使用率是否正常。如果正常,则调用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries 来增加 ARP 表大小。 |
3.0.0 |
Edge 网卡超出接收缓冲区 | 中等 | edge、autonomous-edge、public-cloud-gateway | Edge 节点网卡暂时出现接收环缓冲区不足问题。 |
在 Edge 节点上运行 NSX CLI 命令 get dataplane cpu stats,然后检查: |
3.0.0 |
Edge 网卡超出传输缓冲区 | 严重 | edge、autonomous-edge、public-cloud-gateway | Edge 节点网卡暂时出现发送环缓冲区不足问题。 |
1.如果除了 Edge 虚拟机之外,Hypervisor 还同时容纳了大量虚拟机,则可能没有时间来运行 Edge,为此,Hypervisor 可能不会检索任何数据包。在这种情况下,可以将 Edge 虚拟机迁移到具有较少虚拟机的主机。 |
3.0.0 |
Edge 网卡链路状态为已关闭 | 严重 | edge、autonomous-edge、public-cloud-gateway | Edge 节点网卡链路已关闭。 |
在 Edge 节点上,通过调用 NSX CLI 命令 get interfaces 来确认网卡链路是否已用物理方式关闭。如果已关闭,请验证电缆连接。 |
3.0.0 |
存储错误 | 严重 | edge、autonomous-edge、public-cloud-gateway | Edge 节点磁盘为只读。 |
检查只读分区,以确定重新引导是否解决了该问题,或者是否需要更换磁盘。有关更多信息,请联系 GSS。 |
3.0.1 |
数据路径线程已死锁 | 严重 | edge、autonomous-edge、public-cloud-gateway | Edge 节点的数据路径线程处于死锁状态。 |
通过调用 NSX CLI 命令 restart service dataplane 来重新启动数据平面服务。 |
3.1.0 |
Edge 数据路径网卡吞吐量非常高 | 严重 | edge、autonomous-edge、public-cloud-gateway | Edge 节点数据路径网卡吞吐量非常高。 |
检查网卡上的流量吞吐量水平,并确定是否需要更改配置。可以使用“get dataplane thoughput <seconds>”命令以监控吞吐量。 |
3.2.0 |
Edge 数据路径网卡吞吐量较高 | 中等 | edge、autonomous-edge、public-cloud-gateway | Edge 节点数据路径网卡吞吐量较高。 |
检查网卡上的流量吞吐量水平,并确定是否需要更改配置。可以使用“get dataplane thoughput <seconds>”命令以监控吞吐量。 |
3.2.0 |
故障域关闭 | 严重 | edge、public-cloud-gateway | 故障域的所有成员已关闭。 |
1.在由 {transport_node_id} 标识的 Edge 节点上,调用 NSX CLI 命令 get managers 和 get controllers 以检查到管理平面和控制平面的连接。 |
3.2.0 |
Micro 流量缓存命中率较低 | 中等 | edge、autonomous-edge、public-cloud-gateway | Micro 流量缓存命中率降低,数据路径 CPU 较高。 |
流量缓存命中率在过去 30 分钟内有所减少,这表明 Edge 性能可能会下降。流量将继续转发,您可能不会遇到任何问题。请检查 Edge {entity_id} 内核 {core_id} 的数据路径 CPU 占用率是否在过去 30 分钟内较高。在连续创建新流量时,Edge 的流量缓存命中率将较低,因为将使用任何新流量的第一个数据包来设置流量缓存以便快速处理路径。您可能需要增加 Edge 设备大小或增加用于活动/活动网关的 Edge 节点数。 |
3.2.2 |
Mega 流量缓存命中率较低 | 中等 | edge、autonomous-edge、public-cloud-gateway | Mega 流量缓存命中率降低,数据路径 CPU 较高。 |
流量缓存命中率在过去 30 分钟内有所减少,这表明 Edge 性能可能会下降。流量将继续转发,您可能不会遇到任何问题。请检查 Edge {entity_id} 内核 {core_id} 的数据路径 CPU 占用率是否在过去 30 分钟内较高。在连续创建新流量时,Edge 的流量缓存命中率将较低,因为将使用任何新流量的第一个数据包来设置流量缓存以便快速处理路径。您可能需要增加 Edge 设备大小或增加用于活动/活动网关的 Edge 节点数。 |
3.2.2 |
端点保护事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
EAM 状态关闭 | 严重 | manager | 计算管理器上的 ESX Agent Manager (EAM) 服务已关闭。 |
启动 ESX Agent Manager (EAM) 服务。请通过 SSH 连接到 vCenter 并调用命令 service vmware-eam start。 |
3.0.0 |
合作伙伴通道关闭 | 严重 | esx | 主机模块和合作伙伴 SVM 连接已断开。 |
请参阅 https://kb.vmware.com/s/article/85844,并确保已将合作伙伴 SVM {entity_id} 重新连接到主机模块。 |
3.0.0 |
联合事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
RTEP BGP 已关闭 | 高 | edge、autonomous-edge、public-cloud-gateway | RTEP BGP 邻居已关闭。 |
1.在受影响的 Edge 节点上调用 NSX CLI 命令 get logical-routers。 |
3.0.1 |
LM 到 LM 同步警告 | 中等 | manager | 远程位置之间的同步失败超过 3 分钟。 |
1.调用 NSX CLI 命令 get site-replicator remote-sites,以在远程位置之间获取连接状态。如果远程位置已连接但未同步,则该位置可能仍处于主解析过程中。在这种情况下,请等待大约 10 秒,然后再次尝试调用 CLI 以检查远程位置的状态。如果某个位置已断开连接,请尝试下一步。 |
3.0.1 |
LM 到 LM 同步错误 | 高 | manager | 远程位置之间的同步失败超过 15 分钟。 |
1.调用 NSX CLI 命令 get site-replicator remote-sites,以在远程位置之间获取连接状态。如果远程位置已连接但未同步,则该位置可能仍处于主解析过程中。在这种情况下,请等待大约 10 秒,然后再次尝试调用 CLI 以检查远程位置的状态。如果某个位置已断开连接,请尝试下一步。 |
3.0.1 |
RTEP 连接丢失 | 高 | manager | RTEP 位置连接已丢失。 |
1.在受影响的 Edge 节点 {transport_node_name} 上调用 NSX CLI 命令 get logical-routers。 |
3.0.2 |
GM 到 GM 脑裂 | 严重 | global-manager | 多个全局管理器节点同时处于活动状态。 |
仅将一个全局管理器节点配置为活动节点,而将所有其他全局管理器节点配置为备用节点。 |
3.1.0 |
GM 到 GM 延迟警告 | 中等 | global-manager | 全局管理器之间的延迟在超过 2 分钟的时间内高于预期水平。 |
通过 ping 检查从全局管理器 {from_gm_path}({site_id}) 到全局管理器 {to_gm_path}({remote_site_id}) 的连接。如果无法 ping 通,请检查 WAN 连接问题。 |
3.2.0 |
GM 到 GM 同步警告 | 中等 | global-manager | 活动全局管理器和备用全局管理器无法同步 |
通过 ping 检查从全局管理器 {from_gm_path}({site_id}) 到全局管理器 {to_gm_path}({remote_site_id}) 的连接。 |
3.2.0 |
GM 到 GM 同步错误 | 高 | global-manager | 活动全局管理器和备用全局管理器在超过 5 分钟的时间内无法同步 |
通过 ping 检查从全局管理器 {from_gm_path}({site_id}) 到全局管理器 {to_gm_path}({remote_site_id}) 的连接。 |
3.2.0 |
GM 到 LM 同步警告 | 中等 | global-manager、manager | 全局管理器 (GM) 和本地管理器 (LM) 之间的数据同步失败。 |
1.通过 ping 检查远程站点和本地站点之间的网络连接。 |
3.2.0 |
GM 到 LM 同步错误 | 高 | global-manager、manager | 全局管理器 (GM) 和本地管理器 (LM) 之间的数据同步长时间失败。 |
1.通过 ping 检查远程站点和本地站点之间的网络连接。 |
3.2.0 |
已超过队列占用阈值 | 中等 | manager、global-manager | “已超过队列占用大小阈值”警告。 |
由于与远程站点通信时出现问题或系统过载,队列大小可能会超过阈值。请检查系统性能和 /var/log/async-replicator/ar.log 以查看是否报告了任何错误。 |
3.2.0 |
GM 到 LM 延迟警告 | 中等 | global-manager、manager | 全局管理器和本地管理器之间的延迟在超过 2 分钟的时间内高于预期水平 |
1.通过 ping 检查远程站点和本地站点之间的网络连接。 |
3.2.0 |
正在导入配置时还原 LM | 高 | global-manager | 还原本地管理器,同时在全局管理器上进行配置导入。 |
1.登录 NSX 全局管理器设备 CLI。 |
3.2.0 |
网关防火墙事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
IP 流量计数高 | 中等 | edge、public-cloud-gateway | IP 流量的网关防火墙流量表使用率高。在使用率达到最大限制后,网关防火墙将丢弃新的流量。 |
在 Edge 节点上以 admin 用户身份登录,使用正确的接口 UUID 调用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,并检查 IP 流量的流量表使用率。检查通过网关传输的流量是否为 DOS 攻击或异常突发流量。如果流量似乎在正常负载范围内,但达到了警报阈值,请考虑增加警报阈值或将新的流量路由到另一个 Edge 节点。 |
3.1.3 |
已超过 IP 流量计数 | 严重 | edge、public-cloud-gateway | IP 流量的网关防火墙流量表已超出设置的阈值。在使用率达到最大限制后,网关防火墙将丢弃新的流量。 |
在 Edge 节点上以 admin 用户身份登录,使用正确的接口 UUID 调用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,并检查 IP 流量的流量表使用率。检查通过网关传输的流量是否为 DOS 攻击或异常突发流量。如果流量似乎在正常负载范围内,但达到了警报阈值,请考虑增加警报阈值或将新的流量路由到另一个 Edge 节点。 |
3.1.3 |
UDP 流量计数高 | 中等 | edge、public-cloud-gateway | UDP 流量的网关防火墙流量表使用率高。在使用率达到最大限制后,网关防火墙将丢弃新的流量。 |
在 Edge 节点上以 admin 用户身份登录,使用正确的接口 UUID 调用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,并检查 UDP 流量的流量表使用率。检查通过网关传输的流量是否为 DOS 攻击或异常突发流量。如果流量似乎在正常负载范围内,但达到了警报阈值,请考虑增加警报阈值或将新的流量路由到另一个 Edge 节点。 |
3.1.3 |
已超过 UDP 流量计数 | 严重 | edge、public-cloud-gateway | UDP 流量的网关防火墙流量表已超出设置的阈值。在使用率达到最大限制后,网关防火墙将丢弃新的流量。 |
在 Edge 节点上以 admin 用户身份登录,使用正确的接口 UUID 调用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,并检查 UDP 流量的流量表使用率。检查通过网关传输的流量是否为 DOS 攻击或异常突发流量。如果流量似乎在正常负载范围内,但达到了警报阈值,请考虑增加警报阈值或将新的流量路由到另一个 Edge 节点。 |
3.1.3 |
ICMP 流量计数高 | 中等 | edge、public-cloud-gateway | ICMP 流量的网关防火墙流量表使用率高。在使用率达到最大限制后,网关防火墙将丢弃新的流量。 |
在 Edge 节点上以 admin 用户身份登录,使用正确的接口 UUID 调用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,并检查 ICMP 流量的流量表使用率。检查通过网关传输的流量是否为 DOS 攻击或异常突发流量。如果流量似乎在正常负载范围内,但达到了警报阈值,请考虑增加警报阈值或将新的流量路由到另一个 Edge 节点。 |
3.1.3 |
已超过 ICMP 流量计数 | 严重 | edge、public-cloud-gateway | ICMP 流量的网关防火墙流量表已超出设置的阈值。在使用率达到最大限制后,网关防火墙将丢弃新的流量。 |
在 Edge 节点上以 admin 用户身份登录,使用正确的接口 UUID 调用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,并检查 ICMP 流量的流量表使用率。检查通过网关传输的流量是否为 DOS 攻击或异常突发流量。如果流量似乎在正常负载范围内,但达到了警报阈值,请考虑增加警报阈值或将新的流量路由到另一个 Edge 节点。 |
3.1.3 |
TCP 半打开流量计数高 | 中等 | edge、public-cloud-gateway | TCP 半开流量的网关防火墙流量表使用率高。在使用率达到最大限制后,网关防火墙将丢弃新的流量。 |
在 Edge 节点上以 admin 用户身份登录,使用正确的接口 UUID 调用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,并检查 TCP 半开流量的流量表使用率。检查通过网关传输的流量是否为 DOS 攻击或异常突发流量。如果流量似乎在正常负载范围内,但达到了警报阈值,请考虑增加警报阈值或将新的流量路由到另一个 Edge 节点。 |
3.1.3 |
已超过 TCP 半打开流量计数 | 严重 | edge、public-cloud-gateway | TCP 半开流量的网关防火墙流量表已超出设置的阈值。在使用率达到最大限制后,网关防火墙将丢弃新的流量。 |
在 Edge 节点上以 admin 用户身份登录,使用正确的接口 UUID 调用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,并检查 TCP 半开流量的流量表使用率。检查通过网关传输的流量是否为 DOS 攻击或异常突发流量。如果流量似乎在正常负载范围内,但达到了警报阈值,请考虑增加警报阈值或将新的流量路由到另一个 Edge 节点。 |
3.1.3 |
组事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
已超出组大小限制 | 中等 | manager | 已转换组元素的总数已超出最大限制。 |
1.考虑调整容量过大组 {group_id} 中的组元素。 |
4.1.0 |
高可用性事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
Tier-0 网关故障切换 | 高 | edge、autonomous-edge、public-cloud-gateway | Tier-0 网关已进行故障切换。 |
调用 NSX CLI 命令 get logical-router <service_router_id> 来确定 Tier-0 服务路由器 VRF ID。通过调用 vrf <vrf-id> 来切换到 VRF 上下文,然后调用 get high-availability status 来确定已关闭的服务。 |
3.0.0 |
Tier-1 网关故障切换 | 高 | edge、autonomous-edge、public-cloud-gateway | Tier-1 网关已进行故障切换。 |
调用 NSX CLI 命令 get logical-router <service_router_id> 来确定 Tier-1 服务路由器 VRF ID。通过调用 vrf <vrf-id> 来切换到 VRF 上下文,然后调用 get high-availability status 来确定已关闭的服务。 |
3.0.0 |
Tier-0 服务组故障切换 | 高 | edge、public-cloud-gateway | 服务组没有活动实例。 |
调用 NSX CLI 命令 get logical-router <service_router_id> service_group,以检查在给定服务路由器下配置的所有服务组。检查输出以了解服务组退出活动状态的原因。 |
4.0.1 |
Tier-1 服务组故障切换 | 高 | edge、public-cloud-gateway | 服务组没有活动实例。 |
调用 NSX CLI 命令 get logical-router <service_router_id> service_group,以检查在给定服务路由器下配置的所有服务组。检查输出以了解服务组退出活动状态的原因。 |
4.0.1 |
Tier-0 服务组减少冗余 | 中等 | edge、public-cloud-gateway | 服务组中的备用实例发生故障。 |
调用 NSX CLI 命令 get logical-router <service_router_id> service_group,以检查在给定服务路由器下配置的所有服务组。检查输出以了解之前备用服务组发生故障的原因。 |
4.0.1 |
Tier-1 服务组减少冗余 | 中等 | edge、public-cloud-gateway | 服务组中的备用实例发生故障。 |
调用 NSX CLI 命令 get logical-router <service_router_id> service_group,以检查在给定服务路由器下配置的所有服务组。检查输出以了解之前备用服务组发生故障的原因。 |
4.0.1 |
身份防火墙事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
与 LDAP 服务器的连接已断开 | 严重 | manager | 与 LDAP 服务器的连接丢失。 |
检查以下各项: |
3.1.0 |
增量同步出错 | 严重 | manager | 执行增量同步时出错。 |
1.检查是否存在任何与 LDAP 服务器的连接断开警报。 |
3.1.0 |
基础架构通信事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
Edge 隧道关闭 | 严重 | edge、public-cloud-gateway | Edge 节点的隧道状态为已关闭。 |
调用 NSX CLI 命令 get tunnel-ports 来获取所有隧道端口,然后通过调用 NSX CLI 命令 get tunnel-port <UUID> stats 来查看每个隧道的统计信息,以检查是否存在任何丢弃情况。另外,请检查 /var/log/syslog 以查看是否存在与隧道相关的任何错误。 |
3.0.0 |
基础架构服务事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
DPU 上的服务状态未知 | 严重 | dpu | DPU 上服务的状态异常。 |
通过调用 /etc/init.d/{service_name} status 来验证 DPU {dpu_id} 上的 {service_name} 服务是否仍处于运行状态。如果报告该服务处于运行状态,则可能需要重新启动该服务,此操作可通过调用 /etc/init.d/{service_name} restart 来完成。重新运行 status 命令以验证该服务现在是否处于运行状态。如果重新启动服务无法解决问题,或者成功重新启动后再次出现问题,请联系 VMware 技术支持团队。 |
4.0.0 |
服务状态未知 | 严重 | esx、kvm、bms、edge、manager、public-cloud-gateway、global-manager | 服务的状态异常。 |
通过调用 /etc/init.d/{service_name} status 来验证 {service_name} 服务是否仍处于运行状态。如果报告该服务处于运行状态,则可能需要重新启动该服务,此操作可通过调用 /etc/init.d/{service_name} restart 来完成。重新运行 status 命令以验证该服务现在是否处于运行状态。如果脚本 /etc/init.d/{service_name} 不可用,请使用 root 特权调用 systemctl {service_name} status,然后通过调用 systemctl {service_name} restart 来重新启动。如果重新启动服务无法解决问题,或者成功重新启动后再次出现问题,请联系 VMware 技术支持团队。 |
3.1.0 |
衡量指标交付失败 | 严重 | esx、bms、edge、manager、public-cloud-gateway、global-manager | 无法将衡量指标交付给指定目标。 |
用户应执行以下检查,以排查故障问题:1.检查传递以进行连接的目标连接地址 {metrics_target_address} 和端口 {metrics_target_port}(如果未指定端口,则默认端口为 443)是否为预期目标;2.调用 /opt/vmware/nsx-nestdb/bin/nestdb-cli --cmd 'put vmware.nsx.nestdb.CommonAgentHostConfigMsg' 以检查证书是否正确;3.检查目标 {metrics_target_address} 是否可访问;4.调用 docker ps | grep metrics_manager 以检查目标 {metrics_target_address} 上的衡量指标管理器是否正在运行;5.在目标上调用 netstat -a | grep {metrics_target_port} 以检查端口 {metrics_target_port} 是否已打开;6.调用 iptables -S OUTPUT | grep {metrics_target_port} (EDGE/UA) 或 localcli network firewall ruleset list | grep nsx-sha-tsdb (ESX) 以检查是否在节点上安装了“允许”防火墙规则;7.调用 /etc/init.d/netopa restart (ESX)、/etc/init.d/nsx-netopa restart (EDGE) 或 /etc/init.d/nsx-sha restart (UA) 以重新启动 SHA 守护进程,从而确定问题是否可以得到解决。 |
4.1.0 |
Edge 服务状态关闭 | 严重 | edge、autonomous-edge、public-cloud-gateway | Edge 服务至少关闭了一分钟。 |
在 Edge 节点上,通过在 /var/log/core 目录中查找核心文件,验证服务是否因出现错误而未退出。另外,调用 NSX CLI 命令 get services 来确认服务是否已停止。如果已停止,请调用 start service <service-name> 来重新启动该服务。 |
3.0.0 |
Edge 服务状态已更改 | 中等 | edge、autonomous-edge、public-cloud-gateway | Edge 服务状态已更改。 |
在 Edge 节点上,通过在 /var/log/core 目录中查找核心文件,验证服务是否因出现错误而未退出。另外,调用 NSX CLI 命令 get services 来确认服务是否已停止。如果已停止,请调用 start service <service-name> 来重新启动该服务。 |
3.0.0 |
应用程序崩溃 | 严重 | global-manager、autonomous-edge、bms、edge、esx、kvm、manager、public-cloud-gateway | 应用程序已崩溃并生成核心转储。 |
使用 NSX Manager UI 或 API 收集 NSX 节点 {node_display_or_host_name} 的支持包。请注意,可以将核心转储设置为移动或复制到 NSX 技术支持包中,以便移除或保留节点上的本地副本。包含核心转储文件的支持包副本对于 VMware 技术支持团队进行问题故障排除至关重要,建议最好先保存包含核心转储文件的技术支持包的最新副本,然后再从系统中移除核心转储文件。有关更多详细信息,请参阅知识库文章。 |
4.0.0 |
Intelligence 通信事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
TN 流量导出程序已断开连接 | 高 | esx、kvm、bms | 传输节点已与其 Intelligence 节点的消息代理断开连接。数据收集将受到影响。 |
如果消息传递服务未在 Intelligence 节点中运行,请重新启动该服务。解决传输节点流量导出程序与 Intelligence 节点之间的网络连接故障。 |
3.0.0 |
Intelligence 运行状况事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
CPU 使用率非常高 | 严重 | manager、intelligence | Intelligence 节点 CPU 使用率非常高。 |
使用 top 命令检查哪些进程的 CPU 使用率最高,然后检查 /var/log/syslog 和这些进程的本地日志,以查看是否存在任何有待解决的错误。 |
3.0.0 |
CPU 使用率高 | 中等 | manager、intelligence | Intelligence 节点 CPU 使用率高。 |
使用 top 命令检查哪些进程的 CPU 使用率最高,然后检查 /var/log/syslog 和这些进程的本地日志,以查看是否存在任何有待解决的错误。 |
3.0.0 |
内存使用率非常高 | 严重 | manager、intelligence | Intelligence 节点内存使用率非常高。 |
使用 top 命令检查哪些进程的内存使用率最高,然后检查 /var/log/syslog 和这些进程的本地日志,以查看是否存在任何有待解决的错误。 |
3.0.0 |
内存使用率高 | 中等 | manager、intelligence | Intelligence 节点内存使用率高。 |
使用 top 命令检查哪些进程的内存使用率最高,然后检查 /var/log/syslog 和这些进程的本地日志,以查看是否存在任何有待解决的错误。 |
3.0.0 |
磁盘使用率非常高 | 严重 | manager、intelligence | Intelligence 节点磁盘使用率非常高。 |
检查磁盘分区{disk_partition_name},查看是否有任何不需要的大文件可以移除。 |
3.0.0 |
磁盘使用率高 | 中等 | manager、intelligence | Intelligence 节点磁盘使用率高。 |
检查磁盘分区{disk_partition_name},查看是否有任何不需要的大文件可以移除。 |
3.0.0 |
数据磁盘分区使用率非常高 | 严重 | manager、intelligence | Intelligence 节点数据磁盘分区使用率非常高。 |
停止 NSX Intelligence 数据收集,直到磁盘使用率低于阈值为止。在 NSX UI 中,导航到“系统”|“设备”|“NSX Intelligence 设备”,然后单击“操作”并选择“停止收集数据”。 |
3.0.0 |
数据磁盘分区使用率高 | 中等 | manager、intelligence | Intelligence 节点数据磁盘分区使用率高。 |
停止 NSX Intelligence 数据收集,直到磁盘使用率低于阈值为止。检查磁盘分区 /data,查看是否有任何不需要的大文件可以移除。 |
3.0.0 |
存储延迟高 | 中等 | manager、intelligence | Intelligence 节点存储延迟高。 |
由于 I/O 请求数量达到峰值,可能会发生短暂的高存储延迟。如果存储延迟保持较高状态超过 30 分钟,请考虑在低延迟磁盘中部署 NSX Intelligence 设备,或者不要与其他虚拟机共享同一存储设备。 |
3.1.0 |
节点状态已降级 | 高 | manager、intelligence | Intelligence 节点状态为已降级。 |
调用 NSX API:GET /napp/api/v1/platform/monitor/category/health 以检查哪个特定 Pod 已关闭及其背后的原因。调用以下 CLI 命令以重新启动已降级的服务:kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> |
3.0.0 |
IPAM 事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
IP 块使用率非常高 | 中等 | manager | IP 块使用率非常高。 |
查看 IP 块使用情况。使用新的 IP 块创建资源,或者删除 IP 块中未使用的 IP 子网。要查看用于 IP 块的子网,请在 NSX UI 中导航到“网络”|“IP 地址池”|“IP 地址池”选项卡。选择使用 IP 块的 IP 池,然后在 UI 中查看“子网”和“分配的 IP”列。如果 IP 池未使用分配的 IP,并且以后也不会使用,请删除子网或 IP 池。请使用以下 API 检查 IP 块是否正由 IP 池使用,并检查是否进行了任何 IP 分配:要获取 IP 池的已配置子网,请调用 NSX API GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-subnets;要获取 IP 分配,请调用 NSX API GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations。注意:仅当 IP 池/子网没有任何已分配的 IP 且将来也不会使用时,才应删除 IP 池/子网。 |
3.1.2 |
IP 池使用率非常高 | 中等 | manager | IP 池使用率非常高。 |
查看 IP 池使用情况。从 IP 池释放未使用的 IP 分配,或者创建新的 IP 池并使用该池。从 NSX UI 导航到“网络”|“IP 地址池”|“IP 地址池”选项卡。选择 IP 池并查看“已分配的 IP”列,此列将显示从 IP 池分配的 IP。如果用户看到未使用任何 IP,则可以释放这些 IP。要释放未使用的 IP 分配,请调用 NSX API DELETE /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations/<ip-allocation> |
3.1.2 |
许可证事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
许可证已过期 | 严重 | global-manager、manager | 许可证已过期。 |
使用 NSX UI 添加未过期的新许可证,方法是:导航到“系统”|“许可证”,然后单击“添加”并指定新许可证的密钥。应通过选中许可证复选框,然后单击“删除”来删除已过期的许可证。 |
3.0.0 |
许可证就要过期 | 中等 | global-manager、manager | 许可证就要过期。 |
许可证即将在几天后过期,请计划使用 NSX UI 添加非即将过期的新许可证,方法是:导航到“系统”|“许可证”,然后单击“添加”并指定新许可证的密钥。应通过选中许可证复选框,然后单击“删除”来删除已过期的许可证。 |
3.0.0 |
负载均衡器事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
LB CPU 使用率非常高 | 中等 | Edge | 负载均衡器 CPU 使用率非常高。 |
如果负载均衡器的 CPU 占用率高于系统占用率阈值,则表示此负载均衡器的工作负载过高。通过将负载均衡器大小从小型更改为中型或从中型更改为大型,重新调整负载均衡器服务。如果此负载均衡器的 CPU 占用率仍然很高,请考虑调整 Edge 设备的规格大小,或将负载均衡器服务移至其他 Edge 节点以提供适用工作负载。 |
3.0.0 |
LB 状态降级 | 中等 | manager | 负载均衡器服务已降级。 |
对于集中式负载均衡器:检查备用 Edge 节点上的负载均衡器状态,因为降级状态意味着备用 Edge 节点上的负载均衡器处于未就绪状态。在备用 Edge 节点上,调用 NSX CLI 命令 get load-balancer <lb-uuid> status。如果负载均衡器服务的 LB-State 是 not_ready 或没有输出,请将 Edge 节点置于维护模式,然后再退出维护模式。对于分布式负载均衡器: |
3.1.2 |
DLB 状态为已关闭 | 严重 | manager | 分布式负载均衡器服务已关闭。 |
在 ESXi 主机节点上,调用 NSX CLI 命令“get load-balancer <lb-uuid> status”。如果报告“冲突 LSP”(Conflict LSP),请检查该 LSP 是否连接到其他负载均衡器服务。请检查该冲突是否可以接受。如果报告“未就绪 LSP”(Not Ready LSP),请调用 NSX CLI 命令 get logical-switch-port status 以检查该 LSP 的状态。 |
3.1.2 |
LB 状态为已关闭 | 严重 | Edge | 集中式负载均衡器服务已关闭。 |
在活动 Edge 节点上,调用 NSX CLI 命令 get load-balancer <lb-uuid> status 以检查负载均衡器状态。如果负载均衡器服务的 LB-State 是 not_ready 或没有输出,请将 Edge 节点置于维护模式,然后再退出维护模式。 |
3.0.0 |
虚拟服务器状态为已关闭 | 中等 | Edge | 负载均衡器虚拟服务已关闭。 |
查看负载均衡器池以确定其状态并验证其配置。如果配置不正确,请重新配置,并从虚拟服务器中移除负载均衡器池,然后再次将其重新添加到虚拟服务器。 |
3.0.0 |
池状态为已关闭 | 中等 | edge | 负载均衡器池已关闭。 |
通过调用 NSX CLI 命令 get load-balancer <lb-uuid> pool <pool-uuid> status 或 NSX API:GET /policy/api/v1/infra/lb-services/<lb-service-id>/lb-pools/<lb-pool-id>/detailed-status,查询负载均衡器池以确定哪些成员处于关闭状态。如果报告的状态为“关闭”或“未知”,请验证池成员。检查负载均衡器与受影响的池成员的网络连接。验证每个池成员的应用程序运行状况。此外,还可以使用已配置的监控器来验证每个池成员的运行状况。建立成员的运行状况后,池成员状态将根据监控器中的“成功检查计数”配置更新为正常。通过重新引导池成员或使 Edge 节点进入维护模式,然后退出维护模式来修复此问题。 |
3.0.0 |
LB Edge 容量使用率高 | 中等 | edge | 负载均衡器使用率较高。 |
如果在此 Edge 节点中配置了多个 LB 实例,请部署新的 Edge 节点,并将一些 LB 实例移到该新的 Edge 节点。如果在相同大小(小型/中型/等)的 Edge 节点中仅配置了单个 LB 实例(小型/中型/等),请部署一个更大的新 Edge,并将 LB 实例移到该新的 Edge 节点。 |
3.1.2 |
LB 池成员容量使用率非常高 | 严重 | edge | 负载均衡器池成员使用率非常高。 |
部署新的 Edge 节点,并将负载均衡器服务从现有 Edge 节点移动到新部署的 Edge 节点。 |
3.1.2 |
由于内存不足,未实现负载均衡配置 | 中等 | edge | 由于 Edge 节点上的内存使用率高,未实现负载均衡器配置。 |
优先定义中小型负载均衡器,而不是大型负载均衡器。在可用的 Edge 节点之间分散负载均衡器服务。减少定义的虚拟服务器数。 |
3.2.0 |
恶意软件防护运行状况事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
服务状态关闭 | 高 | manager | 服务状态为“关闭”。 |
1.在 {nsx_edge_tn_name} 标识的 Edge 节点上,调用 NSX CLI get services 以检查 {mps_service_name} 的状态。检查 /var/log/syslog 以查找任何可疑错误。 |
4.0.1 |
文件提取服务无法访问 | 高 | manager | 服务状态为“已降级”。 |
1.在 {nsx_edge_tn_name} 标识的 Edge 节点上,调用 NSX CLI get ids engine status 以检查 file_extraction (IDS) 服务的状态。检查 /var/log/syslog 以查找包含文件提取 (IDS) 服务和/或 {mps_service_name} 的任何可疑错误。 |
4.0.1 |
数据库无法访问 | 高 | manager | 服务状态为“已降级”。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”以检查哪个服务已降级。调用 NSX API:GET /napp/api/v1/platform/monitor/feature/health 以检查哪个特定服务已关闭及其背后的原因。调用以下 CLI 命令以重新启动已降级的服务:kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>。请确定恶意软件防护数据库服务的状态。 |
4.0.1 |
分析人员 API 服务无法访问 | 高 | manager | 服务状态为“已降级”。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”以检查哪个服务已降级。调用 NSX API:GET /napp/api/v1/platform/monitor/feature/health 以检查哪个特定服务已关闭及其背后的原因。调用以下 CLI 命令以重新启动已降级的服务:kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>。请确定恶意软件防护云连接器服务的状态。 |
4.0.1 |
NTICS 信誉服务无法访问 | 高 | manager | 服务状态为“已降级”。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”以检查哪个服务已降级。调用 NSX API:GET /napp/api/v1/platform/monitor/feature/health 以检查哪个特定服务已关闭及其背后的原因。调用以下 CLI 命令以重新启动已降级的服务:kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>。请确定对 NTICS 服务的访问是否已关闭。 |
4.1.0 |
管理器运行状况事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
管理器 CPU 使用率非常高 | 严重 | global-manager、manager | 管理器节点 CPU 使用率非常高。 |
查看此管理器节点的配置、正在运行的服务和大小。考虑调整管理器设备的规格大小。 |
3.0.0 |
管理器 CPU 使用率高 | 中等 | global-manager、manager | 管理器节点 CPU 使用率高。 |
查看此管理器节点的配置、正在运行的服务和大小。考虑调整管理器设备的规格大小。 |
3.0.0 |
管理器内存使用率非常高 | 严重 | global-manager、manager | 管理器节点内存使用率非常高。 |
查看此管理器节点的配置、正在运行的服务和大小。考虑调整管理器设备的规格大小。 |
3.0.0 |
管理器内存使用率高 | 中等 | global-manager、manager | 管理器节点内存使用率高。 |
查看此管理器节点的配置、正在运行的服务和大小。考虑调整管理器设备的规格大小。 |
3.0.0 |
管理器磁盘使用率非常高 | 严重 | global-manager、manager | 管理器节点磁盘使用率非常高。 |
检查具有高使用率的分区,查看是否有任何不需要的大文件可以移除。 |
3.0.0 |
管理器磁盘使用率高 | 中等 | global-manager、manager | 管理器节点磁盘使用率高。 |
检查具有高使用率的分区,查看是否有任何不需要的大文件可以移除。 |
3.0.0 |
管理器配置磁盘使用率非常高 | 严重 | global-manager、manager | 管理器节点配置磁盘使用率非常高。 |
运行工具 /opt/vmware/tools/support/inspect_checkpoint_issues.py,如果报告任何问题,请联系 GSS |
3.0.0 |
管理器配置磁盘使用率高 | 中等 | global-manager、manager | 管理器节点配置磁盘使用率高。 |
运行工具 /opt/vmware/tools/support/inspect_checkpoint_issues.py,如果报告任何问题,请联系 GSS |
3.0.0 |
操作数据库磁盘使用率非常高 | 严重 | manager | 管理器节点 nonconfig 磁盘使用率非常高。 |
运行工具 /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig,如果报告任何问题,请联系 GSS |
3.0.1 |
操作数据库磁盘使用率高 | 中等 | manager | 管理器节点 nonconfig 磁盘使用率高。 |
运行工具 /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig,如果报告任何问题,请联系 GSS |
3.0.1 |
重复的 IP 地址 | 中等 | manager | 另一个设备正在使用管理器节点的 IP 地址。 |
1.确定使用管理器 IP 地址的设备,并为该设备分配一个新 IP 地址。请注意,不支持将管理器重新配置为使用新 IP 地址。 |
3.0.0 |
存储错误 | 严重 | global-manager、manager | 管理器节点磁盘为只读。 |
检查只读分区,以确定重新引导是否解决了该问题,或者是否需要更换磁盘。有关更多信息,请联系 GSS。 |
3.0.2 |
管理器 FQDN 缺少 DNS 条目 | 严重 | global-manager、manager | 缺少管理器 FQDN 的 DNS 条目。 |
1.确保在管理器节点中正确配置了 DNS 服务器。 |
4.1.0 |
VIP FQDN 缺少 DNS 条目 | 严重 | manager | 缺少管理器 VIP FQDN 条目。 |
检查 VIP 地址的 DNS 条目,以查看它们是否解析为相同的 FQDN。 |
4.1.0 |
MTU 检查事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
传输区域中的 MTU 不匹配 | 高 | manager | 连接到同一传输区域的传输节点之间的 MTU 配置不匹配。 |
1.在 NSX UI 上导航到“系统”|“Fabric”|“设置”|“MTU 配置检查”|“不一致”,以查看更多不匹配详细信息。 |
3.2.0 |
全局路由器 MTU 太大 | 中等 | manager | 全局路由器 MTU 配置大于覆盖网络传输区域的 MTU。 |
1.在 NSX UI 上导航到“系统”|“Fabric”|“设置”|“MTU 配置检查”|“不一致”,以查看更多不匹配详细信息。 |
3.2.0 |
NAT 事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
网关上的 SNAT 端口使用率高 | 严重 | edge、public-cloud-gateway | 网关上的 SNAT 端口使用率高。 |
在 Edge 节点上以 admin 用户身份登录,使用正确的接口 UUID 调用 NSX CLI 命令 get firewall <LR_INT_UUID> connection state,并检查 SNAT IP {snat_ip_address} 的各种 SNAT 映射。检查通过网关传输的流量是否为拒绝服务攻击或异常突发流量。如果流量似乎在正常负载范围内,但达到了警报阈值,请考虑增加更多 SNAT IP 地址以分配负载,或将新的流量路由到另一个 Edge 节点。 |
3.2.0 |
NCP 运行状况事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
NCP 插件已关闭 | 严重 | manager | 管理器节点已检测到 NCP 已关闭或状态不正常。 |
要查找存在问题的集群,请使用 NSX UI 并导航到“警报”页面。该警报实例的“实体”名称值标识了集群名称。或者,也可以调用 NSX API:GET /api/v1/systemhealth/container-cluster/ncp/status,以获取所有集群状态并确定报告了“关闭”或“未知”状态的所有集群的名称。然后,在 NSX UI 的“清单”|“容器”|“集群”页面上,按名称找到相应集群,并单击列出了所有 Kubernetes 和 PAS 集群成员的“节点”选项卡。对于 Kubernetes 集群: |
3.0.0 |
节点代理运行状况事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
DPU 上的节点代理已关闭 | 高 | dpu | 在节点虚拟机内运行的代理似乎已在 DPU 上关闭。 |
1.如果 DPU {dpu_id} 上缺少 Vmk50,请参阅以下知识库文章:https://kb.vmware.com/s/article/67432。 |
4.0.0 |
节点代理已关闭 | 高 | esx、kvm | 在节点虚拟机内运行的代理似乎已关闭。 |
对于 ESX: |
3.0.0 |
NSX Application Platform 通信事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
管理器已断开连接 | 高 | manager、intelligence | NSX Application Platform 集群已与 NSX 管理集群断开连接。 |
检查 NSX Manager 和 NSX Application Platform 集群上的管理器集群证书、管理器节点证书、kafka 证书和 ingress 证书是否匹配。检查上述证书的过期日期以确保这些证书有效。检查 NSX Manager 和 NSX Application Platform 集群之间的网络连接,并解决任何网络连接故障。 |
3.2.0 |
在消息传递原始流量中检测到延迟 | 严重 | manager、intelligence | 在消息传递主题“原始流量”中检测到数据处理缓慢。 |
添加节点,然后纵向扩展 NSX Application Platform 集群。如果瓶颈归因于特定的服务(例如,分析服务),则在添加新节点时纵向扩展该特定服务。 |
3.2.0 |
在消息传递溢出流量中检测到延迟 | 严重 | manager、intelligence | 在消息传递主题“溢出流量”中检测到数据处理缓慢。 |
添加节点,然后纵向扩展 NSX Application Platform 集群。如果瓶颈归因于特定的服务(例如,分析服务),则在添加新节点时纵向扩展该特定服务。 |
3.2.0 |
TN 流量导出程序已断开连接 | 高 | esx、kvm、bms | 传输节点已与其 NSX Application Platform 集群的消息代理断开连接。数据收集将受到影响。 |
如果消息传递服务未在 NSX Application Platform 集群中运行,请重新启动该服务。解决传输节点流量导出程序与 NSX Application Platform 集群之间的网络连接故障。 |
3.2.0 |
TN 流量导出程序已在 DPU 上断开连接 | 高 | dpu | 传输节点已与其 Intelligence 节点的消息代理断开连接。DPU 上的数据收集将受到影响。 |
如果消息传递服务未在 Intelligence 节点中运行,请重新启动该服务。解决传输节点流量导出程序与 Intelligence 节点之间的网络连接故障。 |
4.0.0 |
NSX Application Platform 运行状况事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
集群 CPU 使用率非常高 | 严重 | manager、intelligence | NSX Application Platform 集群 CPU 使用率非常高。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”,然后检查各个服务的“系统负载”字段以查看哪个服务的负载较高。查看是否可以减少负载。如果需要更多计算能力,请单击“横向扩展”按钮以请求更多资源。 |
3.2.0 |
集群 CPU 使用率高 | 中等 | manager、intelligence | NSX Application Platform 集群 CPU 使用率高。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”,然后检查各个服务的“系统负载”字段以查看哪个服务的负载较高。查看是否可以减少负载。如果需要更多计算能力,请单击“横向扩展”按钮以请求更多资源。 |
3.2.0 |
集群内存使用率非常高 | 严重 | manager、intelligence | NSX Application Platform 集群内存使用率非常高。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”,然后检查各个服务的“内存”字段以查看哪个服务的负载较高。查看是否可以减少负载。如果需要更多内存,请单击“横向扩展”按钮以请求更多资源。 |
3.2.0 |
集群内存使用率高 | 中等 | manager、intelligence | NSX Application Platform 集群内存使用率高。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”,然后检查各个服务的“内存”字段以查看哪个服务的负载较高。查看是否可以减少负载。如果需要更多内存,请单击“横向扩展”按钮以请求更多资源。 |
3.2.0 |
集群磁盘使用率非常高 | 严重 | manager、intelligence | NSX Application Platform 集群磁盘使用率非常高。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”,然后检查各个服务的“存储”字段以查看哪个服务的负载较高。查看是否可以减少负载。如果需要更多磁盘存储,请单击“横向扩展”按钮以请求更多资源。如果数据存储服务的负载较高,另一种方法是单击“纵向扩展”按钮以增加磁盘大小。 |
3.2.0 |
集群磁盘使用率高 | 中等 | manager、intelligence | NSX Application Platform 集群磁盘使用率高。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”,然后检查各个服务的“存储”字段以查看哪个服务的负载较高。查看是否可以减少负载。如果需要更多磁盘存储,请单击“横向扩展”按钮以请求更多资源。如果数据存储服务的负载较高,另一种方法是单击“纵向扩展”按钮以增加磁盘大小。 |
3.2.0 |
NAPP 状态为已降级 | 中等 | manager、intelligence | NSX Application Platform 集群整体状态为“已降级”。 |
从节点和服务警报中获取更多信息。 |
3.2.0 |
NAPP 状态为已关闭 | 高 | manager、intelligence | NSX Application Platform 集群整体状态为“关闭”。 |
从节点和服务警报中获取更多信息。 |
3.2.0 |
节点 CPU 使用率非常高 | 严重 | manager、intelligence | NSX Application Platform 节点 CPU 使用率非常高。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”,然后检查各个服务的“系统负载”字段以查看哪个服务的负载较高。查看是否可以减少负载。如果只有一小部分节点具有较高的 CPU 使用率,默认情况下,Kubernetes 将自动重新计划服务。如果大多数节点具有较高的 CPU 使用率,并且无法减少负载,请单击“横向扩展”按钮以请求更多资源。 |
3.2.0 |
节点 CPU 使用率高 | 中等 | manager、intelligence | NSX Application Platform 节点 CPU 使用率高。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”,然后检查各个服务的“系统负载”字段以查看哪个服务的负载较高。查看是否可以减少负载。如果只有一小部分节点具有较高的 CPU 使用率,默认情况下,Kubernetes 将自动重新计划服务。如果大多数节点具有较高的 CPU 使用率,并且无法减少负载,请单击“横向扩展”按钮以请求更多资源。 |
3.2.0 |
节点内存使用率非常高 | 严重 | manager、intelligence | NSX Application Platform 节点内存使用率非常高。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”,然后检查各个服务的“内存”字段以查看哪个服务的负载较高。查看是否可以减少负载。如果只有一小部分节点具有较高的内存使用率,默认情况下,Kubernetes 将自动重新计划服务。如果大多数节点具有较高的内存使用率,并且无法减少负载,请单击“横向扩展”按钮以请求更多资源。 |
3.2.0 |
节点内存使用率高 | 中等 | manager、intelligence | NSX Application Platform 节点内存使用率高。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”,然后检查各个服务的“内存”字段以查看哪个服务的负载较高。查看是否可以减少负载。如果只有一小部分节点具有较高的内存使用率,默认情况下,Kubernetes 将自动重新计划服务。如果大多数节点具有较高的内存使用率,并且无法减少负载,请单击“横向扩展”按钮以请求更多资源。 |
3.2.0 |
节点磁盘使用率非常高 | 严重 | manager、intelligence | NSX Application Platform 节点磁盘使用率非常高。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”,然后检查各个服务的“存储”字段以查看哪个服务的负载较高。清理未使用的数据或日志以释放磁盘资源,并查看是否可以减少负载。如果需要更多磁盘存储,请横向扩展负载较高的服务。如果数据存储服务的负载较高,另一种方法是单击“纵向扩展”按钮以增加磁盘大小。 |
3.2.0 |
节点磁盘使用率高 | 中等 | manager、intelligence | NSX Application Platform 节点磁盘使用率高。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”,然后检查各个服务的“存储”字段以查看哪个服务的负载较高。清理未使用的数据或日志以释放磁盘资源,并查看是否可以减少负载。如果需要更多磁盘存储,请横向扩展负载较高的服务。如果数据存储服务的负载较高,另一种方法是单击“纵向扩展”按钮以增加磁盘大小。 |
3.2.0 |
节点状态已降级 | 中等 | manager、intelligence | NSX Application Platform 节点状态为“已降级”。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“资源”以检查哪个节点已降级。检查节点的网络、内存和 CPU 使用率。如果节点是工作节点,请重新引导该节点。 |
3.2.0 |
节点状态关闭 | 高 | manager、intelligence | NSX Application Platform 节点状态为“关闭”。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“资源”以检查哪个节点已关闭。检查节点的网络、内存和 CPU 使用率。如果节点是工作节点,请重新引导该节点。 |
3.2.0 |
数据存储 CPU 使用率非常高 | 严重 | manager、intelligence | 数据存储服务 CPU 使用率非常高。 |
横向扩展所有服务或数据存储服务。 |
3.2.0 |
数据存储 CPU 使用率高 | 中等 | manager、intelligence | 数据存储服务 CPU 使用率高。 |
横向扩展所有服务或数据存储服务。 |
3.2.0 |
消息传递 CPU 使用率非常高 | 严重 | manager、intelligence | 消息传递服务 CPU 使用率非常高。 |
横向扩展所有服务或消息传递服务。 |
3.2.0 |
消息传递 CPU 使用率高 | 中等 | manager、intelligence | 消息传递服务 CPU 使用率高。 |
横向扩展所有服务或消息传递服务。 |
3.2.0 |
配置数据库 CPU 使用率非常高 | 严重 | manager、intelligence | 配置数据库服务 CPU 使用率非常高。 |
横向扩展所有服务。 |
3.2.0 |
配置数据库 CPU 使用率高 | 中等 | manager、intelligence | 配置数据库服务 CPU 使用率高。 |
横向扩展所有服务。 |
3.2.0 |
衡量指标 CPU 使用率非常高 | 严重 | manager、intelligence | 衡量指标服务 CPU 使用率非常高。 |
横向扩展所有服务。 |
3.2.0 |
衡量指标 CPU 使用率高 | 中等 | manager、intelligence | 衡量指标服务 CPU 使用率高。 |
横向扩展所有服务。 |
3.2.0 |
分析 CPU 使用率非常高 | 严重 | manager、intelligence | 分析服务 CPU 使用率非常高。 |
横向扩展所有服务或分析服务。 |
3.2.0 |
分析 CPU 使用率高 | 中等 | manager、intelligence | 分析服务 CPU 使用率高。 |
横向扩展所有服务或分析服务。 |
3.2.0 |
平台 CPU 使用率非常高 | 严重 | manager、intelligence | 平台服务 CPU 使用率非常高。 |
横向扩展所有服务。 |
3.2.0 |
平台 CPU 使用率高 | 中等 | manager、intelligence | 平台服务 CPU 使用率高。 |
横向扩展所有服务。 |
3.2.0 |
数据存储内存使用率非常高 | 严重 | manager、intelligence | 数据存储服务内存使用率非常高。 |
横向扩展所有服务或数据存储服务。 |
3.2.0 |
数据存储内存使用率高 | 中等 | manager、intelligence | 数据存储服务内存使用率高。 |
横向扩展所有服务或数据存储服务。 |
3.2.0 |
消息传递内存使用率非常高 | 严重 | manager、intelligence | 消息传递服务内存使用率非常高。 |
横向扩展所有服务或消息传递服务。 |
3.2.0 |
消息传递内存使用率高 | 中等 | manager、intelligence | 消息传递服务内存使用率高。 |
横向扩展所有服务或消息传递服务。 |
3.2.0 |
配置数据库内存使用率非常高 | 严重 | manager、intelligence | 配置数据库服务内存使用率非常高。 |
横向扩展所有服务。 |
3.2.0 |
配置数据库内存使用率高 | 中等 | manager、intelligence | 配置数据库服务内存使用率高。 |
横向扩展所有服务。 |
3.2.0 |
衡量指标内存使用率非常高 | 严重 | manager、intelligence | 衡量指标服务内存使用率非常高。 |
横向扩展所有服务。 |
3.2.0 |
衡量指标内存使用率高 | 中等 | manager、intelligence | 衡量指标服务内存使用率高。 |
横向扩展所有服务。 |
3.2.0 |
分析内存使用率非常高 | 严重 | manager、intelligence | 分析服务内存使用率非常高。 |
横向扩展所有服务或分析服务。 |
3.2.0 |
分析内存使用率高 | 中等 | manager、intelligence | 分析服务内存使用率高。 |
横向扩展所有服务或分析服务。 |
3.2.0 |
平台内存使用率非常高 | 严重 | manager、intelligence | 平台服务内存使用率非常高。 |
横向扩展所有服务。 |
3.2.0 |
平台内存使用率高 | 中等 | manager、intelligence | 平台服务内存使用率高。 |
横向扩展所有服务。 |
3.2.0 |
数据存储磁盘使用率非常高 | 严重 | manager、intelligence | 数据存储服务磁盘使用率非常高。 |
横向扩展或纵向扩展数据存储服务。 |
3.2.0 |
数据存储磁盘使用率高 | 中等 | manager、intelligence | 数据存储服务磁盘使用率高。 |
横向扩展或纵向扩展数据存储服务。 |
3.2.0 |
消息传递磁盘使用率非常高 | 严重 | manager、intelligence | 消息传递服务磁盘使用率非常高。 |
清理不需要的文件。横向扩展所有服务或消息传递服务。 |
3.2.0 |
消息传递磁盘使用率高 | 中等 | manager、intelligence | 消息传递服务磁盘使用率高。 |
清理不需要的文件。横向扩展所有服务或消息传递服务。 |
3.2.0 |
配置数据库磁盘使用率非常高 | 严重 | manager、intelligence | 配置数据库服务磁盘使用率非常高。 |
清理不需要的文件。横向扩展所有服务。 |
3.2.0 |
配置数据库磁盘使用率高 | 中等 | manager、intelligence | 配置数据库服务磁盘使用率高。 |
清理不需要的文件。横向扩展所有服务。 |
3.2.0 |
衡量指标磁盘使用率非常高 | 严重 | manager、intelligence | 衡量指标服务磁盘使用率非常高。 |
清理不需要的文件。横向扩展所有服务。 |
3.2.0 |
衡量指标磁盘使用率高 | 中等 | manager、intelligence | 衡量指标服务磁盘使用率高。 |
清理不需要的文件。横向扩展所有服务。 |
3.2.0 |
分析磁盘使用率非常高 | 严重 | manager、intelligence | 分析服务磁盘使用率非常高。 |
清理不需要的文件。横向扩展所有服务或分析服务。 |
3.2.0 |
分析磁盘使用率高 | 中等 | manager、intelligence | 分析服务磁盘使用率高。 |
清理不需要的文件。横向扩展所有服务或分析服务。 |
3.2.0 |
平台磁盘使用率非常高 | 严重 | manager、intelligence | 平台服务磁盘使用率非常高。 |
清理不需要的文件。横向扩展所有服务。 |
3.2.0 |
平台磁盘使用率高 | 中等 | manager、intelligence | 平台服务磁盘使用率高。 |
清理不需要的文件。横向扩展所有服务。 |
3.2.0 |
服务状态已降级 | 中等 | manager、intelligence | 服务状态为“已降级”。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”以检查哪个服务已降级。调用 NSX API:GET /napp/api/v1/platform/monitor/feature/health 以检查哪个特定服务已降级及其背后的原因。如有必要,调用以下 CLI 命令以重新启动已降级的服务:kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>。已降级的服务可以正常运行,但性能欠佳。 |
3.2.0 |
服务状态关闭 | 高 | manager、intelligence | 服务状态为“关闭”。 |
在 NSX UI 中,导航到“系统”|“NSX Application Platform”|“核心服务”以检查哪个服务已降级。调用 NSX API:GET /napp/api/v1/platform/monitor/feature/health 以检查哪个特定服务已关闭及其背后的原因。调用以下 CLI 命令以重新启动已降级的服务:kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> |
3.2.0 |
Nsxaas 运行状况事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
服务已降级 | 高 | aas | 服务已降级。 |
查看标识服务的警报描述中包含的数据、服务的部署位置以及运行状况监控服务捕获的其他数据。此外,还要查看衡量指标服务或 Wavefront(如果适用)记录的历史数据。 |
4.1.0 |
服务已关闭 | 严重 | aas | 服务已关闭。 |
查看标识服务的警报描述中包含的数据、服务的部署位置以及运行状况监控服务捕获的其他数据。此外,还要查看衡量指标服务或 Wavefront(如果适用)记录的历史数据。 |
4.1.0 |
密码管理事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
密码已过期 | 严重 | global-manager、manager、edge、public-cloud-gateway | 用户密码已过期。 |
现在,必须更改用户 {username} 的密码才能访问系统。例如,要将新密码应用于用户,请在请求正文中使用有效密码调用以下 NSX API:PUT /api/v1/node/users/<userid>,其中 <userid> 是该用户的 ID。如果管理员用户(<userid> 为 10000)的密码已过期,则管理员必须通过 SSH(如果已启用)或控制台登录到系统,才能更改密码。输入当前已过期的密码后,系统会提示 admin 输入新密码。 |
3.0.0 |
密码就要过期 | 高 | global-manager、manager、edge、public-cloud-gateway | 用户密码就要过期。 |
确保立即更改用户 {username} 的密码。例如,要将新密码应用于用户,请在请求正文中使用有效密码调用以下 NSX API:PUT /api/v1/node/users/<userid>,其中 <userid> 是该用户的 ID。 |
3.0.0 |
密码即将过期 | 中等 | global-manager、manager、edge、public-cloud-gateway | 用户密码即将过期。 |
需要尽快更改用户 {username} 的密码。例如,要将新密码应用于用户,请在请求正文中使用有效密码调用以下 NSX API:PUT /api/v1/node/users/<userid>,其中 <userid> 是该用户的 ID。 |
3.0.0 |
物理服务器事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
物理服务器安装失败 | 严重 | manager | 物理服务器 (BMS) 安装失败。 |
导航到“系统”>“Fabric”>“节点”>“主机传输节点”,然后解决节点上的错误。 |
4.0.0 |
物理服务器升级失败 | 严重 | manager | 物理服务器 (BMS) 升级失败。 |
导航到“系统”>“升级”并解决错误,然后重新触发升级。 |
4.0.0 |
物理服务器卸载失败 | 严重 | manager | 物理服务器 (BMS) 卸载失败。 |
导航到“系统”>“Fabric”>“节点”>“主机传输节点”,然后解决节点上的错误。 |
4.0.0 |
策略限制事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
已达到创建计数限制 | 中等 | manager | 实体计数已达到策略限制。 |
查看 {constraint_type} 使用情况。请更新限制以提高限额或删除未使用的 {constraint_type}。 |
4.1.0 |
路由事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
外部接口上的 BFD 关闭 | 高 | edge、autonomous-edge、public-cloud-gateway | BFD 会话已关闭。 |
1.调用 NSX CLI 命令 get logical-routers。 |
3.0.0 |
静态路由已移除 | 高 | edge、autonomous-edge、public-cloud-gateway | 已移除静态路由。 |
因为 BFD 会话已关闭而移除了静态路由条目,因此请执行以下操作: |
3.0.0 |
BGP 关闭 | 高 | edge、autonomous-edge、public-cloud-gateway | BGP 邻居已关闭。 |
1.调用 NSX CLI 命令 get logical-routers。 |
3.0.0 |
没有为服务 IP 配置代理 ARP | 严重 | manager | 没有为服务 IP 配置代理 ARP。 |
重新配置服务实体 {entity_id} 的服务 IP {service_ip} 或更改路由器 {lr_id} 上的 lrport {lrport_id} 的子网,以使由于服务 IP 与 lrport 子网重叠而生成的代理 ARP 条目数少于允许的阈值限制(16384 个)。 |
3.0.3 |
路由关闭 | 高 | edge、autonomous-edge、public-cloud-gateway | 所有 BGP/BFD 会话已关闭。 |
调用 NSX CLI 命令 get logical-routers 以获取 Tier-0 服务路由器并切换到该 VRF,然后调用以下 NSX CLI 命令: |
3.0.0 |
OSPF 邻居已关闭 | 高 | edge、autonomous-edge、public-cloud-gateway | OSPF 邻居已从全邻接状态转变为其他状态。 |
1.调用 NSX CLI 命令 get logical-routers 以获取 VRF ID 并切换到 Tier-0 服务路由器。 |
3.1.1 |
即将达到最大 IPv4 路由限制 | 中等 | edge、autonomous-edge、public-cloud-gateway | 在 Edge 节点上即将达到最大 IPv4 路由限制。 |
1.检查路由重新分发策略以及从所有外部对等体收到的路由。 |
4.0.0 |
即将达到最大 IPv6 路由限制 | 中等 | edge、autonomous-edge、public-cloud-gateway | 在 Edge 节点上即将达到最大 IPv6 路由限制。 |
1.检查路由重新分发策略以及从所有外部对等体收到的路由。 |
4.0.0 |
已超过最大 IPv4 路由限制 | 严重 | edge、autonomous-edge、public-cloud-gateway | 在 Edge 节点上已超过最大 IPv4 路由限制。 |
1.检查路由重新分发策略以及从所有外部对等体收到的路由。 |
4.0.0 |
已超过最大 IPv6 路由限制 | 严重 | edge、autonomous-edge、public-cloud-gateway | 在 Edge 节点上已超过最大 IPv6 路由限制。 |
1.检查路由重新分发策略以及从所有外部对等体收到的路由。 |
4.0.0 |
即将达到 BGP 邻居的最大 IPv4 前缀数 | 中等 | edge、autonomous-edge、public-cloud-gateway | 即将达到从 BGP 邻居收到的最大 IPv4 前缀数。 |
1.检查外部路由器中的 BGP 路由策略。 |
4.0.0 |
即将达到来自 BGP 邻居的最大 IPv6 前缀数 | 中等 | edge、autonomous-edge、public-cloud-gateway | 即将达到从 BGP 邻居收到的最大 IPv6 前缀数。 |
1.检查外部路由器中的 BGP 路由策略。 |
4.0.0 |
已超过 BGP 邻居的最大 IPv4 前缀数 | 严重 | edge、autonomous-edge、public-cloud-gateway | 已超过从 BGP 邻居收到的最大 IPv4 前缀数。 |
1.检查外部路由器中的 BGP 路由策略。 |
4.0.0 |
已超过来自 BGP 邻居的最大 IPv6 前缀数 | 严重 | edge、autonomous-edge、public-cloud-gateway | 已超过从 BGP 邻居收到的最大 IPv6 前缀数。 |
1.检查外部路由器中的 BGP 路由策略。 |
4.0.0 |
安全合规性事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
触发 NDcPP 非合规性 | 严重 | manager | NSX 安全状态不符合 NDcPP 要求。 |
从 UI“主页 - 监控和仪表板 - 合规性报告”菜单运行合规性报告,并解决所有标有 NDcPP 合规性名称的问题。 |
4.1.0 |
触发 EAL4 非合规性 | 严重 | manager | NSX 安全状态不符合 EAL4+ 要求。 |
从 UI“主页 - 监控和仪表板 - 合规性报告”菜单运行合规性报告,并解决所有标有 EAL4+ 合规性名称的问题。 |
4.1.0 |
轮询 NDcPP 非合规性 | 严重 | manager | NSX 安全配置不符合 NDcPP 要求。 |
从 UI“主页 - 监控和仪表板 - 合规性报告”菜单运行合规性报告,并解决所有标有 NDcPP 合规性名称的问题。 |
4.1.0 |
轮询 EAL4 非合规性 | 严重 | manager | NSX 安全配置不符合 EAL4+ 要求。 |
从 UI“主页 - 监控和仪表板 - 合规性报告”菜单运行合规性报告,并解决所有标有 EAL4+ 合规性名称的问题。 |
4.1.0 |
服务插入事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
服务部署成功 | 信息 | manager | 服务部署成功。 |
无需执行任何操作。 |
4.0.0 |
服务部署失败 | 严重 | manager | 服务部署失败。 |
使用 NSX UI 或 API 删除服务部署。执行知识库文章中的任何纠正操作,然后再次重试服务部署。 |
4.0.0 |
服务取消部署成功 | 信息 | manager | 服务部署删除成功。 |
无需执行任何操作。 |
4.0.0 |
服务取消部署失败 | 严重 | manager | 服务部署删除失败。 |
使用 NSX UI 或 API 删除服务部署。执行知识库文章中的任何纠正操作,然后再次重试删除服务部署。在检查是否删除了所有虚拟机和对象后,手动解决警报。 |
4.0.0 |
SVM 运行状况为已启动 | 信息 | manager | SVM 正在服务中运行。 |
无需执行任何操作。 |
4.0.0 |
SVM 运行状况为已关闭 | 高 | manager | SVM 未在服务中运行。 |
使用 NSX UI 或 API 删除服务部署。执行知识库文章中的任何纠正操作,然后根据需要再次重试服务部署。 |
4.0.0 |
服务插入基础架构状态为已关闭 | 严重 | esx | 服务插入基础架构状态为已关闭,并且未在主机上启用。 |
执行知识库文章中的任何纠正操作并检查状态是否为已启动。在检查状态后,手动解决警报。 |
4.0.0 |
SVM 活动状态为已关闭 | 严重 | manager | SVM 活动状态为已关闭。 |
执行知识库文章中的任何纠正操作并检查状态是否为已启动。 |
4.0.0 |
服务链路径已关闭 | 严重 | manager | 服务链路径已关闭。 |
执行知识库文章中的任何纠正操作并检查状态是否为已启动。 |
4.0.0 |
已添加新主机 | 信息 | esx | 已在集群中添加新主机。 |
检查虚拟机部署状态,并等待其打开电源。 |
4.0.0 |
TEP 运行状况事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
故障 TEP | 中等 | esx | TEP 不正常。 |
1.检查 TEP 是否具有有效的 IP 或存在任何其他底层网络连接问题。 |
4.1.0 |
TEP HA 已激活 | 信息 | esx | TEP HA 已激活。 |
为传输节点 {transport_node_id} 上 VDS {dvs_name} 的 TEP {vtep_name} 启用自动恢复或调用手动恢复。 |
4.1.0 |
TEP 自动恢复成功 | 信息 | esx | 自动恢复成功。 |
无。 |
4.1.0 |
TEP 自动恢复失败 | 中等 | esx | 自动恢复失败。 |
检查 TEP 是否具有有效的 IP 或存在任何其他底层网络连接问题。 |
4.1.0 |
DPU 上的故障 TEP | 中等 | dpu | DPU 上的 TEP 不正常。 |
1.检查 TEP 是否具有有效的 IP 或存在任何其他底层网络连接问题。 |
4.1.0 |
已在 DPU 上激活 TEP HA | 信息 | dpu | 已在 DPU 上激活 TEP HA。 |
在 DPU {dpu_id} 上为传输节点 {transport_node_id} 上 VDS {dvs_name} 的 TEP {vtep_name} 启用自动恢复或调用手动恢复。 |
4.1.0 |
DPU 上的 TEP 自动恢复成功 | 信息 | dpu | DPU 上的自动恢复成功。 |
无。 |
4.1.0 |
DPU 上的 TEP 自动恢复失败 | 中等 | dpu | DPU 上的自动恢复失败。 |
检查 TEP 是否具有有效的 IP 或存在任何其他底层网络连接问题。 |
4.1.0 |
传输节点运行状况事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
DPU 上的传输节点上行链路中断 | 中等 | dpu | DPU 上的上行链路即将关闭。 |
检查 DPU {dpu_id} 上的上行链路的物理网卡状态。找出此物理网卡在主机上的映射名称,然后在 UI 上执行检查。 |
4.0.0 |
DPU 上的 LAG 成员关闭 | 中等 | dpu | DPU 上的 LACP 报告成员已关闭。 |
检查 DPU {dpu_id} 上的 LAG 成员的连接状态。找出相关物理网卡在主机上的映射名称,然后在 UI 上执行检查。 |
4.0.0 |
NVDS 上行链路中断 | 中等 | esx、kvm、bms | 上行链路即将中断。 |
检查主机的上行链路的物理网卡状态。 |
3.0.0 |
传输节点上行链路中断 | 中等 | esx、kvm、bms | 上行链路即将中断。 |
检查主机的上行链路的物理网卡状态。 |
3.2.0 |
LAG 成员关闭 | 中等 | esx、kvm、bms | LACP 报告成员已关闭。 |
检查主机上 LAG 成员的连接状态。 |
3.0.0 |
VMC 应用程序事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
转换连接故障 | 中等 | manager | 无法完全实现转换连接。 |
如果此警报未在 10 分钟内自动解除,请重试最新的转换连接相关请求。例如,如果 TGW 连接 API 请求触发了此警报,请再次重试 TGW 连接 API 请求。如果警报在重试请求后仍未解除,请尝试执行以下步骤: |
4.1.0 |
VPN 事件
事件名称 | 严重性 | 节点类型 | 警示消息 | 建议的操作 | 引入的版本 |
---|---|---|---|---|---|
IPsec 服务关闭 | 中等 | edge、autonomous-edge、public-cloud-gateway | IPsec 服务已关闭。 |
1.从 NSX Manager UI 中禁用并启用 IPsec 服务。 |
3.2.0 |
基于 IPsec 策略的会话已关闭 | 中等 | edge、autonomous-edge、public-cloud-gateway | 基于策略的 IPsec VPN 会话已关闭。 |
检查 IPsec VPN 会话配置并根据会话关闭原因来解决错误。 |
3.0.0 |
基于 IPsec 路由的会话已关闭 | 中等 | edge、autonomous-edge、public-cloud-gateway | 基于路由的 IPsec VPN 会话已关闭。 |
检查 IPsec VPN 会话配置并根据会话关闭原因来解决错误。 |
3.0.0 |
基于 IPsec 策略的隧道已关闭 | 中等 | edge、autonomous-edge、public-cloud-gateway | 基于策略的 IPsec VPN 隧道已关闭。 |
检查 IPsec VPN 会话配置并根据隧道关闭原因来解决错误。 |
3.0.0 |
基于 IPsec 路由的隧道已关闭 | 中等 | edge、autonomous-edge、public-cloud-gateway | 基于路由的 IPsec VPN 隧道已关闭。 |
检查 IPsec VPN 会话配置并根据隧道关闭原因来解决错误。 |
3.0.0 |
L2VPN 会话已关闭 | 中等 | edge、autonomous-edge、public-cloud-gateway | L2VPN 会话已关闭。 |
检查 L2VPN 会话状态来确定会话关闭原因,并根据原因来解决错误。 |
3.0.0 |