下表介绍了会触发警报的事件,包括警报消息以及解决这些警报的建议操作。严重性高于低的任何事件都会触发警报。
警报管理事件
警报管理事件由 NSX Manager 和全局管理器节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 警报服务过载 | 严重 | 警报服务已过载。(The alarm service is overloaded.) 检测到事件时:“由于报告的警报数量过大,导致警报服务暂时过载。NSX UI 和 GET /api/v1/alarm NSX API 已停止报告新的警报。但是,仍会发出 syslog 条目和 SNMP 陷阱 (如果已启用),以报告底层事件的详细信息。在解决了导致警报大量出现的底层问题后,警报服务将重新开始报告新的警报。(Due to heavy volume of alarms reported, the alarm service is temporarily overloaded. The NSX UI and GET /api/v1/alarms NSX API have stopped reporting new alarms. Syslog entries and SNMP traps (if enabled) are still being emitted reporting the underlying event details. When the underlying issues causing the heavy volume of alarms are addressed, the alarm service starts reporting new alarms again.)” 事件解决后:“警报过量的情况已缓解,将再次报告新的警报。(The heavy volume of alarms has subsided and new alarms are being reported again.)” |
使用 NSX UI 中的“警报”页面或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API 查看所有活动的警报。对于每个活动的警报,按照为警报建议的操作来调查根本原因。解决了足够数量的警报后,警报服务将再次开始报告新的警报。 |
| 警报数量过大 | 严重 | 检测到特定警报类型的数量过大。(Heavy volume of a specific alarm type detected.) 检测到事件时:“由于 {event_id} 警报数量过大,导致警报服务暂时停止报告此类警报。NSX UI 和 GET /api/v1/alarms NSX API 将不会报告这些警报的新实例。但是,仍会发出 syslog 条目和 SNMP 陷阱 (如果已启用),以报告底层事件的详细信息。在解决了导致 {event_id} 警报大量出现的底层问题后,当再次检测到新的问题时,警报服务将重新开始报告新的 {event_id} 警报。(Due to heavy volume of {event_id} alarms, the alarm service has temporarily stopped reporting alarms of this type. The NSX UI and GET /api/v1/alarms NSX API are not reporting new instances of these alarms. Syslog entries and SNMP traps (if enabled) are still being emitted reporting the underlying event details. When the underlying issues causing the heavy volume of {event_id} alarms are addressed, the alarm service starts reporting new {event_id} alarms when new issues are detected again.)” 事件解决后:“{event_id} 警报过量的情况已缓解,将再次报告此类新警报。(The heavy volume of {event_id} alarms has subsided and new alarms of this type are being reported again.)” |
使用 NSX UI 中的“警报”页面或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API 查看所有活动的警报。对于每个活动的警报,按照为警报建议的操作来调查根本原因。解决了足够数量的警报后,警报服务将再次开始报告新的 {event_id} 警报。 |
容量事件
当某些类别的对象的当前清单达到特定级别时,以下事件可能会触发警报。有关详细信息,请参见查看各类别对象的使用情况和容量。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 最大容量 | 严重 | 已达到对象类别的最大容量。警报详细信息将指示特定类别的对象。 |
对相关配置进行调整,以避免任何潜在的负面后果。 |
| 最大容量阈值 | 高 | 已达到对象类别的最大容量阈值。警报详细信息将指示特定类别的对象。 |
如果此警报是预期警报,请对相关配置进行调整以解决该警报。如果此警报是意外警报,请调整对象类别的阈值。 |
| 最小容量阈值 | 中等 | 已达到对象类别的最小容量阈值。警报详细信息将指示特定类别的对象。 |
如果此警报是预期警报,请根据需要对相关配置进行调整以解决该警报。如果此警报是意外警报,请调整对象类别的阈值。 |
证书事件
证书事件由 NSX Manager 节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 证书已过期 | 严重 | 证书已过期。(A certificate has expired.) 检测到事件时:“证书 {entity-id} 已过期。(Certificate {entity-id} has expired.)” 事件解决后:“已过期的证书 {entity-id} 已被移除或不再为‘已过期’状态。(The expired certificate {entity-id} has been removed or is no longer expired.)” |
确保当前使用该证书的服务已更新为使用未过期的新证书。例如,要将新证书应用于 HTTP 服务,请执行以下 API 调用:
其中 <cert-id> 是由 API 调用 不再使用已过期的证书后,应当使用以下 API 调用将其删除:
|
| 证书就要过期 | 高 | 证书就要过期。(A certificate is about to expire.) 检测到事件时:“证书 {entity-id} 就要过期。(Certificate {entity-id} is about to expire.)” 事件解决后:“即将过期的证书 {entity-id} 已被移除或不再为“就要过期”状态。(The expiring certificate {entity-id} has been removed or is no longer about to expire.)” |
确保当前使用该证书的服务已更新为使用非即将过期的新证书。例如,要将新证书应用于 HTTP 服务,请执行以下 API 调用:
其中 <cert-id> 是由 API 调用 不再使用即将过期的证书后,应当使用以下 API 调用将其删除:
|
| 证书即将过期 | 中等 | 证书即将过期。(A certificate is approaching expiration.) 检测到事件时:“证书 {entity-id} 即将过期。(Certificate {entity-id} is approaching expiration.)” 事件解决后:“即将过期的证书 {entity-id} 已被移除或不再为“即将过期”状态。(The expiring certificate {entity-id} has been removed or is no longer approaching expiration.)” |
确保当前使用该证书的服务已更新为使用非即将过期的新证书。例如,要将新证书应用于 HTTP 服务,请执行以下 API 调用:
其中 <cert-id> 是由 API 调用 不再使用即将过期的证书后,应当使用以下 API 调用将其删除:
|
CNI 运行状况事件
CNI 运行状况事件由 ESXi 和 KVM 节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| Hyperbus Manager 连接关闭 | 中等 | Hyperbus 无法与管理器节点通信。(Hyperbus cannot communicate with the Manager node.) 检测到事件时:“Hyperbus 无法与管理器节点通信。(Hyperbus cannot communicate with the Manager node.)” 事件解决后:“Hyperbus 可以与管理器节点通信。(Hyperbus can communicate with the Manager node.)” |
可能缺少 Hyperbus VMkernel 接口 (vmk50)。请参见知识库文章 67432。 |
DHCP 事件
DHCP 事件由 NSX Edge 和公共网关节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 池租约分配失败 | 高 | IP 池中的 IP 地址已用尽。(IP addresses in an IP Pool have been exhausted.) 检测到事件时:“DHCP 服务器 {dhcp_server_id} 的 IP 池 {entity_id} 中的地址已用尽。最后一个 DHCP 请求失败,未来的请求也将失败。(The addresses in IP Pool {entity_id} of DHCP Server {dhcp_server_id} have been exhausted. The last DHCP request has failed and future requests will fail.)” 事件解决后:“DHCP 服务器 {dhcp_server_id} 的 IP 池 {entity_id} 不再为‘用尽’状态。租约已成功分配给最后一个 DHCP 请求。(IP Pool {entity_id} of DHCP Server {dhcp_server_id} is no longer exhausted. A lease is successfully allocated to the last DHCP request.)” |
通过调用 NSX CLI 命令 get dhcp ip-pool,在 NSX UI 中或在运行 DHCP 服务器的 Edge 节点上查看 DHCP 池配置。 此外,通过调用 NSX CLI 命令 get dhcp lease,查看 Edge 节点上的当前活动租约。 将租约数量与活动虚拟机的数量进行比较。如果虚拟机数量少于活动租约的数量,请考虑缩短 DHCP 服务器配置上的租约时间。另请考虑通过访问 NSX UI 中的页面来扩展 DHCP 服务器的池范围。 |
| 池过载 | 中等 | IP 池已过载。(An IP Pool is overloaded.) 检测到事件时:“DHCP 服务器 {dhcp_server_id} IP 池 {entity_id} 即将用完,已分配了 {dhcp_pool_usage}% 的 IP。(DHCP Server {dhcp_server_id} IP Pool {entity_id} usage is approaching exhaustion with {dhcp_pool_usage}% IPs allocated.)” 事件解决后:“DHCP 服务器 {dhcp_server_id} IP 池 {entity_id} 已低于高使用率阈值。(The DHCP Server {dhcp_server_id} IP Pool {entity_id} has fallen below the high usage threshold.)” |
通过调用 NSX CLI 命令 get dhcp ip-pool,在 NSX UI 中或在运行 DHCP 服务器的 Edge 节点上查看 DHCP 池配置。 此外,通过调用 NSX CLI 命令 get dhcp lease,查看 Edge 节点上的当前活动租约。 将租约数量与活动虚拟机的数量进行比较。如果虚拟机数量少于活动租约的数量,请考虑缩短 DHCP 服务器配置上的租约时间。另请考虑通过访问 NSX UI 中的页面来扩展 DHCP 服务器的池范围。 |
分布式防火墙事件
分布式防火墙事件由 NSX Manager 或 ESXi 节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 分布式防火墙 CPU 使用率非常高 | 严重 | 分布式防火墙 CPU 使用率非常高。(Distributed firewall CPU usage is very high.) 检测到事件时:“传输节点 {entity_id} 上的 DFW CPU 使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The DFW CPU usage on Transport node {entity_id} has reached {system_resource_usage}% which is at or above the very high threshold value of {system_usage_threshold}%.)” 事件解决后:“DNS 转发器 {entity_id} 再次运行。(DNS forwarder {entity_id} is running again.)” |
请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。 请查看安全设计以进行优化。例如,如果规则不适用于整个数据中心,请使用“应用到”配置。 |
| 分布式防火墙内存使用率非常高 | 严重 | 分布式防火墙内存使用率非常高。(Distributed firewall memory usage is very high.) 检测到事件时:“传输节点 {entity_id} 上的 DFW 内存使用率 {heap_type} 已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The DFW memory usage {heap_type} on Transport Node {entity_id} has reached {system_resource_usage}% which is at or above the very high threshold value of {system_usage_threshold}%.)” 事件解决后:“传输节点 {entity_id} 上的 DFW 内存使用率 {heap_type} 已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The DFW memory usage {heap_type} on Transport Node {entity_id} has reached {system_resource_usage}% which is below the very high threshold value of {system_usage_threshold}%.)” |
通过在主机上调用 NSX CLI 命令 get firewall thresholds,查看当前的 DFW 内存使用率。 请考虑将此主机上的工作负载重新均衡到其他主机。 |
DNS 事件
DNS 事件由 NSX Edge 和公共网关节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 转发器已关闭 | 高 | DNS 转发器已关闭。(A DNS forwarder is down.) 检测到事件时:“DNS 转发器 {entity_id} 未运行。这会影响当前已启用的已标识 DNS 转发器。(DNS forwarder {entity_id} is not running. This is impacting the identified DNS Forwarder that is currently enabled.)” 事件解决后:“DNS 转发器 {entity_id} 再次运行。(DNS forwarder {entity_id} is running again.)” |
|
| 转发器已禁用 | 低 | DNS 转发器已禁用。(A DNS forwarder is disabled.) 检测到事件时:“DNS 转发器 {entity_id} 处于禁用状态。(DNS forwarder {entity_id} is disabled.)” 事件解决后:“DNS 转发器 {entity_id} 处于启用状态。(DNS forwarder {entity_id} is enabled.)” |
|
Edge 运行状况事件
Edge 运行状况事件由 NSX Edge 和公共网关节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| Edge CPU 使用率非常高 | 严重 | Edge 节点 CPU 使用率非常高。(Edge node CPU usage is very high.) 检测到事件时:“Edge 节点 {entity_id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The CPU usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%.)” 事件解决后:“Edge 节点 {entity-id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The CPU usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)” |
请查看此 Edge 节点的配置、正在运行的服务和大小。考虑调整 Edge 设备的规格大小,或将服务重新均衡到其他 Edge 节点以提供适用工作负载。 |
| Edge CPU 使用率高 | 中等 | Edge 节点 CPU 使用率高。(Edge node CPU usage is high.) 检测到事件时:“Edge 节点 {entity_id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The CPU usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%.)” 事件解决后:“Edge 节点 {entity-id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The CPU usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)” |
请查看此 Edge 节点的配置、正在运行的服务和大小。考虑调整 Edge 设备的规格大小,或将服务重新均衡到其他 Edge 节点以提供适用工作负载。 |
| Edge 数据路径配置失败 | 高 | Edge 节点数据路径配置失败。(Edge node datapath configuration has failed.) 检测到事件时:“尝试三次后,无法在 Edge 节点上启用数据路径。(Failed to enable the datapath on the Edge node after three attempts.)” 事件解决后:“已成功启用 Edge 节点上的数据路径。(Datapath on the Edge node has been successfully enabled.)” |
确保 Edge 节点与管理器节点的连接正常。 从 Edge 节点 NSX CLI 中,调用命令 get services 以检查服务的运行状况。 如果数据平面服务已停止,请调用命令 start service dataplane 以将其重新启动。 |
| Edge 数据路径 CPU 使用率非常高 | 严重 | Edge 节点数据路径 CPU 使用率非常高。(Edge node datapath CPU usage is very high.) 检测到事件时:“Edge 节点 {entity-id} 上的数据路径 CPU 使用率已达到 {datapath_resource_usage}%,该值等于或高于极高阈值至少两分钟。(The datapath CPU usage on Edge node {entity-id} has reached {datapath_resource_usage}% which is at or above the very high threshold for at least two minutes.)” 事件解决后:“Edge 节点 {entity-id} 上的数据路径 CPU 使用率已降至最大阈值以下。(Datapath CPU usage on Edge node {entity-id} has reduced below the maximum threshold.)” |
通过调用 NSX CLI 命令 get dataplane cpu stats,查看 Edge 节点上的 CPU 统计信息,以显示每个 CPU 内核的数据包速率。 数据包速率较高时,CPU 使用率应当也会较高。 请考虑增加 Edge 设备的规格大小,并将此 Edge 节点上的服务重新均衡到同一集群或其他 Edge 集群中的其他 Edge 节点。 |
| Edge 数据路径 CPU 使用率高 | 中等 | Edge 节点数据路径 CPU 使用率高。(Edge node datapath CPU usage is high.) 检测到事件时:“Edge 节点 {entity-id} 上的数据路径 CPU 使用率已达到 {datapath_resource_usage}%,该值等于或高于高阈值至少两分钟。(The datapath CPU usage on Edge node {entity-id} has reached {datapath_resource_usage}% which is at or above the high threshold for at least two minutes.)” 事件解决后:“Edge 节点 {entity-id} 上的 CPU 使用率已降至高阈值以下。(The CPU usage on Edge node {entity-id} has reached below the high threshold.)” |
通过调用 NSX CLI 命令 get dataplane cpu stats,查看 Edge 节点上的 CPU 统计信息,以显示每个 CPU 内核的数据包速率。 数据包速率较高时,CPU 使用率应当也会较高。 请考虑增加 Edge 设备的规格大小,并将此 Edge 节点上的服务重新均衡到同一集群或其他 Edge 集群中的其他 Edge 节点。 |
| Edge 数据路径加密驱动程序已关闭 | 严重 | Edge 节点数据路径加密驱动程序已关闭。(The Edge node datapath crypto driver is down.) 检测到事件时:“Edge 节点加密驱动程序已关闭。(Edge node crypto driver is down.)” 事件解决后:“Edge 节点加密驱动程序已启动。(Edge node crypto driver is up.)” |
根据需要升级 Edge 节点。 |
| Edge 数据路径内存池高 | 中等 | Edge 节点数据路径内存池高。(The Edge node datapath memory pool is high.) 检测到事件时:“Edge 节点 {entity-id} 上的 {mempool_name} 的数据路径 mempool 使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The datapath mempool usage for {mempool_name} on Edge node {entity-id} has reached {system_resource_usage}% which is at or above the high threshold value of {system_usage_threshold}%.)” 事件解决后:“Edge 节点 {entity-id} 上的 {mempool_name} 的数据路径 mempool 使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The datapath mempool usage for {mempool_name} on Edge node {entity-id} has reached {system_resource_usage}% which is below the high threshold value of {system_usage_threshold}%.)” |
以 root 用户身份登录并调用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show 和 edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap 以检查 DPDK 内存使用率。 |
| Edge 磁盘使用率非常高 | 严重 | Edge 节点磁盘使用率非常高。(Edge node disk usage is very high.) 检测到事件时:“Edge 节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The disk usage for the Edge node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%.)” 事件解决后:“Edge 节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The disk usage for the Edge node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)” |
检查具有高使用率的分区,查看是否有任何不需要的大文件可以移除。 |
| Edge 磁盘使用率高 | 中等 | Edge 节点磁盘使用率高。(Edge node disk usage is high.) 检测到事件时:“Edge 节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The disk usage for the Edge node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%.)” 事件解决后:“Edge 节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The disk usage for the Edge node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)” |
检查具有高使用率的分区,查看是否有任何不需要的大文件可以移除。 |
| Edge 全局 ARP 表使用率高 | 中等 | Edge 节点全局 ARP 表使用率高。(The Edge node global ARP table usage is high.) 检测到事件时:“Edge 节点 {entity-id} 上的全局 ARP 表使用率已达到 {datapath_resource_usage}%,该值高于高阈值超过两分钟。(Global ARP table usage on Edge node {entity-id} has reached {datapath_resource_usage}% which is above the high threshold for over two minutes.)” 事件解决后:“Edge 节点 {entity-id} 上的全局 ARP 表使用率已达到高阈值以下。(Global arp table usage on Edge node {entity-id} has reached below the high threshold.)” |
增加 ARP 表大小:
|
| Edge 内存使用率非常高 | 严重 | Edge 节点内存使用率非常高。(Edge node memory usage is very high.) 检测到事件时:“Edge 节点 {entity-id} 上的内存使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The memory usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%.)” 事件解决后:“Edge 节点 {entity-id} 上的内存使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The memory usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)” |
请查看此 Edge 节点的配置、正在运行的服务和大小。考虑调整 Edge 设备的规格大小,或将服务重新均衡到其他 Edge 节点以提供适用工作负载。 |
| Edge 内存使用率高 | 中等 | Edge 节点内存使用率高。(Edge node memory usage is high.) 检测到事件时:“Edge 节点 {entity-id} 上的内存使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The memory usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%.)” 事件解决后:“Edge 节点 {entity-id} 上的内存使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The memory usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)” |
请查看此 Edge 节点的配置、正在运行的服务和大小。考虑调整 Edge 设备的规格大小,或将服务重新均衡到其他 Edge 节点以提供适用工作负载。 |
| Edge 网卡链接状态为已关闭 | 严重 | Edge 节点网卡链接已关闭。(Edge node NIC link is down.) 检测到事件时:“Edge 节点网卡 {edge_nic_name} 链路已关闭。(Edge node NIC {edge_nic_name} link is down.)” 事件解决后:“Edge 节点网卡 {edge_nic_name} 链路已启动。(Edge node NIC {edge_nic_name} link is up.)” |
在 Edge 节点上,通过调用 NSX CLI 命令 get interfaces,确认网卡链路是否以物理方式关闭。 如果已关闭,请验证电缆连接。 |
| Edge 网卡超出接收缓冲区 | 严重 | Edge 节点网卡接收描述符环缓冲区没有剩余空间。(Edge node NIC receive descriptor ring buffer has no space left.) 检测到事件时:“Edge 网卡 {edge_nic_name} 接收环缓冲区已在 Edge 节点 {entity-id} 上溢出 {rx_ring_buffer_overflow_percentage}% 超过 60 秒。(Edge NIC {edge_nic_name} receive ring buffer has overflowed by {rx_ring_buffer_overflow_percentage}% on Edge node {entity-id} for over 60 seconds.)” 事件解决后:“Edge 节点 {entity-id} 上的 Edge 网卡 {edge_nic_name} 接收环缓冲区使用率不再为‘溢出’状态。(Edge NIC {edge_nic_name} receive ring buffer usage on Edge node {entity-id} is no longer overflowing.)” |
调用 NSX CLI 命令
get dataplane,然后检查以下内容:
|
| Edge 网卡超出传输缓冲区 | 严重 | Edge 节点网卡传输描述符环缓冲区没有剩余空间。(Edge node NIC transmit descriptor ring buffer has no space left.) 检测到事件时:“Edge 节点网卡 {edge_nic_name} 发送环缓冲区已在 Edge 节点 {entity-id} 上溢出 {tx_ring_buffer_overflow_percentage}% 超过 60 秒。(Edge node NIC {edge_nic_name} transmit ring buffer has overflowed by {tx_ring_buffer_overflow_percentage}% on Edge node {entity-id} for over 60 seconds.)” 事件解决后:“Edge 节点 {entity-id} 上的 Edge 节点网卡 {edge_nic_name} 发送环缓冲区使用率不再为‘溢出’状态。(Edge node NIC {edge_nic_name} transmit ring buffer usage on Edge node {entity-id} is no longer overflowing.)” |
调用 NSX CLI 命令
get dataplane,然后检查以下内容:
|
| 存储错误 | 严重 | 从 NSX-T Data Center 3.0.1 开始。 Edge 节点上的以下磁盘分区处于只读模式:{disk_partition_name} 。(The following disk partitions on the Edge node are in read-only mode: {disk_partition_name}.) |
检查只读分区,以确定重新引导是否解决了该问题,或者是否需要更换磁盘。请参阅知识库文章 https://kb.vmware.com/s/article/2146870。 |
端点保护事件
端点保护事件由 NSX Manager 或 ESXi 节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| EAM 状态关闭 | 严重 | 计算管理器上的 ESX Agent Manager (EAM) 服务已关闭。(ESX Agent Manager (EAM) service on a compute manager is down.) 检测到事件时:“计算管理器 {entity_id} 上的 ESX Agent Manager (EAM) 服务已关闭。(ESX Agent Manager (EAM) service on compute manager {entity_id} is down.)” 事件解决后:“计算管理器 {entity_id} 上的 ESX Agent Manager (EAM) 服务已启动,或者已移除计算管理器 {entity_id}。(ESX Agent Manager (EAM) service on compute manager {entity_id} is either up or compute manager {entity_id} has been removed.)” |
重新启动 ESX Agent Manager (EAM) 服务:
|
| 合作伙伴通道关闭 | 严重 | 主机模块和合作伙伴 SVM 连接已断开。(Host module and Partner SVM connection is down.) 检测到事件时:“主机模块与合作伙伴 SVM {entity_id} 的连接已断开。(The connection between host module and Partner SVM {entity_id} is down.)” 事件解决后:“已建立主机模块与合作伙伴 SVM {entity_id} 的连接。(The connection between host module and Partner SVM {entity_id} is up.)” |
请参见知识库文章 2148821 NSX 客户机侦测故障排除,并确保由 {entity_id} 标识的合作伙伴 SVM 已重新连接到主机模块。 |
网关防火墙事件
网关防火墙事件由 NSX Edge 节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 已超过 ICMP 流量计数 |
严重 | 从 NSX-T Data Center 3.1.3 开始。 ICMP 流量的网关防火墙流量表已超出设置的阈值。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(The gateway firewall flow table for ICMP traffic has exceeded the set threshold. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.) 检测到事件时:“逻辑路由器 {entity_id} 上 ICMP 流量的网关防火墙流量表使用率已达到 {firewall_icmp_flow_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(Gateway firewall flow table usage for ICMP traffic on logical router {entity_id} has reached {firewall_icmp_flow_usage}% which is at or above the high threshold value of {system_usage_threshold}%. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.)” 事件解决后:“逻辑路由器 {entity_id} 上的网关防火墙流量表使用率已达到高阈值 {system_usage_threshold}% 以下。(Gateway firewall flow table usage on logical router {entity_id} has reached below the high threshold value of {system_usage_threshold}%.)” |
|
| ICMP 流量计数高 | 中等 | 从 NSX-T Data Center 3.1.3 开始。 ICMP 流量的网关防火墙流量表使用率高。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(The gateway firewall flow table usage for ICMP traffic is high. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.) 检测到事件时:“逻辑路由器 {entity_id} 上 ICMP 的网关防火墙流量表使用率已达到 {firewall_icmp_flow_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(Gateway firewall flow table usage for ICMP on logical router {entity_id} has reached {firewall_icmp_flow_usage}% which is at or above the high threshold value of {system_usage_threshold}%. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.)” 事件解决后:“逻辑路由器 {entity_id} 上 ICMP 的网关防火墙流量表使用率已达到高阈值 {system_usage_threshold}% 以下。(Gateway firewall flow table usage for ICMP on logical router {entity_id} has reached below the high threshold value of {system_usage_threshold}%.)” |
|
| 已超过 IP 流量计数 | 严重 | 从 NSX-T Data Center 3.1.3 开始。 IP 流量的网关防火墙流量表已超出设置的阈值。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(The gateway firewall flow table for IP traffic has exceeded the set threshold. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.) 检测到事件时:“逻辑路由器 {entity_id} 上 IP 流量的网关防火墙流量表使用率已达到 {firewall_ip_flow_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(Gateway firewall flow table usage for IP traffic on logical router {entity_id} has reached {firewall_ip_flow_usage}% which is at or above the high threshold value of {system_usage_threshold}%. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.)” 事件解决后:“逻辑路由器 {entity_id} 上的网关防火墙流量表使用率已达到高阈值 {system_usage_threshold}% 以下。(Gateway firewall flow table usage on logical router {entity_id} has reached below the high threshold value of {system_usage_threshold}%.)” |
|
| IP 流量计数高 | 中等 | 从 NSX-T Data Center 3.1.3 开始。 IP 流量的网关防火墙流量表使用率高。在使用率达到最大限制后,网关防火墙将丢弃新的流量 (The gateway firewall flow table usage for IP traffic is high. New flows will be dropped by the gateway firewall when usage reaches the maximum limit) 检测到事件时:“逻辑路由器 {entity_id} 上 IP 的网关防火墙流量表使用率已达到 {firewall_ip_flow_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(Gateway firewall flow table usage for IP on logical router {entity_id} has reached {firewall_ip_flow_usage}% which is at or above the high threshold value of {system_usage_threshold}%. New flows will be dropped by Gateway firewall when usage reaches the maximum limit.)” 事件解决后:“逻辑路由器 {entity_id} 上非 IP 流量的网关防火墙流量表使用率已达到高阈值 {system_usage_threshold}% 以下。(Gateway firewall flow table usage for non IP flows on logical router {entity_id} has reached below the high threshold value of {system_usage_threshold}%.)” |
|
| 已超过 TCP 流量计数 | 严重 | 从 NSX-T Data Center 3.1.3 开始。 TCP 半开流量的网关防火墙流量表已超出设置的阈值。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(The gateway firewall flow table for TCP half-open traffic has exceeded the set threshold. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.) 检测到事件时:“逻辑路由器 {entity_id} 上 TCP 半开流量的网关防火墙流量表使用率已达到 {firewall_halfopen_flow_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(Gateway firewall flow table usage for TCP half-open traffic on logical router {entity_id} has reached {firewall_halfopen_flow_usage}% which is at or above the high threshold value of {system_usage_threshold}%. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.)” 事件解决后:“逻辑路由器 {entity_id} 上的网关防火墙流量表使用率已达到高阈值 {system_usage_threshold}% 以下。(Gateway firewall flow table usage on logical router {entity_id} has reached below the high threshold value of {system_usage_threshold}%.)” |
|
| TCP 流量计数高 | 中等 | 从 NSX-T Data Center 3.1.3 开始。 TCP 半开流量的网关防火墙流量表使用率高。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(The gateway firewall flow table usage for TCP half-open traffic is high. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.) 检测到事件时:“逻辑路由器 {entity_id} 上 TCP 的网关防火墙流量表使用率已达到 {firewall_halfopen_flow_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(Gateway firewall flow table usage for TCP on logical router {entity_id} has reached {firewall_halfopen_flow_usage}% which is at or above the high threshold value of {system_usage_threshold}%. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.)” 事件解决后:“逻辑路由器 {entity_id} 上 TCP 半开流量的网关防火墙流量表使用率已达到高阈值 {system_usage_threshold}% 以下。(Gateway firewall flow table usage for TCP half-open on logical router {entity_id} has reached below the high threshold value of {system_usage_threshold}%.)” |
|
| 已超过 UDP 流量计数 | 严重 | 从 NSX-T Data Center 3.1.3 开始。 UDP 流量的网关防火墙流量表已超出设置的阈值。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(The gateway firewall flow table for UDP traffic has exceeded the set threshold. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.) 检测到事件时:“逻辑路由器 {entity_id} 上 UDP 流量的网关防火墙流量表使用率已达到 {firewall_udp_flow_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(Gateway firewall flow table usage for UDP traffic on logical router {entity_id} has reached {firewall_udp_flow_usage}% which is at or above the high threshold value of {system_usage_threshold}%. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.)” 事件解决后:“逻辑路由器 {entity_id} 上的网关防火墙流量表使用率已达到高阈值以下。(Gateway firewall flow table usage on logical router {entity_id} has reached below the high threshold.)” |
|
| UDP 流量计数高 | 中等 | 从 NSX-T Data Center 3.1.3 开始。 UDP 流量的网关防火墙流量表使用率高。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(The gateway firewall flow table usage for UDP traffic is high. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.) 检测到事件时:“逻辑路由器 {entity_id} 上 UDP 的网关防火墙流量表使用率已达到 {firewall_udp_flow_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。在使用率达到最大限制后,网关防火墙将丢弃新的流量。(Gateway firewall flow table usage for UDP on logical router {entity_id} has reached {firewall_udp_flow_usage}% which is at or above the high threshold value of {system_usage_threshold}%. New flows will be dropped by the gateway firewall when usage reaches the maximum limit.)” 事件解决后:“逻辑路由器 {entity_id} 上 UDP 的网关防火墙流量表使用率已达到高阈值以下。(Gateway firewall flow table usage for UDP on logical router {entity_id} has reached below the high threshold.)” |
|
高可用性事件
高可用性事件由 NSX Edge 和公有云网关节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| Tier-0 网关故障切换 | 高 | Tier-0 网关已进行故障切换。(A tier0 gateway has failed over.) 检测到事件时:“Tier-0 网关 {entity-id} 从 {previous_gateway_state} 故障切换到 {current_gateway_state}。(The tier0 gateway {entity-id} failover from {previous_gateway_state} to {current_gateway_state}.)” 事件解决后:“Tier-0 网关 {entity-id} 现在已启动。(The tier0 gateway {entity-id} is now up.)” |
确定服务已关闭,然后重新启动该服务。
|
| Tier-1 网关故障切换 | 高 | Tier-1 网关已进行故障切换。(A tier1 gateway has failed over.) 检测到事件时:“Tier-1 网关 {entity-id} 从 {previous_gateway_state} 故障切换到 {current_gateway_state}。(The tier1 gateway {entity-id} failover from {previous_gateway_state} to {current_gateway_state}.)” 事件解决后:“Tier-1 网关 {entity-id} 现在已启动。(The tier1 gateway {entity-id} is now up.)” |
确定服务已关闭,然后重新启动该服务。
|
基础架构通信事件
基础架构通信事件由 NSX Edge、KVM、ESXi 和公共网关节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| Edge 隧道关闭 | 严重 | Edge 节点的隧道状态为已关闭。(An Edge node's tunnel status is down.) 检测到事件时:“Edge 节点 {entity_id} 的总体隧道状态为‘关闭’。(Overall tunnel status of Edge node {entity_id} is down.)” 事件解决后:“Edge 节点 {entity_id} 的隧道已恢复。(The tunnels of Edge node {entity_id} have been restored.)” |
|
基础架构服务事件
基础架构服务事件由 NSX Edge 和公共网关节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| Edge 服务状态关闭 | 严重 | Edge 服务至少关闭了一分钟。(Edge service is down for at least one minute.) 检测到事件时:“服务 {edge_service_name} 至少关闭了一分钟。(The service {edge_service_name} is down for at least one minute.)” 事件解决后:“服务 {edge_service_name} 已启动。(The service {edge_service_name} is up.)” |
在 Edge 节点上,通过在 /var/log/core 目录中查找核心转储文件,验证服务没有因错误而退出。 要确认服务是否已停止,请调用 NSX CLI 命令 get services。 如果服务已停止,请运行 |
| Edge 服务状态已更改 | 低 | Edge 服务状态已更改。(Edge service status has changed.) 检测到事件时:“服务 {edge_service_name} 已从 {previous_service_state} 更改为 {current_service_state}。(The service {edge_service_name} changed from {previous_service_state} to {current_service_state}.)” 事件解决后:“服务 {edge_service_name} 已从 {previous_service_state} 更改为 {current_service_state}。(The service {edge_service_name} changed from {previous_service_state} to {current_service_state}.)” |
在 Edge 节点上,通过在 /var/log/core 目录中查找核心转储文件,验证服务没有因错误而退出。 要确认服务是否已停止,请调用 NSX CLI 命令 get services。 如果服务已停止,请运行 |
Intelligence 通信事件
NSX Intelligence 通信事件由 NSX Manager 节点、ESXi 节点和 NSX Intelligence 设备产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 传输节点流量导出程序已断开连接 | 高 | 传输节点已与其 Intelligence 节点的消息代理断开连接。数据收集将受到影响。(A Transport node is disconnected from its Intelligence node's messaging broker. Data collection is affected.) 检测到事件时:“传输节点 {entity-id} 上的流量导出程序已与 Intelligence 节点的消息代理断开连接。数据收集将受到影响。(The flow exporter on Transport node {entity-id} is disconnected from the Intelligence node's messaging broker. Data collection is affected.)” 事件解决后:“传输节点 {entity-id} 上的流量导出程序已重新连接到 Intelligence 节点的消息代理。(The flow exporter on Transport node {entity-id} has reconnected to the Intelligence node's messaging broker.)” |
|
| 至传输节点的控制通道关闭 | 中等 | 至传输节点的控制通道关闭。 检测到事件时:“从控制器服务角度,到传输节点 {entity-id} 的控制器服务 central_control_plane_id 关闭至少三分钟。(When event detected: Controller service central_control_plane_id to Transport node {entity-id} down for at least three minutes from Controller services point of view.)” 事件解决后:“到传输节点 {entity-id} 的控制器服务 central_control_plane_id 连接恢复。(Controller service central_control_plane_id restores connection to Transport node {entity-id} .)” |
|
| 至传输节点的控制通道关闭时间过长 |
严重 | 至传输节点的控制通道已关闭太长时间。 检测到事件时:“从控制器服务角度,到传输节点 {entity-id} 的控制器服务 central_control_plane_id 关闭至少 15 分钟。(When event detected: Controller service central_control_plane_id to Transport node {entity-id} down for at least 15 minutes from Controller services point of view.)” 事件解决后:“到传输节点 {entity-id} 的控制器服务 central_control_plane_id 连接恢复。(Controller service central_control_plane_id restores connection to Transport node {entity-id}.)” |
|
Intelligence 运行状况事件
NSX Intelligence 运行状况事件由 NSX Manager 节点和 NSX Intelligence 设备产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| CPU 使用率非常高 | 严重 | Intelligence 节点 CPU 使用率非常高。(Intelligence node CPU usage is very high.) 检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上的 CPU 使用率高于极高阈值 {system_usage_threshold}%。(The CPU usage on NSX Intelligence node {intelligence_node_id} is above the very high threshold value of {system_usage_threshold}%.)” 事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上的 CPU 使用率低于极高阈值 {system_usage_threshold}%。(The CPU usage on NSX Intelligence node {intelligence_node_id} is below the very high threshold value of {system_usage_threshold}%.)” |
使用 top 命令检查哪些进程的内存使用率最高,然后检查 /var/log/syslog 和这些进程的本地日志,以查看是否存在任何有待解决的错误。 |
| CPU 使用率高 | 中等 | Intelligence 节点 CPU 使用率高。(Intelligence node CPU usage is high.) 检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上的 CPU 使用率高于高阈值 {system_usage_threshold}%。(The CPU usage on NSX Intelligence node {intelligence_node_id} is above the high threshold value of {system_usage_threshold}%.)” 事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上的 CPU 使用率低于高阈值 {system_usage_threshold}%。(The CPU usage on NSX Intelligence node {intelligence_node_id} is below the high threshold value of {system_usage_threshold}%.)” |
使用 top 命令检查哪些进程的内存使用率最高,然后检查 /var/log/syslog 和这些进程的本地日志,以查看是否存在任何有待解决的错误。 |
| 内存使用率非常高 | 严重 | Intelligence 节点内存使用率非常高。(Intelligence node memory usage is very high.) 检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上的内存使用率高于极高阈值 {system_usage_threshold}%。(The memory usage on NSX Intelligence node {intelligence_node_id} is above the very high threshold value of {system_usage_threshold}%.)” 事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上的内存使用率低于极高阈值 {system_usage_threshold}%。(The memory usage on NSX Intelligence node {intelligence_node_id} is below the very high threshold value of {system_usage_threshold}%.)” |
使用 top 命令检查哪些进程的内存使用率最高,然后检查 /var/log/syslog 和这些进程的本地日志,以查看是否存在任何有待解决的错误。 |
| 内存使用率高 | 中等 | Intelligence 节点内存使用率高。(Intelligence node memory usage is high.) 检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上的内存使用率高于高阈值 {system_usage_threshold}%。(The memory usage on NSX Intelligence node {intelligence_node_id} is above the high threshold value of {system_usage_threshold}%.)” 事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上的内存使用率低于高阈值 {system_usage_threshold}%。(The memory usage on NSX Intelligence node {intelligence_node_id} is below the high threshold value of {system_usage_threshold}%.)” |
使用 top 命令检查哪些进程的内存使用率最高,然后检查 /var/log/syslog 和这些进程的本地日志,以查看是否存在任何有待解决的错误。 |
| 磁盘使用率非常高 | 严重 | Intelligence 节点磁盘使用率非常高。(Intelligence node disk usage is very high.) 检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 {disk_partition_name} 的磁盘使用率高于极高阈值 {system_usage_threshold}%。(The disk usage of disk partition {disk_partition_name} on the NSX Intelligence node {intelligence_node_id} is above the very high threshold value of {system_usage_threshold}%.)” 事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 {disk_partition_name} 的磁盘使用率低于极高阈值 {system_usage_threshold}%。(The disk usage of disk partition {disk_partition_name} on the NSX Intelligence node {intelligence_node_id} is below the very high threshold value of {system_usage_threshold}%.)” |
检查磁盘分区{disk_partition_name},查看是否有任何不需要的大文件可以移除。 |
| 磁盘使用率高 | 中等 | Intelligence 节点磁盘使用率高。(Intelligence node disk usage is high.) 检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 {disk_partition_name} 的磁盘使用率高于高阈值 {system_usage_threshold}%。(The disk usage of disk partition {disk_partition_name} on the NSX Intelligence node {intelligence_node_id} is above the high threshold value of {system_usage_threshold}%.)” 事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 {disk_partition_name} 的磁盘使用率低于高阈值 {system_usage_threshold}%。(The disk usage of disk partition {disk_partition_name} on the NSX Intelligence node {intelligence_node_id} is below the high threshold value of {system_usage_threshold}%.)” |
检查磁盘分区{disk_partition_name},查看是否有任何不需要的大文件可以移除。 |
| 数据磁盘分区使用率非常高 | 严重 | Intelligence 节点数据磁盘分区使用率非常高。(Intelligence node data disk partition usage is very high.) 检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 /data 的磁盘使用率高于极高阈值 {system_usage_threshold}%。(The disk usage of disk partition /data on NSX Intelligence node {intelligence_node_id} is above the very high threshold value of {system_usage_threshold}%.)” 事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 /data 的磁盘使用率低于极高阈值 {system_usage_threshold}%。(The disk usage of disk partition /data on NSX Intelligence node {intelligence_node_id} is below the very high threshold value of {system_usage_threshold}%.)” |
停止 NSX Intelligence 数据收集,直到磁盘使用率低于阈值。 在 NSX UI 中,导航到系统设备NSX Intelligence 设备。然后,选择。 |
| 数据磁盘分区使用率高 | 中等 | Intelligence 节点数据磁盘分区使用率高。(Intelligence node data disk partition usage is high.) 检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 /data 的磁盘使用率高于高阈值 {system_usage_threshold}%。(The disk usage of disk partition /data on NSX Intelligence node {intelligence_node_id} is above the high threshold value of {system_usage_threshold}%.)” 事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 /data 的磁盘使用率低于高阈值 {system_usage_threshold}%。(The disk usage of disk partition /data on NSX Intelligence node {intelligence_node_id} is below the high threshold value of {system_usage_threshold}%.)” |
停止 NSX Intelligence 数据收集,直到磁盘使用率低于阈值。 检查 /data 分区,查看是否有任何不需要的大文件可以移除。 |
| 节点状态已降级 | 高 | Intelligence 节点状态为已降级。(Intelligence node status is degraded.) 检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上的服务 {service_name} 未运行。(Service {service_name}on NSX Intelligence node {intelligence_node_id} is not running.)” 事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上的服务 {service_name} 运行正常。(Service {service_name}on NSX Intelligence node {intelligence_node_id} is running properly.)” |
在 NSX Intelligence 节点中使用 NSX CLI 命令 get services 检查服务状态和运行状况信息。 使用 NSX CLI 命令 restart service <service-name> 重新启动意外停止的服务。 |
IP 地址管理事件
IP 地址管理 (IPAM) 事件由 NSX Manager 节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| IP 块使用率非常高 | 中等 | 从 NSX-T Data Center 3.1.2 开始。 IP 块的 IP 子网使用率已达到 90%。(IP subnet usage of an IP block has reached 90%.) 检测到事件时:“<intent_path> 的 IP 块使用率非常高。IP 块接近其总容量,使用 IP 块创建子网可能会失败。(IP block usage of <intent_path> is very high. IP block nearing its total capacity, creation of subnet using IP block might fail.)” 事件解决后: 无消息。 |
注: 仅当 IP 池或子网没有任何分配的 IP 并且将来也不会使用分配的 IP 时,才删除该 IP 池或子网。
|
| IP 池使用率非常高 | 中等 | 从 NSX-T Data Center 3.1.2 开始。 IP 池的 IP 分配使用率已达到 90%。(IP allocation usage of an IP pool has reached 90%.) 检测到事件时:“<intent_path> 的 IP 池使用率非常高。IP 池接近其总容量。由于实体/服务的创建依赖于从 IP 池分配的 IP,创建实体/服务可能会失败。(IP pool usage of <intent_path> is very high. IP pool nearing its total capacity. Creation of entity/service depends on IP being allocated from IP pool might fail.)” 事件解决后: 无消息。 |
查看 IP 池使用率。从 IP 池中释放未使用的 IP 分配,或者创建新的 IP 池。
您可以释放未使用的 IP。要释放未使用的 IP 分配,请调用以下 NSX API。
|
许可证事件
许可证事件由 NSX Manager 节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 许可证已过期 | 严重 | 许可证已过期。(A license has expired.) 检测到事件时:“类型为 {license_edition_type} 的许可证已过期。(The license of type {license_edition_type} has expired.)” 事件解决后:“类型为 {license_edition_type} 的已过期许可证已移除、已更新或不再为已过期。(The expired license of type {license_edition_type} has been removed, updated, or is no longer expired.)” |
添加未过期的新许可证。
|
| 许可证就要过期 | 中等 | 检测到事件时:“类型为 {license_edition_type} 的许可证就要过期。(The license of type {license_edition_type} is about to expire.)” 事件解决后:“由 {license_edition_type} 标识的即将过期的许可证已移除、已更新或不再为就要过期。(The expiring license identified by {license_edition_type} has been removed, updated, or is no longer about to expire.)” |
添加未过期的新许可证。
|
负载均衡器事件
负载均衡器事件由 NSX Edge 节点或 NSX Manager 节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| LB CPU 使用率非常高 | 中等 | 负载均衡器 CPU 使用率非常高。(Load balancer CPU usage is very high.) 检测到事件时:“负载均衡器 {entity_id} 的 CPU 使用率非常高。阈值为 {system_usage_threshold}%。(The CPU usage of load balancer {entity_id} is very high. The threshold is {system_usage_threshold}%.)” 事件解决后:“负载均衡器 {entity_id} 的 CPU 使用率足够低。阈值为 {system_usage_threshold}%。(The CPU usage of load balancer {entity_id} is low enough. The threshold is {system_usage_threshold}%.)” |
如果负载均衡器的 CPU 占用率高于 {system_usage_threshold}%,则表示该负载均衡器的工作负载过高。 通过将负载均衡器大小从小型更改为中型或从中型更改为大型,重新调整负载均衡器服务。 如果此负载均衡器的 CPU 占用率仍然很高,请考虑调整 Edge 设备的规格大小,或将负载均衡器服务移至其他 Edge 节点以提供适用工作负载。 |
| LB 状态为已关闭 |
严重 | 检测到事件时:“集中式负载均衡器服务 {entity_id} 已关闭。(The centralized load balancer service {entity_id} is down.)” 事件解决后:“集中式负载均衡器服务 {entity_id} 已启动。(The centralized load balancer service {entity_id} is up.)” |
|
| 虚拟服务器状态为已关闭 | 中等 | 负载均衡器虚拟服务已关闭。(Load balancer virtual service is down.) 检测到事件时:“负载均衡器虚拟服务器 {entity_id} 已关闭。(The load balancer virtual server {entity_id} is down.)” 事件解决后:“负载均衡器虚拟服务器 {entity_id} 已启动。(The load balancer virtual server {entity_id} is up.)” |
查看负载均衡器池以确定其状态并验证其配置。 如果配置不正确,请重新配置,并从虚拟服务器中移除负载均衡器池,然后再次将其重新添加到虚拟服务器。 |
| 池状态为已关闭 | 中等 | 检测到事件时:“负载均衡器池 {entity_id} 状态为‘关闭’。(The load balancer pool {entity_id} status is down.)” 事件解决后:“负载均衡器池 {entity_id} 状态为‘已启动’。(The load balancer pool {entity_id} status is up.)” |
建立成员的运行状况后,池成员状态将根据成功检查计数更新为正常。 |
| LB 状态降级 |
中等 | 从 NSX-T Data Center 3.1.2 开始。 检测到事件时:“负载均衡器服务 {entity_id} 已降级。(The load balancer service {entity_id} is degraded.)” 事件解决后:“负载均衡器服务 {entity_id} 未降级。(The load balancer service {entity_id} is not degraded.)” |
|
| DLB 状态为已关闭 |
严重 | 从 NSX-T Data Center 3.1.2 开始。 检测到事件时:“分布式负载均衡器服务 {entity_id} 已关闭。(The distributed load balancer service {entity_id} is down.)” 事件解决后:“分布式负载均衡器服务 {entity_id} 已启动。(The distributed load balancer service {entity_id} is up.)” |
|
| LB Edge 容量使用率高 |
严重 | 从 NSX-T Data Center 3.1.2 开始。 检测到事件时:“Edge 节点 {entity_id} 中的负载均衡器服务使用率高。阈值为 {system_usage_threshold}%。(The usage of load balancer service in Edge node {entity_id} is high. The threshold is {system_usage_threshold}%.)” 事件解决后:“Edge 节点 {entity_id} 中的负载均衡器服务使用率足够低。阈值为 {system_usage_threshold}%。(The usage of load balancer service in Edge node {entity_id} is low enough. The threshold is {system_usage_threshold}%.)” |
部署新的 Edge 节点,并将负载均衡器服务从现有 Edge 节点移动到新部署的 Edge 节点。 |
| LB 池成员容量使用率非常高 |
严重 | 从 NSX-T Data Center 3.1.2 开始。 检测到事件时:“Edge 节点 {entity_id} 中的池成员使用率非常高。阈值为 {system_usage_threshold}%。(The usage of pool members in Edge node {entity_id} is very high. The threshold is {system_usage_threshold}%.)” 事件解决后:“Edge 节点 {entity_id} 中的池成员使用率足够低。阈值为 {system_usage_threshold}%。(The usage of pool members in Edge node {entity_id} is low enough. The threshold is {system_usage_threshold}%.)” |
部署新的 Edge 节点,并将负载均衡器服务从现有 Edge 节点移动到新部署的 Edge 节点。 |
管理器运行状况事件
NSX Manager 运行状况事件由 NSX Manager 节点集群产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 重复的 IP 地址 | 中等 | 另一个设备正在使用管理器节点的 IP 地址。(Manager node's IP address is in use by another device.) 检测到事件时:“管理器节点 {entity_id} 的 IP 地址 {duplicate_ip_address} 当前正由网络中的另一设备使用。(Manager node {entity_id} IP address {duplicate_ip_address} is currently being used by another device in the network.)” 事件解决后:“管理器节点 {entity_id} 似乎不再使用 {duplicate_ip_address}。(Manager node {entity_id} appears to no longer be using {duplicate_ip_address}.)” |
|
| 管理器 CPU 使用率非常高 | 严重 | 管理器节点 CPU 使用率非常高。(Manager node CPU usage is very high.) 检测到事件时:“管理器节点 {entity_id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The CPU usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%.)” 事件解决后:“管理器节点 {entity_id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The CPU usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)” |
请查看此管理器节点的配置、正在运行的服务和大小。 考虑调整管理器设备的规格大小。 |
| 管理器 CPU 使用率高 | 中等 | 从 NSX-T Data Center 3.0.1 开始。 管理器节点 CPU 使用率高。(Manager node CPU usage is high.) 检测到事件时:“管理器节点 {entity_id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The CPU usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%.)” 事件解决后:“管理器节点 {entity_id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The CPU usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)” |
请查看此管理器节点的配置、正在运行的服务和大小。 考虑调整管理器设备的规格大小。 |
| 管理器内存使用率非常高 | 严重 | 从 NSX-T Data Center 3.0.1 开始。 管理器节点内存使用率非常高。(Manager node memory usage is very high.) 检测到事件时:“管理器节点 {entity_id} 上的内存使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The memory usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%.)” 事件解决后:“管理器节点 {entity_id} 上的内存使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The memory usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)” |
请查看此管理器节点的配置、正在运行的服务和大小。 考虑调整管理器设备的规格大小。 |
| 管理器内存使用率高 | 中等 | 管理器节点内存使用率高。(Manager node memory usage is high.) 检测到事件时:“管理器节点 {entity_id} 上的内存使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The memory usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%.)” 事件解决后:“管理器节点 {entity_id} 上的内存使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The memory usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)” |
请查看此管理器节点的配置、正在运行的服务和大小。 考虑调整管理器设备的规格大小。 |
| 管理器磁盘使用率非常高 | 严重 | 管理器节点磁盘使用率非常高。(Manager node disk usage is very high.) 检测到事件时:“管理器节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The disk usage for the Manager node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%.)” 事件解决后:“管理器节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The disk usage for the Manager node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)” |
检查具有高使用率的分区,查看是否有任何不需要的大文件可以移除。 |
| 管理器磁盘使用率高 | 中等 | 管理器节点磁盘使用率高。(Manager node disk usage is high.) 检测到事件时:“管理器节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The disk usage for the Manager node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%.)” 事件解决后:“管理器节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The disk usage for the Manager node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)” |
检查具有高使用率的分区,查看是否有任何不需要的大文件可以移除。 |
| 管理器配置磁盘使用率非常高 | 严重 | 管理器节点配置磁盘使用率非常高。(Manager node config disk usage is very high.) 检测到事件时:“管理器节点磁盘分区 /config 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。这可能表明 NSX 数据存储服务在 /config/corfu 目录下的磁盘使用率高。(The disk usage for the Manager node disk partition /config has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%. This can be an indication of high disk usage by the NSX Datastore service under the /config/corfu directory.)” 事件解决后:“管理器节点磁盘分区 /config 的磁盘使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The disk usage for the Manager node disk partition /config has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)” |
检查 /config 分区,查看是否有任何不需要的大文件可以移除。 |
| 管理器配置磁盘使用率高 | 中等 | 管理器节点配置磁盘使用率高。(Manager node config disk usage is high.) 检测到事件时:“管理器节点磁盘分区 /config 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。这可能表明 NSX 数据存储服务在 /config/corfu 目录下的磁盘使用率正在上升。(The disk usage for the Manager node disk partition /config has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%. This can be an indication of rising disk usage by the NSX Datastore service under the /config/corfu directory.)” 事件解决后:“管理器节点磁盘分区 /config 的磁盘使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The disk usage for the Manager node disk partition /config has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)” |
检查 /config 分区,查看是否有任何不需要的大文件可以移除。 |
| 操作数据库磁盘使用率高 |
中等 | 管理器节点磁盘分区 /nonconfig 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。这可能表明 NSX 数据存储服务在 /nonconfig/corfu 目录下的磁盘使用率正在上升。(The disk usage for the Manager node disk partition /nonconfig has reached {system_resource_usage}% which is at or above the high threshold value of {system_usage_threshold}%. This can be an indication of rising disk useage by the NSX Datastore service under the /nonconfig/corfu directory.) |
请运行以下工具;如果报告任何问题,请与 GSS 联系:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig。 |
| 操作数据库磁盘使用率非常高 | 严重 | 管理器节点磁盘分区 /nonconfig 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。这可能表明 NSX 数据存储服务在 /nonconfig/corfu 目录下的磁盘使用率正在上升。(The disk usage for the Manager node disk partition /nonconfig has reached {system_resource_usage}% which is at or above the very high threshold value of {system_usage_threshold}%. This can be an indication of rising disk useage by the NSX Datastore service under the /nonconfig/corfu directory.) |
请运行以下工具;如果报告任何问题,请与 GSS 联系:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig。 |
NCP 事件
NSX Container Plug-in (NCP) 事件由 ESXi 和 KVM 节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| NCP 插件已关闭 | 严重 | 管理器节点已检测到 NCP 已关闭或状态不正常。(Manager Node has detected the NCP is down or unhealthy.) 检测到事件时:“管理器节点已检测到 NCP 已关闭或状态不正常。(Manager node has detected the NCP is down or unhealthy.)” 事件解决后:“管理器节点已检测到 NCP 已启动或再次正常运行。(Manager Node has detected the NCP is up or healthy again.)” |
要查找存在问题的集群,请调用 NSX API GET /api/v1/systemhealth/container-cluster/ncp/status 以获取所有集群状态,并确定报告为“已关闭”或“未知”的任何集群的名称。 转到 NSX UI 页面以查找报告为“已关闭”或“未知”状态的集群的名称,然后单击“节点”选项卡,其中列出了所有 Kubernetes 和 PAS 集群成员。
对于 Kubernetes 集群:
对于 PAS 集群:
|
节点代理运行状况事件
节点代理运行状况事件由 ESXi 和 KVM 节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 节点代理已关闭 | 高 | 在节点虚拟机内运行的代理似乎已关闭。(The agents running inside the Node VM appear to be down.) 检测到事件时:“在节点虚拟机内运行的代理似乎已关闭。(The agents running inside the node VM appear to be down.)” 事件解决后:“节点虚拟机中的代理正在运行。(The agents inside the Node VM are running.)” |
对于 ESX:
对于 KVM:
对于 ESX 和 KVM:
|
NSX 联合 事件
NSX 联合 事件是从 NSX Manager、NSX Edge 和公用网关节点中生成的。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| LM 到 LM 同步错误 |
高 | 从 NSX-T Data Center 3.0.1 开始。 {site_name}({site_id}) 和 {remote_site_name}({remote_site_id}) 之间的同步失败超过 5 分钟。(The synchronization between {site_name}({site_id}) and {remote_site_name}({remote_site_id}) failed for more than 5 minutes.) |
|
| LM 到 LM 同步警告 | 中等 | 从 NSX-T Data Center 3.0.1 开始。 {site_name}({site_id}) 和 {remote_site_name}({remote_site_id}) 之间的同步失败。(The synchronization between {site_name}({site_id}) and {remote_site_name}({remote_site_id}) failed.) 至传输节点的控制通道已关闭太长时间 (Control Channel to Transport Node Down for too long) |
|
| RTEP BGP 已关闭 | 高 | 从 NSX-T Data Center 3.0.1 开始。 从源 IP {bgp_source_ip} 到远程位置 {remote_site_name} 邻居 IP {bgp_neighbor_ip} 的 RTEP BGP 会话已关闭。原因:{failure_reason}。(RTEP BGP session from source IP {bgp_source_ip} to remote location {remote_site_name} neighbor IP {bgp_neighbor_ip} is down. Reason: {failure_reason}.) |
|
密码管理事件
密码管理事件由 NSX Manager、NSX Edge 和公共网关节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 密码已过期 | 严重 | 用户密码已过期。(User password has expired.) 检测到事件时:“用户 {username} 的密码已过期。(The password for user {username} has expired.)” 事件解决后:“用户 {username} 的密码已成功更改或不再处于已过期状态。(The password for the user {username} has been changed successfully or is no longer expired.)” |
必须立即更改用户 {username} 的密码才能访问系统。例如,要将新密码应用于用户,请在请求正文中使用有效密码调用以下 NSX API:
其中 |
| 密码就要过期 | 高 | 用户密码就要过期。(User password is about to expire.) 检测到事件时:“用户 {username} 的密码即将在 {password_expiration_days} 天内过期。(The password for user {username} is about to expire in {password_expiration_days} days.)” 事件解决后:“用户 {username} 的密码已成功更改或不再为就要过期。(The password for the user {username} has been changed successfully or is no longer about to expire.)” |
确保立即更改由 {username} 标识的用户的密码。例如,要将新密码应用于用户,请在请求正文中使用有效密码调用以下 NSX API:
其中 |
| 密码即将过期 | 中等 | 用户密码即将过期。(User password is approaching expiration.) 检测到事件时:“用户 {username} 的密码即将在 {password_expiration_days} 天内过期。(The password for user {username} is about to expire in {password_expiration_days} days.)” 事件解决后:“用户 {username} 的密码已成功更改或不再为就要过期。(The password for the user {username} has been changed successfully or is no longer about to expire.)” |
需要尽快更改由 {username} 标识的用户的密码。例如,要将新密码应用于用户,请在请求正文中使用有效密码调用以下 NSX API:
其中 |
路由事件
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| BGP 关闭 | 高 | BGP 邻居已关闭。(BGP neighbor down.) 检测到事件时:“在路由器 {entity_id} 中,BGP 邻居 {bgp_neighbor_ip} 已关闭,原因: {failure_reason}。(In Router {entity_id}, BGP neighbor {bgp_neighbor_ip} is down, reason: {failure_reason}.)” 事件解决后:“在路由器 {entity_id} 中,BGP 邻居 {bgp_neighbor_ip} 已启动。(In Router {entity_id}, BGP neighbor {bgp_neighbor_ip} is up.)” |
|
| 外部接口上的双向转发检测 (BFD) 已关闭 |
高 | BFD 会话已关闭。(BFD session is down.) 检测到事件时:“在路由器 {entity_id} 中,对等项 {peer_address} 的 BFD 会话已关闭。(In router {entity_id}, BFD session for peer {peer_address} is down.)” 事件解决后:“在路由器 {entity_id} 中,对等项 {peer_address} 的 BFD 会话已启动。(In router {entity_id}, BFD session for peer {peer_address} is up.)” |
|
| 路由关闭 | 高 | 所有 BGP/BFD 会话已关闭。(All BGP/BFD sessions are down.) 检测到事件时:“所有 BGP/BFD 会话已关闭。(All BGP/BFD sessions are down.)” 事件解决后:“至少有一个 BGP/BFD 会话已启动。(At least one BGP/BFD sessions up.)” |
|
| 静态路由已移除 | 高 | 已移除静态路由。(Static route removed.) 检测到事件时:“在路由器 {entity_id} 中,由于 BFD 已关闭,因此已移除静态路由 {static_address}。(In router {entity_id}, static route {static_address} was removed because BFD was down.)” 事件解决后:“在路由器 {entity_id} 中,在 BFD 恢复时已重新添加静态路由 {static_address}。(In router {entity_id}, static route {static_address} was re-added as BFD recovered.)” |
|
传输节点运行状况
传输节点运行状况事件由 KVM 和 ESXi 节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| LAG 成员关闭 | 中等 | LACP 报告成员已关闭。(LACP reporting member down.) 检测到事件时:“LACP 报告成员已关闭。(LACP reporting member down.)” 事件解决后:“LACP 报告成员已启动。(LACP reporting member up.)” |
检查主机上 LAG 成员的连接状态。
|
| N-VDS 上行链路中断 | 中等 | 上行链路即将中断。(Uplink is going down.) 检测到事件时:“上行链路即将中断。(Uplink is going down.)” 事件解决后:“上行链路即将连接。(Uplink is going up.)” |
检查主机上上行链路的物理网卡状态。
|
VPN 事件
VPN 事件由 NSX Edge 和公共网关节点产生。
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 基于策略的 IPsec 会话已关闭 | 中等 | 基于策略的 IPsec VPN 会话已关闭。(Policy-based IPsec VPN session is down.) 检测到事件时:“基于策略的 IPsec VPN 会话 {entity_id} 已关闭。原因: {session_down_reason}。(The policy-based IPsec VPN session {entity_id} is down. Reason: {session_down_reason}.)” 事件解决后:“基于策略的 IPsec VPN 会话 {entity_id} 已启动。(The policy-based IPsec VPN session {entity_id} is up.)” |
检查 IPsec VPN 会话配置并根据会话关闭原因来解决错误。 |
| 基于路由的 IPsec 会话已关闭 | 中等 | 基于路由的 IPsec VPN 会话已关闭。(Route-based IPsec VPN session is down.) 检测到事件时:“基于路由的 IPsec VPN 会话 {entity_id} 已关闭。原因: {session_down_reason}。(The route-based IPsec VPN session {entity_id} is down. Reason: {session_down_reason}.)” 事件解决后:“基于路由的 IPsec VPN 会话 {entity_id} 已启动。(The route-based IPsec VPN session {entity_id} is up.)” |
检查 IPsec VPN 会话配置并根据会话关闭原因来解决错误。 |
| 基于策略的 IPsec 隧道已关闭 | 中等 | 基于策略的 IPsec VPN 隧道已关闭。(Policy-based IPsec VPN tunnels are down.) 检测到事件时:“会话 {entity_id} 中的一个或多个基于策略的 IPsec VPN 隧道已关闭。(One or more policy-based IPsec VPN tunnels in session {entity_id} are down.)” 事件解决后:“会话 {entity_id} 中的所有基于策略的 IPsec VPN 隧道已启动。(All policy-based IPsec VPN tunnels in session {entity_id} are up.)” |
检查 IPsec VPN 会话配置并根据隧道关闭原因来解决错误。 |
| 基于路由的 IPsec 隧道已关闭 | 中等 | 基于路由的 IPsec VPN 隧道已关闭。(Route-based IPsec VPN tunnels are down.) 检测到事件时:“会话 {entity_id} 中的一个或多个基于路由的 IPsec VPN 隧道已关闭。(One or more route-based IPsec VPN tunnels in session {entity_id} are down.)” 事件解决后:“会话 {entity_id} 中的所有基于路由的 IPsec VPN 隧道已启动。(All route-based IPsec VPN tunnels in session {entity_id} are up.)” |
检查 IPsec VPN 会话配置并根据隧道关闭原因来解决错误。 |
| L2VPN 会话已关闭 | 中等 | L2VPN 会话已关闭。(L2VPN session is down.) 检测到事件时:“L2VPN 会话 {entity_id} 已关闭。(The L2VPN session {entity_id} is down.)” 事件解决后:“L2VPN 会话 {entity_id} 已启动。(The L2VPN session {entity_id} is up.)” |
检查 IPsec VPN 会话配置并根据相关原因来解决错误。 |
身份防火墙事件
| 事件名称 | 严重性 | 警示消息 | 建议的操作 |
|---|---|---|---|
| 与 LDAP 服务器的连接已断开 | 严重 |
与 LDAP 服务器的连接丢失。 检测到事件时:“无法连接到 LDAP 服务器。(Fail to connect to the LDAP server.)” 检测到事件时:“已成功连接到 LDAP 服务器。(Successfully connected to the LDAP server.)” |
执行以下步骤以检查 LDAP 服务器连接:
在修复连接问题后,使用 LDAP 服务器 UI 中的“测试连接”以测试到 LDAP 服务器的连接。 |
| 增量同步出错 |
严重 | 在与 AD 域的增量同步期间发现错误 检测到事件时:“增量同步已完成,但出现错误。(Delta sync finished with error.)” 检测到事件时:“增量同步已完成,并且没有出现错误。(Delta sync finished without error.)” |
如果发出“
与 LDAP 服务器的连接丢失”警报,请解决该警报。 如果到 LDAP 服务器的连接已启动,请按照日志中的错误消息检查 AD 服务器中的相关更改。 |