下表介绍了会触发警报的事件,包括警报消息以及解决这些警报的建议操作。严重性高于的任何事件都会触发警报。

警报管理事件

警报管理事件由 NSX Manager 和全局管理器节点产生。

事件名称 严重性 警示消息 建议的操作
警报服务过载 严重

警报服务已过载。(The alarm service is overloaded.)

检测到事件时:“由于报告的警报数量过大,导致警报服务暂时过载。NSX UI 和 GET /api/v1/alarms NSX API 已停止报告新的警报;但是,仍会发出 syslog 条目和 SNMP 陷阱 (如果已启用),以报告底层事件的详细信息。在解决了导致警报大量出现的底层问题后,警报服务将重新开始报告新的警报。(Due to heavy volume of alarms reported, the alarm service is temporarily overloaded. The NSX UI and GET /api/v1/alarms NSX API have stopped reporting new alarms. Syslog entries and SNMP traps (if enabled) are still being emitted reporting the underlying event details. When the underlying issues causing the heavy volume of alarms are addressed, the alarm service starts reporting new alarms again.)”

事件解决后:“警报过量的情况已缓解,将再次报告新的警报。(The heavy volume of alarms has subsided and new alarms are being reported again.)”

使用 NSX UI 中的“警报”页面或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API 查看所有活动的警报。对于每个活动的警报,按照为警报建议的操作来调查根本原因。解决了足够数量的警报后,警报服务将再次开始报告新的警报。

警报数量过大 严重

检测到特定警报类型的数量过大。(Heavy volume of a specific alarm type detected.)

检测到事件时:“由于 {event_id} 警报数量过大,导致警报服务暂时停止报告此类警报。NSX UI 和 GET /api/v1/alarms NSX API 将不会报告这些警报的新实例;但是,仍会发出 syslog 条目和 SNMP 陷阱 (如果已启用),以报告底层事件的详细信息。在解决了导致 {event_id} 警报大量出现的底层问题后,当再次检测到新的问题时,警报服务将重新开始报告新的 {event_id} 警报。(Due to heavy volume of {event_id} alarms, the alarm service has temporarily stopped reporting alarms of this type. The NSX UI and GET /api/v1/alarms NSX API are not reporting new instances of these alarms. Syslog entries and SNMP traps (if enabled) are still being emitted reporting the underlying event details. When the underlying issues causing the heavy volume of {event_id} alarms are addressed, the alarm service starts reporting new {event_id} alarms when new issues are detected again.)”

事件解决后:“{event_id} 警报过量的情况已缓解,将再次报告此类新警报。(The heavy volume of {event_id} alarms has subsided and new alarms of this type are being reported again.)”

使用 NSX UI 中的“警报”页面或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API 查看所有活动的警报。对于每个活动的警报,按照为警报建议的操作来调查根本原因。解决了足够数量的警报后,警报服务将再次开始报告新的 {event_id} 警报。

证书事件

证书事件由 NSX Manager 节点产生。

事件名称 严重性 警示消息 建议的操作
证书已过期 严重

证书已过期。(A certificate has expired.)

检测到事件时:“证书 {entity-id} 已过期。(Certificate {entity-id} has expired.)”

事件解决后:“已过期的证书 {entity-id} 已被移除或不再为‘已过期’状态。(The expired certificate {entity-id} has been removed or is no longer expired.)”

确保当前使用该证书的服务已更新为使用未过期的新证书。例如,要将新证书应用于 HTTP 服务,请执行以下 API 调用:

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

其中 <cert-id> 是由 API 调用 GET /api/v1/trust-management/certificates 报告的有效证书的 ID。

不再使用已过期的证书后,应当使用以下 API 调用将其删除:

DELETE /api/v1/trust-management/certificates/{entity_id}

证书就要过期

证书就要过期。(A certificate is about to expire.)

检测到事件时:“证书 {entity-id} 就要过期。(Certificate {entity-id} is about to expire.)”

事件解决后:“即将过期的证书 {entity-id} 已被移除或不再为“就要过期”状态。(The expiring certificate {entity-id} has been removed or is no longer about to expire.)”

确保当前使用该证书的服务已更新为使用非即将过期的新证书。例如,要将新证书应用于 HTTP 服务,请执行以下 API 调用:

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

其中 <cert-id> 是由 API 调用 GET /api/v1/trust-management/certificates 报告的有效证书的 ID。

不再使用即将过期的证书后,应当使用以下 API 调用将其删除:

DELETE /api/v1/trust-management/certificates/{entity_id}

证书即将过期 中等

证书即将过期。(A certificate is approaching expiration.)

检测到事件时:“证书 {entity-id} 即将过期。(Certificate {entity-id} is approaching expiration.)”

事件解决后:“即将过期的证书 {entity-id} 已被移除或不再为“即将过期”状态。(The expiring certificate {entity-id} has been removed or is no longer approaching expiration.)”

确保当前使用该证书的服务已更新为使用非即将过期的新证书。例如,要将新证书应用于 HTTP 服务,请执行以下 API 调用:

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

其中 <cert-id> 是由 API 调用 GET /api/v1/trust-management/certificates 报告的有效证书的 ID。

不再使用即将过期的证书后,应当使用以下 API 调用将其删除:

DELETE /api/v1/trust-management/certificates/{entity_id}

CNI 运行状况事件

CNI 运行状况事件由 ESXi 和 KVM 节点产生。

事件名称 严重性 警示消息 建议的操作
Hyperbus Manager 连接关闭 中等

Hyperbus 无法与管理器节点通信。(Hyperbus cannot communicate with the Manager node.)

检测到事件时:“Hyperbus 无法与管理器节点通信。(Hyperbus cannot communicate with the Manager node.)”

事件解决后:“Hyperbus 可以与管理器节点通信。(Hyperbus can communicate with the Manager node.)”

可能缺少 Hyperbus VMkernel 接口 (vmk50)。请参见知识库文章 67432

DHCP 事件

DHCP 事件由 NSX Edge 和公共网关节点产生。

事件名称 严重性 警示消息 建议的操作
池租约分配失败

IP 池中的 IP 地址已用尽。(IP addresses in an IP Pool have been exhausted.)

检测到事件时:“DHCP 服务器 {dhcp_server_id} 的 IP 池 {entity_id} 中的地址已用尽。最后一个 DHCP 请求失败,未来的请求也将失败。(The addresses in IP Pool {entity_id} of DHCP Server {dhcp_server_id} have been exhausted. The last DHCP request has failed and future requests will fail.)”

事件解决后:“DHCP 服务器 {dhcp_server_id} 的 IP 池 {entity_id} 不再为‘用尽’状态。租约已成功分配给最后一个 DHCP 请求。(IP Pool {entity_id} of DHCP Server {dhcp_server_id} is no longer exhausted. A lease is successfully allocated to the last DHCP request.)”

通过调用 NSX CLI 命令 get dhcp ip-pool,在 NSX UI 中或在运行 DHCP 服务器的 Edge 节点上查看 DHCP 池配置。

此外,通过调用 NSX CLI 命令 get dhcp lease,查看 Edge 节点上的当前活动租约。

将租约数量与活动虚拟机的数量进行比较。如果虚拟机数量少于活动租约的数量,请考虑缩短 DHCP 服务器配置上的租约时间。另请考虑通过访问 NSX UI 中的网络 > 分段 > 分段页面来扩展 DHCP 服务器的池范围。

池过载 中等

IP 池已过载。(An IP Pool is overloaded.)

检测到事件时:“DHCP 服务器 {dhcp_server_id} IP 池 {entity_id} 即将用完,已分配了 {dhcp_pool_usage}% 的 IP。(DHCP Server {dhcp_server_id} IP Pool {entity_id} usage is approaching exhaustion with {dhcp_pool_usage}% IPs allocated.)”

事件解决后:“DHCP 服务器 {dhcp_server_id} IP 池 {entity_id} 已低于高使用率阈值。(The DHCP Server {dhcp_server_id} IP Pool {entity_id} has fallen below the high usage threshold.)”

通过调用 NSX CLI 命令 get dhcp ip-pool,在 NSX UI 中或在运行 DHCP 服务器的 Edge 节点上查看 DHCP 池配置。

此外,通过调用 NSX CLI 命令 get dhcp lease,查看 Edge 节点上的当前活动租约。

将租约数量与活动虚拟机的数量进行比较。如果虚拟机数量少于活动租约的数量,请考虑缩短 DHCP 服务器配置上的租约时间。另请考虑通过访问 NSX UI 中的网络 > 分段 > 分段页面来扩展 DHCP 服务器的池范围。

分布式防火墙事件

分布式防火墙事件由 NSX Manager 或 ESXi 节点产生。

事件名称 严重性 警示消息 建议的操作
分布式防火墙 CPU 使用率非常高 严重

分布式防火墙 CPU 使用率非常高。(Distributed firewall CPU usage is very high.)

检测到事件时:“传输节点 {entity_id} 上的 DFW CPU 使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The DFW CPU usage on Transport node {entity_id} has reached {system_resource_usage}% which is at or above the very high threshold value of {system_usage_threshold}%.)”

事件解决后:“DNS 转发器 {entity_id} 再次运行。(DNS forwarder {entity_id} is running again.)”

请考虑将此主机上的虚拟机工作负载重新均衡到其他主机。

请查看安全设计以进行优化。例如,如果规则不适用于整个数据中心,请使用“应用到”配置。

分布式防火墙内存使用率非常高 严重

分布式防火墙内存使用率非常高。(Distributed firewall memory usage is very high.)

检测到事件时:“传输节点 {entity_id} 上的 DFW 内存使用率 {heap_type} 已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The DFW memory usage {heap_type} on Transport Node {entity_id} has reached {system_resource_usage}% which is at or above the very high threshold value of {system_usage_threshold}%.)”

事件解决后:“传输节点 {entity_id} 上的 DFW 内存使用率 {heap_type} 已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The DFW memory usage {heap_type} on Transport Node {entity_id} has reached {system_resource_usage}% which is below the very high threshold value of {system_usage_threshold}%.)”

通过在主机上调用 NSX CLI 命令 get firewall thresholds,查看当前的 DFW 内存使用率。

请考虑将此主机上的工作负载重新均衡到其他主机。

DNS 事件

DNS 事件由 NSX Edge 和公共网关节点产生。

事件名称 严重性 警示消息 建议的操作
转发器已关闭

DNS 转发器已关闭。(A DNS forwarder is down.)

检测到事件时:“DNS 转发器 {entity_id} 未运行。这会影响当前已启用的所有已配置 DNS 转发器。(DNS forwarder {entity_id} is not running. This is impacting all configured DNS Forwarders that are currently enabled.)”

事件解决后:“DNS 转发器 {entity_id} 再次运行。(DNS forwarder {entity_id} is running again.)”

  1. 调用 NSX CLI 命令 get dns-forwarders status 以验证 DNS 转发器是否处于关闭状态。
  2. 检查 /var/log/syslog 以查看是否报告了错误。
  3. 收集支持包并联系 NSX 支持团队。
转发器已禁用

DNS 转发器已禁用。(A DNS forwarder is disabled.)

检测到事件时:“DNS 转发器 {entity_id} 处于禁用状态。(DNS forwarder {entity_id} is disabled.)”

事件解决后:“DNS 转发器 {entity_id} 处于启用状态。(DNS forwarder {entity_id} is enabled.)”

  1. 调用 NSX CLI 命令 get dns-forwarders status 以验证 DNS 转发器是否处于禁用状态。
  2. 使用 NSX 策略 API 或管理器 API 启用 DNS 转发器,该转发器不应处于禁用状态。

Edge 运行状况事件

Edge 运行状况事件由 NSX Edge 和公共网关节点产生。

事件名称 严重性 警示消息 建议的操作
Edge CPU 使用率非常高 严重

Edge 节点 CPU 使用率非常高。(Edge node CPU usage is very high.)

检测到事件时:“Edge 节点 {entity_id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The CPU usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%.)”

事件解决后:“Edge 节点 {entity-id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The CPU usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)”

请查看此 Edge 节点的配置、正在运行的服务和大小。考虑调整 Edge 设备的规格大小,或将服务重新均衡到其他 Edge 节点以提供适用工作负载。
Edge CPU 使用率高 中等

Edge 节点 CPU 使用率高。(Edge node CPU usage is high.)

检测到事件时:“Edge 节点 {entity_id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The CPU usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%.)”

事件解决后:“Edge 节点 {entity-id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The CPU usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)”

请查看此 Edge 节点的配置、正在运行的服务和大小。考虑调整 Edge 设备的规格大小,或将服务重新均衡到其他 Edge 节点以提供适用工作负载。
Edge 数据路径配置失败

Edge 节点数据路径配置失败。(Edge node datapath configuration has failed.)

检测到事件时:“尝试三次后,无法在 Edge 节点上启用数据路径。(Failed to enable the datapath on the Edge node after three attempts.)”

事件解决后:“已成功启用 Edge 节点上的数据路径。(Datapath on the Edge node has been successfully enabled.)”

确保 Edge 节点与管理器节点的连接正常。

从 Edge 节点 NSX CLI 中,调用命令 get services 以检查服务的运行状况。

如果数据平面服务已停止,请调用命令 start service dataplane 以将其重新启动。

Edge 数据路径 CPU 使用率非常高 严重

Edge 节点数据路径 CPU 使用率非常高。(Edge node datapath CPU usage is very high.)

检测到事件时:“Edge 节点 {entity-id} 上的数据路径 CPU 使用率已达到 {datapath_resource_usage}%,该值等于或高于极高阈值至少两分钟。(The datapath CPU usage on Edge node {entity-id} has reached {datapath_resource_usage}% which is at or above the very high threshold for at least two minutes.)”

事件解决后:“Edge 节点 {entity-id} 上的数据路径 CPU 使用率已降至最大阈值以下。(Datapath CPU usage on Edge node {entity-id} has reduced below the maximum threshold.)”

通过调用 NSX CLI 命令 get dataplane cpu stats,查看 Edge 节点上的 CPU 统计信息,以显示每个 CPU 内核的数据包速率。

数据包速率较高时,CPU 使用率应当也会较高。

请考虑增加 Edge 设备的规格大小,并将此 Edge 节点上的服务重新均衡到同一集群或其他 Edge 集群中的其他 Edge 节点。

Edge 数据路径 CPU 使用率高 中等

Edge 节点数据路径 CPU 使用率高。(Edge node datapath CPU usage is high.)

检测到事件时:“Edge 节点 {entity-id} 上的数据路径 CPU 使用率已达到 {datapath_resource_usage}%,该值等于或高于高阈值至少两分钟。(The datapath CPU usage on Edge node {entity-id} has reached {datapath_resource_usage}% which is at or above the high threshold for at least two minutes.)”

事件解决后:“Edge 节点 {entity-id} 上的 CPU 使用率已降至高阈值以下。(The CPU usage on Edge node {entity-id} has reached below the high threshold.)”

通过调用 NSX CLI 命令 get dataplane cpu stats,查看 Edge 节点上的 CPU 统计信息,以显示每个 CPU 内核的数据包速率。

数据包速率较高时,CPU 使用率应当也会较高。

请考虑增加 Edge 设备的规格大小,并将此 Edge 节点上的服务重新均衡到同一集群或其他 Edge 集群中的其他 Edge 节点。

Edge 数据路径加密驱动程序已关闭 严重

Edge 节点数据路径加密驱动程序已关闭。(The Edge node datapath crypto driver is down.)

检测到事件时:“Edge 节点加密驱动程序已关闭。(Edge node crypto driver is down.)”

事件解决后:“Edge 节点加密驱动程序已启动。(Edge node crypto driver is up.)”

根据需要升级 Edge 节点。

Edge 数据路径内存池高 中等

Edge 节点数据路径内存池高。(The Edge node datapath memory pool is high.)

检测到事件时:“Edge 节点 {entity-id} 上的 {mempool_name} 的数据路径 mempool 使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The datapath mempool usage for {mempool_name} on Edge node {entity-id} has reached {system_resource_usage}% which is at or above the high threshold value of {system_usage_threshold}%.)”

事件解决后:“Edge 节点 {entity-id} 上的 {mempool_name} 的数据路径 mempool 使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The datapath mempool usage for {mempool_name} on Edge node {entity-id} has reached {system_resource_usage}% which is below the high threshold value of {system_usage_threshold}%.)”

以 root 用户身份登录并调用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/showedge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap 以检查 DPDK 内存使用率。
Edge 磁盘使用率非常高 严重

Edge 节点磁盘使用率非常高。(Edge node disk usage is very high.)

检测到事件时:“Edge 节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The disk usage for the Edge node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%.)”

事件解决后:“Edge 节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The disk usage for the Edge node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)”

检查具有高使用率的分区,查看是否有任何不需要的大文件可以移除。
Edge 磁盘使用率高 中等

Edge 节点磁盘使用率高。(Edge node disk usage is high.)

检测到事件时:“Edge 节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The disk usage for the Edge node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%.)”

事件解决后:“Edge 节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The disk usage for the Edge node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)”

检查具有高使用率的分区,查看是否有任何不需要的大文件可以移除。
Edge 全局 ARP 表使用率高 中等

Edge 节点全局 ARP 表使用率高。(The Edge node global ARP table usage is high.)

检测到事件时:“Edge 节点 {entity-id} 上的全局 ARP 表使用率已达到 {datapath_resource_usage}%,该值高于高阈值超过两分钟。(Global ARP table usage on Edge node {entity-id} has reached {datapath_resource_usage}% which is above the high threshold for over two minutes.)”

事件解决后:“Edge 节点 {entity-id} 上的全局 ARP 表使用率已达到高阈值以下。(Global arp table usage on Edge node {entity-id} has reached below the high threshold.)”

增加 ARP 表大小:
  1. 以 root 用户身份登录。
  2. 调用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show
  3. 检查 neigh 缓存使用率是否正常。
    1. 如果正常,则调用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries 以增加 ARP 表大小。
Edge 内存使用率非常高 严重

Edge 节点内存使用率非常高。(Edge node memory usage is very high.)

检测到事件时:“Edge 节点 {entity-id} 上的内存使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The memory usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%.)”

事件解决后:“Edge 节点 {entity-id} 上的内存使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The memory usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)”

请查看此 Edge 节点的配置、正在运行的服务和大小。考虑调整 Edge 设备的规格大小,或将服务重新均衡到其他 Edge 节点以提供适用工作负载。
Edge 内存使用率高 中等

Edge 节点内存使用率高。(Edge node memory usage is high.)

检测到事件时:“Edge 节点 {entity-id} 上的内存使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The memory usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%.)”

事件解决后:“Edge 节点 {entity-id} 上的内存使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The memory usage on the Edge node {entity-id} has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)”

请查看此 Edge 节点的配置、正在运行的服务和大小。考虑调整 Edge 设备的规格大小,或将服务重新均衡到其他 Edge 节点以提供适用工作负载。
Edge 网卡链接状态为已关闭 严重

Edge 节点网卡链接已关闭。(Edge node NIC link is down.)

检测到事件时:“Edge 节点网卡 {edge_nic_name} 链路已关闭。(Edge node NIC {edge_nic_name} link is down.)”

事件解决后:“Edge 节点网卡 {edge_nic_name} 链路已启动。(Edge node NIC {edge_nic_name} link is up.)”

在 Edge 节点上,通过调用 NSX CLI 命令 get interfaces,确认网卡链路是否以物理方式关闭。

如果已关闭,请验证电缆连接。

Edge 网卡超出接收缓冲区 严重

Edge 节点网卡接收描述符环缓冲区没有剩余空间。(Edge node NIC receive descriptor ring buffer has no space left.)

检测到事件时:“Edge 网卡 {edge_nic_name} 接收环缓冲区已在 Edge 节点 {entity-id} 上溢出 {rx_ring_buffer_overflow_percentage}% 超过 60 秒。(Edge NIC {edge_nic_name} receive ring buffer has overflowed by {rx_ring_buffer_overflow_percentage}% on Edge node {entity-id} for over 60 seconds.)”

事件解决后:“Edge 节点 {entity-id} 上的 Edge 网卡 {edge_nic_name} 接收环缓冲区使用率不再为‘溢出’状态。(Edge NIC {edge_nic_name} receive ring buffer usage on Edge node {entity-id} is no longer overflowing.)”

调用 NSX CLI 命令 get dataplane,然后检查以下内容:
  1. 如果 PPS 和 CPU 使用率较高,请通过调用 get dataplane ring-size rx 来检查接收环大小。
    • 如果 PPS 和 CPU 较高,且接收环大小较低,请调用 set dataplane ring-size rx <ring-size>,并将 <ring-size> 设置为较高的值以容纳入站数据包。
    • 如果不符合上述条件,即,环大小较高,且 CPU 使用率仍较高,则这可能是由于数据平面处理开销延迟引起的。
Edge 网卡超出传输缓冲区 严重

Edge 节点网卡传输描述符环缓冲区没有剩余空间。(Edge node NIC transmit descriptor ring buffer has no space left.)

检测到事件时:“Edge 节点网卡 {edge_nic_name} 发送环缓冲区已在 Edge 节点 {entity-id} 上溢出 {tx_ring_buffer_overflow_percentage}% 超过 60 秒。(Edge node NIC {edge_nic_name} transmit ring buffer has overflowed by {tx_ring_buffer_overflow_percentage}% on Edge node {entity-id} for over 60 seconds.)”

事件解决后:“Edge 节点 {entity-id} 上的 Edge 节点网卡 {edge_nic_name} 发送环缓冲区使用率不再为‘溢出’状态。(Edge node NIC {edge_nic_name} transmit ring buffer usage on Edge node {entity-id} is no longer overflowing.)”

调用 NSX CLI 命令 get dataplane,然后检查以下内容:
  1. 如果 PPS 和 CPU 使用率较高,请通过调用 get dataplane ring-size tx 来检查接收环大小。
    • 如果 PPS 和 CPU 较高,且发送环大小较低,请调用 set dataplane ring-size tx <ring-size>,并将 <ring-size> 设置为较高的值以容纳出站数据包。
    • 如果不符合上述条件,即,环大小较高,且 CPU 使用率较低或正常,则这可能是由于管理程序上的发送环大小设置引起的。
存储错误 严重

从 NSX-T Data Center 3.0.1 开始。

Edge 节点上的以下磁盘分区处于只读模式:{disk_partition_name}

。(The following disk partitions on the Edge node are in read-only mode: {disk_partition_name}.)

检查只读分区,以确定重新引导是否解决了该问题,或者是否需要更换磁盘。请参阅知识库文章 https://kb.vmware.com/s/article/2146870

端点保护事件

端点保护事件由 NSX Manager 或 ESXi 节点产生。

事件名称 严重性 警示消息 建议的操作
EAM 状态关闭 严重

计算管理器上的 ESX Agent Manager (EAM) 服务已关闭。(ESX Agent Manager (EAM) service on a compute manager is down.)

检测到事件时:“计算管理器 {entity_id} 上的 ESX Agent Manager (EAM) 服务已关闭。(ESX Agent Manager (EAM) service on compute manager {entity_id} is down.)”

事件解决后:“计算管理器 {entity_id} 上的 ESX Agent Manager (EAM) 服务已启动,或者已移除计算管理器 {entity_id}。(ESX Agent Manager (EAM) service on compute manager {entity_id} is either up or compute manager {entity_id} has been removed.)”

重新启动 ESX Agent Manager (EAM) 服务:
  • 使用 SSH 登录到 vCenter 节点并运行:
    service vmware-eam start
合作伙伴通道关闭 严重

主机模块和合作伙伴 SVM 连接已断开。(Host module and Partner SVM connection is down.)

检测到事件时:“主机模块与合作伙伴 SVM {entity_id} 的连接已断开。(The connection between host module and Partner SVM {entity_id} is down.)”

事件解决后:“已建立主机模块与合作伙伴 SVM {entity_id} 的连接。(The connection between host module and Partner SVM {entity_id} is up.)”

请参见知识库文章 2148821 NSX Guest Introspection 故障排除,并确保由 {entity_id} 标识的合作伙伴 SVM 已重新连接到主机模块。

联合事件

联合事件是从 NSX ManagerNSX Edge 和公共网关节点中生成的。

事件名称 严重性 警示消息 建议的操作

LM 到 LM 同步错误

从 NSX-T Data Center 3.0.1 开始。

{site_name}({site_id}){remote_site_name}({remote_site_id}) 之间的同步失败超过 5 分钟。(The synchronization between {site_name}({site_id}) and {remote_site_name}({remote_site_id}) failed for more than 5 minutes.)

  1. 调用 NSX CLI 命令 get site-replicator remote-sites 以获取远程位置之间的连接状态。如果远程位置已连接但未同步,该位置可能仍在进行主节点解析。在这种情况下,等待大约 10 秒,然后再次尝试调用 CLI 以检查远程位置的状态。如果某个位置已断开连接,请尝试执行下一步。

  2. 通过 ping 检查从 {site_name}({site_id}) 位置中的本地管理器 (LM) 到 {remote_site_name}({remote_site_id}) 位置中的 LM 的连接。如果无法 ping 通,请检查 WAN 连接问题。如果没有物理网络连接问题,请尝试执行下一步。

  3. {site_name}({site_id}) 位置的本地集群中触发警报的管理器节点上,检查 /var/log/cloudnet/nsx-ccp.log 文件以确定是否存在任何跨站点通信错误。此外,还要在 /var/log/syslog 中查找 nsx-appl-proxy 子组件记录的错误。

LM 到 LM 同步警告 中等

从 NSX-T Data Center 3.0.1 开始。

{site_name}({site_id}){remote_site_name}({remote_site_id}) 之间的同步失败。(The synchronization between {site_name}({site_id}) and {remote_site_name}({remote_site_id}) failed.)

  1. 调用 NSX CLI 命令 get site-replicator remote-sites 以获取远程位置之间的连接状态。如果远程位置已连接但未同步,该位置可能仍在进行主节点解析。在这种情况下,等待大约 10 秒,然后再次尝试调用 CLI 以检查远程位置的状态。如果某个位置已断开连接,请尝试执行下一步。

  2. 通过 ping 检查从 {site_name}({site_id}) 位置中的本地管理器 (LM) 到 {remote_site_name}({remote_site_id}) 位置中的 LM 的连接。如果无法 ping 通,请检查 WAN 连接问题。如果没有物理网络连接问题,请尝试执行下一步。

  3. {site_name}({site_id}) 位置的本地集群中触发警报的管理器节点上,检查 /var/log/cloudnet/nsx-ccp.log 文件以确定是否存在任何跨站点通信错误。此外,还要在 /var/log/syslog 中查找 nsx-appl-proxy 子组件记录的错误。

RTEP BGP 已关闭

从 NSX-T Data Center 3.0.1 开始。

从源 IP {bgp_source_ip} 到远程位置 {remote_site_name} 邻居 IP {bgp_neighbor_ip} 的 RTEP BGP 会话已关闭。原因:{failure_reason}。(RTEP BGP session from source IP {bgp_source_ip} to remote location {remote_site_name} neighbor IP {bgp_neighbor_ip} is down. Reason: {failure_reason}.)

  1. 在受影响的 Edge 节点上调用 NSX CLI 命令 get logical-routers

  2. 切换到 REMOTE_TUNNEL_VRF 上下文。
  3. 调用 NSX CLI 命令 get bgp neighbor 以检查 BGP 邻居。
  4. 或者,调用 NSX API GET /api/v1/transport-nodes/<transport-node-id>/inter-site/bgp/summary 以获取 BGP 邻居状态。
  5. 调用 NSX CLI 命令 get interfaces ,并检查是否将正确的 RTEP IP 地址分配给名称为 remote-tunnel-endpoint 的接口
  6. 。检查是否在分配的 RTEP IP 地址 {bgp_source_ip} 和远程位置 {remote_site_name} 邻居 IP {bgp_neighbor_ip} 之间成功运行 ping。
  7. 检查 /var/log/syslog 是否存在与 BGP 相关的任何错误。
  8. 调用 API GET 或 PUT /api/v1/transport-nodes/<transport-node-id> 以获取/更新 Edge 节点上的 remote_tunnel_endpoint 配置。这会更新分配给受影响的 Edge 节点的 RTEP IP。

高可用性事件

高可用性事件由 NSX Edge 和公有云网关节点产生。

事件名称 严重性 警示消息 建议的操作
Tier-0 网关故障切换

Tier-0 网关已进行故障切换。(A tier0 gateway has failed over.)

检测到事件时:“Tier-0 网关 {entity-id}{previous_gateway_state} 故障切换到 {current_gateway_state}。(The tier0 gateway {entity-id} failover from {previous_gateway_state} to {current_gateway_state}.)”

事件解决后:“Tier-0 网关 {entity-id} 现在已启动。(The tier0 gateway {entity-id} is now up.)”

确定服务已关闭,然后重新启动该服务。
  1. 通过运行 NSX CLI 命令 get logical-routers,标识 Tier-0 VRF ID。
  2. 通过运行 vrf <vrf-id>,切换到 VRF 上下文。
  3. 通过运行 get high-availability status,查看已关闭的服务。
Tier-1 网关故障切换

Tier-1 网关已进行故障切换。(A tier1 gateway has failed over.)

检测到事件时:“Tier-1 网关 {entity-id}{previous_gateway_state} 故障切换到 {current_gateway_state}。(The tier1 gateway {entity-id} failover from {previous_gateway_state} to {current_gateway_state}.)”

事件解决后:“Tier-1 网关 {entity-id} 现在已启动。(The tier1 gateway {entity-id} is now up.)”

确定服务已关闭,然后重新启动该服务。
  1. 通过运行 NSX CLI 命令 get logical-routers,标识 Tier-1 VRF ID。
  2. 通过运行 vrf <vrf-id>,切换到 VRF 上下文。
  3. 通过运行 get high-availability status,查看已关闭的服务。

基础架构通信事件

基础架构通信事件由 NSX Edge、KVM、ESXi 和公共网关节点产生。

事件名称 严重性 警示消息 建议的操作
Edge 隧道关闭 严重

Edge 节点的隧道状态为已关闭。(An Edge node's tunnel status is down.)

检测到事件时:“Edge 节点 {entity_id} 的总体隧道状态为‘关闭’。(Overall tunnel status of Edge node {entity_id} is down.)”

事件解决后:“Edge 节点 {entity_id} 的隧道已恢复。(The tunnels of Edge node {entity_id} have been restored.)”

  1. 使用 SSH 登录到 Edge 节点。
  2. 获取状态。
    nsxcli get tunnel-ports
  3. 在每个隧道上,查看任何丢弃的统计信息。
    get tunnel-port <UUID> stats
  4. 检查 syslog 文件中是否存在任何与隧道相关的错误。

基础架构服务事件

基础架构服务事件由 NSX Edge 和公共网关节点产生。

事件名称 严重性 警示消息 建议的操作
Edge 服务状态关闭 严重

Edge 服务至少关闭了一分钟。(Edge service is down for at least one minute.)

检测到事件时:“服务 {edge_service_name} 至少关闭了一分钟。(The service {edge_service_name} is down for at least one minute.)”

事件解决后:“服务 {edge_service_name} 已启动。(The service {edge_service_name} is up.)”

在 Edge 节点上,通过在 /var/log/core 目录中查找核心转储文件,验证服务没有因错误而退出。

要确认服务是否已停止,请调用 NSX CLI 命令 get services

如果服务已停止,请运行 start service <service-name> 以重新启动该服务。

Edge 服务状态已更改

Edge 服务状态已更改。(Edge service status has changed.)

检测到事件时:“服务 {edge_service_name} 已从 {previous_service_state} 更改为 {current_service_state}。(The service {edge_service_name} changed from {previous_service_state} to {current_service_state}.)”

事件解决后:“服务 {edge_service_name} 已从 {previous_service_state} 更改为 {current_service_state}。(The service {edge_service_name} changed from {previous_service_state} to {current_service_state}.)”

在 Edge 节点上,通过在 /var/log/core 目录中查找核心转储文件,验证服务没有因错误而退出。

要确认服务是否已停止,请调用 NSX CLI 命令 get services

如果服务已停止,请运行 start service <service-name> 以重新启动该服务。

Intelligence 通信事件

NSX Intelligence 通信事件由 NSX Manager 节点、ESXi 节点和 NSX Intelligence 设备产生。

事件名称 严重性 警示消息 建议的操作
传输节点流量导出程序断开连接

传输节点已与其 Intelligence 节点的消息代理断开连接。数据收集将受到影响。(A Transport node is disconnected from its Intelligence node's messaging broker. Data collection is affected.)

检测到事件时:“传输节点 {entity-id} 上的流量导出程序已与 Intelligence 节点的消息代理断开连接。数据收集将受到影响。(The flow exporter on Transport node {entity-id} is disconnected from the Intelligence node's messaging broker. Data collection is affected.)”

事件解决后:“传输节点 {entity-id} 上的流量导出程序已重新连接到 Intelligence 节点的消息代理。(The flow exporter on Transport node {entity-id} has reconnected to the Intelligence node's messaging broker.)”

  1. 如果未在 NSX Intelligence 节点中运行消息传递服务,请重新启动该服务。
  2. 解决传输节点与 NSX Intelligence 节点之间的网络连接故障。

Intelligence 运行状况事件

NSX Intelligence 运行状况事件由 NSX Manager 节点和 NSX Intelligence 设备产生。

事件名称 严重性 警示消息 建议的操作
CPU 使用率非常高 严重

Intelligence 节点 CPU 使用率非常高。(Intelligence node CPU usage is very high.)

检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上的 CPU 使用率高于极高阈值 {system_usage_threshold}%。(The CPU usage on NSX Intelligence node {intelligence_node_id} is above the very high threshold value of {system_usage_threshold}%.)”

事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上的 CPU 使用率低于极高阈值 {system_usage_threshold}%。(The CPU usage on NSX Intelligence node {intelligence_node_id} is below the very high threshold value of {system_usage_threshold}%.)”

使用 top 命令检查哪些进程的内存使用率最高,然后检查 /var/log/syslog 和这些进程的本地日志,以查看是否存在任何有待解决的错误。

CPU 使用率高 中等

Intelligence 节点 CPU 使用率高。(Intelligence node CPU usage is high.)

检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上的 CPU 使用率高于高阈值 {system_usage_threshold}%。(The CPU usage on NSX Intelligence node {intelligence_node_id} is above the high threshold value of {system_usage_threshold}%.)”

事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上的 CPU 使用率低于高阈值 {system_usage_threshold}%。(The CPU usage on NSX Intelligence node {intelligence_node_id} is below the high threshold value of {system_usage_threshold}%.)”

使用 top 命令检查哪些进程的内存使用率最高,然后检查 /var/log/syslog 和这些进程的本地日志,以查看是否存在任何有待解决的错误。

内存使用率非常高 严重

Intelligence 节点内存使用率非常高。(Intelligence node memory usage is very high.)

检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上的内存使用率高于极高阈值 {system_usage_threshold}%。(The memory usage on NSX Intelligence node {intelligence_node_id} is above the very high threshold value of {system_usage_threshold}%.)”

事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上的内存使用率低于极高阈值 {system_usage_threshold}%。(The memory usage on NSX Intelligence node {intelligence_node_id} is below the very high threshold value of {system_usage_threshold}%.)”

使用 top 命令检查哪些进程的内存使用率最高,然后检查 /var/log/syslog 和这些进程的本地日志,以查看是否存在任何有待解决的错误。

内存使用率高 中等

Intelligence 节点内存使用率高。(Intelligence node memory usage is high.)

检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上的内存使用率高于高阈值 {system_usage_threshold}%。(The memory usage on NSX Intelligence node {intelligence_node_id} is above the high threshold value of {system_usage_threshold}%.)”

事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上的内存使用率低于高阈值 {system_usage_threshold}%。(The memory usage on NSX Intelligence node {intelligence_node_id} is below the high threshold value of {system_usage_threshold}%.)”

使用 top 命令检查哪些进程的内存使用率最高,然后检查 /var/log/syslog 和这些进程的本地日志,以查看是否存在任何有待解决的错误。

磁盘使用率非常高 严重

Intelligence 节点磁盘使用率非常高。(Intelligence node disk usage is very high.)

检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 {disk_partition_name} 的磁盘使用率高于极高阈值 {system_usage_threshold}%。(The disk usage of disk partition {disk_partition_name} on the NSX Intelligence node {intelligence_node_id} is above the very high threshold value of {system_usage_threshold}%.)”

事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 {disk_partition_name} 的磁盘使用率低于极高阈值 {system_usage_threshold}%。(The disk usage of disk partition {disk_partition_name} on the NSX Intelligence node {intelligence_node_id} is below the very high threshold value of {system_usage_threshold}%.)”

检查磁盘分区{disk_partition_name},查看是否有任何不需要的大文件可以移除。
磁盘使用率高 中等

Intelligence 节点磁盘使用率高。(Intelligence node disk usage is high.)

检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 {disk_partition_name} 的磁盘使用率高于高阈值 {system_usage_threshold}%。(The disk usage of disk partition {disk_partition_name} on the NSX Intelligence node {intelligence_node_id} is above the high threshold value of {system_usage_threshold}%.)”

事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 {disk_partition_name} 的磁盘使用率低于高阈值 {system_usage_threshold}%。(The disk usage of disk partition {disk_partition_name} on the NSX Intelligence node {intelligence_node_id} is below the high threshold value of {system_usage_threshold}%.)”

检查磁盘分区{disk_partition_name},查看是否有任何不需要的大文件可以移除。
数据磁盘分区使用率非常高 严重

Intelligence 节点数据磁盘分区使用率非常高。(Intelligence node data disk partition usage is very high.)

检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 /data 的磁盘使用率高于极高阈值 {system_usage_threshold}%。(The disk usage of disk partition /data on NSX Intelligence node {intelligence_node_id} is above the very high threshold value of {system_usage_threshold}%.)”

事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 /data 的磁盘使用率低于极高阈值 {system_usage_threshold}%。(The disk usage of disk partition /data on NSX Intelligence node {intelligence_node_id} is below the very high threshold value of {system_usage_threshold}%.)”

停止 NSX Intelligence 数据收集,直到磁盘使用率低于阈值。

在 NSX UI 中,导航到系统设备NSX Intelligence 设备。然后,选择操作 > 停止收集数据

数据磁盘分区使用率高 中等

Intelligence 节点数据磁盘分区使用率高。(Intelligence node data disk partition usage is high.)

检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 /data 的磁盘使用率高于高阈值 {system_usage_threshold}%。(The disk usage of disk partition /data on NSX Intelligence node {intelligence_node_id} is above the high threshold value of {system_usage_threshold}%.)”

事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上磁盘分区 /data 的磁盘使用率低于高阈值 {system_usage_threshold}%。(The disk usage of disk partition /data on NSX Intelligence node {intelligence_node_id} is below the high threshold value of {system_usage_threshold}%.)”

停止 NSX Intelligence 数据收集,直到磁盘使用率低于阈值。

检查 /data 分区,查看是否有任何不需要的大文件可以移除。

节点状态已降级

Intelligence 节点状态为已降级。(Intelligence node status is degraded.)

检测到事件时:“NSX Intelligence 节点 {intelligence_node_id} 上的服务 {service_name} 未运行。(Service {service_name}on NSX Intelligence node {intelligence_node_id} is not running.)”

事件解决后:“NSX Intelligence 节点 {intelligence_node_id} 上的服务 {service_name} 运行正常。(Service {service_name}on NSX Intelligence node {intelligence_node_id} is running properly.)”

NSX Intelligence 节点中使用 NSX CLI 命令 get services 检查服务状态和运行状况信息。

使用 NSX CLI 命令 restart service <service-name> 重新启动意外停止的服务。

许可证事件

许可证事件由 NSX Manager 节点产生。

事件名称 严重性 警示消息 建议的操作
许可证已过期 严重

许可证已过期。(A license has expired.)

检测到事件时:“类型为 {license_edition_type} 的许可证已过期。(The license of type {license_edition_type} has expired.)”

事件解决后:“类型为 {license_edition_type} 的已过期许可证已移除、已更新或不再为已过期。(The expired license of type {license_edition_type} has been removed, updated, or is no longer expired.)”

添加未过期的新许可证。
  1. 在 NSX UI 中,导航到系统 > 许可证
  2. 单击添加,然后指定新许可证的密钥。
  3. 通过选中相应复选框并单击取消分配,删除已过期的许可证。
许可证就要过期 中等

检测到事件时:“类型为 {license_edition_type} 的许可证就要过期。(The license of type {license_edition_type} is about to expire.)”

事件解决后:“由 {license_edition_type} 标识的即将过期的许可证已移除、已更新或不再为就要过期。(The expiring license identified by {license_edition_type} has been removed, updated, or is no longer about to expire.)”

添加未过期的新许可证。
  1. 在 NSX UI 中,导航到系统 > 许可证
  2. 单击添加,然后指定新许可证的密钥。
  3. 通过选中相应复选框并单击取消分配,删除已过期的许可证。

负载均衡器事件

负载均衡器事件由 NSX Edge 节点产生。

事件名称 严重性 警示消息 建议的操作
负载均衡器 CPU 使用率非常高 中等

负载均衡器 CPU 使用率非常高。(Load balancer CPU usage is very high.)

检测到事件时:“负载均衡器 {entity_id} 的 CPU 使用率为 {system_resource_usage}%,该值高于极高阈值 {system_usage_threshold}%。(The CPU usage of load balancer {entity_id} is {system_resource_usage}%, which is higher than the very high threshold of {system_usage_threshold}%.)”

事件解决后:“负载均衡器 {entity_id} 的 CPU 占用率为 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The CPU utilization of load balancer {entity_id} is {system_resource_usage}%, which is lower than the very high threshold of {system_usage_threshold}%.)”

如果负载均衡器的 CPU 占用率高于 {system_usage_threshold}%,则表示该负载均衡器的工作负载过高。

通过将负载均衡器大小从小型更改为中型或从中型更改为大型,重新调整负载均衡器服务。

如果此负载均衡器的 CPU 占用率仍然很高,请考虑调整 Edge 设备的规格大小,或将负载均衡器服务移至其他 Edge 节点以提供适用工作负载。

负载均衡器状态为已关闭 中等

负载均衡器服务已关闭。(Load balancer service is down.)

检测到事件时:“负载均衡器服务 {entity_id} 已关闭。(The load balancer service {entity_id} is down.)”

事件解决后:“负载均衡器服务 {entity_id} 已启动。(The load balancer service {entity_id} is up.)”

验证 Edge 节点中的负载均衡器服务是否正在运行。

如果负载均衡器服务的状态为“未就绪”,请将 Edge 节点置于维护模式,然后再退出维护模式。

如果负载均衡器服务的状态仍未恢复,请检查 syslog 中是否存在任何错误日志。

虚拟服务器状态为已关闭 中等

负载均衡器虚拟服务已关闭。(Load balancer virtual service is down.)

检测到事件时:“负载均衡器虚拟服务器 {entity_id} 已关闭。(The load balancer virtual server {entity_id} is down.)”

事件解决后:“负载均衡器虚拟服务器 {entity_id} 已启动。(The load balancer virtual server {entity_id} is up.)”

查看负载均衡器池以确定其状态并验证其配置。

如果配置不正确,请重新配置,并从虚拟服务器中移除负载均衡器池,然后再次将其重新添加到虚拟服务器。

池状态为已关闭 中等

检测到事件时:“负载均衡器池 {entity_id} 状态为‘关闭’。(The load balancer pool {entity_id} status is down.)”

事件解决后:“负载均衡器池 {entity_id} 状态为‘已启动’。(The load balancer pool {entity_id} status is up.)”

  1. 查看负载均衡器池以确定哪些成员已关闭。
  2. 检查负载均衡器与受影响的池成员的网络连接。
  3. 验证每个池成员的应用程序运行状况。
  4. 使用配置的监控器验证每个池成员的运行状况。

建立成员的运行状况后,池成员状态将根据成功检查计数更新为正常。

管理器运行状况事件

NSX Manager 运行状况事件由 NSX Manager 节点集群产生。

事件名称 严重性 警示消息 建议的操作
重复的 IP 地址 中等

另一个设备正在使用管理器节点的 IP 地址。(Manager node's IP address is in use by another device.)

检测到事件时:“管理器节点 {entity_id} 的 IP 地址 {duplicate_ip_address} 当前正由网络中的另一设备使用。(Manager node {entity_id} IP address {duplicate_ip_address} is currently being used by another device in the network.)”

事件解决后:“管理器节点 {entity_id} 似乎不再使用 {duplicate_ip_address}。(Manager node {entity_id} appears to no longer be using {duplicate_ip_address}.)”

  1. 确定使用管理器 IP 地址的设备,并为该设备分配一个新 IP 地址。
    注: 不支持将管理器重新配置为使用新 IP 地址。
  2. 验证是否正确配置了静态 IP 地址池/DHCP 服务器。
  3. 更正设备的 IP 地址(如果已手动分配)。
管理器 CPU 使用率非常高 严重

管理器节点 CPU 使用率非常高。(Manager node CPU usage is very high.)

检测到事件时:“管理器节点 {entity_id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The CPU usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%.)”

事件解决后:“管理器节点 {entity_id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The CPU usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)”

请查看此管理器节点的配置、正在运行的服务和大小。

考虑调整管理器设备的规格大小。

管理器 CPU 使用率高 中等

从 NSX-T Data Center 3.0.1 开始。

管理器节点 CPU 使用率高。(Manager node CPU usage is high.)

检测到事件时:“管理器节点 {entity_id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The CPU usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%.)”

事件解决后:“管理器节点 {entity_id} 上的 CPU 使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The CPU usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)”

请查看此管理器节点的配置、正在运行的服务和大小。

考虑调整管理器设备的规格大小。

管理器内存使用率非常高 严重

从 NSX-T Data Center 3.0.1 开始。

管理器节点内存使用率非常高。(Manager node memory usage is very high.)

检测到事件时:“管理器节点 {entity_id} 上的内存使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The memory usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%.)”

事件解决后:“管理器节点 {entity_id} 上的内存使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The memory usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)”

请查看此管理器节点的配置、正在运行的服务和大小。

考虑调整管理器设备的规格大小。

管理器内存使用率高 中等

管理器节点内存使用率高。(Manager node memory usage is high.)

检测到事件时:“管理器节点 {entity_id} 上的内存使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The memory usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%.)”

事件解决后:“管理器节点 {entity_id} 上的内存使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The memory usage on the Manager node {entity_id} has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)”

请查看此管理器节点的配置、正在运行的服务和大小。

考虑调整管理器设备的规格大小。

管理器磁盘使用率非常高 严重

管理器节点磁盘使用率非常高。(Manager node disk usage is very high.)

检测到事件时:“管理器节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。(The disk usage for the Manager node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%.)”

事件解决后:“管理器节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The disk usage for the Manager node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)”

检查具有高使用率的分区,查看是否有任何不需要的大文件可以移除。
管理器磁盘使用率高 中等

管理器节点磁盘使用率高。(Manager node disk usage is high.)

检测到事件时:“管理器节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。(The disk usage for the Manager node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%.)”

事件解决后:“管理器节点磁盘分区 {disk_partition_name} 的磁盘使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The disk usage for the Manager node disk partition {disk_partition_name} has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)”

检查具有高使用率的分区,查看是否有任何不需要的大文件可以移除。
管理器配置磁盘使用率非常高 严重

管理器节点配置磁盘使用率非常高。(Manager node config disk usage is very high.)

检测到事件时:“管理器节点磁盘分区 /config 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。这可能表明 NSX 数据存储服务在 /config/corfu 目录下的磁盘使用率高。(The disk usage for the Manager node disk partition /config has reached {system_resource_usage}%, which is at or above the very high threshold value of {system_usage_threshold}%. This can be an indication of high disk usage by the NSX Datastore service under the /config/corfu directory.)”

事件解决后:“管理器节点磁盘分区 /config 的磁盘使用率已达到 {system_resource_usage}%,该值低于极高阈值 {system_usage_threshold}%。(The disk usage for the Manager node disk partition /config has reached {system_resource_usage}%, which is below the very high threshold value of {system_usage_threshold}%.)”

检查 /config 分区,查看是否有任何不需要的大文件可以移除。
管理器配置磁盘使用率高 中等

管理器节点配置磁盘使用率高。(Manager node config disk usage is high.)

检测到事件时:“管理器节点磁盘分区 /config 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。这可能表明 NSX 数据存储服务在 /config/corfu 目录下的磁盘使用率正在上升。(The disk usage for the Manager node disk partition /config has reached {system_resource_usage}%, which is at or above the high threshold value of {system_usage_threshold}%. This can be an indication of rising disk usage by the NSX Datastore service under the /config/corfu directory.)”

事件解决后:“管理器节点磁盘分区 /config 的磁盘使用率已达到 {system_resource_usage}%,该值低于高阈值 {system_usage_threshold}%。(The disk usage for the Manager node disk partition /config has reached {system_resource_usage}%, which is below the high threshold value of {system_usage_threshold}%.)”

检查 /config 分区,查看是否有任何不需要的大文件可以移除。

操作数据库磁盘使用率高

中等

管理器节点磁盘分区 /nonconfig 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于高阈值 {system_usage_threshold}%。这可能表明 NSX 数据存储服务在 /nonconfig/corfu 目录下的磁盘使用率正在上升。(The disk usage for the Manager node disk partition /nonconfig has reached {system_resource_usage}% which is at or above the high threshold value of {system_usage_threshold}%. This can be an indication of rising disk useage by the NSX Datastore service under the /nonconfig/corfu directory.)

请运行以下工具;如果报告任何问题,请与 GSS 联系:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig

操作数据库磁盘使用率非常高 严重

管理器节点磁盘分区 /nonconfig 的磁盘使用率已达到 {system_resource_usage}%,该值等于或高于极高阈值 {system_usage_threshold}%。这可能表明 NSX 数据存储服务在 /nonconfig/corfu 目录下的磁盘使用率正在上升。(The disk usage for the Manager node disk partition /nonconfig has reached {system_resource_usage}% which is at or above the very high threshold value of {system_usage_threshold}%. This can be an indication of rising disk useage by the NSX Datastore service under the /nonconfig/corfu directory.)

请运行以下工具;如果报告任何问题,请与 GSS 联系:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig

NCP 事件

NSX Container Plug-in (NCP) 事件由 ESXi 和 KVM 节点产生。

事件名称 严重性 警示消息 建议的操作
NCP 插件已关闭 严重

管理器节点已检测到 NCP 已关闭或状态不正常。(Manager Node has detected the NCP is down or unhealthy.)

检测到事件时:“管理器节点已检测到 NCP 已关闭或状态不正常。(Manager node has detected the NCP is down or unhealthy.)”

事件解决后:“管理器节点已检测到 NCP 已启动或再次正常运行。(Manager Node has detected the NCP is up or healthy again.)”

要查找存在问题的集群,请调用 NSX API GET /api/v1/systemhealth/container-cluster/ncp/status 以获取所有集群状态,并确定报告为“已关闭”或“未知”的任何集群的名称。

转到 NSX UI 清单 > 容器 > 集群页面以查找报告为“已关闭”或“未知”状态的集群的名称,然后单击“节点”选项卡,其中列出了所有 Kubernetes 和 PAS 集群成员。

对于 Kubernetes 集群:
  1. 通过从所有集群成员中查找 K8s 主节点并登录到该主节点,检查 NCP Pod 活跃性。

    然后,调用 kubectl 命令 kubectl get pods --all-namespaces。如果 NCP Pod 出现问题,请使用 kubectl logs 命令检查问题并修复错误。

  2. 检查 NCP 和 Kubernetes API 服务器之间的连接。
    可以在 NCP Pod 中使用 NSX CLI 从主虚拟机调用以下命令来检查此连接状态。
    kubectl exec -it <NCP-Pod-Name> -n nsx-system bash
    nsxcli
    get ncp-k8s-api-server status
    如果连接出现问题,请检查网络和 NCP 配置。
  3. 检查 NCP 和 NSX Manager 之间的连接。
    可以在 NCP Pod 中使用 NSX CLI 从主虚拟机调用以下命令来检查此连接状态。
    kubectl exec -it <NCP-Pod-Name> -n nsx-system bash nsxcli get ncp-nsx status
    如果连接出现问题,请检查网络和 NCP 配置。
对于 PAS 集群:
  1. 检查虚拟机之间的网络连接,并修复任何网络问题。
  2. 检查节点和服务的状态,并修复崩溃的节点或服务。

    调用命令 bosh vmsbosh instances -p 以检查节点和服务的状态。

节点代理运行状况事件

节点代理运行状况事件由 ESXi 和 KVM 节点产生。

事件名称 严重性 警示消息 建议的操作
节点代理已关闭

在节点虚拟机内运行的代理似乎已关闭。(The agents running inside the Node VM appear to be down.)

检测到事件时:“在节点虚拟机内运行的代理似乎已关闭。(The agents running inside the node VM appear to be down.)”

事件解决后:“节点虚拟机中的代理正在运行。(The agents inside the Node VM are running.)”

对于 ESX:

  1. 如果缺少 Vmk50,请参见知识库文章 67432
  2. 如果缺少 Hyperbus 4094:重新启动 nsx-cfgagent 或重新启动容器主机虚拟机可能会有所帮助。
  3. 如果容器主机 VIF 被阻止,请检查与控制器的连接,确保所有配置均已关闭。
  4. 如果 nsx-cfgagent 已停止,请重新启动 nsx-cfgagent

对于 KVM:

  1. 如果缺少 Hyperbus 命名空间,则重新启动 nsx-opsagent 可能有助于重新创建命名空间。
  2. 如果 Hyperbus 命名空间中缺少 Hyperbus 接口,则重新启动 nsx-opsagent 可能会有所帮助。
  3. 如果 nsx-agent 已停止,请重新启动 nsx-agent

对于 ESX 和 KVM:

  1. 如果缺少 node-agent 软件包:请检查是否已在容器主机虚拟机中成功安装 node-agent 软件包。
  2. 如果容器主机虚拟机中 node-agent 的接口已关闭:请检查容器主机虚拟机中的 eth1 接口状态。

密码管理事件

密码管理事件由 NSX ManagerNSX Edge 和公共网关节点产生。

事件名称 严重性 警示消息 建议的操作
密码已过期 严重

用户密码已过期。(User password has expired.)

检测到事件时:“用户 {username} 的密码已过期。(The password for user {username} has expired.)”

事件解决后:“用户 {username} 的密码已成功更改或不再处于已过期状态。(The password for the user {username} has been changed successfully or is no longer expired.)”

必须立即更改用户 {username} 的密码才能访问系统。例如,要将新密码应用于用户,请在请求正文中使用有效密码调用以下 NSX API:

PUT /api/v1/node/users/<userid>

其中 <userid> 是用户的 ID。如果管理员用户(<userid> 为 10000)密码已过期,则管理员必须通过 SSH(如果已启用)或控制台登录到系统,才能更改密码。输入当前已过期的密码后,系统会提示管理员输入新密码。

密码就要过期

用户密码就要过期。(User password is about to expire.)

检测到事件时:“用户 {username} 的密码即将在 {password_expiration_days} 天内过期。(The password for user {username} is about to expire in {password_expiration_days} days.)”

事件解决后:“用户 {username} 的密码已成功更改或不再为就要过期。(The password for the user {username} has been changed successfully or is no longer about to expire.)”

确保立即更改由 {username} 标识的用户的密码。例如,要将新密码应用于用户,请在请求正文中使用有效密码调用以下 NSX API:

PUT /api/v1/node/users/<userid>

其中 <userid> 是用户的 ID。

密码即将过期 中等

用户密码即将过期。(User password is approaching expiration.)

检测到事件时:“用户 {username} 的密码即将在 {password_expiration_days} 天内过期。(The password for user {username} is about to expire in {password_expiration_days} days.)”

事件解决后:“用户 {username} 的密码已成功更改或不再为就要过期。(The password for the user {username} has been changed successfully or is no longer about to expire.)”

需要尽快更改由 {username} 标识的用户的密码。例如,要将新密码应用于用户,请在请求正文中使用有效密码调用以下 NSX API:

PUT /api/v1/node/users/<userid>

其中 <userid> 是用户的 ID。

路由事件

事件名称 严重性 警示消息 建议的操作
BGP 关闭

BGP 邻居已关闭。(BGP neighbor down.)

检测到事件时:“在路由器 {entity_id} 中,BGP 邻居 {bgp_neighbor_ip} 已关闭,原因: {failure_reason}。(In Router {entity_id}, BGP neighbor {bgp_neighbor_ip} is down, reason: {failure_reason}.)”

事件解决后:“在路由器 {entity_id} 中,BGP 邻居 {bgp_neighbor_ip} 已启动。(In Router {entity_id}, BGP neighbor {bgp_neighbor_ip} is up.)”

  1. 使用 SSH 登录到 Edge 节点。
  2. 调用 NSX CLI 命令:get logical-routers
  3. 切换到服务路由器 {sr_id}
  4. 检查 /var/log/syslog 以查看是否存在与 BGP 连接相关的任何错误。

外部接口上的双向转发检测 (BFD) 已关闭

BFD 会话已关闭。(BFD session is down.)

检测到事件时:“在路由器 {entity_id} 中,对等项 {peer_address} 的 BFD 会话已关闭。(In router {entity_id}, BFD session for peer {peer_address} is down.)”

事件解决后:“在路由器 {entity_id} 中,对等项 {peer_address} 的 BFD 会话已启动。(In router {entity_id}, BFD session for peer {peer_address} is up.)”

  1. 使用 SSH 登录到 Edge 节点。
  2. 调用 NSX CLI 命令:get logical-routers
  3. 切换到服务路由器 {sr_id}
  4. 通过调用以下 NSX CLI 命令来验证连接:ping <peer_address>
路由关闭

所有 BGP/BFD 会话已关闭。(All BGP/BFD sessions are down.)

检测到事件时:“所有 BGP/BFD 会话已关闭。(All BGP/BFD sessions are down.)”

事件解决后:“至少有一个 BGP/BFD 会话已启动。(At least one BGP/BFD sessions up.)”

  1. 调用 NSX CLI 命令 get logical-routers 以获取 Tier-0 服务路由器。
  2. 切换到 Tier-0 服务路由器 VRF,然后调用以下 NSX CLI 命令:
    • 验证连接:ping <BFD peer IP address>
    • 检查 BFD 运行状况:
      get bfd-config 
      get bfd-sessions
    • 检查 BGP 运行状况:get bgp neighbor summary
      get bfd neconfig 
      get bfd-sessions
    检查 /var/log/syslog 以查看是否存在与 BGP 连接相关的任何错误。
静态路由已移除

已移除静态路由。(Static route removed.)

检测到事件时:“在路由器 {entity_id} 中,由于 BFD 已关闭,因此已移除静态路由 {static_address}。(In router {entity_id}, static route {static_address} was removed because BFD was down.)”

事件解决后:“在路由器 {entity_id} 中,在 BFD 恢复时已重新添加静态路由 {static_address}。(In router {entity_id}, static route {static_address} was re-added as BFD recovered.)”

  1. 使用 SSH 登录到 Edge 节点。
  2. 调用 NSX CLI 命令:get logical-routers
  3. 切换到服务路由器 {sr_id}
  4. 通过调用以下 NSX CLI 命令来验证连接:
    get bgp neighbor summary
  5. 此外,还要验证 NSX 和 BFD 对等项中的配置,以确保定时器未发生更改。

传输节点运行状况

传输节点运行状况事件由 KVM 和 ESXi 节点产生。

事件名称 严重性 警示消息 建议的操作
LAG 成员关闭 中等

LACP 报告成员已关闭。(LACP reporting member down.)

检测到事件时:“LACP 报告成员已关闭。(LACP reporting member down.)”

事件解决后:“LACP 报告成员已启动。(LACP reporting member up.)”

检查主机上 LAG 成员的连接状态。
  1. 在 NSX UI 中,导航到 Fabric > 节点 > 传输节点 > 主机传输节点
  2. 在“主机传输节点”列表中,检查“节点状态”列。

    查找节点状态为已降级或已关闭的传输节点。

  3. 选择 <传输节点> > 监控器

    查找报告已降级或已关闭的绑定(上行链路)。

  4. 通过登录到失败的主机并运行以下相应命令,查看 LACP 成员状态详细信息:
    • ESXi:esxcli network vswitch dvs vmware lacp status get
    • KVM:ovs-appctl bond/showovs-appctl lacp/show
N-VDS 上行链路中断 中等

上行链路即将中断。(Uplink is going down.)

检测到事件时:“上行链路即将中断。(Uplink is going down.)”

事件解决后:“上行链路即将连接。(Uplink is going up.)”

检查主机上上行链路的物理网卡状态。
  1. 在 NSX UI 中,导航到 Fabric > 节点 > 传输节点 > 主机传输节点
  2. 在“主机传输节点”列表中,检查“节点状态”列。

    查找节点状态为已降级或已关闭的传输节点。

  3. 选择 <传输节点> > 监控器

    查看报告已降级或已关闭的绑定(上行链路)的状态详细信息。

    为避免处于已降级状态,请确保所有上行链路接口均已连接且处于开启状态,而无论它们是否正在使用中。

VPN 事件

VPN 事件由 NSX Edge 和公共网关节点产生。

事件名称 严重性 警示消息 建议的操作
基于策略的 IPsec 会话已关闭 中等

基于策略的 IPsec VPN 会话已关闭。(Policy-based IPsec VPN session is down.)

检测到事件时:“基于策略的 IPsec VPN 会话 {entity_id} 已关闭。原因: {session_down_reason}。(The policy-based IPsec VPN session {entity_id} is down. Reason: {session_down_reason}.)”

事件解决后:“基于策略的 IPsec VPN 会话 {entity_id} 已启动。(The policy-based IPsec VPN session {entity_id} is up.)”

检查 IPsec VPN 会话配置并根据会话关闭原因来解决错误。

基于路由的 IPsec 会话已关闭 中等

基于路由的 IPsec VPN 会话已关闭。(Route-based IPsec VPN session is down.)

检测到事件时:“基于路由的 IPsec VPN 会话 {entity_id} 已关闭。原因: {session_down_reason}。(The route-based IPsec VPN session {entity_id} is down. Reason: {session_down_reason}.)”

事件解决后:“基于路由的 IPsec VPN 会话 {entity_id} 已启动。(The route-based IPsec VPN session {entity_id} is up.)”

检查 IPsec VPN 会话配置并根据会话关闭原因来解决错误。

基于策略的 IPsec 隧道已关闭 中等

基于策略的 IPsec VPN 隧道已关闭。(Policy-based IPsec VPN tunnels are down.)

检测到事件时:“会话 {entity_id} 中的一个或多个基于策略的 IPsec VPN 隧道已关闭。(One or more policy-based IPsec VPN tunnels in session {entity_id} are down.)”

事件解决后:“会话 {entity_id} 中的所有基于策略的 IPsec VPN 隧道已启动。(All policy-based IPsec VPN tunnels in session {entity_id} are up.)”

检查 IPsec VPN 会话配置并根据隧道关闭原因来解决错误。

基于路由的 IPsec 隧道已关闭 中等

基于路由的 IPsec VPN 隧道已关闭。(Route-based IPsec VPN tunnels are down.)

检测到事件时:“会话 {entity_id} 中的一个或多个基于路由的 IPsec VPN 隧道已关闭。(One or more route-based IPsec VPN tunnels in session {entity_id} are down.)”

事件解决后:“会话 {entity_id} 中的所有基于路由的 IPsec VPN 隧道已启动。(All route-based IPsec VPN tunnels in session {entity_id} are up.)”

检查 IPsec VPN 会话配置并根据隧道关闭原因来解决错误。

L2VPN 会话已关闭 中等

L2VPN 会话已关闭。(L2VPN session is down.)

检测到事件时:“L2VPN 会话 {entity_id} 已关闭。(The L2VPN session {entity_id} is down.)”

事件解决后:“L2VPN 会话 {entity_id} 已启动。(The L2VPN session {entity_id} is up.)”

检查 IPsec VPN 会话配置并根据相关原因来解决错误。