您可能会遇到 NSX Manager 与主机之间的通信中断警报。每分钟都会从管理器节点向主机节点发送一次检测信号。此警报通知您检测信号丢失,这指示 NSX Manager 与主机上次通信的时间。

如果主机与 NSX Manager 或控制器服务断开连接,则在恢复连接时,会分别将完整配置或运行时状态同步发送到主机。

警报信息显示在 NSX Manager 界面内的多个位置。有关事件的完整列表,请参见“NSX 事件目录”。例如,警报显示在 NSX Manager UI 的“警报”页面上。每个警报都包含一项建议的操作。可使用此操作和本主题中的信息对警报进行故障排除。

下表介绍了所使用的 IP 协议、通道运行状况检查机制和相关定时器、身份验证、安全性以及通信通道运行状况检查验证。此外,还提供了对导致 Fabric 运行状况降级的几个常见问题的分析。

要验证通信通道的运行状况,请使用“NSX Manager 运行状况监控”表详细信息。
表 1. NSX Manager 运行状况监控
通信 IP 协议和端口 通道 身份验证 运行状况检查
管理平面设备代理 Hub (Management Plane Appliance Proxy Hub, MP APH) 与主机的连接 TCP:1234 管理器与主机之间的 TLS 客户端(主机/传输节点)与服务器(MP 中的 APH)之间基于自签名证书或 CA 证书的相互 TLS 身份验证 要确定传输节点与管理器之间的连接状态,请在传输节点上使用 get managers CLI 命令。

当 MP 与主机之间的通信通道处于断开连接状态时,将引发各种警报。

  • 当 MP 与主机断开连接超过 5 分钟时,将引发 management_channel_to_transport_node_down 警报。警报描述会提及传输节点名称和 IP 地址:至传输节点 {transport_node_name} ({transport_node_address}) 的管理通道已关闭 5 分钟。
  • 当 MP 与主机断开连接超过 15 分钟时,将引发 management_channel_to_transport_node_down_long 警报。警报描述会提及传输节点名称和 IP 地址:至传输节点 {transport_node_name} ({transport_node_address}) 的管理通道已关闭 15 分钟。
  • 当 MP 与主机之间的延迟在 5 分钟内超过 150 毫秒时,将引发 network_latency_high 警报。警报描述会提及传输节点名称和 IP 地址:管理器节点与主机 {transport_node_name} ({transport_node_address}) 之间的平均网络延迟在 5 分钟内超过 150 毫秒。

如果主机因任何原因而断开连接,则会清除警报。

中央控制平面 (CCP) 与主机 (NSX-Proxy) 的连接 TCP:1235 CCP 与主机之间的 TLS 客户端(主机/传输节点)与服务器 (CCP) 之间基于自签名证书或 CA 证书的相互 TLS 身份验证

要确定传输节点与 CCP 之间的连接状态,请使用 get controllers CLI 命令。

当 MP 与主机之间的通信通道处于断开连接状态时,将引发各种警报。
  • 当主机与 CCP 断开连接超过 3 分钟时,将引发 control_channel_to_manager_node_down 警报。警报描述:从传输节点的角度而言,传输节点 {entity_id} 控制平面到管理器节点 {appliance_address} 的连接至少已关闭 {timeout_in_minutes} 分钟。
  • 当主机与 CCP 断开连接超过 15 分钟时,将引发 control_channel_to_manager_node_down_too_long 警报。警报描述:从传输节点的角度而言,传输节点 {entity_id} 控制平面到管理器节点 {appliance_address} 的连接至少已关闭 {timeout_in_minutes} 分钟。