本章介绍了可能会影响 NSX 路由子系统组件的典型故障场景,并简要说明了这些故障的影响。

NSX Manager

表 1. NSX Manager 故障模式和影响
故障模式 故障影响
到 NSX Manager 虚拟机的网络连接中断
  • 所有 NSX Manager 功能完全中断,包括用于 NSX 路由/桥接的 CRUD
  • 不会丢失配置数据
  • 数据层面或控制层面不会中断
NSX Manager 和 ESXi 主机之间的网络连接中断,或者 RabbitMQ 服务器发生故障
  • 如果 DLR 控制虚拟机或 ESG 在受影响的主机上运行,这些主机上的 CRUD 操作将失败
  • 在受影响的主机上创建和删除 DLR 实例失败
  • 不会丢失配置数据
  • 数据层面或控制层面不会中断
  • 任何动态路由更新继续正常工作
NSX Manager 和控制器之间的网络连接中断
  • NSX 分布式路由和桥接的创建、更新和删除操作失败
  • 不会丢失配置数据
  • 数据层面或控制层面不会中断
NSX Manager 虚拟机已破坏(数据存储故障)
  • 所有 NSX Manager 功能完全中断,包括用于 NSX 路由/桥接的 CRUD
  • 如果 NSX Manager 还原为较旧的配置,一部分路由/桥接实例可能会变为孤立实例,从而需要手动进行清理和协调
  • 数据层面或控制层面不会中断,除非需要进行协调

控制器群集

表 2. NSX Controller 故障模式和影响
故障模式 故障影响
控制器群集与 ESXi 主机之间的网络连接中断
  • DLR 控制层面功能(创建、更新和删除路由,包括动态路由)完全中断
  • DLR 管理层面功能(在主机上创建、更新和删除 LIF)中断
  • 将影响 VXLAN 转发,这可能会导致端到端 (L2+L3) 转发过程也会失败
  • 根据最后已知状态,数据层面继续正常工作
一个或两个控制器与 ESXi 主机之间的连接中断
  • 如果受影响的控制器仍然可以访问群集中的其他控制器,该控制器控制的任何 DLR 实例将受到上面所述的相同影响。其他控制器不会自动接管
一个控制器与其他控制器之间的网络连接中断(或完全中断)
  • 两个剩下的控制器接管隔离的控制器处理的 VXLAN 和 DLR
  • 受影响的控制器进入只读模式,丢弃到主机的会话并拒绝新的会话
控制器之间的连接中断
  • 所有控制器将进入只读模式,关闭到主机的连接并拒绝新的连接
  • DLR 的所有 LIF 和路由(包括动态路由)的创建、更新和删除操作失败
  • NSX 路由配置 (LIF) 可能在 NSX Manager 和控制器群集之间不同步,从而需要手动干预以重新同步
  • 主机将继续在最后已知控制层面状态下运行
一个控制器虚拟机丢失
  • 控制器群集缺少冗余
  • 管理/控制层面继续正常运行
两个控制器虚拟机丢失
  • 其余控制器将进入只读模式;受到的影响与控制器之间的连接中断时相同(如上所述)。可能需要手动恢复群集

主机模块

netcpa 依靠主机 SSL 密钥和证书以及 SSL 指纹与控制器建立安全通信。这些信息是通过消息总线(由 vsfwd 提供)从 NSX Manager 中获取的。

如果证书交换过程失败,netcpa 将无法成功连接到控制器。

注意:本节不涉及内核模块故障,因为这种故障的影响非常严重 (PSOD) 并且很少会发生。

表 3. 主机模块故障模式和影响
故障模式 故障影响
vsfwd 使用用户名/密码身份验证访问消息总线服务器(可能会过期)
  • 如果新准备的 ESXi 主机上的 vsfwd 在两小时内无法访问 NSX Manager,在安装期间提供的临时登录名/密码将过期,并且该主机上的消息总线无法运行
消息总线客户端 (vsfwd) 的故障影响取决于时间。
如果它在 NSX 控制层面的其他部分进入稳定运行状态之前发生故障
  • 主机上的分布式路由停止工作,因为主机无法与控制器通信
  • 主机无法从 NSX Manager 中获悉 DLR 实例
如果它在主机进入稳定状态后发生故障
  • 在主机上运行的 ESG 和 DLR 控制虚拟机无法接收配置更新
  • 主机未获悉新的 DLR,并且无法删除现有的 DLR
  • 根据主机在发生故障时具有的配置,主机数据路径将继续运行
表 4. netcpa 故障模式和影响
故障模式 故障影响
控制层面代理 (netcpa) 的故障影响取决于时间。
如果它在 NSX 数据路径内核模块进入稳定运行状态之前发生故障
  • 主机上的分布式路由停止工作
如果它在主机进入稳定状态后发生故障
  • 在主机上运行的 DLR 控制虚拟机无法将其转发表更新发送到控制器
  • 分布式路由数据路径不会从控制器中收到任何 LIF 或路由更新,但根据故障前具有的状态继续运行

DLR 控制虚拟机

表 5. DLR 控制虚拟机故障模式和影响
故障模式 故障影响
DLR 控制虚拟机丢失或关闭电源
  • 该 DLR 的 LIF 和路由的创建、更新和删除操作失败
  • 不会将任何动态路由更新发送到主机(包括撤消通过现在断开的邻接收到的前缀)
DLR 控制虚拟机与 NSX Manager 和控制器之间的连接中断
  • 影响与上面相同,所不同的是,如果 DLR 控制虚拟机及其路由邻接仍然启动,与以前获悉的前缀之间的流量将不会受到影响
DLR 控制虚拟机与 NSX Manager 之间的连接中断
  • 该 DLR 的 LIF 和路由的 NSX Manager 创建、更新和删除操作失败,并且不会重试
  • 动态路由更新继续进行传播
DLR 控制虚拟机与控制器之间的连接中断
  • 该 DLR 的任何路由更改(静态或动态)不会传播到主机