本章介绍了可能会影响 NSX 路由子系统组件的典型故障场景,并简要说明了这些故障的影响。
NSX Manager
表 1.
NSX Manager 故障模式和影响
故障模式 |
故障影响 |
到 NSX Manager 虚拟机的网络连接中断 |
- 所有 NSX Manager 功能完全中断,包括用于 NSX 路由/桥接的 CRUD
- 不会丢失配置数据
- 数据层面或控制层面不会中断
|
NSX Manager 和 ESXi 主机之间的网络连接中断,或者 RabbitMQ 服务器发生故障 |
- 如果 DLR 控制虚拟机或 ESG 在受影响的主机上运行,这些主机上的 CRUD 操作将失败
- 在受影响的主机上创建和删除 DLR 实例失败
- 不会丢失配置数据
- 数据层面或控制层面不会中断
- 任何动态路由更新继续正常工作
|
NSX Manager 和控制器之间的网络连接中断 |
- NSX 分布式路由和桥接的创建、更新和删除操作失败
- 不会丢失配置数据
- 数据层面或控制层面不会中断
|
NSX Manager 虚拟机已破坏(数据存储故障) |
- 所有 NSX Manager 功能完全中断,包括用于 NSX 路由/桥接的 CRUD
- 如果 NSX Manager 还原为较旧的配置,一部分路由/桥接实例可能会变为孤立实例,从而需要手动进行清理和协调
- 数据层面或控制层面不会中断,除非需要进行协调
|
控制器群集
表 2.
NSX Controller 故障模式和影响
故障模式 |
故障影响 |
控制器群集与 ESXi 主机之间的网络连接中断 |
- DLR 控制层面功能(创建、更新和删除路由,包括动态路由)完全中断
- DLR 管理层面功能(在主机上创建、更新和删除 LIF)中断
- 将影响 VXLAN 转发,这可能会导致端到端 (L2+L3) 转发过程也会失败
- 根据最后已知状态,数据层面继续正常工作
|
一个或两个控制器与 ESXi 主机之间的连接中断 |
- 如果受影响的控制器仍然可以访问群集中的其他控制器,该控制器控制的任何 DLR 实例将受到上面所述的相同影响。其他控制器不会自动接管
|
一个控制器与其他控制器之间的网络连接中断(或完全中断) |
- 两个剩下的控制器接管隔离的控制器处理的 VXLAN 和 DLR
- 受影响的控制器进入只读模式,丢弃到主机的会话并拒绝新的会话
|
控制器之间的连接中断 |
- 所有控制器将进入只读模式,关闭到主机的连接并拒绝新的连接
- DLR 的所有 LIF 和路由(包括动态路由)的创建、更新和删除操作失败
- NSX 路由配置 (LIF) 可能在 NSX Manager 和控制器群集之间不同步,从而需要手动干预以重新同步
- 主机将继续在最后已知控制层面状态下运行
|
一个控制器虚拟机丢失 |
|
两个控制器虚拟机丢失 |
- 其余控制器将进入只读模式;受到的影响与控制器之间的连接中断时相同(如上所述)。可能需要手动恢复群集
|
主机模块
netcpa 依靠主机 SSL 密钥和证书以及 SSL 指纹与控制器建立安全通信。这些信息是通过消息总线(由 vsfwd 提供)从 NSX Manager 中获取的。
如果证书交换过程失败,netcpa 将无法成功连接到控制器。
注意:本节不涉及内核模块故障,因为这种故障的影响非常严重 (PSOD) 并且很少会发生。
表 3.
主机模块故障模式和影响
故障模式 |
故障影响 |
vsfwd 使用用户名/密码身份验证访问消息总线服务器(可能会过期) |
- 如果新准备的 ESXi 主机上的 vsfwd 在两小时内无法访问 NSX Manager,在安装期间提供的临时登录名/密码将过期,并且该主机上的消息总线无法运行
|
消息总线客户端 (vsfwd) 的故障影响取决于时间。 |
如果它在 NSX 控制层面的其他部分进入稳定运行状态之前发生故障 |
- 主机上的分布式路由停止工作,因为主机无法与控制器通信
- 主机无法从 NSX Manager 中获悉 DLR 实例
|
如果它在主机进入稳定状态后发生故障 |
- 在主机上运行的 ESG 和 DLR 控制虚拟机无法接收配置更新
- 主机未获悉新的 DLR,并且无法删除现有的 DLR
- 根据主机在发生故障时具有的配置,主机数据路径将继续运行
|
表 4.
netcpa 故障模式和影响
故障模式 |
故障影响 |
控制层面代理 (netcpa) 的故障影响取决于时间。 |
如果它在 NSX 数据路径内核模块进入稳定运行状态之前发生故障 |
|
如果它在主机进入稳定状态后发生故障 |
- 在主机上运行的 DLR 控制虚拟机无法将其转发表更新发送到控制器
- 分布式路由数据路径不会从控制器中收到任何 LIF 或路由更新,但根据故障前具有的状态继续运行
|
DLR 控制虚拟机
表 5.
DLR 控制虚拟机故障模式和影响
故障模式 |
故障影响 |
DLR 控制虚拟机丢失或关闭电源 |
- 该 DLR 的 LIF 和路由的创建、更新和删除操作失败
- 不会将任何动态路由更新发送到主机(包括撤消通过现在断开的邻接收到的前缀)
|
DLR 控制虚拟机与 NSX Manager 和控制器之间的连接中断 |
- 影响与上面相同,所不同的是,如果 DLR 控制虚拟机及其路由邻接仍然启动,与以前获悉的前缀之间的流量将不会受到影响
|
DLR 控制虚拟机与 NSX Manager 之间的连接中断 |
- 该 DLR 的 LIF 和路由的 NSX Manager 创建、更新和删除操作失败,并且不会重试
- 动态路由更新继续进行传播
|
DLR 控制虚拟机与控制器之间的连接中断 |
- 该 DLR 的任何路由更改(静态或动态)不会传播到主机
|