在此场景中,一场自然灾害侵袭了位于 Palo Alto 的主站点 1,导致站点 1 完全关闭。NSX 管理员将执行到位于 Austin 的辅助站点 2 的手动故障切换。
由于主站点是因无法预料的情况而关闭的,管理员不可能在实际故障发生之前执行任何故障切换的准备工作。
NSX 管理员希望实现以下主要目标:
- 在站点 2 上以最短的停机时间实现整个站点的故障切换。
- 故障切换后,在站点 2 上保留站点 1 应用程序 IP 地址。
- 在站点 2 上自动恢复所有 Edge 接口设置和 BGP 协议配置设置。
注:
- 管理员可以通过使用 vSphere Web Client 或运行 NSX REST API,手动执行故障切换任务。此外,管理员可以通过运行包含要在故障切换期间运行的 API 的脚本文件来自动执行某些故障切换任务。此场景介绍了使用 vSphere Web Client 的手动故障切换步骤。但是,在执行任何步骤时,如果需要使用 CLI 或 NSX REST API,场景中也提供了充分的说明。
- 在此场景中,灾难恢复工作流特定于前面所述的拓扑,其中具有一个主 NSX Manager 和一个辅助 NSX Manager。此场景不涉及具有多个辅助 NSX Manager 的工作流。
重要说明: 如果在故障切换到辅助站点 2 的过程中打开主站点 1 的电源,请先使用此场景中的过程确保故障切换过程已完成。只有在彻底完成到辅助站点 2 的故障切换后,才能将所有工作负载还原或故障恢复到原始的主站点 1。有关故障恢复过程的详细说明,请参见
场景 3:完全故障恢复到主站点。
前提条件
- 在站点 1 和站点 2 上安装 NSX Data Center 6.4.5 或更高版本。
- 在站点 1 和站点 2 上使用增强型链接模式部署 vCenter Server。
- 站点 1 和站点 2 满足以下条件:
- 非 NSX 防火墙(如果有)上未配置任何应用程序特定的安全策略。
- 非 NSX 防火墙(如果有)上未配置任何应用程序特定的防火墙规则。
- 在这两个 ESG 上禁用防火墙,因为会在 UDLR 上启用 ECMP,并且可以确保允许所有流量。
- 在故障切换之前,站点 2 满足以下条件:
- 已在 ESG 上按照站点 1 上的配置手动配置了类似的下行链路接口。
- 已在 ESG 上按照站点 1 上的配置手动完成了类似的 BGP 配置。
- 当主站点 1 处于活动状态或正在运行时,ESG 处于电源关闭状态。
过程
结果
手动恢复 NSX 组件以及从主站点(站点 1)故障切换到辅助站点(站点 2)的过程已完成。
下一步做什么
通过在站点 2(升级的主站点)上执行以下步骤,确认故障切换到站点 2 的过程已 100% 完成:
- 检查 NSX Manager 是否具有主要角色。
- 检查是否在 UDLR 上部署了控制虚拟机(Edge 设备虚拟机)。
- 检查是否所有控制器群集节点的状态均为已连接。
- 检查主机准备状态是否为绿色。
- 登录到 UDLR 控制虚拟机(Edge 设备虚拟机)的 CLI 控制台,然后执行以下步骤:
- 运行 show ip bgp neighbors 命令检查是否已建立所有 BGP 邻居,并且其状态为“已启动”。
- 运行 show ip route bgp 命令检查是否可从所有 BGP 邻居中发现所有 BGP 路由。
在故障切换到站点 2 的过程完成后,所有工作负载在辅助站点(升级的主站点)上运行,并且流量通过站点 2 上的 UDLR 和 NSX Edge 进行路由。