SASE Orchestrator 灾难恢复 (Disaster Recovery, DR) 功能防止在发生系统或网络故障时丢失存储的数据并恢复 SASE Orchestrator 服务。
- 因此,恢复时间目标 (Recovery Time Objective, RTO) 取决于操作员为触发备用服务器升级而明确执行的操作。
- 不过,恢复点目标 (Recovery Point Objective, RPO) 实际上为零(与恢复时间无关),因为所有配置都是即时复制的。在中断期间收集的监控数据将缓存在等待升级备用服务器的 Edge 和网关上。
活动/备用对
在 SASE Orchestrator DR 部署中,将两个相同的 SASE Orchestrator 系统配置为活动/备用对。操作员可以通过 Web UI 查看任一服务器上的 DR 就绪状态。Edge 和网关识别两个 SASE Orchestrator,在它们仅从活动 SASE Orchestrator 收到配置更改时,它们定期向两个系统发送 DR 检测信号以报告两个服务器的视图并查询 DR 系统状态。在操作员触发故障切换时,将在下一个 DR 检测信号中向 Edge 和网关通知该更改。
DR 状态
从操作员以及 Edge 和网关的视图中,SASE Orchestrator 具有以下四种 DR 状态之一:
DR 状态 | 描述 |
---|---|
独立 (Standalone) | 未配置任何 DR。 |
活动 (Active) | 已配置 DR,充当主 SASE Orchestrator 服务器。 |
备用 (Standby) | 已配置 DR,充当非活动副本 SASE Orchestrator 服务器。 |
僵停 (Zombie) | 以前配置了 DR 并处于活动状态,但不再充当活动或备用服务器。 |
运行时操作
如果配置了 DR,备用服务器以受限模式运行,从而阻止与 DR 状态和 DR 检测信号相关的 API 调用以外的所有调用。在操作员调用故障切换时,将升级备用服务器以作为独立服务器完全正常运行。如果以前处于活动状态的服务器能够响应,并且可以从升级的备用服务器中看到该服务器,以前的活动服务器将自动转变为僵停状态。在僵停状态下,将阻止管理配置服务,并将尚未转变为新的活动 SASE Orchestrator 的 Edge 和网关中的任何联系人重定向到升级的服务器。
设置 SASE Orchestrator 复制
需要安装两个 SASE Orchestrator 实例才能启动复制。
- 选定的备用服务器将被置于
STANDBY_CANDIDATE
状态,使其可由活动服务器进行配置。 - 然后,为活动服务器提供备用服务器的地址和凭据,此时活动服务器将进入
ACTIVE_CONFIGURING
状态。
STANDBY_CONFIG_RQST
时,这两个服务器将通过状态转换进行同步。
- 网关时区必须设置为 Etc/UTC。可以使用以下命令查看 NTP 时区。
vcadmin@vcg1-example:~$ cat /etc/timezone Etc/UTC vcadmin@vcg1-example:~$
如果时区不正确,请使用以下命令以更新时区。
echo "Etc/UTC" | sudo tee /etc/timezone sudo dpkg-reconfigure --frontend noninteractive tzdata
- NTP 偏移量必须小于或等于 15 毫秒。可以使用以下命令查看 NTP 偏移量。
sudo ntpqvcadmin@vcg1-example:~$ sudo ntpq -p remote refid st t when poll reach delay offset jitter ============================================================================== *ntp1-us1.prod.v 74.120.81.219 3 u 474 1024 377 10.171 -1.183 1.033 ntp1-eu1-old.pr .INIT. 16 u - 1024 0 0.000 0.000 0.000 vcadmin@vcg1-example:~$
如果偏移量不正确,请使用以下命令以更新 NTP 偏移量。
sudo systemctl stop ntp sudo ntpdate <server> sudo systemctl start ntp
- 默认情况下,将在
/etc/ntpd.conf
文件中配置 NTP 服务器列表。需要建立 DR 的 Orchestrator 必须能够通过 Internet 访问默认 NTP 服务器,并确保两个 Orchestrator 上的时间保持同步。客户还可使用其环境中运行的本地 NTP 服务器来同步时间。
设置备用 Orchestrator
要设置备用 Orchestrator,请执行以下步骤:
- 在企业门户的 SD-WAN 服务中,单击 Orchestrator 选项卡,然后从左侧窗格中单击复制 (Replication) 按钮以显示 Orchestrator 复制 (Orchestrator Replication) 屏幕。
- 通过选中备用 (复制角色) (Standby (Replication Role)) 单选按钮来激活备用 Orchestrator。
- 单击置为备用模式 (Enable for Standby) 按钮。
此时将显示“备用 Orchestrator”(Standby Orchestrator) 页面。
- 输入手动配置 (manual configuration) 参数,然后单击更新配置信息 (Update configuration info) 按钮。
为复制配置备用 Orchestrator 后,请按照以下说明配置活动 Orchestrator。
设置活动 Orchestrator
要设置活动 Orchestrator,请为复制角色选择“活动”(Active),并配置以下内容:
选项 | 描述 |
---|---|
选择复制角色 (Select Replication Role) | 为复制角色选择活动 (Active) 单选按钮。 |
备用 Orchestrator 地址 (Standby Orchestrator Address) | 输入主要备用 Orchestrator IP 地址。 |
备用 Orchestrator 地址 (IPv6) (Standby Orchestrator Address (IPv6)) | 输入备用 Orchestrator IPv6 地址。 |
备用 Orchestrator 辅助地址 (Standby Orchestrator Secondary Address) | 输入备用 Orchestrator 辅助接口的地址。如果将备用 Orchestrator 升级为活动 Orchestrator,则将使用此地址进行复制。用户可以在此处添加 Ipv4/Ipv6 或 FQDN 地址。 |
备用 Orchestrator UUID (Standby Orchestrator UUID) | 输入备用 Orchestrator 的 UUID。 |
配置模式 (Configuration Mode) | 根据要求,选择自动配置备用 (Auto Configure Standby) 或手动配置备用 (Manually Configure Standby) 单选按钮。 手动配置时,将活动 VCO 中的字符串值粘贴到 STANDBY_WAIT 。 |
超级用户的用户名 (Superuser Username) | 输入 Orchestrator 超级用户的显示名称。 |
备用 Orchestrator 超级用户密码 (Standby Orchestrator Superuser Password) | 输入 Orchestrator 超级用户的密码。 |
- 单击置为活动模式 (Enable for Active) 按钮以激活复制角色。
在配置完成后,两个 Orchestrator(备用和活动)将保持同步。
保持同步的备用 Orchestrator
保持同步的活动 Orchestrator
测试故障切换
以下故障切换测试场景是出于举例说明目的强制执行的故障切换。您可以在活动 (Active) 和备用 (Standby) 屏幕的可用操作 (Available Actions) 区域中执行这些操作。
升级备用 Orchestrator
本节介绍如何升级备用 Orchestrator。
要升级备用 Orchestrator,请执行以下步骤:
- 单击解锁 (unlock) 链接。
- 单击“备用 Orchestrator (Standby Orchestrator)”屏幕上可用操作 (Available Actions) 区域中的升级备用 (Promote Standby) 按钮。
将显示以下对话框,指示在您升级备用 Orchestrator 时,管理员无法再使用以前的活动 Orchestrator 管理 SASE Orchestrator。
- 单击升级备用 (Promote Standby) 按钮以升级备用 Orchestrator。
- 单击强制升级备用设备 (Force Promote Standby) 以升级 Orchestrator。
将显示最后一个对话框,指明 Orchestrator 不再是备用 Orchestrator,并在独立模式下重新启动。
升级备用 Orchestrator 后,它会在独立模式下重新启动。
如果备用 Orchestrator 可以与之前的活动 Orchestrator 通信,它会指示该 Orchestrator 进入僵停状态。在僵停状态下,Orchestrator 会与其客户端(Edge、网关、UI/API)通信,告知客户端它已不再处于活动状态,它们必须与新升级的 Orchestrator 通信。如果升级的备用 Orchestrator 无法与以前的活动 Orchestrator 通信,操作员应手动降级以前的活动 Orchestrator(如果可能)。
返回独立模式
要从僵停状态恢复为独立模式,请单击活动 Orchestrator (Active Orchestrator) 或备用 Orchestrator (Standby Orchestrator) 屏幕上“可用操作”(Available Actions) 区域中的返回独立模式 (Return to Standalone Mode) 按钮。
在经过“vco.disasterRecovery.zombie.expirySeconds”系统属性中指定的时间(默认为 1800 秒)后,Orchestrator 可以从僵停状态恢复为独立模式。
SASE Orchestrator DR 故障排除
本节介绍系统的故障状态。此外,UI 中也列出了这些故障状态,以及更详细的故障说明。在 VMware 日志中提供了额外的信息。
可恢复故障
以下错误是在 SASE Orchestrator DR 达到同步状态后可能发生的一些可恢复故障。如果已纠正导致这些故障的问题,SASE Orchestrator DR 会自动恢复正常运行。
FAILURE_SYNCING_FILES
FAILURE_GET_STANDBY_STATUS
FAILURE_MYSQL_ACTIVE_STATUS
FAILURE_MYSQL_STANDBY_STATUS
不可恢复故障
在配置 SASE Orchestrator DR 期间,可能会发生以下故障。SASE Orchestrator DR 不会自动从这些故障中恢复。
FAILURE_ACTIVE_CONFIGURING
FAILURE_LAUNCHING_STANDBY
FAILURE_STANDBY_CONFIGURING
FAILURE_COPYING_DB
FAILURE_COPYING_FILES
FAILURE_SYNC_CONFIGURING
FAILURE_GET_STANDBY_CONFIG
FAILURE_STANDBY_CANDIDATE
FAILURE_STANDBY_UNCONFIG
FAILURE_STANDBY_PROMOTION
FAILURE_ACTIVE_DEMOTION