SASE Orchestrator 灾难恢复 (Disaster Recovery, DR) 功能防止在发生系统或网络故障时丢失存储的数据并恢复 SASE Orchestrator 服务。

SASE Orchestrator DR 涉及为数据复制设置活动/备用 SASE Orchestrator 对以及手动触发的故障切换机制。
  • 因此,恢复时间目标 (Recovery Time Objective, RTO) 取决于操作员为触发备用服务器升级而明确执行的操作。
  • 不过,恢复点目标 (Recovery Point Objective, RPO) 实际上为零(与恢复时间无关),因为所有配置都是即时复制的。在中断期间收集的监控数据将缓存在等待升级备用服务器的 Edge 和网关上。
注: DR 是强制性的。有关许可和定价,请与 VMware 销售团队联系以获得支持。

活动/备用对

SASE Orchestrator DR 部署中,将两个相同的 SASE Orchestrator 系统配置为活动/备用对。操作员可以通过 Web UI 查看任一服务器上的 DR 就绪状态。Edge 和网关识别两个 SASE Orchestrator,在它们仅从活动 SASE Orchestrator 收到配置更改时,它们定期向两个系统发送 DR 检测信号以报告两个服务器的视图并查询 DR 系统状态。在操作员触发故障切换时,将在下一个 DR 检测信号中向 Edge 和网关通知该更改。

DR 状态

从操作员以及 Edge 和网关的视图中,SASE Orchestrator 具有以下四种 DR 状态之一:

DR 状态 描述
独立 (Standalone) 未配置任何 DR。
活动 (Active) 已配置 DR,充当主 SASE Orchestrator 服务器。
备用 (Standby) 已配置 DR,充当非活动副本 SASE Orchestrator 服务器。
僵停 (Zombie) 以前配置了 DR 并处于活动状态,但不再充当活动或备用服务器。

运行时操作

如果配置了 DR,备用服务器以受限模式运行,从而阻止与 DR 状态和 DR 检测信号相关的 API 调用以外的所有调用。在操作员调用故障切换时,将升级备用服务器以作为独立服务器完全正常运行。如果以前处于活动状态的服务器能够响应,并且可以从升级的备用服务器中看到该服务器,以前的活动服务器将自动转变为僵停状态。在僵停状态下,将阻止管理配置服务,并将尚未转变为新的活动 SASE Orchestrator 的 Edge 和网关中的任何联系人重定向到升级的服务器。

disaster-recovery-replica-and-status

设置 SASE Orchestrator 复制

需要安装两个 SASE Orchestrator 实例才能启动复制。

  • 选定的备用服务器将被置于 STANDBY_CANDIDATE 状态,使其可由活动服务器进行配置。
  • 然后,为活动服务器提供备用服务器的地址和凭据,此时活动服务器将进入 ACTIVE_CONFIGURING 状态。
在从活动服务器向备用服务器发出 STANDBY_CONFIG_RQST 时,这两个服务器将通过状态转换进行同步。
需要建立灾难恢复 (DR) 的两个 Orchestrator 必须具有相同的时间。在启动 SASE Orchestrator 复制之前,请确保检查以下 NTP 配置:
  • 网关时区必须设置为 Etc/UTC。可以使用以下命令查看 NTP 时区。
    vcadmin@vcg1-example:~$ cat /etc/timezone
    Etc/UTC
    vcadmin@vcg1-example:~$ 
    

    如果时区不正确,请使用以下命令以更新时区。

    echo "Etc/UTC" | sudo tee /etc/timezone
    sudo dpkg-reconfigure --frontend noninteractive tzdata
    
  • NTP 偏移量必须小于或等于 15 毫秒。可以使用以下命令查看 NTP 偏移量。
    sudo ntpqvcadmin@vcg1-example:~$ sudo ntpq -p
         remote           refid      st t when poll reach   delay   offset  jitter
    ==============================================================================
    *ntp1-us1.prod.v 74.120.81.219    3 u  474 1024  377   10.171   -1.183   1.033
     ntp1-eu1-old.pr .INIT.          16 u    - 1024    0    0.000    0.000   0.000
    vcadmin@vcg1-example:~$ 
    

    如果偏移量不正确,请使用以下命令以更新 NTP 偏移量。

    sudo systemctl stop ntp
    sudo ntpdate <server>
    sudo systemctl start ntp
  • 默认情况下,将在 /etc/ntpd.conf 文件中配置 NTP 服务器列表。需要建立 DR 的 Orchestrator 必须能够通过 Internet 访问默认 NTP 服务器,并确保两个 Orchestrator 上的时间保持同步。客户还可使用其环境中运行的本地 NTP 服务器来同步时间。

设置备用 Orchestrator

要设置备用 Orchestrator,请执行以下步骤:

  1. 在企业门户的 SD-WAN 服务中,单击 Orchestrator 选项卡,然后从左侧窗格中单击复制 (Replication) 按钮以显示 Orchestrator 复制 (Orchestrator Replication) 屏幕。
  2. 通过选中备用 (复制角色) (Standby (Replication Role)) 单选按钮来激活备用 Orchestrator。
  3. 单击置为备用模式 (Enable for Standby) 按钮。

    此时将显示“备用 Orchestrator”(Standby Orchestrator) 页面。

  4. 输入手动配置 (manual configuration) 参数,然后单击更新配置信息 (Update configuration info) 按钮。

    为复制配置备用 Orchestrator 后,请按照以下说明配置活动 Orchestrator。

设置活动 Orchestrator

要设置活动 Orchestrator,请为复制角色选择“活动”(Active),并配置以下内容:

选项 描述
选择复制角色 (Select Replication Role) 为复制角色选择活动 (Active) 单选按钮。
备用 Orchestrator 地址 (Standby Orchestrator Address) 输入主要备用 Orchestrator IP 地址。
备用 Orchestrator 地址 (IPv6) (Standby Orchestrator Address (IPv6)) 输入备用 Orchestrator IPv6 地址。
备用 Orchestrator 辅助地址 (Standby Orchestrator Secondary Address) 输入备用 Orchestrator 辅助接口的地址。如果将备用 Orchestrator 升级为活动 Orchestrator,则将使用此地址进行复制。用户可以在此处添加 Ipv4/Ipv6 或 FQDN 地址。
备用 Orchestrator UUID (Standby Orchestrator UUID) 输入备用 Orchestrator 的 UUID。
配置模式 (Configuration Mode) 根据要求,选择自动配置备用 (Auto Configure Standby)手动配置备用 (Manually Configure Standby) 单选按钮。

手动配置时,将活动 VCO 中的字符串值粘贴到 STANDBY_WAIT

超级用户的用户名 (Superuser Username) 输入 Orchestrator 超级用户的显示名称。
备用 Orchestrator 超级用户密码 (Standby Orchestrator Superuser Password) 输入 Orchestrator 超级用户的密码。
  1. 单击置为活动模式 (Enable for Active) 按钮以激活复制角色。

在配置完成后,两个 Orchestrator(备用和活动)将保持同步。

保持同步的备用 Orchestrator

保持同步的活动 Orchestrator

测试故障切换

以下故障切换测试场景是出于举例说明目的强制执行的故障切换。您可以在活动 (Active)备用 (Standby) 屏幕的可用操作 (Available Actions) 区域中执行这些操作。

升级备用 Orchestrator

本节介绍如何升级备用 Orchestrator。

要升级备用 Orchestrator,请执行以下步骤:

  1. 单击解锁 (unlock) 链接。
  2. 单击“备用 Orchestrator (Standby Orchestrator)”屏幕上可用操作 (Available Actions) 区域中的升级备用 (Promote Standby) 按钮。

    将显示以下对话框,指示在您升级备用 Orchestrator 时,管理员无法再使用以前的活动 Orchestrator 管理 SASE Orchestrator

  3. 单击升级备用 (Promote Standby) 按钮以升级备用 Orchestrator。
  4. 单击强制升级备用设备 (Force Promote Standby) 以升级 Orchestrator。

    将显示最后一个对话框,指明 Orchestrator 不再是备用 Orchestrator,并在独立模式下重新启动。

升级备用 Orchestrator 后,它会在独立模式下重新启动。

如果备用 Orchestrator 可以与之前的活动 Orchestrator 通信,它会指示该 Orchestrator 进入僵停状态。在僵停状态下,Orchestrator 会与其客户端(Edge、网关、UI/API)通信,告知客户端它已不再处于活动状态,它们必须与新升级的 Orchestrator 通信。如果升级的备用 Orchestrator 无法与以前的活动 Orchestrator 通信,操作员应手动降级以前的活动 Orchestrator(如果可能)。

返回独立模式

要从僵停状态恢复为独立模式,请单击活动 Orchestrator (Active Orchestrator)备用 Orchestrator (Standby Orchestrator) 屏幕上“可用操作”(Available Actions) 区域中的返回独立模式 (Return to Standalone Mode) 按钮。

注:

在经过“vco.disasterRecovery.zombie.expirySeconds”系统属性中指定的时间(默认为 1800 秒)后,Orchestrator 可以从僵停状态恢复为独立模式。

SASE Orchestrator DR 故障排除

本节介绍系统的故障状态。此外,UI 中也列出了这些故障状态,以及更详细的故障说明。在 VMware 日志中提供了额外的信息。

可恢复故障

以下错误是在 SASE Orchestrator DR 达到同步状态后可能发生的一些可恢复故障。如果已纠正导致这些故障的问题,SASE Orchestrator DR 会自动恢复正常运行。

  • FAILURE_SYNCING_FILES
  • FAILURE_GET_STANDBY_STATUS
  • FAILURE_MYSQL_ACTIVE_STATUS
  • FAILURE_MYSQL_STANDBY_STATUS

不可恢复故障

在配置 SASE Orchestrator DR 期间,可能会发生以下故障。SASE Orchestrator DR 不会自动从这些故障中恢复。

  • FAILURE_ACTIVE_CONFIGURING
  • FAILURE_LAUNCHING_STANDBY
  • FAILURE_STANDBY_CONFIGURING
  • FAILURE_COPYING_DB
  • FAILURE_COPYING_FILES
  • FAILURE_SYNC_CONFIGURING
  • FAILURE_GET_STANDBY_CONFIG
  • FAILURE_STANDBY_CANDIDATE
  • FAILURE_STANDBY_UNCONFIG
  • FAILURE_STANDBY_PROMOTION
  • FAILURE_ACTIVE_DEMOTION