SASE Orchestrator のディザスタ リカバリ (DR) 機能を利用すると、システムやネットワークで障害が発生した場合でも、保存されたデータが失われず、SASE Orchestrator サービスを再開できます。

SASE Orchestrator DR では、データ複製と手動でトリガーされるフェイルオーバー メカニズムを備えたアクティブ/スタンバイの SASE Orchestrator ペアを設定する必要があります。
  • そのため、目標復旧時間 (RTO) は、スタンバイの昇格をトリガするためのオペレータの明示的なアクションに依存します。
  • ただし、すべての設定が瞬時に複製されるため、目標復旧ポイント (RPO) は、復旧時間に関係なく、実質的にゼロになります。障害発生時に収集された監視データは、スタンバイの昇格を保留状態にしている Edge と Gateway にキャッシュされます。
注: DR は必須です。ライセンスと価格については、 VMware のセールス チームにお問い合わせください。

アクティブ/スタンバイのペア

SASE Orchestrator DR 展開では、2 つの同一の SASE Orchestrator システムがアクティブ/スタンバイ ペアとして設定されます。オペレータは、いずれかのサーバ上の Web ユーザー インターフェイスを使用して、DR の準備状況を確認できます。Edge と Gateway は両方の SASE Orchestrator を認識していますが、アクティブな SASE Orchestrator からの設定変更のみを受け取ることができます。また、両方のシステムに DR ハートビートを定期的に送信して、両方のサーバの可視性をレポートし、DR システムの状態をクエリします。オペレータがフェイルオーバーをトリガすると、次の DR ハートビートで Edge と Gateway に変化が通知されます。

DR 状態

オペレータから、または Edge と Gateway から見て、SASE Orchestrator の DR 状態は次の 4 つのいずれかになります。

DR 状態 説明
スタンドアローン DR が設定されていません。
アクティブ DR が設定されており、プライマリ SASE Orchestrator サーバとして機能しています。
スタンバイ DR が設定されており、非アクティブ レプリカ SASE Orchestrator サーバとして機能しています。
ゾンビ 以前は DR が設定されていてアクティブであったが、アクティブまたはスタンバイとして動作しなくなりました。

実行時の操作

DR が設定されている場合、スタンバイ サーバは制限モードで動作し、DR の状態および DR ハートビートに関連するものを除き、すべての API 呼び出しをブロックします。オペレータがフェイルオーバーを起動すると、スタンバイが昇格され、スタンドアローン サーバとして完全に動作するようになります。以前アクティブであったサーバが応答し、昇格されたスタンバイから認識できる場合、そのサーバは自動的にゾンビ状態に移行します。ゾンビ状態では、管理設定サービスはブロックされ、新しいアクティブな SASE Orchestrator に移行していない Edge および Gateway からのコンタクトはすべて、昇格したサーバにリダイレクトされます。

disaster-recovery-replica-and-status

SASE Orchestrator の複製のセットアップ

複製を開始するには、インストールされた SASE Orchestrator の 2 つのインスタンスが必要です。

  • 選択したスタンバイが STANDBY_CANDIDATE 状態になり、アクティブなサーバによって設定できるようになります。
  • その後、アクティブ サーバにはスタンバイのアドレスと認証情報が付与され、ACTIVE_CONFIGURING の状態になります。
STANDBY_CONFIG_RQST がアクティブからスタンバイに変わると、2 台のサーバは状態の移行を通じて同期します。
ディザスタ リカバリ (DR) を確立する必要がある 2 つの Orchestrator は同じ時刻である必要があります。 SASE Orchestrator レプリケーションを開始する前に、次の NTP 設定を確認してください。
  • Gateway のタイム ゾーンは [Etc/UTC] に設定する必要があります。次のコマンドを使用して NTP タイム ゾーンを表示します。
    vcadmin@vcg1-example:~$ cat /etc/timezone
    Etc/UTC
    vcadmin@vcg1-example:~$ 
    

    タイム ゾーンが正しくない場合は、次のコマンドを使用してタイム ゾーンを更新します。

    echo "Etc/UTC" | sudo tee /etc/timezone
    sudo dpkg-reconfigure --frontend noninteractive tzdata
    
  • NTP オフセットは 15 ミリ秒以下である必要があります。次のコマンドを使用して NTP オフセットを表示します。
    sudo ntpqvcadmin@vcg1-example:~$ sudo ntpq -p
         remote           refid      st t when poll reach   delay   offset  jitter
    ==============================================================================
    *ntp1-us1.prod.v 74.120.81.219    3 u  474 1024  377   10.171   -1.183   1.033
     ntp1-eu1-old.pr .INIT.          16 u    - 1024    0    0.000    0.000   0.000
    vcadmin@vcg1-example:~$ 
    

    オフセットが正しくない場合は、次のコマンドを使用して NTP オフセットを更新します。

    sudo systemctl stop ntp
    sudo ntpdate <server>
    sudo systemctl start ntp
  • デフォルトでは、NTP サーバのリストは、/etc/ntpd.conf ファイル内で設定されます。DR を確立する必要がある Orchestrator には、デフォルトの NTP サーバにアクセスするためのインターネットが必要です。また、両方の Orchestrator で時刻が同期されている必要があります。また、環境内で実行されているローカル NTP サーバを使用して時刻を同期することもできます。

スタンバイ Orchestrator の設定

スタンバイ Orchestrator を設定するには、次の手順を実行します。

  1. エンタープライズ ポータルの [SD-WAN] サービスで、[Orchestrator] タブをクリックし、左ペインで [複製 (Replication)] ボタンをクリックして [Orchestrator の複製 (Orchestrator Replication)] 画面を表示します。
  2. [スタンバイ(Standby)](複製ロール)ラジオ ボタンをオンにして、スタンバイ Orchestrator を有効にします。
  3. [スタンバイの有効化 (Enable for Standby)] ボタンをクリックします。

    [スタンバイ Orchestrator (Standby Orchestrator)] ページが表示されます。

  4. [手動設定 (Manual Configuration)] パラメータを入力し、[設定情報の更新 (Update configuration info)] ボタンをクリックします。

    スタンバイ Orchestrator が複製のために設定された後、以下の手順に従ってアクティブ Orchestrator を設定します。

アクティブ Orchestrator の設定

Orchestrator をアクティブ Orchestrator として設定するには、複製ロールをアクティブにして、次のように設定します。

オプション 説明
[複製ロールの選択 (Select Replication Role)] 複製ロールの [有効 (Active)] ラジオ ボタンをオンにします。
[スタンバイ Orchestrator のアドレス (Standby Orchestrator Address)] プライマリ スタンバイ Orchestrator の IP アドレスを入力します。
[スタンバイ Orchestrator のアドレス (IPv6) (Standby Orchestrator Address (IPv6))] スタンバイ Orchestrator の IPv6 アドレスを入力します。
[スタンバイ Orchestrator のセカンダリ アドレス (Standby Orchestrator Secondary Address)] スタンバイ Orchestrator のセカンダリ インターフェイスのアドレスを入力します。このアドレスは、スタンバイがアクティブに昇格した場合の複製に使用します。ここに IPv4/IPv6 または FQDN アドレスを追加できます。
[スタンバイ Orchestrator の UUID (Standby Orchestrator UUID)] スタンバイ Orchestrator の UUID を入力します。
[設定モード (Configuration Mode)] 要件に基づいて、[スタンバイの自動設定 (Auto Configure Standby)] または [スタンバイの手動設定 (Manually Configure Standby)] ラジオ ボタンをオンにします。

手動で設定する場合は、ACTIVE VCO または STANDBY_WAIT の文字列値を貼り付けます

[スーパー ユーザーのユーザー名 (Superuser Username)] Orchestrator スーパー ユーザーの表示名を入力します。
[スタンバイ Orchestrator のスーパー ユーザーのパスワード (Standby Orchestrator Superuser Password)] Orchestrator スーパー ユーザーのパスワードを入力します。
  1. [アクティブに対して有効 (Enable for Active)] ボタンをクリックして、複製ロールを有効にします。

設定が完了すると、両方の Orchestrator(スタンバイおよびアクティブ)が同期されます。

同期中のスタンバイ Orchestrator

同期中のアクティブ Orchestrator

フェイルオーバーのテスト

次のフェイルオーバー テストのシナリオは、参考例として強制的にフェイルオーバーされたものです。これらのアクションは、[アクティブ (Active)] および [スタンバイ (Standby)] 画面の [使用可能なアクション (Available Actions)] 領域で実行できます。

スタンバイ Orchestrator の昇格

このセクションでは、スタンバイ Orchestrator を昇格させる方法について説明します。

スタンバイ Orchestrator に昇格させるには、次の手順を実行します。

  1. [ロック解除 (unlock)] リンクをクリックします。
  2. [スタンバイ Orchestrator (Standby Orchestrator)] 画面の [使用可能なアクション (Available Actions)] 領域で、[スタンバイを昇格 (Promote Standby)] ボタンをクリックします。

    次のダイアログ ボックスが表示され、スタンバイ Orchestrator を昇格させると、管理者が以前アクティブだった Orchestrator を使用して SASE Orchestrator を管理することはできなくなる、ということが示されます。

  3. [スタンバイを昇格 (Promote Standby)] ボタンをクリックして、スタンバイ Orchestrator を昇格させます。
  4. [スタンバイの強制昇格 (Force Promote Standby)] をクリックして、Orchestrator を昇格させます。

    最後のダイアログ ボックスが表示され、Orchestrator がスタンバイ状態でなくなり、スタンドアローン モードで再起動することが示されます。

スタンバイ Orchestrator を昇格させると、スタンドアローン モードで再起動します。

スタンバイが以前のアクティブ Orchestrator と通信できる場合、その Orchestrator にゾンビ状態に移行するように指示します。ゾンビ状態では、Orchestrator はそのクライアント(Edge、Gateway、UI/API)に対して、自分がアクティブでなくなったこと、および新たに昇格された Orchestrator と通信する必要があることを通知します。昇格されたスタンバイが以前のアクティブ Orchestrator と通信できない場合、オペレータは、可能であれば以前のアクティブ Orchestrator を手動で降格する必要があります。

スタンドアローン モードに戻る

ゾンビをスタンドアローン モードに戻すには、[アクティブ Orchestrator (Active Orchestrator)] または [スタンバイ Orchestrator (Standby Orchestrator)] 画面の [使用可能なアクション (Available Actions)] 領域で、[スタンドアローン モードに戻る (Return to Standalone Mode)] ボタンをクリックします。

注:

Orchestrator は、システム プロパティ「vco.disasterRecovery.zombie.expirySeconds」で指定された時間(デフォルトは 1800 秒)が経過すると、ゾンビ状態からスタンドアローン モードに戻ることができます。

SASE Orchestrator DR のトラブルシューティング

このセクションでは、システムの障害状態について説明します。これらの情報は、障害についてのより詳細な説明とともに、ユーザー インターフェイスにも表示されます。追加の情報は VMware のログで確認できます。

リカバリ可能な障害

次のエラーは、SASE Orchestrator DR が同期状態に達した後に発生する可能性のある、リカバリ可能な障害です。これらの障害の原因となっている問題が修正された場合、SASE Orchestrator DR は自動的に通常の動作に戻ります。

  • FAILURE_SYNCING_FILES
  • FAILURE_GET_STANDBY_STATUS
  • FAILURE_MYSQL_ACTIVE_STATUS
  • FAILURE_MYSQL_STANDBY_STATUS

リカバリ不能な障害

SASE Orchestrator DR の設定中、次の障害が発生する可能性があります。SASE Orchestrator DR は、これらの障害から自動的にリカバリされることはありません。

  • FAILURE_ACTIVE_CONFIGURING
  • FAILURE_LAUNCHING_STANDBY
  • FAILURE_STANDBY_CONFIGURING
  • FAILURE_COPYING_DB
  • FAILURE_COPYING_FILES
  • FAILURE_SYNC_CONFIGURING
  • FAILURE_GET_STANDBY_CONFIG
  • FAILURE_STANDBY_CANDIDATE
  • FAILURE_STANDBY_UNCONFIG
  • FAILURE_STANDBY_PROMOTION
  • FAILURE_ACTIVE_DEMOTION