シナリオ 2：サイト全体の停止（予期しない障害）

このシナリオでは、パロアルトにあるプライマリサイト 1 が自然災害に遭い、サイト 1 が完全に停止した場合について考えます。NSX 管理者が、オースティンにあるセカンダリサイト 2 へのフェイルオーバーを手動で行います。

プライマリサイトが予期しない状況で突然停止したため、管理者は、障害の発生前にフェイルオーバーの準備を行うことができません。

NSX 管理者の主な達成目標は次のとおりです。

サイト 2 で、サイト全体のフェイルオーバーを最小限のダウンタイムで行う。
フェイルオーバー後も、サイト 2 でサイト 1 のアプリケーションの IP アドレスを維持する。
サイト 2 で、すべての Edge インターフェイスの設定と BGP プロトコルの設定を自動的に復旧する。

注：

管理者は、vSphere Web Client を使用するか、NSX REST API を実行して、フェイルオーバータスクを手動で実行できます。また、フェイルオーバー中に実行される API を含むスクリプトファイルを実行して、いくつかのフェイルオーバータスクを自動化できます。このシナリオでは、vSphere Web Client を使用してフェイルオーバーを手動で行う手順について説明します。CLI または NSX REST API のいずれかが必要になる場合には、適切な手順を説明します。
このシナリオで使用するディザスタリカバリのワークフローは、以前に説明したトポロジに固有のものです。このトポロジは、プライマリ NSX Manager と 1 つのセカンダリ NSX Manager から構成されています。複数のセカンダリ NSX Manager を使用するワークフローは、このシナリオの範囲外です。

重要：セカンダリサイト 2 へのフェイルオーバーの進行中にプライマリサイト 1 がパワーオンされた場合は、このシナリオの手順に従って、フェイルオーバープロセスが完了していることを確認します。セカンダリサイト 2 へのフェイルオーバーが正常に完了している場合にのみ、すべてのワークロードを元のプライマリサイト 1 にリストアまたはフェイルバックします。フェイルバックプロセスの詳しい手順については、シナリオ 3：プライマリサイトへの完全なフェイルバックを参照してください。

前提条件

サイト 1 とサイト 2 の両方に NSX Data Center 6.4.5 以降がインストールされている。
サイト 1 とサイト 2 の vCenter Server が拡張リンクモードで展開されている。
サイト 1 とサイト 2 が次の条件を満たしている。
- NSX 以外のファイアウォールが存在する場合、そのファイアウォールにアプリケーション固有のセキュリティポリシーが設定されていない。
- NSX 以外のファイアウォールが存在する場合、そのファイアウォールにアプリケーション固有のファイアウォールルールが設定されていない。
- ユニバーサル分散論理ルーターで ECMP を有効にして、すべてのトラフィックを許可するため、両方の ESG でファイアウォールが無効になっている。
サイト 2 で、フェイルオーバー前に次の条件を満たしている。
- サイト 1 の構成と同じように、ESG で類似のダウンリンクインターフェイスが手動で設定されている。
- サイト 1 の設定と同じように、ESG で類似の BGP 設定が手動で行われている。
- プライマリサイト 1 がアクティブまたは実行中の場合に、ESG がパワーダウン状態になっている。

手順

サイト 1 のプライマリ NSX Manager が停止していることを確認します。
1. [インストールとアップグレード] ページで、[管理 (Management)] > [NSX Manager (NSX Managers)] の順に移動します。
  - 現在のブラウザセッションで [NSX Manager] ウィンドウを更新すると、プライマリ NSX Manager のロールが Unknown に変わります。
  - vSphere Web Client からログアウトして再度ログインする場合や、新しい vSphere Web Client ブラウザセッションを開始する場合、[NSX Manager] ウィンドウにプライマリ NSX Manager が表示されなくなります。
2. [ネットワークとセキュリティ (Networking & Security)] > [ダッシュボード (Dashboard)] > [概要 (Overview)] の順にクリックします。
  - 現在のブラウザセッションで [ダッシュボード] ウィンドウを更新すると、次のエラーメッセージが表示されます。「NSX Manager と接続を確立できません。管理者に連絡してください。。このエラーは、プライマリ NSX Manager が到達可能ではないことを意味します。
  - vSphere Web Client からログアウトして再度ログインする場合や、新しい vSphere Web Client ブラウザセッションを開始する場合、[NSX Manager] ドロップダウンメニューでプライマリ NSX Manager を選択できなくなります。
セカンダリ NSX Manager をプライマリロールに昇格させます。
1. [インストールとアップグレード] ページで、[管理 (Management)] > [NSX Manager (NSX Managers)] の順に移動します。
2. セカンダリ NSX Manager を選択します。
3. [アクション (Actions)] > [プライマリ NSX Manager から接続解除 (Disconnect from Primary NSX Manager)] の順にクリックします。切断操作の続行を確認するメッセージが表示されたら、[はい (Yes)] をクリックします。
  セカンダリ NSX Manager がプライマリ NSX Manager から切断され、 移行ロールに切り替わります。
4. [アクション (Actions)] > [プライマリロールの割り当て (Assign Primary Role)] の順にクリックします。
  サイト 2 のセカンダリ NSX Manager がプライマリロールに昇格します。
注意：ユニバーサル分散論理ルーターで Local Egress が無効になっているため、ユニバーサル分散論理ルーターの制御仮想マシン（Edge アプライアンスの仮想マシン）は元のプライマリサイト（サイト 1）にのみ展開されます。サイト 1 で障害が発生するまで、ユニバーサル分散論理ルーターの制御仮想マシンはセカンダリサイト（サイト 2）で使用できません。このサイトはプライマリに昇格しています。このため、NSX Controller クラスタを再展開する前に、昇格したプライマリサイト（サイト 2）でユニバーサル分散論理ルーターの制御仮想マシンを再展開します。
ユニバーサル分散論理ルーターの制御仮想マシンを展開する前にコントローラノードが展開されている場合、ユニバーサル分散論理ルーターのフォワーディングテーブルがフラッシュされます。このため、最初のコントローラノードがサイト 2 に展開された直後にダウンタイムが発生します。さらに、通信が停止する可能性があります。この状況を回避するには、NSX Controller ノードを展開する前にユニバーサル分散論理ルーターの制御仮想マシンを展開します。
パワーダウン状態の NSX Edge をパワーオンして、セカンダリサイト 2（昇格したプライマリ）でユニバーサル分散論理ルーターの制御仮想マシン（Edge アプライアンスの仮想マシン）を展開します。
ユニバーサル分散論理ルーターの制御仮想マシンの展開手順については、『 NSXCross-vCenter インストールガイド』を参照してください。
ユニバーサル分散論理ルーターの制御仮想マシンを展開するときに、次のリソース設定を行います。
- データセンターに サイト 2 を選択します。
- クラスタ/リソースプールを選択します。
- データストアを選択します。
注：ユニバーサル分散論理ルーターの制御仮想マシンを展開すると、サイト 2 で次の設定が自動的にリカバリされます。
- BGP プロトコルのルーティング設定
- BGP パスワードの設定
- アップリンクと内部インターフェイスの設定
サイト 2（昇格したプライマリ）に 3 台の NSX Controller クラスタノードを展開します。
NSX Controller の展開手順については、『 NSX Cross-vCenter インストールガイド』を参照してください。
NSX Controller クラスタの状態を更新します。
1. [インストールとアップグレード] ページで、[NSX Manager (NSX Managers)] をクリックします。
2. 昇格したプライマリ NSX Manager を選択します。
3. [アクション (Actions)] > [コントローラ状態の更新 (Update Controller State)] の順に選択します。
サイト 2 で、各クラスタでのルーティングサービスを強制的に同期します。
1. [インストールとアップグレード] 画面で、[ホストの準備 (Host Preparation)] をクリックします。
2. 昇格したプライマリ NSX Manager を選択します。
3. 一度に 1 つのクラスタを選択し、[アクション (Actions)] > [サービスの強制同期 (Force Sync Services)] の順にクリックします。
4. [ルーティング (Routing)] を選択して、[OK] をクリックします。
サイト 1 からサイト 2 にワークロード仮想マシンを移行します。

注：ワークロード仮想マシンは引き続きサイト 1 に存在します。このため、ワークロード仮想マシンをサイト 2 に手動で移行する必要があります。

結果

NSX のコンポーネントの手動リカバリと、プライマリサイト（サイト 1）からセカンダリサイト（サイト 2）へのフェイルオーバーが完了します。

次のタスク

サイト 2（昇格したプライマリサイト）で次の操作を行い、サイト 2 へのフェイルオーバーが 100% 完了しているかどうか確認します。

NSX Manager がプライマリロールを持っているかどうか確認します。
ユニバーサル分散論理ルーターに制御仮想マシン（Edge アプライアンスの仮想マシン）が展開されているかどうか確認します。
すべてのコントローラクラスタノードのステータスが「接続中」になっているかどうか確認します。
ホストの準備のステータスが緑色になっているかどうか確認します。
ユニバーサル分散論理ルーターの制御仮想マシン（Edge アプライアンスの仮想マシン）の CLI コンソールにログインして、次の操作を行います。
1. show ip bgp neighbors コマンドを実行して、すべての BGP ネイバーが確立され、ステータスが UP になっているかどうか確認します。
2. show ip route bgp コマンドを実行して、すべての BGP ルートがすべての BGP ネイバーから学習されているかどうか確認します。

サイト 2 へのフェイルオーバーが完了すると、セカンダリサイト（昇格したプライマリ）ですべてのワークロードが実行され、サイト 2 のユニバーサル分散論理ルーターと NSX Edge を介してトラフィックがルーティングされます。