この章では、NSX のルーティング サブシステムのコンポーネントに影響を与える可能性のある典型的な障害のシナリオを確認し、これらの障害の影響について概要を説明します。

NSX Manager

表 1. NSX Manager の障害の状況と影響

障害の状況

障害の影響

NSX Manager 仮想マシンとのネットワーク接続が失われる

  • NSX Manager のすべての機能(NSX ルーティング/ブリッジ用 CRUD を含む)が完全に停止する

  • データは失われない

  • データや制御プレーンは停止しない

NSX Manager および ESXi ホストの間のネットワーク接続が失われる、または RabbitMQ サーバの障害が発生する

  • 影響を受けるホストで分散論理ルーター制御仮想マシンまたは ESG が実行している場合は、それらの CRUD 操作が失敗する

  • 影響を受けるホストの分散論理ルーター インスタンスの作成や削除が失敗する

  • データは失われない

  • データや制御プレーンは停止しない

  • 動的ルーティングの更新は引き続き動作する

NSX Manager とコントローラの間のネットワーク接続が失われる

  • NSX の分散ルーティングおよびブリッジの作成、更新、および削除操作が失敗する

  • データは失われない

  • データや制御プレーンは停止しない

NSX Manager 仮想マシンが破壊される(データストアの障害)

  • NSX Manager のすべての機能(NSX ルーティング/ブリッジ用 CRUD を含む)が完全に停止する

  • NSX Manager が以前のにリストアされた場合に、ルーティング/ブリッジ インスタンスのサブセットが実体のない状態になるリスクが生じ、手動のクリーンアップと調整が必要となる

  • データや制御プレーンは停止しない(調整が必要になる場合を除く)

コントローラ クラスタ

表 2. NSX Controller の状況と影響

障害の状況

障害の影響

コントローラ クラスタが ESXi ホストとのネットワーク接続を失う

  • 分散論理ルーター制御プレーンの機能(動的ルートを含むルートの作成、更新、および削除)が完全に停止する

  • 分散論理ルーター管理プレーンの機能(ホストでの LIF の作成、更新、および削除)が停止する

  • VXLAN フォワーディングが影響を受け、そのためにエンド ツー エンド (L2 + L3) のフォワーディング プロセスも失敗することがある

  • データ プレーンは、最後に把握された状態に基づいて引き続き動作する

1 台以上のコントローラが ESXi ホストとの接続を失う

  • 影響を受けるコントローラがクラスタ内の他のコントローラに引き続きアクセスできる場合、このコントローラをマスターとする分散論理ルーター インスタンスが上記と同じ影響を受ける。他のコントローラには自動的に引き継がれない

1 台のコントローラが、他のコントローラとのネットワーク接続、または完全なネットワーク接続を失う

  • 分離されたコントローラによって処理されていた VXLAN と分散論理ルーターの処理を、残る 2 台のコントローラが引き継ぐ

  • 影響を受けるコントローラが読み取り専用モードになり、ホストに対してセッションをドロップし、新しいセッションを拒否する

コントローラが相互の接続を失う

  • すべてのコントローラが読み取り専用モードになり、ホストへの接続を閉じ、新しい接続を拒否する

  • すべての分散論理ルーターの LIF およびルート(動的ルートを含む)の作成、更新、および削除操作が失敗する

  • NSX Manager とコントローラ クラスタの間で NSX のルーティング設定 (LIF) が同期されなくなり、手動での同期が必要となることがある

  • ホストは、最後に把握された制御プレーンの状態に基づいて稼動し続ける

1 台のコントローラ仮想マシンが失われる

  • コントローラ クラスタの冗長性が損なわれる

  • 管理/制御プレーンは通常どおりに稼動し続ける

2 台のコントローラ仮想マシンが失われる

  • 残りのコントローラは読み取り専用モードになり、コントローラが相互の接続を失う場合(上記)と同じ影響がある。クラスタのリカバリを手動で実行しなければならない可能性が高い

ホスト モジュール

netcpa は、コントローラとの間で保護された通信を確立するために、SSL キーおよび証明書に加えて SSL サムプリントを使用します。これらは、メッセージ バス(vsfwd から提供)を介して NSX Manager から取得します。

証明書の交換プロセスが失敗すると、netcpa はコントローラに正常に接続できなくなります。

注:カーネル モジュールの障害は影響は深刻 (PSOD) であり、まれにしか起こらないものであることから、このセクションでは扱いません。

表 3. ホスト モジュールの障害の状況と影響

障害の状況

障害の影響

vsfwd がメッセージ バス サーバにアクセスするために認証で使用するユーザー名/パスワードが期限切れになることがある

  • 新規に準備された ESXi ホストの vsfwd が 2 時間以内に NSX Manager にアクセスできない場合、インストール中に提供された一時ログイン/パスワードの有効期限が切れ、このホストのメッセージ バスを操作できなくなる

メッセージ バス クライアント (vsfwd) の障害の影響は、障害が発生したタイミングによって異なる。

NSX 制御プレーンの他の部分が安定して実行するようになる前に障害が発生した場合

  • ホストがコントローラと通信できないため、ホストの分散ルーティングが機能しなくなる

  • ホストが NSX Manager から分散論理ルーター インスタンスを学習しない

ホストが安定して実行するようになった後に障害が発生した場合

  • ホストの ESG および分散論理ルーター制御仮想マシンは設定の更新を受信できない

  • ホストは新しい分散論理ルーター インスタンスを学習せず、既存の分散論理ルーターを削除できない

  • ホストのデーターパスは、障害発生時にホストが把握していた設定に基づいて動作し続ける

表 4. netcpa の障害の状況と影響

障害の状況

障害の影響

制御プレーン エージェント (netcpa) の障害の影響は、障害が発生したタイミングによって異なる

NSX データパスのカーネル モジュールが安定して実行するようになる前に障害が発生した場合

  • ホストの分散ルーティングが機能しなくなる

ホストが安定して実行するようになった後に障害が発生した場合

  • ホストで実行される分散論理ルーター制御仮想マシンが、コントローラにフォワーディング テーブルの更新を送信できない

  • 分散ルーティングのデータパスは、コントローラから LIF またはルートの更新を受信しなくなるが、障害発生時に把握していた設定に基づいて動作し続ける

分散論理ルーター制御仮想マシン

表 5. 分散論理ルーター制御仮想マシンの障害の状況と影響

障害の状況

障害の影響

分散論理ルーター制御仮想マシンが失われる、またはパワーオフされる

  • 分散論理ルーターの LIF およびルートの作成、更新、および削除操作が失敗する

  • 動的ルートの更新(解除された隣接関係を介して受信していたプリフィックスの取り消しを含む)がホストに送信されない

分散論理ルーター制御仮想マシンが、NSX Manager およびコントローラとの接続を失う

  • 上記と同じ影響があるが、分散論理ルーター制御仮想マシンとそのルーティングの隣接関係が引き続き動作している場合は、以前に学習したプリフィックスとの間のトラフィックは影響を受けない

分散論理ルーター制御仮想マシンが、NSX Manager との接続を失う

  • NSX Manager での、この分散論理ルーターの LIF およびルートの作成、更新、および削除操作が失敗し、再試行されない

  • 動的ルーティングの更新は引き続き送信される

分散論理ルーター制御仮想マシンが、コントローラとの接続を失う

  • この分散論理ルーターのルーティングの変更(固定または動的)は、ホストに送信されない