コントローラクラスタアーキテクチャについて

NSX Controller クラスタはスケールアウト型の分散システムで、各コントローラノードには、そのノードが実装できるタスクの種類を定義した一連のロールが割り当てられます。高い回復性とパフォーマンスを実現するため、コントローラ仮想マシンは 3 つの異なるホストにデプロイする必要があります。

複数の NSX Controller クラスタノードにワークロードを分散するため、シャーディングが使用されます。シャーディングとは、NSX Controllerのワークロードを複数のシャードに分割して、NSX Controllerの各インスタンスの負荷が同等になるようにすることです。

イメージは、周囲のテキストで説明されています。

これは、指定したエンティティ（論理スイッチ、論理ルーティング、その他のサービスなど）に対して、特定のコントローラノードがどのようにマスターとして動作するかを示しています。あるロールについて、特定の NSX Controller インスタンスがマスターに選ばれると、その NSX Controllerは、論理スイッチと分散論理ルーターを、クラスタ内にある使用可能なすべての NSX Controller インスタンスに振り分けます。

「シャード」に表示されている番号付きのボックスは、マスターがワークロードを分割する際に使用するシャードを表しています。論理スイッチのマスターは、論理スイッチを複数のシャードに分割し、それらのシャードを異なる NSX Controller インスタンスに割り当てます。分散論理ルーターのマスターも、分散論理ルーターを複数のシャードに分割し、それらのシャードを異なる NSX Controller インスタンスに割り当てます。

これらのシャードは、クラスタ内の異なる NSX Controller インスタンスに割り当てられます。どの NSX Controller インスタンスをどのシャードに割り当てるかはロールのマスターが決定します。ある要求がルーターのシャード 3 に届くと、そのシャードは 3 番目の NSX Controller インスタンスに接続するように指示されます。ある要求が論理スイッチのシャード 2 に届くと、その要求は 2 番目の NSX Controller インスタンスによって処理されます。

クラスタ内のいずれかの NSX Controller インスタンスで障害が発生すると、ロールのマスターが、使用可能な残りのクラスタにシャードを再分散します。コントローラノードのうちの 1 つは、各ロールのマスターとして選出されます。マスターには、シャードを個々のコントローラノードに割り当て、ノードの障害が発生した際に他のノードにシャードを再び割り当てるという責務があります。また、マスターはクラスタノードの障害を ESXi ホストに通知します。

各ロールのマスターを選出する際は、クラスタ内にある全ノード（アクティブと非アクティブを含む）の過半数票が必要です。これが、コントローラクラスタのデプロイで常にノード数を奇数にしなければならない最大の理由です。

ZooKeeper

ZooKeeper は、NSX Controller クラスタのメカニズムを支えるクライアント/サーバアーキテクチャです。コントローラクラスタは、Zookeeper を使用して検出および作成されます。クラスタが作成される際、ZooKeeper がすべてのノードを管理します。ZooKeeper ノードは、コントローラクラスタを形成するための選出プロセスに進みます。クラスタ内には、ZooKeeper マスターノードが 1 台必要です。これは、ノード間選出によって行われます。

コントローラノードが新規作成されると、NSX Manager は、ノード情報（ノード IP アドレスと ID を含む）を現在のクラスタに伝達します。このようにして、各ノードはクラスタリングに使用できる合計ノード数を把握します。ZooKeeper マスターの選出では、各ノードが一票を投じてマスターノードを選出します。1 つのノードがあるマジョリティ投票するまで、もう一度選択がトリガされます。たとえば、3 ノード設定のクラスタでマスターノードになるには、2 票以上が必要です。

注： ZooKeeper マスターが選出されないという事態を避けるため、クラスタ内のノードは 3 台にする必要があります。

最初のコントローラのデプロイ時は、このコントローラがマスターになります。そのため、コントローラをデプロイする際は、最初のノードのデプロイが完了してから他のノードを追加します。
2 番目のコントローラを追加した時点では、ノード数が偶数になるため、特殊な状態と言えます。
3 番目のノードを追加すると、クラスタは安定した状態になります。

ZooKeeper で一度に許容できる障害は 1 つのみです。つまり、あるコントローラノードが停止したら、他の障害が発生する前にそのノードをリカバリする必要があります。そうしないと、クラスタ破損する可能性があります。

中央制御プレーン (CCP) のドメインマネージャ

これは、ZooKeeper の上位にあるレイヤーで、ZooKeeper の初期設定をすべてのノードに提供します。ドメインマネージャは、クラスタ内のすべてのノードの設定を更新した後、ZooKeeper プロセスを開始するリモートプロシージャコールを呼び出します。

ドメインマネージャには、すべてのドメインを開始する責務があります。クラスタに参加するため、CCP ドメインは、他のマシン上にある CCP ドメインと通信します。クラスタの初期化をサポートする CCP ドメインのコンポーネントは zk-cluster-bootstrap です。

コントローラと他のコンポーネントとの関係

コントローラクラスタは、論理スイッチ、分散論理ルーター、VTEP に関する情報を管理し、ESXi ホストに提供します。

論理スイッチが作成されると、クラスタ内のコントローラノードは、その論理スイッチのマスター（オーナー）となるノードを決定します。これは、分散論理ルーターが追加される際にも当てはまります。

論理スイッチまたは分散論理ルーターに対する所有権が確立すると、ノードはその所有権を、対象のスイッチまたはルーターのトランスポートゾーンに属する ESXi ホストに送信します。所有権を決定し、所有権情報をホストに伝達する処理全体を「シャーディング」と呼びます。所有権とは、対象の論理スイッチまたは分散論理ルーターについて、ノードが NSX 関連のすべての操作に責任を持つことを意味します。他のノードは、その論理スイッチに対する操作を一切実行しません。

論理スイッチと分散論理ルーターの情報は、1 台の所有者から提供される必要があるため、複数のノードが所有者として選出されてコントローラクラスタが破損状態になると、ネットワーク内の各ホストは、その論理スイッチまたは分散論理ルーターに関して異なる情報を持つことになる可能性があります。このような事態になると、ネットワーク障害が発生します。ネットワーク制御とデータプレーンでは、情報は 1 つしか許可されないためです。

あるコントローラノードが停止すると、クラスタ内の残りのノードがシャーディングを再実行して、論理スイッチと論理ルーティングの所有権を決定します。

ZooKeeper

中央制御プレーン (CCP) のドメイン マネージャ

コントローラと他のコンポーネントとの関係

中央制御プレーン (CCP) のドメインマネージャ