継続的な可用性に関する FAQ

vRealize Operations 8 における継続的な可用性の導入に伴い、よくあるご質問をいくつかご紹介します。このセクションでは継続的な可用性に関する説明を行い、同トピックに関する意識や知識を向上します。

継続的な可用性が有効になっている vRealize Operations クラスタを示すブロック図。

分析ノードにデータを保存する方法

オブジェクトが検出されると、vRealize Operations はデータを保持するノードを決定し、そのデータを別のフォルトドメインのペアノードにコピー（複製）します。すべてのオブジェクトは、フォルトドメイン全体で 2 つの分析ノード（ノードペア）に格納され、常に同期されます。

たとえば、vRealize Operations には 8 つの分析ノードがありますが、CA が有効になっているため、各フォルトドメインの分析ノードは 4 つとなります (図を参照)。

新しいオブジェクトが検出されると、vRealize Operations はデータを「データノード 2B」（プライマリ）に格納し、データのコピーが自動的に「データノード 2A」（セカンダリ）に保存されます。

何らかの理由で「FD A」が利用できなくなった場合は、データノード 2B からの「プライマリ」データが使用されます。

何らかの理由で「FD B」が利用できなくなった場合は、データノード 2A からの「セカンダリ」データが使用されます。

継続的な可用性のクラスタはどのような状況で破損するのでしょうか。プライマリノードまたはプライマリレプリカノードとデータノード、または両方のフォルトドメインにある 2 つ以上のデータノードを同時に失うことはサポートされていません。

フォルトドメイン 1 の各分析ノードには、フォルトドメイン 2 のノードペアがあります。逆の場合も同様です。

前述の例のとおり、以下の構成で 4 つのノードペアを使用します。

プライマリ + レプリカノード

データノード 1A (FD A) + データノード 1B (FD B)

データノード 2A (FD A) + データノード 2B (FD B)

データノード 3A (FD A) + データノード 3B (FD B)

各ノードペアの 2 つのノードは常に同期され、同じデータが格納されます。したがって、すべてのノードペアの 1 つのノードが使用可能な状態で、クラスタはデータ損失なしに機能し続けます。

フォルトドメインのうちいずれかで 1 つのデータノードが使用できなくなった場合はどうなりますか。

クラスタはデグレード状態になりますが、いずれかのノードがフォルトドメインで使用できなくなった場合でも動作し続けます。データが失われることはありません。データノードの修復または置き換えを行って、クラスタがデグレード状態のままにならないようにする必要があります。

フォルトドメイン 1 の 2 つのデータノードとフォルトドメイン 2 のプライマリレプリカノードが失われた場合、クラスタは破損しますか。

今回の例では、データが失われることなく、クラスタは引き続き機能します。各ノードペアの 1 つの分析ノードが使用可能な場合、データが失われることはありません。

フォルトドメイン全体が使用できなくなった場合はどうなりますか。

クラスタはデグレード状態になりますが、フォルトドメイン全体が使用できなくなった場合でも動作し続けます。データが失われることはありません。フォルトドメインの修復を行いオンライン状態にし、クラスタがデグレード状態のままにならないようにする必要があります。

フォルトドメインはリカバリ不能です。新たにデプロイされたノードでフォルトドメイン全体を置き換えることができます。管理 UI からは、プライマリレプリカノードのみを置き換えることができます。プライマリノードのフォルトドメイン全体が失われた場合は、プライマリノードのフェイルオーバーが発生し、プライマリレプリカノードが新しいプライマリノードとして昇格されるまで待機する必要があります。

障害が発生したノードをフォルトドメインに再度追加する適切なプロセスはどのようなものですか。同期にはどのくらいの時間がかかりますか。

障害が発生したノードを再度追加するために推奨される手順は、管理 UI で「クラスタのノードを置き換える」機能を使用することです。置き換えノードを追加すると、データが同期されます。同期時間は、オブジェクト数、オブジェクトの履歴期間、ネットワーク帯域幅、クラスタの負荷によって決まります。

フォルトドメイン間のネットワーク遅延が 20 ミリ秒を超える場合はどうなりますか。 vRealize Operations が許容できる遅延時間はどれくらいですか。

最適なパフォーマンスを実現するには、遅延要件を遵守する必要があります。フォルトドメイン間の遅延は通常 10 ミリ秒未満で、20 秒間隔で最大 20 ミリ秒となります。ネットワーク遅延のガイドラインの詳細については、ナレッジベースの記事 vRealize Operations Manager Sizing Guidelines (KB2093783) を参照してください。

フォルトドメイン間のネットワーク遅延が一定期間にわたって「20 秒間隔で 20 ミリ秒」を超えていますが、その後 10 ミリ秒未満に復旧した場合、再同期にかかる時間はどれくらいですか。

遅延が大きくても同期が停止しているわけではありません。オブジェクトが検出されると、 vRealize Operations はデータを保持する必要があるノードを決定します（プライマリ）。その後、データの 2 つ目のコピーがノードペア（セカンダリ）に移動します。各オブジェクトは、両方のフォルトドメインで 2 つの分析ノード（ペア）に格納されます。同期は継続的なプロセスで、セカンダリノードはプライマリノードと定期的に同期しています。同期は、プライマリノードとセカンダリノードの最終同期タイムスタンプに基づいて実行されます。したがって、 vRealize Operations に同期データキューはありません。

ポーリングが失われた場合の実際の監視ノードの許容範囲はどのようなものになりますか。

監視ノードの動作はポーリングベースではありません。監視ノードは、ノードのいずれかが他のフォルトドメインのノードと通信できない（各種チェック後）場合にのみ通信を行います。

プライマリノードとプライマリレプリカノードのフェイルオーバーはどの時点で行われますか。

フェイルオーバーが発生するのは、プライマリノードにアクセスできなくなった場合やプライマリノードが稼動していない場合のみです。

プライマリレプリカノードがプライマリノードに昇格するのはいつですか。

プライマリレプリカノードは、以下の 2 つのケースでプライマリノードに昇格されます。

既存プライマリノードがダウンしている場合。
関連付けられたフォルトドメインがダウンしているかオフラインの場合。

元のプライマリノードがオンラインに戻った際にプライマリ制御は再開されますか。データはどのように同期されますか。: プライマリノードとプライマリレプリカノードの両方をオンラインにして動作が正常に戻ると、新たに昇格されたプライマリノード（以前のプライマリレプリカノード）は新しいプライマリノードのまま維持され、新しいプライマリレプリカ（以前のプライマリノード）は新しいプライマリノードと同期されます。

フォルトドメイン間の接続が完全に中断された後、接続が復旧した場合はどうなりますか。: フォルトドメイン間の通信が数分間中断された場合、フォルトドメインのいずれかが自動的にオフラインになります。ネットワークの中断が復旧した後、管理者ユーザーは、フォルトドメインを手動でオンラインにして、データの同期を開始する必要があります。

監視ノードが使用できなくなった場合、フォルトドメインはどうなりますか。

両方のフォルトドメインが健全かつ相互に通信している場合、監視ノードが使用できなくてもクラスタには影響しません。 vRealize Operations は引き続き機能します。フォルトドメイン間で通信の問題が発生した場合、次の 3 つの状況が発生する可能性があります。

両方のフォルトドメインから監視ノードにアクセス可能 – 監視機能は、サイトの健全性に基づいて 1 つのフォルトドメインをオフラインにします。
1 つのフォルトドメインからのみ監視ノードにアクセス可能 – もう一方のフォルトドメインは自動的にオフラインになります。
どちらのフォルトドメインからも監視ノードにアクセス不可 – 両方のフォルトドメインがオフラインになります。

オフラインのフォルトドメインが再度使用できるようになったとき、フォルトドメインは通信の停止中に収集されたすべてのデータを同期しますか。: フォルトドメインへの接続が復旧し、すべての失われたデータを取得するために同期されると、収集したデータは即座に同期されます。

分析ノードがもう一方のフォルトドメインの分析ノードと通信できない場合はどうなりますか。: 分析ノードがもう一方のフォルトドメインや監視ノードのすべてのノードと通信できない場合、その分析ノードは自動的にオフラインになります。管理者は、すべての通信問題が解決されたことを確認後、自動的にオフラインになったすべてのノードまたはフォルトドメイン全体を手動でオンラインに戻す必要があります。

標準クラスタの最大ノード数が 10 個の特大ノードであり、それが 440,000 個のオブジェクトをサポートしている場合、継続的な可用性の最大ノード数が、264,000 個のオブジェクトをサポートする 12 個の特大ノードなのはなぜですか。: 12 個の特大ノードは、継続的な可用性クラスタでのみサポートされ、2 個の個別のフォルトドメインにまたがる最大 6 個の特大ノードを参照します。これにより、標準クラスタ上のノード数の増加が実現し、より多くのオブジェクトを収集できます。; 可能な設計としては、フォルトドメイン 1 に 6 個の特大ノードを置き、フォルトドメイン 2 に 6 個の特大ノードを置き、第 3 のサイトに監視ノードを置く、などがあります。フォルトドメイン 1 とフォルトドメイン 2 間の遅延が最大で 10 ミリ秒未満になるよう、遅延の要件を満たす必要があります。遅延、パケットロス、帯域幅に関する詳細については、ナレッジベースの記事「 vRealize Operations Manager Sizing Guidelines」(KB 2093783) を参照してください。

継続的な可用性を備えたロードバランサはサポートされていますか。: はい、サポートしています。ロードバランサの構成の詳細については、 vRealize Operations Manager のドキュメントページにある『 vRealize Operations ロードバランシング構成ガイド』を参照してください。

同ドキュメントには「CA を有効にすると、プライマリノードに障害が発生した場合に、プライマリノードが提供するすべての機能をレプリカノードが引き継ぐことができます。レプリカへのフェイルオーバーは自動的に行われ、操作とデータ収集の再開までに 2～3 分の vRealize Operations ダウンタイムのみを要します」との記載があります。
テスト時に、プライマリノードのネットワークインターフェイスを切断することによって新しいプライマリへの切り替えが 5 分以内に完了すると、製品 UI から強制的に出される場合や、予期しないエラーが発生する場合があります。: 記載されている 2～3 分という値は概算の中央値であるため、5 分間は許容範囲内です。

フェイルオーバー後にプライマリノードがネットワークに再び接続される場合、元のプライマリノードをプライマリロールに戻すために推奨される手順はどのようなものですか。: プライマリノードのロールにプライマリレプリカノードをロールバックする必要はありません。逆の場合も同様です。旧プライマリノードをプライマリロールに復旧する場合は、新規プライマリノードまたはそのフォルトドメイン（元のプライマリノードが配置されている場所）で「ノードのオフラインまたはオンラインへの切り替え」を使用します。

ノードがオフラインになった場合や再起動された場合は、ノードをオンラインに戻すために対応するフォルトドメインをオフラインにしてからオンラインに戻す必要がありますか。: ノードを再起動した場合やオフラインまたはオンラインにした場合でも、すべてのノードは自動的に機能し続けます。追加の手順は必要ありません。