vRealize Operations 8 における継続的な可用性の導入に伴い、よくあるご質問をいくつかご紹介します。このセクションでは継続的な可用性に関する説明を行い、同トピックに関する意識や知識を向上します。

継続的な可用性が有効になっている vRealize Operations クラスタを示すブロック図。
分析ノードにデータを保存する方法

オブジェクトが検出されると、vRealize Operations はデータを保持するノードを決定し、そのデータを別のフォルト ドメインのペア ノードにコピー(複製)します。すべてのオブジェクトは、フォルト ドメイン全体で 2 つの分析ノード(ノード ペア)に格納され、常に同期されます。

たとえば、vRealize Operations には 8 台の分析ノードがありますが、CA が有効になっているため、各フォルト ドメインの分析ノードは 4 台となります(図を参照)。

新しいオブジェクトが検出されると、vRealize Operations はデータを「データ ノード 2B」(プライマリ)に格納し、データのコピーが自動的に「データ ノード 2A」(セカンダリ)に保存されます。

何らかの理由で「FD A」が利用できなくなった場合は、データ ノード 2B からの「プライマリ」データが使用されます。

何らかの理由で「FD B」が利用できなくなった場合は、データ ノード 2A からの「セカンダリ」データが使用されます。

継続的な可用性のクラスタはどのような状況で破損するのでしょうか。プライマリ ノードまたはプライマリ レプリカ ノードとデータ ノード、または両方のフォルト ドメインにある 2 つ以上のデータ ノードを同時に失うことはサポートされていません。

フォルト ドメイン 1 の各分析ノードには、フォルト ドメイン 2 のノード ペアがあります。逆の場合も同様です。

前述の例のとおり、以下の構成で 4 つのノード ペアを使用します。

プライマリ + レプリカ ノード

データ ノード 1A (FD A) + データ ノード 1B (FD B)

データ ノード 2A (FD A) + データ ノード 2B (FD B)

データ ノード 3A (FD A) + データ ノード 3B (FD B)

各ノード ペアの 2 つのノードは常に同期され、同じデータが格納されます。したがって、すべてのノード ペアの 1 つのノードが使用可能な状態で、クラスタはデータ損失なしに機能し続けます。

フォルト ドメインのうちいずれかで 1 つのデータ ノードが使用できなくなった場合はどうなりますか。
クラスタはデグレード状態になりますが、いずれかのノードがフォルト ドメインで使用できなくなった場合でも動作し続けます。データが失われることはありません。データ ノードの修復または置き換えを行って、クラスタがデグレード状態のままにならないようにする必要があります。
フォルト ドメイン 1 の 2 つのデータ ノードとフォルト ドメイン 2 のプライマリ レプリカ ノードが失われた場合、クラスタは破損しますか。
今回の例では、データが失われることなく、クラスタは引き続き機能します。各ノード ペアの 1 つの分析ノードが使用可能な場合、データが失われることはありません。
フォルト ドメイン全体が使用できなくなった場合はどうなりますか。

クラスタはデグレード状態になりますが、フォルト ドメイン全体が使用できなくなった場合でも動作し続けます。データが失われることはありません。フォルト ドメインの修復を行いオンライン状態にし、クラスタがデグレード状態のままにならないようにする必要があります。

フォルト ドメインはリカバリ不能です。新たにデプロイされたノードでフォルト ドメイン全体を置き換えることができます。管理 UI からは、プライマリ レプリカ ノードのみを置き換えることができます。プライマリ ノードのフォルト ドメイン全体が失われた場合は、プライマリ ノードのフェイルオーバーが発生し、プライマリ レプリカ ノードが新しいプライマリ ノードとして昇格されるまで待機する必要があります。

障害が発生したノードをフォルト ドメインに再度追加する適切なプロセスはどのようなものですか。同期にはどのくらいの時間がかかりますか。
障害が発生したノードを再度追加するために推奨される手順は、管理 UI で「クラスタのノードを置き換える」機能を使用することです。置き換えノードを追加すると、データが同期されます。同期時間は、オブジェクト数、オブジェクトの履歴期間、ネットワーク帯域幅、クラスタの負荷によって決まります。
フォルト ドメイン間のネットワーク遅延が 20 ミリ秒を超える場合はどうなりますか。 vRealize Operations が許容できる遅延時間はどれくらいですか。
最適なパフォーマンスを実現するには、遅延要件を遵守する必要があります。フォルト ドメイン間の遅延は通常 10 ミリ秒未満で、20 秒間隔で最大 20 ミリ秒となります。ネットワーク遅延のガイドラインの詳細については、ナレッジベースの記事 vRealize Operations Manager Sizing Guidelines (KB2093783) を参照してください。
フォルト ドメイン間のネットワーク遅延が一定期間にわたって「20 秒間隔で 20 ミリ秒」を超えていますが、その後 10 ミリ秒未満に復旧した場合、再同期にかかる時間はどれくらいですか。
遅延が大きくても同期が停止しているわけではありません。オブジェクトが検出されると、 vRealize Operations はデータを保持する必要があるノードを決定します(プライマリ)。その後、データの 2 つ目のコピーがノード ペア(セカンダリ)に移動します。各オブジェクトは、両方のフォルト ドメインで 2 つの分析ノード(ペア)に格納されます。同期は継続的なプロセスで、セカンダリ ノードはプライマリ ノードと定期的に同期しています。同期は、プライマリ ノードとセカンダリ ノードの最終同期タイムスタンプに基づいて実行されます。したがって、 vRealize Operations に同期データ キューはありません。
ポーリングが失われた場合の実際の監視ノードの許容範囲はどのようなものになりますか。
監視ノードの動作はポーリング ベースではありません。監視ノードは、ノードのいずれかが他のフォルト ドメインのノードと通信できない(各種チェック後)場合にのみ通信を行います。
プライマリ ノードとプライマリ レプリカ ノードのフェイルオーバーはどの時点で行われますか。
フェイルオーバーが発生するのは、プライマリ ノードにアクセスできなくなった場合やプライマリ ノードが稼動していない場合のみです。
プライマリ レプリカ ノードがプライマリ ノードに昇格するのはいつですか。
プライマリ レプリカ ノードは、以下の 2 つのケースでプライマリ ノードに昇格されます。
  • 既存プライマリ ノードがダウンしている場合。
  • 関連付けられたフォルト ドメインがダウンしているかオフラインの場合。
元のプライマリ ノードがオンラインに戻った際にプライマリ制御は再開されますか。データはどのように同期されますか。
プライマリ ノードとプライマリ レプリカ ノードの両方をオンラインにして動作が正常に戻ると、新たに昇格されたプライマリ ノード(以前のプライマリ レプリカ ノード)は新しいプライマリ ノードのまま維持され、新しいプライマリ レプリカ(以前のプライマリ ノード)は新しいプライマリ ノードと同期されます。
フォルト ドメイン間の接続が完全に中断された後、接続が復旧した場合はどうなりますか。
フォルト ドメイン間の通信が数分間中断された場合、フォルト ドメインのいずれかが自動的にオフラインになります。ネットワークの中断が復旧した後、管理者ユーザーは、フォルト ドメインを手動でオンラインにして、データの同期を開始する必要があります。
監視ノードが使用できなくなった場合、フォルト ドメインはどうなりますか。
両方のフォルト ドメインが健全かつ相互に通信している場合、監視ノードが使用できなくてもクラスタには影響しません。 vRealize Operations は引き続き機能します。フォルト ドメイン間で通信の問題が発生した場合、次の 3 つの状況が発生する可能性があります。
  • 両方のフォルト ドメインから監視ノードにアクセス可能 – 監視機能は、サイトの健全性に基づいて 1 つのフォルト ドメインをオフラインにします。
  • 1 つのフォルト ドメインからのみ監視ノードにアクセス可能 – もう一方のフォルト ドメインは自動的にオフラインになります。
  • どちらのフォルト ドメインからも監視ノードにアクセス不可 – 両方のフォルト ドメインがオフラインになります。
オフラインのフォルト ドメインが再度使用できるようになったとき、フォルト ドメインは通信の停止中に収集されたすべてのデータを同期しますか。
フォルト ドメインへの接続が復旧し、すべての失われたデータを取得するために同期されると、収集したデータは即座に同期されます。
分析ノードがもう一方のフォルト ドメインの分析ノードと通信できない場合はどうなりますか。
分析ノードがもう一方のフォルト ドメインや監視ノードのすべてのノードと通信できない場合、その分析ノードは自動的にオフラインになります。管理者は、すべての通信問題が解決されたことを確認後、自動的にオフラインになったすべてのノードまたはフォルト ドメイン全体を手動でオンラインに戻す必要があります。
標準クラスタの最大ノード数が 10 個の特大ノードであり、それが 440,000 個のオブジェクトをサポートしている場合、継続的な可用性の最大ノード数が、264,000 個のオブジェクトをサポートする 12 個の特大ノードなのはなぜですか。
12 個の特大ノードは、継続的な可用性クラスタでのみサポートされ、2 個の個別のフォルト ドメインにまたがる最大 6 個の特大ノードを参照します。これにより、標準クラスタ上のノード数の増加が実現し、より多くのオブジェクトを収集できます。
可能な設計としては、フォルト ドメイン 1 に 6 個の特大ノードを置き、フォルト ドメイン 2 に 6 個の特大ノードを置き、第 3 のサイトに監視ノードを置く、などがあります。フォルト ドメイン 1 とフォルト ドメイン 2 間の遅延が最大で 10 ミリ秒未満になるよう、遅延の要件を満たす必要があります。遅延、パケット ロス、帯域幅に関する詳細については、ナレッジ ベースの記事「 vRealize Operations Manager Sizing Guidelines」(KB 2093783) を参照してください。
継続的な可用性を備えたロード バランサはサポートされていますか。
はい、サポートしています。ロード バランサの構成の詳細については、 vRealize Operations Manager のドキュメント ページにある『 vRealize Operations ロード バランシング構成ガイド』を参照してください。
同ドキュメントには「CA を有効にすると、プライマリ ノードに障害が発生した場合に、プライマリ ノードが提供するすべての機能をレプリカ ノードが引き継ぐことができます。レプリカへのフェイルオーバーは自動的に行われ、操作とデータ収集の再開までに 2~3 分の vRealize Operations ダウンタイムのみを要します」との記載があります。
テスト時に、プライマリ ノードのネットワーク インターフェイスを切断することによって新しいプライマリへの切り替えが 5 分以内に完了すると、製品 UI から強制的に出される場合や、予期しないエラーが発生する場合があります。
記載されている 2~3 分という値は概算の中央値であるため、5 分間は許容範囲内です。
フェイルオーバー後にプライマリ ノードがネットワークに再び接続される場合、元のプライマリ ノードをプライマリ ロールに戻すために推奨される手順はどのようなものですか。
プライマリ ノードのロールにプライマリ レプリカ ノードをロール バックする必要はありません。逆の場合も同様です。旧プライマリ ノードをプライマリ ロールに復旧する場合は、新規プライマリ ノードまたはそのフォルト ドメイン(元のプライマリ ノードが配置されている場所)で「ノードのオフラインまたはオンラインへの切り替え」を使用します。
ノードがオフラインになった場合や再起動された場合は、ノードをオンラインに戻すために対応するフォルト ドメインをオフラインにしてからオンラインに戻す必要がありますか。
ノードを再起動した場合やオフラインまたはオンラインにした場合でも、すべてのノードは自動的に機能し続けます。追加の手順は必要ありません。