Im Zusammenhang mit der Einführung der kontinuierlichen Verfügbarkeit in vRealize Operations Manager 8 gab es mehrere Fragen, die häufig gestellt wurden. In diesem Abschnitt können Sie die kontinuierliche Verfügbarkeit besser kennenlernen und ihr Wissen vertiefen.

Wie werden die Daten in den Analyseknoten gespeichert?

Wenn ein Objekt erkannt wird, bestimmt vRealize Operations Manager, welcher Knoten die Daten behalten soll, und kopiert (dupliziert) dann die Daten an den jeweiligen Paarknoten in der anderen Fehlerdomäne. Jedes Objekt wird in zwei Analyseknoten (Knotenpaaren) in den Fehlerdomänen gespeichert, die immer synchronisiert sind.

Beispiel: vRealize Operations Manager hat acht Analyseknoten, CA ist aktiviert und jede Fehlerdomäne hat vier Analyseknoten (siehe obige Grafik).

Wenn ein neues Objekt erkannt wird, entscheidet vRealize Operations Manager, die Daten im „Datenknoten 2B“ (primär) zu speichern. Eine Kopie der Daten wird automatisch in „Datenknoten 2A“ (sekundär) gespeichert.

Wenn „FD A“ aus irgendeinem Grund nicht mehr verfügbar ist, werden die „primären“ Daten aus „Datenknoten 2B“ verwendet.

Wenn „FD B“ aus irgendeinem Grund nicht mehr verfügbar ist, werden „sekundäre“ Daten aus „Datenknoten 2A“ verwendet.

Welche Situationen führen zu einer Unterbrechung eines kontinuierlichen Verfügbarkeits-Clusters? Ein gleichzeitiger Ausfall des Primär- oder primären Replikatknotens und der Datenknoten oder von zwei oder mehr Datenknoten in beiden Fehlerdomänen ist nicht abgedeckt.

Jeder Analyseknoten aus Fehlerdomäne 1 verfügt über ein zugehöriges Knotenpaar in Fehlerdomäne 2 oder umgekehrt.

Bei dem zuvor erwähnten Beispiel ergäben sich vier Knotenpaare:

Primär-Knoten + Replikatknoten

Datenknoten 1A (FD A) + Datenknoten 1B (FD B)

Datenknoten 2A (FD A) + Datenknoten 2B (FD B)

Datenknoten 3A (FD A) + Datenknoten 3B (FD B)

Die beiden Knoten jedes Knotenpaares sind immer synchronisiert und speichern dieselben Daten. Daher funktioniert der Cluster weiterhin ohne Datenverlust, solange ein Knoten von allen Knotenpaaren verfügbar ist.

Was passiert, wenn ein Datenknoten aus einer der Fehlerdomänen nicht mehr verfügbar ist?
Der Cluster befindet sich in einem heruntergestuften Zustand, wird jedoch weiterhin ausgeführt, wenn ein Knoten in beiden Fehlerdomänen nicht mehr verfügbar ist. Es kommt nicht zu einem Datenverlust. Der Datenknoten muss repariert oder ersetzt werden, damit der Cluster nicht in einem heruntergestuften Zustand verbleibt.
Wird der Cluster unterbrochen, wenn zwei Datenknoten in Fehlerdomäne 1 und der primäre Replikatknoten in Fehlerdomäne 2 ausfallen?
In diesem Beispiel funktioniert der Cluster ohne Datenverlust weiter. Solange ein Analyseknoten aus jedem Knotenpaar verfügbar ist, gehen keine Daten verloren.
Was passiert, wenn eine ganze Fehlerdomäne nicht mehr verfügbar ist?

Wenn eine ganze Fehlerdomäne nicht mehr verfügbar ist, befindet sich der Cluster in einem heruntergestuften Zustand, funktioniert jedoch weiterhin. Es kommt nicht zu einem Datenverlust. Die Fehlerdomäne muss repariert und online geschaltet werden, damit der Cluster nicht in einem heruntergestuften Zustand verbleibt.

Wenn die Fehlerdomäne nicht wiederhergestellt werden kann, können Sie die gesamte Fehlerdomäne durch neu bereitgestellte Knoten ersetzen. Über die Admin-Benutzeroberfläche kann nur der primäre Replikatknoten ersetzt werden. Wenn die gesamte Fehlerdomäne für den Primär-Knoten ausfällt, müssen Sie warten, bis das Failover des Primär-Knotens erfolgt und der primäre Replikatknoten zum neuen Primär-Knoten heraufgestuft worden ist.

Welche Vorgehensweise empfiehlt sich zum erneuten Hinzufügen eines fehlgeschlagenen Knotens zu einer Fehlerdomäne? Wie lange dauert es, bis die Synchronisierung ausgeführt wird?
Die empfohlene Vorgehensweise für das erneute Hinzufügen eines fehlgeschlagenen Knotens besteht darin, die Funktion „Knoten des Clusters ersetzen“ in der Admin-Benutzeroberfläche zu verwenden. Sobald der Ersatzknoten hinzugefügt wurde, werden die Daten synchronisiert. Die Synchronisierungszeit hängt stark von der Anzahl der Objekte, der historischen Zeitspanne der Objekte, der Netzwerkbandbreite und der Auslastung des Clusters ab.
Was passiert, wenn die Netzwerklatenz zwischen Fehlerdomänen 20 ms überschreitet? Wie lange kann vRealize Operations Manager erweiterte Latenzen tolerieren?
Das Festhalten an den Latenzanfordernungen ist notwendig, um eine optimale Leistung zu erzielen. Die Latenz zwischen den Fehlerdomänen sollte < 10 ms sein, mit Spitzen bis zu 20 ms in 20-Sekunden-Intervallen. Weitere Informationen zu den Richtlinien für die Netzwerklatenz finden Sie im KB-Artikel vRealize Operations Manager-Dimensionierungsrichtlinien (KB 2093783).
Wenn die Netzwerklatenz zwischen Fehlerdomänen 20 ms in 20-Sekunden-Intervallen übersteigt, aber dann wieder auf unter 10 ms absinkt, wie lange dauert dann die erneute Synchronisierung?
Eine hohe Latenz bedeutet nicht, dass die Synchronisierung angehalten wurde. Wenn ein Objekt erkannt wird, entscheidet vRealize Operations Manager, welcher Knoten die Daten beibehalten soll (primär), und im zugehörigen Knotenpaar wird eine zweite Kopie der Daten abgelegt (sekundär). Jedes Objekt wird in zwei Analyseknoten (Paaren) in beiden Fehlerdomänen gespeichert. Die Synchronisierung ist ein fortlaufender Prozess, bei dem der sekundäre Knoten in regelmäßigen Abständen mit dem primären Knoten synchronisiert wird. Die Synchronisierung erfolgt auf der Grundlage der zuletzt synchronisierten Zeitstempel des primären und sekundären Knotens. Daher gibt es keine Warteschlange mit Synchronisierungsdaten in vRealize Operations Manager.
Wie hoch ist die tatsächliche Zeugenknotentoleranz für verpasste Abrufe?
Die Vorgänge des Zeugenknotens sind nicht abrufbasiert. Der Zeugenknoten interagiert nur dann, wenn einer der Knoten (nach verschiedenen Prüfungen) nicht in der Lage ist, mit Knoten aus der anderen Fehlerdomäne zu kommunizieren.
Zu welchem Zeitpunkt wird das Failover für Primär-Knoten- und primären Replikatknoten durchgeführt?
Das Failover erfolgt nur dann, wenn der Primär-Knoten nicht mehr zugänglich oder nicht mehr aktiviert ist.
Wann wird der primäre Replikatknoten zum Primär-Knoten heraufgestuft?
Der primäre Replikatknoten wird in nur zwei Fällen zum Primär-Knoten heraufgestuft:
  • Wenn der vorhandene Primär-Knoten ausgefallen ist.
  • Wenn die zugehörige Fehlerdomäne ausgefallen/offline ist.
Wenn der ursprüngliche Primär-Knoten wieder online ist, nimmt er die Primär-Steuerung wieder auf? Wie werden die Daten synchronisiert?
Wenn die Vorgänge wieder normal sind und sowohl Primär-Knoten als auch primärer Replikatknoten online sind, bleibt der neu heraufgestufte Primär-Knoten (der frühere primäre Replikatknoten) der neue Primär-Knoten und das neue primäre Replikat (der frühere Primär-Knoten) wird mit dem neuen Primär-Knoten synchronisiert.
Was passiert, wenn die Verbindung zwischen den Fehlerdomänen vollständig unterbrochen ist, aber dann wiederhergestellt wird?
Wenn die Kommunikation zwischen den Fehlerdomänen für mehrere Minuten vollständig unterbrochen wird, wird eine der Fehlerdomänen automatisch offline geschaltet. Nachdem die Netzwerkunterbrechung wiederhergestellt wurde, muss der Administratorbenutzer die Fehlerdomäne manuell online schalten, damit die Datensynchronisierung beginnt.
Was geschieht mit den Fehlerdomänen, wenn der Zeugenknoten nicht mehr verfügbar ist?
Solange beide Fehlerdomänen fehlerfrei sind und miteinander kommunizieren, hat die Nichtverfügbarkeit des Zeugenknotens keinen Einfluss auf den Cluster. vRealize Operations Manager funktioniert weiterhin. Wenn ein Kommunikationsproblem zwischen den Fehlerdomänen vorliegt, könnten sich die folgenden drei Situationen ergeben:
  • Der Zeugenknoten ist von beiden Fehlerdomänen aus zugänglich – der Zeuge schaltet eine Fehlerdomäne offline, je nach Site-Zustand.
  • Der Zeugenknoten ist nur von einer Fehlerdomäne aus zugänglich – die andere Fehlerdomäne wird automatisch offline geschaltet.
  • Der Zeugenknoten ist von keiner der beiden Fehlerdomänen aus zugänglich – beide Fehlerdomänen werden offline geschaltet.
Synchronisieren die Fehlerdomänen alle während des Kommunikationsausfalls erfassten Daten, wenn die Offline-Fehlerdomäne wieder zur Verfügung steht?
Die erfassten Daten werden sofort synchronisiert, sobald die Verbindung zur Fehlerdomäne wiederhergestellt und synchronisiert wird, um alle verpassten Daten zu erfassen.
Was passiert, wenn ein Analyseknoten nicht in der Lage ist, mit Analyseknoten in der anderen Fehlerdomäne zu kommunizieren?
Wenn ein Analyseknoten nicht in der Lage ist, mit allen Knoten aus der anderen Fehlerdomäne oder dem Zeugenknoten zu kommunizieren, wird er automatisch offline geschaltet. Alle Knoten oder die gesamte Fehlerdomäne, die offline geschaltet wurden, sollten vom Administratorbenutzer manuell wieder online geschaltet werden, nachdem sichergestellt ist, dass alle Kommunikationsprobleme behoben wurden.
Wenn die maximale Anzahl von Knoten in einem Standardcluster 8 besonders große Knoten beträgt, die 320.000 Objekte unterstützen, warum ist die maximale Anzahl von Knoten bei der kontinuierlichen Verfügbarkeit mit 10 besonders großen Knoten, die 200.000 Objekte unterstützen, höher?
Die 10 besonders großen Knoten werden nur in einem kontinuierlichen Verfügbarkeits-Cluster unterstützt; es handelt sich dabei um maximal fünf besonders große Knoten in zwei getrennten Fehlerdomänen. Dies ermöglicht eine Vergrößerung der Knotenanzahl in einem Standardcluster und damit die Erfassung von mehr Objekten.
Ein mögliches Design sind fünf besonders große Knoten in Fehlerdomäne 1 und 5 besonders große Knoten in Fehlerdomäne 2 mit einem Zeugenknoten auf einer dritten Site. Die Latenzanforderungen müssen eingehalten werden, d. h. die Latenz zwischen Fehlerdomäne 1 und Fehlerdomäne 2 ist < 10 ms. Weitere Informationen zu Latenz, Paketverlust und Bandbreite finden Sie im KB-Artikel vRealize Operations Manager Dimensionierungsrichtlinien (KB 2093783).
Wird ein Lastausgleichsdienst mit kontinuierlicher Verfügbarkeit unterstützt?
Ja. Weitere Informationen zur Konfiguration des Lastausgleichsdiensts finden Sie im Konfigurationshandbuch für den Lastausgleich von vRealize Operations Manager unter „Ressourcen“ auf der Seite der vRealize Operations Manager-Dokumentation.
In der Dokumentation heißt es: „Wenn CA aktiviert ist, kann der Replikatknoten bei einem Ausfall des Primär-Knotens alle Funktionen übernehmen, die der Primär-Knoten bereitstellt. Das Failover auf das Replikat findet automatisch statt, und vRealize Operations Manager fällt nur drei Minuten lang aus, bevor der Betrieb wieder aufgenommen und die Datenerfassung neu gestartet wird.“
Wenn Sie während des Tests die Netzwerkschnittstelle auf dem Primär-Knoten trennen, muss die Umstellung auf den neuen Primär-Knoten innerhalb von 5 Minuten erfolgen. Ansonsten wird die Benutzeroberfläche des Produkts nicht mehr für Sie angezeigt, oder es werden seltsame Fehler gemeldet.
Die angegebenen zwei oder drei Minuten sind ungefähre mittlere Werte, daher sind 5 Minuten zulässig.
Was ist das empfohlene Verfahren, um die Primär-Rolle für den ursprünglichen Primär-Knoten wiederherzustellen, wenn der Primär-Knoten nach einem Failover erneut mit dem Netzwerk verbunden ist? 
Ein Rollback des primären Replikatknotens auf die Rolle des Primär-Knotens oder umgekehrt ist nicht erforderlich. Wenn Sie die Primär-Rolle trotzdem für den alten Primär-Knoten wiederherstellen möchten, verwenden Sie „Knoten offline/online erstellen“ für den neuen Primär-Knoten oder dessen Fehlerdomäne (wo sich der ursprüngliche Primär-Knoten befindet).
Wenn ein Knoten offline geschaltet wird oder neu gestartet wird, ist es dann immer nötig, die entsprechende Fehlerdomäne offline und wieder online zu schalten und dann den Knoten wieder online zu schalten?
Alle Knoten arbeiten nach dem Neustart bzw. der Offline-/Online-Schaltung automatisch weiter. Es sind keine zusätzlichen Schritte erforderlich.