Das Dashboard Clusterkonflikt ist das primäre Dashboard für die vSphere-Clusterleistung. Es wurde für VMware-Administratoren oder -Architekten entwickelt. Es kann sowohl für die Überwachung als auch für die Fehlerbehebung verwendet werden. Sobald Sie festgestellt haben, dass ein Leistungsproblem vorliegt, verwenden Sie das Dashboard Clusternutzung, um herauszufinden, ob der Konflikt durch eine hohe Nutzung verursacht wird.

Technische Erwägungen

Dieses Dashboard wird im Rahmen Ihrer Standardarbeitsanweisung (SOP) genutzt. Es ist für die tägliche Anwendung konzipiert. Daher sind die Ansichten so eingestellt, dass die Daten für die letzten 24 Stunden angezeigt werden. Das Dashboard liefert Leistungsmetriken für virtuelle Maschinen im ausgewählten Datencenter.

Die Nutzung des Clusters wird nicht im Dashboard Clusterkonflikt angezeigt. Sie müssen die beiden Konzepte – Nutzung und Konflikt – voneinander trennen. Leistung und Kapazität sind unterschiedliche Konzepte, die von zwei separaten Teams verwaltet werden. Sowohl CPU als auch Arbeitsspeicher werden ebenso separat angezeigt. Sie können ein Problem mit dem Einen haben, ohne dass ein Problem bei dem Anderen vorliegen muss. CPU-Probleme sind häufiger, da der Arbeitsspeicher tendenziell ein niedrigeres Überbelegungsverhältnis hat.

Informationen zu den gemeinsamen technischen Erwägungen für alle Leistungsmanagement-Dashboards finden Sie unter Leistungs-Dashboards.

Wie wird das Dashboard verwendet?

  • Durchschnittliche Clusterleistung (%).
    • Dies ist der vorrangige KPI für Ihre gesamte IaaS. Es zeichnet alle 5 Minuten auf, wie Ihre IaaS ausgeführt wird, sodass Sie den Trend der Gesamtleistung ablesen können.
    • Die Metrik selbst ist schlichtweg der Durchschnitt des Cluster-KPIs/ der Leistungsmetrik (%). Diese Leistungsmetrik wiederum ermittelt den Durchschnittswert der Leistung der VM / der Anzahl der KPIs aus allen VMs, die aktuell im Cluster ausgeführt werden. Daher zeigt der Wert von 100 % an, dass jede VM, die im Cluster ausgeführt wird, gut bedient wird.
    • Da dieser KPI alle laufenden virtuellen Maschinen in Ihrer Umgebung berücksichtigt, sollte die Anzahl konstant sein. Die Analogie im realen Leben ist der Börsenindex. Während Einzelaktien volatil sein können, sollte insgesamt der Aktienindex innerhalb von 5 Minuten relativ konstant sein.
    • Die relative Verschiebung der Metrik ist genauso wichtig wie der absolute Wert der Metrik. Ihre absolute Anzahl ist möglicherweise nicht so hoch, wie sie sein soll. Wenn jedoch über lange Zeit keine Beschwerden kommen, gibt es keine dringende geschäftliche Grundlage dafür, die Anzahl zu optimieren.
  • Clusterleistung.
    • Hier werden alle Cluster aufgelistet, die nach den Clustern mit der schlechtesten Leistung – gemessen in der vorangegangenen Woche – sortiert wurden. Dieser Zeitraum kann geändert werden.
    • Die kleinste Anzahl zeigt die schlechteste Leistung im Betrachtungszeitraum. Da vRealize Operations Cloud alle 5 Minuten Daten erfasst, gibt es in einer Woche 12 x 24 x 7 = 2016 Datenpunkte. In dieser Spalte wird der schlechteste Datenpunkt dieser 2016 Datenpunkte ausgewiesen.
    • Eine einzelne Zahl aus allen 2016 Datenpunkten kann ein Ausreißer sein, der zuweilen durch eine andere Zahl ergänzt werden muss. Eine vernünftige Wahl ist der Durchschnitt aus diesen Zahlen. Damit die durchschnittliche Leistung niedrig ist, müssen viele Kriterien einen niedrigen Wert aufweisen. Das warten auf den Durchschnitt führt zu einer Verzögerung bei den Vorgängen und zu einem vermehrten Auftreten von Beschwerden. Für die Leistungsüberwachung bietet das 95. Perzentil eine bessere Übersicht als der Durchschnittswert.
    • Ihr Cluster sollte bei 100 % arbeiten und seine Funktionen wie geplant erfüllen.
  • Wählen Sie einen Cluster aus der Tabelle aus.
    • Alle Zustandsdiagramme zeigen den KPI des ausgewählten Clusters an.
    • Für die Leistung ist es wichtig, die Leistungsprobleme sowohl in ihrer Tiefe als auch in ihrer Breite anzuzeigen. Ein Problem, das Auswirkungen auf eine bzw. auf zwei VMs hat, erfordert eine andere Fehlerbehebung als ein Problem, das sich auf alle VMs im Cluster auswirkt.
    • Die Tiefe wird durch Berichten der schlechtesten unter allen VM-Indikatoren angezeigt. Daher wird auf allen ausgeführten VMs jeweils der höchste Wert für „VM-CPU bereit“, für „VM-Arbeitsspeicherkonflikt“ und für die „Festplattenlatenz der VM“ angezeigt. Wenn die schlechteste Anzahl gut ist, müssen Sie sich nicht mit den restlichen VMs beschäftigen.
    • Bei einem großen Cluster mit Tausenden von VMs kann eine einzelne VM eine schlechte Leistung aufweisen, während 99,9 % der VM-Population in Ordnung ist. Der Tiefenindikator meldet möglicherweise nicht, dass die meisten VMs in Ordnung sind. Er meldet lediglich die schlechteste. An dieser Stelle kommen die Breitenindikatoren ins Spiel.
    • Die Breitenindikatoren melden den Prozentsatz derjenigen VMs, die ein Leistungsproblem haben. Der Schwellenwert ist als streng festgelegt, da das Ziel darin besteht, frühzeitig zu warnen, proaktive Vorgänge zu aktivieren.

Zu beachtende Punkte

Möglicherweise können VMs im Cluster bei geringer Clusternutzung schlechte Leistungswerte aufweisen. Ein Hauptgrund dafür ist, dass die Clusternutzung auf die Anbieterebene (ESXi) schaut, während die Leistung auf den einzelnen Verbraucher (VM) schaut. In der nachfolgenden Tabelle sind verschiedene mögliche Gründe angeführt.

Aus der Perspektive der Leistungsverwaltung ist der vSphere-Cluster der kleinste logische Baustein der Ressourcen. Der Ressourcenpool und die Hostaffinität der VM können zwar einen kleineren Anteil ausmachen, Sie sind jedoch in betrieblicher Hinsicht komplex und können nicht die zugesagte Qualität des IaaS-Dienstes liefern. Der Ressourcenpool kann keine differenzierte Dienstklasse bereitstellen. Beispielsweise sagt Ihr SLA aus, dass „Gold“ zwei Mal schneller als „Silber“ ist, da es mit 200 % mehr berechnet wird. Der Ressourcenpool kann „Gold“ zwei Mal mehr Anteile geben. Ob diese zusätzlichen Anteile die Hälfte der CPU-Bereitschaft ausmachen, kann vorab nicht ermittelt werden.

Bestimmte Einstellungen, wie z. B. die Automatisierungsebene von DRS und das Vorhandensein vieler Ressourcenpools, können die Leistung beeinträchtigen. Sie sollten das Widget „Eigenschaft“ hinzufügen, um die relevante Eigenschaft eines ausgewählten Clusters anzuzeigen, ferner ein Widget „Beziehungen“ zur Anzeige von Ressourcenpools.

Fügen Sie für eine große Umgebung mit vielen Clustern eine Gruppierung hinzu, damit die Liste überschaubarer wird. Nehmen Sie die Gruppierung nach Dienstklasse vor, sodass Sie sich stärker auf die kritischen Cluster konzentrieren können.