Leistungs-Dashboards

Bei der Leistung wird sichergestellt, dass Arbeitslasten die nötigen Ressourcen erhalten. Wichtige Leistungsindikatoren (KPI) können verwendet werden, um Leistungsprobleme im Zusammenhang mit Arbeitslasten zu ermitteln. Verwenden Sie diese KPIs, um Dienstebenen zugeordnete SLAs zu definieren. Diese Dashboards verwenden KPIs, um die Leistung der Arbeitslasten auf der Verbraucherebene und die Gesamtleistung der Arbeitslasten auf der Anbieterebene anzuzeigen.

SLA ist die formelle Geschäftsvereinbarung, die Sie mit ihren Kunden haben. In der Regel liegt die SLA zwischen dem-IaaS-Drittanbieter (Infrastrukturteam) und dem-IaaS-Kunden (dem Anwendungsteam oder Geschäftsbereich). Die formelle SLA muss operativ umgestaltet werden; z. B. benötigt sie mehr als nur technische Änderungen, und Sie müssen möglicherweise den Vertrag, den Preis (nicht die Kosten), den Prozess und die Mitarbeiter überprüfen. KPI umfasst SLA-Metriken und zusätzliche Metriken, die eine Frühwarnungsfunktion bieten. Wenn Sie nicht über eine SLA verfügen, beginnen Sie mit einem internen KPI. Sie müssen die tatsächliche Leistung Ihres IaaS verstehen und profilieren. Verwenden Sie die Standardeinstellungen in vRealize Operations , wenn Sie über keinen eigenen Schwellenwert verfügen, da diese Schwellenwerte ausgewählt wurden, um proaktive Maßnahmen zu vereinfachen.

Die folgenden Grafiken veranschaulichen die obige Beziehung.
Bild zeigt die Beziehung zwischen reaktivem, internem KPI und formalem SLA durch grafische Darstellung an.

Bild zeigt die Beziehung zwischen reaktivem, internem KPI und formalem SLA durch grafische Darstellung an.

Die drei Prozesse der Leistungsverwaltung

Im Leistungsmanagement gibt es drei unterschiedliche Prozesse.

Planung. Setzen Sie Ihre Leistungsziele. Wenn Sie ein vSAN entwerfen, müssen Sie wissen, wie viele Millisekunden Datenträgerlatenz Sie haben möchten. 10 Millisekunden auf der VM-Ebene (nicht der vSAN Ebene) ist ein guter Anfang.
Überwachung. Vergleichen Sie Ihr Soll mit dem Ist. Stimmt die Realität mit dem überein, was Ihre Architektur leisten sollte? Andernfalls müssen Sie sie ändern.
Fehlerbehebung. Wenn die Realität nicht dem Plan entspricht, müssen Sie Ihre Architektur proaktiv anpassen und nicht auf Probleme und Beschwerden warten.

Um negative Auswirkungen auf die Leistungsverwaltung zu verstehen, beachten Sie die folgenden Bereiche in der angegebenen Reihenfolge.

Konflikt: Dies ist der primäre Indikator.
Konfiguration: Überprüfen Sie die Versionsinkompatibilitäten.
Verfügbarkeit: Überprüfen Sie, ob behebbare Fehler vorhanden sind. vMotion-Einfrierzeit, sperren. Hierfür ist Log Insight erforderlich.
Auslastung: Überprüfen Sie diesen Parameter zum Schluss. Wenn die ersten drei Parameter passend sind, können Sie diesen Schritt überspringen.

Die drei Ebenen der Leistungsverwaltung

Es gibt drei Hauptbereiche von Unternehmensanwendungen. Jeder dieser Bereiche verfügt über einen eigenen Satz von Teams. Jedes Team hat eine Reihe eindeutiger Verantwortlichkeiten und benötigt die zugehörige Qualifikation. Die drei Bereiche sind Unternehmen, Anwendung und IaaS. Informationen zu den drei Ebenen und den typischen Fragen, die auf jeder Ebene gestellt werden, finden Sie in der folgenden Grafik. Bild stellt die drei Ebenen der Leistungsverwaltung grafisch dar, nämlich Business, Anwendung und IaaS, und erläutert deren Beispielmetriken im tabellarischen Format.

Leistungsverwaltung beruht weitgehend auf gezieltem Weglassen. Bei dieser Methode wird jede Ebene genau untersucht, um festzustellen, ob die jeweilige Ebene Leistungsprobleme verursacht. Deshalb ist eine einzelne Metrik zwingend erforderlich, um anzugeben, ob eine bestimmte Ebene ausgeführt wird. Diese primäre Metrik wird treffend als KPI (Key Performance Indicator) bezeichnet.

Die obere Ebene hängt von der darunter liegenden ab. Deshalb ist die Quelle des Konflikts in der Regel die Infrastrukturebene. Konzentrieren Sie sich daher zunächst auf die untere Ebene, da sie als Grundlage für die darüber liegende Ebene dient. Praktischerweise handelt es sich bei dieser Ebene in der Regel um eine horizontale Ebene, die eine Reihe generischer Infrastrukturdienste bereitstellt. Hierbei spielt es keine Rolle, welche Geschäftsanwendungen auf der Ebene ausgeführt werden.

Die beiden Metriken der Leistungsverwaltung

Der primäre Indikator für die Leistung lautet „Konflikt“. Die meisten Benutzer beobachten die Auslastung, da sie fürchten, dass bei einer hohen Auslastung Probleme auftreten könnten. Bei diesen Problemen handelt es sich um einen Konflikt. Konflikte präsentieren sich auf verschiedene Arten, wie z. B. Warteschlangen, Latenz, Paketverluste, Abbrüche und Kontextwechsel.

Verwechseln Sie jedoch nicht Indikatoren für extrem hohe Nutzung mit einem Leistungsproblem. Wenn bei Ihrem ESXi-Host Ballooning, Komprimierung und ein hoher Grad an Auslagerung auftreten, bedeutet dies nicht, dass Ihre VM ein Leistungsproblem hat. Die Leistung des Hosts können Sie daran messen, wie gut er seine VMs versorgt. Obwohl die Leistung mit der ESXi-Hostnutzung zusammenhängt, basiert die Leistungsmetrik nicht auf der Nutzung, sondern auf Konfliktmetriken.

Möglicherweise können VMs im Cluster bei geringer Clusternutzung schlechte Leistungswerte aufweisen. Ein Hauptgrund dafür ist, dass die Clusternutzung auf die Anbieterebene (ESXi) schaut, während die Leistung auf den einzelnen Verbraucher (VM) schaut. In der nachfolgenden Tabelle werden verschiedene mögliche Gründe angeführt.


Infrastrukturkonfiguration	Konfiguration der VM und des Gastbetriebssystems
ESXi-Einstellungen Host- und BIOS-Energieverwaltung führt zu einem Frequenzabfall. HT aktiviert. Die Kapazität scheint doppelt so hoch zu sein, tatsächlich liegt der Durchsatz aber bei 1,25. ESXi – HW-Kompatibilität. Treiber und Firmware sind zwei Bereiche, die sich auf die Leistung auswirken können. Nicht übereinstimmende Warteschlangentiefen entlang der verschiedenen Speicherstapel. Kalibrierung bis zum physischen Array erforderlich. vMotion zu langsam oder mit hoher Einfrierzeit.	VM: Grenzwert, Anteil und Reservierung Stellen Sie sicher, dass kein Grenzwert festgelegt wurde. „CPU bereit“ enthält Grenzwert. Stellen Sie sicher, dass die Anteile konsistent sind (je nach dem Bedarf der VMs oder Ihrer Zustimmung). Vermeiden Sie Reservierungen, wenn möglich. Dies wirkt sich auf die verfügbaren Nettoressourcen für die anderen VMs aus.
Netzwerk Nichtübereinstimmung bei MTU. Hops. Insbesondere bei hufeisenförmiger Netzwerktopologie oder der Weiterleitung über mehrere ESXi-Knoten.	Größe: NUMA-Effekt. NUMA-Knoten übergreifende VM.
Clustereinstellungen Inkonsistente Konfiguration zwischen Hosts in einem-Cluster. Der EVC-Modus kann eine Rolle spielen, wenn die Hosts aus unterschiedlichen Generationen stammen. Ressourcenpool Stellen Sie sicher, dass die Anteile mit der Anzahl der VMs übereinstimmen. Stellen Sie sicher, dass sich keine VM auf derselben Ebene wie RP befindet. Hostaffinität der VM. DRS-Einstellung.	Snapshot. E/A wird 2x verarbeitet. VM-Treiber.
vSAN Der Host, auf dem der Speicher Leistungsprobleme aufweist.	Windows- oder Linux-Prozessdurcheinander, Prozessausreißer und Warteschlange auf Betriebssystemebene.

Aus der Perspektive der Leistungsverwaltung ist der vSphere-Cluster der kleinste logische Baustein der Ressourcen. Der Ressourcenpool und die Hostaffinität der VM können zwar einen kleineren Anteil ausmachen, Sie sind jedoch in betrieblicher Hinsicht komplex und können nicht die zugesagte Qualität des IaaS-Dienstes liefern. Der Ressourcenpool kann keine differenzierte Dienstklasse bereitstellen. Beispielsweise sagt Ihr SLA aus, dass „Gold“ zwei Mal schneller als „Silber“ ist, da es mit 200 % mehr berechnet wird. Der Ressourcenpool kann „Gold“ zwei Mal mehr Anteile geben. Ob diese zusätzlichen Anteile die Hälfte der CPU-Bereitschaft ausmachen, kann vorab nicht ermittelt werden.

VM-Leistung

Da es sich bei der VM um das wichtigste Objekt in vSphere handelt, verdient es eine zusätzliche Erläuterung. In der folgenden Grafik werden die Leistungsindikatoren aufgelistet, mit denen Sie sich beschäftigen sollten.

Die KPI-Indikatoren können für einige Benutzer sehr technisch sein. Zum besseren Verständnis werden in vRealize Operations Grundlagen hierzu vermittelt. Sie können den Schwellenwert anpassen, nachdem Sie Ihre Umgebung profiliert haben. Diese Profilerstellung ist eine gute Übung, da die meisten Kunden nicht über eine Baseline verfügen. Für die Profilerstellung benötigen Sie eine erweiterte Edition.

Leistungsmetriken

vRealize Operations verwendet den folgenden Schwellenwert für den internen KPI.


IaaS	VM-Indikator	Schwellenwert
CPU	Bereit	2,5%
RAM	Konflikt	1 %
Festplatte	Latenz	10 ms
Netzwerk	Verworfene TX-Pakete	0

Bei der Tabelle handelt es sich um ein Beispiel für einen strengen Grenzwert. Ein hoher Leistungsstandard wird verwendet, da es sich hierbei um einen internen KPI für den Verbrauch des Infrastrukturteams handelt. Es handelt sich nicht um ein externes formelles SLA, das von den Kunden bestätigt wird. Zwischen dem internen KPI und dem externen SLA muss ein Puffer bestehen, damit das Operations-Team Frühwarnungen erhält und reagieren kann, bevor das externe SLA nicht eingehalten werden kann. Ein hoher Standard wirkt sich auch auf die Entwicklungsumgebung aus. Wenn der Standard für die am wenigsten leistungsfähige Umgebung gilt, sollte er nicht auf die kritischere Entwicklungsumgebung angewendet werden.

Ein einzelner Schwellenwert wird verwendet, um den Betrieb zu vereinfachen. Das bedeutet, dass das Maß für die Leistung der Produktionsumgebung höher als das der Entwicklungsumgebung ist. Es wird erwartet, dass die Leistung der Entwicklungsumgebung schlechter als die der Produktionsumgebung ist, während alle anderen Wert gleich bleiben. Ein einzelner Schwellenwert hilft dabei, den Unterschied in der Dienstqualität zu erläutern, der durch eine andere Dienstklasse zur Verfügung gestellt wird. Beispiel: Wenn Sie weniger bezahlen, erhalten Sie weniger Leistung. Bei der Hälfte des Preises erhalten Sie nur halb so viel Leistung.

Die vier in der Tabelle erwähnten IaaS-Elemente (CPU, Arbeitsspeicher, Festplatte und Netzwerk) werden in jedem Erfassungszyklus bewertet. Der Erfassungszeitraum ist auf 5 Minuten festgelegt und stellt somit einen angemessenen Wert für die Überwachung dar. Ein einminütiger Zeitraum für das SLA ist zu kurz und führt zu einem Anstieg der Kosten oder zu einer Verringerung des Schwellenwerts.

Technische Erwägungen

Alle Leistungs-Dashboards sind nach denselben Designprinzipien aufgebaut. Sie sind absichtlich ähnlich gestaltet, da sie ja sie das gleiche Ziel haben und es verwirrend wäre, wenn jedes Dashboard anders aussähe.

Die Dashboards verfügen über zwei getrennte Bereiche: Übersicht und Details.

Der Übersichts-Bereich befindet sich in der Regel ganz oben am Dashboard, um das Gesamtbild zu zeigen.
Der Details-Bereich befindet sich unterhalb des Übersichts-Bereichs. Er zeigt Ihnen Detailinformationen für ein bestimmtes Objekt an. Beispielsweise können Sie den detaillierten Leistungsbericht einer bestimmten VM aufrufen.

Verwenden Sie im Bereich „Detail“ den Schnellkontext-Schalter, um während der Behebung von Leistungsproblemen die Leistung mehrerer Objekte zu überprüfen. Wenn Sie z. B. die VM-Performance betrachten, können Sie die VM-spezifischen Informationen und die KPIs einsehen, ohne den Bildschirm verlassen zu müssen. Sie können von einer VM zu einer anderen wechseln, und die Details anzeigen, ohne mehrere Fenster öffnen zu müssen.

Das Dashboard zeigt die Daten nach einem progressiven System an, um die Informationsflut zu minimieren und sicherzustellen, dass die Webseite schnell geladen wird. Wenn Ihre Browsersitzung offen bleibt, merkt sich die Oberfläche Ihre letzten gewählten Optionen.

Viele der Leistungs- und Kapazitäts-Dashboards haben ein ähnliches Layout, da diese operativen Säulen viele Gemeinsamkeiten aufweisen.