Bei der Leistung wird sichergestellt, dass Arbeitslasten die nötigen Ressourcen erhalten. Wichtige Leistungsindikatoren (KPI) können verwendet werden, um Leistungsprobleme im Zusammenhang mit Arbeitslasten zu ermitteln. Verwenden Sie diese KPIs, um Dienstebenen zugeordnete SLAs zu definieren. Diese Dashboards verwenden KPIs, um die Leistung der Arbeitslasten auf der Verbraucherebene und die Gesamtleistung der Arbeitslasten auf der Anbieterebene anzuzeigen.

SLA ist die formelle Geschäftsvereinbarung, die Sie mit ihren Kunden haben. In der Regel liegt die SLA zwischen dem-IaaS-Drittanbieter (Infrastrukturteam) und dem-IaaS-Kunden (dem Anwendungsteam oder Geschäftsbereich). Die formelle SLA muss operativ umgestaltet werden; z. B. benötigt sie mehr als nur technische Änderungen, und Sie müssen möglicherweise den Vertrag, den Preis (nicht die Kosten), den Prozess und die Mitarbeiter überprüfen. KPI umfasst SLA-Metriken und zusätzliche Metriken, die eine Frühwarnungsfunktion bieten. Wenn Sie nicht über eine SLA verfügen, beginnen Sie mit einem internen KPI. Sie müssen die tatsächliche Leistung Ihres IaaS verstehen und profilieren. Verwenden Sie die Standardeinstellungen in VMware Aria Operations , wenn Sie über keinen eigenen Schwellenwert verfügen, da diese Schwellenwerte ausgewählt wurden, um proaktive Maßnahmen zu vereinfachen.

Die folgenden Grafiken veranschaulichen die obige Beziehung.
Graphische Darstellung der Beziehung zwischen reaktivem, internem Leistungsindikator und formeller SLA.

Die drei Prozesse der Leistungsverwaltung

Im Leistungsmanagement gibt es drei unterschiedliche Prozesse.
  • Planung. Setzen Sie Ihre Leistungsziele. Wenn Sie ein vSAN entwerfen, müssen Sie wissen, wie viele Millisekunden Datenträgerlatenz Sie haben möchten. 10 Millisekunden auf der VM-Ebene (nicht der vSAN Ebene) ist ein guter Anfang.
  • Überwachung. Vergleichen Sie Ihr Soll mit dem Ist. Stimmt die Realität mit dem überein, was Ihre Architektur leisten sollte? Andernfalls müssen Sie sie ändern.
  • Fehlerbehebung. Wenn die Realität nicht dem Plan entspricht, müssen Sie Ihre Architektur proaktiv anpassen und nicht auf Probleme und Beschwerden warten.
Um negative Auswirkungen auf die Leistungsverwaltung zu verstehen, beachten Sie die folgenden Bereiche in der angegebenen Reihenfolge.
  1. Konflikt: Dies ist der primäre Indikator.
  2. Konfiguration: Überprüfen Sie die Versionsinkompatibilitäten.
  3. Verfügbarkeit: Überprüfen Sie, ob behebbare Fehler vorhanden sind. vMotion-Einfrierzeit, sperren. Hierfür ist Log Insight erforderlich.
  4. Auslastung: Überprüfen Sie diesen Parameter zum Schluss. Wenn die ersten drei Parameter passend sind, können Sie diesen Schritt überspringen.

Die drei Ebenen der Leistungsverwaltung

Es gibt drei Hauptbereiche von Unternehmensanwendungen. Jeder dieser Bereiche verfügt über einen eigenen Satz von Teams. Jedes Team hat eine Reihe eindeutiger Verantwortlichkeiten und benötigt die zugehörige Qualifikation. Die drei Bereiche sind Unternehmen, Anwendung und IaaS. Informationen zu den drei Ebenen und den typischen Fragen, die auf jeder Ebene gestellt werden, finden Sie in der folgenden Grafik. Graphische Darstellung der Geschäfts-, Anwendungs- und IaaS-Ebenen der Leistungsverwaltung und der zugehörigen Beispielmetriken.

Leistungsverwaltung beruht weitgehend auf gezieltem Weglassen. Bei dieser Methode wird jede Ebene genau untersucht, um festzustellen, ob die jeweilige Ebene Leistungsprobleme verursacht. Deshalb ist eine einzelne Metrik zwingend erforderlich, um anzugeben, ob eine bestimmte Ebene ausgeführt wird. Diese primäre Metrik wird treffend als KPI (Key Performance Indicator) bezeichnet.

Die obere Ebene hängt von der darunter liegenden ab. Deshalb ist die Quelle des Konflikts in der Regel die Infrastrukturebene. Konzentrieren Sie sich daher zunächst auf die untere Ebene, da sie als Grundlage für die darüber liegende Ebene dient. Praktischerweise handelt es sich bei dieser Ebene in der Regel um eine horizontale Ebene, die eine Reihe generischer Infrastrukturdienste bereitstellt. Hierbei spielt es keine Rolle, welche Geschäftsanwendungen auf der Ebene ausgeführt werden.

Die beiden Metriken der Leistungsverwaltung

Der primäre Indikator für die Leistung lautet „Konflikt“. Die meisten Benutzer beobachten die Auslastung, da sie fürchten, dass bei einer hohen Auslastung Probleme auftreten könnten. Bei diesen Problemen handelt es sich um einen Konflikt. Konflikte präsentieren sich auf verschiedene Arten, wie z. B. Warteschlangen, Latenz, Paketverluste, Abbrüche und Kontextwechsel.

Verwechseln Sie jedoch nicht Indikatoren für extrem hohe Nutzung mit einem Leistungsproblem. Wenn bei Ihrem ESXi-Host Ballooning, Komprimierung und ein hoher Grad an Auslagerung auftreten, bedeutet dies nicht, dass Ihre VM ein Leistungsproblem hat. Die Leistung des Hosts können Sie daran messen, wie gut er seine VMs versorgt. Obwohl die Leistung mit der ESXi-Hostnutzung zusammenhängt, basiert die Leistungsmetrik nicht auf der Nutzung, sondern auf Konfliktmetriken.

Graphische Darstellung der Metriken, die sich auf die Leistungsverwaltung auswirken.
Möglicherweise können VMs im Cluster bei geringer Clusternutzung schlechte Leistungswerte aufweisen. Ein Hauptgrund dafür ist, dass die Clusternutzung auf die Anbieterebene (ESXi) schaut, während die Leistung auf den einzelnen Verbraucher (VM) schaut. In der nachfolgenden Tabelle werden verschiedene mögliche Gründe angeführt.
Infrastrukturkonfiguration Konfiguration der VM und des Gastbetriebssystems
ESXi-Einstellungen
  • Host- und BIOS-Energieverwaltung führt zu einem Frequenzabfall.
  • HT aktiviert. Die Kapazität scheint doppelt so hoch zu sein, tatsächlich liegt der Durchsatz aber bei 1,25.
  • ESXi – HW-Kompatibilität. Treiber und Firmware sind zwei Bereiche, die sich auf die Leistung auswirken können.
  • Nicht übereinstimmende Warteschlangentiefen entlang der verschiedenen Speicherstapel. Kalibrierung bis zum physischen Array erforderlich.
  • vMotion zu langsam oder mit hoher Einfrierzeit.
VM: Grenzwert, Anteil und Reservierung
  • Stellen Sie sicher, dass kein Grenzwert festgelegt wurde. „CPU bereit“ enthält Grenzwert.
  • Stellen Sie sicher, dass die Anteile konsistent sind (je nach dem Bedarf der VMs oder Ihrer Zustimmung).
  • Vermeiden Sie Reservierungen, wenn möglich. Dies wirkt sich auf die verfügbaren Nettoressourcen für die anderen VMs aus.
Netzwerk
  • Nichtübereinstimmung bei MTU.
  • Hops. Insbesondere bei hufeisenförmiger Netzwerktopologie oder der Weiterleitung über mehrere ESXi-Knoten.
Größe: NUMA-Effekt. NUMA-Knoten übergreifende VM.
Clustereinstellungen
  • Inkonsistente Konfiguration zwischen Hosts in einem-Cluster. Der EVC-Modus kann eine Rolle spielen, wenn die Hosts aus unterschiedlichen Generationen stammen.
  • Ressourcenpool
    • Stellen Sie sicher, dass die Anteile mit der Anzahl der VMs übereinstimmen.
    • Stellen Sie sicher, dass sich keine VM auf derselben Ebene wie RP befindet.
  • Hostaffinität der VM.
  • DRS-Einstellung.
Snapshot. E/A wird 2x verarbeitet.

VM-Treiber.

vSAN
  • Der Host, auf dem der Speicher Leistungsprobleme aufweist.
Windows- oder Linux-Prozessdurcheinander, Prozessausreißer und Warteschlange auf Betriebssystemebene.

Aus der Perspektive der Leistungsverwaltung ist der vSphere-Cluster der kleinste logische Baustein der Ressourcen. Der Ressourcenpool und die Hostaffinität der VM können zwar einen kleineren Anteil ausmachen, Sie sind jedoch in betrieblicher Hinsicht komplex und können nicht die zugesagte Qualität des IaaS-Dienstes liefern. Der Ressourcenpool kann keine differenzierte Dienstklasse bereitstellen. Beispielsweise sagt Ihr SLA aus, dass „Gold“ zwei Mal schneller als „Silber“ ist, da es mit 200 % mehr berechnet wird. Der Ressourcenpool kann „Gold“ zwei Mal mehr Anteile geben. Ob diese zusätzlichen Anteile die Hälfte der CPU-Bereitschaft ausmachen, kann vorab nicht ermittelt werden.

VM-Leistung

Da es sich bei der VM um das wichtigste Objekt in vSphere handelt, verdient es eine zusätzliche Erläuterung. In der folgenden Grafik werden die Leistungsindikatoren aufgelistet, mit denen Sie sich beschäftigen sollten.
Graphische Darstellung der Leistungsindikatoren, die sich auf die Leistung der VM auswirken.

Die KPI-Indikatoren können für einige Benutzer sehr technisch sein. Daher bietet VMware Aria Operations eine Grundlinie, um ihnen das Verständnis zu erleichtern. Sie können den Schwellenwert anpassen, nachdem Sie Ihre Umgebung profiliert haben. Diese Profilerstellung ist eine gute Übung, da die meisten Kunden nicht über eine Baseline verfügen. Für die Profilerstellung benötigen Sie eine erweiterte Edition. Graphische Darstellung der KPI-Indikatoren zum Verständnis der Leistungsparameter.

Leistungsmetriken

VMware Aria Operations verwendet den folgenden Schwellenwert für den internen KPI.
IaaS VM-Indikator Schwellenwert
CPU Bereit 2,5%
RAM Konflikt 1 %
Festplatte Latenz 10 ms
Netzwerk Verworfene TX-Pakete 0

Bei der Tabelle handelt es sich um ein Beispiel für einen strengen Grenzwert. Ein hoher Leistungsstandard wird verwendet, da es sich hierbei um einen internen KPI für den Verbrauch des Infrastrukturteams handelt. Es handelt sich nicht um ein externes formelles SLA, das von den Kunden bestätigt wird. Zwischen dem internen KPI und dem externen SLA muss ein Puffer bestehen, damit das Operations-Team Frühwarnungen erhält und reagieren kann, bevor das externe SLA nicht eingehalten werden kann. Ein hoher Standard wirkt sich auch auf die Entwicklungsumgebung aus. Wenn der Standard für die am wenigsten leistungsfähige Umgebung gilt, sollte er nicht auf die kritischere Entwicklungsumgebung angewendet werden.

Ein einzelner Schwellenwert wird verwendet, um den Betrieb zu vereinfachen. Das bedeutet, dass das Maß für die Leistung der Produktionsumgebung höher als das der Entwicklungsumgebung ist. Es wird erwartet, dass die Leistung der Entwicklungsumgebung schlechter als die der Produktionsumgebung ist, während alle anderen Wert gleich bleiben. Ein einzelner Schwellenwert hilft dabei, den Unterschied in der Dienstqualität zu erläutern, der durch eine andere Dienstklasse zur Verfügung gestellt wird. Beispiel: Wenn Sie weniger bezahlen, erhalten Sie weniger Leistung. Bei der Hälfte des Preises erhalten Sie nur halb so viel Leistung.

Die vier in der Tabelle erwähnten IaaS-Elemente (CPU, Arbeitsspeicher, Festplatte und Netzwerk) werden in jedem Erfassungszyklus bewertet. Der Erfassungszeitraum ist auf 5 Minuten festgelegt und stellt somit einen angemessenen Wert für die Überwachung dar. Ein einminütiger Zeitraum für das SLA ist zu kurz und führt zu einem Anstieg der Kosten oder zu einer Verringerung des Schwellenwerts.

Technische Erwägungen

Alle Leistungs-Dashboards sind nach denselben Designprinzipien aufgebaut. Sie sind absichtlich ähnlich gestaltet, da sie ja sie das gleiche Ziel haben und es verwirrend wäre, wenn jedes Dashboard anders aussähe.

Die Dashboards verfügen über zwei getrennte Bereiche: Übersicht und Details.

  • Der Übersichts-Bereich befindet sich in der Regel ganz oben am Dashboard, um das Gesamtbild zu zeigen.
  • Der Details-Bereich befindet sich unterhalb des Übersichts-Bereichs. Er zeigt Ihnen Detailinformationen für ein bestimmtes Objekt an. Beispielsweise können Sie den detaillierten Leistungsbericht einer bestimmten VM aufrufen.

Verwenden Sie im Bereich „Detail“ den Schnellkontext-Schalter, um während der Behebung von Leistungsproblemen die Leistung mehrerer Objekte zu überprüfen. Wenn Sie z. B. die VM-Performance betrachten, können Sie die VM-spezifischen Informationen und die KPIs einsehen, ohne den Bildschirm verlassen zu müssen. Sie können von einer VM zu einer anderen wechseln, und die Details anzeigen, ohne mehrere Fenster öffnen zu müssen.

Das Dashboard zeigt die Daten nach einem progressiven System an, um die Informationsflut zu minimieren und sicherzustellen, dass die Webseite schnell geladen wird. Wenn Ihre Browsersitzung offen bleibt, merkt sich die Oberfläche Ihre letzten gewählten Optionen.

Viele der Leistungs- und Kapazitäts-Dashboards haben ein ähnliches Layout, da diese operativen Säulen viele Gemeinsamkeiten aufweisen.