Mithilfe von Automatisierung und eines SRE-Teams (Site Reliability Engineers) überwacht VMware ständig SDDC-Kundenumgebungen. Im Folgenden werden Prozesse beschrieben, die VMware zur Gewährleistung der Integrität von SDDCs automatisiert.

VM-Vorgänge

Automatische Standardisierung verwaister VM(s)
Wenn Sie „Keine Datenredundanz/VMs mit FTT=0“ als Speicherrichtlinie verwenden, kommt es unter Umständen zu einem Datenverlust, wenn ein Fehler auftritt oder die VM nicht mehr reagiert. Wenn ein Fehler auftritt und eine oder mehrere VMs verwaisen, führt VMware eine Bereinigungsaktion durch. Sie erhalten in diesem Fall eine E-Mail-Benachrichtigung.

vCenter-Vorgänge

vCenter-Sitzungen (Verbindungen), die das Maximum erreicht haben
Wenn viele Sitzungen erstellt, aber nicht gelöscht werden, kann auf vCenter Server unter Umständen nicht mehr zugegriffen werden. Ursache hierfür ist in der Regel die Automatisierung, bei der eine große Anzahl an Sitzungen erstellt wird. Eine automatische Warnung wird erzeugt, und VMware startet vCenter Server neu. Sie erhalten in diesem Fall eine E-Mail-Benachrichtigung.
Neustart von vCenter Server
Mehrere verschiedene Probleme können einen Neustart von vCenter Server erforderlich machen. Bestimmte Probleme erfordern einen sofortigen Neustart zu Standardisierungszwecken, während bei anderen Problemen eine weitere Nutzung mit zeitnahem Neustart möglich ist. Im zweiten Fall werden Sie in einer E-Mail-Benachrichtigung darüber informiert, dass in den nächsten 24 Stunden ein Neustart durchgeführt wird. Nach einem Neustart müssen die laufenden Aufgaben und Anwendungsverbindungen möglicherweise neu gestartet werden.
Entfernen eines abgelaufenen vCenter-CA-Zertifikats
Bei einigen Produktintegrationen werden CA-Zertifikate auf vCenter installiert. Wenn ein CA-Zertifikat abgelaufen ist, kann dies zu Fehlern führen, wenn ein Host hinzugefügt wird. Abgelaufene CA-Zertifikate werden entfernt.

NSX-Vorgänge

Neustart der Verwaltungsebene (NSX Manager)
Eine Reihe unterschiedlicher Probleme kann einen Neustart von NSX Manager erforderlich machen. Bestimmte Probleme erfordern einen sofortigen Neustart zu Standardisierungszwecken, während bei anderen Problemen eine weitere Nutzung mit zeitnahem Neustart möglich ist. Für die kurze Zeit während des Neustarts von NSX Manager können Sie nicht auf die Benutzeroberfläche für SDDC-Netzwerk und -Sicherheit zugreifen. Sie erhalten keine E-Mail-Benachrichtigung bei NSX Manager-Neustartereignissen.
NSX Edge-Failover
Wenn unser Überwachungssystem feststellt, dass eine (aktive) NSX Edge-Instanz kurz davor ist, nicht mehr ordnungsgemäß zu funktionieren, planen wir ein NSX Edge-Failover außerhalb der Spitzenzeiten. Dieses geplante Failover wird als proaktive Maßnahme ausgeführt, um zu verhindern, dass es zu einer möglichen Unterbrechung durch ein Failover während der Spitzenzeiten kommt. Falls vor dem geplanten Failover ein Problem mit einer (aktiven) NSX Edge-Instanz auftritt, wird ein automatisches Failover für sie durchgeführt. Wenn wir ein NSX Edge-Failover planen, erhalten Sie eine E-Mail-Benachrichtigung.

SDDC-Vorgänge

Ausfall eines Einzelhost-SDDC
Die Starterkonfiguration für ein Einzelhost-SDDC weist kein SLA auf und eignet sich für Machbarkeitsstudien oder Test- und Entwicklungsanwendungsfälle. VMware führt bei einem Ausfall eines Einzelhost-SDDC keine Standardisierung durch. Sie erhalten eine E-Mail-Benachrichtigung, wenn es zum Ausfall eines Einzelhost-SDDC kommt.
SDDC-Sicherungen
Wir sichern jedes SDDC täglich um 0900Z sowie vor geplanten Wartungsaktivitäten.
  • Was wir sichern: vCenter Server, vSAN-Konfiguration und NSX. Kundendaten und Arbeitslast-VMs werden nicht gesichert.
  • Aufbewahrung von Sicherungen: maximal 28 Tage und maximal 56 Sicherungen. Sicherungen werden verschlüsselt in S3 innerhalb der SDDC-Region gespeichert und gelöscht, wenn das SDDC gelöscht wird. Sie können ein gelöschtes SDDC nicht aus der Sicherung wiederherstellen.
  • Die Wiederherstellung von Verwaltungskomponenten unterliegt Ihrem SLA. VMware entscheidet, ob eine Wiederherstellung aus einer Sicherung oder eine Reparatur erfolgen soll.

NFS-Datenspeicher

Datenspeicherverfügbarkeit
Wenn vSphere-Hosts länger als 320 Sekunden den Zugriff auf einen NFS-Datenspeicher (keine Pfade verfügbar) verlieren, schaltet vSphere HA alle VMs auf diesem Host aus, deren Daten auf dem betroffenen Datenspeicher gespeichert waren. HA versucht, die VM auf einem Host neu zu starten, der über eine fehlerfreie Verbindung zum Datenspeicher verfügt.
SDDC-Integrität
Wenn ein Host daran gehindert wird, in den Wartungsmodus zu wechseln, da eine laufende VM aufgrund einer teilweisen Verfügbarkeit des NFS-Datenspeichers nicht verlagert werden kann, wird die problematische VM durch VMware-Vorgänge ausgeschaltet. VMware versucht, alle betroffenen Arbeitslasten wiederherzustellen, aber die VMs bleiben ausgeschaltet, bis der Speicherzugriff wiederhergestellt und erneut eingeschaltet wird.