Die automatische Wartung auf hoher Ebene überwacht Hardware- und Softwarefehler. Sie versucht automatisch, Probleme zu beheben, indem Fehler korrigiert werden oder die Hardware ersetzt wird. Als letzte Maßnahme fordert der Automatische Wartungsprozess einen SRE für einen manuellen Eingriff an.

Funktionen, welche die automatische Skalierung bei einem Ereignis nacheinander verarbeitet:

  1. Überwachen – Die VMC-Plattform überwacht kontinuierlich den Systemzustand jedes SDDC und aller Hosts in der Flotte. Wenn ein Fehler erkannt wird, wird ein Ereignis an die automatische Wartung gesendet.
    • Überwacht Hardware- und Softwarefehler
    • Stellt automatisch Hardware bereit, sobald ein Fehler erkannt wird
    • Behebt Fehler automatisch, falls möglich
    • Wenn eine automatische Lösung nicht verfügbar ist, greift ein SRE manuell ein
  2. Wartet auf vorübergehende Ereignisse – Einige der erkannten Fehler können vorübergehend sein. Das Überwachungssystem kann beispielsweise aufgrund eines temporären Konnektivitätsproblems vorübergehend keine Verbindung zu einem Host herstellen. Die automatische Wartung wartet fünf Minuten, um zu erkennen, ob das Problem vorübergehend ist. Wenn sich das Problem auflöst, ergreift die automatische Wartung keine Maßnahmen.
  3. Einen Host hinzufügen – Wenn sich der Fehler nach 5 Minuten nicht aufgelöst hat, beginnt die automatische Wartung, einen Hosts zum SDDC hinzuzufügen, auch wenn Sie zu diesem Zeitpunkt noch nicht wissen, ob Sie diesen benötigen. Durch das Hinzufügen eines Hosts ist nun gewährleistet, dass er bei Bedarf auch verfügbar ist. Beachten Sie, dass dieser Host erst berechnet wird, wenn er einen fehlerhaften Host in Ihrem SDDC ersetzt.
  4. Einen Fehlertyp bestimmen und Maßnahmen ergreifen – Hosts können aus verschiedenen Gründen ausfallen und erfordern unterschiedliche Maßnahmen. Ein Ausfall einer vSAN-Festplatte auf einem Host, der noch mit einem vCenter Server verbunden ist, kann beispielsweise durch einen Soft Reboot behoben werden, während ein PSOD-Host einen harten Neustart benötigt. Die Logik der automatischen Wartung ist komplex und wird ständig weiterentwickelt. Sie können den Fehler jedoch überprüfen und die am wenigsten intrusive Maßnahme ergreifen. Die automatische Wartung ist ein interner Prozess. Kunden können nicht auf die Logik zugreifen. Bei Problemen können Sie sich an den VMware-Support wenden.
  5. Host-Integrität prüfen – Im nächsten Schritt wird geprüft, ob die Wartungsmaßnahmen am Host erfolgreich waren. Wenn der ausgefallene Host nach einem weichen oder harten Neustart nun fehlerfrei funktioniert, wird die automatische Wartung die Funktion des SDDC nicht weiter unterbrechen. Sie erfasst alle weiteren erforderlichen Maßnahmen, führt diese aus und entfernt den neuen Host, der in Schritt 2 präventiv hinzugefügt wurde.
  6. Host ersetzen – Wenn der ausgefallene Host nicht wieder aktiviert werden kann, entfernt die automatische Skalierung den ausgefallenen Host und ersetzt ihn durch den in Schritt 2 hinzugefügten Host. In dieser Phase entfernt die automatische Skalierung den ausgefallenen Host und ersetzt ihn durch den in Schritt 2 hinzugefügten Host. vSphere HA und vSAN werden ausgelöst und Tags für Computing-Richtlinien werden an den neuen Host angehängt.