La correzione automatica di alto livello monitora gli errori hardware e software, e tenta di risolvere automaticamente il problema correggendo un errore o sostituendo l'hardware. Quando ogni tentativo risulta vano, il processo di correzione automatica richiede all'SRE un intervento manuale.

Funzioni che la scalabilità automatica gestisce in sequenza quando si verifica un evento:

  1. Monitoraggio: la piattaforma VMC monitora continuamente l'integrità del sistema di ogni SDDC e di ogni host della flotta. Quando viene rilevato un errore, viene inviato un evento per la correzione automatica.
    • Monitora gli errori hardware e software
    • Esegue il provisioning automatico dell'hardware quando viene rilevato un errore
    • Corregge automaticamente gli errori, se possibile
    • SRE interviene manualmente quando non è disponibile una risoluzione automatica
  2. Attendi eventi transitori: alcuni degli errori rilevati possono essere temporanei. Ad esempio, il sistema di monitoraggio non può raggiungere un host a causa di un problema temporaneo di connettività. La correzione automatica attende 5 minuti per determinare se il problema è temporaneo. Se il problema si risolve, la correzione automatica non esegue alcuna azione.
  3. Aggiungi un host: se l'errore non viene risolto dopo 5 minuti, la correzione automatica inizia ad aggiungere un host a SDDC, anche se non si sa ancora se esso sia necessario o meno. L'aggiunta di un host in questo momento garantisce che sia disponibile quando necessario. Si noti che tale host non viene fatturato finché non sostituisce un host guasto nell'SDDC.
  4. Determina un tipo di errore e agisci. Gli host possono non riuscire per motivi diversi e richiedere azioni differenti. Ad esempio, un errore del disco vSAN in un host ancora connesso a un vCenter Server può essere corretto tramite un riavvio del software, mentre un host PSOD richiede un riavvio dell'hardware. La logica di correzione automatica per questo problema è complessa e in continua evoluzione, ma è possibile prendere in esame l'errore ed eseguire l'azione meno invasiva. La correzione automatica è un processo interno e i clienti non hanno accesso alla logica. Se si verificano problemi, è possibile contattare l'Assistenza VMware.
  5. Controlla integrità dell'host: il passaggio successivo consiste nel verificare che l'azione di correzione abbia corretto l'host. Se l'host problematico è ora integro dopo un riavvio del software o dell'hardware, la correzione automatica evita ulteriori interruzioni per l'SDDC. Raccoglie ed esegue tutte le altre azioni necessarie e rimuove il nuovo host che è stato aggiunto preventivamente nel Passaggio 2.
  6. Sostituisci host: se non è possibile risolvere il problema con l'host, la scalabilità automatica rimuove l'host non riuscito e lo sostituisce con l'host aggiunto al Passaggio 2. In questa fase, la scalabilità automatica rimuove l'host non riuscito e lo sostituisce con l'host aggiunto nel Passaggio 2. vSphere HA e vSAN vengono attivati e i tag dei criteri di elaborazione vengono collegati al nuovo host.