Il servizio di scalabilità automatica di VMware Cloud on AWS monitora l'integrità dell'infrastruttura SDDC, rileva gli errori imminenti e quelli effettivi e corregge automaticamente l'infrastruttura sostituendo gli host prima o dopo il verificarsi di un errore.

L'infrastruttura AWS è affidabile, ma gli errori sono inevitabili anche nell'infrastruttura più affidabile. Il pillar Affidabilità del framework dell'architettura AWS illustra i principi di progettazione per l'affidabilità nel cloud. VMware Cloud on AWS estende questi principi astraendo l'infrastruttura sottostante e sfruttando le capacità di analisi predittiva degli errori di vCenter Server e ESXi per fornire una correzione reattiva quando si verificano errori e una correzione predittiva in grado di impedire che gli errori influiscano sui carichi di lavoro.

Gran parte del processo di correzione automatica avviene in background e senza causare impatti sui carichi di lavoro esistenti. La correzione automatica monitora l'integrità del sistema e può aggiungere rapidamente hardware a un SDDC quando necessario, inserendo un nuovo host nel cluster quando si verifica un errore o viene rilevato un problema di integrità ed evacuando le macchine virtuali del carico di lavoro dall'hardware non riuscito o in errore. Inoltre, poiché tutti gli SDDC VMware Cloud on AWS utilizzano VMware vSAN e vSphere HA, i carichi di lavoro interessati dagli errori dell'host vengono automaticamente riposizionati e riavviati.
Nota: Non vengono mai fatturati gli host aggiuntivi utilizzati per la correzione automatica o la manutenzione pianificata.

Architettura di alto livello per la correzione automatica

L'architettura di correzione automatica include componenti forniti da AWS e VMware.
  • AWS invia a VMware le informazioni a livello di host, in particolare relativamente agli eventi di manutenzione pianificata di AWS. Il servizio di scalabilità automatica riceve queste notifiche e corregge automaticamente eventuali problemi all'interno dell'SDDC.
  • Un servizio di monitoraggio a livello di SDDC riceve notifiche dai componenti VMware Cloud on AWS sottostanti.
Per ulteriori informazioni, vedere l'articolo Feature Brief: Auto Remediation di VMware Cloud Tech Zone.
Il servizio di scalabilità automatica riceve messaggi dal servizio di monitoraggio dell'SDDC e da AWS ed esegue le azioni correttive appropriate nell'SDDC.

Correzione reattiva

La correzione automatica reattiva monitora gli errori hardware e software e tenta di correggere i problemi in diversi modi. La correzione automatica è un processo interno ed è in continua evoluzione. Gli utenti di VMware Cloud on AWS non hanno accesso al workflow o alla relativa configurazione, ma per una migliore comprensione, di seguito viene fornita una panoramica ad alto livello dei passaggi attualmente coinvolti.

1: Monitora
VMware Cloud on AWS monitora continuamente l'integrità di ogni host nell'SDDC. Quando viene rilevato un errore, viene inviato un evento per la correzione automatica.
2: Attendi eventi transitori
Alcuni degli errori rilevati possono essere temporanei. Ad esempio, quando il sistema di monitoraggio non può raggiungere un host a causa di un problema temporaneo di connettività. La correzione automatica attende cinque minuti per determinare se il problema è temporaneo. In tal caso, la correzione automatica non esegue alcuna azione.
3: Aggiungi un host
Se l'errore non viene risolto dopo 5 minuti, la correzione automatica inizia ad aggiungere host all'SDDC. L'aggiunta preventiva di un host in questo modo garantisce che l'host sia disponibile, se necessario. Si noti che tale host non viene fatturato finché non sostituisce un host guasto nell'SDDC.
4: Determina il tipo di errore e intervieni
Gli host possono non riuscire per motivi diversi e richiedere un'azione diversa. Ad esempio, un errore del disco vSAN in un host ancora connesso a un vCenter Server può essere corretto tramite un riavvio del software, mentre un host PSOD richiede un riavvio dell'hardware.
5: Controlla integrità dell'host
Il passaggio successivo consiste nel verificare che l'azione di correzione abbia corretto l'host. Se l'host problematico è ora integro dopo un riavvio del software o dell'hardware, la correzione automatica evita ulteriori interruzioni per l'SDDC. Raccoglie ed esegue tutte le altre azioni necessarie e rimuove il nuovo host che è stato aggiunto preventivamente nel Passaggio 3.
6: Sostituisci host
Se non è possibile risolvere il problema con l'host, la scalabilità automatica rimuove l'host non riuscito e lo sostituisce con l'host aggiunto al Passaggio 3. vSphere HA e vSAN vengono attivati e i tag dei criteri di elaborazione vengono collegati al nuovo host.

Correzione preventiva

Oltre alla correzione reattiva, il servizio di scalabilità automatica monitora diversi feed indipendenti nel tentativo di individuare gli errori prima che si manifestino. Se il servizio determina che è possibile che si verifichi un errore hardware in un host, viene attivato un evento di manutenzione preventiva pianificata senza interruzioni. È ancora possibile che l'host si interrompa prima che la manutenzione pianificata sia completata, ma avviando preventivamente la sostituzione dell'host, l'impatto è ridotto al minimo. Durante la manutenzione pianificata:
  1. Al cluster viene aggiunto un nuovo host. I tag vengono copiati in questo nuovo host dall'host da sostituire.
  2. L'host in errore viene messo in modalità di manutenzione con un'evacuazione completa dei dati. In questo modo, tutte le macchine virtuali e/o i dati di vSAN vengono spostati senza interruzioni in altri host del cluster.
  3. L'host in errore viene rimosso dal cluster.

Eventi del servizio di scalabilità automatica

Quando il servizio di scalabilità automatica riceve un evento di errore, determina il tipo di errore e quindi intraprende l'azione appropriata. Il registro delle attività dell'SDDC include tutte le attività del servizio di scalabilità automatica, ma non mostra l'evento di errore che ha attivato l'attività.

Eventi vCenter Server.
  • Viene attivato un evento per verificare lo stato della connessione dell'host
  • Viene attivato un evento quando l'host ESXi è disconnesso o non risponde.
Eventi DAS
  • eventi vSphere HA: viene attivato un evento quando non è presente alcuna comunicazione con il nodo primario, oppure quando HA è inattivo. (FDM)
  • Quando un host non funziona, il sistema HA segnala un errore dell'host.
vSAN eventi
  • Quando si verifica un errore del disco negli host.
  • Quando l'host vSAN è disconnesso.
Eventi EDRS (non errore)
Aggiornamento: disabilitare EDRS. Le attività di manutenzione richiedono spesso un host aggiuntivo, il quale viene aggiunto come parte dell'evento di manutenzione. EDRS è disabilitato per la durata di una manutenzione pianificata, così da impedire che queste attività attivino eventi di scalabilità verticale/orizzontale.
Eventi AWS
  • Eventi di manutenzione pianificati. Notifica da AWS che indica che è stato rilevato un problema di integrità dell'istanza e che l'istanza deve essere svuotata.
  • Dashboard di integrità personale (PHD). Un flusso di eventi che fornisce informazioni sui vari componenti hardware e consente a VMware di individuare preventivamente gli errori hardware.
  • Controllo dello stato del sistema. Monitora l'integrità dei sistemi AWS su cui si basa l'istanza. Questo controllo segnala i problemi che solo AWS può risolvere. In molti casi, questi problemi sono temporanei e non è necessaria alcuna azione.
  • Controllo dello stato dell'istanza. Monitora il software e la configurazione di rete per ogni istanza. Questo controllo consente di monitorare la disponibilità dell'istanza inviando richieste ARP periodiche alla scheda NIC, oltre a segnalare la disponibilità delle istanze a livello di EC2. I controlli dello stato dell'istanza monitorano l'utilizzo dell'hardware sottostante, segnalano problemi di rete, esaurimento della memoria, file system corrotto, errori del kernel e così via. A differenza dei controlli dello stato del sistema, i controlli dello stato dell'istanza richiedono l'interazione di VMware per la risoluzione.
Eventi SDDC
Integrità dell'host vCenter Server.