Tipi di errori dell'host

L'host primario di un cluster VMware vSphere^® HA è responsabile del rilevamento degli errori degli host secondari. In base al tipo di errore rilevato, potrebbe essere necessario eseguire il failover delle macchine virtuali in esecuzione negli host.

In un cluster vSphere HA, vengono rilevati tre tipi di errore dell'host:

Errore. Un host smette di funzionare.
Isolamento. Un host diventa isolato dalla rete.
Partizione. Un host perde la connettività di rete con l'host primario.

L'host primario monitora l'attività degli host secondari nel cluster. Questa comunicazione avviene tramite lo scambio di heartbeat di rete ogni secondo. Quando l'host primario smette di ricevere questi heartbeat da un host secondario, verifica l'attività dell'host prima di dichiarare l'errore di tale host. Il controllo di attività eseguito dall'host primario consiste nel determinare se l'host secondario scambia heartbeat con uno dei datastore. Vedere Heartbeat datastore in corso. Inoltre, l'host primario verifica se l'host risponde ai ping ICMP inviati ai suoi indirizzi IP di gestione.

Se un host primario non può comunicare direttamente con l'agente in un host secondario, l'host secondario non risponde ai ping ICMP. Se l'agente non emette heartbeat, viene visualizzato come non riuscito. Le macchine virtuali dell'host vengono riavviate in host alternativi. Se un host secondario di questo tipo scambia heartbeat con un datastore, l'host primario presuppone che l'host secondario si trovi in una partizione di rete o sia isolato dalla rete. Pertanto, l'host primario continua a monitorare l'host e le relative macchine virtuali. Vedere Partizioni di rete.

L'isolamento della rete host si verifica quando un host è ancora in esecuzione, ma non è più in grado di osservare il traffico dagli agenti vSphere HA nella rete di gestione. Se un host smette di osservare questo traffico, tenta di effettuare il ping degli indirizzi di isolamento del cluster. Se anche il ping non riesce, l'host dichiara che è isolato dalla rete.

L'host primario monitora le macchine virtuali in esecuzione in un host isolato. Se l'host primario rileva che le macchine virtuali vengono spente e l'host primario è responsabile di tali macchine, le riavvia.

Nota: Se ci si assicura che l'infrastruttura di rete sia sufficientemente ridondante e che almeno un percorso di rete sia sempre disponibile, è meno probabile che si verifichi l'isolamento dell'host dalla rete.

Errori proattivi di HA

Un errore proattivo di HA si verifica in presenza di un errore in un componente dell'host, che causa la perdita di ridondanza o un errore non irreversibile. Ciò non influisce tuttavia sul comportamento funzionale delle macchine virtuali che si trovano nell'host. Ad esempio, se si verifica un errore in un alimentatore nell'host, ma sono disponibili altri alimentatori, si tratta di un errore proattivo di HA.

Se si verifica un errore proattivo di HA, è possibile automatizzare l'azione di correzione eseguita nella sezione Disponibilità vSphere di vSphere Client. Le macchine virtuali nell'host interessato possono essere spostate in altri host e per l'host viene attivata la modalità di quarantena o la modalità manutenzione.

Nota: Affinché il monitoraggio degli errori proattivi di HA funzioni, il cluster deve utilizzare vSphere DRS.