Tipos de falha de host

O host primário de um cluster do VMware vSphere^® High Availability é responsável por detectar a falha dos hosts secundários. Dependendo do tipo de falha detectada, as máquinas virtuais em execução nos hosts podem precisar de failover.

Em um cluster vSphere HA, três tipos de falha de host são detectados:

Falha. Um host para de funcionar.
Isolamento. Um host torna-se isolado na rede.
Partição. Um host perde a conectividade de rede com o host primário.

O host primário monitora a atividade dos hosts secundários no cluster. Essa comunicação acontece por meio da troca de heartbeats de rede a cada segundo. Quando o host primário para de receber essas pulsações de um host secundário, ele verifica a atividade do host antes de declarar que o host falhou. A verificação de atividade que o host primário executa é para determinar se o host secundário está trocando heartbeats com um dos datastores. Consulte Pulsação do armazenamento de dados. Além disso, o host primário verifica se o host responde aos pings ICMP enviados para seus endereços IP de gerenciamento.

Se um host primário não puder se comunicar diretamente com o agente em um host secundário, o host secundário não responderá aos pings ICMP. Se o agente não estiver emitindo heartbeats, ele será visto como com falha. As máquinas virtuais do host são reiniciadas em hosts alternativos. Se esse host secundário estiver trocando heartbeats com um armazenamento de dados, o host primário assumirá que o host secundário está em uma partição de rede ou está isolado na rede. Portanto, o host primário continua a monitorar o host e suas máquinas virtuais. Consulte Partições de rede.

O isolamento de rede do host ocorre quando um host ainda está em execução, mas ele não pode mais observar o tráfego de agentes vSphere HA na rede de gerenciamento. Se um host parar de observar esse tráfego, ele tentará fazer o ping dos endereços de isolamento do cluster. Se esse ping também falhar, o host declarará que ele está isolado da rede.

O host primário monitora as máquinas virtuais que estão sendo executadas em um host isolado. Se o host primário observar que as VMs são desligadas e o host primário é responsável pelas VMs, ele as reinicia.

Observação: Se você garantir que a infraestrutura de rede é suficientemente redundante e que pelo menos um caminho de rede está sempre disponível, o isolamento de rede do host é menos provável de ocorrer.

Falhas proativas de HA

Uma falha de HA proativa ocorre quando um componente do host falha, o que resulta em uma perda de redundância ou uma falha não catastrófica. No entanto, o comportamento funcional das VMs que residem no host ainda não foi afetado. Por exemplo, se uma fonte de alimentação no host falhar, mas outras fontes de alimentação estiverem disponíveis, isso é uma falha de HA proativa.

Se ocorrer uma falha de HA proativa, você poderá automatizar a ação de correção realizada na seção Disponibilidade do vSphere do vSphere Client. As VMs no host afetado podem ser evacuadas para outros hosts e o host é colocado no modo de quarentena ou no modo de manutenção.

Observação: Seu cluster deve usar o vSphere DRS para que o monitoramento proativo de falhas de HA funcione.