VMware Aria Operations oferece suporte à disponibilidade contínua (CA). A CA separa o cluster VMware Aria Operations em dois domínios de falha, estendendo-se por clusters vSphere, e protege o cluster de análise contra a perda de um domínio de falha inteiro.
Você pode configurar o cluster de análise com Disponibilidade Contínua. Isso permite que os nós de cluster sejam estendidos em dois domínios de falha. Um domínio de falha consiste em um ou mais nós de análise agrupados de acordo com sua localização física no centro de dados. Com a CA, os dois domínios de falha permitem que VMware Aria Operations tolere falhas de um local físico inteiro e falhas de recursos dedicados a um único domínio de falha.
Para ativar a disponibilidade contínua em VMware Aria Operations, o nó testemunha deve ser implantado no cluster. O cluster VMware Aria Operations pode ter apenas um nó de testemunha. O nó de testemunha não coleta nem armazena dados. Em uma situação em que a conectividade de rede dos dois domínios de falha é perdida, o cluster entraria em uma situação de split-brain. Essa situação é detectada pelo nó de testemunha e um dos domínios de falha ficará offline para evitar problemas de inconsistência de dados. Você verá um botão Colocar Online (Bring Online) na interface do usuário do administrador dos nós que são colocados offline pelo nó testemunha. Antes de usar essa opção para colocar o domínio de falha online, certifique-se de que a conectividade de rede entre os nós nos dois domínios de falha esteja restaurada e estável. Uma vez confirmado, você pode colocar o domínio de falha online.
Com a CA, os dados armazenados no nó primário e os nós de dados agrupados no domínio de falha 1 são sempre 100% sincronizados com o nó de réplica e os nós de dados emparelhados no domínio de falha 2. Para ativar a autoridade de certificação, você deve ter pelo menos um nó de dados implantado, além do nó primário. Se você tiver mais de um nó de dados, deverá haver um número par de nós de dados, incluindo o nó primário. Por exemplo, o cluster deve ter 2, 4, 6, 8, 10, 12, 14 ou 16 nós com base nos requisitos de dimensionamento apropriados. Os dados armazenados no nó primário no domínio com falha 1 são armazenados e replicados no nó de réplica no domínio com falha 2. Os dados armazenados nos nós de dados no domínio de falha 1 são armazenados e replicados nos nós de dados emparelhados no domínio de falha 2. Mas, caso o nó primário falhe, somente o nó de réplica poderá funcionar como substituto do nó primário.
- A CA protege o cluster de análise contra a perda de metade dos nós de análise específicos para um domínio de falha. Você pode estender nós em clusters vSphere na tentativa de isolar nós ou criar zonas de falha.
- Quando a autoridade de certificação é ativada, o nó de réplica pode assumir todas as funções que o nó primário fornece, em caso de falha do nó primário. O failover para a réplica é automático e requer apenas dois a três minutos de tempo de inatividade VMware Aria Operations para retomar as operações e reiniciar a coleta de dados.
Observação: Em caso de falha do nó primário, o nó de réplica se torna o nó primário e o cluster é executado no modo degradado. Para corrigir isso, execute qualquer uma das ações a seguir.
- Corrija a falha do nó primário manualmente.
- Retorne ao modo CA substituindo o nó primário. Os nós de substituição não reparam a falha do nó; em vez disso, um novo nó assume a função de nó primário.
- Na interface de administração, depois que um nó de réplica da CA assumir o controle e se tornar o novo nó primário, não será possível remover o nó primário offline anterior do cluster. Além disso, o nó anterior permanece listado como um nó primário. Para atualizar a exibição e ativar a remoção do nó, atualize o navegador.
- Quando a autoridade de certificação é ativada, o cluster pode sobreviver à perda de metade dos nós de dados, todos em um domínio de falha, sem perder nenhum dado. A CA protege contra a perda de apenas um domínio de falha por vez. Não há suporte para a perda simultânea de dados e nós primário/réplica, ou dois ou mais nós de dados em ambos os domínios de falha.
- Um cluster ativado pela CA não funcionará se você desligar o nó primário ou a réplica do nó primário enquanto um dos domínios de falha estiver inativo.
- Quando a autoridade de certificação é ativada, ela reduz a capacidade e o processamento de VMware Aria Operations pela metade, pois a autoridade de certificação cria uma cópia redundante dos dados em todo o cluster e o backup de réplica do nó primário. Considere o uso potencial da CA ao planejar o número e o tamanho dos seus VMware Aria Operations nós de cluster. Consulte Dimensionando o cluster VMware Aria Operations.
- Quando a autoridade de certificação estiver ativada, implante nós de cluster de análise, em cada domínio de falha, em hosts separados para redundância e isolamento. Você também pode usar regras de antiafinidade que mantêm nós em hosts específicos nos clusters vSphere.
- Se você não puder manter os nós separados em cada domínio de falha, ainda poderá ativar a autoridade de certificação. Uma falha de host pode causar a perda dos nós de dados no domínio de falha e VMware Aria Operations ainda pode estar disponível no outro domínio de falha.
- Se você não puder dividir os nós de dados em clusters vSphere diferentes, não ative a autoridade de certificação. Uma falha de cluster pode causar a perda de mais da metade dos nós de dados, o que não é suportado, e todos os vSphere podem ficar indisponíveis.
- Sem a autoridade de certificação, você pode manter os nós no mesmo host no mesmo vSphere. Sem a CA, a perda de até mesmo um nó pode tornar todos os VMware Aria Operations indisponíveis.
- Quando você desliga os nós de dados em ambos os domínios de falha e altera as configurações de rede das VMs, isso afeta o endereço IP dos nós de dados. Após esse ponto, o cluster de autoridade de certificação não estará mais acessível e o status de todos os nós será alterado para
"Waiting for analytics"
. Verifique se você usou um endereço IP estático. - Quando você remove um nó que tem um ou mais adaptadores vCenter configurados para coletar dados de um cluster ativado pela CA, um ou mais adaptadores vCenter associados a esse nó param de coletar. Você deve alterar a configuração do adaptador para fixá-lo em outro nó antes de removê-lo.
- A interface de administração exibe a contagem de cache de recursos, que é criada somente para objetos ativos, mas o inventário exibe todos os objetos. Quando você remove um nó de um cluster ativado pela CA, permitindo que os adaptadores vCenter coletem dados e rebalanceem cada nó, o inventário exibe uma quantidade de objetos diferente daquela mostrada na interface de administração.