À propos de la disponibilité continue vRealize Operations

vRealize Operations prend en charge la disponibilité continue (CA). La disponibilité continue sépare le cluster vRealize Operations en deux domaines de pannes, qui s'étendent à travers les clusters vSphere, et protège le cluster d'analyse contre la perte d'un domaine de pannes entier.

Vous pouvez configurer le cluster d'analyse avec une disponibilité continue. Cela permet aux nœuds de cluster d'être étendus sur deux domaines d'erreur. Un domaine de pannes se compose d'un ou de plusieurs nœuds d'analyse regroupés en fonction de leur emplacement physique dans le centre de données. Avec la disponibilité continue, les deux domaines de pannes permettent à vRealize Operations de tolérer les pannes d'un emplacement physique dans son ensemble et les pannes des ressources dédiées à un domaine de pannes unique.

Pour activer la disponibilité continue dans vRealize Operations, le nœud témoin doit être déployé dans le cluster. Le cluster vRealize Operations ne peut avoir qu'un seul nœud témoin. Le nœud témoin ne peut ni collecter ni stocker les données. Dans le cas où la connectivité réseau des deux domaines d'erreur est perdue, le cluster passe à une situation split-brain. Cette situation est détectée par le nœud témoin et l'un des domaines de pannes est mis hors ligne pour prévenir les problèmes d'incohérence des données. Un bouton Mettre en ligne est accessible depuis l'interface utilisateur d'administration des nœuds qui sont mis hors ligne par le nœud témoin. Avant d'utiliser cette option pour mettre le domaine de pannes en ligne, assurez-vous que la connectivité réseau entre les nœuds dans les deux domaines d'erreur est restaurée et stable. Une fois confirmé, vous pouvez mettre le domaine de pannes en ligne.

Avec la disponibilité continue, les données stockées dans le nœud principal et les nœuds de données regroupés dans le domaine de pannes 1 sont toujours synchronisés à 100 % sur le nœud de réplica et les nœuds de données couplés dans le domaine de pannes 2. Pour activer CA, vous devez avoir au moins un nœud de données déployé, en plus du nœud principal. Si vous disposez de plusieurs nœuds de données, il doit y avoir un nombre pair de nœuds de données, le nœud principal compris. Par exemple, le cluster doit avoir 2, 4, 6, 8, 10, 12, 14 ou 16 nœuds, selon les exigences de dimensionnement appropriées. Les données stockées dans le nœud principal du domaine de pannes 1 sont stockées et répliquées dans le nœud de réplica du domaine de pannes 2. Les données stockées dans le nœud de données du domaine de pannes 1 sont stockées et répliquées dans le nœud de données du domaine de pannes 2. Toutefois, si le nœud principal échoue, seul le nœud de réplica peut fonctionner en remplacement du nœud principal.

La disponibilité continue protège le cluster d'analyse contre la perte de la moitié des nœuds d'analyse spécifiques à un domaine de pannes. Vous pouvez étendre les nœuds à travers les clusters vSphere pour tenter d'isoler les nœuds ou construire des zones de défaillance.
Lorsque la disponibilité continue est activée, le nœud de réplica peut prendre le relais de toutes les fonctions fournies par le nœud principal, en cas de panne d'un nœud principal. Le basculement vers le nœud de réplica est automatique et ne nécessite que deux à trois minutes de temps d'arrêt de vRealize Operations pour reprendre les opérations et redémarrer la collecte de données.
Note : Lors d'une panne d'un nœud principal, le nœud de réplica devient le nœud principal, et le cluster fonctionne en mode dégradé. Pour corriger ce problème, effectuez l'une des actions suivantes.
- Corrigez manuellement la panne du nœud principal.
- Revenez au mode Disponibilité continue en remplaçant le nœud principal. Les nœuds de remplacement ne corrigent pas la panne de nœud, mais un nouveau nœud assume le rôle de nœud principal.
Dans l'interface d'administration, dès qu'un nœud de réplica CA prend le relais et devient le nouveau nœud principal, vous ne pouvez pas supprimer du cluster le nœud principal hors ligne précédent. De plus, le nœud précédent continue à être répertorié en tant que nœud principal. Pour actualiser l'affichage et permettre la suppression du nœud, actualisez le navigateur.
Lorsque la disponibilité continue est activée, le cluster peut surmonter la perte de la moitié des nœuds de données, tous dans un domaine de pannes, sans perdre de données. La disponibilité continue protège contre la perte d'un seul domaine de pannes à la fois. La perte simultanée de données et de nœuds principaux/de réplica, ou de deux ou plusieurs nœuds de données dans les deux domaines de pannes, n'est pas prise en charge.
Un cluster CA n'est pas fonctionnel si vous mettez hors tension le nœud principal ou le nœud de réplica du nœud principal alors que l'un des domaines de pannes est inactif.
Lorsque la disponibilité continue est activée, celle-ci diminue de moitié les capacités et les traitements de vRealize Operations en créant une copie redondante des données sur l'ensemble du cluster, ainsi qu'une sauvegarde du nœud de réplica du nœud principal. Prenez en compte votre utilisation potentielle de la disponibilité continue lors de la planification du nombre et de la taille de vos nœuds de cluster vRealize Operations. Reportez-vous à Dimensionnement du cluster vRealize Operations.
Lorsque la disponibilité continue est activée, déployez les nœuds de cluster d'analyse, dans chaque domaine de pannes, sur des hôtes distincts pour des raisons de redondance et d'isolement. Vous pouvez également utiliser des règles d'antiaffanité pour conserver les nœuds sur des hôtes spécifiques sur les clusters vSphere.
Si vous ne pouvez pas conserver des nœuds distincts dans chaque domaine de pannes, vous pouvez toujours activer la disponibilité continue. Une panne d'hôte peut entraîner la perte des nœuds de données dans le domaine de pannes et vRealize Operations peut toujours être disponible dans l'autre domaine de pannes.
Si vous ne pouvez pas fractionner les nœuds de données en différents clusters vSphere, n'activez pas la disponibilité continue. Une panne de cluster entraînerait la perte de plus de la moitié des nœuds de données, situation qui n'est pas prise en charge, et la totalité de vSphere deviendrait totalement indisponible.
Sans la disponibilité continue, vous pouvez conserver les nœuds sur le même hôte dans le même vSphere. Sans la disponibilité continue, la perte d'un seul nœud rendrait vRealize Operations totalement indisponible.
Lorsque les nœuds de données sont mis hors tension dans les deux domaines de pannes et que les paramètres réseau des machines virtuelles sont modifiés, cela affecte l'adresse IP des nœuds de données. À ce stade, le cluster CA n'est plus accessible et tous les nœuds passent à l'état "Waiting for analytics". Vérifiez que vous avez utilisé une adresse IP statique.
Lorsque vous supprimez un nœud ayant un ou plusieurs adaptateurs vCenter configurés pour collecter des données à partir d'un cluster CA, un ou plusieurs de ces adaptateurs cessent de collecter des données. Avant de supprimer le nœud, vous devez donc modifier la configuration des adaptateurs afin de les relier à un autre nœud.
L'interface d'administration affiche le nombre de caches de ressources, qui sont créés uniquement pour les objets actifs, mais l'inventaire affiche tous les objets. Lorsque vous supprimez un nœud d'un cluster CA qui permet la collecte de données par des adaptateurs vCenter et que vous rééquilibrez chaque nœud, l'inventaire affiche une quantité d'objets différente de celle indiquée dans l'interface d'administration.