La fonctionnalité de récupération d'urgence (DR) de SD-WAN Orchestrator empêche la perte de données stockées et reprend les services de SD-WAN Orchestrator en cas de défaillance du système ou du réseau.
- L'objectif de temps de récupération (RTO) est donc dépendant de l'action explicite de l'opérateur pour déclencher la promotion du dispositif passif.
- Toutefois, l'objectif de point de récupération (RPO) est essentiellement de zéro, quel que soit le temps de récupération, car toutes les configurations sont répliquées instantanément. Les données de surveillance qui auraient été collectées pendant la panne sont mises en cache sur les dispositifs Edge et les passerelles en attente de la promotion du dispositif passif.
Paire d'instances active/en veille
Dans un déploiement de récupération d'urgence de SD-WAN Orchestrator, deux systèmes SD-WAN Orchestrator identiques sont configurés en tant que paire d'instances active/en veille. L'opérateur peut afficher l'état d'avancement de la récupération d'urgence via l'interface utilisateur Web de l'un des serveurs. Les dispositifs Edge et les passerelles connaissent les deux instances de SD-WAN Orchestrator et, tandis qu'ils reçoivent les modifications de configuration uniquement depuis l'instance de SD-WAN Orchestrator active, ils envoient régulièrement des pulsations DR aux deux systèmes pour signaler leur vue des deux serveurs et interroger l'état du système DR. Lorsque l'opérateur déclenche un basculement, les dispositifs Edge et les passerelles Gateway sont informés de la modification dans la pulsation DR suivante.
États de récupération d'urgence
Depuis la vue d'un opérateur des dispositifs Edge et des passerelles, une instance de SD-WAN Orchestrator présente l'un des quatre états DR suivants :
| État de récupération d'urgence | Description |
|---|---|
| Autonome | Aucune récupération d'urgence configurée. |
| Actif (Active) | Récupération d'urgence configurée, agissant comme le serveur SD-WAN Orchestrator principal. |
| En veille | Récupération d'urgence configurée, agissant comme un serveur réplica SD-WAN Orchestrator inactif. |
| Zombie | Récupération d'urgence précédemment configurée et active, mais n'agissant plus comme l'instance active ou en veille. |
Opération d'exécution
Lorsque la récupération d'urgence est configurée, le serveur en veille s'exécute en mode limité, bloquant tous les appels d'API, à l'exception de ceux liés à l'état de DR et aux pulsations DR. Lorsque l'opérateur appelle un basculement, l'instance en veille est promue afin de devenir entièrement opérationnelle en tant que serveur autonome. Le serveur qui était précédemment actif passe automatiquement à un état de zombie s'il est réactif et visible à partir de l'instance en veille promue. À l'état de zombie, les services de configuration de gestion sont bloqués et tous les contacts des dispositifs Edge et des passerelles qui n'ont pas été migrés vers la nouvelle instance de SD-WAN Orchestrator active sont redirigés vers le serveur promu.
Configuration de la réplication de SD-WAN Orchestrator
Deux instances de SD-WAN Orchestrator installées sont requises pour lancer la réplication.
- L'instance en veille sélectionnée est placée dans un état de
STANDBY_CANDIDATE, ce qui lui permet d'être configurée par le serveur actif. - Le serveur actif reçoit ensuite l'adresse et les informations d'identification de l'instance en veille et il passe à l'état
ACTIVE_CONFIGURING.
STANDBY_CONFIG_RQST passe d'active à en veille, les deux serveurs se synchronisent à l'aide des transitions d'état.
- Le fuseau horaire de la passerelle doit être défini sur Etc/UTC. Utilisez la commande suivante pour afficher le fuseau horaire NTP.
vcadmin@vcg1-example:~$ cat /etc/timezone Etc/UTC vcadmin@vcg1-example:~$
Si le fuseau horaire est incorrect, utilisez les commandes suivantes pour mettre à jour le fuseau horaire.
echo "Etc/UTC" | sudo tee /etc/timezone sudo dpkg-reconfigure --frontend noninteractive tzdata
- Le décalage NTP doit être inférieur ou égal à 15 millisecondes. Utilisez la commande suivante pour afficher le décalage NTP.
sudo ntpqvcadmin@vcg1-example:~$ sudo ntpq -p remote refid st t when poll reach delay offset jitter ============================================================================== *ntp1-us1.prod.v 74.120.81.219 3 u 474 1024 377 10.171 -1.183 1.033 ntp1-eu1-old.pr .INIT. 16 u - 1024 0 0.000 0.000 0.000 vcadmin@vcg1-example:~$Si le décalage est incorrect, utilisez les commandes suivantes pour mettre à jour le décalage NTP.
sudo systemctl stop ntp sudo ntpdate <server> sudo systemctl start ntp
- Par défaut, une liste de serveurs NTP est configurée dans le fichier
/etc/ntpd.conf. Les dispositifs Orchestrator sur lesquels vous devez établir la récupération d'urgence (DR) doivent disposer d'Internet pour accéder aux serveurs NTP par défaut et garantir la synchronisation de l'heure sur les deux dispositifs Orchestrator. Pour synchroniser l'heure, les clients peuvent également utiliser leur serveur NTP local s'exécutant dans leur environnement.
Configurer le dispositif Orchestrator passif
Pour configurer le dispositif SD-WAN Orchestrator passif, procédez comme suit :
- Dans le portail opérateur, cliquez sur l'onglet Orchestrator, puis dans le volet de gauche, cliquez sur le bouton Réplication (Replication) pour afficher l'écran Réplication du dispositif Orchestrator (Orchestrator Replication).
- Pour activer le dispositif Orchestrator passif, cochez la case d'option Passif (Standby) (rôle de réplication).
- Cliquez sur le bouton Activer pour le dispositif passif (Enable for Standby).
La page Dispositif Orchestrator passif (Standby Orchestrator) s'affiche.
- Entrez les paramètres de configuration manuelle (manual configuration) et cliquez sur le bouton Mettre à jour les informations de configuration (Update configuration info).
Une fois que le dispositif Orchestrator passif a été configuré pour la réplication, configurez le dispositif Orchestrator actif en suivant les instructions ci-dessous.
Configurer le dispositif Orchestrator actif
Pour configurer le dispositif SD-WAN Orchestrator actif, sélectionnez le rôle de réplication comme Actif (Active) et configurez les éléments suivants :
| Option | Description |
|---|---|
| Sélectionner le rôle de réplication (Select Replication Role) | Sélectionnez la case d'option Actif (Active) pour le rôle de réplication. |
| Adresse du dispositif Orchestrator passif (Standby Orchestrator Address) | Entrez l'adresse IP principale du dispositif Orchestrator passif. |
| Adresse du dispositif Orchestrator passif (IPv6) [(Standby Orchestrator Address) (IPv6)] | Entrez l'adresse IPv6 du dispositif Orchestrator passif. |
| Adresse secondaire du dispositif Orchestrator passif (Standby Orchestrator Secondary Address) | Entrez l'adresse de l'interface secondaire du dispositif Orchestrator passif. Cette adresse est utilisée pour la réplication si le dispositif passif est promu en actif. Les utilisateurs peuvent ajouter ici une adresse IPv4/IPv6 ou de nom de domaine complet. |
| UUID du dispositif Orchestrator passif (Standby Orchestrator UUID) | Entrez l'UUID du dispositif Orchestrator passif. |
| Mode de configuration (Configuration Mode) | Cochez la case d'option Configurer automatiquement le dispositif passif (Auto Configure Standby) ou Configurer manuellement le dispositif passif (Manually Configure Standby) en fonction des besoins. En cas de configuration manuelle, collez une valeur de chaîne d'ACTIVE VCO vers STANDBY_WAIT . |
| Nom d'utilisateur du super utilisateur (Superuser Username) | Entrez le nom d'affichage du super utilisateur du dispositif Orchestrator. |
| Mot de passe de super utilisateur du dispositif Orchestrator passif (Standby Orchestrator Superuser Password) | Entrez le mot de passe de super utilisateur du dispositif Orchestrator. |
- Cliquez sur le bouton Activer pour le dispositif actif (Enable for Active) pour activer le rôle de réplication.
Une fois la configuration terminée, les deux dispositifs Orchestrator (passif et actif) sont synchronisés.
Dispositif Orchestrator passif synchronisé
Dispositif Orchestrator actif synchronisé
Basculement de test
Les scénarios de basculement de test suivants sont des basculements forcés fournis à titre d'exemple. Vous pouvez effectuer ces actions dans la zone Actions disponibles (Available Actions) des écrans Actif (Active) et Passif (Standby).
Promouvoir une instance d'Orchestrator en veille
Cette section décrit comment promouvoir une instance d'Orchestrator en veille.
Pour promouvoir un dispositif Orchestrator passif, procédez comme suit :
- Cliquez sur le lien déverrouiller (unlock).
- Cliquez sur le bouton Promouvoir le mode veille (Promote Standby) dans la zone Actions disponibles (Available Actions) de l'écran Orchestrator en veille.
La boîte de dialogue suivante s'affiche, indiquant que lorsque vous promouvez votre dispositif Orchestrator passif, les administrateurs ne peuvent plus gérer le dispositif SD-WAN Orchestrator à l'aide du dispositif Orchestrator précédemment actif.
- Cliquez sur le bouton Promouvoir le dispositif passif (Promote Standby) pour promouvoir le dispositif Orchestrator passif.
- Cliquez sur Forcer la promotion du dispositif passif (Force Promote Standby) pour promouvoir le dispositif Orchestrator.
Une boîte de dialogue finale s'affiche, indiquant que le dispositif Orchestrator n'est plus passif et qu'il redémarre en mode autonome.
Lorsque vous promouvez un dispositif Orchestrator passif, il redémarre en mode autonome.
Si le dispositif passif peut communiquer avec le dispositif Orchestrator précédemment actif, il demande à ce dispositif Orchestrator de passer à l'état de zombie. À l'état de zombie, l'instance d'Orchestrator communique avec ses clients (dispositifs Edge, passerelles, interface utilisateur/API) pour leur signaler qu'elle n'est plus active et qu'ils doivent communiquer avec la nouvelle instance d'Orchestrator promue. Si l'instance en veille promue ne peut pas communiquer avec l'instance d'Orchestrator précédemment active, l'opérateur doit, si possible, rétrograder manuellement l'instance d'Orchestrator précédemment active.
Revenir au mode autonome
Pour remettre le zombie en mode autonome, cliquez sur le bouton Revenir au mode autonome (Return to Standalone Mode) dans la zone Actions disponibles (Available Actions) des écrans Dispositif Orchestrator actif (Active Orchestrator) ou Dispositif Orchestrator passif (Standby Orchestrator).
Le dispositif Orchestrator peut revenir de l'état de zombie au mode autonome après le délai spécifié dans la propriété système « vco.disasterRecovery.zombie.expirySeconds » qui est par défaut de 1 800 secondes.
Dépannage de la récupération d'urgence (DR) de SD-WAN Orchestrator
Cette section décrit les états de panne du système. Ceux-ci sont également répertoriés dans l'interface utilisateur avec une description plus détaillée de la panne. Des informations supplémentaires sont disponibles dans le journal de VMware.
Pannes récupérables
Les erreurs suivantes sont des pannes récupérables susceptibles se produire après que la récupération d'urgence de SD-WAN Orchestrator a atteint l'état synchronisé. Si le problème entraînant ces pannes est corrigé, la récupération d'urgence de SD-WAN Orchestrator revient automatiquement à un fonctionnement normal.
FAILURE_SYNCING_FILESFAILURE_GET_STANDBY_STATUSFAILURE_MYSQL_ACTIVE_STATUSFAILURE_MYSQL_STANDBY_STATUS
Pannes irrécupérables
Les pannes suivantes peuvent se produire lors de la configuration de la récupération d'urgence de SD-WAN Orchestrator. La récupération d'urgence de SD-WAN Orchestrator ne reprend pas automatiquement après ces pannes.
FAILURE_ACTIVE_CONFIGURINGFAILURE_LAUNCHING_STANDBYFAILURE_STANDBY_CONFIGURINGFAILURE_COPYING_DBFAILURE_COPYING_FILESFAILURE_SYNC_CONFIGURINGFAILURE_GET_STANDBY_CONFIGFAILURE_STANDBY_CANDIDATEFAILURE_STANDBY_UNCONFIGFAILURE_STANDBY_PROMOTIONFAILURE_ACTIVE_DEMOTION