La fonctionnalité de récupération d'urgence (DR) de SASE Orchestrator empêche la perte de données stockées et reprend les services de SASE Orchestrator en cas de défaillance du système ou du réseau.

La récupération d'urgence de SASE Orchestrator implique la configuration d'une paire d'instances de SASE Orchestrator active/en veille avec la réplication des données et un mécanisme de basculement déclenché manuellement.
  • L'objectif de temps de récupération (RTO) est donc dépendant de l'action explicite de l'opérateur pour déclencher la promotion du dispositif passif.
  • Toutefois, l'objectif de point de récupération (RPO) est essentiellement de zéro, quel que soit le temps de récupération, car toutes les configurations sont répliquées instantanément. Les données de surveillance qui auraient été collectées pendant la panne sont mises en cache sur les dispositifs Edge et les passerelles en attente de la promotion du dispositif passif.
Note : La récupération d'urgence est obligatoire. Pour obtenir des licences et des tarifs, contactez l'équipe commerciale de VMware.

Paire d'instances active/en veille

Dans un déploiement de récupération d'urgence de SASE Orchestrator, deux systèmes SASE Orchestrator identiques sont configurés en tant que paire d'instances active/en veille. L'opérateur peut afficher l'état d'avancement de la récupération d'urgence via l'interface utilisateur Web de l'un des serveurs. Les dispositifs Edge et les passerelles connaissent les deux instances de SASE Orchestrator et, tandis qu'ils reçoivent les modifications de configuration uniquement depuis l'instance de SASE Orchestrator active, ils envoient régulièrement des pulsations DR aux deux systèmes pour signaler leur vue des deux serveurs et interroger l'état du système DR. Lorsque l'opérateur déclenche un basculement, les dispositifs Edge et les passerelles Gateway sont informés de la modification dans la pulsation DR suivante.

États de récupération d'urgence

Depuis la vue d'un opérateur des dispositifs Edge et des passerelles, une instance de SASE Orchestrator présente l'un des quatre états DR suivants :

État de récupération d'urgence Description
Autonome Aucune récupération d'urgence configurée.
Actif (Active) Récupération d'urgence configurée, agissant comme le serveur SASE Orchestrator principal.
En veille Récupération d'urgence configurée, agissant comme un serveur réplica SASE Orchestrator inactif.
Zombie Récupération d'urgence précédemment configurée et active, mais n'agissant plus comme l'instance active ou en veille.

Opération d'exécution

Lorsque la récupération d'urgence est configurée, le serveur en veille s'exécute en mode limité, bloquant tous les appels d'API, à l'exception de ceux liés à l'état de DR et aux pulsations DR. Lorsque l'opérateur appelle un basculement, l'instance en veille est promue afin de devenir entièrement opérationnelle en tant que serveur autonome. Le serveur qui était précédemment actif passe automatiquement à un état de zombie s'il est réactif et visible à partir de l'instance en veille promue. À l'état de zombie, les services de configuration de gestion sont bloqués et tous les contacts des dispositifs Edge et des passerelles qui n'ont pas été migrés vers la nouvelle instance de SASE Orchestrator active sont redirigés vers le serveur promu.

disaster-recovery-replica-and-status

Configuration de la réplication de SASE Orchestrator

Deux instances de SASE Orchestrator installées sont requises pour lancer la réplication.

  • L'instance en veille sélectionnée est placée dans un état de STANDBY_CANDIDATE, ce qui lui permet d'être configurée par le serveur actif.
  • Le serveur actif reçoit ensuite l'adresse et les informations d'identification de l'instance en veille et il passe à l'état ACTIVE_CONFIGURING.
Lorsque l'instance de STANDBY_CONFIG_RQST passe d'active à en veille, les deux serveurs se synchronisent à l'aide des transitions d'état.
Les deux dispositifs Orchestrator sur lesquels vous devez établir la récupération d'urgence (Disaster Recovery, DR) doivent disposer de la même heure. Avant de lancer la réplication de SASE Orchestrator, veillez à vérifier les configurations NTP suivantes :
  • Le fuseau horaire de la passerelle doit être défini sur Etc/UTC. Utilisez la commande suivante pour afficher le fuseau horaire NTP.
    vcadmin@vcg1-example:~$ cat /etc/timezone
    Etc/UTC
    vcadmin@vcg1-example:~$ 
    

    Si le fuseau horaire est incorrect, utilisez les commandes suivantes pour mettre à jour le fuseau horaire.

    echo "Etc/UTC" | sudo tee /etc/timezone
    sudo dpkg-reconfigure --frontend noninteractive tzdata
    
  • Le décalage NTP doit être inférieur ou égal à 15 millisecondes. Utilisez la commande suivante pour afficher le décalage NTP.
    sudo ntpqvcadmin@vcg1-example:~$ sudo ntpq -p
         remote           refid      st t when poll reach   delay   offset  jitter
    ==============================================================================
    *ntp1-us1.prod.v 74.120.81.219    3 u  474 1024  377   10.171   -1.183   1.033
     ntp1-eu1-old.pr .INIT.          16 u    - 1024    0    0.000    0.000   0.000
    vcadmin@vcg1-example:~$ 
    

    Si le décalage est incorrect, utilisez les commandes suivantes pour mettre à jour le décalage NTP.

    sudo systemctl stop ntp
    sudo ntpdate <server>
    sudo systemctl start ntp
  • Par défaut, une liste de serveurs NTP est configurée dans le fichier /etc/ntpd.conf. Les dispositifs Orchestrator sur lesquels vous devez établir la récupération d'urgence (DR) doivent disposer d'Internet pour accéder aux serveurs NTP par défaut et garantir la synchronisation de l'heure sur les deux dispositifs Orchestrator. Pour synchroniser l'heure, les clients peuvent également utiliser leur serveur NTP local s'exécutant dans leur environnement.

Configurer le dispositif Orchestrator passif

Pour configurer le dispositif Orchestrator en veille, procédez comme suit :

  1. Dans le service SD-WAN du portail d'entreprise, cliquez sur l'onglet Orchestrator, puis dans le volet de gauche, cliquez sur le bouton Réplication (Replication) pour afficher l'écran Réplication du dispositif Orchestrator (Orchestrator Replication).
  2. Pour activer le dispositif Orchestrator passif, cochez la case d'option Passif (Standby) (rôle de réplication).
  3. Cliquez sur le bouton Activer pour le dispositif passif (Enable for Standby).

    La page Dispositif Orchestrator passif (Standby Orchestrator) s'affiche.

  4. Entrez les paramètres de configuration manuelle (manual configuration) et cliquez sur le bouton Mettre à jour les informations de configuration (Update configuration info).

    Une fois que le dispositif Orchestrator passif a été configuré pour la réplication, configurez le dispositif Orchestrator actif en suivant les instructions ci-dessous.

Configurer le dispositif Orchestrator actif

Pour configurer le dispositif Orchestrator actif, sélectionnez le rôle de réplication comme Actif (Active), puis configurez les éléments suivants :

Option Description
Sélectionner le rôle de réplication (Select Replication Role) Sélectionnez la case d'option Actif (Active) pour le rôle de réplication.
Adresse du dispositif Orchestrator passif (Standby Orchestrator Address) Entrez l'adresse IP principale du dispositif Orchestrator passif.
Adresse du dispositif Orchestrator passif (IPv6) [(Standby Orchestrator Address) (IPv6)] Entrez l'adresse IPv6 du dispositif Orchestrator passif.
Adresse secondaire du dispositif Orchestrator passif (Standby Orchestrator Secondary Address) Entrez l'adresse de l'interface secondaire du dispositif Orchestrator passif. Cette adresse est utilisée pour la réplication si le dispositif passif est promu en actif. Les utilisateurs peuvent ajouter ici une adresse IPv4/IPv6 ou de nom de domaine complet.
UUID du dispositif Orchestrator passif (Standby Orchestrator UUID) Entrez l'UUID du dispositif Orchestrator passif.
Mode de configuration (Configuration Mode) Cochez la case d'option Configurer automatiquement le dispositif passif (Auto Configure Standby) ou Configurer manuellement le dispositif passif (Manually Configure Standby) en fonction des besoins.

En cas de configuration manuelle, collez une valeur de chaîne d'ACTIVE VCO vers STANDBY_WAIT

.
Nom d'utilisateur du super utilisateur (Superuser Username) Entrez le nom d'affichage du super utilisateur du dispositif Orchestrator.
Mot de passe de super utilisateur du dispositif Orchestrator passif (Standby Orchestrator Superuser Password) Entrez le mot de passe de super utilisateur du dispositif Orchestrator.
  1. Cliquez sur le bouton Activer pour le dispositif actif (Enable for Active) pour activer le rôle de réplication.

Une fois la configuration terminée, les deux dispositifs Orchestrator (passif et actif) sont synchronisés.

Dispositif Orchestrator passif synchronisé

Dispositif Orchestrator actif synchronisé

Basculement de test

Les scénarios de basculement de test suivants sont des basculements forcés fournis à titre d'exemple. Vous pouvez effectuer ces actions dans la zone Actions disponibles (Available Actions) des écrans Actif (Active) et Passif (Standby).

Promouvoir une instance d'Orchestrator en veille

Cette section décrit comment promouvoir une instance d'Orchestrator en veille.

Pour promouvoir un dispositif Orchestrator passif, procédez comme suit :

  1. Cliquez sur le lien déverrouiller (unlock).
  2. Cliquez sur le bouton Promouvoir le mode veille (Promote Standby) dans la zone Actions disponibles (Available Actions) de l'écran Orchestrator en veille.

    La boîte de dialogue suivante s'affiche, indiquant que lorsque vous promouvez votre instance d'Orchestrator en veille, les administrateurs ne pourront plus gérer SASE Orchestrator à l'aide de l'instance d'Orchestrator précédemment active.

  3. Cliquez sur le bouton Promouvoir le dispositif passif (Promote Standby) pour promouvoir le dispositif Orchestrator passif.
  4. Cliquez sur Forcer la promotion du dispositif passif (Force Promote Standby) pour promouvoir le dispositif Orchestrator.

    Une boîte de dialogue finale s'affiche, indiquant que le dispositif Orchestrator n'est plus passif et qu'il redémarre en mode autonome.

Lorsque vous promouvez un dispositif Orchestrator passif, il redémarre en mode autonome.

Si le dispositif passif peut communiquer avec le dispositif Orchestrator précédemment actif, il demande à ce dispositif Orchestrator de passer à l'état de zombie. À l'état de zombie, l'instance d'Orchestrator communique avec ses clients (dispositifs Edge, passerelles, interface utilisateur/API) pour leur signaler qu'elle n'est plus active et qu'ils doivent communiquer avec la nouvelle instance d'Orchestrator promue. Si l'instance en veille promue ne peut pas communiquer avec l'instance d'Orchestrator précédemment active, l'opérateur doit, si possible, rétrograder manuellement l'instance d'Orchestrator précédemment active.

Revenir au mode autonome

Pour remettre le zombie en mode autonome, cliquez sur le bouton Revenir au mode autonome (Return to Standalone Mode) dans la zone Actions disponibles (Available Actions) des écrans Dispositif Orchestrator actif (Active Orchestrator) ou Dispositif Orchestrator passif (Standby Orchestrator).

Note :

Le dispositif Orchestrator peut revenir de l'état de zombie au mode autonome après le délai spécifié dans la propriété système « vco.disasterRecovery.zombie.expirySeconds » qui est par défaut de 1 800 secondes.

Dépannage de la récupération d'urgence de SASE Orchestrator

Cette section décrit les états de panne du système. Ceux-ci sont également répertoriés dans l'interface utilisateur avec une description plus détaillée de la panne. Des informations supplémentaires sont disponibles dans le journal de VMware.

Pannes récupérables

Les erreurs suivantes sont des pannes récupérables susceptibles se produire après que la récupération d'urgence de SASE Orchestrator a atteint l'état synchronisé. Si le problème entraînant ces pannes est corrigé, la récupération d'urgence de SASE Orchestrator revient automatiquement à un fonctionnement normal.

  • FAILURE_SYNCING_FILES
  • FAILURE_GET_STANDBY_STATUS
  • FAILURE_MYSQL_ACTIVE_STATUS
  • FAILURE_MYSQL_STANDBY_STATUS

Pannes irrécupérables

Les pannes suivantes peuvent se produire lors de la configuration de la récupération d'urgence de SASE Orchestrator. La récupération d'urgence de SASE Orchestrator ne reprend pas automatiquement après ces pannes.

  • FAILURE_ACTIVE_CONFIGURING
  • FAILURE_LAUNCHING_STANDBY
  • FAILURE_STANDBY_CONFIGURING
  • FAILURE_COPYING_DB
  • FAILURE_COPYING_FILES
  • FAILURE_SYNC_CONFIGURING
  • FAILURE_GET_STANDBY_CONFIG
  • FAILURE_STANDBY_CANDIDATE
  • FAILURE_STANDBY_UNCONFIG
  • FAILURE_STANDBY_PROMOTION
  • FAILURE_ACTIVE_DEMOTION