A funcionalidade de recuperação após desastre (DR) do SASE Orchestrator impede a perda de dados armazenados e resume os serviços do SASE Orchestrator em caso de falha do sistema ou da rede.

A DR do SASE Orchestrator implica a configuração de um par SASE Orchestrator ativo/em standby com a replicação de dados e um mecanismo de recuperação automática acionado manualmente.
  • O objetivo do tempo de recuperação (RTO) depende, portanto, de uma ação explícita por parte do operador para acionar a promoção do Orchestrator em standby.
  • O objetivo do ponto de recuperação (RPO), no entanto, é essencialmente zero, independentemente do tempo de recuperação, porque toda a configuração é instantaneamente replicada. Os dados de monitorização que teriam sido recolhidos durante a falha são colocados em cache nos Edges e Gateways enquanto aguardam a promoção do Orchestrator em standby.
Nota: A DR é obrigatória. Para licenciamento e preços, contacte a equipa de vendas do VMware para obter apoio.

Par ativo/standby

Numa implementação DR do SASE Orchestrator, são configurados dois sistemas do SASE Orchestrator idênticos como um par ativo/standby. O operador pode ver o estado de prontidão da DR através da IU Web em qualquer um dos servidores. Os Edges e os gateways estão cientes de ambos os SASE Orchestrators e, embora recebam alterações de configuração apenas a partir do SASE Orchestrator ativo, enviam periodicamente heartbeats da DR para ambos os sistemas para comunicar a respetiva vista de ambos os servidores e para consultar o estado do sistema DR. Quando o operador aciona uma recuperação automática, os Edges e Gateways são informados da alteração no próximo heartbeat da DR.

Estados da DR

Na vista de um operador, bem como dos Edges e Gateways, um SASE Orchestrator tem um dos quatro estados DR:

Estado DR Descrição
Autónomo Nenhuma DR configurada.
Ativo DR configurada, a atuar como o servidor principal do SASE Orchestrator.
Standby DR configurada, a atuar como uma réplica inativa do servidor do SASE Orchestrator.
Zombie DR anteriormente configurada e ativa, mas já não atua como ativa ou em standby.

Operação de tempo de execução

Quando a DR está configurada, o servidor em standby é executado num modo limitado, bloqueando todas as chamadas da API, exceto as relacionadas com o estado e os heartbeats da DR. Quando o operador invoca uma recuperação automática, o servidor em standby é promovido para se tornar totalmente operacional como um servidor autónomo. O servidor anteriormente ativo passará automaticamente para um estado Zombie se for reativo e visível a partir do servidor em standby promovido. No estado Zombie, os serviços de configuração de gestão estão bloqueados e qualquer contacto nos Edges e gateways que não tenham transitado para o novo SASE Orchestrator ativo são redirecionados para o servidor promovido.

disaster-recovery-replica-and-status

Configurar a replicação do SASE Orchestrator

São necessárias duas instâncias SASE Orchestrator instaladas para iniciar a replicação.

  • O Orchestrator em standby selecionado é colocado num estado STANDBY_CANDIDATE, permitindo que seja configurado pelo servidor ativo.
  • O servidor ativo recebe o endereço e as credenciais do Orchestrator em standby e entra no estado ACTIVE_CONFIGURING.
Quando um STANDBY_CONFIG_RQST passa de ativo para em standby, os dois servidores são sincronizados através das transições do estado.
Os dois Orchestrators nos quais a Recuperação após Desastre (DR) precisa de ser estabelecida devem ter a mesma hora. Antes de iniciar a replicação do SASE Orchestrator, certifique-se de que verifica as seguintes configurações de NTP:
  • O fuso horário do gateway deve ser definido para Etc/UTC. Utilize o seguinte comando para visualizar o fuso horário de NTP.
    vcadmin@vcg1-example:~$ cat /etc/timezone
    Etc/UTC
    vcadmin@vcg1-example:~$ 
    

    Se o fuso horário estiver incorreto, utilize os seguintes comandos para atualizar o fuso horário.

    echo "Etc/UTC" | sudo tee /etc/timezone
    sudo dpkg-reconfigure --frontend noninteractive tzdata
    
  • A compensação de NTP deve ser inferior ou igual a 15 milissegundos. Utilize o seguinte comando para visualizar a compensação de NTP.
    sudo ntpqvcadmin@vcg1-example:~$ sudo ntpq -p
         remote           refid      st t when poll reach   delay   offset  jitter
    ==============================================================================
    *ntp1-us1.prod.v 74.120.81.219    3 u  474 1024  377   10.171   -1.183   1.033
     ntp1-eu1-old.pr .INIT.          16 u    - 1024    0    0.000    0.000   0.000
    vcadmin@vcg1-example:~$ 
    

    Se a compensação estiver incorreta, utilize os seguintes comandos para atualizar a compensação de NTP.

    sudo systemctl stop ntp
    sudo ntpdate <server>
    sudo systemctl start ntp
  • Por predefinição, está configurada uma lista de Servidores NTP no ficheiro /etc/ntpd.conf. Os Orchestrators em que a DR precisa de ser estabelecida devem ter Internet para aceder aos Servidores NTP predefinidos e garantir que a hora está sincronizada em ambos os Orchestrators. Os clientes também podem utilizar o servidor NTP local em execução no seu ambiente para sincronizar a hora.

Configurar o Orchestrator em standby

Para configurar o Orchestrator em espera, execute os seguintes passos:

  1. No serviço SD-WAN do portal da empresa, clique no separador Orchestrator e, no painel esquerdo, clique no botão Replicação (Replication) para apresentar o ecrã Replicação do Orchestrator (Orchestrator Replication).
  2. Ative o Orchestrator em standby selecionando o botão de opção Espera (Função de replicação) [Standby (Replication Role)].
  3. Clique no botão Ativar para espera (Enable for Standby).

    É apresentada a página Orchestrator em standby (Standby Orchestrator).

  4. Introduza os parâmetros de configuração manual (manual configuration) e clique no botão Atualizar informações de configuração (Update configuration info).

    Depois de o Orchestrator em standby ter sido configurado para replicação, configure o Orchestrator ativo de acordo com as instruções abaixo.

Configurar o Orchestrator Ativo

Para configurar o Orchestrator ativo, selecione a função de replicação como ativa e configure o seguinte:

Opção Descrição
Selecionar função de replicação (Select Replication Role) Selecione o botão de opção Ativa (Active) para a função de replicação.
Endereço do Orchestrator em standby (Standby Orchestrator Address) Introduza o endereço IP do Orchestrator em standby primário.
Endereço do Orchestrator em standby (IPv6) [Standby Orchestrator Address (IPv6)] Introduza o endereço IPv6 do Orchestrator em standby.
Endereço secundário do Orchestrator em standby (Standby Orchestrator Secondary Address) Introduza o endereço da interface secundária do Orchestrator em standby. Este endereço será utilizado para replicação se o Orchestrator em standby for promovido a ativo. Os utilizadores podem adicionar o endereço IPv4/IPv6 ou FQDN aqui.
UUID do Orchestrator em standby (Standby Orchestrator UUID) Introduza o UUID do Orchestrator em standby.
Modo de configuração (Configuration Mode) Selecione o botão de opção Configurar automaticamente o Standby (Auto Configure Standby) ou Configurar manualmente o Standby (Manually Configure Standby) com base no requisito.

Quando configurado manualmente, cole um valor de cadeia de ATIVE VCO para STANDBY_WAIT

.
Nome de utilizador de superutilizador (Superuser Username) Introduza o nome a apresentar para o superutilizador do Orchestrator.
Palavra-passe de superutilizador do Orchestrator em standby (Standby Orchestrator Superuser Password) Introduza a palavra-passe para o superutilizador do Orchestrator.
  1. Clique no botão Ativar para ativo (Enable for Ative) para ativar a função de replicação.

Quando a configuração estiver concluída, ambos os Orchestrators (em standby e ativo) estarão em sincronização.

Orchestrator em standby em sincronização

Orchestrator ativo em sincronização

Testar a recuperação automática

Os seguintes cenários de teste de recuperação automática são recuperações automáticas forçadas, para fins de exemplo. Pode executar estas ações na área Ações disponíveis (Available Actions) dos ecrãs Ativo (Active) e Standby.

Promover um Orchestrator em standby

Esta secção descreve como promover um Orchestrator em standby.

Para promover um Orchestrator em standby, execute os passos seguintes:

  1. Clique na ligação desbloquear (unlock).
  2. Clique no botão Promover standby (Promote Standby) na área Ações disponíveis (Available Actions) no ecrã do Orchestrator em standby.

    É apresentada a seguinte caixa de diálogo, a indicar que, quando promove o Orchestrator em standby, os administradores deixam de conseguir gerir o SASE Orchestrator com o Orchestrator anteriormente ativo.

  3. Clique no botão Promover standby (Promote Standby) para promover o Orchestrator em standby.
  4. Clique em Forçar promoção do standby (Force Promote Standby) para promover o Orchestrator.

    É apresentada uma caixa de diálogo final a indicar que o Orchestrator já não está em standby e será reiniciado no modo autónomo.

Quando promove um Orchestrator em standby, este é reiniciado no modo autónomo.

Se o Orchestrator em standby conseguir comunicar com o Orchestrator anteriormente ativo, instruirá o Orchestrator a entrar num estado Zombie. No estado Zombie, o Orchestrator comunica com os respetivos clientes (Edges, gateways, IU/API) que já não é ativo e que têm de comunicar com o Orchestrator recém-promovido. Se o Orchestrator em standby promovido não puder comunicar com o Orchestrator anteriormente ativo, o operador deverá, se possível, despromover manualmente o Orchestrator anteriormente ativo.

Regressar ao modo autónomo

Para regressar ao modo autónomo do Zombie, clique no botão Regressar ao modo autónomo (Return to Standalone Mode) na área Ações disponíveis (Available Actions) dos ecrãs Orchestrator ativo (Active Orchestrator) ou Orchestrator em standby (Standby Orchestrator).

Nota:

O Orchestrator pode regressar ao modo autónomo no estado zombie após o tempo especificado na propriedade do sistema “vco.disasterRecovery.zombie.expirySeconds”, predefinido para 1800 segundos.

Resolução de problemas da DR do SASE Orchestrator

Esta secção descreve os estados de falha do sistema. Estes também estão listados na IU, juntamente com uma descrição mais detalhada da falha. Estão disponíveis mais informações no registo VMware.

Falhas recuperáveis

Os seguintes erros são falhas recuperáveis que podem ocorrer após a DR do SASE Orchestrator atingir um estado de sincronização. Se o problema que causa estas falhas for corrigido, a DR do SASE Orchestrator voltará automaticamente ao funcionamento normal.

  • FAILURE_SYNCING_FILES
  • FAILURE_GET_STANDBY_STATUS
  • FAILURE_MYSQL_ACTIVE_STATUS
  • FAILURE_MYSQL_STANDBY_STATUS

Falhas irrecuperáveis

Durante a configuração da DR do SASE Orchestrator, podem ocorrer as seguintes falhas. A DR do SASE Orchestrator não recuperará automaticamente destas falhas.

  • FAILURE_ACTIVE_CONFIGURING
  • FAILURE_LAUNCHING_STANDBY
  • FAILURE_STANDBY_CONFIGURING
  • FAILURE_COPYING_DB
  • FAILURE_COPYING_FILES
  • FAILURE_SYNC_CONFIGURING
  • FAILURE_GET_STANDBY_CONFIG
  • FAILURE_STANDBY_CANDIDATE
  • FAILURE_STANDBY_UNCONFIG
  • FAILURE_STANDBY_PROMOTION
  • FAILURE_ACTIVE_DEMOTION