Quando un'appliance vRealize Automation in una configurazione a più nodi con alta disponibilità (HA) non riesce, potrebbe essere necessario sostituire il nodo in cui si è verificato il problema.

Attenzione: Prima di procedere, VMware consiglia di contattare il supporto tecnico per risolvere il problema relativo all'alta disponibilità e verificare che il problema sia isolato in un solo nodo.

Se il supporto tecnico stabilisce che è necessario sostituire il nodo, eseguire i passaggi seguenti.

  1. In vCenter, creare snapshot di backup di ogni appliance nella configurazione HA.

    Negli snapshot di backup, non includere la memoria della macchina virtuale.

  2. Arrestare il nodo in cui si è verificato il problema.
  3. Prendere nota delle impostazioni di rete e del numero di build del software vRealize Automation del nodo in cui si è verificato il problema.

    Prendere nota del nome di dominio completo, dell'indirizzo IP, del gateway, dei server DNS e in particolare dell'indirizzo MAC. Più tardi sarà necessario assegnare gli stessi valori al nodo sostitutivo.

  4. Il nodo primario del database deve essere uno dei nodi integri. Eseguire i passaggi seguenti:
    1. Accedere come root alla riga di comando di un nodo integro.
    2. Individuare il nome del nodo primario del database eseguendo il comando seguente.

      vracli status | grep primary -B 1

      Il risultato deve essere simile a questo esempio, dove postgres-1 è il nodo primario del database.

      "Conninfo":
      "host=postgres-1.postgres.prelude.svc.cluster.local
      dbname=repmgr-db user=repmgr-db passfile=/scratch/repmgr-db.cred
      connect_timeout=10",
      "Role": "primary",
    3. Verificare che il nodo primario del database sia integro eseguendo il comando seguente.

      kubectl -n prelude get pods -o wide | grep postgres

      Il risultato deve essere simile a questo esempio, dove postgres-1 risulta in esecuzione e integro nell'elenco.

      postgres-1 1/1 Running 0 39h 12.123.2.14 vc-vm-224-84.company.com <none> <none>
      postgres-2 1/1 Running 0 39h 12.123.1.14 vc-vm-224-85.company.com <none> <none>
      Importante: Se è presente un problema nel nodo primario del database, contattare il supporto tecnico anziché procedere.
  5. Dalla riga di comando root del nodo integro, rimuovere il nodo in cui si è verificato il problema.

    vracli cluster remove faulty-node-FQDN

  6. Utilizzare vCenter per distribuire un nuovo nodo di vRealize Automation sostitutivo.

    Distribuire lo stesso numero di build del software vRealize Automation e applicare le impostazioni di rete del nodo in cui si è verificato il problema. Includere il nome di dominio completo, l'indirizzo IP, il gateway, i server DNS e in particolare l'indirizzo MAC di cui si è preso nota in precedenza.

  7. Accendere il nodo sostitutivo.
  8. Accedere come root alla riga di comando del nodo sostitutivo.
  9. Verificare che la sequenza di avvio iniziale sia terminata eseguendo il comando seguente.

    vracli status first-boot

    Cercare un messaggio First boot complete.

  10. Dal nodo sostitutivo, aggiungere il cluster di vRealize Automation.

    vracli cluster join primary-DB-node-FQDN

  11. Accedere come root alla riga di comando del nodo primario del database.
  12. Distribuire il cluster riparato eseguendo lo script seguente.

    /opt/scripts/deploy.sh