다중 노드 HA(고가용성) 구성의 VMware Aria Automation 장치에 장애가 발생할 경우 결함이 있는 노드를 교체해야 할 수 있습니다.

경고: 계속하기 전에 VMware에서는 기술 지원에 문의하여 HA 문제를 해결하고 문제가 하나의 노드로 격리되었는지 확인할 것을 권장합니다.

기술 지원에서 노드를 교체해야 한다고 판단하면 다음 단계를 수행합니다.

  1. vCenter에서 HA 구성에 있는 모든 장치의 백업 스냅샷을 생성합니다.

    백업 스냅샷에 가상 시스템 메모리는 포함하지 않습니다.

  2. 결함이 있는 노드를 종료합니다.
  3. 결함이 있는 노드 VMware Aria Automation 소프트웨어 빌드 번호 및 네트워크 설정을 기록해둡니다.

    FQDN, IP 주소, 게이트웨이, DNS 서버, 특히 MAC 주소를 적어둡니다. 나중에 동일한 값을 교체 노드에 할당합니다.

  4. 기본 데이터베이스 노드의 상태를 확인합니다. 정상 노드의 루트 명령줄에서 다음을 실행합니다.
    > kubectl get pod `vracli status | jq -r '.databaseNodes[] | select(.["Role"] == "primary") | .["Node name"]' | cut -d '.' -f 1` -n prelude -o wide --no-headers=true
    
    primary-db-node-name 1/1 Running 0 39h 12.123.2.14 vc-vm-224-84.company.com <none> <none>
    중요: 기본 데이터베이스 노드는 정상 노드 중 하나여야 합니다.

    기본 데이터베이스 노드에 결함이 있으면 계속 진행하지 말고 기술 지원에 문의하십시오.

  5. 정상 노드의 루트 명령줄에서 결함이 있는 노드를 제거합니다.

    vracli cluster remove faulty-node-FQDN

  6. vCenter를 사용하여 새로운 교체용 VMware Aria Automation 노드를 배포합니다.

    동일한 VMware Aria Automation 소프트웨어 빌드 번호를 배포하고 결함이 있는 노드의 네트워크 설정을 적용합니다. 앞에서 적어둔 FQDN, IP 주소, 게이트웨이, DNS 서버, 특히 MAC 주소를 포함합니다.

  7. 교체 노드의 전원을 켭니다.
  8. 교체 노드의 명령줄에 루트로 로그인합니다.
  9. 다음 명령을 실행하여 초기 부팅 순서가 완료되었는지 확인합니다.

    vracli status first-boot

    First boot complete 메시지를 찾습니다.

  10. 교체 노드에서 VMware Aria Automation 클러스터에 가입합니다.

    vracli cluster join primary-DB-node-FQDN

  11. 기본 데이터베이스 노드의 명령줄에 루트로 로그인합니다.
  12. 다음 스크립트를 실행하여 복구된 클러스터를 배포합니다.

    /opt/scripts/deploy.sh