지속적인 가용성 FAQ

vRealize Operations Manager 8에서 지속적인 가용성 도입에 대한 몇 가지 자주 묻는 질문과 답변입니다. 이 섹션은 지속적인 가용성에 대한 인식과 지식을 향상하는 데 도움이 됩니다.

분석 노드에 데이터를 저장하는 방법은 무엇입니까?

개체가 검색되면 vRealize Operations Manager는 데이터를 보존할 노드를 결정한 다음 다른 장애 도메인의 해당 쌍 노드에 해당 데이터를 복사(복제)합니다. 모든 개체는 장애 도메인 전체에 걸쳐 두 개의 분석 노드(노드 쌍)에 저장되며 항상 동기화됩니다.

예를 들어 vRealize Operations Manager에는 8개의 분석 노드가 있으며, CA가 사용되도록 설정되어 있으므로 각 장애 도메인에는 4개의 분석 노드가 있게 됩니다(위의 다이어그램 참조).

새 개체가 검색되면 vRealize Operations Manager는 "데이터 노드 2B"(기본)에 데이터를 저장하도록 결정하고 데이터의 복사본이 "데이터 노드 2A"(보조)에 자동으로 저장됩니다.

"FD A"를 사용할 수 없게 되면 "데이터 노드 2B"의 "기본" 데이터가 사용됩니다.

"FD B"를 사용할 수 없게 되면 "데이터 노드 2A"의 "보조" 데이터가 사용됩니다.

지속적인 가용성 클러스터가 중단되는 상황은 무엇입니까? 기본 노드 또는 기본 복제본 노드 및 데이터 노드가 동시에 손실되거나 양쪽 장애 도메인에서 데이터 노드가 둘 이상 손실되는 경우는 지원되지 않습니다.

장애 도메인 1의 각 분석 노드에는 장애 도메인 2에 있는 노드 쌍이 있으며 그 반대의 경우도 마찬가지입니다.

이전에 언급한 예로 보면 4개의 노드 쌍이 있습니다.

기본 + 복제본 노드

데이터 노드 1A(FD A) + 데이터 노드 1B(FD B)

데이터 노드 2A(FD A) + 데이터 노드 2B(FD B)

데이터 노드 3A(FD A) + 데이터 노드 3B(FD B)

각 노드 쌍의 두 노드는 항상 동기화되고 동일한 데이터를 저장합니다. 따라서 클러스터는 모든 노드 쌍에서 하나의 노드를 사용할 수 있는 동안 데이터 손실 없이 계속 작동합니다.

장애 도메인 중 하나의 데이터 노드를 사용할 수 없게 되면 어떻게 됩니까?

클러스터는 성능 저하 상태가 되지만 장애 도메인에서 하나의 노드를 사용할 수 없게 되면 계속 작동합니다. 데이터는 손실되지 않습니다. 클러스터가 성능 저하 상태로 유지되지 않도록 데이터 노드를 복구하거나 교체해야 합니다.

장애 도메인 1에 2개의 데이터 노드가 있고 장애 도메인 2의 기본 복제본 노드가 손실된 경우 클러스터가 중단됩니까?

이 예에서는 클러스터가 데이터 손실 없이 계속 작동합니다. 각 노드 쌍에서 하나의 분석 노드를 계속 사용할 수 있는 경우에는 데이터 손실이 발생하지 않습니다.

전체 장애 도메인을 사용할 수 없게 되면 어떻게 됩니까?

클러스터는 성능 저하 상태가 되지만 전체 장애 도메인을 사용할 수 없게 되면 계속 작동합니다. 데이터는 손실되지 않습니다. 클러스터가 성능 저하 상태로 유지되지 않도록 장애 도메인을 복구하고 온라인으로 전환해야 합니다.

장애 도메인을 복구할 수 없는 경우 전체 장애 도메인을 새로 배포된 노드로 교체할 수 있습니다. 관리 UI에서는 기본 복제본 노드만 교체할 수 있습니다. 기본 노드에 대한 전체 장애 도메인이 손실된 경우 기본 노드 페일오버가 발생하고 기본 복제본 노드가 새 기본 노드로 승격될 때까지 대기해야 합니다.

실패한 노드를 장애 도메인에 다시 추가하는 올바른 프로세스는 무엇입니까? 동기화하는 데는 얼마나 걸립니까?

실패한 노드를 다시 추가하는 권장 절차는 관리 UI 내에서 "클러스터의 노드 교체" 기능을 사용하는 것입니다. 교체 노드가 추가되면 데이터가 동기화됩니다. 동기화 시간은 개체 수, 개체의 기간별 기간, 네트워크 대역폭 및 클러스터의 로드에 따라 크게 달라집니다.

장애 도메인 간의 네트워크 지연 시간이 20밀리초를 초과하면 어떻게 됩니까? vRealize Operations Manager가 허용할 수 있는 연장 지연 시간은 얼마입니까?

최적의 성능을 얻으려면 지연 시간 요구 사항을 준수해야 합니다. 장애 도메인 간의 지연 시간은 10밀리초 미만이어야 하며 20초 간격 동안 최대 20밀리초입니다. 네트워크 요구 사항에 대한 자세한 내용은 KB 문서 vRealize Operations Manager 크기 조정 지침(KB 2093783)을 참조하십시오.

장애 도메인 간의 네트워크 지연 시간이 일부 기간 동안 "20초 간격 동안 20밀리초" 이상으로 증가한 후에 다시 10밀리초 아래로 복구되는 경우 재동기화되는 데 걸리는 시간은 얼마나 됩니까?

지연 시간이 높다고 해서 동기화가 중지되지는 않습니다. 개체가 검색되면 vRealize Operations Manager는 데이터를 보관해야 하는 노드(기본)를 결정합니다. 그런 다음 데이터의 두 번째 복사본이 해당 노드 쌍(보조)으로 이동됩니다. 모든 개체는 두 장애 도메인 간에 두 개의 분석 노드(쌍)에 저장됩니다. 동기화는 보조 노드가 정기적으로 기본 노드와 동기화되는 지속적인 프로세스입니다. 동기화는 기본 노드와 보조 노드의 마지막 동기화 타임 스탬프를 기반으로 수행됩니다. 따라서 vRealize Operations Manager에는 동기화 데이터 대기열이 없습니다.

누락된 폴링에 대한 실제 감시 노드 공차는 무엇입니까?

감시 노드 작업은 폴링 기반이 아닙니다. 감시 노드는 노드 중 하나가 다른 장애 도메인의 노드와 (여러 점검 후) 통신할 수 없는 경우에만 상호 작용합니다.

기본 노드 및 기본 복제본 노드가 페일오버되는 시점은 언제입니까?

페일오버는 기본 노드에 더 이상 액세스할 수 없거나 활성 상태가 아닌 경우에만 발생합니다.

기본 복제본 노드가 기본 노드로 승격되는 시기는 언제입니까?

기본 복제본 노드는 두 가지 경우에만 기본 노드로 승격됩니다.

기존 기본 노드가 다운된 경우.
연결된 장애 도메인이 다운/오프라인 상태인 경우.

원래 기본 노드가 온라인으로 다시 전환되면 기본 컨트롤이 재개됩니까? 데이터는 어떻게 동기화됩니까?: 기본 노드와 기본 복제본 노드가 모두 온라인 상태가 되어 작업이 정상으로 돌아가면 새로 승격된 기본 노드(이전 기본 복제본 노드)가 새 기본 노드로 계속 유지되고 새 기본 복제본(이전 기본 노드)이 새 기본 노드와 동기화됩니다.

장애 도메인 간 연결이 완전히 중단된 후 복구되면 어떻게 됩니까?: 장애 도메인 간의 통신이 몇 분 동안 완전히 중단되면 장애 도메인 중 하나가 자동으로 오프라인으로 전환됩니다. 네트워크 중단이 복원되면 관리자가 수동으로 장애 도메인을 온라인으로 전환해야 하며 데이터 동기화가 시작됩니다.

감시 노드를 사용할 수 없게될 때 장애 도메인에 어떤 문제가 있습니까?

두 장애 도메인이 모두 정상 상태이며 서로 통신하지만 감시 노드를 사용할 수 없는 경우 클러스터에 영향을 주지 않습니다. vRealize Operations Manager는 계속해서 작동합니다. 장애 도메인 간에 통신 문제가 있는 경우 다음과 같은 세 가지 상황이 발생할 수 있습니다.

두 장애 도메인에서 감시 노드에 액세스할 수 있는 경우 - 감시 노드가 사이트 상태에 따라 하나의 장애 도메인을 오프라인으로 전환합니다.
하나의 장애 도메인에서만 감시 노드에 액세스할 수 있는 경우 - 다른 장애 도메인이 자동으로 오프라인으로 전환됩니다.
두 장애 도메인 모두에서 감시 노드에 액세스할 수 없는 경우 - 두 장애 도메인이 모두 오프라인 상태로 전환됩니다.

감시 노드를 사용할 수 없게 되면 장애 도메인이 통신 중단 기간 동안 수집된 모든 데이터를 동기화합니까?: 수집된 데이터는 장애 도메인에 대한 연결이 복원되고 동기화되면 누락된 모든 데이터를 캡처하도록 즉시 동기화됩니다.

분석 노드가 다른 장애 도메인의 분석 노드와 통신할 수 없는 경우에는 어떻게 됩니까?: 분석 노드가 다른 장애 도메인 및 감시 노드의 모든 노드와 통신할 수 없는 경우 자동으로 오프라인으로 전환됩니다. 관리자는 모든 통신 문제가 해결되었는지 확인한 후 자동으로 오프라인으로 전환된 모든 노드 또는 전체 장애 도메인을 수동으로 다시 온라인으로 전환해야 합니다.

표준 클러스터의 최대 노드 수가 32만개의 개체를 지원하는 8개의 초대형 노드를 사용하는 경우 지속적인 가용성의 최대 노드 수에 20만개의 개체를 지원하는 10개 이상의 초대형 노드가 있는 이유는 무엇입니까?: 10개의 초대형 노드는 지속적인 가용성 클러스터에서만 지원되고 두 개의 개별 장애 도메인에 걸쳐 최대 5개의 초대형 노드를 참조합니다. 이를 통해 표준 클러스터에 대한 노드 수를 늘려서 더 많은 수의 개체를 수집할 수 있습니다.; 가능한 설계는 장애 도메인 1의 초대형 노드 5개, 장애 도메인 2의 초대형 노드 5개를 세 번째 사이트의 감시 노드와 함께 하는 것입니다. 장애 도메인 1과 장애 도메인 2 사이의 지연 시간이 10밀리초 미만과 같이 지연 시간 요구 사항을 충족해야 합니다. 지연 시간, 패킷 손실 및 대역폭에 대한 세부 정보는 KB 문서 vRealize Operations Manager 크기 조정 지침(KB 2093783)에 나와 있습니다.

지속적인 가용성으로 로드 밸런서가 지원됩니까?: 예. 로드 밸런서 구성에 대한 자세한 내용은 vRealize Operations Manager 설명서 페이지의 [리소스]에 있는 vRealize Operations Manager 로드 밸런싱 구성 가이드를 참조하십시오.

설명서에는 “CA를 사용하도록 설정하는 경우 기본 노드에 장애가 발생하는 경우에 기본 노드에서 제공하는 모든 기능을 복제본 노드에서 수행할 수 있습니다. 복제로의 페일오버는 자동으로 수행되며 단 2~3분의 vRealize Operations Manager 다운타임 후에 작업이 재개되고 데이터 수집이 다시 시작됩니다”라고 설명되어 있습니다.
테스트를 진행하는 동안 기본 노드에서 네트워크 인터페이스의 연결을 끊으면 5분 내에 새 기본으로 전환되고 제품 UI에서 추방되거나 이상한 오류가 발생합니다.: 언급된 2분 또는 3분은 대략적인 중간 값이므로 5분이 허용됩니다.

기본 노드가 페일오버 후 네트워크에 다시 연결되면 원래 기본 노드를 기본 역할로 반환하기 위해 권장되는 절차는 무엇입니까? : 기본 복제본 노드를 기본 노드 역할로 롤백할 필요는 없으며, 그 반대의 경우도 마찬가지입니다. 이전 기본 노드를 기본 역할로 계속 복원하려면 새 기본 노드 또는 해당 장애 도메인(원래 기본 노드가 상주하는 곳)에서 "노드를 오프라인/온라인으로 전환"을 사용합니다.

노드가 오프라인으로 전환되거나 재부팅될 때마다 해당 장애 도메인을 오프라인 상태로 전환하고 온라인으로 전환하여 노드를 다시 온라인으로 전환해야 합니까?: 재부팅 후 또는 오프라인/온라인 상태로 전환한 후 모든 노드는 자동으로 계속 작동합니다. 추가 단계는 필요하지 않습니다.