호스트가 실패하여 해당 가상 시스템을 다시 시작해야 하는 경우 VM 다시 시작 우선 순위 설정을 통해 가상 시스템을 다시 시작하는 순서를 조절할 수 있습니다. 또한 호스트 분리 응답 설정을 사용하여 호스트 간의 관리 네트워크 연결이 끊겼을 때 vSphere HA가 대처할 방법도 구성할 수 있습니다. 장애 이후 vSphere HA가 가상 시스템을 다시 시작할 때 다른 요소도 고려해야 합니다.

다음 설정은 호스트 장애 또는 분리가 발생할 경우 클러스터의 모든 가상 시스템에 적용됩니다. 필요한 경우 특정 가상 시스템에 대해 예외를 구성할 수 있습니다. 개별 가상 시스템 사용자 지정를 참조하십시오.

VM 다시 시작 우선 순위

VM 다시 시작 우선 순위에 따라 호스트 장애 이후 가상 시스템에 리소스가 할당되는 상대적 순서가 결정됩니다. 가상 시스템은 예약되지 않은 용량이 있는 호스트에 할당되며, 우선 순위가 가장 높은 가상 시스템부터 우선 순위에 따라 배치되고 모든 가상 시스템이 배치되거나 가상 시스템의 예약 또는 메모리 오버헤드를 충족할 수 있는 클러스터 용량이 더 이상 없을 때까지 계속됩니다. 그런 다음에 호스트가 할당된 가상 시스템을 우선 순위대로 다시 시작합니다. 리소스가 부족한 경우 vSphere HA는 예약되지 않은 용량을 더 많이 사용할 수 있게 될 때까지(예: 다시 온라인 상태가 되는 호스트로 인해 늘어남) 기다린 후에 해당 가상 시스템의 배치를 다시 시도합니다. 이러한 상황이 발생할 수 있는 가능성을 줄이려면 장애에 대비하여 더 많은 리소스를 예약하도록 vSphere HA 승인 제어를 구성하십시오. 승인 제어는 가상 시스템에 의해 예약되는 클러스터 용량을 제어할 수 있게 해 줍니다. 이러한 클러스터 용량은 장애가 발생할 경우 다른 가상 시스템의 예약 및 메모리 오버헤드를 충족할 수 없습니다.

이 설정에 대한 값은 사용 안 함, 낮음, 중간(기본값) 및 높음입니다. vSphere HA VM/애플리케이션 모니터링 기능은 가상 시스템을 운영 체제 수준의 장애로부터 보호하지만 가상 시스템 장애로부터는 보호하지 않으므로 이 기능은 사용 안 함 설정을 무시합니다. 운영 체제 수준에서 장애가 발생하면 vSphere HA가 운영 체제를 다시 부팅하고 가상 시스템은 동일한 호스트에서 실행 상태를 유지합니다. 개별 가상 시스템을 위해 이 설정을 변경할 수 있습니다.

참고:

가상 시스템을 재설정하면 게스트 운영 체제가 하드 재부팅되지만 가상 시스템의 전원이 껐다 켜지지는 않습니다.

가상 시스템의 다시 시작 우선 순위 설정은 사용자 요구 사항에 따라 다를 수 있습니다. 가장 중요한 서비스를 제공하는 가상 시스템에 더 높은 다시 시작 우선 순위를 할당하십시오.

예를 들어, 다중 계층 애플리케이션의 경우 가상 시스템에서 호스팅하는 기능에 따라 할당 순위를 지정할 수 있습니다.

  • 높습니다. 애플리케이션에 데이터를 제공하는 데이터베이스 서버

  • 중간입니다. 데이터베이스의 데이터를 사용하고 웹 페이지에 결과를 제공하는 애플리케이션 서버

  • 낮습니다. 사용자 요청을 받고, 쿼리를 애플리케이션 서버에 전달하고, 결과를 사용자에게 반환하는 웹 서버

호스트에서 장애가 발생할 경우 vSphere HA는 영향을 받은 가상 시스템 중에서 켜져 있고 다시 시작 우선 순위가 사용 안 함으로 설정되어 있는 가상 시스템 또는 꺼져 있는 가상 시스템을 활성 호스트에 등록하려고 시도합니다.

호스트 분리 응답

호스트 분리 응답은 vSphere HA 클러스터의 호스트에서 관리 네트워크 연결이 끊어졌지만 계속 실행되는 경우에 어떻게 처리할지를 결정합니다. 분리 응답을 사용하면 vSphere HA가 분리된 호스트에서 실행 중인 가상 시스템의 전원을 끈 다음 분리되지 않은 호스트에서 해당 가상 시스템을 다시 시작하도록 할 수 있습니다. 호스트 분리 응답을 사용하려면 호스트 모니터링 상태가 사용되도록 설정되어야 합니다. 호스트 모니터링 상태가 사용되지 않도록 설정하면 호스트 분리 응답도 일시 중단됩니다. 호스트는 다른 호스트에서 실행 중인 에이전트와 통신할 수 없고 분리 주소로 ping할 수 없으면 분리되었다고 판단합니다. 그럴 경우 호스트는 분리 응답을 실행합니다. 응답은 "전원을 끈 후 VM을 다시 시작" 또는 "종료 후 VM을 다시 시작"입니다. 개별 가상 시스템을 위해 이 속성을 사용자 지정할 수 있습니다.

참고:

가상 시스템의 다시 시작 우선 순위가 사용 안 함으로 설정된 경우 호스트 분리 응답이 수행되지 않습니다.

"종료 후 VM을 다시 시작" 설정을 사용하려면 가상 시스템의 게스트 운영 체제에 VMware Tools를 설치해야 합니다. 가상 시스템을 종료하면 해당 상태를 보존할 수 있다는 이점이 있습니다. 가상 시스템의 전원을 끄는 것보다는 종료하도록 설정하는 것이 최신 변경 사항을 디스크로 플러시하거나 트랜잭션을 커밋하지 않으므로 권장되는 방식입니다. 가상 시스템은 종료가 수행되는 동안 페일오버를 수행해야 하기 때문에 종료 프로세스 수행 시간은 다소 오래 걸릴 수 있습니다. 300초 또는 고급 옵션 das.isolationshutdowntimeout에 지정된 시간 동안 종료되지 않은 가상 시스템은 전원이 꺼집니다.

vSphere HA 클러스터를 생성한 후 특정 가상 시스템의 다시 시작 우선 순위 및 분리 응답에 대한 기본 클러스터 설정을 재정의할 수 있습니다. 이러한 재정의는 특수한 작업에 사용되는 가상 시스템에 유용합니다. 예를 들어, DNS 또는 DHCP와 같은 인프라 서비스를 제공하는 가상 시스템은 클러스터의 다른 가상 시스템보다 먼저 전원이 켜져야 합니다.

호스트가 마스터 호스트로부터 분리되거나 분할되고 마스터 호스트가 하트비트 데이터스토어를 사용하여 해당 호스트와 통신할 수 없을 때 가상 시스템 "분할 브레인" 상태가 발생할 수 있습니다. 이 경우 마스터 호스트는 호스트가 활성(alive) 상태인지를 확인할 수 없으므로 비활성(dead) 상태로 선언합니다. 그런 다음에 마스터 호스트는 분리되거나 분할된 호스트에서 실행 중인 가상 시스템을 다시 시작하려고 시도합니다. 가상 시스템이 분리/분할된 호스트에서 계속 실행 중이고 해당 호스트가 분리되거나 분할될 때 가상 시스템의 데이터스토어에 액세스할 수 없게 되는 경우 이 시도는 성공합니다. 그러면 두 개의 가상 시스템 인스턴스가 있기 때문에 분할 브레인 상태가 발생합니다. 하지만 한 인스턴스만 가상 시스템의 가상 디스크를 읽거나 쓸 수 있습니다. VM 구성 요소 보호를 사용하여 이러한 분할 브레인 상태를 방지할 수 있습니다. 적극적 설정으로 VMCP를 사용하면 VMCP가 전원이 켜진 가상 시스템의 데이터스토어 액세스 지원을 모니터링하고 해당 데이터스토어에 액세스할 수 없게 된 가상 시스템을 종료합니다.

이 상황을 복구하기 위해 ESXi는 호스트가 분리 상태를 벗어날 때 디스크 잠금을 손실하고 해당 디스크 잠금을 다시 획득할 수 없게 된 가상 시스템에 대해 질문을 생성합니다. vSphere HA는 자동으로 이 질문에 답변하며, 이를 통해 디스크 잠금을 손실한 가상 시스템 인스턴스의 전원이 꺼지게 되고 디스크 잠금을 가지고 있는 인스턴스는 그대로 남아 있게 됩니다.

가상 시스템을 다시 시작할 때 고려되는 요소

장애 이후 클러스터의 마스터 호스트는 영향을 받은 가상 시스템을 켤 수 있는 호스트를 식별하여 해당 가상 시스템을 다시 시작하려고 시도합니다. 이러한 호스트를 선택할 때 마스터 호스트는 몇 가지 요소를 고려합니다.

파일 액세스 지원

가상 시스템을 시작하려면 마스터가 네트워크를 통해 통신할 수 있는 활성 클러스터 호스트 중 하나에서 해당 파일에 액세스할 수 있어야 합니다.

가상 시스템 및 호스트 호환성

액세스 가능한 호스트가 있는 경우 가상 시스템은 적어도 그중에서 하나와 호환되어야 합니다. 가상 시스템의 호환성 세트는 필수 VM-호스트 선호도 규칙의 효과를 포함합니다. 예를 들어 규칙에서 가상 시스템을 두 개의 호스트에서만 실행할 수 있도록 허용하는 경우 이 두 개의 호스트에 배치하는 것이 고려됩니다.

리소스 예약

가상 시스템이 실행될 수 있는 호스트 중에서 적어도 하나는 가상 시스템의 메모리 오버헤드와 리소스 예약을 충족하기에 충분할 만큼 예약되지 않은 용량을 가지고 있어야 합니다. CPU, 메모리, vNIC, 가상 플래시의 네 가지 예약 유형이 고려됩니다. 또한 가상 시스템을 켜는 데 충분한 네트워크 포트를 사용할 수 있어야 합니다.

호스트 제한

리소스 예약 외에도 가상 시스템은 배치되더라도 허용되는 최대 가상 시스템 수나 사용 중 vCPU 수를 초과하지 않을 경우에만 호스트에 배치될 수 있습니다.

기능 제약 조건

vSphere HA가 VM-VM 반선호도 규칙을 적용하도록 하는 고급 옵션이 설정된 경우 vSphere HA는 이 규칙을 위반하지 않아야 합니다. 또한 vSphere HA는 무장애 가상 시스템에 대해 구성된 호스트당 제한을 위반하지 않아야 합니다.

이상 고려 사항을 충족하는 호스트가 없는 경우 마스터 호스트는 vSphere HA에 대한 리소스가 부족하여 VM을 시작할 수 없다는 것을 알리는 이벤트를 생성하고, 클러스터 조건이 바뀔 때 다시 시도합니다. 예를 들어 가상 시스템에 액세스할 수 없는 경우 마스터 호스트는 파일 액세스 지원이 변경된 후에 다시 시도합니다.

가상 시스템 다시 시작 시도 제한

vSphere HA 마스터 에이전트가 VM을 등록하고 켜서 다시 시작하려고 했는데 실패할 경우, 지연 시간이 지난 후 다시 시작을 다시 시도합니다. vSphere HA는 최대 시도 횟수(기본적으로 6)만큼 이러한 다시 시작을 시도하지만 모든 다시 시작 실패 횟수가 이 횟수에 포함되는 것은 아닙니다.

예를 들어 다시 시작 시도가 실패하는 주된 이유는 아직 VM이 다른 호스트에서 계속 실행 중이거나 vSphere HA가 실패한 후에 너무 일찍 VM을 다시 시작하려고 시도하기 때문입니다. 이러한 상황에서는 마스터 에이전트가 마지막 시도 시 사용된 지연 시간의 두 배를 기다린 후에 재시도합니다. 이때 최소 지연 시간은 1분이고, 최대 지연 시간은 30분입니다. 따라서 지연 시간이 1분으로 설정된 경우 T=0에서 초기 시도가 이루어지고 후속 시도는 T=1(1분), T=3(3분), T=7(7분), T=15(15분) 및 T=30(30분)입니다. 이러한 각각의 시도는 제한에 포함되며 기본적으로 여섯 번만 시도할 수 있습니다.

다른 다시 시작 실패는 재시도 횟수에 포함되지만 지연 시간 간격이 다릅니다. 예를 들어 마스터 에이전트에서 가상 시스템을 다시 시작할 호스트를 선택한 후에 해당 호스트가 VM의 데이터스토어 중 하나에 액세스할 수 없게 되는 경우가 있습니다. 이 경우에는 기본 지연 시간인 2분 후에 다시 시도합니다. 이 시도도 제한 횟수에 포함됩니다.

마지막으로, 일부 재시도는 횟수에 포함되지 않습니다. 예를 들어 마스터 에이전트가 다시 시작 요청을 실행하기 전에 가상 시스템을 다시 시작해야 하는 호스트에 장애가 발생할 경우, 2분 후에 다시 요청이 실행되지만 이 실패는 최대 재시도 횟수에 포함되지 않습니다.

가상 시스템 다시 시작 알림

vSphere HA는 클러스터에서 가상 시스템에 대한 페일오버 작업이 진행 중일 때 클러스터 이벤트를 생성합니다. 이 이벤트는 다시 시작되고 있는 가상 시스템의 수를 보고하는 클러스터 요약 탭에서 구성 문제도 표시합니다. 이러한 VM에 대해 네 가지 범주가 있습니다.

  • 배치 중인 VM: vSphere HA가 이 VM을 다시 시작하려고 시도하는 중입니다.

  • 재시도를 기다리는 VM: 이전 다시 시작 시도가 실패했으며 vSphere HA가 제한 시간이 만료되기를 기다린 후에 다시 시도합니다.

  • 추가 리소스를 필요로 하는 VM: 이 VM을 다시 시작하기 위한 리소스가 부족합니다. vSphere HA는 더 많은 리소스를 사용할 수 있게 될 때(예: 호스트가 다시 온라인 상태가 될 때) 다시 시도합니다.

  • 액세스할 수 없는 Virtual SAN VM: 이 Virtual SAN VM은 액세스가 불가능하기 때문에 vSphere HA에서 다시 시작할 수 없습니다. 액세스 지원에 변화가 있을 때 다시 시도합니다.

이러한 가상 시스템 개수는 다시 시작 작업이 수행되는 VM의 수가 변경될 때마다 동적으로 업데이트됩니다. 구성 문제는 vSphere HA가 모든 VM을 다시 시작했거나 시도를 포기했을 때 해결됩니다.

vSphere 5.5 이하에서는 가상 시스템을 다시 시작하려는 시도가 실패할 때마다 VM별 이벤트가 트리거됩니다. 이 이벤트는 vSphere 6.x에서 기본적으로 사용되지 않으며 vSphere HA 고급 옵션 das.config.fdm.reportfailoverfailevent를 1로 설정함으로써 사용할 수 있습니다.