VMware Cloud on AWS Autoscaler 서비스는 SDDC 인프라의 상태를 모니터링하고 초기 및 실제 장애를 감지하며 장애가 발생하기 전이나 후에 호스트를 교체하여 인프라에 자동으로 업데이트를 적용합니다.
AWS 인프라는 안정적이지만 가장 안정적인 인프라에서도 장애는 피할 수 없습니다. AWS 아키텍처 프레임워크 안정성 필라에는 클라우드의 안정성을 위한 설계 원칙에 대한 설명이 있습니다. VMware Cloud on AWS는 기본 인프라를 추상화하고 vCenter Server 및 ESXi의 예측 장애 분석 기능을 활용하여 장애 발생 시 사후 대응적 업데이트 적용 및 장애가 워크로드에 영향을 미치지 않도록 방지할 수 있는 예측적 업데이트 적용을 제공함으로써 이러한 원칙을 확장합니다.
대부분의 자동 업데이트 적용 프로세스는 백그라운드에서 이루어지며 기존 워크로드에 영향을 주지 않고 수행됩니다. 자동 업데이트 적용은 시스템의 상태를 모니터링하고 필요한 경우 SDDC에 하드웨어를 신속하게 추가하고, 장애가 발생하거나 상태 문제가 감지될 때 클러스터에 새 호스트를 삽입하고, 장애가 발생한 하드웨어에서 워크로드 VM을 제거할 수 있습니다. 또한 모든
VMware Cloud on AWS SDDC는 VMware
vSAN 및 vSphere HA를 사용하기 때문에 호스트 장애의 영향을 받는 워크로드는 자동으로 재배치되고 다시 시작됩니다.
참고: 자동 업데이트 적용 또는 계획된 유지 보수에 사용되는 추가 호스트에 대해서는 비용이 청구되지 않습니다.
자동 업데이트 적용의 개괄적인 아키텍처
자동 업데이트 적용 아키텍처에는 AWS 및 VMware 모두에서 제공하는 구성 요소가 포함되어 있습니다.
- AWS는 VMware 호스트 수준 정보, 특히 AWS 계획 유지 보수 이벤트를 전송합니다. Autoscaler 서비스는 이러한 알림을 수신하고 SDDC 내에 문제가 있으면 자동으로 업데이트를 적용합니다.
- SDDC 수준의 모니터링 서비스는 기본 VMware Cloud on AWS 구성 요소로부터 알림을 수신합니다.
사후 대응적 업데이트 적용
사후 대응적 자동 업데이트 적용은 하드웨어 및 소프트웨어 장애를 모니터링하고 여러 가지 방법으로 문제를 해결하려고 시도합니다. 자동 업데이트 적용은 내부 프로세스이며 계속해서 진화하고 있습니다. VMware Cloud on AWS 사용자는 워크플로 또는 해당 구성에 액세스할 수 없지만 이해를 돕기 위해 현재 관련된 단계에 대한 개략적인 개요를 아래에서 참고할 수 있습니다.
- 1: 모니터링
- VMware Cloud on AWS는 SDDC에 있는 모든 호스트의 상태를 지속적으로 모니터링합니다. 장애가 감지되면 자동 업데이트 적용으로 이벤트가 전송됩니다.
- 2: 일시적인 이벤트 대기
- 감지된 장애 중 일부는 일시적일 수 있습니다. 예를 들어 일시적인 연결 문제로 인해 모니터링 시스템이 호스트에 도달하지 못하는 경우입니다. 자동 업데이트 적용은 5분 동안 대기하면서 문제가 일시적인지 여부를 확인합니다. 그렇다면, 자동 업데이트 적용은 아무 작업도 수행하지 않고 반환됩니다.
- 3: 호스트 추가
- 5분 후에도 오류가 해결되지 않으면 자동 업데이트 적용은 SDDC에 호스트를 추가하기 시작합니다. 이러한 방식으로 호스트를 미리 추가하면 필요한 경우 호스트를 사용할 수 있습니다. 장애가 있는 SDDC의 호스트를 이 호스트로 교체할 때까지 이 호스트에 대한 요금은 청구되지 않습니다.
- 4: 장애 유형 결정 및 작업 수행
- 호스트는 여러 가지 이유로 실패할 수 있으며 실패 이유에 따라 서로 다른 작업이 필요할 수 있습니다. 예를 들어 vCenter Server에 여전히 연결되어 있는 호스트의 vSAN 디스크 장애는 소프트 재부팅을 통해 해결할 수 있지만 PSOD 호스트에는 하드 재부팅이 필요합니다.
- 5: 호스트 상태 점검
- 다음 단계에서는 업데이트 적용 작업을 통해 호스트가 수정되었는지 확인합니다. 장애가 있는 호스트가 소프트 재부팅 또는 하드 재부팅 후 정상으로 확인되면 자동 업데이트 적용에서 SDDC에 대한 추가 중단을 방지합니다. 필요한 기타 작업을 수집 및 수행하고 3단계에서 미리 추가한 새 호스트를 제거합니다.
- 6: 호스트 교체
- 장애가 있는 호스트를 복구할 수 없는 경우 Autoscaler는 해당 호스트를 제거하고 3단계에서 추가한 호스트로 교체합니다. vSphere HA 및 vSAN이 트리거되고 계산 정책 태그가 새 호스트에 연결됩니다.
선제적 업데이트 적용
사후 대응적 업데이트 적용 외에도 Autoscaler는 장애가 나타나기 전에 오류를 감지하기 위해 여러 독립 피드를 모니터링합니다. 호스트에 하드웨어 장애가 발생할 가능성이 있다고 판단되면 무중단의 선제적인 계획된 유지 보수 이벤트가 트리거됩니다. 계획된 유지 보수가 완료되기 전에 호스트에 장애가 발생할 가능성은 여전히 있지만 호스트 교체를 선제적으로 시작하여 영향을 최소화합니다. 계획된 유지 보수 중에는 다음이 수행됩니다.
- 새 호스트가 클러스터에 추가됩니다. 교체할 호스트에서 이 새 호스트로 태그가 복사됩니다.
- 실패한 호스트는 전체 데이터 제거와 함께 유지 보수 모드로 전환됩니다. 이렇게 하면 모든 VM 및/또는 vSAN 데이터가 클러스터 내의 다른 호스트로 중단 없이 이동됩니다.
- 실패한 호스트는 클러스터에서 제거됩니다.
Autoscaler 이벤트
Autoscaler 서비스가 실패 이벤트를 수신하면 실패 유형을 판별한 후 적절한 작업을 수행합니다. SDDC 작업 로그에는 모든 Autoscaler 작업이 포함되지만 작업을 트리거한 실패 이벤트는 표시되지 않습니다.
- vCenter Server 이벤트
-
- 호스트 연결 상태를 확인하기 위해 이벤트가 트리거됩니다.
- ESXi 호스트 연결이 끊어졌거나 응답하지 않으면 이벤트가 트리거됩니다.
- DAS 이벤트
-
- vSphere HA 이벤트: 마스터 노드와 통신이 없거나 HA가 다운되면 이벤트가 생성됩니다. (FDM)
- 호스트가 다운되면 HA 시스템이 호스트 장애를 보고합니다.
- vSAN개 이벤트
-
- 호스트에 디스크 장애가 있는 경우
- vSAN 호스트 연결이 끊어진 경우
- EDRS 이벤트(비장애)
- 업그레이드: EDRS를 사용하지 않도록 설정합니다. 유지 보수 작업에는 종종 추가 호스트가 필요합니다. 이러한 호스트는 유지 보수 이벤트의 일부로 추가됩니다. 이러한 작업이 축소/확장 이벤트를 트리거하지 않도록 EDRS는 계획된 유지 보수 기간 동안 사용되지 않도록 설정됩니다.
- AWS 이벤트
-
- 계획된 유지 보수 이벤트. 인스턴스 상태 문제가 감지되었으며 인스턴스를 제거해야 한다는 AWS의 알림입니다.
- PHD(Personal Health Dashboard). 다양한 하드웨어 구성 요소에 대한 인사이트를 제공하고 VMware가 하드웨어 장애를 선제적으로 발견할 수 있도록 하는 이벤트 스트림입니다.
- 시스템 상태 확인. 인스턴스가 의존하는 AWS 시스템의 상태를 모니터링합니다. 이 확인은 AWS만 해결할 수 있는 문제를 보고합니다. 대부분의 경우 이러한 문제는 일시적이며 작업이 필요하지 않습니다.
- 인스턴스 상태 확인. 각 인스턴스에 대한 소프트웨어 및 네트워크 구성을 모니터링합니다. 이 확인은 NIC에 주기적인 ARP 요청을 발급하여 인스턴스의 가용성을 모니터링합니다. EC2 계층의 인스턴스 가용성에 대한 보고 외에도 인스턴스 상태 확인은 기본 하드웨어 활용률을 모니터링하고 네트워킹 문제, 메모리 소진, 손상된 파일 시스템, 커널 오류 등을 보고합니다. 시스템 상태 확인과 달리 인스턴스 상태 확인에는 VMware 상호 작용이 필요합니다.
- SDDC 이벤트
- vCenter Server 호스트 상태.