Elastic DRS 알고리즘의 작동 방식

Elastic DRS 알고리즘은 시간 경과에 따른 클러스에서의 리소스 활용률을 모니터링합니다. 이 알고리즘은 활용률의 스파이크 및 임의성을 고려한 후 클러스터를 확장 또는 축소하도록 권장하고 경고를 생성합니다. 이 경고는 새 호스트를 프로비저닝하거나 클러스터에서 호스트를 제거하는 방식으로 즉시 처리됩니다.

이 알고리즘은 5분마다 실행되며 다음 매개 변수를 사용합니다.

알고리즘이 스케일 업 또는 스케일 다운해야 하는 최소 및 최대 호스트 수.
비용 또는 성능에 최적화된 호스트 할당을 위한 CPU, 메모리 및 스토리지 활용률의 임계값. SDDC 클러스터의 탄력성 관리 페이지에 나열되어 있는 이러한 임계값은 각 DRS 정책 유형에 대해 미리 정의되어 있으며 사용자가 변경할 수 없습니다.

확장 권장 사항

CPU, 메모리 또는 스토리지 활용률 중 하나가 임계값을 초과한 상태로 지속적으로 유지되면 확장 권장 사항이 생성됩니다. 예를 들어 스토리지 활용률이 높은 임계값을 초과하면 메모리 및 CPU 활용률이 해당 임계값 아래에서 유지되더라도 확장 권장 사항이 생성됩니다. 클러스터의 확장 시작, 완료 또는 실패를 나타내는 vCenter Server 이벤트가 게시됩니다.

축소 권장 사항

CPU, 메모리 및 스토리지 활용률 모두 임계값 이하로 지속적으로 유지되면 축소 권장 사항이 생성됩니다. 클러스터의 호스트 수가 지정된 최소값에 도달한 경우에는 축소 권장 사항이 적용되지 않습니다. 클러스터의 축소 시작, 완료 또는 실패를 나타내는 vCenter Server 이벤트가 게시됩니다.

참고:

클러스터 크기를 줄일 때마다 호스트 제거로 인해 초래되는 프로세스 오버헤드로 인해 스토리지 지연 시간이 늘어납니다. 이 오버헤드의 기간은 관련 데이터 양에 따라 다릅니다. 1시간 정도만 걸릴 수도 있지만 극단적인 경우에는 48시간이 넘게 소요될 수 있습니다. 클러스터 크기 감소(축소)가 진행되는 동안 영향을 받는 클러스터에 지원되는 워크로드 VM이 상당한 스토리지 지연 시간 증가를 경험할 수 있습니다.

확장된 클러스터 크기 조정

Elastic DRS가 확장된(여러 가용성 영역) 클러스터에 대한 축소 또는 확장 이벤트를 생성하면 두 가용성 영역에서 호스트가 제거되거나 추가됩니다.

확장된 클러스터에서 호스트에 장애가 발생하면 Elastic DRS는 원래 가용성 영역에서 해당 호스트를 교체하려고 시도합니다. 전체 또는 부분 가용성 영역 장애로 인해 이 작업을 수행할 수 없는 경우 Elastic DRS는 나머지 가용성 영역에서 클러스터를 확장하고 클러스터가 원래 호스트 수에 도달할 때까지 나머지 가용성 영역에 청구 불가능 호스트를 추가합니다. 이 확장 워크플로는 사용 가능한 용량에 따라 달라지며 보장되지 않습니다. 실패한 가용성 영역이 복원되면 Elastic DRS는 클러스터를 축소하여 추가 호스트를 제거하고 원래의 호스트 수를 복원합니다.

VMware Cloud Tech Zone 문서 VMware Cloud on AWS: 확장된 클러스터에서 Elastic DRS가 크기 조정 및 영역 장애 시나리오를 처리하는 방법에 대한 자세한 정보를 확인할 수 있습니다.

두 권장 사항 간 시간 지연

이 알고리즘에는 자주 생성되는 이벤트 처리를 피하고 처리된 마지막 이벤트에 따른 변경을 수용하도록 클러스터에 일정 시간을 제공하기 위한 안전 검사가 포함되어 있습니다. 이벤트 간에 다음 시간 간격이 적용됩니다.

두 개의 연속적인 확장 이벤트 간 30분 지연
클러스터 확장 후 축소 이벤트 처리 전에 3시간 지연

권장 사항과 다른 작업의 상호 작용

다음 작업은 Elastic DRS 권장 사항과 상호 작용할 수 있습니다.

사용자가 시작한 호스트 추가 또는 제거
일반적으로 Elastic DRS가 사용되도록 설정된 클러스터에서 수동으로 호스트를 추가 또는 제거할 필요는 없습니다. 이러한 작업을 수행할 수는 있지만 Elastic DRS 권장 사항이 특정 시점에 이를 되돌릴 수 있습니다.

사용자가 시작한 호스트 추가 또는 제거 작업이 진행 중인 경우 Elastic DRS 알고리즘의 현재 권장 사항은 무시됩니다. 사용자가 시작한 작업이 완료되면 알고리즘은 리소스 활용률 및 현재 선택된 정책의 변경 내용을 기반으로 축소 또는 확장 작업을 권장할 수 있습니다.

Elastic DRS 권장 사항이 적용되는 동안 호스트 추가 또는 제거 작업을 시작하면 호스트 추가 또는 제거 작업이 실패하고 동시 업데이트 예외를 나타내는 오류 메시지가 표시됩니다.
계획된 유지 보수 작업
계획된 유지 보수 작업이란 특정 호스트를 새 호스트로 바꿔야 함을 의미합니다. 계획된 유지 보수 작업이 진행 중인 동안 Elastic DRS 알고리즘에 의한 현재 권장 사항은 무시됩니다. 계획된 유지 보수가 완료되면 알고리즘이 다시 실행되고 새 권장 사항이 적용됩니다. Elastic DRS 권장 사항이 클러스터에 적용되는 동안 해당 클러스터에 대해 계획된 유지 보수 이벤트가 수신되면 계획된 유지 보수 작업이 대기열에 추가됩니다. Elastic DRS 권장 사항 작업이 완료되면 계획된 유지 보수 작업이 시작됩니다.
자동 업데이트 적용
자동 업데이트 적용 중에 실패한 호스트가 새 호스트로 바뀌고 해당 호스트 태그가 교체 호스트에 적용됩니다. 자동 업데이트 적용이 진행 중인 동안 Elastic DRS 알고리즘에 의한 현재 권장 사항은 무시됩니다. 자동 업데이트 적용이 완료되면 알고리즘이 다시 실행되고 새 권장 사항이 적용됩니다. Elastic DRS 권장 사항이 클러스터에 적용되는 동안 해당 클러스터에 대해 자동 업데이트 적용 이벤트가 수신되면 자동 업데이트 적용 작업이 대기열에 추가됩니다. Elastic DRS 권장 사항 작업이 완료되면 자동 업데이트 적용 작업이 시작됩니다.
SDDC 유지 보수 기간
SDDC를 유지 보수하는 중이거나 향후 6시간 내에 계획된 유지 보수가 예정되어 있는 경우 EDRS 권장 사항은 무시됩니다.