VMware는 자동화 및 SRE(사이트 안정성 엔지니어) 팀을 통해 고객 SDDC 환경을 지속적으로 모니터링합니다. 다음은 SDDC의 상태 보장을 위해 VMware에서 자동화하는 프로세스에 대해 설명합니다.

VM 작업

분리된 VM 자동 업데이트 적용
스토리지 정책으로 "데이터 이중화 안 함/FTT=0 포함 VM"을 사용하는 경우 장애가 발생하거나 VM이 응답하지 않을 경우 데이터 손실이 발생할 수 있습니다. 장애가 발생하고 VM이 분리되면, VMware에서 정리 작업을 수행합니다. 이 경우 이메일 알림이 수신됩니다.

vCenter 작업

vCenter 세션(연결) 최대화
많은 세션이 생성되고 지워지지 않으면 vCenter Server에 액세스할 수 없게 될 수 있습니다. 일반적으로 이 문제는 자동화로 인해 많은 수의 세션이 생성되기 때문에 발생합니다. 그러면 자동화된 경고가 생성되고 VMware에서 vCenter Server를 다시 시작합니다. 이 경우 이메일 알림이 수신됩니다.
vCenter Server 재부팅
여러 가지 문제를 해결하려면 vCenter Server를 재부팅해야 할 수 있습니다. 일부 문제는 업데이트 적용을 위해 즉시 재부팅해야 할 수 있으며 그 밖의 문제는 조만간 재부팅이 필요한 상태로 계속해서 사용할 수도 있습니다. 후자의 경우 다음 24시간 내에 다시 시작이 발생함을 경고하는 이메일 알림이 수신됩니다. 재부팅 후 진행 중인 작업과 애플리케이션 연결을 다시 시작해야 할 수 있습니다.
만료된 vCenter CA 인증서 제거
일부 제품 통합은 vCenter에 CA 인증서를 설치합니다. CA 인증서가 만료된 경우 호스트 추가가 실패할 수 있습니다. 만료된 CA 인증서는 제거됩니다.

NSX 작업

관리부(NSX Manager) 다시 시작
여러 가지 문제를 해결하려면 NSX Manager를 다시 시작해야 할 수 있습니다. 일부 문제는 업데이트 적용을 위해 즉시 재부팅해야 할 수 있으며 그 밖의 문제는 조만간 재부팅이 필요한 상태로 계속해서 사용할 수도 있습니다. NSX Manager를 다시 시작할 때 잠시 동안 SDDC 네트워킹 및 보안 UI에 액세스할 수 없게 됩니다. NSX Manager 다시 시작 이벤트에 대한 이메일 알림은 수신되지 않습니다.
NSX Edge 페일오버
모니터링 시스템에서 NSX Edge(활성)가 비정상 상태에 가까워졌음을 감지하면 작업량이 많지 않은 시간에 NSX Edge 페일오버가 스케줄링됩니다. 스케줄링된 이 페일오버는 작업량이 많은 시간에 발생하는 페일오버에 따른 중단 가능성을 방지하기 위한 하나의 사전 조치로 수행됩니다. 스케줄링된 페일오버 전에 NSX(활성) Edge에 문제가 있는 경우 자동으로 페일오버가 수행됩니다. NSX Edge 페일오버가 스케줄링되면 이메일 알림을 받게 됩니다.

SDDC 작업

단일 호스트 SDDC 장애
단일 호스트 SDDC 스타터 구성은 SLA가 없으며 개념 증명 또는 테스트 및 개발 사용 사례에 적합합니다. 단일 호스트 SDDC 장애 시 VMware가 업데이트 적용을 수행하지 않습니다. 단일 호스트 SDDC 장애가 발생할 경우 이메일 알림이 수신됩니다.
SDDC 백업
매일 0900Z에 그리고 계획된 유지 보수 작업 전에 모든 SDDC를 백업합니다.
  • vCenter Server, vSAN 구성 및 NSX를 백업합니다. 고객 데이터와 워크로드 VM은 백업하지 않습니다.
  • 백업은 56개까지 최대 28일 간 보존됩니다. 백업은 SDDC의 지역 내 S3에 암호화되어 저장되고 SDDC가 삭제될 때 삭제됩니다. 삭제된 SDDC는 백업에서 복구할 수 없습니다.
  • 관리 구성 요소의 복구는 SLA에 의해 관리됩니다. VMware는 복구 시 백업을 사용할지 여부를 결정합니다.

NFS 데이터스토어

데이터스토어 가용성
vSphere 호스트가 320초가 넘도록 NFS 데이터스토어에 액세스하지 못하면(모든 경로 다운) vSphere HA는 영향받은 데이터스토어에 데이터를 저장하고 있는 해당 호스트의 모든 VM에 대한 전원을 끕니다. HA는 데이터스토어에 대한 연결이 정상인 호스트에서 VM을 다시 시작하려고 시도합니다.
SDDC 상태
일부 NFS 데이터스토어의 가용성으로 인해 실행 중인 VM을 재배치할 수 없어서 호스트가 유지 보수 모드로 전환되지 않는 경우 VMware는 문제가 되는 VM의 전원을 끕니다. VMware는 영향받은 워크로드에 대한 복구를 시도하지만 VM은 스토리지 액세스가 복원되고 사용자가 전원을 다시 켤 때까지 전원이 꺼진 상태로 유지됩니다.