高層級自動修復會監控硬體和軟體故障,並自動嘗試透過修正問題或取代硬體來修復問題。當其他一切都出現故障時,自動修復程序會請求 SRE 進行手動介入。

事件發生時,Autoscaler 依序處理的功能:

  1. 監控 - VMC 平台持續監控團隊中每個 SDDC 和每個主機的系統健全狀況。偵測到故障時,將一個事件傳送至自動修復。
    • 監控硬體和軟體故障
    • 偵測到故障時自動佈建硬體
    • 盡可能自動修復故障
    • 無法自動解析時,SRE 會手動介入
  2. 等待暫時性事件 - 某些偵測到的故障可能是暫時的。例如,由於暫時性的連線問題,監控系統無法連線到主機。自動修復會等待 5 分鐘,以確定問題是否是暫時的。如果問題清除,則自動修復會返回而不執行任何動作。
  3. 新增主機 - 如果此錯誤在 5 分鐘後仍未解決,則自動修復會開始將主機新增到 SDDC,即使您還不知道是否需要主機也一樣。現在新增主機可確保該主機在需要時可供使用。請注意,在取代 SDDC 中的故障主機之前,不會向您收取該主機的費用。
  4. 確定故障類型並採取動作 - 主機可能因不同的原因出現故障,需要執行不同的動作。例如,仍與 vCenter Server 連線的主機上的 vSAN 磁碟故障可透過軟重新開機進行修復,而 PSOD 主機需要硬重新開機。此動作的自動修復邏輯複雜且不斷提升,但您可以檢閱錯誤,採取干擾最少的動作。自動修復是一個內部程序,因此客戶無法存取邏輯。如果您遇到任何問題,可以連絡 VMware 支援。
  5. 檢查主機健全狀況 - 下一步是檢查修復動作是否修正了主機。如果失敗的主機在軟重新開機或硬重新開機後變得狀況良好,自動修復可避免 SDDC 進一步中斷。它會收集並採取任何其他必要的動作,從而移除在步驟 2 中預先新增的新主機。
  6. 取代主機 - 如果失敗的主機無法恢復,則 Autoscaler 會移除失敗的主機,並將其取代為步驟 2 中新增的主機。在此階段,Autoscaler 會移除失敗的主機,並將其取代為步驟 2 中新增的主機。將會觸發 vSphere HA 和 vSAN,並且將計算原則標籤附加至新主機。