VMware 透過自動化和一個網站可靠性工程師 (SRE) 團隊來持續監控客戶 SDDC 環境。以下說明了 VMware 為確保 SDDC 健全狀況而自動執行的程序。
虛擬機器作業
- 孤立虛擬機器自動修復
- 如果您使用「無資料冗余/具有 FTT = 0 的虛擬機器」作為儲存區原則,則在發生故障或虛擬機器沒有回應的情況下,可能會出現資料遺失的情況。如果發生故障且一或多個虛擬機器變得孤立,則 VMware 會執行清理動作。如果出現此情況,您將會收到電子郵件通知。
vCenter 作業
- vCenter 工作階段 (連線) 已達上限
- 如果建立了多個工作階段但未將其清除, vCenter Server 可能會變得無法存取。這通常是由於自動化會建立大量工作階段所致。這將會產生自動警示,並且 VMware 將重新啟動 vCenter Server。如果出現此情況,您將會收到電子郵件通知。
- vCenter Server 重新開機
- 許多不同的問題可能需要將 vCenter Server 重新開機。某些問題可能需要立即重新開機以進行修復,而其他問題可能允許繼續使用,但在不久的將來需要重新開機。在後一種情況下,您會收到一則電子郵件通知,警示您將在接下來的 24 小時內重新啟動。重新開機後,進行中的工作和應用程式連線可能需要重新啟動。
- 移除已到期的 vCenter CA 憑證
- 某些產品整合會在 vCenter 上安裝 CA 憑證。如果 CA 憑證已到期,可能會導致主機新增失敗。將移除已到期的 CA 憑證。
NSX 作業
- 管理平面 (NSX Manager) 重新啟動
- 許多不同的問題可能需要將 NSX Manager 重新啟動。某些問題可能需要立即重新開機以進行修復,而其他問題可能允許繼續使用,但在不久的將來需要重新開機。當 NSX Manager 正在重新啟動過程中時,您將在短時間內無法存取 SDDC 網路與安全性 UI。您將不會收到 NSX Manager 重新啟動事件的電子郵件通知。
- NSX Edge 容錯移轉
- 如果我們的監控系統偵測到 NSX Edge (作用中) 即將變得狀況不良,我們將在非尖峰時段排程 NSX Edge 容錯移轉。此排定的容錯移轉作為主動措施進行,可避免因尖峰時段發生容錯移轉而造成的中斷。如果在排定的容錯移轉之前 NSX (作用中) Edge 出現問題,則會自動進行容錯移轉。如果我們排程 NSX Edge 容錯移轉,您將會收到電子郵件通知。
SDDC 作業
- 單一主機 SDDC 故障
- 單一主機 SDDC 起步組態沒有 SLA,適用於概念驗證或測試和開發使用案例。在發生單一主機 SDDC 故障的情況下,VMware 不會執行任何修復。如果發生單一主機 SDDC 故障,您將會收到電子郵件通知。
- SDDC 備份
-
我們每天在 0900Z 以及在任何計劃的維護活動之前備份每個 SDDC。
- 備份內容:vCenter Server、vSAN 組態和 NSX。我們不會備份客戶資料和工作負載虛擬機器。
- 備份保留:最長期限為 28 天,最多 56 個備份。備份儲存方式:在 SDDC 區域內的 S3 中加密,並在刪除 SDDC 時刪除。您無法從備份中復原已刪除的 SDDC。
- 管理元件的復原由您的 SLA 控管。VMware 將決定是從備份中復原還是從修復中復原。