VMware 透過自動化和一個網站可靠性工程師 (SRE) 團隊來持續監控客戶 SDDC 環境。以下說明了 VMware 為確保 SDDC 健全狀況而自動執行的程序。

虛擬機器作業

孤立虛擬機器自動修復
如果您使用「無資料冗余/具有 FTT = 0 的虛擬機器」作為儲存區原則,則在發生故障或虛擬機器沒有回應的情況下,可能會出現資料遺失的情況。如果發生故障且一或多個虛擬機器變得孤立,則 VMware 會執行清理動作。如果出現此情況,您將會收到電子郵件通知。

vCenter 作業

vCenter 工作階段 (連線) 已達上限
如果建立了多個工作階段但未將其清除, vCenter Server 可能會變得無法存取。這通常是由於自動化會建立大量工作階段所致。這將會產生自動警示,並且 VMware 將重新啟動 vCenter Server。如果出現此情況,您將會收到電子郵件通知。
vCenter Server 重新開機
許多不同的問題可能需要將 vCenter Server 重新開機。某些問題可能需要立即重新開機以進行修復,而其他問題可能允許繼續使用,但在不久的將來需要重新開機。在後一種情況下,您會收到一則電子郵件通知,警示您將在接下來的 24 小時內重新啟動。重新開機後,進行中的工作和應用程式連線可能需要重新啟動。
移除已到期的 vCenter CA 憑證
某些產品整合會在 vCenter 上安裝 CA 憑證。如果 CA 憑證已到期,可能會導致主機新增失敗。將移除已到期的 CA 憑證。

NSX 作業

管理平面 (NSX Manager) 重新啟動
許多不同的問題可能需要將 NSX Manager 重新啟動。某些問題可能需要立即重新開機以進行修復,而其他問題可能允許繼續使用,但在不久的將來需要重新開機。當 NSX Manager 正在重新啟動過程中時,您將在短時間內無法存取 SDDC 網路與安全性 UI。您將不會收到 NSX Manager 重新啟動事件的電子郵件通知。
NSX Edge 容錯移轉
如果我們的監控系統偵測到 NSX Edge (作用中) 即將變得狀況不良,我們將在非尖峰時段排程 NSX Edge 容錯移轉。此排定的容錯移轉作為主動措施進行,可避免因尖峰時段發生容錯移轉而造成的中斷。如果在排定的容錯移轉之前 NSX (作用中) Edge 出現問題,則會自動進行容錯移轉。如果我們排程 NSX Edge 容錯移轉,您將會收到電子郵件通知。

SDDC 作業

單一主機 SDDC 故障
單一主機 SDDC 起步組態沒有 SLA,適用於概念驗證或測試和開發使用案例。在發生單一主機 SDDC 故障的情況下,VMware 不會執行任何修復。如果發生單一主機 SDDC 故障,您將會收到電子郵件通知。
SDDC 備份
我們每天在 0900Z 以及在任何計劃的維護活動之前備份每個 SDDC。
  • 備份內容:vCenter ServervSAN 組態和 NSX。我們不會備份客戶資料和工作負載虛擬機器。
  • 備份保留:最長期限為 28 天,最多 56 個備份。備份儲存方式:在 SDDC 區域內的 S3 中加密,並在刪除 SDDC 時刪除。您無法從備份中復原已刪除的 SDDC。
  • 管理元件的復原由您的 SLA 控管。VMware 將決定是從備份中復原還是從修復中復原。

NFS 資料存放區

資料存放區可用性
如果 vSphere 主機無法存取 NFS 資料存放區 (所有路徑失效) 的時間超過 320 秒,vSphere HA 將關閉該主機上在受影響資料存放區上儲存了資料的所有虛擬機器的電源。HA 將嘗試在與資料存放區正常連線的主機上重新啟動虛擬機器。
SDDC 健全狀況
如果由於部分 NFS 資料存放區可用性而無法重新放置正在執行的虛擬機器,導致主機無法進入維護模式,則 VMware 作業將關閉違規虛擬機器的電源。VMware 將嘗試復原任何受影響的工作負載,但虛擬機器將保持關閉電源狀態,直到還原儲存區存取權並重新開啟虛擬機器電源。