VMware vSphere® High Availability 叢集的主要主機負責偵測次要主機的故障。視偵測到的故障類型而定,主機上執行的虛擬機器可能需要容錯移轉。

在 vSphere HA 叢集中,偵測到三種類型的主機故障:

  • 故障。主機停止運作。
  • 隔離。主機處於網路隔離狀態。
  • 磁碟分割。主機與主要主機的網路連線中斷。

主要主機監控叢集中次要主機的運作情況。此通訊透過每秒交換一次網路活動訊號來實現。當主要主機停止從次要主機接收這些活動訊號時,它會在宣告該主機出現故障之前檢查主機的運作情況。主要主機執行的運作情況檢查是要確定次要主機是否在與其中一個資料存放區交換活動訊號。請參閱資料存放區活動訊號。而且,主要主機還檢查主機是否對傳送至其管理 IP 位址的 ICMP Ping 做出回應。

如果主要主機無法直接與次要主機上的代理程式通訊,則次要主機將不會回應 ICMP Ping。如果代理程式未發出活動訊號,則系統會將其視作出現故障。會在備用主機上重新啟動主機的虛擬機器。如果此類次要主機正與資料存放區交換活動訊號,則主要主機將假定次要主機處於網路磁碟分割狀態或網路隔離狀態。因此,主要主機將繼續監控主機及其虛擬機器。請參閱網路磁碟分割

當主機仍在執行但無法再監視來自管理網路上 vSphere HA 代理程式的流量時,會發生主機網路隔離。如果主機停止監視此流量,則它會嘗試對叢集隔離位址執行 Ping 動作。如果執行此 Ping 動作也失敗,則主機將宣告其與網路隔離。

主要主機會監控正在隔離主機上執行的虛擬機器。如果主要主機觀察到虛擬機器的電源已關閉,且主要主機負責這些虛擬機器,則會使其重新啟動。

備註: 如果您確定網路基礎結構具有足夠的冗餘度,且至少有一個網路路徑始終可用,則出現主機網路隔離情況的可能性較小。

Proactive HA 故障

如果主機元件出現故障,則會發生 Proactive HA 故障,其將導致冗餘遺失或非災難性故障的發生。然而,位於主機上虛擬機器之正常運作的行為暫時不會受到影響。例如,如果主機上電源供應器出現故障,但其他電源供應器可用,這便是 Proactive HA 故障。

如果出現 Proactive HA 故障,您可以將 vSphere Client 的 [vSphere 可用性] 區段中採取的修復動作自動化。受影響主機上的虛擬機器可撤除到其他主機,且該主機應置於 [隔離] 模式或 [維護] 模式。

備註: 您的叢集必須使用 vSphere DRS 才可讓 Proactive HA 故障監控運作。