隨著 vRealize Operations 8 導入了連續可用性,出現了幾個常見的問題。本節旨在協助您對連續可用性有更進一步的瞭解與認識。

顯示啟用了連續可用性的 vRealize Operations 叢集的區塊圖。
如何將資料儲存在分析節點中?

探索到物件時,vRealize Operations 會判斷要保留資料的節點,然後在其他容錯網域的配對節點中建立 (複製) 資料複本。每個物件都儲存在散佈於容錯網域內的兩個分析節點 (節點配對) 中,且持續保持同步。

比方說,vRealize Operations 具有八個分析節點,且已啟用 CA,因此每個容錯網域都有四個分析節點 (請參閱上圖)。

探索到新物件時,vRealize Operations 會決定將資料儲存在「資料節點 2B」(主要) 中,並自動將資料複本儲存在「資料節點 2A」(次要) 中。

如果「FD A」不知何故無法使用,則會使用「資料節點 2B」中的「主要」資料。

如果「FD B」不知何故無法使用,則會使用「資料節點 2A」中的「次要」資料。

哪些情況會中斷連續可用性叢集?不支援同時失去主要節點或主要複本節點與資料節點,或兩個容錯網域中兩個以上的資料節點。

來自容錯網域 1 的每個分析節點在容錯網域 2 中都有其節點配對,反之亦然。

使用上述範例,我們將有四組節點配對:

主要節點 + 複本節點

資料節點 1A (FD A) + 資料節點 1B (FD B)

資料節點 2A (FD A) + 資料節點 2B (FD B)

資料節點 3A (FD A) + 資料節點 3B (FD B)

每組節點配對的兩個節點會持續同步,並儲存相同的資料。因此,如果所有節點配對中有一個節點可供使用,則叢集會繼續運作,資料不會遺失。

如果其中一個容錯網域的某個資料節點無法使用,會發生什麼情況?
叢集會處於降級狀態,但當一個節點在任一容錯網域中無法使用時,會繼續運作。所有資料都不會遺失。資料節點必須修復,或加以取代,叢集才不會持續處於降級狀態。
如果容錯網域 1 中的兩個資料節點和容錯網域 2 中的主要複本節點遺失,叢集是否會中斷?
在此範例中,叢集會繼續運作,資料不會遺失。如果每個節點配對中的一個分析節點仍可供使用,資料就不會遺失。
如果整個容錯網域無法使用,會發生什麼情況?

叢集會處於降級狀態,但在整個容錯網域無法使用時,會繼續運作。所有資料都不會遺失。容錯網域必須修復並上線,叢集才不會持續處於降級狀態。

若容錯網域無法復原,可以使用新部署的節點取代整個容錯網域。從管理使用者介面,僅可取代主要複本節點。如果主要節點的整個容錯網域遺失,您需要等待主要節點發生容錯移轉,且主要複本節點提升為新的主要節點。

將失敗的節點重新新增至容錯網域的正確程序為何?同步所需的時間為多久?
重新新增失敗節點的建議程序,是使用管理 UI 中的「取代叢集的節點」功能。新增取代節點後,即會同步資料。同步時間大幅取決於物件計數、物件的歷史期間、網路頻寬以及叢集上的負載。
當容錯網域之間的網路延遲超過 20 毫秒時,會發生什麼情況? vRealize Operations 可容許的延長延遲時間為多久?
若要達到最佳效能,則必須遵循延遲需求。容錯網域之間的延遲應為 < 10 毫秒,且在 20 秒的時間間隔內,尖峰最多為 20 毫秒。如需有關網路延遲準則的詳細資訊,請參閱知識庫文章 vRealize Operations Manager 調整大小指南 (知識庫 2093783)。
當容錯網域之間的網路延遲在一段時間內超過「20 秒時間間隔內 20 毫秒」,但接著恢復 10 毫秒以下,重新同步需要多少時間?
高延遲不代表已停止同步。探索到物件時, vRealize Operations 會決定要保留資料 (主要) 的節點,而資料的第二個複本則會移至其節點配對 (次要)。每個物件都儲存在散佈於兩個容錯網域內的兩個分析節點 (配對) 中。同步是一種進行中的程序,在該程序中,次要節點會定期與主要節點同步。同步會根據主要和次要節點的上次同步時間戳記來執行。因此, vRealize Operations 中沒有同步化資料佇列。
見證節點對遺失輪詢的實際容錯為何?
見證節點作業並非以輪詢為基礎。見證節點只有在其中一個節點 (在進行各種檢查之後) 無法與其他容錯網域的節點通訊時,才會進行互動。
主要節點和主要複本節點的容錯移轉時間點為何?
只有在主要節點不再處於可存取狀態,或處於非運作狀態時,才會進行容錯移轉。
主要複本節點何時會提升為主要節點?
只有在兩種情況下,主要複本節點才會提升為主要節點:
  • 現有主要節點已關閉時。
  • 相關的容錯網域已關閉/離線。
原始主要節點重新上線時,是否會繼續做為主要控制項?資料如何同步?
作業恢復正常,且主要節點和主要複本節點都上線時,新提升的主要節點 (先前稱為主要複本節點) 仍會保持為新的主要節點,而新的主要複本節點 (先前稱為主要節點) 則會與新的主要節點同步。
如果容錯網域之間的連線完全中斷,然後又恢復了,會發生什麼情況?
如果容錯網域之間的通訊在數分鐘期間完全中斷,則其中一個容錯網域會自動離線。網路中斷還原後,Admin 使用者需要手動將容錯網域上線,上線後才會開始同步資料。
當見證節點無法使用時,容錯網域會發生什麼情況?
只要兩個容錯網域均狀況良好且彼此通訊正常無礙,即便無法使用見證節點也不會對叢集產生任何影響, vRealize Operations 會繼續運作。如果容錯網域之間發生通訊問題,則可能會出現三種情況:
  • 兩個容錯網域均可存取見證節點 - 見證節點會根據站台健全狀況,使一個容錯網域離線。
  • 僅可從一個容錯網域存取見證節點 - 另一個容錯網域會自動離線。
  • 兩個容錯網域均無法存取見證節點 - 兩個容錯網域都會離線。
當離線容錯網域再次可用時,容錯網域是否會同步在通訊中斷期間收集的所有資料?
一旦對容錯網域的連線已還原並同步以擷取所有遺失的資料,即會立即同步收集到的資料。
當某個分析節點無法與其他容錯網域中的分析節點通訊時,會發生什麼情況?
如果某個分析節點無法與其他容錯網域中的所有節點或見證節點通訊,該分析節點會自動離線。Admin 使用者必須先確保所有通訊問題都解決後,才手動將已自動離線的所有節點或整個容錯網域重新上線。
如果標準叢集中的節點數目上限為 10 個超大型節點 (支援 440,000 個物件),則為何連續可用性中的節點數目上限多達 12 個超大型節點 (支援 2,64,000 物件)?
僅在連續可用性叢集中才會支援 12 個超大型節點,且在兩個單獨的容錯網域中同時參考最多六個超大型節點。這可增加標準叢集中的節點數目,並可收集更多物件。
可能的設計為容錯網域 1 中有五、六個超大型節點,容錯網域 2 中有六個超大型節點,第三個站台中有一個見證節點。必須滿足延遲需求,使容錯網域 1 與容錯網域 2 之間的延遲 < 10 毫秒。有關延遲、封包遺失和頻寬的詳細資料,都列在知識庫文章 vRealize Operations Manager 調整大小指南 (知識庫 2093783) 中。
負載平衡器是否支援連續可用性?
是的,如需有關負載平衡器組態的詳細資訊,請參閱 vRealize Operations Manager 說明文件頁面的 [資源] 下的《 vRealize Operations 負載平衡組態指南》。
該說明文件指出「啟用 CA 後,複本節點可以在主要節點發生故障時,接管主要節點所提供的所有功能。容錯移轉到複本是一種自動作業,而且 vRealize Operations 的停機時間只會維持二至三分鐘,就能繼續作業,並重新啟動資料收集。」
在測試過程期間中斷主要節點上的網路介面時,會在 5 分鐘內執行新的主要節點轉換工作,而自己則會被產品使用者介面剔除,或出現奇怪的錯誤。
該文件所述的二或三分鐘為大略的中等值,因此 5 分鐘是可以接受的。
主要節點在容錯移轉後再次連線到網路時,將原始主要節點恢復為主要節點角色的建議程序為何?
並不需要將主要複本節點回復至主要節點角色,反之亦然。如果仍希望將舊的主要節點還原為主要節點角色,請在新的主要節點或其容錯網域 (於原始主要節點所在的位置) 上使用 [使節點離線/上線]
當節點離線或重新開機時,是否有必要讓對應的容錯網域離線然後上線,以使節點重新上線?
在重新開機或使其離線/上線後,所有節點都會自動繼續運作。無需執行其他步驟。