您可以透過 Kubernetes Container Clusters UI 外掛程式在 Tanzu Kubernetes Grid 叢集中設定、啟用和停用節點健全狀況檢查參數。

節點健全狀況檢查功能包括兩部分:
  • 偵測
  • 修復
備註: 節點健全狀況檢查出現錯誤時自動修復在功能上有所不同。 節點健全狀況檢查僅在叢集狀態變為 可用後偵測並修復叢集中狀況不良的節點,而 出現錯誤時自動修復則是在叢集狀態變為 可用之前,如果叢集狀態變為錯誤,則會重新嘗試建立叢集。
備註:VMware Cloud Director Container Service Extension 4.1 及更新版本中, 節點健全狀況檢查預設處於停用狀態。

節點故障偵測

VMware Cloud Director Container Service Extension 4.1 及更新版本可以偵測到 Tanzu Kubernetes Grid 叢集中的節點變得狀況不良。當節點處於狀況不良狀態時,Kubernetes Container Clusters UI 外掛程式會在叢集資訊頁面中反映可用和所需的節點計數,同時,在同一頁面的事件區段中顯示故障資訊。

節點可能會因為下列原因變得狀況不良,但不限於
  • 網路中斷
  • 電源中斷
  • 由於記憶體、CPU 或磁片使用量較高,節點速度降低
  • 節點啟動失敗
  • 無法加入叢集

節點修復

VMware Cloud Director Container Service Extension 4.1 開始, 節點健全狀況檢查功能可偵測 Tanzu Kubernetes Grid 叢集中的節點故障,並自動將狀況不良的 Kubernetes 節點取代為新節點。節點健全狀況檢查參數是 VMware Cloud Director Container Service Extension 伺服器設定和伺服器更新工作流程所需的全域設定, Kubernetes Container Clusters UI 外掛程式將使用這些參數建立叢集或更新所有組織中叢集的設定。如需詳細資訊,請參閱 更新 VMware Cloud Director Container Service Extension 伺服器。服務提供者可以隨時返回 更新伺服器索引標籤,重新設定 節點健全狀況檢查參數。如果服務提供者未專門設定 節點健全狀況檢查參數,則會設定以下預設值:
表 1. 節點健全狀況檢查組態
節點健全狀況檢查參數 預設值 描述
狀況不良的節點數目上限 100%

當狀況不良的節點百分比超過此值時,修復會暫停。當預設值為 100% 時,這表示叢集一律會修復。當預設值為 0% 時,這表示叢集不會進行修復。

節點啟動逾時 900 秒

如果節點未在此時間範圍內啟動,則會將其視為狀況不良且已修復。對於指定的 VMware Cloud Director 環境,建議服務提供者將節點健全狀況檢查參數設定為建立和啟動載入虛擬機器時間的至少兩倍。

節點狀態「未就緒」逾時 300 秒 如果新加入的節點無法裝載超過此逾時時間的工作負載,則會將其視為狀況不良且已修復。
節點狀態「未知」逾時 300 秒 如果狀況良好的節點無法連線的時間超過此逾時時間,則會將其視為狀況不良且已修復。
承租人使用者在建立叢集時使用服務提供者為其組織設定的 節點健全狀況檢查參數。如需詳細資訊,請參閱 〈建立 Tanzu Kubernetes Grid 叢集〉
備註: 當服務提供者更新 節點健全狀況檢查參數時,不會修改已部署 Tanzu Kubernetes Grid 叢集上的現有 節點健全狀況檢查參數。

VMware Cloud Director Container Service Extension 4.0.x 叢集中啟用或停用節點健全狀況檢查

承租人使用者也可以對在 VMware Cloud Director Container Service Extension 4.0.x 中建立的叢集啟用或停用節點健全狀況檢查

下列步驟概述了承租人使用者如何執行此動作:

  1. 登入 VMware Cloud Director 入口網站,然後從頂部導覽列選取更多 > Kubernetes Container Clusters
  2. 按一下叢集名稱,然後在叢集資訊頁面中,按一下設定
  3. 啟用或停用節點健全狀況檢查切換按鈕,然後按一下儲存