系統在短時間內出現非常高比率的事件後,TKG Cluster on Supervisor 或上游 Kubernetes 叢集中的一些網繭停滯在正在終止狀態。

問題

系統從發生的非常高比率的事件中復原後,系統 > NSX Application Platform UI 顯示 NSX Application Platform 處於已降級狀態。此外,TKG Cluster on Supervisor 或上游 Kubernetes 叢集中的一些網繭停滯在正在終止狀態幾分鐘或更長時間。

原因

在出現某些 Kubernetes 基礎結構問題時,由於以下原因之一,無法正確刪除某些網繭。
  • 與停滯的網繭關聯的完成項無法完成。
  • 停滯的網繭沒有回應終止訊號。

解決方案

請基礎結構管理員使用以下資訊,手動刪除停滯在 正在終止狀態的網繭。
  1. 登入 TKG Cluster on Supervisor 或上游 Kubernetes 叢集上的控制節點。
  2. 使用以下命令識別所有處於正在終止狀態的網繭。
    get pod -A | grep Terminating
  3. 使用以下命令強制刪除處於正在終止狀態的網繭。
    kubectl delete pod <pod-name> -n <namespace> --force --grace-period=0
  4. 重複以下命令,並確認已成功刪除停滯的網繭。如有必要,為繼續處於正在終止狀態的網繭再次重複步驟 3。
    get pod -A | grep Terminating