系統在短時間內出現非常高比率的事件後,TKG Cluster on Supervisor 或上游 Kubernetes 叢集中的一些網繭停滯在正在終止狀態。
問題
系統從發生的非常高比率的事件中復原後,NSX Application Platform 處於已降級狀態。此外,TKG Cluster on Supervisor 或上游 Kubernetes 叢集中的一些網繭停滯在正在終止狀態幾分鐘或更長時間。
UI 顯示原因
在出現某些 Kubernetes 基礎結構問題時,由於以下原因之一,無法正確刪除某些網繭。
- 與停滯的網繭關聯的完成項無法完成。
- 停滯的網繭沒有回應終止訊號。
解決方案
請基礎結構管理員使用以下資訊,手動刪除停滯在
正在終止狀態的網繭。
- 登入 TKG Cluster on Supervisor 或上游 Kubernetes 叢集上的控制節點。
- 使用以下命令識別所有處於正在終止狀態的網繭。
get pod -A | grep Terminating
- 使用以下命令強制刪除處於正在終止狀態的網繭。
kubectl delete pod <pod-name> -n <namespace> --force --grace-period=0
- 重複以下命令,並確認已成功刪除停滯的網繭。如有必要,為繼續處於正在終止狀態的網繭再次重複步驟 3。
get pod -A | grep Terminating