系统在短时间内出现非常高的事件率后,TKG Cluster on Supervisor 或上游 Kubernetes 集群中的一些 Pod 停滞在正在终止状态。
问题
系统从非常高的事件率中恢复后,NSX Application Platform 处于已降级状态。此外,TKG Cluster on Supervisor 或上游 Kubernetes 集群中的一些 Pod 停滞在正在终止状态几分钟或更长时间。
UI 显示原因
在出现某些 Kubernetes 基础架构问题时,由于以下原因之一,无法正确删除某些 Pod。
- 与停滞的 Pod 关联的 finalizer 无法完成。
- 停滞的 Pod 没有响应终止信号。
解决方案
请基础架构管理员使用以下信息手动删除停滞在
正在终止状态的 Pod。
- 登录到 TKG Cluster on Supervisor 或上游 Kubernetes 集群的控制节点。
- 使用以下命令查找所有处于正在终止状态的 Pod。
get pod -A | grep Terminating
- 使用以下命令强制删除处于正在终止状态的 Pod。
kubectl delete pod <pod-name> -n <namespace> --force --grace-period=0
- 重复以下命令,并确认已成功删除停滞的 Pod。如有必要,为继续处于正在终止状态的 Pod 再次重复步骤 3。
get pod -A | grep Terminating