系统在短时间内出现非常高的事件率后,TKG Cluster on Supervisor 或上游 Kubernetes 集群中的一些 Pod 停滞在正在终止状态。

问题

系统从非常高的事件率中恢复后,系统 > NSX Application Platform UI 显示 NSX Application Platform 处于已降级状态。此外,TKG Cluster on Supervisor 或上游 Kubernetes 集群中的一些 Pod 停滞在正在终止状态几分钟或更长时间。

原因

在出现某些 Kubernetes 基础架构问题时,由于以下原因之一,无法正确删除某些 Pod。
  • 与停滞的 Pod 关联的 finalizer 无法完成。
  • 停滞的 Pod 没有响应终止信号。

解决方案

请基础架构管理员使用以下信息手动删除停滞在 正在终止状态的 Pod。
  1. 登录到 TKG Cluster on Supervisor 或上游 Kubernetes 集群的控制节点。
  2. 使用以下命令查找所有处于正在终止状态的 Pod。
    get pod -A | grep Terminating
  3. 使用以下命令强制删除处于正在终止状态的 Pod。
    kubectl delete pod <pod-name> -n <namespace> --force --grace-period=0
  4. 重复以下命令,并确认已成功删除停滞的 Pod。如有必要,为继续处于正在终止状态的 Pod 再次重复步骤 3。
    get pod -A | grep Terminating