システムで短期間に非常に高いイベント率が発生した後、スーパーバイザーまたはアップストリーム Kubernetes クラスタ上の TKG クラスタ内の一部のポッドが 終了中 状態で停止します。

問題

非常に高いイベント発生率からシステムがリカバリされると、[システム] > [NSX Application Platform] ユーザー インターフェイスに NSX Application Platform劣化 状態であることが表示されます。また、スーパーバイザーまたはアップストリーム Kubernetes クラスタ上の TKG クラスタ内の一部のポッドが、終了中 状態で数分間以上停止します。

原因

Kubernetes インフラストラクチャのいくつかの問題により、次のいずれかの理由から、一部のポッドを正しく削除できません。
  • 停止したポッドに関連付けられたファイナライザを完了できません。
  • 停止したポッドが終了信号に応答していません。

解決方法

次の情報を使用して、 終了中 状態で停止しているポッドを手動で削除するようにインフラストラクチャ管理者に依頼します。
  1. スーパーバイザーまたはアップストリーム Kubernetes クラスタ上の TKG クラスタの制御ノードにログインします。
  2. 次のコマンドを使用して、終了中 状態にあるすべてのポッドを検索します。
    get pod -A | grep Terminating
  3. 次のコマンドを使用して、終了中 状態のポッドを強制的に削除します。
    kubectl delete pod <pod-name> -n <namespace> --force --grace-period=0
  4. 次のコマンドを繰り返し、停止したポッドが正常に削除されたことを確認します。必要に応じて、終了中 状態が継続しているポッドに対して、手順 3 をもう一度繰り返します。
    get pod -A | grep Terminating