Dopo che nel sistema si verifica una frequenza di eventi molto elevata in un breve periodo di tempo, alcuni dei pod nel cluster TKG sul supervisore Kubernetes upstream si bloccano nello stato di terminazione in corso.

Problema

Dopo che il sistema è stato ripristinato da un frequenza molto elevata di eventi, l'interfaccia utente Sistema > NSX Application Platform utente indica che NSX Application Platform è in uno stato Danneggiato. Inoltre, alcuni dei pod nel cluster TKG nel supervisore o Kubernetes upstream si bloccano nello stato di terminazione in corso per alcuni minuti o più.

Causa

A causa di alcuni problemi dell'infrastruttura Kubernetes, alcuni pod non possono essere eliminati correttamente per uno dei seguenti motivi.
  • Impossibile completare un finalizzatore associato al pod bloccato.
  • Il pod bloccato non risponde ai segnali di terminazione.

Soluzione

Chiedere all'amministratore dell'infrastruttura di utilizzare le seguenti informazioni per eliminare manualmente i pod bloccati nello stato di terminazione in corso.
  1. Accedere al nodo di controllo per il cluster TKG nel supervisore o Kubernetes upstream.
  2. Utilizzare il comando seguente per trovare tutti i pod che si trovano nello stato di terminazione in corso.
    get pod -A | grep Terminating
  3. Forzare l'eliminazione dei pod nello stato di terminazione in corso utilizzando il comando seguente.
    kubectl delete pod <pod-name> -n <namespace> --force --grace-period=0
  4. Ripetere il comando seguente e verificare che i pod bloccati siano stati eliminati correttamente. Se necessario, ripetere nuovamente il passaggio 3 per i pod che continuano a trovarsi nello stato di terminazione in corso.
    get pod -A | grep Terminating