시스템에서 짧은 시간 내에 매우 높은 비율의 이벤트가 발생하면 감독자의 TKG 클러스터 또는 업스트림 Kubernetes 클러스터에서 일부 포드가 종료 중 상태에서 중단됩니다.

문제

시스템이 매우 높은 비율의 이벤트 발생에서 복구된 후 시스템 > NSX Application Platform UI에서 NSX Application Platform성능 저하됨 상태로 표시됩니다. 또한 감독자의 TKG 클러스터 또는 업스트림 Kubernetes 클러스터에서 일부 포드가 몇 분 이상 종료 중 상태에서 중단됩니다.

원인

일부 Kubernetes 인프라 문제로 인해 다음 이유 중 하나 때문에 일부 포드를 제대로 삭제할 수 없습니다.
  • 중단된 포드와 관련된 종료자를 완료할 수 없습니다.
  • 중단된 포드가 종료 신호에 응답하지 않습니다.

해결책

인프라 관리자에게 다음 정보를 사용하여 종료 중 상태에서 멈춰 있는 포드를 수동으로 삭제하도록 요청합니다.
  1. 감독자의 TKG 클러스터 또는 업스트림 Kubernetes 클러스터에 대한 제어 노드에 로그인합니다.
  2. 다음 명령을 사용하여 종료 중 상태에 있는 모든 포드를 찾습니다.
    get pod -A | grep Terminating
  3. 다음 명령을 사용하여 종료 중 상태에 있는 포드를 강제로 삭제합니다.
    kubectl delete pod  "<pod-name>"  -n  "<namespace>"  --force --grace-period=0
  4. 다음 명령을 반복하고 중단된 포드가 성공적으로 삭제되었는지 확인합니다. 필요한 경우 종료 중 상태에 있는 포드에 관해 3단계를 다시 반복합니다.
    get pod -A | grep Terminating