시스템에서 짧은 시간 내에 매우 높은 비율의 이벤트가 발생하면 감독자의 TKG 클러스터 또는 업스트림 Kubernetes 클러스터에서 일부 포드가 종료 중 상태에서 중단됩니다.
문제
시스템이 매우 높은 비율의 이벤트 발생에서 복구된 후 NSX Application Platform이 성능 저하됨 상태로 표시됩니다. 또한 감독자의 TKG 클러스터 또는 업스트림 Kubernetes 클러스터에서 일부 포드가 몇 분 이상 종료 중 상태에서 중단됩니다.
UI에서원인
일부 Kubernetes 인프라 문제로 인해 다음 이유 중 하나 때문에 일부 포드를 제대로 삭제할 수 없습니다.
- 중단된 포드와 관련된 종료자를 완료할 수 없습니다.
- 중단된 포드가 종료 신호에 응답하지 않습니다.
해결책
인프라 관리자에게 다음 정보를 사용하여
종료 중 상태에서 멈춰 있는 포드를 수동으로 삭제하도록 요청합니다.
- 감독자의 TKG 클러스터 또는 업스트림 Kubernetes 클러스터에 대한 제어 노드에 로그인합니다.
- 다음 명령을 사용하여 종료 중 상태에 있는 모든 포드를 찾습니다.
get pod -A | grep Terminating
- 다음 명령을 사용하여 종료 중 상태에 있는 포드를 강제로 삭제합니다.
kubectl delete pod "<pod-name>" -n "<namespace>" --force --grace-period=0
- 다음 명령을 반복하고 중단된 포드가 성공적으로 삭제되었는지 확인합니다. 필요한 경우 종료 중 상태에 있는 포드에 관해 3단계를 다시 반복합니다.
get pod -A | grep Terminating