문제
인프라 서비스 충돌로 인해 NSX Edge MPA 연결이 종료되었습니다.
원인
NSX Edge 노드 디스크가 가득 차거나 메모리 누수로 인해 특정 프로세스가 충돌하고 이 오류가 발생할 수 있습니다. Admin CLI get managers는 활성 관리자 노드를 반환할 수 있고(관리자 등록에 성공한 후 충돌이 발생한 경우) admin CLI get controller는 오류 컨트롤러 목록을 가져오지 못함을 발생합니다.
해결책
- Admin CLI get diagnosis config 또는
GET API /api/v1/transport-nodes/{transport-node-id}/node/diagnosis
를 실행하여 서비스가 종료된 NSX Edge 노드의 상태와 관련된 오류를 진단합니다. - Admin CLI get cores-dumps를 실행하여 서비스 충돌로 인해 코어가 생성되었는지(/var/core 또는 /image/core에서) 확인합니다. 코어 덤프가 표시되면 cmd top -o %MEM을 루트 권한으로 실행하여 메모리를 너무 많이 사용하는 NSX 프로세스를 확인하고, admin CLI get filesystem-status를 실행하여 NSX에서 사용되는 파티션이 가득 찼거나 거의 가득 차지 않았는지 확인합니다.
- Root CLI /etc/init.d/nsx-proxy | nsx-nestdb status를 실행하여 NSX Edge 노드에서 실행 중인 인프라 서비스 상태를 가져옵니다.
- 디스크 공간을 정리한 다음, /etc/init.d/<service-name> start 명령을 실행하여 호스트에서 중지된 인프라 서비스를 시작합니다(임시 해결 방법). 코어가 표시되면 VMware에서 지원 사례를 엽니다.