다음 표에서는 경보 메시지 및 이를 해결하기 위한 권장 작업을 포함하여 경보를 트리거하는 이벤트에 대해 설명합니다. 심각도가 낮음보다 높은 이벤트는 경보를 트리거합니다.

경보 관리 이벤트

경보 관리 이벤트는 NSX Manager 및 글로벌 관리자 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
경보 서비스가 오버로드됨 위험

경보 서비스가 오버로드됩니다.

이벤트가 감지된 경우: “대량의 경보가 보고되었기 때문에 경보 서비스가 일시적으로 오버로드됩니다. NSX UI 및 GET /api/v1/alarm NSX API가 새 경보에 대한 보고를 중지했습니다. syslog 항목 및 SNMP 트랩(사용하도록 설정한 경우)을 내보내 여전히 기본 이벤트 세부 정보를 보고하는 중입니다. 많은 양의 경보를 유발하는 기본 문제가 해결되면 경보 서비스가 새 경보를 다시 보고하기 시작합니다.”

이벤트가 해결된 경우: “많은 양의 경보가 완화되었으며 새 경보가 다시 보고되는 중입니다.”

NSX UI의 [경보] 페이지를 사용하거나 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API를 사용하여 모든 활성 경보를 검토하십시오. 각 활성 경보에 대해 권장되는 작업을 따라 근본 원인을 조사하십시오. 충분한 경보가 해결되면 경보 서비스에서 새 경보를 다시 보고하기 시작합니다.

많은 양의 경보 위험

특정 경보 유형이 과도하게 감지되었습니다.

이벤트가 감지된 경우: "대량의 {event_id} 경보로 인해 경보 서비스가 이 유형의 경고 보고를 일시적으로 중지했습니다. NSX UI 및 GET /api/v1/alarms NSX API는 이러한 경보의 새 인스턴스를 보고하지 않습니다. syslog 항목 및 SNMP 트랩(사용하도록 설정한 경우)을 내보내 여전히 기본 이벤트 세부 정보를 보고하는 중입니다. 많은 양의 {event_id} 경보를 유발하는 기본 문제가 해결되면 문제가 다시 감지될 때 경보 서비스가 새 경보 {event_id}을(를) 다시 보고하기 시작합니다.”

이벤트가 해결된 경우: “많은 양의 {event_id} 경보가 완화되었으며 이 유형의 새로운 경보가 다시 보고되는 중입니다.”

NSX UI의 [경보] 페이지를 사용하거나 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API를 사용하여 모든 활성 경보를 검토하십시오. 각 활성 경보에 대해 권장되는 작업을 따라 근본 원인을 조사하십시오. 충분한 경보가 해결되면 경보 서비스에서 새 {event_id} 경보를 다시 보고하기 시작합니다.

용량 이벤트

다음 이벤트는 특정 범주의 개체에 대한 현재 인벤토리가 특정 수준에 도달할 때 경보를 트리거할 수 있습니다. 세부 정보는 개체 범주의 사용량 및 용량 보기를 참조하십시오.

이벤트 이름 심각도 경고 메시지 권장 작업
최대 용량 위험

개체 범주의 최대 용량에 도달했습니다. 경보 세부 정보에는 특정 개체 범주가 표시됩니다.

잠재적으로 부정적인 결과를 방지하기 위해 관련 구성을 조정합니다.

최대 용량 임계값 높음

개체 범주의 최대 용량 임계값에 도달했습니다. 경보 세부 정보에는 특정 개체 범주가 표시됩니다.

이 경보가 예상되는 경우 경보를 해결하기 위해 관련 구성을 조정합니다. 이 경보가 예기치 않은 경우 개체 범주에 대한 임계값을 조정합니다.

최소 용량 임계값 중간

개체 범주의 최소 용량 임계값에 도달했습니다. 경보 세부 정보에는 특정 개체 범주가 표시됩니다.

이 경보가 예상되는 경우 경보를 해결하기 위해 관련 구성을 조정합니다(필요한 경우). 이 경보가 예기치 않은 경우 개체 범주에 대한 임계값을 조정합니다.

인증서 이벤트

NSX Manager 노드에서 인증서 이벤트가 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
인증서가 만료됨 위험

인증서가 만료되었습니다.

이벤트가 감지된 경우: "인증서 {entity-id}이(가) 만료되었습니다."

이벤트가 해결된 경우: "만료된 인증서 {entity-id}이(가) 제거되었거나 더 이상 만료되지 않습니다.

현재 인증서를 사용하고 있는 서비스가 만료되지 않은 새 인증서를 사용하도록 업데이트되었는지 확인합니다. 예를 들어 새 인증서를 HTTP 서비스에 적용하려면 다음 API를 호출합니다.

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

여기서 <cert-id>은(는) API 호출 GET /api/v1/trust-management/certificates에서 보고하는 유효한 인증서의 ID입니다.

만료된 인증서가 더 이상 사용되지 않으면 다음 API 호출을 사용하여 삭제해야 합니다.

DELETE /api/v1/trust-management/certificates/{entity_id}

인증서가 곧 만료됨 높음

인증서가 곧 만료됩니다.

이벤트가 감지된 경우: "인증서 {entity-id}이(가) 곧 만료됩니다."

이벤트가 해결된 경우: "만료될 인증서 {entity-id}이(가) 더 이상 만료될 예정이 아닙니다."

현재 인증서를 사용하고 있는 서비스가 곧 만료될 예정이 아닌 새 인증서를 사용하도록 업데이트되었는지 확인합니다. 예를 들어 새 인증서를 HTTP 서비스에 적용하려면 다음 API를 호출합니다.

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

여기서 <cert-id>은(는) API 호출 GET /api/v1/trust-management/certificates에서 보고하는 유효한 인증서의 ID입니다.

만료될 인증서가 더 이상 사용되지 않으면 다음 API 호출을 사용하여 삭제해야 합니다.

DELETE /api/v1/trust-management/certificates/{entity_id}

인증서 만료 임박 중간

인증서가 만료에 가까워지고 있습니다.

이벤트가 감지된 경우: "인증서 {entity-id}이(가) 곧 만료될 예정입니다."

이벤트가 해결된 경우: "만료될 인증서 {entity-id}이(가) 더 이상 만료에 가까워지지 않습니다."

현재 인증서를 사용하고 있는 서비스가 곧 만료될 예정이 아닌 새 인증서를 사용하도록 업데이트되었는지 확인합니다. 예를 들어 새 인증서를 HTTP 서비스에 적용하려면 다음 API를 호출합니다.

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

여기서 <cert-id>은(는) API 호출 GET /api/v1/trust-management/certificates에서 보고하는 유효한 인증서의 ID입니다.

만료될 인증서가 더 이상 사용되지 않으면 다음 API 호출을 사용하여 삭제해야 합니다.

DELETE /api/v1/trust-management/certificates/{entity_id}

CNI 상태 이벤트

CNI 상태 이벤트는 ESXi 및 KVM 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
Hyperbus 관리자 연결 종료 중간

Hyperbus가 Manager 노드와 통신할 수 없습니다.

이벤트가 감지된 경우: "Hyperbus가 Manager 노드와 통신할 수 없습니다."

이벤트가 해결된 경우: "Hyperbus가 Manager 노드와 통신할 수 있습니다."

Hyperbus vmkernel 인터페이스(vmk50)가 누락되었을 수 있습니다. 기술 자료 문서 67432을 참조하십시오.

DHCP 이벤트

DHCP 이벤트는 NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
풀 리스 할당 실패 높음

IP 풀의 IP 주소가 모두 사용되었습니다.

이벤트가 감지된 경우: "DHCP 서버 {dhcp_server_id}의 IP 풀 {entity_id}에 있는 주소가 모두 사용되었습니다. 마지막 DHCP 요청이 실패하고 향후 요청은 실패합니다."

이벤트가 해결된 경우: "DHCP 서버 {dhcp_server_id}의 IP 풀 {entity_id}에 있는 주소가 더 이상 모두 사용되지 않습니다. 마지막 DHCP 요청에 리스가 할당되었습니다."

NSX UI에서 또는 NSX CLI 명령 get dhcp ip-pool을 호출하여 DHCP 서버가 실행 중인 Edge 노드에서 DHCP 풀 구성을 검토합니다.

또한 NSX CLI 명령 get dhcp lease를 호출하여 Edge 노드의 현재 활성 리스를 검토합니다.

리스를 활성 VM 수와 비교합니다. VM의 수가 활성 리스 수와 비교하여 낮은 경우 DHCP 서버 구성의 리스 시간을 줄이는 것을 고려하십시오. 또한 NSX UI의 네트워킹 > 세그먼트 > 세그먼트 페이지로 이동하여 DHCP 서버의 풀 범위를 확장하는 것이 좋습니다.

풀이 오버로드됨 중간

IP 풀이 오버로드되었습니다.

이벤트가 감지된 경우: "DHCP 서버 {dhcp_server_id} IP 풀 {entity_id} 사용량이 {dhcp_pool_usage}% IP가 할당되어 소진 상태에 가까워지고 있습니다."

이벤트가 해결된 경우: "DHCP 서버 {dhcp_server_id} IP 풀 {entity_id}이 높은 사용량 임계값 미만으로 감소되었습니다."

NSX UI에서 또는 NSX CLI 명령 get dhcp ip-pool을 호출하여 DHCP 서버가 실행 중인 Edge 노드에서 DHCP 풀 구성을 검토합니다.

또한 NSX CLI 명령 get dhcp lease를 호출하여 Edge 노드의 현재 활성 리스를 검토합니다.

리스를 활성 VM 수와 비교합니다. VM의 수가 활성 리스 수와 비교하여 낮은 경우 DHCP 서버 구성의 리스 시간을 줄이는 것을 고려하십시오. 또한 NSX UI의 네트워킹 > 세그먼트 > 세그먼트 페이지로 이동하여 DHCP 서버의 풀 범위를 확장하는 것이 좋습니다.

분산 방화벽 이벤트

분산 방화벽 이벤트는 NSX Manager 또는 ESXi 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
분산 방화벽 CPU 사용량이 매우 높음 위험

분산 방화벽 CPU 사용량이 매우 높습니다.

이벤트가 감지된 경우: "전송 노드 {entity_id}의 DFW CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "DNS 전달자 {entity_id}이(가) 다시 실행되고 있습니다."

이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다.

최적화를 위해 보안 설계를 검토하십시오. 예를 들어 전체 데이터 센터에 규칙이 적용되지 않는 경우 적용 대상 구성을 사용합니다.

분산 방화벽 메모리 사용량이 매우 높음 위험

분산 방화벽 메모리 사용량이 매우 높습니다.

이벤트가 감지된 경우: "전송 노드 {entity_id}의 DFW 메모리 사용량 {heap_type}이(가) {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "전송 노드 {entity_id}의 DFW 메모리 사용량 {heap_type}이(가) {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다.

호스트에서 NSX CLI 명령 get firewall thresholds를 호출하여 현재 DFW 메모리 사용량을 봅니다.

이 호스트의 워크로드를 다른 호스트로 재조정하는 것이 좋습니다.

DNS 이벤트

DNS 이벤트는 NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
전달자 종료 높음

DNS 전달자가 종료되었습니다.

이벤트가 감지된 경우: "DNS 전달자 {entity_id}이(가) 실행되고 있지 않습니다. 이것은 현재 사용하도록 설정된 식별된 DNS 전달자에 영향을 미칩니다."

이벤트가 해결된 경우: "DNS 전달자 {entity_id}이(가) 다시 실행되고 있습니다."

  1. NSX CLI 명령 get dns-forwarders status를 호출하여 DNS 전달자가 종료 상태인지 확인합니다.
  2. /var/log/syslog 에 보고된 오류가 있는지 확인합니다.
  3. 지원 번들을 수집하고 NSX 지원 팀에 문의하십시오.
전달자 사용 안 함 낮음

DNS 전달자를 사용하지 않도록 설정했습니다.

이벤트가 감지된 경우: "DNS 전달자 {entity_id}을(를) 사용하지 않도록 설정했습니다."

이벤트가 해결된 경우: "DNS 전달자 {entity_id}을(를) 사용하도록 설정했습니다."

  1. NSX CLI 명령 get dns-forwarders status를 호출하여 DNS 전달자가 사용 안 함 상태인지 확인합니다.
  2. NSX 정책 API 또는 관리자 API를 사용하여 DNS 전달자를 사용하도록 설정합니다.

Edge 상태 이벤트

Edge 상태 이벤트는 NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
Edge CPU 사용량이 매우 높음 위험

Edge 노드 CPU 사용량이 매우 높습니다.

이벤트가 감지된 경우: "Edge 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "Edge 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다.

이 Edge 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 해당 워크로드에 맞게 Edge 장치 폼 팩터 크기를 조정하거나 다른 Edge 노드로 서비스를 재조정하는 것이 좋습니다.
Edge CPU 사용량이 높음 중간

Edge 노드 CPU 사용량이 높습니다.

이벤트가 감지된 경우: "Edge 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "Edge 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다.

이 Edge 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 해당 워크로드에 맞게 Edge 장치 폼 팩터 크기를 조정하거나 다른 Edge 노드로 서비스를 재조정하는 것이 좋습니다.
Edge 데이터 경로 구성 실패 높음

Edge 노드 데이터 경로 구성에 실패했습니다.

이벤트가 감지된 경우: "3번 시도 후 Edge 노드에서 데이터 경로를 사용하도록 설정하지 못했습니다."

이벤트가 해결된 경우: Edge 노드의 데이터 경로를 사용하도록 설정했습니다.”

관리자 노드에 대한 Edge 노드 연결이 정상인지 확인합니다.

Edge 노드 NSX CLI에서 get services 명령을 호출하여 서비스 상태를 확인합니다.

데이터부 서비스가 중지된 경우 start service dataplane 명령을 호출하여 다시 시작합니다.

Edge 데이터 경로 CPU 사용량이 매우 높음 위험

Edge 노드 데이터 경로 CPU 사용량이 매우 높습니다.

이벤트가 감지된 경우: "Edge 노드 {entity id}의 데이터 경로 CPU 사용량이 최소 2분 동안 매우 높은 임계값 이상인 {datapath_resource_usage}%에 도달했습니다."

이벤트가 해결된 경우: “Edge 노드 {entity-id}의 데이터 경로 CPU 사용량이 최대 임계값보다 낮게 감소되었습니다.”

NSX CLI 명령 get dataplane cpu stats를 호출하고 Edge 노드의 CPU 통계를 검토하여 CPU 코어당 패킷 속도를 표시합니다.

더 높은 패킷 속도에는 더 높은 CPU 사용량이 예상됩니다.

Edge 장치 폼 팩터 크기를 늘리고 이 Edge 노드의 서비스를 동일한 클러스터 또는 다른 Edge 클러스터의 다른 Edge 노드로 재조정하는 것이 좋습니다.

Edge 데이터 경로 CPU 사용량이 높음 중간

Edge 노드 데이터 경로 CPU 사용량이 높습니다.

이벤트가 감지된 경우: "Edge 노드 {entity id}의 데이터 경로 CPU 사용량이 최소 2분 동안 높은 임계값 이상인 {datapath_resource_usage}%에 도달했습니다."

이벤트가 해결된 경우: “Edge 노드 {entity-id}의 CPU 사용량이 높은 임계값보다 낮아졌습니다.”

NSX CLI 명령 get dataplane cpu stats를 호출하고 Edge 노드의 CPU 통계를 검토하여 CPU 코어당 패킷 속도를 표시합니다.

더 높은 패킷 속도에는 더 높은 CPU 사용량이 예상됩니다.

Edge 장치 폼 팩터 크기를 늘리고 이 Edge 노드의 서비스를 동일한 클러스터 또는 다른 Edge 클러스터의 다른 Edge 노드로 재조정하는 것이 좋습니다.

Edge 데이터 경로 암호화 드라이버 종료 위험

Edge 노드 데이터 경로 암호화 드라이버가 종료되었습니다.

이벤트가 감지된 경우: "Edge 노드 암호화 드라이버가 종료되었습니다."

이벤트가 해결된 경우: "Edge 노드 암호화 드라이버가 실행 중입니다."

필요에 따라 Edge 노드를 업그레이드합니다.

Edge 데이터 경로 메모리 풀이 높음 중간

Edge 노드 데이터 경로 메모리 풀이 높습니다.

이벤트가 감지된 경우: "Edge 노드 {entity_id}{mempool_name}에 대한 데이터 경로 메모리 풀 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "Edge 노드 {entity_id}{mempool_name}에 대한 데이터 경로 메모리 풀 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다.

루트 사용자로 로그인하고 명령 edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/showedge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap을 호출하여 DPDK 메모리 사용량을 확인합니다.
Edge 디스크 사용량이 매우 높음 위험

Edge 노드 디스크 사용량이 매우 높습니다.

이벤트가 감지된 경우: "Edge 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "Edge 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다.

사용량이 많은 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다.
Edge 디스크 사용량이 높음 중간

Edge 노드 디스크 사용량이 높습니다.

이벤트가 감지된 경우: "Edge 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "Edge 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다.

사용량이 많은 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다.
Edge 글로벌 ARP 테이블 사용량이 높음 중간

Edge 노드 글로벌 ARP 테이블 사용량이 높습니다.

이벤트가 감지된 경우: "Edge 노드 {entity id}의 글로벌 ARP 테이블 사용량이 최소 2분 동안 높은 임계값을 초과하는 {datapath_resource_usage}%에 도달했습니다."

이벤트가 해결된 경우: “Edge 노드 {entity-id}의 글로벌 ARP 테이블 사용량이 높은 임계값보다 낮아졌습니다.”

ARP 테이블 크기를 늘입니다.
  1. 루트 사용자로 로그인합니다.
  2. edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show 명령을 호출합니다.
  3. neigh 캐시 사용량이 정상인지 확인합니다.
    1. 정상적인 경우, edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries 명령을 호출하여 ARP 테이블 크기를 늘리십시오.
Edge 메모리 사용량이 매우 높음 위험

Edge 노드 메모리 사용량이 매우 높습니다.

이벤트가 감지된 경우: "Edge 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "Edge 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다.

이 Edge 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 해당 워크로드에 맞게 Edge 장치 폼 팩터 크기를 조정하거나 다른 Edge 노드로 서비스를 재조정하는 것이 좋습니다.
Edge 메모리 사용량이 높음 중간

Edge 노드 메모리 사용량이 높습니다.

이벤트가 감지된 경우: "Edge 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "Edge 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다.

이 Edge 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 해당 워크로드에 맞게 Edge 장치 폼 팩터 크기를 조정하거나 다른 Edge 노드로 서비스를 재조정하는 것이 좋습니다.
Edge NIC 링크 상태 종료 위험

Edge 노드 NIC 링크가 종료되었습니다.

이벤트가 감지된 경우: "Edge 노드 NIC {edge_nic_name} 링크가 종료되었습니다."

이벤트가 해결된 경우: "Edge 노드 NIC {edge_nic_name} 링크가 실행 중입니다."

Edge 노드에서 NSX CLI 명령 get interfaces를 호출하여 NIC 링크가 물리적으로 종료되었는지 확인합니다.

종료된 경우 케이블 연결을 확인합니다.

Edge NIC가 수신 버퍼를 벗어남 위험

Edge 노드 NIC 수신 설명자 링 버퍼에 남은 공간이 없습니다.

이벤트가 감지된 경우: "Edge NIC {edge_nic_name} 수신 링 버퍼가 60초 넘게 Edge 노드 {entity-id}에서 {rx_ring_buffer_overflow_percentage}%만큼 오버플로되었습니다."

이벤트가 해결된 경우: "Edge 노드 {entity-id}의 Edge NIC {edge_nic_name} 수신 버퍼 사용량이 더 이상 오버플로되지 않습니다."

NSX CLI 명령 get dataplane를 호출하고 다음을 확인합니다.
  1. PPS 및 CPU 사용량이 높으면 get dataplane | find ring-size rx를 호출하여 rx 링 크기를 확인합니다.
    • PPS 및 CPU가 높고 rx 링 크기가 낮은 경우에는 set dataplane ring-size rx <ring-size>를 호출하고 set <ring-size>를 수신 패킷을 수용할 수 있는 더 높은 값으로 설정합니다.
    • 위 조건이 충족되지 않는데도 링 크기가 높고 CPU 사용량이 여전히 높은 경우에는 데이터부 처리 오버헤드 지연 때문일 수 있습니다.
Edge NIC가 전송 버퍼를 벗어남 위험

Edge 노드 NIC 전송 설명자 링 버퍼에 남은 공간이 없습니다.

이벤트가 감지될 시: "Edge 노드 NIC {edge_nic_name} 전송 링 버퍼가 60초 넘게 Edge 노드 {entity-id}에서 {tx_ring_buffer_overflow_percentage}%만큼 오버플로되었습니다."

이벤트가 해결된 경우: "Edge 노드 {entity-id}의 Edge 노드 NIC {edge_nic_name} 전송 버퍼 사용량이 더 이상 오버플로되지 않습니다."

NSX CLI 명령 get dataplane를 호출하고 다음을 확인합니다.
  1. PPS 및 CPU 사용량이 높으면 get dataplane | find ring-size tx를 호출하여 rx 링 크기를 확인합니다.
    • PPS 및 CPU가 높고 tx 링 크기가 낮은 경우에는 set dataplane ring-size tx <ring-size>를 호출하고 set <ring-size>를 송신 패킷을 수용할 수 있는 더 높은 값으로 설정합니다.
    • 위 조건이 충족되지 않는데도 링 크기가 높고 CPU 사용량은 낮거나 공칭인 경우에는 하이퍼바이저의 전송 링 크기 설정 때문일 수 있습니다.
스토리지 오류 위험

NSX-T Data Center 3.0.1 버전부터 시작

Edge 노드의 다음 디스크 파티션이 읽기 전용 모드입니다. {disk_partition_name}

.

읽기 전용 파티션을 검토하여 재부팅으로 문제가 해결되었는지 또는 디스크를 교체해야 하는지 확인합니다. KB 문서 https://kb.vmware.com/s/article/2146870을 참조하십시오.

끝점 보호 이벤트

끝점 보호 이벤트는 NSX Manager 또는 ESXi 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
EAM 상태 종료 위험

계산 관리자의 EAM(ESX Agent Manager) 서비스가 종료되었습니다.

이벤트가 감지된 경우: “계산 관리자 {entity_id}의 EAM(ESX Agent Manager) 서비스가 종료되었습니다.”

이벤트가 해결된 경우: “계산 관리자 {entity_id}의 EAM(ESX Agent Manager) 서비스가 종료되었거나 계산 관리자 {entity_id}이(가) 제거되었습니다."

EAM(ESX Agent Manager) 서비스를 다시 시작합니다.
  • vCenter 노드로 SSH를 실행하고 다음을 실행합니다.
    service vmware-eam start
파트너 채널 종료 위험

호스트 모듈 및 파트너 SVM 연결이 종료되었습니다.

이벤트가 감지된 경우: "호스트 모듈과 파트너 SVM {entity_id} 간 연결이 종료되었습니다."

이벤트가 해결된 경우: "호스트 모듈과 파트너 SVM {entity_id} 간 연결이 실행 중입니다."

기술 자료 문서 2148821 NSX Guest Introspection 문제 해결을 참조하고 {entity_id}(으)로 식별되는 파트너 SVM이 호스트 모듈에 다시 연결되었는지 확인하십시오.

게이트웨이 방화벽 이벤트

게이트웨이 방화벽 이벤트는 NSX Edge 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업

ICMP 흐름 수를 초과함

위험 NSX-T Data Center 3.1.3부터

ICMP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블이 설정된 임계값을 초과했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.

이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 ICMP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_icmp_flow_usage}%에 도달했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.”

이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.”

  1. Edge 노드에 관리자로 로그인하고 올바른 인터페이스 uuid를 사용하여 다음 NSX CLI 명령을 호출한 후 ICMP 흐름에 대한 흐름 테이블 사용량을 확인합니다.

    get firewall <LR_INT_UUID> interface stats | json
  2. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다.
  3. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다.
ICMP 흐름 수가 높음 중간 NSX-T Data Center 3.1.3부터

ICMP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.

이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 ICMP에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_icmp_flow_usage}%에 도달했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.”

이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 ICMP에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.”

  1. Edge 노드에 관리자로 로그인하고 올바른 인터페이스 uuid를 사용하여 다음 NSX CLI 명령을 호출한 후 ICMP 흐름에 대한 흐름 테이블 사용량을 확인합니다.

    get firewall <LR_INT_UUID> interface stats | json
  2. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다.
  3. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다.
IP 흐름 수를 초과함 위험 NSX-T Data Center 3.1.3부터

IP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블이 설정된 임계값을 초과했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.

이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 IP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_ip_flow_usage}%에 도달했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.”

이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.”

  1. Edge 노드에 관리자로 로그인하고 올바른 인터페이스 uuid를 사용하여 NSX CLI 명령을 호출한 후 IP 흐름에 대한 흐름 테이블 사용량을 확인합니다.

    get firewall <LR_INT_UUID> interface stats | json
  2. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다.
  3. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다.
IP 흐름 수가 높음 중간 NSX-T Data Center 3.1.3부터

IP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.

이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 IP에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_ip_flow_usage}%에 도달했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.”

이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 비 IP 흐름에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.”

  1. Edge 노드에 관리자로 로그인하고 올바른 인터페이스 uuid를 사용하여 NSX CLI 명령을 호출한 후 IP 흐름에 대한 흐름 테이블 사용량을 확인합니다.

    get firewall <LR_INT_UUID> interface stats | json
  2. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다.
  3. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다.
TCP 흐름 수를 초과함 위험 NSX-T Data Center 3.1.3부터

TCP 절반 개방 트래픽에 대한 게이트웨이 방화벽 흐름 테이블이 설정된 임계값을 초과했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.

이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 TCP 절반 개방 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_halfopen_flow_usage}%에 도달했습니다.” 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.”

이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.”

  1. Edge 노드에 관리자로 로그인하고 올바른 인터페이스 uuid를 사용하여 NSX CLI 명령을 호출한 후 TCP 절반 개방 흐름에 대한 흐름 테이블 사용량을 확인합니다.

    get firewall <LR_INT_UUID> interface stats | json
  2. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다.
  3. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다.
TCP 흐름 수가 높음 중간 NSX-T Data Center 3.1.3부터

TCP 절반 개방 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.

이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 TCP에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_halfopen_flow_usage}%에 도달했습니다.” 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.”

이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 TCP 절반 개방에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.”

  1. Edge 노드에 관리자로 로그인하고 올바른 인터페이스 uuid를 사용하여 NSX CLI 명령을 호출한 후 TCP 절반 개방 흐름에 대한 흐름 테이블 사용량을 확인합니다.

    get firewall <LR_INT_UUID> interface stats | json
  2. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다.
  3. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다.
UDP 흐름 수를 초과함 위험 NSX-T Data Center 3.1.3부터

UDP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블이 설정된 임계값을 초과했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.

이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 UDP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_udp_flow_usage}%에 도달했습니다.” 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.”

이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 미만입니다.”

  1. Edge 노드에 관리자로 로그인하고 올바른 인터페이스 uuid를 사용하여 NSX CLI 명령을 호출한 후 UDP 흐름에 대한 흐름 테이블 사용량을 확인합니다.

    get firewall <LR_INT_UUID> interface stats | json
  2. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다.
  3. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다.
UDP 흐름 수가 높음 중간 NSX-T Data Center 3.1.3부터

UDP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.

이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 UDP에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_udp_flow_usage}%에 도달했습니다." 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.”

이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 UDP에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 미만입니다.”

  1. Edge 노드에 관리자로 로그인하고 올바른 인터페이스 uuid를 사용하여 NSX CLI 명령을 호출한 후 UDP 흐름에 대한 흐름 테이블 사용량을 확인합니다.

    get firewall <LR_INT_UUID> interface stats | json
  2. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다.
  3. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다.

고가용성 이벤트

고가용성 이벤트는 NSX Edge 및 공용 클라우드 게이트웨이 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
Tier0 게이트웨이 페일오버 높음

Tier0 게이트웨이가 페일오버되었습니다.

이벤트가 감지된 경우: "tier0 게이트웨이 {entity-id}이(가) {previous_gateway_state}에서 {current_gateway_state}(으)로 페일오버됩니다."

이벤트가 해결된 경우: "tier0 게이트웨이 {entity id}이(가) 실행 중입니다."

종료된 서비스를 확인하고 다시 시작합니다.
  1. NSX CLI 명령 get logical-routers를 실행하여 tier0 VRF ID를 식별합니다.
  2. vrf <vrf-id>를 실행하여 VRF 컨텍스트로 전환합니다.
  3. get high-availability status를 실행하여 종료된 서비스를 확인합니다.
Tier1 게이트웨이 페일오버 높음

Tier1 게이트웨이가 페일오버되었습니다.

이벤트가 감지된 경우: "tier1 게이트웨이 {entity-id}이(가) {previous_gateway_state}에서 {current_gateway_state}(으)로 페일오버됩니다."

이벤트가 해결된 경우: "tier1 게이트웨이 {entity id}이(가) 실행 중입니다."

종료된 서비스를 확인하고 다시 시작합니다.
  1. NSX CLI 명령 get logical-routers를 실행하여 tier1 VRF ID를 식별합니다.
  2. vrf <vrf-id>를 실행하여 VRF 컨텍스트로 전환합니다.
  3. get high-availability status를 실행하여 종료된 서비스를 확인합니다.

인프라 통신 이벤트

인프라 통신 이벤트는 NSX Edge, KVM, ESXi 및 공용 게이트웨이 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
Edge-터널 종료 위험

Edge 노드의 터널 상태가 종료입니다.

이벤트가 감지된 경우: "Edge 노드 {entity_id}의 전체 터널 상태가 종료입니다."

이벤트가 해결된 경우: "Edge 노드 {entity_id}의 터널이 복원되었습니다."

  1. SSH를 사용하여 Edge 노드에 로그인합니다.
  2. 상태를 가져옵니다.
    nsxcli get tunnel-ports
  3. 각 터널에서 모든 삭제에 대한 통계를 확인합니다.
    get tunnel-port <UUID> stats
  4. syslog 파일에서 모든 터널 관련 오류를 확인합니다.

인프라 서비스 이벤트

인프라 서비스 이벤트는 NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
Edge 서비스 상태 종료 위험

Edge 서비스가 최소 1분 동안 종료되었습니다.

이벤트가 감지된 경우: "서비스 {edge_service_name}이(가) 최소 1분 동안 종료되었습니다."

이벤트가 해결된 경우: "서비스 {edge_service_name}이(가) 실행 중입니다."

Edge 노드에서 /var/log/core 디렉토리에서 코어 덤프 파일을 찾아 오류 때문에 서비스가 종료되지 않았는지 확인합니다.

서비스가 중지되었는지 확인하려면 NSX CLI 명령 get services를 호출합니다.

중지되었으면 start service <service-name>를 실행하여 서비스를 다시 시작합니다.

Edge 서비스 상태 변경됨 낮음

Edge 서비스 상태가 변경되었습니다.

이벤트가 감지된 경우: "서비스 {edge_service_name}이(가) {previous_service_state}에서 {current_service_state}(으)로 변경되었습니다.”

이벤트가 해결된 경우: "서비스 {edge_service_name}이(가) {previous_service_state}에서 {current_service_state}(으)로 변경되었습니다.”

Edge 노드에서 /var/log/core 디렉토리에서 코어 덤프 파일을 찾아 오류 때문에 서비스가 종료되지 않았는지 확인합니다.

서비스가 중지되었는지 확인하려면 NSX CLI 명령 get services를 호출합니다.

중지되었으면 start service <service-name>를 실행하여 서비스를 다시 시작합니다.

Intelligence 통신 이벤트

NSX Intelligence 통신 이벤트는 NSX Manager 노드, ESXi 노드 및 NSX Intelligence 장치에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
전송 노드 흐름 내보내기의 연결이 끊어짐 높음

전송 노드가 해당 Intelligence 노드의 메시징 브로커에서 연결이 끊어졌습니다. 데이터 수집이 영향을 받습니다.

이벤트가 감지된 경우: "전송 노드 {entity id}의 흐름 내보내기가 Intelligence 노드의 메시징 브로커에서 연결이 끊어졌습니다. 데이터 수집이 영향을 받습니다."

이벤트가 해결된 경우: "전송 노드 {entity id}의 흐름 내보내기가 Intelligence 노드의 메시징 브로커로 다시 연결되었습니다.

  1. 메시징 서비스가 NSX Intelligence 노드에서 실행되고 있지 않은 경우 다시 시작합니다.
  2. 전송 노드와 NSX Intelligence 노드 간의 네트워크 연결 실패를 해결합니다.
전송 노드로의 제어 채널이 종료됨 중간 전송 노드로의 제어 채널이 종료됨.

이벤트가 감지된 경우: 전송 노드 {entity-id}(로)의 컨트롤러 서비스 central_control_plane_id이(가) 컨트롤러 서비스 관점에서 3분 넘게 종료되었습니다.

이벤트가 해결된 경우: 컨트롤러 서비스 central_control_plane_id가 전송 노드 {entity-id}에 대한 연결을 복원합니다.

  1. ping 명령을 사용하여 컨트롤러 서비스 central_control_plane_id 및 전송 노드 {entity-id} 인터페이스에서의 연결을 확인합니다. Ping할 수 없는 경우 네트워크 연결을 확인하십시오.
  2. netstat 출력을 사용하여 TCP 연결을 설정했는지 확인하고 컨트롤러 서비스 {central_control_plane_id}이(가) 포트 1235에서 연결을 수신하고 있는지 확인합니다. 확인되지 않을 경우 방화벽 (또는) iptables 규칙을 확인하여 포트 1235가 전송 노드 {entity_id} 연결 요청을 차단하고 있는지 확인합니다. 언더레이에서 관리자 노드와 전송 노드 간에 필요한 IP 포트를 차단하는 호스트 방화벽이나 네트워크 방화벽이 없는지 확인합니다. 이 내용은 https://ports.vmware.com/의 포트 및 프로토콜 도구에 설명되어 있습니다.
  3. 전송 노드 {entity_id}이(가) 계속 유지 보수 모드일 수 있습니다. 다음 API를 통해 전송 노드가 유지 보수 모드에 있는지 여부를 확인할 수 있습니다.

    GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid>

    유지 보수 모드가 설정되면 전송 노드가 컨트롤러 서비스에 연결되지 않습니다. 이는 일반적으로 호스트 업그레이드가 진행 중인 경우에 발생합니다. 몇 분 동안 기다렸다가 연결을 다시 확인합니다.
    참고: 이 경보는 중요하며 해결해야 합니다. 장시간 해결되지 않은 상태로 남아 있을 경우 이 경보에 대해 VMware 지원 서비스에 문의하십시오.

전송 노드로의 제어 채널이 오랫동안 종료됨

위험

전송 노드로의 제어 채널이 너무 오랫동안 종료됨.

이벤트가 감지된 경우: 전송 노드 {entity-id}(로)의 컨트롤러 서비스 central_control_plane_id이(가) 컨트롤러 서비스 관점에서 15분 넘게 종료되었습니다.

이벤트가 해결된 경우: 컨트롤러 서비스 central_control_plane_id가 전송 노드 {entity-id}에 대한 연결을 복원합니다.

  1. ping 명령을 사용하여 컨트롤러 서비스 central_control_plane_id 및 전송 노드 {entity-id} 인터페이스에서의 연결을 확인합니다. Ping할 수 없는 경우 네트워크 연결이 끊기는지 확인합니다.
  2. netstat 출력을 사용하여 TCP 연결을 설정했는지 확인하고 컨트롤러 서비스 {central_control_plane_id}이(가) 포트 1235에서 연결을 수신하고 있는지 확인합니다. 확인되지 않을 경우 방화벽 (또는) iptables 규칙을 확인하여 포트 1235가 전송 노드 {entity_id} 연결 요청을 차단하고 있는지 확인합니다. 언더레이에서 관리자 노드와 전송 노드 간에 필요한 IP 포트를 차단하는 호스트 방화벽이나 네트워크 방화벽이 없는지 확인합니다. 이 내용은 https://ports.vmware.com/의 포트 및 프로토콜 도구에 설명되어 있습니다.
  3. 전송 노드 {entity_id}이(가) 계속 유지 보수 모드일 수 있습니다. 다음 API를 통해 전송 노드가 유지 보수 모드에 있는지 여부를 확인할 수 있습니다.

    GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid>

    유지 보수 모드가 설정되면 전송 노드가 컨트롤러 서비스에 연결되지 않습니다. 이는 일반적으로 호스트 업그레이드가 진행 중인 경우에 발생합니다. 몇 분 동안 기다렸다가 연결을 다시 확인합니다.

Intelligence 상태 이벤트

NSX Intelligence 상태 이벤트는 NSX Manager 노드와 NSX Intelligence 장치에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
CPU 사용량이 매우 높음 위험

Intelligence 노드 CPU 사용량이 매우 높습니다.

이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 CPU 사용량이 매우 높은 임계값 {system_usage_threshold}%를 초과합니다.

이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 CPU 사용량이 매우 높은 임계값 {system_usage_threshold}% 미만입니다.

top 명령을 사용하여 메모리 사용량이 가장 많은 프로세스를 확인한 다음, /var/log/syslog 및 이러한 프로세스의 로컬 로그를 확인하여 해결되지 않은 오류가 있는지 확인합니다.

CPU 사용량이 높음 중간

Intelligence 노드 CPU 사용량이 높습니다.

이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 CPU 사용량이 높은 임계값 {system_usage_threshold}%를 초과합니다.

이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 CPU 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.

top 명령을 사용하여 메모리 사용량이 가장 많은 프로세스를 확인한 다음, /var/log/syslog 및 이러한 프로세스의 로컬 로그를 확인하여 해결되지 않은 오류가 있는지 확인합니다.

메모리 사용량이 매우 높음 위험

Intelligence 노드 메모리 사용량이 매우 높습니다.

이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 메모리 사용량이 매우 높은 임계값 {system_usage_threshold}%를 초과합니다.

이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 메모리 사용량이 매우 높은 임계값 {system_usage_threshold}% 미만입니다.

top 명령을 사용하여 메모리 사용량이 가장 많은 프로세스를 확인한 다음, /var/log/syslog 및 이러한 프로세스의 로컬 로그를 확인하여 해결되지 않은 오류가 있는지 확인합니다.

메모리 사용량이 높음 중간

Intelligence 노드 메모리 사용량이 높습니다.

이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 메모리 사용량이 높은 임계값 {system_usage_threshold}%를 초과합니다.

이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 메모리 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.

top 명령을 사용하여 메모리 사용량이 가장 많은 프로세스를 확인한 다음, /var/log/syslog 및 이러한 프로세스의 로컬 로그를 확인하여 해결되지 않은 오류가 있는지 확인합니다.

디스크 사용량이 매우 높음 위험

Intelligence 노드 디스크 사용량이 매우 높습니다.

이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 {disk_partition_name}의 디스크 사용량이 매우 높은 임계값 {system_usage_threshold}%를 초과합니다.

이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 {disk_partition_name}의 디스크 사용량이 매우 높은 임계값 {system_usage_threshold}% 미만입니다.

디스크 파티션 {disk_partition_name}을(를) 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다.
디스크 사용량이 높음 중간

Intelligence 노드 디스크 사용량이 높습니다.

이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 {disk_partition_name}의 디스크 사용량이 높은 임계값 {system_usage_threshold}%를 초과합니다.

이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 {disk_partition_name}의 디스크 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.

디스크 파티션 {disk_partition_name}을(를) 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다.
데이터 디스크 파티션 사용량이 매우 높음 위험

Intelligence 노드 데이터 디스크 파티션 사용량이 매우 높습니다.

이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 /data의 디스크 사용량이 매우 높은 임계값 {system_usage_threshold}%를 초과합니다.

이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 /data의 디스크 사용량이 매우 높은 임계값 {system_usage_threshold}% 미만입니다.

디스크 사용량이 임계값보다 낮아질 때까지 NSX Intelligence 데이터 수집을 중지합니다.

NSX UI에서 시스템장치NSX Intelligence 장치로 이동합니다. 그런 다음, 작업 > 데이터 수집 중지를 선택합니다.

데이터 디스크 파티션 사용량이 높음 중간

Intelligence 노드 데이터 디스크 파티션 사용량이 높습니다.

이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 /data의 디스크 사용량이 높은 임계값 {system_usage_threshold}%를 초과합니다.

이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 /data의 디스크 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.

디스크 사용량이 임계값보다 낮아질 때까지 NSX Intelligence 데이터 수집을 중지합니다.

/data 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다.

노드 상태 성능 저하 높음

Intelligence 노드 상태가 저하됨입니다.

이벤트가 감지된 경우: “NSX Intelligence 노드 {intelligence_node_id}의 서비스 {service_name}이(가) 실행되고 있지 않습니다."

이벤트가 해결된 경우: “NSX Intelligence 노드 {intelligence_node_id}의 서비스 {service_name}이(가) 적절히 실행되고 있습니다."

NSX Intelligence 노드에서 NSX CLI 명령 get services를 사용하여 서비스 상태 및 상태 정보를 검토합니다.

NSX CLI 명령 restart service <service-name>을 사용하여 예기치 않게 중지된 서비스를 다시 시작합니다.

IP 주소 관리 이벤트

IPAM(IP 주소 관리) 이벤트는 NSX Manager 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
IP 블록 사용량이 매우 높음 중간

NSX-T Data Center 3.1.2부터

IP 블록의 IP 서브넷 사용량이 90%에 도달했습니다.

이벤트가 감지된 경우: "<intent_path>의 IP 블록 사용량이 매우 높습니다. IP 블록이 총 용량에 거의 가까워지고 있으며 IP 블록을 사용하는 서브넷 생성이 실패할 수 있습니다."

이벤트가 해결된 경우:

메시지가 없습니다.

  • IP 블록 사용량을 검토합니다. 리소스 생성을 위해 새 IP 블록을 사용하거나 사용하지 않는 IP 서브넷을 IP 블록에서 삭제합니다. IP 블록에 사용되는 서브넷을 확인하려면 다음을 수행합니다.
    1. NSX UI에서 네트워킹 > IP 주소 풀 > IP 주소 풀 탭으로 이동합니다.
    2. IP 블록을 사용 중이면 IP 풀을 선택합니다. 서브넷할당된 IP 열을 선택합니다.
    3. 할당이 전혀 사용되지 않으며 앞으로도 사용되지 않을 예정이면 서브넷 또는 IP 풀을 삭제합니다.
  • 다음 API를 사용하여 IP 풀에서 IP 블록을 사용 중인지 확인하고 IP 할당도 확인합니다.
    • IP 풀의 구성된 서브넷을 가져오려면 다음 NSX API를 호출합니다.

      GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-subnets

    • IP 할당을 가져오려면 다음 NSX API를 호출합니다.

      GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations

참고: 할당된 IP가 없으며 향후 사용하지 않을 예정이면 IP 풀 또는 서브넷을 삭제합니다.
IP 풀 사용량이 매우 높음 중간

NSX-T Data Center 3.1.2부터

IP 풀의 IP 할당 사용량이 90%에 도달했습니다.

이벤트가 감지된 경우: "<intent_path>의 IP 풀 사용량이 매우 높습니다. IP 풀이 총 용량에 가까워지고 있습니다. 엔티티/서비스의 생성은 IP 풀에서 할당되는 IP에 따라 다를 수 있습니다."

이벤트가 해결된 경우:

메시지가 없습니다.

IP 풀 사용량을 검토합니다. 사용하지 않는 IP 할당을 IP 풀에서 해제하거나 새 IP 풀을 생성합니다.

  1. NSX UI에서 네트워킹 > IP 주소 풀 > IP 주소 풀 탭으로 이동합니다.
  2. IP 풀에서 할당된 IP를 보려면 IP 풀을 선택하고 할당된 IP 열을 확인합니다.

사용하지 않는 해당 IP를 해제할 수 있습니다. 사용하지 않는 IP 할당을 해제하려면 다음 NSX API를 호출합니다.

DELETE /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations/<ip-allocation>

라이센스 이벤트

라이센스 이벤트는 NSX Manager 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
라이센스 만료됨 위험

라이센스가 만료되었습니다.

이벤트가 감지된 경우: "{license_edition_type} 유형의 라이센스가 만료되었습니다."

이벤트가 해결된 경우: {license_edition_type} 유형의 만료된 라이센스가 제거 또는 업데이트되었거나 더 이상 만료 상태가 아닙니다.”

다음과 같이 만료되지 않은 새 라이센스를 추가하십시오.
  1. NSX UI에서 시스템 > 라이센스로 이동합니다.
  2. 추가를 클릭하고 새 라이센스의 키를 지정합니다.
  3. 해당 확인란을 선택하고 할당 취소를 클릭하여 만료된 라이센스를 삭제합니다.
라이센스가 곧 만료됨 중간

이벤트가 감지된 경우: "{license_edition_type} 유형의 라이센스가 곧 만료될 예정입니다."

이벤트가 해결된 경우: {license_edition_type}(으)로 식별되는 곧 만료될 라이센스가 제거 또는 업데이트되었거나 더 이상 만료 상태가 아닙니다.”

다음과 같이 만료되지 않은 새 라이센스를 추가하십시오.
  1. NSX UI에서 시스템 > 라이센스로 이동합니다.
  2. 추가를 클릭하고 새 라이센스의 키를 지정합니다.
  3. 해당 확인란을 선택하고 할당 취소를 클릭하여 만료된 라이센스를 삭제합니다.

로드 밸런서 이벤트

로드 밸런서 이벤트는 NSX Edge 노드 또는 NSX Manager 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
LB CPU가 매우 높음 중간

로드 밸런서 CPU 사용량이 매우 높습니다.

이벤트가 감지된 경우: "로드 밸런서 {entity_id}의 CPU 사용량이 매우 높습니다. 임계값은 {system_usage_threshold}%입니다."

이벤트가 해결된 경우: "로드 밸런서 {entity_id}의 CPU 사용량이 충분히 낮습니다. 임계값은 {system_usage_threshold}%입니다."

로드 밸런서 CPU 활용률이 {system_usage_threshold}%보다 높은 경우 이 로드 밸런서에 비해 워크로드가 너무 높은 것입니다.

로드 밸런서 크기를 소형에서 중형으로 또는 중형에서 대형으로 변경하여 로드 밸런서 서비스의 크기를 다시 조정합니다.

이 로드 밸런서의 CPU 활용률이 여전히 높은 경우에는 해당 워크로드에 대한 Edge 장치 폼 팩터 크기를 조정하거나 로드 밸런서 서비스를 다른 Edge 노드로 이동하는 것이 좋습니다.

LB 상태 종료

위험

이벤트가 감지된 경우: "중앙 집중식 로드 밸런서 서비스 {entity_id}이(가) 종료되었습니다."

이벤트가 해결된 경우: "중앙 집중식 로드 밸런서 서비스 {entity_id}이(가) 실행 중입니다."

  1. 활성 Edge 노드에서 다음 NSX CLI 명령을 호출하여 로드 밸런서 상태를 확인합니다.

    get load-balancer <lb-uuid> status
  2. 로드 밸런서 서비스의 LB 상태가 not_ready이거나 출력이 없는 경우 Edge 노드를 유지 보수 모드로 전환한 다음, 유지 보수 모드를 종료합니다.
가상 서버 상태 종료 중간

로드 밸런서 가상 서비스가 종료되었습니다.

이벤트가 감지된 경우: "로드 밸런서 가상 서버 {entity_id}이(가) 종료되었습니다."

이벤트가 해결된 경우: "로드 밸런서 가상 서버 {entity_id}이(가) 실행 중입니다."

로드 밸런서 풀을 참조하여 상태를 확인하고 해당 구성을 검토합니다.

잘못 구성된 경우 재구성하고 가상 서버에서 로드 밸런서 풀을 제거한 다음, 가상 서버에 다시 추가합니다.

풀 상태 종료 중간

이벤트가 감지된 경우: "로드 밸런서 풀 {entity_id} 상태가 종료입니다."

이벤트가 해결된 경우: "로드 밸런서 풀 {entity_id} 상태가 실행 중입니다."

  1. 로드 밸런서 풀을 참조하여 종료된 멤버를 확인합니다.
  2. 로드 밸런서에서 영향을 받는 풀 멤버로의 네트워크 연결을 확인합니다.
  3. 각 풀 멤버의 애플리케이션 상태를 확인합니다.
  4. 구성된 모니터를 사용하여 각 풀 멤버의 상태를 확인합니다.

멤버의 상태가 설정되면 상승 카운트에 따라 풀 멤버 상태가 정상으로 업데이트됩니다.

LB 상태 성능 저하됨

중간

NSX-T Data Center 3.1.2부터

이벤트가 감지된 경우: "로드 밸런서 서비스 {entity_id} 성능이 저하되었습니다."

이벤트가 해결된 경우: "로드 밸런서 서비스 {entity_id} 성능이 저하되지 않았습니다."

  • 중앙 집중식 로드 밸런서의 경우:
    1. 대기 Edge 노드에서 다음 NSX CLI 명령을 호출하여 로드 밸런서 상태를 확인합니다.

      get load-balancer <lb-uuid> status
    2. 로드 밸런서 서비스의 LB 상태가 'not_ready'이거나 출력이 없는 경우 Edge 노드를 유지 보수 모드로 전환한 다음, 유지 보수 모드를 종료합니다.
  • 분산 로드 밸런서의 경우:
  1. 다음 NSX API를 호출하여 자세한 상태를 확인합니다.

    GET /policy/api/v1/infra/lb-services/<LBService>/detailed-status?source=realtime
  2. API 출력에서 상태가 NOT_READY 또는 CONFLICT인 0이 아닌 instance_number를 보고하는 ESXi 호스트를 찾습니다.
  3. ESXi 호스트 노드에서 다음 NSX CLI 명령을 호출합니다.

    get load-balancer <lb-uuid> status

    '충돌하는 LSP'가 보고되는 경우 이 LSP가 다른 로드 밸런서 서비스에 연결되어 있는지와 이 충돌이 허용 가능한지 여부를 확인합니다.

    '준비되지 않은 LSP'가 보고되면 다음 NSX CLI 명령을 호출하여 이 LSP의 상태를 확인합니다.

    get logical-switch-port status

DLB 상태 종료

중요

NSX-T Data Center 3.1.2부터

이벤트가 감지된 경우: "분산된 로드 밸런서 서비스 {entity_id}이(가) 종료되었습니다."

이벤트가 해결된 경우: "분산된 로드 밸런서 서비스 {entity_id}이(가) 실행 중입니다."

  1. ESXi 호스트 노드에서 다음 NSX CLI 명령을 호출합니다.

    get load-balancer <lb-uuid> status
  2. 보고서가 ‘충돌하는 LSP’를 표시하는 경우 이 LSP가 다른 로드 밸런서 서비스에 연결되어 있는지와 이 충돌이 허용 가능한지 여부를 확인합니다. 보고서에 '준비되지 않은 LSP'가 표시되면 다음 NSX CLI 명령을 호출하여 이 LSP의 상태를 확인합니다.

    get logical-switch-port status

사용 중인 LB Edge 용량이 높음

위험

NSX-T Data Center 3.1.2부터

이벤트가 감지된 경우: "Edge 노드 {entity_id}의 사용량 로드 밸런서 서비스 성능이 높습니다. 임계값은 {system_usage_threshold}%입니다."

이벤트가 해결된 경우: "Edge 노드 {entity_id}의 로드 밸런서 서비스 사용량이 충분히 낮습니다. 임계값은 {system_usage_threshold}%입니다."

새 Edge 노드를 배포하고 기존 Edge 노드의 로드 밸런서 서비스를 새로 배포한 Edge 노드로 이동합니다.

사용 중인 LB 풀 멤버 용량이 매우 높음

위험

NSX-T Data Center 3.1.2부터

이벤트가 감지된 경우: "Edge 노드 {entity_id}의 풀 멤버 사용량이 너무 높습니다. 임계값은 {system_usage_threshold}%입니다."

이벤트가 해결된 경우: "Edge 노드 {entity_id}의 풀 멤버 사용량이 충분히 낮습니다. 임계값은 {system_usage_threshold}%입니다."

새 Edge 노드를 배포하고 기존 Edge 노드의 로드 밸런서 서비스를 새로 배포한 Edge 노드로 이동합니다.

관리자 상태 이벤트

NSX Manager 상태 이벤트는 NSX Manager 노드 클러스터에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
IP 주소가 복제됨 중간

관리자 노드의 IP 주소를 다른 디바이스에서 사용하고 있습니다.

이벤트가 감지된 경우: "관리자 노드 {entity_id} IP 주소 {duplicate_ip_address}이(가) 현재 네트워크의 다른 디바이스에서 사용되고 있습니다."

이벤트가 해결된 경우: "관리자 노드 {entity_id}가 더 이상 {duplicate_ip_address}를 사용하는 것으로 나타나지 않습니다."

  1. 관리자의 IP 주소를 사용하는 디바이스를 확인하고 디바이스에 새 IP 주소를 할당합니다.
    참고: 새 IP 주소를 사용하도록 관리자를 재구성하는 것은 지원되지 않습니다.
  2. 정적 IP 주소 풀/DHCP 서버가 올바르게 구성되었는지 확인합니다.
  3. 수동으로 할당된 디바이스의 IP 주소를 수정합니다.
Manager CPU 사용량이 매우 높음 위험

Manager 노드 CPU 사용량이 매우 높습니다.

이벤트가 감지된 경우: "관리자 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "관리자 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다.

이 관리자 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오.

관리자 장치 폼 팩터 크기를 조정하는 것이 좋습니다.

Manager CPU 사용량이 높음 중간

NSX-T Data Center 3.0.1 버전부터 시작

Manager 노드 CPU 사용량이 높습니다.

이벤트가 감지된 경우: "관리자 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "관리자 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다.

이 관리자 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오.

관리자 장치 폼 팩터 크기를 조정하는 것이 좋습니다.

Manager 메모리 사용량이 매우 높음 위험

NSX-T Data Center 3.0.1 버전부터 시작

Manager 노드 메모리 사용량이 매우 높습니다.

이벤트가 감지된 경우: "관리자 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "관리자 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다.

이 관리자 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오.

관리자 장치 폼 팩터 크기를 조정하는 것이 좋습니다.

Manager 메모리 사용량이 높음 중간

Manager 노드 메모리 사용량이 높습니다.

이벤트가 감지된 경우: "관리자 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "관리자 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다.

이 관리자 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오.

관리자 장치 폼 팩터 크기를 조정하는 것이 좋습니다.

Manager 디스크 사용량이 매우 높음 위험

Manager 노드 디스크 사용량이 매우 높습니다.

이벤트가 감지된 경우: "관리자 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "관리자 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다.

사용량이 많은 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다.
Manager 디스크 사용량이 높음 중간

Manager 노드 디스크 사용량이 높습니다.

이벤트가 감지된 경우: "관리자 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다.

이벤트가 해결된 경우: "관리자 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다.

사용량이 많은 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다.
관리자 구성 디스크 사용량이 매우 높음 위험

Manager 노드 구성 디스크 사용량이 매우 높습니다.

이벤트가 감지된 경우: "관리자 노드 디스크 파티션 /config의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다. 이것은 /config/corfu 디렉토리 아래의 NSX 데이터스토어 서비스의 디스크 사용량이 매우 높음을 나타낼 수 있습니다.”

이벤트가 해결된 경우: "관리자 노드 디스크 파티션 /config의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다.

/config 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다.
관리자 구성 디스크 사용량이 높음 중간

Manager 노드 구성 디스크 사용량이 높습니다.

이벤트가 감지된 경우: "관리자 노드 디스크 파티션 /config의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다. 이것은 /config/corfu 디렉토리 아래의 NSX 데이터스토어 서비스의 디스크 사용량이 증가하고 있음을 나타낼 수 있습니다.”

이벤트가 해결된 경우: "관리자 노드 디스크 파티션 /config의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다.

/config 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다.

작업 DB 디스크 사용량이 높음

중간

관리자 노드의 디스크 파티션 /nonconfig의 디스크 사용량이 {system_resource_usage}%에 도달했으며, 이것은 높은 임계값 {system_usage_threshold}% 이상입니다. 이것은 /nonconfig/corfu 디렉토리 아래의 NSX 데이터스토어 서비스의 디스크 사용량이 증가하고 있음을 나타낼 수 있습니다.

/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig에서 보고된 문제가 있는 경우, 다음 도구를 실행하고 GSS에 문의하십시오.

작업 DB 디스크 사용량이 매우 높음 위험

관리자 노드의 디스크 파티션 /nonconfig의 디스크 사용량이 {system_resource_usage}%에 도달했으며, 이것은 매우 높은 임계값 {system_usage_threshold}% 이상입니다. 이것은 /nonconfig/corfu 디렉토리 아래의 NSX 데이터스토어 서비스의 디스크 사용량이 증가하고 있음을 나타낼 수 있습니다.

/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig에서 보고된 문제가 있는 경우, 다음 도구를 실행하고 GSS에 문의하십시오.

NCP 이벤트

NCP(NSX Container Plug-in) 이벤트는 ESXi 및 KVM 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
NCP 플러그인 종료 위험

Manager 노드에서 NCP가 종료되었거나 비정상 상태임을 감지했습니다.

이벤트가 감지된 경우: “관리자 노드에서 NCP가 종료되었거나 비정상 상태임을 감지했습니다.”

이벤트가 해결된 경우: “관리자 노드에서 NCP가 다시 실행 중 또는 정상 상태임을 감지했습니다.”

문제가 있는 클러스터를 찾으려면 NSX API GET /api/v1/systemhealth/container-cluster/ncp/status를 호출하여 모든 클러스터 상태를 가져오고, 종료 또는 알 수 없음을 보고하는 모든 클러스터의 이름을 확인합니다.

NSX UI 인벤토리 > 컨테이너 > 클러스터 페이지로 이동하여 보고 종료 또는 알 수 없음 상태를 보고한 클러스터의 이름을 확인하고, 모든 Kubernetes 및 PAS 클러스터 멤버를 나열하는 [노드] 탭을 클릭합니다.

Kubernetes 클러스터의 경우:
  1. 모든 클러스터 멤버에서 K8s 마스터 노드를 찾아 마스터 노드에 로그인한 후 NCP 포드 작동 여부를 확인합니다.

    그런 다음, kubectl 명령 kubectl get pods --all-namespaces를 호출합니다. NCP 포드에 문제가 있는 경우 kubectl logs 명령을 사용하여 문제를 확인하고 오류를 수정하십시오.

  2. NCP와 Kubernetes API 서버 간의 연결을 확인합니다.
    NCP 포드 내부에서 NSX CLI를 사용하여 마스터 VM에서 다음 명령을 호출하고 이 연결의 상태를 확인할 수 있습니다.
    kubectl exec -it <NCP-Pod-Name> -n nsx-system bash
    nsxcli
    get ncp-k8s-api-server status
    연결에 문제가 있는 경우 네트워크 및 NCP 구성을 모두 확인하십시오.
  3. NCP와 NSX Manager 사이의 연결을 확인합니다.
    NCP 포드 내부에서 NSX CLI를 사용하여 마스터 VM에서 다음 명령을 호출하고 이 연결의 상태를 확인할 수 있습니다.
    kubectl exec -it <NCP-Pod-Name> -n nsx-system bash nsxcli get ncp-nsx status
    연결에 문제가 있는 경우 네트워크 및 NCP 구성을 모두 확인하십시오.
PAS 클러스터의 경우:
  1. 가상 시스템 간 네트워크 연결을 확인하고 네트워크 문제를 수정합니다.
  2. 노드 및 서비스의 상태를 확인하고 충돌하는 노드 또는 서비스를 수정합니다.

    bosh vmsbosh instances -p 명령을 호출하고 노드 및 서비스의 상태를 확인합니다.

노드 에이전트 상태 이벤트

노드 에이전트 상태 이벤트는 ESXi 및 KVM 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
노드 에이전트 종료 높음

노드 VM 내에서 실행 중인 에이전트가 종료된 것 같습니다.

이벤트가 감지된 경우: “노드 VM 내에서 실행 중인 에이전트가 종료된 것 같습니다.”

이벤트가 해결된 경우: “노드 VM 내의 에이전트가 실행되고 있습니다.”

ESX의 경우:

  1. Vmk50이 누락된 경우 기술 자료 문서 67432를 참조하십시오.
  2. Hyperbus 4094가 누락된 경우: nsx-cfgagent를 다시 시작하거나 컨테이너 호스트 VM을 다시 시작하면 도움이 될 수 있습니다.
  3. 컨테이너 호스트 VIF가 차단된 경우 컨트롤러에 대한 연결을 확인하고 모든 구성이 전송되었는지 확인합니다.
  4. nsx-cfgagent가 중지된 경우 nsx-cfgagent를 다시 시작하십시오.

KVM의 경우:

  1. Hyperbus 네임스페이스가 누락된 경우 nsx-opsagent를 다시 시작하여 네임스페이스를 쉽게 재생성할 수 있습니다.
  2. Hyperbus 네임스페이스 내에 Hyperbus 인터페이스가 없으면 nsx-opsagent를 다시 시작하는 것이 도움이 될 수 있습니다.
  3. nsx-agent가 중지된 경우 nsx-agent를 다시 시작합니다.

ESX 및 KVM의 경우:

  1. node-agent 패키지가 누락된 경우: node-agent 패키지가 컨테이너 호스트 VM에 성공적으로 설치되었는지 확인합니다.
  2. 컨테이너 호스트 VM의 node-agent에 대한 인터페이스가 종료된 경우: 컨테이너 호스트 VM 내부의 eth1 인터페이스 상태를 확인합니다.

NSX 페더레이션 이벤트

NSX 페더레이션 이벤트는 NSX Manager, NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업

LM-LM 동기화 오류

높음

NSX-T Data Center 3.0.1 버전부터 시작

{site_name}({site_id}과(와) {remote_site_name}({remote_site_id} 간의 동기화가 5분 넘게 실패했습니다.

  1. NSX CLI 명령 get site-replicator remote-sites를 호출하여 원격 위치 간의 연결 상태를 가져옵니다. 원격 위치가 연결되었지만 동기화되지 않은 경우에도 위치가 마스터 확인 프로세스에 있을 수 있습니다. 이 경우 약 10초 동안 기다린 후 CLI를 다시 호출하여 원격 위치의 상태를 확인하십시오. 위치가 연결되지 않은 경우 다음 단계를 시도합니다.

  2. Ping을 통해 {site_name}{site_id} 위치에 있는 LM(로컬 관리자)에서 {remote_site_name}{remote_site_id} 위치에 있는 LM으로의 연결을 확인하십시오. Ping할 수 없는 경우 WAN 연결이 끊기는지 확인합니다. 물리적 네트워크 연결 문제가 없는 경우 다음 단계를 시도하십시오.

  3. 경보를 트리거한 위치 {site_name}{site_id}의 로컬 클러스터에 있는 관리자 노드의 /var/log/cloudnet/nsx-ccp.log 파일을 확인하여 사이트 간 통신 오류가 있는지 알아봅니다. 또한 /var/log/syslog 내에서 nsx-appl-proxy 하위 구성 요소에 의해 기록되는 오류를 확인합니다.

LM-LM 동기화 주의 중간

NSX-T Data Center 3.0.1 버전부터 시작

{site_name}{site_id}{remote_site_name}{remote_site_id} 간 동기화가 실패했습니다.

전송 노드로의 제어 채널이 너무 오랫동안 종료됨

  1. NSX CLI 명령 get site-replicator remote-sites를 호출하여 원격 위치 간의 연결 상태를 가져옵니다. 원격 위치가 연결되었지만 동기화되지 않은 경우에도 위치가 마스터 확인 프로세스에 있을 수 있습니다. 이 경우 약 10초 동안 기다린 후 CLI를 다시 호출하여 원격 위치의 상태를 확인하십시오. 위치가 연결되지 않은 경우 다음 단계를 시도합니다.

  2. Ping을 통해 {site_name}{site_id} 위치에 있는 LM(로컬 관리자)에서 {remote_site_name}{remote_site_id} 위치에 있는 LM으로의 연결을 확인하십시오. Ping할 수 없는 경우 WAN 연결이 끊기는지 확인합니다. 물리적 네트워크 연결 문제가 없는 경우 다음 단계를 시도하십시오.

  3. 경보를 트리거한 위치 {site_name}{site_id}의 로컬 클러스터에 있는 관리자 노드의 /var/log/cloudnet/nsx-ccp.log 파일을 확인하여 사이트 간 통신 오류가 있는지 알아봅니다. 또한 /var/log/syslog 내에서 nsx-appl-proxy 하위 구성 요소에 의해 기록되는 오류를 확인합니다.

RTEP BGP 종료 높음

NSX-T Data Center 3.0.1 버전부터 시작

소스 IP {bgp_source_ip}에서 원격 위치 {remote_site_name} 인접 항목 IP{bgp_neighbor_ip}로의 RTEP BGP 세션이 다운되었습니다. 이유: {failure_reason}.

  1. 영향을 받는 Edge 노드에서 NSX CLI 명령 get logical-routers 를 호출합니다.

  2. REMOTE_TUNNEL_VRF 컨텍스트로 전환
  3. NSX CLI 명령 get bgp neighbor를 호출하여 BGP 인접 항목을 확인합니다.
  4. 또는 NSX API GET /api/v1/transport-nodes/<transport-node-id>/inter-site/bgp/summary를 호출하여 BGP 인접 항목 상태를 가져옵니다.
  5. NSX CLI 명령 get interfaces 를 호출하고 이름이 remote-tunnel-endpoint인 인터페이스에 올바른 RTEP IP 주소가 할당되었는지 확인합니다.
  6. . 할당된 RTEP IP 주소 {bgp_source_ip}와 원격 위치 {remote_site_name} 인접 항목 IP {bgp_neighbor_ip} 사이에서 ping이 성공적으로 작동하는지 확인합니다.
  7. BGP와 관련된 오류가 있는지 /var/log/syslog를 확인합니다.
  8. API GET 또는 PUT /api/v1/transport-nodes/<transport-node-id>를 호출하여 Edge 노드의 remote_tunnel_endpoint 구성을 가져오거나 업데이트합니다. 이렇게 하면 영향을 받는 Edge 노드에 할당된 RTEP IP가 업데이트됩니다.

암호 관리 이벤트

암호 관리 이벤트는 NSX Manager, NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
암호가 만료됨 위험

사용자 암호가 만료되었습니다.

이벤트가 감지된 경우: "사용자 {username}의 암호가 만료되었습니다."

이벤트가 해결된 경우: “사용자 {username}의 암호가 성공적으로 변경되었거나 더 이상 만료되지 않습니다.”

시스템에 액세스하려면 사용자 {username}의 암호를 지금 변경해야 합니다. 예를 들어, 사용자에게 새 암호를 적용하려면 요청 본문에서 올바른 암호를 사용하여 다음 NSX API를 호출합니다.

PUT /api/v1/node/users/<userid>

여기서 <userid>는 사용자의 ID입니다. 관리자(<userid>가 10,000) 암호가 만료된 경우 관리자는 암호를 변경하기 위해 SSH(사용하도록 설정된 경우) 또는 콘솔을 통해 시스템에 로그인해야 합니다. 현재 만료된 암호를 입력하면 관리자에게 새 암호를 입력하라는 메시지가 표시됩니다.

암호가 곧 만료될 예정임 높음

사용자 암호가 곧 만료됩니다.

이벤트가 감지된 경우: "사용자 {username}의 암호가 {password_expiration_days}일 후에 만료될 예정입니다.”

이벤트가 해결된 경우: “사용자 {username}의 암호가 성공적으로 변경되었거나 더 이상 만료되지 않습니다.”

{username}(으)로 식별되는 사용자의 암호가 즉시 변경되었는지 확인합니다. 예를 들어, 사용자에게 새 암호를 적용하려면 요청 본문에서 올바른 암호를 사용하여 다음 NSX API를 호출합니다.

PUT /api/v1/node/users/<userid>

여기서 <userid>는 사용자의 ID입니다.

암호 만료 임박 중간

사용자 암호가 만료에 가까워지고 있습니다.

이벤트가 감지된 경우: "사용자 {username}의 암호가 {password_expiration_days}일 후에 만료될 예정입니다.”

이벤트가 해결된 경우: “사용자 {username}의 암호가 성공적으로 변경되었거나 더 이상 만료되지 않습니다.”

{username}(으)로 식별되는 사용자의 암호를 곧 변경해야 합니다. 예를 들어, 사용자에게 새 암호를 적용하려면 요청 본문에서 올바른 암호를 사용하여 다음 NSX API를 호출합니다.

PUT /api/v1/node/users/<userid>

여기서 <userid>는 사용자의 ID입니다.

라우팅 이벤트

이벤트 이름 심각도 경고 메시지 권장 작업
BGP 종료 높음

BGP 인접 네트워크가 종료되었습니다.

이벤트가 감지된 경우: “라우터 {entity_id}에서 BGP 인접 항목 {bgp_neighbor_ip}이(가) 다운되었습니다. 이유: {failure_reason}."

이벤트가 해결된 경우: “라우터 {entity_id}에서 BGP 인접 항목 {bgp_neighbor_ip}이(가) 실행 중입니다."

  1. Edge 노드에 대해 SSH를 실행합니다.
  2. NSX CLI 명령 get logical-routers를 호출합니다.
  3. 서비스 라우터 {sr_id}(으)로 전환합니다.
  4. /var/log/syslog 를 확인하여 BGP 연결과 관련된 오류가 있는지 확인합니다.

외부 인터페이스의 BFD(양방향 전달 감지) 종료

높음

BFD 세션이 종료되었습니다.

이벤트가 감지된 경우: “라우터 {entity_id}에서 피어 {peer_address}에 대한 BFD 세션이 종료되었습니다."

이벤트가 해결된 경우: “라우터 {entity_id}에서 피어 {peer_address}에 대한 BFD 세션이 실행 중입니다."

  1. Edge 노드에 대해 SSH를 실행합니다.
  2. NSX CLI 명령 get logical-routers를 호출합니다.
  3. 서비스 라우터 {sr_id}(으)로 전환합니다.
  4. NSX CLI 명령 ping <peer_address>를 호출하여 연결을 확인합니다.
라우팅 종료 높음

모든 BGP/BFD 세션이 종료되었습니다.

이벤트가 감지된 경우: "모든 BGP/BFD 세션이 종료되었습니다."

이벤트가 해결된 경우: "하나 이상의 BGP/BFD 세션이 실행 중입니다."

  1. NSX CLI 명령 get logical-routers를 호출하여 Tier0 서비스 라우터를 가져옵니다.
  2. Tier0 서비스 라우터 VRF로 전환한 후 다음 NSX CLI 명령을 호출합니다.
    • 연결 확인: ping <BFD peer IP address>
    • BFD 상태 확인:
      get bfd-config 
      get bfd-sessions
    • BGP 상태 확인: get bgp neighbor summary
      get bfd neconfig 
      get bfd-sessions
    /var/log/syslog 를 확인하여 BGP 연결과 관련된 오류가 있는지 확인합니다.
정적 라우팅이 제거됨 높음

정적 경로가 제거되었습니다.

이벤트가 감지된 경우: "라우터 {entity_id}에서 BFD가 종료되었기 때문에 정적 경로 {static_address}이(가) 제거되었습니다."

이벤트가 해결된 경우: “라우터 {entity_id}에서 BFD가 복구되었으므로 "정적 경로 {static_address}이(가) 다시 추가되었습니다."

  1. Edge 노드에 대해 SSH를 실행합니다.
  2. NSX CLI 명령 get logical-routers를 호출합니다.
  3. 서비스 라우터 {sr_id}(으)로 전환합니다.
  4. 다음 NSX CLI 명령을 호출하여 연결을 확인합니다.
    get bgp neighbor summary
  5. 또한 NSX와 BFD 피어 모두의 구성을 확인하여 타이머가 변경되지 않았는지 확인합니다.

전송 노드 상태

전송 노드 상태 이벤트는 KVM 및 ESXi 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
LAG 멤버 종료 중간

LACP는 멤버를 종료 상태로 보고합니다.

이벤트가 감지된 경우: "LACP 보고 멤버가 종료되었습니다."

이벤트가 해결된 경우: "LACP 보고 멤버가 실행 중입니다."

호스트에서 LAG 멤버의 연결 상태를 확인합니다.
  1. NSX UI에서 패브릭 > 노드 > 전송 노드 > 호스트 전송 노드로 이동합니다.
  2. [호스트 전송 노드] 목록에서 [노드 상태] 열을 확인합니다.

    상태가 성능 저하됨 또는 종료인 전송 노드를 찾습니다.

  3. <전송 노드> > 모니터링을 선택합니다.

    성능 저하됨 또는 종료를 보고하는 결합(업링크)을 찾습니다.

  4. 실패한 호스트에 로그인하고 다음과 같은 적절한 명령을 실행하여 LACP 멤버 상태 세부 정보를 확인합니다.
    • ESXi: esxcli network vswitch dvs vmware lacp status get
    • KVM: ovs-appctl bond/showovs-appctl lacp/show
N-VDS 업링크 종료 중간

업링크가 종료됩니다.

이벤트가 감지된 경우” "업링크가 종료되었습니다."

이벤트가 해결된 경우: "업링크가 실행 중입니다."

호스트에서 업링크의 물리적 NIC 상태를 확인합니다.
  1. NSX UI에서 패브릭 > 노드 > 전송 노드 > 호스트 전송 노드로 이동합니다.
  2. [호스트 전송 노드] 목록에서 [노드 상태] 열을 확인합니다.

    상태가 성능 저하됨 또는 종료인 전송 노드를 찾습니다.

  3. <전송 노드> > 모니터링을 선택합니다.

    성능 저하됨 또는종료를 보고하는 결합(업링크)의 상태 세부 정보를 확인합니다.

    성능 저하됨 상태를 방지하려면 사용 중인지 여부와 관계없이 모든 업링크 인터페이스가 연결되어 있고 실행 중 상태인지 확인합니다.

VPN 이벤트

VPN 이벤트는 NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.

이벤트 이름 심각도 경고 메시지 권장 작업
IPsec 정책 기반 세션 종료 중간

정책 기반 IPsec VPN 세션이 종료되었습니다.

이벤트가 감지된 경우: "정책 기반 IPsec VPN 세션 {entity_id}이(가) 종료되었습니다. 이유: {session_down_reason}."

이벤트가 해결된 경우: "정책 기반 IPsec VPN 세션 {entity_id}이(가) 실행 중입니다.

IPsec VPN 세션 구성을 확인하고 세션 종료 이유에 따라 오류를 해결하십시오.

IPsec 경로 기반 세션 종료 중간

경로 기반 IPsec VPN 세션이 종료되었습니다.

이벤트가 감지된 경우: "경로 기반 IPsec VPN 세션 {entity_id}이(가) 종료되었습니다. 이유: {session_down_reason}."

이벤트가 해결된 경우: "경로 기반 IPsec VPN 세션 {entity_id}이(가) 실행 중입니다.

IPsec VPN 세션 구성을 확인하고 세션 종료 이유에 따라 오류를 해결하십시오.

IPsec 정책 기반 터널 종료 중간

정책 기반 IPsec VPN 터널이 종료되었습니다.

이벤트가 감지된 경우: "세션 {entity_id}에 있는 하나 이상의 정책 기반 IPsec VPN 터널이 종료되었습니다. "

이벤트가 해결된 경우: "세션 {entity_id}에 있는 모든 정책 기반 IPsec VPN 터널이 실행 중입니다.”

IPsec VPN 세션 구성을 확인하고 터널 종료 이유에 따라 오류를 해결하십시오.

IPsec 경로 기반 터널 종료 중간

경로 기반 IPsec VPN 터널이 종료되었습니다.

이벤트가 감지된 경우: "세션 {entity_id}에 있는 하나 이상의 경로 기반 IPsec VPN 터널이 종료되었습니다. "

이벤트가 해결된 경우: "세션 {entity_id}에 있는 모든 경로 기반 IPsec VPN 터널이 실행 중입니다.”

IPsec VPN 세션 구성을 확인하고 터널 종료 이유에 따라 오류를 해결하십시오.

L2VPN 세션 종료 중간

L2VPN 세션이 종료되었습니다.

이벤트가 감지된 경우: "L2VPN 세션 {entity_id}이(가) 종료되었습니다."

이벤트가 해결된 경우: "L2VPN 세션 {entity_id}이(가) 실행 중입니다."

IPsec VPN 세션 구성을 확인하고 이유에 따라 오류를 해결하십시오.

ID 기반 방화벽 이벤트

이벤트 이름 심각도 경고 메시지 권장 작업
LDAP 서버에 대한 연결이 끊어짐

위험

LDAP 서버에 대한 연결이 끊어졌습니다.

이벤트가 감지된 경우: LDAP 서버에 연결하지 못했습니다.

이벤트가 감지된 경우: LDAP 서버에 연결되었습니다.

다음 단계를 수행하여 LDAP 서버 연결을 확인하십시오.

  1. NSX 노드에서 LDAP 서버에 연결할 수 있습니다.
  2. LDAP 서버 세부 정보는 NSX에서 올바르게 구성되어 있습니다.
  3. LDAP 서버가 제대로 실행되고 있습니다.
  4. LDAP 서버와 NSX 노드 간에 액세스를 차단하는 방화벽이 없습니다.

연결 문제를 해결한 후에는 LDAP 서버 UI의 "연결 테스트"를 사용하여 LDAP 서버에 대한 연결을 테스트합니다.

델타 동기화 동안 오류 발생

위험

AD 도메인과의 델타 동기화 동안 오류가 발생했습니다.

이벤트가 감지된 경우: 오류를 나타내며 델타 동기화가 종료되었습니다.

이벤트가 감지된 경우: 오류를 나타내지 않으며 델타 동기화가 종료되었습니다.

LDAP
서버에 대한 연결이 끊어지면
경보가 발생합니다. 그러면 해당 경보를 해결합니다.

LDAP 서버에 대한 연결이 작동 중이면 로그의 오류 메시지에 따라 AD 서버의 관련 변경 사항을 확인합니다.