다음 표에서는 경보 메시지 및 이를 해결하기 위한 권장 작업을 포함하여 경보를 트리거하는 이벤트에 대해 설명합니다. 심각도가 낮음보다 높은 이벤트는 경보를 트리거합니다.
경보 관리 이벤트
경보 관리 이벤트는 NSX Manager 및 글로벌 관리자 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
경보 서비스가 오버로드됨 | 위험 | 경보 서비스가 오버로드됩니다. 이벤트가 감지된 경우: “대량의 경보가 보고되었기 때문에 경보 서비스가 일시적으로 오버로드됩니다. NSX UI 및 GET /api/v1/alarm NSX API가 새 경보에 대한 보고를 중지했습니다. syslog 항목 및 SNMP 트랩(사용하도록 설정한 경우)을 내보내 여전히 기본 이벤트 세부 정보를 보고하는 중입니다. 많은 양의 경보를 유발하는 기본 문제가 해결되면 경보 서비스가 새 경보를 다시 보고하기 시작합니다.” 이벤트가 해결된 경우: “많은 양의 경보가 완화되었으며 새 경보가 다시 보고되는 중입니다.” |
NSX UI의 [경보] 페이지를 사용하거나 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API를 사용하여 모든 활성 경보를 검토하십시오. 각 활성 경보에 대해 권장되는 작업을 따라 근본 원인을 조사하십시오. 충분한 경보가 해결되면 경보 서비스에서 새 경보를 다시 보고하기 시작합니다. |
많은 양의 경보 | 위험 | 특정 경보 유형이 과도하게 감지되었습니다. 이벤트가 감지된 경우: "대량의 {event_id} 경보로 인해 경보 서비스가 이 유형의 경고 보고를 일시적으로 중지했습니다. NSX UI 및 GET /api/v1/alarms NSX API는 이러한 경보의 새 인스턴스를 보고하지 않습니다. syslog 항목 및 SNMP 트랩(사용하도록 설정한 경우)을 내보내 여전히 기본 이벤트 세부 정보를 보고하는 중입니다. 많은 양의 {event_id} 경보를 유발하는 기본 문제가 해결되면 문제가 다시 감지될 때 경보 서비스가 새 경보 {event_id}을(를) 다시 보고하기 시작합니다.” 이벤트가 해결된 경우: “많은 양의 {event_id} 경보가 완화되었으며 이 유형의 새로운 경보가 다시 보고되는 중입니다.” |
NSX UI의 [경보] 페이지를 사용하거나 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API를 사용하여 모든 활성 경보를 검토하십시오. 각 활성 경보에 대해 권장되는 작업을 따라 근본 원인을 조사하십시오. 충분한 경보가 해결되면 경보 서비스에서 새 {event_id} 경보를 다시 보고하기 시작합니다. |
용량 이벤트
다음 이벤트는 특정 범주의 개체에 대한 현재 인벤토리가 특정 수준에 도달할 때 경보를 트리거할 수 있습니다. 세부 정보는 개체 범주의 사용량 및 용량 보기를 참조하십시오.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
최대 용량 | 위험 | 개체 범주의 최대 용량에 도달했습니다. 경보 세부 정보에는 특정 개체 범주가 표시됩니다. |
잠재적으로 부정적인 결과를 방지하기 위해 관련 구성을 조정합니다. |
최대 용량 임계값 | 높음 | 개체 범주의 최대 용량 임계값에 도달했습니다. 경보 세부 정보에는 특정 개체 범주가 표시됩니다. |
이 경보가 예상되는 경우 경보를 해결하기 위해 관련 구성을 조정합니다. 이 경보가 예기치 않은 경우 개체 범주에 대한 임계값을 조정합니다. |
최소 용량 임계값 | 중간 | 개체 범주의 최소 용량 임계값에 도달했습니다. 경보 세부 정보에는 특정 개체 범주가 표시됩니다. |
이 경보가 예상되는 경우 경보를 해결하기 위해 관련 구성을 조정합니다(필요한 경우). 이 경보가 예기치 않은 경우 개체 범주에 대한 임계값을 조정합니다. |
인증서 이벤트
NSX Manager 노드에서 인증서 이벤트가 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
인증서가 만료됨 | 위험 | 인증서가 만료되었습니다. 이벤트가 감지된 경우: "인증서 {entity-id}이(가) 만료되었습니다." 이벤트가 해결된 경우: "만료된 인증서 {entity-id}이(가) 제거되었거나 더 이상 만료되지 않습니다. |
현재 인증서를 사용하고 있는 서비스가 만료되지 않은 새 인증서를 사용하도록 업데이트되었는지 확인합니다. 예를 들어 새 인증서를 HTTP 서비스에 적용하려면 다음 API를 호출합니다.
여기서 <cert-id>은(는) API 호출 만료된 인증서가 더 이상 사용되지 않으면 다음 API 호출을 사용하여 삭제해야 합니다.
|
인증서가 곧 만료됨 | 높음 | 인증서가 곧 만료됩니다. 이벤트가 감지된 경우: "인증서 {entity-id}이(가) 곧 만료됩니다." 이벤트가 해결된 경우: "만료될 인증서 {entity-id}이(가) 더 이상 만료될 예정이 아닙니다." |
현재 인증서를 사용하고 있는 서비스가 곧 만료될 예정이 아닌 새 인증서를 사용하도록 업데이트되었는지 확인합니다. 예를 들어 새 인증서를 HTTP 서비스에 적용하려면 다음 API를 호출합니다.
여기서 <cert-id>은(는) API 호출 만료될 인증서가 더 이상 사용되지 않으면 다음 API 호출을 사용하여 삭제해야 합니다.
|
인증서 만료 임박 | 중간 | 인증서가 만료에 가까워지고 있습니다. 이벤트가 감지된 경우: "인증서 {entity-id}이(가) 곧 만료될 예정입니다." 이벤트가 해결된 경우: "만료될 인증서 {entity-id}이(가) 더 이상 만료에 가까워지지 않습니다." |
현재 인증서를 사용하고 있는 서비스가 곧 만료될 예정이 아닌 새 인증서를 사용하도록 업데이트되었는지 확인합니다. 예를 들어 새 인증서를 HTTP 서비스에 적용하려면 다음 API를 호출합니다.
여기서 <cert-id>은(는) API 호출 만료될 인증서가 더 이상 사용되지 않으면 다음 API 호출을 사용하여 삭제해야 합니다.
|
CNI 상태 이벤트
CNI 상태 이벤트는 ESXi 및 KVM 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
Hyperbus 관리자 연결 종료 | 중간 | Hyperbus가 Manager 노드와 통신할 수 없습니다. 이벤트가 감지된 경우: "Hyperbus가 Manager 노드와 통신할 수 없습니다." 이벤트가 해결된 경우: "Hyperbus가 Manager 노드와 통신할 수 있습니다." |
Hyperbus vmkernel 인터페이스(vmk50)가 누락되었을 수 있습니다. 기술 자료 문서 67432을 참조하십시오. |
DHCP 이벤트
DHCP 이벤트는 NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
풀 리스 할당 실패 | 높음 | IP 풀의 IP 주소가 모두 사용되었습니다. 이벤트가 감지된 경우: "DHCP 서버 {dhcp_server_id}의 IP 풀 {entity_id}에 있는 주소가 모두 사용되었습니다. 마지막 DHCP 요청이 실패하고 향후 요청은 실패합니다." 이벤트가 해결된 경우: "DHCP 서버 {dhcp_server_id}의 IP 풀 {entity_id}에 있는 주소가 더 이상 모두 사용되지 않습니다. 마지막 DHCP 요청에 리스가 할당되었습니다." |
NSX UI에서 또는 NSX CLI 명령 get dhcp ip-pool을 호출하여 DHCP 서버가 실행 중인 Edge 노드에서 DHCP 풀 구성을 검토합니다. 또한 NSX CLI 명령 get dhcp lease를 호출하여 Edge 노드의 현재 활성 리스를 검토합니다. 리스를 활성 VM 수와 비교합니다. VM의 수가 활성 리스 수와 비교하여 낮은 경우 DHCP 서버 구성의 리스 시간을 줄이는 것을 고려하십시오. 또한 NSX UI의 페이지로 이동하여 DHCP 서버의 풀 범위를 확장하는 것이 좋습니다. |
풀이 오버로드됨 | 중간 | IP 풀이 오버로드되었습니다. 이벤트가 감지된 경우: "DHCP 서버 {dhcp_server_id} IP 풀 {entity_id} 사용량이 {dhcp_pool_usage}% IP가 할당되어 소진 상태에 가까워지고 있습니다." 이벤트가 해결된 경우: "DHCP 서버 {dhcp_server_id} IP 풀 {entity_id}이 높은 사용량 임계값 미만으로 감소되었습니다." |
NSX UI에서 또는 NSX CLI 명령 get dhcp ip-pool을 호출하여 DHCP 서버가 실행 중인 Edge 노드에서 DHCP 풀 구성을 검토합니다. 또한 NSX CLI 명령 get dhcp lease를 호출하여 Edge 노드의 현재 활성 리스를 검토합니다. 리스를 활성 VM 수와 비교합니다. VM의 수가 활성 리스 수와 비교하여 낮은 경우 DHCP 서버 구성의 리스 시간을 줄이는 것을 고려하십시오. 또한 NSX UI의 페이지로 이동하여 DHCP 서버의 풀 범위를 확장하는 것이 좋습니다. |
분산 방화벽 이벤트
분산 방화벽 이벤트는 NSX Manager 또는 ESXi 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
분산 방화벽 CPU 사용량이 매우 높음 | 위험 | 분산 방화벽 CPU 사용량이 매우 높습니다. 이벤트가 감지된 경우: "전송 노드 {entity_id}의 DFW CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "DNS 전달자 {entity_id}이(가) 다시 실행되고 있습니다." |
이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. 최적화를 위해 보안 설계를 검토하십시오. 예를 들어 전체 데이터 센터에 규칙이 적용되지 않는 경우 적용 대상 구성을 사용합니다. |
분산 방화벽 메모리 사용량이 매우 높음 | 위험 | 분산 방화벽 메모리 사용량이 매우 높습니다. 이벤트가 감지된 경우: "전송 노드 {entity_id}의 DFW 메모리 사용량 {heap_type}이(가) {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "전송 노드 {entity_id}의 DFW 메모리 사용량 {heap_type}이(가) {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다. |
호스트에서 NSX CLI 명령 get firewall thresholds를 호출하여 현재 DFW 메모리 사용량을 봅니다. 이 호스트의 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
DNS 이벤트
DNS 이벤트는 NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
전달자 종료 | 높음 | DNS 전달자가 종료되었습니다. 이벤트가 감지된 경우: "DNS 전달자 {entity_id}이(가) 실행되고 있지 않습니다. 이것은 현재 사용하도록 설정된 식별된 DNS 전달자에 영향을 미칩니다." 이벤트가 해결된 경우: "DNS 전달자 {entity_id}이(가) 다시 실행되고 있습니다." |
|
전달자 사용 안 함 | 낮음 | DNS 전달자를 사용하지 않도록 설정했습니다. 이벤트가 감지된 경우: "DNS 전달자 {entity_id}을(를) 사용하지 않도록 설정했습니다." 이벤트가 해결된 경우: "DNS 전달자 {entity_id}을(를) 사용하도록 설정했습니다." |
|
Edge 상태 이벤트
Edge 상태 이벤트는 NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
Edge CPU 사용량이 매우 높음 | 위험 | Edge 노드 CPU 사용량이 매우 높습니다. 이벤트가 감지된 경우: "Edge 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "Edge 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다. |
이 Edge 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 해당 워크로드에 맞게 Edge 장치 폼 팩터 크기를 조정하거나 다른 Edge 노드로 서비스를 재조정하는 것이 좋습니다. |
Edge CPU 사용량이 높음 | 중간 | Edge 노드 CPU 사용량이 높습니다. 이벤트가 감지된 경우: "Edge 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "Edge 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다. |
이 Edge 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 해당 워크로드에 맞게 Edge 장치 폼 팩터 크기를 조정하거나 다른 Edge 노드로 서비스를 재조정하는 것이 좋습니다. |
Edge 데이터 경로 구성 실패 | 높음 | Edge 노드 데이터 경로 구성에 실패했습니다. 이벤트가 감지된 경우: "3번 시도 후 Edge 노드에서 데이터 경로를 사용하도록 설정하지 못했습니다." 이벤트가 해결된 경우: Edge 노드의 데이터 경로를 사용하도록 설정했습니다.” |
관리자 노드에 대한 Edge 노드 연결이 정상인지 확인합니다. Edge 노드 NSX CLI에서 get services 명령을 호출하여 서비스 상태를 확인합니다. 데이터부 서비스가 중지된 경우 start service dataplane 명령을 호출하여 다시 시작합니다. |
Edge 데이터 경로 CPU 사용량이 매우 높음 | 위험 | Edge 노드 데이터 경로 CPU 사용량이 매우 높습니다. 이벤트가 감지된 경우: "Edge 노드 {entity id}의 데이터 경로 CPU 사용량이 최소 2분 동안 매우 높은 임계값 이상인 {datapath_resource_usage}%에 도달했습니다." 이벤트가 해결된 경우: “Edge 노드 {entity-id}의 데이터 경로 CPU 사용량이 최대 임계값보다 낮게 감소되었습니다.” |
NSX CLI 명령 get dataplane cpu stats를 호출하고 Edge 노드의 CPU 통계를 검토하여 CPU 코어당 패킷 속도를 표시합니다. 더 높은 패킷 속도에는 더 높은 CPU 사용량이 예상됩니다. Edge 장치 폼 팩터 크기를 늘리고 이 Edge 노드의 서비스를 동일한 클러스터 또는 다른 Edge 클러스터의 다른 Edge 노드로 재조정하는 것이 좋습니다. |
Edge 데이터 경로 CPU 사용량이 높음 | 중간 | Edge 노드 데이터 경로 CPU 사용량이 높습니다. 이벤트가 감지된 경우: "Edge 노드 {entity id}의 데이터 경로 CPU 사용량이 최소 2분 동안 높은 임계값 이상인 {datapath_resource_usage}%에 도달했습니다." 이벤트가 해결된 경우: “Edge 노드 {entity-id}의 CPU 사용량이 높은 임계값보다 낮아졌습니다.” |
NSX CLI 명령 get dataplane cpu stats를 호출하고 Edge 노드의 CPU 통계를 검토하여 CPU 코어당 패킷 속도를 표시합니다. 더 높은 패킷 속도에는 더 높은 CPU 사용량이 예상됩니다. Edge 장치 폼 팩터 크기를 늘리고 이 Edge 노드의 서비스를 동일한 클러스터 또는 다른 Edge 클러스터의 다른 Edge 노드로 재조정하는 것이 좋습니다. |
Edge 데이터 경로 암호화 드라이버 종료 | 위험 | Edge 노드 데이터 경로 암호화 드라이버가 종료되었습니다. 이벤트가 감지된 경우: "Edge 노드 암호화 드라이버가 종료되었습니다." 이벤트가 해결된 경우: "Edge 노드 암호화 드라이버가 실행 중입니다." |
필요에 따라 Edge 노드를 업그레이드합니다. |
Edge 데이터 경로 메모리 풀이 높음 | 중간 | Edge 노드 데이터 경로 메모리 풀이 높습니다. 이벤트가 감지된 경우: "Edge 노드 {entity_id}의 {mempool_name}에 대한 데이터 경로 메모리 풀 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "Edge 노드 {entity_id}의 {mempool_name}에 대한 데이터 경로 메모리 풀 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다. |
루트 사용자로 로그인하고 명령 edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show 및 edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap을 호출하여 DPDK 메모리 사용량을 확인합니다. |
Edge 디스크 사용량이 매우 높음 | 위험 | Edge 노드 디스크 사용량이 매우 높습니다. 이벤트가 감지된 경우: "Edge 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "Edge 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다. |
사용량이 많은 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
Edge 디스크 사용량이 높음 | 중간 | Edge 노드 디스크 사용량이 높습니다. 이벤트가 감지된 경우: "Edge 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "Edge 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다. |
사용량이 많은 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
Edge 글로벌 ARP 테이블 사용량이 높음 | 중간 | Edge 노드 글로벌 ARP 테이블 사용량이 높습니다. 이벤트가 감지된 경우: "Edge 노드 {entity id}의 글로벌 ARP 테이블 사용량이 최소 2분 동안 높은 임계값을 초과하는 {datapath_resource_usage}%에 도달했습니다." 이벤트가 해결된 경우: “Edge 노드 {entity-id}의 글로벌 ARP 테이블 사용량이 높은 임계값보다 낮아졌습니다.” |
ARP 테이블 크기를 늘입니다.
|
Edge 메모리 사용량이 매우 높음 | 위험 | Edge 노드 메모리 사용량이 매우 높습니다. 이벤트가 감지된 경우: "Edge 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "Edge 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다. |
이 Edge 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 해당 워크로드에 맞게 Edge 장치 폼 팩터 크기를 조정하거나 다른 Edge 노드로 서비스를 재조정하는 것이 좋습니다. |
Edge 메모리 사용량이 높음 | 중간 | Edge 노드 메모리 사용량이 높습니다. 이벤트가 감지된 경우: "Edge 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "Edge 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다. |
이 Edge 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 해당 워크로드에 맞게 Edge 장치 폼 팩터 크기를 조정하거나 다른 Edge 노드로 서비스를 재조정하는 것이 좋습니다. |
Edge NIC 링크 상태 종료 | 위험 | Edge 노드 NIC 링크가 종료되었습니다. 이벤트가 감지된 경우: "Edge 노드 NIC {edge_nic_name} 링크가 종료되었습니다." 이벤트가 해결된 경우: "Edge 노드 NIC {edge_nic_name} 링크가 실행 중입니다." |
Edge 노드에서 NSX CLI 명령 get interfaces를 호출하여 NIC 링크가 물리적으로 종료되었는지 확인합니다. 종료된 경우 케이블 연결을 확인합니다. |
Edge NIC가 수신 버퍼를 벗어남 | 위험 | Edge 노드 NIC 수신 설명자 링 버퍼에 남은 공간이 없습니다. 이벤트가 감지된 경우: "Edge NIC {edge_nic_name} 수신 링 버퍼가 60초 넘게 Edge 노드 {entity-id}에서 {rx_ring_buffer_overflow_percentage}%만큼 오버플로되었습니다." 이벤트가 해결된 경우: "Edge 노드 {entity-id}의 Edge NIC {edge_nic_name} 수신 버퍼 사용량이 더 이상 오버플로되지 않습니다." |
NSX CLI 명령
get dataplane를 호출하고 다음을 확인합니다.
|
Edge NIC가 전송 버퍼를 벗어남 | 위험 | Edge 노드 NIC 전송 설명자 링 버퍼에 남은 공간이 없습니다. 이벤트가 감지될 시: "Edge 노드 NIC {edge_nic_name} 전송 링 버퍼가 60초 넘게 Edge 노드 {entity-id}에서 {tx_ring_buffer_overflow_percentage}%만큼 오버플로되었습니다." 이벤트가 해결된 경우: "Edge 노드 {entity-id}의 Edge 노드 NIC {edge_nic_name} 전송 버퍼 사용량이 더 이상 오버플로되지 않습니다." |
NSX CLI 명령
get dataplane를 호출하고 다음을 확인합니다.
|
스토리지 오류 | 위험 | NSX-T Data Center 3.0.1 버전부터 시작 Edge 노드의 다음 디스크 파티션이 읽기 전용 모드입니다. {disk_partition_name} . |
읽기 전용 파티션을 검토하여 재부팅으로 문제가 해결되었는지 또는 디스크를 교체해야 하는지 확인합니다. KB 문서 https://kb.vmware.com/s/article/2146870을 참조하십시오. |
끝점 보호 이벤트
끝점 보호 이벤트는 NSX Manager 또는 ESXi 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
EAM 상태 종료 | 위험 | 계산 관리자의 EAM(ESX Agent Manager) 서비스가 종료되었습니다. 이벤트가 감지된 경우: “계산 관리자 {entity_id}의 EAM(ESX Agent Manager) 서비스가 종료되었습니다.” 이벤트가 해결된 경우: “계산 관리자 {entity_id}의 EAM(ESX Agent Manager) 서비스가 종료되었거나 계산 관리자 {entity_id}이(가) 제거되었습니다." |
EAM(ESX Agent Manager) 서비스를 다시 시작합니다.
|
파트너 채널 종료 | 위험 | 호스트 모듈 및 파트너 SVM 연결이 종료되었습니다. 이벤트가 감지된 경우: "호스트 모듈과 파트너 SVM {entity_id} 간 연결이 종료되었습니다." 이벤트가 해결된 경우: "호스트 모듈과 파트너 SVM {entity_id} 간 연결이 실행 중입니다." |
기술 자료 문서 2148821 NSX Guest Introspection 문제 해결을 참조하고 {entity_id}(으)로 식별되는 파트너 SVM이 호스트 모듈에 다시 연결되었는지 확인하십시오. |
게이트웨이 방화벽 이벤트
게이트웨이 방화벽 이벤트는 NSX Edge 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
ICMP 흐름 수를 초과함 |
위험 | NSX-T Data Center 3.1.3부터 ICMP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블이 설정된 임계값을 초과했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. 이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 ICMP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_icmp_flow_usage}%에 도달했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.” 이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.” |
|
ICMP 흐름 수가 높음 | 중간 | NSX-T Data Center 3.1.3부터 ICMP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. 이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 ICMP에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_icmp_flow_usage}%에 도달했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.” 이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 ICMP에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.” |
|
IP 흐름 수를 초과함 | 위험 | NSX-T Data Center 3.1.3부터 IP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블이 설정된 임계값을 초과했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. 이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 IP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_ip_flow_usage}%에 도달했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.” 이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.” |
|
IP 흐름 수가 높음 | 중간 | NSX-T Data Center 3.1.3부터 IP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. 이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 IP에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_ip_flow_usage}%에 도달했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.” 이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 비 IP 흐름에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.” |
|
TCP 흐름 수를 초과함 | 위험 | NSX-T Data Center 3.1.3부터 TCP 절반 개방 트래픽에 대한 게이트웨이 방화벽 흐름 테이블이 설정된 임계값을 초과했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. 이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 TCP 절반 개방 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_halfopen_flow_usage}%에 도달했습니다.” 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.” 이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.” |
|
TCP 흐름 수가 높음 | 중간 | NSX-T Data Center 3.1.3부터 TCP 절반 개방 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. 이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 TCP에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_halfopen_flow_usage}%에 도달했습니다.” 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.” 이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 TCP 절반 개방에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다.” |
|
UDP 흐름 수를 초과함 | 위험 | NSX-T Data Center 3.1.3부터 UDP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블이 설정된 임계값을 초과했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. 이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 UDP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_udp_flow_usage}%에 도달했습니다.” 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.” 이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 미만입니다.” |
|
UDP 흐름 수가 높음 | 중간 | NSX-T Data Center 3.1.3부터 UDP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. 이벤트가 감지된 경우: “논리적 라우터 {entity_id}의 UDP에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 {system_usage_threshold}% 이상인 {firewall_udp_flow_usage}%에 도달했습니다." 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다.” 이벤트가 해결된 경우: “논리적 라우터 {entity_id}의 UDP에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높은 임계값 미만입니다.” |
|
고가용성 이벤트
고가용성 이벤트는 NSX Edge 및 공용 클라우드 게이트웨이 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
Tier0 게이트웨이 페일오버 | 높음 | Tier0 게이트웨이가 페일오버되었습니다. 이벤트가 감지된 경우: "tier0 게이트웨이 {entity-id}이(가) {previous_gateway_state}에서 {current_gateway_state}(으)로 페일오버됩니다." 이벤트가 해결된 경우: "tier0 게이트웨이 {entity id}이(가) 실행 중입니다." |
종료된 서비스를 확인하고 다시 시작합니다.
|
Tier1 게이트웨이 페일오버 | 높음 | Tier1 게이트웨이가 페일오버되었습니다. 이벤트가 감지된 경우: "tier1 게이트웨이 {entity-id}이(가) {previous_gateway_state}에서 {current_gateway_state}(으)로 페일오버됩니다." 이벤트가 해결된 경우: "tier1 게이트웨이 {entity id}이(가) 실행 중입니다." |
종료된 서비스를 확인하고 다시 시작합니다.
|
인프라 통신 이벤트
인프라 통신 이벤트는 NSX Edge, KVM, ESXi 및 공용 게이트웨이 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
Edge-터널 종료 | 위험 | Edge 노드의 터널 상태가 종료입니다. 이벤트가 감지된 경우: "Edge 노드 {entity_id}의 전체 터널 상태가 종료입니다." 이벤트가 해결된 경우: "Edge 노드 {entity_id}의 터널이 복원되었습니다." |
|
인프라 서비스 이벤트
인프라 서비스 이벤트는 NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
Edge 서비스 상태 종료 | 위험 | Edge 서비스가 최소 1분 동안 종료되었습니다. 이벤트가 감지된 경우: "서비스 {edge_service_name}이(가) 최소 1분 동안 종료되었습니다." 이벤트가 해결된 경우: "서비스 {edge_service_name}이(가) 실행 중입니다." |
Edge 노드에서 /var/log/core 디렉토리에서 코어 덤프 파일을 찾아 오류 때문에 서비스가 종료되지 않았는지 확인합니다. 서비스가 중지되었는지 확인하려면 NSX CLI 명령 get services를 호출합니다. 중지되었으면 |
Edge 서비스 상태 변경됨 | 낮음 | Edge 서비스 상태가 변경되었습니다. 이벤트가 감지된 경우: "서비스 {edge_service_name}이(가) {previous_service_state}에서 {current_service_state}(으)로 변경되었습니다.” 이벤트가 해결된 경우: "서비스 {edge_service_name}이(가) {previous_service_state}에서 {current_service_state}(으)로 변경되었습니다.” |
Edge 노드에서 /var/log/core 디렉토리에서 코어 덤프 파일을 찾아 오류 때문에 서비스가 종료되지 않았는지 확인합니다. 서비스가 중지되었는지 확인하려면 NSX CLI 명령 get services를 호출합니다. 중지되었으면 |
Intelligence 통신 이벤트
NSX Intelligence 통신 이벤트는 NSX Manager 노드, ESXi 노드 및 NSX Intelligence 장치에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
전송 노드 흐름 내보내기의 연결이 끊어짐 | 높음 | 전송 노드가 해당 Intelligence 노드의 메시징 브로커에서 연결이 끊어졌습니다. 데이터 수집이 영향을 받습니다. 이벤트가 감지된 경우: "전송 노드 {entity id}의 흐름 내보내기가 Intelligence 노드의 메시징 브로커에서 연결이 끊어졌습니다. 데이터 수집이 영향을 받습니다." 이벤트가 해결된 경우: "전송 노드 {entity id}의 흐름 내보내기가 Intelligence 노드의 메시징 브로커로 다시 연결되었습니다. |
|
전송 노드로의 제어 채널이 종료됨 | 중간 | 전송 노드로의 제어 채널이 종료됨. 이벤트가 감지된 경우: 전송 노드 {entity-id}(로)의 컨트롤러 서비스 central_control_plane_id이(가) 컨트롤러 서비스 관점에서 3분 넘게 종료되었습니다. 이벤트가 해결된 경우: 컨트롤러 서비스 central_control_plane_id가 전송 노드 {entity-id}에 대한 연결을 복원합니다. |
|
전송 노드로의 제어 채널이 오랫동안 종료됨 |
위험 | 전송 노드로의 제어 채널이 너무 오랫동안 종료됨. 이벤트가 감지된 경우: 전송 노드 {entity-id}(로)의 컨트롤러 서비스 central_control_plane_id이(가) 컨트롤러 서비스 관점에서 15분 넘게 종료되었습니다. 이벤트가 해결된 경우: 컨트롤러 서비스 central_control_plane_id가 전송 노드 {entity-id}에 대한 연결을 복원합니다. |
|
Intelligence 상태 이벤트
NSX Intelligence 상태 이벤트는 NSX Manager 노드와 NSX Intelligence 장치에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
CPU 사용량이 매우 높음 | 위험 | Intelligence 노드 CPU 사용량이 매우 높습니다. 이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 CPU 사용량이 매우 높은 임계값 {system_usage_threshold}%를 초과합니다. 이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 CPU 사용량이 매우 높은 임계값 {system_usage_threshold}% 미만입니다. |
top 명령을 사용하여 메모리 사용량이 가장 많은 프로세스를 확인한 다음, /var/log/syslog 및 이러한 프로세스의 로컬 로그를 확인하여 해결되지 않은 오류가 있는지 확인합니다. |
CPU 사용량이 높음 | 중간 | Intelligence 노드 CPU 사용량이 높습니다. 이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 CPU 사용량이 높은 임계값 {system_usage_threshold}%를 초과합니다. 이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 CPU 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다. |
top 명령을 사용하여 메모리 사용량이 가장 많은 프로세스를 확인한 다음, /var/log/syslog 및 이러한 프로세스의 로컬 로그를 확인하여 해결되지 않은 오류가 있는지 확인합니다. |
메모리 사용량이 매우 높음 | 위험 | Intelligence 노드 메모리 사용량이 매우 높습니다. 이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 메모리 사용량이 매우 높은 임계값 {system_usage_threshold}%를 초과합니다. 이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 메모리 사용량이 매우 높은 임계값 {system_usage_threshold}% 미만입니다. |
top 명령을 사용하여 메모리 사용량이 가장 많은 프로세스를 확인한 다음, /var/log/syslog 및 이러한 프로세스의 로컬 로그를 확인하여 해결되지 않은 오류가 있는지 확인합니다. |
메모리 사용량이 높음 | 중간 | Intelligence 노드 메모리 사용량이 높습니다. 이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 메모리 사용량이 높은 임계값 {system_usage_threshold}%를 초과합니다. 이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 메모리 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다. |
top 명령을 사용하여 메모리 사용량이 가장 많은 프로세스를 확인한 다음, /var/log/syslog 및 이러한 프로세스의 로컬 로그를 확인하여 해결되지 않은 오류가 있는지 확인합니다. |
디스크 사용량이 매우 높음 | 위험 | Intelligence 노드 디스크 사용량이 매우 높습니다. 이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 {disk_partition_name}의 디스크 사용량이 매우 높은 임계값 {system_usage_threshold}%를 초과합니다. 이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 {disk_partition_name}의 디스크 사용량이 매우 높은 임계값 {system_usage_threshold}% 미만입니다. |
디스크 파티션 {disk_partition_name}을(를) 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
디스크 사용량이 높음 | 중간 | Intelligence 노드 디스크 사용량이 높습니다. 이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 {disk_partition_name}의 디스크 사용량이 높은 임계값 {system_usage_threshold}%를 초과합니다. 이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 {disk_partition_name}의 디스크 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다. |
디스크 파티션 {disk_partition_name}을(를) 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
데이터 디스크 파티션 사용량이 매우 높음 | 위험 | Intelligence 노드 데이터 디스크 파티션 사용량이 매우 높습니다. 이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 /data의 디스크 사용량이 매우 높은 임계값 {system_usage_threshold}%를 초과합니다. 이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 /data의 디스크 사용량이 매우 높은 임계값 {system_usage_threshold}% 미만입니다. |
디스크 사용량이 임계값보다 낮아질 때까지 NSX Intelligence 데이터 수집을 중지합니다. NSX UI에서 시스템장치NSX Intelligence 장치로 이동합니다. 그런 다음, 를 선택합니다. |
데이터 디스크 파티션 사용량이 높음 | 중간 | Intelligence 노드 데이터 디스크 파티션 사용량이 높습니다. 이벤트가 감지된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 /data의 디스크 사용량이 높은 임계값 {system_usage_threshold}%를 초과합니다. 이벤트가 해결된 경우: "NSX Intelligence 노드 {intelligence_node_id}의 디스크 파티션 /data의 디스크 사용량이 높은 임계값 {system_usage_threshold}% 미만입니다. |
디스크 사용량이 임계값보다 낮아질 때까지 NSX Intelligence 데이터 수집을 중지합니다. /data 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
노드 상태 성능 저하 | 높음 | Intelligence 노드 상태가 저하됨입니다. 이벤트가 감지된 경우: “NSX Intelligence 노드 {intelligence_node_id}의 서비스 {service_name}이(가) 실행되고 있지 않습니다." 이벤트가 해결된 경우: “NSX Intelligence 노드 {intelligence_node_id}의 서비스 {service_name}이(가) 적절히 실행되고 있습니다." |
NSX Intelligence 노드에서 NSX CLI 명령 get services를 사용하여 서비스 상태 및 상태 정보를 검토합니다. NSX CLI 명령 restart service <service-name>을 사용하여 예기치 않게 중지된 서비스를 다시 시작합니다. |
IP 주소 관리 이벤트
IPAM(IP 주소 관리) 이벤트는 NSX Manager 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
IP 블록 사용량이 매우 높음 | 중간 | NSX-T Data Center 3.1.2부터 IP 블록의 IP 서브넷 사용량이 90%에 도달했습니다. 이벤트가 감지된 경우: "<intent_path>의 IP 블록 사용량이 매우 높습니다. IP 블록이 총 용량에 거의 가까워지고 있으며 IP 블록을 사용하는 서브넷 생성이 실패할 수 있습니다." 이벤트가 해결된 경우: 메시지가 없습니다. |
참고: 할당된 IP가 없으며 향후 사용하지 않을 예정이면 IP 풀 또는 서브넷을 삭제합니다.
|
IP 풀 사용량이 매우 높음 | 중간 | NSX-T Data Center 3.1.2부터 IP 풀의 IP 할당 사용량이 90%에 도달했습니다. 이벤트가 감지된 경우: "<intent_path>의 IP 풀 사용량이 매우 높습니다. IP 풀이 총 용량에 가까워지고 있습니다. 엔티티/서비스의 생성은 IP 풀에서 할당되는 IP에 따라 다를 수 있습니다." 이벤트가 해결된 경우: 메시지가 없습니다. |
IP 풀 사용량을 검토합니다. 사용하지 않는 IP 할당을 IP 풀에서 해제하거나 새 IP 풀을 생성합니다.
사용하지 않는 해당 IP를 해제할 수 있습니다. 사용하지 않는 IP 할당을 해제하려면 다음 NSX API를 호출합니다.
|
라이센스 이벤트
라이센스 이벤트는 NSX Manager 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
라이센스 만료됨 | 위험 | 라이센스가 만료되었습니다. 이벤트가 감지된 경우: "{license_edition_type} 유형의 라이센스가 만료되었습니다." 이벤트가 해결된 경우: {license_edition_type} 유형의 만료된 라이센스가 제거 또는 업데이트되었거나 더 이상 만료 상태가 아닙니다.” |
다음과 같이 만료되지 않은 새 라이센스를 추가하십시오.
|
라이센스가 곧 만료됨 | 중간 | 이벤트가 감지된 경우: "{license_edition_type} 유형의 라이센스가 곧 만료될 예정입니다." 이벤트가 해결된 경우: {license_edition_type}(으)로 식별되는 곧 만료될 라이센스가 제거 또는 업데이트되었거나 더 이상 만료 상태가 아닙니다.” |
다음과 같이 만료되지 않은 새 라이센스를 추가하십시오.
|
로드 밸런서 이벤트
로드 밸런서 이벤트는 NSX Edge 노드 또는 NSX Manager 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
LB CPU가 매우 높음 | 중간 | 로드 밸런서 CPU 사용량이 매우 높습니다. 이벤트가 감지된 경우: "로드 밸런서 {entity_id}의 CPU 사용량이 매우 높습니다. 임계값은 {system_usage_threshold}%입니다." 이벤트가 해결된 경우: "로드 밸런서 {entity_id}의 CPU 사용량이 충분히 낮습니다. 임계값은 {system_usage_threshold}%입니다." |
로드 밸런서 CPU 활용률이 {system_usage_threshold}%보다 높은 경우 이 로드 밸런서에 비해 워크로드가 너무 높은 것입니다. 로드 밸런서 크기를 소형에서 중형으로 또는 중형에서 대형으로 변경하여 로드 밸런서 서비스의 크기를 다시 조정합니다. 이 로드 밸런서의 CPU 활용률이 여전히 높은 경우에는 해당 워크로드에 대한 Edge 장치 폼 팩터 크기를 조정하거나 로드 밸런서 서비스를 다른 Edge 노드로 이동하는 것이 좋습니다. |
LB 상태 종료 |
위험 | 이벤트가 감지된 경우: "중앙 집중식 로드 밸런서 서비스 {entity_id}이(가) 종료되었습니다." 이벤트가 해결된 경우: "중앙 집중식 로드 밸런서 서비스 {entity_id}이(가) 실행 중입니다." |
|
가상 서버 상태 종료 | 중간 | 로드 밸런서 가상 서비스가 종료되었습니다. 이벤트가 감지된 경우: "로드 밸런서 가상 서버 {entity_id}이(가) 종료되었습니다." 이벤트가 해결된 경우: "로드 밸런서 가상 서버 {entity_id}이(가) 실행 중입니다." |
로드 밸런서 풀을 참조하여 상태를 확인하고 해당 구성을 검토합니다. 잘못 구성된 경우 재구성하고 가상 서버에서 로드 밸런서 풀을 제거한 다음, 가상 서버에 다시 추가합니다. |
풀 상태 종료 | 중간 | 이벤트가 감지된 경우: "로드 밸런서 풀 {entity_id} 상태가 종료입니다." 이벤트가 해결된 경우: "로드 밸런서 풀 {entity_id} 상태가 실행 중입니다." |
멤버의 상태가 설정되면 상승 카운트에 따라 풀 멤버 상태가 정상으로 업데이트됩니다. |
LB 상태 성능 저하됨 |
중간 | NSX-T Data Center 3.1.2부터 이벤트가 감지된 경우: "로드 밸런서 서비스 {entity_id} 성능이 저하되었습니다." 이벤트가 해결된 경우: "로드 밸런서 서비스 {entity_id} 성능이 저하되지 않았습니다." |
|
DLB 상태 종료 |
중요 | NSX-T Data Center 3.1.2부터 이벤트가 감지된 경우: "분산된 로드 밸런서 서비스 {entity_id}이(가) 종료되었습니다." 이벤트가 해결된 경우: "분산된 로드 밸런서 서비스 {entity_id}이(가) 실행 중입니다." |
|
사용 중인 LB Edge 용량이 높음 |
위험 | NSX-T Data Center 3.1.2부터 이벤트가 감지된 경우: "Edge 노드 {entity_id}의 사용량 로드 밸런서 서비스 성능이 높습니다. 임계값은 {system_usage_threshold}%입니다." 이벤트가 해결된 경우: "Edge 노드 {entity_id}의 로드 밸런서 서비스 사용량이 충분히 낮습니다. 임계값은 {system_usage_threshold}%입니다." |
새 Edge 노드를 배포하고 기존 Edge 노드의 로드 밸런서 서비스를 새로 배포한 Edge 노드로 이동합니다. |
사용 중인 LB 풀 멤버 용량이 매우 높음 |
위험 | NSX-T Data Center 3.1.2부터 이벤트가 감지된 경우: "Edge 노드 {entity_id}의 풀 멤버 사용량이 너무 높습니다. 임계값은 {system_usage_threshold}%입니다." 이벤트가 해결된 경우: "Edge 노드 {entity_id}의 풀 멤버 사용량이 충분히 낮습니다. 임계값은 {system_usage_threshold}%입니다." |
새 Edge 노드를 배포하고 기존 Edge 노드의 로드 밸런서 서비스를 새로 배포한 Edge 노드로 이동합니다. |
관리자 상태 이벤트
NSX Manager 상태 이벤트는 NSX Manager 노드 클러스터에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
IP 주소가 복제됨 | 중간 | 관리자 노드의 IP 주소를 다른 디바이스에서 사용하고 있습니다. 이벤트가 감지된 경우: "관리자 노드 {entity_id} IP 주소 {duplicate_ip_address}이(가) 현재 네트워크의 다른 디바이스에서 사용되고 있습니다." 이벤트가 해결된 경우: "관리자 노드 {entity_id}가 더 이상 {duplicate_ip_address}를 사용하는 것으로 나타나지 않습니다." |
|
Manager CPU 사용량이 매우 높음 | 위험 | Manager 노드 CPU 사용량이 매우 높습니다. 이벤트가 감지된 경우: "관리자 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "관리자 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다. |
이 관리자 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 관리자 장치 폼 팩터 크기를 조정하는 것이 좋습니다. |
Manager CPU 사용량이 높음 | 중간 | NSX-T Data Center 3.0.1 버전부터 시작 Manager 노드 CPU 사용량이 높습니다. 이벤트가 감지된 경우: "관리자 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "관리자 노드 {entity_id}의 CPU 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다. |
이 관리자 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 관리자 장치 폼 팩터 크기를 조정하는 것이 좋습니다. |
Manager 메모리 사용량이 매우 높음 | 위험 | NSX-T Data Center 3.0.1 버전부터 시작 Manager 노드 메모리 사용량이 매우 높습니다. 이벤트가 감지된 경우: "관리자 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "관리자 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다. |
이 관리자 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 관리자 장치 폼 팩터 크기를 조정하는 것이 좋습니다. |
Manager 메모리 사용량이 높음 | 중간 | Manager 노드 메모리 사용량이 높습니다. 이벤트가 감지된 경우: "관리자 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "관리자 노드 {entity_id}의 메모리 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다. |
이 관리자 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 관리자 장치 폼 팩터 크기를 조정하는 것이 좋습니다. |
Manager 디스크 사용량이 매우 높음 | 위험 | Manager 노드 디스크 사용량이 매우 높습니다. 이벤트가 감지된 경우: "관리자 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "관리자 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다. |
사용량이 많은 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
Manager 디스크 사용량이 높음 | 중간 | Manager 노드 디스크 사용량이 높습니다. 이벤트가 감지된 경우: "관리자 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다. 이벤트가 해결된 경우: "관리자 노드 디스크 파티션 {entity_id}의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다. |
사용량이 많은 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
관리자 구성 디스크 사용량이 매우 높음 | 위험 | Manager 노드 구성 디스크 사용량이 매우 높습니다. 이벤트가 감지된 경우: "관리자 노드 디스크 파티션 /config의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 이상입니다. 이것은 /config/corfu 디렉토리 아래의 NSX 데이터스토어 서비스의 디스크 사용량이 매우 높음을 나타낼 수 있습니다.” 이벤트가 해결된 경우: "관리자 노드 디스크 파티션 /config의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 매우 높은 임계값 {system_usage_threshold}% 미만입니다. |
/config 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
관리자 구성 디스크 사용량이 높음 | 중간 | Manager 노드 구성 디스크 사용량이 높습니다. 이벤트가 감지된 경우: "관리자 노드 디스크 파티션 /config의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 이상입니다. 이것은 /config/corfu 디렉토리 아래의 NSX 데이터스토어 서비스의 디스크 사용량이 증가하고 있음을 나타낼 수 있습니다.” 이벤트가 해결된 경우: "관리자 노드 디스크 파티션 /config의 디스크 사용량이 {system_resource_usage}%에 도달했습니다. 이 값은 높은 임계값 {system_usage_threshold}% 미만입니다. |
/config 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
작업 DB 디스크 사용량이 높음 |
중간 | 관리자 노드의 디스크 파티션 /nonconfig의 디스크 사용량이 {system_resource_usage}%에 도달했으며, 이것은 높은 임계값 {system_usage_threshold}% 이상입니다. 이것은 /nonconfig/corfu 디렉토리 아래의 NSX 데이터스토어 서비스의 디스크 사용량이 증가하고 있음을 나타낼 수 있습니다. |
/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig에서 보고된 문제가 있는 경우, 다음 도구를 실행하고 GSS에 문의하십시오. |
작업 DB 디스크 사용량이 매우 높음 | 위험 | 관리자 노드의 디스크 파티션 /nonconfig의 디스크 사용량이 {system_resource_usage}%에 도달했으며, 이것은 매우 높은 임계값 {system_usage_threshold}% 이상입니다. 이것은 /nonconfig/corfu 디렉토리 아래의 NSX 데이터스토어 서비스의 디스크 사용량이 증가하고 있음을 나타낼 수 있습니다. |
/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig에서 보고된 문제가 있는 경우, 다음 도구를 실행하고 GSS에 문의하십시오. |
NCP 이벤트
NCP(NSX Container Plug-in) 이벤트는 ESXi 및 KVM 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
NCP 플러그인 종료 | 위험 | Manager 노드에서 NCP가 종료되었거나 비정상 상태임을 감지했습니다. 이벤트가 감지된 경우: “관리자 노드에서 NCP가 종료되었거나 비정상 상태임을 감지했습니다.” 이벤트가 해결된 경우: “관리자 노드에서 NCP가 다시 실행 중 또는 정상 상태임을 감지했습니다.” |
문제가 있는 클러스터를 찾으려면 NSX API GET /api/v1/systemhealth/container-cluster/ncp/status를 호출하여 모든 클러스터 상태를 가져오고, 종료 또는 알 수 없음을 보고하는 모든 클러스터의 이름을 확인합니다. NSX UI 페이지로 이동하여 보고 종료 또는 알 수 없음 상태를 보고한 클러스터의 이름을 확인하고, 모든 Kubernetes 및 PAS 클러스터 멤버를 나열하는 [노드] 탭을 클릭합니다.
Kubernetes 클러스터의 경우:
PAS 클러스터의 경우:
|
노드 에이전트 상태 이벤트
노드 에이전트 상태 이벤트는 ESXi 및 KVM 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
노드 에이전트 종료 | 높음 | 노드 VM 내에서 실행 중인 에이전트가 종료된 것 같습니다. 이벤트가 감지된 경우: “노드 VM 내에서 실행 중인 에이전트가 종료된 것 같습니다.” 이벤트가 해결된 경우: “노드 VM 내의 에이전트가 실행되고 있습니다.” |
ESX의 경우:
KVM의 경우:
ESX 및 KVM의 경우:
|
NSX 페더레이션 이벤트
NSX 페더레이션 이벤트는 NSX Manager, NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
LM-LM 동기화 오류 |
높음 | NSX-T Data Center 3.0.1 버전부터 시작 {site_name}({site_id}과(와) {remote_site_name}({remote_site_id} 간의 동기화가 5분 넘게 실패했습니다. |
|
LM-LM 동기화 주의 | 중간 | NSX-T Data Center 3.0.1 버전부터 시작 {site_name}{site_id} 및 {remote_site_name}{remote_site_id} 간 동기화가 실패했습니다. 전송 노드로의 제어 채널이 너무 오랫동안 종료됨 |
|
RTEP BGP 종료 | 높음 | NSX-T Data Center 3.0.1 버전부터 시작 소스 IP {bgp_source_ip}에서 원격 위치 {remote_site_name} 인접 항목 IP{bgp_neighbor_ip}로의 RTEP BGP 세션이 다운되었습니다. 이유: {failure_reason}. |
|
암호 관리 이벤트
암호 관리 이벤트는 NSX Manager, NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
암호가 만료됨 | 위험 | 사용자 암호가 만료되었습니다. 이벤트가 감지된 경우: "사용자 {username}의 암호가 만료되었습니다." 이벤트가 해결된 경우: “사용자 {username}의 암호가 성공적으로 변경되었거나 더 이상 만료되지 않습니다.” |
시스템에 액세스하려면 사용자 {username}의 암호를 지금 변경해야 합니다. 예를 들어, 사용자에게 새 암호를 적용하려면 요청 본문에서 올바른 암호를 사용하여 다음 NSX API를 호출합니다.
여기서 |
암호가 곧 만료될 예정임 | 높음 | 사용자 암호가 곧 만료됩니다. 이벤트가 감지된 경우: "사용자 {username}의 암호가 {password_expiration_days}일 후에 만료될 예정입니다.” 이벤트가 해결된 경우: “사용자 {username}의 암호가 성공적으로 변경되었거나 더 이상 만료되지 않습니다.” |
{username}(으)로 식별되는 사용자의 암호가 즉시 변경되었는지 확인합니다. 예를 들어, 사용자에게 새 암호를 적용하려면 요청 본문에서 올바른 암호를 사용하여 다음 NSX API를 호출합니다.
여기서 |
암호 만료 임박 | 중간 | 사용자 암호가 만료에 가까워지고 있습니다. 이벤트가 감지된 경우: "사용자 {username}의 암호가 {password_expiration_days}일 후에 만료될 예정입니다.” 이벤트가 해결된 경우: “사용자 {username}의 암호가 성공적으로 변경되었거나 더 이상 만료되지 않습니다.” |
{username}(으)로 식별되는 사용자의 암호를 곧 변경해야 합니다. 예를 들어, 사용자에게 새 암호를 적용하려면 요청 본문에서 올바른 암호를 사용하여 다음 NSX API를 호출합니다.
여기서 |
라우팅 이벤트
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
BGP 종료 | 높음 | BGP 인접 네트워크가 종료되었습니다. 이벤트가 감지된 경우: “라우터 {entity_id}에서 BGP 인접 항목 {bgp_neighbor_ip}이(가) 다운되었습니다. 이유: {failure_reason}." 이벤트가 해결된 경우: “라우터 {entity_id}에서 BGP 인접 항목 {bgp_neighbor_ip}이(가) 실행 중입니다." |
|
외부 인터페이스의 BFD(양방향 전달 감지) 종료 |
높음 | BFD 세션이 종료되었습니다. 이벤트가 감지된 경우: “라우터 {entity_id}에서 피어 {peer_address}에 대한 BFD 세션이 종료되었습니다." 이벤트가 해결된 경우: “라우터 {entity_id}에서 피어 {peer_address}에 대한 BFD 세션이 실행 중입니다." |
|
라우팅 종료 | 높음 | 모든 BGP/BFD 세션이 종료되었습니다. 이벤트가 감지된 경우: "모든 BGP/BFD 세션이 종료되었습니다." 이벤트가 해결된 경우: "하나 이상의 BGP/BFD 세션이 실행 중입니다." |
|
정적 라우팅이 제거됨 | 높음 | 정적 경로가 제거되었습니다. 이벤트가 감지된 경우: "라우터 {entity_id}에서 BFD가 종료되었기 때문에 정적 경로 {static_address}이(가) 제거되었습니다." 이벤트가 해결된 경우: “라우터 {entity_id}에서 BFD가 복구되었으므로 "정적 경로 {static_address}이(가) 다시 추가되었습니다." |
|
전송 노드 상태
전송 노드 상태 이벤트는 KVM 및 ESXi 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
LAG 멤버 종료 | 중간 | LACP는 멤버를 종료 상태로 보고합니다. 이벤트가 감지된 경우: "LACP 보고 멤버가 종료되었습니다." 이벤트가 해결된 경우: "LACP 보고 멤버가 실행 중입니다." |
호스트에서 LAG 멤버의 연결 상태를 확인합니다.
|
N-VDS 업링크 종료 | 중간 | 업링크가 종료됩니다. 이벤트가 감지된 경우” "업링크가 종료되었습니다." 이벤트가 해결된 경우: "업링크가 실행 중입니다." |
호스트에서 업링크의 물리적 NIC 상태를 확인합니다.
|
VPN 이벤트
VPN 이벤트는 NSX Edge 및 공용 게이트웨이 노드에서 발생합니다.
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
IPsec 정책 기반 세션 종료 | 중간 | 정책 기반 IPsec VPN 세션이 종료되었습니다. 이벤트가 감지된 경우: "정책 기반 IPsec VPN 세션 {entity_id}이(가) 종료되었습니다. 이유: {session_down_reason}." 이벤트가 해결된 경우: "정책 기반 IPsec VPN 세션 {entity_id}이(가) 실행 중입니다. |
IPsec VPN 세션 구성을 확인하고 세션 종료 이유에 따라 오류를 해결하십시오. |
IPsec 경로 기반 세션 종료 | 중간 | 경로 기반 IPsec VPN 세션이 종료되었습니다. 이벤트가 감지된 경우: "경로 기반 IPsec VPN 세션 {entity_id}이(가) 종료되었습니다. 이유: {session_down_reason}." 이벤트가 해결된 경우: "경로 기반 IPsec VPN 세션 {entity_id}이(가) 실행 중입니다. |
IPsec VPN 세션 구성을 확인하고 세션 종료 이유에 따라 오류를 해결하십시오. |
IPsec 정책 기반 터널 종료 | 중간 | 정책 기반 IPsec VPN 터널이 종료되었습니다. 이벤트가 감지된 경우: "세션 {entity_id}에 있는 하나 이상의 정책 기반 IPsec VPN 터널이 종료되었습니다. " 이벤트가 해결된 경우: "세션 {entity_id}에 있는 모든 정책 기반 IPsec VPN 터널이 실행 중입니다.” |
IPsec VPN 세션 구성을 확인하고 터널 종료 이유에 따라 오류를 해결하십시오. |
IPsec 경로 기반 터널 종료 | 중간 | 경로 기반 IPsec VPN 터널이 종료되었습니다. 이벤트가 감지된 경우: "세션 {entity_id}에 있는 하나 이상의 경로 기반 IPsec VPN 터널이 종료되었습니다. " 이벤트가 해결된 경우: "세션 {entity_id}에 있는 모든 경로 기반 IPsec VPN 터널이 실행 중입니다.” |
IPsec VPN 세션 구성을 확인하고 터널 종료 이유에 따라 오류를 해결하십시오. |
L2VPN 세션 종료 | 중간 | L2VPN 세션이 종료되었습니다. 이벤트가 감지된 경우: "L2VPN 세션 {entity_id}이(가) 종료되었습니다." 이벤트가 해결된 경우: "L2VPN 세션 {entity_id}이(가) 실행 중입니다." |
IPsec VPN 세션 구성을 확인하고 이유에 따라 오류를 해결하십시오. |
ID 기반 방화벽 이벤트
이벤트 이름 | 심각도 | 경고 메시지 | 권장 작업 |
---|---|---|---|
LDAP 서버에 대한 연결이 끊어짐 | 위험 |
LDAP 서버에 대한 연결이 끊어졌습니다. 이벤트가 감지된 경우: LDAP 서버에 연결하지 못했습니다. 이벤트가 감지된 경우: LDAP 서버에 연결되었습니다. |
다음 단계를 수행하여 LDAP 서버 연결을 확인하십시오.
연결 문제를 해결한 후에는 LDAP 서버 UI의 "연결 테스트"를 사용하여 LDAP 서버에 대한 연결을 테스트합니다. |
델타 동기화 동안 오류 발생 |
위험 | AD 도메인과의 델타 동기화 동안 오류가 발생했습니다. 이벤트가 감지된 경우: 오류를 나타내며 델타 동기화가 종료되었습니다. 이벤트가 감지된 경우: 오류를 나타내지 않으며 델타 동기화가 종료되었습니다. |
LDAP
서버에 대한 연결이 끊어지면경보가 발생합니다. 그러면 해당 경보를 해결합니다. LDAP 서버에 대한 연결이 작동 중이면 로그의 오류 메시지에 따라 AD 서버의 관련 변경 사항을 확인합니다. |