NSX 이벤트 카탈로그
다음 표에서는 경보 메시지 및 이를 해결하기 위한 권장 작업을 포함하여 VMware NSX®에서 경보를 트리거하는 이벤트에 대해 설명합니다. 심각도가낮음보다 큰 모든 이벤트는 경보를 트리거합니다. 경보 정보는 NSX Manager 인터페이스 내의 여러 위치에 표시됩니다. 제목 표시줄의 [알림] 드롭다운 메뉴에 다른 알림과 함께 경보 및 이벤트 정보도 포함되어 있습니다. 경보를 보려면 홈페이지로 이동하고 경보 탭을 클릭합니다. 경보 및 이벤트에 대한 자세한 내용은 NSX 관리 가이드의 "이벤트 및 경보 작업"을 참조하십시오.
경보 관리 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
경보 서비스가 오버로드됨 | 위험 | global-manager, manager, aas | 경보 서비스가 오버로드됩니다. |
NSX UI의 [경보] 페이지를 사용하거나 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API를 사용하여 모든 활성 경보를 검토하십시오. 각 활성 경보에 대해 권장되는 작업을 따라 근본 원인을 조사하십시오. 충분한 경보가 해결되면 경보 서비스에서 새 경보를 다시 보고하기 시작합니다. |
3.0.0 |
많은 양의 경보 | 위험 | global-manager, manager, aas | 특정 경보 유형이 과도하게 감지되었습니다. |
NSX UI의 [경보] 페이지를 사용하거나 NSX API GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED를 사용하여 {event_id} 유형의 모든 활성 경보를 검토하십시오. 각 활성 경보에 대해 권장되는 작업을 따라 근본 원인을 조사하십시오. 충분한 경보가 해결되면 경보 서비스에서 새 {event_id} 경보를 다시 보고하기 시작합니다. |
3.0.0 |
감사 로그 상태 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
감사 로그 파일 업데이트 오류 | 위험 | global-manager, manager, edge, public-cloud-gateway, esx, kvm, bms | 모니터링되는 로그 파일 중 하나 이상에 쓸 수 없습니다. |
1. Manager 및 글로벌 관리자 노드, Edge 및 공용 클라우드 게이트웨이 노드에서 Ubuntu KVM 호스트 노드는 /var/log 디렉토리에 대한 사용 권한이 775이고 소유권이 root:syslog인지 확인합니다. Rhel KVM 및 BMS 호스트 노드에서 /var/log 디렉토리에 대한 사용 권한이 755이고 소유권이 root:root인지 확인합니다. |
3.1.0 |
원격 로깅 서버 오류 | 위험 | global-manager, manager, edge, public-cloud-gateway | 잘못된 원격 로깅 서버 구성으로 인해 로그 메시지를 배달할 수 없습니다. |
1. {hostname_or_ip_address_with_port}가 올바른 호스트 이름 또는 IP 주소와 포트인지 확인합니다. |
3.1.0 |
용량 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
최소 용량 임계값 | 중형 | manager | 최소 용량 임계값이 초과되었습니다. |
NSX UI의 용량 페이지로 이동하고 현재 사용량과 임계값 제한을 검토합니다. 현재 사용량이 예상되는 경우 최소 임곗값을 늘리는 것이 좋습니다. 현재 사용량이 예상되지 않는 경우 사용량을 최소 임계값 이하로 줄이도록 구성된 네트워크 정책을 검토합니다. |
3.1.0 |
최대 용량 임계값 | 높음 | manager | 최대 용량 임계값이 초과되었습니다. |
NSX UI의 용량 페이지로 이동하고 현재 사용량과 임계값 제한을 검토합니다. 현재 사용량이 예상되는 경우 최대 임곗값을 늘리는 것이 좋습니다. 현재 사용량이 예기치 않은 경우 사용량을 최대 임계값 이하로 줄이도록 구성된 네트워크 정책을 검토합니다. |
3.1.0 |
최대 용량 | 위험 | manager | 최대 용량이 초과되었습니다. |
생성된 NSX 개체의 수가 NSX에서 지원되는 제한 내에 있는지 확인합니다. 사용되지 않는 개체가 있는 경우 시스템에서 해당 NSX UI 또는 API를 사용하여 삭제합니다. 모든 관리자 노드 및/또는 Edge 노드의 폼 팩터를 늘리는 것이 좋습니다. 각 노드 유형의 폼 팩터는 동일해야 합니다. 동일하지 않으면 배포된 가장 낮은 폼 팩터에 대한 용량 제한이 사용됩니다. |
3.1.0 |
인증서 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
인증서가 만료됨 | 위험 | global-manager, manager | 인증서가 만료되었습니다. |
현재 인증서를 사용하고 있는 서비스가 만료되지 않은 새 인증서를 사용하도록 업데이트되었는지 확인합니다. 만료된 인증서가 더 이상 사용되지 않는 경우 DELETE {api_collection_path}{entity_id} NSX API를 호출하여 인증서를 삭제해야 합니다. 만료된 인증서가 NAPP 플랫폼에 사용되는 경우 NSX와 NAPP 플랫폼 간의 연결이 끊어질 수 있습니다. 연결 복구를 위해 자체 서명된 NAPP CA 인증서를 사용하려면 NAPP Platform 문제 해결 문서를 확인하십시오. |
3.0.0 |
인증서가 곧 만료됩니다. | 높음 | global-manager, manager | 인증서가 곧 만료됩니다. |
현재 인증서를 사용하고 있는 서비스가 곧 만료될 예정이 아닌 새 인증서를 사용하도록 업데이트되었는지 확인합니다. 만료 예정인 인증서가 더 이상 사용되지 않는 경우 DELETE {api_collection_path}{entity_id} NSX API를 호출하여 인증서를 삭제해야 합니다. |
3.0.0 |
인증서 만료 임박 | 중형 | global-manager, manager | 인증서가 곧 만료될 예정입니다. |
현재 인증서를 사용하고 있는 서비스가 곧 만료될 예정이 아닌 새 인증서를 사용하도록 업데이트되었는지 확인합니다. 만료 예정인 인증서가 더 이상 사용되지 않는 경우 DELETE {api_collection_path}{entity_id} NSX API를 호출하여 인증서를 삭제해야 합니다. |
3.0.0 |
CA 번들 업데이트가 권장됨 | 높음 | global-manager, manager | 신뢰할 수 있는 CA 번들에 대한 업데이트가 권장됩니다. |
현재 신뢰할 수 있는 CA 번들을 사용하는 서비스가 최근에 업데이트된 신뢰할 수 있는 CA 번들을 사용하도록 업데이트되었는지 확인합니다. 시스템에서 제공하는 번들인 경우가 아니면 PUT /policy/api/v1/infra/cabundles/{entity_id} NSX API를 사용하여 번들을 업데이트할 수 있습니다. 만료된 번들을 더 이상 사용하지 않는 경우 DELETE /policy/api/v1/infra/cabundles/{entity_id} NSX API를 호출하여 삭제해야 합니다(시스템 제공 번들이 아닌 경우). |
3.2.0 |
CA 번들 업데이트가 제안됨 | 중형 | global-manager, manager | 신뢰할 수 있는 CA 번들에 대한 업데이트가 제안됩니다. |
현재 신뢰할 수 있는 CA 번들을 사용하는 서비스가 최근에 업데이트된 신뢰할 수 있는 CA 번들을 사용하도록 업데이트되었는지 확인합니다. 시스템에서 제공하는 번들인 경우가 아니면 PUT /policy/api/v1/infra/cabundles/{entity_id} NSX API를 사용하여 번들을 업데이트할 수 있습니다. 만료된 번들을 더 이상 사용하지 않는 경우 DELETE /policy/api/v1/infra/cabundles/{entity_id} NSX API를 호출하여 삭제해야 합니다(시스템 제공 번들이 아닌 경우). |
3.2.0 |
전송 노드 인증서 만료됨 | 위험 | bms, edge, esx, kvm, public-cloud-gateway | 인증서가 만료되었습니다. |
전송 노드 {entity_id} 인증서를 만료되지 않은 인증서로 교체합니다. 만료된 인증서는 POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id} NSX API를 호출하여 교체해야 합니다. 만료된 인증서가 전송 노드에서 사용되는 경우 전송 노드와 관리자 노드 간의 연결이 끊어집니다. |
4.1.0 |
전송 노드 인증서가 곧 만료될 예정임 | 높음 | bms, edge, esx, kvm, public-cloud-gateway | 인증서가 곧 만료됩니다. |
전송 노드 {entity_id} 인증서를 만료되지 않은 인증서로 교체합니다. 만료된 인증서는 POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id} NSX API를 호출하여 교체해야 합니다. 인증서를 교체하지 않을 경우 인증서가 만료되면 전송 노드와 관리자 노드 간의 연결이 끊어집니다. |
4.1.0 |
전송 노드 인증서 만료가 가까워지고 있음 | 중형 | bms, edge, esx, kvm, public-cloud-gateway | 인증서가 곧 만료될 예정입니다. |
전송 노드 {entity_id} 인증서를 만료되지 않은 인증서로 교체합니다. 만료된 인증서는 POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id} NSX API를 호출하여 교체해야 합니다. 인증서를 교체하지 않을 경우 인증서가 만료되면 전송 노드와 관리자 노드 간의 연결이 끊어집니다. |
4.1.0 |
클러스터링 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
클러스터가 성능 저하됨 | 중형 | global-manager, manager | 그룹 멤버가 종료되었습니다. |
1. NSX CLI 명령 'get cluster status'를 호출하여 클러스터의 그룹 멤버 상태를 봅니다. |
3.2.0 |
클러스터 사용 불가 | 높음 | global-manager, manager | 서비스의 모든 그룹 멤버가 종료되었습니다. |
1. 노드에서 {group_type}에 대한 서비스가 실행 중인지 확인합니다. GET /api/v1/node/services/<service_name>/status NSX API 또는 get service <service_name> NSX CLI 명령을 호출하여 서비스가 실행 중인지 확인합니다. 실행되고 있지 않으면 POST /api/v1/node/services/<service_name>?action=restart NSX API 또는 restart service <service_name> NSX CLI를 호출하여 서비스를 다시 시작합니다. |
3.2.0 |
CNI 상태 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
DPU에서 하이퍼버스 관리자 연결 종료 | 중형 | dpu | DPU에서 하이퍼버스가 관리자 노드와 통신할 수 없습니다. |
DPU {dpu_id}에서 하이퍼버스 VMkernel 인터페이스(vmk50)가 누락되었을 수 있습니다. 기술 자료 문서 https://kb.vmware.com/s/article/67432를 참조하십시오. |
4.0.0 |
Hyperbus 관리자 연결 종료 | 중형 | esx, kvm | Hyperbus가 관리자 노드와 통신할 수 없습니다. |
Hyperbus vmkernel 인터페이스(vmk50)가 누락되었을 수 있습니다. 기술 자료 문서 https://kb.vmware.com/s/article/67432를 참조하십시오. |
3.0.0 |
통신 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
DPU의 연결이 제한됨 | 중형 | dpu | 지정된 수집기는 DPU의 지정된 DVS에서 vmknic를 통해 연결할 수 없습니다. |
주의가 켜져 있다고 해서 수집기에 연결할 수 없다는 의미는 아닙니다. DVS {dvs_alias} 기준의 세로에서 생성된 내보낸 흐름은 DVS {dvs_alias} 외에 DVS의 vmknic를 통해 수집기 {collector_ip}에 계속 연결할 수 있습니다. 허용할 수 없는 경우 사용자는 DVS {dvs_alias}에서 스택 {stack_alias}을(를) 사용하여 vmknic를 생성하고 해당 IPv4(6) 주소로 구성할 수 있습니다. 그런 다음 ESXi를 통해 SSH에서 DPU로 사용하도록 설정하여 vmkping {collector_ip} -S {stack_alias} -I vmkX를 호출하여 DPU {dpu_id}에 새로 생성된 vmknic를 통해 {vertical_name} 수집기 {collector_ip}에 연결할 수 있는지 확인합니다. |
4.0.1 |
DPU에서 수집기에 연결할 수 없음 | 위험 | dpu | 지정된 수집기는 DPU의 기존 vmknic를 통해 연결할 수 없습니다. |
DVS에서 지정된 수직으로 수집기를 연결할 수 있도록 하려면 예상 스택 {stack_alias}이(가) 있는 vmknic가 생성되고 해당 IPv4(6) 주소로 구성되어야 하며 {vertical_name} 수집기 {collector_ip}에 대한 네트워크 연결 상태도 좋아야 합니다. 따라서 사용자는 DPU {dpu_id}에 대한 검사를 수행하고 필요한 구성을 수행하여 조건이 충족되는지 확인해야 합니다. 마지막으로 ESXi를 통해 SSH에서 DPU로 사용하도록 설정하여 vmkping {collector_ip} -S {stack_alias}에 성공하면 문제가 없음을 나타냅니다. |
4.0.1 |
관리자 클러스터 지연 시간이 높음 | 중형 | manager | 관리자 노드 간 평균 네트워크 지연 시간이 깁니다. |
관리자 노드 간의 ping 트래픽을 차단하는 방화벽 규칙이 없는지 확인합니다. 로컬 네트워크를 공유하는 다른 높은 대역폭 서버 및 애플리케이션이 있는 경우 다른 네트워크로 이동하는 것이 좋습니다. |
3.1.0 |
관리자 노드로의 제어 채널이 너무 오랫동안 종료됨 | 위험 | bms, edge, esx, kvm, public-cloud-gateway | 관리자 노드로의 전송 노드 제어부 연결이 오랫동안 끊겼습니다. |
1. ping을 통해 전송 노드 {entity_id}에서 관리자 노드 {appliance_address} 인터페이스로의 연결을 확인합니다. Ping할 수 없는 경우 네트워크 연결이 끊기는지 확인합니다. |
3.1.0 |
관리자 노드로의 제어 채널이 종료됨 | 중형 | bms, edge, esx, kvm, public-cloud-gateway | 관리자 노드로의 전송 노드 제어부 연결이 끊겼습니다. |
1. ping을 통해 전송 노드 {entity_id}에서 관리자 노드 {appliance_address} 인터페이스로의 연결을 확인합니다. Ping할 수 없는 경우 네트워크 연결이 끊기는지 확인합니다. |
3.1.0 |
전송 노드로의 제어 채널이 종료됨 | 중형 | manager | 전송 노드로의 컨트롤러 서비스 연결이 끊겼습니다. |
1. ping 및 traceroute를 통해 컨트롤러 서비스 {central_control_plane_id} 및 전송 노드 {entity_id} 인터페이스에서의 연결을 확인하십시오. 이 작업은 NSX Manager 노드 admin CLI에서 수행할 수 있습니다. ping 테스트 결과로 삭제가 표시되지 않아야 하며 일관된 지연 시간 값이 표시되어야 합니다. 지연 시간이 150ms 이하로 유지되는 것이 좋습니다. |
3.1.0 |
전송 노드로의 제어 채널이 오랫동안 종료됨 | 위험 | manager | 전송 노드에 대한 컨트롤러 서비스 연결이 너무 오랫동안 종료되었습니다. |
1. ping 및 traceroute를 통해 컨트롤러 서비스 {central_control_plane_id} 및 전송 노드 {entity_id} 인터페이스에서의 연결을 확인하십시오. 이 작업은 NSX Manager 노드 admin CLI에서 수행할 수 있습니다. ping 테스트 결과로 삭제가 표시되지 않아야 하며 일관된 지연 시간 값이 표시되어야 합니다. 지연 시간이 150ms 이하로 유지되는 것이 좋습니다. |
3.1.0 |
관리자 제어 채널이 종료됨 | 위험 | manager | 관리자-컨트롤러 채널이 종료되었습니다. |
1. 관리자 노드 {manager_node_name}({appliance_address})에서 다음 NSX CLI 명령 get service applianceproxy를 호출하여 60분 동안 서비스의 상태를 주기적으로 확인합니다. |
3.0.2 |
전송 노드로의 관리 채널이 종료됨 | 중형 | manager | 전송 노드로의 관리 채널이 종료되었습니다. |
관리자 노드와 전송 노드 {transport_node_name}({transport_node_address}) 간에 네트워크 연결이 있는지와 노드 간 트래픽을 차단하는 방화벽이 없는지 확인합니다. Windows 전송 노드의 Windows PowerShell에서 명령 C:\NSX\nsx-proxy\nsx-proxy.ps1 status를 호출하여 nsx-proxy 서비스가 전송 노드에서 실행되고 있는지 확인합니다. 실행 중이 아니면 C:\NSX\nsx-proxy\nsx-proxy.ps1 restart 명령을 호출하여 다시 시작합니다. 다른 모든 전송 노드에서 명령 /etc/init.d/nsx-proxy status를 호출하여 nsx-proxy 서비스가 전송 노드에서 실행되고 있는지 확인합니다. 실행 중이 아니면 /etc/init.d/nsx-proxy restart 명령을 호출하여 다시 시작합니다. |
3.0.2 |
전송 노드로의 관리 채널이 오랫동안 종료됨 | 위험 | manager | 전송 노드로의 관리 채널이 너무 오랫동안 종료되었습니다. |
관리자 노드와 전송 노드 {transport_node_name}({transport_node_address}) 간에 네트워크 연결이 있는지와 노드 간 트래픽을 차단하는 방화벽이 없는지 확인합니다. Windows 전송 노드의 Windows PowerShell에서 명령 C:\NSX\nsx-proxy\nsx-proxy.ps1 status를 호출하여 nsx-proxy 서비스가 전송 노드에서 실행되고 있는지 확인합니다. 실행 중이 아니면 C:\NSX\nsx-proxy\nsx-proxy.ps1 restart 명령을 호출하여 다시 시작합니다. 다른 모든 전송 노드에서 명령 /etc/init.d/nsx-proxy status를 호출하여 nsx-proxy 서비스가 전송 노드에서 실행되고 있는지 확인합니다. 실행 중이 아니면 /etc/init.d/nsx-proxy restart 명령을 호출하여 다시 시작합니다. |
3.0.2 |
관리자 FQDN 조회 실패 | 위험 | global-manager, bms, edge, esx, kvm, manager, public-cloud-gateway | 관리자 노드의 FQDN에 대한 DNS 조회가 실패했습니다. |
1. 모든 관리자 노드에 올바른 FQDN을 할당하고 DNS 구성이 모든 관리자 노드의 FQDN을 성공적으로 조회하기 위해 올바른지 확인합니다. |
3.1.0 |
관리자 FQDN 역방향 조회 실패 | 위험 | global-manager, manager | 관리자 노드의 IP 주소에 대한 DNS 역방향 조회가 실패했습니다. |
1. 모든 관리자 노드에 올바른 FQDN을 할당하고 DNS 구성이 관리자 노드의 IP 주소를 성공적으로 역방향으로 조회하기 위해 올바른지 확인합니다. |
3.1.0 |
관리자 노드로의 관리 채널이 종료됨 | 중형 | bms, edge, esx, kvm, public-cloud-gateway | 관리자 노드로의 관리 채널이 종료되었습니다. |
전송 노드 {transport_node_id}과(와) 마스터 관리자 노드 간에 네트워크 연결이 있는지 확인합니다. 또한 노드 간의 트래픽을 차단하는 방화벽이 없는지 확인합니다. /etc/init.d/messaging-manager status 명령을 호출하여 메시징 관리자 서비스가 관리자 노드에서 실행되고 있는지 확인합니다. 메시징 관리자가 실행 중이 아니면 /etc/init.d/messaging-manager restart 명령을 호출하여 다시 시작합니다. |
3.2.0 |
관리자 노드로의 관리 채널이 오랫동안 종료됨 | 위험 | bms, edge, esx, kvm, public-cloud-gateway | 관리자 노드로의 관리 채널이 너무 오랫동안 종료되었습니다. |
전송 노드 {transport_node_id}과(와) 마스터 관리자 노드 간에 네트워크 연결이 있는지 확인합니다. 또한 노드 간의 트래픽을 차단하는 방화벽이 없는지 확인합니다. /etc/init.d/messaging-manager status 명령을 호출하여 메시징 관리자 서비스가 관리자 노드에서 실행되고 있는지 확인합니다. 메시징 관리자가 실행 중이 아니면 /etc/init.d/messaging-manager restart 명령을 호출하여 다시 시작합니다. |
3.2.0 |
네트워크 대기 시간 높음 | 중형 | manager | 관리-전송 노드로의 네트워크 지연 시간이 높습니다. |
1. 5분 동안 기다려 경보가 자동으로 해결되는지 확인합니다. |
4.0.0 |
DHCP 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
풀 리스 할당 실패 | 높음 | edge, autonomous-edge, public-cloud-gateway | IP 풀의 IP 주소가 모두 사용되었습니다. |
NSX UI에서 또는 NSX CLI 명령 get dhcp ip-pool을 호출하여 DHCP 서버가 실행 중인 Edge 노드에서 DHCP 풀 구성을 검토합니다. 또한 NSX CLI 명령 get dhcp lease를 호출하여 Edge 노드의 현재 활성 리스를 검토합니다. 리스를 활성 VM 수와 비교합니다. VM의 수가 활성 리스 수와 비교하여 낮은 경우 DHCP 서버 구성의 리스 시간을 줄이는 것을 고려하십시오. 또한 NSX UI의 네트워킹 | 세그먼트 | 세그먼트 페이지로 이동하여 DHCP 서버의 풀 범위를 확장하는 것이 좋습니다. |
3.0.0 |
풀이 오버로드됨 | 중형 | edge, autonomous-edge, public-cloud-gateway | IP 풀이 오버로드되었습니다. |
NSX UI에서 또는 NSX CLI 명령 get dhcp ip-pool을 호출하여 DHCP 서버가 실행 중인 Edge 노드에서 DHCP 풀 구성을 검토합니다. 또한 NSX CLI 명령 get dhcp lease를 호출하여 Edge 노드의 현재 활성 리스를 검토합니다. 리스를 활성 VM 수와 비교합니다. VM의 수가 활성 리스 수와 비교하여 낮은 경우 DHCP 서버 구성의 리스 시간을 줄이는 것을 고려하십시오. 또한 NSX UI의 네트워킹 | 세그먼트 | 세그먼트 페이지로 이동하여 DHCP 서버의 풀 범위를 확장하는 것이 좋습니다. |
3.0.0 |
분산 방화벽 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
DFW CPU 사용량이 매우 높음 | 위험 | esx | DFW CPU 사용량이 매우 높습니다. |
이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. 최적화를 위해 보안 설계를 검토하십시오. 예를 들어 전체 데이터 센터에 규칙이 적용되지 않는 경우 적용 대상 구성을 사용합니다. |
3.0.0 |
DFW CPU 사용량이 DPU에서 매우 높음 | 위험 | dpu | DFW CPU 사용량이 DPU에서 너무 높습니다. |
이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. 최적화를 위해 보안 설계를 검토하십시오. 예를 들어 전체 데이터 센터에 규칙이 적용되지 않는 경우 적용 대상 구성을 사용합니다. |
4.0.0 |
DFW 메모리 사용량이 매우 높음 | 위험 | esx | DFW 메모리 사용량이 매우 높습니다. |
호스트에서 NSX CLI 명령 get firewall thresholds를 호출하여 현재 DFW 메모리 사용량을 봅니다. 이 호스트의 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
3.0.0 |
DFW 메모리 사용량이 DPU에서 매우 높음 | 위험 | dpu | DFW 메모리 사용량이 DPU에서 너무 높습니다. |
DPU에서 NSX CLI 명령 get firewall thresholds를 호출하여 현재 DFW 메모리 사용량을 확인합니다. 이 호스트의 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
4.0.0 |
DFW VMotion 실패 | 위험 | esx | DFW vMotion에 실패했습니다. 포트 연결이 끊겼습니다. |
NSX Manager의 호스트에 있는 VM을 확인하고, NSX Manager UI를 통해 DFW 구성을 수동으로 다시 푸시합니다. 다시 푸시할 DFW 정책은 DFW 필터 {entity_id}(으)로 추적할 수 있습니다. 또한 DFW 필터가 연결된 VM을 찾아 다시 시작하는 것이 좋습니다. |
3.2.0 |
DFW 플러드 제한 주의 | 중형 | esx | DFW 플러드 제한이 주의 수준에 도달했습니다. |
NSX Manager의 호스트에서 VM을 확인하고 프로토콜 {protocol_name}에 대해 DFW 필터 {entity_id}의 구성된 플러드 주의 수준을 확인합니다. |
4.1.0 |
DFW 플러드 제한 위험 | 위험 | esx | DFW 플러드 제한이 위험 수준에 도달했습니다. |
NSX Manager의 호스트에서 VM을 확인하고 프로토콜 {protocol_name}에 대해 DFW 필터 {entity_id}의 구성된 플러드 위험 수준을 확인합니다. |
4.1.0 |
DFW 세션 수가 높음 | 위험 | esx | DFW 세션 수가 높습니다. |
호스트에 있는 워크로드의 네트워크 트래픽 로드 수준을 검토합니다. 이 호스트의 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
3.2.0 |
Vnic당 DFW 규칙 제한을 초과함 | 위험 | esx | vNIC당 DFW 규칙 제한이 최대 제한을 초과하려고 합니다. |
ESX 호스트 {transport_node_name}에 로그인하고 NSX CLI 명령 get firewall <VIF_UUID> ruleset rules를 호출하여 해당 VIF에 구성된 규칙에 대한 규칙 통계를 가져옵니다. VIF {entity_id}에 대해 구성된 규칙 수를 줄입니다. |
4.0.0 |
Vnic당 DFW 규칙 제한이 가까워지고 있음 | 중형 | esx | vNIC당 DFW 규칙 제한이 최대 제한에 도달하고 있습니다. |
ESX 호스트 {transport_node_name}에 로그인하고 NSX CLI 명령 get firewall <VIF_UUID> ruleset rules를 호출하여 해당 VIF에 구성된 규칙에 대한 규칙 통계를 가져옵니다. VIF {entity_id}에 대해 구성된 규칙 수를 줄입니다. |
4.0.0 |
호스트당 DFW 규칙 제한을 초과함 | 위험 | esx | 호스트당 DFW 규칙 제한이 최대 제한을 초과하려고 합니다. |
ESX 호스트 {transport_node_name}에 로그인하고 NSX CLI 명령get firewall rule-stats total을 호출하여 ESX 호스트 {transport_node_name}에 구성된 규칙에 대한 규칙 통계를 가져옵니다. 호스트 {transport_node_name}에 대해 구성된 규칙 수를 줄입니다. NSX CLI 명령 get firewall <VIF_UUID> ruleset rules를 사용하여 다양한 VIF에 대해 구성된 규칙 수를 확인합니다. 다양한 VIF에 대해 구성된 규칙 수를 줄입니다. |
4.0.0 |
호스트당 DFW 규칙 제한이 가까워지고 있음 | 중형 | esx | 호스트당 DFW 규칙 제한이 최대 제한에 도달하고 있습니다. |
ESX 호스트 {transport_node_name}에 로그인하고 NSX CLI 명령get firewall rule-stats total을 호출하여 ESX 호스트 {transport_node_name}에 구성된 규칙에 대한 규칙 통계를 가져옵니다. 호스트 {transport_node_name}에 대해 구성된 규칙 수를 줄입니다. NSX CLI 명령 get firewall <VIF_UUID> ruleset rules를 사용하여 다양한 VIF에 대해 구성된 규칙 수를 확인합니다. 다양한 VIF에 대해 구성된 규칙 수를 줄입니다. |
4.0.0 |
분산 IDS IPS 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
최대 이벤트에 도달함 | 중형 | manager | 최대 침입 이벤트 수에 도달했습니다. |
수동 작업은 필요하지 않습니다. 지우기 작업이 3분마다 자동으로 시작되고 이전 레코드의 10%를 삭제하여 시스템의 총 침입 이벤트 수를 임계값인 150만 개 미만으로 유지합니다. |
3.1.0 |
NSX IDPS 엔진 메모리 사용량이 높음 | 중형 | esx | NSX IDPS 엔진 메모리 사용량이 75% 이상에 도달했습니다. |
이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
3.1.0 |
DPU에서 NSX IDPS 엔진 메모리 사용량이 높음 | 중형 | dpu | DPU에서 NSX IDPS 엔진 메모리 사용량이 75% 이상에 도달했습니다. |
이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
4.0.0 |
NSX IDPS 엔진 메모리 사용량이 중간임 | 높음 | esx | NSX IDPS 엔진 메모리 사용량이 85% 이상에 도달했습니다. |
이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
3.1.0 |
DPU에서 NSX IDPS 엔진 메모리 사용량이 중간임 | 높음 | dpu | DPU에서 NSX IDPS 엔진 메모리 사용량이 85% 이상에 도달했습니다. |
이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
4.0.0 |
NSX IDPS 엔진 메모리 사용량이 매우 높음 | 위험 | esx | NSX IDPS 엔진 메모리 사용량이 95% 이상에 도달했습니다. |
이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
3.1.0 |
DPU에서 NSX IDPS 엔진 메모리 사용량이 매우 높음 | 위험 | dpu | DPU에서 NSX IDPS 엔진 메모리 사용량이 95% 이상에 도달했습니다. |
이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
4.0.0 |
NSX IDPS 엔진 CPU 사용량이 높음 | 중형 | esx | NSX IDPS 엔진 CPU 사용량이 75% 이상에 도달했습니다. |
이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
3.1.0 |
NSX IDPS 엔진 CPU 사용량이 중간임 | 높음 | esx | NSX IDPS 엔진 CPU 사용량이 85% 이상에 도달했습니다. |
이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
3.1.0 |
NSX IDPS 엔진 CPU 사용량이 매우 높음 | 위험 | esx | NSX IDPS 엔진 CPU 사용량이 95% 이상을 초과했습니다. |
이 호스트의 VM 워크로드를 다른 호스트로 재조정하는 것이 좋습니다. |
3.1.0 |
NSX IDPS 엔진이 종료됨 | 위험 | esx | NSX IDPS는 NSX 정책을 통해 사용하도록 설정되고 IDPS 규칙이 구성되었지만 NSX IDPS 엔진이 종료되었습니다. |
1. /var/log/nsx-syslog.log에 보고된 오류가 있는지 확인합니다. |
3.1.0 |
DPU에서 NSX IDPS 엔진 종료 | 위험 | dpu | NSX IDPS는 NSX 정책을 통해 사용하도록 설정되고 IDPS 규칙이 구성되었지만 DPU에서 NSX IDPS 엔진이 종료되었습니다. |
1. /var/log/nsx-idps/nsx-idps.log 및 /var/log/nsx-syslog.log를 확인하여 보고된 오류가 있는지 알아봅니다. |
4.0.0 |
IDPS 엔진 CPU 초과 구독이 높음 | 중형 | esx | 분산 IDPS 엔진에 대한 CPU 활용률이 높습니다. |
초과 구독 이유를 검토합니다. 특정 애플리케이션을 다른 호스트로 이동합니다. |
4.0.0 |
IDPS 엔진 CPU 초과 구독이 매우 높음 | 높음 | esx | 분산 IDPS 엔진에 대한 CPU 활용률이 매우 높습니다. |
초과 구독 이유를 검토합니다. 특정 애플리케이션을 다른 호스트로 이동합니다. |
4.0.0 |
IDPS 엔진 네트워크 초과 구독이 높음 | 중형 | esx | 분산 IDPS 엔진에 대한 네트워크 활용률이 높습니다. |
초과 구독 이유를 검토합니다. IDPS 규칙을 검토하여 IDPS 서비스에 따라 좌우되는 트래픽 양을 줄입니다. |
4.0.0 |
IDPS 엔진 네트워크 초과 구독이 매우 높음 | 높음 | esx | 분산 IDPS 엔진에 대한 네트워크 활용률이 매우 높습니다. |
초과 구독 이유를 검토합니다. IDPS 규칙을 검토하여 IDPS 서비스에 따라 좌우되는 트래픽 양을 줄입니다. |
4.0.0 |
IDPS 엔진 손실 트래픽 CPU를 초과 구독함 | 위험 | esx | CPU 초과 구독으로 인해 분산 IDPS 엔진이 트래픽을 삭제했습니다. |
초과 구독 이유를 검토합니다. 특정 애플리케이션을 다른 호스트로 이동합니다. |
4.0.0 |
IDPS 엔진 삭제된 트래픽 네트워크를 초과 구독함 | 위험 | esx | 네트워크 초과 구독으로 인해 분산 IDPS 엔진이 트래픽을 삭제했습니다. |
초과 구독 이유를 검토합니다. IDPS 규칙을 검토하여 IDPS 서비스에 따라 좌우되는 트래픽 양을 줄입니다. |
4.0.0 |
IDPS 엔진 우회 트래픽 CPU를 초과 구독함 | 위험 | esx | CPU 초과 구독으로 인해 분산 IDPS 엔진이 트래픽을 우회했습니다. |
초과 구독 이유를 검토합니다. 특정 애플리케이션을 다른 호스트로 이동합니다. |
4.0.0 |
IDPS 엔진 우회 트래픽 네트워크를 초과 구독함 | 위험 | esx | 네트워크 초과 구독으로 인해 분산 IDPS 엔진이 트래픽을 우회했습니다. |
초과 구독 이유를 검토합니다. IDPS 규칙을 검토하여 IDPS 서비스에 따라 좌우되는 트래픽 양을 줄입니다. |
4.0.0 |
DNS 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
전달자 종료 | 높음 | edge, autonomous-edge, public-cloud-gateway | DNS 전달자가 종료되었습니다. |
1. NSX CLI 명령 get dns-forwarders status를 호출하여 DNS 전달자가 종료 상태인지 확인합니다. |
3.0.0 |
전달자 사용 안 함 | 정보 | edge, autonomous-edge, public-cloud-gateway | DNS 전달자를 사용하지 않도록 설정했습니다. |
1. NSX CLI 명령 get dns-forwarders status를 호출하여 DNS 전달자가 사용 안 함 상태인지 확인합니다. |
3.0.0 |
전달자 업스트림 서버 시간 초과 | 높음 | edge, autonomous-edge, public-cloud-gateway | 하나의 DNS 전달자 업스트림 서버가 시간 초과되었습니다. |
1. NSX API GET /api/v1/dns/forwarders/{dns_id}/nslookup? address=<address>&server_ip={dns_upstream_ip}&source_ip=<source_ip>를 호출합니다. 이 API 요청은 DNS 전달자의 네트워크 네임스페이스에서 업스트림 서버에 대한 DNS 조회를 트리거합니다. <address>은(는) 업스트림 서버와 동일한 도메인에 있는 IP 주소 또는 FQDN입니다. <source_ip>은(는) 업스트림 서버 영역의 IP 주소입니다. API가 연결 시간 초과 응답을 반환하는 경우 네트워크 오류 또는 업스트림 서버 문제가 있을 수 있습니다. DSN 조회가 업스트림 서버에 도달하지 않는 이유 또는 업스트림 서버가 응답을 반환하지 않는 이유를 확인하십시오. API 응답에 업스트림 서버가 응답하고 있다고 표시되면 2단계를 계속 진행합니다. |
3.1.3 |
Edge 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
Edge 노드 설정 일치하지 않음 | 위험 | manager | Edge 노드 설정이 일치하지 않습니다. |
이 Edge 전송 노드 {entity_id}의 노드 설정을 검토합니다. 경보를 해결하려면 다음 작업 중 하나를 수행하십시오. |
3.2.0 |
Edge VM VSphere 설정이 일치하지 않음 | 위험 | manager | Edge VM vSphere 설정이 일치하지 않습니다. |
이 Edge 전송 노드 {entity_id}의 vSphere 구성을 검토합니다. 경보를 해결하려면 다음 작업 중 하나를 수행하십시오. |
3.2.0 |
Edge 노드 설정 및 vSphere 설정이 변경됨 | 위험 | manager | Edge 노드 설정 및 vSphere 설정이 변경됩니다. |
이 Edge 전송 노드 {entity_id}의 노드 설정 및 vSphere 구성을 검토합니다. 경보를 해결하려면 다음 작업 중 하나를 수행하십시오. |
3.2.0 |
Edge vSphere 위치가 일치하지 않음 | 높음 | manager | Edge vSphere 위치가 일치하지 않음 |
이 Edge 전송 노드 {entity_id}의 vSphere 구성을 검토합니다. 경보를 해결하려면 다음 작업 중 하나를 수행하십시오. |
3.2.0 |
NSX 인벤토리에 있는 Edge VM이 vCenter에 없음 | 위험 | manager | 자동 Edge VM이 NSX 인벤토리에 있지만 vCenter에는 없습니다. |
VM의 관리 개체 참조 moref id는 vm-number 형식으로, vCenter UI에서 Edge VM을 선택할 때 URL에 표시됩니다. 예: vm-12011 in https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary 이 Edge 전송 노드 {entity_id}에 대한 vCenter에서 moref ID가 {vm_moref_id}인 VM {policy_edge_vm_name}을(를) 찾으십시오. vCenter에 다른 moref id의 Edge VM이 있는 경우 아래 작업을 수행하십시오. NSX에서 JSON 요청 페이로드 속성 vm_id 및 vm_deployment_config로 배치 API를 추가하거나 업데이트하여 새 vm moref id 및 vSphere 배포 매개 변수를 업데이트합니다. POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=addOrUpdatePlacementReferences. 이름이 {policy_edge_vm_name}인 Edge VM이 vCenter에 없으면 NSX 다시 배포 API를 사용하여 Edge 노드에 대한 새 VM을 배포합니다. POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=redeploy. |
3.2.1 |
Edge VM이 NSX 인벤토리 및 vCenter 둘 다에 없음 | 위험 | manager | 자동 Edge VM이 NSX 인벤토리와 vCenter 둘 다에 없습니다. |
VM의 관리 개체 참조 moref id는 vm-number 형식으로, vCenter UI에서 Edge VM을 선택할 때 URL에 표시됩니다. 예: vm-12011 in https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary 이 Edge 전송 노드 {entity_id}에 대한 vCenter에서 moref ID가 {vm_moref_id}인 VM {policy_edge_vm_name}을(를) 찾으십시오. 경보를 해결하려면 아래 작업을 수행하십시오. - vSphere VM이 삭제되었는지 또는 다른 MoRef ID가 있는지 확인하십시오. |
3.2.1 |
다시 배포하는 동안 vCenter에서 이전 VM을 삭제하지 못함 | 위험 | manager | 다시 배포하는 동안 vCenter의 이전 Edge VM에 대한 전원 끄기 및 삭제 작업이 실패했습니다. |
VM의 관리 개체 참조 moref id는 vm-number 형식으로, vCenter UI에서 Edge VM을 선택할 때 URL에 표시됩니다. 예: vm-12011 in https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary 이 Edge 전송 노드 {entity_id}에 대한 vCenter에서 moref ID가 {vm_moref_id}인 VM {policy_edge_vm_name}을(를) 찾으십시오. vCenter에서 moref id가 {vm_moref_id}인 이전 Edge VM {policy_edge_vm_name}의 전원을 끄고 삭제하십시오. |
3.2.1 |
Edge 하드웨어 버전 불일치 | 중형 | manager | Edge 노드에 하드웨어 버전 불일치가 있습니다. |
KB 문서에 따라 Edge 노드 {transport_node_name}에 대한 하드웨어 버전 불일치 경보를 해결하십시오. |
4.0.1 |
Edge 클러스터 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
Edge 클러스터 멤버 재배치 실패 | 위험 | manager | Edge 클러스터 멤버 재배치 실패 경보 |
Edge 클러스터에 사용할 수 있는 용량을 검토하십시오. 더 많은 용량이 필요한 경우 Edge 클러스터 크기를 조정합니다. Edge 클러스터 멤버 재배치 작업을 다시 시도하십시오. |
4.0.0 |
Edge 상태 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
Edge CPU 사용량이 매우 높음 | 위험 | edge, public-cloud-gateway | Edge 노드 CPU 사용량이 매우 높습니다. |
이 Edge 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 해당 워크로드에 맞게 Edge 장치 폼 팩터 크기를 조정하거나 다른 Edge 노드로 서비스를 재조정하는 것이 좋습니다. |
3.0.0 |
Edge CPU 사용량이 높음 | 중형 | edge, public-cloud-gateway | Edge 노드 CPU 사용량이 높습니다. |
이 Edge 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 해당 워크로드에 맞게 Edge 장치 폼 팩터 크기를 조정하거나 다른 Edge 노드로 서비스를 재조정하는 것이 좋습니다. |
3.0.0 |
Edge 메모리 사용량이 매우 높음 | 위험 | edge, public-cloud-gateway | Edge 노드 메모리 사용량이 매우 높습니다. |
이 Edge 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 해당 워크로드에 맞게 Edge 장치 폼 팩터 크기를 조정하거나 다른 Edge 노드로 서비스를 재조정하는 것이 좋습니다. |
3.0.0 |
Edge 메모리 사용량이 높음 | 중형 | edge, public-cloud-gateway | Edge 노드 메모리 사용량이 높습니다. |
이 Edge 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 해당 워크로드에 맞게 Edge 장치 폼 팩터 크기를 조정하거나 다른 Edge 노드로 서비스를 재조정하는 것이 좋습니다. |
3.0.0 |
Edge 디스크 사용량이 매우 높음 | 위험 | edge, public-cloud-gateway | Edge 노드 디스크 사용량이 매우 높습니다. |
사용량이 많은 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
3.0.0 |
Edge 디스크 사용량이 높음 | 중형 | edge, public-cloud-gateway | Edge 노드 디스크 사용량이 높습니다. |
사용량이 많은 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
3.0.0 |
Edge 데이터 경로 CPU가 매우 높음 | 위험 | edge, autonomous-edge, public-cloud-gateway | Edge 노드 데이터 경로 CPU 사용량이 매우 높습니다. |
NSX CLI 명령 get dataplane cpu stats를 호출하고 Edge 노드의 CPU 통계를 검토하여 CPU 코어당 패킷 속도를 표시합니다. 더 높은 패킷 속도에는 더 높은 CPU 사용량이 예상됩니다. Edge 장치 폼 팩터 크기를 늘리고 이 Edge 노드의 서비스를 동일한 클러스터 또는 다른 Edge 클러스터의 다른 Edge 노드로 재조정하는 것이 좋습니다. |
3.0.0 |
Edge 데이터 경로 CPU가 높음 | 중형 | edge, autonomous-edge, public-cloud-gateway | Edge 노드 데이터 경로 CPU 사용량이 높습니다. |
NSX CLI 명령 get dataplane cpu stats를 호출하고 Edge 노드의 CPU 통계를 검토하여 CPU 코어당 패킷 속도를 표시합니다. 더 높은 패킷 속도에는 더 높은 CPU 사용량이 예상됩니다. Edge 장치 폼 팩터 크기를 늘리고 이 Edge 노드의 서비스를 동일한 클러스터 또는 다른 Edge 클러스터의 다른 Edge 노드로 재조정하는 것이 좋습니다. |
3.0.0 |
Edge 데이터 경로 구성 실패 | 높음 | edge, autonomous-edge, public-cloud-gateway | Edge 노드 데이터 경로 구성에 실패했습니다. |
관리자 노드에 대한 Edge 노드 연결이 정상인지 확인합니다. Edge 노드 NSX CLI에서 get services 명령을 호출하여 서비스 상태를 확인합니다. 데이터부 서비스가 중지된 경우 start service dataplane 명령을 호출하여 다시 시작합니다. |
3.0.0 |
Edge 데이터 경로 Cryptodrv 종료 | 위험 | edge, autonomous-edge, public-cloud-gateway | Edge 암호화 드라이버가 종료되었습니다. |
필요에 따라 Edge 노드를 업그레이드합니다. |
3.0.0 |
Edge 데이터 경로 Mempool이 높음 | 중형 | edge, autonomous-edge, public-cloud-gateway | Edge 노드 데이터 경로 mempool이 높습니다. |
루트 사용자로 로그인하고 edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show 및 edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap 명령을 호출하여 DPDK 메모리 사용량을 확인합니다. |
3.0.0 |
Edge 글로벌 ARP 테이블 사용량이 높음 | 중형 | edge, autonomous-edge, public-cloud-gateway | Edge 노드 글로벌 ARP 테이블 사용량이 높습니다. |
루트 사용자로 로그인하고 명령 edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show를 호출한 후 neigh 캐시 사용량이 정상적인지 확인합니다. 정상적이면 edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries 명령을 호출하여 ARP 테이블 크기를 늘리십시오. |
3.0.0 |
Edge NIC가 수신 버퍼를 벗어남 | 중형 | edge, autonomous-edge, public-cloud-gateway | Edge 노드 NIC가 일시적으로 RX 링 버퍼를 벗어납니다. |
Edge 노드에서 NSX CLI 명령 get dataplane cpu stats를 실행하고 다음을 확인합니다. |
3.0.0 |
Edge NIC가 전송 버퍼를 벗어남 | 위험 | edge, autonomous-edge, public-cloud-gateway | Edge 노드 NIC가 일시적으로 TX 링 버퍼를 벗어납니다. |
1. 하이퍼바이저가 Edge와 함께 많은 VM을 수용하는 경우 Edge VM이 실행될 시간이 없으므로 하이퍼바이저에서 패킷이 검색되지 않을 수 있습니다. 그 후에는 Edge VM을 VM이 거의 없는 호스트로 마이그레이션할 수 있습니다. |
3.0.0 |
Edge NIC 링크 상태 종료 | 위험 | edge, autonomous-edge, public-cloud-gateway | Edge 노드 NIC 링크가 종료되었습니다. |
Edge 노드에서 NSX CLI 명령 get interfaces를 호출하여 NIC 링크가 물리적으로 종료되었는지 확인합니다. 종료된 경우 케이블 연결을 확인합니다. |
3.0.0 |
스토리지 오류 | 위험 | edge, autonomous-edge, public-cloud-gateway | Edge 노드 디스크가 읽기 전용입니다. |
읽기 전용 파티션을 검토하여 재부팅으로 문제가 해결되었는지 또는 디스크를 교체해야 하는지 확인합니다. 자세한 내용은 GSS에 문의하십시오. |
3.0.1 |
데이터 경로 스레드가 교착 상태입니다. | 위험 | edge, autonomous-edge, public-cloud-gateway | Edge 노드의 데이터 경로 스레드가 교착 상태에 있습니다. |
NSX CLI 명령 restart service dataplane을 호출하여 데이터부 서비스를 다시 시작합니다. |
3.1.0 |
Edge 데이터 경로 NIC 처리량이 매우 높음 | 위험 | edge, autonomous-edge, public-cloud-gateway | Edge 노드 데이터 경로 NIC 처리량이 매우 높습니다. |
NIC의 트래픽 처리량 수준을 검토하고 구성 변경이 필요한지 확인합니다. 'get dataplane thoughput <seconds>’ 명령을 사용하여 처리량을 모니터링할 수 있습니다. |
3.2.0 |
Edge 데이터 경로 NIC 처리량이 높음 | 중형 | edge, autonomous-edge, public-cloud-gateway | Edge 노드 데이터 경로 NIC 처리량이 높습니다. |
NIC의 트래픽 처리량 수준을 검토하고 구성 변경이 필요한지 확인합니다. 'get dataplane thoughput <seconds>’ 명령을 사용하여 처리량을 모니터링할 수 있습니다. |
3.2.0 |
장애 도메인 종료 | 위험 | edge, public-cloud-gateway | 장애 도메인의 모든 멤버가 종료되었습니다. |
1. {transport_node_id}(으)로 식별된 Edge 노드에서 NSX CLI 명령 get managers 및 get controllers를 호출하여 관리부 및 제어부에 대한 연결을 검사합니다. |
3.2.0 |
마이크로 흐름 캐시 적중률 낮음 | 중형 | edge, autonomous-edge, public-cloud-gateway | 마이크로 흐름 캐시 적중률이 감소하고 데이터 경로 CPU가 높습니다. |
캐시 흐름 적중률이 지난 30분 동안 감소했으며, 이는 Edge 성능이 저하되었을 수 있음을 나타냅니다. 트래픽은 계속 전달되며 문제가 발생하지 않을 수도 있습니다. 지난 30분 동안 트래픽이 높은 경우 Edge {entity_id} 코어 {core_id}에 대한 데이터 경로 CPU 활용률을 확인합니다. 새 흐름의 첫 번째 패킷은 빠른 경로 처리를 위해 흐름 캐시를 설정하는 데 사용되므로 지속적으로 새 흐름이 생성되면 Edge의 흐름 캐시 적중률이 낮아집니다. Edge 장치 크기를 늘리거나 활성/활성 게이트웨이에 사용되는 Edge 노드의 수를 늘려야 할 수 있습니다. |
3.2.2 |
메가 흐름 캐시 적중률 낮음 | 중형 | edge, autonomous-edge, public-cloud-gateway | 메가 흐름 캐시 적중률이 감소하고 데이터 경로 CPU가 높습니다. |
캐시 흐름 적중률이 지난 30분 동안 감소했으며, 이는 Edge 성능이 저하되었을 수 있음을 나타냅니다. 트래픽은 계속 전달되며 문제가 발생하지 않을 수도 있습니다. 지난 30분 동안 트래픽이 높은 경우 Edge {entity_id} 코어 {core_id}에 대한 데이터 경로 CPU 활용률을 확인합니다. 새 흐름의 첫 번째 패킷은 빠른 경로 처리를 위해 흐름 캐시를 설정하는 데 사용되므로 지속적으로 새 흐름이 생성되면 Edge의 흐름 캐시 적중률이 낮아집니다. Edge 장치 크기를 늘리거나 활성/활성 게이트웨이에 사용되는 Edge 노드의 수를 늘려야 할 수 있습니다. |
3.2.2 |
끝점 보호 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
EAM 상태 종료 | 위험 | manager | 계산 관리자의 EAM(ESX Agent Manager) 서비스가 종료되었습니다. |
EAM(ESX Agent Manager) 서비스를 시작합니다. vCenter에 대해 SSH를 수행하고 service vmware-eam start 명령을 호출합니다. |
3.0.0 |
파트너 채널 종료 | 위험 | esx | 호스트 모듈 및 파트너 SVM 연결이 종료되었습니다. |
https://kb.vmware.com/s/article/85844을 참조하고 파트너 SVM {entity_id}이(가) 호스트 모듈에 다시 연결되었는지 확인합니다. |
3.0.0 |
페더레이션 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
RTEP BGP 종료 | 높음 | edge, autonomous-edge, public-cloud-gateway | RTEP BGP 인접 네트워크가 종료되었습니다. |
1. 영향을 받는 Edge 노드에서 NSX CLI 명령 get logical-routers를 호출합니다. |
3.0.1 |
LM-LM 동기화 주의 | 중형 | manager | 원격 위치 간의 동기화가 3분 이상 실패했습니다. |
1. NSX CLI 명령 get site-replicator remote-sites를 호출하여 원격 위치 간의 연결 상태를 가져옵니다. 원격 위치가 연결되었지만 동기화되지 않은 경우에도 위치가 마스터 확인 프로세스에 있을 수 있습니다. 이 경우 약 10초 동안 기다린 후 CLI를 다시 호출하여 원격 위치의 상태를 확인하십시오. 위치가 연결되지 않은 경우 다음 단계를 시도합니다. |
3.0.1 |
LM-LM 동기화 오류 | 높음 | manager | 원격 위치 간의 동기화가 15분 이상 실패했습니다. |
1. NSX CLI 명령 get site-replicator remote-sites를 호출하여 원격 위치 간의 연결 상태를 가져옵니다. 원격 위치가 연결되었지만 동기화되지 않은 경우에도 위치가 마스터 확인 프로세스에 있을 수 있습니다. 이 경우 약 10초 동안 기다린 후 CLI를 다시 호출하여 원격 위치의 상태를 확인하십시오. 위치가 연결되지 않은 경우 다음 단계를 시도합니다. |
3.0.1 |
RTEP 연결 끊김 | 높음 | manager | RTEP 위치 연결이 끊어졌습니다. |
1. 영향을 받는 Edge 노드 {transport_node_name}에서 NSX CLI 명령 get logical-routers를 호출합니다. |
3.0.2 |
GM-GM 분할 브레인 | 위험 | global-manager | 여러 글로벌 관리자 노드가 동시에 활성 상태입니다. |
하나의 글로벌 관리자 노드만 활성 노드로 구성하고 다른 모든 글로벌 관리자 노드는 대기 노드로 구성합니다. |
3.1.0 |
GM-GM 지연 시간 주의 | 중형 | global-manager | 글로벌 관리자 간 지연 시간이 2분 넘게 예상보다 높습니다. |
ping을 통해 글로벌 관리자 {from_gm_path}({site_id})에서 글로벌 관리자 {to_gm_path}({remote_site_id})(으)로의 연결을 확인합니다. Ping할 수 없는 경우 WAN 연결이 끊기는지 확인합니다. |
3.2.0 |
GM-GM 동기화 주의 | 중형 | global-manager | 활성 글로벌 관리자에서 대기 글로벌 관리자로 동기화할 수 없습니다. |
ping을 통해 글로벌 관리자 {from_gm_path}({site_id})에서 글로벌 관리자 {to_gm_path}({remote_site_id})(으)로의 연결을 확인합니다. |
3.2.0 |
GM-GM 동기화 오류 | 높음 | global-manager | 활성 글로벌 관리자에서 대기 글로벌 관리자로 5분 넘게 동기화할 수 없습니다. |
ping을 통해 글로벌 관리자 {from_gm_path}({site_id})에서 글로벌 관리자 {to_gm_path}({remote_site_id})(으)로의 연결을 확인합니다. |
3.2.0 |
GM-LM 동기화 주의 | 중형 | global-manager, manager | GM(글로벌 관리자)과 LM(로컬 관리자) 간의 데이터 동기화가 실패했습니다. |
1. ping을 통해 원격 사이트와 로컬 사이트 간의 네트워크 연결을 확인합니다. |
3.2.0 |
GM-LM 동기화 오류 | 높음 | global-manager, manager | GM(글로벌 관리자)과 LM(로컬 관리자) 간의 데이터 동기화가 장기간 실패했습니다. |
1. ping을 통해 원격 사이트와 로컬 사이트 간의 네트워크 연결을 확인합니다. |
3.2.0 |
대기열 점유율 임계값 초과 | 중형 | manager, global-manager | 대기열 점유 크기 임계값이 주의를 초과했습니다. |
원격 사이트 또는 오버로드된 시스템과의 통신 문제로 인해 대기열 크기가 임계값을 초과할 수 있습니다. 시스템 성능 및 /var/log/async-replicator/ar.log를 확인하여 보고된 오류가 있는지 알아보십시오. |
3.2.0 |
GM-LM 지연 시간 주의 | 중형 | global-manager, manager | 글로벌 관리자와 로컬 관리자 간 지연 시간이 2분 넘게 예상보다 높았습니다. |
1. ping을 통해 원격 사이트와 로컬 사이트 간의 네트워크 연결을 확인합니다. |
3.2.0 |
구성 가져오기를 진행하는 동안 LM 복원 | 높음 | global-manager | 글로벌 관리자에서 구성 가져오기를 진행하는 동안 로컬 관리자가 복원됩니다. |
1. NSX Global Manager 장치 CLI에 로그인합니다. |
3.2.0 |
게이트웨이 방화벽 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
IP 흐름 수가 높음 | 중형 | edge, public-cloud-gateway | IP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. |
Edge 노드에서 admin 사용자로 로그인하고 적절한 인터페이스 uuid를 사용하여 NSX CLI 명령 get firewall <LR_INT_UUID> interface stats | json을 호출한 후 IP 흐름에 대한 흐름 테이블 사용량을 확인합니다. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다. |
3.1.3 |
IP 흐름 수를 초과함 | 위험 | edge, public-cloud-gateway | IP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블이 설정된 임계값을 초과했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. |
Edge 노드에서 admin 사용자로 로그인하고 적절한 인터페이스 uuid를 사용하여 NSX CLI 명령 get firewall <LR_INT_UUID> interface stats | json을 호출한 후 IP 흐름에 대한 흐름 테이블 사용량을 확인합니다. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다. |
3.1.3 |
UDP 흐름 수가 높음 | 중형 | edge, public-cloud-gateway | UDP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. |
Edge 노드에서 admin 사용자로 로그인하고 적절한 인터페이스 uuid를 사용하여 NSX CLI 명령 get firewall <LR_INT_UUID> interface stats | json을 호출한 후 UDP 흐름에 대한 흐름 테이블 사용량을 확인합니다. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다. |
3.1.3 |
UDP 흐름 수를 초과함 | 위험 | edge, public-cloud-gateway | UDP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블이 설정된 임계값을 초과했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. |
Edge 노드에서 admin 사용자로 로그인하고 적절한 인터페이스 uuid를 사용하여 NSX CLI 명령 get firewall <LR_INT_UUID> interface stats | json을 호출한 후 UDP 흐름에 대한 흐름 테이블 사용량을 확인합니다. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다. |
3.1.3 |
ICMP 흐름 수가 높음 | 중형 | edge, public-cloud-gateway | ICMP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. |
Edge 노드에서 admin 사용자로 로그인하고 적절한 인터페이스 uuid를 사용하여 NSX CLI 명령 get firewall <LR_INT_UUID> interface stats | json을 호출한 후 ICMP 흐름에 대한 흐름 테이블 사용량을 확인합니다. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다. |
3.1.3 |
ICMP 흐름 수를 초과함 | 위험 | edge, public-cloud-gateway | ICMP 트래픽에 대한 게이트웨이 방화벽 흐름 테이블이 설정된 임계값을 초과했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. |
Edge 노드에서 admin 사용자로 로그인하고 적절한 인터페이스 uuid를 사용하여 NSX CLI 명령 get firewall <LR_INT_UUID> interface stats | json을 호출한 후 ICMP 흐름에 대한 흐름 테이블 사용량을 확인합니다. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다. |
3.1.3 |
TCP 절반 개방 흐름 수가 높음 | 중형 | edge, public-cloud-gateway | TCP 절반 개방 트래픽에 대한 게이트웨이 방화벽 흐름 테이블 사용량이 높습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. |
Edge 노드에서 admin 사용자로 로그인하고 적절한 인터페이스 uuid를 사용하여 NSX CLI 명령 get firewall <LR_INT_UUID> interface stats | json을 호출한 후 TCP 절반 개방 흐름에 대한 흐름 테이블 사용량을 확인합니다. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다. |
3.1.3 |
TCP 절반 개방 흐름 수를 초과함 | 위험 | edge, public-cloud-gateway | TCP 절반 개방 트래픽에 대한 게이트웨이 방화벽 흐름 테이블이 설정된 임계값을 초과했습니다. 사용량이 최대 제한에 도달하면 게이트웨이 방화벽에 의해 새 흐름이 삭제됩니다. |
Edge 노드에서 admin 사용자로 로그인하고 적절한 인터페이스 uuid를 사용하여 NSX CLI 명령 get firewall <LR_INT_UUID> interface stats | json을 호출한 후 TCP 절반 개방 흐름에 대한 흐름 테이블 사용량을 확인합니다. 게이트웨이를 통과하는 트래픽 흐름이 DOS 공격 또는 비정상 버스트가 아닌지 확인합니다. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 경보 임계값을 늘리거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다. |
3.1.3 |
그룹 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
그룹 크기 제한이 초과됨 | 중형 | manager | 전송된 그룹 요소의 총 수가 최대 제한을 초과했습니다. |
1. 크기가 초과한 그룹 {group_id}에서 그룹 요소를 조정하는 것이 좋습니다. |
4.1.0 |
고가용성 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
Tier0 게이트웨이 페일오버 | 높음 | edge, autonomous-edge, public-cloud-gateway | Tier0 게이트웨이가 페일오버되었습니다. |
NSX CLI 명령 get logical-router <service_router_id>를 호출하여 Tier0 service-router vrf ID를 식별합니다. vrf <vrf-id>를 호출하여 vrf 컨텍스트로 전환한 후 get high-availability status를 호출하여 종료된 서비스를 확인합니다. |
3.0.0 |
Tier1 게이트웨이 페일오버 | 높음 | edge, autonomous-edge, public-cloud-gateway | Tier1 게이트웨이가 페일오버되었습니다. |
NSX CLI 명령 get logical-router <service_router_id>를 호출하여 Tier1 service-router vrf ID를 식별합니다. vrf <vrf-id>를 호출하여 vrf 컨텍스트로 전환한 후 get high-availability status를 호출하여 종료된 서비스를 확인합니다. |
3.0.0 |
Tier0 서비스 그룹 페일오버 | 높음 | edge, public-cloud-gateway | 서비스 그룹에 활성 인스턴스가 없습니다. |
NSX CLI 명령 get logical-router <service_router_id> service_group을 호출하여 지정된 service-router 아래에 구성된 모든 서비스 그룹을 확인합니다. 출력에서 서비스 그룹이 활성 상태를 벗어나는 이유를 검토하십시오. |
4.0.1 |
Tier1 서비스 그룹 페일오버 | 높음 | edge, public-cloud-gateway | 서비스 그룹에 활성 인스턴스가 없습니다. |
NSX CLI 명령 get logical-router <service_router_id> service_group을 호출하여 지정된 service-router 아래에 구성된 모든 서비스 그룹을 확인합니다. 출력에서 서비스 그룹이 활성 상태를 벗어나는 이유를 검토하십시오. |
4.0.1 |
Tier0 서비스 그룹 감소된 이중화 | 중형 | edge, public-cloud-gateway | 서비스 그룹의 대기 인스턴스가 실패했습니다. |
NSX CLI 명령 get logical-router <service_router_id> service_group을 호출하여 지정된 service-router 아래에 구성된 모든 서비스 그룹을 확인합니다. 출력을 검토하여 이전에 대기한 서비스 그룹에 대한 실패 이유를 확인하십시오. |
4.0.1 |
Tier1 서비스 그룹 감소된 이중화 | 중형 | edge, public-cloud-gateway | 서비스 그룹의 대기 인스턴스가 실패했습니다. |
NSX CLI 명령 get logical-router <service_router_id> service_group을 호출하여 지정된 service-router 아래에 구성된 모든 서비스 그룹을 확인합니다. 출력을 검토하여 이전에 대기한 서비스 그룹에 대한 실패 이유를 확인하십시오. |
4.0.1 |
ID 방화벽 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
LDAP 서버에 대한 연결이 끊어짐 | 위험 | manager | LDAP 서버에 대한 연결이 끊어졌습니다. |
다음을 확인하십시오. |
3.1.0 |
델타 동기화 오류 | 위험 | manager | 델타 동기화를 수행하는 동안 오류가 발생했습니다. |
1. LDAP 서버에 대한 연결이 끊어졌다는 경보가 있는지 확인합니다. |
3.1.0 |
인프라 통신 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
Edge-터널 종료 | 위험 | edge, public-cloud-gateway | Edge 노드의 터널 상태가 종료입니다. |
NSX CLI 명령 get tunnel-ports를 호출하여 모든 터널 포트를 가져오고, NSX CLI 명령 get tunnel-port <UUID> stats를 호출하여 삭제가 발생했는지 각 터널 통계를 확인합니다. 또한 터널 관련 오류가 있는지 /var/log/syslog를 확인합니다. |
3.0.0 |
인프라 서비스 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
DPU에서 서비스 상태 알 수 없음 | 위험 | dpu | DPU에 대한 서비스의 상태가 비정상입니다. |
/etc/init.d/{service_name} status를 호출하여 DPU {dpu_id}에서 {service_name} 서비스가 계속 실행되고 있는지 확인하십시오. 서비스가 실행 중으로 보고되면 /etc/init.d/{service_name} restart로 수행할 수 있는 작업을 다시 시작해야 할 수 있습니다. status 명령을 다시 실행하여 서비스가 현재 실행되고 있는지 확인합니다. 서비스를 다시 시작해도 문제가 해결되지 않거나 성공적으로 다시 시작한 후에도 문제가 발생하면 VMware 지원 서비스에 문의하십시오. |
4.0.0 |
서비스 상태를 알 수 없음 | 위험 | esx, kvm, bms, edge, manager, public-cloud-gateway, global-manager | 서비스 상태가 비정상입니다. |
/etc/init.d/{service_name} status를 호출하여 {service_name} 서비스가 계속 실행되고 있는지 확인하십시오. 서비스가 실행 중으로 보고되면 /etc/init.d/{service_name} restart로 수행할 수 있는 작업을 다시 시작해야 할 수 있습니다. status 명령을 다시 실행하여 서비스가 현재 실행되고 있는지 확인합니다. /etc/init.d/{service_name} 스크립트를 사용할 수 없는 경우 systemctl {service_name} status를 호출하고 루트 사용 권한으로 systemctl {service_name} restart를 호출하여 다시 시작하십시오. 서비스를 다시 시작해도 문제가 해결되지 않거나 성공적으로 다시 시작한 후에도 문제가 발생하면 VMware 지원 서비스에 문의하십시오. |
3.1.0 |
메트릭 전송 실패 | 위험 | esx, bms, edge, manager, public-cloud-gateway, global-manager | 지정된 대상에 메트릭을 전달하지 못했습니다. |
사용자는 실패를 유발하는 문제를 제외하기 위해 다음 검사를 수행해야 합니다. 1. 연결을 위해 전달된 대상 주소 {metrics_target_address} 및 포트 {metrics_target_port}(포트가 지정되지 않은 경우 기본값은 443)이 예상된 대상인지 확인합니다. 2. /opt/vmware/nsx-nestdb/bin/nestdb-cli --cmd 'put vmware.nsx.nestdb.CommonAgentHostConfigMsg'를 사용하여 인증서가 올바른지 확인합니다. 3. 대상 {metrics_target_address}에 연결할 수 있는지 확인합니다. 4. docker ps | grep metrics_manager를 실행하여 대상 {metrics_target_address}의 메트릭 관리자가 실행 중인지 확인합니다. 5. 대상에서 netstat -a | grep {metrics_target_port}(으)로 포트 {metrics_target_port}이(가) 열려 있는지 확인합니다. 6. iptables -S OUTPUT | grep {metrics_target_port}(EDGE/UA) 또는 localcli network firewall ruleset list | grep nsx-sha-tsdb(ESX)로 노드에서 ALLOW 방화벽 규칙이 설치되어 있는지 확인합니다. 7. SHA 데몬을 다시 시작하여 /etc/init.d/netopa restart(ESX), /etc/init.d/nsx-netopa restart(EDGE) 또는 /etc/init.d/nsx-sha restart(UA)로 해결할 수 있는지 확인합니다. |
4.1.0 |
Edge 서비스 상태 종료 | 위험 | edge, autonomous-edge, public-cloud-gateway | Edge 서비스가 최소 1분 동안 종료되었습니다. |
Edge 노드에서 /var/log/core 디렉토리에서 코어 파일을 찾아 오류 때문에 서비스가 종료되지 않았는지 확인합니다. 또한 NSX CLI 명령 get services를 호출하여 서비스가 중지되었는지 확인합니다. 이 경우 start service <service-name>을 호출하여 서비스를 다시 시작합니다. |
3.0.0 |
Edge 서비스 상태 변경됨 | 중형 | edge, autonomous-edge, public-cloud-gateway | Edge 서비스 상태가 변경되었습니다. |
Edge 노드에서 /var/log/core 디렉토리에서 코어 파일을 찾아 오류 때문에 서비스가 종료되지 않았는지 확인합니다. 또한 NSX CLI 명령 get services를 호출하여 서비스가 중지되었는지 확인합니다. 이 경우 start service <service-name>을 호출하여 서비스를 다시 시작합니다. |
3.0.0 |
애플리케이션이 충돌함 | 위험 | global-manager, autonomous-edge, bms, edge, esx, kvm, manager, public-cloud-gateway | 애플리케이션이 충돌하고 코어 덤프를 생성했습니다. |
NSX Manager UI 또는 API를 사용하여 NSX 노드 {node_display_or_host_name}에 대한 지원 번들을 수집합니다. 참고로, 노드에서 로컬 복사본을 제거하거나 보존하기 위해 NSX 기술 지원 번들로 이동하거나 복사하도록 코어 덤프를 설정할 수 있습니다. 코어 덤프 파일이 포함된 지원 번들 복사본은 VMware 지원 팀이 문제를 해결하는 데 필수적입니다. 시스템에서 코어 덤프 파일을 제거하기 전에 코어 덤프 파일을 포함한 최신 기술 지원 번들 복사본을 저장하는 것이 가장 좋습니다. 자세한 내용은 KB 문서를 참조하십시오. |
4.0.0 |
Intelligence 통신 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
TN 흐름 내보내기 프로그램이 연결 해제됨 | 높음 | esx, kvm, bms | 전송 노드가 해당 Intelligence 노드의 메시징 브로커에서 연결이 끊어졌습니다. 데이터 수집이 영향을 받습니다. |
메시징 서비스가 Intelligence 노드에서 실행되고 있지 않은 경우 다시 시작합니다. 전송 노드 흐름 내보내기와 Intelligence 노드 간의 네트워크 연결 실패를 해결합니다. |
3.0.0 |
Intelligence 상태 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
CPU 사용량이 매우 높음 | 위험 | manager, intelligence | Intelligence 노드 CPU 사용량이 매우 높습니다. |
top 명령을 사용하여 CPU 사용량이 가장 많은 프로세스를 확인한 다음, /var/log/syslog 및 이러한 프로세스의 로컬 로그를 확인하여 해결되지 않은 오류가 있는지 확인합니다. |
3.0.0 |
CPU 사용량이 높음 | 중형 | manager, intelligence | Intelligence 노드 CPU 사용량이 높습니다. |
top 명령을 사용하여 CPU 사용량이 가장 많은 프로세스를 확인한 다음, /var/log/syslog 및 이러한 프로세스의 로컬 로그를 확인하여 해결되지 않은 오류가 있는지 확인합니다. |
3.0.0 |
메모리 사용량이 매우 높음 | 위험 | manager, intelligence | Intelligence 노드 메모리 사용량이 매우 높습니다. |
top 명령을 사용하여 메모리 사용량이 가장 많은 프로세스를 확인한 다음, /var/log/syslog 및 이러한 프로세스의 로컬 로그를 확인하여 해결되지 않은 오류가 있는지 확인합니다. |
3.0.0 |
메모리 사용량이 높음 | 중형 | manager, intelligence | Intelligence 노드 메모리 사용량이 높습니다. |
top 명령을 사용하여 메모리 사용량이 가장 많은 프로세스를 확인한 다음, /var/log/syslog 및 이러한 프로세스의 로컬 로그를 확인하여 해결되지 않은 오류가 있는지 확인합니다. |
3.0.0 |
디스크 사용량이 매우 높음 | 위험 | manager, intelligence | Intelligence 노드 디스크 사용량이 매우 높습니다. |
디스크 파티션 {disk_partition_name}을(를) 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
3.0.0 |
디스크 사용량이 높음 | 중형 | manager, intelligence | Intelligence 노드 디스크 사용량이 높습니다. |
디스크 파티션 {disk_partition_name}을(를) 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
3.0.0 |
데이터 디스크 파티션 사용량이 매우 높음 | 위험 | manager, intelligence | Intelligence 노드 데이터 디스크 파티션 사용량이 매우 높습니다. |
디스크 사용량이 임계값보다 낮아질 때까지 NSX intelligence 데이터 수집을 중지합니다. NSX UI에서 [시스템] | [장치] | [NSX Intelligence 장치]로 이동합니다. 그런 다음, [작업]을 클릭하고 데이터 수집을 중지합니다. |
3.0.0 |
데이터 디스크 파티션 사용량이 높음 | 중형 | manager, intelligence | Intelligence 노드 데이터 디스크 파티션 사용량이 높습니다. |
디스크 사용량이 임계값보다 낮아질 때까지 NSX intelligence 데이터 수집을 중지합니다. 디스크 파티션 /data를 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
3.0.0 |
스토리지 지연 시간이 김 | 중형 | manager, intelligence | Intelligence 노드 스토리지 지연 시간이 높습니다. |
I/O 요청의 폭발적 증가로 인해 일시적으로 높은 스토리지 지연 시간이 발생할 수 있습니다. 스토리지 지연 시간이 30분 넘게 높게 유지되는 경우에는 NSX Intelligence 장치를 낮은 지연 시간 디스크에 배포하거나 동일한 스토리지 디바이스를 다른 VM과 공유하지 않는 것이 좋습니다. |
3.1.0 |
노드 상태 성능 저하 | 높음 | manager, intelligence | Intelligence 노드 상태가 저하됨입니다. |
NSX API GET /napp/api/v1/platform/monitor/category/health를 호출하여 종료된 특정 포드와 그 이유를 확인합니다. CLI 명령 kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>를 호출하여 성능이 저하된 서비스를 다시 시작합니다. |
3.0.0 |
IPAM 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
IP 블록 사용량이 매우 높음 | 중형 | manager | IP 블록 사용량이 매우 높습니다. |
IP 블록 사용량을 검토합니다. 리소스 생성을 위해 새 IP 블록을 사용하거나 사용하지 않는 IP 서브넷을 IP 블록에서 삭제합니다. IP 블록에 사용되는 서브넷을 확인하려면 다음을 수행합니다. NSX UI에서 [네트워킹] | [IP 주소 풀] | [IP 주소 풀] 탭으로 이동합니다. IP 블록이 사용되고 있는 IP 풀을 선택하고 UI에서 [서브넷 및 할당된 IP] 열을 선택합니다. IP 풀에 대해 할당이 사용되지 않으며 향후 사용하지 않을 예정이면 서브넷 또는 IP 풀을 삭제합니다. 다음 API를 사용하여 IP 풀에서 IP 블록을 사용하고 있는지 확인하고 IP 할당이 완료되었는지도 확인합니다. IP 풀의 구성된 서브넷을 가져오려면 NSX API GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-subnets를 호출합니다. IP 할당을 가져오려면 NSX API GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations를 호출합니다. 참고: 할당된 IP가 없고 향후 사용할 계획이 없는 IP 풀/서브넷만 삭제해야 합니다. |
3.1.2 |
IP 풀 사용량이 매우 높음 | 중형 | manager | IP 풀 사용량이 매우 높습니다. |
IP 풀 사용량을 검토합니다. 사용되지 않는 IP 할당을 IP 풀에서 해제하거나 새 IP 풀을 생성한 후 이를 사용할 수 있습니다. NSX UI에서 [네트워킹] | [IP 주소 풀] | [IP 주소 풀] 탭으로 이동합니다. IP 풀을 선택하고 [할당된 IP] 열을 확인합니다. 여기에는 IP 풀에서 할당된 IP가 표시됩니다. 어떤 IP도 사용되고 있지 않은 것으로 나타나면 해당 IP를 해제할 수 있습니다. 사용하지 않은 IP를 해제하려면 다음을 호출합니다. NSX API DELETE /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations/<ip-allocation> |
3.1.2 |
라이센스 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
라이센스 만료됨 | 위험 | global-manager, manager | 라이센스가 만료되었습니다. |
[시스템] | [라이센스]로 이동한 후 [추가]를 클릭하여 NSX UI를 사용하여 만료되지 않은 새 라이센스를 추가하고 새 라이센스의 키를 지정합니다. 라이센스의 확인란을 선택하고 [삭제]를 클릭하여 만료된 라이센스를 삭제해야 합니다. |
3.0.0 |
라이센스가 곧 만료됩니다. | 중형 | global-manager, manager | 라이센스가 곧 만료됩니다. |
며칠 후에 라이센스가 만료될 예정입니다. [시스템] | [라이센스]로 이동한 후 [추가]를 클릭하여 NSX UI를 사용하여 만료될 예정이 아닌 새 라이센스를 추가하고 새 라이센스의 키를 지정합니다. 라이센스의 확인란을 선택하고 [삭제]를 클릭하여 만료된 라이센스를 삭제해야 합니다. |
3.0.0 |
로드 밸런서 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
LB CPU가 매우 높음 | 중형 | Edge | 로드 밸런서 CPU 사용량이 매우 높습니다. |
로드 밸런서 CPU 활용률이 시스템 사용량 임계값보다 높은 경우 이 로드 밸런서에 비해 워크로드가 너무 높은 것입니다. 로드 밸런서 크기를 소형에서 중형으로 또는 중형에서 대형으로 변경하여 로드 밸런서 서비스의 크기를 다시 조정합니다. 이 로드 밸런서의 CPU 활용률이 여전히 높은 경우에는 해당 워크로드에 대한 Edge 장치 폼 팩터 크기를 조정하거나 로드 밸런서 서비스를 다른 Edge 노드로 이동하는 것이 좋습니다. |
3.0.0 |
LB 상태 성능 저하됨 | 중형 | manager | 로드 밸런서 서비스가 성능 저하됨 상태입니다. |
중앙 집중식 로드 밸런서의 경우: 성능 저하됨 상태는 대기 Edge 노드의 로드 밸런서 상태가 준비되지 않은 것을 의미하므로 대기 Edge 노드에서 로드 밸런서 상태를 확인합니다. 대기 Edge 노드에서 NSX CLI 명령 get load-balancer <lb-uuid> status를 호출합니다. 로드 밸런서 서비스의 LB-State가 not_ready이거나 출력이 없는 경우 Edge 노드를 유지 보수 모드로 전환했다가 유지 보수 모드를 종료합니다. 분산 로드 밸런서: |
3.1.2 |
DLB 상태 종료 | 위험 | manager | 분산 로드 밸런서 서비스가 종료되었습니다. |
ESXi 호스트 노드에서 NSX CLI 명령 `get load-balancer <lb-uuid> status`를 호출합니다. ‘충돌하는 LSP’가 보고되는 경우 이 LSP가 다른 로드 밸런서 서비스에 연결되어 있는지를 확인합니다. 이 충돌이 허용 가능한지 여부를 확인합니다. ‘준비되지 않은 LSP’가 보고되면 NSX CLI 명령 get logical-switch-port status를 호출하여 이 LSP의 상태를 확인합니다. |
3.1.2 |
LB 상태 종료 | 위험 | Edge | 중앙 로드 밸런서 서비스가 종료되었습니다. |
활성 Edge 노드에서 NSX CLI 명령 get load-balancer <lb-uuid> status를 호출하여 로드 밸런서 상태를 검사합니다. 로드 밸런서 서비스의 LB-State가 not_ready이거나 출력이 없는 경우 Edge 노드를 유지 보수 모드로 전환했다가 유지 보수 모드를 종료합니다. |
3.0.0 |
가상 서버 상태 종료 | 중형 | Edge | 로드 밸런서 가상 서비스가 종료되었습니다. |
로드 밸런서 풀을 참조하여 상태를 확인하고 해당 구성을 검토합니다. 잘못 구성된 경우 재구성하고 가상 서버에서 로드 밸런서 풀을 제거한 다음, 가상 서버에 다시 추가합니다. |
3.0.0 |
풀 상태 종료 | 중형 | Edge | 로드 밸런서 풀이 종료되었습니다. |
로드 밸런서 풀을 참조하여 NSX CLI 명령 get load-balancer <lb-uuid> pool <pool-uuid> status 또는 NSX API GET /policy/api/v1/infra/lb-services/<lb-service-id>/lb-pools/<lb-pool-id>/detailed-status를 호출하여 종료된 멤버를 확인합니다. 종료 또는 알 수 없음이 보고되는 경우 풀 멤버를 확인하십시오. 로드 밸런서에서 영향을 받는 풀 멤버로의 네트워크 연결을 확인합니다. 각 풀 멤버의 애플리케이션 상태를 확인합니다. 또한 구성된 모니터를 사용하여 각 풀 멤버의 상태를 확인합니다. 멤버의 상태가 설정되면 모니터의 ‘상승 카운트’ 구성에 따라 풀 멤버 상태가 정상으로 업데이트됩니다. 풀 멤버를 재부팅하거나 Edge 노드를 유지 보수 모드로 전환한 다음, 유지 보수 모드를 종료하여 문제를 해결합니다. |
3.0.0 |
사용 중인 LB Edge 용량이 높음 | 중형 | Edge | 로드 밸런서 사용량이 많습니다. |
이 Edge 노드에 여러 LB 인스턴스가 구성된 경우 새 Edge 노드를 배포하고 일부 LB 인스턴스를 해당 새 Edge 노드로 이동합니다. 동일한 크기(소형/중형/기타)의 Edge 노드에 단일 LB 인스턴스(소형/중형/기타)만 구성된 경우 더 큰 크기의 새 Edge를 배포하고 LB 인스턴스를 새 Edge 노드로 이동합니다. |
3.1.2 |
사용 중인 LB 풀 멤버 용량이 매우 높음 | 위험 | Edge | 로드 밸런서 풀 멤버 사용량이 매우 많습니다. |
새 Edge 노드를 배포하고 기존 Edge 노드의 로드 밸런서 서비스를 새로 배포한 Edge 노드로 이동합니다. |
3.1.2 |
메모리 부족으로 인해 로드 밸런싱 구성이 인식되지 않음 | 중형 | Edge | Edge 노드의 메모리 사용량이 높기 때문에 로드 밸런서 구성이 인식되지 않습니다. |
대형 로드 밸런서보다 소형 및 중형 로드 밸런서를 정의하는 것이 좋습니다. 사용 가능한 Edge 노드 간에 로드 밸런서 서비스를 분산합니다. 정의된 가상 서버 수를 줄입니다. |
3.2.0 |
맬웨어 차단 상태 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
서비스 상태 종료 | 높음 | manager | 서비스 상태가 종료입니다. |
1. {nsx_edge_tn_name}(으)로 식별된 Edge 노드에서 NSX CLI get services를 호출하여 {mps_service_name}의 상태를 확인합니다. /var/log/syslog를 검사하여 의심스러운 오류를 찾습니다. |
4.0.1 |
파일 추출 서비스에 연결할 수 없음 | 높음 | manager | 서비스 상태가 성능 저하됨입니다. |
1. {nsx_edge_tn_name}(으)로 식별된 Edge 노드에서 NSX CLI get ids engine status를 호출하여 file_extraction(IDS) 서비스의 상태를 확인합니다. /var/log/syslog를 검사하여 파일 추출(IDS) 서비스 및/또는 {mps_service_name}에 대한 의심스러운 오류를 찾습니다. |
4.0.1 |
데이터베이스에 연결할 수 없음 | 높음 | manager | 서비스 상태가 성능 저하됨입니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동하여 성능 저하된 서비스를 확인합니다. NSX API GET /napp/api/v1/platform/monitor/feature/health를 호출하여 종료된 특정 서비스와 그 이유를 확인합니다. CLI 명령 kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>를 호출하여 성능이 저하된 서비스를 다시 시작합니다. 맬웨어 차단 데이터베이스 서비스의 상태를 확인합니다. |
4.0.1 |
분석 API 서비스에 연결할 수 없음 | 높음 | manager | 서비스 상태가 성능 저하됨입니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동하여 성능 저하된 서비스를 확인합니다. NSX API GET /napp/api/v1/platform/monitor/feature/health를 호출하여 종료된 특정 서비스와 그 이유를 확인합니다. CLI 명령 kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>를 호출하여 성능이 저하된 서비스를 다시 시작합니다. 맬웨어 차단 Cloud Connector 서비스의 상태를 확인합니다. |
4.0.1 |
NTICS 신뢰도 서비스에 연결할 수 없음 | 높음 | manager | 서비스 상태가 성능 저하됨입니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동하여 성능 저하된 서비스를 확인합니다. NSX API GET /napp/api/v1/platform/monitor/feature/health를 호출하여 종료된 특정 서비스와 그 이유를 확인합니다. CLI 명령 kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>를 호출하여 성능이 저하된 서비스를 다시 시작합니다. NTICS 서비스에 대한 액세스가 종료되는지 확인합니다. |
4.1.0 |
관리자 상태 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
Manager CPU 사용량이 매우 높음 | 위험 | global-manager, manager | 관리자 노드 CPU 사용량이 매우 높습니다. |
이 관리자 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 관리자 장치 폼 팩터 크기를 조정하는 것이 좋습니다. |
3.0.0 |
Manager CPU 사용량이 높음 | 중형 | global-manager, manager | 관리자 노드 CPU 사용량이 높습니다. |
이 관리자 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 관리자 장치 폼 팩터 크기를 조정하는 것이 좋습니다. |
3.0.0 |
Manager 메모리 사용량이 매우 높음 | 위험 | global-manager, manager | 관리자 노드 메모리 사용량이 매우 높습니다. |
이 관리자 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 관리자 장치 폼 팩터 크기를 조정하는 것이 좋습니다. |
3.0.0 |
Manager 메모리 사용량이 높음 | 중형 | global-manager, manager | 관리자 노드 메모리 사용량이 높습니다. |
이 관리자 노드의 구성, 실행 중인 서비스 및 크기 조정을 검토하십시오. 관리자 장치 폼 팩터 크기를 조정하는 것이 좋습니다. |
3.0.0 |
Manager 디스크 사용량이 매우 높음 | 위험 | global-manager, manager | 관리자 노드 디스크 사용량이 매우 높습니다. |
사용량이 많은 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
3.0.0 |
Manager 디스크 사용량이 높음 | 중형 | global-manager, manager | 관리자 노드 디스크 사용량이 높습니다. |
사용량이 많은 파티션을 검사하고 제거할 수 있는 예기치 않은 큰 파일이 있는지 확인합니다. |
3.0.0 |
Manager 구성 디스크 사용량이 매우 높음 | 위험 | global-manager, manager | 관리자 노드 구성 디스크 사용량이 매우 높습니다. |
/opt/vmware/tools/support/inspect_checkpoint_issues.py에서 보고된 문제가 있는 경우 다음 도구를 실행하고 GSS에 문의하십시오. |
3.0.0 |
Manager 구성 디스크 사용량이 높음 | 중형 | global-manager, manager | 관리자 노드 구성 디스크 사용량이 높습니다. |
/opt/vmware/tools/support/inspect_checkpoint_issues.py에서 보고된 문제가 있는 경우 다음 도구를 실행하고 GSS에 문의하십시오. |
3.0.0 |
작업 DB 디스크 사용량이 매우 높음 | 위험 | manager | 관리자 노드 구성 디스크 사용량이 매우 높습니다. |
/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig에서 보고된 문제가 있는 경우 다음 도구를 실행하고 GSS에 문의하십시오. |
3.0.1 |
작업 DB 디스크 사용량이 높음 | 중형 | manager | 관리자 노드 구성 디스크 사용량이 높습니다. |
/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig에서 보고된 문제가 있는 경우 다음 도구를 실행하고 GSS에 문의하십시오. |
3.0.1 |
IP 주소가 복제됨 | 중형 | manager | 관리자 노드의 IP 주소를 다른 디바이스에서 사용하고 있습니다. |
1. 관리자의 IP 주소를 사용하는 디바이스를 확인하고 디바이스에 새 IP 주소를 할당합니다. 참고: 새 IP 주소를 사용하도록 관리자를 재구성하는 것은 지원되지 않습니다. |
3.0.0 |
스토리지 오류 | 위험 | global-manager, manager | 관리자 노드 디스크는 읽기 전용입니다. |
읽기 전용 파티션을 검토하여 재부팅으로 문제가 해결되었는지 또는 디스크를 교체해야 하는지 확인합니다. 자세한 내용은 GSS에 문의하십시오. |
3.0.2 |
관리자 FQDN에 대한 DNS 항목 누락 | 위험 | global-manager, manager | 관리자 FQDN에 대한 DNS 항목이 없습니다. |
1. 관리자 노드에 적절한 DNS 서버가 구성되어 있는지 확인합니다. |
4.1.0 |
VIP FQDN에 대한 DNS 항목 누락 | 위험 | manager | 관리자 VIP에 대한 FQDN 항목이 누락되었습니다. |
VIP 주소에 대한 DNS 항목을 검토하여 동일한 FQDN으로 확인되는지 알아봅니다. |
4.1.0 |
MTU 검사 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
전송 영역 내에 MTU 불일치 | 높음 | manager | 동일한 전송 영역에 연결된 전송 노드 간에 MTU 구성이 일치하지 않습니다. |
1. NSX UI에서 [시스템] | [패브릭] | [설정] | [MTU 구성 확인] | [불일치]로 이동하여 불일치 세부 정보를 확인합니다. |
3.2.0 |
글로벌 라우터 MTU가 너무 큼 | 중형 | manager | 글로벌 라우터 MTU 구성이 오버레이 전송 영역의 MTU보다 큽니다. |
1. NSX UI에서 [시스템] | [패브릭] | [설정] | [MTU 구성 확인] | [불일치]로 이동하여 불일치 세부 정보를 확인합니다. |
3.2.0 |
NAT 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
게이트웨이의 SNAT 포트 사용량이 높음 | 위험 | edge, public-cloud-gateway | 게이트웨이의 SNAT 포트 사용량이 높습니다. |
Edge 노드에서 admin 사용자로 로그인하고 적절한 인터페이스 uuid를 사용하여 NSX CLI 명령 get firewall <LR_INT_UUID> connection state를 호출한 후 SNAT IP {snat_ip_address}에 대한 다양한 SNAT 매핑을 확인합니다. 게이트웨이를 통과하는 트래픽 흐름이 서비스 거부 공격 또는 변칙 버스트가 아닌지 검사합니다. 트래픽이 정상 로드 내에 있는 것으로 나타나지만 경보 임계값에 도달한 경우 SNAT IP 주소를 더 추가하여 로드를 분산하거나 새 트래픽을 다른 Edge 노드로 라우팅하는 것이 좋습니다. |
3.2.0 |
NCP 상태 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
NCP 플러그인 종료 | 위험 | manager | 관리자 노드에서 NCP가 종료되었거나 비정상 상태임을 감지했습니다. |
문제가 있는 클러스터를 찾으려면 NSX UI를 사용하고 [경보] 페이지로 이동하십시오. 이 경보 인스턴스의 엔티티 이름 값은 클러스터 이름을 식별합니다. 또는 NSX API GET /api/v1/systemhealth/container-cluster/ncp/status를 호출하여 모든 클러스터 상태를 가져오고, 종료 또는 알 수 없음을 보고하는 클러스터의 이름을 확인합니다. 그런 다음, NSX UI [인벤토리] | [컨테이너] | [클러스터] 페이지에서 이름으로 클러스터를 찾고 모든 Kubernetes 및 PAS 클러스터 멤버가 나열된 [노드] 탭을 클릭합니다. Kubernetes 클러스터의 경우: |
3.0.0 |
노드 에이전트 상태 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
DPU에서 노드 에이전트 종료 | 높음 | dpu | 노드 VM 내부에서 실행 중인 에이전트가 DPU에서 종료된 듯합니다. |
1. DPU {dpu_id}에서 Vmk50이 누락된 경우 기술 자료 문서 https://kb.vmware.com/s/article/67432를 참조하십시오. |
4.0.0 |
노드 에이전트 종료 | 높음 | esx, kvm | 노드 VM 내에서 실행 중인 에이전트가 종료된 것 같습니다. |
ESX의 경우: |
3.0.0 |
NSX Application Platform 통신 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
관리자 연결 끊김 | 높음 | manager, intelligence | NSX Application Platform 클러스터와 NSX 관리 클러스터의 연결이 끊겼습니다. |
관리자 클러스터 인증서, 관리자 노드 인증서, kafka 인증서 및 수신 인증서가 NSX Manager 및 NSX Application Platform 클러스터 둘 다에서 일치하는지 확인합니다. 위에 언급된 인증서의 만료 날짜를 확인하여 인증서가 유효한지 검사합니다. NSX Manager 및 NSX Application Platform 클러스터 간의 네트워크 연결을 확인하고 네트워크 연결 실패를 해결하십시오. |
3.2.0 |
메시징 Rawflow에서 지연이 감지됨 | 위험 | manager, intelligence | 메시징 항목 Raw Flow에서 느린 데이터 처리가 감지되었습니다. |
노드를 추가한 다음, 애플리케이션 NSX Application Platform 클러스터를 수직 확장합니다. 병목 현상이 특정 서비스(예: 분석 서비스)로 인해 발생할 수 있는 경우 새 노드를 추가할 때 특정 서비스를 수직 확장하십시오. |
3.2.0 |
메시징 Overflow에서 지연이 감지됨 | 위험 | manager, intelligence | 메시징 항목 Over Flow에서 느린 데이터 처리가 감지되었습니다. |
노드를 추가한 다음, 애플리케이션 NSX Application Platform 클러스터를 수직 확장합니다. 병목 현상이 특정 서비스(예: 분석 서비스)로 인해 발생할 수 있는 경우 새 노드를 추가할 때 특정 서비스를 수직 확장하십시오. |
3.2.0 |
TN 흐름 내보내기가 연결 해제됨 | 높음 | esx, kvm, bms | 전송 노드가 해당 NSX Application Platform 클러스터의 메시징 브로커에서 연결 해제되었습니다. 데이터 수집이 영향을 받습니다. |
메시징 서비스가 NSX Application Platform 클러스터에서 실행되고 있지 않으면 다시 시작합니다. 전송 노드 흐름 내보내기와 NSX Application Platform 클러스터 간의 네트워크 연결 실패를 해결합니다. |
3.2.0 |
DPU에서 TN 흐름 내보내기가 연결 해제됨 | 높음 | dpu | 전송 노드가 해당 Intelligence 노드의 메시징 브로커에서 연결이 끊어졌습니다. DPU에서 데이터 수집이 영향을 받습니다. |
메시징 서비스가 Intelligence 노드에서 실행되고 있지 않은 경우 다시 시작합니다. 전송 노드 흐름 내보내기와 Intelligence 노드 간의 네트워크 연결 실패를 해결합니다. |
4.0.0 |
NSX Application Platform 상태 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
클러스터 CPU 사용량이 매우 높음 | 위험 | manager, intelligence | NSX Application Platform 클러스터 CPU 사용량이 매우 높습니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동한 후 개별 서비스의 [시스템 로드] 필드를 확인하여 메모리가 부족한 서비스를 확인할 수 있습니다. 로드를 줄일 수 있는지 여부를 확인합니다. 더 많은 계산 성능이 필요한 경우 [확장] 버튼을 클릭하여 더 많은 리소스를 요청하십시오. |
3.2.0 |
클러스터 CPU 사용량이 높음 | 중형 | manager, intelligence | NSX Application Platform 클러스터 CPU 사용량이 높습니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동한 후 개별 서비스의 [시스템 로드] 필드를 확인하여 메모리가 부족한 서비스를 확인할 수 있습니다. 로드를 줄일 수 있는지 여부를 확인합니다. 더 많은 계산 성능이 필요한 경우 [확장] 버튼을 클릭하여 더 많은 리소스를 요청하십시오. |
3.2.0 |
클러스터 메모리 사용량이 매우 높음 | 위험 | manager, intelligence | NSX Application Platform 클러스터 메모리 사용량이 매우 높습니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동한 후 개별 서비스의 [메모리] 필드를 확인하여 메모리가 부족한 서비스를 확인할 수 있습니다. 로드를 줄일 수 있는지 여부를 확인합니다. 더 많은 메모리가 필요한 경우 [확장] 버튼을 클릭하여 더 많은 리소스를 요청하십시오. |
3.2.0 |
클러스터 메모리 사용량이 높음 | 중형 | manager, intelligence | NSX Application Platform 클러스터 메모리 사용량이 높습니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동한 후 개별 서비스의 [메모리] 필드를 확인하여 메모리가 부족한 서비스를 확인할 수 있습니다. 로드를 줄일 수 있는지 여부를 확인합니다. 더 많은 메모리가 필요한 경우 [확장] 버튼을 클릭하여 더 많은 리소스를 요청하십시오. |
3.2.0 |
클러스터 디스크 사용량이 매우 높음 | 위험 | manager, intelligence | NSX Application Platform 클러스터 디스크 사용량이 매우 높습니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동한 후 개별 서비스의 [스토리지] 필드를 확인하여 메모리가 부족한 서비스를 확인할 수 있습니다. 로드를 줄일 수 있는지 여부를 확인합니다. 더 많은 디스크 스토리지가 필요한 경우 [확장] 버튼을 클릭하여 더 많은 리소스를 요청하십시오. Data Storage 서비스의 메모리가 부족한 경우 다른 방법은 [수직 확장] 버튼을 클릭하여 디스크 크기를 늘리는 것입니다. |
3.2.0 |
클러스터 디스크 사용량이 높음 | 중형 | manager, intelligence | NSX Application Platform 클러스터 디스크 사용량이 높습니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동한 후 개별 서비스의 [스토리지] 필드를 확인하여 메모리가 부족한 서비스를 확인할 수 있습니다. 로드를 줄일 수 있는지 여부를 확인합니다. 더 많은 디스크 스토리지가 필요한 경우 [확장] 버튼을 클릭하여 더 많은 리소스를 요청하십시오. Data Storage 서비스의 메모리가 부족한 경우 다른 방법은 [수직 확장] 버튼을 클릭하여 디스크 크기를 늘리는 것입니다. |
3.2.0 |
NAPP이 성능 저하 상태임 | 중형 | manager, intelligence | NSX Application Platform 클러스터 전체 상태가 성능 저하됨입니다. |
노드 및 서비스의 경보에서 추가 정보를 확인합니다. |
3.2.0 |
NAPP 상태 종료 | 높음 | manager, intelligence | NSX Application Platform 클러스터 전체 상태가 종료입니다. |
노드 및 서비스의 경보에서 추가 정보를 확인합니다. |
3.2.0 |
노드 CPU 사용량이 매우 높음 | 위험 | manager, intelligence | NSX Application Platform 노드 CPU 사용량이 매우 높습니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동한 후 개별 서비스의 [시스템 로드] 필드를 확인하여 메모리가 부족한 서비스를 확인할 수 있습니다. 로드를 줄일 수 있는지 여부를 확인합니다. 소수의 노드만 CPU 사용량이 높을 경우 기본적으로 Kubernetes는 서비스를 자동으로 다시 스케줄링합니다. 대부분의 노드의 CPU 사용량이 높고 로드를 줄일 수 없는 경우 [확장] 버튼을 클릭하여 더 많은 리소스를 요청합니다. |
3.2.0 |
노드 CPU 사용량이 높음 | 중형 | manager, intelligence | NSX Application Platform 노드 CPU 사용량이 높습니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동한 후 개별 서비스의 [시스템 로드] 필드를 확인하여 메모리가 부족한 서비스를 확인할 수 있습니다. 로드를 줄일 수 있는지 여부를 확인합니다. 소수의 노드만 CPU 사용량이 높을 경우 기본적으로 Kubernetes는 서비스를 자동으로 다시 스케줄링합니다. 대부분의 노드의 CPU 사용량이 높고 로드를 줄일 수 없는 경우 [확장] 버튼을 클릭하여 더 많은 리소스를 요청합니다. |
3.2.0 |
노드 메모리 사용량이 매우 높음 | 위험 | manager, intelligence | NSX Application Platform 노드 메모리 사용량이 매우 높습니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동한 후 개별 서비스의 [메모리] 필드를 확인하여 메모리가 부족한 서비스를 확인할 수 있습니다. 로드를 줄일 수 있는지 여부를 확인합니다. 소수의 노드만 메모리 사용량이 높을 경우 기본적으로 Kubernetes는 서비스를 자동으로 다시 스케줄링합니다. 대부분의 노드의 메모리 사용량이 높고 로드를 줄일 수 없는 경우 [확장] 버튼을 클릭하여 더 많은 리소스를 요청합니다. |
3.2.0 |
노드 메모리 사용량이 높음 | 중형 | manager, intelligence | NSX Application Platform 노드 메모리 사용량이 높습니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동한 후 개별 서비스의 [메모리] 필드를 확인하여 메모리가 부족한 서비스를 확인할 수 있습니다. 로드를 줄일 수 있는지 여부를 확인합니다. 소수의 노드만 메모리 사용량이 높을 경우 기본적으로 Kubernetes는 서비스를 자동으로 다시 스케줄링합니다. 대부분의 노드의 메모리 사용량이 높고 로드를 줄일 수 없는 경우 [확장] 버튼을 클릭하여 더 많은 리소스를 요청합니다. |
3.2.0 |
노드 디스크 사용량이 매우 높음 | 위험 | manager, intelligence | NSX Application Platform 노드 디스크 사용량이 매우 높습니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동한 후 개별 서비스의 [스토리지] 필드를 확인하여 메모리가 부족한 서비스를 확인할 수 있습니다. 사용되지 않는 데이터나 로그를 정리하여 디스크 리소스를 확보하고 로드가 감소할 수 있는지 확인합니다. 더 많은 디스크 스토리지가 필요한 경우 메모리 부족 상태의 서비스를 확장합니다. Data Storage 서비스의 메모리가 부족한 경우 다른 방법은 [수직 확장] 버튼을 클릭하여 디스크 크기를 늘리는 것입니다. |
3.2.0 |
노드 디스크 사용량이 높음 | 중형 | manager, intelligence | NSX Application Platform 노드 디스크 사용량이 높습니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동한 후 개별 서비스의 [스토리지] 필드를 확인하여 메모리가 부족한 서비스를 확인할 수 있습니다. 사용되지 않는 데이터나 로그를 정리하여 디스크 리소스를 확보하고 로드가 감소할 수 있는지 확인합니다. 더 많은 디스크 스토리지가 필요한 경우 메모리 부족 상태의 서비스를 확장합니다. Data Storage 서비스의 메모리가 부족한 경우 다른 방법은 [수직 확장] 버튼을 클릭하여 디스크 크기를 늘리는 것입니다. |
3.2.0 |
노드 상태 성능 저하 | 중형 | manager, intelligence | NSX Application Platform 노드 상태가 성능 저하됨입니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [리소스]로 이동하여 성능 저하된 노드를 확인합니다. 노드의 네트워크, 메모리 및 CPU 사용량을 확인합니다. 작업자 노드인 경우 노드를 재부팅합니다. |
3.2.0 |
노드 상태 종료 | 높음 | manager, intelligence | NSX Application Platform 노드 상태가 종료입니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [리소스]로 이동하여 종료된 노드를 확인합니다. 노드의 네트워크, 메모리 및 CPU 사용량을 확인합니다. 작업자 노드인 경우 노드를 재부팅합니다. |
3.2.0 |
데이터스토어 CPU 사용량이 매우 높음 | 위험 | manager, intelligence | Data Storage 서비스 CPU 사용량이 매우 높습니다. |
모든 서비스 또는 Data Storage 서비스를 확장합니다. |
3.2.0 |
데이터스토어 CPU 사용량이 높음 | 중형 | manager, intelligence | Data Storage 서비스 CPU 사용량이 높습니다. |
모든 서비스 또는 Data Storage 서비스를 확장합니다. |
3.2.0 |
메시징 CPU 사용량이 매우 높음 | 위험 | manager, intelligence | Messaging 서비스 CPU 사용량이 매우 높습니다. |
모든 서비스 또는 Messaging 서비스를 확장합니다. |
3.2.0 |
메시징 CPU 사용량이 높음 | 중형 | manager, intelligence | Messaging 서비스 CPU 사용량이 높습니다. |
모든 서비스 또는 Messaging 서비스를 확장합니다. |
3.2.0 |
구성 DB CPU 사용량이 매우 높음 | 위험 | manager, intelligence | Configuration Database 서비스 CPU 사용량이 매우 높습니다. |
모든 서비스를 확장합니다. |
3.2.0 |
구성 DB CPU 사용량이 높음 | 중형 | manager, intelligence | Configuration Database 서비스 CPU 사용량이 높습니다. |
모든 서비스를 확장합니다. |
3.2.0 |
메트릭 CPU 사용량이 매우 높음 | 위험 | manager, intelligence | 메트릭 서비스 CPU 사용량이 매우 높습니다. |
모든 서비스를 확장합니다. |
3.2.0 |
메트릭 CPU 사용량이 높음 | 중형 | manager, intelligence | 메트릭 서비스 CPU 사용량이 높습니다. |
모든 서비스를 확장합니다. |
3.2.0 |
분석 CPU 사용량이 매우 높음 | 위험 | manager, intelligence | 분석 서비스 CPU 사용량이 매우 높습니다. |
모든 서비스 또는 Analytics 서비스를 확장합니다. |
3.2.0 |
분석 CPU 사용량이 높음 | 중형 | manager, intelligence | 분석 서비스 CPU 사용량이 높습니다. |
모든 서비스 또는 Analytics 서비스를 확장합니다. |
3.2.0 |
플랫폼 CPU 사용량이 매우 높음 | 위험 | manager, intelligence | Platform Services 서비스 CPU 사용량이 매우 높습니다. |
모든 서비스를 확장합니다. |
3.2.0 |
플랫폼 CPU 사용량이 높음 | 중형 | manager, intelligence | Platform Services 서비스 CPU 사용량이 높습니다. |
모든 서비스를 확장합니다. |
3.2.0 |
데이터스토어 메모리 사용량이 매우 높음 | 위험 | manager, intelligence | Data Storage 서비스 메모리 사용량이 매우 높습니다. |
모든 서비스 또는 Data Storage 서비스를 확장합니다. |
3.2.0 |
데이터스토어 메모리 사용량이 높음 | 중형 | manager, intelligence | Data Storage 서비스 메모리 사용량이 높습니다. |
모든 서비스 또는 Data Storage 서비스를 확장합니다. |
3.2.0 |
메시징 메모리 사용량이 매우 높음 | 위험 | manager, intelligence | Messaging 서비스 메모리 사용량이 매우 높습니다. |
모든 서비스 또는 Messaging 서비스를 확장합니다. |
3.2.0 |
메시징 메모리 사용량이 높음 | 중형 | manager, intelligence | Messaging 서비스 메모리 사용량이 높습니다. |
모든 서비스 또는 Messaging 서비스를 확장합니다. |
3.2.0 |
구성 DB 메모리 사용량이 매우 높음 | 위험 | manager, intelligence | Configuration Database 서비스 메모리 사용량이 매우 높습니다. |
모든 서비스를 확장합니다. |
3.2.0 |
구성 DB 메모리 사용량이 많음 | 중형 | manager, intelligence | Configuration Database 서비스 메모리 사용량이 많습니다. |
모든 서비스를 확장합니다. |
3.2.0 |
메트릭 메모리 사용량이 매우 높음 | 위험 | manager, intelligence | 메트릭 서비스 메모리 사용량이 매우 높습니다. |
모든 서비스를 확장합니다. |
3.2.0 |
메트릭 메모리 사용량이 높음 | 중형 | manager, intelligence | 메트릭 서비스 메모리 사용량이 높습니다. |
모든 서비스를 확장합니다. |
3.2.0 |
분석 메모리 사용량이 매우 높음 | 위험 | manager, intelligence | Analytics 서비스 메모리 사용량이 매우 높습니다. |
모든 서비스 또는 Analytics 서비스를 확장합니다. |
3.2.0 |
분석 메모리 사용량이 높음 | 중형 | manager, intelligence | 분석 서비스 메모리 사용량이 높습니다. |
모든 서비스 또는 Analytics 서비스를 확장합니다. |
3.2.0 |
플랫폼 메모리 사용량이 매우 높음 | 위험 | manager, intelligence | Platform Services 서비스 메모리 사용량이 매우 높습니다. |
모든 서비스를 확장합니다. |
3.2.0 |
플랫폼 메모리 사용량이 높음 | 중형 | manager, intelligence | Platform Services 서비스 메모리 사용량이 높습니다. |
모든 서비스를 확장합니다. |
3.2.0 |
데이터스토어 디스크 사용량이 매우 높음 | 위험 | manager, intelligence | Data Storage 서비스 디스크 사용량이 매우 높습니다. |
Data Storage 서비스를 확장하거나 수직 확장합니다. |
3.2.0 |
데이터스토어 디스크 사용량이 높음 | 중형 | manager, intelligence | Data Storage 서비스 디스크 사용량이 높습니다. |
Data Storage 서비스를 확장하거나 수직 확장합니다. |
3.2.0 |
메시징 디스크 사용량이 매우 높음 | 위험 | manager, intelligence | Messaging 서비스 디스크 사용량이 매우 높습니다. |
필요하지 않은 파일을 정리합니다. 모든 서비스 또는 Messaging 서비스를 확장합니다. |
3.2.0 |
메시징 디스크 사용량이 높음 | 중형 | manager, intelligence | Messaging 서비스 디스크 사용량이 높습니다. |
필요하지 않은 파일을 정리합니다. 모든 서비스 또는 Messaging 서비스를 확장합니다. |
3.2.0 |
구성 DB 디스크 사용량이 매우 높음 | 위험 | manager, intelligence | Configuration Database 서비스 디스크 사용량이 매우 높습니다. |
필요하지 않은 파일을 정리합니다. 모든 서비스를 확장합니다. |
3.2.0 |
구성 DB 디스크 사용량이 높음 | 중형 | manager, intelligence | Configuration Database 서비스 디스크 사용량이 높습니다. |
필요하지 않은 파일을 정리합니다. 모든 서비스를 확장합니다. |
3.2.0 |
메트릭 디스크 사용량이 매우 높음 | 위험 | manager, intelligence | 메트릭 서비스 디스크 사용량이 매우 높습니다. |
필요하지 않은 파일을 정리합니다. 모든 서비스를 확장합니다. |
3.2.0 |
메트릭 디스크 사용량이 높음 | 중형 | manager, intelligence | 메트릭 서비스 디스크 사용량이 높습니다. |
필요하지 않은 파일을 정리합니다. 모든 서비스를 확장합니다. |
3.2.0 |
분석 디스크 사용량이 매우 높음 | 위험 | manager, intelligence | 분석 서비스 디스크 사용량이 매우 높습니다. |
필요하지 않은 파일을 정리합니다. 모든 서비스 또는 Analytics 서비스를 확장합니다. |
3.2.0 |
분석 디스크 사용량이 높음 | 중형 | manager, intelligence | 분석 서비스 디스크 사용량이 높습니다. |
필요하지 않은 파일을 정리합니다. 모든 서비스 또는 Analytics 서비스를 확장합니다. |
3.2.0 |
플랫폼 디스크 사용량이 매우 높음 | 위험 | manager, intelligence | Platform Services 서비스 디스크 사용량이 매우 높습니다. |
필요하지 않은 파일을 정리합니다. 모든 서비스를 확장합니다. |
3.2.0 |
플랫폼 디스크 사용량이 높음 | 중형 | manager, intelligence | Platform Services 서비스 디스크 사용량이 높습니다. |
필요하지 않은 파일을 정리합니다. 모든 서비스를 확장합니다. |
3.2.0 |
서비스 상태가 성능 저하됨 | 중형 | manager, intelligence | 서비스 상태가 성능 저하됨입니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동하여 성능 저하된 서비스를 확인합니다. NSX API GET /napp/api/v1/platform/monitor/feature/health를 호출하여 성능이 저하된 특정 서비스와 그 이유를 확인합니다. 필요한 경우 CLI 명령 kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>를 호출하여 성능이 저하된 서비스를 다시 시작합니다. 성능이 저하된 서비스가 올바르게 작동할 수 있지만 성능이 최적화되지는 않습니다. |
3.2.0 |
서비스 상태 종료 | 높음 | manager, intelligence | 서비스 상태가 종료입니다. |
NSX UI에서 [시스템] | [NSX Application Platform] | [핵심 서비스]로 이동하여 성능 저하된 서비스를 확인합니다. NSX API GET /napp/api/v1/platform/monitor/feature/health를 호출하여 종료된 특정 서비스와 그 이유를 확인합니다. CLI 명령 kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>를 호출하여 성능이 저하된 서비스를 다시 시작합니다. |
3.2.0 |
Nsxaas 상태 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
서비스 성능 저하됨 | 높음 | aas | 서비스 성능이 저하되었습니다. |
서비스가 배포되고 상태 모니터링 서비스에서 추가 데이터가 캡처된 경우 서비스를 식별하는 경보 설명 데이터를 검토합니다. 또한 해당되는 경우 메트릭 서비스 또는 Wavefront에서 기록된 기간별 데이터를 검토합니다. |
4.1.0 |
서비스 종료 | 위험 | aas | 서비스가 종료되었습니다. |
서비스가 배포되고 상태 모니터링 서비스에서 추가 데이터가 캡처된 경우 서비스를 식별하는 경보 설명 데이터를 검토합니다. 또한 해당되는 경우 메트릭 서비스 또는 Wavefront에서 기록된 기간별 데이터를 검토합니다. |
4.1.0 |
암호 관리 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
암호가 만료됨 | 위험 | global-manager, manager, edge, public-cloud-gateway | 사용자 암호가 만료되었습니다. |
시스템에 액세스하려면 사용자 {username}의 암호를 지금 변경해야 합니다. 예를 들어, 사용자에게 새 암호를 적용하려면 요청 본문에서 올바른 암호를 사용하여 다음 NSX API를 호출합니다. PUT /api/v1/node/users/<userid>. 여기서 <userid>는 사용자의 ID입니다. admin 사용자(<userid>가 10,000) 암호가 만료된 경우 admin은 암호를 변경하기 위해 SSH(사용하도록 설정된 경우) 또는 콘솔을 통해 시스템에 로그인해야 합니다. 현재 만료된 암호를 입력하면 admin에게 새 암호를 입력하라는 메시지가 표시됩니다. |
3.0.0 |
암호가 곧 만료됩니다. | 높음 | global-manager, manager, edge, public-cloud-gateway | 사용자 암호가 곧 만료됩니다. |
사용자 {username}의 암호가 즉시 변경되었는지 확인합니다. 예를 들어, 사용자에게 새 암호를 적용하려면 요청 본문에서 올바른 암호를 사용하여 다음 NSX API를 호출합니다. PUT /api/v1/node/users/<userid>. 여기서 <userid>는 사용자의 ID입니다. |
3.0.0 |
암호 만료 임박 | 중형 | global-manager, manager, edge, public-cloud-gateway | 사용자 암호가 곧 만료될 예정입니다. |
사용자 {username}의 암호를 곧 변경해야 합니다. 예를 들어, 사용자에게 새 암호를 적용하려면 요청 본문에서 올바른 암호를 사용하여 다음 NSX API를 호출합니다. PUT /api/v1/node/users/<userid>. 여기서 <userid>는 사용자의 ID입니다. |
3.0.0 |
물리적 서버 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
물리적 서버 설치 실패 | 위험 | manager | 물리적 서버(BMS) 설치에 실패했습니다. |
[시스템] > [패브릭] > [노드] > [호스트 전송 노드]로 이동하여 노드에서 오류를 해결하십시오. |
4.0.0 |
물리적 서버 업그레이드 실패 | 위험 | manager | 물리적 서버(BMS) 업그레이드에 실패했습니다. |
[시스템] > [업그레이드]로 이동하여 오류를 해결한 다음, 업그레이드를 다시 트리거하십시오. |
4.0.0 |
물리적 서버 제거 실패 | 위험 | manager | 물리적 서버(BMS) 제거에 실패했습니다. |
[시스템] > [패브릭] > [노드] > [호스트 전송 노드]로 이동하여 노드에서 오류를 해결하십시오. |
4.0.0 |
정책 제약 조건 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
생성 개수 제한에 도달함 | 중형 | manager | 엔티티 수가 정책 제약 조건 제한에 도달했습니다. |
{constraint_type} 사용량을 검토합니다. 제약 조건을 업데이트하여 제한을 늘리거나 사용되지 않은 {constraint_type}을(를) 삭제합니다. |
4.1.0 |
라우팅 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
외부 인터페이스의 BFD 종료 | 높음 | edge, autonomous-edge, public-cloud-gateway | BFD 세션이 종료되었습니다. |
1. NSX CLI 명령 get logical-routers를 호출합니다. |
3.0.0 |
고정 라우팅이 제거됨 | 높음 | edge, autonomous-edge, public-cloud-gateway | 고정 경로가 제거되었습니다. |
BFD 세션이 종료되었기 때문에 고정 라우팅 항목이 제거되었습니다. |
3.0.0 |
BGP 종료 | 높음 | edge, autonomous-edge, public-cloud-gateway | BGP 인접 네트워크가 종료되었습니다. |
1. NSX CLI 명령 get logical-routers를 호출합니다. |
3.0.0 |
서비스 IP에 대해 프록시 ARP가 구성되지 않음 | 위험 | manager | 프록시 ARP가 서비스 IP에 대해 구성되지 않았습니다. |
서비스 엔티티 {entity_id}에 대한 서비스 IP {service_ip}을(를) 재구성하거나, 서비스 IP와 lrport의 서브넷 간 겹침으로 인해 생성된 프록시 ARP 항목이 허용되는 임계값 제한인 16384보다 작게 유지되도록 라우터 {lr_id}에서 lrport {lrport_id}의 서브넷을 변경하십시오. |
3.0.3 |
라우팅 종료 | 높음 | edge, autonomous-edge, public-cloud-gateway | 모든 BGP/BFD 세션이 종료되었습니다. |
NSX CLI 명령 get logical-routers를 호출하여 Tier0 서비스 라우터를 가져오고 이 vrf로 전환한 후 다음 NSX CLI 명령을 호출합니다. |
3.0.0 |
OSPF 인접 네트워크가 종료되었습니다. | 높음 | edge, autonomous-edge, public-cloud-gateway | OSPF 인접 네트워크가 전체에서 다른 상태로 전환되었습니다. |
1. NSX CLI 명령 get logical-routers를 호출하여 vrf ID를 가져오고 TIER0 서비스 라우터로 전환합니다. |
3.1.1 |
최대 IPv4 경로 제한에 곧 도달함 | 중형 | edge, autonomous-edge, public-cloud-gateway | Edge 노드에서 최대 IPv4 경로 제한이 가까워지고 있습니다. |
1. 경로 재배포 정책 및 모든 외부 피어에서 수신된 경로를 확인하십시오. |
4.0.0 |
최대 IPv6 경로 제한에 곧 도달함 | 중형 | edge, autonomous-edge, public-cloud-gateway | Edge 노드에서 최대 IPv6 경로 제한이 가까워지고 있습니다. |
1. 경로 재배포 정책 및 모든 외부 피어에서 수신된 경로를 확인하십시오. |
4.0.0 |
최대 IPv4 경로 제한을 초과함 | 위험 | edge, autonomous-edge, public-cloud-gateway | Edge 노드에서 최대 IPv4 경로 제한을 초과했습니다. |
1. 경로 재배포 정책 및 모든 외부 피어에서 수신된 경로를 확인하십시오. |
4.0.0 |
최대 IPv6 경로 제한을 초과함 | 위험 | edge, autonomous-edge, public-cloud-gateway | Edge 노드에서 최대 IPv6 경로 제한을 초과했습니다. |
1. 경로 재배포 정책 및 모든 외부 피어에서 수신된 경로를 확인하십시오. |
4.0.0 |
BGP 인접 항목의 최대 IPv4 접두사에 곧 도달함 | 중형 | edge, autonomous-edge, public-cloud-gateway | BGP 인접 항목에서 수신된 최대 IPv4 접두사에 곧 도달합니다. |
1. 외부 라우터에서 BGP 라우팅 정책을 확인하십시오. |
4.0.0 |
BGP 인접 항목의 최대 IPv6 접두사에 곧 도달함 | 중형 | edge, autonomous-edge, public-cloud-gateway | BGP 인접 항목에서 수신된 최대 IPv6 접두사에 곧 도달합니다. |
1. 외부 라우터에서 BGP 라우팅 정책을 확인하십시오. |
4.0.0 |
BGP 인접 항목의 최대 IPv4 접두사를 초과함 | 위험 | edge, autonomous-edge, public-cloud-gateway | BGP 인접 항목에서 수신된 최대 IPv4 접두사를 초과했습니다. |
1. 외부 라우터에서 BGP 라우팅 정책을 확인하십시오. |
4.0.0 |
BGP 인접 항목의 최대 IPv6 접두사를 초과함 | 위험 | edge, autonomous-edge, public-cloud-gateway | BGP 인접 항목에서 수신된 최대 IPv6 접두사를 초과했습니다. |
1. 외부 라우터에서 BGP 라우팅 정책을 확인하십시오. |
4.0.0 |
보안 규정 준수 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
NDcPP 규정 비준수 트리거 | 위험 | manager | NSX 보안 상태가 NDcPP와 호환되지 않습니다. |
UI 홈 - [모니터링 및 대시보드] - [규정 준수 보고서] 메뉴에서 규정 준수 보고서를 실행하고 NDcPP 규정 준수 이름으로 표시된 모든 문제를 해결합니다. |
4.1.0 |
EAL4 규정 비준수 트리거 | 위험 | manager | NSX 보안 상태는 EAL4+와 호환되지 않습니다. |
UI 홈 - [모니터링 및 대시보드] - [규정 준수 보고서] 메뉴에서 규정 준수 보고서를 실행하고 EAL4+ 규정 준수 이름으로 표시된 모든 문제를 해결합니다. |
4.1.0 |
NDcPP 규정 비준수 폴링 | 위험 | manager | NSX 보안 구성이 NDcPP와 호환되지 않습니다. |
UI 홈 - [모니터링 및 대시보드] - [규정 준수 보고서] 메뉴에서 규정 준수 보고서를 실행하고 NDcPP 규정 준수 이름으로 표시된 모든 문제를 해결합니다. |
4.1.0 |
EAL4 규정 비준수 폴링 | 위험 | manager | NSX 보안 구성이 EAL4+와 호환되지 않습니다. |
UI 홈 - [모니터링 및 대시보드] - [규정 준수 보고서] 메뉴에서 규정 준수 보고서를 실행하고 EAL4+ 규정 준수 이름으로 표시된 모든 문제를 해결합니다. |
4.1.0 |
서비스 삽입 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
서비스 배포 성공 | 정보 | manager | 서비스 배포에 성공했습니다. |
어떠한 작업도 필요하지 않습니다. |
4.0.0 |
서비스 배포 실패 | 위험 | manager | 서비스 배포에 실패했습니다. |
NSX UI 또는 API를 사용하여 서비스 배포를 삭제하십시오. KB에서 수정 작업을 수행하고 서비스 배포를 다시 시도합니다. |
4.0.0 |
서비스 배포 해제 성공 | 정보 | manager | 서비스 배포를 삭제했습니다. |
어떠한 작업도 필요하지 않습니다. |
4.0.0 |
서비스 배포 해제 실패 | 위험 | manager | 서비스 배포를 삭제하지 못했습니다. |
NSX UI 또는 API를 사용하여 서비스 배포를 삭제하십시오. KB에서 수정 작업을 수행하고 서비스 배포를 다시 삭제하십시오. 모든 VM 및 개체가 삭제되었는지 확인한 후 경보를 수동으로 해결하십시오. |
4.0.0 |
SVM 상태 실행 중 | 정보 | manager | SVM이 서비스되고 있습니다. |
어떠한 작업도 필요하지 않습니다. |
4.0.0 |
SVM 상태 종료 | 높음 | manager | SVM이 서비스되고 있지 않습니다. |
NSX UI 또는 API를 사용하여 서비스 배포를 삭제하십시오. KB에서 수정 작업을 수행하고 필요한 경우 서비스 배포를 다시 시도합니다. |
4.0.0 |
서비스 삽입 인프라 상태 종료 | 위험 | esx | 서비스 삽입 인프라 상태가 종료되었으며 호스트에서 사용하도록 설정되지 않았습니다. |
KB에서 수정 작업을 수행하고 상태가 실행 중인지 확인합니다. 상태를 확인한 후 경보를 수동으로 해결하십시오. |
4.0.0 |
SVM 작동 상태 종료 | 위험 | manager | SVM 작동 상태가 종료입니다. |
KB에서 수정 작업을 수행하고 상태가 실행 중인지 확인합니다. |
4.0.0 |
서비스 체인 경로 종료 | 위험 | manager | 서비스 체인 경로가 종료되었습니다. |
KB에서 수정 작업을 수행하고 상태가 실행 중인지 확인합니다. |
4.0.0 |
새 호스트가 추가됨 | 정보 | esx | 클러스터에 새 호스트가 추가되었습니다. |
VM 배포 상태를 확인하고 전원이 켜질 때까지 기다립니다. |
4.0.0 |
Tep 상태 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
오류 Tep | 중형 | esx | TEP가 비정상입니다. |
1. TEP에 유효한 IP 또는 다른 언더레이 연결 문제가 있는지 확인합니다. |
4.1.0 |
Tep Ha 활성화됨 | 정보 | esx | TEP HA가 활성화되었습니다. |
전송 노드 {transport_node_id}에서 VDS {dvs_name}의 TEP {vtep_name}에 대해 자동 복구를 사용하도록 설정하거나 수동 복구를 호출합니다. |
4.1.0 |
Tep 자동 복구 성공 | 정보 | esx | 자동 복구가 성공했습니다. |
없음. |
4.1.0 |
Tep 자동 복구 실패 | 중형 | esx | 자동 복구가 실패했습니다. |
TEP에 유효한 IP 또는 다른 언더레이 연결 문제가 있는지 확인합니다. |
4.1.0 |
DPU의 오류 Tep | 중형 | dpu | DPU에서 TEP가 비정상입니다. |
1. TEP에 유효한 IP 또는 다른 언더레이 연결 문제가 있는지 확인합니다. |
4.1.0 |
DPU에서 Tep Ha 활성화됨 | 정보 | dpu | DPU에서 TEP HA가 활성화되었습니다. |
DPU {dpu_id}의 전송 노드 {transport_node_id}에서 VDS {dvs_name}의 TEP {vtep_name}에 대해 자동 복구를 사용하도록 설정하거나 수동 복구를 호출합니다. |
4.1.0 |
DPU에서 Tep 자동 복구 성공 | 정보 | dpu | DPU에서 자동 복구가 성공했습니다. |
없음. |
4.1.0 |
DPU의 Tep 자동 복구 실패 | 중형 | dpu | DPU에서 자동 복구가 실패했습니다. |
TEP에 유효한 IP 또는 다른 언더레이 연결 문제가 있는지 확인합니다. |
4.1.0 |
전송 노드 상태 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
DPU에서 전송 노드 업링크 종료 | 중형 | dpu | DPU의 업링크가 종료 중입니다. |
DPU {dpu_id}에서 업링크의 물리적 NIC 상태를 확인합니다. 호스트에서 이 물리적 NIC의 매핑된 이름을 찾은 다음 UI를 확인합니다. |
4.0.0 |
DPU에서 LAG 멤버 종료 | 중형 | dpu | DPU의 LACP가 멤버를 종료로 보고합니다. |
DPU {dpu_id}에서 LAG 멤버의 연결 상태를 확인합니다. 호스트에서 관련된 물리적 NIC의 매핑된 이름을 찾은 다음 UI를 확인합니다. |
4.0.0 |
NVDS 업링크 종료 | 중형 | esx, kvm, bms | 업링크가 종료됩니다. |
호스트에서 업링크의 물리적 NIC 상태를 확인합니다. |
3.0.0 |
전송 노드 업링크 종료 | 중형 | esx, kvm, bms | 업링크가 종료됩니다. |
호스트에서 업링크의 물리적 NIC 상태를 확인합니다. |
3.2.0 |
LAG 멤버 종료 | 중형 | esx, kvm, bms | LACP는 멤버를 종료 상태로 보고합니다. |
호스트에서 LAG 멤버의 연결 상태를 확인합니다. |
3.0.0 |
Vmc 애플리케이션 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
전송 연결 장애 | 중형 | manager | 전송 연결을 완전히 인식하지 못했습니다. |
이 경보가 10분 내에 자동으로 해결되지 않으면 가장 최근의 전송 연결 관련 요청을 다시 시도합니다. 예를 들어 TGW 연결 API 요청이 이 경보를 트리거한 경우 TGW 연결 API 요청을 다시 시도합니다. 다시 시도한 후에도 경보가 해결되지 않으면 다음 단계를 시도하십시오. |
4.1.0 |
VPN 이벤트
이벤트 이름 | 심각도 | 노드 유형 | 경고 메시지 | 권장 작업 | 도입된 릴리스 |
---|---|---|---|---|---|
IPsec 서비스가 종료됨 | 중형 | edge, autonomous-edge, public-cloud-gateway | IPsec 서비스가 종료되었습니다. |
1. NSX Manager UI에서 IPsec 서비스를 사용하지 않도록 설정했다가 사용하도록 설정합니다. |
3.2.0 |
IPsec 정책 기반 세션 종료 | 중형 | edge, autonomous-edge, public-cloud-gateway | 정책 기반 IPsec VPN 세션이 종료되었습니다. |
IPsec VPN 세션 구성을 확인하고 세션 종료 이유에 따라 오류를 해결하십시오. |
3.0.0 |
IPsec 경로 기반 세션 종료 | 중형 | edge, autonomous-edge, public-cloud-gateway | 경로 기반 IPsec VPN 세션이 종료되었습니다. |
IPsec VPN 세션 구성을 확인하고 세션 종료 이유에 따라 오류를 해결하십시오. |
3.0.0 |
IPsec 정책 기반 터널 종료 | 중형 | edge, autonomous-edge, public-cloud-gateway | 정책 기반 IPsec VPN 터널이 종료되었습니다. |
IPsec VPN 세션 구성을 확인하고 터널 종료 이유에 따라 오류를 해결하십시오. |
3.0.0 |
IPsec 경로 기반 터널 종료 | 중형 | edge, autonomous-edge, public-cloud-gateway | 경로 기반 IPsec VPN 터널이 종료되었습니다. |
IPsec VPN 세션 구성을 확인하고 터널 종료 이유에 따라 오류를 해결하십시오. |
3.0.0 |
L2VPN 세션 종료 | 중형 | edge, autonomous-edge, public-cloud-gateway | L2VPN 세션이 종료되었습니다. |
L2VPN 세션 상태에서 세션 종료 이유를 확인하고 이유에 따라 오류를 해결하십시오. |
3.0.0 |