Catalogo degli eventi NSX
Le tabelle seguenti descrivono gli eventi che attivano gli allarmi in VMware NSX®, con i relativi messaggi e le azioni consigliate per risolverli. Qualsiasi evento con gravità superiore aBASSOattiva un allarme. Le informazioni sugli allarmi vengono visualizzate in diverse posizioni all'interno dell'interfaccia di NSX Manager. Le informazioni relative a allarmi ed eventi sono incluse insieme ad altre notifiche nel menu a discesa Notifiche nella barra del titolo. Per visualizzare gli allarmi, passare alla pagina Home e fare clic sulla scheda Allarmi. Per ulteriori informazioni su allarmi ed eventi, vedere "Utilizzo di eventi e allarmi" nella Guida all'amministrazione di NSX.
Eventi di gestione degli allarmi
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Servizio di avviso sovraccarico | Critico | global-manager, manager, aas | Il servizio di allarme è sovraccarico. |
Esaminare tutti gli allarmi attivi utilizzando la pagina Allarmi nell'interfaccia utente di NSX oppure il comando GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED di NSX API. Per ogni allarme attivo, individuare la causa principale eseguendo l'azione consigliata per l'allarme. Una volta risolto un numero sufficiente di allarmi, il servizio ricomincerà a segnalare i nuovi allarmi. |
3.0.0 |
Volume di allarmi elevato | Critico | global-manager, manager, aas | Rilevato un volume elevato di un tipo di allarme specifico. |
Esaminare tutti gli allarmi attivi di tipo {event_id} utilizzando la pagina Allarmi nell'interfaccia utente di NSX oppure il comando GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED di NSX API. Per ogni allarme attivo, individuare la causa principale eseguendo l'azione consigliata per l'allarme. Una volta risolto un numero sufficiente di allarmi, il servizio ricomincerà a segnalare i nuovi allarmi {event_id}. |
3.0.0 |
Eventi di integrità del registro di controllo
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Errore di aggiornamento del file di registro di controllo | Critico | global-manager, manager, edge, gateway del cloud pubblico, esx, kvm, bms | Impossibile scrivere in almeno uno dei file di registro monitorati. |
1. Nei nodi di Manager e Global Managaer, nonché nei nodi di Edge e del gateway del cloud pubblico, i nodi host KVM di Ubuntu garantiscono che le autorizzazioni per la directory /var/log sia 775 e la proprietà sia root:syslog. I nodi host KVM e BMS di Rhel garantiscono che l'autorizzazione per la directory /var/log sia 755 e la proprietà sia root:root. |
3.1.0 |
Errore del server di registrazione remota | Critico | global-manager, manager, edge, gateway del cloud pubblico | I messaggi del registro non sono recapitabili a causa di una configurazione errata del server di registrazione remota. |
1. Assicurarsi che {hostname_or_ip_address_with_port} sia il nome host o l'indirizzo IP e la porta corretti. |
3.1.0 |
Eventi di capacità
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Soglia capacità minima | Medio | manager | È stata violata una soglia di capacità minima. |
Passare alla pagina Capacità nell'interfaccia utente di NSX ed esaminare l'utilizzo corrente rispetto ai limiti di soglia. Se è previsto l'utilizzo corrente, considerare di aumentare i valori della soglia minima. Se l'utilizzo corrente è inaspettato, esaminare i criteri di rete configurati per ridurre l'utilizzo allo stesso livello o al di sotto della soglia minima. |
3.1.0 |
Soglia capacità massima | Alto | manager | È stata violata una soglia di capacità massima. |
Passare alla pagina Capacità nell'interfaccia utente di NSX ed esaminare l'utilizzo corrente rispetto ai limiti di soglia. Se l'utilizzo corrente è previsto, considerare l'aumento dei valori di soglia massima. Se l'utilizzo corrente è inaspettato, esaminare i criteri di rete configurati per ridurre l'utilizzo a un livello minore o uguale rispetto alla soglia massima. |
3.1.0 |
Capacità massima | Critico | manager | È stata violata una capacità massima. |
Assicurarsi che il numero di oggetti di NSX creati rientra nei limiti supportati da NSX. Se sono presenti oggetti inutilizzati, eliminarli utilizzando la rispettiva interfaccia utente o l'API di NSX dal sistema. È consigliabile aumentare il fattore di forma di tutti i nodi di Manager e/o i nodi Edge. Si noti che il fattore modulo di ogni tipo di nodo deve essere lo stesso. In caso contrario, vengono utilizzati i limiti di capacità per il fattore di forma più basso distribuito. |
3.1.0 |
Eventi dei certificati
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Certificato scaduto | Critico | global-manager, manager | Un certificato è scaduto. |
Assicurarsi che i servizi che attualmente utilizzano il certificato vengano aggiornati in modo da utilizzare un nuovo certificato non scaduto. Quando il certificato scaduto non è più in uso, deve essere eliminato richiamando l'NSX API DELETE {api_collection_path}{entity_id}. Se il certificato scaduto viene utilizzato da NAPP Platform, la connessione tra NSX e NAPP Platform viene interrotta. Consultare il documento di risoluzione dei problemi di NAPP Platform per utilizzare un certificato CA NAPP autofirmato per il ripristino della connessione. |
3.0.0 |
Il certificato sta per scadere | Alto | global-manager, manager | Un certificato sta per scadere. |
Assicurarsi che i servizi che attualmente utilizzano il certificato vengano aggiornati in modo da utilizzare un nuovo certificato non in scadenza. Quando il certificato in scadenza non è più in uso, deve essere eliminato richiamando l'NSX API DELETE {api_collection_path}{entity_id}. |
3.0.0 |
Certificato in scadenza | Medio | global-manager, manager | Un certificato sta per scadere. |
Assicurarsi che i servizi che attualmente utilizzano il certificato vengano aggiornati in modo da utilizzare un nuovo certificato non in scadenza. Quando il certificato in scadenza non è più in uso, deve essere eliminato richiamando l'NSX API DELETE {api_collection_path}{entity_id}. |
3.0.0 |
Aggiornamento bundle CA consigliato | Alto | global-manager, manager | È consigliabile aggiornare un bundle CA attendibile. |
Assicurarsi che i servizi che attualmente utilizzano il bundle CA attendibile vengano aggiornati in modo da utilizzare un bundle CA attendibile aggiornato di recente. A meno che non sia un bundle fornito dal sistema, il bundle può essere aggiornato utilizzando l'NSX API PUT /policy/api/v1/infra/cabundles/{entity_id}. Quando il bundle scaduto non è più in uso, deve essere eliminato (se non fornito dal sistema) richiamando l'NSX API DELETE /policy/api/v1/infra/cabundles/{entity_id}. |
3.2.0 |
Aggiornamento bundle CA suggerito | Medio | global-manager, manager | Si consiglia di aggiornare un bundle CA attendibile. |
Assicurarsi che i servizi che attualmente utilizzano il bundle CA attendibile vengano aggiornati in modo da utilizzare un bundle CA attendibile aggiornato di recente. A meno che non sia un bundle fornito dal sistema, il bundle può essere aggiornato utilizzando l'NSX API PUT /policy/api/v1/infra/cabundles/{entity_id}. Quando il bundle scaduto non è più in uso, deve essere eliminato (se non fornito dal sistema) richiamando l'NSX API DELETE /policy/api/v1/infra/cabundles/{entity_id}. |
3.2.0 |
Certificato del nodo di trasporto scaduto | Critico | bms, edge, esx, kvm, gateway del cloud pubblico | Un certificato è scaduto. |
Sostituire il certificato del nodo di trasporto {entity_id} con un certificato non scaduto. Il certificato scaduto deve essere sostituito richiamando l'NSX API POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id}. Se il certificato scaduto viene utilizzato dal nodo di trasporto, la connessione tra il nodo di trasporto e il nodo di gestione viene interrotta. |
4.1.0 |
Certificato del nodo di trasporto in scadenza | Alto | bms, edge, esx, kvm, gateway del cloud pubblico | Un certificato sta per scadere. |
Sostituire il certificato del nodo di trasporto {entity_id} con un certificato non scaduto. Il certificato scaduto deve essere sostituito richiamando l'NSX API POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id}. Se il certificato non viene sostituito, alla scadenza la connessione tra il nodo di trasporto e il nodo di Manager verrà interrotta. |
4.1.0 |
Certificato del nodo di trasporto in scandenza | Medio | bms, edge, esx, kvm, gateway del cloud pubblico | Un certificato sta per scadere. |
Sostituire il certificato del nodo di trasporto {entity_id} con un certificato non scaduto. Il certificato scaduto deve essere sostituito richiamando l'NSX API POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id}. Se il certificato non viene sostituito, alla scadenza la connessione tra il nodo di trasporto e il nodo di Manager verrà interrotta. |
4.1.0 |
Eventi del clustering
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Cluster danneggiato | Medio | global-manager, manager | Membro del gruppo inattivo. |
1. Richiamare il comando "get cluster status" della CLI di NSX per visualizzare lo stato dei membri del gruppo del cluster. |
3.2.0 |
Cluster non disponibile | Alto | global-manager, manager | Tutti i membri del gruppo del servizio sono inattivi. |
1. Assicurarsi che il servizio per {group_type} sia in esecuzione nel nodo. Richiamare l'NSX API GET /api/v1/node/services/<service_name>/status o il comando della CLI di NSX get service <service_name> per determinare se il servizio è in esecuzione. Se non è in esecuzione, richiamare l'NSX API POST /api/v1/node/services/<service_name>?action=restart o il comando della CLI di NSX restart <service_name> per riavviare il servizio. |
3.2.0 |
Eventi di integrità CNI
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Connessione Hyperbus Manager inattiva nella DPU | Medio | dpu | L'Hyperbus nella DPU non può comunicare con il nodo di Manager. |
È possibile che manchi l'interfaccia hyperbus vmkernel (vmk50) nella DPU {dpu_id}. Fare riferimento all'articolo della Knowledge Base https://kb.vmware.com/s/article/67432. |
4.0.0 |
Connessione Hyperbus Manager inattiva | Medio | esx, kvm | Hyperbus non può comunicare con il nodo di Manager. |
È possibile che manchi l'interfaccia hyperbus vmkernel (vmk50). Fare riferimento all'articolo della Knowledge Base https://kb.vmware.com/s/article/67432. |
3.0.0 |
Eventi di comunicazione
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Raggiungibilità limitata su DPU | Medio | dpu | L'agente di raccolta specificato non può essere raggiunto tramite vmknic in un DVS specificato nella DPU. |
Se l'avviso è attivo, non significa che l'agente di raccolta è irraggiungibile. I flussi esportati generati verticalmente in base al DVS {dvs_alias} possono comunque raggiungere l'agente di raccolta {collector_ip} tramite vmknic nei DVS oltre che nei DVS {dvs_alias}. Se questa situazione non è accettabile, l'utente può provare a creare vmknic con stack {stack_alias} in DVS {dvs_alias} e configurarlo con l'indirizzo IPv4(6) appropriato, quindi verificare se l'{collector_ip} dell'agente di raccolta {vertical_name} può essere raggiunto tramite i vmknic appena creati nella DPU {dpu_id} richiamando vmkping {collector_ip} -S {stack_alias} -I vmkX con da SSH a DPU tramite ESXi abilitato. |
4.0.1 |
Agente di raccolta non raggiungibile su DPU | Critico | dpu | L'agente di raccolta specificato non può essere raggiunto tramite vmknic esistenti nella DPU. |
Per rendere l'agente di raccolta raggiungibile per il verticale specificato in DVS, l'utente deve verificare che siano presenti vmknic con stack {stack_alias} previsto creato e configurato con indirizzi IPv4(6) appropriati e che anche la connessione di rete all'agente di raccolta {vertical_name} {collector_ip} sia valida. L'utente deve quindi eseguire il controllo della DPU {dpu_id} ed eseguire la configurazione richiesta per assicurarsi che la condizione venga soddisfatta. Infine, se vmkping {collector_ip} -S {stack_alias} con da SSH a DPU tramite ESXi abilitata riesce, significa che il problema è stato eliminato. |
4.0.1 |
Latenza cluster di Manager elevata | Medio | manager | La latenza di rete media tra i nodi di Manager è elevata. |
Assicurarsi che tra i nodi di Manager non siano presenti regole del firewall che blocchino il traffico ping. Se sono presenti altri server con larghezza di banda elevata e applicazioni che condividono la rete locale, è consigliabile spostarle in una rete diversa. |
3.1.0 |
Canale di controllo verso il nodo di Manager inattivo troppo a lungo | Critico | bms, edge, esx, kvm, gateway del cloud pubblico | La connessione del piano di controllo del nodo di trasporto al nodo di gestione resta inattiva per molto tempo. |
1. Controllare la connettività dal nodo di trasporto {entity_id} all'interfaccia del nodo di Manager {appliance_address} tramite un ping. Se non è possibile eseguire il ping, verificare l'affidabilità della connettività di rete. |
3.1.0 |
Canale di controllo verso il nodo di Manager inattivo | Medio | bms, edge, esx, kvm, gateway del cloud pubblico | La connessione del piano di controllo del nodo di trasporto al nodo di gestione è inattiva. |
1. Controllare la connettività dal nodo di trasporto {entity_id} all'interfaccia del nodo di Manager {appliance_address} tramite un ping. Se non è possibile eseguire il ping, verificare l'affidabilità della connettività di rete. |
3.1.0 |
Canale di controllo verso il nodo di trasporto inattivo | Medio | manager | La connessione del nodo di trasporto al servizio Controller è inattiva. |
1. Verificare la connettività dal servizio Controller {central_control_plane_id} e dall'interfaccia del nodo di trasporto {entity_id} tramite un ping e traceroute. Questa operazione può essere eseguita nella CLI admin del nodo di NSX Manager. Il test di ping non dovrebbe visualizzare interruzioni e ha valori di latenza coerenti. VMware consiglia valori di latenza di 150 ms o inferiori. |
3.1.0 |
Canale di controllo verso il nodo di trasporto inattivo a lungo | Critico | manager | La connessione del nodo di trasporto al servizio controller è inattiva per troppo tempo. |
1. Verificare la connettività dal servizio Controller {central_control_plane_id} e dall'interfaccia del nodo di trasporto {entity_id} tramite un ping e traceroute. Questa operazione può essere eseguita nella CLI admin del nodo di NSX Manager. Il test di ping non dovrebbe visualizzare interruzioni e ha valori di latenza coerenti. VMware consiglia valori di latenza di 150 ms o inferiori. |
3.1.0 |
Canale di controllo verso il canale di gestione inattivo | Critico | manager | Il canale di controllo verso il canale di gestione è inattivo. |
1. Nel nodo di Manager {manager_node_name} ({appliance_address}), richiamare il seguente comando della CLI di NSX: get service applianceproxy per controllare lo stato del servizio periodicamente per 60 minuti. |
3.0.2 |
Canale di gestione verso il nodo di trasporto inattivo | Medio | manager | Il canale di gestione verso il nodo di trasporto è inattivo. |
Verificare la connettività di rete tra i nodi di Manager e il nodo di trasporto {transport_node_name} ({transport_node_address}) e che nessun firewall stia bloccando il traffico tra i nodi. Nei nodi di trasporto di Windows, verificare che il servizio nsx-proxy sia in esecuzione nel nodo di trasporto richiamando il comando C:\NSX\nsx-proxy\nsx-proxy.ps1 status in Windows PowerShell. Se non è in esecuzione, riavviarlo richiamando il comando C:\NSX\nsx-proxy\nsx-proxy.ps1 restart. In tutti gli altri nodi di trasporto, verificare che il servizio nsx-proxy sia in esecuzione nel nodo di trasporto richiamando il comando: /etc/init.d/nsx-proxy status. Se non è in esecuzione, riavviarlo richiamando il comando /etc/init.d/nsx-proxy restart. |
3.0.2 |
Canale di gestione verso il nodo di trasporto inattivo troppo a lungo | Critico | manager | Il canale di gestione verso il nodo di trasporto è inattivo troppo a lungo. |
Verificare la connettività di rete tra i nodi di Manager e il nodo di trasporto {transport_node_name} ({transport_node_address}) e che nessun firewall stia bloccando il traffico tra i nodi. Nei nodi di trasporto di Windows, verificare che il servizio nsx-proxy sia in esecuzione nel nodo di trasporto richiamando il di comando he Transport node by invoking the command C:\NSX\nsx-proxy\nsx-proxy.ps1 status in Windows PowerShell. Se non è in esecuzione, riavviarlo richiamando il comando C:\NSX\nsx-proxy\nsx-proxy.ps1 restart. In tutti gli altri nodi di trasporto, verificare che il servizio nsx-proxy sia in esecuzione nel nodo di trasporto richiamando il comando: /etc/init.d/nsx-proxy status. Se non è in esecuzione, riavviarlo richiamando il comando /etc/init.d/nsx-proxy restart. |
3.0.2 |
Errore di ricerca FQDN di Manager | Critico | global-manager, bms, edge, esx, kvm, manager, gateway del cloud pubblico | Ricerca DNS non riuscita per il nome di dominio completo del nodo di gestione. |
1. Assegnare i nomi di dominio completi corretti a tutti i nodi di gestione e verificare che la configurazione DNS sia corretta per la ricerca corretta dei nomi di dominio completi di tutti i nodi di gestione. |
3.1.0 |
Errore di ricerca inversa FQDN di Manager | Critico | global-manager, manager | Ricerca DNS inversa non riuscita per l'indirizzo IP del nodo di gestione. |
1. Assegnare i nomi di dominio completi corretti a tutti i nodi di gestione e verificare che la configurazione DNS sia corretta per la ricerca inversa avvenuta con successo dell'indirizzo IP del nodo di gestione. |
3.1.0 |
Canale di gestione verso il nodo di Manager inattivo | Medio | bms, edge, esx, kvm, gateway del cloud pubblico | Il canale di gestione verso il nodo di Manager è inattivo. |
Verificare la connettività di rete tra il nodo di trasporto {transport_node_id} e il nodo di Manager master. Assicurarsi inoltre che il traffico tra i nodi non venga bloccato da alcun firewall. Assicurarsi che il servizio di gestione messaggi sia in esecuzione nei nodi di Manager richiamando il comando /etc/init.d/messaging-manager status. Se il servizio di gestione messaggi non è in esecuzione, riavviarlo richiamando il comando /etc/init.d/messaging-manager restart. |
3.2.0 |
Canale di gestione verso il nodo di Manager inattivo a lungo | Critico | bms, edge, esx, kvm, gateway del cloud pubblico | Il canale di gestione verso il nodo di Manager è inattivo troppo a lungo. |
Verificare la connettività di rete tra il nodo di trasporto {transport_node_id} e i nodi di Manager master. Assicurarsi inoltre che il traffico tra i nodi non venga bloccato da alcun firewall. Assicurarsi che il servizio di gestione messaggi sia in esecuzione nei nodi di Manager richiamando il comando /etc/init.d/messaging-manager status. Se il servizio di gestione messaggi non è in esecuzione, riavviarlo richiamando il comando /etc/init.d/messaging-manager restart. |
3.2.0 |
Latenza di rete elevata | Medio | manager | La latenza della rete di gestione verso il nodo di trasporto è elevata. |
1. Attendere 5 minuti per verificare se l'allarme viene risolto automaticamente. |
4.0.0 |
Eventi DHCP
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Allocazione lease pool non riuscita | Alto | edge, edge autonomo, gateway del cloud pubblico | Gli indirizzi IP di un pool di IP sono esauriti. |
Esaminare la configurazione del pool DHCP nell'interfaccia utente di NSX o nel nodo Edge in cui il server DHCP è in esecuzione richiamando il comando della CLI di NSX get dhcp ip-pool. Esaminare anche i lease attualmente attivi nel nodo Edge richiamando il comando della CLI di NSX get dhcp lease. Confrontare i lease con il numero di macchine virtuali attive. È consigliabile ridurre la durata del lease nella configurazione del server DHCP se il numero di macchine virtuali è basso rispetto al numero di lease attivi. È inoltre consigliabile espandere l'intervallo di pool per il server DHCP nella pagina Rete | Segmenti | Segmento nell'interfaccia utente di NSX. |
3.0.0 |
Pool sovraccarico | Medio | edge, edge autonomo, gateway del cloud pubblico | Un pool di IP è sovraccarico. |
Esaminare la configurazione del pool DHCP nell'interfaccia utente di NSX o nel nodo Edge in cui il server DHCP è in esecuzione richiamando il comando della CLI di NSX get dhcp ip-pool. Esaminare anche i lease attualmente attivi nel nodo Edge richiamando il comando della CLI di NSX get dhcp lease. Confrontare i lease con il numero di macchine virtuali attive. È consigliabile ridurre la durata del lease nella configurazione del server DHCP se il numero di macchine virtuali è basso rispetto al numero di lease attivi. È inoltre consigliabile espandere l'intervallo di pool per il server DHCP nella pagina Rete | Segmenti | Segmento nell'interfaccia utente di NSX. |
3.0.0 |
Eventi del firewall distribuito
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Utilizzo CPU DFW molto elevato | Critico | esx | L'utilizzo della CPU DFW è molto elevato. |
È consigliabile bilanciare di nuovo i carichi di lavoro della macchina virtuale in questo host rispetto agli altri host. Esaminare la progettazione della sicurezza per l'ottimizzazione. Ad esempio, utilizzare la configurazione applicabile se le regole non sono applicabili all'intero data center. |
3.0.0 |
Utilizzo CPU DFW molto elevato in DPU | Critico | dpu | L'utilizzo della CPU DFW è molto elevato in DPU. |
È consigliabile bilanciare di nuovo i carichi di lavoro della macchina virtuale in questo host rispetto agli altri host. Esaminare la progettazione della sicurezza per l'ottimizzazione. Ad esempio, utilizzare la configurazione applicabile se le regole non sono applicabili all'intero data center. |
4.0.0 |
Utilizzo memoria DFW molto elevato | Critico | esx | L'utilizzo della memoria DFW è molto elevato. |
Visualizzare l'utilizzo corrente della memoria DFW richiamando il comando della CLI di NSX get firewall thresholds nell'host. È consigliabile bilanciare di nuovo i carichi di lavoro di questo host rispetto agli altri host. |
3.0.0 |
Utilizzo memoria DFW molto elevato in DPU | Critico | dpu | L'utilizzo della memoria DFW è molto elevato in DPU. |
Visualizzare l'utilizzo corrente get firewall Soglia della memoria DFW richiamando il comando della CLI di NSX get firewall thresholds nella DPU. È consigliabile bilanciare di nuovo i carichi di lavoro di questo host rispetto agli altri host. |
4.0.0 |
Errore VMotion DFW | Critico | esx | DFW vMotion non riuscito, porta disconnessa. |
Controllare le macchine virtuali nell'host in NSX Manager, quindi eseguire manualmente il push della configurazione di DFW tramite l'interfaccia utente di NSX Manager. Il criterio DFW di cui rieseguire il push può essere tracciato dal filtro DFW {entity_id}. È inoltre consigliabile trovare la macchina virtuale a cui è collegato il filtro DFW e riavviarla. |
3.2.0 |
Limite flood DFW avviso | Medio | esx | Il limite del flood DFW ha raggiunto il livello di avviso. |
Controllare le macchine virtuali nell'host in NSX Manager. Controllare il livello di avviso del flood configurato del filtro DFW {entity_id} per il protocollo {protocol_name}. |
4.1.0 |
Limite flood DFW critico | Critico | esx | Il limite del flood DFW ha raggiunto il livello critico. |
Controllare le macchine virtuali nell'host in NSX Manager. Controllare il livello critico del flood configurato del filtro DFW {entity_id} per il protocollo {protocol_name}. |
4.1.0 |
Numero sessioni DFW elevato | Critico | esx | Il numero di sessioni DFW è elevato. |
Esaminare il livello di carico del traffico di rete dei carichi di lavoro nell'host. È consigliabile bilanciare di nuovo i carichi di lavoro di questo host rispetto agli altri host. |
3.2.0 |
Limite delle regole DFW per vNIC superato | Critico | esx | Il limite delle regole DFW per vNIC sta per superare il limite massimo. |
Accedere all'host ESX {transport_node_name} e richiamare il comando della CLI di NSX get firewall <VIF_UUID> ruleset rules per ottenere le statistiche della regola per le regole configurate nella VIF corrispondente. Ridurre il numero di regole configurate per VIF {entity_id}. |
4.0.0 |
Il limite delle regole DFW per vNIC sta per essere superato | Medio | esx | Il limite delle regole DFW per vNIC si avvicina al limite massimo. |
Accedere all'host ESX {transport_node_name} e richiamare il comando della CLI di NSX get firewall <VIF_UUID> ruleset rules per ottenere le statistiche della regola per le regole configurate nella VIF corrispondente. Ridurre il numero di regole configurate per VIF {entity_id}. |
4.0.0 |
Limite delle regole DFW per host superato | Critico | esx | Il limite delle regole DFW per host sta per superare il limite massimo. |
Accedere all'host ESX {transport_node_name} e richiamare il comando della CLI di NSX get firewall rule-stats total per ottenere le statistiche della regola per le regole configurate nell'host ESX {transport_node_name}. Ridurre il numero di regole configurate per l'host {transport_node_name}. Controllare il numero di regole configurate per vari VIF utilizzando il comando della CLI di NSX get firewall <VIF_UUID> ruleset rules. Ridurre il numero di regole configurate per i vari VIF. |
4.0.0 |
Il limite delle regole DFW per host sta per essere superato | Medio | esx | Il limite delle regole DFW per host si avvicina al limite massimo. |
Accedere all'host ESX {transport_node_name} e richiamare il comando della CLI di NSX get firewall rule-stats total per ottenere le statistiche della regola per le regole configurate nell'host ESX {transport_node_name}. Ridurre il numero di regole configurate per l'host {transport_node_name}. Controllare il numero di regole configurate per vari VIF utilizzando il comando della CLI di NSX get firewall <VIF_UUID> ruleset rules. Ridurre il numero di regole configurate per i vari VIF. |
4.0.0 |
Eventi IPS IDS distribuiti
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Raggiunto numero massimo di eventi | Medio | manager | È stato raggiunto il numero massimo consentito di eventi di intrusione. |
Non è necessario alcun intervento manuale. Ogni 3 minuti verrà avviato automaticamente un processo di eliminazione che eliminerà il 10% dei record precedenti per riportare il numero totale di eventi di intrusione nel sistema al di sotto del valore di soglia di 1,5 milioni. |
3.1.0 |
Utilizzo memoria motore IDPS NSX elevato | Medio | esx | L'utilizzo della memoria del motore NSX-IDPS raggiunge il 75% o superiore. |
È consigliabile bilanciare di nuovo i carichi di lavoro della macchina virtuale in questo host rispetto agli altri host. |
3.1.0 |
Utilizzo memoria motore IDPS NSX elevato in DPU | Medio | dpu | L'utilizzo della memoria del motore NSX-IDPS raggiunge almeno il 75% in DPU. |
È consigliabile bilanciare di nuovo i carichi di lavoro della macchina virtuale in questo host rispetto agli altri host. |
4.0.0 |
Utilizzo memoria motore IDPS NSX mediamente elevato | Alto | esx | L'utilizzo della memoria del motore NSX-IDPS raggiunge l'85% o superiore. |
È consigliabile bilanciare di nuovo i carichi di lavoro della macchina virtuale in questo host rispetto agli altri host. |
3.1.0 |
Utilizzo memoria motore IDPS NSX mediamente elevato in DPU | Alto | dpu | L'utilizzo della memoria del motore NSX-IDPS raggiunge l'85% o superiore nella DPU. |
È consigliabile bilanciare di nuovo i carichi di lavoro della macchina virtuale in questo host rispetto agli altri host. |
4.0.0 |
Utilizzo memoria motore IDPS NSX molto elevato | Critico | esx | L'utilizzo della memoria del motore NSX-IDPS raggiunge il 95% o superiore. |
È consigliabile bilanciare di nuovo i carichi di lavoro della macchina virtuale in questo host rispetto agli altri host. |
3.1.0 |
Utilizzo memoria motore IDPS NSX molto elevato in DPU | Critico | dpu | L'utilizzo della memoria del motore NSX-IDPS raggiunge il 95% o superiore nella DPU. |
È consigliabile bilanciare di nuovo i carichi di lavoro della macchina virtuale in questo host rispetto agli altri host. |
4.0.0 |
Utilizzo CPU motore IDPS NSX elevato | Medio | esx | L'utilizzo della CPU del motore NSX-IDPS raggiunge il 75% o superiore. |
È consigliabile bilanciare di nuovo i carichi di lavoro della macchina virtuale in questo host rispetto agli altri host. |
3.1.0 |
Utilizzo CPU motore IDPS NSX mediamente elevato | Alto | esx | L'utilizzo della CPU del motore NSX-IDPS raggiunge il 85% o superiore. |
È consigliabile bilanciare di nuovo i carichi di lavoro della macchina virtuale in questo host rispetto agli altri host. |
3.1.0 |
Utilizzo CPU motore IDPS NSX molto elevato | Critico | esx | L'utilizzo della CPU del motore NSX-IDPS supera il 95% o superiore. |
È consigliabile bilanciare di nuovo i carichi di lavoro della macchina virtuale in questo host rispetto agli altri host. |
3.1.0 |
Motore IDPS NSX inattivo | Critico | esx | NSX IDPS è abilitato tramite il criterio NSX e le regole IDPS sono configurate, ma il motore NSX-IDPS è inattivo. |
1. Verificare in /var/log/ nsx-syslog.log se sono segnalati errori. |
3.1.0 |
Motore IDPS NSX inattivo nella DPU | Critico | dpu | NSX IDPS è abilitato tramite il criterio NSX e le regole IDPS sono configurate, ma il motore NSX-IDPS è inattivo in DPU. |
1. Controllare /var/log/nsx-idps/nsx-idps.log e /var/log/nsx-syslog.log per verificare se sono stati segnalati errori. |
4.0.0 |
Oversubscription della CPU del motore IDPS elevato | Medio | esx | L'utilizzo della CPU per il motore IDPS distribuito è elevato. |
Esaminare il motivo dell'oversubscription. Spostare determinate applicazioni in un host diverso. |
4.0.0 |
Oversubscription della CPU del motore IDPS molto elevato | Alto | esx | L'utilizzo della CPU per il motore IDPS distribuito è molto elevato. |
Esaminare il motivo dell'oversubscription. Spostare determinate applicazioni in un host diverso. |
4.0.0 |
Oversubscription della rete del motore IDPS elevato | Medio | esx | L'utilizzo della rete per il motore IDPS distribuito è elevato. |
Esaminare il motivo dell'oversubscription. Rivedere il motivo dell'oversubscription. Rivedere le regole IDPS per ridurre la quantità di traffico soggetto al servizio IDPS. |
4.0.0 |
Oversubscription della rete del motore IDPS molto elevato | Alto | esx | L'utilizzo della rete per il motore IDPS distribuito è molto elevato. |
Esaminare il motivo dell'oversubscription. Rivedere il motivo dell'oversubscription. Rivedere le regole IDPS per ridurre la quantità di traffico soggetto al servizio IDPS. |
4.0.0 |
Oversubscription della CPU del traffico eliminato dal motore IDPS | Critico | esx | Traffico interrotto dal motore IDPS distribuito a causa dell'oversubscription della CPU. |
Esaminare il motivo dell'oversubscription. Spostare determinate applicazioni in un host diverso. |
4.0.0 |
Oversubscription della rete del traffico eliminato dal motore IDPS | Critico | esx | Traffico interrotto dal motore IDPS distribuito a causa dell'oversubscription della rete. |
Esaminare il motivo dell'oversubscription. Rivedere il motivo dell'oversubscription. Rivedere le regole IDPS per ridurre la quantità di traffico soggetto al servizio IDPS. |
4.0.0 |
Oversubscription della CPU del traffico ignorato dal motore IDPS | Critico | esx | Il motore IDPS distribuito ha ignorato il traffico a causa dell'oversubscription della CPU. |
Esaminare il motivo dell'oversubscription. Spostare determinate applicazioni in un host diverso. |
4.0.0 |
Oversubscription della rete del traffico ignorato dal motore IDPS | Critico | esx | Il motore IDPS distribuito ha ignorato il traffico a causa dell'oversubscription della rete. |
Esaminare il motivo dell'oversubscription. Rivedere il motivo dell'oversubscription. Rivedere le regole IDPS per ridurre la quantità di traffico soggetto al servizio IDPS. |
4.0.0 |
Eventi DNS
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Server d'inoltro inattivo | Alto | edge, edge autonomo, gateway del cloud pubblico | Un server di inoltro DNS è inattivo. |
1. Richiamare il comando della CLI di NSX get dns-forwarders status per verificare se lo stato del server di inoltro DNS è inattivo. |
3.0.0 |
Server di inoltro disattivato | Informazioni | edge, edge autonomo, gateway del cloud pubblico | Un server di inoltro DNS è disattivato. |
1. Richiamare il comando della CLI di NSX get dns-forwarders status per verificare se lo stato del server di inoltro DNS è disabilitato. |
3.0.0 |
Timeout server upstream server di inoltro | Alto | edge, edge autonomo, gateway del cloud pubblico | Timeout di un server upstream di inoltro DNS. |
1. Richiamare l'NSX API GET /api/v1/dns/forwarders/{dns_id}/nslookup? address=<address>&server_ip={dns_upstream_ip}&source_ip=<source_ip>. Questa richiesta API attiva una ricerca DNS nel server upstream nello spazio dei nomi della rete del server di inoltro DNS. <address> è l'indirizzo IP o l'FQDN dello stesso dominio del server upstream. <source_ip> è un indirizzo IP nella zona del server upstream. Se l'API restituisce una risposta con timeout della connessione, è probabile che si verifichi un errore di rete o un problema del server upstream. Controllare il motivo per cui le ricerche DSN non raggiungono il server upstream o il motivo per cui il server upstream non restituisce una risposta. Se la risposta dell'API indica che il server upstream risponde, procedere con il passaggio 2. |
3.1.3 |
Eventi Edge
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Impostazioni del nodo Edge non corrispondenti | Critico | manager | Impostazioni del nodo Edge non corrispondenti. |
Esaminare le impostazioni di questo nodo di trasporto Edge {entity_id}. Per risolvere l'allarme - |
3.2.0 |
Impostazioni vSphere macchina virtuale Edge non corrispondenti | Critico | manager | Impostazioni vSphere macchina virtuale Edge non corrispondenti. |
Esaminare la configurazione vSphere di questo nodo di trasporto Edge {entity_id}. Per risolvere l'allarme - |
3.2.0 |
Le impostazioni del nodo Edge e le impostazioni vSphere sono cambiate | Critico | manager | Le impostazioni del nodo Edge e le impostazioni vSphere sono cambiate. |
Esaminare le impostazioni del nodo e la configurazione di vSphere per questo nodo di trasporto Edge {entity_id}. Per risolvere l'allarme - |
3.2.0 |
Posizione vSphere Edge non corrispondente | Alto | manager | Posizione vSphere Edge non corrispondente. |
Esaminare la configurazione vSphere di questo nodo di trasporto Edge {entity_id}. Per risolvere l'allarme - |
3.2.0 |
La macchina virtuale Edge è presente nell'inventario NSX ma non in vCenter | Critico | manager | La macchina virtuale Edge automatica è presente nell'inventario NSX ma non in vCenter. |
Il riferimento all'oggetto gestito ID moref di una macchina virtuale ha la forma vm-number, che è visibile nell'URL quando si seleziona la macchina virtuale Edge nell'interfaccia utente di vCenter. Esempio vm-12011 in https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary Individuare la macchina virtuale {policy_edge_vm_name} con ID moref {vm_moref_id} in vCenter per questo nodo di trasporto Edge {entity_id}. Se la macchina virtuale Edge è presente in vCenter con un ID moref diverso, procedere con l'azione seguente. Utilizzare l'API di posizionamento di NSX con le proprietà del payload della richiesta JSON vm_id e vm_deployment_config per aggiornare il nuovo ID moref della macchina virtuale e i parametri di distribuzione vSphere. POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=addOrUpdatePlacementReferences. Se la macchina virtuale Edge con nome {policy_edge_vm_name} non è presente in vCenter, utilizzare l'API di ridistribuzione NSX per distribuire una nuova macchina virtuale per il nodo Edge. POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=redeploy. |
3.2.1 |
La macchina virtuale Edge non è presente nell'inventario NSX e in vCenter | Critico | manager | La macchina virtuale Edge automatica non è presente nell'inventario NSX e in vCenter. |
Il riferimento all'oggetto gestito ID moref di una macchina virtuale ha la forma vm-number, che è visibile nell'URL quando si seleziona la macchina virtuale Edge nell'interfaccia utente di vCenter. Esempio vm-12011 in https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary Individuare la macchina virtuale {policy_edge_vm_name} con ID moref {vm_moref_id} in vCenter per questo nodo di trasporto Edge {entity_id}. Eseguire la seguente azione per risolvere l'allarme: controllare se la macchina virtuale è stata eliminata in vSphere o è presente con un ID moref diverso. |
3.2.1 |
Impossibile eliminare la macchina virtuale precedente in vCenter durante la ridistribuzione | Critico | manager | Operazione di disattivazione ed eliminazione non riuscita per la macchina virtuale Edge precedente in vCenter durante la ridistribuzione. |
Il riferimento all'oggetto gestito ID moref di una macchina virtuale ha la forma vm-number, che è visibile nell'URL quando si seleziona la macchina virtuale Edge nell'interfaccia utente di vCenter. Esempio vm-12011 in https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary Individuare la macchina virtuale {policy_edge_vm_name} con ID moref {vm_moref_id} in vCenter per questo nodo di trasporto Edge {entity_id}. Disattivare ed eliminare la macchina virtuale Edge {policy_edge_vm_name} precedente con ID moref {vm_moref_id} in vCenter. |
3.2.1 |
Versione hardware Edge non corrispondente | Medio | manager | La versione dell'hardware del nodo dell'Edge non corrisponde. |
Per risolvere l'allarme di mancata corrispondenza della versione dell'hardware del nodo Edge {transport_node_name}, vedere l'articolo della Knowledge Base. |
4.0.1 |
Eventi cluster Edge
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Errore di riposizionamento del membro del cluster Edge | Critico | manager | Allarme errore di riposizionamento del membro del cluster Edge |
Esaminare la capacità disponibile per il cluster Edge. Se è necessaria più capacità, scalare il cluster Edge. Riprovare l'operazione di riposizionamento del membro del cluster Edge. |
4.0.0 |
Eventi di integrità Edge
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Utilizzo CPU Edge molto elevato | Critico | edge, gateway del cloud pubblico | L'utilizzo della CPU del nodo Edge è molto elevato. |
Esaminare la configurazione, i servizi in esecuzione e il dimensionamento di questo nodo Edge. È consigliabile regolare le dimensioni del fattore di forma dell'appliance Edge o bilanciare di nuovo i servizi rispetto agli altri nodi Edge per il carico di lavoro applicabile. |
3.0.0 |
Utilizzo CPU Edge elevato | Medio | edge, gateway del cloud pubblico | L'utilizzo della CPU del nodo Edge è elevato. |
Esaminare la configurazione, i servizi in esecuzione e il dimensionamento di questo nodo Edge. È consigliabile regolare le dimensioni del fattore di forma dell'appliance Edge o bilanciare di nuovo i servizi rispetto agli altri nodi Edge per il carico di lavoro applicabile. |
3.0.0 |
Utilizzo della memoria Edge molto elevato | Critico | edge, gateway del cloud pubblico | L'utilizzo della memoria del nodo Edge è molto elevato. |
Esaminare la configurazione, i servizi in esecuzione e il dimensionamento di questo nodo Edge. È consigliabile regolare le dimensioni del fattore di forma dell'appliance Edge o bilanciare di nuovo i servizi rispetto agli altri nodi Edge per il carico di lavoro applicabile. |
3.0.0 |
Utilizzo della memoria Edge elevato | Medio | edge, gateway del cloud pubblico | L'utilizzo della memoria del nodo Edge è elevato. |
Esaminare la configurazione, i servizi in esecuzione e il dimensionamento di questo nodo Edge. È consigliabile regolare le dimensioni del fattore di forma dell'appliance Edge o bilanciare di nuovo i servizi rispetto agli altri nodi Edge per il carico di lavoro applicabile. |
3.0.0 |
Utilizzo del disco Edge molto elevato | Critico | edge, gateway del cloud pubblico | L'utilizzo del disco del nodo Edge è molto elevato. |
Esaminare la partizione con utilizzo elevato e verificare se sono presenti file di grandi dimensioni non previsti che possono essere rimossi. |
3.0.0 |
Utilizzo del disco Edge elevato | Medio | edge, gateway del cloud pubblico | L'utilizzo del disco del nodo Edge è elevato. |
Esaminare la partizione con utilizzo elevato e verificare se sono presenti file di grandi dimensioni non previsti che possono essere rimossi. |
3.0.0 |
CPU percorso dati Edge molto elevata | Critico | edge, edge autonomo, gateway del cloud pubblico | L'utilizzo della CPU del percorso dati del nodo Edge è molto elevato. |
Esaminare le statistiche della CPU nel nodo Edge richiamando il comando della CLI di NSX get dataplane cpu stats per visualizzare la velocità dei pacchetti per core CPU. È previsto un utilizzo maggiore della CPU con velocità di pacchetti più elevate. È consigliabile aumentare le dimensioni del fattore di forma dell'appliance Edge e bilanciare di nuovo i servizi di questo nodo Edge rispetto agli altri nodi Edge dello stesso o di altri cluster Edge. |
3.0.0 |
CPU percorso dati Edge elevata | Medio | edge, edge autonomo, gateway del cloud pubblico | L'utilizzo della CPU del percorso dati del nodo Edge è elevato. |
Esaminare le statistiche della CPU nel nodo Edge richiamando il comando della CLI di NSX get dataplane cpu stats per visualizzare la velocità dei pacchetti per core CPU. È previsto un utilizzo maggiore della CPU con velocità di pacchetti più elevate. È consigliabile aumentare le dimensioni del fattore di forma dell'appliance Edge e bilanciare di nuovo i servizi di questo nodo Edge rispetto agli altri nodi Edge dello stesso o di altri cluster Edge. |
3.0.0 |
Errore di configurazione percorso dati Edge | Alto | edge, edge autonomo, gateway del cloud pubblico | Configurazione del percorso dati del nodo Edge non riuscita. |
Assicurarsi che la connettività del nodo Edge al nodo Manager sia integra. Dalla CLI di NSX del nodo Edge, richiamare il comando get services per verificare l'integrità dei servizi. Se il servizio del piano dati viene interrotto, richiamare il comando start service dataplane per avviarlo. |
3.0.0 |
Driver crittografia percorso dati Edge inattivo | Critico | edge, edge autonomo, gateway del cloud pubblico | Il driver di crittografia del nodo Edge è inattivo. |
Aggiornare il nodo Edge in base alle esigenze. |
3.0.0 |
Pool di memoria percorso dati Edge elevato | Medio | edge, edge autonomo, gateway del cloud pubblico | Il pool di memoria del percorso dati del nodo Edge è elevato. |
Accedere come utente root e richiamare il comando edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show e edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap per controllare l'utilizzo della memoria DPDK. |
3.0.0 |
Utilizzo della tabella ARP globale Edge elevato | Medio | edge, edge autonomo, gateway del cloud pubblico | L'utilizzo della tabella ARP globale del nodo Edge è elevato. |
Accedere come utente root e richiamare il comando edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show e verificare che l'utilizzo della cache adiacente sia normale. Se è normale, richiamare il comando edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries per aumentare le dimensioni della tabella ARP. |
3.0.0 |
Buffer di ricezione scheda NIC Edge insufficiente | Medio | edge, edge autonomo, gateway del cloud pubblico | La scheda NIC del nodo Edge ha temporaneamente esaurito i buffer di anello RX. |
Eseguire il comando della CLI di NSX get dataplane cpu stats nel nodo Edge e controllare: |
3.0.0 |
Buffer di trasmissione scheda NIC Edge insufficiente | Critico | edge, edge autonomo, gateway del cloud pubblico | La scheda NIC del nodo Edge ha temporaneamente esaurito i buffer di anello TX. |
1. Se l'hypervisor ospita molte macchine virtuali insieme all'Edge è possibile che la macchina virtuale edge non disponga di tempo per l'esecuzione, quindi i pacchetti potrebbero non essere recuperati dall'hypervisor. È quindi consigliabile migrare la macchina virtuale edge in un host con un minor numero di macchine virtuali. |
3.0.0 |
Stato di collegamento della scheda NIC Edge inattivo | Critico | edge, edge autonomo, gateway del cloud pubblico | Il collegamento alla scheda NIC del nodo Edge è inattivo. |
Nel nodo Edge verificare che il collegamento della NIC sia fisicamente inattivo richiamando il comando della CLI di NSX get interfaces. Se è inattivo, verificare la connessione via cavo. |
3.0.0 |
Errore di archiviazione | Critico | edge, edge autonomo, gateway del cloud pubblico | Il disco del nodo Edge è di sola lettura. |
Esaminare la partizione di sola lettura per verificare se il riavvio risolve il problema o se è necessario sostituire il disco. Per ulteriori informazioni, contattare GSS. |
3.0.1 |
Thread percorso dati con deadlock | Critico | edge, edge autonomo, gateway del cloud pubblico | Il thread del percorso dati del nodo Edge è in condizione di blocco critico. |
Riavviare il servizio piano dati richiamando il comando della CLI di NSX restart service dataplane. |
3.1.0 |
Velocità effettiva NIC percorso dati Edge molto elevata | Critico | edge, edge autonomo, gateway del cloud pubblico | La velocità effettiva della scheda NIC del nodo Edge è molto elevata. |
Esaminare i livelli di velocità del traffico nella NIC e determinare se sono necessarie modifiche della configurazione. Il comando "get dataplane thoughput <seconds>" può essere utilizzato per monitorare la velocità effettiva. |
3.2.0 |
Velocità effettiva NIC percorso dati Edge elevata | Medio | edge, edge autonomo, gateway del cloud pubblico | La velocità effettiva della scheda NIC del percorso dati del nodo Edge è elevato. |
Esaminare i livelli di velocità di velocità del traffico nella NIC e determinare se sono necessarie modifiche della configurazione. Il comando "get dataplane thoughput <seconds>" può essere utilizzato per monitorare la velocità effettiva. |
3.2.0 |
Dominio di errore inattivo | Critico | edge, gateway del cloud pubblico | Tutti i membri del dominio di errore sono inattivi. |
1. Nel nodo Edge identificato da {transport_node_id}, controllare la connettività ai piani di gestione e controllo richiamando il comando della CLI di NSX get managers e get controllers. |
3.2.0 |
La frequenza di successo della cache del flusso micro è bassa | Medio | edge, edge autonomo, gateway del cloud pubblico | La frequenza di successo della cache del flusso micro diminuisce e la CPU del percorso dati è elevata. |
La frequenza di successo del flusso della cache è diminuita negli ultimi 30 minuti, il che indica che potrebbe verificarsi un peggioramento delle prestazioni dell'Edge. Il traffico continuerà a essere inoltrato e potrebbe non verificarsi alcun problema. Controllare l'utilizzo della CPU del percorso dati per l'Edge {entity_id} core {core_id} se è elevato negli ultimi 30 minuti. L'Edge avrà una bassa frequenza di successo della cache del flusso quando vengono creati continuamente nuovi flussi perché il primo pacchetto di un nuovo flusso verrà utilizzato per configurare la cache-flusso per l'elaborazione rapida del percorso. È possibile aumentare le dimensioni dell'appliance Edge o il numero di nodi Edge utilizzati per i gateway attivi/attivi. |
3.2.2 |
La frequenza di successo della cache del flusso mega è bassa | Medio | edge, edge autonomo, gateway del cloud pubblico | La frequenza di successo della cache del flusso mega diminuisce e la CPU del percorso dati è elevata. |
La frequenza di successo del flusso della cache è diminuita negli ultimi 30 minuti, il che indica che potrebbe verificarsi un peggioramento delle prestazioni dell'Edge. Il traffico continuerà a essere inoltrato e potrebbe non verificarsi alcun problema. Controllare l'utilizzo della CPU del percorso dati per l'Edge {entity_id} core {core_id} se è elevato negli ultimi 30 minuti. L'Edge avrà una bassa frequenza di successo della cache del flusso quando vengono creati continuamente nuovi flussi perché il primo pacchetto di un nuovo flusso verrà utilizzato per configurare la cache-flusso per l'elaborazione rapida del percorso. È possibile aumentare le dimensioni dell'appliance Edge o il numero di nodi Edge utilizzati per i gateway attivi/attivi. |
3.2.2 |
Eventi di protezione endpoint
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Stato EAM inattivo | Critico | manager | Il servizio ESX Agent Manager (EAM) in un gestore delle risorse di elaborazione è inattivo. |
Avviare il servizio ESX Agent Manager (EAM). Accedere tramite SSH a vCenter e richiamare il comando service vmware-eam start. |
3.0.0 |
Canale partner inattivo | Critico | esx | Il modulo host e la connessione SVM partner sono inattivi. |
Fare riferimento a https://kb.vmware.com/s/article/85844 e assicurarsi che la SVM partner {entity_id} sia nuovamente connessa al modulo host. |
3.0.0 |
Eventi federazione
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
BGP Rtep inattivo | Alto | edge, edge autonomo, gateway del cloud pubblico | Router adiacente BGP RTEP inattivo. |
1. Richiamare il comando della CLI di NSX get logical-routers nel nodo Edge interessato. |
3.0.1 |
Avviso di sincronizzazione da LM a LM | Medio | manager | La sincronizzazione tra le posizioni remote non è riuscita per più di 3 minuti. |
1. Richiamare il comando della CLI di NSX get site-replicator remote-sites per ottenere lo stato della connessione tra le posizioni remote. Se una posizione remota è connessa ma non sincronizzata, è possibile che la posizione sia ancora in fase di risoluzione master. In questo caso, attendere circa 10 secondi e provare a richiamare nuovamente il comando CLI per verificare lo stato della posizione remota. Se una posizione è disconnessa, provare con il passaggio successivo. |
3.0.1 |
Errore di sincronizzazione da LM a LM | Alto | manager | La sincronizzazione tra le posizioni remote non è riuscita per più di 15 minuti. |
1. Richiamare il comando della CLI di NSX get site-replicator remote-sites per ottenere lo stato della connessione tra le posizioni remote. Se una posizione remota è connessa ma non sincronizzata, è possibile che la posizione sia ancora in fase di risoluzione master. In questo caso, attendere circa 10 secondi e provare a richiamare nuovamente il comando CLI per verificare lo stato della posizione remota. Se una posizione è disconnessa, provare con il passaggio successivo. |
3.0.1 |
Connettività RTEP persa | Alto | manager | Connettività della posizione RTEP persa. |
1. Richiamare il comando della CLI di NSX get logical-routers nel nodo Edge interessato {transport_node_name}. |
3.0.2 |
Split Brain da GM a GM | Critico | global-manager | Più nodi di Global Manager sono attivi contemporaneamente. |
Configurare un solo nodo di Global Manager attivo e tutti gli altri come standby. |
3.1.0 |
Avviso latenza da GM a GM | Medio | global-manager | La latenza tra i Global Manager è più elevata del previsto per più di 2 minuti |
Controllare la connettività da Global Manager {from_gm_path}({site_id}) a Global Manager {to_gm_path}({remote_site_id}) tramite ping. Se non è possibile eseguire il ping, verificare l'affidabilità della connettività WAN. |
3.2.0 |
Avviso di sincronizzazione da GM a GM | Medio | global-manager | Impossibile sincronizzare il Global Manager attivo e quello di standby |
Controllare la connettività da Global Manager {from_gm_path}({site_id}) a Global Manager {to_gm_path}({remote_site_id}) tramite ping. |
3.2.0 |
Errore di sincronizzazione da GM a GM | Alto | global-manager | Impossibile sincronizzare il Global Manager attivo e quello di standby per più di 5 minuti |
Controllare la connettività da Global Manager {from_gm_path}({site_id}) a Global Manager {to_gm_path}({remote_site_id}) tramite ping. |
3.2.0 |
Avviso di sincronizzazione da GM a LM | Medio | global-manager, manager | La sincronizzazione dei dati tra il Global Manager (GM) e il Local Manager (LM) non è riuscita. |
1. Controllare la connettività di rete tra il sito remoto e il sito locale tramite ping. |
3.2.0 |
Errore di sincronizzazione da GM a LM | Alto | global-manager, manager | La sincronizzazione dei dati tra il Global Manager (GM) e il Local Manager (LM) non è riuscita per un periodo di tempo prolungato. |
1. Controllare la connettività di rete tra il sito remoto e il sito locale tramite ping. |
3.2.0 |
Soglia di occupazione della coda superata | Medio | manager, global-manager | È stata superata la soglia di avviso della dimensione di occupazione della coda. |
Le dimensioni della coda possono superare la soglia a causa di un problema di comunicazione con il sito remoto o un sistema sovraccarico. Verificare le prestazioni del sistema e /var/log/async-replicator/ar.log per verificare se sono presenti errori segnalati. |
3.2.0 |
Avviso di latenza da GM a LM | Medio | global-manager, manager | La latenza tra il Global Manager e il Local Manager è più elevata del previsto per più di 2 minuti. |
1. Controllare la connettività di rete tra il sito remoto e il sito locale tramite ping. |
3.2.0 |
Ripristino LM durante l'importazione della configurazione in corso | Alto | global-manager | Local Manager viene ripristinato durante l'importazione della configurazione in Global Manager. |
1. Accedere alla CLI dell'appliance NSX Global Manager. |
3.2.0 |
Eventi del firewall del gateway
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Numero di flussi IP elevato | Medio | edge, gateway del cloud pubblico | L'utilizzo della tabella di flusso del firewall del gateway per il traffico IP è elevato. I nuovi flussi verranno eliminati dal firewall del gateway quando l'utilizzo raggiunge il limite massimo. |
Accedere come utente amministratore nel nodo Edge e richiamare il comando della CLI di NSX get firewall <LR_INT_UUID> interface stats | json utilizzando l'UUID dell'interfaccia corretta e la tabella di flusso di controllo utilizzata per i flussi IP. Il controllo dei flussi del traffico che attraversano il gateway non è un attacco DOS o un burst anomalo. Se il traffico sembra trovarsi all'interno del carico normale ma si verifica una soglia di allarme, è consigliabile aumentare la soglia dell'allarme o instradare il nuovo traffico verso un altro nodo Edge. |
3.1.3 |
Numero di flussi IP superato | Critico | edge, gateway del cloud pubblico | La tabella di flusso del firewall del gateway per il traffico IP ha superato la soglia impostata. I nuovi flussi verranno eliminati dal firewall del gateway quando l'utilizzo raggiunge il limite massimo. |
Accedere come utente amministratore nel nodo Edge e richiamare il comando della CLI di NSX get firewall <LR_INT_UUID> interface stats | json utilizzando l'UUID dell'interfaccia corretta e la tabella di flusso di controllo utilizzata per i flussi IP. Il controllo dei flussi del traffico che attraversano il gateway non è un attacco DOS o un burst anomalo. Se il traffico sembra trovarsi all'interno del carico normale ma si verifica una soglia di allarme, è consigliabile aumentare la soglia dell'allarme o instradare il nuovo traffico verso un altro nodo Edge. |
3.1.3 |
Numero di flussi UDP elevato | Medio | edge, gateway del cloud pubblico | L'utilizzo della tabella di flusso del firewall del gateway per il traffico UDP è elevato. I nuovi flussi verranno eliminati dal firewall del gateway quando l'utilizzo raggiunge il limite massimo. |
Accedere come utente amministratore nel nodo Edge e richiamare il comando della CLI di NSX get firewall <LR_INT_UUID> interface stats | json utilizzando l'UUID dell'interfaccia corretta e la tabella di flusso di controllo utilizzata per i flussi UDP. Il controllo dei flussi del traffico che attraversano il gateway non è un attacco DOS o un burst anomalo. Se il traffico sembra trovarsi all'interno del carico normale ma si verifica una soglia di allarme, è consigliabile aumentare la soglia dell'allarme o instradare il nuovo traffico verso un altro nodo Edge. |
3.1.3 |
Numero di flussi UDP superato | Critico | edge, gateway del cloud pubblico | La tabella di flusso del firewall del gateway per il traffico UDP ha superato la soglia impostata. I nuovi flussi verranno eliminati dal firewall del gateway quando l'utilizzo raggiunge il limite massimo. |
Accedere come utente amministratore nel nodo Edge e richiamare il comando della CLI di NSX get firewall <LR_INT_UUID> interface stats | json utilizzando l'UUID dell'interfaccia corretta e la tabella di flusso di controllo utilizzata per i flussi UDP. Il controllo dei flussi del traffico che attraversano il gateway non è un attacco DOS o un burst anomalo. Se il traffico sembra trovarsi all'interno del carico normale ma si verifica una soglia di allarme, è consigliabile aumentare la soglia dell'allarme o instradare il nuovo traffico verso un altro nodo Edge. |
3.1.3 |
Numero di flussi ICMP elevato | Medio | edge, gateway del cloud pubblico | L'utilizzo della tabella di flusso del firewall del gateway per il traffico ICMP è elevato. I nuovi flussi verranno eliminati dal firewall del gateway quando l'utilizzo raggiunge il limite massimo. |
Accedere come utente amministratore nel nodo Edge e richiamare il comando della CLI di NSX get firewall <LR_INT_UUID> interface stats | json utilizzando l'UUID dell'interfaccia corretta e la tabella di flusso di controllo utilizzata per i flussi ICMP. Il controllo dei flussi del traffico che attraversano il gateway non è un attacco DOS o un burst anomalo. Se il traffico sembra trovarsi all'interno del carico normale ma si verifica una soglia di allarme, è consigliabile aumentare la soglia dell'allarme o instradare il nuovo traffico verso un altro nodo Edge. |
3.1.3 |
Numero di flussi ICMP superato | Critico | edge, gateway del cloud pubblico | La tabella di flusso del firewall del gateway per il traffico ICMP ha superato la soglia impostata. I nuovi flussi verranno eliminati dal firewall del gateway quando l'utilizzo raggiunge il limite massimo. |
Accedere come utente amministratore nel nodo Edge e richiamare il comando della CLI di NSX get firewall <LR_INT_UUID> interface stats | json utilizzando l'UUID dell'interfaccia corretta e la tabella di flusso di controllo utilizzata per i flussi ICMP. Il controllo dei flussi del traffico che attraversano il gateway non è un attacco DOS o un burst anomalo. Se il traffico sembra trovarsi all'interno del carico normale ma si verifica una soglia di allarme, è consigliabile aumentare la soglia dell'allarme o instradare il nuovo traffico verso un altro nodo Edge. |
3.1.3 |
Numero di flussi TCP semiaperti elevato | Medio | edge, gateway del cloud pubblico | L'utilizzo della tabella di flusso del firewall del gateway per il traffico TCP half-open è elevato. I nuovi flussi verranno eliminati dal firewall del gateway quando l'utilizzo raggiunge il limite massimo. |
Accedere come utente amministratore nel nodo Edge e richiamare il comando della CLI di NSX get firewall <LR_INT_UUID> interface stats | json utilizzando l'UUID dell'interfaccia corretta e la tabella di flusso di controllo utilizzata per il flusso TCP semiaperto. Il controllo dei flussi del traffico che attraversano il gateway non è un attacco DOS o un burst anomalo. Se il traffico sembra trovarsi all'interno del carico normale ma si verifica una soglia di allarme, è consigliabile aumentare la soglia dell'allarme o instradare il nuovo traffico verso un altro nodo Edge. |
3.1.3 |
Numero di flussi TCP semiaperti superato | Critico | edge, gateway del cloud pubblico | La tabella di flusso del firewall del gateway per il traffico mezzo aperto TCP ha superato la soglia impostata. I nuovi flussi verranno eliminati dal firewall del gateway quando l'utilizzo raggiunge il limite massimo. |
Accedere come utente amministratore nel nodo Edge e richiamare il comando della CLI di NSX get firewall <LR_INT_UUID> interface stats | json utilizzando l'UUID dell'interfaccia corretta e l'utilizzo della tabella di flusso di controllo utilizzata per i flussi TCP semiaperti. Il controllo dei flussi del traffico che attraversano il gateway non è un attacco DOS o un burst anomalo. Se il traffico sembra trovarsi all'interno del carico normale ma si verifica una soglia di allarme, è consigliabile aumentare la soglia dell'allarme o instradare il nuovo traffico verso un altro nodo Edge. |
3.1.3 |
Eventi gruppi
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Limite dimensione gruppo superato | Medio | manager | Il numero totale di elementi del gruppo convertiti ha superato il limite massimo. |
1. È consigliabile regolare gli elementi del gruppo nel gruppo sovradimensionato {group_id}. |
4.1.0 |
Eventi ad alta disponibilità
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Failover gateway di livello 0 | Alto | edge, edge autonomo, gateway del cloud pubblico | Failover di un gateway di livello 0. |
Richiamare il comando della CLI di NSX get logical-router <service_router_id> per identificare l'ID vrf del router del servizio di livello 0. Passare al contesto vrf context richiamando il comando vrf <vrf-id>, quindi richiamare il comando get high-availability status per determinare il servizio inattivo. |
3.0.0 |
Failover gateway di livello 1 | Alto | edge, edge autonomo, gateway del cloud pubblico | Failover di un gateway di livello 1. |
Richiamare il comando della CLI di NSX get logical-router <service_router_id> per identificare l'ID vrf del router del servizio di livello 1. Passare al contesto vrf context richiamando il comando vrf <vrf-id>, quindi richiamare il comando get high-availability status per determinare il servizio inattivo. |
3.0.0 |
Failover del gruppo di servizi di livello 0 | Alto | edge, gateway del cloud pubblico | Il gruppo di servizi non dispone di un'istanza attiva. |
Richiamare il comando della CLI di NSX get logical-router <service_router_id> service_group per controllare tutti i gruppi di servizi configurati in un determinato router di servizio. Esaminare l'output per cercare il motivo per cui un gruppo di servizi lascia lo stato attivo. |
4.0.1 |
Failover del gruppo di servizi di livello 1 | Alto | edge, gateway del cloud pubblico | Il gruppo di servizi non dispone di un'istanza attiva. |
Richiamare il comando della CLI di NSX get logical-router <service_router_id> service_group per controllare tutti i gruppi di servizi configurati in un determinato router di servizio. Esaminare l'output per cercare il motivo per cui un gruppo di servizi lascia lo stato attivo. |
4.0.1 |
Ridondanza ridotta del gruppo di servizi di livello 0 | Medio | edge, gateway del cloud pubblico | Un'istanza di standby in un gruppo di servizi non è riuscita. |
Richiamare il comando della CLI di NSX get logical-router <service_router_id> service_group per controllare tutti i gruppi di servizi configurati in un determinato router di servizio. Esaminare l'output per cercare il motivo dell'errore per un gruppo di servizi in standby precedente. |
4.0.1 |
Ridondanza ridotta del gruppo di servizi di livello 1 | Medio | edge, gateway del cloud pubblico | Un'istanza di standby in un gruppo di servizi non è riuscita. |
Richiamare il comando della CLI di NSX get logical-router <service_router_id> service_group per controllare tutti i gruppi di servizi configurati in un determinato router di servizio. Esaminare l'output per cercare il motivo dell'errore per un gruppo di servizi in standby precedente. |
4.0.1 |
Eventi del firewall di identità
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Connettività al server LDAP persa | Critico | manager | La connettività al server LDAP viene persa. |
Controllare |
3.1.0 |
Errore durante la sincronizzazione Delta | Critico | manager | Si sono verificati errori durante l'esecuzione della sincronizzazione delta. |
1. Verificare se è presente una connettività agli allarmi di perdita del server LDAP. |
3.1.0 |
Eventi di comunicazione dell'infrastruttura
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Tunnel Edge inattivi | Critico | edge, gateway del cloud pubblico | Lo stato del tunnel di un nodo Edge è inattivo. |
Richiamare il comando della CLI di NSX get tunnel-ports per ottenere tutte le porte del tunnel, quindi controllare le statistiche di ciascun tunnel richiamando il comando della CLI di NSX get tunnel-port <UUID> stats per verificare se sono presenti interruzioni. Controllare inoltre /var/log/syslog se sono presenti errori relativi a tunnel. |
3.0.0 |
Eventi del servizio infrastruttura
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Stato servizio sconosciuto nella DPU | Critico | dpu | Lo stato del servizio nella DPU è anomalo. |
Verificare che il servizio {service_name} nella DPU {dpu_id} sia ancora in esecuzione richiamando lo stato /etc/init.d/ di {service_name}. Se il servizio viene segnalato come in esecuzione, potrebbe essere necessario riavviarlo; ciò può essere eseguito tramite il riavvio /etc/init.d/ di {service_name}. Eseguire nuovamente il comando status per verificare che il servizio sia ora in esecuzione. Se il riavvio del servizio non risolve il problema o se il problema si ripresenta dopo un riavvio corretto, contattare l'assistenza VMware. |
4.0.0 |
Stato del servizio sconosciuto | Critico | esx, kvm, bms, edge, manager, gateway del cloud pubblico global-manager | Lo stato del servizio è anomalo. |
Verificare che il servizio {service_name} sia ancora in esecuzione richiamando lo stato /etc/init.d/ di {service_name}. Se il servizio viene segnalato come in esecuzione, potrebbe essere necessario riavviarlo; ciò può essere eseguito tramite il riavvio /etc/init.d/ di {service_name}. Eseguire nuovamente il comando status per verificare che il servizio sia ora in esecuzione. Se lo script /etc/init.d/{service_name} non è disponibile, richiamare lo stato systemctl {service_name} e riavviare mediante systemctl {service_name} con privilegi root. Se il riavvio del servizio non risolve il problema o se il problema si ripresenta dopo un riavvio corretto, contattare l'assistenza VMware. |
3.1.0 |
Consegna delle metriche non riuscita | Critico | esx, bms, edge, manager, gateway del cloud pubblico, global-manager | Impossibile consegnare le metriche alla destinazione specificata. |
L'utente deve eseguire i controlli seguenti per escludere il problema che causa l'errore: 1. Controllare se l'indirizzo di destinazione {metrics_target_address} e la porta {metrics_target_port} (il valore predefinito è 443 nel caso in cui la porta non sia specificata) passata per la connessione siano la destinazione prevista, 2. Verificare che il certificato sia corretto tramite /opt/vmware/nsx-nestdb/bin/nestdb-cli --cmd "put vmware.nsx.nestdb.CommonAgentHostConfigMsg", 3. Controllare se {metrics_target_address} di destinazione è raggiungibile, 4. Verificare che il gestore delle metriche in {metrics_target_address} di destinazione sia in esecuzione da docker ps | grep metrics_manager, 5. Verificare se la porta {metrics_target_port} è aperta da netstat -a | grep {metrics_target_port} nella destinazione, 6. Verificare che nel nodo sia installata la regola firewall ALLOW tramite iptables -S OUTPUT | grep {metrics_target_port}(EDGE/UA) o localcli network firewall ruleset list | grep nsx-sha-tsdb(ESX), 7. Riavviare il daemon SHA per verificare se può essere risolto tramite /etc/init.d/netopa restart(ESX) o /etc/init.d/nsx-netopa restart(EDGE) o /etc/init.d/nsx-sha restart(UA). |
4.1.0 |
Stato del servizio Edge inattivo | Critico | edge, edge autonomo, gateway del cloud pubblico | Il servizio Edge è inattivo per almeno un minuto. |
Nel nodo Edge, verificare che il servizio non sia stato disattivato a causa di un errore durante la ricerca dei file core nella directory /var/log/core. Richiamare inoltre il comando della CLI di NSX get services per confermare se il servizio è stato interrotto. In tal caso, richiamare il comando start service <service-name> per riavviare il servizio. |
3.0.0 |
Stato del servizio Edge modificato | Medio | edge, edge autonomo, gateway del cloud pubblico | Lo stato del servizio Edge è stato modificato. |
Nel nodo Edge, verificare che il servizio non sia stato disattivato a causa di un errore durante la ricerca dei file core nella directory /var/log/core. Richiamare inoltre il comando della CLI di NSX get services per confermare se il servizio è stato interrotto. In tal caso, richiamare il comando start service <service-name> per riavviare il servizio. |
3.0.0 |
Arresto anomalo dell'applicazione | Critico | global-manager, edge autonomo, bms, edge, esx, kvm, manager, gateway del cloud pubblico | L'applicazione si è arrestata in modo anomalo e ha generato un dump core. |
Raccogliere il bundle di supporto per il nodo NSX {node_display_or_host_name} utilizzando l'interfaccia utente o l'API di NSX Manager. Nota: i dump principali possono essere impostati per essere spostati o copiati nel bundle di supporto tecnico di NSX per rimuovere o conservare la copia locale nel nodo. La copia del bundle di supporto con i file di dump core è essenziale per consentire al team di assistenza VMware di risolvere il problema ed è consigliabile salvare una copia più recente del bundle di supporto tecnico che includa i file di dump principali prima di rimuovere i file di dump principali dal sistema. Per ulteriori dettagli, fare riferimento all'articolo della KB. |
4.0.0 |
Eventi di comunicazione di Intelligence
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Utilità di esportazione del flusso del nodo di trasporto disconnessa | Alto | esx, kvm, bms | Un nodo di trasporto è disconnesso dal broker di messaggistica del nodo di Intelligence. Questo influisce sulla raccolta dati. |
Riavviare il servizio di messaggistica se non è in esecuzione nel nodo di Intelligence. Risolvere l'errore di connessione di rete tra l'utilità di esportazione del flusso del nodo di trasporto e il nodo di Intelligence. |
3.0.0 |
Eventi integrità di Intelligence
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Utilizzo della CPU molto elevato | Critico | manager, intelligence | L'utilizzo della CPU del nodo di Intelligence è molto elevato. |
Utilizzare il comando top per verificare quali processi hanno il maggior numero di utilizzi della CPU, quindi controllare /var/log/syslog e i registri locali di questi processi per verificare se sono presenti errori in sospeso da risolvere. |
3.0.0 |
Utilizzo della CPU elevato | Medio | manager, intelligence | L'utilizzo della CPU del nodo di Intelligence è elevato. |
Utilizzare il comando top per verificare quali processi hanno il maggior numero di utilizzi della CPU, quindi controllare /var/log/syslog e i registri locali di questi processi per verificare se sono presenti errori in sospeso da risolvere. |
3.0.0 |
Utilizzo della memoria molto elevato | Critico | manager, intelligence | L'utilizzo della memoria del nodo di Intelligence è molto elevato. |
Utilizzare il comando top per verificare quali processi hanno il maggior numero di utilizzi della memoria, quindi controllare /var/log/syslog e i registri locali di questi processi per verificare se sono presenti errori in sospeso da risolvere. |
3.0.0 |
Utilizzo della memoria elevato | Medio | manager, intelligence | L'utilizzo della memoria del nodo di Intelligence è elevato. |
Utilizzare il comando top per verificare quali processi hanno il maggior numero di utilizzi della memoria, quindi controllare /var/log/syslog e i registri locali di questi processi per verificare se sono presenti errori in sospeso da risolvere. |
3.0.0 |
Utilizzo del disco molto elevato | Critico | manager, intelligence | L'utilizzo del disco del nodo di Intelligence è molto elevato. |
Esaminare la partizione del disco {disk_partition_name} e verificare se sono presenti file di grandi dimensioni non previsti che possono essere rimossi. |
3.0.0 |
Utilizzo del disco elevato | Medio | manager, intelligence | L'utilizzo del disco del nodo di Intelligence è elevato. |
Esaminare la partizione del disco {disk_partition_name} e verificare se sono presenti file di grandi dimensioni non previsti che possono essere rimossi. |
3.0.0 |
Utilizzo partizione disco dati molto elevato | Critico | manager, intelligence | L'utilizzo della partizione del disco dati del nodo di Intelligence è molto elevato. |
Interrompere la raccolta dei dati NSX Intelligence finché l'utilizzo del disco non è inferiore alla soglia. Nell'interfaccia utente di NSX passare a Sistema | Appliance | Appliance NSX Intelligence. Quindi Fare clic su AZIONI, Interrompi raccolta dati. |
3.0.0 |
Utilizzo partizione disco dati elevato | Medio | manager, intelligence | L'utilizzo della partizione del disco dati del nodo di Intelligence è elevato. |
Interrompere la raccolta dei dati NSX Intelligence finché l'utilizzo del disco non è inferiore alla soglia. Esaminare la partizione del disco/dati e verificare se sono presenti file di grandi dimensioni non previsti che possono essere rimossi. |
3.0.0 |
Latenza di archiviazione elevata | Medio | manager, intelligence | La latenza di archiviazione del nodo di Intelligence è elevata. |
È possibile che si verifichi una latenza di archiviazione elevata transitoria a causa del picco di richieste di I/O. Se la latenza di archiviazione rimane alta per più di 30 minuti, è consigliabile distribuire l'appliance NSX Intelligence in un disco a bassa latenza o non condividere lo stesso dispositivo di archiviazione con altre macchine virtuali. |
3.1.0 |
Stato del nodo danneggiato | Alto | manager, intelligence | Lo stato del nodo di Intelligence è danneggiato. |
Richiamare l'NSX API GET /napp/api/v1/platform/monitor/category/health per verificare quale pod specifico è inattivo e il motivo. Richiamare il seguente comando della CLI per riavviare il servizio danneggiato: kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> |
3.0.0 |
Eventi IPAM
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Utilizzo blocco IP molto elevato | Medio | manager | L'utilizzo del blocco IP è molto elevato. |
Esaminare l'utilizzo del blocco IP. Utilizzare il nuovo blocco IP per la creazione delle risorse o eliminare subnet IP inutilizzata dal blocco IP. Per controllare la subnet utilizzata per il blocco IP. Dall'interfaccia utente di NSX, passare alla scheda Rete | Pool di indirizzi IP| Pool di indirizzi IP. Selezionare i pool di IP in cui viene utilizzato il blocco IP, controllare la colonna Subnet e IP allocati nell'interfaccia utente. Se per il pool di IP non è stata utilizzata alcuna allocazione e non verrà utilizzato in futuro, eliminare la subnet o il pool IP. Utilizzare l'API seguente per verificare se il blocco di IP è utilizzato dal pool di IP e verificare anche la presenza di allocazioni di IP: Per ottenere le subnet configurate di un pool IP, richiamare l'NSX API GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-subnets Per ottenere le allocazioni IP, richiamare l'NSX API GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations Nota: l'eliminazione del pool o della subnet IP deve essere eseguita solo se non dispone di alcun IP allocato e non verrà utilizzata in futuro. |
3.1.2 |
Utilizzo pool di IP molto elevato | Medio | manager | L'utilizzo del pool di IP è molto elevato. |
Esaminare l'utilizzo del pool di IP. Rilasciare le allocazioni IP inutilizzate dal pool IP o creare un nuovo pool di IP e utilizzarlo. Dall'interfaccia utente di NSX passare alla scheda Rete | Pool di indirizzi IP| Pool di indirizzi IP. Selezionare i pool IP e controllare la colonna IP allocati per visualizzare gli IP allocati dal pool di IP. Se l'utente visualizza IP che non sono utilizzati, tali IP possono essere rilasciati. Per rilasciare le allocazioni IP inutilizzate, richiamare l'NSX API DELETE /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations/<ip-allocation> |
3.1.2 |
Eventi licenze
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Licenza scaduta | Critico | global-manager, manager | Una licenza è scaduta. |
Aggiungere una nuova licenza non scaduta utilizzando l'interfaccia utente di NSX passando a Sistema | Licenze, quindi fare clic su AGGIUNGI e specificare la chiave della nuova licenza. La licenza scaduta deve essere eliminata selezionando la casella di controllo della licenza e facendo clic su ELIMINA. |
3.0.0 |
La licenza sta per scadere | Medio | global-manager, manager | Una licenza sta per scadere. |
La licenza scadrà tra diversi giorni. È consigliabile aggiungere una nuova licenza non scaduta utilizzando l'interfaccia utente di NSX passando a Sistema | Licenze, quindi fare clic su AGGIUNGI e specificare la chiave della nuova licenza. La licenza scaduta deve essere eliminata selezionando la casella di controllo della licenza e facendo clic su ELIMINA. |
3.0.0 |
Eventi di bilanciamento del carico
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
CPU LB molto elevata | Medio | edge | L'utilizzo della CPU del bilanciamento del carico è molto elevato. |
Se l'utilizzo della CPU del bilanciamento del carico è maggiore della soglia di utilizzo del sistema, il carico di lavoro è troppo elevato per questo bilanciamento del carico. Ridimensionare il servizio di bilanciamento del carico modificando le dimensioni del bilanciamento del carico da piccole a medie o da medie a grandi. Se l'utilizzo della CPU di questo bilanciamento del carico è ancora elevato, è consigliabile modificare le dimensioni del fattore di forma dell'appliance Edge o spostare i servizi di bilanciamento del carico in altri nodi Edge per il carico di lavoro applicabile. |
3.0.0 |
Stato LB danneggiato | Medio | manager | Il servizio di bilanciamento del carico è danneggiato. |
Per il bilanciamento del carico centralizzato: Controllare lo stato del bilanciamento del carico nel nodo Edge di standby perché lo stato danneggiato indica che lo stato del bilanciamento del carico nel nodo Edge di standby non è pronto. Nel nodo Edge di standby, richiamare il comando della CLI di NSX get load-balancer <lb-uuid> status. Se lo stato LB del servizio del bilanciamento del carico è not_ready o non è presente alcun output, attivare la modalità di manutenzione per il nodo Edge, quindi uscire dalla modalità di manutenzione. Per il bilanciamento del carico distribuito: |
3.1.2 |
Stato DLB inattivo | Critico | manager | Il servizio di bilanciamento del carico distribuito è inattivo. |
Nel nodo host ESXi, richiamare il comando della CLI di NSX "get load-balancer <lb-uuid> status". Se viene segnalato 'LSP di conflitto', verificare che questo LSP sia collegato a un altro servizio di bilanciamento del carico. Verificare che questo conflitto sia accettabile. Se viene segnalato "LSP non pronto", controllare lo stato di questo LSP richiamando il comando della CLI di NSX get logical-switch-port status. |
3.1.2 |
Stato LB inattivo | Critico | edge | Il servizio di bilanciamento del carico centralizzato è inattivo. |
Nel nodo Edge attivo, controllare lo stato del bilanciamento del carico richiamando il comando della CLI di NSX get load-balancer <lb-uuid> status. Se lo stato LB del servizio del bilanciamento del carico è not_ready o non è presente alcun output, attivare la modalità di manutenzione per il nodo Edge, quindi uscire dalla modalità di manutenzione. |
3.0.0 |
Stato server virtuale inattivo | Medio | edge | Il servizio virtuale del bilanciamento del carico è inattivo. |
Consultare il pool di bilanciamento del carico per determinarne lo stato e verificarne la configurazione. Se configurato in modo errato, riconfigurarlo e rimuovere il pool di bilanciamento del carico dal server virtuale, quindi aggiungerlo nuovamente al server virtuale. |
3.0.0 |
Stato pool inattivo | Medio | edge | Il pool di bilanciamento del carico è inattivo. |
Consultare il pool di bilanciamento del carico per determinare quali membri sono inattivi richiamando il comando della CLI di NSX get load-balancer <lb-uuid> pool <pool-uuid> status o l'NSX API GET /policy/api/v1/infra/lb-services/<lb-service-id>/lb-pools/<lb-pool-id>/detailed-status Se viene segnalato INATTIVO o SCONOSCIUTO, verificare il membro del pool. Controllare la connettività di rete dal bilanciamento del carico ai membri del pool interessati. Convalidare l'integrità dell'applicazione per ogni membro del pool. Convalidare inoltre l'integrità di ciascun membro del pool utilizzando il monitor configurato. Quando viene stabilita l'integrità del membro, lo stato del membro del pool viene aggiornato come integro in base alla configurazione 'Numero controlli positivi' nel monitor. Correggere il problema riavviando il membro del pool o impostando la modalità di manutenzione per il nodo Edge, quindi uscire dalla modalità di manutenzione. |
3.0.0 |
Capacità Edge LB in uso elevata | Medio | edge | L'utilizzo del bilanciamento del carico è elevato. |
Se sono state configurate più istanze LB in questo nodo Edge, distribuire un nuovo nodo Edge e spostare alcune istanze LB in quest'ultimo. Se è stata configurata solo una singola istanza LB (piccola/media/ecc.) in un nodo Edge delle stesse dimensioni (piccola/media/ecc.), distribuire un nuovo Edge di dimensioni maggiori e spostare l'istanza LB in quest'ultimo. |
3.1.2 |
Capacità membro pool LB in uso molto elevata | Critico | edge | L'utilizzo del membro del pool di bilanciamento del carico è molto elevato. |
Distribuire un nuovo nodo Edge e spostare il servizio di bilanciamento del carico dai nodi Edge esistenti al nodo Edge appena distribuito. |
3.1.2 |
Configurazione del bilanciamento del carico non realizzata a causa della mancanza di memoria | Medio | edge | La configurazione del bilanciamento del carico non è stata realizzata a causa dell'utilizzo elevato della memoria nel nodo Edge. |
Preferire la definizione dei bilanciamenti del carico di piccole e medie dimensioni rispetto ai bilanciamenti del carico di grandi dimensioni. Distribuire i servizi di bilanciamento del carico tra i nodi Edge disponibili. Ridurre il numero di server virtuali definiti. |
3.2.0 |
Eventi integrità prevenzione malware
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Stato servizio inattivo | Alto | manager | Lo stato del servizio è inattivo. |
1. Nel nodo Edge identificato da {nsx_edge_tn_name}, richiamare il comando della CLI di NSX get services per verificare lo stato di {mps_service_name}. Esaminare /var/log/syslog per trovare gli errori sospetti. |
4.0.1 |
Servizio di estrazione file non raggiungibile | Alto | manager | Lo stato del servizio è danneggiato. |
1. Nel nodo Edge identificato da {nsx_edge_tn_name}, richiamare il comando della CLI di NSX get ids engine status per verificare lo stato del servizio file_extraction (IDS). Esaminare /var/log/syslog per trovare eventuali errori sospetti con il servizio di estrazione del file (IDS) e/o {mps_service_name}. |
4.0.1 |
Directory non raggiungibile | Alto | manager | Lo stato del servizio è danneggiato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali per verificare quale servizio è danneggiato. Richiamare l'NSX API GET /napp/api/v1/platform/monitor/feature/health per verificare quale servizio specifico è inattivo e il motivo. Richiamare il seguente comando della CLI per riavviare il servizio danneggiato: kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> Determinare lo stato del servizio Database per la prevenzione malware. |
4.0.1 |
Servizio API analisti non raggiungibile | Alto | manager | Lo stato del servizio è danneggiato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali per verificare quale servizio è danneggiato. Richiamare l'NSX API GET /napp/api/v1/platform/monitor/feature/health per verificare quale servizio specifico è inattivo e il motivo. Richiamare il seguente comando della CLI per riavviare il servizio danneggiato: kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> Determinare lo stato del servizio Connettore cloud per la prevenzione malware. |
4.0.1 |
Servizio di reputazione NTICS non raggiungibile | Alto | manager | Lo stato del servizio è danneggiato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali per verificare quale servizio è danneggiato. Richiamare l'NSX API GET /napp/api/v1/platform/monitor/feature/health per verificare quale servizio specifico è inattivo e il motivo. Richiamare il seguente comando della CLI per riavviare il servizio danneggiato: kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> Determinare se l'accesso al servizio NTICS è inattivo. |
4.1.0 |
Eventi di integrità di Manager
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Utilizzo CPU Manager molto elevato | Critico | global-manager, manager | L'utilizzo della CPU del nodo di Manager è molto elevato. |
Esaminare la configurazione, i servizi in esecuzione e il dimensionamento di questo nodo di Manager. È consigliabile modificare la dimensione del fattore di forma dell'appliance Manager. |
3.0.0 |
Utilizzo CPU Manager elevato | Medio | global-manager, manager | L'utilizzo della CPU del nodo di Manager è elevato. |
Esaminare la configurazione, i servizi in esecuzione e il dimensionamento di questo nodo di Manager. È consigliabile modificare la dimensione del fattore di forma dell'appliance Manager. |
3.0.0 |
Utilizzo memoria Manager molto elevato | Critico | global-manager, manager | L'utilizzo della memoria del nodo di Manager è molto elevato. |
Esaminare la configurazione, i servizi in esecuzione e il dimensionamento di questo nodo di Manager. È consigliabile modificare la dimensione del fattore di forma dell'appliance Manager. |
3.0.0 |
Utilizzo memoria Manager elevato | Medio | global-manager, manager | L'utilizzo della memoria del nodo di Manager è elevato. |
Esaminare la configurazione, i servizi in esecuzione e il dimensionamento di questo nodo di Manager. È consigliabile modificare la dimensione del fattore di forma dell'appliance Manager. |
3.0.0 |
Utilizzo disco Manager molto elevato | Critico | global-manager, manager | L'utilizzo del disco del nodo di Manager è molto elevato. |
Esaminare la partizione con utilizzo elevato e verificare se sono presenti file di grandi dimensioni non previsti che possono essere rimossi. |
3.0.0 |
Utilizzo disco Manager elevato | Medio | global-manager, manager | L'utilizzo del disco del nodo di Manager è elevato. |
Esaminare la partizione con utilizzo elevato e verificare se sono presenti file di grandi dimensioni non previsti che possono essere rimossi. |
3.0.0 |
Utilizzo disco di configurazione Manager molto elevato | Critico | global-manager, manager | L'utilizzo del disco di configurazione del nodo di Manager è molto elevato. |
Eseguire lo strumento seguente e contattare GSS se vengono segnalati problemi /opt/vmware/tools/support/inspect_checkpoint_issues.py |
3.0.0 |
Utilizzo disco di configurazione Manager elevato | Medio | global-manager, manager | L'utilizzo del disco di configurazione del nodo di Manager è elevato. |
Eseguire lo strumento seguente e contattare GSS se vengono segnalati problemi /opt/vmware/tools/support/inspect_checkpoint_issues.py |
3.0.0 |
Utilizzo disco database operazioni molto elevato | Critico | manager | L'utilizzo del disco di non configurazione del nodo di Manager è molto elevato. |
Eseguire lo strumento seguente e contattare GSS se vengono segnalati problemi /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig |
3.0.1 |
Utilizzo disco database operazioni elevato | Medio | manager | L'utilizzo del disco di non configurazione del nodo di Manager è elevato. |
Eseguire lo strumento seguente e contattare GSS se vengono segnalati problemi /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig |
3.0.1 |
Indirizzo IP duplicato | Medio | manager | L'indirizzo IP del nodo di Manager è utilizzato da un altro dispositivo. |
1. Determinare quale dispositivo sta utilizzando l'indirizzo IP di Manager e assegnare al dispositivo un nuovo indirizzo IP. Nota: la riconfigurazione di Manager per l'uso di un nuovo indirizzo IP non è supportata. |
3.0.0 |
Errore di archiviazione | Critico | global-manager, manager | Il disco del nodo di Manager è di sola lettura. |
Esaminare la partizione di sola lettura per verificare se il riavvio risolve il problema o se è necessario sostituire il disco. Per ulteriori informazioni, contattare GSS. |
3.0.2 |
Voce DNS mancante per il nome di dominio completo di Manager | Critico | global-manager, manager | Voce DNS mancante per il nome di dominio completo di Manager. |
1. Assicurarsi che nel nodo di Manager siano configurati i server DNS appropriati. |
4.1.0 |
Voce DNS mancante per l'FQDN del VIP | Critico | manager | Voce FQDN mancante per il VIP di Manager. |
Esaminare la voce DNS per gli indirizzi VIP per verificare se vengono risolti nello stesso FQDN. |
4.1.0 |
Eventi di controllo MTU
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Mancata corrispondenza della MTU all'interno della zona di trasporto | Alto | manager | Configurazione MTU non corrispondente tra i nodi di trasporto collegati alla stessa zona di trasporto. |
1. Passare a Sistema | Infrastruttura | Impostazioni | Controllo configurazione MTU | Incoerente nell'interfaccia utente NSX per controllare ulteriori dettagli non corrispondenti. |
3.2.0 |
MTU router globale troppo grande | Medio | manager | La configurazione MTU del router globale è maggiore del valore MTU della zona di trasporto overlay. |
1. Passare a Sistema | Infrastruttura | Impostazioni | Controllo configurazione MTU | Incoerente nell'interfaccia utente NSX per controllare ulteriori dettagli non corrispondenti. |
3.2.0 |
Eventi NAT
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
L'utilizzo della porta SNAT nel gateway è elevato | Critico | edge, gateway del cloud pubblico | L'utilizzo della porta SNAT nel gateway è elevato. |
Accedere come utente amministratore nel nodo Edge e richiamare il comando della CLI di NSX get firewall <LR_INT_UUID> connection state utilizzando l'UUID dell'interfaccia corretta e controllare le varie mappature SNAT per l'IP SNAT {snat_ip_address}. Verificare che i flussi di traffico che attraversano il gateway non siano un attacco di tipo Denial of Service o un burst anomalo. Se il traffico sembra trovarsi all'interno del carico normale ma si verifica una soglia di allarme, è consigliabile aggiungere più indirizzi IP SNAT per distribuire il carico o instradare il nuovo traffico verso un altro nodo Edge. |
3.2.0 |
Eventi di integrità NCP
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Plug-in NCP inattivo | Critico | manager | Il nodo di Manager ha rilevato che NCP è inattivo o non è integro. |
Per individuare i cluster in cui si verificano problemi, utilizzare l'interfaccia utente di NSX e passare alla pagina Allarmi. Il valore Nome entità per questa istanza dell'allarme identifica il nome del cluster. In alternativa, richiamare l'NSX API GET /api/v1/systemhealth/container-cluster/ncp/status per recuperare tutti gli stati dei cluster e determinare il nome di tutti i cluster che segnalano INATTIVO o SCONOSCIUTO. Quindi nella pagina dell'interfaccia utente NSX Inventario | Container | Cluster trovare il cluster in base al nome e fare clic sulla scheda Nodi, in cui sono elencati tutti i membri dei cluster PAS e Kubernetes. Per i cluster Kubernetes: |
3.0.0 |
Eventi di integrità degli agenti nodo
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Agenti nodo inattivi nella DPU | Alto | dpu | Gli agenti in esecuzione nella macchina virtuale del nodo risultano inattivi nella DPU. |
1. Se nella DPU {dpu_id} non è presente Vmk50, fare riferimento a questo articolo della Knowledge Base https://kb.vmware.com/s/article/67432. |
4.0.0 |
Agenti del nodo inattivi | Alto | esx, kvm | Gli agenti in esecuzione nella macchina virtuale del nodo risultano inattivi. |
Per ESX: |
3.0.0 |
Eventi comunicazione NSX Application Platform
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Manager disconnesso | Alto | manager, intelligence | Il cluster di NSX Application Platform è disconnesso dal cluster di gestione NSX. |
Verificare che il certificato del cluster di Manager, i certificati del nodo di Manager, il certificato Kafka e il certificato in ingresso corrispondano sia in NSX Manager sia nel cluster di NSX Application Platform. Controllare le date di scadenza dei certificati indicati precedentemente per assicurarsi che siano validi. Controllare la connessione di rete tra NSX Manager e il cluster di NSX Application Platform e risolvere eventuali errori di connessione di rete. |
3.2.0 |
Rilevato ritardo nel flusso RAW di messaggistica | Critico | manager, intelligence | È stata rilevata un'elaborazione lenta nel flusso di dati RAW dell'argomento di messaggistica. |
Aggiungere i nodi e scalare verticalmente il cluster di NSX Application Platform. Se l'impedimento può essere attributo a un servizio specifico, ad esempio il servizio di analisi, scalare verticalmente il servizio specifico quando vengono aggiunti nuovi nodi. |
3.2.0 |
Rilevato ritardo nell'overflow della messaggistica | Critico | manager, intelligence | È stata rilevata un'elaborazione lenta nell'overflow dei dati dell'argomento di messaggistica. |
Aggiungere i nodi e scalare verticalmente il cluster di NSX Application Platform. Se l'impedimento può essere attributo a un servizio specifico, ad esempio il servizio di analisi, scalare verticalmente il servizio specifico quando vengono aggiunti nuovi nodi. |
3.2.0 |
Utilità esportazione del flusso del nodo di trasporto disconnessa | Alto | esx, kvm, bms | Un nodo di trasporto è disconnesso dal broker di messaggistica del cluster di NSX Application Platform. Questo influisce sulla raccolta dati. |
Riavviare il servizio di messaggistica se non è in esecuzione nel cluster di NSX Application Platform. Risolvere l'errore di connessione di rete tra l'utilità di esportazione del flusso del nodo di trasporto e il cluster di NSX Application Platform. |
3.2.0 |
Utilità esportazione del flusso del nodo di trasporto disconnessa in DPU | Alto | dpu | Un nodo di trasporto è disconnesso dal broker di messaggistica del nodo di Intelligence. Questo influisce sulla raccolta dati nella DPU. |
Riavviare il servizio di messaggistica se non è in esecuzione nel nodo di Intelligence. Risolvere l'errore di connessione di rete tra l'utilità di esportazione del flusso del nodo di trasporto e il nodo di Intelligence. |
4.0.0 |
Eventi Integrità NSX Application Platform
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Utilizzo CPU cluster molto elevato | Critico | manager, intelligence | L'utilizzo della CPU del cluster di NSX Application Platform è molto elevato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali e controllare il campo Carico di sistema dei singoli servizi per verificare quale servizio è sottoposto a pressione. Verificare se è possibile ridurre il carico. Se è necessaria maggiore potenza di elaborazione, fare clic sul pulsante Scalabilità orizzontale per richiedere ulteriori risorse. |
3.2.0 |
Utilizzo CPU cluster elevato | Medio | manager, intelligence | L'utilizzo della CPU del cluster di NSX Application Platform è elevato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali e controllare il campo Carico di sistema dei singoli servizi per verificare quale servizio è sottoposto a pressione. Verificare se è possibile ridurre il carico. Se è necessaria maggiore potenza di elaborazione, fare clic sul pulsante Scalabilità orizzontale per richiedere ulteriori risorse. |
3.2.0 |
Utilizzo memoria cluster molto elevato | Critico | manager, intelligence | L'utilizzo della memoria del cluster di NSX Application Platform è molto elevato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali e controllare il campo Memoria dei singoli servizi per verificare quale servizio è sottoposto a pressione. Verificare se è possibile ridurre il carico. Se è necessaria più memoria, fare clic sul pulsante Scalabilità orizzontale per richiedere ulteriori risorse. |
3.2.0 |
Utilizzo memoria cluster elevato | Medio | manager, intelligence | L'utilizzo della memoria del cluster di NSX Application Platform è elevato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali e controllare il campo Memoria dei singoli servizi per verificare quale servizio è sottoposto a pressione. Verificare se è possibile ridurre il carico. Se è necessaria più memoria, fare clic sul pulsante Scalabilità orizzontale per richiedere ulteriori risorse. |
3.2.0 |
Utilizzo disco cluster molto elevato | Critico | manager, intelligence | L'utilizzo del disco del cluster di NSX Application Platform è molto elevato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali e controllare il campo Archivio dei singoli servizi per vedere quale servizio è sotto pressione. Verificare se è possibile ridurre il carico. Se è necessario ulteriore storage su disco, fare clic sul pulsante Scalabilità orizzontale per richiedere ulteriori risorse. Se il servizio di archiviazione dei dati è sottoposto a un carico di lavoro, è possibile fare clic sul pulsante Scalabilità verticale per aumentare le dimensioni del disco. |
3.2.0 |
Utilizzo disco cluster elevato | Medio | manager, intelligence | L'utilizzo del disco del cluster di NSX Application Platform è elevato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali e controllare il campo Archivio dei singoli servizi per vedere quale servizio è sotto pressione. Verificare se è possibile ridurre il carico. Se è necessario ulteriore storage su disco, fare clic sul pulsante Scalabilità orizzontale per richiedere ulteriori risorse. Se il servizio di archiviazione dei dati è sottoposto a un carico di lavoro, è possibile fare clic sul pulsante Scalabilità verticale per aumentare le dimensioni del disco. |
3.2.0 |
Stato NAPP danneggiato | Medio | manager, intelligence | Lo stato globale del cluster NSX Application Platform è danneggiato. |
Ottenere ulteriori informazioni dagli allarmi di nodi e servizi. |
3.2.0 |
Stato NAPP inattivo | Alto | manager, intelligence | Lo stato globale del cluster NSX Application Platform è inattivo. |
Ottenere ulteriori informazioni dagli allarmi di nodi e servizi. |
3.2.0 |
Utilizzo CPU nodo molto elevato | Critico | manager, intelligence | L'utilizzo della CPU del nodo NSX Application Platform è molto elevato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali e controllare il campo Carico di sistema dei singoli servizi per verificare quale servizio è sottoposto a pressione. Verificare se è possibile ridurre il carico. Se solo una piccola parte dei nodi ha un utilizzo elevato della CPU, per impostazione predefinita Kubernetes ripianificherà automaticamente i servizi. Se la maggior parte dei nodi ha un utilizzo elevato della CPU e il carico non può essere ridotto, fare clic sul pulsante Scalabilità orizzontale per richiedere ulteriori risorse. |
3.2.0 |
Utilizzo CPU nodo elevato | Medio | manager, intelligence | L'utilizzo della CPU del nodo NSX Application Platform è elevato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali e controllare il campo Carico di sistema dei singoli servizi per verificare quale servizio è sottoposto a pressione. Verificare se è possibile ridurre il carico. Se solo una piccola parte dei nodi ha un utilizzo elevato della CPU, per impostazione predefinita Kubernetes ripianificherà automaticamente i servizi. Se la maggior parte dei nodi ha un utilizzo elevato della CPU e il carico non può essere ridotto, fare clic sul pulsante Scalabilità orizzontale per richiedere ulteriori risorse. |
3.2.0 |
Utilizzo memoria nodo molto elevato | Critico | manager, intelligence | L'utilizzo della memoria del nodo NSX Application Platform è molto elevato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali e controllare il campo Memoria dei singoli servizi per verificare quale servizio è sottoposto a pressione. Verificare se è possibile ridurre il carico. Se solo una piccola parte dei nodi ha un utilizzo elevato della memoria, per impostazione predefinita Kubernetes ripianificherà automaticamente i servizi. Se la maggior parte dei nodi ha un utilizzo elevato della memoria e il carico non può essere ridotto, fare clic sul pulsante Scalabilità orizzontale per richiedere ulteriori risorse. |
3.2.0 |
Utilizzo memoria nodo elevato | Medio | manager, intelligence | L'utilizzo della memoria del nodo NSX Application Platform è elevato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali e controllare il campo Memoria dei singoli servizi per verificare quale servizio è sottoposto a pressione. Verificare se è possibile ridurre il carico. Se solo una piccola parte dei nodi ha un utilizzo elevato della memoria, per impostazione predefinita Kubernetes ripianificherà automaticamente i servizi. Se la maggior parte dei nodi ha un utilizzo elevato della memoria e il carico non può essere ridotto, fare clic sul pulsante Scalabilità orizzontale per richiedere ulteriori risorse. |
3.2.0 |
Utilizzo disco nodo molto elevato | Critico | manager, intelligence | L'utilizzo del disco del nodo NSX Application Platform è molto elevato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali e controllare il campo Archivio dei singoli servizi per vedere quale servizio è sotto pressione. Pulire i dati o il registro inutilizzati per liberare risorse del disco e verificare se è possibile ridurre il carico. Se è necessario più spazio di storage su disco, scalare orizzontalmente il servizio in caso di pressione. Se il servizio di archiviazione dei dati è sottoposto a un carico di lavoro, è possibile fare clic sul pulsante Scalabilità verticale per aumentare le dimensioni del disco. |
3.2.0 |
Utilizzo disco nodo elevato | Medio | manager, intelligence | L'utilizzo del disco del nodo NSX Application Platform è elevato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali e controllare il campo Archivio dei singoli servizi per vedere quale servizio è sotto pressione. Pulire i dati o il registro inutilizzati per liberare risorse del disco e verificare se è possibile ridurre il carico. Se è necessario più spazio di storage su disco, scalare orizzontalmente il servizio in caso di pressione. Se il servizio di archiviazione dei dati è sottoposto a un carico di lavoro, è possibile fare clic sul pulsante Scalabilità verticale per aumentare le dimensioni del disco. |
3.2.0 |
Stato del nodo danneggiato | Medio | manager, intelligence | Lo stato del nodo NSX Application Platform è danneggiato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Risorse per verificare quale nodo è danneggiato. Controllare l'utilizzo di rete, memoria e CPU del nodo. Riavviare il nodo se si tratta di un nodo di lavoro. |
3.2.0 |
Stato del nodo inattivo | Alto | manager, intelligence | Lo stato del nodo NSX Application Platform è inattivo. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Risorse per verificare quale nodo è inattivo. Controllare l'utilizzo di rete, memoria e CPU del nodo. Riavviare il nodo se si tratta di un nodo di lavoro. |
3.2.0 |
Utilizzo CPU datastore molto elevato | Critico | manager, intelligence | L'utilizzo della CPU del servizio Archivio dati è molto elevato. |
Scalare orizzontalmente tutti i servizi o il servizio di archiviazione dei dati. |
3.2.0 |
Utilizzo CPU datastore elevato | Medio | manager, intelligence | L'utilizzo della CPU del servizio Archivio dati è elevato. |
Scalare orizzontalmente tutti i servizi o il servizio di archiviazione dei dati. |
3.2.0 |
Utilizzo CPU messaggistica molto elevato | Critico | manager, intelligence | L'utilizzo della CPU del servizio di messaggistica è molto elevato. |
Scalare orizzontalmente tutti i servizi o il servizio di messaggistica. |
3.2.0 |
Utilizzo CPU messaggistica elevato | Medio | manager, intelligence | L'utilizzo della CPU del servizio di messaggistica è elevato. |
Scalare orizzontalmente tutti i servizi o il servizio di messaggistica. |
3.2.0 |
Utilizzo CPU database di configurazione molto elevato | Critico | manager, intelligence | L'utilizzo della CPU del servizio Database configurazione è molto elevato. |
Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo CPU database di configurazione elevato | Medio | manager, intelligence | L'utilizzo della CPU del servizio Database configurazione è elevato. |
Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo CPU metriche molto elevato | Critico | manager, intelligence | L'utilizzo della CPU del servizio di metriche è molto elevato. |
Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo CPU metriche elevato | Medio | manager, intelligence | L'utilizzo della CPU del servizio di metriche è elevato. |
Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo CPU di analisi molto elevato | Critico | manager, intelligence | L'utilizzo della CPU del servizio di analisi è molto elevato. |
Scalare orizzontalmente tutti i servizi o il servizio Analytics. |
3.2.0 |
Utilizzo CPU di analisi elevato | Medio | manager, intelligence | L'utilizzo della CPU del servizio di analisi è elevato. |
Scalare orizzontalmente tutti i servizi o il servizio Analytics. |
3.2.0 |
Utilizzo CPU piattaforma molto elevato | Critico | manager, intelligence | L'utilizzo della CPU del servizio Platform Services è molto elevato. |
Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo CPU piattaforma elevato | Medio | manager, intelligence | L'utilizzo della CPU del servizio Platform Services è elevato. |
Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo memoria datastore molto elevato | Critico | manager, intelligence | L'utilizzo della memoria del servizio Archivio dati è molto elevato. |
Scalare orizzontalmente tutti i servizi o il servizio di archiviazione dei dati. |
3.2.0 |
Utilizzo memoria datastore elevato | Medio | manager, intelligence | L'utilizzo della memoria del servizio Archivio dati è elevato. |
Scalare orizzontalmente tutti i servizi o il servizio di archiviazione dei dati. |
3.2.0 |
Utilizzo memoria di messaggistica molto elevato | Critico | manager, intelligence | L'utilizzo della memoria del servizio di messaggistica è molto elevato. |
Scalare orizzontalmente tutti i servizi o il servizio di messaggistica. |
3.2.0 |
Utilizzo memoria di messaggistica elevato | Medio | manager, intelligence | L'utilizzo della memoria del servizio di messaggistica è elevato. |
Scalare orizzontalmente tutti i servizi o il servizio di messaggistica. |
3.2.0 |
Utilizzo memoria database di configurazione molto elevato | Critico | manager, intelligence | L'utilizzo della memoria del servizio Database configurazione è molto elevato. |
Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo memoria database di configurazione elevato | Medio | manager, intelligence | L'utilizzo della memoria del servizio Database configurazione è elevato. |
Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo memoria metriche molto elevato | Critico | manager, intelligence | L'utilizzo della memoria del servizio delle metriche è molto elevato. |
Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo memoria metriche elevato | Medio | manager, intelligence | L'utilizzo della memoria del servizio delle metriche è elevato. |
Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo memoria di analisi molto elevato | Critico | manager, intelligence | L'utilizzo della memoria del servizio di analisi è molto elevato. |
Scalare orizzontalmente tutti i servizi o il servizio Analytics. |
3.2.0 |
Utilizzo memoria di analisi elevato | Medio | manager, intelligence | L'utilizzo della memoria del servizio di analisi è elevato. |
Scalare orizzontalmente tutti i servizi o il servizio Analytics. |
3.2.0 |
Utilizzo memoria piattaforma molto elevato | Critico | manager, intelligence | L'utilizzo della memoria del servizio Platform Services è molto elevato. |
Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo memoria piattaforma elevato | Medio | manager, intelligence | L'utilizzo della memoria del servizio Platform Services è elevato. |
Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo disco datastore molto elevato | Critico | manager, intelligence | L'utilizzo del disco del servizio Archivio dati è molto elevato. |
Scalare orizzontalmente o scalare il servizio di archiviazione dei dati. |
3.2.0 |
Utilizzo disco datastore elevato | Medio | manager, intelligence | L'utilizzo del disco del servizio Archivio dati è elevato. |
Scalare orizzontalmente o scalare il servizio di archiviazione dei dati. |
3.2.0 |
Utilizzo disco di messaggistica molto elevato | Critico | manager, intelligence | L'utilizzo del disco del servizio di messaggistica è molto elevato. |
Non è necessario eliminare file. Scalare orizzontalmente tutti i servizi o il servizio di messaggistica. |
3.2.0 |
Utilizzo disco di messaggistica elevato | Medio | manager, intelligence | L'utilizzo del disco del servizio di messaggistica è elevato. |
Non è necessario eliminare file. Scalare orizzontalmente tutti i servizi o il servizio di messaggistica. |
3.2.0 |
Utilizzo disco database di configurazione molto elevato | Critico | manager, intelligence | L'utilizzo del disco del servizio Database configurazione è molto elevato. |
Non è necessario eliminare file. Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo disco database di configurazione elevato | Medio | manager, intelligence | L'utilizzo del disco del servizio Database configurazione è elevato. |
Non è necessario eliminare file. Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo disco metriche molto elevato | Critico | manager, intelligence | L'utilizzo del disco del servizio delle metriche è molto elevato. |
Non è necessario eliminare file. Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo disco metriche elevato | Medio | manager, intelligence | L'utilizzo del disco del servizio delle metriche è elevato. |
Non è necessario eliminare file. Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo disco di analisi molto elevato | Critico | manager, intelligence | L'utilizzo del disco del servizio di analisi è molto elevato. |
Non è necessario eliminare file. Scalare orizzontalmente tutti i servizi o il servizio Analytics. |
3.2.0 |
Utilizzo disco di analisi elevato | Medio | manager, intelligence | L'utilizzo del disco del servizio di analisi è elevato. |
Non è necessario eliminare file. Scalare orizzontalmente tutti i servizi o il servizio Analytics. |
3.2.0 |
Utilizzo disco piattaforma molto elevato | Critico | manager, intelligence | L'utilizzo del disco del servizio Platform Services è molto elevato. |
Non è necessario eliminare file. Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Utilizzo disco piattaforma elevato | Medio | manager, intelligence | L'utilizzo del disco del servizio Platform Services è elevato. |
Non è necessario eliminare file. Scalare orizzontalmente tutti i servizi. |
3.2.0 |
Stato servizio danneggiato | Medio | manager, intelligence | Lo stato del servizio è danneggiato. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali per verificare quale servizio è danneggiato. Richiamare l'NSX API GET /napp/api/v1/platform/monitor/feature/health per verificare quale servizio specifico è danneggiato e il motivo. Richiamare il seguente comando della CLI per riavviare il servizio danneggiato se necessario: kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> I servizi danneggiati possono funzionare correttamente ma le prestazioni non sono ottimali. |
3.2.0 |
Stato servizio inattivo | Alto | manager, intelligence | Lo stato del servizio è inattivo. |
Nell'interfaccia utente di NSX, passare a Sistema | NSX Application Platform | Servizi principali per verificare quale servizio è danneggiato. Richiamare l'NSX API GET /napp/api/v1/platform/monitor/feature/health per verificare quale servizio specifico è inattivo e il motivo. Richiamare il seguente comando della CLI per riavviare il servizio danneggiato: kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> |
3.2.0 |
Eventi di integrità NSXaaS
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Servizio degradato | Alto | aas | Servizio danneggiato. |
Esaminare i dati inclusi nella descrizione dell'allarme che identifica il servizio, dove il servizio viene distribuito e ulteriori dati acquisiti dal servizio di monitoraggio dell'integrità. Esaminare anche i dati cronologici registrati dal servizio Metriche o da Wavefront come applicabile. |
4.1.0 |
Servizio inattivo | Critico | aas | Servizio inattivo. |
Esaminare i dati inclusi nella descrizione dell'allarme che identifica il servizio, dove il servizio viene distribuito e ulteriori dati acquisiti dal servizio di monitoraggio dell'integrità. Esaminare anche i dati cronologici registrati dal servizio Metriche o da Wavefront come applicabile. |
4.1.0 |
Eventi di gestione delle password
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Password scaduta | Critico | global-manager, manager, edge, gateway del cloud pubblico | La password dell'utente è scaduta. |
Per accedere al sistema, è necessario modificare la password dell'utente {username}. Ad esempio, per applicare una nuova password a un utente, richiamare l'NSX API seguente con una password valida nel corpo della richiesta: PUT /api/v1/node/users/<userid> dove <userid> è l'ID dell'utente. Se la password dell'utente amministratore (con <userid> 10000) è scaduta, l'amministratore deve accedere al sistema tramite SSH (se attivato) o la console per poter modificare la password. Dopo aver immesso la password scaduta corrente, all'amministratore verrà richiesto di immettere una nuova password. |
3.0.0 |
La password sta per scadere | Alto | global-manager, manager, edge, gateway del cloud pubblico | La password dell'utente è quasi scaduta. |
Assicurarsi che la password per l'utente {username} venga modificata immediatamente. Ad esempio, per applicare una nuova password a un utente, richiamare l'NSX API seguente con una password valida nel corpo della richiesta: PUT /api/v1/node/users/<userid> dove <userid> è l'ID dell'utente. |
3.0.0 |
Password in scadenza | Medio | global-manager, manager, edge, gateway del cloud pubblico | La password dell'utente sta per scadere. |
È necessario cambiare subito la password dell'utente {username}. Ad esempio, per applicare una nuova password a un utente, richiamare l'NSX API seguente con una password valida nel corpo della richiesta: PUT /api/v1/node/users/<userid> dove <userid> è l'ID dell'utente. |
3.0.0 |
Eventi del server fisico
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Installazione del server fisico non riuscita | Critico | manager | Installazione del server fisico (BMS) non riuscita. |
Passare a Sistema > Infrastruttura > Nodi > Nodi di trasporto host e risolvere l'errore nel nodo. |
4.0.0 |
Aggiornamento del server fisico non riuscito | Critico | manager | Aggiornamento del server fisico (BMS) non riuscito. |
Passare a Sistema > Aggiornamento e risolvere l'errore, quindi riattivare l'aggiornamento. |
4.0.0 |
Disinstallazione del server fisico non riuscita | Critico | manager | Disinstallazione del server fisico (BMS) non riuscita. |
Passare a Sistema > Infrastruttura > Nodi > Nodi di trasporto host e risolvere l'errore nel nodo. |
4.0.0 |
Eventi di vincolo del criterio
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Limite del numero di creazioni raggiunto | Medio | manager | Il numero di entità ha raggiunto il limite del vincolo del criterio. |
Esaminare l'utilizzo di {constraint_type}. Aggiornare il vincolo per aumentare il limite o eliminare i {constraint_type} inutilizzati. |
4.1.0 |
Eventi di routing
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
BFD inattivo nell'interfaccia esterna | Alto | edge, edge autonomo, gateway del cloud pubblico | La sessione BFD è inattiva. |
1. Richiamare il comando NSX della CLI get logical-routers. |
3.0.0 |
Routing statico rimosso | Alto | edge, edge autonomo, gateway del cloud pubblico | Route statica rimossa. |
La voce del routing statico è stata rimossa perché la sessione BFD era inattiva. |
3.0.0 |
BGP inattivo | Alto | edge, edge autonomo, gateway del cloud pubblico | Router adiacente BGP inattivo. |
1. Richiamare il comando NSX della CLI get logical-routers. |
3.0.0 |
ARP del proxy non configurato per l'IP del servizio | Critico | manager | ARP del proxy non configurato per l'IP del servizio. |
Riconfigurare l'IP del servizio {service_ip} per l'entità del servizio {entity_id} o modificare la subnet di lrport {lrport_id} nel router {lr_id} in modo che le voci ARP del proxy generate a causa della sovrapposizione tra l'IP del servizio e la subnet di lrport siano inferiori al limite di soglia consentito di 16384. |
3.0.3 |
Routing inattivo | Alto | edge, edge autonomo, gateway del cloud pubblico | Tutte le sessioni BGP/BFD sono inattive. |
Richiamare il comando della CLI di NSX get logical-routers per ottenere il router del servizio di livello 0 e passare a questo VRF, quindi richiamare i comandi della CLI di NSX seguenti. |
3.0.0 |
Router adiacente OSPF inattivo | Alto | edge, edge autonomo, gateway del cloud pubblico | Il router adiacente OSPF è passato dallo stato completo a un altro stato. |
1. Richiamare il comando della CLI di NSX get logical-routers per ottenere l'ID VRF e passare al router del servizio di LIVELLO 0. |
3.1.1 |
Si sta per raggiungere il limite massimo di route IPv4 sta per essere superato | Medio | edge, edge autonomo, gateway del cloud pubblico | Si sta per superare il limite massimo di route IPv4 nel nodo Edge. |
1. Controllare i criteri di ridistribuzione della route e le route ricevute da tutti i peer esterni. |
4.0.0 |
Si sta per raggiungere il limite massimo di route IPv6 sta per essere superato | Medio | edge, edge autonomo, gateway del cloud pubblico | Si sta per superare il limite massimo di route IPv6 si nel nodo Edge. |
1. Controllare i criteri di ridistribuzione della route e le route ricevute da tutti i peer esterni. |
4.0.0 |
È stato superato il limite massimo di route IPv4 | Critico | edge, edge autonomo, gateway del cloud pubblico | È stato superato il limite massimo di route IPv4 nel nodo Edge. |
1. Controllare i criteri di ridistribuzione della route e le route ricevute da tutti i peer esterni. |
4.0.0 |
È stato superato il limite massimo di route IPv6 | Critico | edge, edge autonomo, gateway del cloud pubblico | È stato superato il limite massimo di route IPv6 nel nodo Edge. |
1. Controllare i criteri di ridistribuzione della route e le route ricevute da tutti i peer esterni. |
4.0.0 |
Si sta per raggiungere il numero massimo di prefissi IPv4 provenienti dal router adiacente BGP sta per essere superato | Medio | edge, edge autonomo, gateway del cloud pubblico | Si sta per superare il numero massimo di prefissi IPv4 ricevuti dal router adiacente BGP. |
1. Controllare i criteri di routing BGP nel router esterno. |
4.0.0 |
Si sta per raggiungere il numero massimo di prefissi IPv6 provenienti dal router adiacente BGP sta per essere superato | Medio | edge, edge autonomo, gateway del cloud pubblico | Si sta per superare il numero massimo di prefissi IPv6 ricevuti dal router adiacente BGP. |
1. Controllare i criteri di routing BGP nel router esterno. |
4.0.0 |
È stato superato il numero massimo di prefissi IPv4 provenienti dal router adiacente BGP | Critico | edge, edge autonomo, gateway del cloud pubblico | È stato superato il numero massimo di prefissi IPv4 ricevuti dal router adiacente BGP. |
1. Controllare i criteri di routing BGP nel router esterno. |
4.0.0 |
È stato superato il numero massimo di prefissi IPv6 provenienti dal router adiacente BGP | Critico | edge, edge autonomo, gateway del cloud pubblico | È stato superato il numero massimo di prefissi IPv6 ricevuti dal router adiacente BGP. |
1. Controllare i criteri di routing BGP nel router esterno. |
4.0.0 |
Eventi di conformità della sicurezza
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Attiva non conformità NDcPP | Critico | manager | Lo stato di sicurezza di NSX non è conforme a NDcPP. |
Eseguire il report di conformità dal menu dell'interfaccia utente Home - Monitoraggio e dashboard - Report di conformità e risolvere tutti i problemi contrassegnati con il nome della conformità NDcPP. |
4.1.0 |
Attiva non conformità EAL4 | Critico | manager | Lo stato di sicurezza di NSX non è conforme a EAL4+. |
Eseguire il report di conformità dal menu dell'interfaccia utente Home - Monitoraggio e dashboard - Report di conformità e risolvere tutti i problemi contrassegnati con il nome della conformità EAL4+. |
4.1.0 |
Non conformità polling NDcPP | Critico | manager | La configurazione di sicurezza di NSX non è conforme a NDcPP. |
Eseguire il report di conformità dal menu dell'interfaccia utente Home - Monitoraggio e dashboard - Report di conformità e risolvere tutti i problemi contrassegnati con il nome della conformità NDcPP. |
4.1.0 |
Non conformità polling EAL4 | Critico | manager | La configurazione di sicurezza di NSX non è conforme a EAL4+. |
Eseguire il report di conformità dal menu dell'interfaccia utente Home - Monitoraggio e dashboard - Report di conformità e risolvere tutti i problemi contrassegnati con il nome della conformità EAL4+. |
4.1.0 |
Eventi inserimento servizio
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Distribuzione del servizio completata | Informazioni | manager | Distribuzione del servizio completata. |
Nessuna azione necessaria. |
4.0.0 |
Distribuzione del servizio non riuscita | Critico | manager | Distribuzione del servizio non riuscita. |
Eliminare la distribuzione del servizio utilizzando l'interfaccia utente o l'API NSX. Eseguire le azioni correttive dalla KB e riprovare la distribuzione del servizio. |
4.0.0 |
Annullamento distribuzione servizio completato | Informazioni | manager | Eliminazione della distribuzione del servizio completata. |
Nessuna azione necessaria. |
4.0.0 |
Annullamento distribuzione servizio non riuscito | Critico | manager | Eliminazione della distribuzione del servizio non riuscita. |
Eliminare la distribuzione del servizio utilizzando l'interfaccia utente o l'API NSX. Eseguire le azioni correttive dalla KB e riprovare a eliminare la distribuzione del servizio. Risolvere manualmente l'allarme dopo aver verificato che tutte le macchine virtuali e gli oggetti siano stati eliminati. |
4.0.0 |
Stato integrità SVM attivo | Informazioni | manager | SVM è in servizio. |
Nessuna azione necessaria. |
4.0.0 |
Stato integrità SVM inattivo | Alto | manager | SVM non funzionante nel servizio. |
Eliminare la distribuzione del servizio utilizzando l'interfaccia utente o l'API NSX. Eseguire le azioni correttive dalla KB e riprovare la distribuzione del servizio, se necessario. |
4.0.0 |
Stato infrastruttura inserimento del servizio inattivo | Critico | esx | Stato dell'infrastruttura di inserimento del servizio inattivo e non abilitato nell'host. |
Eseguire eventuali azioni correttive della KB e verificare che lo stato sia attivo. Risolvere manualmente l'allarme dopo aver controllato lo stato. |
4.0.0 |
Stato attività SVM inattivo | Critico | manager | Stato attività SVM inattivo. |
Eseguire eventuali azioni correttive della KB e verificare che lo stato sia attivo. |
4.0.0 |
Percorso della catena di servizi inattivo | Critico | manager | Percorso della catena di servizi inattivo. |
Eseguire eventuali azioni correttive della KB e verificare che lo stato sia attivo. |
4.0.0 |
Nuovo host aggiunto | Informazioni | esx | Nuovo host aggiunto nel cluster. |
Verificare lo stato di distribuzione della macchina virtuale e attendere che venga accesa. |
4.0.0 |
Eventi di integrità TEP
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
TEP con errore | Medio | esx | TEP non è integro. |
1. Controllare se il TEP ha un IP valido o eventuali altri problemi di connettività underlay. |
4.1.0 |
HA TEP attivata | Informazioni | esx | HA TEP attivata. |
Abilitare AutoRecover o richiamare il ripristino manuale per il TEP {vtep_name} nel VDS {dvs_name} nel nodo di trasporto {transport_node_id}. |
4.1.0 |
Ripristino automatico di TEP riuscito | Informazioni | esx | Ripristino automatico riuscito. |
nessuna. |
4.1.0 |
Errore del ripristino automatico di TEP | Medio | esx | Ripristino automatico non riuscito. |
Controllare se il TEP ha un IP valido o eventuali altri problemi di connettività underlay. |
4.1.0 |
TEP con errore nella DPU | Medio | dpu | TEP non è integro nella DPU. |
1. Controllare se il TEP ha un IP valido o eventuali altri problemi di connettività underlay. |
4.1.0 |
HA TEP attivata nella DPU | Informazioni | dpu | HA TEP attivata nella DPU. |
Abilitare AutoRecover o richiamare il ripristino manuale per il TEP {vtep_name} nel VDS {dvs_name} nel nodo di trasporto {transport_node_id} nella DPU {dpu_id}. |
4.1.0 |
Ripristino automatico di TEP riuscito nella DPU | Informazioni | dpu | Ripristino automatico riuscito nella DPU. |
nessuna. |
4.1.0 |
Errore del ripristino automatico di TEP nella DPU | Medio | dpu | Ripristino automatico non riuscito nella DPU. |
Controllare se il TEP ha un IP valido o eventuali altri problemi di connettività underlay. |
4.1.0 |
Eventi integrità nodo di trasporto evento
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Uplink nodo di trasporto inattivo nella DPU | Medio | dpu | L'uplink nella DPU sta diventando inattivo. |
Controllare lo stato delle schede NIC fisiche degli uplink nella DPU {dpu_id}. Individuare il nome mappato di questa NIC fisica nell'host, quindi eseguire il controllo dell'interfaccia utente. |
4.0.0 |
Membro LAG inattivo nella DPU | Medio | dpu | Membro di creazione report LACP nella DPU inattivo. |
Controllare lo stato della connessione dei membri LAG nella DPU {dpu_id}. Individuare il nome mappato della relativa NIC fisica nell'host, quindi eseguire il controllo dell'interfaccia utente. |
4.0.0 |
Uplink NVDS inattivo | Medio | esx, kvm, bms | L'uplink sta diventando inattivo. |
Controllare lo stato delle schede NIC fisiche degli uplink negli host. |
3.0.0 |
Uplink nodo di trasporto inattivo | Medio | esx, kvm, bms | L'uplink sta diventando inattivo. |
Controllare lo stato delle schede NIC fisiche degli uplink negli host. |
3.2.0 |
Membro LAG inattivo | Medio | esx, kvm, bms | Membro del report LACP inattivo. |
Controllare lo stato della connessione dei membri LAG sugli host. |
3.0.0 |
Eventi App VMC
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Errore di Transit Connect | Medio | manager | Impossibile realizzare completamente Transit Connect. |
Se l'allarme non viene risolto automaticamente entro 10 minuti, riprovare le richieste relative a Transit Connect più recenti. Ad esempio, se una richiesta API di collegamento TGW attiva questo allarme, riprovare la richiesta dell'API di collegamento TGW. Se l'allarme non viene risolto nonostante il nuovo tentativo, provare a eseguire i passaggi seguenti: |
4.1.0 |
Eventi VPN
Nome evento | Gravità | Tipo di nodo | Messaggio di avviso | Azione consigliata | Versione introdotta |
---|---|---|---|---|---|
Servizio IPSec inattivo | Medio | edge, edge autonomo, gateway del cloud pubblico | Il servizio IPSec è inattivo. |
1. Disabilitare e abilitare il servizio IPSec dall'interfaccia utente NSX Manager. |
3.2.0 |
Sessione basata su criterio IPSec inattiva | Medio | edge, edge autonomo, gateway del cloud pubblico | La sessione VPN IPsec basata su criterio è inattiva. |
Controllare la configurazione della sessione VPN IPSec e risolvere gli errori in base al motivo dell'inattività della sessione. |
3.0.0 |
Sessione basata su route IPSec inattiva | Medio | edge, edge autonomo, gateway del cloud pubblico | La sessione VPN IPSec basata su route è inattiva. |
Controllare la configurazione della sessione VPN IPSec e risolvere gli errori in base al motivo dell'inattività della sessione. |
3.0.0 |
Tunnel basato su criteri IPSec inattivo | Medio | edge, edge autonomo, gateway del cloud pubblico | I tunnel VPN IPsec basati su criteri sono inattivi. |
Controllare la configurazione della sessione VPN IPSec e risolvere gli errori in base al motivo dell'inattività del tunnel. |
3.0.0 |
Tunnel basato su route IPSec inattivo | Medio | edge, edge autonomo, gateway del cloud pubblico | Il tunnel VPN IPSec basato su route è inattivo. |
Controllare la configurazione della sessione VPN IPSec e risolvere gli errori in base al motivo dell'inattività del tunnel. |
3.0.0 |
Sessione VPN L2 inattiva | Medio | edge, edge autonomo, gateway del cloud pubblico | La sessione VPN L2 è inattiva. |
Controllare lo stato della sessione VPN L2 per individuare il motivo dell'inattività della sessione e risolvere gli errori di conseguenza. |
3.0.0 |