Il nodo di trasporto NSX Edge passa automaticamente alla modalità di manutenzione di NSX quando si verifica il failover di HA.
Problema
Il nodo di trasporto NSX Edge può passare automaticamente alla modalità di manutenzione di NSX se si verificano problemi relativi al percorso dati o all'utilizzo della memoria heap.
Causa
Per visualizzare lo stato di elevata disponibilità del nodo Edge, le modifiche dello stato e i motivi di tali modifiche, eseguire le CLI admin get edge-cluster status e get edge-cluster history state. Se lo STATO dell'Edge è INATTIVO, significa che il processo del percorso dati non è in esecuzione, il collegamento fisico è inattivo o i tunnel VTEP sono inattivi.
Soluzione
- Eseguire le CLI admin get diagnois config e get service dataplane per verificare che i servizi principali siano attivi.
- Eseguire la CLI admin get diagnosis topology per visualizzare lo stato dettagliato della configurazione dell'Edge.
- Eseguire la CLI admin get host-switch per recuperare il nome del dispositivo VTEP e il nome della porta fisica.
- Eseguire la CLI admin get physical-port <port-name> per visualizzare lo stato della porta del commutatore host, quindi eseguire get physical-port <interface-name> stats e cercare il contatore rx_misses (buffer di ingresso) o tx_drops (buffer di uscita) per verificare l'occorrenza della perdita di pacchetti. La perdita di pacchetti può verificarsi se l'Edge viene sottoposto a flooding perché la velocità del traffico è più elevata di quella che le CPU del percorso dati possono elaborare. I pacchetti vengono trattenuti nel buffer di ingresso/uscita e vengono eliminati se i buffer sono pieni. Per controllare la configurazione corrente delle dimensioni del buffer, utilizzare la CLI get dataplane | fing ring.
- Se il servizio piano dati è arrestato, iniziare eseguendo il comando start service dataplane (come soluzione temporanea).
- Se la porta del commutatore host è inattiva, iniziare eseguendo il comando set physical-port fp-eth0 state up (come soluzione temporanea).
- Se si verifica la perdita di pacchetti o un problema relativo allo stato del commutatore host, inviare un ticket a VMware Support Desk.
È inoltre possibile provare a modificare la configurazione del buffer Rx/Tx (per migliorare la capacità di gestione del traffico dell'interfaccia dell'Edge) utilizzando la CLI set dataplane ring-size <rx/tx> <size>. L'intervallo delle dimensioni del buffer supportato è 128-4096 byte e il servizio piano dati deve essere riavviato affinché sia possibile applicare la nuova configurazione. Questo causa un tempo di inattività di circa 60 secondi.
- Ad esempio, set dataplane ring-size rx 2048. Riavviare il servizio piano dati per rendere effettiva la modifica.
- set dataplane ring-size tx 2048. Riavviare il servizio piano dati per rendere effettiva la modifica.
restart service dataplane
get dataplane | find ring
Bfd_ring_size : 512
Lacp_ring_size : 512
Learning_ring_size : 512
Livetrace_ring_size: 512
Rx_ring_size : 2048
Slowpath_ring_size : 512
Tx_ring_size : 2048