El nodo de transporte de NSX Edge entra automáticamente en modo de mantenimiento de NSX tras la conmutación por error de HA.
Problema
Los nodos de transporte de NSX Edge pueden entrar automáticamente en modo de mantenimiento de NSX si hay problemas con su ruta de datos o con el uso de la memoria de pila.
Causa
Para ver el estado de alta disponibilidad del nodo de Edge, los cambios de estado y los motivos, ejecute la CLI admin get edge-cluster status y get edge-cluster history state.Si el estado de Edge será INACTIVO, lo cual implica que el proceso de ruta de datos no se está ejecutando, el vínculo físico está inactivo o los túneles de VTEP están inactivos.
Solución
- Ejecute la CLI admin get diagnois config y get service dataplane para comprobar que los servicios principales están activos.
- Ejecute la CLI admin get diagnosis topology para ver el estado detallado de la configuración de Edge.
- Ejecute la CLI admin get host-switch para obtener vtep-device-name y physical-port-name.
- Ejecute la CLI admin get physical-port <port-name> para ver el estado del puerto del conmutador de host seguido de get physical-port <interface-name> stats y busque el contador de rx_misses (búfer de entrada) o tx_drops (búfer de salida) para determinar la existencia de una pérdida de paquetes. Es posible que se produzca una pérdida de paquetes si Edge se desborda con una velocidad de tráfico más alta que la que pueden procesar las CPU de ruta de datos. Los paquetes se mantienen primero en el búfer de entrada/salida y se descartan si los búferes están llenos. Para comprobar la configuración actual del tamaño del búfer, utilice la CLI get dataplane | fing ring.
- Si se detiene el servicio de plano de datos, comience emitiendo el comando start service dataplane (como solución alternativa temporal).
- Si el puerto del conmutador de host está inactivo, comience emitiendo el comando set physical-port fp-eth0 state up (como solución alternativa temporal).
- Si se produce una pérdida de paquetes o se produce un problema con el estado del conmutador de host, envíe un ticket al soporte técnico de VMware.
También puede intentar cambiar la configuración del búfer de recepción/transmisión (para mejorar la capacidad de administración de tráfico de la interfaz de Edge) mediante la CLI set dataplane ring-size <rx/tx> <size>. El rango de tamaño de búfer admitido es 128-4096 bytes y el servicio de plano de datos debe reiniciarse para que la nueva configuración sea efectiva, lo que provoca un tiempo de inactividad de aproximadamente 60 segundos.
- Por ejemplo, set dataplane ring-size rx 2048. Reinicie el servicio de plano de datos para que el cambio surta efecto.
- set dataplane ring-size tx 2048. Reinicie el servicio de plano de datos para que el cambio surta efecto.
restart service dataplane
get dataplane | find ring
Bfd_ring_size : 512
Lacp_ring_size : 512
Learning_ring_size : 512
Livetrace_ring_size: 512
Rx_ring_size : 2048
Slowpath_ring_size : 512
Tx_ring_size : 2048