Problemas de implementación de NSX Controller

NSX Manager implementa las controladoras de NSX en formato OVA. Un clúster de controladoras proporciona una gran disponibilidad. Para implementar las controladoras, debe haber configurado los DNS y NTP en NSX Manager, vCenter Server y hosts ESXi. Se debe utilizar un grupo de IP estático para asignar las direcciones IP a cada controladora.

Le recomendamos que implemente las reglas de antiafinidad de DRS para mantener las instancias de NSX Controller en hosts distintos. Debe implementar TRES instancias de NSX Controller.

Problemas frecuentes relacionados con las controladoras

A continuación le mostramos los problemas más habituales que pueden aparecer durante la implementación de las instancias de NSX Controller:

Errores de implementación de NSX Controller.
NSX Controller no se puede unir al clúster.
Al ejecutar el comando show control-cluster status, Estado de la mayoría (Majority status) cambia de Conectado a la mayoría del clúster (Connected to cluster majority) a Conexión interrumpida con la mayoría del clúster (Interrupted connection to cluster majority).
El panel de control de NSX muestra un problema con el estado de conectividad.
- Se recomienda utilizar el comando show control-cluster status para ver si un controlador se ha unido a un clúster de control. Debe ejecutarlo en cada controlador para conocer el estado general del clúster.
```
controller # show control-cluster status
Type                Status                                       Since
--------------------------------------------------------------------------------
Join status:        Join complete                                10/17 18:16:58
Majority status:    Connected to cluster majority                10/17 18:16:46
Restart status:     This controller can be safely restarted      10/17 18:16:51
Cluster ID:         af2e9dec-19b9-4530-8e68-944188584268
Node UUID:          af2e9dec-19b9-4530-8e68-944188584268
Role                Configured status   Active status
--------------------------------------------------------------------------------
api_provider        enabled             activated
persistence_server  enabled             activated
switch_manager      enabled             activated
logical_manager     enabled             activated
dht_node            enabled             activated
```
  Nota: Cuando vea que el nodo controlador está desconectado, NO utilice los comandos join cluster ni force join. Este comando no está diseñado para unir el nodo al clúster. Si lo utiliza, es posible que el clúster adquiera un estado desconocido.
  
  Los nodos de inicio del clúster sirven únicamente como pista a los miembros del clúster durante su inicio. No se preocupe si esta lista contiene miembros del clúster que están fuera de servicio. Esto no afectará a la función del clúster.
  
  Todos los miembros deben tener el mismo ID de clúster. Si no es así, significa que el clúster está dañado y debe ponerse en contacto con el equipo de soporte técnico de VMware para repararlo.
- El comando show control-cluster startup-nodes no está diseñado para mostrar todos los nodos actuales del clúster. En su lugar, muestra el resto de nodos controladores que utiliza este nodo para unirse al clúster cuando se reinicia el proceso del controlador. Por tanto, es posible que el resultado del comando muestre algunos nodos apagados o retirados del clúster.
- Además, el comando show control-cluster network ipsec status permite inspeccionar el estado del protocolo de seguridad de Internet (IPsec). Si observa que los controladores no se pueden comunicar entre sí durante unos minutos o unas horas, ejecute el comando cat /var/log/syslog | egrep "sending DPD request|IKE_SA" y compruebe si los mensajes de registro indican que no hay tráfico. También puede ejecutar el comando ipsec statusall | egrep "bytes_i|bytes_o" y verificar que no hay túneles de IPsec establecidos. Proporcione el resultado de estos comandos y los registros del controlador cuando informe a su representante del equipo de soporte técnico de VMware sobre un posible problema del clúster de control.
Problemas de conectividad entre NSX Manager y las controladoras de NSX. Este error suele deberse a problemas relacionados con la conectividad de la red física o a un firewall que bloquea la comunicación.
No hay recursos suficientes (como almacenamiento disponible en vSphere para alojar las controladoras). Puede identificar estos problemas al consultar el registro de las tareas y los eventos de vCenter durante la implementación de la controladora.
Una controladora que no funciona correctamente con un comportamiento "inadecuado" o una controladora actualizada con el estado Disconnected (Desconectada).
El DNS no se configuró correctamente en los hosts ESXi ni en NSX Manager.
El servidor NTP no está sincronizado en los hosts ESXi ni en NSX Manager.
Cuando están recién conectadas, las máquinas virtuales no tienen acceso a la red. Es posible que esto se deba a un problema relacionado con el plano de control. Compruebe el estado de la controladora.
Asimismo, intente ejecutar el comando esxcli network vswitch dvs vmware vxlan network list --vds-name <name> en los hosts ESXi para comprobar el estado del plano de control. Tenga en cuenta que la conexión de la controladora está desactivada.
Al ejecutar el comando de CLI show log manager follow de NSX Manager, se pueden identificar otros motivos por los que se producen fallos al implementar controladoras.

Problemas de conectividad del host

Compruebe los errores de conectividad del host con los siguientes comandos. Ejecute estos comandos en cada nodo controlador.

Busque estadísticas de error que no sean normales con el comando show log cloudnet/cloudnet_java-vnet-controller*.log filtered-by host_IP.
Verifique la alta tasa de mensajes o las estadísticas de mensajes del enrutador o el conmutador lógicos con los siguientes comandos:
- show control-cluster core stats: estadísticas generales
- show control-cluster core stats-sample: muestras de las últimas estadísticas
- show control-cluster core connection-stats ip: estadísticas por conexión
- show control-cluster logical-switches stats
- show control-cluster logical-routers stats
- show control-cluster logical-switches stats-sample
- show control-cluster logical-routers stats-sample
- show control-cluster logical-switches vni-stats vni
- show control-cluster logical-switches vni-stats-sample vni
- show control-cluster logical-switches connection-stats ip
- show control-cluster logical-routers connection-stats ip
Puede utilizar el comando show host hostID health-status para comprobar el estado de los hosts en sus clústeres preparados. Para solucionar los problemas del controlador, son compatibles las siguientes comprobaciones de estado:
- Compruebe si net-config-by-vsm.xml está sincronizado con la lista de controladores.
- Compruebe si hay una conexión de socket al controlador.
- Compruebe si el identificador de red VXLAN (VNI) está creado y si la configuración es correcta.
- Compruebe que el VNI pueda conectarse a los controladores principales (si está habilitado el plano de control).

Problemas de implementación e instalación

Verifique que haya al menos tres nodos controladores implementados en un clúster. VMware recomienda utilizar las reglas de antiafinidad de vSphere nativas para evitar que se implemente más de un nodo controlador en el mismo host ESXi.
Compruebe que todos los NSX Controller muestren el estado Conectado (Connected). Si algún nodo controlador muestra el estado Desconectado (Disconnected), compruebe que la siguiente información sea coherente. Para ello, ejecute el comando show control-cluster status en todos los nodos controladores:


Tipo	Estado
Estado de unión (Join status)	Unión completa (Join complete)
Estado de la mayoría (Majority status)	Conectado a la mayoría del clúster (Connected to cluster majority)
ID de clúster (Cluster ID)	Misma información en todos los nodos controladores (Same information on all controller nodes)

Compruebe que todas las funciones sean consistentes en todos los nodos controladores:


Función	Estado configurado	Estado activo
api_provider	habilitado (enabled)	activado (activated)
persistence_server	habilitado (enabled)	activado (activated)
switch_manager	habilitado (enabled)	activado (activated)
logical_manager	habilitado (enabled)	activado (activated)
directory_server	habilitado (enabled)	activado (activated)

Verifique que el proceso vnet-controller se esté ejecutando. Ejecute el comando show process en todos los nodos controladores y compruebe que el servicio java-dir-server se esté ejecutando.
Verifique el historial del clúster y compruebe que la conexión del host no cambie y que no haya errores de unión de VNI ni cambios que no sean normales en los miembros del clúster. Para ello, ejecute el comando show control-cluster history. Los comandos también muestran si el nodo se reinicia frecuentemente. Compruebe que no haya muchos archivos de registro de tamaño cero (0) y con diferentes ID de proceso.
Compruebe que el identificador de red VXLAN (VNI) esté configurado. Para obtener más información, consulte la sección sobre los pasos de preparación de VXLAN de la VMware VXLAN Deployment Guide.
Compruebe que el protocolo SSL esté habilitado en el clúster de controladores. Ejecute el comando show log cloudnet/cloudnet_java-vnet-controller*.log filtered-by sslEnabled en cada nodo controlador.