High Availability (HA) asegura que los servicios proporcionados por los dispositivos NSX Edge están disponibles aunque un error de hardware o software haga que un dispositivo no esté disponible. HA de NSX Edge minimiza el tiempo de inactividad de la conmutación por error en lugar de enviar un tiempo de inactividad cero, puesto que la conmutación por error entre dispositivos puede necesitar que se reinicien algunos servicios.
Por ejemplo, NSX Edge HA sincroniza el seguimiento de la conexión del firewall con estado o la información con estado proporcionada por el equilibrador de carga. El tiempo necesario para introducir la copia de seguridad de todos los servicios no es nulo. Los ejemplos de impactos al reiniciar servicios conocidos incluyen un tiempo de inactividad que no es cero con un enrutamiento dinámico cuando una instancia de NSX Edge funciona como enrutador.
En algunas ocasiones, los dos dispositivos de HA de NSX Edge no pueden comunicarse y deciden activarse de forma unilateral. Este comportamiento debe mantener la disponibilidad de los servicios de NSX Edge activos si NSX Edge en espera no está disponible. Si aún existe el otro dispositivo cuando la comunicación se vuelve a establecer, los dos dispositivos de HA de NSX Edge vuelven a negociar el estado activo y en espera. Si esta negociación no finaliza y ambos dispositivos declaran que están activos cuando se vuelve a establecer la conectividad, se produce un comportamiento inesperado. Esta condición, conocida como cerebro dividido, se produce debido a las siguientes condiciones del entorno:
- Problemas de la conectividad de la red física, que incluye una partición de red.
- CPU o contención de los recursos de memoria en NSX Edge.
- Problemas transitorios de almacenamiento que pueden hacer que al menos una máquina virtual de HA de NSX Edge no esté disponible.
Por ejemplo, se produce una mejora en la estabilidad y el rendimiento de HA de NSX Edge cuando las máquinas virtuales salen del almacenamiento sobreaprovisionado. Concretamente, mientras se realizan copias de seguridad nocturnas, grandes puntas en la latencia del almacenamiento pueden suponer un impacto en la estabilidad de HA de NSX Edge.
- Congestión en el adaptador de red física o virtual relacionada con el intercambio de paquetes.
Además de los problemas de entorno, una situación de cerebro dividido se produce cuando el motor de la configuración de HA pasa a un mal estado o cuando se produce un error en el demonio de HA.
High Availability con estado
El dispositivo NSX Edge principal está en estado activo, mientras que el secundario está en estado en espera. NSX Manager replica la configuración del dispositivo principal para el dispositivo en espera; de manera alternativa, se pueden agregar manualmente dos dispositivos. Cree los dispositivos principal y secundarios en almacenes de datos y grupos de recursos diferentes. Si se crean los dispositivos principal y secundarios en el mismo almacén de datos, dicho almacén debe compartirse entre todos los hosts del clúster para que el par de dispositivos de HA se implemente en hosts ESXi diferentes. Si el almacén de datos es un almacenamiento local, las dos máquinas virtuales se implementan en el mismo host.
Todos los servicios de NSX Edge se ejecutan en el dispositivo activo. El dispositivo principal mantiene un latido con el dispositivo en espera y envía actualizaciones de servicio a través de una interfaz interna.
Si no se recibe un latido del dispositivo principal en el período especificado (el valor predeterminado es 15 segundos), se declara inactivo al dispositivo principal. El dispositivo en espera cambia al estado activo, pasa a controlar la configuración de la interfaz del dispositivo principal e inicia los servicios NSX Edge que se estaban ejecutando en el dispositivo principal. Cuando se realiza la transición, aparece un evento de sistema en la pestaña Eventos del sistema (System Events) de Configuración e informes (Settings & Reports). Los servicios de equilibrador de carga y VPN deben restablecer la conexión TCP con NSX Edge, por lo que el servicio se interrumpe durante un breve período Las conexiones del conmutador lógico y las sesiones del firewall se sincronizan entre los dispositivos principales y en espera. No obstante, el servicio se interrumpe durante la transición en la cual el dispositivo en espera se activa y toma el control.
Si se produce un error en el dispositivo NSX Edge y se informa de un estado incorrecto, HA realiza una sincronización forzada del dispositivo con errores para reactivarlo. Una vez reactivado, el dispositivo asume la configuración del dispositivo ahora activo y permanece en estado de espera. Si el dispositivo NSX Edge está inactivo, debe eliminarlo y agregar uno nuevo.
NSX Edge garantiza que las dos máquinas virtuales NSX Edge HA no estén en el mismo host ESXi incluso después de utilizar DRS y vMotion (a menos que las migre manualmente con vMotion al mismo host). En vCenter, se implementan dos máquinas virtuales en el mismo grupo de recursos y almacén de datos que el dispositivo configurado. Se asignan direcciones IP de enlace local a las máquinas virtuales de HA en el dispositivo HA de NSX Edge para que puedan comunicarse. Puede especificar direcciones IP de administración para anular los vínculos locales.
Si se configuran servidores syslog, los registros del dispositivo activo se envían a dichos servidores.
High Availability en un entorno Cross-vCenter NSX
Si habilita la alta disponibilidad en NSX Edge en un entorno de Cross-vCenter NSX, los dispositivos Dispositivo NSX Edge activos y en espera deben residir en el mismo vCenter Server. Si migra uno de los dispositivos de un par NSX Edge HA a un sistema vCenter Server diferente, los dos dispositivos de HA dejarán de funcionar como un par HA y es posible que se interrumpa el tráfico.
vSphere High Availability
NSX Edge HA es compatible con vSphere HA. Si el host en el que se está ejecutando la instancia de NSX Edge pierde la actividad, el dispositivo NSX Edge se reinicia en el host en espera para garantizar que el par de NSX Edge HA siga estando disponible para controlar otra conmutación por error.
Si no se habilita vSphere HA, el par de NSX Edge HA en modo activo o en espera sobrevivirá una sola conmutación por error. Sin embargo, si se produce otra conmutación por error antes de la restauración del segundo par HA, puede ponerse en riesgo la disponibilidad de NSX Edge.
Para obtener más información sobre vSphere HA, consulte Disponibilidad de vSphere.