Funcionamiento de la agrupación en clústeres de Edge

En esta sección, se proporciona una descripción general detallada de cómo funciona la funcionalidad de agrupación en clústeres de instancias de SD-WAN Edge.

Los siguientes son conceptos importantes que describen la funcionalidad de agrupación en clústeres de SD-WAN Edge:

La agrupación en clústeres de Edge se puede utilizar en los hubs de la siguiente manera:
- Para permitir una mayor capacidad de túnel para un hub respecto a una instancia de Edge individual que pueda prestar servicio al hub.
- Para distribuir las instancias de Edge de radios remotos entre varios hubs y reducir el impacto de cualquier incidencia que pueda ocurrir.
La puntuación de clúster es un cálculo matemático del uso general del sistema de la siguiente manera:
Los tres factores de uso evaluados son el uso de la CPU, el uso de la memoria y la capacidad del túnel.
- Cada medida de uso se trata como un porcentaje de un máximo de 100 %.
- La capacidad del túnel se basa en la capacidad calificada para un modelo de hardware o una configuración de Virtual Edge determinados.
- Los tres porcentajes de uso se promedian para llegar a una puntuación de clúster basada en enteros (1-100).
- Si bien la capacidad de proceso no se evalúa directamente, el uso de la CPU y la memoria refleja indirectamente la capacidad de proceso y el volumen de flujo en un hub determinado.
- Por ejemplo, en una instancia de Edge 2000:
  - Uso de CPU = 20 %
  - Uso de memoria = 30 %
  - Túneles conectados = 600 (de una capacidad de 6000) = 10 %
  - Puntuación de clúster: (20 + 30 + 10) / 3 = 20
Una puntuación de clúster superior a 70 se considera "por encima de la capacidad".
Un "identificador lógico" es un UUID de 128 bits que identifica de forma exclusiva un elemento dentro de la red de VMware.
- Por ejemplo, cada instancia de Edge se representa con un identificador lógico y cada clúster se representa con un identificador lógico.
- Mientras que el usuario proporciona los nombres de Edge y de clúster, se garantiza que los identificadores lógicos son únicos y se utilizan para la identificación interna de los elementos.
De forma predeterminada, la carga se distribuye uniformemente entre los hubs. Por lo tanto, es necesario que todas las instancias de Edge que forman parte de un clúster sean del mismo modelo y capacidad.

Cada miembro del clúster tendrá su propia dirección IP para las interfaces WAN y LAN. Todas las instancias de VMware SD-WAN Edge en el clúster de hub deben ejecutar un protocolo de enrutamiento dinámico, como eBGP, con los dispositivos de capa 3 en el lado de la LAN con un número de sistema autónomo (Autonomous System Number, ASN) único para cada miembro del clúster. El enrutamiento dinámico en el lado de la LAN de los clústeres garantiza que el tráfico desde el DC a un sitio de radios en particular se enrute a través del miembro de clúster de la instancia de Edge adecuado.

Importante: Las instancias de Edge de hub en un clúster no se conectan ni se comunican entre sí a través de túneles o protocolos de enrutamiento. Actúan como instancias de Edge independientes para las funciones del plano de datos. Dependen del emparejamiento de BGP del lado de la LAN con el conmutador principal para controlar el tráfico de sucursal a sucursal cuando las instancias de Edge de sucursal están conectadas a diferentes instancias de Edge de hub en el clúster.

¿De qué manera realiza el seguimiento la puerta de enlace de VMware SD-WAN de los clústeres de Edge?

Cuando se agregue un hub a un clúster de VMware SD-WAN, el hub desconectará y reconstruirá los túneles a todas sus puertas de enlace asignadas, indicará a cada puerta de enlace que el hub se asignó a un clúster y proporcionará un identificador lógico de clúster.

Para el clúster, la puerta de enlace de SD-WAN realiza el siguiente seguimiento:

El identificador lógico
El nombre
Si el reequilibrio automático está activado
Una lista de objetos del hub para los miembros del clúster

Para cada objeto de hub en el clúster, la puerta de enlace realiza un seguimiento de lo siguiente:

El identificador lógico
El nombre
Un conjunto de estadísticas, que se actualizan cada 30 segundos a través de un mensaje periódico enviado desde el hub a cada puerta de enlace asignada, entre las que se incluyen:
- Uso de CPU actual del hub
- Uso de memoria actual del hub
- Número actual de túneles en el hub
- Recuento de rutas BGP actuales en el hub

La puntuación de clúster actual calculada en función de la fórmula proporcionada anteriormente.

Un hub se elimina de la lista de objetos de hub cuando la puerta de enlace no ha recibido ningún paquete de la instancia de Edge del hub durante más de siete segundos.

¿Cómo se asignan las instancias de Edge a un hub específico en un clúster?

En una topología tradicional de hub y radios, el SASE Orchestrator proporciona a la instancia de Edge el identificador lógico del hub al que se debe conectar. Edge solicita a sus puertas de enlace asignadas información de conectividad para ese identificador lógico de hub (es decir, las direcciones IP y los puertos que Edge utilizará para conectarse a ese hub).

Desde el punto de vista de Edge, este comportamiento es idéntico cuando se conecta a un clúster. Orchestrator informa a la instancia de Edge que el identificador lógico del hub al que se debe conectar es el identificador lógico del clúster en lugar del identificador lógico del hub individual. El perímetro sigue el mismo procedimiento de envío de una solicitud de conexión del hub a las puertas de enlace y espera la información de conectividad como respuesta.

En este punto, existen dos diferencias respecto al comportamiento básico del hub:

Divergencia n.º 1: la puerta de enlace debe elegir el hub que se va a asignar.
Divergencia n.º 2: debido a la divergencia número uno, la instancia de Edge puede obtener diferentes asignaciones de sus diferentes puertas de enlace.

La divergencia número uno se resolvió originalmente mediante el uso de la puntuación de clúster para asignar el hub menos cargado de un clúster a una instancia de Edge. Aunque esto pueda parece lógico, en las aplicaciones reales resultó ser una solución poco adecuada, ya que un evento de reasignación típico puede incluir cientos o incluso miles de instancias de Edge, y la puntuación de clúster solo se actualiza cada 30 segundos. En otras palabras, si el hub 1 tiene una puntuación de clúster de 20 y el hub 2 tiene una puntuación de 21, durante 30 segundos todas las instancias de Edge elegirían el hub 1, que podría quedar sobrecargado y activar nuevas reasignaciones.

Alternativamente, la puerta de enlace intenta primero una distribución matemática uniforme que no tenga en cuenta la puntuación de clúster. Los identificadores lógicos de Edge, que se generaron mediante un generador de números aleatorios seguros en Orchestrator, tendrán una distribución uniforme de los valores. Esto significa que el uso del identificador lógico permite calcular una distribución equitativa del uso compartido.

Identificador lógico de Edge módulo número de hubs en el clúster = índice de hub asignado

Por ejemplo:
- Cuatro instancias de Edge con identificadores lógicos que terminan en 1, 2, 3 y 4
- Clúster con 2 hubs
- 1 % 2 = 1, 2 % 2 = 0, 3 % 2 = 1, 4 % 2 = 0 (Nota: "%" se usa para indicar el operador del módulo)
- Las instancias de Edge 2 y 4 están asignadas al índice de hub 0
- Las instancias de Edge 1 y 3 están asignadas al índice de hub 1
Esto es más coherente que una asignación ejecutada por turnos (round-robin), porque significa que las instancias de Edge tienden a estar asignadas al mismo hub cada vez, lo que hace que la asignación y la solución de problemas sean más predictivas.

Nota: Cuando se reinicia un hub (por ejemplo, debido a mantenimiento o a un error), se desconectará de la puerta de enlace y se eliminará del clúster. Esto significa que las instancias de Edge siempre se distribuirán uniformemente después de que se reinicien todas las instancias de Edge (debido a la lógica descrita anteriormente), pero se distribuirán de forma desigual después de cualquier evento de hub que haga que pierdan la conectividad.

¿Qué sucede cuando un hub supera su capacidad máxima de túnel permitida?

La lógica de asignación de Edge intentará distribuir de forma uniforme las instancias de Edge entre todos los hubs disponibles. Sin embargo, después de un evento (por ejemplo, un reinicio) en el hub, la distribución de Edge perderá la paridad.

Nota: Por lo general, la puerta de enlace intenta distribuir las instancias de Edge uniformemente entre los hubs durante la asignación inicial. Una distribución desigual no se considera un estado no válido. Si las asignaciones son desiguales, pero ningún hub individual excede la capacidad de túnel en un 70 %, la asignación se considera válida.

Debido a este evento en el hub (o la adición de instancias de Edge adicionales a la red), es posible que los clústeres alcancen un punto en el que un hub individual haya superado el 70 % de su capacidad de túnel permitida. Si esto ocurre, y al menos otro hub tiene menos de 70 % de la capacidad del túnel, la redistribución equitativa del recurso compartido se realiza automáticamente sin tener en cuenta si el reequilibrado está activado en Orchestrator. La mayoría de las instancias de Edge conservan su asignación existente debido a la asignación matemática predictiva que utiliza identificadores lógicos, y las instancias de Edge que se han asignado a otros hubs debido a las conmutaciones por error o el reequilibrio de uso anterior se volverán a equilibrar para garantizar que el clúster se devuelve automáticamente a una distribución uniforme.

¿Qué sucede cuando un hub supera su puntuación de clúster máxima permitida?

A diferencia del porcentaje de túnel (una medida directa de capacidad), que se puede utilizar inmediatamente, la puntuación de clúster solo se actualiza cada 30 segundos y la puerta de enlace no puede calcular automáticamente cuál será la puntuación de clúster ajustada después de realizar una reasignación de Edge. En la configuración del clúster, se proporciona un parámetro de reequilibrado automático para indicar si la puerta de enlace debe intentar cambiar dinámicamente la carga de Edge de cada hub según sea necesario.

Si la redistribución automática está desactivada y un hub supera una puntuación de clúster de 70 (pero no un 70 % de la capacidad del túnel), no se realiza ninguna acción.

Si el reequilibrio automático está activado y uno o varios hubs superan una puntuación de clúster de 70, la puerta de enlace reasignará una instancia de Edge por minuto al hub con la puntuación de clúster más baja hasta que todos los hubs estén por debajo de 70 o no haya más reasignaciones posibles.

Nota: El reequilibrio automático está desactivado de forma predeterminada.

¿Qué sucede cuando dos instancias de la puerta de enlace de VMware SD-WAN otorgan diferentes asignaciones de hub?

Como propiedad de un plano de control distribuido, cada puerta de enlace está haciendo una determinación individual de la asignación del clúster. En la mayoría de los casos, las puertas de enlace usarán la misma fórmula matemática y, por lo tanto, recibirán la misma asignación para todas las instancias de Edge. Sin embargo, en casos como el reequilibrio basado en la puntuación de clúster, esto no se puede garantizar.

Si una instancia de Edge no está conectada actualmente a un hub de un clúster, aceptará la asignación de cualquier puerta de enlace que responda. Esto garantiza que las instancias de Edge nunca se queden sin asignar en un escenario en el que algunas puertas de enlace están inactivas y otras están en funcionamiento.

Si una instancia de Edge está conectada a un hub en un clúster y recibe un mensaje que indica que debe elegir un hub alternativo, este mensaje se procesa en orden de "preferencia de puerta de enlace". Por ejemplo, si la superpuerta de enlace está conectada, la instancia de Edge solo aceptará las reasignaciones de la superpuerta de enlace. Se ignorarán las asignaciones en conflicto solicitadas por otras puertas de enlace. De forma similar, si la superpuerta de enlace no está conectada, la instancia de Edge solo aceptará las reasignaciones de la superpuerta de enlace alternativa. En el caso de las puertas de enlace de socio (donde no existen superpuertas de enlace), la preferencia de puerta de enlace se basa en el orden de las puertas de enlace de socio configuradas para la instancia de Edge específica.

Nota: Cuando se utilizan puertas de enlace de socio, las mismas puertas de enlace deben asignarse a los hubs de un clúster y a las instancias de Edge de radios; de lo contrario, puede surgir un escenario en el que una instancia de Edge de radios no pueda recibir asignaciones de hubs porque la instancia de Edge de radios está conectada a una puerta de enlace que no está también conectada a los hubs de un clúster.

¿Qué sucede cuando una puerta de enlace de VMware SD-WAN se desactiva?

Cuando una puerta de enlace de SD-WAN deja de funcionar, es posible que se reasignen instancias de Edge si la puerta de enlace preferida es la que se desactivó y la siguiente puerta de enlace preferida proporcionó una asignación diferente. Por ejemplo, la superpuerta de enlace asignó el hub A a esta instancia de Edge, mientras que la superpuerta de enlace alternativa asignó el hub B a la misma instancia de Edge.

La superpuerta de enlace activará la instancia de Edge para que conmute por error al hub B, ya que la superpuerta de enlace alternativa ahora es la puerta de enlace con mayor preferencia para la información de conectividad.

Cuando se recupere la superpuerta de enlace, la instancia de Edge solicitará de nuevo una asignación de hub de esta puerta de enlace. Para evitar que Edge pase de nuevo al hub A en el escenario anterior, la solicitud de asignación de hub incluye el hub asignado actualmente (si existe alguno). Cuando la puerta de enlace procesa la solicitud de asignación, si la instancia de Edge está asignada actualmente a un hub en el clúster y el hub tiene una puntuación de clúster menor que 70, la puerta de enlace actualiza su asignación local para que coincida con la asignación existente sin pasar por su lógica de asignación. Esto garantiza que la superpuerta de enlace, en la recuperación, asignará el hub conectado actualmente e impedirá una conmutación por error gratuita para sus instancias de Edge asignadas.

¿Qué sucede si un hub de un clúster pierde sus rutas dinámicas?

Como se mencionó anteriormente, los hubs informan a puertas de enlace de SD-WAN del número de rutas dinámicas que recibieron a través de BGP cada 30 segundos. Si se pierden rutas para un solo hub de un clúster, ya sea porque se retiran de forma errónea o porque se produce un error en el vecindario de BGP, las instancias de SD-WAN Gateway realizarán una conmutación por error de las instancias de Edge de radios a otro hub del clúster que tenga una tabla de enrutamiento intacta.

Dado que las actualizaciones se envían cada 30 segundos, el recuento de rutas se basa en el momento en el que se envía la actualización a la puerta de enlace de SD-WAN. La lógica de reequilibrado de la instancia de SD- WAN Gateway se produce cada 60 segundos. Esto significa que los usuarios pueden esperar que la conmutación por error demore entre 30 y 60 segundos en el caso poco probable de la pérdida total de un vecino de BGP de LAN. Para asegurarse de que todos los hubs tengan la oportunidad de volver a actualizar las puertas de enlace después de este evento, el reequilibrio se limita a un máximo de una vez cada 120 segundos. Esto significa que los usuarios pueden esperar que la conmutación por error demore 120 segundos para un segundo error sucesivo.

Nota: Las rutas recibidas desde BGP a través de IPsec/GRE no se tienen en cuenta para la detección de errores en el lado de la LAN. Cuando la sesión de BGP en IPsec/GRE se desactiva, el problema no se detecta en el lado de la LAN y, por lo tanto, esto no activa la conmutación por error del clúster.

¿Cómo configurar el enrutamiento en los hubs del clúster?

Como la puerta de enlace puede indicar a los radios que se conecten a cualquier hub miembro del clúster, la configuración de enrutamiento debe reflejarse en todos los hubs. Por ejemplo, si los radios tienen que alcanzar un prefijo BGP 192.168.2.1 detrás de los hubs, todos los hubs del clúster deben anunciar 192.168.2.1 con los mismos atributos de ruta exactos.

Las etiquetas de comunidad de vínculo superior de BGP deben utilizarse en la implementación del clúster. Configure los nodos del clúster para establecer la etiqueta de comunidad de vínculo superior al redistribuir las rutas a los elementos del mismo nivel de BGP.

¿Qué sucede si se produce un error en un hub de un clúster?

La puerta de enlace de SD-WAN esperará a que los túneles se declaren inactivos (7 segundos) antes de que se produzcan errores en las instancias de Edge de radios. Esto significa que los usuarios pueden esperar que la conmutación por error demore entre 7 y 10 segundos (según el RTT) cuando se produce un error en un hub de SD-WAN o en todos sus vínculos WAN asociados.