Rilevamento e prevenzione dello split brain

Questa sezione illustra i meccanismi utilizzati per rilevare e impedire uno stato di split brain nella distribuzione di un Edge utilizzando una topologia ad alta disponibilità.

Sono disponibili due meccanismi per rilevare e impedire una condizione di split brain in una distribuzione ad alta disponibilità (in cui entrambi gli Edge HA diventano attivi).

Il primo meccanismo prevede l'invio di heartbeat di broadcast di livello 2 tra i due Edge HA quando il link dell'heartbeat HA tra i dispositivi viene perso. L'Edge attivo invia un heartbeat di broadcast di livello 2 (EtherType 0x9999) a tutte le interfacce WAN nel tentativo di individuare l'Edge di standby nella rete di broadcast. Quando l'Edge di standby riceve questo pacchetto, lo interpreta come un'istruzione che indica di mantenere lo stato di standby corrente. Questo meccanismo viene utilizzato da una distribuzione ad alta disponibilità legacy in cui le porte WAN di entrambi gli Edge HA sono connesse allo stesso commutatore di livello 2.

Il secondo meccanismo utilizzato per rilevare e impedire condizioni di split brain usa il gateway primario utilizzato dagli Edge HA. Questo meccanismo è l'unico modo per rilevare e impedire lo split brain in una distribuzione ad alta disponibilità avanzata perché questa topologia non connette entrambi gli Edge HA a un commutatore di livello 2 upstream.

Il gateway ha una connessione preesistente all'Edge attivo (VCE1). In una condizione di split brain, l'Edge di standby (VCE2) passa allo stato attivo e cerca di stabilire un tunnel con il gateway (VCG). Il gateway invierà una risposta all'Edge di standby (VCE2) per indicargli di passare allo stato di standby e non consentirà di stabilire il tunnel. Il gateway mantiene i tunnel solo con l'Edge attivo. La sequenza degli eventi è la seguente:

Non appena il link HA non riesce, VCE2 passa allo stato attivo, abilita le porte LAN/WAN e tenta di stabilire tunnel con il gateway primario. Se VCE1 include ancora tunnel, il gateway primario indica a VCE2 di ripristinare lo stato di standby e quindi VCE2 blocca le sue porte LAN. Solo le interfacce LAN rimangono bloccate (se il cavo HA è inattivo). Come illustrato nella figura seguente, il gateway segnala a VCE2 di passare allo stato di standby. Ciò impedirà logicamente che si verifichi lo scenario di split brain.

Nota: Il failover normale da attivo a standby in uno scenario di split brain non corrisponde al failover normale. La convergenza potrebbe richiedere alcuni millisecondi/secondi aggiuntivi.

Nota: Quando si configurano le impostazioni dell'interfaccia WAN per un Edge, se si seleziona PPPoE nel campo Tipo di indirizzamento (Addressing Type), l'Edge non può inviare pacchetti heartbeat tramite broadcast dall'interfaccia WAN configurata così.

Nota: A partire dalla versione 5.2.0, la funzionalità Moltiplicatore tempo di rilevamento failover HA può essere utilizzata per impostare una soglia di failover alta disponibilità più lunga. Il timer rappresenta per quanto tempo un Edge di standby attenderà un pacchetto heartbeat dall'Edge attivo prima di diventare attivo. In alcuni casi, in cui un Edge del modello inferiore è sottoposto a un carico di traffico elevato, il pacchetto heartbeat dell'Edge attivo potrebbe richiedere più tempo all'Edge di standby. Di conseguenza, l'Edge di standby attiva un failover e viene promosso ad attivo, causando uno stato split brain.

L'impostazione del moltiplicatore tempo di rilevamento failover HA su un valore superiore al valore predefinito può ridurre il rischio di uno stato split brain in questo scenario. Il valore predefinito è 700 millisecondi (ms) e questo valore può essere aumentato fino a un valore di 7000 ms. Per ulteriori informazioni, vedere Attivazione dell'alta disponibilità.