V této části najdete podrobné informace o tom, jak funguje SD-WAN Edge clustering.

Před popisem funkce SD-WAN Edge clustering je třeba pochopit čtyři důležité koncepty.

  1. Edge Clustering byl navržen a testován pro použití v hubech z následujících důvodů:
    • Poskytnutí větší kapacity tunelového propojení pro hub, než může poskytnout jednotlivý Edge sloužící jako hub.
    • Distribuce Edge vzdálených paprsků mezi více hubů a snížení dopadu jakékoli události, ke které může dojít.
  2. Skóre clusteru je matematický výpočet celkového využití systému následujícím způsobem:
    • Tři měřené faktory využití jsou využití procesoru, využití paměti a kapacita tunelového propojení.
      • Každá míra využití se považuje za procentuální hodnotu z maxima 100 %.
      • Kapacita tunelového propojení je založena na jmenovité kapacitě daného hardwarového modelu nebo konfigurace virtuálního zařízení Edge.
      • Všechny tři procentuální hodnoty využití jsou zprůměrované, aby se dosáhlo celočíselného skóre clusteru (1–100).
      • Zatímco propustnost není zvažována přímo, využití procesoru a paměti nepřímo odráží propustnost a objem toku v daném hubu.
      • Například na Edge 2 000:
        • Využití procesoru = 20 %
        • Využití paměti = 30 %
        • Připojená tunelová propojení = 600 (z kapacity 6 000) = 10 %
        • Skóre clusteru: (20 + 30 + (60/6 000))/3 =20
  3. Skóre clusteru vyšší než 70 se považuje za „nad kapacitu“.
  4. „Logické ID“ je 128bitové UUID, které jednoznačně identifikuje prvek uvnitř sítě VMware SD-WAN.
    • Například každý Edge je reprezentován logickým ID a každý cluster je reprezentován logickým ID.
    • Zatímco názvy Edge a clusteru zadává uživatel, logická ID jsou zaručena jako jedinečná a používají se pro interní identifikaci prvků.

Jak jsou clustery SD-WAN Edge sledovány bránou SD-WAN?

Jakmile je hub přidán do clusteruVMware SD-WAN, hub přeruší a znovu vytvoří tunelová propojení na všechny své přiřazené brány, oznámí každé bráně, že byl hub přiřazen ke clusteru a poskytne logické ID clusteru.

U clusteru SD-WAN Gateway sleduje:
  • Logické ID
  • Název
  • Zda je aktivováno automatické vyrovnání
  • Seznam objektů hubu pro členy clusteru

U každého objektu hubu v clusteru brána sleduje:

  • Logické ID
  • Název
  • Soubor statistiky, který se aktualizuje každých 30 sekund prostřednictvím pravidelné zprávy odeslané z hubu každé přiřazené bráně, včetně těchto hodnot:
    • Aktuální využití procesoru hubu
    • Aktuální využití paměti hubu
    • Aktuální počet tunelových propojení na hub
    • Aktuální počet směrování BGP na hub
  • Aktuální vypočítané skóre clusteru na základě výše uvedeného vzorce.

Hub je odebrán ze seznamu objektů hubu, pokud brána neobdržela žádné pakety od Edge hubu po dobu delší než sedm sekund.

Jak jsou SD-WAN Edge přiřazovány ke konkrétnímu hubu v clusteru?

V tradiční topologii hubu a paprsku SD-WAN Orchestrator sděluje Edge logické ID hubu, ke kterému má být připojen. Edge požádá své přiřazené brány o informace o připojení pro dané logické ID hubu, tj. IP adresy a porty, které Edge použije k připojení k tomuto hubu.

Z pohledu Edge je toto chování identické při připojení ke clusteru. Orchestrator informuje Edge, že logickým ID hubu, ke kterému by se měl připojit, je logické ID clusteru namísto logického ID konkrétního hubu. Edge postupuje stejným způsobem jako při odesílání požadavku na připojení hubu k bránám a očekává odpověď s informacemi o připojení.

V této fázi existují dvě odlišnosti od základního chování hubu:

  • Rozdíl číslo jedna: Brána musí zvolit hub k přiřazení.
  • Rozdíl číslo dva: Kvůli rozdílu číslo jedna může Edge získat z různých bran různá přiřazení.

Rozdíl číslo jedna se původně řešil pomocí skóre clusteru pro přiřazení nejméně zatíženého hubu v clusteru k Edge. Ačkoli teoreticky je to logické, ve skutečném světě se ukázalo, že to není úplně ideální řešení, protože typická událost přiřazení může zahrnovat stovky nebo dokonce tisíce Edge a skóre clusteru se aktualizuje jen každých 30 sekund. Jinými slovy, pokud má hub 1 skóre clusteru 20 a hub 2 má skóre clusteru 21, po dobu 30 sekund si všechny Edge budou vybírat hub 1, čímž může dojít k přetížení a vyvolání potřeby dalších přiřazení.

Místo toho se brána nejprve pokouší o spravedlivé matematické rozdělení bez ohledu na skóre clusteru. Logická ID Edge, která byla generována zabezpečeným generátorem náhodných čísel v nástroji Orchestrator, budou mít (s dostatečným počtem Edge) rovnoměrné rozdělení hodnot. To znamená, že pomocí logického ID lze vypočítat spravedlivé rozdělení distribuce.

  • Logické ID Edge modulo počet hubů v clusteru = index přiřazeného hubu
  • Například:
    • Čtyři Edge s logickými ID končícími 1, 2, 3, 4
    • Cluster se 2 huby
    • 1 % 2 = 1, 2 % 2 = 0, 3 % 2 = 1, 4 % 2 = 0 (Poznámka: pro indikaci operátoru modulo se používá symbol „%“)
    • Edge 2 a 4 je přiřazen index hubu 0
    • Edge 1 a 3 je přiřazen index hubu 1

    Toto je důslednější než přiřazení typu „round-robin“, protože to znamená, že Edge budou mít přiřazen vždy stejný hub, což učiní přiřazování a odstraňování problémů předvídatelnějšími.

    Poznámka: Pokud se hub restartuje (např. z důvodu údržby nebo selhání), bude odpojen od brány a odebrán z clusteru. To znamená, že Edge budou po všech restartech Edge vždy rovnoměrně distribuovány (podle výše popsané logiky), avšak po jakékoli události hubu, která způsobí ztrátu připojení, budou distribuovány nerovnoměrně.

Co se stane, když hub překročí maximální povolenou kapacitu tunelového propojení?

Logika přiřazování Edge se pokusí rovnoměrně distribuovat Edge mezi všechny dostupné huby. Po události (např. restartu) na hubu již ale nebude distribuce Edge rovnoměrná.

Poznámka: Obecně se brána pokouší o počáteční přiřazení rovnoměrnou distribucí Edge mezi huby. Nerovnoměrná distribuce se nepovažuje za neplatný stav. Pokud jsou přiřazení nerovnoměrná, avšak žádný z hubů nepřekročí 70 % kapacity tunelového propojení, přiřazení se považuje za platné.

Kvůli takové události na hubu (nebo přidáním dalších Edge do sítě) mohou clustery dosáhnout bodu, kdy konkrétní hub překročil 70 % povolené kapacity tunelového propojení. Pokud k tomu dojde a nejméně jeden další hub je zatížen na méně než 70 % kapacity tunelového propojení, pak se redistribuce spravedlivého podílu provede automaticky bez ohledu na to, zda je v nástroji Orchestrator povoleno vyrovnávání. Většina Edge si zachová své stávající přiřazení kvůli prediktivnímu matematickému přiřazování pomocí logických ID a Edge, které byly přiděleny jiným hubům v důsledku převzetí služeb při selhání nebo předchozího vyrovnání využívání, budou znovu vyváženy, aby se zajistilo, že se cluster automaticky vrátí k rovnoměrné distribuci.

Co se stane, když hub překročí maximální povolené skóre clusteru?

Na rozdíl od procenta tunelového propojení (přímá míra kapacity), na které lze okamžitě reagovat, se skóre clusteru aktualizuje pouze každých 30 sekund a brána nemůže automaticky vypočítat, jaká bude hodnota skóre clusteru po přiřazení Edge. V konfiguraci clusteru je k dispozici parametr automatického vyrovnání, který udává, zda se má brána podle potřeby dynamicky pokoušet přesouvat zatížení Edge na každý hub podle potřeby.

Pokud je automatické vyrovnávání zakázané a skóre hubu překročí skóre clusteru 70 (avšak nikoli 70 % kapacity tunelového propojení), nebude provedena žádná akce.

Pokud je povoleno automatické vyrovnávání a jeden nebo více hubů překročí skóre clusteru 70, brána bude každou minutu přidělovat jeden Edge k hubu s aktuálně nejnižším skóre clusteru, dokud nebudou všechny huby pod 70 nebo již nebude další přiřazování možné.

Poznámka: Automatické vyrovnávání je ve výchozím nastavení zakázané.

Co se stane, když dvě brány SD-WAN poskytnou hubu různá přiřazení?

Vzhledem k povaze distribuované řídicí plochy provádí každá brána individuální určení přiřazení clusteru. Ve většině případů budou brány používat stejný matematický vzorec a tak určí všem Edge stejná přiřazení. V případech, jako je vyrovnávání založené na skóre clusteru, to však nelze zajistit.

Pokud Edge není aktuálně připojen k hubu v clusteru, přijme přiřazení od jakékoli brány, která odpoví. Tím je zajištěno, že Edge nezůstanou nepřiřazené v případě, že některé brány spadnou a jiné jsou online.

Pokud je Edge připojen k hubu v clusteru a obdrží zprávu, že má zvolit jiný hub, je tato zpráva zpracována v pořadí „Preference brány“. Například, pokud je připojena primární brána, Edge bude přijímat přiřazení pouze z této primární brány. Konfliktní přiřazení vyžadovaná jinými branami budou ignorována. Podobně, pokud není primární brána připojena, Edge bude akceptovat pouze přiřazení z alternativní primární brány. U partnerských bran (pokud neexistují žádné primární brány) je preference brány založena na pořadí nakonfigurovaných partnerských bran pro daný Edge.

Co se stane, když brána SD-WAN spadne?

Pokud SD-WAN Gateway spadne, mohou být Edge znovu přiřazeny, pokud je první preferovanou bránou ta, která spadla, a další preferovaná brána poskytla jiné přiřazení. Například primární brána přiřadila k tomuto Edge hub A, zatímco alternativní primární brána přiřadila stejnému Edge hub B.

Pád primární brány spustí pro Edge přechod na hub B při selhání, protože alternativní primární brána je nyní první preferovanou bránou pro informace o připojení.

Když primární brána znovu naskočí, Edge znovu požádá o přiřazení hubu tuto bránu. Aby se ve výše uvedeném scénáři zabránilo přepnutí Edge zpět na hub A, požadavek na přiřazení hubu obsahuje i informace o aktuálně přiřazeném hubu (pokud existuje). Když brána zpracovává požadavek na přiřazení, tak je-li Edge aktuálně přiřazen hubu v clusteru a tento hub má skóre clusteru nižší než 70, brána aktualizuje své lokální přiřazení, aby odpovídalo existujícímu přiřazení, aniž by spouštěla svou logiku přiřazování. Tím se zajistí, že primární brána při zotavení přiřadí aktuálně připojený hub a zabrání bezdůvodnému převzetí služeb při selhání pro své přiřazené Edge.

Co se stane, když hub v clusteru ztratí své dynamické trasy?

Jak je uvedeno výše, huby hlásí SD-WAN Gateway každých 30 sekund počet dynamických tras, které se naučily prostřednictvím BGP. Pokud se ztratí trasy pouze jednoho hubu v clusteru, ať už kvůli chybnému zrušení, nebo kvůli selhání sousedství BGP, SD-WAN Gateway při selhání přesměruje Edge v paprsku na jiný hub v clusteru s nepoškozenou tabulkou tras.

Protože se aktualizace odesílají každých 30 sekund, počet tras je založen na okamžiku, kdy je aktualizace odeslána do brány SD-WAN. Logika vyvážení brány SD-WAN se spouští každých 60 sekund, což znamená, že uživatelé mohou očekávat, že převzetí služeb při selhání bude v nepravděpodobném případě úplné ztráty souseda BGP na straně LAN trvat 30 až 60 sekund. Aby bylo zajištěno, že všechny huby budou mít po takové události šanci znovu aktualizovat brány SD-WAN, omezuje se četnost vyvažování na maximálně jednou za 120 sekund. To znamená, že uživatelé mohou očekávat, že převzetí služeb při selhání bude pro druhé po sobě jdoucí selhání trvat 120 sekund.

Co se stane, když hub v clusteru selže?

SD-WAN Gateway bude čekat, až budou tunelová propojení deklarována jako mimo provoz (7 sekund), než dojde k převzetí Edge v paprsku. To znamená, že uživatelé mohou očekávat, že převzetí služeb při selhání bude trvat 7 až 10 sekund (v závislosti na RTT), když selže hub SD-WAN nebo všechny jeho přidružené linky WAN.