Ein NSX Edge-Transportknoten wechselt beim HA-Failover automatisch in den NSX-Wartungsmodus.

Problem

Ein NSX Edge-Transportknoten wechselt möglicherweise automatisch in den NSX-Wartungsmodus, wenn Probleme bezüglich des Datenpfads oder der Nutzung des Heap-Arbeitsspeichers auftreten.

Ursache

Um den Hochverfügbarkeitsstatus des Edge-Knotens, die Statusänderungen und die Gründe dafür anzuzeigen, führen Sie die Admin-CLI get edge-cluster status und get edge-cluster history state aus. Wenn der Edge-Status „INAKTIV“ lautet, bedeutet dies, dass entweder der Datenpfadprozess nicht ausgeführt wird, die physische Verbindung ausgefallen ist oder die VTEP-Tunnel inaktiv sind.

Lösung

  1. Führen Sie die Admin-CLI get diagnois config und get service dataplane aus, um zu überprüfen, ob die Kerndienste aktiv sind.
  2. Führen Sie die Admin-CLI get diagnosis topology aus, um den detaillierten Edge-Konfigurationsstatus anzuzeigen.
  3. Führen Sie die Admin-CLI get host-switch aus, um „vtep-device name“ und „physical-port-name“ abzurufen.
  4. Führen Sie die Admin-CLI get physical-port <port-name> aus, um den Status des Host-Switch-Ports anzuzeigen, gefolgt von get physical-port <interface-name> stats. Suchen Sie nach „rx_misses“ (Ingress-Puffer) oder „tx_drops“ (Egress-Puffer), um das Auftreten des Paketverlusts zu ermitteln. Paketverlust kann auftreten, wenn edge mit einer Datenverkehrsrate überflutet wird, die höher ist als die Datenpfad-CPUs verarbeiten können. Pakete werden zuerst im Eingabe-/Egress-Puffer abgelegt und verworfen, wenn die Puffer voll sind. Um die aktuelle Konfiguration der Puffergröße zu überprüfen, verwenden Sie die CLI get dataplane | fing ring.
  5. Wenn der Datenebenendienst angehalten wurde, geben Sie zunächst den Befehl start service dataplane (als temporäre Problemumgehung).
  6. Wenn der Host-Switch-Port ausgefallen ist, geben Sie zunächst den Befehl set physical-port fp-eth0 state up (als temporäre Problemumgehung).
  7. Wenn ein Paketverlust auftritt oder ein Problem mit dem Status| des Host-Switches auftritt, erstellen Sie ein Ticket beim VMware Support Desk.

    Sie können auch versuchen, die RX/TX-Pufferkonfiguration (zur Verbesserung der Verwaltungskapazität für den Datenverkehr der Edge-Schnittstelle) mithilfe der CLI set dataplane ring-size <rx/tx> <size> zu ändern. Der unterstützte Puffergrößenbereich liegt zwischen 128 und 4096 Byte und der Datenebenendienst muss neu gestartet werden, damit die neue Konfiguration wirksam wird, was zu einer Ausfallzeit von etwa 60 Sekunden führt.

    1. Beispiel: set dataplane ring-size rx 2048. Starten Sie den Datenebenendienst neu, damit die Änderung wirksam wird.
    2. set dataplane ring-size tx 2048. Starten Sie den Datenebenendienst neu, damit die Änderung wirksam wird.
      restart service dataplane 
      get dataplane | find ring 
      Bfd_ring_size     : 512 
      Lacp_ring_size    : 512 
      Learning_ring_size : 512 
      Livetrace_ring_size: 512 
      Rx_ring_size      : 2048 
      Slowpath_ring_size : 512 
      Tx_ring_size      : 2048