Le nœud de transport NSX Edge passe automatiquement en mode de maintenance NSX lors du basculement HA.

Problème

Les nœuds de transport NSX Edge peuvent passer automatiquement en mode de maintenance NSX en cas de problèmes avec leur chemin de données ou avec l'utilisation de la mémoire du segment de mémoire.

Cause

Pour afficher l'état de haute disponibilité du nœud Edge, ses modifications d'état et les raisons, exécutez la CLI admin get edge-cluster status et get edge-cluster history state.Si l'état du dispositif Edge est INACTIF, ce qui implique que le processus de chemin de données n'est pas en cours d'exécution, que la liaison physique est inactive ou que les tunnels VTEP sont inactifs.

Solution

  1. Exécutez la CLI admin get diagnois config et get service dataplane pour vérifier que les services principaux sont actifs.
  2. Exécutez la CLI admin get diagnosis topology pour afficher l'état détaillé de la configuration du dispositif Edge.
  3. Exécutez la CLI admin get host-switch pour obtenir le vtep-device-name et physical-port-name.
  4. Exécutez la CLI admin get physical-port <port-name> pour afficher l'état du port de commutateur d'hôte, puis get physical-port <interface-name> stats, et recherchez le compteur rx_misses (tampon d'entrée) ou tx_drops (tampon de sortie) afin de déterminer l'occurrence d'une perte de paquets. Une perte de paquets peut être observée si le dispositif Edge est saturé avec un débit de trafic supérieur à celui que les CPU du chemin de données peuvent traiter. Les paquets sont d'abord maintenus dans la mémoire tampon d'entrée/sortie et sont abandonnés si les tampons sont pleins. Pour vérifier la configuration actuelle de la taille du tampon, utilisez la CLI get dataplane | find ring.
  5. Si le service de plan de données est arrêté, commencez par émettre l'invite de commande start service dataplane (comme solution temporaire).
  6. Si le port du commutateur d'hôte est inactif, commencez par émettre l'invite de commande set physical-port fp-eth0 state up (comme solution temporaire).
  7. Si une perte de paquets est observée ou un problème avec l'état du commutateur d'hôte, adressez un ticket au support VMware.

    Vous pouvez également essayer de modifier la configuration de la mémoire tampon rx/tx (pour améliorer la capacité de gestion du trafic de l'interface Edge) à l'aide de la CLI set dataplane ring-size <rx/tx> <size>. La plage de taille du tampon prise en charge est de 128-4096 octets et le service de plan de données doit être redémarré pour que la nouvelle configuration soit appliquée, ce qui entraîne une interruption de service d'environ 60 secondes.

    1. Par exemple, set dataplane ring-size rx 2048. Redémarrez le service de plan de données pour que la modification prenne effet.
    2. set dataplane ring-size tx 2048. Redémarrez le service de plan de données pour que la modification prenne effet.
      restart service dataplane 
      get dataplane | find ring 
      Bfd_ring_size     : 512 
      Lacp_ring_size    : 512 
      Learning_ring_size : 512 
      Livetrace_ring_size: 512 
      Rx_ring_size      : 2048 
      Slowpath_ring_size : 512 
      Tx_ring_size      : 2048