NSX Edge トランスポート ノードは、HA フェイルオーバー時に自動的に NSX メンテナンス モードになります。

問題

データパスまたはヒープ メモリの使用に問題がある場合、NSX Edge トランスポート ノードは自動的に NSX メンテナンス モードに切り替わる可能性があります。

原因

Edge ノードの高可用性の状態、状態の変更、およびその理由を表示するには、管理者 CLI get edge-cluster status および get edge-cluster history state を実行します。Edge の状態が「停止」の場合は、データパス プロセスが実行されていないか、物理リンクが停止しているか、VTEP トンネルが停止していることを示します。

解決方法

  1. 管理者 CLI get diagnois configget service dataplane を実行して、コア サービスが稼動していることを確認します。
  2. 管理者 CLI get diagnosis topology を実行して、Edge 構成の詳細な状態を表示します。
  3. 管理者 CLI get host-switch を実行して、vtep-device 名と physical-port-name を取得します。
  4. 管理者 CLI get physical-port <port-name> を実行して、ホスト スイッチ ポートの状態を表示し、その後に get physical-port <interface-name> stats を実行して、パケット ロスの発生を判断するために rx_misses(入力バッファ)または tx_drops(出力バッファ)カウンタを確認します。データパス CPU が処理できるよりも高いトラフィック 速度で Edge がフラッディングすると、パケット ロスが発生する可能性があります。パケットは最初に入力/出力バッファに保持され、バッファがいっぱいになるとドロップされます。現在のバッファ サイズの構成を確認するには、CLI get dataplane | find ring を使用します。
  5. データプレーン サービスが停止している場合は、(一時的な回避策として)コマンド start service dataplane を発行して起動します。
  6. ホスト スイッチ ポートが停止している場合は、(一時的な回避策として)コマンド set physical-port fp-eth0 state up を発行して起動します。
  7. パケット ロスが発生した場合、またはホスト スイッチのステータス|状態に問題がある場合は、VMware サポート デスクにチケットを提出してください。

    CLI set dataplane ring-size <rx/tx> <size> を使用して、rx/tx バッファ構成の変更(Edge インターフェイスのトラフィック管理キャパシティの強化)を試みることもできます。サポートされるバッファ サイズの範囲は 128 ~ 4096 バイトで、新しい構成を有効にするためにデータプレーン サービスを再起動する必要があり、その結果約 60 秒のダウンタイムが発生します。

    1. たとえば、set dataplane ring-size rx 2048 です。データプレーン サービスを再起動して、変更を有効にします。
    2. set dataplane ring-size tx 2048 の VMware 製品ダウンロード サイトにあるものを使用してください。データプレーン サービスを再起動して、変更を有効にします。
      restart service dataplane 
      get dataplane | find ring 
      Bfd_ring_size     : 512 
      Lacp_ring_size    : 512 
      Learning_ring_size : 512 
      Livetrace_ring_size: 512 
      Rx_ring_size      : 2048 
      Slowpath_ring_size : 512 
      Tx_ring_size      : 2048