NSX Edge トランスポート ノードは、HA フェイルオーバー時に自動的に NSX メンテナンス モードになります。
問題
データパスまたはヒープ メモリの使用に問題がある場合、NSX Edge トランスポート ノードは自動的に NSX メンテナンス モードに切り替わる可能性があります。
原因
Edge ノードの高可用性の状態、状態の変更、およびその理由を表示するには、管理者 CLI get edge-cluster status および get edge-cluster history state を実行します。Edge の状態が「停止」の場合は、データパス プロセスが実行されていないか、物理リンクが停止しているか、VTEP トンネルが停止していることを示します。
解決方法
- 管理者 CLI get diagnois config と get service dataplane を実行して、コア サービスが稼動していることを確認します。
- 管理者 CLI get diagnosis topology を実行して、Edge 構成の詳細な状態を表示します。
- 管理者 CLI get host-switch を実行して、vtep-device 名と physical-port-name を取得します。
- 管理者 CLI get physical-port <port-name> を実行して、ホスト スイッチ ポートの状態を表示し、その後に get physical-port <interface-name> stats を実行して、パケット ロスの発生を判断するために rx_misses(入力バッファ)または tx_drops(出力バッファ)カウンタを確認します。データパス CPU が処理できるよりも高いトラフィック 速度で Edge がフラッディングすると、パケット ロスが発生する可能性があります。パケットは最初に入力/出力バッファに保持され、バッファがいっぱいになるとドロップされます。現在のバッファ サイズの構成を確認するには、CLI get dataplane | find ring を使用します。
- データプレーン サービスが停止している場合は、(一時的な回避策として)コマンド start service dataplane を発行して起動します。
- ホスト スイッチ ポートが停止している場合は、(一時的な回避策として)コマンド set physical-port fp-eth0 state up を発行して起動します。
- パケット ロスが発生した場合、またはホスト スイッチのステータス|状態に問題がある場合は、VMware サポート デスクにチケットを提出してください。
CLI set dataplane ring-size <rx/tx> <size> を使用して、rx/tx バッファ構成の変更(Edge インターフェイスのトラフィック管理キャパシティの強化)を試みることもできます。サポートされるバッファ サイズの範囲は 128 ~ 4096 バイトで、新しい構成を有効にするためにデータプレーン サービスを再起動する必要があり、その結果約 60 秒のダウンタイムが発生します。
- たとえば、set dataplane ring-size rx 2048 です。データプレーン サービスを再起動して、変更を有効にします。
- set dataplane ring-size tx 2048 の VMware 製品ダウンロード サイトにあるものを使用してください。データプレーン サービスを再起動して、変更を有効にします。
restart service dataplane
get dataplane | find ring
Bfd_ring_size : 512
Lacp_ring_size : 512
Learning_ring_size : 512
Livetrace_ring_size: 512
Rx_ring_size : 2048
Slowpath_ring_size : 512
Tx_ring_size : 2048