NSX Edge 傳輸節點在 HA 容錯移轉後自動進入 NSX 維護模式。

問題

如果 NSX Edge 傳輸節點的資料路徑或堆積記憶體使用量出現問題,則這些傳輸節點可能會自動進入 NSX 維護模式。

原因

若要檢視 Edge 節點的高可用性狀態、狀態變更及其原因,請執行 Admin CLI get edge-cluster statusget edge-cluster history state。如果 Edge 狀態為 [關閉],表示資料路徑程序不在執行中、實體連結已關閉,或是 VTEP 通道已關閉。

解決方案

  1. 執行 Admin CLI get diagnois configget service dataplane,以驗證核心服務是否已啟動。
  2. 執行 Admin CLI get diagnosis topology,以檢視詳細的 Edge 組態狀態。
  3. 執行 Admin CLI get host-switch,以取得 VTEP 裝置名稱和實體連接埠名稱。
  4. 執行 Admin CLI get physical-port <port-name>,以檢視主機交換器連接埠的狀態,然後執行 get physical-port <interface-name> stats,並尋找 rx_misses (入口緩衝區) 或 tx_drops (出口緩衝區) 計數器,以判斷是否出現封包遺失情況。如果 Edge 上湧入的流量速率過高,而遠遠高過資料路徑 CPU 可以處理的速率,可能會看到封包遺失情況。封包首先會保留在入口/出口緩衝區中,如果緩衝區已滿,則會捨棄這些封包。若要檢查目前的緩衝區大小組態,請使用 CLI get dataplane | fing ring
  5. 如果資料平面服務已停止,請發出命令 start service dataplane (作為暫時的因應措施) 以啟動該服務。
  6. 如果主機交換器連接埠已關閉,請發出命令 set physical-port fp-eth0 state up (作為暫時的因應措施) 以啟動該連接埠。
  7. 如果看到封包遺失情況,或主機交換器狀態出現問題,請提出申請單給 VMware 支援服務台。

    您還可以使用 CLI set dataplane ring-size <rx/tx> <size>,來嘗試變更接收/傳輸緩衝區組態 (以增強 Edge 介面流量管理能力)。支援的緩衝區大小範圍為 128-4096 位元組,且需要重新啟動資料平面服務才能使新組態生效,這會導致約 60 秒的停機時間。

    1. 例如,set dataplane ring-size rx 2048。重新啟動資料平面服務,以使變更生效。
    2. set dataplane ring-size tx 2048。重新啟動資料平面服務,以使變更生效。
      restart service dataplane 
      get dataplane | find ring 
      Bfd_ring_size     : 512 
      Lacp_ring_size    : 512 
      Learning_ring_size : 512 
      Livetrace_ring_size: 512 
      Rx_ring_size      : 2048 
      Slowpath_ring_size : 512 
      Tx_ring_size      : 2048