問題

由於基礎結構服務當機,NSX Edge MPA 連線已關閉。

原因

NSX Edge 節點磁碟已滿或記憶體洩漏可能導致某些程序當機,並造成此故障。Admin CLI get managers 可能會傳回作用中管理程式節點 (如果在成功登錄管理程式後發生當機),且 Admin CLI get controller 會顯示下列錯誤:無法取得控制器清單

解決方案

  1. 執行 Admin CLI get diagnosis configGET API /api/v1/transport-nodes/{transport-node-id}/node/diagnosis,以診斷服務關閉時所造成且與 NSX Edge 節點健全狀況有關的故障。
  2. 執行 Admin CLI get cores-dumps,以查看是否由於服務當機而產生任何核心傾印 (在 /var/core 或 /image/core 中)。如果看到核心傾印,請以 root 使用者身分執行 cmd top -o %MEM,以瞭解哪個 NSX 程序耗用過多記憶體,並執行 Admin CLI get filesystem-status,以驗證 NSX 使用的磁碟分割未滿或接近已滿。
  3. 執行 root CLI /etc/init.d/nsx-proxy | nsx-nestdb status,以取得 NSX Edge 節點上所執行的基礎結構服務的狀態。
  4. 清理磁碟空間,然後發出 /etc/init.d/<service-name> start 命令,以啟動主機上任何已停止的基礎結構服務 (這是暫時的因應措施)。若有看到任何核心傾印,請向 VMware 開立支援案例。