問題

インフラストラクチャ サービスがクラッシュしたため、NSX Edge MPA 接続が停止しています。

原因

NSX Edge ノードのディスクがいっぱいになっているか、メモリ リークが発生すると、特定のプロセスがクラッシュし、この障害が発生する可能性があります。管理者 CLI get managers がアクティブなマネージャ ノードを返す場合があります(マネージャの登録に成功した後にクラッシュが発生した場合)。管理者 CLI get controller でエラー「Failed to get controller list」が発生します。

解決方法

  1. 管理者 CLI get diagnosis config または GET API /api/v1/transport-nodes/{transport-node-id}/node/diagnosis を実行して、サービスが停止したときに発生した NSX Edge ノードの健全性に関連する障害を診断します。
  2. 管理者 CLI get cores-dumps を実行して、サービスのクラッシュが原因で(/var/core または /image/core で)コアが生成されたかどうかを確認します。コア ダンプが表示された場合は、root としてコマンド top -o %MEM を実行して、どの NSX プロセスが大量のメモリを消費しているかを確認し、管理者 CLI get filesystem-status を実行して、NSX で使用されるパーティションがいっぱいになっていないか、またはいっぱいに近いかどうかを確認します。
  3. root CLI /etc/init.d/nsx-proxy | nsx-nestdb status を実行して、NSX Edge ノード上で実行されているインフラストラクチャ サービスの状態を取得します。
  4. ディスク容量をクリーンアップしてから、(一時的な回避策として)コマンド /etc/init.d/<service-name> start を発行して、ホスト上で停止したインフラストラクチャ サービスを開始します。コアが見られる場合は、VMware でサポート ケースを開きます。