問題
インフラストラクチャ サービスがクラッシュしたため、NSX Edge MPA 接続が停止しています。
原因
NSX Edge ノードのディスクがいっぱいになっているか、メモリ リークが発生すると、特定のプロセスがクラッシュし、この障害が発生する可能性があります。管理者 CLI get managers がアクティブなマネージャ ノードを返す場合があります(マネージャの登録に成功した後にクラッシュが発生した場合)。管理者 CLI get controller でエラー「Failed to get controller list」が発生します。
解決方法
- 管理者 CLI get diagnosis config または
GET API /api/v1/transport-nodes/{transport-node-id}/node/diagnosis
を実行して、サービスが停止したときに発生した NSX Edge ノードの健全性に関連する障害を診断します。 - 管理者 CLI get cores-dumps を実行して、サービスのクラッシュが原因で(/var/core または /image/core で)コアが生成されたかどうかを確認します。コア ダンプが表示された場合は、root としてコマンド top -o %MEM を実行して、どの NSX プロセスが大量のメモリを消費しているかを確認し、管理者 CLI get filesystem-status を実行して、NSX で使用されるパーティションがいっぱいになっていないか、またはいっぱいに近いかどうかを確認します。
- root CLI /etc/init.d/nsx-proxy | nsx-nestdb status を実行して、NSX Edge ノード上で実行されているインフラストラクチャ サービスの状態を取得します。
- ディスク容量をクリーンアップしてから、(一時的な回避策として)コマンド /etc/init.d/<service-name> start を発行して、ホスト上で停止したインフラストラクチャ サービスを開始します。コアが見られる場合は、VMware でサポート ケースを開きます。