问题
由于基础架构服务崩溃,NSX Edge MPA 连接已关闭。
原因
NSX Edge 节点磁盘已满或内存泄漏可能会导致某些进程崩溃并造成此故障。Admin CLI get managers 可能会返回活动管理器节点(如果在成功注册管理器后发生崩溃),并且 Admin CLI get controller 将显示错误无法获取控制器列表。
解决方案
- 运行 Admin CLI get diagnosis config 或
GET API /api/v1/transport-nodes/{transport-node-id}/node/diagnosis
,以诊断在服务关闭时导致的、与 NSX Edge 节点运行状况相关的故障。 - 运行 Admin CLI get cores-dumps,以查看是否由于服务崩溃而生成了任何核心转储(在 /var/core 或 /image/core 中)。如果发现核心转储,请以 root 用户身份运行命令 top -o %MEM 以了解哪个 NSX 进程占用过多内存,并运行 Admin CLI get filesystem-status 以验证 NSX 使用的磁盘分区未满还是接近已满。
- 运行 root CLI /etc/init.d/nsx-proxy | nsx-nestdb status 以获取 NSX Edge 节点上运行的基础架构服务的状态。
- 清理磁盘空间,然后发出命令 /etc/init.d/<service-name> start 来启动主机上停止的任何基础架构服务(作为临时解决办法)。如果发现任何核心转储,请创建 VMware 支持案例。