如果集群中的大多数节点都已关闭,则 NSX Manager 已关闭或不可用。
问题
解决方案
- 使用 SSH 访问每个受影响的 NSX Manager 节点,并运行以下命令:
- 运行 get filesystem-stats 并确认 /config 和 /image 未全满。
- 运行 get core-dumps 以确认未在 NSX Manager 中生成任何核心转储。
- 确认不存在数据存储中断。请参见因为数据存储相关组件已关闭,NSX Manager 集群状态为“已降级”。
- 检查日志中是否存在内存不足错误。请参见 /var/log/proton/proton-tomcat-wrapper.log
- 要还原集群和 Ui,必须已启动 3 节点集群中的任意 2 个节点。如果无法恢复任何发生故障的节点,但仍有一个正常运行的节点可用,请执行以下某个步骤以还原集群:
- 部署新的管理器节点(作为第 4 个成员节点),加入现有集群,然后使用 CLI 命令 detach node <node-uuid> 或 API POST /api/v1/cluster/<node-uuid>?action=remove_node 来分离其中一个失败节点。应从其中一个正常节点执行命令。或者,您也可以按照下一个要点所述来停用该集群。
- (可选)在活动节点上运行 deactivate cluster 命令,以便最终得到一个单节点集群。现在,继续添加新的额外节点,以创建一个包含 3 个成员的 NSX Manager 集群。
注: 对于已从集群中移除的 NSX Manager 节点,应关闭其电源并将其删除。