NSX Manager 加载缓慢,任务失败并显示以下消息:服务器已过载请求过多

问题

NSX Manager UI 加载失败,并显示以下错误: 某些设备组件未正常运行。组件运行状况:POLICY:UNKNOWN、MANAGER:UNKNOWN、SEARCH:UNKNOWN、NO,并且与集群相关的命令无法使用 CLI 和 API。

解决方案

  1. 使用 SSH 访问每个受影响的 NSX Manager 节点,并运行以下命令:
    1. 运行 get file-system-stats 并确认 /config 和 /image 未全满。
    2. 运行 get core-dumps 以确认未在 NSX Manager 中生成任何核心转储。
    3. 确认没有如上述步骤 1b 中所述的数据存储中断。
    4. 检查日志中是否存在内存不足错误。请参见 /var/log/proton/proton-tomcat-wrapper.log
  2. 要还原集群和 UI,3 节点集群中的 2 个节点应已启动。如果无法恢复任何关闭的节点,但仍有一个正常运行的节点,请执行以下步骤之一以还原集群:
    • 部署新的管理器节点(作为第 4 个成员节点),加入现有集群,然后使用 CLI 命令 detach node <node-uuid> 或 API POST /api/v1/cluster/<node-uuid>?action=remove_node 来分离其中一个失败节点。应从其中一个正常节点执行命令。
    • 在活动节点上运行 deactivate cluster 命令,以便最终得到一个单节点集群。现在,继续添加新的额外节点,以创建一个包含 3 个成员的 NSX Manager 集群。
      注: 对于已从集群中移除的 NSX Manager 节点,应关闭其电源并将其删除。