可以使用 VMware Cloud Director 设备管理用户界面监控集群状态。

通过使用 VMware Cloud Director 设备管理 UI 或 VMware Cloud Director 设备 API,您可以查看集群中单元的名称、单元的角色、单元状态、备用单元所支持的单元的名称以及集群故障切换模式。此过程介绍使用管理 UI 监控设备集群运行状况的步骤。

过程

  1. root 身份登录到设备管理 UI,网址为 https://primary_eth1_ip_address:5480
  2. 在左侧面板中,选择嵌入式数据库可用性

    可以查看节点的短 DNS 名称、角色、状态、其上游节点的名称(即当前主节点)以及节点上的可用操作。

    跟踪列中,主机名前面的问号 (?)表示当前主节点无法访问。主机名前面的感叹号 (!)表示当前主节点的元数据未更新,可能有错误,或者该节点未连接到当前主节点。如果在长时间停机后重新启动该节点,则可能会出现此问题。如果该节点无法连接到主节点,则必须将其取消注册,然后替换为新的备用节点。

  3. 查看集群运行状况。
    集群运行状况 描述
    Healthy

    集群处于正常状态。主单元和两个备用单元均处于联机状态且正常运行。

    VMware Cloud Director UI 和 API 正常工作。

    Degraded

    集群处于已降级状态。主单元和其中一个备用单元处于联机状态且正常运行,但另一个备用单元不运行。主数据库在此状态下正常运行,但如果运行的任一单元发生了其他数据库故障,主数据库将无法正常运行。必须尽快将不运行的备用单元替换为新的正常运行的备用单元,以将集群还原到“Healthy”状态。

    VMware Cloud Director UI 和 API 正常工作。

    No_Active_Primary

    没有正常运行的主数据库。如果有两个备用单元正常运行,必须将其中一个提升为新的主单元。如果环境中没有两个正常运行的备用单元,则必须诊断问题并手动修复该情况。

    VMware Cloud Director UI 和 API 不可用。

    Read_Only_Primary

    主数据库处于联机状态,但处于 Read_Only 是因为环境中没有正常运行的备用单元。必须部署两个新的备用单元。

    VMware Cloud Director UI 和 API 不可用。

    Critical_Problem

    集群处于不一致状态。例如,多个主单元处于联机状态,或者某个备用单元支持错误的主单元。您必须诊断问题并手动修复该情况。

    这种状态可能会影响 VMware Cloud Director UI 和 API 可用性。

    SSH_Problem

    SSH 问题表示 postgres 用户无法通过 SSH 连接到其对等数据库节点。必须尽快修复此严重问题。请参见集群运行状况指示存在 SSH 问题

    VMware Cloud Director UI 和 API 可能无法完全正常运行。

  4. 查看设备故障切换模式。
    故障切换模式 描述
    自动 如果出现主数据库故障,VMware Cloud Director 会自动触发数据库故障切换。
    手动 如果出现主数据库故障,则必须使用 VMware Cloud Director 设备管理 UI 或故障切换 API 启动数据库故障切换。
    不确定 集群中所有节点之间的故障切换模式不一致。您必须诊断问题并修复该情况。使用 VMware Cloud Director 设备 API,将 FailoverMode 重置为 ManualAutomatic。请参见VMware Cloud Director 设备 API 架构参考》中的故障切换模式信息。