VMware Cloud Director 장치 대기 노드에 연결할 수 없는 상태가 됨

VMware Cloud Director는 노드 간의 동기식 스트리밍 복제를 유지 관리합니다. 대기 노드에 연결할 수 없는 상태가 되면 원인을 파악하고 문제를 해결해야 합니다.

문제

VMware Cloud Director 장치 관리 UI에 클러스터 상태가 DEGRADED으로 표시되고 대기 노드 중 하나의 상태가 ? 연결할 수 없음입니다.

/nodes API는 localClusterHealth가 DEGRADED이고 노드 status는 ? 연결할 수 없음이며 nodeHealth가 UNHEALTHY이라는 정보를 반환합니다.

예를 들어 /nodes API가 노드에 대해 다음 정보를 반환할 수 있습니다.

{
    "localClusterFailover": "MANUAL",
    "localClusterHealth": "DEGRADED",
    "localClusterState": [
        {
            "connectionString": "host=primary_host_IP user=repmgr dbname=repmgr connect_timeout=2",
            "failover": {
                "details": "failover = manual",
                "mode": "MANUAL",
                "repmgrd": {
                    "details": "On node primary_node_ID (primary_host_name): repmgrd = not applicable",
                    "status": "NOT APPLICABLE"
                }
            },
            "id": primary_node_ID,
            "location": "default",
            "name": "primary_host_name",
            "nodeHealth": "HEALTHY",
            "nodeRole": "PRIMARY",
            "role": "primary",
            "status": "* running",
            "upstream": ""
        },
        {
            "connectionString": "host=unreachable_standby_host_IP user=repmgr dbname=repmgr connect_timeout=2",
            "failover": {
                "details": "failover state unknown - unable to ssh to failed or unreachable node",
                "mode": "UNKNOWN",
                "repmgrd": {
                    "details": "On node unreachable_standby_node_ID (unreachable_standby_host_name): repmgrd = n/a",
                    "status": "UNKNOWN"
                }
            },
            "id": unreachable_standby_node_ID,
            "location": "default",
            "name": "unreachable_standby_host_name",
            "nodeHealth": "UNHEALTHY",
            "nodeRole": "STANDBY",
            "role": "standby",
            "status": "? unreachable",
            "upstream": "primary_host_name"
        },
        {
            "connectionString": "host=running_standby_host_IP user=repmgr dbname=repmgr connect_timeout=2",
            "failover": {
                "details": "failover = manual",
                "mode": "MANUAL",
                "repmgrd": {
                    "details": "On node running_standby_node_ID (running_standby_host_IP): repmgrd = not applicable",
                    "status": "NOT APPLICABLE"
                }
            },
            "id": running_standby_node_ID,
            "location": "default",
            "name": "running_standby_host_name",
            "nodeHealth": "HEALTHY",
            "nodeRole": "STANDBY",
            "role": "standby",
            "status": "running",
            "upstream": "primary_host_name"
        }
    ],
    "warnings": [
        "unable to connect to node \"unreachable_standby_host_name\" (ID: unreachable_standby_node_ID)",
        "node \"unreachable_standby_host_name\" (ID: unreachable_standby_node_ID) is registered as an active standby but is unreachable"
    ]
}

원인

데이터 무결성을 보장하기 위해 PostgreSQL 데이터베이스는 WAL(Write-Ahead Logging)을 사용합니다. 기본 노드는 복제 및 복구 목적으로 WAL을 활성 대기 노드로 지속적으로 스트리밍합니다. 대기 노드는 WAL을 수신할 때 처리합니다. 대기 노드에 연결할 수 없는 경우 WAL 수신을 중지하며, 새로운 기본 노드로 승격할 후보가 될 수 없습니다.

해결책

연결할 수 없는 대기 노드의 가상 시스템이 실행되고 있는지 확인합니다.
대기 노드에 대한 네트워크 연결이 작동하는지 확인합니다.
대기 노드가 다른 노드와 통신하지 못하게 할 수 있는 SSH 문제가 없는지 확인합니다.
대기 노드의 vpostgres 서비스가 실행 중인지 확인합니다.

다음에 수행할 작업

네트워크 또는 SSH 문제가 없는지 확인하려면 VMware Cloud Director 데이터베이스 고가용성 클러스터에서 연결 상태 확인 항목을 참조하십시오.