還原 Automation Orchestrator 節點可能會導致 Kubernetes 服務發生問題。

若要復原 Automation Orchestrator 叢集中有問題的節點,必須找到該節點,將其從叢集中移除,然後再次將其新增到叢集中。

程序

  1. 識別 Automation Orchestrator 叢集的主要節點。
    1. root 身分透過 SSH 登入其中一個節點的 Automation Orchestrator Appliance 命令列。
    2. 執行 kubectl -n prelude exec postgres-0 命令以尋找具有 primary 角色的節點。
      kubectl -n prelude exec postgres-0 – chpst -u postgres repmgr cluster show --terse --compact
    3. 擷取主要節點所在網繭的名稱。
      在大多數情況下,網繭的名稱為 postgres-0.postgres.prelude.svc.cluster.local
    4. 執行 kubectl -n prelude get pods 命令以尋找主要節點的 FQDN 位址。
      kubectl -n prelude get pods -o wide
    5. 使用擷取到的名稱尋找資料庫網繭,並取得相對應節點的 FQDN 位址。
  2. 執行 kubectl -n prelude get node 命令以找出有問題的節點。
    有問題的節點具有 NotReady 狀態。
  3. root 身分透過 SSH 登入主要節點的 Automation Orchestrator Appliance 命令列。
  4. 執行 vracli cluster remove <NODE-FQDN> 命令以從叢集中移除有問題的節點。
  5. root 身分透過 SSH 登入有問題節點的 Automation Orchestrator Appliance 命令列。
  6. 執行 vracli cluster join <MASTER-DB-NODE-FQDN> 命令以再次將節點新增到叢集。