還原 Automation Orchestrator 節點可能會導致 Kubernetes 服務發生問題。
若要復原 Automation Orchestrator 叢集中有問題的節點,必須找到該節點,將其從叢集中移除,然後再次將其新增到叢集中。
程序
- 識別 Automation Orchestrator 叢集的主要節點。
- 以 root 身分透過 SSH 登入其中一個節點的 Automation Orchestrator Appliance 命令列。
- 執行 kubectl -n prelude exec postgres-0 命令以尋找具有
primary
角色的節點。
kubectl -n prelude exec postgres-0 – chpst -u postgres repmgr cluster show --terse --compact
- 擷取主要節點所在網繭的名稱。
在大多數情況下,網繭的名稱為
postgres-0.postgres.prelude.svc.cluster.local
。
- 執行 kubectl -n prelude get pods 命令以尋找主要節點的 FQDN 位址。
kubectl -n prelude get pods -o wide
- 使用擷取到的名稱尋找資料庫網繭,並取得相對應節點的 FQDN 位址。
- 執行 kubectl -n prelude get node 命令以找出有問題的節點。
有問題的節點具有
NotReady
狀態。
- 以 root 身分透過 SSH 登入主要節點的 Automation Orchestrator Appliance 命令列。
- 執行 vracli cluster remove <NODE-FQDN> 命令以從叢集中移除有問題的節點。
- 以 root 身分透過 SSH 登入有問題節點的 Automation Orchestrator Appliance 命令列。
- 執行 vracli cluster join <MASTER-DB-NODE-FQDN> 命令以再次將節點新增到叢集。