还原 Automation Orchestrator 节点可能会导致 Kubernetes 服务出现问题。
要恢复 Automation Orchestrator 集群中存在问题的节点,必须找到该节点,将其从集群中移除,然后再次将其添加到集群中。
过程
- 确定 Automation Orchestrator 集群的主节点。
- 通过 SSH 以 root 用户身份登录到其中一个节点的 Automation Orchestrator Appliance 命令行。
- 运行
primary
命令以查找具有 kubectl -n prelude exec postgres-0 角色的节点。
kubectl -n prelude exec postgres-0 – chpst -u postgres repmgr cluster show --terse --compact
- 检索主节点所在的 Pod 的名称。
在大多数情况下,Pod 的名称为
postgres-0.postgres.prelude.svc.cluster.local
。
- 运行 kubectl -n prelude get pods 命令以查找主节点的 FQDN 地址。
kubectl -n prelude get pods -o wide
- 使用检索到的名称查找数据库 Pod,并获取相应节点的 FQDN 地址。
- 运行 kubectl -n prelude get node 命令以找到存在问题的节点。
存在问题的节点具有
NotReady
状态。
- 通过 SSH 以 root 用户身份登录到主节点的 Automation Orchestrator Appliance 命令行。
- 运行 vracli cluster remove <NODE-FQDN> 命令以从集群中移除存在问题的节点。
- 通过 SSH 以 root 用户身份登录到存在问题的节点的 Automation Orchestrator Appliance 命令行。
- 运行 vracli cluster join <MASTER-DB-NODE-FQDN> 命令以再次将节点添加到集群。