Восстановление узла Automation Orchestrator может привести к ошибкам в службе Kubernetes.
Чтобы восстановить проблемный узел в кластере Automation Orchestrator, необходимо найти этот узел, удалить его из кластера, а затем снова добавить в кластер.
Процедура
- Определите основной узел кластера Automation Orchestrator.
- а. Войдите в командную строку Automation Orchestrator Appliance одного из узлов по протоколу SSH в качестве пользователя root.
- б. Найдите узел с ролью
primary
, выполнив команду kubectl -n prelude exec postgres-0.
kubectl -n prelude exec postgres-0 – chpst -u postgres repmgr cluster show --terse --compact
- в. Получите имя модуля, в котором находится основной узел.
В большинстве случаев имя модуля —
postgres-0.postgres.prelude.svc.cluster.local
.
- г. Найдите полное доменное имя основного узла, выполнив команду kubectl -n prelude get pods.
kubectl -n prelude get pods -o wide
- д. Найдите модуль базы данных с этим именем и получите полное доменное имя для соответствующего узла.
- Определите, где находится проблемный узел, выполнив команду kubectl -n prelude get node.
Проблемный узел имеет состояние
NotReady
.
- Войдите в командную строку Automation Orchestrator Appliance основного узла по протоколу SSH в качестве пользователя root.
- Удалите проблемный узел из кластера, выполнив команду vracli cluster remove <NODE-FQDN>.
- Войдите в командную строку Automation Orchestrator Appliance проблемного узла по протоколу SSH в качестве пользователя root.
- Снова добавьте узел в кластер, выполнив команду vracli cluster join <MASTER-DB-NODE-FQDN>.