多站点、高可用性 (HA) 配置中的某个 VMware Aria Automation 设备失败时,可能需要替换故障节点。
小心: 继续操作之前,
VMware 建议联系技术支持人员以对 HA 问题进行故障排除,并确认问题已隔离到一个节点上。
如果技术支持人员确定需要替换节点,请执行以下步骤。
- 在 vCenter 中,为 HA 配置中的每个设备生成备份快照。
在备份快照中,不包括虚拟机内存。
- 关闭出现故障的节点。
- 记下故障节点的 VMware Aria Automation 软件内部版本号和网络设置。
记下 FQDN、IP 地址、网关、DNS 服务器,尤其是 MAC 地址。稍后,您需要将相同的值分配给替换节点。
- 检查主数据库节点的状态。从任何正常节点上的根命令行运行以下命令:
> kubectl get pod `vracli status | jq -r '.databaseNodes[] | select(.["Role"] == "primary") | .["Node name"]' | cut -d '.' -f 1` -n prelude -o wide --no-headers=true primary-db-node-name 1/1 Running 0 39h 12.123.2.14 vc-vm-224-84.company.com <none> <none>
重要说明: 主数据库节点必须是正常节点之一。如果主数据库节点出现故障,请与技术支持人员联系,而不是继续操作。
- 从正常节点的根命令行中,移除故障节点。
vracli cluster remove faulty-node-FQDN
- 使用 vCenter 部署新的替换 VMware Aria Automation 节点。
部署相同的 VMware Aria Automation 内部版本号,并应用故障节点的网络设置。包括 FQDN、IP 地址、网关、DNS 服务器,尤其是前面记录的 MAC 地址。
- 打开替换节点的电源。
- 以 root 用户用户登录替代节点的命令行。
- 运行以下命令,验证初始引导顺序是否已完成。
vracli status first-boot
查找
First boot complete
消息。 - 从替换节点中,加入 VMware Aria Automation 集群。
vracli cluster join primary-DB-node-FQDN
- 以 root 用户用户登录主数据库节点的命令行。
- 通过运行以下脚本部署修复的集群:
/opt/scripts/deploy.sh