如果多節點、高可用性 (HA) 組態中的 vRealize Automation 應用裝置失敗,您可能需要取代故障節點。

注意: 繼續之前, VMware 建議您連絡技術支援,對 HA 問題進行疑難排解並確認該問題已隔離到一個節點。

如果技術支援確定需要取代節點,請採取下列步驟。

  1. vCenter 中,為 HA 組態中的每個應用裝置建立備份快照。

    在備份快照中,請勿包括虛擬機器記憶體。

  2. 關閉故障節點。
  3. 記下故障節點的 vRealize Automation 軟體組建編號和網路設定。

    記下 FQDN、IP 位址、閘道、DNS 伺服器,特別是 MAC 位址。稍後,將相同的值指派給取代節點。

  4. 檢查主要資料庫節點的狀態。從任何狀況良好的節點上的根命令列執行以下命令:
    > kubectl get pod `vracli status | jq -r '.databaseNodes[] | select(.["Role"] == "primary") | .["Node name"]' | cut -d '.' -f 1` -n prelude -o wide --no-headers=true
    
    primary-db-node-name 1/1 Running 0 39h 12.123.2.14 vc-vm-224-84.company.com <none> <none>
    重要: 主要資料庫節點必須是狀況良好的節點之一。

    如果主要資料庫節點出現故障,請連絡技術支援,而不是繼續操作。

  5. 從狀況良好的節點的根命令列,移除故障節點。

    vracli cluster remove faulty-node-FQDN

  6. 使用 vCenter 部署新的 vRealize Automation 取代節點。

    部署相同的 vRealize Automation 軟體組建編號,然後套用故障節點中的網路設定。包括 FQDN、IP 位址、閘道、DNS 伺服器,特別是您先前所記錄的 MAC 位址。

  7. 開啟取代節點的電源。
  8. 以 root 身分登入取代節點的命令列。
  9. 透過執行下列命令來確認初始開機順序是否已完成。

    vracli status first-boot

    尋找 First boot complete 訊息。

  10. 從取代節點,加入 vRealize Automation 叢集。

    vracli cluster join primary-DB-node-FQDN

  11. 以 root 身分登入主要資料庫節點的命令列。
  12. 透過執行下列指令碼來部署已修復的叢集。

    /opt/scripts/deploy.sh