若要對 NSX Advanced Load Balancer 問題進行疑難排解,您可以收集支援服務包。VMware 支援可能會要求支援服務包。

產生支援服務包時,您可取得可下載之偵錯記錄的單一檔案。

程序

  1. NSX Advanced Load Balancer Controller 儀表板中,按一下左上角的功能表,然後選取管理
  2. 管理區段,選取系統
  3. 系統畫面中,選取技術支援
  4. 若要產生診斷服務包,請按一下產生技術支援
  5. 產生技術支援視窗中,選取偵錯記錄類型,然後按一下產生
  6. 產生服務包後,按一下下載圖示以將其下載到您的機器。
    如需有關收集記錄的詳細資訊,請參閱 https://avinetworks.com/docs/21.1/collecting-tech-support-logs/

不會套用 NSX Advanced Load Balancer 組態

部署 主管 時,部署不會完成,並且不會套用 NSX Advanced Load Balancer 組態。

問題

如果提供私人憑證授權機構 (CA) 簽署的憑證,則不會套用 NSX Advanced Load Balancer 的組態。

您可能會在 主管 上執行的某個 NCP 網繭的記錄檔中看到「Unable to find certificate chain」錯誤訊息。

  1. 登入 主管 虛擬機器。
  2. 使用 kubectl get pods -A 命令列出所有網繭
  3. 主管 上的所有 NCP 網繭取得記錄。

    kubectl -n vmware-system-nsx logs nsx-ncp-<id> | grep -i alb

原因

Java SDK 用於在 NCP 和 NSX Advanced Load Balancer Controller 之間建立通訊。當 NSX 信任存放區與 Java 憑證信任存放區不同步時,會發生此錯誤。

解決方案

  1. NSX Advanced Load Balancer 匯出根 CA 憑證,並將其儲存在 NSX Manager 中。
  2. 以 root 使用者身分登入 NSX Manager
  3. 在所有 NSX Manager 節點上依序執行以下命令:
    keytool -importcert -alias startssl -keystore /usr/lib/jvm/jre/lib/security/cacerts -storepass changeit -file <ca-file-path>

    如果未找到路徑,請執行 keytool -importcert -alias startssl -keystore /usr/java/jre/lib/security/cacerts -storepass changeit -file <ca-file-path>

    sudo cp <ca-file-path> /usr/local/share/ca-certificates/
    sudo update-ca-certificates
    service proton restart
    備註: 您可以執行相同的步驟來指派中繼 CA 憑證。
  4. 等待 主管 部署完成,如果部署不成功,請重新部署。

ESXi主機無法進入維護模式

要執行升級時,需要將 ESXi 主機置於維護模式。

問題

ESXi 主機無法進入維護模式,可能會影響 ESXiNSX 升級。

原因

如果 ESXi 主機上的服務引擎處於開啟電源狀態,則可能會出現這種情況。

解決方案

  • 關閉服務引擎的電源,以便 ESXi 主機進入維護模式。

對 IP 位址問題進行疑難排解

如果遇到外部 IP 指派問題,請按照以下疑難排解提示進行操作。

IP 位址問題可能由以下原因引起:
  • Kubernetes 資源 (例如閘道和入口) 不會從 AKO 取得外部 IP。
  • 指派給 Kubernetes 資源的外部 IP 無法連線。
  • 未正確指派的外部 IP。

Kubernetes 資源無法從 AKO 取得外部 IP

當 AKO 無法在 NSX Advanced Load Balancer Controller 中建立相應的虛擬服務時,會發生此錯誤。

檢查 AKO 網繭是否正在執行。如果網繭正在執行,請檢查 AKO 容器記錄以查看錯誤。

指派給 Kubernetes 資源的外部 IP 無法連線

此問題可能由於以下原因導致:
  • 外部 IP 不立即可用,而是在建立後的幾分鐘內開始接受流量。觸發為虛擬服務放置建立新服務引擎的操作時,會出現此問題。
  • 外部 IP 不可用,因為相應的虛擬服務顯示錯誤。

如果集區中沒有伺服器,虛擬服務可能會指示錯誤或顯示為紅色。如果 Kubernetes 閘道或入口資源未指向端點物件,則可能會出現這種情況。

若要查看端點,請執行 kubectl get endpoints -n <servce_namespace> 命令並修正任何選取器標籤問題。

健全狀況監控器將集區伺服器的健全狀況顯示為紅色時,集區可能會顯示處於錯誤狀態。

執行下列其中一個步驟來解決此問題:
  • 驗證集區伺服器或 Kubernetes 網繭是否正在設定的連接埠上進行接聽。
  • 確認 NSX DFW 防火牆中沒有捨棄規則正在阻止服務引擎上的入口流量或出口流量。
  • 確保 Kubernetes 環境中沒有網路原則正在阻止服務引擎上的入口流量或出口流量。
服務引擎問題包括:
  1. 建立服務引擎失敗。
    由於以下原因,建立服務引擎可能會失敗:
    • NSX Advanced Load Balancer Controller 使用了資源不足的授權。
    • 在服務引擎群組中建立的服務引擎數目已達到最大限制。
    • 服務引擎資料 NIC 無法取得 IP。
  2. 服務引擎建立失敗,並顯示 Insufficient licensable resources available 錯誤訊息。

    如果用於建立服務引擎的授權的資源不足,則會發生此錯誤。

    取得具有更大資源配額的授權,並將其指派給 NSX Advanced Load Balancer Controller

  3. 服務引擎建立失敗,並顯示 Reached configuration maximum limit 錯誤訊息。

    如果在服務引擎群組中建立的服務引擎數目已達到最大限制,則會發生此錯誤。

    若要解決此錯誤,請執行以下步驟:
    1. NSX Advanced Load Balancer Controller 儀表板中,選取基礎結構 > 雲端資源 > 服務引擎群組
    2. 找到與發生 IP 流量故障的 主管 同名的服務引擎群組,然後按一下編輯圖示。
    3. 服務引擎數目設定更高的值。
  4. 服務引擎資料 NIC 無法取得 IP。
    如果 DHCP IP 集區由於以下原因之一而耗盡,可能會發生此錯誤:
    • 為大規模部署建立了過多服務引擎。
    • 直接從 NSX Advanced Load Balancer 使用者介面或 vSphere Client 中刪除服務引擎。以這種方式刪除服務引擎不會從 DHCP 集區中釋放 DHCP 位址,並會導致租用配置失敗。

外部 IP 指派不正確

當不同命名空間中的兩個入口共用同一主機名稱時,會出現此錯誤。檢查組態,並確認沒有為不同命名空間中的兩個入口指定相同的名稱。

對流量故障問題進行疑難排解

設定 NSX Advanced Load Balancer 後,會出現流量故障。

問題

當 LB 類型服務的端點位於不同的命名空間中時,可能會出現流量故障。

原因

在設定了 NSX Advanced Load BalancervSphere IaaS control plane 環境中,命名空間具有一個專用第 1 層閘道,並且每個第 1 層閘道都有一個具有相同 CIDR 的服務引擎區段。如果 NSX Advanced Load Balancer 服務位於一個命名空間中,而端點位於不同的命名空間中,則可能會出現流量故障。出現此故障的原因是,NSX Advanced Load Balancer 為服務指派了一個外部 IP,而傳輸到該外部 IP 的流量失敗。

解決方案

  • 若要允許南北向流量,請建立一個分散式防火牆規則,允許從 NSX Advanced Load Balancer 服務命名空間的 SNAT IP 入口。

NSX 備份和還原引起的問題進行疑難排解

NSX 備份和還原可能會導致 NSX Advanced Load Balancer 提供的所有外部 IP 出現流量故障。

問題

NSX 執行備份和還原時,可能會導致出現流量故障。

原因

出現此故障的原因是,服務引擎 NIC 在還原後未恢復執行,從而導致 IP 集區顯示為關閉。

解決方案

  1. NSX Advanced Load Balancer Controller 儀表板中,選取基礎結構 > 雲端
  2. 選取並儲存雲端,而不進行任何變更,然後等待狀態變為綠色。
  3. 停用所有虛擬服務。
    等待 NSX Advanced Load Balancer Controller 從所有服務引擎中移除失效的 NIC。
  4. 啟用所有虛擬服務。
    虛擬服務的狀態將顯示為綠色。
    如果流量故障仍然存在,請重新設定 NSX Manager 上的靜態路由。

NSX 備份和還原後失效的第 1 層區段

NSX 備份和還原可以還原失效的第 1 層區段。

問題

NSX 備份和還原過程完成後,不會清理具有服務引擎 NIC 的失效第 1 層區段。

原因

NSX 備份後刪除命名空間時,還原作業會還原與 NSX Advanced Load Balancer Controller 服務引擎 NIC 相關聯的失效第 1 層區段。

解決方案

  1. 登入 NSX Manager
  2. 選取網路 > 區段
  3. 尋找與已刪除命名空間相關聯的失效區段。
  4. 連接埠/介面區段中刪除失效的服務引擎 NIC。