若要對 NSX Advanced Load Balancer 問題進行疑難排解,您可以收集支援服務包。VMware 支援可能會要求支援服務包。
產生支援服務包時,您可取得可下載之偵錯記錄的單一檔案。
程序
不會套用 NSX Advanced Load Balancer 組態
部署 主管 時,部署不會完成,並且不會套用 NSX Advanced Load Balancer 組態。
問題
如果提供私人憑證授權機構 (CA) 簽署的憑證,則不會套用 NSX Advanced Load Balancer 的組態。
您可能會在 主管 上執行的某個 NCP 網繭的記錄檔中看到「Unable to find certificate chain
」錯誤訊息。
- 登入 主管 虛擬機器。
- 使用 kubectl get pods -A 命令列出所有網繭
- 從 主管 上的所有 NCP 網繭取得記錄。
kubectl -n vmware-system-nsx logs nsx-ncp-<id> | grep -i alb
原因
Java SDK 用於在 NCP 和 NSX Advanced Load Balancer Controller 之間建立通訊。當 NSX 信任存放區與 Java 憑證信任存放區不同步時,會發生此錯誤。
解決方案
ESXi主機無法進入維護模式
要執行升級時,需要將 ESXi 主機置於維護模式。
問題
ESXi 主機無法進入維護模式,可能會影響 ESXi 和 NSX 升級。
原因
如果 ESXi 主機上的服務引擎處於開啟電源狀態,則可能會出現這種情況。
解決方案
- ♦ 關閉服務引擎的電源,以便 ESXi 主機進入維護模式。
對 IP 位址問題進行疑難排解
如果遇到外部 IP 指派問題,請按照以下疑難排解提示進行操作。
- Kubernetes 資源 (例如閘道和入口) 不會從 AKO 取得外部 IP。
- 指派給 Kubernetes 資源的外部 IP 無法連線。
- 未正確指派的外部 IP。
Kubernetes 資源無法從 AKO 取得外部 IP
當 AKO 無法在 NSX Advanced Load Balancer Controller 中建立相應的虛擬服務時,會發生此錯誤。
檢查 AKO 網繭是否正在執行。如果網繭正在執行,請檢查 AKO 容器記錄以查看錯誤。
指派給 Kubernetes 資源的外部 IP 無法連線
- 外部 IP 不立即可用,而是在建立後的幾分鐘內開始接受流量。觸發為虛擬服務放置建立新服務引擎的操作時,會出現此問題。
- 外部 IP 不可用,因為相應的虛擬服務顯示錯誤。
如果集區中沒有伺服器,虛擬服務可能會指示錯誤或顯示為紅色。如果 Kubernetes 閘道或入口資源未指向端點物件,則可能會出現這種情況。
若要查看端點,請執行 kubectl get endpoints -n <servce_namespace> 命令並修正任何選取器標籤問題。
健全狀況監控器將集區伺服器的健全狀況顯示為紅色時,集區可能會顯示處於錯誤狀態。
- 驗證集區伺服器或 Kubernetes 網繭是否正在設定的連接埠上進行接聽。
- 確認 NSX DFW 防火牆中沒有捨棄規則正在阻止服務引擎上的入口流量或出口流量。
- 確保 Kubernetes 環境中沒有網路原則正在阻止服務引擎上的入口流量或出口流量。
- 建立服務引擎失敗。
由於以下原因,建立服務引擎可能會失敗:
- NSX Advanced Load Balancer Controller 使用了資源不足的授權。
- 在服務引擎群組中建立的服務引擎數目已達到最大限制。
- 服務引擎資料 NIC 無法取得 IP。
- 服務引擎建立失敗,並顯示
Insufficient licensable resources available
錯誤訊息。如果用於建立服務引擎的授權的資源不足,則會發生此錯誤。
取得具有更大資源配額的授權,並將其指派給 NSX Advanced Load Balancer Controller。
- 服務引擎建立失敗,並顯示
Reached configuration maximum limit
錯誤訊息。如果在服務引擎群組中建立的服務引擎數目已達到最大限制,則會發生此錯誤。
若要解決此錯誤,請執行以下步驟:- 在 NSX Advanced Load Balancer Controller 儀表板中,選取 。
- 找到與發生 IP 流量故障的 主管 同名的服務引擎群組,然後按一下編輯圖示。
- 為服務引擎數目設定更高的值。
- 服務引擎資料 NIC 無法取得 IP。
如果 DHCP IP 集區由於以下原因之一而耗盡,可能會發生此錯誤:
- 為大規模部署建立了過多服務引擎。
- 直接從 NSX Advanced Load Balancer 使用者介面或 vSphere Client 中刪除服務引擎。以這種方式刪除服務引擎不會從 DHCP 集區中釋放 DHCP 位址,並會導致租用配置失敗。
外部 IP 指派不正確
當不同命名空間中的兩個入口共用同一主機名稱時,會出現此錯誤。檢查組態,並確認沒有為不同命名空間中的兩個入口指定相同的名稱。
對流量故障問題進行疑難排解
設定 NSX Advanced Load Balancer 後,會出現流量故障。
問題
當 LB 類型服務的端點位於不同的命名空間中時,可能會出現流量故障。
原因
在設定了 NSX Advanced Load Balancer 的 vSphere IaaS control plane 環境中,命名空間具有一個專用第 1 層閘道,並且每個第 1 層閘道都有一個具有相同 CIDR 的服務引擎區段。如果 NSX Advanced Load Balancer 服務位於一個命名空間中,而端點位於不同的命名空間中,則可能會出現流量故障。出現此故障的原因是,NSX Advanced Load Balancer 為服務指派了一個外部 IP,而傳輸到該外部 IP 的流量失敗。
解決方案
- ♦ 若要允許南北向流量,請建立一個分散式防火牆規則,允許從 NSX Advanced Load Balancer 服務命名空間的 SNAT IP 入口。
對 NSX 備份和還原引起的問題進行疑難排解
NSX 備份和還原可能會導致 NSX Advanced Load Balancer 提供的所有外部 IP 出現流量故障。
問題
對 NSX 執行備份和還原時,可能會導致出現流量故障。
原因
出現此故障的原因是,服務引擎 NIC 在還原後未恢復執行,從而導致 IP 集區顯示為關閉。
解決方案
NSX 備份和還原後失效的第 1 層區段
NSX 備份和還原可以還原失效的第 1 層區段。
問題
NSX 備份和還原過程完成後,不會清理具有服務引擎 NIC 的失效第 1 層區段。
原因
NSX 備份後刪除命名空間時,還原作業會還原與 NSX Advanced Load Balancer Controller 服務引擎 NIC 相關聯的失效第 1 層區段。
解決方案
- 登入 NSX Manager。
- 選取 。
- 尋找與已刪除命名空間相關聯的失效區段。
- 從連接埠/介面區段中刪除失效的服務引擎 NIC。