下表說明觸發警示的事件,包括警示訊息和用來解決問題的建議動作。嚴重性大於的任何事件都會觸發警示。

警示管理事件

警示管理事件是由 NSX Manager 和全域管理程式節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
警示服務已超載 嚴重

警示服務已超載。

偵測到事件時:「由於報告的警示數量過大,警示服務發生暫時超載的狀況。NSX UI 和 GET /api/v1/alarms NSX API 已停止報告新的警示;但 Syslog 項目和 SNMP 設陷 (如果已啟用) 仍會持續發出,以報告基礎事件詳細資料。當造成大量警示的基礎問題獲得解決後,警示服務就會重新開始報告新的警示。」

解決事件時:「目前已無大量警示,並已重新開始報告新的警示。」

請使用 NSX UI 中的 [警示] 頁面檢閱所有作用中的警示,或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API 來檢閱。對於每個作用中的警示,請透過依據建議的警示動作調查其根本原因。解決夠多的警示後,警示服務就會重新開始報告新的警示。

大量警示 嚴重

偵測到大量的特定警示類型。

偵測到事件時:「由於 {event_id} 警示數量過大,警示服務已暫時停止報告此類型的警示。NSX UI 和 GET /api/v1/alarms NSX API 不會報告這些警示的新執行個體。但 Syslog 項目和 SNMP 設陷 (如果已啟用) 仍會持續發出報告基礎事件詳細資料。當造成大量 {event_id} 警示的基礎問題獲得解決後,警示服務就會重新開始在偵測到新問題時,報告新的 {event_id} 警示。」

解決事件時:「目前已無大量 {event_id} 警示,並已重新開始報告此類型的新警示。」

請使用 NSX UI 中的 [警示] 頁面檢閱所有作用中的警示,或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API 來檢閱。對於每個作用中的警示,請透過依據建議的警示動作調查其根本原因。解決夠多的警示後,警示服務就會重新開始報告新的 {event_id} 警示。

稽核記錄健全狀況事件

稽核記錄健全狀況事件是從 NSX Manager 和全域管理程式節點產生。

事件名稱 嚴重性 警示訊息 建議的動作

稽核記錄健全狀況

嚴重

至少有一個監控的記錄檔無法寫入。

偵測到事件時,「至少有一個受監控的記錄檔案具有唯讀權限、具有不正確的使用者/群組擁有權,或在管理程式、全域管理程式、Edge 或公有雲閘道節點上遺失 rsyslog.log。」

解決事件時,「所有受監控的記錄檔案都具有正確的檔案權限和擁有權,且在管理程式、全域管理程式、Edge 或公有雲閘道節點上都有 rsyslog.log。」

  1. 在所有 NSX 應用裝置上 (例如,管理程式節點和 Edge 節點),確定 /var/log 目錄的權限為 775,且擁有權為 root:syslog。
  2. 在管理程式和全域管理程式節點上,確定 /var/log 下的 auth.lognsx-audit.lognsx-audit-write.logrsyslog.logsyslog.log 的檔案權限為 640,且擁有權為 syslog:admin。
  3. 在 Edge 和公有雲閘道節點上,確定 /var/log 下的 rsyslog.logsyslog.log 的檔案權限為 640,且擁有權為 syslog:admin。
  4. 在 ESXi 主機節點上,確定 /var/log 下的 auth.lognsx-syslog.logsyslog.log 的檔案權限為 755,且擁有權為 root:root。
  5. 在 KVM 主機節點上,確定 /var/log 下的 auth.logsyslog.log 的檔案權限為 775,且擁有權為 root:syslog。6. 如果其中有任何檔案具有不正確的權限或擁有權,請叫用命令 chmod <mode> <path>chown <user>:<group> <path>。7. 如果在管理程式、全域管理程式、Edge 或公有雲閘道節點上遺失 rsyslog.log,請叫用 NSX CLI 命令 restart service syslog,以重新啟動記錄服務並重新產生 /var/log/rsyslog.log

遠端記錄伺服器錯誤

嚴重

由於不正確的遠端記錄伺服器組態,記錄訊息無法傳遞。

偵測到事件時:「記錄伺服器 {hostname_or_ip_address_with_port} ({entity_id}) 的記錄訊息無法傳遞,可能是由於無法解析的 FQDN、無效的 TLS 憑證或遺失的 NSX 應用裝置 iptables 規則所致。」

解決事件時:「記錄伺服器 {hostname_or_ip_address_with_port} ({entity_id}) 的組態顯示正確。」

  1. 確保 {hostname_or_ip_address_with_port} 是正確的主機名稱或 IP 位址和連接埠。
  2. 如果使用 FQDN 指定記錄伺服器,請確保可使用 NSX CLI 命令 nslookup <fqdn> 從 NSX 應用裝置解析 FQDN。如果無法解析,請確認已指定正確的 FQDN,並且網路 DNS 伺服器具有 FQDN 的必要項目。
  3. 如果將記錄伺服器設定為使用 TLS,請確認指定的憑證有效。例如,確保記錄伺服器實際上正在使用憑證,或使用 openssl 命令 openssl x509 -in <cert-file-path> -noout -dates,確認憑證尚未到期。
  4. NSX 應用裝置使用 iptables 規則明確允許傳出流量。透過叫用 NSX CLI 命令 verify logging-servers (其會視需要重新設定記錄伺服器 iptables 規則),確認記錄伺服器的 iptables 規則已正確設定。
  5. 如果因任何原因而導致記錄伺服器設定錯誤,則應使用 NSX CLI del logging-server <hostname-or-ip-address[:port]> proto <proto> level <level> 命令將其刪除,並使用正確的組態重新新增。

若要進一步瞭解有關如何設定 NSX-T Data Center 應用裝置和 Hypervisor 以將記錄訊息傳送至遠端記錄伺服器的詳細資訊,請參閱設定遠端記錄

如果遠端記錄伺服器不接收記錄,請參閱對 Syslog 問題進行疑難排解

容量事件

當特定物件類別的目前詳細目錄達到特定層級時,下列事件可能會觸發警示。如需詳細資訊,請參閱檢視物件類別的使用量和容量

事件名稱 嚴重性 警示訊息 建議的動作
容量上限 嚴重 已違反容量上限。

偵測到事件時:「系統中為 {capacity_display_name} 定義的物件數量已達到 {capacity_usage_count},且等於或高於支援計數上限 {max_supported_capacity_count}。」

解決事件時:「系統中為 {capacity_display_name} 定義的物件數量已達到 {capacity_usage_count},且低於支援計數上限 {max_supported_capacity_count}。」

  1. 確保建立的 NSX 物件數目在 NSX 所支援的限制內。如果有任何未使用的物件,請使用系統中相應的 NSX UI 或 API 將其刪除。
  2. 考慮增加所有管理程式節點和/或 Edge 節點的機器尺寸。請注意,每個節點類型的機器尺寸應相同。如果不同,將使用所部署最低機器尺寸的容量限制。
容量臨界值上限

已違反容量臨界值上限。

偵測到事件時:「系統中為 {capacity_display_name} 定義的物件數量已達到 {capacity_usage_count},且等於或高於容量臨界值上限 {max_capacity_threshold}%。」

解決事件時:「系統中為 {capacity_display_name} 定義的物件數量已達到 {capacity_usage_count},且低於容量臨界值上限 {max_capacity_threshold}%。」

導覽至 NSX UI 中的容量頁面,並檢閱目前的使用量與臨界值限制。如果目前的使用量為預期,請考慮增加臨界值上限。如果目前的使用量非預期,請檢閱設定的網路原則,以將使用量減少至低於臨界值上限。

容量臨界值下限

已違反容量臨界值下限。

偵測到事件時:「系統中為 {capacity_display_name} 定義的物件數量已達到 {capacity_usage_count},且等於或高於容量臨界值下限 {min_capacity_threshold}%。」

事件解決時:「系統中為 {capacity_display_name} 定義的物件數量已達到 {capacity_usage_count},且低於容量臨界值下限 {min_capacity_threshold}%。」

導覽至 NSX UI 中的容量頁面,並檢閱目前的使用量與臨界值限制。如果目前的使用量為預期,請考慮增加臨界值下限。如果目前的使用量非預期,請檢閱設定的網路原則,以將使用量減少至低於臨界值下限。

憑證事件

憑證事件是從 NSX Manager 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
憑證已到期 嚴重

憑證已到期。

偵測到事件時:「憑證 {entity-id} 已到期。」

解決事件時:「已到期的憑證 {entity-id} 已移除或不再到期。」

確保目前使用憑證的服務已更新,以使用新的、非已到期憑證。例如,若要將新憑證套用至 HTTP 服務,請叫用下列 API 呼叫:

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

其中,<cert-id> 是 API 呼叫 GET /api/v1/trust-management/certificates 所報告之有效憑證的識別碼。

到期的憑證不再使用後,應使用下列 API 呼叫加以刪除:

DELETE /api/v1/trust-management/certificates/{entity_id}

憑證即將到期

憑證即將到期。

偵測到事件時:「憑證 {entity-id} 即將到期。」

解決事件時:「過期的憑證 {entity-id} 或不再即將到期。」

確保目前使用憑證的服務已更新,以使用新的、非到期中憑證。例如,若要將新憑證套用至 HTTP 服務,請叫用下列 API 呼叫:

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

其中,<cert-id> 是 API 呼叫 GET /api/v1/trust-management/certificates 所報告之有效憑證的識別碼。

到期中憑證不再使用後,應使用 API 呼叫加以刪除:

DELETE /api/v1/trust-management/certificates/{entity_id}

接近憑證到期

憑證即將到期。

偵測到事件時:「憑證 {entity-id} 即將到期。」

解決事件時:「到期中憑證 {entity-id} 不再接近到期。」

確保目前使用憑證的服務已更新,以使用新的、非到期中憑證。例如,若要將新憑證套用至 HTTP 服務,請叫用下列 API 呼叫:

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

其中,<cert-id> 是 API 呼叫 GET /api/v1/trust-management/certificates 所報告之有效憑證的識別碼。

到期中憑證不再使用後,應使用 API 呼叫加以刪除:

DELETE /api/v1/trust-management/certificates/{entity_id}

CNI 健全狀況事件

CNI 健全狀況事件是從 ESXi 和 KVM 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
Hyperbus 管理程式連線已關閉

Hyperbus 無法與管理程式節點通訊。

偵測到事件時:「Hyperbus 無法與管理程式節點通訊。」

解決事件時:「Hyperbus 可以與管理程式節點進行通訊。」

Hyperbus vmkernel 介面 (vmk50) 可能遺失。請參閱知識庫文章 67432

DHCP 事件

DHCP 事件是從 NSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
集區租用配置失敗

IP 集區中的 IP 位址已用盡。

偵測到事件時:「DHCP 伺服器 {dhcp_server_id} 的 IP 集區 {entity_id} 中的位址已用完。前一次的 DHCP 請求失敗,且未來的請求將會失敗。」

解決事件時:「DHCP 伺服器 {dhcp_server_id} 的 IP 集區 {entity_id} 不再已用盡。已成功將租用配置給上一個 DHCP 請求。」

在 NSX UI 中或在執行 DHCP 伺服器的 Edge 節點上,透過叫用 NSX CLI 命令 get dhcp ip-pool 來檢閱 DHCP 集區組態。

此外,您也可以透過叫用 NSX CLI 命令 get dhcp lease,來檢閱 Edge 節點上目前作用中的租用。

將租用與作用中虛擬機器的數目比較。如果虛擬機器的數目相較於作用中租用的數目低,請考慮在 DHCP 伺服器組態上減少租用時間。同時,請考慮透過造訪 NSX UI 中的網路 > 區段 > 區段頁面,來擴充 DHCP 伺服器的集區範圍。

集區已超載

IP 集區已超載。

偵測到事件時:「DHCP 伺服器 {dhcp_server_id} IP 集區 {entity_id} 使用率正接近耗盡,已配置 {dhcp_pool_usage}% IP。」

解決事件時:「DHCP 伺服器 {dhcp_server_id} IP 集區 {entity_id} 已低於高使用率臨界值。」

在 NSX UI 中或在執行 DHCP 伺服器的 Edge 節點上,透過叫用 NSX CLI 命令 get dhcp ip-pool 來檢閱 DHCP 集區組態。

此外,您也可以透過叫用 NSX CLI 命令 get dhcp lease,來檢閱 Edge 節點上目前作用中的租用。

將租用與作用中虛擬機器的數目比較。如果虛擬機器的數目相較於作用中租用的數目低,請考慮在 DHCP 伺服器組態上減少租用時間。同時,請考慮透過造訪 NSX UI 中的網路 > 區段 > 區段頁面,來擴充 DHCP 伺服器的集區範圍。

分散式防火牆事件

分散式防火牆事件是從 NSX Manager 或 ESXi 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作

DFW CPU 使用率非常高

嚴重

DFW CPU 使用率非常高。

偵測到事件時:「傳輸節點 {entity_id} 上的 DFW CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「傳輸節點 {entity_id} 上的 DFW CPU 使用率已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。

請檢閱安全性設計以進行最佳化。例如,如果規則不適用於整個資料中心,請使用套用至組態。

DFW 記憶體使用量非常高

嚴重

DFW 記憶體使用量非常高。

偵測到事件時:「傳輸節點 {entity_id} 上的 DFW 記憶體使用量 {heap_type} 已達到 {system_resource_usage}% ,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「傳輸節點 {entity_id} 上的 DFW 記憶體使用量 {heap_type} 已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

透過在主機上叫用 NSX CLI 命令 get firewall thresholds,以檢視目前 DFW 的記憶體使用量。

考慮將此主機上的工作負載重新平衡至其他主機。

分散式 IDS/IPS 事件

分散式 IDS/IPS 事件是從 NSX Manager 或 ESXi 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作

NSX IDPS 引擎 CPU 使用率非常高

嚴重

NSX-IDPS 引擎 CPU 使用率已超過 95% 或以上。

偵測到事件時:「NSX-IDPS 引擎 CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 95%。」

解決事件時:「NSX-IDPS 引擎 CPU 使用率已達到 {system_resource_usage}%,這低於極高臨界值 95%。」

考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。

NSX IDPS 引擎關閉

嚴重

NSX IDPS 已透過 NSX 原則啟用,且 IDPS 規則已設定,但 NSX-IDPS 引擎已關閉。

偵測到事件時:「NSX IDPS 已透過 NSX 原則啟用,且 IDPS 規則已設定,但 NSX-IDPS 引擎已關閉。」

解決事件時:「NSX IDPS 處於以下任一情況。1. NSX IDPS 已透過 NSX 原則停用。2. NSX IDPS 引擎已啟用,NSX-IDPS 引擎和 vdpi 已啟動,且 NSX IDPS 已啟用,IDPS 規則已透過 NSX 原則進行設定。」

  1. 檢查 /var/log/nsx-idps/nsx-idps.log/var/log/nsx-syslog.log 以查看是否報告了錯誤。
  2. 叫用下列 NSX CLI 命令以檢查 NSX 分散式 IDPS 是否處於停用狀態。

    get ids engine status

    如果是,請叫用下列 NSX CLI 命令以啟動服務。

    /etc/init.d/nsx-idps start
  3. 叫用下列 NSX CLI 命令以檢查 nsx-vdpi 是否正在執行。

    /etc/init.d/nsx-vdpi status

    如果沒有,則叫用下列 NSX CLI 命令以啟動服務。

    /etc/init.d/nsx-vdpi start

NSX IDPS 引擎記憶體使用量非常高

嚴重

NSX-IDPS 引擎記憶體使用量已達到 95% 或以上。

偵測到事件時:「NSX-IDPS 引擎記憶體使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 95%。」

解決事件時:「NSX-IDPS 引擎記憶體使用量已達到 {system_resource_usage}%,這低於極高臨界值 95%。」

考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。

DNS 事件

DNS 事件是從 NSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
轉寄站已關閉

DNS 轉寄站已關閉。

偵測到事件時:「DNS 轉寄站 {entity_id} 不在執行中。這會影響目前已啟用的已識別 DNS 轉寄站。」

解決事件時:「DNS 轉寄站 {entity_id} 再次執行。」

  1. 叫用 NSX CLI 命令 get dns-forwarders status,以確認 DNS 轉寄站是否處於關閉狀態。
  2. 檢查 /var/log/syslog 以查看是否有報告任何錯誤。
  3. 收集支援服務包並連絡 NSX 支援團隊。
轉寄站已停用
備註:NSX-T Data Center 3.2 開始,將淘汰警示。

DNS 轉寄站已停用。

偵測到事件時:「DNS 轉寄站 {entity_id} 已停用。」

解決事件時:「DNS 轉寄站 {entity_id} 已啟用。」

  1. 叫用 NSX CLI 命令 get dns-forwarders status,以確認 DNS 轉寄站是否處於已停用狀態。
  2. 使用 NSX 原則 API 或管理程式 API 來啟用 DNS 轉寄站,它不應處於已停用狀態。

Edge 事件

當 NSX 與 Edge 應用裝置之間的 Edge 傳輸節點的部分組態值不相符時,會產生 Edge 事件。

事件名稱 嚴重性 警示訊息 建議的動作

Edge 節點設定不相符

嚴重

Edge 節點設定不相符。

偵測到事件時:「Edge 節點 {entity_id} 設定組態與原則意圖組態不相符。使用者在 UI 或 API 上可見的 Edge 節點組態與實現的不同。由 NSX Manager 外部使用者實現的 Edge 節點變更,會顯示在此警示的詳細資料中,而在 UI 或 API 中的任何編輯都將覆寫實現的組態。Edge 節點的不同欄位會在執行階段資料中列出。」

解決事件時:「Edge 節點 {entity_id} 的節點設定現在與原則意圖一致。」

檢閱此 Edge 傳輸節點 {entity_id} 的節點設定。執行下列其中一個動作來解決此警示。
  • 使用 API PUT https://<manager-ip>/api/v1/transport-nodes/<tn-id> 手動更新 Edge 傳輸節點設定原則意圖。
  • 透過 Edge 傳輸節點解析程式,接受此 Edge 傳輸節點的意圖或實現的 Edge 節點設定。
  • 使用重新整理 API POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=refresh_node_configuration&resource_type=EdgeNode 來接受 Edge 節點設定組態。

Edge 虛擬機器 vSphere 設定不相符

嚴重

Edge 虛擬機器 vSphere 設定不相符。

偵測到事件時:「vSphere 上的 Edge 節點 {entity_id} 組態與原則意圖組態不相符。使用者在 UI 或 API 上可見的 Edge 節點組態與實現的不同。由 NSX Manager 外部使用者實現的 Edge 節點變更,會顯示在此警示的詳細資料中,而在 UI 或 API 中的任何編輯都將覆寫實現的組態。Edge 節點的不同欄位會在執行階段資料中列出。」

解決事件時:「Edge 節點 {entity_id} 虛擬機器 vSphere 設定現在與原則意圖一致。」

檢閱此 Edge 傳輸節點 {entity_id} 的 vSphere 組態。執行下列其中一個動作來解決此警示。
  • 透過 Edge 傳輸節點解析程式,接受此 Edge 傳輸節點的意圖或 vSphere 實現的 Edge 節點組態。
  • 使用重新整理 API POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=refresh_node_configuration&resource_type=EdgeNode 來接受 Edge 節點 vSphere 實現的組態,以解決警示。

Edge 節點設定和 vSphere 設定已變更

嚴重

Edge 節點設定和 vSphere 設定已變更。

偵測到事件時:「Edge 節點 {entity_id} 設定和 vSphere 組態已變更,且與原則意圖組態不相符。使用者在 UI 或 API 上可見的 Edge 節點組態與實現的不同。由 NSX Manager 外部使用者實現的 Edge 節點變更,會顯示在此警示的詳細資料中,而在 UI 或 API 中的任何編輯都將覆寫實現的組態。Edge 節點設定和 vSphere 組態的不同欄位會在執行階段資料中列出。」

解決事件時:「Edge 節點 {entity_id} 節點設定和 vSphere 設定現在與原則意圖一致。」

檢閱此 Edge 傳輸節點 {entity_id} 的節點設定和 vSphere 組態。執行下列其中一個動作來解決此警示。
  • 使用 API PUT https://<manager-ip>/api/v1/transport-nodes/<tn-id> 手動更新 Edge 傳輸節點設定原則意圖。
  • 透過 Edge 傳輸節點解析程式,接受此 Edge 傳輸節點的意圖或 vSphere 實現的 Edge 節點組態或實現的 Edge 節點設定。
  • 使用重新整理 API OST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=refresh_node_configuration&resource_type=EdgeNode 來接受 Edge 節點設定和 vSphere 實現的組態。

Edge vSphere 位置不相符

Edge vSphere 位置不相符。

偵測到事件時:「Edge 節點 {entity_id} 已使用 vMotion 進行移動。vSphere 上的 Edge 節點 {entity_id} 組態與原則意圖組態不相符。使用者在 UI 或 API 上可見的 Edge 節點組態與實現的不同。由 NSX Manager 外部使用者實現的 Edge 節點變更,會顯示在此警示的詳細資料中。Edge 節點的不同欄位會在執行階段資料中列出。」

解決事件時:「Edge 節點 {entity_id} 節點 vSphere 設定現在與原則意圖一致。」

檢閱此 Edge 傳輸節點 {entity_id} 的 vSphere 組態。執行下列其中一個動作來解決警示。
  • 使用重新整理 API POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=refresh_node_configuration&resource_type=EdgeNode 來接受 Edge 節點 vSphere 實現的組態。
  • 若要返回先前的位置,請使用 NSX 重新部署 API POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=redeploy。不支援使用 vMotion 來返回原始主機。

Edge 健全狀況事件

Edge 健全狀況事件是從 NSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
Edge CPU 使用率非常高 嚴重

Edge 節點 CPU 使用率非常高。

偵測到事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至其他 Edge 節點,以達到適用的工作負載。
Edge CPU 使用率高

Edge 節點 CPU 使用率偏高。

偵測到事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至其他 Edge 節點,以達到適用的工作負載。
Edge 資料路徑組態失敗

Edge 節點資料路徑組態失敗。

偵測到事件時:「在三次嘗試後,無法啟用 Edge 節點上的資料路徑。」

解決事件時:「已成功啟用 Edge 節點上的資料路徑。」

確保與管理程式節點的 Edge 節點連線狀況良好。

從 Edge 節點 NSX CLI,叫用命令 get services 以檢查服務的健全狀況。

如果資料平面服務已停止,請叫用命令 start service dataplane 將其重新啟動。

Edge 資料路徑 CPU 非常高

嚴重

Edge 節點資料路徑 CPU 使用率非常高。

偵測到事件時:「Edge 節點 {entity-id} 上的資料路徑 CPU 使用率已達到 {datapath_resource_usage}%,其等於或高於極高臨界值至少兩分鐘。」

解決事件時:「Edge 節點 {entity-id} 上的資料路徑 CPU 使用率已低於最大臨界值。」

透過叫用 NSX CLI 命令 get dataplane cpu stats 來顯示每個 CPU 核心的封包速率,以檢閱 Edge 節點上的 CPU 統計資料。

較高的 CPU 使用率預期會有較高的封包速率。

考慮增加 Edge 應用裝置的機器尺寸大小,並將此 Edge 節點上的服務重新平衡至相同叢集或其他 Edge 叢集中的其他 Edge 節點。

Edge 資料路徑 CPU 使用率高

Edge 節點資料路徑 CPU 使用率偏高。

偵測到事件時:「Edge 節點 {entity-id} 上的資料路徑 CPU 使用率已達到 {datapath_resource_usage}%,其等於或高於高臨界值至少兩分鐘。」

解決事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到低於高臨界值。」

透過叫用 NSX CLI 命令 get dataplane cpu stats 來顯示每個 CPU 核心的封包速率,以檢閱 Edge 節點上的 CPU 統計資料。

較高的 CPU 使用率預期會有較高的封包速率。

考慮增加 Edge 應用裝置的機器尺寸大小,並將此 Edge 節點上的服務重新平衡至相同叢集或其他 Edge 叢集中的其他 Edge 節點。

Edge 資料路徑 Cryptodrv 關閉

嚴重

Edge 節點加密驅動程式已關閉

偵測到事件時:「Edge 節點加密驅動程式 {edge_crypto_drv_name} 已關閉。」

解決事件時:「Edge 節點加密驅動程式 {edge_crypto_drv_name} 已開啟。」

視需要升級 Edge 節點。

Edge 資料路徑記憶體集區高

Edge 節點資料路徑記憶體集區偏高。

偵測到事件時:「Edge 節點 {entity-id}{mempool_name} 的資料路徑記憶體集區使用率已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity-id}{mempool_name} 的資料路徑記憶體集區使用率已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

以根使用者身分登入,並叫用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/showedge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap 以檢查 DPDK 記憶體使用量。
Edge 磁碟使用量非常高 嚴重

Edge 節點磁碟使用量非常高。

偵測到事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。
Edge 磁碟使用量高

Edge 節點磁碟使用量偏高。

偵測到事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於高臨界值{system_usage_threshold}%。」

解決事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。
Edge 全域 ARP 資料表使用量高

Edge 節點全域 ARP 資料表使用率偏高。

偵測到事件時:「Edge 節點 {entity-id} 上的全域 ARP 資料表使用量已達到 {datapath_resource_usage}%,這高於高臨界值超過兩分鐘。」

解決事件時:「Edge 節點 {entity-id} 上的全域 ARP 資料表使用量已達到低於高臨界值。」

  1. 以根使用者身分登入並叫用下列命令,檢查 neigh 快取使用量是否正常

    edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show
  2. 如果正常,則叫用下列命令,以增加 ARP 資料表大小。

    edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries
Edge 記憶體使用量非常高 嚴重

Edge 節點記憶體使用量非常高。

偵測到事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至其他 Edge 節點,以達到適用的工作負載。
Edge 記憶體使用量高

Edge 節點記憶體使用量偏高。

偵測到事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至其他 Edge 節點,以達到適用的工作負載。
Edge NIC 連結狀態關閉 嚴重

Edge 節點 NIC 連結已關閉。

偵測到事件時:「Edge 節點 NIC {edge_nic_name} 連結已關閉。」

偵測到事件時:「Edge 節點 NIC {edge_nic_name} 連結已啟動。」

在 Edge 節點上,透過叫用 NSX CLI 命令 get interfaces,來確認 NIC 連結是否已實際關閉。

如果已關閉,請確認纜線連線。

Edge NIC 的接收緩衝區不足

Edge 節點 NIC 的 RX 循環緩衝區暫時不足。

偵測到事件時:「Edge 節點 {entity_id}.上的 Edge NIC {edge_nic_name} 接收循環緩衝區已溢位達 {rx_ring_buffer_overflow_percentage}%。遺失的封包計數為 {rx_misses},而已處理的封包計數為 {rx_processed}。」

解決事件時:「Edge 節點 {entity-id} 上的 Edge NIC {edge_nic_name} 接收循環緩衝區使用率不再溢位。」

  1. 在 Edge 節點上執行 NSX CLI 命令 get dataplane cpu stats 並檢查:
    1. 如果 CPU 使用率偏高,例如 > 90%,則使用命令 start capture interface <interface-name> direction inputstart capture interface <interface-name> direction input core <core-id> (以擷取使用率偏高之特定核心上的輸入封包) 在介面上執行封包擷取。然後分析該擷取,以查看是否有多數的分散封包或 IPsec 封包。如果是,則是預期的行為。如果不是,資料路徑可能是忙於處理其他作業。如果警示持續超過 2-3 分鐘,請連絡 VMware 支援。
    2. 2. 如果 CPU 使用率不高,例如 < 90%,則使用命令 get dataplane cpu stats 檢查 rx PPS 是否偏高 (以確保流量速率增加中)。然後使用命令 set dataplane ring-size rx <ring-size>,將循環大小增加為 1024。
      備註: 持續將循環大小增加為 1024 倍,可能會導致某些效能問題。如果在增加循環大小後,問題仍存在,則表示 Edge 需要更大的機器尺寸部署才能容納流量。
    3. 如果警示持續進行翻動,即觸發警示並很快解決,則這是由於突發流量導致。在此情況下,請檢查 rx PPS 是否如上所述。如果它在警示作用中期間不高,則連絡 VMware 支援。如果 PPS 偏高,則可確認突發流量。請考慮隱藏該警示。
      備註: 沒有特定基準可決定何者可被視為高 PPS 值。這取決於基礎架構和流量類型。記下警示何時處於非作用中和何時處於作用中,即可進行比較。
Edge NIC 的傳輸緩衝區不足 嚴重

Edge 節點 NIC 的 TX 循環緩衝區暫時不足。

偵測到事件時:「Edge 節點 {entity_id} 上的 Edge NIC {edge_nic_name} 傳輸循環緩衝區已溢位達 {tx_ring_buffer_overflow_percentage}%。遺失的封包計數為 {tx_misses},而已處理的封包計數為 {tx_processed}

解決事件時:「Edge 節點 {entity-id} 上的 Edge NIC {edge_nic_name} 傳輸循環緩衝區使用率不再溢位。」

  1. 如果 Hypervisor 隨著 Edge 容納大量虛擬機器,則 Edge 虛擬機器可能不會有時間執行。因此,Hypervisor 可能無法擷取封包。如此可考慮將 Edge 虛擬機器移轉至具有較少虛擬機器的主機。
  2. 使用命令 set dataplane ring-size tx <ring-size>,將循環大小增加為 1024。如果在增加循環大小之後,問題仍存在,則請連絡 VMware 支援,因為 ESX 端傳輸循環緩衝區可能為較低的值。如果 ESX 端沒有任何問題,則表示 Edge 需要擴充至較大的機器尺寸部署,才能容納該流量。
  3. 如果警示持續進行翻動,即觸發警示並很快解決,則這是由於突發流量導致。在此情況下,請使用命令 get dataplane cpu stats 檢查 tx PPS。如果它在警示作用中期間不高,則連絡 VMware 支援。如果 PPS 偏高,則可確認突發流量。請考慮隱藏該警示。
    備註: 沒有特定基準可決定何者可被視為高 PPS 值。這取決於基礎架構和流量類型。記下警示何時處於非作用中和何時處於作用中,即可進行比較。
儲存區錯誤 嚴重

從 NSX-T Data Center 3.0.1 開始。

偵測到事件時:「Edge 節點上的下列磁碟分割處於唯讀模式:{disk_partition_name}。」

解決事件時:「Edge 節點上的下列磁碟分割已從唯讀模式復原:{disk_partition_name}。」

檢查唯讀磁碟分割,以查看重新開機是否可解決此問題,或是需要更換磁碟。如需詳細資訊,請連絡 GSS。

Edge 資料路徑 NIC 輸送量偏高

Edge 節點資料路徑 NIC 輸送量偏高。

偵測到事件時:「Edge 節點 {entity_id}{edge_nic_name} 的資料路徑 NIC 輸送量已達到 {nic_throughput}%,這等於或高於高臨界值 {nic_throughput_threshold}%。」

解決事件時:「Edge 節點 {entity-id}{edge_nic_name} 的資料路徑 NIC 輸送量已達到 {nic_throughput}%,這低於高臨界值 {nic_throughput_threshold}%。」

檢查 NIC 上的流量輸送量層級,並判斷是否需要變更組態。執行下列命令可用來監控輸送量。

get dataplane throughput <seconds>

Edge 資料路徑 NIC 輸送量非常高

嚴重

Edge 節點資料路徑 NIC 輸送量非常高。

偵測到事件時:「Edge 節點 {entity-id} 上的 {edge_nic_name} 的資料路徑 NIC 輸送量已達到 {nic_throughput}%,這等於或高於極高臨界值 {nic_throughput_threshold}%。」

解決事件時:「Edge 節點 {entity-id} 上的 {edge_nic_name} 的資料路徑 NIC 輸送量已達到 {nic_throughput}%,這低於極高臨界值 {nic_throughput_threshold}%。」

檢查 NIC 上的流量輸送量層級,並判斷是否需要變更組態。叫用下列 NSX CLI 命令可用來監控輸送量。

get dataplane throughput <seconds>

失敗網域關閉

嚴重

失敗網域的所有成員均關閉。

偵測到事件時:「失敗網域 {transport_node_id} 的所有成員均關閉。」

解決事件時:「失敗網域 {transport_node_id} 的所有成員皆可連線。」
  1. {transport_node_id} 識別的 Edge 節點上,叫用 NSX CLI 命令以檢查管理平面和控制平面的連線。

    get managersget controllers
  2. 叫用下列 NSX CLI 命令以檢查管理介面狀態。

    get interface eth0
  3. 叫用下列 NSX CLI 以檢查核心服務狀態,例如 dataplane/local-controller/nestdb/router 等。

    get services
  4. 檢查 /var/log/syslog 以找出可疑的錯誤。
  5. 將 Edge 節點重新開機。

資料路徑執行緒鎖死

嚴重

Edge 節點的資料路徑執行緒處於鎖死狀態。

偵測到事件時:「Edge 節點資料路徑執行緒 {edge_thread_name} 已鎖死。」

解決事件時:「Edge 節點資料路徑執行緒 {edge_thread_name} 無任何鎖死。」

透過叫用下列 NSX CLI 命令來重新啟動資料平面服務。

restart service dataplane

端點保護事件

端點保護事件是從 NSX Manager 或 ESXi 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
EAM 狀態已關閉 嚴重

計算管理程式上的 ESX Agent Manager (EAM) 服務已關閉。

偵測到事件時:「計算管理程式 {entity_id} 上的 ESX Agent Manager (EAM) 服務已關閉。」

解決事件時:「計算管理程式 {entity_id} 上的 ESX Agent Manager (EAM) 服務已啟動或計算管理程式 {entity_id} 已移除。」

重新啟動 ESX Agent Manager (EAM) 服務:
  • 透過 SSH 進入 vCenter 節點並執行:
    service vmware-eam start
合作夥伴通道已關閉 嚴重

主機模組和合作夥伴 SVM 連線已關閉。

偵測到事件時:「主機模組和合作夥伴 SVM {entity_id} 之間的連線已關閉。」

解決事件時:「主機模組和合作夥伴 SVM {entity_id} 之間的連線已開啟。」

請參閱知識庫文章 2148821 Troubleshooting NSX Guest Introspection (疑難排解 NSX Guest Introspection),並確定 {entity_id} 所識別的合作夥伴 SVM 已重新連線至主機模組。

閘道防火牆事件

閘道防火牆事件從 NSX Edge 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作

已超過 ICMP 流量計數

嚴重 NSX-T Data Center 3.1.3 開始。

ICMP 流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 ICMP 流量的閘道防火牆流量資料表使用量已達到 {firewall_icmp_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用下列 NSX CLI 命令,然後檢查 ICMP 流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
ICMP 流量計數偏高 NSX-T Data Center 3.1.3 開始。

ICMP 流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 ICMP 的閘道防火牆流量資料表使用量已達到 {firewall_icmp_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上 ICMP 的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用下列 NSX CLI 命令,然後檢查 ICMP 流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
已超過 IP 流量計數 嚴重 NSX-T Data Center 3.1.3 開始。

IP 流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 IP 流量的閘道防火牆流量資料表使用量已達到 {firewall_ip_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用 NSX CLI 命令,然後檢查 IP 流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
IP 流量計數偏高 NSX-T Data Center 3.1.3 開始。

IP 流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量

偵測到事件時:「邏輯路由器 {entity_id} 上 IP 的閘道防火牆流量資料表使用量已達到 {firewall_ip_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上非 IP 流量的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用 NSX CLI 命令,然後檢查 IP 流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
已超過 TCP 流量計數 嚴重 NSX-T Data Center 3.1.3 開始。

TCP 半開流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 TCP 流量的閘道防火牆流量資料表使用量已達到 {firewall_halfopen_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用 NSX CLI 命令,然後檢查 TCP 半開流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
TCP 流量計數偏高 NSX-T Data Center 3.1.3 開始。

TCP 半開流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 TCP 的閘道防火牆流量資料表使用量已達到 {firewall_halfopen_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上 TCP 半開的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用 NSX CLI 命令,然後檢查 TCP 半開流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
已超過 UDP 流量計數 嚴重 NSX-T Data Center 3.1.3 開始。

UDP 流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 UDP 流量的閘道防火牆流量資料表使用量已達到 {firewall_udp_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上的閘道防火牆流量資料表使用量已低於高臨界值。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用 NSX CLI 命令,然後檢查 UDP 流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
UDP 流量計數偏高 NSX-T Data Center 3.1.3 開始。

UDP 流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 UDP 的閘道防火牆流量資料表使用量已達到 {firewall_udp_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上 UDP 的閘道防火牆流量資料表使用量已低於高臨界值。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用 NSX CLI 命令,然後檢查 UDP 流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。

高可用性事件

高可用性事件是從 NSX Edge 和公有雲閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
第 0 層閘道容錯移轉

第 0 層閘道已進行容錯移轉。

偵測到事件時:「第 0 層閘道 {entity-id}{previous_gateway_state}{current_gateway_state} 的容錯移轉。」

解決事件時:「第 0 層閘道 {entity-id} 現在已啟動。」

  1. 叫用 NSX CLI 命令 get logical-router <service_router_id>,以識別第 0 層服務路由器 VRF 識別碼。
  2. 透過叫用 vrf <vrf-id> 切換至 VRF 內容,然後叫用 get high-availability status,以判斷已關閉的服務。
第 1 層閘道容錯移轉

第 1 層閘道已進行容錯移轉。

偵測到事件時:「第 1 層閘道 {entity_id}{previous_gateway_state}{current_gateway_state} 的容錯移轉,服務路由器 {service_router_id}。」

解決事件時:「第 1 層閘道 {entity-id} 現在已啟動。」

  1. 叫用 NSX CLI 命令 get logical-router <service_router_id>,以識別第 1 層服務路由器 VRF 識別碼。
  2. 透過叫用 vrf <vrf-id> 切換至 VRF 內容,然後叫用 get high-availability status,以判斷已關閉的服務。

身分識別防火牆事件

事件名稱 嚴重性 警示訊息 建議的動作
與 LDAP 伺服器的連線中斷

嚴重

與 LDAP 伺服器的連線中斷。

偵測到事件時:「與 LDAP 伺服器 {ldap_server} 的連線中斷。」

偵測到事件時:「與 LDAP 伺服器 {ldap_server} 的連線已還原。」

執行下列步驟以檢查 LDAP 伺服器連線:

  1. LDAP 伺服器可從 NSX 節點進行連線。
  2. LDAP 伺服器詳細資料已在 NSX 中已正確設定。
  3. LDAP 伺服器已正確執行。
  4. 沒有防火牆會封鎖 LDAP 伺服器和 NSX 節點之間的存取。

修正問題之後,請在身分識別防火牆 AD 下方使用 NSX UI 中的測試連線來測試連線。

差異同步中發生錯誤

嚴重

執行差異同步時發生錯誤。

偵測到事件時:「與 {directory_domain} 執行差異同步時發生錯誤。」

偵測到事件時:「與 {directory_domain} 執行差異同步時未發生任何錯誤。」

  1. 檢查是否有任何遺失 LDAP 伺服器連線的警示。
  2. /var/log/syslog 中尋找錯誤詳細資料。在警示觸發時間前後,搜尋文字:同步 LDAP 物件時發生錯誤。
  3. 詢問 AD 管理員是否有任何最近的 AD 變更可能會導致錯誤。
  4. 如果錯誤持續發生,請收集技術支援服務包,並連絡 VMware 支援。

基礎結構通訊事件

基礎結構通訊事件是從 NSX Edge、KVM、ESXi 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
Edge 通道已關閉 嚴重

Edge 節點的通道狀態為已關閉。

偵測到事件時:「Edge 節點 {entity_id} 的整體通道狀態已關閉。」

解決事件時:「已還原 Edge 節點 {entity_id} 的通道。」

  1. 叫用下列 NSX CLI 命令以取得所有通道連接埠。

    get tunnel-ports
  2. 然後透過叫用下列 NSX CLI 命令檢查每個通道的統計資料,以確認是否有任何捨棄。

    get tunnel-port <UUID> stats

    此外,也請檢查 /var/log/syslog,以查看是否有任何通道相關的錯誤。

Intelligence 通訊事件

NSX Intelligence 通訊事件是從 NSX Manager 節點、ESXi 節點和 NSX Intelligence 應用裝置產生。

事件名稱 嚴重性 警示訊息 建議的動作
傳輸節點流量匯出工具已中斷連線

傳輸節點已與其智慧節點的訊息代理中斷連線。資料收集受到影響。

偵測到事件時:「傳輸節點 {entity-id} 上的流量匯出工具已與智慧節點的傳訊代理中斷連線。資料收集受到影響。」

解決事件時:「傳輸節點 {entity-id} 上的流量匯出工具已重新連線至智慧節點的傳訊代理。」

  1. 如果訊息服務未在 NSX Intelligence 節點中執行,請將其重新啟動。
  2. 解決傳輸節點與 NSX Intelligence 節點之間的網路連線失敗問題。
至傳輸節點的控制通道關閉

控制器服務與傳輸節點的連線已關閉。

偵測到事件時:「從控制器服務的觀點來看,管理程式節點 {appliance_address} ({central_control_plane_id}) 上對傳輸節點 {entity-id} 的控制器服務已關閉至少三分鐘。」

解決事件時:「管理程式節點 {appliance_address} ({central_control_plane_id}) 上的控制器服務會還原與傳輸節點 {entity_id} 的連線。」

  1. 使用 Ping 命令,檢查從控制器服務 central_control_plane_id 到傳輸節點 {entity-id} 介面的連線。如果偵測不到,請檢查網路連線。
  2. 檢查是否已使用 netstat 輸出建立 TCP 連線,以查看控制器服務 {central_control_plane_id} 是否接聽連接埠 1235 上的連線。如果不是,請檢查防火牆 (或) iptables 規則,以查看連接埠 1235 是否封鎖傳輸節點 {entity_id} 連線要求。確保底層中沒有主機防火牆或網路防火牆封鎖管理程式節點和傳輸節點之間所需的 IP 連接埠。這會記錄在我們的連接埠和通訊協定工具中,如下所示:https://ports.vmware.com/
  3. 傳輸節點 {entity_id} 可能仍處於維護模式。您可以透過下列 API 檢查傳輸節點是否處於維護模式:

    GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid>

    設定維護模式時,傳輸節點將不會連線至控制器服務。當主機升級進行中時,通常會發生此情況。請等待幾分鐘,然後再次檢查連線。
    備註: 此警示很嚴重,且應該解決。如果此警示的通知在很長的時間內仍未解決,請連絡 VMware 支援。

傳輸節點的控制通道關閉過久

嚴重

控制器服務與傳輸節點的連線關閉時間過長。

偵測到事件時:「從控制器服務的觀點來看,管理程式節點 {appliance_address} ({central_control_plane_id}) 上對傳輸節點 {entity-id} 的控制器服務已關閉至少 15 分鐘。」

解決事件時:「管理程式節點 {appliance_address} ({central_control_plane_id}) 上的控制器服務會還原與傳輸節點 {entity_id} 的連線。」

  1. 透過 Ping 和 traceroute 檢查控制器服務 central_control_plane_id 與傳輸節點 {entity_id} 介面之間的連線。NSX Manager 節點管理員 CLI 上可以執行此工作。Ping 測試不應發現捨棄,且應有一致的延遲值。VMware 建議的延遲值為 150 毫秒或更短。
  2. 在 NSX UI 上導覽至系統 > 網狀架構 > 節點 > 傳輸節點 {entity_id},以檢查管理程式節點 {appliance_address} ({central_control_plane_id}) 上的控制器服務與傳輸節點 {entity_id} 之間是否已建立 TCP 連線。如果沒有,請檢查網路和主機上的防火牆規則,以確認連接埠 1235 是否封鎖了傳輸節點 {entity_id} 連線要求。確保底層中沒有主機防火牆或網路防火牆封鎖管理程式節點和傳輸節點之間所需的 IP 連接埠。這項資料會記錄在我們的連接埠和通訊協定工具中,網址為:https://ports.vmware.com/。

至管理程式節點的控制通道關閉

傳輸節點的控制平面與管理程式節點的連線已關閉。

偵測到事件時:「從傳輸節點的觀點來看,傳輸節點 {entity_id} 控制平面與管理程式節點 {appliance_address} 的連線已關閉至少 {timeout_in_minutes} 分鐘。」

解決事件時:「傳輸節點 {entity_id} 會還原與管理程式節點 {appliance_address} 的控制平面連線。」

  1. 透過 Ping 檢查從傳輸節點 {entity_id} 到管理程式節點 {appliance_address} 介面的連線。如果偵測不到,請檢查網路連線的穩定性。
  2. 檢查是否已使用 netstat 輸出建立 TCP 連線,以查看管理程式節點 {appliance_address} 上的控制器服務是否接聽連接埠 1235 上的連線。如果不是,請檢查防火牆 (或) iptables 規則,以查看連接埠 1235 是否封鎖傳輸節點 {entity_id} 連線要求。確保底層中沒有主機防火牆或網路防火牆封鎖管理程式節點和傳輸節點之間所需的 IP 連接埠。這項資料會記錄在我們的連接埠和通訊協定工具中,網址為:https://ports.vmware.com/。
  3. 傳輸節點 {entity_id} 可能仍處於維護模式。您可以透過下列 API 檢查傳輸節點是否處於維護模式:

    GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid>

    設定維護模式時,傳輸節點將不會連線至控制器服務。當主機升級進行中時,通常會發生此情況。請等待幾分鐘,然後再次檢查連線。
    備註: 請注意,此警示並不嚴重,但應解決此問題。此警示的通知不需要與 GSS 取得聯繫,除非該警示在很長的時間內仍未解決。

至管理程式節點的控制通道關閉過久

嚴重

傳輸節點的控制平面與管理程式節點的連線已關閉一段時間。

偵測到事件時:「從傳輸節點的觀點來看,傳輸節點 {entity_id} 控制平面與管理程式節點 {appliance_address} 的連線已關閉至少 {timeout_in_minutes} 分鐘。」

解決事件時:「傳輸節點 {entity_id} 會還原與管理程式節點 {appliance_address} 的控制平面連線。」

  1. 透過 Ping 檢查從傳輸節點 {entity_id} 到管理程式節點 {appliance_address} 介面的連線。如果偵測不到,請檢查網路連線的穩定性。
  2. 檢查是否已使用 netstat 輸出建立 TCP 連線,以查看管理程式節點 {appliance_address} 上的控制器服務是否接聽連接埠 1235 上的連線。如果不是,請檢查防火牆 (或) iptables 規則,以查看連接埠 1235 是否封鎖傳輸節點 {entity_id} 連線要求。確保底層中沒有主機防火牆或網路防火牆封鎖管理程式節點和傳輸節點之間所需的 IP 連接埠。這項資料會記錄在我們的連接埠和通訊協定工具中,網址為:https://ports.vmware.com/。
  3. 傳輸節點 {entity_id} 可能仍處於維護模式。您可以透過下列 API 檢查傳輸節點是否處於維護模式:

    GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid>

    設定維護模式時,傳輸節點將不會連線至控制器服務。當主機升級進行中時,通常會發生此情況。請等待幾分鐘,然後再次檢查連線。

傳輸節點的管理通道關閉

傳輸節點的管理通道已關閉。

偵測到事件時:「傳輸節點 {transport_node_name} ({transport_node_address}) 的管理通道已關閉達 5 分鐘。」

解決事件時:「傳輸節點 {transport_node_name} ({transport_node_address}) 的管理通道已開啟。」

  1. 確保管理程式節點和傳輸節點 {transport_node_name} ({transport_node_address}) 之間存在網路連線,且沒有防火牆封鎖節點之間的流量。
  2. 在 Windows 傳輸節點上,透過在 Windows PowerShell 中叫用下列命令,確保 nsx-proxy 服務正在傳輸節點上執行。

    C:NSX\nsx-proxy\nsx-proxy.ps1 status

    如果此服務不在執行中,請叫用下列命令將其重新啟動

    C:NSX\nsx-proxy\nsx-proxy.ps1 restart
  3. 在所有其他傳輸節點上,叫用下列命令以確保 nsx-proxy 服務正在傳輸節點上執行

    /etc/init.d/nsx-proxy status

    如果此服務不在執行中,請叫用下列命令 /etc/init.d/nsx-proxy restart 將其重新啟動

至傳輸節點的管理通道關閉時間過長

嚴重

至傳輸節點的管理通道關閉時間過長。

偵測到事件時:「傳輸節點 {transport_node_name} ({transport_node_address}) 的管理通道已關閉達 15 分鐘。」

解決事件時:「傳輸節點 {transport_node_name} ({transport_node_address}) 的管理通道已開啟。」

  1. 確保管理程式節點和傳輸節點 {transport_node_name} ({transport_node_address}) 之間存在網路連線,且沒有防火牆封鎖節點之間的流量。
  2. 在 Windows 傳輸節點上,透過在 Windows PowerShell 中叫用下列命令,確保 nsx-proxy 服務正在傳輸節點上執行。

    C:NSX\nsx-proxy\nsx-proxy.ps1 status

    如果此服務不在執行中,請叫用下列命令將其重新啟動

    C:NSX\nsx-proxy\nsx-proxy.ps1 restart
  3. 在所有其他傳輸節點上,叫用下列命令以確保 nsx-proxy 服務正在傳輸節點上執行

    /etc/init.d/nsx-proxy status

    如果此服務不在執行中,請叫用下列命令 /etc/init.d/nsx-proxy restart 將其重新啟動

管理程式叢集延遲高

管理程式節點之間的平均網路延遲高。

偵測到事件時:「在過去 5 分鐘內,管理程式節點 {manager_node_id} ({appliance_address}) 與 {remote_manager_node_id} ({remote_appliance_address}) 之間的平均網路延遲超過 10 毫秒。」

解決事件時:「管理程式節點 {manager_node_id} ({appliance_address}) 與 {remote_manager_node_id} ({remote_appliance_address}) 之間的平均網路延遲在 10 毫秒內。」

確保管理程式節點之間沒有防火牆規則會封鎖 Ping 流量。如果有其他高頻寬伺服器和應用程式共用本機網路,請考慮將這些伺服器和應用程式移至不同的網路。

管理程式控制通道關閉

嚴重

管理程式到控制器的通道已關閉。

偵測到事件時:「管理程式節點 {manager_node_name} ({appliance_address}) 上管理功能與控制功能之間的通訊失敗。」

解決事件時:「管理程式節點 {manager_node_name} ({appliance_address}) 上的管理功能與控制功能之間的通訊已還原。」

在管理程式節點 {manager_node_name} ({appliance_address}) 上,請叫用下列兩個 NSX CLI 命令:

restart service mgmt-plane-bus

restart service manager

管理程式 FQDN 查閱失敗

嚴重

管理程式節點 FQDN 的 DNS 查閱失敗。

偵測到事件時:「對於 FQDN 為 {appliance_fqdn} 的管理程式節點 {entity_id} 的 DNS 查閱失敗,並已設定 publish_fqdns 旗標。」

解決事件時:「對於 FQDN 為 {appliance_fqdn} 的管理程式節點 {entity_id} 的 FQDN 查閱成功,或是已清除 publish_fqdns 旗標。」

  1. 將正確的 FQDN 指派給所有管理程式節點,並確認 DNS 組態正確,以成功查閱所有管理程式節點的 FQDN。
  2. 或者,透過叫用下列 NSX API,並在要求本文中將 publish_fqdns 設為 false,來停用 FQDN。

    PUT /api/v1/configs/management

    在這之後,來自傳輸節點的呼叫以及此叢集中從聯盟到管理程式節點的呼叫,都將只會使用 IP 位址。

管理程式 FQDN 反向查閱失敗

嚴重

管理程式節點 IP 位址的反向 DNS 查閱失敗。

偵測到事件時:「對 IP 位址為 {appliance_address} 的管理程式節點 {entity_id} 的反向 DNS 查閱失敗,並已設定 publish_fqdns 旗標。」

事件解決時:「對 IP 位址為 {appliance_address} 的管理程式節點 {entity_id} 的反向 DNS 查閱成功,或是已清除 publish_fqdns 旗標。」

  1. 將正確的 FQDN 指派給所有管理程式節點,並確認 DNS 組態正確,以成功反向查閱管理程式節點的 IP 位址。
  2. 或者,透過叫用下列 NSX API,並在要求本文中將 publish_fqdns 設為 false,來停用 FQDN。

    PUT /api/v1/configs/management

    在這之後,來自傳輸節點的呼叫以及此叢集中從聯盟到管理程式節點的呼叫,都將只會使用 IP 位址。
至管理程式節點的管理通道關閉

至管理程式節點的管理通道已關閉。

偵測到事件時:

「管理程式節點 {manager_node_id} ({appliance_address}) 的管理通道已關閉 5 分鐘。」

解決事件時:「管理程式節點 {manager_node_id} ({appliance_address}) 的管理通道已開啟。」

  • 確保傳輸節點 {transport_node_id} 與主要管理程式節點之間有網路連線。
  • 同時確保沒有任何防火牆正在封鎖節點之間的流量。
  • 藉由叫用下列命令,確保訊息管理程式服務正在管理程式節點上執行。

    /etc/init.d/messaging-manager status
  • 如果訊息管理程式服務不在執行中,請執行下列命令將其重新啟動。

    /etc/init.d/messaging-manager restart
至管理程式節點的管理通道關閉時間過長 嚴重

至管理程式節點的管理通道關閉時間過長。

偵測到事件時:「管理程式節點 {manager_node_id} ({appliance_address}) 的管理通道已關閉 15 分鐘。」

解決事件時:「管理程式節點 {manager_node_id} ({appliance_address}) 的管理通道已開啟。」

  • 確保傳輸節點 {transport_node_id} 與主要管理程式節點之間有網路連線。
  • 同時確保沒有任何防火牆正在封鎖節點之間的流量。
  • 藉由叫用下列命令,確保訊息管理程式服務正在管理程式節點上執行。

    /etc/init.d/messaging-manager status
  • 如果訊息管理程式服務不在執行中,請執行下列命令將其重新啟動。

    /etc/init.d/messaging-manager restart

基礎結構服務事件

基礎結構服務事件是從 NSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
Edge 服務狀態已關閉
備註:NSX-T Data Center 3.2 開始,將淘汰警示。
嚴重

Edge 服務已關閉,時間已持續至少一分鐘。

如果檢視執行階段詳細資料連結可用,您可以按一下此連結以檢視服務關閉的原因。

偵測到事件時:「服務 {edge_service_name} 已關閉,時間已持續至少一分鐘。」

解決事件時:「服務 {edge_service_name} 已啟動。」

  1. 在 Edge 節點上,透過在 /var/log/core 目錄中尋找核心傾印檔案,確認服務尚未因為錯誤而結束。
  2. 若要確認服務是否已停止,請叫用 NSX CLI 命令 get services
  3. 如果是,請執行 start service <service-name> 以重新啟動服務。
Edge 服務狀態已變更

Edge 服務狀態已變更。

如果檢視執行階段詳細資料連結可用,您可以按一下此連結以檢視服務關閉的原因。

偵測到事件時:「服務 {edge_service_name} 已從 {previous_service_state} 變更為 {current_service_state}。」

解決事件時:「服務 {edge_service_name} 已從 {previous_service_state} 變更為 {current_service_state}。」

  1. 在 Edge 節點上,透過在 /var/log/core 目錄中尋找核心檔案,確認服務尚未因為錯誤而結束。
  2. 此外,叫用 NSX CLI 命令 get services 以確認服務是否已停止。
  3. 如果是,請叫用 start service <service-name> 以重新啟動服務。

Intelligence 健全狀況事件

NSX Intelligence 健全狀況事件是從 NSX Manager 節點和 NSX Intelligence 應用裝置產生。

事件名稱 嚴重性 警示訊息 建議的動作
CPU 使用率非常高 嚴重

智慧節點 CPU 使用率非常高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率低於極高臨界值 {system_usage_threshold}%。」

使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。

CPU 使用率高

智慧節點 CPU 使用率偏高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率高於高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率低於高臨界值 {system_usage_threshold}%。」

使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。

記憶體使用量非常高 嚴重

智慧節點記憶體使用量非常高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量低於極高臨界值 {system_usage_threshold}%。」

使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。

記憶體使用量高

智慧節點記憶體使用量偏高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量高於高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量低於高臨界值 {system_usage_threshold}%。」

使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。

磁碟使用量非常高 嚴重

智慧節點磁碟使用量非常高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率低於極高臨界值 {system_usage_threshold}%。」

檢查磁碟分割 {disk_partition_name},並查看是否有任何非預期的大型檔案可移除。
磁碟使用量高

智慧節點磁碟使用量偏高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率高於高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率低於高臨界值 {system_usage_threshold}%。」

檢查磁碟分割 {disk_partition_name},並查看是否有任何非預期的大型檔案可移除。
資料磁碟分割使用量非常高 嚴重

智慧節點資料磁碟分割使用率非常高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率低於極高臨界值 {system_usage_threshold}%。」

停止 NSX Intelligence 資料收集,直到磁碟使用量低於臨界值。

在 NSX UI 中,導覽至系統應用裝置NSX Intelligence 應用裝置。然後,選取動作 > 停止收集資料

資料磁碟分割使用量高

智慧節點資料磁碟分割使用率偏高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率高於高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率低於高臨界值 {system_usage_threshold}%。」

停止 NSX Intelligence 資料收集,直到磁碟使用量低於臨界值。

檢查 /data 磁碟分割,並查看是否有可移除的任何未預期的大型檔案。

節點狀態已降級

智慧節點狀態為已降級。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的服務 {service_name} 不在執行中。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的服務 {service_name} 正在正常執行。」

NSX Intelligence 節點中,使用 NSX CLI 命令 get services 檢查服務狀態和健全狀況資訊。

使用 NSX CLI 命令 restart service <service-name> 重新啟動未預期的已停止服務。

IP 位址管理事件

IP 位址管理 (IPAM) 事件會從 NSX Manager 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
IP 區塊使用量非常高

NSX-T Data Center 3.1.2 開始。

IP 區塊的 IP 子網路使用量已達到 90%。

偵測到事件時:「<intent_path> 的 IP 區塊使用量非常高。IP 區塊即將到達其總容量,使用 IP 區塊來建立子網路可能會失敗。」

解決事件時:

無訊息。

  • 檢閱 IP 區塊使用量。使用新的 IP 區塊來建立資源,或刪除 IP 區塊中未使用的 IP 子網路。若要檢查 IP 區塊所使用的子網路:
    1. 從 NSX UI 中,導覽至網路 > IP 位址集區 > IP 位址集區索引標籤。
    2. 選取正在使用 IP 區塊的 IP 集區。檢查子網路配置的 IP 資料行。
    3. 如果未使用任何配置且未來將不會使用,請刪除子網路或 IP 集區。
  • 使用下列 API 來檢查 IP 集區是否正在使用 IP 區塊,並檢查 IP 配置。
    • 若要取得 IP 集區的已設定子網路,請叫用下列 NSX API。

      GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-subnets

    • 若要取得 IP 配置,請叫用下列 NSX API。

      GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations

備註: 僅在 IP 集區或子網路沒有任何已配置的 IP 且未來不會使用時,才刪除 IP 集區或子網路。
IP 集區使用量非常高

NSX-T Data Center 3.1.2 開始。

IP 集區的 IP 配置使用量已達到 90%。

偵測到事件時:「<intent_path> 的 IP 集區使用量非常高。IP 集區即將到達其總容量。取決於從 IP 集區配置 IP 之實體/服務的建立可能會失敗。」

解決事件時:

無訊息。

檢閱 IP 集區使用量。釋放 IP 集區中未使用的 IP 配置,或建立新的 IP 集區。

  1. 從 NSX UI 中,導覽至網路 > IP 位址集區 > IP 位址集區索引標籤。
  2. 選取 IP 集區,然後檢查配置的 IP 資料行以檢視從 IP 集區配置的 IP。

您可以釋放這些未使用的 IP。若要釋放未使用的 IP 配置,請叫用下列 NSX API。

DELETE /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations/<ip-allocation>

授權事件

授權事件是從 NSX Manager 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
授權已到期 嚴重

授權已到期。

偵測到事件時:「類型 {license_edition_type} 的授權已到期。」

解決事件時:「類型 {license_edition_type} 的過期授權已移除、更新或不再到期。」

新增新的、非到期授權:
  1. 在 NSX UI 中,導覽至系統 > 授權
  2. 按一下新增,然後指定新授權的金鑰。
  3. 刪除到期的授權,方法是選取核取方塊,然後按一下取消指派
授權即將到期

「授權即將到期。偵測到事件時:「類型為 {license_edition_type} 的授權即將到期。」

解決事件時:「由 {license_edition_type} 識別的到期授權已移除、更新,或不再即將到期。」

新增新的、非到期授權:
  1. 在 NSX UI 中,導覽至系統 > 授權
  2. 按一下新增,然後指定新授權的金鑰。
  3. 刪除到期的授權,方法是選取核取方塊,然後按一下取消指派

負載平衡器事件

負載平衡器事件會從 NSX Edge 節點或從 NSX Manager 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
LB CPU 非常高

負載平衡器 CPU 使用率非常高。

偵測到事件時:「負載平衡器 {entity_id} 的 CPU 使用率非常高。臨界值是 {system_usage_threshold}%。」

解決事件時:「負載平衡器 {entity_id} 的 CPU 使用率足夠低。臨界值是 {system_usage_threshold}%。」

如果負載平衡器 CPU 使用率高於系統使用率臨界值,則工作負載對此負載平衡器來說過高。

將負載平衡器的大小從小型變更為中型或從中型變更為大型,以重新調整負載平衡器服務。

如果此負載平衡器的 CPU 使用率仍然很高,請考慮調整 Edge 應用裝置機器尺寸大小,或將負載平衡器服務移至其他 Edge 節點,以獲得適當的工作負載。

LB 狀態關閉

嚴重

集中式負載平衡器服務已關閉。

偵測到事件時:「集中式負載平衡器服務 {entity_id} 已關閉。」

解決事件時:「集中式負載平衡器服務 {entity_id} 已啟動。」

  1. 在作用中的 Edge 節點上,叫用下列 NSX CLI 命令以檢查負載平衡器的狀態。

    get load-balancer <lb-uuid> status
  2. 如果負載平衡器服務的 LB 狀態是「not_ready」,或沒有任何輸出,請讓 Edge 節點進入維護模式,然後退出維護模式。
虛擬伺服器狀態關閉

負載平衡器虛擬服務已關閉。

偵測到事件時:「負載平衡器虛擬伺服器 {entity_id} 已關閉。」

解決事件時:「負載平衡器虛擬伺服器 {entity_id} 已啟動。」

請查閱負載平衡器集區,以判定其狀態並確認其組態。

如果設定錯誤,請將其重新設定並從虛擬伺服器移除該負載平衡器集區,然後重新將其新增至虛擬伺服器。

集區狀態關閉

負載平衡器集區已關閉。

偵測到事件時:「負載平衡器集區 {entity_id} 狀態為關閉。」

解決事件時:「負載平衡器集區 {entity_id} 狀態為啟動。」

  1. 請查閱負載平衡器集區,以判定哪些成員為關閉。
  2. 檢查從負載平衡器到受影響集區成員的網路連線。
  3. 驗證每個集區成員的應用程式健全狀況。
  4. 使用設定的監控來驗證每個集區成員的健全狀況。

當建立成員的健全狀況時,集區成員狀態會根據監視器中的「Rise Count」組態更新為狀況良好。

LB 狀態已降級

NSX-T Data Center 3.1.2 開始。

負載平衡器服務已降級。

偵測到事件時:「負載平衡器服務 {entity_id} 已降級。」

解決事件時:「負載平衡器服務 {entity_id} 未降級。」

  • 針對集中式負載平衡器:
    1. 在待命 Edge 節點上,叫用下列 NSX CLI 命令以檢查負載平衡器的狀態。

      get load-balancer <lb-uuid> status
    2. 如果負載平衡器服務的 LB 狀態是「not_ready」,或沒有任何輸出,請讓 Edge 節點進入維護模式,然後退出維護模式。
  • 針對分散式負載平衡器:
  1. 叫用下列 NSX API 來取得詳細狀態。

    GET /policy/api/v1/infra/lb-services/<LBService>/detailed-status?source=realtime
  2. 從 API 輸出中,尋找報告狀態為 NOT_READY 或 CONFLICT 之非零 instance_number 的 ESXi 主機。
  3. 在 ESXi 主機節點上,叫用下列 NSX CLI 命令。

    get load-balancer <lb-uuid> status

    如果報告了「衝突 LSP」,請檢查此 LSP 是否已連結至任何其他負載平衡器服務,且此衝突是否可接受。

    如果報告了「未就緒 LSP」,請叫用下列 NSX CLI 命令來檢查此 LSP 的狀態。

    get logical-switch-port status

DLB 狀態關閉

嚴重

NSX-T Data Center 3.1.2 開始。

分散式負載平衡器服務已關閉。

偵測到事件時:「分散式負載平衡器服務 {entity_id} 已關閉。」

解決事件時:「分散式負載平衡器服務 {entity_id} 已啟動。」

  1. 在 ESXi 主機節點上,叫用下列 NSX CLI 命令。

    get load-balancer <lb-uuid> status
  2. 如果報告指出「衝突 LSP」,請檢查此 LSP 是否已連結至任何其他負載平衡器服務,且此衝突是否可接受。如果報告指出「未就緒 LSP」,請叫用下列 NSX CLI 命令來檢查此 LSP 的狀態。

    get logical-switch-port status

LB Edge 使用中的容量高

NSX-T Data Center 3.1.2 開始。

負載平衡器使用率偏高

偵測到事件時:「Edge 節點 {entity_id} 中的負載平衡器服務使用量偏高。臨界值是 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity_id} 中的負載平衡器服務使用量足夠低。臨界值是 {system_usage_threshold}%。」

如果在此 Edge 節點中設定了多個 LB 執行個體,請部署新的 Edge 節點,並將部分 LB 執行個體移至該新的 Edge 節點。如果在相同大小 (小型、中型等) 的 Edge 節點中僅設定了單個 LB 執行個體 (小型、中型等),請部署一個較大的新 Edge,並將此 LB 執行個體移至該新的 Edge 節點。

LB 集區成員使用中的容量非常高

嚴重

NSX-T Data Center 3.1.2 開始。

負載平衡器集區成員使用率非常高。

偵測到事件時:「Edge 節點 {entity_id} 中的集區成員使用量非常高。臨界值是 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity_id} 中的集區成員使用量足夠低。臨界值是 {system_usage_threshold}%。」

部署新的 Edge 節點,並將負載平衡器服務從現有 Edge 節點移至新部署的 Edge 節點。

由於缺少記憶體,負載平衡組態未實現

由於 Edge 節點上的記憶體使用量過高,負載平衡器組態未實現。

偵測到事件時:「由於 Edge 節點 {transport_node_id} 上的記憶體使用量過高,負載平衡器組態 {entity_id} 未實現。」

解決事件時:「負載平衡器組態 {entity_id} 已於 {transport_node_id} 上實現。」

  • 最好定義小型和中型負載平衡器,而非大型負載平衡器。
  • 在可用的 Edge 節點間分散負載平衡器服務。
  • 減少定義的虛擬伺服器數目。

管理程式健全狀況事件

NSX Manager 健全狀況事件是從 NSX Manager 節點叢集產生。

事件名稱 嚴重性 警示訊息 建議的動作
重複的 IP 位址

管理程式節點的 IP 位址由其他裝置使用中。

偵測到事件時:「管理程式節點 {entity_id} 的 IP 位址 {duplicate_ip_address} 目前由網路中的其他裝置使用中。」

偵測到事件時:「使用指派給管理程式節點 {entity_id} 的 IP 位址的裝置似乎已不再使用 {duplicate_ip_address}。」

  1. 判定哪個裝置使用管理程式的 IP 位址,並為該裝置指派新的 IP 位址。
    備註: 不支援將管理程式重新設定為使用新的 IP 位址。
  2. 確認靜態 IP 位址集區/DHCP 伺服器是否已正確設定。
  3. 如果已手動指派裝置的 IP 位址,請更正該位址。
管理程式 CPU 使用率非常高 嚴重

管理程式節點 CPU 使用率非常高。

偵測到事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

請檢閱此管理程式節點的組態、執行中服務和大小調整。

考慮調整管理程式應用裝置機器尺寸大小。

管理程式 CPU 使用率高

從 NSX-T Data Center 3.0.1 開始。

管理程式節點 CPU 使用率偏高。

偵測到事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」

解決事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

請檢閱此管理程式節點的組態、執行中服務和大小調整。

考慮調整管理程式應用裝置機器尺寸大小。

管理程式記憶體使用量非常高 嚴重

從 NSX-T Data Center 3.0.1 開始。

管理程式節點記憶體使用量非常高。

偵測到事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

請檢閱此管理程式節點的組態、執行中服務和大小調整。

考慮調整管理程式應用裝置機器尺寸大小。

管理程式記憶體使用量高

管理程式節點記憶體使用量偏高。

偵測到事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」

解決事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

請檢閱此管理程式節點的組態、執行中服務和大小調整。

考慮調整管理程式應用裝置機器尺寸大小。

管理程式磁碟使用量非常高 嚴重

管理程式節點磁碟使用量非常高。

偵測到事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。
管理程式磁碟使用量高

管理程式節點磁碟使用量偏高。

偵測到事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於高臨界值{system_usage_threshold}%。」

解決事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。

管理程式組態磁碟使用量非常高

嚴重

管理程式節點組態磁碟使用量非常高。

偵測到事件時:「管理程式節點磁碟分割 /config 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /config/corfu 目錄下的磁碟使用量過高。」

解決事件時:「管理程式節點磁碟分割 /config 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

如果報告了問題,請執行下列工具,並連絡 GSS: /opt/vmware/tools/support/inspect_checkpoint_issues.py

管理程式組態磁碟使用量高

管理程式節點組態磁碟使用量偏高。

偵測到事件時:「管理程式節點磁碟分割 /config 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /config/corfu 目錄下的磁碟使用量正在上升。」

解決事件時:「管理程式節點磁碟分割 /config 的磁碟使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

檢查 /config 磁碟分割,並查看是否有可移除的任何未預期的大型檔案。

作業 DB 磁碟使用量高

管理程式節點 nonconfig 磁碟使用量偏高。

偵測到事件時:「管理程式節點磁碟分割 /nonconfig 的磁碟使用量已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /nonconfig/corfu 目錄下的磁碟使用量正在上升。」

解決事件時:「管理程式節點磁碟分割 /nonconfig 的磁碟使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

如果有回報問題,請執行下列工具,並連絡 GSS:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig

作業資料庫磁碟使用量極高 嚴重

管理程式節點 nonconfig 磁碟使用量極高。

偵測到事件時:「管理程式節點磁碟分割 /nonconfig 的磁碟使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /nonconfig/corfu 目錄下的磁碟使用量過高。」

解決事件時:「管理程式節點磁碟分割 /nonconfig 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

如果有回報問題,請執行下列工具,並連絡 GSS:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig

NCP 事件

NSX Container Plug-in (NCP) 事件是從 ESXi 和 KVM 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
NCP 外掛程式已關閉 嚴重

管理程式節點偵測到 NCP 已關閉或狀況不良。

偵測到事件時:「管理程式節點偵測到 NCP 已關閉或狀況不良。」

解決事件時:「管理程式節點偵測到 NCP 已再次啟動或狀況良好。」

  • 若要找出有問題的叢集,請執行下列其中一個動作:
    • 請使用 NSX UI 並導覽至 [警示] 頁面。此警示執行個體的實體名稱值可識別叢集名稱。
    • 叫用 NSX API GET /api/v1/systemhealth/container-cluster/ncp/status 來擷取所有叢集狀態,並判斷任何報告 [關閉] 或 [未知] 之叢集的名稱。然後在 [NSX UI 詳細目錄] | [容器] | [叢集] 頁面上根據名稱尋找叢集,然後按一下 [節點] 索引標籤以列出所有 Kubernetes 和 PAS 叢集成員。
  • 對於 Kubernetes 叢集:
    1. 尋找來自所有叢集成員的 K8s 主要節點,並登入主要節點,以檢查 NCP 網繭活躍性。然後叫用 kubectl 命令 kubectl get pods --all-namespaces。如果 NCP 網繭發生問題,請使用 kubectl logs 命令檢查問題並修正錯誤。
    2. 檢查 NCP 與 Kubernetes API 伺服器之間的連線。您可以在 NCP 網繭內部使用 NSX CLI,以透過從主要虛擬機器叫用下列命令來檢查此連線狀態。

      kubectl exec -it <NCP-Pod-Name> -n nsx-system bash

      nsxcli

      get ncp-k8s-api-server status

      如果連線發生問題,請檢查網路和 NCP 組態。
    3. 檢查 NCP 和 NSX Manager 之間的連線。您可以在 NCP 網繭內部使用 NSX CLI,以透過從主要虛擬機器叫用下列命令來檢查此連線狀態。

      kubectl exec -it <NCP-Pod-Name> -n nsx-system bash

      nsxcli

      get ncp-nsx status

      如果連線發生問題,請檢查網路和 NCP 組態。
  • 對於 PAS 叢集:
    1. 檢查虛擬機器之間的網路連線,並修正任何網路問題。
    2. 檢查節點和服務的狀態,並修正已損毀的節點或服務。叫用命令 bosh vmsbosh instances -p,以檢查節點和服務的狀態。

節點代理程式健全狀況事件

節點代理程式健全狀況事件是從 ESXi 和 KVM 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
節點代理程式已關閉

在節點虛擬機器內執行的代理程式似乎已關閉。

偵測到事件時:「在節點虛擬機器內執行的代理程式似乎已關閉。」

解決事件時:「節點虛擬機器內的代理程式執行中。」

對於 ESX:

  1. 如果遺失 Vmk50,請參閱知識庫文章 67432
  2. 如果遺失 Hyperbus 4094:重新啟動 nsx-cfgagent 或重新啟動容器主機虛擬機器可能有幫助。
  3. 如果已封鎖容器主機 VIF,請檢查控制器的連線,以確保已關閉所有組態。
  4. 如果 nsx-cfgagent 已停止,請重新啟動 nsx-cfgagent

對於 KVM:

  1. 如果 Hyperbus 命名空間遺失,重新啟動 nsx-opsagent 可能有助於重新建立命名空間。
  2. 如果 Hyperbus 命名空間中遺失 Hyperbus 介面,則重新啟動 nsx-opsagent 可能有幫助。
  3. 如果 nsx-agent 已停止,請重新啟動 nsx-agent

對於 ESX 和 KVM:

  1. 如果遺失 node-agent 套件:請檢查是否已成功將 node-agent 套件安裝在容器主機虛擬機器中。
  2. 如果容器主機虛擬機器中 node-agent 的介面已關閉:檢查容器主機虛擬機器內 eth1 介面的狀態。

NSX 聯盟事件

NSX 聯盟事件會從 NSX ManagerNSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作

GM 到 GM 延遲警告

全域管理程式之間的延遲高於預期 2 分鐘以上。

偵測到事件時:「全域管理程式 {from_gm_path}{to_gm_path} 之間的延遲高於預期。」

解決事件時:「全域管理程式 {from_gm_path}{to_gm_path} 之間的延遲低於預期的層級。」

透過 Ping 檢查從全域管理程式 {from_gm_path}({site_id}) 到全域管理程式 {to_gm_path}({remote_site_id}) 的連線。如果無法執行 Ping,請檢查 WAN 連線的穩定性。

GM 到 GM 同步錯誤

作用中全域管理程式無法同步到待命全域管理程式超過 5 分鐘。

偵測到事件時:「作用中全域管理程式 {from_gm_path} 無法同步到待命全域管理程式 {to_gm_path} 超過 5 分鐘。」

解決事件時:「從作用中全域管理程式 {from_gm_path} 到待命全域管理程式 {to_gm_path} 的同步狀況良好。」

透過 Ping 檢查從全域管理程式 {from_gm_path}({site_id}) 到全域管理程式 {to_gm_path}({remote_site_id}) 的連線。

GM 到 GM 同步警告

作用中全域管理程式無法同步到待命全域管理程式。

偵測到事件時:「作用中全域管理程式 {from_gm_path} 無法同步到待命全域管理程式 {to_gm_path}。」

解決事件時:「從作用中全域管理程式 {from_gm_path} 到待命全域管理程式 {to_gm_path} 的同步狀況良好。」

透過 Ping 檢查從全域管理程式 {from_gm_path}({site_id}) 到全域管理程式 {to_gm_path}({remote_site_id}) 的連線。

LM 對 LM 的同步錯誤

從 NSX-T Data Center 3.0.1 開始。

遠端位置之間的同步失敗超過 5 分鐘。

偵測到事件時:「{site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的同步失敗超過 5 分鐘。」

解決事件時:「遠端站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 現已同步。」

  1. 叫用 NSX CLI 命令 get site-replicator remote-sites,以取得遠端位置之間的連線狀態。如果遠端位置已連線但未同步,則可能是該位置仍在進行主要節點解析。在此情況下,請等待約 10 秒,然後再次嘗試叫用 CLI,以檢查遠端位置的狀態。如果位置已中斷連線,請嘗試下一個步驟。
  2. 透過 Ping 偵測,檢查從位置 {site_name}{site_id} 中的本機管理程式 (LM) 到位置 {remote_site_name}{remote_site_id} 中 LM 的連線。如果無法執行 Ping 動作,請檢查 WAN 連線的穩定性。如果沒有實體網路連線問題,請嘗試下一個步驟。
  3. 檢查位置 {site_name}({site_id} 中觸發警示之本機叢集中管理程式節點上的 /var/log/cloudnet/nsx-ccp.log 檔案,以查看是否有任何跨站台通訊錯誤。此外,也需尋找 /var/log/syslog 內的 nsx-appl-proxy 子元件所記錄的錯誤。
LM 對 LM 的同步警告

從 NSX-T Data Center 3.0.1 開始。

遠端位置之間的同步失敗。

偵測到事件時:「{site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間同步失敗。」

解決事件時:「遠端位置 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 現已同步。」

  1. 叫用 NSX CLI 命令 get site-replicator remote-sites,以取得遠端位置之間的連線狀態。如果遠端位置已連線但未同步,則可能是該位置仍在進行主要節點解析。在此情況下,請等待約 10 秒,然後再次嘗試叫用 CLI,以檢查遠端位置的狀態。如果位置已中斷連線,請嘗試下一個步驟。
  2. 透過 Ping 偵測,檢查從位置 {site_name}{site_id} 中的本機管理程式 (LM) 到位置 {remote_site_name}{remote_site_id} 中 LM 的連線。如果無法執行 Ping 動作,請檢查 WAN 連線的穩定性。如果沒有實體網路連線問題,請嘗試下一個步驟。
  3. 檢查位置 {site_name}({site_id} 中觸發警示之本機叢集中管理程式節點上的 /var/log/cloudnet/nsx-ccp.log 檔案,以查看是否有任何跨站台通訊錯誤。此外,也需尋找 /var/log/syslog 內的 nsx-appl-proxy 子元件所記錄的錯誤。
RTEP BGP 關閉

從 NSX-T Data Center 3.0.1 開始。

RTEP BGP 芳鄰已關閉。

偵測到事件時:「從來源 IP {bgp_source_ip} 至遠端位置 {remote_site_name} 芳鄰 IP {bgp_neighbor_ip} 的 RTEP (遠端通道端點) BGP 工作階段已關閉。」

解決事件時:「從來源 IP {bgp_source_ip} 至遠端位置 {remote_site_name} 芳鄰 IP {bgp_neighbor_ip} 的 RTEP (遠端通道端點) BGP 工作階段已建立。」

  1. 在受影響的 Edge 節點上,叫用 NSX CLI 命令 get logical-routers
  2. 切換至 REMOTE_TUNNEL_VRF 內容
  3. 叫用 NSX CLI 命令 get bgp neighbor 以檢查 BGP 芳鄰。
  4. 或者,叫用 NSX API GET /api/v1/transport-nodes/<transport-node-id>/inter-site/bgp/summary,以取得 BGP 芳鄰狀態。
  5. 叫用 NSX CLI 命令 get interfaces,並檢查是否已將正確的 RTEP IP 位址指派給名稱為 remote-tunnel-endpoint 的介面。
  6. .檢查在指派的 RTEP IP 位址 {bgp_source_ip} 與遠端位置 {remote_site_name} 芳鄰 IP {bgp_neighbor_ip} 之間的 Ping 偵測是否成功執行。
  7. 檢查 /var/log/syslog 中是否有與 BGP 相關的任何錯誤。
  8. 叫用 API GET 或 PUT /api/v1/transport-nodes/<transport-node-id>,以取得/更新 Edge 節點上的 remote_tunnel_endpoint 組態。這將更新指派給受影響 Edge 節點的 RTEP IP。

GM 到 LM 同步警告

全域管理程式 (GM) 與本機管理程式 (LM) 之間的資料同步失敗。

偵測到事件時:「站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的 {flow_identifier} 資料同步失敗。」

解決事件時:「站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的 {flow_identifier} 現已同步。」

  1. 透過 Ping 檢查遠端站台本與機站台之間的網路連線。
  2. 確定本機站台與遠端站台之間允許連接埠 TCP/1236 流量。
  3. 確定本機站台和遠端站台均執行非同步複寫器服務。叫用 GET /api/v1/node/services/async_replicator/status NSX APIget service async_replicator NSX CLI 命令,以判斷服務是否正在執行中。

    若未執行,請叫用 POST /api/v1/node/services/async_replicator?action=restart NSX API 或 restart service async_replicator NSX CLI,以重新啟動服務。
  4. 檢查 /var/log/async-replicator/ar.log 以查看是否有報告任何錯誤。

GM 到 LM 同步錯誤

全域管理程式 (GM) 與本機管理程式 (LM) 之間的資料同步長時間失敗。

偵測到事件時:「站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的 {flow_identifier} 資料同步長時間失敗。」

解決事件時:「站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的 {flow_identifier} 現已同步。」

  1. 透過 Ping 檢查遠端站台本與機站台之間的網路連線。
  2. 確定本機站台與遠端站台之間允許連接埠 TCP/1236 流量。
  3. 確定本機站台和遠端站台均執行非同步複寫器服務。叫用 GET /api/v1/node/services/async_replicator/status NSX API 或 get service async_replicator NSX CLI 命令,以判斷服務是否正在執行中。

    若未執行,請叫用 POST /api/v1/node/services/async_replicator?action=restart NSX API 或 restart service async_replicator NSX CLI,以重新啟動服務。
  4. 檢查 /var/log/async-replicator/ar.log 以查看是否有報告任何錯誤。
  5. 收集支援服務包並連絡 VMware 支援。

已超過佇列佔用臨界值

已超過佇列佔用大小臨界值警告。

偵測到事件時:「用於同步站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間資料的佇列 ({queue_name}) 已達到大小 {queue_size},這等於或高於最大臨界值 {queue_size_threshold}%。」

解決事件時:「用於同步站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間資料的佇列 ({queue_name}) 已達到大小 {queue_size},這低於最大臨界值 {queue_size_threshold}%。」

由於遠端站台的通訊問題或系統超載,佇列大小可能超過臨界值。請檢查系統效能和 /var/log/async-replicator/ar.log,以確認是否報告了任何錯誤。

GM 到 LM 延遲警告

全域管理程式與本機管理程式之間的延遲高於預期 2 分鐘以上。

偵測到事件時:「站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的延遲已達到 {latency_value},這高於臨界值 {latency_threshold}。」

解決事件時:「站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的延遲已達到 {latency_value},這低於臨界值 {latency_threshold}。」

  1. 透過 Ping 檢查遠端站台本與機站台之間的網路連線。
  2. 確定本機站台與遠端站台之間允許連接埠 TCP/1236 流量。
  3. 檢查 /var/log/async-replicator/ar.log 以查看是否有報告任何錯誤。

叢集已降級

群組成員已關閉。

偵測到事件時:「服務 {group_type} 的群組成員 {manager_node_id} 已關閉。」

解決事件時:「服務 {group_type} 的群組成員 {manager_node_id} 已啟動。」

  1. 叫用 NSX CLI 命令 get cluster status 以檢視叢集的群組成員狀態。
  2. 確定 {group_type} 的服務正在節點上執行。叫用 GET /api/v1/node/services/<service_name>/status NSX API 或 get service <service_name> NSX CLI 命令,以判斷服務是否正在執行中。

    若未執行,請叫用 POST /api/v1/node/services/<service_name>?action=restart NSX API 或 restart service <service_name> NSX CLI,以重新啟動服務。
  3. 檢查服務 {group_type}/var/log/,以查看是否報告了錯誤。

叢集無法使用

服務的所有群組成員皆已關閉。

偵測到事件時:「服務 {group_type} 的所有群組成員 {manager_node_id} 已關閉。」

解決事件時:「服務 {group_type} 的所有群組成員 {manager_node_id} 已啟動。」

  1. 確定 {group_type} 的服務正在節點上執行。叫用 GET /api/v1/node/services/<service_name>/status NSX API 或 get service <service_name> NSX CLI 命令,以判斷服務是否正在執行中。

    若未執行,請叫用 POST /api/v1/node/services/<service_name>?action=restart NSX API 或 restart service <service_name> NSX CLI,以重新啟動服務。
  2. 檢查服務 {group_type}/var/log/,以查看是否報告了錯誤。

密碼管理事件

密碼管理事件是從 NSX ManagerNSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
密碼已到期 嚴重

使用者密碼已到期。

偵測到事件時:「使用者 {username} 的密碼已到期。」

解決事件時:「使用者 {username} 的密碼已成功變更或不再到期。」

使用者 {username} 的密碼必須立即變更才能存取系統。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:

PUT /api/v1/node/users/<userid>

其中 <userid> 是使用者的識別碼。如果管理員使用者 (使用 <userid> 10000) 密碼已到期,則管理員必須透過 SSH (如果已啟用) 或主控台登入系統,才能變更密碼。輸入目前的已到期密碼時,系統會提示管理員輸入新密碼。

密碼即將到期

使用者密碼即將到期。

偵測到事件時:「使用者 {username} 的密碼即將在 {password_expiration_days} 天後到期。」

解決事件時:「使用者 {username} 的密碼已成功變更或不再即將到期。」

確定由 {username} 識別的使用者密碼會立即變更。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:

PUT /api/v1/node/users/<userid>

其中 <userid> 是使用者的識別碼。

接近密碼到期

使用者密碼即將到期。

偵測到事件時:「使用者 {username} 的密碼即將在 {password_expiration_days} 天後到期。」

解決事件時:「使用者 {username} 的密碼已成功變更或不再即將到期。」

{username} 識別的使用者的密碼需要盡快變更。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:

PUT /api/v1/node/users/<userid>

其中 <userid> 是使用者的識別碼。

路由事件

事件名稱 嚴重性 警示訊息 建議的動作
BGP 已關閉

BGP 芳鄰已關閉。

偵測到事件時:「在路由器 {entity_id} 中,BGP 芳鄰 {bgp_neighbor_ip} 已關閉,原因:{failure_reason}。」

解決事件時:「在路由器 {entity_id} 中,BGP 芳鄰 {bgp_neighbor_ip} 已啟動。」

  1. 使用 SSH 進入 Edge 節點。
  2. 叫用 NSX CLI 命令:get logical-routers
  3. 切換至服務路由器 {sr_id}
  4. 檢查 /var/log/syslog ,以查看是否有與 BGP 連線相關的任何錯誤。

外部介面上的 BFD 已關閉

BFD 工作階段已關閉。

偵測到事件時:「在路由器 {entity_id} 中,對等 {peer_address} 的 BFD 工作階段已關閉。」

解決事件時:「在路由器 {entity_id} 中,對等 {peer_address} 的 BFD 工作階段已啟動。」

  1. 叫用 NSX CLI 命令 get logical-routers
  2. 切換至服務路由器 {sr_id}
  3. 叫用 NSX CLI 命令 ping {peer_address} 以驗證連線。
路由關閉

所有 BGP/BFD 工作階段已關閉。

偵測到事件時:「所有 BGP/BFD 工作階段已關閉。」

解決事件時:「至少一個 BGP/BFD 工作階段已開啟。」

  1. 叫用 NSX CLI 命令 get logical-routers 以取得第 0 層服務路由器。
  2. 切換至第 0 層服務路由器 VRF,然後叫用下列 NSX CLI 命令:
    • 驗證連線:ping <BFD peer IP address>
    • 檢查 BFD 健全狀況:
      get bfd-config 
      get bfd-sessions
    • 檢查 BGP 健全狀況:get bgp neighbor summary
      get bfd neconfig 
      get bfd-sessions
    檢查 /var/log/syslog ,以查看是否有與 BGP 連線相關的任何錯誤。
靜態路由已移除

靜態路由已移除。

偵測到事件時:「在路由器 {entity_id} 中,靜態路由 {static_address} 已移除,因為 BFD 已關閉。」

解決事件時:「在路由器 {entity_id} 中,靜態路由 {static_address} 已在 BFD 復原時重新新增。」

  1. 使用 SSH 進入 Edge 節點。
  2. 叫用 NSX CLI 命令:get logical-routers
  3. 切換至服務路由器 {sr_id}
  4. 透過叫用 NSX CLI 命令來驗證連線:
    get bgp neighbor summary
  5. 此外,確認 NSX 和 BFD 對等中的組態,以確保計時器尚未變更。
傳輸區域內的 MTU 不符 連結至相同傳輸區域之傳輸節點 (例如 ESXi、KVM 和 Edge) 之間的 MTU 組態不相符。連結至相同傳輸區域之所有交換器上的 MTU 值不一致時將會導致連線問題。
  1. 在 NSX UI 中,導覽至系統 > 網狀架構 > 設定,然後按一下 MTU 組態檢查中的不一致,以查看更多不相符的詳細資料。
  2. 在連結至相同傳輸區域的所有交換器上設定相同的 MTU 值,方法為叫用 NSX API

    PUT /api/v1/host-switch-profiles/<host-switch-profile-id>

    並在要求本文中使用 mtu,或叫用 API

    PUT /api/v1/global-configs/SwitchingGlobalConfig

    並在要求本文中使用 physical_uplink_mtu
全域路由器 MTU 太大 全域路由器 MTU 組態大於連線至第 0 層或第 1 層之覆疊傳輸區域中的交換器 MTU。全域路由器 MTU 值應小於所有交換器 MTU 值至少 100,因為我們的 Geneve 封裝需要 100 個配額。
  1. 在 NSX UI 中,導覽至系統 > 網狀架構 > 設定,然後按一下 MTU 組態檢查中的不一致,以查看更多不相符的詳細資料。
  2. 在交換器上設定較大的 MTU 值,方法為叫用 NSX API PUT /api/v1/host-switch-profiles/<host-switch-profile-id> 並在要求本文中使用 mtu,或

    叫用 API PUT /api/v1/global-configs/SwitchingGlobalConfig 並在要求本文中使用 physical_uplink_mtu

  3. 或者,設定較小的全域路由器組態 MTU 值,方法為叫用 NSX API,

    PUT /api/v1/global-configs/RoutingGlobalConfig

    並在要求本文中使用 logical_uplink_mtu

傳輸節點健全狀況

傳輸節點健全狀況事件是從 KVM 和 ESXi 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
LAG 成員已關閉

LACP 報告成員已關閉。

偵測到事件時:「LACP 報告成員已關閉。」

解決事件時:「LACP 報告成員已啟動。」

檢查主機上 LAG 成員的連線狀態。
  1. 在 NSX UI 中,導覽至網狀架構 > 節點 > 傳輸節點 > 主機傳輸節點
  2. 在 [主機傳輸節點] 清單中,檢查 [節點狀態] 資料行。

    尋找 [節點狀態] 為降級或關閉的傳輸節點。

  3. 選取<傳輸節點> > 監控

    尋找報告為降級或關閉的繫結 (上行)。

  4. 透過登入失敗的主機並執行適當的命令,檢查 LACP 成員狀態詳細資料:
    • ESXi:esxcli network vswitch dvs vmware lacp status get
    • KVM:ovs-appctl bond/showovs-appctl lacp/show

傳輸節點上行關閉

上行即將關閉。

偵測到事件時:「上行即將關閉。」

解決事件時:「上行即將啟動。」

檢查主機上上行的實體 NIC 狀態。
  1. 在 NSX UI 中,導覽至網狀架構 > 節點 > 傳輸節點 > 主機傳輸節點
  2. 在 [主機傳輸節點] 清單中,檢查節點狀態資料行。

    尋找 [節點狀態] 為降級或關閉的傳輸節點。

  3. 選取<傳輸節點> > 監控

    尋找報告為降級或關閉的繫結 (上行) 的狀態詳細資料。

    若要避免發生降級狀態,無論是否正在使用中,請確保上行介面均已連線並開啟。

VPN 事件

VPN 事件是從 NSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
以 IPsec 原則為基礎的工作階段關閉

以原則為基礎的 IPsec VPN 工作階段已關閉。

偵測到事件時:「以原則為基礎的 IPsec VPN 工作階段 {entity_id} 已關閉。原因:{session_down_reason}。」

解決事件時:「以原則為基礎的 IPsec VPN 工作階段 {entity_id} 已啟動。

檢查 IPsec VPN 工作階段組態,並根據工作階段關閉的原因解決錯誤。

以 IPsec 路由為基礎的工作階段關閉

以路由為基礎的 IPsec VPN 工作階段已關閉。

偵測到事件時:「以路由為基礎的 IPsec VPN 工作階段 {entity_id} 已關閉。原因:{session_down_reason}。」

解決事件時:「以路由為基礎的 IPsec VPN 工作階段 {entity_id} 已啟動。」

檢查 IPsec VPN 工作階段組態,並根據工作階段關閉的原因解決錯誤。

以 IPsec 原則為基礎的通道關閉

以原則為基礎的 IPsec VPN 通道已關閉。

偵測到事件時:「工作階段 {entity_id} 中一或多個以原則為基礎的 IPsec VPN 通道已關閉。」

解決事件時:「工作階段 {entity_id} 中所有以原則為基礎的 IPsec VPN 通道均已啟動。」

檢查 IPsec VPN 工作階段組態,並根據通道關閉的原因解決錯誤。

以 IPsec 路由為基礎的通道已關閉

以路由為基礎的 IPsec VPN 通道已關閉。

偵測到事件時:「工作階段 {entity_id} 中一或多個以路由為基礎的 IPsec VPN 通道已關閉。」

解決事件時:「工作階段 {entity_id} 中所有以路由為基礎的 IPsec VPN 通道均已啟動。」

檢查 IPsec VPN 工作階段組態,並根據通道關閉的原因解決錯誤。

L2VPN 工作階段關閉

L2VPN 工作階段已關閉。

偵測到事件時:「L2VPN 工作階段 {entity_id} 已關閉。」

解決事件時:「L2VPN 工作階段 {entity_id} 已啟動。」

檢查 IPsec VPN 工作階段組態,並根據原因解決錯誤。

IPsec 服務關閉

IPsec 服務已關閉。若要檢視服務關閉的原因,請按一下檢視執行階段詳細資料連結。

偵測到事件時:「IPsec 服務 {entity_id} 已關閉。」

解決事件時:「IPsec 服務 {entity_id} 已啟動。」

  1. 從 NSX Manager UI 停用並啟用 IPsec 服務。
  2. 如果問題仍存在,請連絡 VMware 支援。