下表說明觸發警示的事件,包括警示訊息和用來解決問題的建議動作。嚴重性大於的任何事件都會觸發警示。

警示管理事件

警示管理事件是由 NSX Manager 和全域管理程式節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
警示服務已超載 嚴重

警示服務已超載。

偵測到事件時:「由於報告的警示數量過大,警示服務發生暫時超載的狀況。NSX UI 和 GET /api/v1/alarm NSX API 已停止報告新的警示。但 Syslog 項目和 SNMP 設陷 (如果已啟用) 仍會持續發出報告基礎事件詳細資料。當造成大量警示的基礎問題獲得解決後,警示服務就會重新開始報告新的警示。」

解決事件時:「目前已無大量警示,並已重新開始報告新的警示。」

請使用 NSX UI 中的 [警示] 頁面檢閱所有作用中的警示,或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API 來檢閱。對於每個作用中的警示,請透過依據建議的警示動作調查其根本原因。解決夠多的警示後,警示服務就會重新開始報告新的警示。

大量警示 嚴重

偵測到大量的特定警示類型。

偵測到事件時:「由於 {event_id} 警示數量過大,警示服務已暫時停止報告此類型的警示。NSX UI 和 GET /api/v1/alarms NSX API 不會報告這些警示的新執行個體。但 Syslog 項目和 SNMP 設陷 (如果已啟用) 仍會持續發出報告基礎事件詳細資料。當造成大量 {event_id} 警示的基礎問題獲得解決後,警示服務就會重新開始在偵測到新問題時,報告新的 {event_id} 警示。」

解決事件時:「目前已無大量 {event_id} 警示,並已重新開始報告此類型的新警示。」

請使用 NSX UI 中的 [警示] 頁面檢閱所有作用中的警示,或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API 來檢閱。對於每個作用中的警示,請透過依據建議的警示動作調查其根本原因。解決夠多的警示後,警示服務就會重新開始報告新的 {event_id} 警示。

容量事件

當特定物件類別的目前詳細目錄達到特定層級時,下列事件可能會觸發警示。如需詳細資訊,請參閱檢視物件類別的使用量和容量

事件名稱 嚴重性 警示訊息 建議的動作
容量上限 嚴重

已達到物件類別的容量上限。警示詳細資料會指出物件的特定類別。

對相關組態進行調整,以避免任何可能的負面後果。

容量臨界值上限

已達到物件類別的容量臨界值上限。警示詳細資料會指出物件的特定類別。

如果這是預期的警示,請對相關組態進行調整以解決警示。如果這是非預期的警示,請調整物件類別的臨界值。

容量臨界值下限

已達到物件類別的容量臨界值下限。警示詳細資料會指出物件的特定類別。

如果這是預期的警示,請視需要對相關組態進行調整以解決警示。如果這是非預期的警示,請調整物件類別的臨界值。

憑證事件

憑證事件是從 NSX Manager 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
憑證已到期 嚴重

憑證已到期。

偵測到事件時:「憑證 {entity-id} 已到期。」

解決事件時:「已到期的憑證 {entity-id} 已移除或不再到期。

確保目前使用憑證的服務已更新,以使用新的、非已到期憑證。例如,若要將新憑證套用至 HTTP 服務,請叫用下列 API 呼叫:

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

其中,<cert-id> 是 API 呼叫 GET /api/v1/trust-management/certificates 所報告之有效憑證的識別碼。

到期的憑證不再使用後,應使用下列 API 呼叫加以刪除:

DELETE /api/v1/trust-management/certificates/{entity_id}

憑證即將到期

憑證即將到期。

偵測到事件時:「憑證 {entity-id} 即將到期。」

解決事件時:「過期的憑證 {entity-id} 或不再即將到期。」

確保目前使用憑證的服務已更新,以使用新的、非到期中憑證。例如,若要將新憑證套用至 HTTP 服務,請叫用下列 API 呼叫:

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

其中,<cert-id> 是 API 呼叫 GET /api/v1/trust-management/certificates 所報告之有效憑證的識別碼。

到期中憑證不再使用後,應使用 API 呼叫加以刪除:

DELETE /api/v1/trust-management/certificates/{entity_id}

接近憑證到期

憑證即將到期。

偵測到事件時:「憑證 {entity-id} 即將到期。」

解決事件時:「到期中憑證 {entity-id} 不再接近到期。」

確保目前使用憑證的服務已更新,以使用新的、非到期中憑證。例如,若要將新憑證套用至 HTTP 服務,請叫用下列 API 呼叫:

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

其中,<cert-id> 是 API 呼叫 GET /api/v1/trust-management/certificates 所報告之有效憑證的識別碼。

到期中憑證不再使用後,應使用 API 呼叫加以刪除:

DELETE /api/v1/trust-management/certificates/{entity_id}

CNI 健全狀況事件

CNI 健全狀況事件是從 ESXi 和 KVM 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
Hyperbus 管理程式連線已關閉

Hyperbus 無法與管理程式節點通訊。

偵測到事件時:「Hyperbus 無法與管理程式節點通訊。」

解決事件時:「Hyperbus 可以與管理程式節點進行通訊。」

Hyperbus vmkernel 介面 (vmk50) 可能遺失。請參閱知識庫文章 67432

DHCP 事件

DHCP 事件是從 NSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
集區租用配置失敗

IP 集區中的 IP 位址已用盡。

偵測到事件時:「DHCP 伺服器 {dhcp_server_id} 的 IP 集區 {entity_id} 中的位址已用完。前一次的 DHCP 請求失敗,且未來的請求將會失敗。」

解決事件時:「DHCP 伺服器 {dhcp_server_id} 的 IP 集區 {entity_id} 不再已用盡。已成功將租用配置給上一個 DHCP 請求。」

透過叫用 NSX CLI 命令 get dhcp ip-pool,在 NSX UI 或執行 DHCP 伺服器所在的 Edge 節點上檢閱 DHCP 集區組態。

同時,透過叫用 NSX CLI 命令 get dhcp lease,在 Edge 節點上檢閱目前作用中的租用。

將租用與作用中虛擬機器的數目比較。如果虛擬機器的數目相較於作用中租用的數目低,請考慮在 DHCP 伺服器組態上減少租用時間。同時,請考慮透過造訪 NSX UI 中的網路 > 區段 > 區段頁面,來擴充 DHCP 伺服器的集區範圍。

集區已超載

IP 集區已超載。

偵測到事件時:「DHCP 伺服器 {dhcp_server_id} IP 集區 {entity_id} 使用率正接近耗盡,已配置 {dhcp_pool_usage}% IP。」

解決事件時:「DHCP 伺服器 {dhcp_server_id} IP 集區 {entity_id} 已低於高使用率臨界值。」

透過叫用 NSX CLI 命令 get dhcp ip-pool,在 NSX UI 或執行 DHCP 伺服器所在的 Edge 節點上檢閱 DHCP 集區組態。

同時,透過叫用 NSX CLI 命令 get dhcp lease,在 Edge 節點上檢閱目前作用中的租用。

將租用與作用中虛擬機器的數目比較。如果虛擬機器的數目相較於作用中租用的數目低,請考慮在 DHCP 伺服器組態上減少租用時間。同時,請考慮透過造訪 NSX UI 中的網路 > 區段 > 區段頁面,來擴充 DHCP 伺服器的集區範圍。

分散式防火牆事件

分散式防火牆事件是從 NSX Manager 或 ESXi 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
分散式防火牆 CPU 使用率非常高 嚴重

分散式防火牆 CPU 使用率非常高。

偵測到事件時:「傳輸節點 {entity_id} 上的 DFW CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「DNS 轉寄站 {entity_id} 再次執行。」

考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。

請檢閱安全性設計以進行最佳化。例如,如果規則不適用於整個資料中心,請使用套用至組態。

分散式防火牆記憶體使用量非常高 嚴重

分散式防火牆記憶體使用量非常高。

偵測到事件時:「傳輸節點 {entity_id} 上的 DFW 記憶體使用量 {heap_type} 已達到 {system_resource_usage}% ,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「傳輸節點 {entity_id} 上的 DFW 記憶體使用量 {heap_type} 已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

透過在主機上叫用 NSX CLI 命令 get firewall thresholds,以檢視目前 DFW 的記憶體使用量。

考慮將此主機上的工作負載重新平衡至其他主機。

DNS 事件

DNS 事件是從 NSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
轉寄站已關閉

DNS 轉寄站已關閉。

偵測到事件時:「DNS 轉寄站 {entity_id} 不在執行中。這會影響目前已啟用的已識別 DNS 轉寄站。」

解決事件時:「DNS 轉寄站 {entity_id} 再次執行。」

  1. 叫用 NSX CLI 命令 get dns-forwarders status,以確認 DNS 轉寄站是否處於關閉狀態。
  2. 檢查 /var/log/syslog 以查看是否有報告任何錯誤。
  3. 收集支援服務包並連絡 NSX 支援團隊。
轉寄站已停用

DNS 轉寄站已停用。

偵測到事件時:「DNS 轉寄站 {entity_id} 已停用。」

解決事件時:「DNS 轉寄站 {entity_id} 已啟用。」

  1. 叫用 NSX CLI 命令 get dns-forwarders status,以確認 DNS 轉寄站是否處於已停用狀態。
  2. 使用 NSX 原則 API 或管理程式 API 來啟用 DNS 轉寄站,它不應處於已停用狀態。

Edge 健全狀況事件

Edge 健全狀況事件是從 NSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
Edge CPU 使用率非常高 嚴重

Edge 節點 CPU 使用率非常高。

偵測到事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至適用工作負載的其他 Edge 節點。
Edge CPU 使用率高

Edge 節點 CPU 使用率偏高。

偵測到事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至適用工作負載的其他 Edge 節點。
Edge 資料路徑組態失敗

Edge 節點資料路徑組態已失敗。

偵測到事件時:「在三次嘗試後,無法啟用 Edge 節點上的資料路徑。」

解決事件時:「已成功啟用 Edge 節點上的資料路徑。」

確保與管理程式節點的 Edge 節點連線狀況良好。

從 Edge 節點 NSX CLI,叫用命令 get services 以檢查服務的健全狀況。

如果資料平面服務已停止,請叫用命令 start service dataplane 將其重新啟動。

Edge 資料路徑 CPU 使用率非常高 嚴重

Edge 節點資料路徑 CPU 使用率非常高。

偵測到事件時:「Edge 節點 {entity-id} 上的資料路徑 CPU 使用率已達到 {datapath_resource_usage}%,其等於或高於極高臨界值至少兩分鐘。」

解決事件時:「Edge 節點 {entity-id} 上的資料路徑 CPU 使用率已低於最大臨界值。」

透過叫用 NSX CLI 命令 get dataplane cpu stats,以顯示每個 CPU 核心的封包速率,檢閱 Edge 節點上的 CPU 統計資料。

較高的 CPU 使用率預期會有較高的封包速率。

考慮增加 Edge 應用裝置的機器尺寸大小,並將此 Edge 節點上的服務重新平衡至相同叢集中的其他 Edge 節點或其他 Edge 叢集。

Edge 資料路徑 CPU 使用率高

Edge 節點資料路徑 CPU 使用率偏高。

偵測到事件時:「Edge 節點 {entity-id} 上的資料路徑 CPU 使用率已達到 {datapath_resource_usage}%,其等於或高於高臨界值至少兩分鐘。」

解決事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到低於高臨界值。」

透過叫用 NSX CLI 命令 get dataplane cpu stats,以顯示每個 CPU 核心的封包速率,檢閱 Edge 節點上的 CPU 統計資料。

較高的 CPU 使用率預期會有較高的封包速率。

考慮增加 Edge 應用裝置的機器尺寸大小,並將此 Edge 節點上的服務重新平衡至相同叢集中的其他 Edge 節點或其他 Edge 叢集。

Edge 資料路徑加密驅動程式已關閉 嚴重

Edge 節點資料路徑加密驅動程式已關閉。

偵測到事件時:「Edge 節點加密驅動程式已關閉。」

解決事件時:「Edge 節點加密驅動程式已開啟。」

視需要升級 Edge 節點。

Edge 資料路徑記憶體集區偏高

Edge 節點資料路徑記憶體集區偏高。

偵測到事件時:「Edge 節點 {entity-id}{mempool_name} 的資料路徑記憶體集區使用率已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity-id}{mempool_name} 的資料路徑記憶體集區使用率已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

以根使用者身分登入,並叫用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/showedge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap 以檢查 DPDK 記憶體使用量。
Edge 磁碟使用量非常高 嚴重

Edge 節點磁碟使用量非常高。

偵測到事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。
Edge 磁碟使用量高

Edge 節點磁碟使用量偏高。

偵測到事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於高臨界值{system_usage_threshold}%。」

解決事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。
Edge 全域 ARP 資料表使用量高

Edge 節點全域 ARP 資料表使用率偏高。

偵測到事件時:「Edge 節點 {entity-id} 上的全域 ARP 資料表使用率已達到 {datapath_resource_usage}%,這高於高臨界值超過兩分鐘。」

解決事件時:「Edge 節點 {entity-id} 上的全域 ARP 資料表使用率已達到低於高臨界值。」

增加 ARP 資料表大小:
  1. 以根使用者身分登入。
  2. 叫用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show
  3. 檢查 neigh 快取使用量是否正常。
    1. 如果正常,則叫用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries,以增加 ARP 資料表大小。
Edge 記憶體使用量非常高 嚴重

Edge 節點記憶體使用量非常高。

偵測到事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至適用工作負載的其他 Edge 節點。
Edge 記憶體使用量高

Edge 節點記憶體使用量偏高。

偵測到事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至適用工作負載的其他 Edge 節點。
Edge NIC 連結狀態關閉 嚴重

Edge 節點 NIC 連結已關閉。

偵測到事件時:「Edge 節點 NIC {edge_nic_name} 連結已關閉。」

偵測到事件時:「Edge 節點 NIC {edge_nic_name} 連結已啟動。」

在 Edge 節點上,透過叫用 NSX CLI 命令 get interfaces,來確認 NIC 連結是否已實際關閉。

如果已關閉,請確認纜線連線。

Edge NIC 的接收緩衝區不足 嚴重

Edge 節點 NIC 的接收描述元循環緩衝區沒有剩餘空間。

偵測到事件時:「Edge 節點 {entity-id} 上的 Edge NIC {edge_nic_name} 接收循環緩衝區已溢位達 {rx_ring_buffer_overflow_percentage}%,且超過 60 秒。」

解決事件時:「Edge 節點 {entity-id} 上的 Edge NIC {edge_nic_name} 接收循環緩衝區使用率不再溢位。」

叫用 NSX CLI 命令 get dataplane,並檢查下列項目:
  1. 如果 PPS 和 CPU 使用率高,則透過 get dataplane | find ring-size rx 叫用來檢查 rx 循環大小。
    • 如果 PPS 和 CPU 偏高,且 rx 循環大小偏低,請叫用 set dataplane ring-size rx <ring-size>,並將 set <ring-size> 設為較高的值以容納傳入封包。
    • 如果不符合上述條件,例如循環大小偏高,且 CPU 使用率也偏高,則可能是由於資料平面處理額外負荷延遲所致。
Edge NIC 的傳輸緩衝區不足 嚴重

Edge 節點 NIC 的傳輸描述元循環緩衝區沒有剩餘空間。

偵測到事件時:「Edge 節點 {entity-id} 上的 Edge 節點 NIC {edge_nic_name} 傳輸循環緩衝區已溢位達 {tx_ring_buffer_overflow_percentage}%,且超過 60 秒。」

解決事件時:「Edge 節點 {entity-id} 上的 Edge 節點 NIC {edge_nic_name} 傳輸循環緩衝區使用率不再溢位。」

叫用 NSX CLI 命令 get dataplane,並檢查下列項目:
  1. 如果 PPS 和 CPU 使用率高,則透過 get dataplane | find ring-size tx 叫用來檢查 rx 循環大小。
    • 如果 PPS 和 CPU 偏高,且 tx 循環大小偏低,請叫用 set dataplane ring-size tx <ring-size>,並將 set <ring-size> 設為較高的值以容納傳出封包。
    • 如果不符合上述條件,且循環大小偏高,CPU 使用率偏低或正常,則可能是由於 Hypervisor 的傳輸循環大小設定所致。
儲存區錯誤 嚴重

從 NSX-T Data Center 3.0.1 開始。

Edge 節點上的下列磁碟分割處於唯讀模式:{disk_partition_name}

.

檢查唯讀磁碟分割,以查看重新開機是否可解決此問題,或是需要更換磁碟。請參閱知識庫文章https://kb.vmware.com/s/article/2146870

端點保護事件

端點保護事件是從 NSX Manager 或 ESXi 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
EAM 狀態已關閉 嚴重

計算管理程式上的 ESX Agent Manager (EAM) 服務已關閉。

偵測到事件時:「計算管理程式 {entity_id} 上的 ESX Agent Manager (EAM) 服務已關閉。」

解決事件時:「計算管理程式 {entity_id} 上的 ESX Agent Manager (EAM) 服務已啟動或計算管理程式 {entity_id} 已移除。」

重新啟動 ESX Agent Manager (EAM) 服務:
  • 透過 SSH 進入 vCenter 節點並執行:
    service vmware-eam start
合作夥伴通道已關閉 嚴重

主機模組和合作夥伴 SVM 連線已關閉。

偵測到事件時:「主機模組和合作夥伴 SVM {entity_id} 之間的連線已關閉。」

解決事件時:「主機模組和合作夥伴 SVM {entity_id} 之間的連線已開啟。」

請參閱知識庫文章 2148821 Troubleshooting NSX Guest Introspection (疑難排解 NSX Guest Introspection),並確定 {entity_id} 所識別的合作夥伴 SVM 已重新連線至主機模組。

閘道防火牆事件

閘道防火牆事件從 NSX Edge 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作

已超過 ICMP 流量計數

嚴重 NSX-T Data Center 3.1.3 開始。

ICMP 流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 ICMP 流量的閘道防火牆流量資料表使用量已達到 {firewall_icmp_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用下列 NSX CLI 命令,然後檢查 ICMP 流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
ICMP 流量計數偏高 NSX-T Data Center 3.1.3 開始。

ICMP 流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 ICMP 的閘道防火牆流量資料表使用量已達到 {firewall_icmp_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上 ICMP 的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用下列 NSX CLI 命令,然後檢查 ICMP 流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
已超過 IP 流量計數 嚴重 NSX-T Data Center 3.1.3 開始。

IP 流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 IP 流量的閘道防火牆流量資料表使用量已達到 {firewall_ip_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用 NSX CLI 命令,然後檢查 IP 流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
IP 流量計數偏高 NSX-T Data Center 3.1.3 開始。

IP 流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量

偵測到事件時:「邏輯路由器 {entity_id} 上 IP 的閘道防火牆流量資料表使用量已達到 {firewall_ip_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上非 IP 流量的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用 NSX CLI 命令,然後檢查 IP 流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
已超過 TCP 流量計數 嚴重 NSX-T Data Center 3.1.3 開始。

TCP 半開流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 TCP 流量的閘道防火牆流量資料表使用量已達到 {firewall_halfopen_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用 NSX CLI 命令,然後檢查 TCP 半開流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
TCP 流量計數偏高 NSX-T Data Center 3.1.3 開始。

TCP 半開流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 TCP 的閘道防火牆流量資料表使用量已達到 {firewall_halfopen_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上 TCP 半開的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用 NSX CLI 命令,然後檢查 TCP 半開流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
已超過 UDP 流量計數 嚴重 NSX-T Data Center 3.1.3 開始。

UDP 流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 UDP 流量的閘道防火牆流量資料表使用量已達到 {firewall_udp_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上的閘道防火牆流量資料表使用量已低於高臨界值。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用 NSX CLI 命令,然後檢查 UDP 流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。
UDP 流量計數偏高 NSX-T Data Center 3.1.3 開始。

UDP 流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。

偵測到事件時:「邏輯路由器 {entity_id} 上 UDP 的閘道防火牆流量資料表使用量已達到 {firewall_udp_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」

解決事件時:「邏輯路由器 {entity_id} 上 UDP 的閘道防火牆流量資料表使用量已低於高臨界值。」

  1. 在 Edge 節點上以管理員身分登入,並使用正確的介面 UUID 叫用 NSX CLI 命令,然後檢查 UDP 流量的流量資料表使用量。

    get firewall <LR_INT_UUID> interface stats | json
  2. 檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。
  3. 如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。

高可用性事件

高可用性事件是從 NSX Edge 和公用雲端閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
第 0 層閘道容錯移轉

第 0 層閘道已進行容錯移轉。

偵測到事件時:「第 0 層閘道 {entity-id}{previous_gateway_state}{current_gateway_state} 的容錯移轉。」

解決事件時:「第 0 層閘道 {entity-id} 現在已啟動。」

判定已關閉的服務,然後將其重新啟動。
  1. 透過執行 NSX CLI 命令 get logical-routers 來識別第 0 層 VRF 識別碼。
  2. 透過執行 vrf <vrf-id> 切換到 VRF 內容。
  3. 透過執行 get high-availability status 來檢視哪個服務已關閉。
第 1 層閘道容錯移轉

第 1 層閘道已進行容錯移轉。

偵測到事件時:「第 1 層閘道 {entity-id}{previous_gateway_state}{current_gateway_state} 的容錯移轉。」

解決事件時:「第 1 層閘道 {entity-id} 現在已啟動。」

判定已關閉的服務,然後將其重新啟動。
  1. 透過執行 NSX CLI 命令 get logical-routers 來識別第 1 層 VRF 識別碼。
  2. 透過執行 vrf <vrf-id> 切換到 VRF 內容。
  3. 透過執行 get high-availability status 來檢視哪個服務已關閉。

基礎結構通訊事件

基礎結構通訊事件是從 NSX Edge、KVM、ESXi 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
Edge 通道已關閉 嚴重

Edge 節點的通道狀態為已關閉。

偵測到事件時:「Edge 節點 {entity_id} 的整體通道狀態已關閉。」

解決事件時:「已還原 Edge 節點 {entity_id} 的通道。」

  1. 使用 SSH 登入 Edge 節點。
  2. 取得狀態。
    nsxcli get tunnel-ports
  3. 在每個通道上,檢查統計資料是否有任何下降。
    get tunnel-port <UUID> stats
  4. 檢查 syslog 檔案中是否有任何通道相關錯誤。

基礎結構服務事件

基礎結構服務事件是從 NSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
Edge 服務狀態已關閉 嚴重

Edge 服務已關閉,時間已持續至少一分鐘。

偵測到事件時:「服務 {edge_service_name} 已關閉,時間已持續至少一分鐘。」

解決事件時:「服務 {edge_service_name} 已啟動。」

在 Edge 節點上,透過在 /var/log/core 目錄中尋找核心傾印檔案,確認服務尚未因為錯誤而結束。

若要確認服務是否已停止,請叫用 NSX CLI 命令 get services

如果是,請執行 start service <service-name> 以重新啟動服務。

Edge 服務狀態已變更

Edge 服務狀態已變更。

偵測到事件時:「服務 {edge_service_name} 已從 {previous_service_state} 變更為 {current_service_state}。」

解決事件時:「服務 {edge_service_name} 已從 {previous_service_state} 變更為 {current_service_state}。」

在 Edge 節點上,透過在 /var/log/core 目錄中尋找核心傾印檔案,確認服務尚未因為錯誤而結束。

若要確認服務是否已停止,請叫用 NSX CLI 命令 get services

如果是,請執行 start service <service-name> 以重新啟動服務。

Intelligence 通訊事件

NSX Intelligence 通訊事件是從 NSX Manager 節點、ESXi 節點和 NSX Intelligence 應用裝置產生。

事件名稱 嚴重性 警示訊息 建議的動作
傳輸節點流量匯出工具已中斷連線

傳輸節點已與其智慧節點的訊息代理中斷連線。資料收集受到影響。

偵測到事件時:「傳輸節點 {entity-id} 上的流量匯出工具已與智慧節點的傳訊代理中斷連線。資料收集受到影響。」

解決事件時:「傳輸節點 {entity-id} 上的流量匯出工具已重新連線至智慧節點的傳訊代理。」

  1. 如果訊息服務未在 NSX Intelligence 節點中執行,請將其重新啟動。
  2. 解決傳輸節點與 NSX Intelligence 節點之間的網路連線失敗問題。
至傳輸節點的控制通道關閉 至傳輸節點的控制通道關閉。

偵測到事件時:從控制器服務的觀點來看,控制器服務 central_control_plane_id 與傳輸節點 {entity-id} 的連線已關閉至少三分鐘。

解決事件時:控制器服務 central_control_plane_id 會還原與傳輸節點 {entity-id} 的連線。

  1. 使用 Ping 命令,檢查從控制器服務 central_control_plane_id 到傳輸節點 {entity-id} 介面的連線。如果偵測不到,請檢查網路連線。
  2. 檢查是否已使用 netstat 輸出建立 TCP 連線,以查看控制器服務 {central_control_plane_id} 是否接聽連接埠 1235 上的連線。如果不是,請檢查防火牆 (或) iptables 規則,以查看連接埠 1235 是否封鎖傳輸節點 {entity_id} 連線要求。確保底層中沒有主機防火牆或網路防火牆封鎖管理程式節點和傳輸節點之間所需的 IP 連接埠。這會記錄在我們的連接埠和通訊協定工具中,如下所示:https://ports.vmware.com/
  3. 傳輸節點 {entity_id} 可能仍處於維護模式。您可以透過下列 API 檢查傳輸節點是否處於維護模式:

    GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid>

    設定維護模式時,傳輸節點將不會連線至控制器服務。當主機升級進行中時,通常會發生此情況。請等待幾分鐘,然後再次檢查連線。
    備註: 此警示很嚴重,且應該解決。如果此警示的通知在很長的時間內仍未解決,請連絡 VMware 支援。

傳輸節點的控制通道關閉過久

嚴重

至傳輸節點的控制通道關閉時間過長。

偵測到事件時:從控制器服務的觀點來看,控制器服務 central_control_plane_id 與傳輸節點 {entity-id} 的連線已關閉至少 15 分鐘。

解決事件時:控制器服務 central_control_plane_id 會還原與傳輸節點 {entity-id} 的連線。

  1. 使用 Ping 命令,檢查從控制器服務 central_control_plane_id 到傳輸節點 {entity-id} 介面的連線。如果偵測不到,請檢查網路連線的穩定性。
  2. 檢查是否已使用 netstat 輸出建立 TCP 連線,以查看控制器服務 {central_control_plane_id} 是否接聽連接埠 1235 上的連線。如果不是,請檢查防火牆 (或) iptables 規則,以查看連接埠 1235 是否封鎖傳輸節點 {entity_id} 連線要求。確保底層中沒有主機防火牆或網路防火牆封鎖管理程式節點和傳輸節點之間所需的 IP 連接埠。這會記錄在我們的連接埠和通訊協定工具中,如下所示:https://ports.vmware.com/
  3. 傳輸節點 {entity_id} 可能仍處於維護模式。您可以透過下列 API 檢查傳輸節點是否處於維護模式:

    GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid>

    設定維護模式時,傳輸節點將不會連線至控制器服務。當主機升級進行中時,通常會發生此情況。請等待幾分鐘,然後再次檢查連線。

Intelligence 健全狀況事件

NSX Intelligence 健全狀況事件是從 NSX Manager 節點和 NSX Intelligence 應用裝置產生。

事件名稱 嚴重性 警示訊息 建議的動作
CPU 使用率非常高 嚴重

智慧節點 CPU 使用率非常高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率低於極高臨界值 {system_usage_threshold}%。」

使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。

CPU 使用率高

智慧節點 CPU 使用率偏高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率高於高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率低於高臨界值 {system_usage_threshold}%。」

使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。

記憶體使用量非常高 嚴重

智慧節點記憶體使用量非常高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量低於極高臨界值 {system_usage_threshold}%。」

使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。

記憶體使用量高

智慧節點記憶體使用量偏高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量高於高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量低於高臨界值 {system_usage_threshold}%。」

使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。

磁碟使用量非常高 嚴重

智慧節點磁碟使用量非常高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率低於極高臨界值 {system_usage_threshold}%。」

檢查磁碟分割 {disk_partition_name},並查看是否有任何非預期的大型檔案可移除。
磁碟使用量高

智慧節點磁碟使用量偏高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率高於高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率低於高臨界值 {system_usage_threshold}%。」

檢查磁碟分割 {disk_partition_name},並查看是否有任何非預期的大型檔案可移除。
資料磁碟分割使用量非常高 嚴重

智慧節點資料磁碟分割使用率非常高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率低於極高臨界值 {system_usage_threshold}%。」

停止 NSX Intelligence 資料收集,直到磁碟使用量低於臨界值。

在 NSX UI 中,導覽至系統應用裝置NSX Intelligence 應用裝置。然後,選取動作 > 停止收集資料

資料磁碟分割使用量高

智慧節點資料磁碟分割使用率偏高。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率高於高臨界值 {system_usage_threshold}%。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率低於高臨界值 {system_usage_threshold}%。」

停止 NSX Intelligence 資料收集,直到磁碟使用量低於臨界值。

檢查 /data 磁碟分割,並查看是否有可移除的任何未預期的大型檔案。

節點狀態已降級

智慧節點狀態為已降級。

偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的服務 {service_name} 不在執行中。」

解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的服務 {service_name} 正在正常執行。」

NSX Intelligence 節點中,使用 NSX CLI 命令 get services 檢查服務狀態和健全狀況資訊。

使用 NSX CLI 命令 restart service <service-name> 重新啟動未預期的已停止服務。

IP 位址管理事件

IP 位址管理 (IPAM) 事件會從 NSX Manager 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
IP 區塊使用量非常高

NSX-T Data Center 3.1.2 開始。

IP 區塊的 IP 子網路使用量已達到 90%。

偵測到事件時:「<intent_path> 的 IP 區塊使用量非常高。IP 區塊即將到達其總容量,使用 IP 區塊來建立子網路可能會失敗。」

解決事件時:

無訊息。

  • 檢閱 IP 區塊使用量。使用新的 IP 區塊來建立資源,或刪除 IP 區塊中未使用的 IP 子網路。若要檢查 IP 區塊所使用的子網路:
    1. 從 NSX UI 中,導覽至網路 > IP 位址集區 > IP 位址集區索引標籤。
    2. 選取正在使用 IP 區塊的 IP 集區。檢查子網路配置的 IP 資料行。
    3. 如果未使用任何配置且未來將不會使用,請刪除子網路或 IP 集區。
  • 使用下列 API 來檢查 IP 集區是否正在使用 IP 區塊,並檢查 IP 配置。
    • 若要取得 IP 集區的已設定子網路,請叫用下列 NSX API。

      GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-subnets

    • 若要取得 IP 配置,請叫用下列 NSX API。

      GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations

備註: 僅在 IP 集區或子網路沒有任何已配置的 IP 且未來不會使用時,才刪除 IP 集區或子網路。
IP 集區使用量非常高

NSX-T Data Center 3.1.2 開始。

IP 集區的 IP 配置使用量已達到 90%。

偵測到事件時:「<intent_path> 的 IP 集區使用量非常高。IP 集區即將到達其總容量。取決於從 IP 集區配置 IP 之實體/服務的建立可能會失敗。」

解決事件時:

無訊息。

檢閱 IP 集區使用量。釋放 IP 集區中未使用的 IP 配置,或建立新的 IP 集區。

  1. 從 NSX UI 中,導覽至網路 > IP 位址集區 > IP 位址集區索引標籤。
  2. 選取 IP 集區,然後檢查配置的 IP 資料行以檢視從 IP 集區配置的 IP。

您可以釋放這些未使用的 IP。若要釋放未使用的 IP 配置,請叫用下列 NSX API。

DELETE /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations/<ip-allocation>

授權事件

授權事件是從 NSX Manager 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
授權已到期 嚴重

授權已到期。

偵測到事件時:「類型 {license_edition_type} 的授權已到期。」

解決事件時:「類型 {license_edition_type} 的過期授權已移除、更新或不再到期。」

新增新的、非到期授權:
  1. 在 NSX UI 中,導覽至系統 > 授權
  2. 按一下新增,然後指定新授權的金鑰。
  3. 刪除到期的授權,方法是選取核取方塊,然後按一下取消指派
授權即將到期

偵測到事件時:「類型 {license_edition_type} 的授權即將到期。」

解決事件時:「由 {license_edition_type} 識別的到期授權已移除、更新,或不再即將到期。」

新增新的、非到期授權:
  1. 在 NSX UI 中,導覽至系統 > 授權
  2. 按一下新增,然後指定新授權的金鑰。
  3. 刪除到期的授權,方法是選取核取方塊,然後按一下取消指派

負載平衡器事件

負載平衡器事件會從 NSX Edge 節點或從 NSX Manager 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
LB CPU 非常高

負載平衡器 CPU 使用率非常高。

偵測到事件時:「負載平衡器 {entity_id} 的 CPU 使用率非常高。臨界值是 {system_usage_threshold}%。」

解決事件時:「負載平衡器 {entity_id} 的 CPU 使用率足夠低。臨界值是 {system_usage_threshold}%。」

如果其負載平衡器 CPU 使用率高於 {system_usage_threshold}%,則工作負載對此負載平衡器來說過高。

將負載平衡器的大小從小型變更為中型或從中型變更為大型,以重新調整負載平衡器服務。

如果此負載平衡器的 CPU 使用率仍然很高,請考慮調整 Edge 應用裝置機器尺寸大小,或將負載平衡器服務移至其他 Edge 節點,以獲得適當的工作負載。

LB 狀態關閉

嚴重

偵測到事件時:「集中式負載平衡器服務 {entity_id} 已關閉。」

解決事件時:「集中式負載平衡器服務 {entity_id} 已啟動。」

  1. 在作用中的 Edge 節點上,叫用下列 NSX CLI 命令以檢查負載平衡器的狀態。

    get load-balancer <lb-uuid> status
  2. 如果負載平衡器服務的 LB 狀態是「not_ready」,或沒有任何輸出,請讓 Edge 節點進入維護模式,然後退出維護模式。
虛擬伺服器狀態關閉

負載平衡器虛擬服務已關閉。

偵測到事件時:「負載平衡器虛擬伺服器 {entity_id} 已關閉。」

解決事件時:「負載平衡器虛擬伺服器 {entity_id} 已啟動。」

請查閱負載平衡器集區,以判定其狀態並確認其組態。

如果設定錯誤,請將其重新設定並從虛擬伺服器移除該負載平衡器集區,然後重新將其新增至虛擬伺服器。

集區狀態關閉

偵測到事件時:「負載平衡器集區 {entity_id} 狀態為關閉。」

解決事件時:「負載平衡器集區 {entity_id} 狀態為啟動。」

  1. 請查閱負載平衡器集區,以判定哪些成員為關閉。
  2. 檢查從負載平衡器到受影響集區成員的網路連線。
  3. 驗證每個集區成員的應用程式健全狀況。
  4. 使用設定的監控來驗證每個集區成員的健全狀況。

當成員的健全狀況建立時,集區成員狀態會根據 Rise Count 更新為狀況良好。

LB 狀態已降級

NSX-T Data Center 3.1.2 開始。

偵測到事件時:「負載平衡器服務 {entity_id} 已降級。」

解決事件時:「負載平衡器服務 {entity_id} 未降級。」

  • 針對集中式負載平衡器:
    1. 在待命 Edge 節點上,叫用下列 NSX CLI 命令以檢查負載平衡器的狀態。

      get load-balancer <lb-uuid> status
    2. 如果負載平衡器服務的 LB 狀態是「not_ready」,或沒有任何輸出,請讓 Edge 節點進入維護模式,然後退出維護模式。
  • 針對分散式負載平衡器:
  1. 叫用下列 NSX API 來取得詳細狀態。

    GET /policy/api/v1/infra/lb-services/<LBService>/detailed-status?source=realtime
  2. 從 API 輸出中,尋找報告狀態為 NOT_READY 或 CONFLICT 之非零 instance_number 的 ESXi 主機。
  3. 在 ESXi 主機節點上,叫用下列 NSX CLI 命令。

    get load-balancer <lb-uuid> status

    如果報告了「衝突 LSP」,請檢查此 LSP 是否已連結至任何其他負載平衡器服務,且此衝突是否可接受。

    如果報告了「未就緒 LSP」,請叫用下列 NSX CLI 命令來檢查此 LSP 的狀態。

    get logical-switch-port status

DLB 狀態關閉

嚴重

NSX-T Data Center 3.1.2 開始。

偵測到事件時:「分散式負載平衡器服務 {entity_id} 已關閉。」

解決事件時:「分散式負載平衡器服務 {entity_id} 已啟動。」

  1. 在 ESXi 主機節點上,叫用下列 NSX CLI 命令。

    get load-balancer <lb-uuid> status
  2. 如果報告指出「衝突 LSP」,請檢查此 LSP 是否已連結至任何其他負載平衡器服務,且此衝突是否可接受。如果報告指出「未就緒 LSP」,請叫用下列 NSX CLI 命令來檢查此 LSP 的狀態。

    get logical-switch-port status

LB Edge 使用中的容量高

嚴重

NSX-T Data Center 3.1.2 開始。

偵測到事件時:「Edge 節點 {entity_id} 中的負載平衡器服務使用量偏高。臨界值是 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity_id} 中的負載平衡器服務使用量足夠低。臨界值是 {system_usage_threshold}%。」

部署新的 Edge 節點,並將負載平衡器服務從現有 Edge 節點移至新部署的 Edge 節點。

LB 集區成員使用中的容量非常高

嚴重

NSX-T Data Center 3.1.2 開始。

偵測到事件時:「Edge 節點 {entity_id} 中的集區成員使用量非常高。臨界值是 {system_usage_threshold}%。」

解決事件時:「Edge 節點 {entity_id} 中的集區成員使用量足夠低。臨界值是 {system_usage_threshold}%。」

部署新的 Edge 節點,並將負載平衡器服務從現有 Edge 節點移至新部署的 Edge 節點。

管理程式健全狀況事件

NSX Manager 健全狀況事件是從 NSX Manager 節點叢集產生。

事件名稱 嚴重性 警示訊息 建議的動作
重複的 IP 位址

管理程式節點的 IP 位址由其他裝置使用中。

偵測到事件時:「管理程式節點 {entity_id} 的 IP 位址 {duplicate_ip_address} 目前由網路中的其他裝置使用中。」

偵測到事件時:「管理程式節點 {entity_id} 似乎已不再使用 {duplicate_ip_address}。」

  1. 判定哪個裝置使用管理程式的 IP 位址,並為該裝置指派新的 IP 位址。
    備註: 不支援將管理程式重新設定為使用新的 IP 位址。
  2. 確認靜態 IP 位址集區/DHCP 伺服器是否已正確設定。
  3. 如果已手動指派裝置的 IP 位址,請更正該位址。
管理程式 CPU 使用率非常高 嚴重

管理程式節點 CPU 使用率非常高。

偵測到事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

請檢閱此管理程式節點的組態、執行中服務和大小調整。

考慮調整管理程式應用裝置機器尺寸大小。

管理程式 CPU 使用率高

從 NSX-T Data Center 3.0.1 開始。

管理程式節點 CPU 使用率偏高。

偵測到事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」

解決事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

請檢閱此管理程式節點的組態、執行中服務和大小調整。

考慮調整管理程式應用裝置機器尺寸大小。

管理程式記憶體使用量非常高 嚴重

從 NSX-T Data Center 3.0.1 開始。

管理程式節點記憶體使用量非常高。

偵測到事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

請檢閱此管理程式節點的組態、執行中服務和大小調整。

考慮調整管理程式應用裝置機器尺寸大小。

管理程式記憶體使用量高

管理程式節點記憶體使用量偏高。

偵測到事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」

解決事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

請檢閱此管理程式節點的組態、執行中服務和大小調整。

考慮調整管理程式應用裝置機器尺寸大小。

管理程式磁碟使用量非常高 嚴重

管理程式節點磁碟使用量非常高。

偵測到事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」

解決事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。
管理程式磁碟使用量高

管理程式節點磁碟使用量偏高。

偵測到事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於高臨界值{system_usage_threshold}%。」

解決事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。
管理程式組態磁碟使用量非常高 嚴重

管理程式節點組態磁碟使用量非常高。

偵測到事件時:「管理程式節點磁碟分割 /config 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」這可能表示 NSX 資料存放區服務在 /config/corfu 目錄下的磁碟使用量過高。」

解決事件時:「管理程式節點磁碟分割 /config 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」

檢查 /config 磁碟分割,並查看是否有可移除的任何未預期的大型檔案。
管理程式組態磁碟使用量高

管理程式節點組態磁碟使用量偏高。

偵測到事件時:「管理程式節點磁碟分割 /config 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」這可能表示 NSX 資料存放區服務在 /config/corfu 目錄下的磁碟使用量正在上升。

解決事件時:「管理程式節點磁碟分割 /config 的磁碟使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」

檢查 /config 磁碟分割,並查看是否有可移除的任何未預期的大型檔案。

作業 DB 磁碟使用量高

管理程式節點磁碟分割 /nonconfig 的磁碟使用量已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /nonconfig/corfu 目錄下的磁碟使用量正在上升。

如果有回報問題,請執行下列工具,並連絡 GSS:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig

作業資料庫磁碟使用量極高 嚴重

管理程式節點磁碟分割 /nonconfig 的磁碟使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /nonconfig/corfu 目錄下的磁碟使用量正在上升。

如果有回報問題,請執行下列工具,並連絡 GSS:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig

NCP 事件

NSX Container Plug-in (NCP) 事件是從 ESXi 和 KVM 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
NCP 外掛程式已關閉 嚴重

管理程式節點偵測到 NCP 已關閉或狀況不良。

偵測到事件時:「管理程式節點偵測到 NCP 已關閉或狀況不良。」

解決事件時:「管理程式節點偵測到 NCP 已再次啟動或狀況良好。」

若要找出有問題的叢集,請叫用 NSX API:GET /api/v1/systemhealth/container-cluster/ncp/status 來擷取所有叢集狀態,並判定任何報告為關閉或未知的叢集名稱。

移至 NSX UI 詳細目錄 > 容器 > 叢集頁面,找到報告為已關閉或未知狀態的叢集名稱,然後按一下列出所有 Kubernetes 和 PAS 叢集成員的 [節點] 索引標籤。

對於 Kubernetes 叢集:
  1. 尋找來自所有叢集成員的 K8s 主節點,並登入主節點,以檢查 NCP 網繭活躍性。

    然後叫用 kubectl 命令 kubectl get pods --all-namespaces。如果 NCP 網繭發生問題,請使用 kubectl logs 命令檢查問題並修正錯誤。

  2. 檢查 NCP 與 Kubernetes API 伺服器之間的連線。
    NSX CLI 可在 NCP 網繭中使用,以透過從主要虛擬機器叫用下列命令來檢查此連線狀態。
    kubectl exec -it <NCP-Pod-Name> -n nsx-system bash
    nsxcli
    get ncp-k8s-api-server status
    如果連線發生問題,請檢查網路和 NCP 組態。
  3. 檢查 NCP 和 NSX Manager 之間的連線。
    NSX CLI 可在 NCP 網繭中使用,以透過從主要虛擬機器叫用下列命令來檢查此連線狀態。
    kubectl exec -it <NCP-Pod-Name> -n nsx-system bash nsxcli get ncp-nsx status
    如果連線發生問題,請檢查網路和 NCP 組態。
對於 PAS 叢集:
  1. 檢查虛擬機器之間的網路連線,並修正任何網路問題。
  2. 檢查節點和服務的狀態,並修正已損毀的節點或服務。

    叫用命令 bosh vmsbosh instances -p,以檢查節點和服務的狀態。

節點代理程式健全狀況事件

節點代理程式健全狀況事件是從 ESXi 和 KVM 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
節點代理程式已關閉

在節點虛擬機器內執行的代理程式似乎已關閉。

偵測到事件時:「在節點虛擬機器內執行的代理程式似乎已關閉。」

解決事件時:「節點虛擬機器內的代理程式執行中。」

對於 ESX:

  1. 如果遺失 Vmk50,請參閱知識庫文章 67432
  2. 如果遺失 Hyperbus 4094:重新啟動 nsx-cfgagent 或重新啟動容器主機虛擬機器可能有幫助。
  3. 如果已封鎖容器主機 VIF,請檢查控制器的連線,以確保已關閉所有組態。
  4. 如果 nsx-cfgagent 已停止,請重新啟動 nsx-cfgagent

對於 KVM:

  1. 如果 Hyperbus 命名空間遺失,重新啟動 nsx-opsagent 可能有助於重新建立命名空間。
  2. 如果 Hyperbus 命名空間中遺失 Hyperbus 介面,則重新啟動 nsx-opsagent 可能有幫助。
  3. 如果 nsx-agent 已停止,請重新啟動 nsx-agent

對於 ESX 和 KVM:

  1. 如果遺失 node-agent 套件:請檢查是否已成功將 node-agent 套件安裝在容器主機虛擬機器中。
  2. 如果容器主機虛擬機器中 node-agent 的介面已關閉:檢查容器主機虛擬機器內 eth1 介面的狀態。

NSX 聯盟事件

NSX 聯盟事件會從 NSX ManagerNSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作

LM 對 LM 的同步錯誤

從 NSX-T Data Center 3.0.1 開始。

{site_name}({site_id}{remote_site_name}({remote_site_id} 之間的同步失敗超過 5 分鐘。

  1. 叫用 NSX CLI 命令 get site-replicator remote-sites,以取得遠端位置之間的連線狀態。如果遠端位置已連線但未同步,則該位置可能仍處於主機的解析程序中。在此情況下,請等待約 10 秒,然後再次嘗試叫用 CLI,以檢查遠端位置的狀態。如果位置已中斷連線,請嘗試下一個步驟。

  2. 透過 Ping 偵測,檢查從位置 {site_name}{site_id} 中的本機管理程式 (LM) 到位置 {remote_site_name}{remote_site_id} 中 LM 的連線。如果無法執行 Ping 動作,請檢查 WAN 連線的穩定性。如果沒有實體網路連線問題,請嘗試下一個步驟。

  3. 檢查位置 {site_name}({site_id} 中觸發警示之本機叢集中管理程式節點上的 /var/log/cloudnet/nsx-ccp.log 檔案,以查看是否有任何跨站台通訊錯誤。此外,也需尋找 /var/log/syslog 內的 nsx-appl-proxy 子元件所記錄的錯誤。

LM 對 LM 的同步警告

從 NSX-T Data Center 3.0.1 開始。

{site_name}({site_id}{remote_site_name}({remote_site_id} 之間的同步失敗。

至傳輸節點的控制通道關閉時間過長

  1. 叫用 NSX CLI 命令 get site-replicator remote-sites,以取得遠端位置之間的連線狀態。如果遠端位置已連線但未同步,則該位置可能仍處於主機的解析程序中。在此情況下,請等待約 10 秒,然後再次嘗試叫用 CLI,以檢查遠端位置的狀態。如果位置已中斷連線,請嘗試下一個步驟。

  2. 透過 Ping 偵測,檢查從位置 {site_name}{site_id} 中的本機管理程式 (LM) 到位置 {remote_site_name}{remote_site_id} 中 LM 的連線。如果無法執行 Ping 動作,請檢查 WAN 連線的穩定性。如果沒有實體網路連線問題,請嘗試下一個步驟。

  3. 檢查位置 {site_name}({site_id} 中觸發警示之本機叢集中管理程式節點上的 /var/log/cloudnet/nsx-ccp.log 檔案,以查看是否有任何跨站台通訊錯誤。此外,也需尋找 /var/log/syslog 內的 nsx-appl-proxy 子元件所記錄的錯誤。

RTEP BGP 關閉

從 NSX-T Data Center 3.0.1 開始。

從來源 IP {bgp_source_ip} 至遠端位置 {remote_site_name} 芳鄰 IP {bgp_neighbor_ip} 的 RTEP BGP 工作階段已關閉。原因:{failure_reason}

  1. 在受影響的 Edge 節點上,叫用 NSX CLI 命令 get logical-routers

  2. 切換至 REMOTE_TUNNEL_VRF 內容
  3. 叫用 NSX CLI 命令 get bgp neighbor 以檢查 BGP 芳鄰。
  4. 或者,叫用 NSX API GET /api/v1/transport-nodes/<transport-node-id>/inter-site/bgp/summary,以取得 BGP 芳鄰狀態。
  5. 叫用 NSX CLI 命令 get interfaces ,並檢查是否已將正確的 RTEP IP 位址指派給名稱為 remote-tunnel-endpoint 的介面。
  6. .檢查在指派的 RTEP IP 位址 {bgp_source_ip} 與遠端位置 {remote_site_name} 芳鄰 IP {bgp_neighbor_ip} 之間的 Ping 偵測是否成功執行。
  7. 檢查 /var/log/syslog 是否有與 BGP 相關的任何錯誤。
  8. 叫用 API GET 或 PUT /api/v1/transport-nodes/<transport-node-id>,以取得/更新 Edge 節點上的 remote_tunnel_endpoint 組態。這將更新指派給受影響 Edge 節點的 RTEP IP。

密碼管理事件

密碼管理事件是從 NSX ManagerNSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
密碼已到期 嚴重

使用者密碼已到期。

偵測到事件時:「使用者 {username} 的密碼已到期。」

解決事件時:「使用者 {username} 的密碼已成功變更或不再到期。」

使用者 {username} 的密碼必須立即變更才能存取系統。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:

PUT /api/v1/node/users/<userid>

其中 <userid> 是使用者的識別碼。如果管理員使用者 (使用 <userid> 10000) 密碼已到期,則管理員必須透過 SSH (如果已啟用) 或主控台登入系統,才能變更密碼。輸入目前的已到期密碼時,系統會提示管理員輸入新密碼。

密碼即將到期

使用者密碼即將到期。

偵測到事件時:「使用者 {username} 的密碼即將在 {password_expiration_days} 天後到期。」

解決事件時:「使用者 {username} 的密碼已成功變更或不再即將到期。」

確定由 {username} 識別的使用者密碼會立即變更。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:

PUT /api/v1/node/users/<userid>

其中 <userid> 是使用者的識別碼。

接近密碼到期

使用者密碼即將到期。

偵測到事件時:「使用者 {username} 的密碼即將在 {password_expiration_days} 天後到期。」

解決事件時:「使用者 {username} 的密碼已成功變更或不再即將到期。」

{username} 識別的使用者的密碼需要盡快變更。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:

PUT /api/v1/node/users/<userid>

其中 <userid> 是使用者的識別碼。

路由事件

事件名稱 嚴重性 警示訊息 建議的動作
BGP 已關閉

BGP 芳鄰已關閉。

偵測到事件時:「在路由器 {entity_id} 中,BGP 芳鄰 {bgp_neighbor_ip} 已關閉,原因:{failure_reason}。」

解決事件時:「在路由器 {entity_id} 中,BGP 芳鄰 {bgp_neighbor_ip} 已啟動。」

  1. 使用 SSH 進入 Edge 節點。
  2. 叫用 NSX CLI 命令:get logical-routers
  3. 切換至服務路由器 {sr_id}
  4. 檢查 /var/log/syslog ,以查看是否有與 BGP 連線相關的任何錯誤。

外部介面上的雙向轉送偵測 (BFD) 關閉

BFD 工作階段已關閉。

偵測到事件時:「在路由器 {entity_id} 中,對等 {peer_address} 的 BFD 工作階段已關閉。」

解決事件時:「在路由器 {entity_id} 中,對等 {peer_address} 的 BFD 工作階段已啟動。」

  1. 使用 SSH 進入 Edge 節點。
  2. 叫用 NSX CLI 命令:get logical-routers
  3. 切換至服務路由器 {sr_id}
  4. 透過叫用 NSX CLI 命令:ping <peer_address> 來驗證連線。
路由關閉

所有 BGP/BFD 工作階段已關閉。

偵測到事件時:「所有 BGP/BFD 工作階段已關閉。」

解決事件時:「至少一個 BGP/BFD 工作階段已開啟。」

  1. 叫用 NSX CLI 命令 get logical-routers 以取得第 0 層服務路由器。
  2. 切換至第 0 層服務路由器 VRF,然後叫用下列 NSX CLI 命令:
    • 驗證連線:ping <BFD peer IP address>
    • 檢查 BFD 健全狀況:
      get bfd-config 
      get bfd-sessions
    • 檢查 BGP 健全狀況:get bgp neighbor summary
      get bfd neconfig 
      get bfd-sessions
    檢查 /var/log/syslog ,以查看是否有與 BGP 連線相關的任何錯誤。
靜態路由已移除

靜態路由已移除。

偵測到事件時:「在路由器 {entity_id} 中,靜態路由 {static_address} 已移除,因為 BFD 已關閉。」

解決事件時:「在路由器 {entity_id} 中,靜態路由 {static_address} 已在 BFD 復原時重新新增。」

  1. 使用 SSH 進入 Edge 節點。
  2. 叫用 NSX CLI 命令:get logical-routers
  3. 切換至服務路由器 {sr_id}
  4. 透過叫用 NSX CLI 命令來驗證連線:
    get bgp neighbor summary
  5. 此外,確認 NSX 和 BFD 對等中的組態,以確保計時器尚未變更。

傳輸節點健全狀況

傳輸節點健全狀況事件是從 KVM 和 ESXi 節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
LAG 成員已關閉

LACP 報告成員已關閉。

偵測到事件時:「LACP 報告成員已關閉。」

解決事件時:「LACP 報告成員已啟動。」

檢查主機上 LAG 成員的連線狀態。
  1. 在 NSX UI 中,導覽至網狀架構 > 節點 > 傳輸節點 > 主機傳輸節點
  2. 在 [主機傳輸節點] 清單中,檢查 [節點狀態] 資料行。

    尋找 [節點狀態] 為降級或關閉的傳輸節點。

  3. 選取<傳輸節點> > 監控

    尋找報告為降級或關閉的繫結 (上行)。

  4. 透過登入失敗的主機並執行適當的命令,檢查 LACP 成員狀態詳細資料:
    • ESXi:esxcli network vswitch dvs vmware lacp status get
    • KVM:ovs-appctl bond/showovs-appctl lacp/show
N-VDS 上行關閉

上行即將關閉。

偵測到事件時:「上行即將關閉。」

解決事件時:「上行即將啟動。」

檢查主機上上行的實體 NIC 狀態。
  1. 在 NSX UI 中,導覽至網狀架構 > 節點 > 傳輸節點 > 主機傳輸節點
  2. 在 [主機傳輸節點] 清單中,檢查 [節點狀態] 資料行。

    尋找 [節點狀態] 為降級或關閉的傳輸節點。

  3. 選取<傳輸節點> > 監控

    尋找報告為降級或關閉的繫結 (上行) 的狀態詳細資料。

    若要避免發生降級狀態,無論是否正在使用中,請確保上行介面均已連線並開啟。

VPN 事件

VPN 事件是從 NSX Edge 和公用閘道節點產生。

事件名稱 嚴重性 警示訊息 建議的動作
以 IPsec 原則為基礎的工作階段關閉

以原則為基礎的 IPsec VPN 工作階段已關閉。

偵測到事件時:「以原則為基礎的 IPsec VPN 工作階段 {entity_id} 已關閉。原因:{session_down_reason}。」

解決事件時:「以原則為基礎的 IPsec VPN 工作階段 {entity_id} 已啟動。

檢查 IPsec VPN 工作階段組態,並根據工作階段關閉的原因解決錯誤。

以 IPsec 路由為基礎的工作階段關閉

以路由為基礎的 IPsec VPN 工作階段已關閉。

偵測到事件時:「以路由為基礎的 IPsec VPN 工作階段 {entity_id} 已關閉。原因:{session_down_reason}。」

解決事件時:「以路由為基礎的 IPsec VPN 工作階段 {entity_id} 已啟動。」

檢查 IPsec VPN 工作階段組態,並根據工作階段關閉的原因解決錯誤。

以 IPsec 原則為基礎的通道關閉

以原則為基礎的 IPsec VPN 通道已關閉。

偵測到事件時:「工作階段 {entity_id} 中一或多個以原則為基礎的 IPsec VPN 通道已關閉。」

解決事件時:「工作階段 {entity_id} 中所有以原則為基礎的 IPsec VPN 通道均已啟動。」

檢查 IPsec VPN 工作階段組態,並根據通道關閉的原因解決錯誤。

以 IPsec 路由為基礎的通道已關閉

以路由為基礎的 IPsec VPN 通道已關閉。

偵測到事件時:「工作階段 {entity_id} 中一或多個以路由為基礎的 IPsec VPN 通道已關閉。」

解決事件時:「工作階段 {entity_id} 中所有以路由為基礎的 IPsec VPN 通道均已啟動。」

檢查 IPsec VPN 工作階段組態,並根據通道關閉的原因解決錯誤。

L2VPN 工作階段關閉

L2VPN 工作階段已關閉。

偵測到事件時:「L2VPN 工作階段 {entity_id} 已關閉。」

解決事件時:「L2VPN 工作階段 {entity_id} 已啟動。」

檢查 IPsec VPN 工作階段組態,並根據原因解決錯誤。

身分識別防火牆事件

事件名稱 嚴重性 警示訊息 建議的動作
與 LDAP 伺服器的連線中斷

嚴重

與 LDAP 伺服器的連線中斷。

偵測到事件時:無法連線至 LDAP 伺服器。

偵測到事件時:已成功連線至 LDAP 伺服器。

執行下列步驟以檢查 LDAP 伺服器連線:

  1. LDAP 伺服器可從 NSX 節點進行連線。
  2. LDAP 伺服器詳細資料已在 NSX 中已正確設定。
  3. LDAP 伺服器已正確執行。
  4. 沒有防火牆會封鎖 LDAP 伺服器和 NSX 節點之間的存取。

修正連線問題之後,請使用 LDAP 伺服器 UI 中的「測試連線」來測試與 LDAP 伺服器的連線。

差異同步期間發生錯誤

嚴重

與 AD 網域進行差異同步期間發現錯誤

偵測到事件時:差異同步已完成,但發生錯誤。

偵測到事件時:差異同步已完成且沒有錯誤。

如果
與 LDAP 伺服器的連線中斷
引發警示,則解決該警示。

如果與 LDAP 伺服器的連線已啟動,請遵循記錄中的錯誤訊息來檢查 AD 伺服器中的相關變更。