下表說明觸發警示的事件,包括警示訊息和用來解決問題的建議動作。嚴重性大於低的任何事件都會觸發警示。
警示管理事件
警示管理事件是由 NSX Manager 和全域管理程式節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 警示服務已超載 | 嚴重 | 警示服務已超載。 偵測到事件時:「由於報告的警示數量過大,警示服務發生暫時超載的狀況。NSX UI 和 GET /api/v1/alarm NSX API 已停止報告新的警示。但 Syslog 項目和 SNMP 設陷 (如果已啟用) 仍會持續發出報告基礎事件詳細資料。當造成大量警示的基礎問題獲得解決後,警示服務就會重新開始報告新的警示。」 解決事件時:「目前已無大量警示,並已重新開始報告新的警示。」 |
請使用 NSX UI 中的 [警示] 頁面檢閱所有作用中的警示,或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API 來檢閱。對於每個作用中的警示,請透過依據建議的警示動作調查其根本原因。解決夠多的警示後,警示服務就會重新開始報告新的警示。 |
| 大量警示 | 嚴重 | 偵測到大量的特定警示類型。 偵測到事件時:「由於 {event_id} 警示數量過大,警示服務已暫時停止報告此類型的警示。NSX UI 和 GET /api/v1/alarms NSX API 不會報告這些警示的新執行個體。但 Syslog 項目和 SNMP 設陷 (如果已啟用) 仍會持續發出報告基礎事件詳細資料。當造成大量 {event_id} 警示的基礎問題獲得解決後,警示服務就會重新開始在偵測到新問題時,報告新的 {event_id} 警示。」 解決事件時:「目前已無大量 {event_id} 警示,並已重新開始報告此類型的新警示。」 |
請使用 NSX UI 中的 [警示] 頁面檢閱所有作用中的警示,或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API 來檢閱。對於每個作用中的警示,請透過依據建議的警示動作調查其根本原因。解決夠多的警示後,警示服務就會重新開始報告新的 {event_id} 警示。 |
憑證事件
憑證事件是從 NSX Manager 節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 憑證已到期 | 嚴重 | 憑證已到期。 偵測到事件時:「憑證 {entity-id} 已到期。」 解決事件時:「已到期的憑證 {entity-id} 已移除或不再到期。」 |
確保目前使用憑證的服務已更新,以使用新的、非已到期憑證。例如,若要將新憑證套用至 HTTP 服務,請叫用下列 API 呼叫:
其中,<cert-id> 是 API 呼叫 到期的憑證不再使用後,應使用下列 API 呼叫加以刪除:
|
| 憑證即將到期 | 高 | 憑證即將到期。 偵測到事件時:「憑證 {entity-id} 即將到期。」 解決事件時:「過期的憑證 {entity-id} 或不再即將到期。」 |
確保目前使用憑證的服務已更新,以使用新的、非到期中憑證。例如,若要將新憑證套用至 HTTP 服務,請叫用下列 API 呼叫:
其中,<cert-id> 是 API 呼叫 到期中憑證不再使用後,應使用 API 呼叫加以刪除:
|
| 接近憑證到期 | 中 | 憑證即將到期。 偵測到事件時:「憑證 {entity-id} 即將到期。」 解決事件時:「到期中憑證 {entity-id} 不再接近到期。」 |
確保目前使用憑證的服務已更新,以使用新的、非到期中憑證。例如,若要將新憑證套用至 HTTP 服務,請叫用下列 API 呼叫:
其中,<cert-id> 是 API 呼叫 到期中憑證不再使用後,應使用 API 呼叫加以刪除:
|
CNI 健全狀況事件
CNI 健全狀況事件是從 ESXi 和 KVM 節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| Hyperbus 管理程式連線已關閉 | 中 | Hyperbus 無法與管理程式節點通訊。 偵測到事件時:「Hyperbus 無法與管理程式節點通訊。」 解決事件時:「Hyperbus 可以與管理程式節點進行通訊。」 |
Hyperbus vmkernel 介面 (vmk50) 可能遺失。請參閱知識庫文章 67432。 |
DHCP 事件
DHCP 事件是從 NSX Edge 和公用閘道節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 集區租用配置失敗 | 高 | IP 集區中的 IP 位址已用盡。 偵測到事件時:「DHCP 伺服器 {dhcp_server_id} 的 IP 集區 {entity_id} 中的位址已用完。前一次的 DHCP 請求失敗,且未來的請求將會失敗。」 解決事件時:「DHCP 伺服器 {dhcp_server_id} 的 IP 集區 {entity_id} 不再已用盡。已成功將租用配置給上一個 DHCP 請求。」 |
透過叫用 NSX CLI 命令 get dhcp ip-pool,在 NSX UI 或執行 DHCP 伺服器所在的 Edge 節點上檢閱 DHCP 集區組態。 同時,透過叫用 NSX CLI 命令 get dhcp lease,在 Edge 節點上檢閱目前作用中的租用。 將租用與作用中虛擬機器的數目比較。如果虛擬機器的數目相較於作用中租用的數目低,請考慮在 DHCP 伺服器組態上減少租用時間。同時,請考慮透過造訪 NSX UI 中的頁面,來擴充 DHCP 伺服器的集區範圍。 |
| 集區已超載 | 中 | IP 集區已超載。 偵測到事件時:「DHCP 伺服器 {dhcp_server_id} IP 集區 {entity_id} 使用率正接近耗盡,已配置 {dhcp_pool_usage}% IP。」 解決事件時:「DHCP 伺服器 {dhcp_server_id} IP 集區 {entity_id} 已低於高使用率臨界值。」 |
透過叫用 NSX CLI 命令 get dhcp ip-pool,在 NSX UI 或執行 DHCP 伺服器所在的 Edge 節點上檢閱 DHCP 集區組態。 同時,透過叫用 NSX CLI 命令 get dhcp lease,在 Edge 節點上檢閱目前作用中的租用。 將租用與作用中虛擬機器的數目比較。如果虛擬機器的數目相較於作用中租用的數目低,請考慮在 DHCP 伺服器組態上減少租用時間。同時,請考慮透過造訪 NSX UI 中的頁面,來擴充 DHCP 伺服器的集區範圍。 |
分散式防火牆事件
分散式防火牆事件是從 NSX Manager 或 ESXi 節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 分散式防火牆 CPU 使用率非常高 | 嚴重 | 分散式防火牆 CPU 使用率非常高。 偵測到事件時:「傳輸節點 {entity_id} 上的 DFW CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「DNS 轉寄站 {entity_id} 再次執行。」 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 請檢閱安全性設計以進行最佳化。例如,如果規則不適用於整個資料中心,請使用套用至組態。 |
| 分散式防火牆記憶體使用量非常高 | 嚴重 | 分散式防火牆記憶體使用量非常高。 偵測到事件時:「傳輸節點 {entity_id} 上的 DFW 記憶體使用量 {heap_type} 已達到 {system_resource_usage}% ,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「傳輸節點 {entity_id} 上的 DFW 記憶體使用量 {heap_type} 已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
透過在主機上叫用 NSX CLI 命令 get firewall thresholds,以檢視目前 DFW 的記憶體使用量。 考慮將此主機上的工作負載重新平衡至其他主機。 |
DNS 事件
DNS 事件是從 NSX Edge 和公用閘道節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 轉寄站已關閉 | 高 | DNS 轉寄站已關閉。 偵測到事件時:「DNS 轉寄站 {entity_id} 不在執行中。這會影響目前已啟用所有已設定的 DNS 轉寄站。」 解決事件時:「DNS 轉寄站 {entity_id} 再次執行。」 |
|
| 轉寄站已停用 | 高 | DNS 轉寄站已停用。 偵測到事件時:「DNS 轉寄站 {entity_id} 已停用。」 解決事件時:「DNS 轉寄站 {entity_id} 已啟用。」 |
|
Edge 健全狀況事件
Edge 健全狀況事件是從 NSX Edge 和公用閘道節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| Edge CPU 使用率非常高 | 嚴重 | Edge 節點 CPU 使用率非常高。 偵測到事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至適用工作負載的其他 Edge 節點。 |
| Edge CPU 使用率高 | 中 | Edge 節點 CPU 使用率偏高。 偵測到事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」 解決事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至適用工作負載的其他 Edge 節點。 |
| Edge 資料路徑組態失敗 | 高 | Edge 節點資料路徑組態已失敗。 偵測到事件時:「在三次嘗試後,無法啟用 Edge 節點上的資料路徑。」 解決事件時:「已成功啟用 Edge 節點上的資料路徑。」 |
確保與管理程式節點的 Edge 節點連線狀況良好。 從 Edge 節點 NSX CLI,叫用命令 get services 以檢查服務的健全狀況。 如果資料平面服務已停止,請叫用命令 start service dataplane 將其重新啟動。 |
| Edge 資料路徑 CPU 使用率非常高 | 嚴重 | Edge 節點資料路徑 CPU 使用率非常高。 偵測到事件時:「Edge 節點 {entity-id} 上的資料路徑 CPU 使用率已達到 {datapath_resource_usage}%,其等於或高於極高臨界值至少兩分鐘。」 解決事件時:「Edge 節點 {entity-id} 上的資料路徑 CPU 使用率已低於最大臨界值。」 |
透過叫用 NSX CLI 命令 get dataplane cpu stats,以顯示每個 CPU 核心的封包速率,檢閱 Edge 節點上的 CPU 統計資料。 較高的 CPU 使用率預期會有較高的封包速率。 考慮增加 Edge 應用裝置的機器尺寸大小,並將此 Edge 節點上的服務重新平衡至相同叢集中的其他 Edge 節點或其他 Edge 叢集。 |
| Edge 資料路徑 CPU 使用率高 | 中 | Edge 節點資料路徑 CPU 使用率偏高。 偵測到事件時:「Edge 節點 {entity-id} 上的資料路徑 CPU 使用率已達到 {datapath_resource_usage}%,其等於或高於高臨界值至少兩分鐘。」 解決事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到低於高臨界值。」 |
透過叫用 NSX CLI 命令 get dataplane cpu stats,以顯示每個 CPU 核心的封包速率,檢閱 Edge 節點上的 CPU 統計資料。 較高的 CPU 使用率預期會有較高的封包速率。 考慮增加 Edge 應用裝置的機器尺寸大小,並將此 Edge 節點上的服務重新平衡至相同叢集中的其他 Edge 節點或其他 Edge 叢集。 |
| Edge 資料路徑加密驅動程式已關閉 | 嚴重 | Edge 節點資料路徑加密驅動程式已關閉。 偵測到事件時:「Edge 節點加密驅動程式已關閉。」 解決事件時:「Edge 節點加密驅動程式已開啟。」 |
視需要升級 Edge 節點。 |
| Edge 資料路徑記憶體集區偏高 | 中 | Edge 節點資料路徑記憶體集區偏高。 偵測到事件時:「Edge 節點 {entity-id} 上 {mempool_name} 的資料路徑記憶體集區使用率已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」 解決事件時:「Edge 節點 {entity-id} 上 {mempool_name} 的資料路徑記憶體集區使用率已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
以 root 使用者身分登入,並叫用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show 和 edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap 以檢查 DPDK 記憶體使用量。 |
| Edge 磁碟使用量非常高 | 嚴重 | Edge 節點磁碟使用量非常高。 偵測到事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。 |
| Edge 磁碟使用量高 | 中 | Edge 節點磁碟使用量偏高。 偵測到事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於高臨界值{system_usage_threshold}%。」 解決事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。 |
| Edge 全域 ARP 資料表使用量高 | 中 | Edge 節點全域 ARP 資料表使用率偏高。 偵測到事件時:「Edge 節點 {entity-id} 上的全域 ARP 資料表使用率已達到 {datapath_resource_usage}%,這高於高臨界值超過兩分鐘。」 解決事件時:「Edge 節點 {entity-id} 上的全域 ARP 資料表使用率已達到低於高臨界值。」 |
增加 ARP 資料表大小:
|
| Edge 記憶體使用量非常高 | 嚴重 | Edge 節點記憶體使用量非常高。 偵測到事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至適用工作負載的其他 Edge 節點。 |
| Edge 記憶體使用量高 | 中 | Edge 節點記憶體使用量偏高。 偵測到事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」 解決事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至適用工作負載的其他 Edge 節點。 |
| Edge NIC 連結狀態關閉 | 嚴重 | Edge 節點 NIC 連結已關閉。 偵測到事件時:「Edge 節點 NIC {edge_nic_name} 連結已關閉。」 偵測到事件時:「Edge 節點 NIC {edge_nic_name} 連結已啟動。」 |
在 Edge 節點上,透過叫用 NSX CLI 命令 get interfaces,來確認 NIC 連結是否已實際關閉。 如果已關閉,請確認纜線連線。 |
| Edge NIC 的接收緩衝區不足 | 嚴重 | Edge 節點 NIC 的接收描述元循環緩衝區沒有剩餘空間。 偵測到事件時:「Edge 節點 {entity-id} 上的 Edge NIC {edge_nic_name} 接收循環緩衝區已溢位達 {rx_ring_buffer_overflow_percentage}%,且超過 60 秒。」 解決事件時:「Edge 節點 {entity-id} 上的 Edge NIC {edge_nic_name} 接收循環緩衝區使用率不再溢位。」 |
叫用 NSX CLI 命令
get dataplane,並檢查下列項目:
|
| Edge NIC 的傳輸緩衝區不足 | 嚴重 | Edge 節點 NIC 的傳輸描述元循環緩衝區沒有剩餘空間。 偵測到事件時:「Edge 節點 {entity-id} 上的 Edge 節點 NIC {edge_nic_name} 傳輸循環緩衝區已溢位達 {tx_ring_buffer_overflow_percentage}%,且超過 60 秒。」 解決事件時:「Edge 節點 {entity-id} 上的 Edge 節點 NIC {edge_nic_name} 傳輸循環緩衝區使用率不再溢位。」 |
叫用 NSX CLI 命令
get dataplane,並檢查下列項目:
|
| 儲存區錯誤 | 嚴重 | 從 NSX-T Data Center 3.0.1 開始。 Edge 節點上的下列磁碟分割處於唯讀模式:{disk_partition_name} . |
檢查唯讀磁碟分割,以查看重新開機是否可解決此問題,或是需要更換磁碟。請參閱知識庫文章https://kb.vmware.com/s/article/2146870。 |
端點保護事件
端點保護事件是從 NSX Manager 或 ESXi 節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| EAM 狀態已關閉 | 嚴重 | 計算管理程式上的 ESX Agent Manager (EAM) 服務已關閉。 偵測到事件時:「計算管理程式 {entity_id} 上的 ESX Agent Manager (EAM) 服務已關閉。」 解決事件時:「計算管理程式 {entity_id} 上的 ESX Agent Manager (EAM) 服務已啟動或計算管理程式 {entity_id} 已移除。」 |
重新啟動 ESX Agent Manager (EAM) 服務:
|
| 合作夥伴通道已關閉 | 嚴重 | 主機模組和合作夥伴 SVM 連線已關閉。 偵測到事件時:「主機模組和合作夥伴 SVM {entity_id} 之間的連線已關閉。」 解決事件時:「主機模組和合作夥伴 SVM {entity_id} 之間的連線已開啟。」 |
請參閱知識庫文章 2148821 Troubleshooting NSX Guest Introspection (疑難排解 NSX Guest Introspection),並確定 {entity_id} 所識別的合作夥伴 SVM 已重新連線至主機模組。 |
聯盟事件
聯盟事件是從 NSX Manager、NSX Edge 和公用閘道節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| LM 對 LM 的同步錯誤 |
高 | 從 NSX-T Data Center 3.0.1 開始。 {site_name}({site_id} 與 {remote_site_name}({remote_site_id} 之間的同步失敗超過 5 分鐘。 |
|
| LM 對 LM 的同步警告 | 中 | 從 NSX-T Data Center 3.0.1 開始。 {site_name}({site_id} 與 {remote_site_name}({remote_site_id} 之間的同步失敗。 |
|
| RTEP BGP 關閉 | 高 | 從 NSX-T Data Center 3.0.1 開始。 從來源 IP {bgp_source_ip} 至遠端位置 {remote_site_name} 芳鄰 IP {bgp_neighbor_ip} 的 RTEP BGP 工作階段已關閉。原因:{failure_reason}。 |
|
高可用性事件
高可用性事件是從 NSX Edge 和公有雲閘道節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 第 0 層閘道容錯移轉 | 高 | 第 0 層閘道已進行容錯移轉。 偵測到事件時:「第 0 層閘道 {entity-id} 從 {previous_gateway_state} 到 {current_gateway_state} 的容錯移轉。」 解決事件時:「第 0 層閘道 {entity-id} 現在已啟動。」 |
判定已關閉的服務,然後將其重新啟動。
|
| 第 1 層閘道容錯移轉 | 高 | 第 1 層閘道已進行容錯移轉。 偵測到事件時:「第 1 層閘道 {entity-id} 從 {previous_gateway_state} 到 {current_gateway_state} 的容錯移轉。」 解決事件時:「第 1 層閘道 {entity-id} 現在已啟動。」 |
判定已關閉的服務,然後將其重新啟動。
|
基礎結構通訊事件
基礎結構通訊事件是從 NSX Edge、KVM、ESXi 和公用閘道節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| Edge 通道已關閉 | 嚴重 | Edge 節點的通道狀態為已關閉。 偵測到事件時:「Edge 節點 {entity_id} 的整體通道狀態已關閉。」 解決事件時:「已還原 Edge 節點 {entity_id} 的通道。」 |
|
基礎結構服務事件
基礎結構服務事件是從 NSX Edge 和公用閘道節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| Edge 服務狀態已關閉 | 嚴重 | Edge 服務已關閉,時間已持續至少一分鐘。 偵測到事件時:「服務 {edge_service_name} 已關閉,時間已持續至少一分鐘。」 解決事件時:「服務 {edge_service_name} 已啟動。」 |
在 Edge 節點上,透過在 /var/log/core 目錄中尋找核心傾印檔案,確認服務尚未因為錯誤而結束。 若要確認服務是否已停止,請叫用 NSX CLI 命令 get services。 如果是,請執行 |
| Edge 服務狀態已變更 | 低 | Edge 服務狀態已變更。 偵測到事件時:「服務 {edge_service_name} 已從 {previous_service_state} 變更為 {current_service_state}。」 解決事件時:「服務 {edge_service_name} 已從 {previous_service_state} 變更為 {current_service_state}。」 |
在 Edge 節點上,透過在 /var/log/core 目錄中尋找核心傾印檔案,確認服務尚未因為錯誤而結束。 若要確認服務是否已停止,請叫用 NSX CLI 命令 get services。 如果是,請執行 |
Intelligence 通訊事件
NSX Intelligence 通訊事件是從 NSX Manager 節點、ESXi 節點和 NSX Intelligence 應用裝置產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 傳輸節點流量匯出工具已中斷連線 | 高 | 傳輸節點已與其智慧節點的訊息代理中斷連線。資料收集受到影響。 偵測到事件時:「傳輸節點 {entity-id} 上的流量匯出工具已與智慧節點的傳訊代理中斷連線。資料收集受到影響。」 解決事件時:「傳輸節點 {entity-id} 上的流量匯出工具已重新連線至智慧節點的傳訊代理。」 |
|
| 至傳輸節點的控制通道關閉 | 嚴重 | 至傳輸節點的控制通道關閉。 偵測到事件時:從控制器服務的觀點來看,控制器服務 central_control_plane_id 與傳輸節點 {entity-id} 的連線已關閉至少三分鐘。 解決事件時:控制器服務 central_control_plane_id 會還原與傳輸節點 {entity-id} 的連線。 |
|
| 至傳輸節點的控制通道關閉時間過長 |
警告 | 至傳輸節點的控制通道關閉時間過長。 偵測到事件時:從控制器服務的觀點來看,控制器服務 central_control_plane_id 與傳輸節點 {entity-id} 的連線已關閉至少 15 分鐘。 解決事件時:控制器服務 central_control_plane_id 會還原與傳輸節點 {entity-id} 的連線。 |
|
| 傳輸節點的管理通道關閉 |
嚴重 |
中斷管理程式節點與傳輸節點的連線。 偵測到事件時: 解決事件時 |
|
| 管理程式控制通道關閉 |
嚴重 | 管理程式到控制器的通道已關閉。 偵測到事件時: 解決事件時: |
在管理程式節點 managernode (IP) 上,叫用下列兩個 NSX CLI 命令:
|
Intelligence 健全狀況事件
NSX Intelligence 健全狀況事件是從 NSX Manager 節點和 NSX Intelligence 應用裝置產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| CPU 使用率非常高 | 嚴重 | 智慧節點 CPU 使用率非常高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率低於極高臨界值 {system_usage_threshold}%。」 |
使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。 |
| CPU 使用率高 | 中 | 智慧節點 CPU 使用率偏高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率高於高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率低於高臨界值 {system_usage_threshold}%。」 |
使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。 |
| 記憶體使用量非常高 | 嚴重 | 智慧節點記憶體使用量非常高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量低於極高臨界值 {system_usage_threshold}%。」 |
使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。 |
| 記憶體使用量高 | 中 | 智慧節點記憶體使用量偏高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量高於高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量低於高臨界值 {system_usage_threshold}%。」 |
使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。 |
| 磁碟使用量非常高 | 嚴重 | 智慧節點磁碟使用量非常高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率低於極高臨界值 {system_usage_threshold}%。」 |
檢查磁碟分割 {disk_partition_name},並查看是否有任何非預期的大型檔案可移除。 |
| 磁碟使用量高 | 中 | 智慧節點磁碟使用量偏高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率高於高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率低於高臨界值 {system_usage_threshold}%。」 |
檢查磁碟分割 {disk_partition_name},並查看是否有任何非預期的大型檔案可移除。 |
| 資料磁碟分割使用量非常高 | 嚴重 | 智慧節點資料磁碟分割使用率非常高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率低於極高臨界值 {system_usage_threshold}%。」 |
停止 NSX Intelligence 資料收集,直到磁碟使用量低於臨界值。 在 NSX UI 中,導覽至系統應用裝置NSX Intelligence 應用裝置。然後,選取。 |
| 資料磁碟分割使用量高 | 中 | 智慧節點資料磁碟分割使用率偏高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率高於高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率低於高臨界值 {system_usage_threshold}%。」 |
停止 NSX Intelligence 資料收集,直到磁碟使用量低於臨界值。 檢查 /data 磁碟分割,並查看是否有可移除的任何未預期的大型檔案。 |
| 節點狀態已降級 | 高 | 智慧節點狀態為已降級。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的服務 {service_name} 不在執行中。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的服務 {service_name} 正在正常執行。」 |
在 NSX Intelligence 節點中,使用 NSX CLI 命令 get services 檢查服務狀態和健全狀況資訊。 使用 NSX CLI 命令 restart service <service-name> 重新啟動未預期的已停止服務。 |
授權事件
授權事件是從 NSX Manager 節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 授權已到期 | 嚴重 | 授權已到期。 偵測到事件時:「類型 {license_edition_type} 的授權已到期。」 解決事件時:「類型 {license_edition_type} 的過期授權已移除、更新或不再到期。」 |
新增新的、非到期授權:
|
| 授權即將到期 | 中 | 偵測到事件時:「類型 {license_edition_type} 的授權即將到期。」 解決事件時:「由 {license_edition_type} 識別的到期授權已移除、更新,或不再即將到期。」 |
新增新的、非到期授權:
|
負載平衡器事件
負載平衡器事件是從 NSX Edge 節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 負載平衡器 CPU 非常高 | 中 | 負載平衡器 CPU 使用率非常高。 偵測到事件時:「負載平衡器 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「負載平衡器 {entity_id} 的 CPU 使用率為 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
如果其負載平衡器 CPU 使用率高於 {system_usage_threshold}%,則工作負載對此負載平衡器來說過高。 將負載平衡器的大小從小型變更為中型或從中型變更為大型,以重新調整負載平衡器服務。 如果此負載平衡器的 CPU 使用率仍然很高,請考慮調整 Edge 應用裝置機器尺寸大小,或將負載平衡器服務移至其他 Edge 節點,以獲得適當的工作負載。 |
| 負載平衡器狀態關閉 | 中 | 負載平衡器服務已關閉。 偵測到事件時:「負載平衡器服務 {entity_id} 已關閉。」 解決事件時:「負載平衡器服務 {entity_id} 已啟動。」 |
確認 Edge 節點中的負載平衡器服務是否正在執行。 如果負載平衡器服務的狀態為未就緒,請將 Edge 節點移至維護模式,然後結束維護模式。 如果負載平衡器服務的狀態仍未復原,請檢查 syslog 中是否存在任何錯誤記錄。 |
| 虛擬伺服器狀態關閉 | 中 | 負載平衡器虛擬服務已關閉。 偵測到事件時:「負載平衡器虛擬伺服器 {entity_id} 已關閉。」 解決事件時:「負載平衡器虛擬伺服器 {entity_id} 已啟動。」 |
請查閱負載平衡器集區,以判定其狀態並確認其組態。 如果設定錯誤,請將其重新設定並從虛擬伺服器移除該負載平衡器集區,然後重新將其新增至虛擬伺服器。 |
| 集區狀態關閉 | 中 | 偵測到事件時:「負載平衡器集區 {entity_id} 狀態為關閉。」 解決事件時:「負載平衡器集區 {entity_id} 狀態為啟動。」 |
當成員的健全狀況建立時,集區成員狀態會根據 Rise Count 更新為狀況良好。 |
管理程式健全狀況事件
NSX Manager 健全狀況事件是從 NSX Manager 節點叢集產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 重複的 IP 位址 | 中 | 管理程式節點的 IP 位址由其他裝置使用中。 偵測到事件時:「管理程式節點 {entity_id} 的 IP 位址 {duplicate_ip_address} 目前由網路中的其他裝置使用中。」 偵測到事件時:「管理程式節點 {entity_id} 似乎已不再使用 {duplicate_ip_address}。」 |
|
| 管理程式 CPU 使用率非常高 | 嚴重 | 管理程式節點 CPU 使用率非常高。 偵測到事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
請檢閱此管理程式節點的組態、執行中服務和大小調整。 考慮調整管理程式應用裝置機器尺寸大小。 |
| 管理程式 CPU 使用率高 | 中 | 從 NSX-T Data Center 3.0.1 開始。 管理程式節點 CPU 使用率偏高。 偵測到事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」 解決事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
請檢閱此管理程式節點的組態、執行中服務和大小調整。 考慮調整管理程式應用裝置機器尺寸大小。 |
| 管理程式記憶體使用量非常高 | 嚴重 | 從 NSX-T Data Center 3.0.1 開始。 管理程式節點記憶體使用量非常高。 偵測到事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
請檢閱此管理程式節點的組態、執行中服務和大小調整。 考慮調整管理程式應用裝置機器尺寸大小。 |
| 管理程式記憶體使用量高 | 中 | 管理程式節點記憶體使用量偏高。 偵測到事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」 解決事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
請檢閱此管理程式節點的組態、執行中服務和大小調整。 考慮調整管理程式應用裝置機器尺寸大小。 |
| 管理程式磁碟使用量非常高 | 嚴重 | 管理程式節點磁碟使用量非常高。 偵測到事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。 |
| 管理程式磁碟使用量高 | 中 | 管理程式節點磁碟使用量偏高。 偵測到事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於高臨界值{system_usage_threshold}%。」 解決事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。 |
| 管理程式組態磁碟使用量非常高 | 嚴重 | 管理程式節點組態磁碟使用量非常高。 偵測到事件時:「管理程式節點磁碟分割 /config 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」這可能表示 NSX 資料存放區服務在 /config/corfu 目錄下的磁碟使用量過高。」 解決事件時:「管理程式節點磁碟分割 /config 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
檢查 /config 磁碟分割,並查看是否有可移除的任何未預期的大型檔案。 |
| 管理程式組態磁碟使用量高 | 中 | 管理程式節點組態磁碟使用量偏高。 偵測到事件時:「管理程式節點磁碟分割 /config 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /config/corfu 目錄下的磁碟使用量正在上升。」 解決事件時:「管理程式節點磁碟分割 /config 的磁碟使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
檢查 /config 磁碟分割,並查看是否有可移除的任何未預期的大型檔案。 |
| 作業 DB 磁碟使用量高 |
中 | 管理程式節點磁碟分割 /nonconfig 的磁碟使用量已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /nonconfig/corfu 目錄下的磁碟使用量正在上升。 |
如果有回報問題,請執行下列工具,並連絡 GSS:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig。 |
| 作業資料庫磁碟使用量極高 | 嚴重 | 管理程式節點磁碟分割 /nonconfig 的磁碟使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /nonconfig/corfu 目錄下的磁碟使用量正在上升。 |
如果有回報問題,請執行下列工具,並連絡 GSS:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig。 |
NCP 事件
NSX Container Plug-in (NCP) 事件是從 ESXi 和 KVM 節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| NCP 外掛程式已關閉 | 嚴重 | 管理程式節點偵測到 NCP 已關閉或狀況不良。 偵測到事件時:「管理程式節點偵測到 NCP 已關閉或狀況不良。」 解決事件時:「管理程式節點偵測到 NCP 已再次啟動或狀況良好。」 |
若要找出有問題的叢集,請叫用 NSX API:GET /api/v1/systemhealth/container-cluster/ncp/status 來擷取所有叢集狀態,並判定任何報告為關閉或未知的叢集名稱。 移至 NSX UI 頁面,找到報告為已關閉或未知狀態的叢集名稱,然後按一下列出所有 Kubernetes 和 PAS 叢集成員的 [節點] 索引標籤。
對於 Kubernetes 叢集:
對於 PAS 叢集:
|
節點代理程式健全狀況事件
節點代理程式健全狀況事件是從 ESXi 和 KVM 節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 節點代理程式已關閉 | 高 | 在節點虛擬機器內執行的代理程式似乎已關閉。 偵測到事件時:「在節點虛擬機器內執行的代理程式似乎已關閉。」 解決事件時:「節點虛擬機器內的代理程式執行中。」 |
對於 ESX:
對於 KVM:
對於 ESX 和 KVM:
|
密碼管理事件
密碼管理事件是從 NSX Manager、NSX Edge 和公用閘道節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 密碼已到期 | 嚴重 | 使用者密碼已到期。 偵測到事件時:「使用者 {username} 的密碼已到期。」 解決事件時:「使用者 {username} 的密碼已成功變更或不再到期。」 |
使用者 {username} 的密碼必須立即變更才能存取系統。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:
其中 |
| 密碼即將到期 | 高 | 使用者密碼即將到期。 偵測到事件時:「使用者 {username} 的密碼即將在 {password_expiration_days} 天後到期。」 解決事件時:「使用者 {username} 的密碼已成功變更或不再即將到期。」 |
確定由 {username} 識別的使用者密碼會立即變更。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:
其中 |
| 接近密碼到期 | 中 | 使用者密碼即將到期。 偵測到事件時:「使用者 {username} 的密碼即將在 {password_expiration_days} 天後到期。」 解決事件時:「使用者 {username} 的密碼已成功變更或不再即將到期。」 |
由 {username} 識別的使用者的密碼需要盡快變更。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:
其中 |
路由事件
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| BGP 已關閉 | 高 | BGP 芳鄰已關閉。 偵測到事件時:「在路由器 {entity_id} 中,BGP 芳鄰 {bgp_neighbor_ip} 已關閉,原因:{failure_reason}。」 解決事件時:「在路由器 {entity_id} 中,BGP 芳鄰 {bgp_neighbor_ip} 已啟動。」 |
|
| 外部介面上的雙向轉送偵測 (BFD) 關閉 |
高 | BFD 工作階段已關閉。 偵測到事件時:「在路由器 {entity_id} 中,對等 {peer_address} 的 BFD 工作階段已關閉。」 解決事件時:「在路由器 {entity_id} 中,對等 {peer_address} 的 BFD 工作階段已啟動。」 |
|
| 路由關閉 | 高 | 所有 BGP/BFD 工作階段已關閉。 偵測到事件時:「所有 BGP/BFD 工作階段已關閉。」 解決事件時:「至少一個 BGP/BFD 工作階段已開啟。」 |
|
| 靜態路由已移除 | 高 | 靜態路由已移除。 偵測到事件時:「在路由器 {entity_id} 中,靜態路由 {static_address} 已移除,因為 BFD 已關閉。」 解決事件時:「在路由器 {entity_id} 中,靜態路由 {static_address} 已在 BFD 復原時重新新增。」 |
|
傳輸節點健全狀況
傳輸節點健全狀況事件是從 KVM 和 ESXi 節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| LAG 成員已關閉 | 中 | LACP 報告成員已關閉。 偵測到事件時:「LACP 報告成員已關閉。」 解決事件時:「LACP 報告成員已啟動。」 |
檢查主機上 LAG 成員的連線狀態。
|
| N-VDS 上行關閉 | 中 | 上行即將關閉。 偵測到事件時:「上行即將關閉。」 解決事件時:「上行即將啟動。」 |
檢查主機上上行的實體 NIC 狀態。
|
VPN 事件
VPN 事件是從 NSX Edge 和公用閘道節點產生。
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 以 IPsec 原則為基礎的工作階段關閉 | 中 | 以原則為基礎的 IPsec VPN 工作階段已關閉。 偵測到事件時:「以原則為基礎的 IPsec VPN 工作階段 {entity_id} 已關閉。原因:{session_down_reason}。」 解決事件時:「以原則為基礎的 IPsec VPN 工作階段 {entity_id} 已啟動。 |
檢查 IPsec VPN 工作階段組態,並根據工作階段關閉的原因解決錯誤。 |
| 以 IPsec 路由為基礎的工作階段關閉 | 中 | 以路由為基礎的 IPsec VPN 工作階段已關閉。 偵測到事件時:「以路由為基礎的 IPsec VPN 工作階段 {entity_id} 已關閉。原因:{session_down_reason}。」 解決事件時:「以路由為基礎的 IPsec VPN 工作階段 {entity_id} 已啟動。」 |
檢查 IPsec VPN 工作階段組態,並根據工作階段關閉的原因解決錯誤。 |
| 以 IPsec 原則為基礎的通道關閉 | 中 | 以原則為基礎的 IPsec VPN 通道已關閉。 偵測到事件時:「工作階段 {entity_id} 中一或多個以原則為基礎的 IPsec VPN 通道已關閉。」 解決事件時:「工作階段 {entity_id} 中所有以原則為基礎的 IPsec VPN 通道均已啟動。」 |
檢查 IPsec VPN 工作階段組態,並根據通道關閉的原因解決錯誤。 |
| 以 IPsec 路由為基礎的通道已關閉 | 中 | 以路由為基礎的 IPsec VPN 通道已關閉。 偵測到事件時:「工作階段 {entity_id} 中一或多個以路由為基礎的 IPsec VPN 通道已關閉。」 解決事件時:「工作階段 {entity_id} 中所有以路由為基礎的 IPsec VPN 通道均已啟動。」 |
檢查 IPsec VPN 工作階段組態,並根據通道關閉的原因解決錯誤。 |
| L2VPN 工作階段關閉 | 中 | L2VPN 工作階段已關閉。 偵測到事件時:「L2VPN 工作階段 {entity_id} 已關閉。」 解決事件時:「L2VPN 工作階段 {entity_id} 已啟動。」 |
檢查 IPsec VPN 工作階段組態,並根據原因解決錯誤。 |
身分識別防火牆事件
| 事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
|---|---|---|---|
| 與 AD 伺服器的連線 |
嚴重 |
與 AD 伺服器的連線中斷。 偵測到事件時:與身分識別防火牆 AD 伺服器的連線已關閉。 偵測到事件時:與身分識別防火牆 AD 伺服器的連線已開啟。 |
修正連線問題之後,請使用 LDAP 伺服器 UI 中的「測試連線」來測試與 AD 伺服器的連線。 |
| 差異同步期間發生錯誤 |
嚴重 | 無法同步 AD 伺服器錯誤說明 偵測到事件時:在身分識別防火牆 AD 伺服器的選擇性同步期間發生故障:錯誤詳細資料。 偵測到事件時:已修正身分識別防火牆 AD 伺服器的選擇性同步錯誤。 |
|