下表說明觸發警示的事件,包括警示訊息和用來解決問題的建議動作。嚴重性大於低的任何事件都會觸發警示。
警示管理事件
警示管理事件是由 NSX Manager 和全域管理程式節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
警示服務已超載 | 嚴重 | 警示服務已超載。 偵測到事件時:「由於報告的警示數量過大,警示服務發生暫時超載的狀況。NSX UI 和 解決事件時:「目前已無大量警示,並已重新開始報告新的警示。」 |
請使用 NSX UI 中的 [警示] 頁面檢閱所有作用中的警示,或使用 |
大量警示 | 嚴重 | 偵測到大量的特定警示類型。 偵測到事件時:「由於 {event_id} 警示數量過大,警示服務已暫時停止報告此類型的警示。NSX UI 和 GET /api/v1/alarms NSX API 不會報告這些警示的新執行個體。但 Syslog 項目和 SNMP 設陷 (如果已啟用) 仍會持續發出報告基礎事件詳細資料。當造成大量 {event_id} 警示的基礎問題獲得解決後,警示服務就會重新開始在偵測到新問題時,報告新的 {event_id} 警示。」 解決事件時:「目前已無大量 {event_id} 警示,並已重新開始報告此類型的新警示。」 |
請使用 NSX UI 中的 [警示] 頁面檢閱所有作用中的警示,或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API 來檢閱。對於每個作用中的警示,請透過依據建議的警示動作調查其根本原因。解決夠多的警示後,警示服務就會重新開始報告新的 {event_id} 警示。 |
稽核記錄健全狀況事件
稽核記錄健全狀況事件是從 NSX Manager 和全域管理程式節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
稽核記錄健全狀況 |
嚴重 | 至少有一個監控的記錄檔無法寫入。 偵測到事件時,「至少有一個受監控的記錄檔案具有唯讀權限、具有不正確的使用者/群組擁有權,或在管理程式、全域管理程式、Edge 或公有雲閘道節點上遺失 rsyslog.log。」 解決事件時,「所有受監控的記錄檔案都具有正確的檔案權限和擁有權,且在管理程式、全域管理程式、Edge 或公有雲閘道節點上都有 rsyslog.log。」 |
|
遠端記錄伺服器錯誤 |
嚴重 | 由於不正確的遠端記錄伺服器組態,記錄訊息無法傳遞。 偵測到事件時:「記錄伺服器 {hostname_or_ip_address_with_port} ({entity_id}) 的記錄訊息無法傳遞,可能是由於無法解析的 FQDN、無效的 TLS 憑證或遺失的 NSX 應用裝置 iptables 規則所致。」 解決事件時:「記錄伺服器 {hostname_or_ip_address_with_port} ({entity_id}) 的組態顯示正確。」 |
若要進一步瞭解有關如何設定 NSX-T Data Center 應用裝置和 Hypervisor 以將記錄訊息傳送至遠端記錄伺服器的詳細資訊,請參閱設定遠端記錄。 如果遠端記錄伺服器不接收記錄,請參閱對 Syslog 問題進行疑難排解。 |
容量事件
當特定物件類別的目前詳細目錄達到特定層級時,下列事件可能會觸發警示。如需詳細資訊,請參閱檢視物件類別的使用量和容量。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
容量上限 | 嚴重 | 已違反容量上限。 偵測到事件時:「系統中為 {capacity_display_name} 定義的物件數量已達到 {capacity_usage_count},且等於或高於支援計數上限 {max_supported_capacity_count}。」 解決事件時:「系統中為 {capacity_display_name} 定義的物件數量已達到 {capacity_usage_count},且低於支援計數上限 {max_supported_capacity_count}。」 |
|
容量臨界值上限 | 高 | 已違反容量臨界值上限。 偵測到事件時:「系統中為 {capacity_display_name} 定義的物件數量已達到 {capacity_usage_count},且等於或高於容量臨界值上限 {max_capacity_threshold}%。」 解決事件時:「系統中為 {capacity_display_name} 定義的物件數量已達到 {capacity_usage_count},且低於容量臨界值上限 {max_capacity_threshold}%。」 |
導覽至 NSX UI 中的容量頁面,並檢閱目前的使用量與臨界值限制。如果目前的使用量為預期,請考慮增加臨界值上限。如果目前的使用量非預期,請檢閱設定的網路原則,以將使用量減少至低於臨界值上限。 |
容量臨界值下限 | 中 | 已違反容量臨界值下限。 偵測到事件時:「系統中為 {capacity_display_name} 定義的物件數量已達到 {capacity_usage_count},且等於或高於容量臨界值下限 {min_capacity_threshold}%。」 事件解決時:「系統中為 {capacity_display_name} 定義的物件數量已達到 {capacity_usage_count},且低於容量臨界值下限 {min_capacity_threshold}%。」 |
導覽至 NSX UI 中的容量頁面,並檢閱目前的使用量與臨界值限制。如果目前的使用量為預期,請考慮增加臨界值下限。如果目前的使用量非預期,請檢閱設定的網路原則,以將使用量減少至低於臨界值下限。 |
憑證事件
憑證事件是從 NSX Manager 節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
憑證已到期 | 嚴重 | 憑證已到期。 偵測到事件時:「憑證 {entity-id} 已到期。」 解決事件時:「已到期的憑證 {entity-id} 已移除或不再到期。」 |
確保目前使用憑證的服務已更新,以使用新的、非已到期憑證。例如,若要將新憑證套用至 HTTP 服務,請叫用下列 API 呼叫:
其中,<cert-id> 是 API 呼叫 到期的憑證不再使用後,應使用下列 API 呼叫加以刪除:
|
憑證即將到期 | 高 | 憑證即將到期。 偵測到事件時:「憑證 {entity-id} 即將到期。」 解決事件時:「過期的憑證 {entity-id} 或不再即將到期。」 |
確保目前使用憑證的服務已更新,以使用新的、非到期中憑證。例如,若要將新憑證套用至 HTTP 服務,請叫用下列 API 呼叫:
其中,<cert-id> 是 API 呼叫 到期中憑證不再使用後,應使用 API 呼叫加以刪除:
|
接近憑證到期 | 中 | 憑證即將到期。 偵測到事件時:「憑證 {entity-id} 即將到期。」 解決事件時:「到期中憑證 {entity-id} 不再接近到期。」 |
確保目前使用憑證的服務已更新,以使用新的、非到期中憑證。例如,若要將新憑證套用至 HTTP 服務,請叫用下列 API 呼叫:
其中,<cert-id> 是 API 呼叫 到期中憑證不再使用後,應使用 API 呼叫加以刪除:
|
CNI 健全狀況事件
CNI 健全狀況事件是從 ESXi 和 KVM 節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
Hyperbus 管理程式連線已關閉 | 中 | Hyperbus 無法與管理程式節點通訊。 偵測到事件時:「Hyperbus 無法與管理程式節點通訊。」 解決事件時:「Hyperbus 可以與管理程式節點進行通訊。」 |
Hyperbus vmkernel 介面 (vmk50) 可能遺失。請參閱知識庫文章 67432。 |
DHCP 事件
DHCP 事件是從 NSX Edge 和公用閘道節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
集區租用配置失敗 | 高 | IP 集區中的 IP 位址已用盡。 偵測到事件時:「DHCP 伺服器 {dhcp_server_id} 的 IP 集區 {entity_id} 中的位址已用完。前一次的 DHCP 請求失敗,且未來的請求將會失敗。」 解決事件時:「DHCP 伺服器 {dhcp_server_id} 的 IP 集區 {entity_id} 不再已用盡。已成功將租用配置給上一個 DHCP 請求。」 |
在 NSX UI 中或在執行 DHCP 伺服器的 Edge 節點上,透過叫用 NSX CLI 命令 get dhcp ip-pool 來檢閱 DHCP 集區組態。 此外,您也可以透過叫用 NSX CLI 命令 get dhcp lease,來檢閱 Edge 節點上目前作用中的租用。 將租用與作用中虛擬機器的數目比較。如果虛擬機器的數目相較於作用中租用的數目低,請考慮在 DHCP 伺服器組態上減少租用時間。同時,請考慮透過造訪 NSX UI 中的 頁面,來擴充 DHCP 伺服器的集區範圍。 |
集區已超載 | 中 | IP 集區已超載。 偵測到事件時:「DHCP 伺服器 {dhcp_server_id} IP 集區 {entity_id} 使用率正接近耗盡,已配置 {dhcp_pool_usage}% IP。」 解決事件時:「DHCP 伺服器 {dhcp_server_id} IP 集區 {entity_id} 已低於高使用率臨界值。」 |
在 NSX UI 中或在執行 DHCP 伺服器的 Edge 節點上,透過叫用 NSX CLI 命令 get dhcp ip-pool 來檢閱 DHCP 集區組態。 此外,您也可以透過叫用 NSX CLI 命令 get dhcp lease,來檢閱 Edge 節點上目前作用中的租用。 將租用與作用中虛擬機器的數目比較。如果虛擬機器的數目相較於作用中租用的數目低,請考慮在 DHCP 伺服器組態上減少租用時間。同時,請考慮透過造訪 NSX UI 中的 頁面,來擴充 DHCP 伺服器的集區範圍。 |
分散式防火牆事件
分散式防火牆事件是從 NSX Manager 或 ESXi 節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
DFW CPU 使用率非常高 |
嚴重 | DFW CPU 使用率非常高。 偵測到事件時:「傳輸節點 {entity_id} 上的 DFW CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「傳輸節點 {entity_id} 上的 DFW CPU 使用率已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 請檢閱安全性設計以進行最佳化。例如,如果規則不適用於整個資料中心,請使用套用至組態。 |
DFW 記憶體使用量非常高 |
嚴重 | DFW 記憶體使用量非常高。 偵測到事件時:「傳輸節點 {entity_id} 上的 DFW 記憶體使用量 {heap_type} 已達到 {system_resource_usage}% ,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「傳輸節點 {entity_id} 上的 DFW 記憶體使用量 {heap_type} 已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
透過在主機上叫用 NSX CLI 命令 get firewall thresholds,以檢視目前 DFW 的記憶體使用量。 考慮將此主機上的工作負載重新平衡至其他主機。 |
分散式 IDS/IPS 事件
分散式 IDS/IPS 事件是從 NSX Manager 或 ESXi 節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
NSX IDPS 引擎 CPU 使用率非常高 |
嚴重 | NSX-IDPS 引擎 CPU 使用率已超過 95% 或以上。 偵測到事件時:「NSX-IDPS 引擎 CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 95%。」 解決事件時:「NSX-IDPS 引擎 CPU 使用率已達到 {system_resource_usage}%,這低於極高臨界值 95%。」 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 |
NSX IDPS 引擎關閉 |
嚴重 | NSX IDPS 已透過 NSX 原則啟用,且 IDPS 規則已設定,但 NSX-IDPS 引擎已關閉。 偵測到事件時:「NSX IDPS 已透過 NSX 原則啟用,且 IDPS 規則已設定,但 NSX-IDPS 引擎已關閉。」 解決事件時:「NSX IDPS 處於以下任一情況。1. NSX IDPS 已透過 NSX 原則停用。2. NSX IDPS 引擎已啟用,NSX-IDPS 引擎和 vdpi 已啟動,且 NSX IDPS 已啟用,IDPS 規則已透過 NSX 原則進行設定。」 |
|
NSX IDPS 引擎記憶體使用量非常高 |
嚴重 | NSX-IDPS 引擎記憶體使用量已達到 95% 或以上。 偵測到事件時:「NSX-IDPS 引擎記憶體使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 95%。」 解決事件時:「NSX-IDPS 引擎記憶體使用量已達到 {system_resource_usage}%,這低於極高臨界值 95%。」 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 |
DNS 事件
DNS 事件是從 NSX Edge 和公用閘道節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
轉寄站已關閉 | 高 | DNS 轉寄站已關閉。 偵測到事件時:「DNS 轉寄站 {entity_id} 不在執行中。這會影響目前已啟用的已識別 DNS 轉寄站。」 解決事件時:「DNS 轉寄站 {entity_id} 再次執行。」 |
|
轉寄站已停用
備註: 從
NSX-T Data Center 3.2 開始,將淘汰警示。
|
低 | DNS 轉寄站已停用。 偵測到事件時:「DNS 轉寄站 {entity_id} 已停用。」 解決事件時:「DNS 轉寄站 {entity_id} 已啟用。」 |
|
Edge 事件
當 NSX 與 Edge 應用裝置之間的 Edge 傳輸節點的部分組態值不相符時,會產生 Edge 事件。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
Edge 節點設定不相符 |
嚴重 | Edge 節點設定不相符。 偵測到事件時:「Edge 節點 {entity_id} 設定組態與原則意圖組態不相符。使用者在 UI 或 API 上可見的 Edge 節點組態與實現的不同。由 NSX Manager 外部使用者實現的 Edge 節點變更,會顯示在此警示的詳細資料中,而在 UI 或 API 中的任何編輯都將覆寫實現的組態。Edge 節點的不同欄位會在執行階段資料中列出。」 解決事件時:「Edge 節點 {entity_id} 的節點設定現在與原則意圖一致。」 |
檢閱此 Edge 傳輸節點
{entity_id} 的節點設定。執行下列其中一個動作來解決此警示。
|
Edge 虛擬機器 vSphere 設定不相符 |
嚴重 | Edge 虛擬機器 vSphere 設定不相符。 偵測到事件時:「vSphere 上的 Edge 節點 {entity_id} 組態與原則意圖組態不相符。使用者在 UI 或 API 上可見的 Edge 節點組態與實現的不同。由 NSX Manager 外部使用者實現的 Edge 節點變更,會顯示在此警示的詳細資料中,而在 UI 或 API 中的任何編輯都將覆寫實現的組態。Edge 節點的不同欄位會在執行階段資料中列出。」 解決事件時:「Edge 節點 {entity_id} 虛擬機器 vSphere 設定現在與原則意圖一致。」 |
檢閱此 Edge 傳輸節點
{entity_id} 的 vSphere 組態。執行下列其中一個動作來解決此警示。
|
Edge 節點設定和 vSphere 設定已變更 |
嚴重 | Edge 節點設定和 vSphere 設定已變更。 偵測到事件時:「Edge 節點 {entity_id} 設定和 vSphere 組態已變更,且與原則意圖組態不相符。使用者在 UI 或 API 上可見的 Edge 節點組態與實現的不同。由 NSX Manager 外部使用者實現的 Edge 節點變更,會顯示在此警示的詳細資料中,而在 UI 或 API 中的任何編輯都將覆寫實現的組態。Edge 節點設定和 vSphere 組態的不同欄位會在執行階段資料中列出。」 解決事件時:「Edge 節點 {entity_id} 節點設定和 vSphere 設定現在與原則意圖一致。」 |
檢閱此 Edge 傳輸節點
{entity_id} 的節點設定和 vSphere 組態。執行下列其中一個動作來解決此警示。
|
Edge vSphere 位置不相符 |
高 | Edge vSphere 位置不相符。 偵測到事件時:「Edge 節點 {entity_id} 已使用 vMotion 進行移動。vSphere 上的 Edge 節點 {entity_id} 組態與原則意圖組態不相符。使用者在 UI 或 API 上可見的 Edge 節點組態與實現的不同。由 NSX Manager 外部使用者實現的 Edge 節點變更,會顯示在此警示的詳細資料中。Edge 節點的不同欄位會在執行階段資料中列出。」 解決事件時:「Edge 節點 {entity_id} 節點 vSphere 設定現在與原則意圖一致。」 |
檢閱此 Edge 傳輸節點
{entity_id} 的 vSphere 組態。執行下列其中一個動作來解決警示。
|
Edge 健全狀況事件
Edge 健全狀況事件是從 NSX Edge 和公用閘道節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
Edge CPU 使用率非常高 | 嚴重 | Edge 節點 CPU 使用率非常高。 偵測到事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至其他 Edge 節點,以達到適用的工作負載。 |
Edge CPU 使用率高 | 中 | Edge 節點 CPU 使用率偏高。 偵測到事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」 解決事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至其他 Edge 節點,以達到適用的工作負載。 |
Edge 資料路徑組態失敗 | 高 | Edge 節點資料路徑組態失敗。 偵測到事件時:「在三次嘗試後,無法啟用 Edge 節點上的資料路徑。」 解決事件時:「已成功啟用 Edge 節點上的資料路徑。」 |
確保與管理程式節點的 Edge 節點連線狀況良好。 從 Edge 節點 NSX CLI,叫用命令 get services 以檢查服務的健全狀況。 如果資料平面服務已停止,請叫用命令 start service dataplane 將其重新啟動。 |
Edge 資料路徑 CPU 非常高 |
嚴重 | Edge 節點資料路徑 CPU 使用率非常高。 偵測到事件時:「Edge 節點 {entity-id} 上的資料路徑 CPU 使用率已達到 {datapath_resource_usage}%,其等於或高於極高臨界值至少兩分鐘。」 解決事件時:「Edge 節點 {entity-id} 上的資料路徑 CPU 使用率已低於最大臨界值。」 |
透過叫用 NSX CLI 命令 get dataplane cpu stats 來顯示每個 CPU 核心的封包速率,以檢閱 Edge 節點上的 CPU 統計資料。 較高的 CPU 使用率預期會有較高的封包速率。 考慮增加 Edge 應用裝置的機器尺寸大小,並將此 Edge 節點上的服務重新平衡至相同叢集或其他 Edge 叢集中的其他 Edge 節點。 |
Edge 資料路徑 CPU 使用率高 | 中 | Edge 節點資料路徑 CPU 使用率偏高。 偵測到事件時:「Edge 節點 {entity-id} 上的資料路徑 CPU 使用率已達到 {datapath_resource_usage}%,其等於或高於高臨界值至少兩分鐘。」 解決事件時:「Edge 節點 {entity-id} 上的 CPU 使用率已達到低於高臨界值。」 |
透過叫用 NSX CLI 命令 get dataplane cpu stats 來顯示每個 CPU 核心的封包速率,以檢閱 Edge 節點上的 CPU 統計資料。 較高的 CPU 使用率預期會有較高的封包速率。 考慮增加 Edge 應用裝置的機器尺寸大小,並將此 Edge 節點上的服務重新平衡至相同叢集或其他 Edge 叢集中的其他 Edge 節點。 |
Edge 資料路徑 Cryptodrv 關閉 |
嚴重 | Edge 節點加密驅動程式已關閉 偵測到事件時:「Edge 節點加密驅動程式 {edge_crypto_drv_name} 已關閉。」 解決事件時:「Edge 節點加密驅動程式 {edge_crypto_drv_name} 已開啟。」 |
視需要升級 Edge 節點。 |
Edge 資料路徑記憶體集區高 |
中 | Edge 節點資料路徑記憶體集區偏高。 偵測到事件時:「Edge 節點 {entity-id} 上 {mempool_name} 的資料路徑記憶體集區使用率已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」 解決事件時:「Edge 節點 {entity-id} 上 {mempool_name} 的資料路徑記憶體集區使用率已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
以根使用者身分登入,並叫用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show 和 edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap 以檢查 DPDK 記憶體使用量。 |
Edge 磁碟使用量非常高 | 嚴重 | Edge 節點磁碟使用量非常高。 偵測到事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。 |
Edge 磁碟使用量高 | 中 | Edge 節點磁碟使用量偏高。 偵測到事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於高臨界值{system_usage_threshold}%。」 解決事件時:「Edge 節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。 |
Edge 全域 ARP 資料表使用量高 | 中 | Edge 節點全域 ARP 資料表使用率偏高。 偵測到事件時:「Edge 節點 {entity-id} 上的全域 ARP 資料表使用量已達到 {datapath_resource_usage}%,這高於高臨界值超過兩分鐘。」 解決事件時:「Edge 節點 {entity-id} 上的全域 ARP 資料表使用量已達到低於高臨界值。」 |
|
Edge 記憶體使用量非常高 | 嚴重 | Edge 節點記憶體使用量非常高。 偵測到事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至其他 Edge 節點,以達到適用的工作負載。 |
Edge 記憶體使用量高 | 中 | Edge 節點記憶體使用量偏高。 偵測到事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」 解決事件時:「Edge 節點 {entity-id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
請檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至其他 Edge 節點,以達到適用的工作負載。 |
Edge NIC 連結狀態關閉 | 嚴重 | Edge 節點 NIC 連結已關閉。 偵測到事件時:「Edge 節點 NIC {edge_nic_name} 連結已關閉。」 偵測到事件時:「Edge 節點 NIC {edge_nic_name} 連結已啟動。」 |
在 Edge 節點上,透過叫用 NSX CLI 命令 get interfaces,來確認 NIC 連結是否已實際關閉。 如果已關閉,請確認纜線連線。 |
Edge NIC 的接收緩衝區不足 | 中 | Edge 節點 NIC 的 RX 循環緩衝區暫時不足。 偵測到事件時:「Edge 節點 {entity_id}.上的 Edge NIC {edge_nic_name} 接收循環緩衝區已溢位達 {rx_ring_buffer_overflow_percentage}%。遺失的封包計數為 {rx_misses},而已處理的封包計數為 {rx_processed}。」 解決事件時:「Edge 節點 {entity-id} 上的 Edge NIC {edge_nic_name} 接收循環緩衝區使用率不再溢位。」 |
|
Edge NIC 的傳輸緩衝區不足 | 嚴重 | Edge 節點 NIC 的 TX 循環緩衝區暫時不足。 偵測到事件時:「Edge 節點 {entity_id} 上的 Edge NIC {edge_nic_name} 傳輸循環緩衝區已溢位達 {tx_ring_buffer_overflow_percentage}%。遺失的封包計數為 {tx_misses},而已處理的封包計數為 {tx_processed}。 解決事件時:「Edge 節點 {entity-id} 上的 Edge NIC {edge_nic_name} 傳輸循環緩衝區使用率不再溢位。」 |
|
儲存區錯誤 | 嚴重 | 從 NSX-T Data Center 3.0.1 開始。 偵測到事件時:「Edge 節點上的下列磁碟分割處於唯讀模式:{disk_partition_name}。」 解決事件時:「Edge 節點上的下列磁碟分割已從唯讀模式復原:{disk_partition_name}。」 |
檢查唯讀磁碟分割,以查看重新開機是否可解決此問題,或是需要更換磁碟。如需詳細資訊,請連絡 GSS。 |
Edge 資料路徑 NIC 輸送量偏高 |
中 | Edge 節點資料路徑 NIC 輸送量偏高。 偵測到事件時:「Edge 節點 {entity_id} 上 {edge_nic_name} 的資料路徑 NIC 輸送量已達到 {nic_throughput}%,這等於或高於高臨界值 {nic_throughput_threshold}%。」 解決事件時:「Edge 節點 {entity-id} 上 {edge_nic_name} 的資料路徑 NIC 輸送量已達到 {nic_throughput}%,這低於高臨界值 {nic_throughput_threshold}%。」 |
檢查 NIC 上的流量輸送量層級,並判斷是否需要變更組態。執行下列命令可用來監控輸送量。 get dataplane throughput <seconds> |
Edge 資料路徑 NIC 輸送量非常高 |
嚴重 | Edge 節點資料路徑 NIC 輸送量非常高。 偵測到事件時:「Edge 節點 {entity-id} 上的 {edge_nic_name} 的資料路徑 NIC 輸送量已達到 {nic_throughput}%,這等於或高於極高臨界值 {nic_throughput_threshold}%。」 解決事件時:「Edge 節點 {entity-id} 上的 {edge_nic_name} 的資料路徑 NIC 輸送量已達到 {nic_throughput}%,這低於極高臨界值 {nic_throughput_threshold}%。」 |
檢查 NIC 上的流量輸送量層級,並判斷是否需要變更組態。叫用下列 NSX CLI 命令可用來監控輸送量。 get dataplane throughput <seconds> |
失敗網域關閉 |
嚴重 | 失敗網域的所有成員均關閉。 偵測到事件時:「失敗網域 {transport_node_id} 的所有成員均關閉。」 解決事件時:「失敗網域 {transport_node_id} 的所有成員皆可連線。」 |
|
資料路徑執行緒鎖死 |
嚴重 | Edge 節點的資料路徑執行緒處於鎖死狀態。 偵測到事件時:「Edge 節點資料路徑執行緒 {edge_thread_name} 已鎖死。」 解決事件時:「Edge 節點資料路徑執行緒 {edge_thread_name} 無任何鎖死。」 |
透過叫用下列 NSX CLI 命令來重新啟動資料平面服務。 restart service dataplane |
端點保護事件
端點保護事件是從 NSX Manager 或 ESXi 節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
EAM 狀態已關閉 | 嚴重 | 計算管理程式上的 ESX Agent Manager (EAM) 服務已關閉。 偵測到事件時:「計算管理程式 {entity_id} 上的 ESX Agent Manager (EAM) 服務已關閉。」 解決事件時:「計算管理程式 {entity_id} 上的 ESX Agent Manager (EAM) 服務已啟動或計算管理程式 {entity_id} 已移除。」 |
重新啟動 ESX Agent Manager (EAM) 服務:
|
合作夥伴通道已關閉 | 嚴重 | 主機模組和合作夥伴 SVM 連線已關閉。 偵測到事件時:「主機模組和合作夥伴 SVM {entity_id} 之間的連線已關閉。」 解決事件時:「主機模組和合作夥伴 SVM {entity_id} 之間的連線已開啟。」 |
請參閱知識庫文章 2148821 Troubleshooting NSX Guest Introspection (疑難排解 NSX Guest Introspection),並確定 {entity_id} 所識別的合作夥伴 SVM 已重新連線至主機模組。 |
閘道防火牆事件
閘道防火牆事件從 NSX Edge 節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
已超過 ICMP 流量計數 |
嚴重 | 從 NSX-T Data Center 3.1.3 開始。 ICMP 流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。 偵測到事件時:「邏輯路由器 {entity_id} 上 ICMP 流量的閘道防火牆流量資料表使用量已達到 {firewall_icmp_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」 解決事件時:「邏輯路由器 {entity_id} 上的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」 |
|
ICMP 流量計數偏高 | 中 | 從 NSX-T Data Center 3.1.3 開始。 ICMP 流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。 偵測到事件時:「邏輯路由器 {entity_id} 上 ICMP 的閘道防火牆流量資料表使用量已達到 {firewall_icmp_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」 解決事件時:「邏輯路由器 {entity_id} 上 ICMP 的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」 |
|
已超過 IP 流量計數 | 嚴重 | 從 NSX-T Data Center 3.1.3 開始。 IP 流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。 偵測到事件時:「邏輯路由器 {entity_id} 上 IP 流量的閘道防火牆流量資料表使用量已達到 {firewall_ip_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」 解決事件時:「邏輯路由器 {entity_id} 上的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」 |
|
IP 流量計數偏高 | 中 | 從 NSX-T Data Center 3.1.3 開始。 IP 流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量 偵測到事件時:「邏輯路由器 {entity_id} 上 IP 的閘道防火牆流量資料表使用量已達到 {firewall_ip_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」 解決事件時:「邏輯路由器 {entity_id} 上非 IP 流量的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」 |
|
已超過 TCP 流量計數 | 嚴重 | 從 NSX-T Data Center 3.1.3 開始。 TCP 半開流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。 偵測到事件時:「邏輯路由器 {entity_id} 上 TCP 流量的閘道防火牆流量資料表使用量已達到 {firewall_halfopen_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」 解決事件時:「邏輯路由器 {entity_id} 上的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」 |
|
TCP 流量計數偏高 | 中 | 從 NSX-T Data Center 3.1.3 開始。 TCP 半開流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。 偵測到事件時:「邏輯路由器 {entity_id} 上 TCP 的閘道防火牆流量資料表使用量已達到 {firewall_halfopen_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」 解決事件時:「邏輯路由器 {entity_id} 上 TCP 半開的閘道防火牆流量資料表使用量已低於高臨界值 {system_usage_threshold}%。」 |
|
已超過 UDP 流量計數 | 嚴重 | 從 NSX-T Data Center 3.1.3 開始。 UDP 流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。 偵測到事件時:「邏輯路由器 {entity_id} 上 UDP 流量的閘道防火牆流量資料表使用量已達到 {firewall_udp_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」 解決事件時:「邏輯路由器 {entity_id} 上的閘道防火牆流量資料表使用量已低於高臨界值。」 |
|
UDP 流量計數偏高 | 中 | 從 NSX-T Data Center 3.1.3 開始。 UDP 流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。 偵測到事件時:「邏輯路由器 {entity_id} 上 UDP 的閘道防火牆流量資料表使用量已達到 {firewall_udp_flow_usage}%,該值等於或高於高臨界值 {system_usage_threshold}%。當使用量達到上限時,閘道防火牆將捨棄新流量。」 解決事件時:「邏輯路由器 {entity_id} 上 UDP 的閘道防火牆流量資料表使用量已低於高臨界值。」 |
|
高可用性事件
高可用性事件是從 NSX Edge 和公有雲閘道節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
第 0 層閘道容錯移轉 | 高 | 第 0 層閘道已進行容錯移轉。 偵測到事件時:「第 0 層閘道 {entity-id} 從 {previous_gateway_state} 到 {current_gateway_state} 的容錯移轉。」 解決事件時:「第 0 層閘道 {entity-id} 現在已啟動。」 |
|
第 1 層閘道容錯移轉 | 高 | 第 1 層閘道已進行容錯移轉。 偵測到事件時:「第 1 層閘道 {entity_id} 從 {previous_gateway_state} 到 {current_gateway_state} 的容錯移轉,服務路由器 {service_router_id}。」 解決事件時:「第 1 層閘道 {entity-id} 現在已啟動。」 |
|
身分識別防火牆事件
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
與 LDAP 伺服器的連線中斷 | 嚴重 |
與 LDAP 伺服器的連線中斷。 偵測到事件時:「與 LDAP 伺服器 {ldap_server} 的連線中斷。」 偵測到事件時:「與 LDAP 伺服器 {ldap_server} 的連線已還原。」 |
執行下列步驟以檢查 LDAP 伺服器連線:
修正問題之後,請在身分識別防火牆 AD 下方使用 NSX UI 中的測試連線來測試連線。 |
差異同步中發生錯誤 |
嚴重 | 執行差異同步時發生錯誤。 偵測到事件時:「與 {directory_domain} 執行差異同步時發生錯誤。」 偵測到事件時:「與 {directory_domain} 執行差異同步時未發生任何錯誤。」 |
|
基礎結構通訊事件
基礎結構通訊事件是從 NSX Edge、KVM、ESXi 和公用閘道節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
Edge 通道已關閉 | 嚴重 | Edge 節點的通道狀態為已關閉。 偵測到事件時:「Edge 節點 {entity_id} 的整體通道狀態已關閉。」 解決事件時:「已還原 Edge 節點 {entity_id} 的通道。」 |
|
Intelligence 通訊事件
NSX Intelligence 通訊事件是從 NSX Manager 節點、ESXi 節點和 NSX Intelligence 應用裝置產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
傳輸節點流量匯出工具已中斷連線 | 高 | 傳輸節點已與其智慧節點的訊息代理中斷連線。資料收集受到影響。 偵測到事件時:「傳輸節點 {entity-id} 上的流量匯出工具已與智慧節點的傳訊代理中斷連線。資料收集受到影響。」 解決事件時:「傳輸節點 {entity-id} 上的流量匯出工具已重新連線至智慧節點的傳訊代理。」 |
|
至傳輸節點的控制通道關閉 | 中 | 控制器服務與傳輸節點的連線已關閉。 偵測到事件時:「從控制器服務的觀點來看,管理程式節點 {appliance_address} ({central_control_plane_id}) 上對傳輸節點 {entity-id} 的控制器服務已關閉至少三分鐘。」 解決事件時:「管理程式節點 {appliance_address} ({central_control_plane_id}) 上的控制器服務會還原與傳輸節點 {entity_id} 的連線。」 |
|
傳輸節點的控制通道關閉過久 |
嚴重 | 控制器服務與傳輸節點的連線關閉時間過長。 偵測到事件時:「從控制器服務的觀點來看,管理程式節點 {appliance_address} ({central_control_plane_id}) 上對傳輸節點 {entity-id} 的控制器服務已關閉至少 15 分鐘。」 解決事件時:「管理程式節點 {appliance_address} ({central_control_plane_id}) 上的控制器服務會還原與傳輸節點 {entity_id} 的連線。」 |
|
至管理程式節點的控制通道關閉 |
中 | 傳輸節點的控制平面與管理程式節點的連線已關閉。 偵測到事件時:「從傳輸節點的觀點來看,傳輸節點 {entity_id} 控制平面與管理程式節點 {appliance_address} 的連線已關閉至少 {timeout_in_minutes} 分鐘。」 解決事件時:「傳輸節點 {entity_id} 會還原與管理程式節點 {appliance_address} 的控制平面連線。」 |
|
至管理程式節點的控制通道關閉過久 |
嚴重 | 傳輸節點的控制平面與管理程式節點的連線已關閉一段時間。 偵測到事件時:「從傳輸節點的觀點來看,傳輸節點 {entity_id} 控制平面與管理程式節點 {appliance_address} 的連線已關閉至少 {timeout_in_minutes} 分鐘。」 解決事件時:「傳輸節點 {entity_id} 會還原與管理程式節點 {appliance_address} 的控制平面連線。」 |
|
傳輸節點的管理通道關閉 |
中 | 傳輸節點的管理通道已關閉。 偵測到事件時:「傳輸節點 {transport_node_name} ({transport_node_address}) 的管理通道已關閉達 5 分鐘。」 解決事件時:「傳輸節點 {transport_node_name} ({transport_node_address}) 的管理通道已開啟。」 |
|
至傳輸節點的管理通道關閉時間過長 |
嚴重 | 至傳輸節點的管理通道關閉時間過長。 偵測到事件時:「傳輸節點 {transport_node_name} ({transport_node_address}) 的管理通道已關閉達 15 分鐘。」 解決事件時:「傳輸節點 {transport_node_name} ({transport_node_address}) 的管理通道已開啟。」 |
|
管理程式叢集延遲高 |
中 | 管理程式節點之間的平均網路延遲高。 偵測到事件時:「在過去 5 分鐘內,管理程式節點 {manager_node_id} ({appliance_address}) 與 {remote_manager_node_id} ({remote_appliance_address}) 之間的平均網路延遲超過 10 毫秒。」 解決事件時:「管理程式節點 {manager_node_id} ({appliance_address}) 與 {remote_manager_node_id} ({remote_appliance_address}) 之間的平均網路延遲在 10 毫秒內。」 |
確保管理程式節點之間沒有防火牆規則會封鎖 Ping 流量。如果有其他高頻寬伺服器和應用程式共用本機網路,請考慮將這些伺服器和應用程式移至不同的網路。 |
管理程式控制通道關閉 |
嚴重 | 管理程式到控制器的通道已關閉。 偵測到事件時:「管理程式節點 {manager_node_name} ({appliance_address}) 上管理功能與控制功能之間的通訊失敗。」 解決事件時:「管理程式節點 {manager_node_name} ({appliance_address}) 上的管理功能與控制功能之間的通訊已還原。」 |
在管理程式節點 {manager_node_name} ({appliance_address}) 上,請叫用下列兩個 NSX CLI 命令: restart service mgmt-plane-bus restart service manager |
管理程式 FQDN 查閱失敗 |
嚴重 | 管理程式節點 FQDN 的 DNS 查閱失敗。 偵測到事件時:「對於 FQDN 為 {appliance_fqdn} 的管理程式節點 {entity_id} 的 DNS 查閱失敗,並已設定 publish_fqdns 旗標。」 解決事件時:「對於 FQDN 為 {appliance_fqdn} 的管理程式節點 {entity_id} 的 FQDN 查閱成功,或是已清除 publish_fqdns 旗標。」 |
|
管理程式 FQDN 反向查閱失敗 |
嚴重 | 管理程式節點 IP 位址的反向 DNS 查閱失敗。 偵測到事件時:「對 IP 位址為 {appliance_address} 的管理程式節點 {entity_id} 的反向 DNS 查閱失敗,並已設定 publish_fqdns 旗標。」 事件解決時:「對 IP 位址為 {appliance_address} 的管理程式節點 {entity_id} 的反向 DNS 查閱成功,或是已清除 publish_fqdns 旗標。」 |
|
至管理程式節點的管理通道關閉 | 中 | 至管理程式節點的管理通道已關閉。 偵測到事件時:「管理程式節點 {manager_node_id} ({appliance_address}) 的管理通道已關閉 5 分鐘。」 解決事件時:「管理程式節點 {manager_node_id} ({appliance_address}) 的管理通道已開啟。」 |
|
至管理程式節點的管理通道關閉時間過長 | 嚴重 | 至管理程式節點的管理通道關閉時間過長。 偵測到事件時:「管理程式節點 {manager_node_id} ({appliance_address}) 的管理通道已關閉 15 分鐘。」解決事件時:「管理程式節點 {manager_node_id} ({appliance_address}) 的管理通道已開啟。」 |
|
基礎結構服務事件
基礎結構服務事件是從 NSX Edge 和公用閘道節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
Edge 服務狀態已關閉
備註: 從
NSX-T Data Center 3.2 開始,將淘汰警示。
|
嚴重 | Edge 服務已關閉,時間已持續至少一分鐘。 如果檢視執行階段詳細資料連結可用,您可以按一下此連結以檢視服務關閉的原因。 偵測到事件時:「服務 {edge_service_name} 已關閉,時間已持續至少一分鐘。」 解決事件時:「服務 {edge_service_name} 已啟動。」 |
|
Edge 服務狀態已變更 | 中 | Edge 服務狀態已變更。 如果檢視執行階段詳細資料連結可用,您可以按一下此連結以檢視服務關閉的原因。 偵測到事件時:「服務 {edge_service_name} 已從 {previous_service_state} 變更為 {current_service_state}。」 解決事件時:「服務 {edge_service_name} 已從 {previous_service_state} 變更為 {current_service_state}。」 |
|
Intelligence 健全狀況事件
NSX Intelligence 健全狀況事件是從 NSX Manager 節點和 NSX Intelligence 應用裝置產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
CPU 使用率非常高 | 嚴重 | 智慧節點 CPU 使用率非常高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率低於極高臨界值 {system_usage_threshold}%。」 |
使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。 |
CPU 使用率高 | 中 | 智慧節點 CPU 使用率偏高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率高於高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的 CPU 使用率低於高臨界值 {system_usage_threshold}%。」 |
使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。 |
記憶體使用量非常高 | 嚴重 | 智慧節點記憶體使用量非常高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量低於極高臨界值 {system_usage_threshold}%。」 |
使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。 |
記憶體使用量高 | 中 | 智慧節點記憶體使用量偏高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量高於高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的記憶體使用量低於高臨界值 {system_usage_threshold}%。」 |
使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。 |
磁碟使用量非常高 | 嚴重 | 智慧節點磁碟使用量非常高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率低於極高臨界值 {system_usage_threshold}%。」 |
檢查磁碟分割 {disk_partition_name},並查看是否有任何非預期的大型檔案可移除。 |
磁碟使用量高 | 中 | 智慧節點磁碟使用量偏高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率高於高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 {disk_partition_name} 的磁碟使用率低於高臨界值 {system_usage_threshold}%。」 |
檢查磁碟分割 {disk_partition_name},並查看是否有任何非預期的大型檔案可移除。 |
資料磁碟分割使用量非常高 | 嚴重 | 智慧節點資料磁碟分割使用率非常高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率低於極高臨界值 {system_usage_threshold}%。」 |
停止 NSX Intelligence 資料收集,直到磁碟使用量低於臨界值。 在 NSX UI 中,導覽至系統應用裝置NSX Intelligence 應用裝置。然後,選取 。 |
資料磁碟分割使用量高 | 中 | 智慧節點資料磁碟分割使用率偏高。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率高於高臨界值 {system_usage_threshold}%。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上磁碟分割 /data 的磁碟使用率低於高臨界值 {system_usage_threshold}%。」 |
停止 NSX Intelligence 資料收集,直到磁碟使用量低於臨界值。 檢查 /data 磁碟分割,並查看是否有可移除的任何未預期的大型檔案。 |
節點狀態已降級 | 高 | 智慧節點狀態為已降級。 偵測到事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的服務 {service_name} 不在執行中。」 解決事件時:「NSX Intelligence 節點 {intelligence_node_id} 上的服務 {service_name} 正在正常執行。」 |
在 NSX Intelligence 節點中,使用 NSX CLI 命令 get services 檢查服務狀態和健全狀況資訊。 使用 NSX CLI 命令 restart service <service-name> 重新啟動未預期的已停止服務。 |
IP 位址管理事件
IP 位址管理 (IPAM) 事件會從 NSX Manager 節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
IP 區塊使用量非常高 | 中 | 從 NSX-T Data Center 3.1.2 開始。 IP 區塊的 IP 子網路使用量已達到 90%。 偵測到事件時:「<intent_path> 的 IP 區塊使用量非常高。IP 區塊即將到達其總容量,使用 IP 區塊來建立子網路可能會失敗。」 解決事件時: 無訊息。 |
備註: 僅在 IP 集區或子網路沒有任何已配置的 IP 且未來不會使用時,才刪除 IP 集區或子網路。
|
IP 集區使用量非常高 | 中 | 從 NSX-T Data Center 3.1.2 開始。 IP 集區的 IP 配置使用量已達到 90%。 偵測到事件時:「<intent_path> 的 IP 集區使用量非常高。IP 集區即將到達其總容量。取決於從 IP 集區配置 IP 之實體/服務的建立可能會失敗。」 解決事件時: 無訊息。 |
檢閱 IP 集區使用量。釋放 IP 集區中未使用的 IP 配置,或建立新的 IP 集區。
您可以釋放這些未使用的 IP。若要釋放未使用的 IP 配置,請叫用下列 NSX API。
|
授權事件
授權事件是從 NSX Manager 節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
授權已到期 | 嚴重 | 授權已到期。 偵測到事件時:「類型 {license_edition_type} 的授權已到期。」 解決事件時:「類型 {license_edition_type} 的過期授權已移除、更新或不再到期。」 |
新增新的、非到期授權:
|
授權即將到期 | 中 | 「授權即將到期。偵測到事件時:「類型為 {license_edition_type} 的授權即將到期。」 解決事件時:「由 {license_edition_type} 識別的到期授權已移除、更新,或不再即將到期。」 |
新增新的、非到期授權:
|
負載平衡器事件
負載平衡器事件會從 NSX Edge 節點或從 NSX Manager 節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
LB CPU 非常高 | 中 | 負載平衡器 CPU 使用率非常高。 偵測到事件時:「負載平衡器 {entity_id} 的 CPU 使用率非常高。臨界值是 {system_usage_threshold}%。」 解決事件時:「負載平衡器 {entity_id} 的 CPU 使用率足夠低。臨界值是 {system_usage_threshold}%。」 |
如果負載平衡器 CPU 使用率高於系統使用率臨界值,則工作負載對此負載平衡器來說過高。 將負載平衡器的大小從小型變更為中型或從中型變更為大型,以重新調整負載平衡器服務。 如果此負載平衡器的 CPU 使用率仍然很高,請考慮調整 Edge 應用裝置機器尺寸大小,或將負載平衡器服務移至其他 Edge 節點,以獲得適當的工作負載。 |
LB 狀態關閉 |
嚴重 | 集中式負載平衡器服務已關閉。 偵測到事件時:「集中式負載平衡器服務 {entity_id} 已關閉。」 解決事件時:「集中式負載平衡器服務 {entity_id} 已啟動。」 |
|
虛擬伺服器狀態關閉 | 中 | 負載平衡器虛擬服務已關閉。 偵測到事件時:「負載平衡器虛擬伺服器 {entity_id} 已關閉。」 解決事件時:「負載平衡器虛擬伺服器 {entity_id} 已啟動。」 |
請查閱負載平衡器集區,以判定其狀態並確認其組態。 如果設定錯誤,請將其重新設定並從虛擬伺服器移除該負載平衡器集區,然後重新將其新增至虛擬伺服器。 |
集區狀態關閉 | 中 | 負載平衡器集區已關閉。 偵測到事件時:「負載平衡器集區 {entity_id} 狀態為關閉。」 解決事件時:「負載平衡器集區 {entity_id} 狀態為啟動。」 |
當建立成員的健全狀況時,集區成員狀態會根據監視器中的「Rise Count」組態更新為狀況良好。 |
LB 狀態已降級 |
中 | 從 NSX-T Data Center 3.1.2 開始。 負載平衡器服務已降級。 偵測到事件時:「負載平衡器服務 {entity_id} 已降級。」 解決事件時:「負載平衡器服務 {entity_id} 未降級。」 |
|
DLB 狀態關閉 |
嚴重 | 從 NSX-T Data Center 3.1.2 開始。 分散式負載平衡器服務已關閉。 偵測到事件時:「分散式負載平衡器服務 {entity_id} 已關閉。」 解決事件時:「分散式負載平衡器服務 {entity_id} 已啟動。」 |
|
LB Edge 使用中的容量高 |
中 | 從 NSX-T Data Center 3.1.2 開始。 負載平衡器使用率偏高 偵測到事件時:「Edge 節點 {entity_id} 中的負載平衡器服務使用量偏高。臨界值是 {system_usage_threshold}%。」 解決事件時:「Edge 節點 {entity_id} 中的負載平衡器服務使用量足夠低。臨界值是 {system_usage_threshold}%。」 |
如果在此 Edge 節點中設定了多個 LB 執行個體,請部署新的 Edge 節點,並將部分 LB 執行個體移至該新的 Edge 節點。如果在相同大小 (小型、中型等) 的 Edge 節點中僅設定了單個 LB 執行個體 (小型、中型等),請部署一個較大的新 Edge,並將此 LB 執行個體移至該新的 Edge 節點。 |
LB 集區成員使用中的容量非常高 |
嚴重 | 從 NSX-T Data Center 3.1.2 開始。 負載平衡器集區成員使用率非常高。 偵測到事件時:「Edge 節點 {entity_id} 中的集區成員使用量非常高。臨界值是 {system_usage_threshold}%。」 解決事件時:「Edge 節點 {entity_id} 中的集區成員使用量足夠低。臨界值是 {system_usage_threshold}%。」 |
部署新的 Edge 節點,並將負載平衡器服務從現有 Edge 節點移至新部署的 Edge 節點。 |
由於缺少記憶體,負載平衡組態未實現 |
中 | 由於 Edge 節點上的記憶體使用量過高,負載平衡器組態未實現。 偵測到事件時:「由於 Edge 節點 {transport_node_id} 上的記憶體使用量過高,負載平衡器組態 {entity_id} 未實現。」 解決事件時:「負載平衡器組態 {entity_id} 已於 {transport_node_id} 上實現。」 |
|
管理程式健全狀況事件
NSX Manager 健全狀況事件是從 NSX Manager 節點叢集產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
重複的 IP 位址 | 中 | 管理程式節點的 IP 位址由其他裝置使用中。 偵測到事件時:「管理程式節點 {entity_id} 的 IP 位址 {duplicate_ip_address} 目前由網路中的其他裝置使用中。」 偵測到事件時:「使用指派給管理程式節點 {entity_id} 的 IP 位址的裝置似乎已不再使用 {duplicate_ip_address}。」 |
|
管理程式 CPU 使用率非常高 | 嚴重 | 管理程式節點 CPU 使用率非常高。 偵測到事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
請檢閱此管理程式節點的組態、執行中服務和大小調整。 考慮調整管理程式應用裝置機器尺寸大小。 |
管理程式 CPU 使用率高 | 中 | 從 NSX-T Data Center 3.0.1 開始。 管理程式節點 CPU 使用率偏高。 偵測到事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」 解決事件時:「管理程式節點 {entity_id} 上的 CPU 使用率已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
請檢閱此管理程式節點的組態、執行中服務和大小調整。 考慮調整管理程式應用裝置機器尺寸大小。 |
管理程式記憶體使用量非常高 | 嚴重 | 從 NSX-T Data Center 3.0.1 開始。 管理程式節點記憶體使用量非常高。 偵測到事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
請檢閱此管理程式節點的組態、執行中服務和大小調整。 考慮調整管理程式應用裝置機器尺寸大小。 |
管理程式記憶體使用量高 | 中 | 管理程式節點記憶體使用量偏高。 偵測到事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。」 解決事件時:「管理程式節點 {entity_id} 上的記憶體使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
請檢閱此管理程式節點的組態、執行中服務和大小調整。 考慮調整管理程式應用裝置機器尺寸大小。 |
管理程式磁碟使用量非常高 | 嚴重 | 管理程式節點磁碟使用量非常高。 偵測到事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。」 解決事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。 |
管理程式磁碟使用量高 | 中 | 管理程式節點磁碟使用量偏高。 偵測到事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於高臨界值{system_usage_threshold}%。」 解決事件時:「管理程式節點磁碟分割 {disk_partition_name} 的磁碟使用量目前已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。 |
管理程式組態磁碟使用量非常高 |
嚴重 | 管理程式節點組態磁碟使用量非常高。 偵測到事件時:「管理程式節點磁碟分割 /config 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /config/corfu 目錄下的磁碟使用量過高。」 解決事件時:「管理程式節點磁碟分割 /config 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
如果報告了問題,請執行下列工具,並連絡 GSS: /opt/vmware/tools/support/inspect_checkpoint_issues.py |
管理程式組態磁碟使用量高 | 中 | 管理程式節點組態磁碟使用量偏高。 偵測到事件時:「管理程式節點磁碟分割 /config 的磁碟使用量目前已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /config/corfu 目錄下的磁碟使用量正在上升。」 解決事件時:「管理程式節點磁碟分割 /config 的磁碟使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
檢查 /config 磁碟分割,並查看是否有可移除的任何未預期的大型檔案。 |
作業 DB 磁碟使用量高 |
中 | 管理程式節點 nonconfig 磁碟使用量偏高。 偵測到事件時:「管理程式節點磁碟分割 /nonconfig 的磁碟使用量已達到 {system_resource_usage}%,這等於或高於高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /nonconfig/corfu 目錄下的磁碟使用量正在上升。」 解決事件時:「管理程式節點磁碟分割 /nonconfig 的磁碟使用量已達到 {system_resource_usage}%,這低於高臨界值 {system_usage_threshold}%。」 |
如果有回報問題,請執行下列工具,並連絡 GSS:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig。 |
作業資料庫磁碟使用量極高 | 嚴重 | 管理程式節點 nonconfig 磁碟使用量極高。 偵測到事件時:「管理程式節點磁碟分割 /nonconfig 的磁碟使用量已達到 {system_resource_usage}%,這等於或高於極高臨界值 {system_usage_threshold}%。這可能表示 NSX 資料存放區服務在 /nonconfig/corfu 目錄下的磁碟使用量過高。」 解決事件時:「管理程式節點磁碟分割 /nonconfig 的磁碟使用量已達到 {system_resource_usage}%,這低於極高臨界值 {system_usage_threshold}%。」 |
如果有回報問題,請執行下列工具,並連絡 GSS:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig。 |
NCP 事件
NSX Container Plug-in (NCP) 事件是從 ESXi 和 KVM 節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
NCP 外掛程式已關閉 | 嚴重 | 管理程式節點偵測到 NCP 已關閉或狀況不良。 偵測到事件時:「管理程式節點偵測到 NCP 已關閉或狀況不良。」 解決事件時:「管理程式節點偵測到 NCP 已再次啟動或狀況良好。」 |
|
節點代理程式健全狀況事件
節點代理程式健全狀況事件是從 ESXi 和 KVM 節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
節點代理程式已關閉 | 高 | 在節點虛擬機器內執行的代理程式似乎已關閉。 偵測到事件時:「在節點虛擬機器內執行的代理程式似乎已關閉。」 解決事件時:「節點虛擬機器內的代理程式執行中。」 |
對於 ESX:
對於 KVM:
對於 ESX 和 KVM:
|
NSX 聯盟事件
NSX 聯盟事件會從 NSX Manager、NSX Edge 和公用閘道節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
GM 到 GM 延遲警告 |
中 | 全域管理程式之間的延遲高於預期 2 分鐘以上。 偵測到事件時:「全域管理程式 {from_gm_path} 與 {to_gm_path} 之間的延遲高於預期。」 解決事件時:「全域管理程式 {from_gm_path} 與 {to_gm_path} 之間的延遲低於預期的層級。」 |
透過 Ping 檢查從全域管理程式 {from_gm_path}({site_id}) 到全域管理程式 {to_gm_path}({remote_site_id}) 的連線。如果無法執行 Ping,請檢查 WAN 連線的穩定性。 |
GM 到 GM 同步錯誤 |
高 | 作用中全域管理程式無法同步到待命全域管理程式超過 5 分鐘。 偵測到事件時:「作用中全域管理程式 {from_gm_path} 無法同步到待命全域管理程式 {to_gm_path} 超過 5 分鐘。」 解決事件時:「從作用中全域管理程式 {from_gm_path} 到待命全域管理程式 {to_gm_path} 的同步狀況良好。」 |
透過 Ping 檢查從全域管理程式 {from_gm_path}({site_id}) 到全域管理程式 {to_gm_path}({remote_site_id}) 的連線。 |
GM 到 GM 同步警告 |
中 | 作用中全域管理程式無法同步到待命全域管理程式。 偵測到事件時:「作用中全域管理程式 {from_gm_path} 無法同步到待命全域管理程式 {to_gm_path}。」 解決事件時:「從作用中全域管理程式 {from_gm_path} 到待命全域管理程式 {to_gm_path} 的同步狀況良好。」 |
透過 Ping 檢查從全域管理程式 {from_gm_path}({site_id}) 到全域管理程式 {to_gm_path}({remote_site_id}) 的連線。 |
LM 對 LM 的同步錯誤 |
高 | 從 NSX-T Data Center 3.0.1 開始。 遠端位置之間的同步失敗超過 5 分鐘。 偵測到事件時:「{site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的同步失敗超過 5 分鐘。」 解決事件時:「遠端站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 現已同步。」 |
|
LM 對 LM 的同步警告 | 中 | 從 NSX-T Data Center 3.0.1 開始。 遠端位置之間的同步失敗。 偵測到事件時:「{site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間同步失敗。」 解決事件時:「遠端位置 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 現已同步。」 |
|
RTEP BGP 關閉 | 高 | 從 NSX-T Data Center 3.0.1 開始。 RTEP BGP 芳鄰已關閉。 偵測到事件時:「從來源 IP {bgp_source_ip} 至遠端位置 {remote_site_name} 芳鄰 IP {bgp_neighbor_ip} 的 RTEP (遠端通道端點) BGP 工作階段已關閉。」 解決事件時:「從來源 IP {bgp_source_ip} 至遠端位置 {remote_site_name} 芳鄰 IP {bgp_neighbor_ip} 的 RTEP (遠端通道端點) BGP 工作階段已建立。」 |
|
GM 到 LM 同步警告 |
中 | 全域管理程式 (GM) 與本機管理程式 (LM) 之間的資料同步失敗。 偵測到事件時:「站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的 {flow_identifier} 資料同步失敗。」 解決事件時:「站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的 {flow_identifier} 現已同步。」 |
|
GM 到 LM 同步錯誤 |
高 | 全域管理程式 (GM) 與本機管理程式 (LM) 之間的資料同步長時間失敗。 偵測到事件時:「站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的 {flow_identifier} 資料同步長時間失敗。」 解決事件時:「站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的 {flow_identifier} 現已同步。」 |
|
已超過佇列佔用臨界值 |
中 | 已超過佇列佔用大小臨界值警告。 偵測到事件時:「用於同步站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間資料的佇列 ({queue_name}) 已達到大小 {queue_size},這等於或高於最大臨界值 {queue_size_threshold}%。」 解決事件時:「用於同步站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間資料的佇列 ({queue_name}) 已達到大小 {queue_size},這低於最大臨界值 {queue_size_threshold}%。」 |
由於遠端站台的通訊問題或系統超載,佇列大小可能超過臨界值。請檢查系統效能和 /var/log/async-replicator/ar.log,以確認是否報告了任何錯誤。 |
GM 到 LM 延遲警告 | 中 | 全域管理程式與本機管理程式之間的延遲高於預期 2 分鐘以上。 偵測到事件時:「站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的延遲已達到 {latency_value},這高於臨界值 {latency_threshold}。」 解決事件時:「站台 {site_name}({site_id}) 與 {remote_site_name}({remote_site_id}) 之間的延遲已達到 {latency_value},這低於臨界值 {latency_threshold}。」 |
|
叢集已降級 |
中 | 群組成員已關閉。 偵測到事件時:「服務 {group_type} 的群組成員 {manager_node_id} 已關閉。」 解決事件時:「服務 {group_type} 的群組成員 {manager_node_id} 已啟動。」 |
|
叢集無法使用 |
高 | 服務的所有群組成員皆已關閉。 偵測到事件時:「服務 {group_type} 的所有群組成員 {manager_node_id} 已關閉。」解決事件時:「服務 {group_type} 的所有群組成員 {manager_node_id} 已啟動。」 |
|
密碼管理事件
密碼管理事件是從 NSX Manager、NSX Edge 和公用閘道節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
密碼已到期 | 嚴重 | 使用者密碼已到期。 偵測到事件時:「使用者 {username} 的密碼已到期。」 解決事件時:「使用者 {username} 的密碼已成功變更或不再到期。」 |
使用者 {username} 的密碼必須立即變更才能存取系統。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:
其中 |
密碼即將到期 | 高 | 使用者密碼即將到期。 偵測到事件時:「使用者 {username} 的密碼即將在 {password_expiration_days} 天後到期。」 解決事件時:「使用者 {username} 的密碼已成功變更或不再即將到期。」 |
確定由 {username} 識別的使用者密碼會立即變更。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:
其中 |
接近密碼到期 | 中 | 使用者密碼即將到期。 偵測到事件時:「使用者 {username} 的密碼即將在 {password_expiration_days} 天後到期。」 解決事件時:「使用者 {username} 的密碼已成功變更或不再即將到期。」 |
由 {username} 識別的使用者的密碼需要盡快變更。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:
其中 |
路由事件
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
BGP 已關閉 | 高 | BGP 芳鄰已關閉。 偵測到事件時:「在路由器 {entity_id} 中,BGP 芳鄰 {bgp_neighbor_ip} 已關閉,原因:{failure_reason}。」 解決事件時:「在路由器 {entity_id} 中,BGP 芳鄰 {bgp_neighbor_ip} 已啟動。」 |
|
外部介面上的 BFD 已關閉 |
高 | BFD 工作階段已關閉。 偵測到事件時:「在路由器 {entity_id} 中,對等 {peer_address} 的 BFD 工作階段已關閉。」 解決事件時:「在路由器 {entity_id} 中,對等 {peer_address} 的 BFD 工作階段已啟動。」 |
|
路由關閉 | 高 | 所有 BGP/BFD 工作階段已關閉。 偵測到事件時:「所有 BGP/BFD 工作階段已關閉。」 解決事件時:「至少一個 BGP/BFD 工作階段已開啟。」 |
|
靜態路由已移除 | 高 | 靜態路由已移除。 偵測到事件時:「在路由器 {entity_id} 中,靜態路由 {static_address} 已移除,因為 BFD 已關閉。」 解決事件時:「在路由器 {entity_id} 中,靜態路由 {static_address} 已在 BFD 復原時重新新增。」 |
|
傳輸區域內的 MTU 不符 | 高 | 連結至相同傳輸區域之傳輸節點 (例如 ESXi、KVM 和 Edge) 之間的 MTU 組態不相符。連結至相同傳輸區域之所有交換器上的 MTU 值不一致時將會導致連線問題。 |
|
全域路由器 MTU 太大 | 中 | 全域路由器 MTU 組態大於連線至第 0 層或第 1 層之覆疊傳輸區域中的交換器 MTU。全域路由器 MTU 值應小於所有交換器 MTU 值至少 100,因為我們的 Geneve 封裝需要 100 個配額。 |
|
傳輸節點健全狀況
傳輸節點健全狀況事件是從 KVM 和 ESXi 節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
LAG 成員已關閉 | 中 | LACP 報告成員已關閉。 偵測到事件時:「LACP 報告成員已關閉。」 解決事件時:「LACP 報告成員已啟動。」 |
檢查主機上 LAG 成員的連線狀態。
|
傳輸節點上行關閉 |
中 | 上行即將關閉。 偵測到事件時:「上行即將關閉。」 解決事件時:「上行即將啟動。」 |
檢查主機上上行的實體 NIC 狀態。
|
VPN 事件
VPN 事件是從 NSX Edge 和公用閘道節點產生。
事件名稱 | 嚴重性 | 警示訊息 | 建議的動作 |
---|---|---|---|
以 IPsec 原則為基礎的工作階段關閉 | 中 | 以原則為基礎的 IPsec VPN 工作階段已關閉。 偵測到事件時:「以原則為基礎的 IPsec VPN 工作階段 {entity_id} 已關閉。原因:{session_down_reason}。」 解決事件時:「以原則為基礎的 IPsec VPN 工作階段 {entity_id} 已啟動。 |
檢查 IPsec VPN 工作階段組態,並根據工作階段關閉的原因解決錯誤。 |
以 IPsec 路由為基礎的工作階段關閉 | 中 | 以路由為基礎的 IPsec VPN 工作階段已關閉。 偵測到事件時:「以路由為基礎的 IPsec VPN 工作階段 {entity_id} 已關閉。原因:{session_down_reason}。」 解決事件時:「以路由為基礎的 IPsec VPN 工作階段 {entity_id} 已啟動。」 |
檢查 IPsec VPN 工作階段組態,並根據工作階段關閉的原因解決錯誤。 |
以 IPsec 原則為基礎的通道關閉 | 中 | 以原則為基礎的 IPsec VPN 通道已關閉。 偵測到事件時:「工作階段 {entity_id} 中一或多個以原則為基礎的 IPsec VPN 通道已關閉。」 解決事件時:「工作階段 {entity_id} 中所有以原則為基礎的 IPsec VPN 通道均已啟動。」 |
檢查 IPsec VPN 工作階段組態,並根據通道關閉的原因解決錯誤。 |
以 IPsec 路由為基礎的通道已關閉 | 中 | 以路由為基礎的 IPsec VPN 通道已關閉。 偵測到事件時:「工作階段 {entity_id} 中一或多個以路由為基礎的 IPsec VPN 通道已關閉。」 解決事件時:「工作階段 {entity_id} 中所有以路由為基礎的 IPsec VPN 通道均已啟動。」 |
檢查 IPsec VPN 工作階段組態,並根據通道關閉的原因解決錯誤。 |
L2VPN 工作階段關閉 | 中 | L2VPN 工作階段已關閉。 偵測到事件時:「L2VPN 工作階段 {entity_id} 已關閉。」 解決事件時:「L2VPN 工作階段 {entity_id} 已啟動。」 |
檢查 IPsec VPN 工作階段組態,並根據原因解決錯誤。 |
IPsec 服務關閉 |
中 | IPsec 服務已關閉。若要檢視服務關閉的原因,請按一下檢視執行階段詳細資料連結。 偵測到事件時:「IPsec 服務 {entity_id} 已關閉。」 解決事件時:「IPsec 服務 {entity_id} 已啟動。」 |
|