NSX 事件目錄
下表說明在 VMware NSX® 中觸發警示的事件,包括警示訊息以及用來解決這些警示的建議動作。任何事件只要嚴重性大於低都會觸發警示。警示資訊會顯示在 NSX Manager 介面內的多個位置。警示和事件資訊也包含在標題列的 [通知] 下拉式功能表的其他通知中。若要檢視警示,請導覽至首頁,然後按一下警示索引標籤。如需警示和事件的詳細資訊,請參閱《NSX 管理指南》中的〈使用事件和警示〉。
警示管理事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
警示服務已超載 | 嚴重 | global-manager、manager、aas | 警示服務已超載。 |
請使用 NSX UI 中的 [警示] 頁面,或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API,來檢閱所有作用中的警示。對於每個作用中的警示,請透過依據建議的警示動作調查其根本原因。解決夠多的警示後,警示服務就會重新開始報告新的警示。 |
3.0.0 |
大量警示 | 嚴重 | global-manager、manager、aas | 偵測到大量的特定警示類型。 |
請使用 NSX UI 中的 [警示] 頁面或使用 GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API,來檢閱 {event_id} 類型的所有作用中警示。對於每個作用中的警示,請透過依據建議的警示動作調查其根本原因。解決夠多的警示後,警示服務就會重新開始報告新的 {event_id} 警示。 |
3.0.0 |
稽核記錄健全狀況事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
稽核記錄檔更新錯誤 | 嚴重 | global-manager、manager、edge、public-cloud-gateway、esx、kvm、bms | 至少有一個監控的記錄檔無法寫入。 |
1.在管理程式和全域管理程式節點、Edge 和公用雲端閘道節點上,Ubuntu KVM 主機節點可確保 /var/log 目錄的權限為 775,且擁有權為 root:syslog。一個 Rhel KVM 和 BMS 主機節點可確保 /var/log 目錄的權限為 755,且擁有權為 root:root。 |
3.1.0 |
遠端記錄伺服器錯誤 | 嚴重 | global-manager、manager、edge、public-cloud-gateway | 由於不正確的遠端記錄伺服器組態,記錄訊息無法傳遞。 |
1.確保 {hostname_or_ip_address_with_port} 是正確的主機名稱或 IP 位址和連接埠。 |
3.1.0 |
容量事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
容量臨界值下限 | 中 | manager | 已違反容量臨界值下限。 |
導覽至 NSX UI 中的容量頁面,並檢閱目前使用量與臨界值限制。如果目前使用量正常,請考慮增加最小臨界值。如果目前使用量異常,請檢閱設定的網路原則,讓使用量減少至最小臨界值或以下。 |
3.1.0 |
容量臨界值上限 | 高 | manager | 已違反容量臨界值上限。 |
導覽至 NSX UI 中的容量頁面,並檢閱目前使用量與臨界值限制。如果目前使用量正常,請考慮增加最大臨界值。如果目前使用量異常,請檢閱設定的網路原則,讓使用量減少至最大臨界值或以下。 |
3.1.0 |
容量上限 | 嚴重 | manager | 已違反容量上限。 |
請確定所建立的 NSX 物件數在 NSX 支援的限制範圍內。如果有任何未使用的物件,請使用各自的 NSX UI 或 API 將其從系統中刪除。考慮增加所有管理程式節點和/或 Edge 節點的機器尺寸。請注意,每個節點類型的機器尺寸應相同。如果不同,將使用所部署最低機器尺寸的容量限制。 |
3.1.0 |
憑證事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
憑證已到期 | 嚴重 | global-manager、manager | 憑證已到期。 |
確保目前使用憑證的服務已更新,以使用新的、非已到期憑證。到期的憑證不再使用時,應叫用 DELETE {api_collection_path}{entity_id} NSX API,將其刪除。如果 NAPP 平台使用到期的憑證,則 NSX 與 NAPP 平台之間的連線會中斷。請檢查 NAPP 平台疑難排解文件,以使用自我簽署的 NAPP CA 憑證來復原連線。 |
3.0.0 |
憑證即將到期 | 高 | global-manager、manager | 憑證即將到期。 |
確保目前使用憑證的服務已更新,以使用新的、非到期中憑證。即將到期的憑證不再使用時,應叫用 DELETE {api_collection_path}{entity_id} NSX API,將其刪除。 |
3.0.0 |
接近憑證到期 | 中 | global-manager、manager | 憑證接近到期日。 |
確保目前使用憑證的服務已更新,以使用新的、非到期中憑證。即將到期的憑證不再使用時,應叫用 DELETE {api_collection_path}{entity_id} NSX API,將其刪除。 |
3.0.0 |
建議進行 CA 服務包更新 | 高 | global-manager、manager | 推薦更新受信任的 CA 服務包。 |
請確定目前使用受信任 CA 服務包的服務已更新,以使用最近更新的受信任 CA 服務包。除非是系統提供的服務包,否則可以使用 PUT /policy/api/v1/infra/cabundles/{entity_id} NSX API 來更新服務包。一旦到期的服務包不再使用,應叫用 DELETE /policy/api/v1/infra/cabundles/{entity_id} NSX API,將其刪除 (如果不是系統提供的服務包)。 |
3.2.0 |
建議進行 CA 服務包更新 | 中 | global-manager、manager | 建議更新受信任的 CA 服務包。 |
請確定目前使用受信任 CA 服務包的服務已更新,以使用最近更新的受信任 CA 服務包。除非是系統提供的服務包,否則可以使用 PUT /policy/api/v1/infra/cabundles/{entity_id} NSX API 來更新服務包。一旦到期的服務包不再使用,應叫用 DELETE /policy/api/v1/infra/cabundles/{entity_id} NSX API,將其刪除 (如果不是系統提供的服務包)。 |
3.2.0 |
傳輸節點憑證已到期 | 嚴重 | bms、edge、esx、kvm、public-cloud-gateway | 憑證已到期。 |
請將傳輸節點 {entity_id} 憑證取代為未到期的憑證。到期的憑證應藉由叫用 POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id} NSX API 來取代。如果傳輸節點使用到期的憑證,傳輸節點與管理程式節點之間連線將會中斷。 |
4.1.0 |
傳輸節點憑證即將到期 | 高 | bms、edge、esx、kvm、public-cloud-gateway | 憑證即將到期。 |
請將傳輸節點 {entity_id} 憑證取代為未到期的憑證。到期的憑證應藉由叫用 POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id} NSX API 來取代。若未取代憑證,當憑證到期時,傳輸節點與管理程式節點之間的連線將會中斷。 |
4.1.0 |
傳輸節點憑證接近到期日 | 中 | bms、edge、esx、kvm、public-cloud-gateway | 憑證接近到期日。 |
請將傳輸節點 {entity_id} 憑證取代為未到期的憑證。到期的憑證應藉由叫用 POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id} NSX API 來取代。若未取代憑證,當憑證到期時,傳輸節點與管理程式節點之間的連線將會中斷。 |
4.1.0 |
叢集事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
叢集已降級 | 中 | global-manager、manager | 群組成員已關閉。 |
1.叫用 NSX CLI 命令 'get cluster status',以檢視叢集的群組成員狀態。 |
3.2.0 |
叢集無法使用 | 高 | global-manager、manager | 服務的所有群組成員皆已關閉。 |
1.確定 {group_type} 的服務正在節點上執行。叫用 GET /api/v1/node/services/<service_name>/status NSX API 或 get service <service_name> NSX CLI 命令,以判斷服務是否正在執行。如果不在執行中,請叫用 POST /api/v1/node/services/<service_name>?action=restart NSX API 或 restart service <service_name> NSX CLI,以重新啟動服務。 |
3.2.0 |
CNI 健全狀況事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
DPU 上的 Hyperbus 管理程式連線關閉 | 中 | dpu | DPU 上的 Hyperbus 無法與管理程式節點通訊。 |
DPU {dpu_id} 上可能遺失 Hyperbus vmkernel 介面 (vmk50)。請參閱知識庫文章 https://kb.vmware.com/s/article/67432。 |
4.0.0 |
Hyperbus 管理程式連線已關閉 | 中 | esx、kvm | Hyperbus 無法與管理程式節點通訊。 |
Hyperbus vmkernel 介面 (vmk50) 可能遺失。請參閱知識庫文章 https://kb.vmware.com/s/article/67432。 |
3.0.0 |
通訊事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
DPU 上的連線性受限 | 中 | dpu | 指定的收集器無法在 DPU 透過指定 DVS 上的 vmknic 進行連線。 |
如果發出警告,不表示收集器無法連線。根據 DVS {dvs_alias},垂直產生的匯出流量仍可在 DVS (除了 DVS {dvs_alias}) 透過 vmknic 連線到收集器 {collector_ip}。如果無法接受此情況,使用者可以嘗試在 DVS {dvs_alias} 上建立具有堆疊 {stack_alias} 的 vmknic,並使用適當的 IPv4(6) 位址對其進行設定,然後檢查是否可在 DPU {dpu_id} 透過新建立的 vmknic 來連線至 {vertical_name} 收集器 {collector_ip},方法是在啟用「透過 ESXi 使用 SSH 來連線至 DPU」的情況下,叫用 vmkping {collector_ip} -S {stack_alias} -I vmkX。 |
4.0.1 |
DPU 上無法連線的收集器 | 嚴重 | dpu | 指定的收集器無法在 DPU 透過的現有 vmknic 進行連線。 |
若要讓收集器可在 DVS 上垂直指定以進行連線,使用者必須確定建立具有預期堆疊 {stack_alias} 的 vmknic 並設定適當的 IPv4(6) 位址,並且與 {vertical_name} 收集器 {collector_ip} 的網路連線也正常。因此,使用者必須在 DPU {dpu_id} 執行檢查,並執行所需組態以確保符合條件。最後,如果在啟用「透過 ESXi 使用 SSH 來連線至 DPU」的情況下叫用 vmkping {collector_ip} -S {stack_alias} 成功,則表示問題已不存在。 |
4.0.1 |
管理程式叢集延遲高 | 中 | manager | 管理程式節點之間的平均網路延遲高。 |
請確定管理程式節點之間沒有防火牆規則會封鎖 Ping 流量。如果有其他高頻寬伺服器和應用程式共用本機網路,請考慮將這些伺服器和應用程式移至不同的網路。 |
3.1.0 |
至管理程式節點的控制通道關閉過久 | 嚴重 | bms、edge、esx、kvm、public-cloud-gateway | 傳輸節點的控制平面與管理程式節點的連線已關閉一段時間。 |
1.透過 Ping 檢查從傳輸節點 {entity_id} 到管理程式節點 {appliance_address} 介面的連線。如果偵測不到,請檢查網路連線的穩定性。 |
3.1.0 |
至管理程式節點的控制通道關閉 | 中 | bms、edge、esx、kvm、public-cloud-gateway | 傳輸節點的控制平面與管理程式節點的連線已關閉。 |
1.透過 Ping 檢查從傳輸節點 {entity_id} 到管理程式節點 {appliance_address} 介面的連線。如果偵測不到,請檢查網路連線的穩定性。 |
3.1.0 |
至傳輸節點的控制通道關閉 | 中 | manager | 對傳輸節點連線的控制器服務已關閉。 |
1.透過 Ping 和 traceroute 檢查控制器服務 {central_control_plane_id} 與傳輸節點 {entity_id} 介面之間的連線。NSX Manager 節點 admin CLI 上可以執行此工作。Ping 測試不應發現捨棄,且應有一致的延遲值。VMware 建議的延遲值為 150 毫秒或更短。 |
3.1.0 |
至傳輸節點的控制通道關閉過久 | 嚴重 | manager | 控制器服務與傳輸節點的連線關閉時間過長。 |
1.透過 Ping 和 traceroute 檢查控制器服務 {central_control_plane_id} 與傳輸節點 {entity_id} 介面之間的連線。NSX Manager 節點 admin CLI 上可以執行此工作。Ping 測試不應發現捨棄,且應有一致的延遲值。VMware 建議的延遲值為 150 毫秒或更短。 |
3.1.0 |
管理程式控制通道關閉 | 嚴重 | manager | 管理程式到控制器的通道已關閉。 |
1.在管理程式節點 {manager_node_name} ({appliance_address}) 上,叫用 get service applianceproxy NSX CLI 命令,以定期檢查服務狀態 60 分鐘。 |
3.0.2 |
傳輸節點的管理通道關閉 | 中 | manager | 傳輸節點的管理通道已關閉。 |
確保管理程式節點和傳輸節點 {transport_node_name} ({transport_node_address}) 之間存在網路連線,且沒有防火牆封鎖節點之間的流量。在 Windows 傳輸節點上,透過在 Windows PowerShell 中叫用 C:\NSX\nsx-proxy\nsx-proxy.ps1 status 命令,確保 nsx-proxy 服務正在傳輸節點上執行。如果未執行,請叫用 C:\NSX\nsx-proxy\nsx-proxy.ps1 restart 命令,來重新啟動它。在所有其他傳輸節點上,叫用 /etc/init.d/nsx-proxy status 命令,確保 nsx-proxy 服務正在傳輸節點上執行。如果未執行,請叫用 /etc/init.d/nsx-proxy restart 命令,以重新啟動它。 |
3.0.2 |
至傳輸節點的管理通道關閉時間過長 | 嚴重 | manager | 至傳輸節點的管理通道關閉時間過長。 |
確保管理程式節點和傳輸節點 {transport_node_name} ({transport_node_address}) 之間存在網路連線,且沒有防火牆封鎖節點之間的流量。在 Windows 傳輸節點上,透過在 Windows PowerShell 中叫用 C:\NSX\nsx-proxy\nsx-proxy.ps1 status 命令,確保 nsx-proxy 服務正在傳輸節點上執行。如果未執行,請叫用 C:\NSX\nsx-proxy\nsx-proxy.ps1 restart 命令,來重新啟動它。在所有其他傳輸節點上,叫用 /etc/init.d/nsx-proxy status 命令,確保 nsx-proxy 服務正在傳輸節點上執行。如果未執行,請叫用 /etc/init.d/nsx-proxy restart 命令,以重新啟動它。 |
3.0.2 |
管理程式 FQDN 查閱失敗 | 嚴重 | global-manager、bms、edge、esx、kvm、manager、public-cloud-gateway | 管理程式節點 FQDN 的 DNS 查閱失敗。 |
1.將正確的 FQDN 指派給所有管理程式節點,並確認 DNS 組態正確,以成功查閱所有管理程式節點的 FQDN。 |
3.1.0 |
管理程式 FQDN 反向查閱失敗 | 嚴重 | global-manager、manager | 管理程式節點 IP 位址的反向 DNS 查閱失敗。 |
1.將正確的 FQDN 指派給所有管理程式節點,並確認 DNS 組態正確,以成功反向查閱管理程式節點的 IP 位址。 |
3.1.0 |
至管理程式節點的管理通道關閉 | 中 | bms、edge、esx、kvm、public-cloud-gateway | 至管理程式節點的管理通道已關閉。 |
確保傳輸節點 {transport_node_id} 與主要管理程式節點之間有網路連線。同時確保沒有任何防火牆正在封鎖節點之間的流量。請叫用 /etc/init.d/messaging-manager status 命令,確保訊息管理程式服務正在管理程式節點上執行。如果訊息管理程式不在執行中,請叫用 /etc/init.d/messaging-manager restart 命令,以重新啟動它。 |
3.2.0 |
至管理程式節點的管理通道關閉時間過長 | 嚴重 | bms、edge、esx、kvm、public-cloud-gateway | 至管理程式節點的管理通道關閉時間過長。 |
確保傳輸節點 {transport_node_id} 與主要管理程式節點之間有網路連線。同時確保沒有任何防火牆正在封鎖節點之間的流量。請叫用 /etc/init.d/messaging-manager status 命令,確保訊息管理程式服務正在管理程式節點上執行。如果訊息管理程式不在執行中,請叫用 /etc/init.d/messaging-manager restart 命令,以重新啟動它。 |
3.2.0 |
網路延遲偏高 | 中 | manager | 傳輸節點的管理網路延遲偏高。 |
1.請等待 5 分鐘,查看是否已自動解決警示。 |
4.0.0 |
DHCP 事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
集區租用配置失敗 | 高 | edge、autonomous-edge、public-cloud-gateway | IP 集區中的 IP 位址已用盡。 |
透過叫用 NSX CLI 命令 get dhcp ip-pool,在 NSX UI 或執行 DHCP 伺服器所在的 Edge 節點上檢閱 DHCP 集區組態。同時,透過叫用 NSX CLI 命令 get dhcp lease,來檢閱 Edge 節點上目前作用中的租用。將租用與作用中虛擬機器的數目比較。如果虛擬機器的數目相較於作用中租用的數目低,請考慮在 DHCP 伺服器組態上減少租用時間。另外,請造訪 NSX UI 中的 [網路] | [區段] | [區段] 頁面,以考慮擴充 DHCP 伺服器的集區範圍。 |
3.0.0 |
集區已超載 | 中 | edge、autonomous-edge、public-cloud-gateway | IP 集區已超載。 |
透過叫用 NSX CLI 命令 get dhcp ip-pool,在 NSX UI 或執行 DHCP 伺服器所在的 Edge 節點上檢閱 DHCP 集區組態。同時,透過叫用 NSX CLI 命令 get dhcp lease,來檢閱 Edge 節點上目前作用中的租用。將租用與作用中虛擬機器的數目比較。如果虛擬機器的數目相較於作用中租用的數目低,請考慮在 DHCP 伺服器組態上減少租用時間。另外,請造訪 NSX UI 中的 [網路] | [區段] | [區段] 頁面,以考慮擴充 DHCP 伺服器的集區範圍。 |
3.0.0 |
分散式防火牆事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
DFW CPU 使用率非常高 | 嚴重 | esx | DFW CPU 使用率非常高。 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。檢閱安全性設計,以進行最佳化。例如,如果規則不適用於整個資料中心,請使用套用至組態。 |
3.0.0 |
DPU 上的 DFW CPU 使用率極高 | 嚴重 | dpu | DPU 上的 DFW CPU 使用率極高。 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。檢閱安全性設計,以進行最佳化。例如,如果規則不適用於整個資料中心,請使用套用至組態。 |
4.0.0 |
DFW 記憶體使用量非常高 | 嚴重 | esx | DFW 記憶體使用量非常高。 |
透過在主機上叫用 NSX CLI 命令 get firewall thresholds,以檢視目前 DFW 的記憶體使用量。考慮將此主機上的工作負載重新平衡至其他主機。 |
3.0.0 |
DPU 上的 DFW 記憶體使用量極高 | 嚴重 | dpu | DPU 上的 DFW 記憶體使用量極高。 |
透過在 DPU 上叫用 NSX CLI 命令 get firewall thresholds,以檢視目前 DFW 的記憶體使用量。考慮將此主機上的工作負載重新平衡至其他主機。 |
4.0.0 |
DFW VMotion 失敗 | 嚴重 | esx | DFW vMotion 失敗,連接埠已中斷連線。 |
在 NSX Manager 中檢查主機上的虛擬機器,透過 NSX Manager UI 手動重新推送 DFW 組態。要重新推送的 DFW 原則可透過 DFW 篩選器 {entity_id} 來追蹤。此外,請一併考量尋找要連結 DFW 篩選器的虛擬機器,並將其重新啟動。 |
3.2.0 |
DFW 洪泛限制警告 | 中 | esx | DFW 洪泛限制已達到警告層級。 |
在 NSX Manager 中檢查主機上的虛擬機器,檢查為通訊協定 {protocol_name} 設定的 DFW 篩選器 {entity_id} 的洪泛警告層級。 |
4.1.0 |
DFW 洪泛限制嚴重 | 嚴重 | esx | DFW 洪泛限制已達到嚴重層級。 |
在 NSX Manager 中檢查主機上的虛擬機器,檢查為通訊協定 {protocol_name} 設定的 DFW 篩選器 {entity_id} 的洪泛嚴重層級。 |
4.1.0 |
DFW 工作階段計數偏高 | 嚴重 | esx | DFW 工作階段計數偏高。 |
檢閱主機上工作負載的網路流量負載層級。考慮將此主機上的工作負載重新平衡至其他主機。 |
3.2.0 |
已超過每個 vNIC 的 DFW 規則限制 | 嚴重 | esx | 每個 vNIC 的 DFW 規則限制即將超過上限。 |
登入 ESX 主機 {transport_node_name},並叫用 NSX CLI 命令 get firewall <VIF_UUID> ruleset rules,以取得對應 VIF 上所設定規則的規則統計資料。減少為 VIF {entity_id} 設定的規則數目。 |
4.0.0 |
接近每個 vNIC 的 DFW 規則限制 | 中 | esx | 每個 vNIC 的 DFW 規則限制接近上限。 |
登入 ESX 主機 {transport_node_name},並叫用 NSX CLI 命令 get firewall <VIF_UUID> ruleset rules,以取得對應 VIF 上所設定規則的規則統計資料。減少為 VIF {entity_id} 設定的規則數目。 |
4.0.0 |
已超過每個主機的 DFW 規則限制 | 嚴重 | esx | 每個主機的 DFW 規則限制即將超過上限。 |
登入 ESX 主機 {transport_node_name},並叫用 NSX CLI 命令 get firewall rule-stats total,以取得 ESX 主機 {transport_node_name} 上所設定規則的規則統計資料。減少針對主機 {transport_node_name} 設定的規則數目。使用 NSX CLI 命令 get firewall <VIF_UUID> ruleset rules,來檢查針對各種 VIF 設定的規則數目。減少為各種 VIF 設定的規則數目。 |
4.0.0 |
接近每個主機的 DFW 規則限制 | 中 | esx | 每個主機的 DFW 規則限制接近上限。 |
登入 ESX 主機 {transport_node_name},並叫用 NSX CLI 命令 get firewall rule-stats total,以取得 ESX 主機 {transport_node_name} 上所設定規則的規則統計資料。減少針對主機 {transport_node_name} 設定的規則數目。使用 NSX CLI 命令 get firewall <VIF_UUID> ruleset rules,來檢查針對各種 VIF 設定的規則數目。減少為各種 VIF 設定的規則數目。 |
4.0.0 |
分散式 IDS IPS 事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
已達到事件數目上限 | 中 | manager | 已達到入侵事件數目上限。 |
不需要手動介入。清除工作將每 3 分鐘自動啟動一次,並刪除 10% 的較舊記錄,以將系統中的入侵事件計數總計減少至低於 150 萬個事件的臨界值。 |
3.1.0 |
NSX IDPS 引擎記憶體使用量高 | 中 | esx | NSX-IDPS 引擎記憶體使用量已達到 75% 或以上。 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 |
3.1.0 |
DPU 上的 NSX IDPS 引擎記憶體使用量偏高 | 中 | dpu | DPU 上的 NSX-IDPS 引擎記憶體使用量已達到 75% 或以上。 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 |
4.0.0 |
NSX IDPS 引擎記憶體使用量中高 | 高 | esx | NSX-IDPS 引擎記憶體使用量已達到 85% 或以上。 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 |
3.1.0 |
DPU 上的 NSX IDPS 引擎記憶體使用量中高 | 高 | dpu | DPU 上的 NSX-IDPS 引擎記憶體使用量已達到 85% 或以上。 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 |
4.0.0 |
NSX IDPS 引擎記憶體使用量非常高 | 嚴重 | esx | NSX-IDPS 引擎記憶體使用量已達到 95% 或以上。 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 |
3.1.0 |
DPU 上的 NSX IDPS 引擎記憶體使用量極高 | 嚴重 | dpu | DPU 上的 NSX-IDPS 引擎記憶體使用量已達到 95% 或以上。 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 |
4.0.0 |
NSX IDPS 引擎 CPU 使用率高 | 中 | esx | NSX-IDPS 引擎 CPU 使用率已達到 75% 或以上。 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 |
3.1.0 |
NSX IDPS 引擎 CPU 使用率中高 | 高 | esx | NSX-IDPS 引擎 CPU 使用率已達到 85% 或以上。 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 |
3.1.0 |
NSX IDPS 引擎 CPU 使用率非常高 | 嚴重 | esx | NSX-IDPS 引擎 CPU 使用率已超過 95% 或以上。 |
考慮將此主機上的虛擬機器工作負載重新平衡至其他主機。 |
3.1.0 |
NSX IDPS 引擎關閉 | 嚴重 | esx | NSX IDPS 已透過 NSX 原則啟用,且 IDPS 規則已設定,但 NSX-IDPS 引擎已關閉。 |
1.檢查 /var/log/nsx-syslog.log,以查看是否有報告任何錯誤。 |
3.1.0 |
DPU 上的 NSX IDPS 引擎關閉 | 嚴重 | dpu | NSX IDPS 已透過 NSX 原則啟用,且 IDPS 規則已設定,但 DPU 上的 NSX-IDPS 引擎已關閉。 |
1.檢查 /var/log/nsx-idps/nsx-idps.log 和 /var/log/nsx-syslog.log,以查看是否報告了錯誤。 |
4.0.0 |
IDPS 引擎 CPU 超額訂閱偏高 | 中 | esx | 分散式 IDPS 引擎的 CPU 使用率偏高。 |
檢閱超額訂閱的原因。請將特定應用程式移至不同的主機。 |
4.0.0 |
IDPS 引擎 CPU 超額訂閱極高 | 高 | esx | 分散式 IDPS 引擎的 CPU 使用率極高。 |
檢閱超額訂閱的原因。請將特定應用程式移至不同的主機。 |
4.0.0 |
IDPS 引擎網路超額訂閱偏高 | 中 | esx | 分散式 IDPS 引擎的網路使用量偏高。 |
檢閱超額訂閱的原因。檢閱 IDPS 規則,以減少受限於 IDPS 服務的流量。 |
4.0.0 |
IDPS 引擎網路超額訂閱極高 | 高 | esx | 分散式 IDPS 引擎的網路使用量極高。 |
檢閱超額訂閱的原因。檢閱 IDPS 規則,以減少受限於 IDPS 服務的流量。 |
4.0.0 |
IDPS 引擎已捨棄 CPU 超額訂閱的流量 | 嚴重 | esx | 由於 CPU 超額訂閱,分散式 IDPS 引擎已捨棄流量。 |
檢閱超額訂閱的原因。請將特定應用程式移至不同的主機。 |
4.0.0 |
IDPS 引擎已捨棄網路超額訂閱的流量 | 嚴重 | esx | 由於網路超額訂閱,分散式 IDPS 引擎已捨棄流量。 |
檢閱超額訂閱的原因。檢閱 IDPS 規則,以減少受限於 IDPS 服務的流量。 |
4.0.0 |
IDPS 引擎已略過 CPU 超額訂閱的流量 | 嚴重 | esx | 由於 CPU 超額訂閱,分散式 IDPS 引擎已略過流量。 |
檢閱超額訂閱的原因。請將特定應用程式移至不同的主機。 |
4.0.0 |
IDPS 引擎已略過網路超額訂閱的流量 | 嚴重 | esx | 由於網路超額訂閱,分散式 IDPS 引擎已略過流量。 |
檢閱超額訂閱的原因。檢閱 IDPS 規則,以減少受限於 IDPS 服務的流量。 |
4.0.0 |
DNS 事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
轉寄站已關閉 | 高 | edge、autonomous-edge、public-cloud-gateway | DNS 轉寄站已關閉。 |
1.叫用 NSX CLI 命令 get dns-forwarders status,以確認 DNS 轉寄站是否處於關閉狀態。 |
3.0.0 |
轉寄站已停用 | 資訊 | edge、autonomous-edge、public-cloud-gateway | DNS 轉寄站已停用。 |
1.叫用 NSX CLI 命令 get dns-forwarders status,以確認 DNS 轉寄站是否處於已停用狀態。 |
3.0.0 |
轉寄站上游伺服器逾時 | 高 | edge、autonomous-edge、public-cloud-gateway | 一個 DNS 轉寄站上游伺服器已逾時。 |
1.叫用 NSX API GET /api/v1/dns/forwarders/{dns_id}/nslookup? address=<address>&server_ip={dns_upstream_ip}&source_ip=<source_ip>。此 API 要求會觸發 DNS 轉寄站網路命名空間中的上游伺服器的 DNS 查閱。<address> 是與上游伺服器位於相同網域中的 IP 位址或 FQDN。<source_ip> 是上游伺服器區域中的 IP 位址。如果 API 傳回連線逾時回應,則可能會發生網路錯誤或上游伺服器問題。檢查 DSN 查閱無法連線至上游伺服器的原因,或上游伺服器未傳回回應的原因。如果 API 回應指出上游伺服器正在回應,請繼續執行步驟 2。 |
3.1.3 |
Edge 事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
Edge 節點設定不相符 | 嚴重 | manager | Edge 節點設定不相符。 |
檢閱此 Edge 傳輸節點 {entity_id} 的節點設定。遵循下列其中一個動作來解決警示 - |
3.2.0 |
Edge 虛擬機器 vSphere 設定不相符 | 嚴重 | manager | Edge 虛擬機器 vSphere 設定不相符。 |
檢閱此 Edge 傳輸節點 {entity_id} 的 vSphere 組態。遵循下列其中一個動作來解決警示 - |
3.2.0 |
Edge 節點設定和 vSphere 設定已變更 | 嚴重 | manager | Edge 節點設定和 vSphere 設定已變更。 |
檢閱此 Edge 傳輸節點 {entity_id} 的節點設定和 vSphere 組態。遵循下列其中一個動作來解決警示 - |
3.2.0 |
Edge vSphere 位置不相符 | 高 | manager | Edge vSphere 位置不相符。 |
檢閱此 Edge 傳輸節點 {entity_id} 的 vSphere 組態。遵循下列其中一個動作來解決警示 - |
3.2.0 |
Edge 虛擬機器存在於 NSX 詳細目錄中,但不存在於 vCenter 中 | 嚴重 | manager | 自動 Edge 虛擬機器存在於 NSX 詳細目錄中,但不存在於 vCenter 中。 |
虛擬機器之受管理的物件參考 moref 識別碼具有表單 vm-number,在 vCenter UI 中選取 Edge 虛擬機器時,其會顯示在 URL 中。範例 vm-12011 in https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary。針對此 Edge 傳輸節點 {entity_id},在 vCenter 中尋找具有 moref 識別碼 {vm_moref_id} 的虛擬機器 {policy_edge_vm_name}。如果 Edge 虛擬機器存在於 vCenter 中,但具有不同的 moref 識別碼,請執行以下動作。使用 NSX 新增或更新具有 JSON 要求裝載內容 vm_id 和 vm_deployment_config 的放置 API,以更新新的虛擬機器 moref 識別碼和 vSphere 部署參數。POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=addOrUpdatePlacementReferences.如果名稱為 {policy_edge_vm_name} 的 Edge 虛擬機器不存在於 vCenter 中,請使用 NSX 重新部署 API 為 Edge 節點部署新的虛擬機器。POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=redeploy。 |
3.2.1 |
Edge 虛擬機器不存在於 NSX 詳細目錄和 vCenter 中 | 嚴重 | manager | 自動 Edge 虛擬機器不存在於 NSX 詳細目錄和 vCenter 中。 |
虛擬機器之受管理的物件參考 moref 識別碼具有表單 vm-number,在 vCenter UI 中選取 Edge 虛擬機器時,其會顯示在 URL 中。範例 vm-12011 in https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary。針對此 Edge 傳輸節點 {entity_id},在 vCenter 中尋找具有 moref 識別碼 {vm_moref_id} 的虛擬機器 {policy_edge_vm_name}。遵循下方動作來解決警示 - 檢查虛擬機器是否已在 vSphere 中刪除,或存在但具有不同的 moref 識別碼。 |
3.2.1 |
無法在重新部署期間刪除 vCenter 中的舊虛擬機器 | 嚴重 | manager | 在重新部署期間,針對 vCenter 中舊 Edge 虛擬機器的關閉電源和刪除作業失敗。 |
虛擬機器之受管理的物件參考 moref 識別碼具有表單 vm-number,在 vCenter UI 中選取 Edge 虛擬機器時,其會顯示在 URL 中。範例 vm-12011 in https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary。針對此 Edge 傳輸節點 {entity_id},在 vCenter 中尋找具有 moref 識別碼 {vm_moref_id} 的虛擬機器 {policy_edge_vm_name}。在 vCenter 中關閉 moref 識別碼為 {vm_moref_id} 之舊 Edge 虛擬機器 {policy_edge_vm_name} 的電源,並將其刪除。 |
3.2.1 |
Edge 硬體版本不相符 | 中 | manager | Edge 節點的硬體版本不相符。 |
請遵循知識庫文章以解決 Edge 節點 {transport_node_name} 的硬體版本不相符警示。 |
4.0.1 |
Edge 叢集事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
Edge 叢集成員重新放置失敗 | 嚴重 | manager | Edge 叢集成員重新放置失敗警示 |
請檢閱 Edge 叢集的可用容量。如果需要更多容量,請擴充您的 Edge 叢集。請重試重新放置 Edge 叢集成員作業。 |
4.0.0 |
Edge 健全狀況事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
Edge CPU 使用率非常高 | 嚴重 | edge、public-cloud-gateway | Edge 節點 CPU 使用率非常高。 |
檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至適用工作負載的其他 Edge 節點。 |
3.0.0 |
Edge CPU 使用率高 | 中 | edge、public-cloud-gateway | Edge 節點 CPU 使用率偏高。 |
檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至適用工作負載的其他 Edge 節點。 |
3.0.0 |
Edge 記憶體使用量非常高 | 嚴重 | edge、public-cloud-gateway | Edge 節點記憶體使用量非常高。 |
檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至適用工作負載的其他 Edge 節點。 |
3.0.0 |
Edge 記憶體使用量高 | 中 | edge、public-cloud-gateway | Edge 節點記憶體使用量偏高。 |
檢閱此 Edge 節點的組態、執行中服務和大小調整。考慮調整 Edge 應用裝置的機器尺寸大小,或將服務重新平衡至適用工作負載的其他 Edge 節點。 |
3.0.0 |
Edge 磁碟使用量非常高 | 嚴重 | edge、public-cloud-gateway | Edge 節點磁碟使用量非常高。 |
檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。 |
3.0.0 |
Edge 磁碟使用量高 | 中 | edge、public-cloud-gateway | Edge 節點磁碟使用量偏高。 |
檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。 |
3.0.0 |
Edge 資料路徑 CPU 非常高 | 嚴重 | edge、autonomous-edge、public-cloud-gateway | Edge 節點資料路徑 CPU 使用率非常高。 |
透過叫用 NSX CLI 命令 get dataplane cpu stats,來顯示每個 CPU 核心的封包速率,以檢閱 Edge 節點上的 CPU 統計資料。較高的 CPU 使用率預期會有較高的封包速率。考慮增加 Edge 應用裝置的機器尺寸大小,並將此 Edge 節點上的服務重新平衡至相同叢集中的其他 Edge 節點或其他 Edge 叢集。 |
3.0.0 |
Edge 資料路徑 CPU 偏高 | 中 | edge、autonomous-edge、public-cloud-gateway | Edge 節點資料路徑 CPU 使用率偏高。 |
透過叫用 NSX CLI 命令 get dataplane cpu stats,來顯示每個 CPU 核心的封包速率,以檢閱 Edge 節點上的 CPU 統計資料。較高的 CPU 使用率預期會有較高的封包速率。考慮增加 Edge 應用裝置的機器尺寸大小,並將此 Edge 節點上的服務重新平衡至相同叢集中的其他 Edge 節點或其他 Edge 叢集。 |
3.0.0 |
Edge 資料路徑組態失敗 | 高 | edge、autonomous-edge、public-cloud-gateway | Edge 節點資料路徑組態失敗。 |
確保與管理程式節點的 Edge 節點連線狀況良好。從 Edge 節點的 NSX CLI,叫用 get services 命令,以檢查服務的健全狀況。如果資料平面服務已停止,請叫用 start service dataplane 命令,將其重新啟動。 |
3.0.0 |
Edge 資料路徑 Cryptodrv 關閉 | 嚴重 | edge、autonomous-edge、public-cloud-gateway | Edge 節點加密驅動程式已關閉。 |
視需要升級 Edge 節點。 |
3.0.0 |
Edge 資料路徑記憶體集區高 | 中 | edge、autonomous-edge、public-cloud-gateway | Edge 節點資料路徑記憶體集區偏高。 |
以 root 使用者身分登入,並叫用命令 edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show 和 edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap,來檢查 DPDK 記憶體使用量。 |
3.0.0 |
Edge 全域 ARP 資料表使用量高 | 中 | edge、autonomous-edge、public-cloud-gateway | Edge 節點全域 ARP 資料表使用量偏高。 |
以 root 使用者身分登入,並叫用 edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show 命令,然後檢查 neigh 快取使用量是否正常。如果正常,請叫用 edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries 命令,以增加 ARP 資料表大小。 |
3.0.0 |
Edge NIC 的接收緩衝區不足 | 中 | edge、autonomous-edge、public-cloud-gateway | Edge 節點 NIC 的 RX 循環緩衝區暫時不足。 |
在 Edge 節點上執行 NSX CLI 命令 get dataplane cpu stats,並檢查: |
3.0.0 |
Edge NIC 的傳輸緩衝區不足 | 嚴重 | edge、autonomous-edge、public-cloud-gateway | Edge 節點 NIC 的 TX 循環緩衝區暫時不足。 |
1.如果 Hypervisor 隨著 Edge 容納大量虛擬機器,則 Edge 虛擬機器可能不會有時間執行,為此,Hypervisor 可能不會擷取任何封包。如此可將 Edge 虛擬機器移轉至具有較少虛擬機器的主機。 |
3.0.0 |
Edge NIC 連結狀態關閉 | 嚴重 | edge、autonomous-edge、public-cloud-gateway | Edge 節點 NIC 連結已關閉。 |
在 Edge 節點上,透過叫用 NSX CLI 命令 get interfaces,來確認 NIC 連結是否已實際關閉。如果已關閉,請確認纜線連線。 |
3.0.0 |
儲存區錯誤 | 嚴重 | edge、autonomous-edge、public-cloud-gateway | Edge 節點磁碟為唯讀。 |
檢查唯讀磁碟分割,以查看重新開機是否可解決此問題,或是需要更換磁碟。如需詳細資訊,請連絡 GSS。 |
3.0.1 |
資料路徑執行緒鎖死 | 嚴重 | edge、autonomous-edge、public-cloud-gateway | Edge 節點的資料路徑執行緒處於鎖死狀態。 |
透過叫用 NSX CLI 命令 restart service dataplane,來重新啟動資料平面服務。 |
3.1.0 |
Edge 資料路徑 NIC 輸送量非常高 | 嚴重 | edge、autonomous-edge、public-cloud-gateway | Edge 節點資料路徑 NIC 輸送量非常高。 |
檢查 NIC 上的流量輸送量層級並判斷是否需要變更組態。可以使用「get dataplane thoughput <seconds>」命令來監控輸送量。 |
3.2.0 |
Edge 資料路徑 NIC 輸送量偏高 | 中 | edge、autonomous-edge、public-cloud-gateway | Edge 節點資料路徑 NIC 輸送量偏高。 |
檢查 NIC 上的流量輸送量層級並判斷是否需要變更組態。可以使用「get dataplane thoughput <seconds>」命令來監控輸送量。 |
3.2.0 |
失敗網域關閉 | 嚴重 | edge、public-cloud-gateway | 失敗網域的所有成員均關閉。 |
1.在 {transport_node_id} 識別的 Edge 節點上,叫用 NSX CLI 命令 get managers 和 get controllers,以檢查管理和控制平面的連線。 |
3.2.0 |
微流量快取叫用率低 | 中 | edge、autonomous-edge、public-cloud-gateway | 微流量快取叫用率降低,且資料路徑 CPU 偏高。 |
過去 30 分鐘快取流量叫用率已減少,這表示 Edge 效能可能會降低。流量將繼續轉送,您可能不會遇到任何問題。如果過去 30 分鐘內 Edge {entity_id} 核心 {core_id} 較高,請檢查它的資料路徑 CPU 使用率。當持續建立新流量時,Edge 將具有低流量快取叫用率,因為任何新流量的第一個封包將用於設定為流量快取以進行快速路徑處理。您可能想要增加 Edge 應用裝置大小,或增加用於作用中/作用中閘道的 Edge 節點數目。 |
3.2.2 |
超大流量快取叫用率低 | 中 | edge、autonomous-edge、public-cloud-gateway | 超大流量快取叫用率降低,且資料路徑 CPU 偏高。 |
過去 30 分鐘快取流量叫用率已減少,這表示 Edge 效能可能會降低。流量將繼續轉送,您可能不會遇到任何問題。如果過去 30 分鐘內 Edge {entity_id} 核心 {core_id} 較高,請檢查它的資料路徑 CPU 使用率。當持續建立新流量時,Edge 將具有低流量快取叫用率,因為任何新流量的第一個封包將用於設定為流量快取以進行快速路徑處理。您可能想要增加 Edge 應用裝置大小,或增加用於作用中/作用中閘道的 Edge 節點數目。 |
3.2.2 |
端點保護事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
EAM 狀態已關閉 | 嚴重 | manager | 計算管理程式上的 ESX Agent Manager (EAM) 服務已關閉。 |
啟動 ESX Agent Manager (EAM) 服務。透過 SSH 登入 vCenter,並叫用 service vmware-eam start 命令。 |
3.0.0 |
合作夥伴通道已關閉 | 嚴重 | esx | 主機模組和合作夥伴 SVM 連線已關閉。 |
請參閱 https://kb.vmware.com/s/article/85844,並確定合作夥伴 SVM {entity_id} 已重新連線至主機模組。 |
3.0.0 |
聯盟事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
RTEP BGP 關閉 | 高 | edge、autonomous-edge、public-cloud-gateway | RTEP BGP 芳鄰已關閉。 |
1.在受影響的 Edge 節點上,叫用 NSX CLI 命令 get logical-routers。 |
3.0.1 |
LM 到 LM 同步警告 | 中 | manager | 遠端位置之間的同步失敗超過 3 分鐘。 |
1.叫用 NSX CLI 命令 get site-replicator remote-sites,以取得遠端位置之間的連線狀態。如果遠端位置已連線但未同步,則該位置可能仍處於主機的解析程序中。在此情況下,請等待約 10 秒,然後再次嘗試叫用 CLI,以檢查遠端位置的狀態。如果位置已中斷連線,請嘗試下一個步驟。 |
3.0.1 |
LM 到 LM 同步錯誤 | 高 | manager | 遠端位置之間的同步失敗超過 15 分鐘。 |
1.叫用 NSX CLI 命令 get site-replicator remote-sites,以取得遠端位置之間的連線狀態。如果遠端位置已連線但未同步,則該位置可能仍處於主機的解析程序中。在此情況下,請等待約 10 秒,然後再次嘗試叫用 CLI,以檢查遠端位置的狀態。如果位置已中斷連線,請嘗試下一個步驟。 |
3.0.1 |
RTEP 連線中斷 | 高 | manager | RTEP 位置連線中斷。 |
1.在受影響的 Edge 節點 {transport_node_name} 上,叫用 NSX CLI 命令 get logical-routers。 |
3.0.2 |
GM 對 GM 核心分裂 | 嚴重 | global-manager | 多個全域管理程式節點同時處於作用中狀態。 |
僅將一個全域管理程式節點設定為作用中狀態,並將所有其他全域管理程式節點設定為待命。 |
3.1.0 |
GM 到 GM 延遲警告 | 中 | global-manager | 全域管理程式之間的延遲高於預期超過 2 分鐘。 |
透過 Ping 檢查從全域管理程式 {from_gm_path}({site_id}) 到全域管理程式 {to_gm_path}({remote_site_id}) 的連線。如果無法執行 Ping,請檢查 WAN 連線的穩定性。 |
3.2.0 |
GM 到 GM 同步警告 | 中 | global-manager | 作用中全域管理程式無法同步至待命全域管理程式 |
透過 Ping 檢查從全域管理程式 {from_gm_path}({site_id}) 到全域管理程式 {to_gm_path}({remote_site_id}) 的連線。 |
3.2.0 |
GM 到 GM 同步錯誤 | 高 | global-manager | 作用中全域管理程式無法同步至待命全域管理程式超過 5 分鐘 |
透過 Ping 檢查從全域管理程式 {from_gm_path}({site_id}) 到全域管理程式 {to_gm_path}({remote_site_id}) 的連線。 |
3.2.0 |
GM 到 LM 同步警告 | 中 | global-manager、manager | 全域管理程式 (GM) 與本機管理程式 (LM) 之間的資料同步失敗。 |
1.透過 Ping 檢查遠端站台本與機站台之間的網路連線。 |
3.2.0 |
GM 到 LM 同步錯誤 | 高 | global-manager、manager | 全域管理程式 (GM) 與本機管理程式 (LM) 之間的資料同步長時間失敗。 |
1.透過 Ping 檢查遠端站台本與機站台之間的網路連線。 |
3.2.0 |
已超過佇列佔用臨界值 | 中 | manager、global-manager | 已超過佇列佔用大小臨界值警告。 |
由於遠端站台的通訊問題或系統超載,佇列大小可能超過臨界值。檢查系統效能和 /var/log/async-replicator/ar.log,以確認是否報告了任何錯誤。 |
3.2.0 |
GM 到 LM 延遲警告 | 中 | global-manager、manager | 全域管理程式與本機管理程式之間的延遲高於預期 2 分鐘以上。 |
1.透過 Ping 檢查遠端站台本與機站台之間的網路連線。 |
3.2.0 |
LM 還原在組態匯入進行中時執行 | 高 | global-manager | 在全域管理程式上進行組態匯入時,系統會還原本機管理程式。 |
1.登入 NSX 全域管理程式應用裝置 CLI。 |
3.2.0 |
閘道防火牆事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
IP 流量計數偏高 | 中 | edge、public-cloud-gateway | IP 流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。 |
在 Edge 節點上以 admin 使用者角色登入,然後使用正確的介面 UUID 叫用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,並檢查 IP 流量的流量資料表使用量。檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。 |
3.1.3 |
已超過 IP 流量計數 | 嚴重 | edge、public-cloud-gateway | IP 流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。 |
在 Edge 節點上以 admin 使用者角色登入,然後使用正確的介面 UUID 叫用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,並檢查 IP 流量的流量資料表使用量。檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。 |
3.1.3 |
UDP 流量計數偏高 | 中 | edge、public-cloud-gateway | UDP 流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。 |
在 Edge 節點上以 admin 使用者角色登入,然後使用正確的介面 UUID 叫用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,並檢查 UDP 流量的流量資料表使用量。檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。 |
3.1.3 |
已超過 UDP 流量計數 | 嚴重 | edge、public-cloud-gateway | UDP 流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。 |
在 Edge 節點上以 admin 使用者角色登入,然後使用正確的介面 UUID 叫用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,並檢查 UDP 流量的流量資料表使用量。檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。 |
3.1.3 |
ICMP 流量計數偏高 | 中 | edge、public-cloud-gateway | ICMP 流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。 |
在 Edge 節點上以 admin 使用者角色登入,然後使用正確的介面 UUID 叫用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,並檢查 ICMP 流量的流量資料表使用量。檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。 |
3.1.3 |
已超過 ICMP 流量計數 | 嚴重 | edge、public-cloud-gateway | ICMP 流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。 |
在 Edge 節點上以 admin 使用者角色登入,然後使用正確的介面 UUID 叫用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,並檢查 ICMP 流量的流量資料表使用量。檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。 |
3.1.3 |
TCP 半開流量計數偏高 | 中 | edge、public-cloud-gateway | TCP 半開流量的閘道防火牆流量資料表使用量偏高。當使用量達到上限時,閘道防火牆將捨棄新流量。 |
在 Edge 節點上以 admin 使用者角色登入,然後使用正確的介面 UUID 叫用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,並檢查 TCP 半開流量的流量資料表使用量。檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。 |
3.1.3 |
已超過 TCP 半開流量計數 | 嚴重 | edge、public-cloud-gateway | TCP 半開流量的閘道防火牆流量資料表已超過設定的臨界值。當使用量達到上限時,閘道防火牆將捨棄新流量。 |
在 Edge 節點上以 admin 使用者角色登入,然後使用正確的介面 UUID 叫用 NSX CLI 命令 get firewall <LR_INT_UUID> interface stats | json,並檢查 TCP 半開流量的流量資料表使用量。檢查通過閘道的流量是否並非 DOS 攻擊或異常高載。如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮提高警示臨界值或將新流量路由至其他 Edge 節點。 |
3.1.3 |
群組事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
已超過群組大小限制 | 中 | manager | 轉譯的群組元素總數已超過上限。 |
1.考慮調整過大群組 {group_id} 中的群組元素。 |
4.1.0 |
高可用性事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
第 0 層閘道容錯移轉 | 高 | edge、autonomous-edge、public-cloud-gateway | 第 0 層閘道已進行容錯移轉。 |
叫用 NSX CLI 命令 get logical-router <service_router_id>,以識別第 0 層服務路由器 VRF 識別碼。透過叫用 vrf <vrf-id> 切換至 VRF 內容,然後叫用 get high-availability status,以判斷已關閉的服務。 |
3.0.0 |
第 1 層閘道容錯移轉 | 高 | edge、autonomous-edge、public-cloud-gateway | 第 1 層閘道已進行容錯移轉。 |
叫用 NSX CLI 命令 get logical-router <service_router_id>,以識別第 1 層服務路由器 VRF 識別碼。透過叫用 vrf <vrf-id> 切換至 VRF 內容,然後叫用 get high-availability status,以判斷已關閉的服務。 |
3.0.0 |
第 0 層服務群組容錯移轉 | 高 | edge、public-cloud-gateway | 服務群組沒有作用中的執行個體。 |
叫用 NSX CLI 命令 get logical-router <service_router_id> service_group,以檢查在指定服務路由器下設定的所有服務群組。檢查輸出服務群組離開作用中狀態的原因。 |
4.0.1 |
第 1 層服務群組容錯移轉 | 高 | edge、public-cloud-gateway | 服務群組沒有作用中的執行個體。 |
叫用 NSX CLI 命令 get logical-router <service_router_id> service_group,以檢查在指定服務路由器下設定的所有服務群組。檢查輸出服務群組離開作用中狀態的原因。 |
4.0.1 |
第 0 層服務群組已減少備援 | 中 | edge、public-cloud-gateway | 服務群組中的待命執行個體失敗。 |
叫用 NSX CLI 命令 get logical-router <service_router_id> service_group,以檢查在指定服務路由器下設定的所有服務群組。檢查輸出先前待命服務群組失敗的原因。 |
4.0.1 |
第 1 層服務群組已減少備援 | 中 | edge、public-cloud-gateway | 服務群組中的待命執行個體失敗。 |
叫用 NSX CLI 命令 get logical-router <service_router_id> service_group,以檢查在指定服務路由器下設定的所有服務群組。檢查輸出先前待命服務群組失敗的原因。 |
4.0.1 |
身分識別防火牆事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
與 LDAP 伺服器的連線中斷 | 嚴重 | manager | 與 LDAP 伺服器的連線中斷。 |
檢查以下各項: |
3.1.0 |
差異同步中發生錯誤 | 嚴重 | manager | 執行差異同步時發生錯誤。 |
1.檢查是否有任何遺失 LDAP 伺服器連線的警示。 |
3.1.0 |
基礎結構通訊事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
Edge 通道已關閉 | 嚴重 | edge、public-cloud-gateway | Edge 節點的通道狀態為已關閉。 |
叫用 NSX CLI 命令 get tunnel-ports,以取得所有通道連接埠,然後透過叫用 NSX CLI 命令 get tunnel-port <UUID> stats,檢查每個通道的統計資料,以確認是否有任何捨棄。此外,也請檢查 /var/log/syslog,以查看是否有任何通道相關的錯誤。 |
3.0.0 |
基礎結構服務事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
DPU 上的服務狀態未知 | 嚴重 | dpu | DPU 上的服務狀態異常。 |
透過叫用 /etc/init.d/{service_name} status,確認 DPU {dpu_id} 上的 {service_name} 服務仍在執行中。如果將服務報告為執行中,則可能需要重新啟動,這可以透過 /etc/init.d/{service_name} restart 完成。重新執行 status 命令以確認服務目前正在執行。如果重新啟動服務無法解決問題,或如果重新啟動成功後問題再次發生,請連絡 VMware 支援。 |
4.0.0 |
服務狀態未知 | 嚴重 | esx、kvm、bms、edge、manager、public-cloud-gateway、global-manager | 服務的狀態異常。 |
透過叫用 /etc/init.d/{service_name} status,確認 {service_name} 服務仍在執行中。如果將服務報告為執行中,則可能需要重新啟動,這可以透過 /etc/init.d/{service_name} restart 完成。重新執行 status 命令以確認服務目前正在執行。如果指令碼 /etc/init.d/{service_name} 無法使用,則叫用 systemctl {service_name} status,並使用根權限執行 systemctl {service_name} restart,來重新啟動。如果重新啟動服務無法解決問題,或如果重新啟動成功後問題再次發生,請連絡 VMware 支援。 |
3.1.0 |
度量傳遞失敗 | 嚴重 | esx、bms、edge、manager、public-cloud-gateway、global-manager | 無法將度量傳遞到指定的目標。 |
使用者應執行下列檢查以排除導致失敗的問題:1.檢查傳遞至連線的目標位址 {metrics_target_address} 和連接埠 {metrics_target_port} (未指定連接埠的情況下預設為 443) 為預期的目標,2.叫用 /opt/vmware/nsx-nestdb/bin/nestdb-cli --cmd 'put vmware.nsx.nestdb.CommonAgentHostConfigMsg',檢查憑證是否正確,3.檢查目標 {metrics_target_address} 是否可連線,4.叫用 docker ps | grep metrics_manager,檢查目標 {metrics_target_address} 上的度量管理程式是否執行中,5.在目標上叫用 netstat -a | grep {metrics_target_port},檢查連接埠 {metrics_target_port} 是否已開啟,6.叫用 iptables -S OUTPUT | grep {metrics_target_port} (EDGE/UA) 或 localcli network firewall ruleset list | grep nsx-sha-tsdb (ESX),檢查是否在節點上安裝「允許」防火牆規則,7.叫用 /etc/init.d/netopa restart (ESX)、/etc/init.d/nsx-netopa restart (EDGE) 或 /etc/init.d/nsx-sha restart (UA),以重新啟動 SHA 精靈,從而確定問題是否可以解決。 |
4.1.0 |
Edge 服務狀態已關閉 | 嚴重 | edge、autonomous-edge、public-cloud-gateway | Edge 服務已關閉,時間已持續至少一分鐘。 |
在 Edge 節點上,透過在 /var/log/core 目錄中尋找核心檔案,確認服務尚未因為錯誤而結束。此外,叫用 NSX CLI 命令 get services,以確認服務是否已停止。如果已停止,請叫用 start service <service-name>,來重新啟動該服務。 |
3.0.0 |
Edge 服務狀態已變更 | 中 | edge、autonomous-edge、public-cloud-gateway | Edge 服務狀態已變更。 |
在 Edge 節點上,透過在 /var/log/core 目錄中尋找核心檔案,確認服務尚未因為錯誤而結束。此外,叫用 NSX CLI 命令 get services,以確認服務是否已停止。如果已停止,請叫用 start service <service-name>,來重新啟動該服務。 |
3.0.0 |
應用程式已當機 | 嚴重 | global-manager、autonomous-edge、bms、edge、esx、kvm、manager、public-cloud-gateway | 應用程式已當機並產生核心傾印。 |
使用 NSX Manager UI 或 API 來收集 NSX 節點 {node_display_or_host_name} 的支援服務包。請注意,核心傾印可設定為移動或複製到 NSX 技術支援服務包中,以便在節點上移除或保留本機複本。複製包含核心傾印檔案的支援服務包,對於 VMware 支援團隊疑難排解此問題至關重要,建議最好先儲存最新技術支援服務包的複本,包括核心傾印檔案,然後再從系統移除核心傾印檔案。如需更多詳細資料,請參閱知識庫文章。 |
4.0.0 |
Intelligence 通訊事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
TN 流量匯出工具已中斷連線 | 高 | esx、kvm、bms | 傳輸節點已與其智慧節點的訊息代理中斷連線。資料收集受到影響。 |
如果未在智慧節點中執行,請重新啟動傳訊服務。解決傳輸節點流量匯出工具與智慧節點之間的網路連線失敗問題。 |
3.0.0 |
Intelligence 健全狀況事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
CPU 使用率非常高 | 嚴重 | manager、intelligence | 智慧節點 CPU 使用率非常高。 |
使用 top 命令來檢查哪些程序具有最多 CPU 使用率,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。 |
3.0.0 |
CPU 使用率高 | 中 | manager、intelligence | 智慧節點 CPU 使用率偏高。 |
使用 top 命令來檢查哪些程序具有最多 CPU 使用率,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。 |
3.0.0 |
記憶體使用量非常高 | 嚴重 | manager、intelligence | 智慧節點記憶體使用量非常高。 |
使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。 |
3.0.0 |
記憶體使用量高 | 中 | manager、intelligence | 智慧節點記憶體使用量偏高。 |
使用 top 命令來檢查哪些程序具有最多記憶體使用量,然後檢查 /var/log/syslog 和這些程序的本機記錄,以查看是否有要解決的任何未完成的錯誤。 |
3.0.0 |
磁碟使用量非常高 | 嚴重 | manager、intelligence | 智慧節點磁碟使用量非常高。 |
檢查磁碟分割 {disk_partition_name},並查看是否有任何非預期的大型檔案可移除。 |
3.0.0 |
磁碟使用量高 | 中 | manager、intelligence | 智慧節點磁碟使用量偏高。 |
檢查磁碟分割 {disk_partition_name},並查看是否有任何非預期的大型檔案可移除。 |
3.0.0 |
資料磁碟分割使用量非常高 | 嚴重 | manager、intelligence | 智慧節點資料磁碟分割使用率非常高。 |
停止 NSX Intelligence 資料收集,直到磁碟使用量低於臨界值。在 NSX UI 中,導覽至 [系統] | [應用裝置] | [NSX Intelligence 應用裝置]。然後按一下 [動作],並選取 [停止收集資料]。 |
3.0.0 |
資料磁碟分割使用量高 | 中 | manager、intelligence | 智慧節點資料磁碟分割使用率偏高。 |
停止 NSX Intelligence 資料收集,直到磁碟使用量低於臨界值。檢查磁碟分割 /data,並查看是否有任何非預期的大型檔案可移除。 |
3.0.0 |
儲存區延遲高 | 中 | manager、intelligence | 智慧節點記憶體儲存區延遲偏高。 |
由於 I/O 要求激增,可能會發生儲存區延遲暫時性偏高的狀況。如果儲存空間延遲持續偏高達 30 分鐘以上,請考慮在延遲較低的磁碟中部署 NSX Intelligence 應用裝置,或不與其他虛擬機器共用相同的儲存裝置。 |
3.1.0 |
節點狀態已降級 | 高 | manager、intelligence | 智慧節點狀態為已降級。 |
叫用 NSX API GET /napp/api/v1/platform/monitor/category/health,以檢查哪個特定網繭已關閉及其背後原因。叫用以下 CLI 命令,以重新啟動已降級的服務:kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> |
3.0.0 |
IPAM 事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
IP 區塊使用量非常高 | 中 | manager | IP 區塊使用量非常高。 |
檢閱 IP 區塊使用量。使用新的 IP 區塊來建立資源,或刪除 IP 區塊中未使用的 IP 子網路。若要檢查 IP 區塊所使用的子網路:從 NSX UI 中,導覽至 [網路] | [IP 位址集區] | [IP 位址集區] 索引標籤。選取使用 IP 區塊所在的 IP 集區,檢查 UI 上的 [子網路] 和 [配置的 IP] 資料行。如果未將任何配置用於該 IP 集區,且未來將不再使用它,則請刪除子網路或 IP 集區。使用下列 API 來檢查 IP 區塊是否正由 IP 集區使用,並檢查是否已完成任何 IP 配置:若要取得 IP 集區的已設定子網路,請叫用 NSX API GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-subnets。若要取得 IP 配置,請叫用 NSX API GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations。附註:僅在沒有任何已配置的 IP 且未來將不再使用它時,才應該執行 IP 集區/子網路的刪除。 |
3.1.2 |
IP 集區使用量非常高 | 中 | manager | IP 集區使用量非常高。 |
檢閱 IP 集區使用量。請從 IP 集區釋放未使用的 IP 配置,或建立新的 IP 集區並使用它。從 NSX UI 中,導覽至 [網路] | [IP 位址集區] | [IP 位址集區] 索引標籤。選取 IP 集區,並檢查 [配置的 IP] 資料行,這將顯示從 IP 集區配置的 IP。如果使用者看見任何 IP 並未在使用中,則可以釋放這些 IP。若要釋放未使用的 IP 配置,請叫用 NSX API DELETE /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations/<ip-allocation> |
3.1.2 |
授權事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
授權已到期 | 嚴重 | global-manager、manager | 授權已到期。 |
導覽至 [系統] | [授權] 以使用 NSX UI 新增未到期的授權,然後按一下 [新增],並指定新授權的金鑰。已到期的授權應予以刪除,方法是勾選授權的核取方塊,然後按一下 [刪除]。 |
3.0.0 |
授權即將到期 | 中 | global-manager、manager | 授權即將到期。 |
授權即將在幾天後到期。使用 NSX UI 導覽至 [系統] | [授權],然後按一下 [新增],並指定新授權的金鑰,以計劃新增未到期的新授權。已到期的授權應予以刪除,方法是勾選授權的核取方塊,然後按一下 [刪除]。 |
3.0.0 |
負載平衡器事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
LB CPU 非常高 | 中 | Edge | 負載平衡器 CPU 使用率非常高。 |
如果負載平衡器 CPU 使用率高於系統使用率臨界值,則工作負載對此負載平衡器來說過高。將負載平衡器的大小從小型變更為中型或從中型變更為大型,以重新調整負載平衡器服務。如果此負載平衡器的 CPU 使用率仍然很高,請考慮調整 Edge 應用裝置機器尺寸大小,或將負載平衡器服務移至其他 Edge 節點,以獲得適當的工作負載。 |
3.0.0 |
LB 狀態已降級 | 中 | manager | 負載平衡器服務已降級。 |
針對集中式負載平衡器:在待命 Edge 節點上檢查負載平衡器的狀態,因為降級狀態表示待命 Edge 節點上負載平衡器的狀態為未就緒。在待命 Edge 節點上,叫用 NSX CLI 命令 get load-balancer <lb-uuid> status。如果負載平衡器服務的 LB 狀態是「not_ready」,或沒有任何輸出,請讓 Edge 節點進入維護模式,然後結束維護模式。針對分散式負載平衡器: |
3.1.2 |
DLB 狀態關閉 | 嚴重 | manager | 分散式負載平衡器服務已關閉。 |
在 ESXi 主機節點上,叫用 NSX CLI 命令「get load-balancer <lb-uuid> status」。如果報告了「衝突 LSP」,請檢查此 LSP 是否已連結至任何其他負載平衡器服務。檢查該衝突是否可以接受。如果報告了「未就緒 LSP」,請叫用 NSX CLI 命令 get logical-switch-port status,來檢查此 LSP 的狀態。 |
3.1.2 |
LB 狀態關閉 | 嚴重 | Edge | 集中式負載平衡器服務已關閉。 |
在作用中的 Edge 節點上,叫用 NSX CLI 命令 get load-balancer <lb-uuid> status,來檢查負載平衡器狀態。如果負載平衡器服務的 LB 狀態是「not_ready」,或沒有任何輸出,請讓 Edge 節點進入維護模式,然後結束維護模式。 |
3.0.0 |
虛擬伺服器狀態關閉 | 中 | Edge | 負載平衡器虛擬服務已關閉。 |
請查閱負載平衡器集區,以判定其狀態並確認其組態。如果設定錯誤,請將其重新設定並從虛擬伺服器移除該負載平衡器集區,然後重新將其新增至虛擬伺服器。 |
3.0.0 |
集區狀態關閉 | 中 | Edge | 負載平衡器集區已關閉。 |
叫用 NSX CLI 命令 get load-balancer <lb-uuid> pool <pool-uuid> status 或 NSX API GET /policy/api/v1/infra/lb-services/<lb-service-id>/lb-pools/<lb-pool-id>/detailed-status,來查閱負載平衡器集區,以判斷哪些成員已關閉。如果報告 [關閉] 或 [未知],請驗證集區成員。檢查從負載平衡器到受影響集區成員的網路連線。驗證每個集區成員的應用程式健全狀況。此外,使用設定的監控,來驗證每個集區成員的健全狀況。當建立成員的健全狀況時,集區成員狀態會根據監視器中的「Rise Count」組態更新為狀況良好。將集區成員重新開機或讓 Edge 節點進入維護模式,然後結束維護模式,即可修復此問題。 |
3.0.0 |
LB Edge 使用中的容量高 | 中 | Edge | 負載平衡器使用率偏高。 |
如果在此 Edge 節點中設定了多個 LB 執行個體,請部署新的 Edge 節點,並將部分 LB 執行個體移至該新的 Edge 節點。如果在相同大小 (小型、中型等) 的 Edge 節點中僅設定了單個 LB 執行個體 (小型、中型等),請部署一個較大的新 Edge,並將此 LB 執行個體移至該新的 Edge 節點。 |
3.1.2 |
LB 集區成員使用中的容量非常高 | 嚴重 | Edge | 負載平衡器集區成員使用率非常高。 |
部署新的 Edge 節點,並將負載平衡器服務從現有 Edge 節點移至新部署的 Edge 節點。 |
3.1.2 |
由於缺少記憶體,負載平衡組態未實現 | 中 | Edge | 由於 Edge 節點上的高記憶體使用量,負載平衡器組態未實現。 |
最好定義小型和中型負載平衡器,而非大型負載平衡器。在可用的 Edge 節點間分散負載平衡器服務。減少定義的虛擬伺服器數目。 |
3.2.0 |
惡意程式碼防護健全狀況事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
服務狀態關閉 | 高 | manager | 服務狀態為關閉。 |
1.在以 {nsx_edge_tn_name} 識別的 Edge 節點上,叫用 NSX CLI get services,以檢查 {mps_service_name} 的狀態。檢查 /var/log/syslog,以尋找任何可疑的錯誤。 |
4.0.1 |
檔案擷取服務無法連線 | 高 | manager | 服務狀態為已降級。 |
1.在以 {nsx_edge_tn_name} 識別的 Edge 節點上,叫用 NSX CLI get ids engine status,以檢查 file_extraction (IDS) 服務的狀態。檢查 /var/log/syslog,以尋找檔案擷取 (IDS) 服務和/或 {mps_service_name} 的任何可疑錯誤。 |
4.0.1 |
資料庫無法連線 | 高 | manager | 服務狀態為已降級。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],以檢查哪項服務已降級。叫用 NSX API GET /napp/api/v1/platform/monitor/feature/health,以檢查已關閉的特定服務及其背後原因。叫用以下 CLI 命令,以重新啟動已降級的服務:kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> 判斷惡意程式碼防護資料庫服務的狀態。 |
4.0.1 |
分析人員 API 服務無法連線 | 高 | manager | 服務狀態為已降級。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],以檢查哪項服務已降級。叫用 NSX API GET /napp/api/v1/platform/monitor/feature/health,以檢查已關閉的特定服務及其背後原因。叫用以下 CLI 命令,以重新啟動已降級的服務:kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> 判斷惡意程式碼防護雲端連接器服務的狀態。 |
4.0.1 |
NTICS 信譽服務無法連線 | 高 | manager | 服務狀態為已降級。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],以檢查哪項服務已降級。叫用 NSX API GET /napp/api/v1/platform/monitor/feature/health,以檢查已關閉的特定服務及其背後原因。叫用以下 CLI 命令,以重新啟動已降級的服務:kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>。判斷對 NTICS 服務的存取是否關閉。 |
4.1.0 |
管理程式健全狀況事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
管理程式 CPU 使用率非常高 | 嚴重 | global-manager、manager | 管理程式節點 CPU 使用率非常高。 |
檢閱此管理程式節點的組態、執行中服務和大小調整。考慮調整管理程式應用裝置機器尺寸大小。 |
3.0.0 |
管理程式 CPU 使用率高 | 中 | global-manager、manager | 管理程式節點 CPU 使用率偏高。 |
檢閱此管理程式節點的組態、執行中服務和大小調整。考慮調整管理程式應用裝置機器尺寸大小。 |
3.0.0 |
管理程式記憶體使用量非常高 | 嚴重 | global-manager、manager | 管理程式節點記憶體使用量非常高。 |
檢閱此管理程式節點的組態、執行中服務和大小調整。考慮調整管理程式應用裝置機器尺寸大小。 |
3.0.0 |
管理程式記憶體使用量高 | 中 | global-manager、manager | 管理程式節點記憶體使用量偏高。 |
檢閱此管理程式節點的組態、執行中服務和大小調整。考慮調整管理程式應用裝置機器尺寸大小。 |
3.0.0 |
管理程式磁碟使用量非常高 | 嚴重 | global-manager、manager | 管理程式節點磁碟使用量非常高。 |
檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。 |
3.0.0 |
管理程式磁碟使用量高 | 中 | global-manager、manager | 管理程式節點磁碟使用量偏高。 |
檢查具有高使用量的磁碟分割,並查看是否有任何可移除未預期的大型檔案。 |
3.0.0 |
管理程式組態磁碟使用量非常高 | 嚴重 | global-manager、manager | 管理程式節點組態磁碟使用量非常高。 |
如果報告了問題,請執行下列工具,並連絡 GSS:/opt/vmware/tools/support/inspect_checkpoint_issues.py |
3.0.0 |
管理程式組態磁碟使用量高 | 中 | global-manager、manager | 管理程式節點組態磁碟使用量偏高。 |
如果報告了問題,請執行下列工具,並連絡 GSS:/opt/vmware/tools/support/inspect_checkpoint_issues.py |
3.0.0 |
作業資料庫磁碟使用量極高 | 嚴重 | manager | 管理程式節點 nonconfig 磁碟使用量極高。 |
如果報告了問題,請執行下列工具,並連絡 GSS:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig |
3.0.1 |
作業 DB 磁碟使用量高 | 中 | manager | 管理程式節點 nonconfig 磁碟使用量偏高。 |
如果報告了問題,請執行下列工具,並連絡 GSS:/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig |
3.0.1 |
重複的 IP 位址 | 中 | manager | 管理程式節點的 IP 位址由其他裝置使用中。 |
1.判定哪個裝置使用管理程式的 IP 位址,並為該裝置指派新的 IP 位址。請注意,不支援將管理程式重新設定為使用新的 IP 位址。 |
3.0.0 |
儲存區錯誤 | 嚴重 | global-manager、manager | 管理程式節點磁碟為唯讀。 |
檢查唯讀磁碟分割,以查看重新開機是否可解決此問題,或是需要更換磁碟。如需詳細資訊,請連絡 GSS。 |
3.0.2 |
遺失管理程式 FQDN 的 DNS 項目 | 嚴重 | global-manager、manager | 遺失管理程式 FQDN 的 DNS 項目。 |
1.確保在管理程式節點中設定適當的 DNS 伺服器。 |
4.1.0 |
遺失 VIP FQDN 的 DNS 項目 | 嚴重 | manager | 遺失 Manager VIP 的 FQDN 項目。 |
檢查 VIP 位址的 DNS 項目,以查看這些位址是否解析為相同的 FQDN。 |
4.1.0 |
MTU 檢查事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
傳輸區域內的 MTU 不符 | 高 | manager | 連結至相同傳輸區域之傳輸節點之間的 MTU 組態不相符。 |
1.在 NSX UI 上導覽至 [系統] | [網狀架構] | [設定] | [MTU 組態檢查] | [不一致],以查看更多不相符的詳細資料。 |
3.2.0 |
全域路由器 MTU 太大 | 中 | manager | 全域路由器 MTU 組態大於覆疊傳輸區域的 MTU。 |
1.在 NSX UI 上導覽至 [系統] | [網狀架構] | [設定] | [MTU 組態檢查] | [不一致],以查看更多不相符的詳細資料。 |
3.2.0 |
NAT 事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
閘道上的 SNAT 連接埠使用量偏高 | 嚴重 | edge、public-cloud-gateway | 閘道上的 SNAT 連接埠使用量偏高。 |
在 Edge 節點上以 admin 使用者角色登入,然後使用正確的介面 UUID 叫用 NSX CLI 命令 get firewall <LR_INT_UUID> connection state,並檢查 SNAT IP {snat_ip_address} 的各種 SNAT 對應。檢查通過閘道的流量並非拒絕服務攻擊或異常高載。如果流量看起來在正常負載內,但仍達到警示臨界值,請考慮新增更多 SNAT IP 位址以分散負載,或將新流量路由至其他 Edge 節點。 |
3.2.0 |
NCP 健全狀況事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
NCP 外掛程式已關閉 | 嚴重 | manager | 管理程式節點偵測到 NCP 已關閉或狀況不良。 |
若要找出有問題的叢集,請使用 NSX UI 並導覽至 [警示] 頁面。此警示執行個體的實體名稱值可識別叢集名稱。或者,叫用 NSX API GET /api/v1/systemhealth/container-cluster/ncp/status,來擷取所有叢集狀態,並判斷任何報告 [關閉] 或 [未知] 之叢集的名稱。然後在 [NSX UI 詳細目錄] | [容器] | [叢集] 頁面上根據名稱尋找叢集,接著按一下 [節點] 索引標籤以列出所有 Kubernetes 和 PAS 叢集成員。對於 Kubernetes 叢集: |
3.0.0 |
節點代理程式健全狀況事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
DPU 上的節點代理程式關閉 | 高 | dpu | DPU 上在節點虛擬機器內執行的代理程式似乎關閉。 |
1.如果 DPU {dpu_id} 上遺失 Vmk50,請參閱以下知識庫文章:https://kb.vmware.com/s/article/67432。 |
4.0.0 |
節點代理程式已關閉 | 高 | esx、kvm | 在節點虛擬機器內執行的代理程式似乎已關閉。 |
對於 ESX: |
3.0.0 |
NSX Application Platform 通訊事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
管理程式已中斷連線 | 高 | manager、intelligence | NSX Application Platform 叢集已與 NSX 管理叢集中斷連線。 |
檢查 NSX Manager 和 NSX Application Platform 叢集上的管理程式叢集憑證、管理程式節點憑證、kafka 憑證和入口憑證是否相符。檢查上述憑證的到期日期以確保其有效。檢查 NSX Manager 和 NSX Application Platform 叢集上的網路連線,並解決任何網路連線失敗。 |
3.2.0 |
在傳訊原始流量中偵測到延遲 | 嚴重 | manager、intelligence | 在傳訊主題原始流量中偵測到資料處理緩慢。 |
新增節點,然後垂直擴充 NSX Application Platform 叢集。如果瓶頸可歸因於特定服務 (例如分析服務),在新增節點時請垂直擴充特定服務。 |
3.2.0 |
在傳訊溢位中偵測到延遲 | 嚴重 | manager、intelligence | 在傳訊主題溢位中偵測到資料處理緩慢。 |
新增節點,然後垂直擴充 NSX Application Platform 叢集。如果瓶頸可歸因於特定服務 (例如分析服務),在新增節點時請垂直擴充特定服務。 |
3.2.0 |
TN 流量匯出工具已中斷連線 | 高 | esx、kvm、bms | 傳輸節點已與其 NSX Application Platform 叢集的訊息代理中斷連線。資料收集受到影響。 |
如果傳訊服務未在 NSX Application Platform 叢集中執行,請重新啟動該服務。解決傳輸節點流量匯出工具與 NSX Application Platform 叢集之間的網路連線失敗問題。 |
3.2.0 |
DPU 上的 TN 流量已中斷連線 | 高 | dpu | 傳輸節點已與其智慧節點的訊息代理中斷連線。DPU 上的資料收集受到影響。 |
如果未在智慧節點中執行,請重新啟動傳訊服務。解決傳輸節點流量匯出工具與智慧節點之間的網路連線失敗問題。 |
4.0.0 |
NSX Application Platform 健全狀況事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
叢集 CPU 使用率非常高 | 嚴重 | manager、intelligence | NSX Application Platform 叢集 CPU 使用率非常高。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],並檢查個別服務的 [系統負載] 欄位,以查看哪項服務有壓力。查看是否可降低負載。如果需要更多計算能力,請按一下 [擴充] 按鈕,以要求更多資源。 |
3.2.0 |
叢集 CPU 使用率偏高 | 中 | manager、intelligence | NSX Application Platform 叢集 CPU 使用率偏高。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],並檢查個別服務的 [系統負載] 欄位,以查看哪項服務有壓力。查看是否可降低負載。如果需要更多計算能力,請按一下 [擴充] 按鈕,以要求更多資源。 |
3.2.0 |
叢集記憶體使用量非常高 | 嚴重 | manager、intelligence | NSX Application Platform 叢集記憶體使用量非常高。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],並檢查個別服務的 [記憶體] 欄位,以查看哪項服務有壓力。查看是否可降低負載。如果需要更多記憶體,請按一下 [擴充] 按鈕,以要求更多資源。 |
3.2.0 |
叢集記憶體使用量偏高 | 中 | manager、intelligence | NSX Application Platform 叢集記憶體使用量偏高。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],並檢查個別服務的 [記憶體] 欄位,以查看哪項服務有壓力。查看是否可降低負載。如果需要更多記憶體,請按一下 [擴充] 按鈕,以要求更多資源。 |
3.2.0 |
叢集磁碟使用量非常高 | 嚴重 | manager、intelligence | NSX Application Platform 叢集磁碟使用量非常高。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],並檢查個別服務的 [儲存區] 欄位,以查看哪項服務有壓力。查看是否可降低負載。如果需要更多磁碟儲存區,請按一下 [擴充] 按鈕,以要求更多資源。如果資料儲存區服務承受壓力,另一種方式是按一下 [垂直擴充] 按鈕,以增加磁碟大小。 |
3.2.0 |
叢集磁碟使用量偏高 | 中 | manager、intelligence | NSX Application Platform 叢集磁碟使用量偏高。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],並檢查個別服務的 [儲存區] 欄位,以查看哪項服務有壓力。查看是否可降低負載。如果需要更多磁碟儲存區,請按一下 [擴充] 按鈕,以要求更多資源。如果資料儲存區服務承受壓力,另一種方式是按一下 [垂直擴充] 按鈕,以增加磁碟大小。 |
3.2.0 |
NAPP 狀態已降級 | 中 | manager、intelligence | NSX Application Platform 叢集整體狀態為已降級。 |
從節點和服務的警示取得詳細資訊。 |
3.2.0 |
NAPP 狀態關閉 | 高 | manager、intelligence | NSX Application Platform 叢集整體狀態為關閉。 |
從節點和服務的警示取得詳細資訊。 |
3.2.0 |
節點 CPU 使用率非常高 | 嚴重 | manager、intelligence | NSX Application Platform 節點 CPU 使用率非常高。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],並檢查個別服務的 [系統負載] 欄位,以查看哪項服務有壓力。查看是否可降低負載。如果只有少部分節點的 CPU 使用率較高,依預設,Kubernetes 將會自動重新排程服務。如果多數節點的 CPU 使用率都偏高,且無法降低負載,請按一下 [擴充] 按鈕,以要求更多資源。 |
3.2.0 |
節點 CPU 使用率偏高 | 中 | manager、intelligence | NSX Application Platform 節點 CPU 使用率偏高。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],並檢查個別服務的 [系統負載] 欄位,以查看哪項服務有壓力。查看是否可降低負載。如果只有少部分節點的 CPU 使用率較高,依預設,Kubernetes 將會自動重新排程服務。如果多數節點的 CPU 使用率都偏高,且無法降低負載,請按一下 [擴充] 按鈕,以要求更多資源。 |
3.2.0 |
節點記憶體使用量非常高 | 嚴重 | manager、intelligence | NSX Application Platform 節點記憶體使用量非常高。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],並檢查個別服務的 [記憶體] 欄位,以查看哪項服務有壓力。查看是否可降低負載。如果只有少部分節點的記憶體使用量較高,依預設,Kubernetes 將會自動重新排程服務。如果多數節點的記憶體使用量都偏高,且無法降低負載,請按一下 [擴充] 按鈕,以要求更多資源。 |
3.2.0 |
節點記憶體使用量偏高 | 中 | manager、intelligence | NSX Application Platform 節點記憶體使用量偏高。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],並檢查個別服務的 [記憶體] 欄位,以查看哪項服務有壓力。查看是否可降低負載。如果只有少部分節點的記憶體使用量較高,依預設,Kubernetes 將會自動重新排程服務。如果多數節點的記憶體使用量都偏高,且無法降低負載,請按一下 [擴充] 按鈕以要求更多資源。 |
3.2.0 |
節點磁碟使用量非常高 | 嚴重 | manager、intelligence | NSX Application Platform 節點磁碟使用量非常高。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],並檢查個別服務的 [儲存區] 欄位,以查看哪項服務有壓力。清理未使用的資料或記錄以釋出磁碟資源,並確認是否可降低負載。如果需要更多磁碟儲存區,請擴充承受壓力的服務。如果資料儲存區服務承受壓力,另一種方式是按一下 [垂直擴充] 按鈕,以增加磁碟大小。 |
3.2.0 |
節點磁碟使用量偏高 | 中 | manager、intelligence | NSX Application Platform 節點磁碟使用量偏高。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],並檢查個別服務的 [儲存區] 欄位,以查看哪項服務有壓力。清理未使用的資料或記錄以釋出磁碟資源,並確認是否可降低負載。如果需要更多磁碟儲存區,請擴充承受壓力的服務。如果資料儲存區服務承受壓力,另一種方式是按一下 [垂直擴充] 按鈕,以增加磁碟大小。 |
3.2.0 |
節點狀態已降級 | 中 | manager、intelligence | NSX Application Platform 節點狀態為已降級。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [資源],以檢查哪個節點已降級。檢查節點的網路、記憶體和 CPU 使用率。如果該節點是工作節點,請將節點重新開機。 |
3.2.0 |
節點狀態已關閉 | 高 | manager、intelligence | NSX Application Platform 節點狀態為關閉。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [資源],以檢查哪個節點已關閉。檢查節點的網路、記憶體和 CPU 使用率。如果該節點是工作節點,請將節點重新開機。 |
3.2.0 |
資料存放區 CPU 使用率非常高 | 嚴重 | manager、intelligence | 資料儲存區服務 CPU 使用率非常高。 |
擴充所有服務或資料儲存區服務。 |
3.2.0 |
資料存放區 CPU 使用率偏高 | 中 | manager、intelligence | 資料儲存區服務 CPU 使用率偏高。 |
擴充所有服務或資料儲存區服務。 |
3.2.0 |
傳訊 CPU 使用率非常高 | 嚴重 | manager、intelligence | 傳訊服務 CPU 使用率非常高。 |
擴充所有服務或傳訊服務。 |
3.2.0 |
傳訊 CPU 使用率偏高 | 中 | manager、intelligence | 傳訊服務 CPU 使用率偏高。 |
擴充所有服務或傳訊服務。 |
3.2.0 |
組態資料庫 CPU 使用率非常高 | 嚴重 | manager、intelligence | 組態資料庫服務 CPU 使用率非常高。 |
擴充所有服務。 |
3.2.0 |
組態資料庫 CPU 使用率偏高 | 中 | manager、intelligence | 組態資料庫服務 CPU 使用率偏高。 |
擴充所有服務。 |
3.2.0 |
度量 CPU 使用率非常高 | 嚴重 | manager、intelligence | 度量服務 CPU 使用率非常高。 |
擴充所有服務。 |
3.2.0 |
度量 CPU 使用率偏高 | 中 | manager、intelligence | 度量服務 CPU 使用率偏高。 |
擴充所有服務。 |
3.2.0 |
分析 CPU 使用率非常高 | 嚴重 | manager、intelligence | 分析服務 CPU 使用率非常高。 |
擴充所有服務或分析服務。 |
3.2.0 |
分析 CPU 使用率偏高 | 中 | manager、intelligence | 分析服務 CPU 使用率偏高。 |
擴充所有服務或分析服務。 |
3.2.0 |
平台 CPU 使用率非常高 | 嚴重 | manager、intelligence | 平台服務 CPU 使用率非常高。 |
擴充所有服務。 |
3.2.0 |
平台 CPU 使用率偏高 | 中 | manager、intelligence | 平台服務 CPU 使用率偏高。 |
擴充所有服務。 |
3.2.0 |
資料存放區記憶體使用量非常高 | 嚴重 | manager、intelligence | 資料儲存區服務記憶體使用量非常高。 |
擴充所有服務或資料儲存區服務。 |
3.2.0 |
資料存放區記憶體使用量偏高 | 中 | manager、intelligence | 資料儲存區服務記憶體使用量偏高。 |
擴充所有服務或資料儲存區服務。 |
3.2.0 |
傳訊記憶體使用量非常高 | 嚴重 | manager、intelligence | 傳訊服務記憶體使用量非常高。 |
擴充所有服務或傳訊服務。 |
3.2.0 |
傳訊記憶體使用量偏高 | 中 | manager、intelligence | 傳訊服務記憶體使用量偏高。 |
擴充所有服務或傳訊服務。 |
3.2.0 |
組態資料庫記憶體使用量非常高 | 嚴重 | manager、intelligence | 組態資料庫服務記憶體使用量非常高。 |
擴充所有服務。 |
3.2.0 |
組態資料庫記憶體使用量偏高 | 中 | manager、intelligence | 組態資料庫服務記憶體使用量偏高。 |
擴充所有服務。 |
3.2.0 |
度量記憶體使用量非常高 | 嚴重 | manager、intelligence | 度量服務記憶體使用量非常高。 |
擴充所有服務。 |
3.2.0 |
度量記憶體使用量偏高 | 中 | manager、intelligence | 度量服務記憶體使用量偏高。 |
擴充所有服務。 |
3.2.0 |
分析記憶體使用量非常高 | 嚴重 | manager、intelligence | 分析服務記憶體使用量非常高。 |
擴充所有服務或分析服務。 |
3.2.0 |
分析記憶體使用量偏高 | 中 | manager、intelligence | 分析服務記憶體使用量偏高。 |
擴充所有服務或分析服務。 |
3.2.0 |
平台記憶體使用量非常高 | 嚴重 | manager、intelligence | 平台服務記憶體使用量非常高。 |
擴充所有服務。 |
3.2.0 |
平台記憶體使用量偏高 | 中 | manager、intelligence | 平台服務記憶體使用量偏高。 |
擴充所有服務。 |
3.2.0 |
資料存放區磁碟使用量非常高 | 嚴重 | manager、intelligence | 資料儲存區服務磁碟使用量非常高。 |
擴充或垂直擴充資料儲存區服務。 |
3.2.0 |
資料存放區磁碟使用量偏高 | 中 | manager、intelligence | 資料儲存區服務磁碟使用量偏高。 |
擴充或垂直擴充資料儲存區服務。 |
3.2.0 |
傳訊磁碟使用量非常高 | 嚴重 | manager、intelligence | 傳訊服務磁碟使用量非常高。 |
清理不需要的檔案。擴充所有服務或傳訊服務。 |
3.2.0 |
傳訊磁碟使用量偏高 | 中 | manager、intelligence | 傳訊服務磁碟使用量偏高。 |
清理不需要的檔案。擴充所有服務或傳訊服務。 |
3.2.0 |
組態資料庫磁碟使用量非常高 | 嚴重 | manager、intelligence | 組態資料庫服務磁碟使用量非常高。 |
清理不需要的檔案。擴充所有服務。 |
3.2.0 |
組態資料庫磁碟使用量偏高 | 中 | manager、intelligence | 組態資料庫服務磁碟使用量偏高。 |
清理不需要的檔案。擴充所有服務。 |
3.2.0 |
度量磁碟使用量非常高 | 嚴重 | manager、intelligence | 度量服務磁碟使用量非常高。 |
清理不需要的檔案。擴充所有服務。 |
3.2.0 |
度量磁碟使用量偏高 | 中 | manager、intelligence | 度量服務磁碟使用量偏高。 |
清理不需要的檔案。擴充所有服務。 |
3.2.0 |
分析磁碟使用量非常高 | 嚴重 | manager、intelligence | 分析服務磁碟使用量非常高。 |
清理不需要的檔案。擴充所有服務或分析服務。 |
3.2.0 |
分析磁碟使用量偏高 | 中 | manager、intelligence | 分析服務磁碟使用量偏高。 |
清理不需要的檔案。擴充所有服務或分析服務。 |
3.2.0 |
平台磁碟使用量非常高 | 嚴重 | manager、intelligence | 平台服務磁碟使用量非常高。 |
清理不需要的檔案。擴充所有服務。 |
3.2.0 |
平台磁碟使用量偏高 | 中 | manager、intelligence | 平台服務磁碟使用量偏高。 |
清理不需要的檔案。擴充所有服務。 |
3.2.0 |
服務狀態已降級 | 中 | manager、intelligence | 服務狀態為已降級。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],以檢查哪項服務已降級。叫用 NSX API GET /napp/api/v1/platform/monitor/feature/health,以檢查已降級的特定服務及其背後原因。叫用下列 CLI 命令,以重新啟動降級的服務:kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>。已降級的服務可以正常運作,但效能欠佳。 |
3.2.0 |
服務狀態關閉 | 高 | manager、intelligence | 服務狀態為關閉。 |
在 NSX UI 中,導覽至 [系統] | [NSX Application Platform] | [核心服務],以檢查哪項服務已降級。叫用 NSX API GET /napp/api/v1/platform/monitor/feature/health,以檢查已關閉的特定服務及其背後原因。叫用以下 CLI 命令,以重新啟動已降級的服務:kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> |
3.2.0 |
Nsxaas 健全狀況事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
服務已降級 | 高 | aas | 服務已降級。 |
檢閱警示說明中包含的資料以識別服務、服務部署的位置,以及健全狀況監控服務擷取的其他資料。此外,請檢閱度量服務或 Wavefront 記錄的歷史資料 (如果適用)。 |
4.1.0 |
服務關閉 | 嚴重 | aas | 服務關閉。 |
檢閱警示說明中包含的資料以識別服務、服務部署的位置,以及健全狀況監控服務擷取的其他資料。此外,請檢閱度量服務或 Wavefront 記錄的歷史資料 (如果適用)。 |
4.1.0 |
密碼管理事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
密碼已到期 | 嚴重 | global-manager、manager、edge、public-cloud-gateway | 使用者密碼已到期。 |
使用者 {username} 的密碼必須立即變更才能存取系統。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:PUT /api/v1/node/users/<userid>,其中 <userid> 是該使用者的識別碼。如果 admin 使用者 (使用 <userid> 10000) 密碼已到期,則 admin 必須透過 SSH (如果已啟用) 或主控台登入系統,才能變更密碼。輸入目前的已到期密碼時,系統會提示 admin 輸入新密碼。 |
3.0.0 |
密碼即將到期 | 高 | global-manager、manager、edge、public-cloud-gateway | 使用者密碼即將到期。 |
確定使用者 {username} 的密碼會立即變更。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:PUT /api/v1/node/users/<userid>,其中 <userid> 是該使用者的識別碼。 |
3.0.0 |
接近密碼到期 | 中 | global-manager、manager、edge、public-cloud-gateway | 使用者密碼接近到期日。 |
使用者 {username} 的密碼需要盡快變更。例如,若要將新密碼套用至使用者,請在要求本文中使用有效密碼叫用下列 NSX API:PUT /api/v1/node/users/<userid>,其中 <userid> 是該使用者的識別碼。 |
3.0.0 |
實體伺服器事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
實體伺服器安裝失敗 | 嚴重 | manager | 實體伺服器 (BMS) 安裝失敗。 |
導覽至 [系統] > [網狀架構] > [節點] > [主機傳輸節點],然後解決節點上的錯誤。 |
4.0.0 |
實體伺服器升級失敗 | 嚴重 | manager | 實體伺服器 (BMS) 升級失敗。 |
導覽至 [系統] > [升級] 並解決錯誤,然後重新觸發升級。 |
4.0.0 |
實體伺服器解除安裝失敗 | 嚴重 | manager | 實體伺服器 (BMS) 解除安裝失敗。 |
導覽至 [系統] > [網狀架構] > [節點] > [主機傳輸節點],然後解決節點上的錯誤。 |
4.0.0 |
原則限制事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
已達到建立計數限制 | 中 | manager | 實體計數已達到原則限制的上限。 |
檢閱 {constraint_type} 使用量。更新限制以增加限制或刪除未使用的 {constraint_type}。 |
4.1.0 |
路由事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
外部介面上的 BFD 已關閉 | 高 | edge、autonomous-edge、public-cloud-gateway | BFD 工作階段已關閉。 |
1.叫用 NSX CLI 命令 get logical-routers。 |
3.0.0 |
靜態路由已移除 | 高 | edge、autonomous-edge、public-cloud-gateway | 靜態路由已移除。 |
由於 BFD 工作階段已關閉,因此已移除靜態路由項目。 |
3.0.0 |
BGP 已關閉 | 高 | edge、autonomous-edge、public-cloud-gateway | BGP 芳鄰已關閉。 |
1.叫用 NSX CLI 命令 get logical-routers。 |
3.0.0 |
未針對服務 IP 設定 Proxy ARP | 嚴重 | manager | 未針對服務 IP 設定 Proxy ARP。 |
重新設定服務實體 {entity_id} 的服務 IP {service_ip},或變更路由器 {lr_id} 上 LRPort {lrport_id} 的子網路,使得由於服務 IP 與 LRPort 的子網路重疊而產生的 Proxy ARP 項目數小於允許的臨界值限制 16384。 |
3.0.3 |
路由關閉 | 高 | edge、autonomous-edge、public-cloud-gateway | 所有 BGP/BFD 工作階段已關閉。 |
叫用 NSX CLI 命令 get logical-routers,以取得第 0 層服務路由器並切換至此 VRF,然後叫用下列 NSX CLI 命令: |
3.0.0 |
OSPF 芳鄰已關閉 | 高 | edge、autonomous-edge、public-cloud-gateway | OSPF 芳鄰已從完整移至另一個狀態。 |
1.叫用 NSX CLI 命令 get logical-routers,以取得 VRF 識別碼並切換至第 0 層服務路由器。 |
3.1.1 |
接近 IPv4 路由上限 | 中 | edge、autonomous-edge、public-cloud-gateway | 接近 Edge 節點的 IPv4 路由數目上限。 |
1.檢查從所有外部對等接收的路由重新分配原則和路由。 |
4.0.0 |
接近 IPv6 路由上限 | 中 | edge、autonomous-edge、public-cloud-gateway | 接近 Edge 節點的 IPv6 路由數目上限。 |
1.檢查從所有外部對等接收的路由重新分配原則和路由。 |
4.0.0 |
已超過 IPv4 路由上限 | 嚴重 | edge、autonomous-edge、public-cloud-gateway | 已超過 Edge 節點的 IPv4 路由上限。 |
1.檢查從所有外部對等接收的路由重新分配原則和路由。 |
4.0.0 |
已超過 IPv6 路由上限 | 嚴重 | edge、autonomous-edge、public-cloud-gateway | 已超過 Edge 節點的 IPv6 路由上限。 |
1.檢查從所有外部對等接收的路由重新分配原則和路由。 |
4.0.0 |
接近 BGP 芳鄰的 IPv4 首碼數目上限 | 中 | edge、autonomous-edge、public-cloud-gateway | 接近從 BGP 芳鄰接收的 IPv4 首碼數目上限。 |
1.檢查外部路由器中的 BGP 路由原則。 |
4.0.0 |
接近 BGP 芳鄰的 IPv6 首碼數目上限 | 中 | edge、autonomous-edge、public-cloud-gateway | 接近從 BGP 芳鄰接收的 IPv6 首碼數目上限。 |
1.檢查外部路由器中的 BGP 路由原則。 |
4.0.0 |
已超過 BGP 芳鄰的 IPv4 首碼數目上限 | 嚴重 | edge、autonomous-edge、public-cloud-gateway | 已超過從 BGP 芳鄰接收的 IPv4 首碼數目上限。 |
1.檢查外部路由器中的 BGP 路由原則。 |
4.0.0 |
已超過 BGP 芳鄰的 IPv6 首碼數目上限 | 嚴重 | edge、autonomous-edge、public-cloud-gateway | 已超過從 BGP 芳鄰接收的 IPv6 首碼數目上限。 |
1.檢查外部路由器中的 BGP 路由原則。 |
4.0.0 |
安全性合規性事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
觸發 NDcPP 非合規性 | 嚴重 | manager | NSX 安全性狀態不符合 NDcPP 標準。 |
從 UI 首頁 - 監控和儀表板 - 符合性報告功能表執行符合性報告,並解決所有標記有 NDcPP 合規性名稱的問題。 |
4.1.0 |
觸發 EAL4 非合規性 | 嚴重 | manager | NSX 安全性狀態不符合 EAL4+ 標準。 |
從 UI 首頁 - 監控和儀表板 - 合規性報告功能表執行符合性報告,並解決所有標記有 EAL4+ 合規性名稱的問題。 |
4.1.0 |
輪詢 NDcPP 非合規性 | 嚴重 | manager | NSX 安全性組態不符合 NDcPP 標準。 |
從 UI 首頁 - 監控和儀表板 - 符合性報告功能表執行符合性報告,並解決所有標記有 NDcPP 合規性名稱的問題。 |
4.1.0 |
輪詢 EAL4 非合規性 | 嚴重 | manager | NSX 安全性組態不符合 EAL4+ 標準。 |
從 UI 首頁 - 監控和儀表板 - 合規性報告功能表執行符合性報告,並解決所有標記有 EAL4+ 合規性名稱的問題。 |
4.1.0 |
服務插入事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
服務部署成功 | 資訊 | manager | 服務部署成功。 |
無需執行任何動作。 |
4.0.0 |
服務部署失敗 | 嚴重 | manager | 服務部署失敗。 |
使用 NSX UI 或 API 刪除服務部署。執行知識庫的任何更正動作,並再次重試服務部署。 |
4.0.0 |
服務取消部署成功 | 資訊 | manager | 服務部署刪除成功。 |
無需執行任何動作。 |
4.0.0 |
服務取消部署失敗 | 嚴重 | manager | 服務部署刪除失敗。 |
使用 NSX UI 或 API 刪除服務部署。執行知識庫的任何更正動作,並再次重試刪除服務部署。在檢查是否已刪除所有虛擬機器和物件後,手動解決警示。 |
4.0.0 |
SVM 健全狀況狀態開啟 | 資訊 | manager | SVM 正在服務中運作。 |
無需執行任何動作。 |
4.0.0 |
SVM 健全狀況狀態關閉 | 高 | manager | SVM 未在服務中運作。 |
使用 NSX UI 或 API 刪除服務部署。執行知識庫的任何更正動作,並視需要再次重試服務部署。 |
4.0.0 |
服務插入基礎結構狀態關閉 | 嚴重 | esx | 主機上的服務插入基礎結構狀態已關閉且未啟用。 |
執行知識庫的任何更正動作,並檢查狀態是否為開啟。在檢查狀態後,手動解決警示。 |
4.0.0 |
SVM 活躍度狀態關閉 | 嚴重 | manager | SVM 活躍度狀態關閉。 |
執行知識庫的任何更正動作,並檢查狀態是否為開啟。 |
4.0.0 |
服務鏈結路徑關閉 | 嚴重 | manager | 服務鏈結路徑關閉。 |
執行知識庫的任何更正動作,並檢查狀態是否為開啟。 |
4.0.0 |
已新增主機 | 資訊 | esx | 已在叢集中新增主機。 |
檢查虛擬機器部署狀態並等待其開啟電源。 |
4.0.0 |
TEP 健全狀況事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
TEP 發生錯誤 | 中 | esx | TEP 狀況不良。 |
1.檢查 TEP 是否有有效的 IP 或任何其他底層連線問題。 |
4.1.0 |
TEP HA 已啟用 | 資訊 | esx | TEP HA 已啟用。 |
在傳輸節點 {transport_node_id} 的 VDS {dvs_name} 上為 TEP {vtep_name} 啟用自動復原或叫用手動復原。 |
4.1.0 |
Tep 自動復原成功 | 資訊 | esx | 自動復原成功。 |
無。 |
4.1.0 |
Tep 自動復原失敗 | 中 | esx | 自動復原失敗。 |
檢查 TEP 是否有有效的 IP 或任何其他底層連線問題。 |
4.1.0 |
DPU 上的 TEP 發生錯誤 | 中 | dpu | DPU 上的 TEP 狀況不良。 |
1.檢查 TEP 是否有有效的 IP 或任何其他底層連線問題。 |
4.1.0 |
DPU 上已啟用 TEP HA | 資訊 | dpu | DPU 上已啟用 TEP HA。 |
在 DPU {dpu_id} 中傳輸節點 {transport_node_id} 的 VDS {dvs_name} 上為 TEP {vtep_name} 啟用自動復原或叫用手動復原。 |
4.1.0 |
DPU 上的 TEP 自動復原成功 | 資訊 | dpu | DPU 上的自動復原成功。 |
無。 |
4.1.0 |
DPU 上的 TEP 自動復原失敗 | 中 | dpu | DPU 上的自動復原失敗。 |
檢查 TEP 是否有有效的 IP 或任何其他底層連線問題。 |
4.1.0 |
傳輸節點健全狀況事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
DPU 上的傳輸節點上行關閉 | 中 | dpu | DPU 上的上行即將關閉。 |
檢查 DPU {dpu_id} 上的上行的實體 NIC 狀態。在主機上找到此實體 NIC 的對應名稱,然後在 UI 上執行檢查。 |
4.0.0 |
DPU 上的 LAG 成員關閉 | 中 | dpu | DPU 上的 LACP 報告成員關閉。 |
檢查 DPU {dpu_id} 上 LAG 成員的連線狀態。在主機上找到相關實體 NIC 的對應名稱,然後在 UI 上執行檢查。 |
4.0.0 |
NVDS 上行已關閉 | 中 | esx、kvm、bms | 上行即將關閉。 |
檢查主機上上行的實體 NIC 狀態。 |
3.0.0 |
傳輸節點上行關閉 | 中 | esx、kvm、bms | 上行即將關閉。 |
檢查主機上上行的實體 NIC 狀態。 |
3.2.0 |
LAG 成員已關閉 | 中 | esx、kvm、bms | LACP 報告成員已關閉。 |
檢查主機上 LAG 成員的連線狀態。 |
3.0.0 |
VMC 應用程式事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
傳送連線失敗 | 中 | manager | 傳送連線無法完全實現。 |
如果此警示未在 10 分鐘內自動解決,請重試最近的傳送連線相關要求。例如,如果 TGW 連結 API 要求觸發此警示,請再次重試 TGW 連結 API 要求。如果即使在重試後仍未解決警示,請嘗試下列步驟: |
4.1.0 |
VPN 事件
事件名稱 | 嚴重性 | 節點類型 | 警示訊息 | 建議的動作 | 引入的版本 |
---|---|---|---|---|---|
IPSec 服務關閉 | 中 | edge、autonomous-edge、public-cloud-gateway | IPSec 服務已關閉。 |
1.從 NSX Manager UI 停用並啟用 IPSec 服務。 |
3.2.0 |
以 IPSec 原則為基礎的工作階段關閉 | 中 | edge、autonomous-edge、public-cloud-gateway | 以原則為基礎的 IPSec VPN 工作階段已關閉。 |
檢查 IPSec VPN 工作階段組態,並根據工作階段關閉的原因解決錯誤。 |
3.0.0 |
以 IPSec 路由為基礎的工作階段關閉 | 中 | edge、autonomous-edge、public-cloud-gateway | 以路由為基礎的 IPSec VPN 工作階段已關閉。 |
檢查 IPSec VPN 工作階段組態,並根據工作階段關閉的原因解決錯誤。 |
3.0.0 |
以 IPSec 原則為基礎的通道關閉 | 中 | edge、autonomous-edge、public-cloud-gateway | 以原則為基礎的 IPSec VPN 通道已關閉。 |
檢查 IPSec VPN 工作階段組態,並根據通道關閉的原因解決錯誤。 |
3.0.0 |
以 IPSec 路由為基礎的通道關閉 | 中 | edge、autonomous-edge、public-cloud-gateway | 以路由為基礎的 IPSec VPN 通道已關閉。 |
檢查 IPSec VPN 工作階段組態,並根據通道關閉的原因解決錯誤。 |
3.0.0 |
L2VPN 工作階段關閉 | 中 | edge、autonomous-edge、public-cloud-gateway | L2VPN 工作階段已關閉。 |
檢查 L2VPN 工作階段狀態以瞭解工作階段關閉的原因,並根據原因解決錯誤。 |
3.0.0 |