這些 CIM 提供者會報告管理節點的作業環境。所有節點上都必須監控這些提供者。

Linux_OperatingSystem

  • 說明

    針對每個應用裝置,此類別只有單一執行個體。

  • 內容
    • FreePhysicalMemory:如果此值達到 0,表示嚴重錯誤,必須立即解決 (請參閱以下計算)。
    • FreeVirtualMemory:如果此值達到 0 0,表示嚴重錯誤,必須立即解決 (請參閱以下計算)。
    • HealthState:可能是任何值,但值 5 表示有問題。
    • OperationalStatus:可能是任何值,但值 2 (正常) 表示有問題。但是,偶爾可能出現值 4 (負荷過高)。如果重複取樣指出 2 以外的值,則您應該引發警示。
    • TotalVirtualMemorySize:可供系統使用的交換空間總量。
  • 計算
    • PercentSwapUsed: 100 * ( TotalSwapSpaceSize – FreeSpaceInPagingFiles ) / TotalSwapSpaceSize
    • 建議監控交換空間使用量。當系統開始使用交換空間時,效能會降低。在系統使用交換空間之前,應觸發可用記憶體的警示,以瞭解使用交換空間是嚴重問題。
  • 緩和措施

    建議在 PercentSwapUsed > 5% 時發出警告,且在 PercentSwapUsed > 20% 時發出警示。

    如果記憶體使用量很大,您應檢查是否有任何耗用大量記憶體的處理程序,而必須在有關節點上使用 top 和 shift-M 來重新啟動這些處理程序。
    $ top
    PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
    6816 root      20   0 2069m 389m  13m S  0.0 19.6   3:36.97 java
    6634 root      20   0  755m  84m 9.8m S  0.0  4.2   1:21.70 java
    ...

    如果應用程式看起來都沒問題,請重新啟動節點。

Linux_EthernetPort

  • 說明

    此類別通常有兩個執行個體,一個用於 eth0 介面 (租用戶或服務提供者網路),另一個用於 eth1 (管理骨幹) 介面。

  • 內容
    • EnabledState:可能是任何值,但值 2 表示有問題。
    • Status:可能是任何值,但「正常」表示有問題。
  • 緩和措施

    如果 eth0 狀態不是「正常」,請使用 ifconfig 檢查介面是否已啟動且具有 IP 位址。您也應該能夠對每個節點的 IPv4 閘道執行 Ping 偵測。

    如果 eth1 狀態不是「正常」,請嘗試從傳輸伺服器使用 SSH 來連線至該應用裝置。如果沒問題,表示 eth1 介面正常。

Linux_ComputerSystem

  • 說明

    針對每個應用裝置,此類別只有單一執行個體。

  • 內容
    • EnabledState:可能是任何值,但值 2 表示有問題。
  • 緩和措施

    如果 EnabledState 是 2 以外的任何值,請嘗試對節點執行 Ping 偵測,透過 ssh 連線至節點,並在節點上檢查 dtService 的狀態 (service dtService status)。

CIM_FileSystem

  • 說明

    這有幾個子類別。(如果不想要檢視遠端檔案系統,您也可以檢查 CIM_LocalFileSystem 類別。)最重要的是注意所有 Linux_Ext4FleSystem 執行個體。除了根檔案系統以外,可能還需要檢查其他檔案系統是否未處於「唯讀」模式。目前,您應檢查這些檔案系統:

    • /(root)
    • /boot
    • /data
    • /tmp
    • /usr/local
    • /var

    在資源管理員節點和資料庫節點上,有幾個 Linux_NFS 執行個體。這些是遠端掛接的檔案系統。您可以選擇使用我們的應用裝置,或基於儲存區系統的替代機制,以監控這些掛接。

  • 內容
    • EnabledState:在遠端掛接的 NFS 檔案系統上,2 (已啟用) 以外的任何值會導致警示。但是,管理節點中的本機檔案系統可能會顯示 EnabledState 為 3。
    • ReadOnly:此值應為 FALSE。值為 TRUE 會觸發警示。如果 CIM_FileSystem 類別沒有回應特定檔案系統,表示檔案系統可能是唯讀,您應重新啟動節點。如果重新啟動失敗,請連絡 VMware 支援。
    • Status:「正常」以外的任何值會導致警示。請移至節點,並使用 mount 來檢查檔案系統是否已掛接。如果檔案系統已掛接,請嘗試建立檔案。
    • PercentageSpaceUsed:顯示已使用的可用磁碟空間百分比。建議在 70% 時發出警告,之後以 10% 為增量提高警示優先順序 (亦即,70、80、90)。
  • 緩和措施

    如果有任何檔案系統報告使用量佷高,請連絡 VMware 支援以進行修正動作。