这些 CIM 提供程序将报告管理节点的操作环境。必须在所有节点上监控这些提供程序。

Linux_OperatingSystem

  • 描述

    每个设备只有一个此类实例。

  • 属性
    • FreePhysicalMemory:如果此值达到 0,则表示这是一个严重故障,必须立即解决(请参阅下面的“计算方法”)。
    • FreeVirtualMemory:如果此值达到 0 0,则表示这是一个严重故障,必须立即解决(请参阅下面的“计算方法”)。
    • HealthState:除 5 以外的其他任何值均表示存在问题。
    • OperationalStatus:除 2(正常)以外的其他任何值均表示存在问题。但是,偶尔可能会显示值 4(紧张)。如果重复采样指示除 2 以外的其他任何值,则应发出警示。
    • TotalVirtualMemorySize:系统可用的交换空间总量。
  • 计算方法
    • PercentSwapUsed:100 * (TotalSwapSpaceSize – FreeSpaceInPagingFiles) / TotalSwapSpaceSize
    • 监控交换空间使用情况非常有用。系统开始使用交换空间时,性能将会下降。应在系统使用交换空间之前触发可用内存警示,因此,使用交换空间会导致严重问题。
  • 缓解措施

    建议在 PercentSwapUsed 大于 5% 时发出警告,在 PercentSwapUsed 大于 20% 时发出警示。

    如果已用内存达到较高级别,则应在相关节点上使用 top 和 shift-M 来查看是否存在任何必须重新启动的内存密集型进程:
    $ top
    PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
    6816 root      20   0 2069m 389m  13m S  0.0 19.6   3:36.97 java
    6634 root      20   0  755m  84m 9.8m S  0.0  4.2   1:21.70 java
    ...

    如果没有一个应用程序显示存在问题,请重新启动节点。

Linux_EthernetPort

  • 描述

    通常存在此类的两个实例,一个用于 eth0 接口(租户或服务提供程序网络),另一个用于 eth1(管理主干)接口。

  • 属性
    • EnabledState:除 2 以外的其他任何值均表示存在问题。
    • Status:除 OK 以外的其他任何值均表示存在问题。
  • 缓解措施

    如果 eth0 状态不正常,则使用 ifconfig 检查接口是否已启动且具有 IP 地址。您还应能够对每个节点的 IPv4 网关执行 ping 操作。

    如果 eth1 状态不正常,请尝试使用 ssh 从中转服务器连接到该设备。如果可以连接到该设备,则表示 eth1 接口正常。

Linux_ComputerSystem

  • 描述

    每个设备只有一个此类实例。

  • 属性
    • EnabledState:除 2 以外的其他任何值均表示存在问题。
  • 缓解措施

    如果 EnabledState 的值是除 2 以外的其他任何值,请尝试对节点执行 ping 操作,通过 ssh 连接到节点,并检查节点上 dtService 的状态 (service dtService status)。

CIM_FileSystem

  • 描述

    此类具有若干子类。(如果您不想查看远程文件系统,则还可以检查 CIM_LocalFileSystem 类。)最需要关注的是所有 Linux_Ext4FleSystem 实例。除了根文件系统外,还务必要检查其他文件系统,确认它们没有处于 ReadOnly 模式。目前,您应检查以下文件系统:

    • /(root)
    • /boot
    • /data
    • /tmp
    • /usr/local
    • /var

    在资源管理器节点和数据库节点上,存在一定数量的 Linux_NFS 实例。这些实例是远程挂载的文件系统。您可以选择使用我们的设备或基于存储系统的备用机制监控这些挂载系统。

  • 属性
    • EnabledState:在远程挂载的 NFS 文件系统上,除 2(已启用)以外的其他任何值均会导致发出警报。但是,对于管理节点中的本地文件系统,EnabledState 的值可能显示为 3。
    • ReadOnly:此值应为 FALSE。值为 TRUE 会导致发出警报。如果 CIM_FileSystem 类没有对特定文件系统做出响应,则该文件系统可能处于只读模式,对于这种情况,您应重新启动节点。如果重新启动失败,请联系 VMware 技术支持团队。
    • Status:除 OK 以外的其他任何值均会导致发出警报。请转到节点并使用 mount 来检查文件系统是否已挂载。如果文件系统已挂载,请尝试创建文件。
    • PercentageSpaceUsed:显示已使用的可用磁盘空间的百分比。建议在值为 70% 时发出警告,然后以 10% 的增量(即,70、80、90)递增警示优先级。
  • 缓解措施

    如果任何文件系统报告的使用率较高,请联系 VMware 技术支持团队以采取纠正措施。