Estes provedores CIM relatam no ambiente operacional para nós de gerenciamento. Eles devem ser monitorados em todos os nós.

Linux_OperatingSystem

  • Descrição

    Há apenas uma única instância dessa classe por dispositivo.

  • Propriedades
    • FreePhysicalMemory: se esse valor atingir 0 que é uma falha crítica e precisar ser resolvido imediatamente (veja o cálculo abaixo).
    • FreeVirtualMemory: se esse valor atingir 0 0 que é uma falha crítica e precisar ser resolvido imediatamente (veja o cálculo abaixo).
    • HealthState: qualquer um dos valores de 5 indica um problema.
    • OperationalStatus: qualquer valor, exceto 2 (OK), indica um problema. No entanto, um valor ocasional de 4 (sob estresse) pode ser exibido. Se as amostras repetidas indicarem um valor diferente de 2, você deverá gerar um alerta.
    • TotalVirtualMemorySize: a quantidade total de espaço de permuta disponível para o sistema.
  • Cálculos
    • PercentSwapUsed: 100 * (TotalSwapSpaceSize – FreeSpaceInPagingFiles)/TotalSwapSpaceSize
    • É útil monitorar o uso do espaço de permuta. Quando o sistema começar a usar o espaço de permuta, o desempenho é prejudicado. O alerta de memória livre deve ser acionado antes de o sistema usar o espaço de permuta para que o uso da troca seja um problema sério.
  • Mitigação

    A recomendação é avisar se PercentSwapUsed > 5% e alertar se PercentSwapUsed > 20%.

    Se a memória utilizada atingir altos níveis, você deverá verificar se há processos com uso intensivo de memória que precisam ser reiniciados usando o topo e shift-M no nó em questão:
    $ top
    PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
    6816 root      20   0 2069m 389m  13m S  0.0 19.6   3:36.97 java
    6634 root      20   0  755m  84m 9.8m S  0.0  4.2   1:21.70 java
    ...

    Se nenhum único aplicativo parecer ser o problema, reinicie o nó.

Linux_EthernetPort

  • Descrição

    Em geral, há duas instâncias dessa classe, uma para a interface eth0 (tenant ou rede do service-provider) e uma para a interface eth1 (backbone de gerenciamento).

  • Propriedades
    • Enabledstate: qualquer valor, exceto 2, é um problema.
    • Status: qualquer valor, mas OK é um problema.
  • Mitigação

    Se o status do eth0 não estiver OK, use ifconfig para verificar se as interfaces estão ativadas e têm um endereço IP. Você também deve ser capaz de executar ping do gateway IPv4 para cada nó.

    Se o status de eth1 não estiver OK, tente se conectar a esse dispositivo usando SSH a partir do servidor de trânsito. Se isso funcionar, a interface de eth1 será OK.

Linux_ComputerSystem

  • Descrição

    Há apenas uma única instância dessa classe por dispositivo.

  • Propriedades
    • EnabledState: qualquer valor, exceto 2, indica um problema.
  • Mitigação

    Se EnabledState for qualquer valor, exceto 2, tente fazer ping do nó, SSH para o nó e verifique o status do dtService (serviço dtService status) no nó.

CIM_FileSystem

  • Descrição

    Há várias subclasses. (Você também pode verificar a classe CIM_LocalFileSystem se não deseja exibir sistemas de arquivos remotos.) O mais importante é se concentrar em todas as instâncias do Linux_Ext4FleSystem. Além do sistema de arquivos raiz, poderá haver outros importantes para verificação se não estiverem no modo somente leitura. No momento, você deve verificar estes sistemas de arquivos:

    • /(root)
    • /boot
    • /data
    • /tmp
    • /usr/local
    • /var

    Nos nós do administrador de recursos e nos nós do banco de dados, haverá alguns números de instâncias do Linux_NFS. Esses são sistemas de arquivos montados remotamente. Você pode optar por monitorar essas montagens usando nossos dispositivos ou um mecanismo alternativo com base no sistema de armazenamento.

  • Propriedades
    • Enabledstate: qualquer valor diferente de 2 (ativado) em um sistema de arquivos NFS montado remotamente é causa para alarme. No entanto, sistemas de arquivos locais em nós de gerenciamento podem ser exibidos com um EnabledState de 3.
    • ReadOnly: esse valor deve ser FALSE. Um valor TRUE é causa para alarme. Se a classe CIM_FileSystem não responder a um determinado sistema de arquivos, o sistema de arquivos poderá ser somente leitura, e você deverá reiniciar o nó. Entre em contato com o suporte da VMware se a reinicialização falhar.
    • Status: qualquer valor diferente de OK é causa para alarme. Acesse o nó e use montar para verificar se o sistema de arquivos está montado. Se o sistema de arquivos estiver montado, tente criar um arquivo.
    • PercentageSpaceUsed: exibe a porcentagem de espaço em disco disponível que é usado. A recomendação é avisar em 70% e aumentar a prioridade do alerta em incrementos de 10% (ou seja, 70, 80, 90).
  • Mitigação

    Se qualquer um dos sistemas de arquivos relatar alto uso, entre em contato com o suporte da VMware para uma ação corretiva.