Estes provedores CIM relatam no ambiente operacional para nós de gerenciamento. Eles devem ser monitorados em todos os nós.
Linux_OperatingSystem
- Descrição
Há apenas uma única instância dessa classe por dispositivo.
- Propriedades
- FreePhysicalMemory: se esse valor atingir 0 que é uma falha crítica e precisar ser resolvido imediatamente (veja o cálculo abaixo).
- FreeVirtualMemory: se esse valor atingir 0 0 que é uma falha crítica e precisar ser resolvido imediatamente (veja o cálculo abaixo).
- HealthState: qualquer um dos valores de 5 indica um problema.
- OperationalStatus: qualquer valor, exceto 2 (OK), indica um problema. No entanto, um valor ocasional de 4 (sob estresse) pode ser exibido. Se as amostras repetidas indicarem um valor diferente de 2, você deverá gerar um alerta.
- TotalVirtualMemorySize: a quantidade total de espaço de permuta disponível para o sistema.
- Cálculos
- PercentSwapUsed: 100 * (TotalSwapSpaceSize – FreeSpaceInPagingFiles)/TotalSwapSpaceSize
- É útil monitorar o uso do espaço de permuta. Quando o sistema começar a usar o espaço de permuta, o desempenho é prejudicado. O alerta de memória livre deve ser acionado antes de o sistema usar o espaço de permuta para que o uso da troca seja um problema sério.
- Mitigação
A recomendação é avisar se PercentSwapUsed > 5% e alertar se PercentSwapUsed > 20%.
Se a memória utilizada atingir altos níveis, você deverá verificar se há processos com uso intensivo de memória que precisam ser reiniciados usando o topo e shift-M no nó em questão:$ top PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 6816 root 20 0 2069m 389m 13m S 0.0 19.6 3:36.97 java 6634 root 20 0 755m 84m 9.8m S 0.0 4.2 1:21.70 java ...
Se nenhum único aplicativo parecer ser o problema, reinicie o nó.
Linux_EthernetPort
- Descrição
Em geral, há duas instâncias dessa classe, uma para a interface eth0 (tenant ou rede do service-provider) e uma para a interface eth1 (backbone de gerenciamento).
- Propriedades
- Enabledstate: qualquer valor, exceto 2, é um problema.
- Status: qualquer valor, mas OK é um problema.
- Mitigação
Se o status do eth0 não estiver OK, use ifconfig para verificar se as interfaces estão ativadas e têm um endereço IP. Você também deve ser capaz de executar ping do gateway IPv4 para cada nó.
Se o status de eth1 não estiver OK, tente se conectar a esse dispositivo usando SSH a partir do servidor de trânsito. Se isso funcionar, a interface de eth1 será OK.
Linux_ComputerSystem
- Descrição
Há apenas uma única instância dessa classe por dispositivo.
- Propriedades
- EnabledState: qualquer valor, exceto 2, indica um problema.
- Mitigação
Se EnabledState for qualquer valor, exceto 2, tente fazer ping do nó, SSH para o nó e verifique o status do dtService (serviço dtService status) no nó.
CIM_FileSystem
- Descrição
Há várias subclasses. (Você também pode verificar a classe CIM_LocalFileSystem se não deseja exibir sistemas de arquivos remotos.) O mais importante é se concentrar em todas as instâncias do Linux_Ext4FleSystem. Além do sistema de arquivos raiz, poderá haver outros importantes para verificação se não estiverem no modo somente leitura. No momento, você deve verificar estes sistemas de arquivos:
- /(root)
- /boot
- /data
- /tmp
- /usr/local
- /var
Nos nós do administrador de recursos e nos nós do banco de dados, haverá alguns números de instâncias do Linux_NFS. Esses são sistemas de arquivos montados remotamente. Você pode optar por monitorar essas montagens usando nossos dispositivos ou um mecanismo alternativo com base no sistema de armazenamento.
- Propriedades
- Enabledstate: qualquer valor diferente de 2 (ativado) em um sistema de arquivos NFS montado remotamente é causa para alarme. No entanto, sistemas de arquivos locais em nós de gerenciamento podem ser exibidos com um EnabledState de 3.
- ReadOnly: esse valor deve ser FALSE. Um valor TRUE é causa para alarme. Se a classe CIM_FileSystem não responder a um determinado sistema de arquivos, o sistema de arquivos poderá ser somente leitura, e você deverá reiniciar o nó. Entre em contato com o suporte da VMware se a reinicialização falhar.
- Status: qualquer valor diferente de OK é causa para alarme. Acesse o nó e use montar para verificar se o sistema de arquivos está montado. Se o sistema de arquivos estiver montado, tente criar um arquivo.
- PercentageSpaceUsed: exibe a porcentagem de espaço em disco disponível que é usado. A recomendação é avisar em 70% e aumentar a prioridade do alerta em incrementos de 10% (ou seja, 70, 80, 90).
- Mitigação
Se qualquer um dos sistemas de arquivos relatar alto uso, entre em contato com o suporte da VMware para uma ação corretiva.