Ces fournisseurs CIM génèrent des rapports sur l'environnement d'exploitation des nœuds de gestion. Ils doivent être surveillés sur tous les nœuds.

Linux_OperatingSystem

  • Description

    Il n'y aura qu'une seule instance de cette classe par dispositif.

  • Propriétés
    • FreePhysicalMemory : si cette valeur atteint 0, il s'agit d'une panne critique qui doit être résolue immédiatement (reportez-vous au calcul ci-dessous).
    • FreeVirtualMemory : si cette valeur atteint 0, il s'agit d'une panne critique qui doit être résolue immédiatement (reportez-vous au calcul ci-dessous).
    • HealthState : toute autre valeur que 5 indique un problème.
    • OperationalStatus : toute autre valeur que 2 (OK) indique un problème. Cependant, une valeur occasionnelle de 4 (stressed) peut s'afficher. Si des échantillonnages répétés indiquent une valeur autre que 2, vous devez déclencher une alerte.
    • TotalVirtualMemorySize : quantité totale d'espace d'échange disponible pour le système.
  • Calculs
    • PercentSwapUsed : 100 * (TotalSwapSpaceSize - FreeSpaceInPagingFiles) / TotalSwapSpaceSize
    • Il est utile de surveiller l'utilisation de l'espace d'échange. Lorsque le système commence à utiliser l'espace d'échange, les performances se dégradent. L'alerte indiquant de libérer de la mémoire doit être déclenchée avant que le système n'utilise l'espace d'échange. L'utilisation de l'espace d'échange est un problème grave.
  • Atténuation

    La recommandation est de déclencher un avertissement si PercentSwapUsed est supérieur à 5 % et de déclencher une alerte si PercentSwapUsed est supérieur à 20 %.

    Si la mémoire utilisée atteint des niveaux élevés, vous devez vérifier s'il existe des processus consommateurs de mémoire qui doivent être redémarrés en utilisant top et shift-M sur le nœud concerné :
    $ top
    PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
    6816 root      20   0 2069m 389m  13m S  0.0 19.6   3:36.97 java
    6634 root      20   0  755m  84m 9.8m S  0.0  4.2   1:21.70 java
    ...

    Si aucune application ne semble être le problème, redémarrez le nœud.

Linux_EthernetPort

  • Description

    Il y a généralement deux instances de cette classe, une pour l'interface eth0 (réseau de locataire ou de fournisseur de services) et une pour l'interface eth1 (réseau principal de gestion).

  • Propriétés
    • EnabledState : toute autre valeur que 2 est un problème.
    • Status : toute autre valeur qu'OK est un problème.
  • Atténuation

    Si l'état d'eth0 n'est pas OK, utilisez ifconfig pour vérifier que les interfaces sont actives et disposent d'une adresse IP. Vous devriez également pouvoir effectuer un test ping sur la passerelle IPv4 pour chaque nœud.

    Si l'état d'eth1 n'est pas OK, essayez de vous connecter à ce dispositif via SSH à partir du serveur de transit. Si cela fonctionne, l'interface eth1 est OK.

Linux_ComputerSystem

  • Description

    Il n'y aura qu'une seule instance de cette classe par dispositif.

  • Propriétés
    • EnabledState : toute autre valeur que 2 indique un problème.
  • Atténuation

    Si la valeur d'EnabledState est différente de 2, essayez d'effectuer un test ping sur le nœud, connectez-vous via SSH au nœud et vérifiez l'état de dtService (service dtService status) sur le nœud.

CIM_FileSystem

  • Description

    Il existe plusieurs sous-classes. (Vous pouvez également vous reporter à la classe CIM_LocalFileSystem si vous ne souhaitez pas afficher les systèmes de fichiers distants.) Les classes les plus importantes sur lesquelles se concentrer sont toutes les instances de Linux_Ext4FleSystem. Outre le système de fichiers racine, il peut être important de vérifier que d'autres systèmes de fichiers ne sont pas en mode ReadOnly. Actuellement, vous devez vérifier les systèmes de fichiers suivants :

    • /(root)
    • /boot
    • /data
    • /tmp
    • /usr/local
    • /var

    Les nœuds du gestionnaire de ressources et les nœuds de base de données contiennent un certain nombre d'instances de Linux_NFS. Il s'agit de systèmes de fichiers montés à distance. Vous pouvez choisir de surveiller ces montages via les dispositifs ou un autre mécanisme basé sur le système de stockage.

  • Propriétés
    • EnabledState : toute valeur autre que 2 (enabled) sur un système de fichiers NFS monté à distance déclenche une alarme. Cependant, les systèmes de fichiers locaux dans les nœuds de gestion peuvent afficher une valeur d'EnabledState de 3.
    • ReadOnly : cette valeur doit être FALSE. La valeur TRUE déclenche une alarme. Si la classe CIM_FileSystem ne répond pas pour un système de fichiers particulier, celui-ci peut être en lecture seule et vous devez redémarrer le nœud. En cas d'échec du redémarrage, contactez le support VMware.
    • Status : toute valeur autre qu'OK déclenche une alarme. Accédez au nœud et utilisez la commande mount pour vérifier que le système de fichiers est monté. Si le système de fichiers est monté, essayez de créer un fichier.
    • PercentageSpaceUsed : affiche le pourcentage d'espace disque disponible utilisé. La recommandation est de définir un avertissement à 70 %, puis d'augmenter la priorité d'alerte par incréments de 10 % (c'est-à-dire, 70, 80 et 90).
  • Atténuation

    Si l'un des systèmes de fichiers signale une utilisation élevée, contactez le support VMware pour corriger le problème.