Lorsque vous créez des définitions d'alertes pour votre environnement, appliquez les meilleures pratiques afin d'optimiser le comportement de vos objets surveillés en cas d'alerte.
Nom et description des définitions d'alertes
Le nom de définition d'alerte est le nom abrégé qui s'affiche aux emplacements suivants :
- Dans les grilles de données lorsque des alertes sont générées
- Dans les notifications d'alerte sortantes, notamment les notifications par e-mail qui sont envoyées lorsque des alertes et des notifications sortantes sont configurées dans votre environnement
Veillez à choisir un nom suffisamment explicite qui décrit clairement le problème signalé. Les utilisateurs peuvent évaluer les alertes en fonction du nom de définition d'alerte.
La description de la définition d'alerte est le texte qui s'affiche dans les détails de la définition d'alerte et dans les alertes sortantes. Veillez à fournir une description utile qui aide les utilisateurs à comprendre le problème à l'origine de l'alerte.
Cycle d'attente et d'annulation
Le paramètre de cycle d'attente vous permet d'ajuster la sensibilité de votre environnement. Le cycle d'attente de la définition d'alerte entre en vigueur une fois que le cycle d'attente de la définition de symptôme a engendré un symptôme déclenché. Dans la plupart des définitions d'alertes, vous configurez la sensibilité au niveau du symptôme et le cycle d'attente de la définition d'alerte sur 1. Cette configuration permet de générer l'alerte immédiatement après que tous les symptômes ont été déclenchés au niveau de sensibilité souhaité.
Le paramètre de cycle d'annulation vous permet d'ajuster la sensibilité de votre environnement. Le cycle d'annulation de la définition d'alerte entre en vigueur une fois que le cycle d'attente de la définition de symptôme a engendré un symptôme annulé. Dans la plupart des définitions, vous configurez la sensibilité au niveau du symptôme et le cycle d'annulation de la définition d'alerte sur 1. Cette configuration permet d'annuler l'alerte immédiatement après que toutes les conditions de symptômes ont disparu après le cycle d'annulation souhaité.
Créer des définitions d'alertes pour générer le moins d'alertes
Vous pouvez contrôler la taille de votre liste d'alertes et en faciliter la gestion. Lorsqu'une alerte concerne un problème général qui peut être déclenché pour de nombreux objets, configurez sa définition afin que l'alerte soit générée pour un objet de niveau supérieur dans la hiérarchie plutôt que pour des objets individuels.
Lorsque vous ajoutez des symptômes à votre définition d'alerte, ne surchargez pas chaque définition d'alerte avec des symptômes secondaires. La combinaison de symptômes doit être aussi simple et directe que possible.
Vous pouvez également utiliser une série de définitions de symptômes pour décrire les niveaux croissants de préoccupation. Par exemple, le paramètre Volume proche de la limite de capacité pourrait avoir Avertissement comme valeur de gravité, tandis que le paramètre Limite de capacité atteinte par le volume pourrait avoir Critique comme niveau de gravité. Le premier symptôme n'est pas une menace immédiate, alors que le second en est une. Vous pouvez alors inclure les définitions de symptômes Avertissement et Critique dans une seule définition d'alerte avec une condition N'importe lequel et définir la criticité de l'alerte sur Basée sur le symptôme. Ces paramètres entraînent la génération d'une alerte présentant la criticité correcte si l'un ou l'autre des symptômes se déclenche.
Éviter le chevauchement et les écarts entre les alertes
Les chevauchements provoquent le déclenchement de plusieurs alertes pour la même condition sous-jacente. Les écarts se produisent lorsqu'une alerte non résolue de gravité moindre est annulée et qu'une alerte liée de gravité plus élevée ne peut pas être déclenchée.
Un écart se produit lorsque la valeur est <=50 % dans une définition d'alerte et >=75 % dans une seconde définition d'alerte. L'écart se produit lorsque le pourcentage de volumes à utilisation élevée tombe entre 50 et 75 %. Le premier problème est alors annulé, mais le second ne génère pas d'alerte. Cette situation est problématique, car aucune définition d'alerte n'est active pour combler l'écart.
Recommandations d'action
Si vous fournissez aux utilisateurs des instructions pour les aider à résoudre un problème identifié par une définition d'alerte, indiquez de manière précise comment le technicien ou l'administrateur doit corriger le problème afin de résoudre l'alerte.
Pour étayer les instructions, ajoutez un lien vers une page Wiki, un runbook ou d'autres sources d'informations et ajoutez des actions que vous exécutez à partir de VMware Aria Operations sur les systèmes cibles.