Les tableaux suivants décrivent les événements qui déclenchent des alarmes, y compris les messages d'alarme et les actions recommandées pour les résoudre. Tout événement d'une gravité supérieure à FAIBLE déclenche une alarme.
Événements de gestion des alarmes
Les événements de gestion des alarmes proviennent des nœuds NSX Manager et du gestionnaire global.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Service d'alarme surchargé | Critique | Le service d'alarme est surchargé. Lorsque l'événement est détecté : « En raison d'un volume important d'alarmes signalé, le service d'alarme est temporairement surchargé. L'interface utilisateur de NSX et NSX API GET /api/v1/alarm ont arrêté de signaler de nouvelles alarmes. Les entrées Syslog et les interruptions SNMP (si elles sont activées) sont toujours émises en signalant les informations de l'événement sous-jacent. Lorsque les problèmes sous-jacents entraînant un volume important d'alarmes sont résolus, le service d'alarme recommence à signaler de nouvelles alarmes. » Lorsque l'événement est résolu : « Le volume important d'alarmes est sous-présent et les nouvelles alarmes sont de nouveau signalées. » |
Vérifiez toutes les alarmes actives sur la page Alarmes dans l'interface utilisateur de NSX ou à l'aide de NSX API GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED. Pour chaque alarme active, analysez la cause principale en suivant l'action recommandée pour l'alarme. Lorsqu'un nombre suffisant d'alarmes est résolu, le service d'alarme commencera à signaler de nouveau de nouvelles alarmes. |
| Volume d'alarmes important | Critique | Volume important d'un type d'alarme spécifique détecté. Lorsque l'événement est détecté : « En raison d'un volume important d'alarmes {event_id}, le service d'alarme a temporairement arrêté de signaler des alarmes de ce type. L'interface utilisateur de NSX et NSX API GET /api/v1/alarms ne signalent pas de nouvelles instances de ces alarmes. Les entrées Syslog et les interruptions SNMP (si elles sont activées) sont toujours émises en signalant les informations de l'événement sous-jacent. Lorsque les problèmes sous-jacents entraînant un volume important d'alarmes {event_id} sont résolus, le service d'alarme commence à signaler de nouvelles alarmes {event_id} lorsque de nouveaux problèmes sont détectés à nouveau. » Lorsque l'événement est résolu : « Le volume important d'alarmes {event_id} a diminué et de nouvelles alarmes de ce type sont à nouveau signalées. » |
Vérifiez toutes les alarmes actives sur la page Alarmes dans l'interface utilisateur de NSX ou à l'aide de NSX API GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED. Pour chaque alarme active, analysez la cause principale en suivant l'action recommandée pour l'alarme. Lorsqu'un nombre suffisant d'alarmes est résolu, le service d'alarme commencera à signaler de nouveau de nouvelles alarmes {event_id}. |
Événements de certificats
Des événements de certificat proviennent du nœud NSX Manager.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Certificat expiré | Critique | Un certificat a expiré. Lorsque l'événement est détecté : « Le certificat {entity-id} a expiré. » Lorsque l'événement est résolu : « Le certificat expiré {entity-id} a été supprimé ou n'a plus expiré. |
Assurez-vous que les services qui utilisent actuellement le certificat sont mis à jour afin d'utiliser un nouveau certificat non expiré. Par exemple, pour appliquer un nouveau certificat au service HTTP, appelez l'appel d'API suivant :
où <cert-id> est l'ID d'un certificat valide signalé par l'appel d'API Une fois que le certificat expiré n'est plus utilisé, il doit être supprimé à l'aide de l'appel d'API suivant :
|
| Certificat sur le point d'expirer | Élevé | Un certificat est sur le point d'expirer Lorsque l'événement est détecté : « Le certificat {entity-id} est sur le point d'expirer. » Lorsque l'événement est résolu : « Le certificat arrivant à expiration {entity-id} ou n'est plus sur le point d'expirer. » |
Assurez-vous que les services qui utilisent actuellement le certificat sont mis à jour pour utiliser un nouveau certificat non expiré. Par exemple, pour appliquer un nouveau certificat au service HTTP, appelez l'appel d'API suivant :
où <cert-id> est l'ID d'un certificat valide signalé par l'appel d'API Une fois que le certificat arrivant à expiration n'est plus utilisé, il doit être supprimé à l'aide de l'appel d'API :
|
| Expiration du certificat approchant | Moyenne | Un certificat approche de son expiration. Lorsque l'événement est détecté : « Le certificat {entity-id} approche de son expiration. » Lorsque l'événement est résolu : « Le certificat arrivant à expiration {entity-id} ou n'approche plus de son expiration. » |
Assurez-vous que les services qui utilisent actuellement le certificat sont mis à jour pour utiliser un nouveau certificat non expiré. Par exemple, pour appliquer un nouveau certificat au service HTTP, appelez l'appel d'API suivant :
où <cert-id> est l'ID d'un certificat valide signalé par l'appel d'API Une fois que le certificat arrivant à expiration n'est plus utilisé, il doit être supprimé à l'aide de l'appel d'API :
|
Événements de santé de CNI
Les événements de santé de CNI proviennent des nœuds ESXi et KVM.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Connexion Hyperbus Manager inactive | Moyenne | Hyperbus ne peut pas communiquer avec le nœud de gestionnaire. Lorsque l'événement est détecté : « Hyperbus ne peut pas communiquer avec le nœud de gestionnaire. » Lorsque l'événement est résolu : « Hyperbus peut communiquer avec le nœud de gestionnaire. » |
L'interface Hyperbus vmkernel (vmk50) est peut-être manquante. Reportez-vous à Knowledge Base article 67432. |
Événements DHCP
Les événements DHCP proviennent des nœuds NSX Edge et de passerelle publique.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Échec de l'allocation de bail du pool | Élevé | Les adresses IP d'un pool d'adresses IP ont été épuisées. Lorsque l'événement est détecté : « Les adresses du pool d'adresses IP {entity_id} du serveur DHCP {dhcp_server_id} ont été épuisées. La dernière demande DHCP a échoué et les futures demandes échoueront. » Lorsque l'événement est résolu : « Le pool d'adresses IP {entity_id} du serveur DHCP {dhcp_server_id} n'est plus épuisé. Un bail a été alloué à la dernière demande DHCP. » |
Vérifiez la configuration du pool DHCP dans l'interface utilisateur de NSX ou sur le nœud Edge sur lequel le serveur DHCP s'exécute en appelant la commande get dhcp ip-pool de l'interface de ligne de commande NSX. Vérifiez également les baux actifs actuels sur le nœud Edge en appelant la commande get dhcp lease de l'interface de ligne de commande NSX. Comparez les baux au nombre de VM actives. Pensez à réduire la durée du bail sur la configuration du serveur DHCP si le nombre de VM est faible par rapport au nombre de baux actifs. Pensez également à développer la plage de pools pour le serveur DHCP en consultant la page de l'interface utilisateur de NSX. |
| Pool surchargé | Moyenne | Un pool d'adresses IP est surchargé. Lorsque l'événement est détecté : « L'utilisation du pool d'adresses IP {entity_id} du serveur DHCP {dhcp_server_id} approche de l'épuisement avec {dhcp_pool_usage} % d'adresses IP allouées. » Lorsque l'événement est résolu : « Le pool d'adresses IP {entity_id} du serveur DHCP {dhcp_server_id} est tombé en dessous du seuil d'utilisation élevé. » |
Vérifiez la configuration du pool DHCP dans l'interface utilisateur de NSX ou sur le nœud Edge sur lequel le serveur DHCP s'exécute en appelant la commande get dhcp ip-pool de l'interface de ligne de commande NSX. Vérifiez également les baux actifs actuels sur le nœud Edge en appelant la commande get dhcp lease de l'interface de ligne de commande NSX. Comparez les baux au nombre de VM actives. Pensez à réduire la durée du bail sur la configuration du serveur DHCP si le nombre de VM est faible par rapport au nombre de baux actifs. Pensez également à développer la plage de pools pour le serveur DHCP en consultant la page de l'interface utilisateur de NSX. |
Événements de pare-feu distribué
Des événements de pare-feu distribué proviennent des nœuds NSX Manager ou ESXi.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Utilisation très élevée du CPU du pare-feu distribué | Critique | L'utilisation du CPU du pare-feu distribué est très élevée. Lorsque l'événement est détecté : « L'utilisation du CPU de DFW sur le nœud de transport {entity_id} a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil très élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « Le redirecteur DNS {entity_id} s'exécute de nouveau. » |
Pensez à rééquilibrer les charges de travail de VM sur cet hôte vers d'autres hôtes. Vérifiez la conception de la sécurité pour l'optimisation. Par exemple, utilisez la configuration applicable si les règles ne s'appliquent pas à l'ensemble du centre de données. |
| Utilisation très élevée de la mémoire du pare-feu distribué | Critique | L'utilisation de la mémoire du pare-feu distribué est très élevée. Lorsque l'événement est détecté : « L'utilisation de la mémoire de DFW {heap_type} sur le nœud de transport {entity_id} a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil très élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation de la mémoire de DFW {heap_type} sur le nœud de transport {entity_id} a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil très élevée de {system_usage_threshold} %. » |
Affichez l'utilisation actuelle de la mémoire DFW en appelant la commande get firewall thresholds de l'interface de ligne de commande NSX sur l'hôte. Pensez à rééquilibrer les charges de travail sur cet hôte vers d'autres hôtes. |
Événements DNS
Les événements DNS proviennent des nœuds NSX Edge et de passerelle publique.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Redirecteur inactif | Élevé | Un redirecteur DNS est inactif. Lorsque l'événement est détecté : « Le redirecteur DNS {entity_id} n'est pas en cours d'exécution. Cela affecte tous les redirecteurs DNS configurés actuellement activés. » Lorsque l'événement est résolu : « Le redirecteur DNS {entity_id} s'exécute de nouveau. » |
|
| Redirecteur désactivé | Élevé | Un redirecteur DNS est désactivé. Lorsque l'événement est détecté : « Le redirecteur DNS {entity_id} est désactivé. » Lorsque l'événement est résolu : « Le redirecteur DNS {entity_id} est activé. » |
|
Événements de santé du dispositif Edge
Les événements de santé du dispositif Edge proviennent de NSX Edge et des nœuds de passerelle publique.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Utilisation très élevée du CPU Edge | Critique | L'utilisation du CPU du nœud Edge est très élevée. Lorsque l'événement est détecté : « L'utilisation du CPU sur le nœud Edge {entity-id} a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil très élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du CPU sur le nœud Edge {entity-id} a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil très élevée de {system_usage_threshold} %. » |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud Edge. Pensez à ajuster la taille du format du dispositif Edge ou à rééquilibrer les services vers d'autres nœuds Edge pour la charge de travail applicable. |
| Utilisation élevée du CPU Edge | Moyenne | L'utilisation du CPU du nœud Edge est élevée. Lorsque l'événement est détecté : « L'utilisation du CPU sur le nœud Edge {entity-id} a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du CPU sur le nœud Edge {entity-id} a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil élevée de {system_usage_threshold} %. » |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud Edge. Pensez à ajuster la taille du format du dispositif Edge ou à rééquilibrer les services vers d'autres nœuds Edge pour la charge de travail applicable. |
| Échec de la configuration du chemin de données Edge | Élevé | La configuration du chemin de données du nœud Edge a échoué. Lorsque l'événement est détecté : « Échec de l'activation du chemin de données sur le nœud Edge après trois tentatives. » Lorsque l'événement est résolu : « Le chemin de données sur le nœud Edge a été correctement activé. » |
Vérifiez que la connexion du nœud Edge au nœud de gestionnaire est saine. Dans l'interface de ligne de commande NSX du nœud Edge, appelez la commande get services pour vérifier la santé des services. Si le service du plan de données est arrêté, appelez la commande start service dataplane pour le redémarrer. |
| Utilisation très élevée du CPU du chemin de données Edge | Critique | L'utilisation du CPU du chemin de données du nœud Edge est très élevée. Lorsque l'événement est détecté : « L'utilisation du CPU du chemin de données sur le nœud Edge {entity-id} a atteint {datapath_resource_usage} %, ce qui est supérieur ou égal au seuil très élevé pendant au moins deux minutes. » Lorsque l'événement est résolu : « L'utilisation du CPU du chemin de données sur le nœud Edge {entity-id} est passée sous le seuil maximal. » |
Vérifiez les statistiques du CPU sur le nœud Edge en appelant la commande get dataplane cpu stats NSX pour afficher les taux de paquets par cœur de CPU. Une utilisation plus élevée du CPU est attendue avec des taux de paquets supérieurs. Pensez à augmenter la taille du format du dispositif Edge et à rééquilibrer les services sur ce nœud Edge vers d'autres nœuds Edge dans le même cluster ou dans d'autres clusters Edge. |
| Utilisation élevée du CPU du chemin de données Edge | Moyenne | L'utilisation du CPU du chemin de données du nœud Edge est élevée. Lorsque l'événement est détecté : « L'utilisation du CPU du chemin données sur le nœud Edge {entity-id} a atteint {datapath_resource_usage} %, ce qui est supérieur ou égal au seuil élevé pendant au moins deux minutes. » Lorsque l'événement est résolu : « L'utilisation du CPU sur le nœud Edge {entity-id} est passée sous le seuil élevé. » |
Vérifiez les statistiques du CPU sur le nœud Edge en appelant la commande get dataplane cpu stats NSX pour afficher les taux de paquets par cœur de CPU. Une utilisation plus élevée du CPU est attendue avec des taux de paquets supérieurs. Pensez à augmenter la taille du format du dispositif Edge et à rééquilibrer les services sur ce nœud Edge vers d'autres nœuds Edge dans le même cluster ou dans d'autres clusters Edge. |
| Pilote de cryptographie du chemin de données Edge inactif | Critique | Le pilote de cryptographie du chemin de données du nœud Edge est inactif. Lorsque l'événement est détecté : « Le pilote de cryptographie du nœud Edge est inactif. » Lorsque l'événement est résolu : « Le pilote de cryptographie du nœud Edge est actif. » |
Mettez à niveau le nœud Edge si nécessaire. |
| Le pool de mémoire du chemin de données Edge est élevé | Moyenne | Le pool de mémoire du chemin de données du nœud Edge est élevé. Lorsque l'événement est détecté : « L'utilisation du pool de mémoires du chemin de données pour {mempool_name} sur le nœud Edge {entity-id} a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du pool de mémoires du chemin de données pour {mempool_name} sur le nœud Edge {entity-id} a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil élevée de {system_usage_threshold} %. » |
Connectez-vous en tant qu'utilisateur racine et appelez les commandes edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show et edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap pour vérifier l'utilisation de la mémoire DPDK. |
| Utilisation très élevée du disque Edge | Critique | L'utilisation du disque du nœud Edge est très élevée. Lorsque l'événement est détecté : « L'utilisation du disque pour la partition de disque {disk_partition_name} du nœud Edge a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil très élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du disque pour la partition de disque {disk_partition_name} du nœud Edge a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil très élevée de {system_usage_threshold} %. » |
Examinez la partition ayant une utilisation élevée et vérifiez si des fichiers volumineux inattendus peuvent être supprimés. |
| Utilisation élevée du disque Edge | Moyenne | L'utilisation du disque du nœud Edge est élevée. Lorsque l'événement est détecté : « L'utilisation du disque pour la partition de disque {disk_partition_name} du nœud Edge a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du disque pour la partition de disque {disk_partition_name} du nœud Edge a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil élevée de {system_usage_threshold} %. » |
Examinez la partition ayant une utilisation élevée et vérifiez si des fichiers volumineux inattendus peuvent être supprimés. |
| Utilisation de la table ARP globale Edge élevée | Moyenne | L'utilisation de la table ARP globale du nœud Edge est élevée. Lorsque l'événement est détecté : « L'utilisation de la table ARP globale sur le nœud Edge {entity-id} a atteint {datapath_resource_usage} %, ce qui est supérieur au seuil élevé pendant plus de deux minutes. » Lorsque l'événement est résolu : « L'utilisation de la table ARP globale sur le nœud Edge {entity-id} est passée sous le seuil élevé. » |
Augmentez la taille de la table ARP :
|
| Utilisation très élevée de la mémoire Edge | Critique | L'utilisation de la mémoire du nœud Edge est très élevée. Lorsque l'événement est détecté : « L'utilisation de la mémoire sur le nœud Edge {entity-id} a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil très élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation de la mémoire sur le nœud Edge {entity-id} a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil très élevée de {system_usage_threshold} %. » |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud Edge. Pensez à ajuster la taille du format du dispositif Edge ou à rééquilibrer les services vers d'autres nœuds Edge pour la charge de travail applicable. |
| Utilisation élevée de la mémoire Edge | Moyenne | L'utilisation de la mémoire du nœud Edge est élevée. Lorsque l'événement est détecté : « L'utilisation de la mémoire sur le nœud Edge {entity-id} a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation de la mémoire sur le nœud Edge {entity-id} a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil élevée de {system_usage_threshold} %. » |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud Edge. Pensez à ajuster la taille du format du dispositif Edge ou à rééquilibrer les services vers d'autres nœuds Edge pour la charge de travail applicable. |
| État de liaison de la carte réseau Edge inactif | Critique | La liaison de la carte réseau du nœud Edge est inactive. Lorsque l'événement est détecté : « La liaison de la carte réseau du nœud Edge {edge_nic_name} est inactive. » Lorsque l'événement est détecté : « La liaison de la carte réseau du nœud Edge {edge_nic_name} est active. » |
Sur le nœud Edge, confirmez que la liaison de la carte réseau est physiquement inactive en appelant la commande get interfaces de l'interface de ligne de commande NSX. Si elle est inactive, vérifiez la connexion du câble. |
| Mémoire tampon de réception insuffisante de la carte réseau Edge | Critique | La mémoire tampon d'anneau du descripteur de réception de la carte réseau du nœud Edge ne dispose plus de suffisamment d'espace. Lorsque l'événement est détecté : « La mémoire tampon d'anneau de réception de la carte réseau Edge {edge_nic_name} a été dépassée de {rx_ring_buffer_overflow_percentage} % sur le nœud Edge {entity-id} pendant plus de 60 secondes. » Lorsque l'événement est résolu : « L'utilisation de la mémoire tampon de l'anneau de réception de la carte réseau Edge {edge_nic_name} sur le nœud Edge {entity-id} ne dépasse plus. » |
Appelez la commande
get dataplane de l'interface de ligne de commande NSX et vérifiez les points suivants :
|
| Mémoire tampon de transmission insuffisante de la carte réseau Edge | Critique | La mémoire tampon d'anneau du descripteur de transmission de la carte réseau du nœud Edge ne dispose plus de suffisamment d'espace. Lorsque l'événement est détecté : « La mémoire tampon d'anneau de transmission de la carte réseau du nœud Edge {edge_nic_name} a dépassé de {tx_ring_buffer_overflow_percentage} % sur le nœud Edge {entity-id} pendant plus de 60 secondes. » Lorsque l'événement est résolu : « L'utilisation de la mémoire tampon de l'anneau de transmission de la carte réseau du nœud Edge {edge_nic_name} sur le nœud Edge {entity-id} ne dépasse plus. » |
Appelez la commande
get dataplane de l'interface de ligne de commande NSX et vérifiez les points suivants :
|
| Erreur de stockage | Critique | À partir de NSX-T Data Center 3.0.1. Les partitions de disque suivantes sur le nœud Edge sont en lecture seule : {disk_partition_name} . |
Examinez la partition en lecture seule pour savoir si le redémarrage résout le problème ou si vous devez remplacer le disque. Reportez-vous à l'article de la base de connaissances https://kb.vmware.com/s/article/2146870. |
Événements de protection du point de terminaison
Les événements de protection du point de terminaison proviennent des nœuds NSX Manager ou ESXi.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| État d'EAM inactif | Critique | Le service ESX Agent Manager (EAM) sur un gestionnaire de calcul est inactif. Lorsque l'événement est détecté : « Le service EAM (ESX Agent Manager) sur le gestionnaire de calcul {entity_id} est inactif. » Lorsque l'événement est résolu : « Le service ESX Agent Manager (EAM) sur le gestionnaire de calcul {entity_id} est activé ou le gestionnaire de calcul {entity_id} a été supprimé. » |
Redémarrez le service ESX Agent Manager (EAM) :
|
| Canal de partenaire inactif | Critique | La connexion du module hôte et de la SVM du partenaire est inactive. Lorsque l'événement est détecté : « La connexion entre le module hôte et la SVM partenaire {entity_id} est inactive. » Lorsque l'événement est résolu : « La connexion entre le module hôte et la SVM partenaire {entity_id} est active. » |
Reportez-vous à l'article 2148821 de la base de connaissances Dépannage de NSX Guest Introspection et assurez-vous que la SVM partenaire identifiée par {entity_id} est reconnectée au module hôte. |
Événements de Fédération
Les événements de Fédération proviennent des nœuds NSX Manager NSX Edge et de passerelle publique.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Erreur de synchronisation LM-LM |
Élevé | À partir de NSX-T Data Center 3.0.1. La synchronisation entre {site_name}({site_id} et {remote_site_name}({remote_site_id} a échoué pendant plus de 5 minutes. |
|
| Avertissement de synchronisation LM-LM | Moyenne | À partir de NSX-T Data Center 3.0.1. La synchronisation entre {site_name}({site_id} et {remote_site_name}({remote_site_id} a échoué. |
|
| RTEP BGP inactif | Élevé | À partir de NSX-T Data Center 3.0.1. La session RTEP BGP de l'adresse IP source {bgp_source_ip} vers l'adresse IP du voisin {bgp_neighbor_ip} de l'emplacement distant {remote_site_name} est inactive. Motif : {failure_reason}. |
|
Événements de haute disponibilité
Des événements de haute disponibilité proviennent de NSX Edge et des nœuds de passerelle de cloud public.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Basculement de la passerelle de niveau 0 | Élevé | Une passerelle de niveau 0 a basculé. Lorsque l'événement est détecté : « Basculement de la passerelle de niveau 0 {entity-id} de {previous_gateway_state} à {current_gateway_state}. » Lorsque l'événement est résolu : « La passerelle de niveau 0 {entity-id} est désormais active. » |
Déterminez le service inactif et redémarrez-le.
|
| Basculement de la passerelle de niveau 1 | Élevé | Une passerelle de niveau 1 a basculé. Lorsque l'événement est détecté : « Basculement de la passerelle de niveau 1 {entity-id} de {previous_gateway_state} à {current_gateway_state}. » Lorsque l'événement est résolu : « La passerelle de niveau 1 {entity-id} est maintenant active. » |
Déterminez le service inactif et redémarrez-le.
|
Événements de communication de l'infrastructure
Les événements de communication de l'infrastructure proviennent des nœuds NSX Edge, KVM, ESXi et de passerelle publique.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Tunnels Edge inactifs | Critique | L'état du tunnel d'un nœud Edge est inactif. Lorsque l'événement est détecté : « L'état du tunnel global du nœud Edge {entity_id} est inactif. » Lorsque l'événement est résolu : « Les tunnels du nœud Edge {entity_id} ont été restaurés. » |
|
Événements de service d'infrastructure
Les événements de service d'infrastructure proviennent des nœuds NSX Edge et de passerelle publique.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| État du service Edge inactif | Critique | Le service Edge est inactif pendant au moins une minute. Lorsque l'événement est détecté : « Le service {edge_service_name} est inactif pendant au moins une minute. » Lorsque l'événement est résolu : « Le service {edge_service_name} est actif. » |
Sur le nœud Edge, vérifiez que le service n'est pas fermé en raison d'une erreur en examinant les fichiers de vidage de mémoire dans le répertoire /var/log/core. Pour confirmer que le service est arrêté, appelez la commande get services de l'interface de ligne de commande NSX. Si c'est le cas, exécutez |
| État du service Edge modifié | Faible | État du service Edge modifié. Lorsque l'événement est détecté : « Le service {edge_service_name} est passé de {previous_service_state} à {current_service_state}. » Lorsque l'événement est résolu : « Le service {edge_service_name}est passé de {previous_service_state} à {current_service_state}. » |
Sur le nœud Edge, vérifiez que le service n'est pas fermé en raison d'une erreur en examinant les fichiers de vidage de mémoire dans le répertoire /var/log/core. Pour confirmer que le service est arrêté, appelez la commande get services de l'interface de ligne de commande NSX. Si c'est le cas, exécutez |
Événements de communication d'Intelligence
Les événements de communication de NSX Intelligence proviennent du nœud NSX Manager, du nœud ESXi et du dispositif NSX Intelligence.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| L'exportateur de flux du nœud de transport est déconnecté | Élevé | Un nœud de transport est déconnecté de son broker de messagerie de nœud Intelligence. Cela affecte la collecte de données. Lorsque l'événement est détecté : « L'exportateur de flux sur le nœud de transport {entity-id} est déconnecté du Broker de messagerie du nœud Intelligence. Cela affecte la collecte de données. » Lorsque l'événement est résolu : « L'exportateur de flux sur le nœud de transport {entity-id} est reconnecté au Broker de messagerie du nœud Intelligence. » |
|
| Canal de contrôle vers le nœud de transport inactif | Critique | Canal de contrôle vers le nœud de transport inactif. Lorsque l'événement est détecté : le service de contrôleur central_control_plane_id vers le nœud de transport {entity-id} est inactif pendant au moins trois minutes du point de vue des services de contrôleur. Lorsque l'événement est résolu : le service de contrôleur central_control_plane_id restaure la connexion au nœud de transport {entity-id}. |
|
| Canal de contrôle vers le nœud de transport inactif pendant trop longtemps |
Avertissement | Canal de contrôle vers le nœud de transport inactif pendant trop longtemps. Lorsque l'événement est détecté : le service de contrôleur central_control_plane_id vers le nœud de transport {entity-id} est inactif pendant au moins 15 minutes du point de vue des services de contrôleur. Lorsque l'événement est résolu : le service de contrôleur central_control_plane_id restaure la connexion au nœud de transport {entity-id}. |
|
| Canal de gestion vers le nœud de transport inactif |
Critique |
Déconnexion du nœud de gestionnaire vers le nœud de transport. Lorsque l'événement est détecté : Lorsque l'événement est résolu |
|
| Canal de contrôle de gestionnaire inactif |
Critique | Le canal entre le gestionnaire et le contrôleur est inactif. Lorsque l'événement est détecté : Lorsque l'événement est résolu : |
Sur le nœud de gestionnaire managernode (IP), appelez les deux commandes CLI NSX suivantes :
|
Événements de santé d'Intelligence
Les événements de santé de NSX Intelligence proviennent du nœud NSX Manager et du dispositif NSX Intelligence.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Utilisation très élevée du CPU | Critique | L'utilisation du CPU du nœud Intelligence est très élevée. Lorsque l'événement est détecté : « L'utilisation du CPU sur le nœud NSX Intelligence {intelligence_node_id} est au-dessus de la valeur de seuil très élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du CPU sur le nœud NSX Intelligence {intelligence_node_id} est inférieure à la valeur de seuil très élevée de {system_usage_threshold} %. » |
Utilisez la commande top pour vérifier quels processus présentent le plus d'utilisations de la mémoire, puis vérifiez /var/log/syslog et les journaux locaux de ces processus pour voir si des erreurs en attente doivent être résolues. |
| Utilisation élevée du CPU | Moyenne | L'utilisation du CPU du nœud Intelligence est élevée. Lorsque l'événement est détecté : « L'utilisation du CPU sur le nœud NSX Intelligence {intelligence_node_id} est au-dessus de la valeur de seuil élevée de{system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du CPU sur le nœud NSX Intelligence {intelligence_node_id} est inférieure à la valeur de seuil élevée de{system_usage_threshold} %. » |
Utilisez la commande top pour vérifier quels processus présentent le plus d'utilisations de la mémoire, puis vérifiez /var/log/syslog et les journaux locaux de ces processus pour voir si des erreurs en attente doivent être résolues. |
| Utilisation très élevée de la mémoire | Critique | L'utilisation de la mémoire du nœud Intelligence est très élevée. Lorsque l'événement est détecté : « L'utilisation de la mémoire sur le nœud NSX Intelligence {intelligence_node_id} est au-dessus de la valeur de seuil très élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation de la mémoire sur le nœud NSX Intelligence {intelligence_node_id} est inférieure à la valeur de seuil très élevée de {system_usage_threshold} %. » |
Utilisez la commande top pour vérifier quels processus présentent le plus d'utilisations de la mémoire, puis vérifiez /var/log/syslog et les journaux locaux de ces processus pour voir si des erreurs en attente doivent être résolues. |
| Utilisation élevée de la mémoire | Moyenne | L'utilisation de la mémoire du nœud Intelligence est élevée. Lorsque l'événement est détecté : « L'utilisation de la mémoire sur le nœud NSX Intelligence {intelligence_node_id} est au-dessus de la valeur de seuil élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation de la mémoire sur le nœud NSX Intelligence {intelligence_node_id} est inférieure à la valeur de seuil élevée de {system_usage_threshold} %. » |
Utilisez la commande top pour vérifier quels processus présentent le plus d'utilisations de la mémoire, puis vérifiez /var/log/syslog et les journaux locaux de ces processus pour voir si des erreurs en attente doivent être résolues. |
| Utilisation très élevée du disque | Critique | L'utilisation du disque du nœud Intelligence est très élevée. Lorsque l'événement est détecté : « L'utilisation du disque de la partition de disque {disk_partition_name} sur le nœud NSX Intelligence {intelligence_node_id} est au-dessus de la valeur de seuil très élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du disque de la partition de disque {disk_partition_name} sur le nœud NSX Intelligence {intelligence_node_id} est inférieure à la valeur de seuil très élevée de {system_usage_threshold} %. » |
Examinez la partition de disque {disk_partition_name} et vérifiez si vous pouvez supprimer des fichiers volumineux inattendus. |
| Utilisation élevée du disque | Moyenne | L'utilisation du disque du nœud Intelligence est élevée. Lorsque l'événement est détecté : « L'utilisation du disque de la partition de disque {disk_partition_name} sur le nœud NSX Intelligence {intelligence_node_id} est supérieure à la valeur de seuil élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du disque de la partition de disque {disk_partition_name} sur le nœud NSX Intelligence {intelligence_node_id} est inférieure à la valeur de seuil élevée de {system_usage_threshold} %. » |
Examinez la partition de disque {disk_partition_name} et vérifiez si vous pouvez supprimer des fichiers volumineux inattendus. |
| Utilisation très élevée de la partition de disque de données | Critique | L'utilisation de la partition de disque de données du nœud Intelligence est très élevée. Lorsque l'événement est détecté : « L'utilisation du disque de la partition de disque /data sur le nœud NSX Intelligence {intelligence_node_id} est supérieure à la valeur de seuil très élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du disque de la partition de disque /data sur le nœud NSX Intelligence {intelligence_node_id} est inférieure à la valeur de seuil très élevée de {system_usage_threshold} %. » |
Arrêtez la collecte de données NSX Intelligence jusqu'à ce que l'utilisation du disque soit inférieure au seuil. Dans l'interface utilisateur de NSX, accédez à Système Dispositifs Dispositif NSX Intelligence. Sélectionnez ensuite . |
| Utilisation élevée de la partition de disque de données | Moyenne | L'utilisation de la partition de disque de données du nœud Intelligence est élevée. Lorsque l'événement est détecté : « L'utilisation du disque de la partition de disque /data sur le nœud NSX Intelligence {intelligence_node_id} est supérieure à la valeur de seuil élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du disque de la partition de disque /data sur le nœud NSX Intelligence {intelligence_node_id} est inférieure à la valeur de seuil élevée de {system_usage_threshold} %. » |
Arrêtez la collecte de données NSX Intelligence jusqu'à ce que l'utilisation du disque soit inférieure au seuil. Examinez la partition /data et vérifiez si des fichiers volumineux inattendus peuvent être supprimés. |
| État du nœud dégradé | Élevé | L'état du nœud Intelligence est dégradé. Lorsque l'événement est détecté : « Le service {service_name} sur le nœud NSX Intelligence {intelligence_node_id} n'est pas en cours d'exécution. » Lorsque l'événement est résolu : « Le service {service_name} sur le nœud NSX Intelligence {intelligence_node_id} s'exécute correctement. » |
Examinez l'état du service et les informations de santé avec la commande get services de l'interface de ligne de commande NSX sur le nœud NSX Intelligence. Redémarrez les services arrêtés inattendus avec la commande restart service <service-name> de l'interface de ligne de commande NSX. |
Événements de licence
Les événements de licence proviennent du nœud NSX Manager.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Licence expirée | Critique | Une licence a expiré. Lorsque l'événement est détecté : « La licence de type {license_edition_type} a expiré. » Lorsque l'événement est résolu : « La licence expirée de type {license_edition_type} a été supprimée, mise à jour ou n'est plus expirée. » |
Ajoutez une nouvelle licence non expirée :
|
| Licence sur le point d'expirer | Moyenne | Lorsque l'événement est détecté : « La licence de type {license_edition_type} est sur le point d'expirer. » Lorsque l'événement est résolu : « La licence expirée identifiée par {license_edition_type} a été supprimée, mise à jour ou n'est plus sur le point d'expirer. » |
Ajoutez une nouvelle licence non expirée :
|
Événements d'équilibreur de charge
Les événements d'équilibreur de charge proviennent du nœud NSX Edge.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Utilisation très élevée du CPU de l'équilibreur de charge. | Moyenne | L'utilisation du CPU de l'équilibreur de charge est très élevée. Lorsque l'événement est détecté : « L'utilisation du CPU de l'équilibreur de charge {entity_id} est {system_resource_usage} %, ce qui est supérieur au seuil très élevé de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du CPU de l'équilibreur de charge {entity_id} est {system_resource_usage} %, ce qui est inférieur au seuil très élevé de {system_usage_threshold} %. » |
Si l'utilisation du CPU de l'équilibreur de charge de est supérieure à {system_usage_threshold} %, la charge de travail est trop élevée pour cet équilibreur de charge. Redimensionnez le service d'équilibreur de charge en passant la taille de l'équilibreur de charge de petite à moyenne ou de moyenne à grande. Si l'utilisation du CPU de cet équilibreur de charge est toujours élevée, pensez à ajuster la taille du format du dispositif Edge ou à déplacer les services d'équilibreur de charge vers d'autres nœuds Edge pour la charge de travail applicable. |
| Statut inactif de l'équilibreur de charge | Moyenne | Le service d'équilibreur de charge est inactif. Lorsque l'événement est détecté : « Le service d'équilibreur de charge {entity_id} est inactif. » Lorsque l'événement est résolu : « Le service d'équilibreur de charge {entity_id} est actif. » |
Vérifiez si le service d'équilibreur de charge sur le nœud Edge est en cours d'exécution. Si l'état du service d'équilibreur de charge n'est pas prêt, déplacez le nœud Edge en mode de maintenance, puis quittez ce mode. Si l'état du service d'équilibreur de charge n'est toujours pas récupéré, vérifiez s'il existe des journaux d'erreurs dans Syslog. |
| État du serveur virtuel inactif | Moyenne | Le service virtuel d'équilibreur de charge est inactif. Lorsque l'événement est détecté : « Le serveur virtuel d'équilibreur de charge {entity_id} est inactif. » Lorsque l'événement est résolu : « Le serveur virtuel d'équilibreur de charge {entity_id} est actif. » |
Consultez le pool d'équilibreurs de charge pour déterminer son état et vérifier sa configuration. S'il est configuré de manière incorrecte, reconfigurez-le et supprimez le pool d'équilibreurs de charge du serveur virtuel, puis rajoutez-le à nouveau au serveur virtuel. |
| État du pool inactif | Moyenne | Lorsque l'événement est détecté : « L'état du pool d'équilibreur de charge {entity_id} est inactif. » Lorsque l'événement est résolu : « L'état du pool d'équilibreur de charge {entity_id} est actif. » |
Lorsque la santé du membre est établie, l'état du membre du pool est mis à jour sur Sain en fonction du Nombre de reconnexions. |
Événements de santé du gestionnaire
Les événements de santé de NSX Manager proviennent du cluster de nœuds de NSX Manager.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Adresse IP dupliquée | Moyenne | L'adresse IP du nœud de gestionnaire est utilisée par un autre périphérique. Lorsque l'événement est détecté : « L'adresse IP {duplicate_ip_address} du nœud de gestionnaire {entity_id} est actuellement utilisée par un autre périphérique du réseau. » Lorsque l'événement est détecté : « Le nœud de gestionnaire {entity_id} semble ne plus utiliser {duplicate_ip_address}. » |
|
| Utilisation très élevée du CPU de Manager | Critique | L'utilisation du CPU du nœud de gestionnaire est très élevée. Lorsque l'événement est détecté : « L'utilisation du CPU sur le nœud de gestionnaire {entity_id} a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil très élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du CPU sur le nœud de gestionnaire {entity_id} a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil très élevée de {system_usage_threshold} %. » |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud de gestionnaire. Pensez à ajuster la taille du format du dispositif de gestionnaire. |
| Utilisation élevée du CPU de Manager | Moyenne | À partir de NSX-T Data Center 3.0.1. L'utilisation du CPU du nœud de gestionnaire est élevée. Lorsque l'événement est détecté : « L'utilisation du CPU sur le nœud de gestionnaire {entity_id} a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du CPU sur le nœud de gestionnaire {entity_id} a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil élevée de {system_usage_threshold} %. » |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud de gestionnaire. Pensez à ajuster la taille du format du dispositif de gestionnaire. |
| Utilisation très élevée de la mémoire de Manager | Critique | À partir de NSX-T Data Center 3.0.1. L'utilisation de la mémoire du nœud de gestionnaire est très élevée. Lorsque l'événement est détecté : « L'utilisation de la mémoire sur le nœud de gestionnaire {entity_id} a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil très élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation de la mémoire sur le nœud de gestionnaire {entity_id} a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil très élevée de {system_usage_threshold} %. » |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud de gestionnaire. Pensez à ajuster la taille du format du dispositif de gestionnaire. |
| Utilisation élevée de la mémoire de Manager | Moyenne | L'utilisation de la mémoire du nœud de gestionnaire est élevée. Lorsque l'événement est détecté : « L'utilisation de la mémoire sur le nœud de gestionnaire {entity_id} a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation de la mémoire sur le nœud de gestionnaire {entity_id} a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil élevée de {system_usage_threshold} %. » |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud de gestionnaire. Pensez à ajuster la taille du format du dispositif de gestionnaire. |
| Utilisation très élevée du disque de Manager | Critique | L'utilisation du disque du nœud de gestionnaire est très élevée. Lorsque l'événement est détecté : « L'utilisation du disque pour la partition de disque {disk_partition_name} du nœud de gestionnaire a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil très élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du disque pour la partition de disque {disk_partition_name} du nœud de gestionnaire a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil très élevée de {system_usage_threshold} %. » |
Examinez la partition ayant une utilisation élevée et vérifiez si des fichiers volumineux inattendus peuvent être supprimés. |
| Utilisation élevée du disque de Manager | Moyenne | L'utilisation du disque du nœud de gestionnaire est élevée. Lorsque l'événement est détecté : « L'utilisation du disque pour la partition de disque {disk_partition_name} du nœud de gestionnaire a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil élevée de {system_usage_threshold} %. » Lorsque l'événement est résolu : « L'utilisation du disque pour la partition de disque {disk_partition_name} du nœud de gestionnaire a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil élevée de {system_usage_threshold} %. » |
Examinez la partition ayant une utilisation élevée et vérifiez si des fichiers volumineux inattendus peuvent être supprimés. |
| Utilisation très élevée du disque de configuration de gestionnaire | Critique | L'utilisation du disque de configuration du nœud de gestionnaire est très élevée. Lorsque l'événement est détecté : « L'utilisation du disque pour la partition de disque /config du nœud de gestionnaire a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil très élevée de {system_usage_threshold} %. Cela peut indiquer une utilisation élevée du disque par le service de banque de données NSX dans le répertoire /config/corfu. » Lorsque l'événement est résolu : « L'utilisation du disque pour la partition de disque /config du nœud de gestionnaire a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil très élevée de {system_usage_threshold} %. » |
Examinez la partition /config et vérifiez s'il existe des fichiers volumineux inattendus pouvant être supprimés. |
| Utilisation élevée du disque de configuration de gestionnaire | Moyenne | L'utilisation du disque de configuration du nœud de gestionnaire est élevée. Lorsque l'événement est détecté : « L'utilisation du disque pour la partition de disque /config du nœud de gestionnaire a atteint {system_resource_usage} %, ce qui est supérieur ou égal à la valeur de seuil élevée de {system_usage_threshold} %. Cela peut indiquer une utilisation croissante du disque par le service de banque de données NSX dans le répertoire /config/corfu. » Lorsque l'événement est résolu : « L'utilisation du disque pour la partition de disque /config du nœud de gestionnaire a atteint {system_resource_usage} %, ce qui est inférieur à la valeur de seuil élevée de {system_usage_threshold} %. » |
Examinez la partition /config et vérifiez s'il existe des fichiers volumineux inattendus pouvant être supprimés. |
| Utilisation élevée du disque de base de données d'opérations |
Moyenne | L'utilisation du disque pour la partition /nonconfig de disque du nœud de gestionnaire a atteint {system_resource_usage}%, ce qui est supérieur ou égal à la valeur de seuil élevée de {system_usage_threshold}%. Cela peut indiquer une utilisation croissante du disque par le service de banque de données NSX dans le répertoire /nonconfig/corfu. |
Exécutez l'outil suivant et contactez GSS si des problèmes sont signalés /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig. |
| Utilisation très élevée du disque de base de données d'opérations | Critique | L'utilisation du disque pour la partition /nonconfig de disque du nœud de gestionnaire a atteint {system_resource_usage}%, ce qui est supérieur ou égal à la valeur de seuil très élevée de {system_usage_threshold}%. Cela peut indiquer une utilisation croissante du disque par le service de banque de données NSX dans le répertoire /nonconfig/corfu. |
Exécutez l'outil suivant et contactez GSS si des problèmes sont signalés /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig. |
Événements de NCP
Les événements de NSX Container Plug-in (NCP) proviennent des nœuds ESXi et KVM.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Plug-in NCP inactif | Critique | Le nœud de gestionnaire a détecté que NCP est inactif ou défectueux. Lorsque l'événement est détecté : « Le nœud de gestionnaire a détecté que NCP est inactif ou défectueux. » Lorsque l'événement est résolu : « Le nœud de gestionnaire a détecté que le NCP est de nouveau actif ou sain. » |
Pour rechercher les clusters qui rencontrent des problèmes, appelez NSX API : GET /api/v1/systemhealth/container-cluster/ncp/status pour extraire tous les états des clusters et déterminer le nom de tous les clusters qui signalent INACTIF ou INCONNU. Accédez à la page de l'interface utilisateur de NSX pour rechercher les noms de clusters qui ont signalé l'état INACTIF ou INCONNU et cliquez sur l'onglet Nœuds qui répertorie tous les membres de cluster Kubernetes et PAS.
Pour le cluster Kubernetes :
Pour le cluster PAS :
|
Événements de santé des agents de nœud
Les événements de santé d'agent de nœud proviennent des nœuds ESXi et KVM.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Agents de nœud inactifs | Élevé | Les agents exécutés à l'intérieur de la VM du nœud semblent être inactifs. Lorsque l'événement est détecté : « Les agents exécutés à l'intérieur de la VM du nœud semblent être inactifs. » Lorsque l'événement est résolu : « Les agents à l'intérieur de la VM de nœud sont en cours d'exécution. » |
Pour ESX :
Pour KVM :
Pour ESX et KVM :
|
Événements de gestion des mots de passe
Les événements de gestion des mots de passe proviennent des nœuds NSX Manager, NSX Edge et de passerelle publique.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Mot de passe expiré | Critique | Le mot de passe utilisateur a expiré. Lorsque l'événement est détecté : « Le mot de passe de l'utilisateur {username} a expiré. » Lorsque l'événement est résolu : « Le mot de passe de l'utilisateur {username} a été modifié ou n'est plus expiré. » |
Le mot de passe de l'utilisateur {username} doit maintenant être modifié pour accéder au système. Par exemple, pour appliquer un nouveau mot de passe à un utilisateur, appelez la NSX API suivante avec un mot de passe valide dans le corps de la demande :
où |
| Mot de passe sur le point d'expirer | Élevé | Le mot de passe utilisateur est sur le point d'expirer. Lorsque l'événement est détecté : « Le mot de passe de l'utilisateur {username} est sur le point d'expirer dans {password_expiration_days} jours. » Lorsque l'événement est résolu : « Le mot de passe de l'utilisateur {username} a été modifié ou n'est plus sur le point d'expirer. » |
Assurez-vous que le mot de passe de l'utilisateur identifié par {username} est modifié immédiatement. Par exemple, pour appliquer un nouveau mot de passe à un utilisateur, appelez la NSX API suivante avec un mot de passe valide dans le corps de la demande :
où |
| Expiration du mot de passe approchant | Moyenne | Le mot de passe de l'utilisateur arrive à expiration. Lorsque l'événement est détecté : « Le mot de passe de l'utilisateur {username} est sur le point d'expirer dans {password_expiration_days} jours. » Lorsque l'événement est résolu : « Le mot de passe de l'utilisateur {username} a été modifié ou n'est plus sur le point d'expirer. » |
Le mot de passe de l'utilisateur identifié par {username} doit bientôt être modifié. Par exemple, pour appliquer un nouveau mot de passe à un utilisateur, appelez la NSX API suivante avec un mot de passe valide dans le corps de la demande :
où |
Événements de routage
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| BGP inactif | Élevé | Le voisin BGP est inactif. Lorsque l'événement est détecté : « Dans le routeur {entity_id}, le voisin BGP {bgp_neighbor_ip} est inactif, motif : {failure_reason}. » Lorsque l'événement est résolu : « Dans le routeur {entity_id}, le voisin BGP {bgp_neighbor_ip} est actif. » |
|
| Bidirectional Forwarding Detection (BFD) inactif sur l'interface externe |
Élevé | La session BFD est inactive. Lorsque l'événement est détecté : « Dans le routeur {entity_id}, la session BFD pour l'homologue {peer_address} est inactive. » Lorsque l'événement est résolu : « Dans le routeur {entity_id}, la session BFD pour l'homologue {peer_address} est active. » |
|
| Routage inactif | Élevé | Toutes les sessions BGP/BFD sont inactives. Lorsque l'événement est détecté : « Toutes les sessions BGP/BFD sont inactives. » Lorsque l'événement est résolu : « Au moins une session BGP/BFD est activée ». |
|
| Routage statique supprimé | Élevé | Itinéraire statique supprimé. Lorsque l'événement est détecté : « Dans le routeur {entity_id}, la route statique {static_address} a été supprimée, car BFD était inactif. » Lorsque l'événement est résolu : « Dans le routeur {entity_id}, la route statique {static_address} a été ajoutée de nouveau en tant que BFD récupéré. » |
|
Santé du nœud de transport
Les événements de santé du nœud de transport proviennent des nœuds KVM et ESXi.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Membre LAG inactif | Moyenne | Le membre de rapports LACP est inactif. Lorsque l'événement est détecté : « Le membre de rapports LACP est inactif. ». Lorsque l'événement est résolu : « Le membre de rapports LACP est actif. » |
Vérifiez l'état de la connexion des membres LAG sur les hôtes.
|
| Liaison montante N-VDS inactive | Moyenne | La liaison montante diminue. Lorsque l'événement est détecté : « La liaison montante diminue. » Lorsque l'événement est résolu : « La liaison montante augmente. » |
Vérifiez l'état des liaisons montantes sur les hôtes dans les cartes réseau physiques.
|
Événements VPN
Les événements VPN proviennent des nœuds NSX Edge et de passerelle publique.
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Session basée sur la stratégie IPsec inactive | Moyenne | La session VPN IPsec basée sur une stratégie est inactive. Lorsque l'événement est détecté : « La session VPN IPsec basée sur une stratégie {entity_id} est inactive. Motif : {session_down_reason}. » Lorsque l'événement est résolu : « La session VPN IPsec basée sur une stratégie {entity_id} est active ». |
Vérifiez la configuration de la session VPN IPsec et résolvez les erreurs en fonction du motif de l'inactivité de la session. |
| Session basée sur une route IPsec inactive | Moyenne | La session VPN IPsec basée sur une route est inactive. Lorsque l'événement est détecté : « La session VPN IPsec basée sur une route {entity_id} est inactive. Motif : {session_down_reason}. » Lorsque l'événement est résolu : « La session VPN IPsec basée sur une route {entity_id} est active ». |
Vérifiez la configuration de la session VPN IPsec et résolvez les erreurs en fonction du motif de l'inactivité de la session. |
| Tunnel IPsec basé sur une stratégie inactif | Moyenne | Les tunnels VPN IPsec basés sur une stratégie sont inactifs. Lorsque l'événement est détecté : « Un ou plusieurs tunnels VPN IPsec basés sur une stratégie dans la session {entity_id} sont inactifs. » Lorsque l'événement est résolu : « Tous les tunnels VPN IPsec basés sur une stratégie dans la session {entity_id} sont actifs. » |
Vérifiez la configuration de la session VPN IPsec et résolvez les erreurs en fonction du motif de l'inactivité du tunnel. |
| Tunnel IPsec basé sur une route inactif | Moyenne | Les tunnels VPN IPsec basés sur une route sont inactifs. Lorsque l'événement est détecté : « Un ou plusieurs tunnels VPN IPsec basés sur une route dans la session {entity_id} sont inactifs. » Lorsque l'événement est résolu : « Tous les tunnels VPN IPsec basés sur une route dans la session {entity_id} sont actifs. » |
Vérifiez la configuration de la session VPN IPsec et résolvez les erreurs en fonction du motif de l'inactivité du tunnel. |
| Session L2VPN inactive | Moyenne | La session L2VPN est inactive. Lorsque l'événement est détecté : « La session L2VPN {entity_id} est inactive. » Lorsque l'événement est résolu : « La session L2VPN {entity_id} est active. » |
Vérifiez la configuration de la session VPN IPsec et résolvez les erreurs en fonction du motif. |
Événements liés au pare-feu d'identité
| Nom de l'événement | Gravité | Message d'alerte | Action recommandée |
|---|---|---|---|
| Connectivité au serveur AD |
Critique |
La connectivité au serveur AD est perdue. Lorsque l'événement est détecté : la connectivité au serveur AD de pare-feu d'identité est inactive. Lorsque l'événement est détecté : la connectivité au serveur AD de pare-feu d'identité est active. |
Après avoir résolu le problème de connexion, utilisez « TESTER LA CONNEXION » dans l'interface utilisateur du serveur LDAP pour tester la connexion au serveur AD. |
| Erreur lors de la synchronisation Delta |
Critique | Échec de la synchronisation du serveur AD description de l'erreur Lorsque l'événement est détecté : échec lors de la synchronisation sélective du serveur AD de pare-feu d'identité : détails de l'erreur. Lorsque l'événement est détecté : des erreurs de synchronisation sélective du serveur AD de pare-feu d'identité ont été corrigées. |
|