Catalogue d'événements NSX
Les tableaux suivants décrivent les événements qui déclenchent des alarmes dans VMware NSX®, y compris les messages d'alarme et les actions recommandées pour les résoudre. Tout événement dont la gravité est supérieure àFAIBLEdéclenche une alarme. Les informations d'alarmes s'affichent dans plusieurs emplacements de l'interface NSX Manager. Les informations d'alarme et d'événement sont également incluses dans les autres notifications dans le menu déroulant Notifications de la barre de titre. Pour afficher les alarmes, accédez à la page d'accueil et cliquez sur l'onglet Alarmes. Pour plus d'informations sur les alarmes et les événements, reportez-vous à la section « Utilisation des événements et des alarmes » du Guide d'administration de NSX.
Événements de gestion des alarmes
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Service d'alarme surchargé | Critique | gestionnaire global, gestionnaire, aas | Le service d'alarme est surchargé. |
Vérifiez toutes les alarmes actives sur la page Alarmes dans l'interface utilisateur de NSX ou à l'aide de la NSX API GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED. Pour chaque alarme active, recherchez la cause principale en suivant l'action recommandée pour l'alarme. Lorsqu'un nombre suffisant d'alarmes est résolu, le service d'alarme commencera à signaler de nouveau de nouvelles alarmes. |
3.0.0 |
Volume d'alarmes important | Critique | gestionnaire global, gestionnaire, aas | Volume important d'un type d'alarme spécifique détecté. |
Vérifiez toutes les alarmes actives de type {event_id} à l'aide de la page Alarmes dans l'interface utilisateur de NSX ou à l'aide de la NSX API GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED. Pour chaque alarme active, recherchez la cause principale en suivant l'action recommandée pour l'alarme. Lorsqu'un nombre suffisant d'alarmes est résolu, le service d'alarme commencera à signaler de nouveau de nouvelles alarmes {event_id}. |
3.0.0 |
Événements de santé du journal d'audit
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Erreur de mise à jour du fichier de journal d'audit | Critique | gestionnaire global, gestionnaire, edge, passerelle de cloud public, esx, kvm, bms | Au moins un des fichiers journaux surveillés n'est pas accessible en écriture. |
1. Sur les nœuds de gestionnaire et de gestionnaire global, les nœuds Edge et de passerelle de cloud public, les nœuds d'hôte Ubuntu KVM garantissent que les autorisations du répertoire /var/log sont 775 et que la propriété est root:syslog. Un nœud hôte Rhel KVM et BMS garantit que l'autorisation pour le répertoire /var/log est 755 et que la propriété est root:root. |
3.1.0 |
Erreur de serveur de journalisation distant | Critique | gestionnaire global, gestionnaire, dispositif Edge, passerelle de cloud public | Messages de journal non livrables en raison d'une configuration incorrecte du serveur de journalisation distant. |
1. Assurez-vous que {hostname_or_ip_address_with_port} est le nom d'hôte ou l'adresse IP et le port corrects. |
3.1.0 |
Événements liés à la capacité
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Seuil de capacité minimal | Moyenne | gestionnaire | Un seuil de capacité minimale a été dépassé. |
Accédez à la page Capacité dans l'interface utilisateur NSX et vérifiez l'utilisation actuelle par rapport aux limites de seuil. Si l'utilisation actuelle est attendue, envisagez d'augmenter les valeurs de seuil minimales. Si l'utilisation actuelle est inattendue, vérifiez les stratégies réseau configurées pour diminuer l'utilisation au seuil ou en dessous du seuil minimal. |
3.1.0 |
Seuil de capacité maximal | Élevé | gestionnaire | Un seuil de capacité maximale a été dépassé. |
Accédez à la page Capacité dans l'interface utilisateur NSX et vérifiez l'utilisation actuelle par rapport aux limites de seuil. Si l'utilisation actuelle est attendue, envisagez d'augmenter les valeurs de seuil maximales. Si l'utilisation actuelle est inattendue, vérifiez les stratégies réseau configurées pour diminuer l'utilisation au seuil ou en dessous du seuil maximal. |
3.1.0 |
Capacité maximale | Critique | gestionnaire | Une capacité maximale a été dépassée. |
Assurez-vous que le nombre d'objets NSX créés est compris dans les limites prises en charge par NSX. S'il existe des objets inutilisés, supprimez-les à l'aide de l'interface utilisateur ou de la NSX API respective du système. Envisagez d'augmenter le facteur de forme de tous les nœuds de gestionnaire et/ou des nœuds Edge. Notez que le facteur de forme de chaque type de nœud doit être le même. Dans le cas contraire, les limites de capacité du facteur de forme le plus bas déployé sont utilisées. |
3.1.0 |
Événements de certificats
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Certificat expiré | Critique | gestionnaire global, gestionnaire | Un certificat a expiré. |
Assurez-vous que les services qui utilisent actuellement le certificat sont mis à jour afin d'utiliser un nouveau certificat non expiré. Une fois que le certificat expiré n'est plus utilisé, il doit être supprimé en appelant la NSX API DELETE {api_collection_path}{entity_id}. Si le certificat expiré est utilisé par la plate-forme NAPP, la connexion est interrompue entre NSX et la plate-forme NAPP. Consultez le document de dépannage de la plate-forme NAPP pour utiliser un certificat d'autorité de certification NAPP auto-signé pour récupérer la connexion. |
3.0.0 |
Le certificat est sur le point d'expirer | Élevé | gestionnaire global, gestionnaire | Un certificat est sur le point d'expirer |
Assurez-vous que les services qui utilisent actuellement le certificat sont mis à jour pour utiliser un nouveau certificat non expiré. Une fois que le certificat arrivant à expiration n'est plus utilisé, il doit être supprimé en appelant la NSX API DELETE {api_collection_path}{entity_id}. |
3.0.0 |
Expiration du certificat approchant | Moyenne | gestionnaire global, gestionnaire | Un certificat approche de son expiration. |
Assurez-vous que les services qui utilisent actuellement le certificat sont mis à jour pour utiliser un nouveau certificat non expiré. Une fois que le certificat arrivant à expiration n'est plus utilisé, il doit être supprimé en appelant la NSX API DELETE {api_collection_path}{entity_id}. |
3.0.0 |
Mise à jour du bundle d'autorité de certification recommandée | Élevé | gestionnaire global, gestionnaire | La mise à jour d'un bundle d'autorité de certification approuvée est recommandée. |
Assurez-vous que les services qui utilisent actuellement le bundle d'autorité de certification approuvée sont mis à jour pour utiliser un bundle d'autorité de certification approuvée récemment mis à jour. À moins qu'il s'agisse d'un bundle fourni par le système, le bundle peut être mis à jour à l'aide de la NSX API PUT /policy/api/v1/infra/cabundles/{entity_id}. Une fois que le bundle expiré n'est plus utilisé, il doit être supprimé (s'il n'est pas fourni par le système) en appelant la NSX API DELETE /policy/api/v1/infra/cabundles/{entity_id}. |
3.2.0 |
Mise à jour du bundle d'autorité de certification suggérée | Moyenne | gestionnaire global, gestionnaire | La mise à jour d'un bundle d'autorité de certification approuvée est suggérée. |
Assurez-vous que les services qui utilisent actuellement le bundle d'autorité de certification approuvée sont mis à jour pour utiliser un bundle d'autorité de certification approuvée récemment mis à jour. À moins qu'il s'agisse d'un bundle fourni par le système, le bundle peut être mis à jour à l'aide de la NSX API PUT /policy/api/v1/infra/cabundles/{entity_id}. Une fois que le bundle expiré n'est plus utilisé, il doit être supprimé (s'il n'est pas fourni par le système) en appelant la NSX API DELETE /policy/api/v1/infra/cabundles/{entity_id}. |
3.2.0 |
Certificat de nœud de transport expiré | Critique | bms, edge, esx, kvm, passerelle de cloud public | Un certificat a expiré. |
Remplacez le certificat du nœud de transport {entity_id} par un certificat non expiré. Le certificat expiré doit être remplacé en appelant la NSX API POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id}. Si le certificat expiré est utilisé par le nœud de transport, la connexion est interrompue entre le nœud de transport et le nœud de gestionnaire. |
4.1.0 |
Le certificat de nœud de transport est sur le point d'expirer | Élevé | bms, edge, esx, kvm, passerelle de cloud public | Un certificat est sur le point d'expirer |
Remplacez le certificat du nœud de transport {entity_id} par un certificat non expiré. Le certificat expiré doit être remplacé en appelant la NSX API POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id}. Si le certificat n'est pas remplacé, la connexion entre le nœud de transport et le nœud de gestionnaire est interrompue lorsque le certificat expire. |
4.1.0 |
Expiration du certificat de nœud de transport imminente | Moyenne | bms, edge, esx, kvm, passerelle de cloud public | Un certificat approche de son expiration. |
Remplacez le certificat du nœud de transport {entity_id} par un certificat non expiré. Le certificat expiré doit être remplacé en appelant la NSX API POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id}. Si le certificat n'est pas remplacé, la connexion entre le nœud de transport et le nœud de gestionnaire est interrompue lorsque le certificat expire. |
4.1.0 |
Événements de mise en cluster
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Cluster dégradé | Moyenne | gestionnaire global, gestionnaire | Le membre du groupe est inactif. |
1. Appelez la commande « get cluster status » de l'interface de ligne de commande NSX pour afficher l'état des membres du groupe du cluster. |
3.2.0 |
Cluster non disponible | Élevé | gestionnaire global, gestionnaire | Tous les membres du groupe du service sont inactifs. |
1. Assurez-vous que le service pour {group_type} est en cours d'exécution sur le nœud. Appelez la NSX API GET /api/v1/node/services/<service_name>/status ou la commande CLI NSX get service <service_name> pour déterminer si le service est en cours d'exécution. S'il n'est pas en cours d'exécution, appelez la NSX API POST /api/v1/node/services/<service_name>?action=restart ou la CLI NSX restart service <service_name> pour redémarrer le service. |
3.2.0 |
Événements de santé de CNI
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Connexion Hyperbus Manager inactive sur DPU | Moyenne | DPU | Hyperbus sur DPU ne peut pas communiquer avec le nœud de gestionnaire. |
L'interface hyperbus vmkernel (vmk50) sur DPU {dpu_id} peut être manquante. Reportez-vous à l'article de la base de connaissances https://kb.vmware.com/s/article/67432. |
4.0.0 |
Connexion Hyperbus Manager inactive | Moyenne | esx, kvm | Hyperbus ne peut pas communiquer avec le nœud de gestionnaire. |
L'interface Hyperbus vmkernel (vmk50) est peut-être manquante. Reportez-vous à l'article de la base de connaissances https://kb.vmware.com/s/article/67432. |
3.0.0 |
Événements de communication
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Accessibilité limitée sur DPU | Moyenne | DPU | Le collecteur indiqué est inaccessible via la ou les cartes vmknic sur le DVS indiqué sur DPU. |
Si l'avertissement est activé, cela ne signifie pas que le collecteur est inaccessible. Les flux exportés générés par la verticale basée sur DVS {dvs_alias} peuvent toujours atteindre le collecteur {collector_ip} via la ou les cartes vmknic sur DVS en plus de DVS {dvs_alias}. Si cela n'est pas acceptable, l'utilisateur peut essayer de créer une ou plusieurs cartes vmknic avec la pile {stack_alias} sur DVS {dvs_alias} et la configurer avec l'adresse IPv4(6) appropriée, puis vérifier si le collecteur {vertical_name} {collector_ip} est accessible via la ou les cartes vmknic récemment créées sur DPU {dpu_id} en appelant vmkping {collector_ip} -S {stack_alias} -I vmkX avec SSH à DPU via ESXi activé. |
4.0.1 |
Collecteur inaccessible sur DPU | Critique | DPU | Le collecteur indiqué est inaccessible via la ou les cartes vmknic existantes sur DPU. |
Pour rendre le collecteur accessible pour une verticale donnée sur le DVS, l'utilisateur doit s'assurer qu'il existe une ou plusieurs cartes vmknic avec la pile attendue {stack_alias} créées et configurées avec des adresses IPv4(6) appropriées, et que la connexion réseau au collecteur {vertical_name} {collector_ip} est également correcte. Par conséquent, l'utilisateur doit effectuer la vérification sur DPU {dpu_id} et effectuer la configuration requise pour s'assurer que la condition est remplie. Enfin, si vmkping {collector_ip} -S {stack_alias} avec SSH vers DPU via ESXi activé réussit, cela indique que le problème a disparu. |
4.0.1 |
Latence du cluster de gestionnaire | Moyenne | gestionnaire | La latence réseau moyenne entre les nœuds de gestionnaire est élevée. |
Assurez-vous qu'aucune règle de pare-feu ne bloque le trafic ping entre les nœuds de gestionnaire. S'il existe d'autres serveurs et applications à bande passante élevée partageant le réseau local, envisagez de les déplacer vers un autre réseau. |
3.1.0 |
Canal de contrôle vers le nœud de gestionnaire inactif pendant trop longtemps | Critique | bms, edge, esx, kvm, passerelle de cloud public | La connexion du plan de contrôle du nœud de transport au nœud de gestionnaire est inactive pendant un long moment. |
1. Vérifiez la connectivité entre le nœud de transport {entity_id} et l'interface du nœud de gestionnaire {appliance_address} via un test ping. Si la commande ping n'est pas possible, vérifiez la fragilité de la connectivité réseau. |
3.1.0 |
Canal de contrôle vers le nœud de gestionnaire inactif | Moyenne | bms, edge, esx, kvm, passerelle de cloud public | La connexion du plan de contrôle du nœud de transport au nœud de gestionnaire est inactive. |
1. Vérifiez la connectivité entre le nœud de transport {entity_id} et l'interface du nœud de gestionnaire {appliance_address} via un test ping. Si la commande ping n'est pas possible, vérifiez la fragilité de la connectivité réseau. |
3.1.0 |
Canal de contrôle vers le nœud de transport inactif | Moyenne | gestionnaire | Le service de contrôleur pour la connexion du nœud de transport est inactif. |
1. Vérifiez la connectivité à partir du service de contrôleur {central_control_plane_id} et de l'interface du nœud de transport {entity_id} à l'aide d'un test ping et de traceroute. Cela peut être effectué sur l'interface de ligne de commande d'admin du nœud NSX Manager. Le test ping ne doit pas voir d'abandons et doit avoir des valeurs de latence cohérentes. VMware recommande des valeurs de latence de 150 ms ou moins. |
3.1.0 |
Canal de contrôle vers le nœud de transport inactif pendant longtemps | Critique | gestionnaire | Le service de contrôleur pour la connexion du nœud de transport est inactif pendant trop longtemps. |
1. Vérifiez la connectivité à partir du service de contrôleur {central_control_plane_id} et de l'interface du nœud de transport {entity_id} à l'aide d'un test ping et de traceroute. Cela peut être effectué sur l'interface de ligne de commande d'admin du nœud NSX Manager. Le test ping ne doit pas voir d'abandons et doit avoir des valeurs de latence cohérentes. VMware recommande des valeurs de latence de 150 ms ou moins. |
3.1.0 |
Canal de contrôle de gestionnaire inactif | Critique | gestionnaire | Le canal entre le gestionnaire et le contrôleur est inactif. |
1. Sur le nœud de gestionnaire {manager_node_name} ({appliance_address}), appelez la commande CLI NSX suivante : get service applianceproxy pour vérifier l'état du service périodiquement pendant 60 minutes. |
3.0.2 |
Canal de gestion vers le nœud de transport inactif | Moyenne | gestionnaire | Le canal de gestion vers le nœud de transport est inactif. |
Assurez-vous qu'il existe une connectivité réseau entre les nœuds de gestionnaire et le nœud de transport {transport_node_name} ({transport_node_address}) et qu'aucun pare-feu ne bloque le trafic entre les nœuds. Sur les nœuds de transport Windows, assurez-vous que le service nsx-proxy est en cours d'exécution sur le nœud de transport en appelant la commande C:\NSX\nsx-proxy\nsx-proxy.ps1 status dans Windows PowerShell. S'il n'est pas en cours d'exécution, redémarrez-le en appelant la commande C:\NSX\nsx-proxy\nsx-proxy.ps1 restart. Sur tous les autres nœuds de transport, assurez-vous que le service nsx-proxy est en cours d'exécution sur le nœud de transport en appelant la commande /etc/init.d/nsx-proxy status. S'il n'est pas en cours d'exécution, redémarrez-le en appelant la commande /etc/init.d/nsx-proxy restart. |
3.0.2 |
Canal de gestion vers le nœud de transport inactif pendant longtemps | Critique | gestionnaire | Le canal de gestion vers le nœud de transport est inactif pendant trop longtemps. |
Assurez-vous qu'il existe une connectivité réseau entre les nœuds de gestionnaire et le nœud de transport {transport_node_name} ({transport_node_address}) et qu'aucun pare-feu ne bloque le trafic entre les nœuds. Sur les nœuds de transport Windows, assurez-vous que le service nsx-proxy est en cours d'exécution sur le nœud de transport en appelant la commande C:\NSX\nsx-proxy\nsx-proxy.ps1 status dans Windows PowerShell. S'il n'est pas en cours d'exécution, redémarrez-le en appelant la commande C:\NSX\nsx-proxy\nsx-proxy.ps1 restart. Sur tous les autres nœuds de transport, assurez-vous que le service nsx-proxy est en cours d'exécution sur le nœud de transport en appelant la commande /etc/init.d/nsx-proxy status. S'il n'est pas en cours d'exécution, redémarrez-le en appelant la commande /etc/init.d/nsx-proxy restart. |
3.0.2 |
Échec de la recherche du nom de domaine complet du gestionnaire | Critique | gestionnaire global, bms, edge, esx, kvm, passerelle de cloud public | Échec de la recherche DNS pour le nom de domaine complet du nœud de gestionnaire. |
1. Attribuez des noms de domaine complets corrects à tous les nœuds de gestionnaire et vérifiez que la configuration DNS est correcte pour la recherche réussie de tous les noms de domaine complets des nœuds de gestionnaire. |
3.1.0 |
Échec de la recherche inversée du nom de domaine complet du gestionnaire | Critique | gestionnaire global, gestionnaire | Échec de la recherche DNS inversée pour l'adresse IP du nœud de gestionnaire. |
1. Attribuez des noms de domaine complets corrects à tous les nœuds de gestionnaire et vérifiez que la configuration DNS est correcte pour une recherche inversée réussie de l'adresse IP du nœud de gestionnaire. |
3.1.0 |
Canal de gestion vers le nœud de gestionnaire inactif | Moyenne | bms, edge, esx, kvm, passerelle de cloud public | Le canal de gestion vers le nœud de gestionnaire est inactif. |
Assurez-vous qu'il existe une connectivité réseau entre le nœud de transport {transport_node_id} et le nœud de gestionnaire master. Assurez-vous également qu'aucun pare-feu ne bloque le trafic entre les nœuds. Assurez-vous que le service du gestionnaire de messagerie est en cours d'exécution sur les nœuds de gestionnaire en appelant la commande /etc/init.d/messaging-manager status. Si le gestionnaire de messagerie n'est pas en cours d'exécution, redémarrez-le en appelant la commande /etc/init.d/messaging-manager restart. |
3.2.0 |
Canal de gestion vers le nœud de gestionnaire inactif pendant longtemps | Critique | bms, edge, esx, kvm, passerelle de cloud public | Le canal de gestion vers le nœud de gestionnaire est inactif pendant trop longtemps. |
Assurez-vous qu'il existe une connectivité réseau entre le nœud de transport {transport_node_id} et les nœuds de gestionnaire master. Assurez-vous également qu'aucun pare-feu ne bloque le trafic entre les nœuds. Assurez-vous que le service du gestionnaire de messagerie est en cours d'exécution sur les nœuds de gestionnaire en appelant la commande /etc/init.d/messaging-manager status. Si le gestionnaire de messagerie n'est pas en cours d'exécution, redémarrez-le en appelant la commande /etc/init.d/messaging-manager restart. |
3.2.0 |
Latence réseau élevée | Moyenne | gestionnaire | La latence du réseau de gestion vers le nœud de transport est élevée. |
1. Attendez 5 minutes pour voir si l'alarme est résolue automatiquement. |
4.0.0 |
Événements DHCP
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Échec de l'allocation de bail du pool | Élevé | Dispositif edge, edge autonome, passerelle de cloud public | Les adresses IP d'un pool d'adresses IP ont été épuisées. |
Vérifiez la configuration du pool DHCP dans l'interface utilisateur de NSX ou sur le nœud Edge sur lequel le serveur DHCP s'exécute en appelant la commande get dhcp ip-pool de l'interface de ligne de commande NSX. Vérifiez également les baux actifs actuels sur le nœud Edge en appelant la commande get dhcp lease de l'interface de ligne de commande NSX. Comparez les baux au nombre de VM actives. Pensez à réduire la durée du bail sur la configuration du serveur DHCP si le nombre de VM est faible par rapport au nombre de baux actifs. Pensez également à développer la plage de pools pour le serveur DHCP en consultant la page Mise en réseau | Segments | Segment de l'interface utilisateur de NSX. |
3.0.0 |
Pool surchargé | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | Un pool d'adresses IP est surchargé. |
Vérifiez la configuration du pool DHCP dans l'interface utilisateur de NSX ou sur le nœud Edge sur lequel le serveur DHCP s'exécute en appelant la commande get dhcp ip-pool de l'interface de ligne de commande NSX. Vérifiez également les baux actifs actuels sur le nœud Edge en appelant la commande get dhcp lease de l'interface de ligne de commande NSX. Comparez les baux au nombre de VM actives. Pensez à réduire la durée du bail sur la configuration du serveur DHCP si le nombre de VM est faible par rapport au nombre de baux actifs. Pensez également à développer la plage de pools pour le serveur DHCP en consultant la page Mise en réseau | Segments | Segment de l'interface utilisateur de NSX. |
3.0.0 |
Événements de pare-feu distribué
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Utilisation très élevée du CPU de DFW | Critique | ESX | L'utilisation du CPU de DFW est très élevée. |
Pensez à rééquilibrer les charges de travail de VM sur cet hôte vers d'autres hôtes. Vérifiez la conception de la sécurité pour l’optimisation. Par exemple, utilisez la configuration applicable si les règles ne s'appliquent pas à l'ensemble du centre de données. |
3.0.0 |
Utilisation très élevée du CPU de DFW sur DPU | Critique | DPU | L'utilisation du CPU de DFW est très élevée sur DPU. |
Pensez à rééquilibrer les charges de travail de VM sur cet hôte vers d'autres hôtes. Vérifiez la conception de la sécurité pour l’optimisation. Par exemple, utilisez la configuration applicable si les règles ne s'appliquent pas à l'ensemble du centre de données. |
4.0.0 |
Utilisation très élevée de la mémoire de DFW | Critique | ESX | L'utilisation de la mémoire de DFW est très élevée. |
Affichez l'utilisation actuelle de la mémoire DFW en appelant la commande get firewall thresholds de l'interface de ligne de commande NSX sur l'hôte. Pensez à rééquilibrer les charges de travail sur cet hôte vers d'autres hôtes. |
3.0.0 |
Utilisation très élevée de la mémoire de DFW sur DPU | Critique | DPU | L'utilisation de la mémoire de DFW est très élevée sur DPU. |
Affichez l'utilisation actuelle de la mémoire DFW en appelant la commande get firewall thresholds de l'interface de ligne de commande NSX sur le DPU. Pensez à rééquilibrer les charges de travail sur cet hôte vers d'autres hôtes. |
4.0.0 |
Échec de DFW VMotion | Critique | ESX | DFW vMotion a échoué, port déconnecté. |
Vérifiez les machines virtuelles sur l'hôte dans NSX Manager, renvoyez manuellement la configuration DFW via l'interface utilisateur de NSX Manager. La stratégie DFW à renvoyer peut être suivie par le filtre DFW {entity_id}. Pensez également à trouver la machine virtuelle à laquelle le filtre DFW est attaché et redémarrez-la. |
3.2.0 |
Avertissement de limite de propagation DFW | Moyenne | ESX | La limite de propagation DFW a atteint le niveau d'avertissement. |
Vérifiez les VM sur l'hôte dans NSX Manager, vérifiez le niveau d'avertissement de propagation configuré du filtre DFW {entity_id} pour le protocole {protocol_name}. |
4.1.0 |
Limite de propagation DFW critique | Critique | ESX | La limite de propagation DFW a atteint le niveau critique. |
Vérifiez les VM sur l'hôte dans NSX Manager, vérifiez le niveau critique de propagation configuré du filtre DFW {entity_id} pour le protocole {protocol_name}. |
4.1.0 |
Nombre élevé de sessions DFW | Critique | ESX | Le nombre de sessions DFW est élevé. |
Vérifiez le niveau de charge du trafic réseau des charges de travail sur l’hôte. Pensez à rééquilibrer les charges de travail sur cet hôte vers d'autres hôtes. |
3.2.0 |
Limite de règles DFW par vNIC dépassée | Critique | ESX | La limite de règles DFW par vNIC est sur le point de dépasser la limite maximale. |
Connectez-vous à l'hôte ESX {transport_node_name} et appelez la commande CLI NSX get firewall <VIF_UUID> ruleset rules pour obtenir les statistiques de règle pour les règles configurées sur le VIF correspondant. Réduisez le nombre de règles configurées pour le VIF {entity_id}. |
4.0.0 |
Limite de règles DFW par vNIC imminente | Moyenne | ESX | La limite de règles DFW par vNIC approche de la limite maximale. |
Connectez-vous à l'hôte ESX {transport_node_name} et appelez la commande CLI NSX get firewall <VIF_UUID> ruleset rules pour obtenir les statistiques de règle pour les règles configurées sur le VIF correspondant. Réduisez le nombre de règles configurées pour le VIF {entity_id}. |
4.0.0 |
Limite de règles DFW par hôte dépassée | Critique | ESX | La limite de règles DFW par hôte est sur le point de dépasser la limite maximale. |
Connectez-vous à l'hôte ESX {transport_node_name} et appelez la commande CLI NSX get firewall rule-stats total pour obtenir les statistiques de règle pour les règles configurées sur l'hôte ESX {transport_node_name}. Réduisez le nombre de règles configurées pour l'hôte {transport_node_name}. Vérifiez le nombre de règles configurées pour divers VIF à l'aide de la commande CLI NSX get firewall <VIF_UUID> ruleset rules. Réduisez le nombre de règles configurées pour divers VIF. |
4.0.0 |
Limite de règles DFW par hôte arrivant à expiration | Moyenne | ESX | La limite de règles DFW par hôte approche de la limite maximale. |
Connectez-vous à l'hôte ESX {transport_node_name} et appelez la commande CLI NSX get firewall rule-stats total pour obtenir les statistiques de règle pour les règles configurées sur l'hôte ESX {transport_node_name}. Réduisez le nombre de règles configurées pour l'hôte {transport_node_name}. Vérifiez le nombre de règles configurées pour divers VIF à l'aide de la commande CLI NSX get firewall <VIF_UUID> ruleset rules. Réduisez le nombre de règles configurées pour divers VIF. |
4.0.0 |
Événements IPS IDS distribués
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Nombre maximal d'événements atteint | Moyenne | gestionnaire | Nombre maximal d'événements d'intrusion atteint. |
Aucune intervention manuelle n’est requise. Une tâche de purge démarrera automatiquement toutes les 3 minutes et supprimera 10 % des anciens enregistrements pour ramener le nombre total d'événements d'intrusion dans le système à la valeur de seuil de 1,5 million d'événements. |
3.1.0 |
Utilisation élevée de la mémoire du moteur NSX IDPS | Moyenne | ESX | L'utilisation de la mémoire du moteur NSX-IDPS atteint 75 % ou plus. |
Pensez à rééquilibrer les charges de travail de VM sur cet hôte vers d'autres hôtes. |
3.1.0 |
Utilisation élevée de la mémoire du moteur NSX IDPS sur DPU | Moyenne | DPU | L'utilisation de la mémoire du moteur NSX-IDPS atteint 75 % ou plus sur DPU. |
Pensez à rééquilibrer les charges de travail de VM sur cet hôte vers d'autres hôtes. |
4.0.0 |
Utilisation moyenne élevée de la mémoire du moteur NSX IDPS | Élevé | ESX | L'utilisation de la mémoire du moteur NSX-IDPS atteint 85 % ou plus. |
Pensez à rééquilibrer les charges de travail de VM sur cet hôte vers d'autres hôtes. |
3.1.0 |
Utilisation moyenne élevée de la mémoire du moteur NSX IDPS sur DPU | Élevé | DPU | L'utilisation de la mémoire du moteur NSX-IDPS atteint 85 % ou plus sur DPU. |
Pensez à rééquilibrer les charges de travail de VM sur cet hôte vers d'autres hôtes. |
4.0.0 |
Utilisation très élevée de la mémoire du moteur NSX IDPS | Critique | ESX | L'utilisation de la mémoire du moteur NSX-IDPS atteint 95% ou plus. |
Pensez à rééquilibrer les charges de travail de VM sur cet hôte vers d'autres hôtes. |
3.1.0 |
Utilisation très élevée de la mémoire du moteur NSX IDPS sur DPU | Critique | DPU | L'utilisation de la mémoire du moteur NSX-IDPS atteint 95 % ou plus sur DPU. |
Pensez à rééquilibrer les charges de travail de VM sur cet hôte vers d'autres hôtes. |
4.0.0 |
Utilisation élevée du CPU du moteur NSX IDPS | Moyenne | ESX | L'utilisation du CPU du moteur NSX-IDPS atteint 75% ou plus. |
Pensez à rééquilibrer les charges de travail de VM sur cet hôte vers d'autres hôtes. |
3.1.0 |
Utilisation moyenne élevée du CPU du moteur NSX IDPS | Élevé | ESX | L'utilisation du CPU du moteur NSX-IDPS atteint 85 % ou plus. |
Pensez à rééquilibrer les charges de travail de VM sur cet hôte vers d'autres hôtes. |
3.1.0 |
Utilisation très élevée du CPU du moteur NSX IDPS | Critique | ESX | L'utilisation du CPU du moteur NSX-IDPS a dépassé 95 % ou plus. |
Pensez à rééquilibrer les charges de travail de VM sur cet hôte vers d'autres hôtes. |
3.1.0 |
Moteur NSX IDPS inactif | Critique | ESX | NSX IDPS est activé via la stratégie NSX et les règles IDPS sont configurées, mais le moteur NSX-IDPS est inactif. |
1. Vérifiez /var/log/nsx-syslog.log pour voir si des erreurs sont signalées. |
3.1.0 |
Mémoire du moteur NSX IDPS inactif sur le DPU | Critique | DPU | NSX IDPS est activé via la stratégie NSX et les règles IDPS sont configurées, mais le moteur NSX-IDPS est inactif sur DPU. |
1. Vérifiez /var/log/nsx-idps/nsx-idps.log et /var/log/nsx-syslog.log pour voir si des erreurs sont signalées. |
4.0.0 |
Surabonnement élevé du CPU du moteur IDPS | Moyenne | ESX | L'utilisation du CPU pour le moteur IDPS distribué est élevée. |
Vérifiez la raison du surabonnement. Déplacez certaines applications vers un autre hôte. |
4.0.0 |
Surabonnement très élevé du CPU du moteur IDPS | Élevé | ESX | L'utilisation du CPU pour le moteur IDPS distribué est très élevée. |
Vérifiez la raison du surabonnement. Déplacez certaines applications vers un autre hôte. |
4.0.0 |
Surabonnement élevé du réseau du moteur IDPS | Moyenne | ESX | L'utilisation du réseau pour le moteur IDPS distribué est élevée. |
Vérifiez la raison du surabonnement. Vérifiez les règles IDPS pour réduire la quantité de trafic soumis au service IDPS. |
4.0.0 |
Surabonnement très élevé du réseau du moteur IDPS | Élevé | ESX | L'utilisation du réseau pour le moteur IDPS distribué est très élevée. |
Vérifiez la raison du surabonnement. Vérifiez les règles IDPS pour réduire la quantité de trafic soumis au service IDPS. |
4.0.0 |
Moteur IDPS abandonné Trafic CPU surchargé | Critique | ESX | Le moteur IDPS distribué a abandonné le trafic en raison d'un surabonnement de CPU. |
Vérifiez la raison du surabonnement. Déplacez certaines applications vers un autre hôte. |
4.0.0 |
Moteur IDPS abandonné Trafic réseau surchargé | Critique | ESX | Le moteur IDPS distribué a abandonné le trafic en raison d'un surabonnement réseau. |
Vérifiez la raison du surabonnement. Vérifiez les règles IDPS pour réduire la quantité de trafic soumis au service IDPS. |
4.0.0 |
Moteur IDPS contourné Trafic CPU surchargé | Critique | ESX | Le moteur IDPS distribué a contourné le trafic en raison d'un surabonnement de CPU. |
Vérifiez la raison du surabonnement. Déplacez certaines applications vers un autre hôte. |
4.0.0 |
Moteur IDPS contourné Trafic réseau surchargé | Critique | ESX | Le moteur IDPS distribué a contourné le trafic en raison d'un surabonnement réseau. |
Vérifiez la raison du surabonnement. Vérifiez les règles IDPS pour réduire la quantité de trafic soumis au service IDPS. |
4.0.0 |
Événements DNS
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Redirecteur inactif | Élevé | Dispositif edge, edge autonome, passerelle de cloud public | Un redirecteur DNS est inactif. |
1. Appelez la commande get dns-forwarders status de l'interface de ligne de commande NSX pour vérifier si le redirecteur DNS se trouve dans un état inactif. |
3.0.0 |
Redirecteur désactivé | Infos | Dispositif edge, edge autonome, passerelle de cloud public | Un redirecteur DNS est désactivé. |
1. Appelez la commande get dns-forwarders status de l'interface de ligne de commande NSX pour vérifier si le redirecteur DNS se trouve dans un état désactivé. |
3.0.0 |
Délai d'expiration du serveur en amont du redirecteur | Élevé | Dispositif edge, edge autonome, passerelle de cloud public | Un serveur en amont du redirecteur DNS a expiré. |
1. Appelez la NSX API GET /api/v1/dns/forwarders/{dns_id}/nslookup? address=<address>&server_ip={dns_upstream_ip}&source_ip=<source_ip>. Cette demande d'API déclenche une recherche DNS sur le serveur en amont dans l'espace de noms réseau du redirecteur DNS. <address> est l'adresse IP ou le nom de domaine complet dans le même domaine que le serveur en amont. &Ltsource_ip> est une adresse IP dans la zone du serveur en amont. Si l'API renvoie une réponse de connexion expirée, il existe probablement une erreur réseau ou un problème de serveur en amont. Vérifiez pourquoi les recherches DSN n'atteignent pas le serveur en amont ou pourquoi le serveur en amont ne renvoie pas de réponse. Si la réponse de l'API indique que le serveur en amont répond, passez à l'étape 2. |
3.1.3 |
Événements Edge
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Incompatibilité des paramètres de nœud Edge | Critique | gestionnaire | Incompatibilité des paramètres de nœud Edge. |
Vérifiez les paramètres de ce nœud de transport Edge {entity_id}. Exécutez l'une des actions suivantes pour résoudre l'alarme - |
3.2.0 |
Incompatibilité des paramètres vSphere de la VM Edge | Critique | gestionnaire | Incompatibilité des paramètres vSphere de la VM Edge. |
Vérifiez la configuration vSphere de ce nœud de transport Edge {entity_id}. Exécutez l'une des actions suivantes pour résoudre l'alarme - |
3.2.0 |
Les paramètres de nœud Edge et les paramètres vSphere sont modifiés | Critique | gestionnaire | Les paramètres du nœud Edge et les paramètres vSphere sont modifiés. |
Vérifiez les paramètres du nœud et la configuration vSphere de ce nœud de transport Edge {entity_id}. Exécutez l'une des actions suivantes pour résoudre l'alarme - |
3.2.0 |
Incompatibilité d'emplacement de vSphere Edge | Élevé | gestionnaire | Incompatibilité d'emplacement de vSphere Edge. |
Vérifiez la configuration vSphere de ce nœud de transport Edge {entity_id}. Exécutez l'une des actions suivantes pour résoudre l'alarme - |
3.2.0 |
La VM Edge présente dans l'inventaire NSX est absente de vCenter | Critique | gestionnaire | La machine virtuelle Edge automatique est présente dans l'inventaire NSX, mais pas dans vCenter. |
L'ID MoRef de référence d'objet géré d'une machine virtuelle a le format vm-number, qui est visible dans l'URL lors de la sélection de la machine virtuelle Edge dans l'interface utilisateur de vCenter. Exemple vm-12011 in https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary Recherchez la machine virtuelle {policy_edge_vm_name} avec l'ID moref {vm_moref_id} dans vCenter pour ce nœud de transport Edge {entity_id}. Si la machine virtuelle Edge est présente dans vCenter avec un autre ID MoRef, suivez l'action ci-dessous. Utilisez l'API d'ajout ou de mise à jour du placement NSX avec des propriétés de charge utile de demande JSON vm_id et vm_deployment_config pour mettre à jour les nouveaux paramètres de déploiement d'ID MoRef de VM et vSphere. POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=addOrUpdatePlacementReferences. Si la machine virtuelle Edge portant le nom {policy_edge_vm_name} n'est pas présente dans vCenter, utilisez l'API de redéploiement de NSX pour déployer une nouvelle machine virtuelle pour le nœud Edge. POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=redeploy. |
3.2.1 |
VM Edge absente de l'inventaire NSX et de vCenter | Critique | gestionnaire | La machine virtuelle Edge automatique n'est pas présente à la fois dans l'inventaire NSX et dans vCenter. |
L'ID MoRef de référence d'objet géré d'une machine virtuelle a le format vm-number, qui est visible dans l'URL lors de la sélection de la machine virtuelle Edge dans l'interface utilisateur de vCenter. Exemple m-12011 in https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary Recherchez la machine virtuelle {policy_edge_vm_name} avec l'ID moref {vm_moref_id} dans vCenter pour ce nœud de transport Edge {entity_id}. Suivez l'action ci-dessous pour résoudre l'alarme : vérifiez si la VM a été supprimée dans vSphere ou si elle est présente avec un id Moref différent. |
3.2.1 |
Échec de la suppression de l'ancienne VM dans vCenter lors du redéploiement | Critique | gestionnaire | L'opération de mise hors tension et de suppression a échoué pour l'ancienne machine virtuelle Edge dans vCenter lors du redéploiement. |
L'ID MoRef de référence d'objet géré d'une machine virtuelle a le format vm-number, qui est visible dans l'URL lors de la sélection de la machine virtuelle Edge dans l'interface utilisateur de vCenter. Exemple m-12011 in https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary Recherchez la machine virtuelle {policy_edge_vm_name} avec l'ID moref {vm_moref_id} dans vCenter pour ce nœud de transport Edge {entity_id}. Mettez hors tension et supprimez l'ancienne machine virtuelle Edge {policy_edge_vm_name} avec il'd moref {vm_moref_id} dans vCenter. |
3.2.1 |
Incompatibilité de version matérielle Edge | Moyenne | gestionnaire | Le nœud Edge présente une incompatibilité de version matérielle. |
Suivez l'article de la base de connaissances pour résoudre l'alarme d'incompatibilité de version matérielle pour le nœud Edge {transport_node_name}. |
4.0.1 |
Événements de cluster Edge
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Échec du déplacement du membre du cluster Edge | Critique | gestionnaire | Alarme de panne de déplacement du membre du cluster Edge |
Vérifiez la capacité disponible pour le cluster Edge. Si une capacité supplémentaire est requise, mettez à l'échelle votre cluster Edge. Réessayez l'opération de déplacement d'un membre du cluster Edge. |
4.0.0 |
Événements de santé du dispositif Edge
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Utilisation très élevée du CPU Edge | Critique | Edge, passerelle de cloud public | L'utilisation du CPU du nœud Edge est très élevée. |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud Edge. Pensez à ajuster la taille du facteur de forme du dispositif Edge ou à rééquilibrer les services vers d'autres nœuds Edge pour la charge de travail applicable. |
3.0.0 |
Utilisation élevée du CPU Edge | Moyenne | Edge, passerelle de cloud public | L'utilisation du CPU du nœud Edge est élevée. |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud Edge. Pensez à ajuster la taille du facteur de forme du dispositif Edge ou à rééquilibrer les services vers d'autres nœuds Edge pour la charge de travail applicable. |
3.0.0 |
Utilisation très élevée de la mémoire Edge | Critique | Edge, passerelle de cloud public | L'utilisation de la mémoire du nœud Edge est très élevée. |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud Edge. Pensez à ajuster la taille du facteur de forme du dispositif Edge ou à rééquilibrer les services vers d'autres nœuds Edge pour la charge de travail applicable. |
3.0.0 |
Utilisation élevée de la mémoire Edge | Moyenne | Edge, passerelle de cloud public | L'utilisation de la mémoire du nœud Edge est élevée. |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud Edge. Pensez à ajuster la taille du facteur de forme du dispositif Edge ou à rééquilibrer les services vers d'autres nœuds Edge pour la charge de travail applicable. |
3.0.0 |
Utilisation très élevée du disque Edge | Critique | Edge, passerelle de cloud public | L'utilisation du disque du nœud Edge est très élevée. |
Examinez la partition ayant une utilisation élevée et vérifiez si des fichiers volumineux inattendus peuvent être supprimés. |
3.0.0 |
Utilisation élevée du disque Edge | Moyenne | Edge, passerelle de cloud public | L'utilisation du disque du nœud Edge est élevée. |
Examinez la partition ayant une utilisation élevée et vérifiez si des fichiers volumineux inattendus peuvent être supprimés. |
3.0.0 |
CPU du chemin de données Edge très élevé | Critique | Dispositif edge, edge autonome, passerelle de cloud public | L'utilisation du CPU du chemin de données du nœud Edge est très élevée. |
Vérifiez les statistiques du CPU sur le nœud Edge en appelant la commande get dataplane cpu stats de l'interface de ligne de commande NSX pour afficher les taux de paquets par cœur de CPU. Une utilisation plus élevée du CPU est attendue avec des taux de paquets supérieurs. Pensez à augmenter la taille du facteur de forme du dispositif Edge et à rééquilibrer les services sur ce nœud Edge vers d'autres nœuds Edge dans le même cluster ou dans d'autres clusters Edge. |
3.0.0 |
CPU du chemin de données Edge élevé | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | L'utilisation du CPU du chemin de données du nœud Edge est élevée. |
Vérifiez les statistiques du CPU sur le nœud Edge en appelant la commande get dataplane cpu stats de l'interface de ligne de commande NSX pour afficher les taux de paquets par cœur de CPU. Une utilisation plus élevée du CPU est attendue avec des taux de paquets supérieurs. Pensez à augmenter la taille du facteur de forme du dispositif Edge et à rééquilibrer les services sur ce nœud Edge vers d'autres nœuds Edge dans le même cluster ou dans d'autres clusters Edge. |
3.0.0 |
Échec de la configuration du chemin de données Edge | Élevé | Dispositif edge, edge autonome, passerelle de cloud public | Échec de la configuration du chemin de données du nœud Edge. |
Vérifiez que la connectivité du nœud Edge au nœud de gestionnaire est saine. Dans l'interface de ligne de commande NSX du nœud Edge, appelez la commande get services pour vérifier la santé des services. Si le service du plan de données est arrêté, appelez la commande start service dataplane pour le redémarrer. |
3.0.0 |
Cryptodrv de chemin de données Edge inactif | Critique | Dispositif edge, edge autonome, passerelle de cloud public | Le pilote de cryptographie du nœud Edge est inactif. |
Mettez à niveau le nœud Edge si nécessaire. |
3.0.0 |
Pool de mémoire du chemin de données Edge élevé | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | Le pool de mémoire du chemin de données du nœud Edge est élevé. |
Connectez-vous en tant qu'utilisateur racine et appelez les commandes edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show et edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap malloc_heap » pour vérifier l'utilisation de la mémoire DPDK. |
3.0.0 |
Utilisation de la table ARP globale Edge élevée | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | L'utilisation de la table ARP globale du nœud est élevée. |
Connectez-vous en tant qu'utilisateur racine et appelez la commande edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show puis vérifiez si l'utilisation du cache neigh est normale. Si elle est normale, appelez la commande edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries pour augmenter la taille de la table ARP. |
3.0.0 |
Mémoire tampon de réception insuffisante de la carte réseau Edge | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | La carte réseau du nœud Edge n'a temporairement plus de tampons d'anneau de réception. |
Exécutez la commande get dataplane cpu stats de l'interface de ligne de commande NSX sur le nœud Edge et vérifiez : |
3.0.0 |
Mémoire tampon de transmission insuffisante de la carte réseau Edge | Critique | Dispositif edge, edge autonome, passerelle de cloud public | La carte réseau du nœud Edge ne dispose temporairement plus de tampons d'anneau de transmission. |
1. Si un grand nombre de machines virtuelles sont prises en charge avec Edge par l'hyperviseur, il se peut que la VM Edge n'ait pas le temps de s'exécuter, les paquets ne pourront donc peut-être pas être récupérés par l'hyperviseur. Envisagez ensuite de migrer la machine virtuelle Edge vers un hôte avec moins de machines virtuelles. |
3.0.0 |
État de liaison de la carte réseau Edge inactif | Critique | Dispositif edge, edge autonome, passerelle de cloud public | La liaison de la carte réseau du nœud Edge est inactive. |
Sur le nœud Edge, confirmez que la liaison de la carte réseau est physiquement inactive en appelant la commande get interfaces de l'interface de ligne de commande NSX. Si elle est inactive, vérifiez la connexion du câble. |
3.0.0 |
Erreur de stockage | Critique | Dispositif edge, edge autonome, passerelle de cloud public | Le disque du nœud Edge est en lecture seule. |
Examinez la partition en lecture seule pour savoir si le redémarrage résout le problème ou si vous devez remplacer le disque. Contactez GSS pour obtenir plus d'informations. |
3.0.1 |
Thread de chemin de données bloqué | Critique | Dispositif edge, edge autonome, passerelle de cloud public | Le thread de chemin de données du nœud Edge est dans une condition de blocage. |
Redémarrez le service de plan de données en appelant la commande CLI NSX restart service dataplane. |
3.1.0 |
Débit de la carte réseau du chemin de données Edge très élevé | Critique | Dispositif edge, edge autonome, passerelle de cloud public | Le débit de la carte réseau du chemin de données du nœud Edge est très élevé. |
Examinez les niveaux de débit du trafic sur la carte réseau et déterminez si des modifications de configuration sont nécessaires. La commande « get dataplane thoughput <seconds> » peut être utilisée pour surveiller le débit. |
3.2.0 |
Débit de la carte réseau du chemin de données Edge élevé | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | Le débit de la carte réseau du chemin de données du nœud Edge est élevé. |
Examinez les niveaux de débit du trafic sur la carte réseau et déterminez si des modifications de configuration sont nécessaires. La commande « get dataplane thoughput <seconds> » peut être utilisée pour surveiller le débit. |
3.2.0 |
Domaine de pannes inactif | Critique | Edge, passerelle de cloud public | Tous les membres du domaine de pannes sont inactifs. |
1. Sur le nœud Edge identifié par {transport_node_id}, vérifiez la connectivité aux plans de gestion et de contrôle en appelant la commande CLI NSX get manager et les contrôleurs get. |
3.2.0 |
Faible taux de réussite du cache de micro-flux | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | Le taux de réussite du cache de micro-flux diminue et le CPU du chemin de données est élevé. |
Le taux de réussite du flux de cache a diminué au cours des 30 dernières minutes, ce qui indique qu'il peut y avoir une dégradation des performances du dispositif Edge. Le trafic continuera d'être transféré et vous ne rencontrerez peut-être aucun problème. Vérifiez l'utilisation du CPU du chemin de données du dispositif Edge {entity_id} principal {core_id} si elle est élevée au cours des 30 dernières minutes. Le dispositif Edge a un faible taux de réussite du cache de flux lorsque de nouveaux flux sont continuellement créés, car le premier paquet d'un nouveau flux sera utilisé pour configurer dans le cache de flux pour le traitement des chemins d'accès rapide. Vous pouvez augmenter la taille de votre dispositif Edge ou augmenter le nombre de nœuds Edge utilisés pour les passerelles actives/actives. |
3.2.2 |
Faible taux de réussite du cache de méga-flux | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | Le taux de réussite du cache de méga-flux diminue et le CPU du chemin de données est élevé. |
Le taux de réussite du flux de cache a diminué au cours des 30 dernières minutes, ce qui indique qu'il peut y avoir une dégradation des performances du dispositif Edge. Le trafic continuera d'être transféré et vous ne rencontrerez peut-être aucun problème. Vérifiez l'utilisation du CPU du chemin de données du dispositif Edge {entity_id} principal {core_id} si elle est élevée au cours des 30 dernières minutes. Le dispositif Edge a un faible taux de réussite du cache de flux lorsque de nouveaux flux sont continuellement créés, car le premier paquet d'un nouveau flux sera utilisé pour configurer dans le cache de flux pour le traitement des chemins d'accès rapide. Vous pouvez augmenter la taille de votre dispositif Edge ou augmenter le nombre de nœuds Edge utilisés pour les passerelles actives/actives. |
3.2.2 |
Événements de protection du point de terminaison
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
État d'EAM inactif | Critique | gestionnaire | Le service ESX Agent Manager (EAM) sur un gestionnaire de calcul est inactif. |
Démarrez le service ESX Agent Manager (EAM). Connectez-vous via SSH à vCenter et appelez la commande service vmware-eam start. |
3.0.0 |
Canal de partenaire inactif | Critique | ESX | La connexion du module hôte et de la SVM du partenaire est inactive. |
Reportez-vous à https://kb.vmware.com/s/article/85844 et vérifiez que la SVM partenaire {entity_id} est reconnectée au module hôte. |
3.0.0 |
Événements de Fédération
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
RTEP BGP inactif | Élevé | Dispositif edge, edge autonome, passerelle de cloud public | Le voisin RTEP BGP est inactif. |
1. Appelez la commande CLI NSX get logical-routers sur le nœud Edge concerné. |
3.0.1 |
Avertissement de synchronisation LM-LM | Moyenne | gestionnaire | La synchronisation entre les emplacements distants a échoué pendant plus de 3 minutes. |
1. Appelez la commande CLI NSX get site-replicator remote-sites pour obtenir l'état de connexion entre les emplacements distants. Si un emplacement distant est connecté mais pas synchronisé, il est possible qu'il soit toujours en cours de résolution principale. Dans ce cas, attendez environ 10 secondes et essayez à nouveau d'appeler l'interface de ligne de commande pour vérifier l'état de l'emplacement distant. Si un emplacement est déconnecté, essayez l'étape suivante. |
3.0.1 |
Erreur de synchronisation LM-LM | Élevé | gestionnaire | La synchronisation entre les emplacements distants a échoué pendant plus de 15 minutes. |
1. Appelez la commande CLI NSX get site-replicator remote-sites pour obtenir l'état de connexion entre les emplacements distants. Si un emplacement distant est connecté mais pas synchronisé, il est possible qu'il soit toujours en cours de résolution principale. Dans ce cas, attendez environ 10 secondes et essayez à nouveau d'appeler l'interface de ligne de commande pour vérifier l'état de l'emplacement distant. Si un emplacement est déconnecté, essayez l'étape suivante. |
3.0.1 |
Connectivité RTEP perdue | Élevé | gestionnaire | Connectivité d'emplacement RTEP perdue. |
1. Appelez la commande CLI NSX get logical-routers sur le nœud Edge {transport_node_name} concerné. |
3.0.2 |
Split Brain GM-GM | Critique | gestionnaire global | Plusieurs nœuds de gestionnaire global sont actifs en même temps. |
Configurez un seul nœud de gestionnaire global comme actif et tous les autres nœuds de gestionnaire global en veille. |
3.1.0 |
Avertissement de latence entre GM et GM | Moyenne | gestionnaire global | La latence entre les gestionnaires globaux est supérieure à celle attendue pendant plus de 2 minutes |
Vérifiez la connectivité du gestionnaire global {from_gm_path}({site_id}) au gestionnaire global {to_gm_path}({remote_site_id}) via un test ping. Si la commande ping n'est pas possible, vérifiez la fragilité de la connectivité WAN. |
3.2.0 |
Avertissement de synchronisation entre GM et GM | Moyenne | gestionnaire global | Le gestionnaire global actif vers le gestionnaire global en veille ne peut pas se synchroniser |
Vérifiez la connectivité du gestionnaire global {from_gm_path}({site_id}) au gestionnaire global {to_gm_path}({remote_site_id}) via un test ping. |
3.2.0 |
Erreur de synchronisation entre GM et GM | Élevé | gestionnaire global | Le gestionnaire global actif vers le gestionnaire global en veille ne peut pas se synchroniser pendant plus de 5 minutes |
Vérifiez la connectivité du gestionnaire global {from_gm_path}({site_id}) au gestionnaire global {to_gm_path}({remote_site_id}) via un test ping. |
3.2.0 |
Avertissement de synchronisation GM-LM | Moyenne | gestionnaire global, gestionnaire | La synchronisation des données entre le gestionnaire global (GM) et le gestionnaire local (LM) a échoué. |
1. Vérifiez la connectivité réseau entre le site distant et le site local via un test ping. |
3.2.0 |
Erreur de synchronisation GM-LM | Élevé | gestionnaire global, gestionnaire | La synchronisation des données entre le gestionnaire global (GM) et le gestionnaire local (LM) a échoué pendant une période prolongée. |
1. Vérifiez la connectivité réseau entre le site distant et le site local via un test ping. |
3.2.0 |
Seuil d'occupation de la file d'attente dépassé | Moyenne | gestionnaire, gestionnaire global | Le seuil de taille de l'occupation de la file d'attente a dépassé l'avertissement. |
La taille de la file d'attente peut dépasser le seuil en raison d'un problème de communication avec le site distant ou un système surchargé. Vérifiez les performances du système et le fichier /var/log/async-replicator/ar.log pour voir si des erreurs sont signalées. |
3.2.0 |
Avertissement de latence GM-LM | Moyenne | gestionnaire global, gestionnaire | La latence entre le gestionnaire global et le gestionnaire local est supérieure à celle attendue pendant plus de 2 minutes. |
1. Vérifiez la connectivité réseau entre le site distant et le site local via un test ping. |
3.2.0 |
Restauration de LM pendant l'importation de la configuration en cours | Élevé | gestionnaire global | Le gestionnaire local est restauré lorsque l'importation de la configuration est en cours sur le gestionnaire global. |
1. Connectez-vous à la CLI NSX du dispositif du gestionnaire global. |
3.2.0 |
Événements de pare-feu de passerelle
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Nombre de flux IP élevé | Moyenne | Edge, passerelle de cloud public | L'utilisation de la table de flux du pare-feu de passerelle pour le trafic IP est élevée. Les nouveaux flux seront abandonnés par le pare-feu de passerelle lorsque l'utilisation atteint la limite maximale. |
Connectez-vous en tant qu'utilisateur Admin sur le nœud Edge et appelez la commande CLI NSX get firewall <LR_INT_UUID> interface stats | json en utilisant l'UUID d'interface de droite et vérifiez l'utilisation de la table de flux pour les flux IP. Vérifiez que les flux de trafic passant par la passerelle ne sont pas une attaque DOS ou une rafale anormale. Si le trafic semble être dans la charge normale, mais que le seuil d'alarme est atteint, envisagez d'augmenter le seuil d'alarme ou d'acheminer le nouveau trafic vers un autre nœud Edge. |
3.1.3 |
Nombre de flux IP dépassé | Critique | Edge, passerelle de cloud public | La table de flux du pare-feu de passerelle pour le trafic IP a dépassé le seuil défini. Les nouveaux flux seront abandonnés par le pare-feu de passerelle lorsque l'utilisation atteint la limite maximale. |
Connectez-vous en tant qu'utilisateur Admin sur le nœud Edge et appelez la commande CLI NSX get firewall <LR_INT_UUID> interface stats | json en utilisant l'UUID d'interface de droite et vérifiez l'utilisation de la table de flux pour les flux IP. Vérifiez que les flux de trafic passant par la passerelle ne sont pas une attaque DOS ou une rafale anormale. Si le trafic semble être dans la charge normale, mais que le seuil d'alarme est atteint, envisagez d'augmenter le seuil d'alarme ou d'acheminer le nouveau trafic vers un autre nœud Edge. |
3.1.3 |
Nombre de flux UDP élevé | Moyenne | Edge, passerelle de cloud public | L'utilisation de la table de flux du pare-feu de passerelle pour le trafic UDP est élevée. Les nouveaux flux seront abandonnés par le pare-feu de passerelle lorsque l'utilisation atteint la limite maximale. |
Connectez-vous en tant qu'utilisateur Admin sur le nœud Edge et appelez la commande CLI NSX get firewall <LR_INT_UUID> interface stats | json en utilisant l'UUID d'interface de droite et vérifiez l'utilisation de la table de flux pour les flux UDP. Vérifiez que les flux de trafic passant par la passerelle ne sont pas une attaque DOS ou une rafale anormale. Si le trafic semble être dans la charge normale, mais que le seuil d'alarme est atteint, envisagez d'augmenter le seuil d'alarme ou d'acheminer le nouveau trafic vers un autre nœud Edge. |
3.1.3 |
Nombre de flux UDP dépassé | Critique | Edge, passerelle de cloud public | La table de flux du pare-feu de passerelle pour le trafic UDP a dépassé le seuil défini. Les nouveaux flux seront abandonnés par le pare-feu de passerelle lorsque l'utilisation atteint la limite maximale. |
Connectez-vous en tant qu'utilisateur Admin sur le nœud Edge et appelez la commande CLI NSX get firewall <LR_INT_UUID> interface stats | json en utilisant l'UUID d'interface de droite et vérifiez l'utilisation de la table de flux pour les flux UDP. Vérifiez que les flux de trafic passant par la passerelle ne sont pas une attaque DOS ou une rafale anormale. Si le trafic semble être dans la charge normale, mais que le seuil d'alarme est atteint, envisagez d'augmenter le seuil d'alarme ou d'acheminer le nouveau trafic vers un autre nœud Edge. |
3.1.3 |
Nombre de flux ICMP élevé | Moyenne | Edge, passerelle de cloud public | L'utilisation de la table de flux du pare-feu de passerelle pour le trafic ICMP est élevée. Les nouveaux flux seront abandonnés par le pare-feu de passerelle lorsque l'utilisation atteint la limite maximale. |
Connectez-vous en tant qu'utilisateur Admin sur le nœud Edge et appelez la commande CLI NSX get firewall <LR_INT_UUID> interface stats | json en utilisant l'UUID d'interface de droite et vérifiez l'utilisation de la table de flux pour les flux ICMP. Vérifiez que les flux de trafic passant par la passerelle ne sont pas une attaque DOS ou une rafale anormale. Si le trafic semble être dans la charge normale, mais que le seuil d'alarme est atteint, envisagez d'augmenter le seuil d'alarme ou d'acheminer le nouveau trafic vers un autre nœud Edge. |
3.1.3 |
Nombre de flux ICMP dépassé | Critique | Edge, passerelle de cloud public | La table de flux du pare-feu de passerelle pour le trafic ICMP a dépassé le seuil défini. Les nouveaux flux seront abandonnés par le pare-feu de passerelle lorsque l'utilisation atteint la limite maximale. |
Connectez-vous en tant qu'utilisateur Admin sur le nœud Edge et appelez la commande CLI NSX get firewall <LR_INT_UUID> interface stats | json en utilisant l'UUID d'interface de droite et vérifiez l'utilisation de la table de flux pour les flux ICMP. Vérifiez que les flux de trafic passant par la passerelle ne sont pas une attaque DOS ou une rafale anormale. Si le trafic semble être dans la charge normale, mais que le seuil d'alarme est atteint, envisagez d'augmenter le seuil d'alarme ou d'acheminer le nouveau trafic vers un autre nœud Edge. |
3.1.3 |
Nombre de flux TCP semi-ouverts élevé | Moyenne | Edge, passerelle de cloud public | L'utilisation de la table de flux du pare-feu de passerelle pour le trafic semi-ouvert TCP est élevée. Les nouveaux flux seront abandonnés par le pare-feu de passerelle lorsque l'utilisation atteint la limite maximale. |
Connectez-vous en tant qu'utilisateur Admin sur le nœud Edge et appelez la commande CLI NSX get firewall <LR_INT_UUID> interface stats | json en utilisant l'UUID d'interface de droite et vérifiez l'utilisation de la table de flux pour les flux TCP semi-ouverts. Vérifiez que les flux de trafic passant par la passerelle ne sont pas une attaque DOS ou une rafale anormale. Si le trafic semble être dans la charge normale, mais que le seuil d'alarme est atteint, envisagez d'augmenter le seuil d'alarme ou d'acheminer le nouveau trafic vers un autre nœud Edge. |
3.1.3 |
Nombre de flux TCP semi-ouverts dépassé | Critique | Edge, passerelle de cloud public | La table de flux du pare-feu de passerelle pour le trafic semi-ouvert TCP a dépassé le seuil défini. Les nouveaux flux seront abandonnés par le pare-feu de passerelle lorsque l'utilisation atteint la limite maximale. |
Connectez-vous en tant qu'utilisateur Admin sur le nœud Edge et appelez la commande CLI NSX get firewall <LR_INT_UUID> interface stats | json en utilisant l'UUID d'interface de droite et vérifiez l'utilisation de la table de flux pour les flux TCP semi-ouverts. Vérifiez que les flux de trafic passant par la passerelle ne sont pas une attaque DOS ou une rafale anormale. Si le trafic semble être dans la charge normale, mais que le seuil d'alarme est atteint, envisagez d'augmenter le seuil d'alarme ou d'acheminer le nouveau trafic vers un autre nœud Edge. |
3.1.3 |
Événements de groupes
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Limite de taille de groupe dépassée | Moyenne | gestionnaire | Le nombre total d'éléments de groupe traduits a dépassé la limite maximale. |
1. Pensez à ajuster les éléments du groupe dans le groupe surdimensionné {group_id}. |
4.1.0 |
Événements de haute disponibilité
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Basculement de la passerelle de niveau 0 | Élevé | Dispositif edge, edge autonome, passerelle de cloud public | Une passerelle de niveau 0 a basculé. |
Appelez la commande get logical-router <service_router_id> de l'interface de ligne de commande NSX pour obtenir l'ID VRF du routeur de service de niveau 0. Passez au contexte VRF en appelant vrf <vrf-id> puis appelez get high-availability status pour déterminer quel service est inactif. |
3.0.0 |
Basculement de la passerelle de niveau 1 | Élevé | Dispositif edge, edge autonome, passerelle de cloud public | Une passerelle de niveau 1 a basculé. |
Appelez la commande get logical-router <service_router_id> de l'interface de ligne de commande NSX pour obtenir l'ID VRF du routeur de service de niveau 1. Passez au contexte VRF en appelant vrf <vrf-id> puis appelez get high-availability status pour déterminer quel service est inactif. |
3.0.0 |
Basculement du groupe de services de niveau 0 | Élevé | Edge, passerelle de cloud public | Le groupe de services n'a pas d'instance active. |
Appelez la commande CLI NSX get logical-router <service_router_id> service_group pour vérifier tous les groupes de services configurés sous un routeur de service donné. Examinez la sortie pour déterminer la raison pour laquelle un groupe de services quitte l'état actif. |
4.0.1 |
Basculement du groupe de services de niveau 1 | Élevé | Edge, passerelle de cloud public | Le groupe de services n'a pas d'instance active. |
Appelez la commande CLI NSX get logical-router <service_router_id> service_group pour vérifier tous les groupes de services configurés sous un routeur de service donné. Examinez la sortie pour déterminer la raison pour laquelle un groupe de services quitte l'état actif. |
4.0.1 |
Redondance réduite du groupe de services de niveau 0 | Moyenne | Edge, passerelle de cloud public | Une instance en veille dans un groupe de services a échoué. |
Appelez la commande CLI NSX get logical-router <service_router_id> service_group pour vérifier tous les groupes de services configurés sous un routeur de service donné. Examinez la sortie pour déterminer la raison de l'échec d'un groupe de services précédemment en veille. |
4.0.1 |
Redondance réduite du groupe de services de niveau 1 | Moyenne | Edge, passerelle de cloud public | Une instance en veille dans un groupe de services a échoué. |
Appelez la commande CLI NSX get logical-router <service_router_id> service_group pour vérifier tous les groupes de services configurés sous un routeur de service donné. Examinez la sortie pour déterminer la raison de l'échec d'un groupe de services précédemment en veille. |
4.0.1 |
Événements liés au pare-feu d'identité
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Connectivité au serveur LDAP perdue | Critique | gestionnaire | La connectivité au serveur LDAP est perdue. |
Cochez |
3.1.0 |
Erreur lors de la synchronisation Delta | Critique | gestionnaire | Des erreurs se sont produites lors de l'exécution de la synchronisation Delta. |
1. Vérifiez s'il existe des alarmes de connectivité au serveur LDAP perdu. |
3.1.0 |
Événements de communication de l'infrastructure
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Tunnels Edge inactifs | Critique | Edge, passerelle de cloud public | L'état du tunnel d'un nœud Edge est inactif. |
Appelez la commande CLI NSX get tunnel-ports pour obtenir tous les ports de tunnel, puis vérifiez les statistiques de chaque tunnel en appelant la commande CLI NSX get tunnel-port <UUID> stats pour vérifier s'il existe des abandons. Recherchez également dans /var/log/syslog s'il existe des erreurs liées au tunnel. |
3.0.0 |
Événements de service d'infrastructure
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
État du service inconnu sur DPU | Critique | DPU | L'état du service sur le DPU est anormal. |
Vérifiez que le service {service_name} sur DPU {dpu_id} est toujours en cours d'exécution en appelant /etc/init.d/{service_name} status. Si le service est signalé comme étant en cours d'exécution, il peut devoir être redémarré, ce qui peut être effectué avec /etc/init.d/{service_name} restart. Exécutez à nouveau la commande status pour vérifier que le service est en cours d'exécution. Si le redémarrage du service ne résout pas le problème ou si le problème se produit après un redémarrage réussi, contactez le support VMware. |
4.0.0 |
État du service inconnu | Critique | esx, kvm, bms, edge, manager, passerelle de cloud public, gestionnaire global | L'état du service est anormal. |
Vérifiez si le service {service_name} est toujours en cours d'exécution en appelant /etc/init.d/{service_name} status. Si le service est signalé comme étant en cours d'exécution, il peut devoir être redémarré, ce qui peut être effectué avec /etc/init.d/{service_name} restart. Exécutez à nouveau la commande status pour vérifier que le service est en cours d'exécution. Si le script /etc/init.d/{service_name} n'est pas disponible, appelez systemctl {service_name} status et redémarrez via systemctl {service_name} restart avec des privilèges racine. Si le redémarrage du service ne résout pas le problème ou si le problème se produit après un redémarrage réussi, contactez le support VMware. |
3.1.0 |
Échec de la livraison des mesures | Critique | esx, bms, edge, manager, passerelle de cloud public, gestionnaire global | Échec de la livraison des mesures à la cible spécifiée. |
L'utilisateur doit effectuer les vérifications suivantes afin d'exclure le problème à l'origine de l'échec : 1. Vérifiez si l'adresse cible {metrics_target_address} et le port {metrics_target_port} (la valeur par défaut est 443 si le port n'est pas spécifié) transmis pour la connexion est la cible attendue, 2. Vérifiez si le certificat est correct via /opt/vmware/nsx-nestdb/bin/nestdb-cli --cmd 'put vmware.nsx.nestdb.CommonAgentHostConfigMsg', 3. Vérifiez si la cible {metrics_target_address} est accessible, 4. Vérifiez si le gestionnaire de mesures sur la cible {metrics_target_address} est en cours d'exécution avec docker ps | grep metrics_manager, 5. Vérifiez si le port {metrics_target_port} est ouvert par netstat -a | grep {metrics_target_port} on target, 6. Vérifiez si la règle de pare-feu ALLOW est installée sur le nœud par iptables -S OUTPUT | grep {metrics_target_port}(EDGE/UA) or localcli network firewall ruleset list | grep nsx-sha-tsdb(ESX), 7. Redémarrez le démon SHA pour voir s'il peut être résolu par /etc/init.d/netopa restart(ESX) ou /etc/init.d/nsx-netopa restart (EDGE) ou /etc/init.d/nsx-sha restart(UA). |
4.1.0 |
État du service Edge inactif | Critique | Dispositif edge, edge autonome, passerelle de cloud public | Le service Edge est inactif pendant au moins une minute. |
Sur le nœud Edge, vérifiez que le service n'est pas fermé en raison d'une erreur en examinant les fichiers noyaux dans le répertoire /var/log/core. En outre, appelez la commande de l'interface de ligne de commande NSX get services pour confirmer si le service est arrêté. Si c'est le cas, appelez start service <service-name> pour redémarrer le service. |
3.0.0 |
État du service Edge modifié | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | État du service Edge modifié. |
Sur le nœud Edge, vérifiez que le service n'est pas fermé en raison d'une erreur en examinant les fichiers noyaux dans le répertoire /var/log/core. En outre, appelez la commande de l'interface de ligne de commande NSX get services pour confirmer si le service est arrêté. Si c'est le cas, appelez start service <service-name> pour redémarrer le service. |
3.0.0 |
Application bloquée | Critique | gestionnaire global, dispositif Edge autonome, bms, edge, esx, kvm, passerelle de cloud public | L'application s'est bloquée et a généré un vidage de mémoire. |
Collectez le bundle de support pour le nœud NSX {node_display_or_host_name} à l'aide de l'interface utilisateur ou de l'API de NSX Manager. Remarque : les vidages de mémoire peuvent être définis pour déplacer ou copier vers le bundle de support technique NSX afin de supprimer ou de conserver la copie locale sur le nœud. La copie du bundle de support avec les fichiers de vidage de mémoire est essentielle pour l'équipe de support VMware afin de résoudre le problème. Il est recommandé d'enregistrer la copie la plus récente du bundle de support technique incluant les fichiers de vidage de mémoire avant de les supprimer du système. Pour plus d'informations, reportez-vous à l'article de la base de connaissances. |
4.0.0 |
Événements de communication d'Intelligence
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Exportateur de flux TN déconnecté | Élevé | esx, kvm, bms | Un nœud de transport est déconnecté de son broker de messagerie de nœud Intelligence. Cela affecte la collecte de données. |
Redémarrez le service de messagerie s'il n'est pas en cours d'exécution dans le nœud Intelligence. Résolvez l'échec de la connexion réseau entre l'exportateur de flux de nœud de transport et le nœud Intelligence. |
3.0.0 |
Événements de santé d'Intelligence
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Utilisation très élevée du CPU | Critique | gestionnaire, Intelligence | L'utilisation du CPU du nœud Intelligence est très élevée. |
Utilisez la commande top pour vérifier quels processus présentent le plus d'utilisations du CPU, puis vérifiez /var/log/syslog et les journaux locaux de ces processus pour voir si des erreurs en attente doivent être résolues. |
3.0.0 |
Utilisation élevée du CPU | Moyenne | gestionnaire, Intelligence | L'utilisation du CPU du nœud Intelligence est élevée. |
Utilisez la commande top pour vérifier quels processus présentent le plus d'utilisations du CPU, puis vérifiez /var/log/syslog et les journaux locaux de ces processus pour voir si des erreurs en attente doivent être résolues. |
3.0.0 |
Utilisation très élevée de la mémoire | Critique | gestionnaire, Intelligence | L'utilisation de la mémoire du nœud Intelligence est très élevée. |
Utilisez la commande top pour vérifier quels processus présentent le plus d'utilisations de la mémoire, puis vérifiez /var/log/syslog et les journaux locaux de ces processus pour voir si des erreurs en attente doivent être résolues. |
3.0.0 |
Utilisation élevée de la mémoire | Moyenne | gestionnaire, Intelligence | L'utilisation de la mémoire du nœud Intelligence est élevée. |
Utilisez la commande top pour vérifier quels processus présentent le plus d'utilisations de la mémoire, puis vérifiez /var/log/syslog et les journaux locaux de ces processus pour voir si des erreurs en attente doivent être résolues. |
3.0.0 |
Utilisation très élevée du disque | Critique | gestionnaire, Intelligence | L'utilisation du disque du nœud Intelligence est très élevée. |
Examinez la partition de disque {disk_partition_name} et vérifiez si vous pouvez supprimer des fichiers volumineux inattendus. |
3.0.0 |
Utilisation élevée du disque | Moyenne | gestionnaire, Intelligence | L'utilisation du disque du nœud Intelligence est élevée. |
Examinez la partition de disque {disk_partition_name} et vérifiez si vous pouvez supprimer des fichiers volumineux inattendus. |
3.0.0 |
Utilisation très élevée de la partition de disque de données | Critique | gestionnaire, Intelligence | L'utilisation de la partition de disque de données du nœud Intelligence est très élevée. |
Arrêtez la collecte de données NSX Intelligence jusqu'à ce que l'utilisation du disque soit inférieure au seuil. Dans l'interface utilisateur de NSX, accédez à Système | Dispositifs | Dispositif NSX Intelligence. Cliquez ensuite sur ACTIONS, Arrêter la collecte des données. |
3.0.0 |
Utilisation élevée de la partition de disque de données | Moyenne | gestionnaire, Intelligence | L'utilisation de la partition de disque de données du nœud Intelligence est élevée. |
Arrêtez la collecte de données NSX Intelligence jusqu'à ce que l'utilisation du disque soit inférieure au seuil. Examinez la partition/les données de disque et vérifiez si vous pouvez supprimer des fichiers volumineux inattendus. |
3.0.0 |
Latence de stockage élevée | Moyenne | gestionnaire, Intelligence | La latence de stockage du nœud Intelligence est élevée. |
Une latence de stockage élevée transitoire peut se produire en raison d'un pic de demandes d'E/S. Si la latence de stockage reste élevée pendant plus de 30 minutes, envisagez de déployer le dispositif NSX Intelligence sur un disque à faible latence ou de partager le même périphérique de stockage avec d'autres machines virtuelles. |
3.1.0 |
État du nœud dégradé | Élevé | gestionnaire, Intelligence | L'état du nœud Intelligence est dégradé. |
Appelez la NSX API GET /napp/api/v1/platform/monitor/category/health pour vérifier quel espace spécifique est inactif et la raison. Appelez la commande d'interface de ligne de commande suivante pour redémarrer le service dégradé : kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> |
3.0.0 |
Événements IPAM
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Utilisation très élevée du bloc d'adresses IP | Moyenne | gestionnaire | L'utilisation du bloc d'adresses IP est très élevée. |
Examinez l'utilisation du bloc d'adresses IP. Utilisez un nouveau bloc d'adresses IP pour la création de ressources ou supprimez le sous-réseau IP inutilisé du bloc d'adresses IP. Pour vérifier le sous-réseau utilisé pour un bloc d'adresses IP. Dans l'interface utilisateur de NSX, accédez à l'onglet Mise en réseau | Pools d'adresses IP | Pools d'adresses IP. Sélectionnez les pools d'adresses IP dans lesquels le bloc d'adresses IP est utilisé, cochez la colonne Sous-réseaux et Adresses IP alloués sur l'interface utilisateur. Si aucune allocation n'a été utilisée pour le pool d'adresses IP et qu'elle ne sera pas utilisée à l'avenir, supprimez le sous-réseau ou le pool d'adresses IP. Utilisez l'API suivante pour vérifier si le bloc d'adresses IP est utilisé par le pool d'adresses IP et si l'allocation d'adresses IP a été effectuée : Pour obtenir les sous-réseaux configurés d'un pool d'adresses IP, appelez la NSX API GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-subnets pour obtenir des allocations d'adresses IP, appelez la NSX API GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations Remarque : la suppression du pool/sous-réseau d'adresses IP ne doit être effectuée que s'il ne dispose pas d'adresses IP allouées et s'il ne sera pas utilisé à l'avenir. |
3.1.2 |
Utilisation très élevée du pool d'adresses IP | Moyenne | gestionnaire | L'utilisation du pool d'adresses IP est très élevée. |
Examinez l'utilisation du pool d'adresses IP. Libérez les allocations IP inutilisées du pool d'adresses IP ou créez un pool d'adresses IP et utilisez-le. Dans l'interface utilisateur de NSX accédez à l'onglet Mise en réseau | Pools d'adresses IP | Pools d'adresses IP. Sélectionnez des pools IP et cochez la colonne Adresses IP allouées pour afficher les adresses IP allouées à partir du pool IP. Si l'utilisateur constate que des adresses IP ne sont pas utilisées, elles peuvent être libérées. Pour libérer les allocations IP inutilisées, appelez la NSX API DELETE /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations/<ip-allocation> |
3.1.2 |
Événements de licences
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Licence expirée | Critique | gestionnaire global, gestionnaire | Une licence a expiré. |
Ajoutez une nouvelle licence non expirée à l'aide de l'interface utilisateur NSX en accédant à Système | Licences puis cliquez sur AJOUTER et spécifiez la clé de la nouvelle licence. La licence expirée doit être supprimée en cochant la case de la licence, puis cliquez sur SUPPRIMER. |
3.0.0 |
La licence est sur le point d'expirer | Moyenne | gestionnaire global, gestionnaire | Une licence est sur le point d'expirer. |
La licence est sur le point d'expirer dans plusieurs jours. Prévoyez d'ajouter une nouvelle licence sans expiration à l'aide de l'interface utilisateur NSX en accédant à Système | Licences, puis cliquez sur AJOUTER et spécifiez la clé de la nouvelle licence. La licence expirée doit être supprimée en cochant la case de la licence, puis cliquez sur SUPPRIMER. |
3.0.0 |
Événements d'équilibreur de charge
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
CPU d'équilibrage de charge très élevé | Moyenne | edge | L'utilisation du CPU de l'équilibreur de charge est très élevée. |
Si l'utilisation du CPU par l'équilibrage de charge est supérieure au seuil d'utilisation du système, la charge de travail est trop élevée pour cet équilibrage de charge. Redimensionnez le service d'équilibreur de charge en passant la taille de l'équilibreur de charge de petite à moyenne ou de moyenne à grande. Si l'utilisation du CPU de cet équilibreur de charge est toujours élevée, pensez à ajuster la taille du facteur de forme du dispositif Edge ou à déplacer les services d'équilibreur de charge vers d'autres nœuds Edge pour la charge de travail applicable. |
3.0.0 |
État de l'équilibrage de charge dégradé | Moyenne | gestionnaire | Le service d'équilibreur de charge est dégradé. |
Pour l'équilibreur de charge centralisé : vérifiez l'état de l'équilibreur de charge sur le nœud Edge en veille, car l'état dégradé signifie que l'état de l'équilibreur de charge sur le nœud Edge en veille n'est pas prêt. Sur le nœud Edge en veille, appelez la commande CLI NSX get load-balancer <lb-uuid> status. Si l'état de l'équilibreur de charge du service d'équilibreur de charge est « not_ready » ou s'il n'existe aucune sortie, faites entrer le nœud Edge en mode de maintenance, puis quittez le mode de maintenance. Pour l'équilibreur de charge distribué : |
3.1.2 |
État de DLB inactif | Critique | gestionnaire | Le service d'équilibreur de charge distribué est inactif. |
Sur le nœud hôte ESXi, appelez la commande CLI NSX « get load-balancer <lb-uuid> status ». Si le message « LSP en conflit » est signalé, vérifiez si ce LSP est associé à un autre service d'équilibreur de charge. Vérifiez si ce conflit est acceptable. Si « LSP non prêt » est signalé, vérifiez l'état de ce LSP en appelant la commande CLI NSX get logical-switch-port status. |
3.1.2 |
État d'équilibrage de charge inactif | Critique | edge | Le service d'équilibreur de charge centralisé est inactif. |
Sur le nœud Edge actif, vérifiez l'état de l'équilibreur de charge en appelant la commande CLI NSX get load-balancer <lb-uuid> status. Si l'état de l'équilibreur de charge du service d'équilibreur de charge est « not_ready » ou s'il n'existe aucune sortie, faites entrer le nœud Edge en mode de maintenance, puis quittez le mode de maintenance. |
3.0.0 |
État du serveur virtuel inactif | Moyenne | edge | Le service virtuel d'équilibreur de charge est inactif. |
Consultez le pool d'équilibreurs de charge pour déterminer son état et vérifier sa configuration. S'il est configuré de manière incorrecte, reconfigurez-le et supprimez le pool d'équilibreurs de charge du serveur virtuel, puis rajoutez-le à nouveau au serveur virtuel. |
3.0.0 |
État du pool inactif | Moyenne | edge | Le pool d'équilibreurs de charge est inactif. |
Consultez le pool d'équilibreur de charge pour déterminer les membres inactifs en appelant la commande CLI NSX get load-balancer <lb-uuid> pool <pool-uuid> status ou la NSX API /policy/api/v1/infra/lb-services/<lb-service-id>/lb-pools/<lb-pool-id>/detailed-status Si DOWN ou UNKNOWN est signalé, vérifiez le membre du pool. Vérifiez la connectivité réseau entre l'équilibreur de charge et les membres du pool concernés. Validez la santé de l'application de chaque membre du pool. Validez également la santé de chaque membre du pool à l'aide du moniteur configuré. Lorsque la santé du membre est établie, l'état du membre du pool est mis à jour sur Sain en fonction de la configuration « Nombre de reconnexions » dans le moniteur. Corrigez le problème en redémarrant le membre du pool ou faites passer le nœud Edge en mode de maintenance, puis quittez le mode de maintenance. |
3.0.0 |
Capacité Edge d'équilibrage de charge en cours d'utilisation élevée | Moyenne | edge | L'utilisation de l'équilibreur de charge est élevée. |
Si plusieurs instances d'équilibrage de charge ont été configurées dans ce nœud Edge, déployez un nouveau nœud Edge et déplacez certaines instances d'équilibrage de charge vers ce nouveau nœud Edge. Si une seule instance d'équilibrage de charge (petite/moyenne/etc.) a été configurée dans un nœud Edge de même taille (petit/moyen/etc), déployez un nouveau dispositif Edge de plus grande taille et déplacez l'instance d'équilibrage de charge vers ce nouveau nœud Edge. |
3.1.2 |
Capacité de membre du pool d'équilibrage de charge en cours d'utilisation très élevée | Critique | edge | L'utilisation du membre du pool d'équilibreur de charge est très élevée. |
Déployez un nouveau nœud Edge et déplacez le service d'équilibreur de charge des nœuds Edge existants vers le nœud Edge qui vient d'être déployé. |
3.1.2 |
Configuration de l'équilibrage de charge non réalisée en raison d'un manque de mémoire | Moyenne | edge | La configuration de l'équilibreur de charge n'est pas réalisée en raison d'une utilisation élevée de la mémoire sur le nœud Edge. |
Préférez définir des équilibreurs de charge de petite et moyenne taille sur des équilibreurs de charge de grande taille. Répartissez les services d'équilibreur de charge entre les nœuds Edge disponibles. Réduisez le nombre de serveurs virtuels définis. |
3.2.0 |
Événements de santé de la protection contre les programmes malveillants événement
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
État du service inactif | Élevé | gestionnaire | L'état du service est inactif. |
1. Sur le nœud Edge identifié par {nsx_edge_tn_name}, appelez l'interface de ligne de commande NSX get services pour vérifier l'état de {mps_service_name}. Inspectez le fichier /var/log/syslog pour localiser toute erreur suspecte. |
4.0.1 |
Service d'extraction de fichiers inaccessible | Élevé | gestionnaire | L'état du service est dégradé. |
1. Sur le nœud Edge identifié par {nsx_edge_tn_name}, appelez la CLI NSX get ids engine status pour vérifier l'état du service file_extraction (IDS). Inspectez /var/log/syslog pour trouver une ou plusieurs erreurs suspectes avec le service d'extraction de fichiers (IDS) et/ou {mps_service_name}. |
4.0.1 |
Base de données inaccessible | Élevé | gestionnaire | L'état du service est dégradé. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base pour vérifier quel service est dégradé. Appelez la NSX API GET /napp/api/v1/platform/monitor/feature/health pour vérifier quel service spécifique est inactif et la raison. Appelez la commande d'interface de ligne de commande suivante pour redémarrer le service dégradé : kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> Déterminez l'état du service de base de données de protection contre les programmes malveillants. |
4.0.1 |
Service d'API d'analyse inaccessible | Élevé | gestionnaire | L'état du service est dégradé. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base pour vérifier quel service est dégradé. Appelez la NSX API GET /napp/api/v1/platform/monitor/feature/health pour vérifier quel service spécifique est inactif et la raison. Appelez la commande d'interface de ligne de commande suivante pour redémarrer le service dégradé : kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> Déterminez l'état du service Cloud Connector de protection contre les programmes malveillants. |
4.0.1 |
Service de réputation NTICS inaccessible | Élevé | gestionnaire | L'état du service est dégradé. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base pour vérifier quel service est dégradé. Appelez la NSX API GET /napp/api/v1/platform/monitor/feature/health pour vérifier quel service spécifique est inactif et la raison. Appelez la commande d'interface de ligne de commande suivante pour redémarrer le service dégradé : kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> Déterminez si l'accès au service NTICS est inactif. |
4.1.0 |
Événements de santé du gestionnaire
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Utilisation très élevée du CPU de Manager | Critique | gestionnaire global, gestionnaire | L'utilisation du CPU du nœud de gestionnaire est très élevée. |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud de gestionnaire. Pensez à ajuster la taille du facteur de forme du dispositif de gestionnaire. |
3.0.0 |
Utilisation élevée du CPU de Manager | Moyenne | gestionnaire global, gestionnaire | L'utilisation du CPU du nœud de gestionnaire est élevée. |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud de gestionnaire. Pensez à ajuster la taille du facteur de forme du dispositif de gestionnaire. |
3.0.0 |
Utilisation très élevée de la mémoire de Manager | Critique | gestionnaire global, gestionnaire | L'utilisation de la mémoire du nœud de gestionnaire est très élevée. |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud de gestionnaire. Pensez à ajuster la taille du facteur de forme du dispositif de gestionnaire. |
3.0.0 |
Utilisation élevée de la mémoire de Manager | Moyenne | gestionnaire global, gestionnaire | L'utilisation de la mémoire du nœud de gestionnaire est élevée. |
Vérifiez la configuration, les services en cours d'exécution et le dimensionnement de ce nœud de gestionnaire. Pensez à ajuster la taille du facteur de forme du dispositif de gestionnaire. |
3.0.0 |
Utilisation très élevée du disque de Manager | Critique | gestionnaire global, gestionnaire | L'utilisation du disque du nœud de gestionnaire est très élevée. |
Examinez la partition ayant une utilisation élevée et vérifiez si des fichiers volumineux inattendus peuvent être supprimés. |
3.0.0 |
Utilisation élevée du disque de Manager | Moyenne | gestionnaire global, gestionnaire | L'utilisation du disque du nœud de gestionnaire est élevée. |
Examinez la partition ayant une utilisation élevée et vérifiez si des fichiers volumineux inattendus peuvent être supprimés. |
3.0.0 |
Utilisation très élevée du disque de configuration de Manager | Critique | gestionnaire global, gestionnaire | L'utilisation du disque de configuration du nœud de gestionnaire est très élevée. |
Exécutez l'outil suivant et contactez GSS si des problèmes sont signalés : /opt/vmware/tools/support/inspect_checkpoint_issues.py |
3.0.0 |
Utilisation élevée du disque de configuration de Manager | Moyenne | gestionnaire global, gestionnaire | L'utilisation du disque de configuration du nœud de gestionnaire est élevée. |
Exécutez l'outil suivant et contactez GSS si des problèmes sont signalés : /opt/vmware/tools/support/inspect_checkpoint_issues.py |
3.0.0 |
Utilisation très élevée du disque de base de données d'opérations | Critique | gestionnaire | L'utilisation du disque de non-configuration du nœud de gestionnaire est très élevée. |
Exécutez l'outil suivant et contactez GSS si des problèmes sont signalés : /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig |
3.0.1 |
Utilisation élevée du disque de base de données d'opérations | Moyenne | gestionnaire | L'utilisation du disque de non-configuration du nœud de gestionnaire est élevée. |
Exécutez l'outil suivant et contactez GSS si des problèmes sont signalés : /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig |
3.0.1 |
Adresse IP dupliquée | Moyenne | gestionnaire | L'adresse IP du nœud de gestionnaire est utilisée par un autre périphérique. |
1. Déterminez le périphérique qui utilise l'adresse IP du gestionnaire et attribuez-lui une nouvelle adresse IP. Remarque : la reconfiguration du gestionnaire pour utiliser une nouvelle adresse IP n'est pas prise en charge. |
3.0.0 |
Erreur de stockage | Critique | gestionnaire global, gestionnaire | Le disque du nœud de gestionnaire est en lecture seule. |
Examinez la partition en lecture seule pour savoir si le redémarrage résout le problème ou si vous devez remplacer le disque. Contactez GSS pour obtenir plus d'informations. |
3.0.2 |
Entrée DNS manquante pour le nom de domaine complet du gestionnaire | Critique | gestionnaire global, gestionnaire | L'entrée DNS du nom de domaine complet du gestionnaire est manquante. |
1. Assurez-vous que les serveurs DNS appropriés sont configurés dans le nœud de gestionnaire. |
4.1.0 |
Entrée DNS manquante pour le nom de domaine complet de l'adresse IP virtuelle | Critique | gestionnaire | Entrée de nom de domaine complet manquante pour l'adresse IP virtuelle du gestionnaire. |
Examinez l'entrée DNS des adresses IP virtuelles pour voir si elles sont résolues sur le même nom de domaine complet. |
4.1.0 |
Événements de vérification MTU
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Incohérence de MTU dans la zone de transport | Élevé | gestionnaire | Incohérence de configuration de MTU entre les nœuds de transport attachés à la même zone de transport. |
1. Accédez à Système | Infrastructure | Paramètres | Vérification de la configuration MTU | Incohérent sur l'interface utilisateur NSX pour vérifier d'autres détails de non-correspondance. |
3.2.0 |
MTU du routeur global trop volumineux | Moyenne | gestionnaire | La configuration du MTU du routeur global est plus volumineuse que le MTU de la zone de transport de superposition. |
1. Accédez à Système | Infrastructure | Paramètres | Vérification de la configuration MTU | Incohérent sur l'interface utilisateur NSX pour vérifier d'autres détails de non-correspondance. |
3.2.0 |
Événements NAT
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
L'utilisation du port SNAT sur la passerelle est élevée | Critique | Edge, passerelle de cloud public | L'utilisation du port SNAT sur la passerelle est élevée. |
Connectez-vous en tant qu'utilisateur Admin sur le nœud Edge et appelez la commande CLI NSX get firewall <LR_INT_UUID> l'état de connexion en utilisant l'UUID d'interface de droite et vérifiez divers mappages SNAT pour l'adresse IP SNAT {snat_ip_address}. Vérifiez que les flux de trafic passant par la passerelle ne sont pas une attaque de déni de service ou une rafale anormale. Si le trafic semble être dans la charge normale, mais que le seuil d'alarme est atteint, envisagez d'ajouter d'autres adresses IP SNAT pour distribuer la charge ou acheminer le nouveau trafic vers un autre nœud Edge. |
3.2.0 |
Événements de santé de NCP
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Plug-in NCP inactif | Critique | gestionnaire | Le nœud de gestionnaire a détecté que NCP est inactif ou défectueux. |
Pour rechercher les clusters qui rencontrent des problèmes, utilisez l'interface utilisateur NSX et accédez à la page Alarmes. La valeur du nom de l'entité pour cette instance d'alarme identifie le nom du cluster. Vous pouvez également appeler la NSX API GET /api/v1/systemhealth/container-cluster/ncp/status pour extraire tous les états des clusters et déterminer le nom des clusters qui signalent INACTIF ou INCONNU. Ensuite, sur la page Inventaire | Conteneur | Clusters de l'interface utilisateur NSX, recherchez le cluster par nom et cliquez sur l'onglet Nœuds qui répertorie tous les membres du cluster Kubernetes et PAS. Pour le cluster Kubernetes : |
3.0.0 |
Événements de santé des agents de nœud
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Agents de nœud inactifs sur DPU | Élevé | DPU | Les agents exécutés à l'intérieur de la VM du nœud semblent être inactifs sur DPU. |
1. Si Vmk50 sur DPU {dpu_id} est manquant, reportez-vous à cet article de la base de connaissances https://kb.vmware.com/s/article/67432. |
4.0.0 |
Agents de nœud inactifs | Élevé | esx, kvm | Les agents exécutés à l'intérieur de la VM du nœud semblent être inactifs. |
Pour ESX : |
3.0.0 |
Événements de communication NSX Application Platform
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Manager déconnecté | Élevé | gestionnaire, Intelligence | Le cluster NSX Application Platform est déconnecté du cluster de gestion NSX. |
Vérifiez si le certificat du cluster de gestionnaire, les certificats de nœud de gestionnaire, le certificat Kafka et le certificat d'entrée correspondent à la fois sur NSX Manager et sur le cluster NSX Application Platform. Vérifiez les dates d'expiration des certificats mentionnés ci-dessus pour vous assurer qu'ils sont valides. Vérifiez la connexion réseau entre NSX Manager et NSX cluster Application Platform et résolvez les éventuels échecs de connexion réseau. |
3.2.0 |
Retard détecté dans le flux brut de messagerie | Critique | gestionnaire, Intelligence | Ralentissement du traitement des données détecté dans la rubrique de messagerie Flux brut. |
Ajoutez des nœuds, puis faites monter en puissance le cluster NSX Application Platform. Si le goulot d'étranglement peut être attribué à un service spécifique, par exemple le service d'analyse, alors faites monter en puissance le service spécifique lors de l'ajout de nouveaux nœuds. |
3.2.0 |
Retard détecté dans le dépassement de capacité de messagerie | Critique | gestionnaire, Intelligence | Ralentissement du traitement des données détecté dans la rubrique de messagerie de dépassement. |
Ajoutez des nœuds, puis faites monter en puissance le cluster NSX Application Platform. Si le goulot d'étranglement peut être attribué à un service spécifique, par exemple le service d'analyse, alors faites monter en puissance le service spécifique lors de l'ajout de nouveaux nœuds. |
3.2.0 |
Exportateur de flux TN déconnecté | Élevé | esx, kvm, bms | Un nœud de transport est déconnecté de son Broker de messagerie du cluster NSX Application Platform. Cela affecte la collecte de données. |
Redémarrez le service de messagerie s'il n'est pas en cours d'exécution dans le cluster NSX Application Platform. Résolvez l'échec de connexion réseau entre l'exportateur de flux du nœud de transport et le cluster NSX Application Platform. |
3.2.0 |
Extraction de flux TN déconnectée sur le DPU | Élevé | DPU | Un nœud de transport est déconnecté de son broker de messagerie de nœud Intelligence. La collecte de données est affectée sur DPU. |
Redémarrez le service de messagerie s'il n'est pas en cours d'exécution dans le nœud Intelligence. Résolvez l'échec de la connexion réseau entre l'exportateur de flux de nœud de transport et le nœud Intelligence. |
4.0.0 |
Événements de santé de NSX Application Platform
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Utilisation très élevée du CPU du cluster | Critique | gestionnaire, Intelligence | L'utilisation du CPU du cluster NSX Application Platform est très élevée. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base et vérifiez le champ Charge du système des services individuels pour voir quel service est sous pression. Vérifiez si la charge peut être réduite. Si plus de puissance de calcul est requise, cliquez sur le bouton Monter en charge pour demander plus de ressources. |
3.2.0 |
Utilisation élevée du CPU du cluster | Moyenne | gestionnaire, Intelligence | L'utilisation du CPU du cluster NSX Application Platform est élevée. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base et vérifiez le champ Charge du système des services individuels pour voir quel service est sous pression. Vérifiez si la charge peut être réduite. Si plus de puissance de calcul est requise, cliquez sur le bouton Monter en charge pour demander plus de ressources. |
3.2.0 |
Utilisation très élevée de la mémoire du cluster | Critique | gestionnaire, Intelligence | L'utilisation de la mémoire du cluster NSX Application Platform est très élevée. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base et vérifiez le champ Mémoire des services individuels pour voir quel service est sous pression. Vérifiez si la charge peut être réduite. Si davantage de mémoire est nécessaire, cliquez sur le bouton Monter en charge pour demander plus de ressources. |
3.2.0 |
Utilisation élevée de la mémoire du cluster | Moyenne | gestionnaire, Intelligence | L'utilisation de la mémoire du cluster NSX Application Platform est élevée. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base et vérifiez le champ Mémoire des services individuels pour voir quel service est sous pression. Vérifiez si la charge peut être réduite. Si davantage de mémoire est nécessaire, cliquez sur le bouton Monter en charge pour demander plus de ressources. |
3.2.0 |
Utilisation très élevée du disque du cluster | Critique | gestionnaire, Intelligence | L'utilisation du disque du cluster NSX Application Platform est très élevée. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base et vérifiez le champ Stockage des services individuels pour déterminer quel service est sous pression. Vérifiez si la charge peut être réduite. Si davantage de stockage sur disque est requis, cliquez sur le bouton Monter en charge pour demander plus de ressources. Si le service de stockage de données est sous contrainte, une autre manière consiste à cliquer sur le bouton Monter en puissance pour augmenter la taille du disque. |
3.2.0 |
Utilisation élevée du disque du cluster | Moyenne | gestionnaire, Intelligence | L'utilisation du disque du cluster NSX Application Platform est élevée. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base et vérifiez le champ Stockage des services individuels pour déterminer quel service est sous pression. Vérifiez si la charge peut être réduite. Si davantage de stockage sur disque est requis, cliquez sur le bouton Monter en charge pour demander plus de ressources. Si le service de stockage de données est sous contrainte, une autre manière consiste à cliquer sur le bouton Monter en puissance pour augmenter la taille du disque. |
3.2.0 |
État de NAPP dégradé | Moyenne | gestionnaire, Intelligence | L'état global du cluster NSX Application Platform est dégradé. |
Obtenez plus d'informations des alarmes de nœuds et de services. |
3.2.0 |
État d'NAPP inactif | Élevé | gestionnaire, Intelligence | L'état global du cluster NSX Application Platform est inactif. |
Obtenez plus d'informations des alarmes de nœuds et de services. |
3.2.0 |
Utilisation très élevée du CPU du nœud | Critique | gestionnaire, Intelligence | L'utilisation du CPU du nœud NSX Application Platform est très élevée. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base et vérifiez le champ Charge du système des services individuels pour voir quel service est sous pression. Vérifiez si la charge peut être réduite. Si seule une petite minorité des nœuds a une utilisation élevée du CPU, Kubernetes replanifie les services automatiquement par défaut. Si la plupart des nœuds ont une utilisation élevée du CPU et que la charge ne peut pas être réduite, cliquez sur le bouton Monter en charge pour demander plus de ressources. |
3.2.0 |
Utilisation élevée du CPU du nœud | Moyenne | gestionnaire, Intelligence | L'utilisation du CPU du nœud NSX Application Platform est élevée. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base et vérifiez le champ Charge du système des services individuels pour voir quel service est sous pression. Vérifiez si la charge peut être réduite. Si seule une petite minorité des nœuds a une utilisation élevée du CPU, Kubernetes replanifie les services automatiquement par défaut. Si la plupart des nœuds ont une utilisation élevée du CPU et que la charge ne peut pas être réduite, cliquez sur le bouton Monter en charge pour demander plus de ressources. |
3.2.0 |
Utilisation très élevée de la mémoire du nœud | Critique | gestionnaire, Intelligence | L'utilisation de la mémoire du nœud NSX Application Platform est très élevée. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base et vérifiez le champ Mémoire des services individuels pour voir quel service est sous pression. Vérifiez si la charge peut être réduite. Si seule une petite minorité des nœuds a une utilisation élevée de la mémoire, Kubernetes replanifie les services automatiquement par défaut. Si la plupart des nœuds ont une utilisation élevée de la mémoire et que la charge ne peut pas être réduite, cliquez sur le bouton Monter en charge pour demander plus de ressources. |
3.2.0 |
Utilisation élevée de la mémoire du nœud | Moyenne | gestionnaire, Intelligence | L'utilisation de la mémoire du nœud NSX Application Platform est élevée. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base et vérifiez le champ Mémoire des services individuels pour voir quel service est sous pression. Vérifiez si la charge peut être réduite. Si seule une petite minorité des nœuds a une utilisation élevée de la mémoire, Kubernetes replanifie les services automatiquement par défaut. Si la plupart des nœuds ont une utilisation élevée de la mémoire et que la charge ne peut pas être réduite, cliquez sur le bouton Monter en charge pour demander plus de ressources. |
3.2.0 |
Utilisation très élevée du disque du nœud | Critique | gestionnaire, Intelligence | L'utilisation du disque du nœud NSX Application Platform est très élevée. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base et vérifiez le champ Stockage des services individuels pour déterminer quel service est sous pression. Nettoyez les données ou les journaux inutilisés pour libérer des ressources de disque et voir si la charge peut être réduite. Si davantage de stockage sur disque est requis, augmentez la charge du service sous pression. Si le service de stockage de données est sous contrainte, une autre manière consiste à cliquer sur le bouton Monter en puissance pour augmenter la taille du disque. |
3.2.0 |
Utilisation élevée du disque du nœud | Moyenne | gestionnaire, Intelligence | L'utilisation du disque du nœud NSX Application Platform est élevée. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base et vérifiez le champ Stockage des services individuels pour déterminer quel service est sous pression. Nettoyez les données ou les journaux inutilisés pour libérer des ressources de disque et voir si la charge peut être réduite. Si davantage de stockage sur disque est requis, augmentez la charge du service sous pression. Si le service de stockage de données est sous contrainte, une autre manière consiste à cliquer sur le bouton Monter en puissance pour augmenter la taille du disque. |
3.2.0 |
État du nœud dégradé | Moyenne | gestionnaire, Intelligence | L'état du nœud NSX Application Platform est dégradé. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Ressources pour vérifier quel nœud est dégradé. Vérifiez l'utilisation du réseau, de la mémoire et du CPU du nœud. Redémarrez le nœud s'il s'agit d'un nœud worker. |
3.2.0 |
État du nœud inactif | Élevé | gestionnaire, Intelligence | L'état du nœud NSX Application Platform est inactif. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Ressources pour vérifier quel nœud est inactif. Vérifiez l'utilisation du réseau, de la mémoire et du CPU du nœud. Redémarrez le nœud s'il s'agit d'un nœud worker. |
3.2.0 |
Utilisation très élevée du CPU de la banque de données | Critique | gestionnaire, Intelligence | L'utilisation du CPU du service de stockage de données est très élevée. |
Montez en charge tous les services ou le service de stockage de données. |
3.2.0 |
Utilisation élevée du CPU de la banque de données | Moyenne | gestionnaire, Intelligence | L'utilisation du CPU du service de stockage de données est élevée. |
Montez en charge tous les services ou le service de stockage de données. |
3.2.0 |
Utilisation très élevée du CPU de la messagerie | Critique | gestionnaire, Intelligence | L'utilisation du CPU du service de messagerie est très élevée. |
Montez en charge tous les services ou le service de messagerie. |
3.2.0 |
Utilisation élevée du CPU de la messagerie | Moyenne | gestionnaire, Intelligence | L'utilisation du CPU du service de messagerie est élevée. |
Montez en charge tous les services ou le service de messagerie. |
3.2.0 |
Utilisation très élevée du CPU de la BD de configuration | Critique | gestionnaire, Intelligence | L'utilisation du CPU du service de base de données de configuration est très élevée. |
Montez en charge tous les services. |
3.2.0 |
Utilisation élevée du CPU de la BD de configuration | Moyenne | gestionnaire, Intelligence | L'utilisation du CPU du service de base de données de configuration est élevée. |
Montez en charge tous les services. |
3.2.0 |
Utilisation très élevée du CPU des mesures | Critique | gestionnaire, Intelligence | L'utilisation du CPU du service de mesures est très élevée. |
Montez en charge tous les services. |
3.2.0 |
Utilisation élevée du CPU des mesures | Moyenne | gestionnaire, Intelligence | L'utilisation du CPU du service de mesures est élevée. |
Montez en charge tous les services. |
3.2.0 |
Utilisation très élevée du CPU d'analyse | Critique | gestionnaire, Intelligence | L'utilisation du CPU du service d'analyse est très élevée. |
Montez en charge tous les services ou le service d'analyse. |
3.2.0 |
Utilisation élevée du CPU d'analyse | Moyenne | gestionnaire, Intelligence | L'utilisation du CPU du service d'analyse est élevée. |
Montez en charge tous les services ou le service d'analyse. |
3.2.0 |
Utilisation très élevée du CPU de la plate-forme | Critique | gestionnaire, Intelligence | L'utilisation du CPU du service des services de plate-forme est très élevée. |
Montez en charge tous les services. |
3.2.0 |
Utilisation élevée du CPU de la plate-forme | Moyenne | gestionnaire, Intelligence | L'utilisation du CPU du service des services de plate-forme est élevée. |
Montez en charge tous les services. |
3.2.0 |
Utilisation très élevée de la mémoire de la banque de données | Critique | gestionnaire, Intelligence | L'utilisation de la mémoire du service de stockage de données est très élevée. |
Montez en charge tous les services ou le service de stockage de données. |
3.2.0 |
Utilisation élevée de la mémoire de la banque de données | Moyenne | gestionnaire, Intelligence | L'utilisation de la mémoire du service de stockage de données est élevée. |
Montez en charge tous les services ou le service de stockage de données. |
3.2.0 |
Utilisation très élevée de la mémoire de la messagerie | Critique | gestionnaire, Intelligence | L'utilisation de la mémoire du service de messagerie est très élevée. |
Montez en charge tous les services ou le service de messagerie. |
3.2.0 |
Utilisation élevée de la mémoire de la messagerie | Moyenne | gestionnaire, Intelligence | L'utilisation de la mémoire du service de messagerie est élevée. |
Montez en charge tous les services ou le service de messagerie. |
3.2.0 |
Utilisation très élevée de la mémoire de la BD de configuration | Critique | gestionnaire, Intelligence | L'utilisation de la mémoire du service de base de données de configuration est très élevée. |
Montez en charge tous les services. |
3.2.0 |
Configuration élevée de la mémoire de la BD de configuration | Moyenne | gestionnaire, Intelligence | L'utilisation de la mémoire du service de base de données de configuration est élevée. |
Montez en charge tous les services. |
3.2.0 |
Utilisation très élevée de la mémoire des mesures | Critique | gestionnaire, Intelligence | L'utilisation de la mémoire du service de mesures est très élevée. |
Montez en charge tous les services. |
3.2.0 |
Utilisation élevée de la mémoire des mesures | Moyenne | gestionnaire, Intelligence | L'utilisation de la mémoire du service de mesures est élevée. |
Montez en charge tous les services. |
3.2.0 |
Utilisation très élevée de la mémoire d'analyse | Critique | gestionnaire, Intelligence | L'utilisation de la mémoire du service d'analyse est très élevée. |
Montez en charge tous les services ou le service d'analyse. |
3.2.0 |
Utilisation élevée de la mémoire d'analyse | Moyenne | gestionnaire, Intelligence | L'utilisation de la mémoire du service d'analyse est élevée. |
Montez en charge tous les services ou le service d'analyse. |
3.2.0 |
Utilisation très élevée de la mémoire de la plate-forme | Critique | gestionnaire, Intelligence | L'utilisation de la mémoire du service des services de plate-forme est très élevée. |
Montez en charge tous les services. |
3.2.0 |
Utilisation élevée de la mémoire de la plate-forme | Moyenne | gestionnaire, Intelligence | L'utilisation de la mémoire du service des services de plate-forme est élevée. |
Montez en charge tous les services. |
3.2.0 |
Utilisation très élevée du disque de la banque de données | Critique | gestionnaire, Intelligence | L'utilisation du disque du service de stockage de données est très élevée. |
Montez en charge ou en puissance le service de stockage de données. |
3.2.0 |
Utilisation élevée du disque de la banque de données | Moyenne | gestionnaire, Intelligence | L'utilisation du disque du service de stockage de données est élevée. |
Montez en charge ou en puissance le service de stockage de données. |
3.2.0 |
Utilisation très élevée du disque de la messagerie | Critique | gestionnaire, Intelligence | L'utilisation du disque du service de messagerie est très élevée. |
Le nettoyage des fichiers n'est pas requis. Montez en charge tous les services ou le service de messagerie. |
3.2.0 |
Utilisation élevée du disque de la messagerie | Moyenne | gestionnaire, Intelligence | L'utilisation du disque du service de messagerie est élevée. |
Le nettoyage des fichiers n'est pas requis. Montez en charge tous les services ou le service de messagerie. |
3.2.0 |
Utilisation très élevée du disque de la BD de configuration | Critique | gestionnaire, Intelligence | L'utilisation du disque du service de base de données de configuration est très élevée. |
Le nettoyage des fichiers n'est pas requis. Montez en charge tous les services. |
3.2.0 |
Utilisation élevée du disque de la BD de configuration | Moyenne | gestionnaire, Intelligence | L'utilisation du disque du service de base de données de configuration est élevée. |
Le nettoyage des fichiers n'est pas requis. Montez en charge tous les services. |
3.2.0 |
Utilisation très élevée du disque des mesures | Critique | gestionnaire, Intelligence | L'utilisation du disque du service de mesures est très élevée. |
Le nettoyage des fichiers n'est pas requis. Montez en charge tous les services. |
3.2.0 |
Utilisation élevée du disque des mesures | Moyenne | gestionnaire, Intelligence | L'utilisation du disque du service de mesures est élevée. |
Le nettoyage des fichiers n'est pas requis. Montez en charge tous les services. |
3.2.0 |
Utilisation très élevée du disque d'analyse | Critique | gestionnaire, Intelligence | L'utilisation du disque du service d'analyse est très élevée. |
Le nettoyage des fichiers n'est pas requis. Montez en charge tous les services ou le service d'analyse. |
3.2.0 |
Utilisation élevée du disque d'analyse | Moyenne | gestionnaire, Intelligence | L'utilisation du disque du service d'analyse est élevée. |
Le nettoyage des fichiers n'est pas requis. Montez en charge tous les services ou le service d'analyse. |
3.2.0 |
Utilisation très élevée du disque de la plate-forme | Critique | gestionnaire, Intelligence | L'utilisation du disque du service des services de plate-forme est très élevée. |
Le nettoyage des fichiers n'est pas requis. Montez en charge tous les services. |
3.2.0 |
Utilisation élevée du disque de la plate-forme | Moyenne | gestionnaire, Intelligence | L'utilisation du disque du service des services de plate-forme est élevée. |
Le nettoyage des fichiers n'est pas requis. Montez en charge tous les services. |
3.2.0 |
État du service dégradé | Moyenne | gestionnaire, Intelligence | L'état du service est dégradé. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base pour vérifier quel service est dégradé. Appelez la NSX API GET /napp/api/v1/platform/monitor/feature/health pour vérifier quel service spécifique est dégradé et la raison. Appelez la commande d'interface de ligne de commande suivante pour redémarrer le service dégradé si nécessaire : kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace>. Les services dégradés peuvent fonctionner correctement, mais les performances ne sont pas optimales. |
3.2.0 |
État du service inactif | Élevé | gestionnaire, Intelligence | L'état du service est inactif. |
Dans l'interface utilisateur NSX, accédez à Système | NSX Application Platform | Services de base pour vérifier quel service est dégradé. Appelez la NSX API GET /napp/api/v1/platform/monitor/feature/health pour vérifier quel service spécifique est inactif et la raison. Appelez la commande d'interface de ligne de commande suivante pour redémarrer le service dégradé : kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> |
3.2.0 |
Événements de santé de Nsxaas
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Service dégradé | Élevé | aas | Service dégradé. |
Vérifiez les données incluses dans la description de l'alarme en identifiant le service, l'emplacement de déploiement du service et les données supplémentaires capturées par le service de surveillance de la santé. Vérifiez également les données historiques enregistrées par le service Mesures ou Wavefront, le cas échéant. |
4.1.0 |
Service inactif | Critique | aas | Service inactif. |
Vérifiez les données incluses dans la description de l'alarme en identifiant le service, l'emplacement de déploiement du service et les données supplémentaires capturées par le service de surveillance de la santé. Vérifiez également les données historiques enregistrées par le service Mesures ou Wavefront, le cas échéant. |
4.1.0 |
Événements de gestion des mots de passe
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Mot de passe expiré | Critique | gestionnaire global, gestionnaire, dispositif Edge, passerelle de cloud public | Le mot de passe utilisateur a expiré. |
Le mot de passe de l'utilisateur {username} doit maintenant être modifié pour accéder au système. Par exemple, pour appliquer un nouveau mot de passe à un utilisateur, appelez la NSX API suivante avec un mot de passe valide dans le corps de la demande : PUT /api/v1/node/users/<userid> où <userid> est l'ID de l'utilisateur. Si le mot de passe de l'utilisateur Admin (avec <userid> 10 000) a expiré, l'admin doit se connecter au système via SSH (si activé) ou à la console pour modifier le mot de passe. En entrant le mot de passe actuel expiré, l'admin est invité à entrer un nouveau mot de passe. |
3.0.0 |
Le mot de passe est sur le point d'expirer | Élevé | gestionnaire global, gestionnaire, dispositif Edge, passerelle de cloud public | Le mot de passe utilisateur est sur le point d'expirer. |
Assurez-vous que le mot de passe de l'utilisateur {username} est modifié immédiatement. Par exemple, pour appliquer un nouveau mot de passe à un utilisateur, appelez la NSX API suivante avec un mot de passe valide dans le corps de la demande : PUT /api/v1/node/users/<userid> où <userid> est l'ID de l'utilisateur. |
3.0.0 |
Expiration du mot de passe approchant | Moyenne | gestionnaire global, gestionnaire, dispositif Edge, passerelle de cloud public | Le mot de passe de l'utilisateur arrive à expiration. |
Le mot de passe de l'utilisateur {username} doit bientôt être modifié. Par exemple, pour appliquer un nouveau mot de passe à un utilisateur, appelez la NSX API suivante avec un mot de passe valide dans le corps de la demande : PUT /api/v1/node/users/<userid> où <userid> est l'ID de l'utilisateur. |
3.0.0 |
Événements de serveur physique
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Échec de l'installation du serveur physique | Critique | gestionnaire | Échec de l'installation du serveur physique (BMS). |
Accédez à Système > Infrastructure > Nœuds > Nœuds de transport hôtes et résolvez l'erreur sur le nœud. |
4.0.0 |
Échec de la mise à niveau du serveur physique | Critique | gestionnaire | Échec de la mise à niveau du serveur physique (BMS). |
Accédez à Système > Mettre à niveau et résolvez l'erreur, puis redémarrez la mise à niveau. |
4.0.0 |
Échec de la désinstallation du serveur physique | Critique | gestionnaire | Échec de la désinstallation du serveur physique (BMS). |
Accédez à Système > Infrastructure > Nœuds > Nœuds de transport hôtes et résolvez l'erreur sur le nœud. |
4.0.0 |
Événements de contrainte de stratégie
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Limite du nombre de créations atteinte | Moyenne | gestionnaire | Le nombre d'entités a atteint la limite de contrainte de la stratégie. |
Vérifiez l'utilisation de {constraint_type}. Mettez à jour la contrainte pour augmenter la limite ou supprimer les {constraint_type} inutilisés. |
4.1.0 |
Événements de routage
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
BFD inactif sur l'interface externe | Élevé | Dispositif edge, edge autonome, passerelle de cloud public | La session BFD est inactive. |
1. Appelez la commande de l'interface de ligne de commande NSX get logical-routers. |
3.0.0 |
Routage statique supprimé | Élevé | Dispositif edge, edge autonome, passerelle de cloud public | Itinéraire statique supprimé. |
L'entrée de routage statique a été supprimée, car la session BFD était inactive. |
3.0.0 |
BGP inactif | Élevé | Dispositif edge, edge autonome, passerelle de cloud public | Le voisin BGP est inactif. |
1. Appelez la commande de l'interface de ligne de commande NSX get logical-routers. |
3.0.0 |
ARP de proxy non configuré pour l'adresse IP du service | Critique | gestionnaire | L'ARP du proxy n'est pas configuré pour l'adresse IP du service. |
Reconfigurez l'adresse IP de service {service_ip} pour l'entité de service {entity_id} ou modifiez le sous-réseau de lrport {lrport_id} sur le routeur {lr_id} afin que les entrées ARP du proxy générées en raison du chevauchement entre l'adresse IP de service et le sous-réseau du port lrport soient inférieures à la limite de seuil autorisée de 16 384. |
3.0.3 |
Routage inactif | Élevé | Dispositif edge, edge autonome, passerelle de cloud public | Toutes les sessions BGP/BFD sont inactives. |
Appelez la commande CLI NSX get les routeurs logiques pour obtenir le routeur de service de niveau 0 et passer à ce VRF, puis appelez les commandes CLI NSX suivantes. |
3.0.0 |
Le voisin OSPF est devenu inactif | Élevé | Dispositif edge, edge autonome, passerelle de cloud public | Le voisin OSPF est passé de Complet à un autre état. |
1. Appelez la commande CLI NSX get logical-routers pour obtenir l'ID de VRF et basculer vers le routeur de service de niveau 0. |
3.1.1 |
Limite de route IPv4 maximale imminente | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | La limite maximale de routes IPv4 approche sur le nœud Edge. |
1. Vérifiez les stratégies de redistribution des routes et les routes reçues de tous les homologues externes. |
4.0.0 |
Limite de route IPv6 maximale imminente | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | La limite maximale de routes IPv6 approche sur le nœud Edge. |
1. Vérifiez les stratégies de redistribution des routes et les routes reçues de tous les homologues externes. |
4.0.0 |
Limite de route IPv4 maximale dépassée | Critique | Dispositif edge, edge autonome, passerelle de cloud public | La limite maximale de routes IPv4 a été dépassée sur le nœud Edge. |
1. Vérifiez les stratégies de redistribution des routes et les routes reçues de tous les homologues externes. |
4.0.0 |
Limite de route IPv6 maximale dépassée | Critique | Dispositif edge, edge autonome, passerelle de cloud public | La limite maximale de routes IPv6 a été dépassée sur le nœud Edge. |
1. Vérifiez les stratégies de redistribution des routes et les routes reçues de tous les homologues externes. |
4.0.0 |
Nombre maximal de préfixes IPv4 du voisin BGP imminent | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | Le nombre maximal de préfixes IPv4 reçus du voisin BGP approche. |
1. Vérifiez les stratégies de routage BGP dans le routeur externe. |
4.0.0 |
Nombre maximal de préfixes IPv6 du voisin BGP imminent | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | Le nombre maximal de préfixes IPv6 reçus du voisin BGP approche. |
1. Vérifiez les stratégies de routage BGP dans le routeur externe. |
4.0.0 |
Nombre maximal de préfixes IPv4 du voisin BGP dépassé | Critique | Dispositif edge, edge autonome, passerelle de cloud public | Le nombre maximal de préfixes IPv4 reçus du voisin BGP a été dépassé. |
1. Vérifiez les stratégies de routage BGP dans le routeur externe. |
4.0.0 |
Nombre maximal de préfixes IPv6 du voisin BGP dépassé | Critique | Dispositif edge, edge autonome, passerelle de cloud public | Le nombre maximal de préfixes IPv6 reçus du voisin BGP a été dépassé. |
1. Vérifiez les stratégies de routage BGP dans le routeur externe. |
4.0.0 |
Événements de conformité liés à la sécurité
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Déclencher la non-conformité NDcPP | Critique | gestionnaire | L'état de la sécurité NSX n'est pas conforme à NDcPP. |
Exécutez le rapport de conformité depuis le menu Accueil - Surveillance et tableau de bord - Rapport de conformité de l'interface utilisateur et résolvez tous les problèmes marqués du nom de conformité NDcPP. |
4.1.0 |
Déclencher la non-conformité EAL4 | Critique | gestionnaire | L'état de la sécurité NSX n'est pas conforme à EAL4+. |
Exécutez le rapport de conformité depuis le menu Accueil - Surveillance et tableau de bord - Rapport de conformité de l'interface utilisateur et résolvez tous les problèmes marqués du nom de conformité EAL4+. |
4.1.0 |
Interroger la non-conformité NDcPP | Critique | gestionnaire | La configuration de la sécurité NSX n'est pas conforme à NDcPP. |
Exécutez le rapport de conformité depuis le menu Accueil - Surveillance et tableau de bord - Rapport de conformité de l'interface utilisateur et résolvez tous les problèmes marqués du nom de conformité NDcPP. |
4.1.0 |
Interroger la non-conformité EAL4 | Critique | gestionnaire | La configuration de la sécurité NSX n'est pas conforme à EAL4+. |
Exécutez le rapport de conformité depuis le menu Accueil - Surveillance et tableau de bord - Rapport de conformité de l'interface utilisateur et résolvez tous les problèmes marqués du nom de conformité EAL4+. |
4.1.0 |
Événements d'insertion de services
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Réussite du déploiement des services | Infos | gestionnaire | Le déploiement du service a réussi. |
Aucune action n'est nécessaire. |
4.0.0 |
Échec du déploiement du service | Critique | gestionnaire | Échec du déploiement du service. |
Supprimez le déploiement de service à l'aide de l'interface utilisateur ou de l'API. Effectuez une action corrective à partir de l'article de la base de connaissances et recommencez le déploiement du service. |
4.0.0 |
Annulation du déploiement du service effectuée correctement | Infos | gestionnaire | Suppression du déploiement du service réussie. |
Aucune action n'est nécessaire. |
4.0.0 |
Échec de l'annulation du déploiement du service | Critique | gestionnaire | Échec de la suppression du déploiement de service. |
Supprimez le déploiement de service à l'aide de l'interface utilisateur ou de l'API. Effectuez une action corrective à partir de l'article de la base de connaissances et recommencez le déploiement de la suppression du service. Résolvez l'alarme manuellement après avoir vérifié que toutes les machines virtuelles et tous les objets sont supprimés. |
4.0.0 |
État de santé de SVM actif | Infos | gestionnaire | SVM fonctionne dans le service. |
Aucune action n'est nécessaire. |
4.0.0 |
État de santé de SVM inactif | Élevé | gestionnaire | SVM ne fonctionne pas dans le service. |
Supprimez le déploiement de service à l'aide de l'interface utilisateur ou de l'API. Effectuez une action corrective à partir de l'article de la base de connaissances et recommencez le déploiement du service si nécessaire. |
4.0.0 |
État infra inactif de l'insertion de services | Critique | ESX | L'état de l'infrastructure d'insertion de services est inactif et non activé sur l'hôte. |
Effectuez une action corrective à partir de l'article de la base de connaissances et vérifiez si l'état est actif. Résolvez l'alarme manuellement après avoir vérifié l'état. |
4.0.0 |
État de réactivité de SVM inactif | Critique | gestionnaire | État de réactivité de SVM inactif. |
Effectuez une action corrective à partir de l'article de la base de connaissances et vérifiez si l'état est actif. |
4.0.0 |
Chemin d'accès à la chaîne de services inactif | Critique | gestionnaire | Chemin d'accès à la chaîne de services inactif. |
Effectuez une action corrective à partir de l'article de la base de connaissances et vérifiez si l'état est actif. |
4.0.0 |
Nouvel hôte ajouté | Infos | ESX | Nouvel hôte ajouté dans le cluster. |
Vérifiez l'état de déploiement de la machine virtuelle et attendez qu'elle se mette sous tension. |
4.0.0 |
Événements de santé de TEP
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
TEP défectueux | Moyenne | ESX | TEP est défectueux. |
1. Vérifiez si le TEP dispose d'une adresse IP valide ou d'autres problèmes de connectivité de sous-couche. |
4.1.0 |
HA de TEP activée | Infos | ESX | La haute disponibilité de TEP est activée. |
Activez la récupération automatique ou appelez la récupération manuelle pour le TEP : {vtep_name} sur le VDS : {dvs_name} dans le nœud de transport :{transport_node_id}. |
4.1.0 |
Réussite de la récupération automatique du TEP | Infos | ESX | La récupération automatique a réussi. |
aucune. |
4.1.0 |
Échec de la récupération automatique du TEP | Moyenne | ESX | Échec de la récupération automatique. |
Vérifiez si le TEP dispose d'une adresse IP valide ou d'autres problèmes de connectivité de sous-couche. |
4.1.0 |
TEP défectueux sur le DPU | Moyenne | DPU | TEP est défectueux sur le DPU. |
1. Vérifiez si le TEP dispose d'une adresse IP valide ou d'autres problèmes de connectivité de sous-couche. |
4.1.0 |
Haute disponibilité de TEP activée sur le DPU | Infos | DPU | La haute disponibilité de TEP est activée sur le DPU. |
Activez la récupération automatique ou appelez la récupération manuelle pour le TEP : {vtep_name} sur le VDS : {dvs_name} dans le nœud de transport : {transport_node_id} sur DPU {dpu_id}. |
4.1.0 |
Réussite de la récupération automatique du TEP sur le DPU | Infos | DPU | La récupération automatique a réussi sur le DPU. |
aucune. |
4.1.0 |
Échec de la récupération automatique du TEP sur le DPU | Moyenne | DPU | Échec de la récupération automatique sur le DPU. |
Vérifiez si le TEP dispose d'une adresse IP valide ou d'autres problèmes de connectivité de sous-couche. |
4.1.0 |
Événements de santé du nœud de transport
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Liaison montante du nœud de transport inactive sur DPU | Moyenne | DPU | La liaison montante sur DPU est inactive. |
Vérifiez l'état des liaisons montantes sur DPU {dpu_id} dans les cartes réseau physiques. Recherchez le nom mappé de cette carte réseau physique sur l'hôte, puis effectuez la vérification sur l'interface utilisateur. |
4.0.0 |
Membre LAG inactif sur DPU | Moyenne | DPU | LACP sur le membre de rapport DPU inactif. |
Vérifiez l'état de la connexion des membres LAG sur DPU {dpu_id}. Recherchez le nom mappé de la carte réseau physique associée sur l'hôte, puis effectuez la vérification sur l'interface utilisateur. |
4.0.0 |
Liaison montante NVDS inactive | Moyenne | esx, kvm, bms | La liaison montante est inactive. |
Vérifiez l'état des liaisons montantes sur les hôtes dans les cartes réseau physiques. |
3.0.0 |
Liaison montante de nœud de transport inactive | Moyenne | esx, kvm, bms | La liaison montante est inactive. |
Vérifiez l''état des liaisons montantes sur les hôtes dans les cartes réseau physiques. |
3.2.0 |
Membre LAG inactif | Moyenne | esx, kvm, bms | Le membre de rapports LACP est inactif. |
Vérifiez l'état de la connexion des membres LAG sur les hôtes. |
3.0.0 |
Événements d'application Vmc
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Échec de la connexion de transit | Moyenne | gestionnaire | Transit Connect ne parvient pas à être entièrement réalisé. |
Si cette alarme n'est pas résolue automatiquement dans les 10 minutes, réessayez la ou les demandes liées à la connexion de transit les plus récentes. Par exemple, si une demande d'API d'attachement TGW a déclenché cette alarme, réessayez la demande d'API d'attachement TGW. Si l'alarme ne se résout pas même après une nouvelle tentative, procédez comme suit : |
4.1.0 |
Événements VPN
Nom de l'événement | Gravité | Type de nœud | Message d'alerte | Action recommandée | Version introduite |
---|---|---|---|---|---|
Service IPsec inactif | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | Le service IPsec est inactif. |
1. Désactivez et activez le service IPsec à partir de l'interface utilisateur NSX Manager. |
3.2.0 |
Session inactive basée sur une stratégie IPsec | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | La session VPN IPsec basée sur une stratégie est inactive. |
Vérifiez la configuration de la session VPN IPsec et résolvez les erreurs en fonction du motif de l'inactivité de la session. |
3.0.0 |
Session inactive basée sur une route IPsec | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | La session VPN IPsec basée sur une route est inactive. |
Vérifiez la configuration de la session VPN IPsec et résolvez les erreurs en fonction du motif de l'inactivité de la session. |
3.0.0 |
Tunnel inactif basé sur une stratégie IPsec | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | Les tunnels VPN IPsec basés sur une stratégie sont inactifs. |
Vérifiez la configuration de la session VPN IPsec et résolvez les erreurs en fonction du motif de l'inactivité du tunnel. |
3.0.0 |
Tunnel inactif basé sur une route IPsec | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | Le tunnel VPN IPsec basé sur une route est inactif. |
Vérifiez la configuration de la session VPN IPsec et résolvez les erreurs en fonction du motif de l'inactivité du tunnel. |
3.0.0 |
Session L2VPN inactive | Moyenne | Dispositif edge, edge autonome, passerelle de cloud public | La session L2VPN est inactive. |
Vérifiez l'état de la session L2VPN pour trouver le motif de l'inactivité de la session et résolvez les erreurs en fonction du motif. |
3.0.0 |