En las siguientes tablas se describen los eventos que activan las alarmas, incluidos los mensajes de alarma y las acciones recomendadas para resolverlas. Cualquier evento con una gravedad superior a Bajo activará una alarma.
Eventos de administración de alarmas
Los eventos de administración de alarmas se producen desde los nodos de Global Manager y NSX Manager.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Servicio de alarma sobrecargado | Crítico | El servicio de alarma está sobrecargado. Cuando se detecta el evento: "Debido a los informes sobre el elevado volumen de alarmas, el servicio de alarmas está temporalmente sobrecargado. La interfaz de usuario de NSX y la API de NSX GET /api/v1/alarm han dejado de generar informes sobre nuevas alarmas. Sin embargo, las entradas del syslog y las capturas de SNMP (si están habilitadas) todavía siguen generando informes que incluyen los detalles de los eventos subyacentes. En el momento en el que se solucionen los problemas subyacentes que provocan el elevado volumen de alarmas, el servicio de alarmas volverá a generar informes sobre nuevas alarmas." Cuando se resuelve el evento: "El elevado volumen de alarmas ha disminuido y se están volviendo a generar informes de alarmas nuevas." |
Revise todas las alarmas activas mediante la página Alarmas de la interfaz de usuario de NSX o la siguiente NSX API: GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED. Para cada alarma activa, investigue la causa principal y aplique los pasos recomendados para la alarma. Cuando se solucionen el número suficiente de alarmas, el servicio de alarmas volverá a generar informes de alarmas nuevas. |
Volumen elevado de alarmas | Crítico | Se detectó un volumen elevado de un tipo de alarma específico. Cuando se detecta el evento: "Debido al elevado volumen de alarmas {id_evento}, el servicio de alarmas ha dejado de generar temporalmente informes sobre alarmas de este tipo. La interfaz de usuario de NSX y la API de NSX GET /api/v1/alarms no están generando informes sobre nuevas instancias de estas alarmas. Sin embargo, las entradas del syslog y las capturas de SNMP (si están habilitadas) todavía siguen generando informes que incluyen los detalles de los eventos subyacentes. En el momento en el que se solucionen los problemas subyacentes que provocan el elevado volumen de alarmas {id_evento}, el servicio de alarmas volverá a generar informes sobre nuevas alarmas {id_evento}." Cuando se resuelve el evento: "El elevado volumen de alarmas de {id_evento} ha disminuido y se están volviendo a generar informes de alarmas nuevas de este tipo." |
Revise todas las alarmas activas mediante la página Alarmas de la interfaz de usuario de NSX o la siguiente NSX API: GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED. Para cada alarma activa, investigue la causa principal y aplique los pasos recomendados para la alarma. Cuando se solucionen el número suficiente de alarmas, el servicio de alarmas volverá a generar informes de alarmas nuevas de {id_evento}. |
Eventos de capacidad
Los siguientes eventos pueden activar alarmas cuando el inventario actual de ciertas categorías de objetos llega a un determinado nivel. Para obtener más información, consulte Ver el uso y la capacidad de las categorías de objetos.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Capacidad máxima | Crítico | Se alcanzó la capacidad máxima de una categoría de objetos. Los detalles de la alarma indicarán la categoría específica de objetos. |
Realice ajustes en las configuraciones relevantes para evitar posibles consecuencias negativas. |
Umbral de capacidad máxima | Alto | Se alcanzó el umbral de capacidad máximo de una categoría de objetos. Los detalles de la alarma indicarán la categoría específica de objetos. |
Si se esperaba esta alarma, efectúe los ajustes necesarios para resolverla. Si no se esperaba esta alarma, ajuste el valor del umbral para la categoría de objeto. |
Umbral de capacidad mínima | Mediano | Se alcanzó el umbral de capacidad mínimo de una categoría de objetos. Los detalles de la alarma indicarán la categoría específica de objetos. |
Si se esperaba esta alarma, efectúe los ajustes necesarios para resolverla si fuera necesario. Si no se esperaba esta alarma, ajuste el valor del umbral para la categoría de objeto. |
Eventos de certificado
Los eventos de certificado se generan en el nodo de NSX Manager.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Certificado caducado | Crítico | Un certificado caducó. Cuando se detecta el evento: "El certificado {id-entidad} caducó." Cuando se resuelve el evento: "El certificado caducado {id_entidad} se eliminó o ya no está caducado. |
Asegúrese de que los servicios que están utilizando el certificado se actualicen para usar un nuevo certificado que no esté caducado. Por ejemplo, para aplicar un nuevo certificado al servicio HTTP, invoque la siguiente NSX API:
donde <cert-id> es el identificador de un certificado válido especificado por la llamada API Después de que el certificado caducado ya no esté en uso, deberá eliminarse con la siguiente llamada API:
|
Certificado a punto de caducar | Alto | Un certificado está a punto de caducar. Cuando se detecta el evento: "El certificado {id-entidad} está a punto de caducar". Cuando se resuelve el evento: "El certificado que iba a caducar {id-entidad} se eliminó o ya no está a punto de caducar". |
Asegúrese de que los servicios que están utilizando el certificado se actualicen para usar un nuevo certificado que no esté a punto de caducar. Por ejemplo, para aplicar un nuevo certificado al servicio HTTP, invoque la siguiente NSX API:
donde <cert-id> es el identificador de un certificado válido especificado por la llamada API Después de que el certificado que va a caducar ya no esté en uso, deberá eliminarse con la siguiente llamada API:
|
Método de caducidad de certificados | Mediano | Un certificado caducará pronto. Cuando se detecta el evento: "El certificado {id-entidad} caducará pronto." Cuando se resuelve el evento: "El certificado que iba a caducar {id-entidad} se eliminó o su fecha de caducidad ya no está próxima." |
Asegúrese de que los servicios que están utilizando el certificado se actualicen para usar un nuevo certificado que no esté a punto de caducar. Por ejemplo, para aplicar un nuevo certificado al servicio HTTP, invoque la siguiente NSX API:
donde <cert-id> es el identificador de un certificado válido especificado por la llamada API Después de que el certificado que va a caducar ya no esté en uso, deberá eliminarse con la siguiente llamada API:
|
Eventos de estado de CNI
Los eventos de estado de CNI surgen de los nodos de KVM y ESXi.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Conexión de HyperBus con Manager inactiva | Mediano | HyperBus no se puede comunicar con el nodo de Manager. Cuando se detecta el evento: "HyperBus no se puede comunicar con el nodo de Manager." Cuando se resuelve el evento: "HyperBus se puede comunicar con el nodo de Manager." |
Es posible que falte la interfaz de VMkernel de HyperBus (vmk50). Consulte el artículo 67432 de la base de conocimientos. |
Eventos de DHCP
Los eventos de DHCP se generan en los nodos de puerta de enlace pública y NSX Edge.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Error en la asignación de concesión de grupo | Alto | Se agotaron las direcciones IP en un grupo de direcciones IP. Cuando se detecta el evento: "Se utilizan las direcciones del grupo de direcciones IP {id_entidad} del servidor DHCP {id_servidor_dhcp}. Error en la última solicitud de DHCP y de las solicitudes futuras." Cuando se resuelve el evento: "El grupo de direcciones IP {id_entidad} del servidor DHCP {id_servidor_dhcp} ya no está agotado. Una concesión se asignó correctamente a la última solicitud de DHCP. |
Revise la configuración del grupo de DHCP en la interfaz de usuario de NSX o en el nodo de Edge en el que se ejecuta el servidor DHCP invocando el comando de la CLI de NSX get dhcp ip-pool. También puede revisar las concesiones activas actuales en el nodo de Edge invocando el comando de la CLI de NSX get dhcp lease. Compare las concesiones con el número de máquinas virtuales activas. Es recomendable reducir el tiempo de concesión en la configuración del servidor DHCP si el número de máquinas virtuales es bajo en comparación con el número de concesiones activas. También puede expandir el rango de grupos del servidor DHCP en la página en la interfaz de usuario de NSX. |
Grupo sobrecargado | Mediano | Un grupo de direcciones IP está sobrecargado. Cuando se detecta el evento: "El uso del grupo de direcciones IP {id_entidad} del servidor DHCP {id_servidor_dhcp} está a punto de agotarse, con un {uso_grupo_dhcp} % de direcciones IP asignadas." Cuando se resuelve el evento: "El uso del grupo de direcciones IP {id_entidad} del servidor DHCP {id_servidor_dhcp} descendió por debajo del umbral de uso elevado." |
Revise la configuración del grupo de DHCP en la interfaz de usuario de NSX o en el nodo de Edge en el que se ejecuta el servidor DHCP invocando el comando de la CLI de NSX get dhcp ip-pool. También puede revisar las concesiones activas actuales en el nodo de Edge invocando el comando de la CLI de NSX get dhcp lease. Compare las concesiones con el número de máquinas virtuales activas. Es recomendable reducir el tiempo de concesión en la configuración del servidor DHCP si el número de máquinas virtuales es bajo en comparación con el número de concesiones activas. También puede expandir el rango de grupos del servidor DHCP en la página en la interfaz de usuario de NSX. |
Eventos de firewall distribuido
Los eventos de firewall distribuido generan en los nodos ESXi o NSX Manager.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Uso muy alto de la CPU del firewall distribuido | Crítico | El uso de la CPU del firewall distribuido es muy alto. Cuando se detecta el evento: "El uso de CPU del DFW en el nodo de transporte {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El reenviador de DNS {id_entidad} se está ejecutando de nuevo." |
Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts. Revise el diseño de seguridad para optimizarlo. Por ejemplo, utilice la configuración de apply-to si las reglas no se aplican a todo el centro de datos. |
Uso muy alto de la memoria del firewall distribuido | Crítico | El uso de la memoria del firewall distribuido es muy alto. Cuando se detecta el evento: "El uso de memoria del DFW {tipo_pila} en el nodo de transporte {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de memoria del DFW {tipo_pila} en el nodo de transporte {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %." |
Para ver el uso actual de la memoria de DFW, invoque el comando de la CLI de NSX get firewall thresholds en el host. Es recomendable volver a equilibrar las cargas de trabajo en este host con otros hosts. |
Eventos de DNS
Los eventos de DNS se generan en los nodos de puerta de enlace pública y NSX Edge.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Reenviador inactivo | Alto | Un reenviador de DNS está inactivo. Cuando se detecta el evento: "El reenviador de DNS {id_entidad} no se está ejecutando. Esto afecta al reenviador DNS identificado que está habilitado actualmente." Cuando se resuelve el evento: "El reenviador de DNS {id_entidad} se está ejecutando de nuevo." |
|
Reenviador deshabilitado | Bajo | Un reenviador de DNS está deshabilitado. Cuando se detecta el evento: "El reenviador de DNS {id_entidad} está deshabilitado." Cuando se resuelve el evento: "El reenviador de DNS {id_entidad} está habilitado." |
|
Eventos de estado de Edge
Los eventos de estado de Edge se generan en los nodos de puerta de enlace pública y NSX Edge.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Uso de CPU de Edge muy alto | Crítico | El uso de la CPU del nodo de Edge es muy alto. Cuando se detecta el evento: "El uso de CPU en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de CPU en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %." |
Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Edge. Es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o reequilibrar los servicios a otros nodos de Edge según la carga de trabajo correspondiente. |
Uso de CPU de Edge alto | Mediano | El uso de la CPU del nodo de Edge es alto. Cuando se detecta el evento: "El uso de CPU en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de CPU en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %." |
Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Edge. Es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o reequilibrar los servicios a otros nodos de Edge según la carga de trabajo correspondiente. |
Error de configuración de la ruta de datos de Edge | Alto | No se pudo configurar la ruta de datos de los nodos de Edge. Cuando se detecta el evento: "No se pudo habilitar la ruta de datos en el nodo de Edge después de tres intentos." Cuando se resuelve el evento: "La ruta de datos en el nodo de Edge se habilitó correctamente." |
Asegúrese de que la conectividad del nodo de Edge con el nodo de Manager sea correcta. Desde la CLI de NSX del nodo de Edge, invoque el comando get services para comprobar el estado de los servicios. Si se detiene el servicio de plano de datos, invoque al comando start service dataplane para iniciarlo. |
Uso muy alto de la CPU en la ruta de datos de Edge | Crítico | El uso de la CPU de la ruta de datos del nodo de Edge es muy alto. Cuando se detecta el evento: "El uso de CPU de la ruta de datos en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_ruta_datos} %, que es igual o superior al umbral muy alto durante al menos dos minutos." Cuando se resuelve el evento: "El uso de la CPU de la ruta de datos del nodo de Edge {id_entidad} se redujo por debajo del umbral máximo." |
Revise las estadísticas de CPU en el nodo de Edge invocando el comando de la CLI de NSX get dataplane cpu stats para mostrar las tasas de paquetes por núcleo de CPU. Se espera un uso de CPU más alto con tasas de paquetes mayores. Es recomendable aumentar el tamaño del factor de forma del dispositivo Edge y reequilibrar los servicios en este nodo de Edge a otros nodos de Edge en el mismo clúster u otros clústeres de Edge. |
Uso alto de la CPU en la ruta de datos de Edge | Mediano | El uso de la CPU de la ruta de datos del nodo de Edge es alto. Cuando se detecta el evento: "El uso de CPU de la ruta de datos en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_ruta_datos} %, que es igual o superior al umbral alto durante al menos dos minutos." Cuando se resuelve el evento: "El uso de la CPU del nodo de Edge {id_entidad} bajó del valor del umbral alto." |
Revise las estadísticas de CPU en el nodo de Edge invocando el comando de la CLI de NSX get dataplane cpu stats para mostrar las tasas de paquetes por núcleo de CPU. Se espera un uso de CPU más alto con tasas de paquetes mayores. Es recomendable aumentar el tamaño del factor de forma del dispositivo Edge y reequilibrar los servicios en este nodo de Edge a otros nodos de Edge en el mismo clúster u otros clústeres de Edge. |
Controlador criptográfico de la ruta de datos de Edge inactivo | Crítico | El controlador criptográfico de la ruta de datos del nodo de Edge está inactivo. Cuando se detecta el evento: "El controlador criptográfico del nodo de Edge está inactivo." Cuando se resuelve el evento: "El controlador criptográfico del nodo de Edge está activo." |
Actualice el nodo de Edge según sea necesario. |
El uso del grupo de memoria de la ruta de datos de Edge es alto | Mediano | El uso del grupo de memoria de la ruta de datos del nodo de Edge es alto Cuando se detecta el evento: "El uso del grupo de memoria de la ruta de datos para {nombre_grupo_memoria} en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso del grupo de memoria de la ruta de datos para {nombre_grupo_memoria} en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %." |
Inicie sesión como usuario raíz, invoque los comandos edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show y edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap para comprobar el uso de memoria de DPDK. |
Uso de disco de Edge muy alto | Crítico | El uso del disco del nodo de Edge es muy alto. Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Edge alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de disco en la partición de disco {id_entidad} del nodo de Edge alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %." |
Examine la partición con un uso elevado y compruebe si hay archivos inesperadamente grandes que se puedan eliminar. |
Uso de disco de Edge alto | Mediano | El uso del disco del nodo de Edge es alto. Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Edge alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso del disco en la partición de disco {id_entidad} del nodo de Edge alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %." |
Examine la partición con un uso elevado y compruebe si hay archivos inesperadamente grandes que se puedan eliminar. |
Uso alto de tabla ARP global de Edge | Mediano | El uso de la tabla ARP global del nodo de Edge es alto. Cuando se detecta el evento: "El uso de la tabla ARP global en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_ruta_datos} %, que supera el umbral alto durante más de dos minutos." Cuando se resuelve el evento: "El uso de la tabla ARP en el nodo de Edge {id_entidad} bajó del valor del umbral alto." |
Aumente el tamaño de la tabla ARP:
|
Uso de memoria de Edge muy alto | Crítico | El uso de la memoria del nodo de Edge es muy alto. Cuando se detecta el evento: "Se alcanzó el uso de la memoria en el nodo de Edge {id_entidad} {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de memoria en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que inferior al valor del umbral muy alto del {umbral_uso_sistema} %." |
Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Edge. Es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o reequilibrar los servicios a otros nodos de Edge según la carga de trabajo correspondiente. |
Uso de memoria de Edge alto | Mediano | El uso de la memoria del nodo de Edge es alto. Cuando se detecta el evento: "El uso de memoria en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de memoria en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que inferior al valor del umbral alto del {umbral_uso_sistema} %." |
Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Edge. Es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o reequilibrar los servicios a otros nodos de Edge según la carga de trabajo correspondiente. |
Estado de vínculo de NIC de Edge inactivo | Crítico | El vínculo de NIC del nodo de Edge está inactivo. Cuando se detecta el evento: "El vínculo de NIC del nodo de Edge {nombre_nic_edge} está inactivo." Cuando se detecta el evento: "El vínculo de NIC del nodo de Edge {nombre_nic_edge} está activo." |
En el nodo de Edge, confirme si el vínculo de NIC está físicamente inactivo invocando el comando de la CLI de NSX get interfaces. Si está inactivo, compruebe la conexión del cable. |
NIC de Edge fuera del búfer de recepción | Crítico | No queda espacio libre en el búfer del anillo del descriptor de NIC del nodo de Edge. Cuando se detecta el evento: "La NIC de Edge {nombre_nic_edge} del búfer del anillo de recepción se desbordó un {porcentaje_desbordamiento_anillo} % en un nodo de Edge {id_entidad} durante más de 60 segundos." Cuando se resuelve el evento: "El uso del búfer del anillo de recepción de la NIC de Edge {nombre_nic_edge} en el nodo de Edge {id_entidad} ya no se está desbordando." |
Invoque el comando de la CLI de NSX
get dataplane y verifique lo siguiente:
|
NIC de Edge fuera del búfer de transmisión | Crítico | El búfer del anillo del descriptor de transmisión de NIC del nodo de Edge no deja espacio. Cuando se detecta el evento: "La NIC del nodo de Edge {nombre_nic_edge} del búfer del anillo de transmisión se desbordó un {porcentaje_desbordamiento_búfer_anillo} % en un nodo de Edge {id_entidad} durante más de 60 segundos." Cuando se resuelve el evento: "El uso del búfer del anillo de transmisión de la NIC del nodo de Edge {nombre_nic_edge} en el nodo de Edge {id_entidad} ya no se está desbordando." |
Invoque el comando de la CLI de NSX
get dataplane y verifique lo siguiente:
|
Error de almacenamiento | Crítico | A partir de la versión 3.0.1 de NSX-T Data Center Las siguientes particiones de disco en el nodo de Edge están en modo de solo lectura: {disk_partition_name} . |
Examine la partición de solo lectura para ver si el reinicio resuelve el problema o si se debe reemplazar el disco. Consulte el artículo de la base de conocimientos https://kb.vmware.com/s/article/2146870. |
Eventos de protección de endpoints
Los eventos de protección de endpoints se generan en los nodos ESXi o NSX Manager.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Estado de EAM inactivo | Crítico | El servicio ESX Agent Manager (EAM) en el administrador de equipos está inactivo. Cuando se detecta el evento: "El servicio ESX Agent Manager (EAM) en el administrador de equipos {id_entidad} está inactivo." Cuando se resuelve el evento: "El servicio ESX Agent Manager (EAM) del administrador de equipos {id_entidad} está activo, o el administrador de equipos {id_entidad} se eliminó." |
Reinicie el servicio ESX Agent Manager (EAM):
|
Canal de partners inactivo | Crítico | La conexión de la SVM de partners y el módulo de host está inactiva. Cuando se detecta el evento: "La conexión entre el módulo de host y la SVM de partners {id_entidad} está inactiva." Cuando se resuelve el evento: "La conexión entre el módulo de host y la SVM de partners {id_entidad} está activa." |
Consulte el artículo 2148821 de la base de conocimientos Solucionar problemas de NSX Guest Introspection y asegúrese de que la SVM de partners identificada por {id_entidad} se vuelva a conectar al módulo de host. |
Eventos de firewalls de puerta de enlace
Los eventos de firewall de puerta de enlace se generan en nodos de NSX Edge.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Número de flujos ICMP superado |
Crítico | A partir de NSX-T Data Center 3.1.3. La tabla de flujos del firewall de puerta de enlace para el tráfico ICMP superó el umbral establecido. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico ICMP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_icmp_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo." Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %." |
|
Número de flujos ICMP alto | Mediano | A partir de NSX-T Data Center 3.1.3. El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico ICMP es alto. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para ICMP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_icmp_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo." Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace para ICMP en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %." |
|
Número de flujos de IP excedido | Crítico | A partir de NSX-T Data Center 3.1.3. La tabla de flujos del firewall de puerta de enlace para el tráfico IP superó el umbral establecido. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico IP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_ip_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo." Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %." |
|
Número de flujos de IP alto | Mediano | A partir de NSX-T Data Center 3.1.3. El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico IP es alto. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para IP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_ip_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo." Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace para los flujos que no son IP en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %." |
|
Se superó el número de flujos de TCP | Crítico | A partir de NSX-T Data Center 3.1.3. La tabla de flujos del firewall de puerta de enlace para el tráfico medio abierto de TCP superó el umbral establecido. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico medio abierto TCP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_medio_abierto_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo." Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %." |
|
Número alto de flujos de TCP | Mediano | A partir de NSX-T Data Center 3.1.3. El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico medio abierto de TCP es alto. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para TCP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_medio_abierto_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo." Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace para el flujo medio abierto de TCP en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %." |
|
Se superó el número de flujos de UDP | Crítico | A partir de NSX-T Data Center 3.1.3. La tabla de flujos del firewall de puerta de enlace para el tráfico UDP superó el umbral establecido. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico UDP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_udp_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo." Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace en el enrutador lógico {id_entidad} bajó del umbral alto." |
|
Número alto de flujos de UDP | Mediano | A partir de NSX-T Data Center 3.1.3. El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico UDP es alto. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para UDP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_udp_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo." Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace para UDP en el enrutador lógico {id_entidad} bajó del umbral alto." |
|
Eventos de alta disponibilidad
Los eventos de alta disponibilidad se generan en los nodos de puerta de enlace de nube pública y NSX Edge.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Conmutación por error de puerta de enlace de nivel 0 | Alto | Una puerta de enlace de nivel 0 conmutó por error. Cuando se detecta el evento: "La puerta de enlace de nivel 0 {id_entidad} tiene una conmutación por error de {estado_puerta_enlace_anterior} a {estado_puerta_enlace_anterior}." Cuando se resuelve el evento: "La puerta de enlace de nivel 0 {id_entidad} ahora está activa." |
Determine el servicio que está inactivo y reinícielo.
|
Conmutación por error de puerta de enlace de nivel 1 | Alto | Una puerta de enlace de nivel 1 conmutó por error. Cuando se detecta el evento: "La puerta de enlace de nivel 1 {id_entidad} tiene una conmutación por error de {estado_puerta_enlace_anterior} a {estado_puerta_enlace_anterior}." Cuando se resuelve el evento: "La puerta de enlace de nivel 1 {id_entidad} ahora está activa." |
Determine el servicio que está inactivo y reinícielo.
|
Eventos de comunicación de infraestructura
Los eventos de comunicación de infraestructura se generan en desde los nodos de puerta de enlace pública, KVM, ESXi y NSX Edge.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Túneles de Edge inactivos | Crítico | El estado del túnel de un nodo de Edge es inactivo. Cuando se detecta el evento: "El estado de túnel general del nodo de Edge {id_entidad} está inactivo." Cuando se resuelve el evento: "Se restauraron los túneles del nodo de Edge {id_entidad}." |
|
Eventos del servicio de infraestructura
Los eventos de estado de infraestructura se generan en los nodos de puerta de enlace pública y NSX Edge.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Estado de servicio de Edge inactivo | Crítico | El servicio de Edge está inactivo durante al menos un minuto. Cuando se detecta el evento: "El servicio {nombre_servicio_edge} está inactivo durante al menos un minuto." Cuando se resuelve el evento: "El servicio {nombre_servicio_edge} está activo". |
En el nodo de Edge, compruebe que el servicio no haya finalizado debido a un error buscando archivos de volcado de núcleo en el directorio /var/log/core. Para confirmar si el servicio se ha detenido, invoque el comando de la CLI de NSX get services. Si es así, ejecute |
Estado del servicio de Edge cambiado | Bajo | El estado del servicio de Edge cambió. Cuando se detecta el evento: "El servicio {nombre_servicio_edge} cambió de {estado_servicio_anterior} a {estado_servicio_actual}." Cuando se resuelve el evento: "El servicio {nombre_servicio_edge} cambió de {estado_servicio_anterior} a {estado_servicio_actual}." |
En el nodo de Edge, compruebe que el servicio no haya finalizado debido a un error buscando archivos de volcado de núcleo en el directorio /var/log/core. Para confirmar si el servicio se ha detenido, invoque el comando de la CLI de NSX get services. Si es así, ejecute |
Eventos de comunicación de Intelligence
Los eventos de comunicación de NSX Intelligence se generan en el nodo de NSX Manager, el nodo de ESXi y el dispositivo de NSX Intelligence.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Exportador de flujo de nodo de transporte desconectado | Alto | Un nodo de transporte está desconectado del agente de mensajería de su nodo de Intelligence. La recopilación de datos se ve afectada. Cuando se detecta el evento: "El exportador de flujos en el nodo de transporte {id_entidad} está desconectado del agente de mensajería del nodo de Intelligence. La recopilación de datos se ve afectada." Cuando se resuelve el evento: "El exportador de flujo en el nodo de transporte {id_entidad} se volvió a conectar al agente de mensajería del nodo de Intelligence." |
|
Canal de control a nodo de transporte inactivo | Mediano | Canal de control a nodo de transporte inactivo. Cuando se detecta un evento: el servicio de controlador central_control_plane_id al nodo de transporte {id-entidad} inactivo durante un mínimo de tres minutos desde el punto de vista de servicios de controladores. Cuando se resuelve el evento: el servicio de controlador central_control_plane_id restaura la conexión con el nodo de transporte {entity-id}. |
|
Canal de control a nodo de transporte inactivo mucho tiempo |
Crítico | El canal de control al nodo de transporte lleva inactivo demasiado tiempo. Cuando se detecta un evento: el servicio de controlador central_control_plane_id al nodo de transporte {id-entidad} inactivo durante un mínimo de 15 minutos desde el punto de vista de servicios de controladores. Cuando se resuelve el evento: el servicio de controlador central_control_plane_id restaura la conexión con el nodo de transporte {entity-id}. |
|
Eventos de estado de Intelligence
Los eventos de estado de NSX Intelligence se generan en el nodo de NSX Manager y el dispositivo de NSX Intelligence.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Uso de CPU muy alto | Crítico | El uso de la CPU del nodo de Intelligence es muy alto. Cuando se detecta el evento: "El uso de CPU en el nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral muy alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de CPU en el nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral muy alto del {umbral_uso_sistema} %." |
Utilice el comando top para comprobar qué procesos utilizan más memoria y, a continuación, revise /var/log/syslog y los registros locales de estos procesos para comprobar si hay errores pendientes que resolver. |
Uso de CPU alto | Mediano | El uso de la CPU del nodo de Intelligence es alto. Cuando se detecta el evento: "El uso de CPU en el nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de CPU en el nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto del {umbral_uso_sistema} %." |
Utilice el comando top para comprobar qué procesos utilizan más memoria y, a continuación, revise /var/log/syslog y los registros locales de estos procesos para comprobar si hay errores pendientes que resolver. |
Uso de memoria muy alto | Crítico | El uso de la memoria del nodo de Intelligence es muy alto. Cuando se detecta el evento: "El uso de memoria en el nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral muy alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de memoria en el nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral muy alto del {umbral_uso_sistema} %." |
Utilice el comando top para comprobar qué procesos utilizan más memoria y, a continuación, revise /var/log/syslog y los registros locales de estos procesos para comprobar si hay errores pendientes que resolver. |
Uso de memoria alto | Mediano | El uso de la memoria del nodo de Intelligence es alto. Cuando se detecta el evento: "El uso de memoria en el nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de memoria en el nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto del {umbral_uso_sistema} %." |
Utilice el comando top para comprobar qué procesos utilizan más memoria y, a continuación, revise /var/log/syslog y los registros locales de estos procesos para comprobar si hay errores pendientes que resolver. |
Uso de disco muy alto | Crítico | El uso del disco del nodo de Intelligence es muy alto. Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral muy alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral muy alto del {umbral_uso_sistema} %." |
Examine la partición de disco {nombre_partición_disco} y compruebe si hay archivos inesperadamente grandes que se puedan eliminar. |
Uso de disco alto | Mediano | El uso del disco del nodo de Intelligence es alto. Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto del {umbral_uso_sistema} %." |
Examine la partición de disco {nombre_partición_disco} y compruebe si hay archivos inesperadamente grandes que se puedan eliminar. |
Uso de partición de disco de datos muy alto | Crítico | El uso de la partición del disco de datos del nodo de Intelligence es muy alto. Cuando se detecta el evento: "El uso del disco en la partición de disco /data del nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral muy alto del {umbral_uso_sistema} %. Cuando se resuelve el evento: "El uso del disco en la partición de disco /data del nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral muy alto del {umbral_uso_sistema} %." |
Detenga la recopilación de datos de NSX Intelligence hasta que el uso del disco esté por debajo del umbral. En la interfaz de usuario de NSX, vaya a Sistema Dispositivos Dispositivo de NSX Intelligence. A continuación, seleccione . |
Uso de partición de disco de datos alto | Mediano | El uso de la partición del disco de datos del nodo de Intelligence es alto. Cuando se detecta el evento: "El uso del disco en la partición de disco /data del nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral alto del {umbral_uso_sistema} %. Cuando se resuelve el evento: "El uso del disco en la partición de disco /data del nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto del {umbral_uso_sistema} %." |
Detenga la recopilación de datos de NSX Intelligence hasta que el uso del disco esté por debajo del umbral. Examine la partición /data y compruebe si hay archivos inesperadamente grandes que se puedan eliminar. |
Estado de nodo degradado | Alto | El estado del nodo de Intelligence se degradó. Cuando se detecta el evento: "El servicio {nombre_servicio} en el nodo de NSX Intelligence {id_nodo_intelligence} no se está ejecutando." Cuando se resuelve el evento: "El servicio {nombre_servicio} en el nodo de NSX Intelligence {id_nodo_intelligence} se está ejecutando." |
Examine el estado del servicio y la información de estado invocando el comando de la CLI de NSX get services en el nodo de NSX Intelligence. Reinicie los servicios detenidos de forma inesperada en el nodo de Intelligence con el comando de la CLI de NSX restart service <service-name>. |
Eventos de administración de direcciones IP
Los eventos de administración de direcciones IP (IPAM) surgen de los nodos de NSX Manager.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Uso de bloque de IP muy alto | Mediano | A partir de NSX-T Data Center 3.1.2. El uso de la subred IP de un bloque de direcciones IP alcanzó el 90 %. Cuando se detecta el evento: "El uso del bloque de direcciones IP <ruta_intención> es muy alto. El bloque de direcciones IP se acerca a su capacidad total. Es posible que produzca un error al crear una subred usando el bloque de direcciones IP". Cuando se soluciona un evento: Ningún mensaje. |
Nota: Elimine una subred o un grupo de direcciones IP solo si no tiene direcciones IP asignadas y no se utilizará en el futuro.
|
Uso de grupo de IP muy alto | Mediano | A partir de NSX-T Data Center 3.1.2. El uso de la asignación de direcciones IP de un grupo de direcciones IP alcanzó el 90 %. Cuando se detecta el evento: "El uso del grupo de direcciones IP <ruta_intención> es muy alto. El grupo de direcciones IP se acerca a su capacidad total. Se podría producir un error al crear una entidad o servicio que depende de la asignación de la dirección IP desde el grupo de direcciones IP." Cuando se soluciona un evento: Ningún mensaje. |
Revise el uso del grupo de direcciones IP. Libere asignaciones de direcciones IP no utilizadas del grupo de direcciones IP o cree un nuevo grupo de direcciones IP.
Puede liberar las direcciones IP que no se utilizan. Para liberar asignaciones de IP no utilizadas, invoque la siguiente NSX API.
|
Eventos de licencia
Los eventos de licencia se generan en el nodo de NSX Manager.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Licencia caducada | Crítico | Una licencia caducó. Cuando se detecta el evento: "La licencia de tipo {tipo_edición_licencia} caducó." Cuando se resuelve el evento: "La licencia caducada del tipo {tipo_edición_licencia} se eliminó, se actualizó o ya no está caducada." |
Agregue una licencia nueva no caducada:
|
La licencia está a punto de caducar | Mediano | Cuando se detecta el evento: "La licencia de tipo {tipo_edición_licencia} está a punto de caducar." Cuando se resuelve el evento: "La licencia que iba a caducar identificada por {tipo_edición_licencia} se eliminó, se actualizó o su fecha de caducidad ya no está próxima." |
Agregue una licencia nueva no caducada:
|
Eventos de equilibrador de carga
Los eventos del equilibrador de carga surgen de nodos de NSX Edge o de NSX Manager.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
CPU de LB muy alta | Mediano | El uso de la CPU del equilibrador de carga es muy alto. Cuando se detecta el evento: "El uso de CPU del equilibrador de carga {id_entidad} es muy alto. El umbral es {umbral_uso_sistema}%". Cuando se resuelve el evento: "El uso de CPU del equilibrador de carga {id_entidad} es lo bastante bajo. El umbral es {umbral_uso_sistema}%". |
Si el uso de CPU del equilibrador de carga es superior al {umbral_uso_sistema} %, la carga de trabajo será demasiado alta para este equilibrador de carga. Cambie la escala del servicio del equilibrador de carga cambiando el tamaño del equilibrador de carga de pequeño a mediano o de mediano a grande. Si el uso de la CPU de este equilibrador de carga sigue siendo alto, es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o mover los servicios del equilibrador de carga a otros nodos de Edge según la carga de trabajo correspondiente. |
Estado de LB inactivo |
Crítico | Cuando se detecta el evento: "El servicio del equilibrador de carga centralizado {id_entidad} está inactivo." Cuando se resuelve el evento: "El servicio del equilibrador de carga centralizado {id_entidad} está activo". |
|
Estado de servidor virtual inactivo | Mediano | El servicio virtual del equilibrador de carga está inactivo. Cuando se detecta el evento: "El servidor virtual del equilibrador de carga {id_entidad} está inactivo." Cuando se resuelve el evento: "El servidor virtual del equilibrador de carga {id_entidad} está activo". |
Consulte el grupo de equilibradores de carga para determinar su estado y comprobar su configuración. Si está configurado de forma incorrecta, vuelva a configurarlo, quite el grupo de equilibradores de carga del servidor virtual y vuelva a agregarlo al servidor virtual. |
Estado de grupo inactivo | Mediano | Cuando se detecta el evento: "El estado del grupo de equilibradores de carga {id_entidad} es inactivo." Cuando se resuelve el evento: "El estado del grupo de equilibradores de carga {id_entidad} es activo". |
Cuando se establece el buen estado del miembro, el estado del miembro del grupo se actualizará a correcto según la configuración de Recuento de subida. |
Estado de LB degradado |
Mediano | A partir de NSX-T Data Center 3.1.2. Cuando se detecta el evento: "El servicio del equilibrador de carga {id_entidad} está degradado." Cuando se resuelve el evento: "El servicio del equilibrador de carga {id_entidad} no está degradado". |
|
Estado de DLB inactivo |
Crítico | A partir de NSX-T Data Center 3.1.2. Cuando se detecta el evento: "El servicio del equilibrador de carga distribuido {id_entidad} está inactivo." Cuando se resuelve el evento: "El servicio del equilibrador de carga distribuido {id_entidad} está activo". |
|
Capacidad de Edge de LB en uso alto |
Crítico | A partir de NSX-T Data Center 3.1.2. Cuando se detecta el evento: "El uso del servicio del equilibrador de carga en el nodo de Edge {id_entidad} es alto. El umbral es {umbral_uso_sistema}%". Cuando se resuelve el evento: "El uso del servicio del equilibrador de carga en el nodo de Edge {id_entidad} es lo bastante bajo. El umbral es {umbral_uso_sistema}%". |
Implemente un nuevo nodo de Edge y mueva el servicio de equilibrador de carga de los nodos de Edge existentes al nodo de Edge recién implementado. |
Capacidad de miembro de grupo de LB en uso muy alto |
Crítico | A partir de NSX-T Data Center 3.1.2. Cuando se detecta el evento: "El uso de los miembros del grupo en el nodo de Edge {id_entidad} es muy alto. El umbral es {umbral_uso_sistema}%". Cuando se resuelve el evento: "El uso de los miembros del grupo en el nodo de Edge {id_entidad} es lo bastante bajo. El umbral es {umbral_uso_sistema}%". |
Implemente un nuevo nodo de Edge y mueva el servicio de equilibrador de carga de los nodos de Edge existentes al nodo de Edge recién implementado. |
Eventos de estado de Manager
Los eventos de estado de NSX Manager se generan en el clúster de nodos de NSX Manager.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Dirección IP duplicada | Mediano | Otro dispositivo está usando la dirección IP del nodo de Manager. Cuando se detecta el evento: "La dirección IP {dirección_ip_duplicada} del nodo de Manager {id_entidad} se está utilizando actualmente en otro dispositivo de la red." Cuando se resuelve el evento: "El nodo de Manager {id_entidad} parece que ya no utiliza {dirección_ip_duplicada}". |
|
Uso de la CPU de Manager muy alto | Crítico | El uso de la CPU del nodo de Manager es muy alto. Cuando se detecta el evento: "El uso de CPU en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de CPU en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %." |
Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Manager. Es recomendable ajustar el tamaño del factor de forma del dispositivo de Manager. |
Uso de la CPU de Manager alto | Mediano | A partir de la versión 3.0.1 de NSX-T Data Center El uso de la CPU del nodo de Manager es alto. Cuando se detecta el evento: "El uso de CPU en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de CPU en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %." |
Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Manager. Es recomendable ajustar el tamaño del factor de forma del dispositivo de Manager. |
Uso de la memoria de Manager muy alto | Crítico | A partir de la versión 3.0.1 de NSX-T Data Center El uso de la memoria del nodo de Manager es muy alto. Cuando se detecta el evento: "El uso de memoria en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de memoria en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %." |
Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Manager. Es recomendable ajustar el tamaño del factor de forma del dispositivo de Manager. |
Uso de la memoria de Manager alto | Mediano | El uso de la memoria del nodo de Manager es alto. Cuando se detecta el evento: "El uso de memoria en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de memoria en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %." |
Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Manager. Es recomendable ajustar el tamaño del factor de forma del dispositivo de Manager. |
Uso del disco de Manager muy alto | Crítico | El uso del disco del nodo de Manager es muy alto. Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de disco en la partición de disco {nombre_partición_disco} del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %." |
Examine la partición con un uso elevado y compruebe si hay archivos inesperadamente grandes que se puedan eliminar. |
Uso del disco de Manager alto | Mediano | El uso del disco del nodo de Manager es alto. Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %." Cuando se resuelve el evento: "El uso de disco en la partición de disco {nombre_partición_disco} del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %." |
Examine la partición con un uso elevado y compruebe si hay archivos inesperadamente grandes que se puedan eliminar. |
Uso del disco de configuración de Manager muy alto | Crítico | El uso del disco de configuración del nodo de Manager es muy alto. Cuando se detecta el evento: "El uso del disco en la partición de disco /config del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. Esto podría indicar que el uso del disco por parte del servicio del almacén de datos de NSX es alto en el directorio /config/corfu." Cuando se resuelve el evento: "El uso de disco en la partición de disco {config} del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %." |
Examine la partición /config y compruebe si hay archivos inesperadamente grandes que se puedan eliminar. |
Uso del disco de configuración de Manager alto | Mediano | El uso del disco de configuración del nodo de Manager es alto. Cuando se detecta el evento: "El uso del disco en la partición de disco /config del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. Esto podría indicar que está aumentando el uso del disco por parte del servicio del almacén de datos de NSX en el directorio /config/corfu." Cuando se resuelve el evento: "El uso de disco en la partición de disco {config} del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %." |
Examine la partición /config y compruebe si hay archivos inesperadamente grandes que se puedan eliminar. |
Uso de disco de base de datos de operaciones alto |
Mediano | El uso del disco en la partición de disco /nonconfig del nodo de Manager alcanzó el {system_resource_usage} %, que es igual o mayor que el valor del umbral alto del {system_usage_threshold} %. Esto podría indicar que está aumentando el uso del disco por parte del servicio del almacén de datos de NSX en el directorio /nonconfig/corfu. |
Ejecute la siguiente herramienta y póngase en contacto con GSS si se notifica algún problema /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig. |
Uso de disco de base de datos de operaciones muy alto | Crítico | El uso del disco en la partición de disco /nonconfig del nodo de Manager alcanzó el {system_resource_usage} %, que es igual o mayor que el valor del umbral muy alto del {system_usage_threshold} %. Esto podría indicar que está aumentando el uso del disco por parte del servicio del almacén de datos de NSX en el directorio /nonconfig/corfu. |
Ejecute la siguiente herramienta y póngase en contacto con GSS si se notifica algún problema /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig. |
Eventos de NCP
Los eventos de estado de NSX Container Plug-in (NCP) surgen de los nodos de KVM y ESXi.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Complemento NCP inactivo | Crítico | El nodo de Manager detectó que NCP está inactivo o en mal estado. Cuando se detecta el evento: "El nodo de Manager detectó que NCP está inactivo o en mal estado." Cuando se resuelve el evento: "El nodo de Manager detectó que NCP está de nuevo activo o en buen estado." |
Para encontrar los clústeres que tienen problemas, invoque la NSX API: GET /api/v1/systemhealth/container-cluster/ncp/status para obtener todos los estados del clúster y determinar el nombre de los clústeres con estado INACTIVO o DESCONOCIDO. Vaya a la página de la interfaz de usuario de NSX, busque los nombres de los clústeres con estado INACTIVO o DESCONOCIDO y haga clic en la pestaña Nodos, donde se muestran todos los miembros del clúster de Kubernetes y PAS.
Para el clúster de Kubernetes:
Para el clúster de PAS:
|
Eventos de estado de los agentes de nodo evento
Los eventos de estado de agente de nodo se generan en los nodos de KVM y ESXi.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Agentes de nodo inactivos | Alto | Parece que los agentes que se ejecutan en la máquina virtual del nodo están inactivos. Cuando se detecta el evento: "Parece que los agentes que se ejecutan en la máquina virtual del nodo están inactivos." Cuando se resuelve el evento: "Los agentes de la máquina virtual del nodo se están ejecutando." |
Para ESX:
Para KVM:
Para ESX y KVM:
|
Eventos de NSX Federation
Los eventos de NSX Federation se generan en NSX Manager, NSX Edge y los nodos de puerta de enlace pública.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Error de sincronización de LM a LM |
Alto | A partir de la versión 3.0.1 de NSX-T Data Center Se produjo un error en la sincronización entre {site_name}({site_id} y {remote_site_name}({remote_site_id} durante más de 5 minutos. |
|
Advertencia de sincronización de LM a LM | Mediano | A partir de la versión 3.0.1 de NSX-T Data Center Se produjo un error en la sincronización entre {site_name}({site_id} y {remote_site_name}({remote_site_id}. El canal de control al nodo de transporte lleva inactivo demasiado tiempo. |
|
BGP de RTEP inactivo | Alto | A partir de la versión 3.0.1 de NSX-T Data Center La sesión de BGP de RTEP desde la IP de origen {bgp_source_ip} a la ubicación remota {remote_site_name} con IP de vecino {bgp_neighbor_ip} está inactiva. Motivo: {failure_reason}. |
|
Eventos del administración de contraseñas
Los eventos del administración de contraseñas se generan en NSX Manager, NSX Edge y los nodos de puerta de enlace pública.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Contraseña caducada | Crítico | La contraseña del usuario caducó. Cuando se detecta el evento: "La contraseña del usuario {usuario} caducó." Cuando se resuelve el evento: "La contraseña del usuario {usuario} se cambió correctamente o ya no está caducada." |
Es necesario cambiar la contraseña del usuario {usuario} para poder acceder al sistema. Por ejemplo, para aplicar una nueva contraseña a un usuario, invoque la siguiente NSX API con una contraseña válida en el cuerpo de la solicitud:
donde |
La contraseña está a punto de caducar | Alto | La contraseña del usuario está a punto de caducar. Cuando se detecta el evento: "La contraseña del usuario {usuario} está a punto de caducar (quedan {días_para_que_caduque_contraseña} días)." Cuando se resuelve el evento: "La contraseña del usuario {usuario} se cambió correctamente o ya no está a punto de caducar." |
Asegúrese de que la contraseña del usuario identificado por {usuario} se cambie inmediatamente. Por ejemplo, para aplicar una nueva contraseña a un usuario, invoque la siguiente NSX API con una contraseña válida en el cuerpo de la solicitud:
donde |
Método de caducidad de contraseña | Mediano | La contraseña del usuario caducará pronto. Cuando se detecta el evento: "La contraseña del usuario {usuario} está a punto de caducar (quedan {días_para_que_caduque_contraseña} días)." Cuando se resuelve el evento: "La contraseña del usuario {usuario} se cambió correctamente o ya no está a punto de caducar." |
La contraseña del usuario identificado por {usuario} se debe cambiar pronto. Por ejemplo, para aplicar una nueva contraseña a un usuario, invoque la siguiente NSX API con una contraseña válida en el cuerpo de la solicitud:
donde |
Eventos de enrutamiento
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
BGP inactivo | Alto | Vecino BGP inactivo. Cuando se detecta el evento: "En el enrutador {id_entidad}, el vecino BGP {id_vecino_bgp} está inactivo. Motivo: {motivo_error}." Cuando se resuelve el evento: "En el enrutador {id_entidad}, el vecino BGP {id_vecino_bgp} está activo." |
|
Detección de reenvío bidireccional (BFD) inactiva en la interfaz externa |
Alto | La sesión de BFD está inactiva. Cuando se detecta el evento: "En el enrutador {id_entidad}, la sesión de BFD para {dirección_mismo_nivel} está inactiva." Cuando se resuelve el evento: "En el enrutador {id_entidad}, la sesión de BFD para {dirección_mismo_nivel} está activa." |
|
Enrutamiento inactivo | Alto | Todas las sesiones de BGP/BFD están inactivas. Cuando se detecta el evento: "Todas las sesiones de BGP/BFD están inactivas." Cuando se resuelve el evento: "Al menos una sesión de BGP/BFD está activa." |
|
Enrutamiento estático eliminado | Alto | Ruta estática eliminada. Cuando se detecta el evento: "En el enrutador {id_entidad}, se eliminó la ruta estática {dirección_estática} porque BFD estaba inactivo". Cuando se resuelve el evento: "En el enrutador {id_entidad}, la ruta estática {dirección_estática} se agregó de nuevo como BFD recuperado." |
|
Estado del nodo de transporte
Los eventos de estado del nodo de transporte se generan en los nodos KVM y ESXi.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Miembro LAG inactivo | Mediano | LACP informa que el miembro está inactivo. Cuando se detecta el evento: "LACP informa que el miembro está inactivo." Cuando se resuelve el evento: "LACP informa que el miembro está activo." |
Compruebe el estado de la conexión de los miembros de LAG en los hosts.
|
Vínculo superior de VDS inactivo | Mediano | El vínculo superior se está desconectando. Cuando se detecta el evento: "El vínculo superior se está desconectando". Cuando se resuelve el evento: "El vínculo superior está activo". |
Compruebe el estado de las NIC físicas de los vínculos superiores de los hosts.
|
Eventos de VPN
Los eventos de VPN se generan en los nodos de puerta de enlace pública y NSX Edge.
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Sesión basada en directiva de IPsec inactiva | Mediano | La sesión de VPN de IPsec basada en directivas está inactiva. Cuando se detecta el evento: "La sesión de VPN de IPsec basada en directivas {id_entidad} está inactiva. Motivo: {razón_sesión_inactiva}". Cuando se resuelve el evento: "La sesión de VPN de IPsec basada en directivas {id_entidad} está activa. |
Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo de inactividad de la sesión. |
Sesión basada en rutas de IPsec inactiva | Mediano | La sesión de VPN de IPsec basado en rutas está inactiva. Cuando se detecta el evento: "La sesión de VPN de IPsec basada en rutas {id_entidad} está inactiva. Motivo: {razón_sesión_inactiva}". Cuando se resuelve el evento: "La sesión de VPN de IPsec basada en rutas {id_entidad} está activa." |
Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo de inactividad de la sesión. |
Túnel basado en directiva de IPsec inactivo | Mediano | Los túneles de VPN de IPsec basados en directivas están inactivos. Cuando se detecta el evento: "Uno o varios túneles de VPN de IPsec basados en directivas en la sesión {id_entidad} están inactivos." Cuando se resuelve el evento: "Todos los túneles de VPN de IPsec basados en directivas {id_entidad} están activos". |
Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo de inactividad del túnel. |
Túnel basado en rutas de IPsec inactivo | Mediano | Los túneles de VPN de IPsec basados en rutas están inactivos. Cuando se detecta el evento: "Uno o varios túneles de VPN de IPsec basados en rutas en la sesión {id_entidad} están inactivos." Cuando se resuelve el evento: "Todos los túneles de VPN de IPsec basados en rutas {id_entidad} están activos". |
Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo de inactividad del túnel. |
Sesión de L2VPN inactiva | Mediano | La sesión de L2VPN está inactiva. Cuando se detecta el evento: "La sesión de L2VPN {id_entidad} está inactiva." Cuando se resuelve el evento: "La sesión de L2VPN {id_entidad} está activa." |
Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo. |
Eventos del firewall de identidad
Nombre del evento | Gravedad | Mensaje de alerta | Acción recomendada |
---|---|---|---|
Se perdió la conectividad con el servidor LDAP | Crítico |
Se perdió la conectividad con el servidor LDAP. Cuando se detecta un evento: no se pudo conectar al servidor LDAP. Cuando se detecta un evento: se conectó correctamente al servidor LDAP. |
Siga estos pasos para comprobar la conectividad del servidor LDAP:
Después de solucionar el problema de conexión, utilice "PROBAR CONEXIÓN" en la interfaz de usuario del servidor LDAP para probar la conexión con el servidor LDAP. |
Errores durante la sincronización Delta |
Crítico | Se encontró un error durante la sincronización delta con el dominio de AD Cuando se detecta un evento: la sincronización delta finalizó con un error. Cuando se detecta un evento: la sincronización delta finalizó sin errores. |
Si la alarma
Se perdió la conectividad con el servidor LDAPse activa, resuélvala. Si la conexión con el servidor LDAP está activa, siga el mensaje de error del registro para comprobar los cambios relacionados en el servidor de AD. |