En las siguientes tablas se describen los eventos que activan las alarmas, incluidos los mensajes de alarma y las acciones recomendadas para resolverlas. Cualquier evento con una gravedad superior a Bajo activará una alarma.

Eventos de administración de alarmas

Los eventos de administración de alarmas se producen desde los nodos de Global Manager y NSX Manager.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Servicio de alarma sobrecargado Crítico

El servicio de alarma está sobrecargado.

Cuando se detecta el evento: "Debido a los informes sobre el elevado volumen de alarmas, el servicio de alarmas está temporalmente sobrecargado. La interfaz de usuario de NSX y la API de NSX GET /api/v1/alarm han dejado de generar informes sobre nuevas alarmas. Sin embargo, las entradas del syslog y las capturas de SNMP (si están habilitadas) todavía siguen generando informes que incluyen los detalles de los eventos subyacentes. En el momento en el que se solucionen los problemas subyacentes que provocan el elevado volumen de alarmas, el servicio de alarmas volverá a generar informes sobre nuevas alarmas."

Cuando se resuelve el evento: "El elevado volumen de alarmas ha disminuido y se están volviendo a generar informes de alarmas nuevas."

Revise todas las alarmas activas mediante la página Alarmas de la interfaz de usuario de NSX o la siguiente NSX API: GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED. Para cada alarma activa, investigue la causa principal y aplique los pasos recomendados para la alarma. Cuando se solucionen el número suficiente de alarmas, el servicio de alarmas volverá a generar informes de alarmas nuevas.

Volumen elevado de alarmas Crítico

Se detectó un volumen elevado de un tipo de alarma específico.

Cuando se detecta el evento: "Debido al elevado volumen de alarmas {id_evento}, el servicio de alarmas ha dejado de generar temporalmente informes sobre alarmas de este tipo. La interfaz de usuario de NSX y la API de NSX GET /api/v1/alarms no están generando informes sobre nuevas instancias de estas alarmas. Sin embargo, las entradas del syslog y las capturas de SNMP (si están habilitadas) todavía siguen generando informes que incluyen los detalles de los eventos subyacentes. En el momento en el que se solucionen los problemas subyacentes que provocan el elevado volumen de alarmas {id_evento}, el servicio de alarmas volverá a generar informes sobre nuevas alarmas {id_evento}."

Cuando se resuelve el evento: "El elevado volumen de alarmas de {id_evento} ha disminuido y se están volviendo a generar informes de alarmas nuevas de este tipo."

Revise todas las alarmas activas mediante la página Alarmas de la interfaz de usuario de NSX o la siguiente NSX API: GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED. Para cada alarma activa, investigue la causa principal y aplique los pasos recomendados para la alarma. Cuando se solucionen el número suficiente de alarmas, el servicio de alarmas volverá a generar informes de alarmas nuevas de {id_evento}.

Eventos de capacidad

Los siguientes eventos pueden activar alarmas cuando el inventario actual de ciertas categorías de objetos llega a un determinado nivel. Para obtener más información, consulte Ver el uso y la capacidad de las categorías de objetos.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Capacidad máxima Crítico

Se alcanzó la capacidad máxima de una categoría de objetos. Los detalles de la alarma indicarán la categoría específica de objetos.

Realice ajustes en las configuraciones relevantes para evitar posibles consecuencias negativas.

Umbral de capacidad máxima Alto

Se alcanzó el umbral de capacidad máximo de una categoría de objetos. Los detalles de la alarma indicarán la categoría específica de objetos.

Si se esperaba esta alarma, efectúe los ajustes necesarios para resolverla. Si no se esperaba esta alarma, ajuste el valor del umbral para la categoría de objeto.

Umbral de capacidad mínima Mediano

Se alcanzó el umbral de capacidad mínimo de una categoría de objetos. Los detalles de la alarma indicarán la categoría específica de objetos.

Si se esperaba esta alarma, efectúe los ajustes necesarios para resolverla si fuera necesario. Si no se esperaba esta alarma, ajuste el valor del umbral para la categoría de objeto.

Eventos de certificado

Los eventos de certificado se generan en el nodo de NSX Manager.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Certificado caducado Crítico

Un certificado caducó.

Cuando se detecta el evento: "El certificado {id-entidad} caducó."

Cuando se resuelve el evento: "El certificado caducado {id_entidad} se eliminó o ya no está caducado.

Asegúrese de que los servicios que están utilizando el certificado se actualicen para usar un nuevo certificado que no esté caducado. Por ejemplo, para aplicar un nuevo certificado al servicio HTTP, invoque la siguiente NSX API:

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

donde <cert-id> es el identificador de un certificado válido especificado por la llamada API GET /api/v1/trust-management/certificates.

Después de que el certificado caducado ya no esté en uso, deberá eliminarse con la siguiente llamada API:

DELETE /api/v1/trust-management/certificates/{entity_id}

Certificado a punto de caducar Alto

Un certificado está a punto de caducar.

Cuando se detecta el evento: "El certificado {id-entidad} está a punto de caducar".

Cuando se resuelve el evento: "El certificado que iba a caducar {id-entidad} se eliminó o ya no está a punto de caducar".

Asegúrese de que los servicios que están utilizando el certificado se actualicen para usar un nuevo certificado que no esté a punto de caducar. Por ejemplo, para aplicar un nuevo certificado al servicio HTTP, invoque la siguiente NSX API:

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

donde <cert-id> es el identificador de un certificado válido especificado por la llamada API GET /api/v1/trust-management/certificates.

Después de que el certificado que va a caducar ya no esté en uso, deberá eliminarse con la siguiente llamada API:

DELETE /api/v1/trust-management/certificates/{entity_id}

Método de caducidad de certificados Mediano

Un certificado caducará pronto.

Cuando se detecta el evento: "El certificado {id-entidad} caducará pronto."

Cuando se resuelve el evento: "El certificado que iba a caducar {id-entidad} se eliminó o su fecha de caducidad ya no está próxima."

Asegúrese de que los servicios que están utilizando el certificado se actualicen para usar un nuevo certificado que no esté a punto de caducar. Por ejemplo, para aplicar un nuevo certificado al servicio HTTP, invoque la siguiente NSX API:

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

donde <cert-id> es el identificador de un certificado válido especificado por la llamada API GET /api/v1/trust-management/certificates.

Después de que el certificado que va a caducar ya no esté en uso, deberá eliminarse con la siguiente llamada API:

DELETE /api/v1/trust-management/certificates/{entity_id}

Eventos de estado de CNI

Los eventos de estado de CNI surgen de los nodos de KVM y ESXi.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Conexión de HyperBus con Manager inactiva Mediano

HyperBus no se puede comunicar con el nodo de Manager.

Cuando se detecta el evento: "HyperBus no se puede comunicar con el nodo de Manager."

Cuando se resuelve el evento: "HyperBus se puede comunicar con el nodo de Manager."

Es posible que falte la interfaz de VMkernel de HyperBus (vmk50). Consulte el artículo 67432 de la base de conocimientos.

Eventos de DHCP

Los eventos de DHCP se generan en los nodos de puerta de enlace pública y NSX Edge.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Error en la asignación de concesión de grupo Alto

Se agotaron las direcciones IP en un grupo de direcciones IP.

Cuando se detecta el evento: "Se utilizan las direcciones del grupo de direcciones IP {id_entidad} del servidor DHCP {id_servidor_dhcp}. Error en la última solicitud de DHCP y de las solicitudes futuras."

Cuando se resuelve el evento: "El grupo de direcciones IP {id_entidad} del servidor DHCP {id_servidor_dhcp} ya no está agotado. Una concesión se asignó correctamente a la última solicitud de DHCP.

Revise la configuración del grupo de DHCP en la interfaz de usuario de NSX o en el nodo de Edge en el que se ejecuta el servidor DHCP invocando el comando de la CLI de NSX get dhcp ip-pool.

También puede revisar las concesiones activas actuales en el nodo de Edge invocando el comando de la CLI de NSX get dhcp lease.

Compare las concesiones con el número de máquinas virtuales activas. Es recomendable reducir el tiempo de concesión en la configuración del servidor DHCP si el número de máquinas virtuales es bajo en comparación con el número de concesiones activas. También puede expandir el rango de grupos del servidor DHCP en la página Redes > Segmentos > Segmento en la interfaz de usuario de NSX.

Grupo sobrecargado Mediano

Un grupo de direcciones IP está sobrecargado.

Cuando se detecta el evento: "El uso del grupo de direcciones IP {id_entidad} del servidor DHCP {id_servidor_dhcp} está a punto de agotarse, con un {uso_grupo_dhcp} % de direcciones IP asignadas."

Cuando se resuelve el evento: "El uso del grupo de direcciones IP {id_entidad} del servidor DHCP {id_servidor_dhcp} descendió por debajo del umbral de uso elevado."

Revise la configuración del grupo de DHCP en la interfaz de usuario de NSX o en el nodo de Edge en el que se ejecuta el servidor DHCP invocando el comando de la CLI de NSX get dhcp ip-pool.

También puede revisar las concesiones activas actuales en el nodo de Edge invocando el comando de la CLI de NSX get dhcp lease.

Compare las concesiones con el número de máquinas virtuales activas. Es recomendable reducir el tiempo de concesión en la configuración del servidor DHCP si el número de máquinas virtuales es bajo en comparación con el número de concesiones activas. También puede expandir el rango de grupos del servidor DHCP en la página Redes > Segmentos > Segmento en la interfaz de usuario de NSX.

Eventos de firewall distribuido

Los eventos de firewall distribuido generan en los nodos ESXi o NSX Manager.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Uso muy alto de la CPU del firewall distribuido Crítico

El uso de la CPU del firewall distribuido es muy alto.

Cuando se detecta el evento: "El uso de CPU del DFW en el nodo de transporte {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El reenviador de DNS {id_entidad} se está ejecutando de nuevo."

Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts.

Revise el diseño de seguridad para optimizarlo. Por ejemplo, utilice la configuración de apply-to si las reglas no se aplican a todo el centro de datos.

Uso muy alto de la memoria del firewall distribuido Crítico

El uso de la memoria del firewall distribuido es muy alto.

Cuando se detecta el evento: "El uso de memoria del DFW {tipo_pila} en el nodo de transporte {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de memoria del DFW {tipo_pila} en el nodo de transporte {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %."

Para ver el uso actual de la memoria de DFW, invoque el comando de la CLI de NSX get firewall thresholds en el host.

Es recomendable volver a equilibrar las cargas de trabajo en este host con otros hosts.

Eventos de DNS

Los eventos de DNS se generan en los nodos de puerta de enlace pública y NSX Edge.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Reenviador inactivo Alto

Un reenviador de DNS está inactivo.

Cuando se detecta el evento: "El reenviador de DNS {id_entidad} no se está ejecutando. Esto afecta al reenviador DNS identificado que está habilitado actualmente."

Cuando se resuelve el evento: "El reenviador de DNS {id_entidad} se está ejecutando de nuevo."

  1. Invoque el comando de la CLI de NSX get dns-forwarders status para comprobar si el reenviador de DNS está inactivo.
  2. Compruebe /var/log/syslog para ver si se han notificado errores.
  3. Recopile un paquete de soporte y póngase en contacto con el equipo de soporte de NSX.
Reenviador deshabilitado Bajo

Un reenviador de DNS está deshabilitado.

Cuando se detecta el evento: "El reenviador de DNS {id_entidad} está deshabilitado."

Cuando se resuelve el evento: "El reenviador de DNS {id_entidad} está habilitado."

  1. Invoque el comando de la CLI de NSX get dns-forwarders status para comprobar si el reenviador de DNS está deshabilitado.
  2. Use la API de Directiva o de Manager de NSX para habilitar el reenviador de DNS si no debería estar deshabilitado.

Eventos de estado de Edge

Los eventos de estado de Edge se generan en los nodos de puerta de enlace pública y NSX Edge.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Uso de CPU de Edge muy alto Crítico

El uso de la CPU del nodo de Edge es muy alto.

Cuando se detecta el evento: "El uso de CPU en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de CPU en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %."

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Edge. Es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o reequilibrar los servicios a otros nodos de Edge según la carga de trabajo correspondiente.
Uso de CPU de Edge alto Mediano

El uso de la CPU del nodo de Edge es alto.

Cuando se detecta el evento: "El uso de CPU en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de CPU en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %."

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Edge. Es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o reequilibrar los servicios a otros nodos de Edge según la carga de trabajo correspondiente.
Error de configuración de la ruta de datos de Edge Alto

No se pudo configurar la ruta de datos de los nodos de Edge.

Cuando se detecta el evento: "No se pudo habilitar la ruta de datos en el nodo de Edge después de tres intentos."

Cuando se resuelve el evento: "La ruta de datos en el nodo de Edge se habilitó correctamente."

Asegúrese de que la conectividad del nodo de Edge con el nodo de Manager sea correcta.

Desde la CLI de NSX del nodo de Edge, invoque el comando get services para comprobar el estado de los servicios.

Si se detiene el servicio de plano de datos, invoque al comando start service dataplane para iniciarlo.

Uso muy alto de la CPU en la ruta de datos de Edge Crítico

El uso de la CPU de la ruta de datos del nodo de Edge es muy alto.

Cuando se detecta el evento: "El uso de CPU de la ruta de datos en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_ruta_datos} %, que es igual o superior al umbral muy alto durante al menos dos minutos."

Cuando se resuelve el evento: "El uso de la CPU de la ruta de datos del nodo de Edge {id_entidad} se redujo por debajo del umbral máximo."

Revise las estadísticas de CPU en el nodo de Edge invocando el comando de la CLI de NSX get dataplane cpu stats para mostrar las tasas de paquetes por núcleo de CPU.

Se espera un uso de CPU más alto con tasas de paquetes mayores.

Es recomendable aumentar el tamaño del factor de forma del dispositivo Edge y reequilibrar los servicios en este nodo de Edge a otros nodos de Edge en el mismo clúster u otros clústeres de Edge.

Uso alto de la CPU en la ruta de datos de Edge Mediano

El uso de la CPU de la ruta de datos del nodo de Edge es alto.

Cuando se detecta el evento: "El uso de CPU de la ruta de datos en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_ruta_datos} %, que es igual o superior al umbral alto durante al menos dos minutos."

Cuando se resuelve el evento: "El uso de la CPU del nodo de Edge {id_entidad} bajó del valor del umbral alto."

Revise las estadísticas de CPU en el nodo de Edge invocando el comando de la CLI de NSX get dataplane cpu stats para mostrar las tasas de paquetes por núcleo de CPU.

Se espera un uso de CPU más alto con tasas de paquetes mayores.

Es recomendable aumentar el tamaño del factor de forma del dispositivo Edge y reequilibrar los servicios en este nodo de Edge a otros nodos de Edge en el mismo clúster u otros clústeres de Edge.

Controlador criptográfico de la ruta de datos de Edge inactivo Crítico

El controlador criptográfico de la ruta de datos del nodo de Edge está inactivo.

Cuando se detecta el evento: "El controlador criptográfico del nodo de Edge está inactivo."

Cuando se resuelve el evento: "El controlador criptográfico del nodo de Edge está activo."

Actualice el nodo de Edge según sea necesario.

El uso del grupo de memoria de la ruta de datos de Edge es alto Mediano

El uso del grupo de memoria de la ruta de datos del nodo de Edge es alto

Cuando se detecta el evento: "El uso del grupo de memoria de la ruta de datos para {nombre_grupo_memoria} en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso del grupo de memoria de la ruta de datos para {nombre_grupo_memoria} en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %."

Inicie sesión como usuario raíz, invoque los comandos edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show y edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap para comprobar el uso de memoria de DPDK.
Uso de disco de Edge muy alto Crítico

El uso del disco del nodo de Edge es muy alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Edge alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de disco en la partición de disco {id_entidad} del nodo de Edge alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %."

Examine la partición con un uso elevado y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.
Uso de disco de Edge alto Mediano

El uso del disco del nodo de Edge es alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Edge alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso del disco en la partición de disco {id_entidad} del nodo de Edge alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %."

Examine la partición con un uso elevado y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.
Uso alto de tabla ARP global de Edge Mediano

El uso de la tabla ARP global del nodo de Edge es alto.

Cuando se detecta el evento: "El uso de la tabla ARP global en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_ruta_datos} %, que supera el umbral alto durante más de dos minutos."

Cuando se resuelve el evento: "El uso de la tabla ARP en el nodo de Edge {id_entidad} bajó del valor del umbral alto."

Aumente el tamaño de la tabla ARP:
  1. Inicie sesión como usuario raíz.
  2. Invoque el comando edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show.
  3. Compruebe si el uso de memoria caché de Neigh es normal.
    1. Si es normal, invoque el comando edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries para aumentar el tamaño de la tabla ARP.
Uso de memoria de Edge muy alto Crítico

El uso de la memoria del nodo de Edge es muy alto.

Cuando se detecta el evento: "Se alcanzó el uso de la memoria en el nodo de Edge {id_entidad} {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de memoria en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que inferior al valor del umbral muy alto del {umbral_uso_sistema} %."

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Edge. Es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o reequilibrar los servicios a otros nodos de Edge según la carga de trabajo correspondiente.
Uso de memoria de Edge alto Mediano

El uso de la memoria del nodo de Edge es alto.

Cuando se detecta el evento: "El uso de memoria en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de memoria en el nodo de Edge {id_entidad} alcanzó el {uso_recursos_sistema} %, que inferior al valor del umbral alto del {umbral_uso_sistema} %."

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Edge. Es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o reequilibrar los servicios a otros nodos de Edge según la carga de trabajo correspondiente.
Estado de vínculo de NIC de Edge inactivo Crítico

El vínculo de NIC del nodo de Edge está inactivo.

Cuando se detecta el evento: "El vínculo de NIC del nodo de Edge {nombre_nic_edge} está inactivo."

Cuando se detecta el evento: "El vínculo de NIC del nodo de Edge {nombre_nic_edge} está activo."

En el nodo de Edge, confirme si el vínculo de NIC está físicamente inactivo invocando el comando de la CLI de NSX get interfaces.

Si está inactivo, compruebe la conexión del cable.

NIC de Edge fuera del búfer de recepción Crítico

No queda espacio libre en el búfer del anillo del descriptor de NIC del nodo de Edge.

Cuando se detecta el evento: "La NIC de Edge {nombre_nic_edge} del búfer del anillo de recepción se desbordó un {porcentaje_desbordamiento_anillo} % en un nodo de Edge {id_entidad} durante más de 60 segundos."

Cuando se resuelve el evento: "El uso del búfer del anillo de recepción de la NIC de Edge {nombre_nic_edge} en el nodo de Edge {id_entidad} ya no se está desbordando."

Invoque el comando de la CLI de NSX get dataplane y verifique lo siguiente:
  1. Si el uso de PPS y CPU es alto y el tamaño del anillo de RX mediante el comando get dataplane | find ring-size rx.
    • Si los valores de PPS y CPU son altos y el tamaño del anillo de RX es bajo, invoque set dataplane ring-size rx <ring-size> y set <ring-size> en un valor alto para acomodar los paquetes entrantes.
    • Si no se cumple la condición anterior y el tamaño del anillo es alto, y aún así el uso de la CPU es alto, es posible que se deba a un retraso de sobrecarga de procesamiento del plano de datos.
NIC de Edge fuera del búfer de transmisión Crítico

El búfer del anillo del descriptor de transmisión de NIC del nodo de Edge no deja espacio.

Cuando se detecta el evento: "La NIC del nodo de Edge {nombre_nic_edge} del búfer del anillo de transmisión se desbordó un {porcentaje_desbordamiento_búfer_anillo} % en un nodo de Edge {id_entidad} durante más de 60 segundos."

Cuando se resuelve el evento: "El uso del búfer del anillo de transmisión de la NIC del nodo de Edge {nombre_nic_edge} en el nodo de Edge {id_entidad} ya no se está desbordando."

Invoque el comando de la CLI de NSX get dataplane y verifique lo siguiente:
  1. Si el uso de PPS y CPU es alto y el tamaño del anillo de RX mediante el comando get dataplane | find ring-size tx.
    • Si los valores de PPS y CPU son altos y el tamaño del anillo de RX es bajo, invoque set dataplane ring-size tx <ring-size> y set <ring-size> un valor alto para acomodar los paquetes salientes.
    • Si no se cumple la condición anterior y el tamaño del anillo es alto, y el uso de la CPU es bajo o nominal, es posible que se deba a que el tamaño del anillo de transmisión se estableció en el hipervisor.
Error de almacenamiento Crítico

A partir de la versión 3.0.1 de NSX-T Data Center

Las siguientes particiones de disco en el nodo de Edge están en modo de solo lectura: {disk_partition_name}

.

Examine la partición de solo lectura para ver si el reinicio resuelve el problema o si se debe reemplazar el disco. Consulte el artículo de la base de conocimientos https://kb.vmware.com/s/article/2146870.

Eventos de protección de endpoints

Los eventos de protección de endpoints se generan en los nodos ESXi o NSX Manager.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Estado de EAM inactivo Crítico

El servicio ESX Agent Manager (EAM) en el administrador de equipos está inactivo.

Cuando se detecta el evento: "El servicio ESX Agent Manager (EAM) en el administrador de equipos {id_entidad} está inactivo."

Cuando se resuelve el evento: "El servicio ESX Agent Manager (EAM) del administrador de equipos {id_entidad} está activo, o el administrador de equipos {id_entidad} se eliminó."

Reinicie el servicio ESX Agent Manager (EAM):
  • Ejecute SSH en el nodo de vCenter y ejecute:
    service vmware-eam start
Canal de partners inactivo Crítico

La conexión de la SVM de partners y el módulo de host está inactiva.

Cuando se detecta el evento: "La conexión entre el módulo de host y la SVM de partners {id_entidad} está inactiva."

Cuando se resuelve el evento: "La conexión entre el módulo de host y la SVM de partners {id_entidad} está activa."

Consulte el artículo 2148821 de la base de conocimientos Solucionar problemas de NSX Guest Introspection y asegúrese de que la SVM de partners identificada por {id_entidad} se vuelva a conectar al módulo de host.

Eventos de firewalls de puerta de enlace

Los eventos de firewall de puerta de enlace se generan en nodos de NSX Edge.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada

Número de flujos ICMP superado

Crítico A partir de NSX-T Data Center 3.1.3.

La tabla de flujos del firewall de puerta de enlace para el tráfico ICMP superó el umbral establecido. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico ICMP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_icmp_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo."

Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %."

  1. Inicie sesión como administrador en el nodo de Edge e invoque el siguiente comando de la CLI de NSX usando el UUID de interfaz correcto, y compruebe el uso de los flujos ICMP en la tabla de flujos.

    get firewall <LR_INT_UUID> interface stats | json
  2. Compruebe que el flujo del tráfico que pasa a través de la puerta de enlace no sea un ataque de DOS o una ráfaga anómala.
  3. Si el tráfico parece estar dentro de la carga normal, pero se alcanzó el umbral de alarma, es recomendable aumentar el umbral de alarma o enrutar el tráfico nuevo a otro nodo de Edge.
Número de flujos ICMP alto Mediano A partir de NSX-T Data Center 3.1.3.

El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico ICMP es alto. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para ICMP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_icmp_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo."

Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace para ICMP en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %."

  1. Inicie sesión como administrador en el nodo de Edge e invoque el siguiente comando de la CLI de NSX usando el UUID de interfaz correcto, y compruebe el uso de los flujos ICMP en la tabla de flujos.

    get firewall <LR_INT_UUID> interface stats | json
  2. Compruebe que el flujo del tráfico que pasa a través de la puerta de enlace no sea un ataque de DOS o una ráfaga anómala.
  3. Si el tráfico parece estar dentro de la carga normal, pero se alcanzó el umbral de alarma, es recomendable aumentar el umbral de alarma o enrutar el tráfico nuevo a otro nodo de Edge.
Número de flujos de IP excedido Crítico A partir de NSX-T Data Center 3.1.3.

La tabla de flujos del firewall de puerta de enlace para el tráfico IP superó el umbral establecido. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico IP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_ip_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo."

Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %."

  1. Inicie sesión como administrador en el nodo de Edge e invoque el comando de la CLI de NSX usando el UUID de interfaz correcto, y compruebe el uso de los flujos IP en la tabla de flujos.

    get firewall <LR_INT_UUID> interface stats | json
  2. Compruebe que el flujo del tráfico que pasa a través de la puerta de enlace no sea un ataque de DOS o una ráfaga anómala.
  3. Si el tráfico parece estar dentro de la carga normal, pero se alcanzó el umbral de alarma, es recomendable aumentar el umbral de alarma o enrutar el tráfico nuevo a otro nodo de Edge.
Número de flujos de IP alto Mediano A partir de NSX-T Data Center 3.1.3.

El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico IP es alto. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo

Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para IP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_ip_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo."

Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace para los flujos que no son IP en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %."

  1. Inicie sesión como administrador en el nodo de Edge e invoque el comando de la CLI de NSX usando el UUID de interfaz correcto, y compruebe el uso de los flujos IP en la tabla de flujos.

    get firewall <LR_INT_UUID> interface stats | json
  2. Compruebe que el flujo del tráfico que pasa a través de la puerta de enlace no sea un ataque de DOS o una ráfaga anómala.
  3. Si el tráfico parece estar dentro de la carga normal, pero se alcanzó el umbral de alarma, es recomendable aumentar el umbral de alarma o enrutar el tráfico nuevo a otro nodo de Edge.
Se superó el número de flujos de TCP Crítico A partir de NSX-T Data Center 3.1.3.

La tabla de flujos del firewall de puerta de enlace para el tráfico medio abierto de TCP superó el umbral establecido. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico medio abierto TCP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_medio_abierto_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo."

Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %."

  1. Inicie sesión como administrador en el nodo de Edge e invoque el comando de la CLI de NSX usando el UUID de interfaz correcto, y compruebe el uso de los flujos medio abiertos TCP en la tabla de flujos.

    get firewall <LR_INT_UUID> interface stats | json
  2. Compruebe que el flujo del tráfico que pasa a través de la puerta de enlace no sea un ataque de DOS o una ráfaga anómala.
  3. Si el tráfico parece estar dentro de la carga normal, pero se alcanzó el umbral de alarma, es recomendable aumentar el umbral de alarma o enrutar el tráfico nuevo a otro nodo de Edge.
Número alto de flujos de TCP Mediano A partir de NSX-T Data Center 3.1.3.

El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico medio abierto de TCP es alto. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para TCP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_medio_abierto_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo."

Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace para el flujo medio abierto de TCP en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %."

  1. Inicie sesión como administrador en el nodo de Edge e invoque el comando de la CLI de NSX usando el UUID de interfaz correcto, y compruebe el uso de los flujos medio abiertos TCP en la tabla de flujos.

    get firewall <LR_INT_UUID> interface stats | json
  2. Compruebe que el flujo del tráfico que pasa a través de la puerta de enlace no sea un ataque de DOS o una ráfaga anómala.
  3. Si el tráfico parece estar dentro de la carga normal, pero se alcanzó el umbral de alarma, es recomendable aumentar el umbral de alarma o enrutar el tráfico nuevo a otro nodo de Edge.
Se superó el número de flujos de UDP Crítico A partir de NSX-T Data Center 3.1.3.

La tabla de flujos del firewall de puerta de enlace para el tráfico UDP superó el umbral establecido. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico UDP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_udp_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo."

Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace en el enrutador lógico {id_entidad} bajó del umbral alto."

  1. Inicie sesión como administrador en el nodo de Edge e invoque el comando de la CLI de NSX usando el UUID de interfaz correcto, y compruebe el uso de los flujos UDP en la tabla de flujos.

    get firewall <LR_INT_UUID> interface stats | json
  2. Compruebe que el flujo del tráfico que pasa a través de la puerta de enlace no sea un ataque de DOS o una ráfaga anómala.
  3. Si el tráfico parece estar dentro de la carga normal, pero se alcanzó el umbral de alarma, es recomendable aumentar el umbral de alarma o enrutar el tráfico nuevo a otro nodo de Edge.
Número alto de flujos de UDP Mediano A partir de NSX-T Data Center 3.1.3.

El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico UDP es alto. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecte un evento: "El uso en la tabla de flujos del firewall de puerta de enlace para UDP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_udp_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de la puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo."

Cuando el evento se resuelva: "El uso en la tabla de flujos del firewall de puerta de enlace para UDP en el enrutador lógico {id_entidad} bajó del umbral alto."

  1. Inicie sesión como administrador en el nodo de Edge e invoque el comando de la CLI de NSX usando el UUID de interfaz correcto, y compruebe el uso de los flujos UDP en la tabla de flujos.

    get firewall <LR_INT_UUID> interface stats | json
  2. Compruebe que el flujo del tráfico que pasa a través de la puerta de enlace no sea un ataque de DOS o una ráfaga anómala.
  3. Si el tráfico parece estar dentro de la carga normal, pero se alcanzó el umbral de alarma, es recomendable aumentar el umbral de alarma o enrutar el tráfico nuevo a otro nodo de Edge.

Eventos de alta disponibilidad

Los eventos de alta disponibilidad se generan en los nodos de puerta de enlace de nube pública y NSX Edge.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Conmutación por error de puerta de enlace de nivel 0 Alto

Una puerta de enlace de nivel 0 conmutó por error.

Cuando se detecta el evento: "La puerta de enlace de nivel 0 {id_entidad} tiene una conmutación por error de {estado_puerta_enlace_anterior} a {estado_puerta_enlace_anterior}."

Cuando se resuelve el evento: "La puerta de enlace de nivel 0 {id_entidad} ahora está activa."

Determine el servicio que está inactivo y reinícielo.
  1. Para identificar el identificador de VRF de nivel 0, ejecute el comando de la CLI NSX get logical-routers.
  2. Cambie al contexto de VRF ejecutando vrf <vrf-id>.
  3. Compruebe qué servicio está inactivo ejecutando get high-availability status.
Conmutación por error de puerta de enlace de nivel 1 Alto

Una puerta de enlace de nivel 1 conmutó por error.

Cuando se detecta el evento: "La puerta de enlace de nivel 1 {id_entidad} tiene una conmutación por error de {estado_puerta_enlace_anterior} a {estado_puerta_enlace_anterior}."

Cuando se resuelve el evento: "La puerta de enlace de nivel 1 {id_entidad} ahora está activa."

Determine el servicio que está inactivo y reinícielo.
  1. Para identificar el identificador de VRF de nivel 1, ejecute el comando de la CLI NSX get logical-routers.
  2. Cambie al contexto de VRF ejecutando vrf <vrf-id>.
  3. Compruebe qué servicio está inactivo ejecutando get high-availability status.

Eventos de comunicación de infraestructura

Los eventos de comunicación de infraestructura se generan en desde los nodos de puerta de enlace pública, KVM, ESXi y NSX Edge.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Túneles de Edge inactivos Crítico

El estado del túnel de un nodo de Edge es inactivo.

Cuando se detecta el evento: "El estado de túnel general del nodo de Edge {id_entidad} está inactivo."

Cuando se resuelve el evento: "Se restauraron los túneles del nodo de Edge {id_entidad}."

  1. Inicie sesión en el nodo de Edge mediante SSH.
  2. Obtenga el estado.
    nsxcli get tunnel-ports
  3. En cada túnel, compruebe las estadísticas de cualquier pérdida de conexión.
    get tunnel-port <UUID> stats
  4. Compruebe el archivo syslog para detectar errores relacionados con el túnel.

Eventos del servicio de infraestructura

Los eventos de estado de infraestructura se generan en los nodos de puerta de enlace pública y NSX Edge.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Estado de servicio de Edge inactivo Crítico

El servicio de Edge está inactivo durante al menos un minuto.

Cuando se detecta el evento: "El servicio {nombre_servicio_edge} está inactivo durante al menos un minuto."

Cuando se resuelve el evento: "El servicio {nombre_servicio_edge} está activo".

En el nodo de Edge, compruebe que el servicio no haya finalizado debido a un error buscando archivos de volcado de núcleo en el directorio /var/log/core.

Para confirmar si el servicio se ha detenido, invoque el comando de la CLI de NSX get services.

Si es así, ejecute start service <service-name> para reiniciar el servicio.

Estado del servicio de Edge cambiado Bajo

El estado del servicio de Edge cambió.

Cuando se detecta el evento: "El servicio {nombre_servicio_edge} cambió de {estado_servicio_anterior} a {estado_servicio_actual}."

Cuando se resuelve el evento: "El servicio {nombre_servicio_edge} cambió de {estado_servicio_anterior} a {estado_servicio_actual}."

En el nodo de Edge, compruebe que el servicio no haya finalizado debido a un error buscando archivos de volcado de núcleo en el directorio /var/log/core.

Para confirmar si el servicio se ha detenido, invoque el comando de la CLI de NSX get services.

Si es así, ejecute start service <service-name> para reiniciar el servicio.

Eventos de comunicación de Intelligence

Los eventos de comunicación de NSX Intelligence se generan en el nodo de NSX Manager, el nodo de ESXi y el dispositivo de NSX Intelligence.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Exportador de flujo de nodo de transporte desconectado Alto

Un nodo de transporte está desconectado del agente de mensajería de su nodo de Intelligence. La recopilación de datos se ve afectada.

Cuando se detecta el evento: "El exportador de flujos en el nodo de transporte {id_entidad} está desconectado del agente de mensajería del nodo de Intelligence. La recopilación de datos se ve afectada."

Cuando se resuelve el evento: "El exportador de flujo en el nodo de transporte {id_entidad} se volvió a conectar al agente de mensajería del nodo de Intelligence."

  1. Reinicie el servicio de mensajería si no se está ejecutando en el nodo de NSX Intelligence.
  2. Resuelva el error de conexión de red entre el exportador de flujo del nodo de transporte y el nodo de NSX Intelligence.
Canal de control a nodo de transporte inactivo Mediano Canal de control a nodo de transporte inactivo.

Cuando se detecta un evento: el servicio de controlador central_control_plane_id al nodo de transporte {id-entidad} inactivo durante un mínimo de tres minutos desde el punto de vista de servicios de controladores.

Cuando se resuelve el evento: el servicio de controlador central_control_plane_id restaura la conexión con el nodo de transporte {entity-id}.

  1. Compruebe la conectividad desde el servicio de controlador central_control_plane_id y la interfaz del nodo de transporte {entity-id} mediante el comando ping. Si no se puede hacer ping, compruebe la conectividad de red.
  2. Compruebe si las conexiones TCP se establecen mediante la salida de netstat para ver si el servicio de controlador {central_control_plane_id} está escuchando las conexiones en el puerto 1235. Si no es así, compruebe las reglas del firewall (o) iptables para ver si el puerto 1235 está bloqueando las solicitudes de conexión del nodo de transporte {id_entidad}. Asegúrese de que no haya firewalls de host ni firewalls de red subyacentes bloqueando los puertos IP requeridos entre los nodos de Manager y los nodos de transporte. Esto está documentado en nuestra herramienta de puertos y protocolos disponible aquí: https://ports.vmware.com/.
  3. Es posible que el nodo de transporte {id_entidad} aún esté en modo de mantenimiento. Puede comprobar si el nodo de transporte está en modo de mantenimiento a través de la siguiente API:

    GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid>

    Cuando se establece el modo de mantenimiento, el nodo de transporte no se conectará al servicio del controlador. Por lo general, esto ocurre cuando la actualización del host está en curso. Espere unos minutos y vuelva a comprobar la conectividad.
    Nota: Esta alarma es crítica y debe resolverse. Contacte con el servicio de soporte de VMware para notificarle esta alarma si permanece sin resolver durante un mucho tiempo.

Canal de control a nodo de transporte inactivo mucho tiempo

Crítico

El canal de control al nodo de transporte lleva inactivo demasiado tiempo.

Cuando se detecta un evento: el servicio de controlador central_control_plane_id al nodo de transporte {id-entidad} inactivo durante un mínimo de 15 minutos desde el punto de vista de servicios de controladores.

Cuando se resuelve el evento: el servicio de controlador central_control_plane_id restaura la conexión con el nodo de transporte {entity-id}.

  1. Compruebe la conectividad desde el servicio de controlador central_control_plane_id y la interfaz del nodo de transporte {entity-id} mediante el comando ping. Si no se puede hacer ping, compruebe si la conectividad de red es inestable.
  2. Compruebe si las conexiones TCP se establecen mediante la salida de netstat para ver si el servicio de controlador {central_control_plane_id} está escuchando las conexiones en el puerto 1235. Si no es así, compruebe las reglas del firewall (o) iptables para ver si el puerto 1235 está bloqueando las solicitudes de conexión del nodo de transporte {id_entidad}. Asegúrese de que no haya firewalls de host ni firewalls de red subyacentes bloqueando los puertos IP requeridos entre los nodos de Manager y los nodos de transporte. Esto está documentado en nuestra herramienta de puertos y protocolos disponible aquí: https://ports.vmware.com/.
  3. Es posible que el nodo de transporte {id_entidad} aún esté en modo de mantenimiento. Puede comprobar si el nodo de transporte está en modo de mantenimiento a través de la siguiente API:

    GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid>

    Cuando se establece el modo de mantenimiento, el nodo de transporte no se conectará al servicio del controlador. Por lo general, esto ocurre cuando la actualización del host está en curso. Espere unos minutos y vuelva a comprobar la conectividad.

Eventos de estado de Intelligence

Los eventos de estado de NSX Intelligence se generan en el nodo de NSX Manager y el dispositivo de NSX Intelligence.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Uso de CPU muy alto Crítico

El uso de la CPU del nodo de Intelligence es muy alto.

Cuando se detecta el evento: "El uso de CPU en el nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral muy alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de CPU en el nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral muy alto del {umbral_uso_sistema} %."

Utilice el comando top para comprobar qué procesos utilizan más memoria y, a continuación, revise /var/log/syslog y los registros locales de estos procesos para comprobar si hay errores pendientes que resolver.

Uso de CPU alto Mediano

El uso de la CPU del nodo de Intelligence es alto.

Cuando se detecta el evento: "El uso de CPU en el nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de CPU en el nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto del {umbral_uso_sistema} %."

Utilice el comando top para comprobar qué procesos utilizan más memoria y, a continuación, revise /var/log/syslog y los registros locales de estos procesos para comprobar si hay errores pendientes que resolver.

Uso de memoria muy alto Crítico

El uso de la memoria del nodo de Intelligence es muy alto.

Cuando se detecta el evento: "El uso de memoria en el nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral muy alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de memoria en el nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral muy alto del {umbral_uso_sistema} %."

Utilice el comando top para comprobar qué procesos utilizan más memoria y, a continuación, revise /var/log/syslog y los registros locales de estos procesos para comprobar si hay errores pendientes que resolver.

Uso de memoria alto Mediano

El uso de la memoria del nodo de Intelligence es alto.

Cuando se detecta el evento: "El uso de memoria en el nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de memoria en el nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto del {umbral_uso_sistema} %."

Utilice el comando top para comprobar qué procesos utilizan más memoria y, a continuación, revise /var/log/syslog y los registros locales de estos procesos para comprobar si hay errores pendientes que resolver.

Uso de disco muy alto Crítico

El uso del disco del nodo de Intelligence es muy alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral muy alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral muy alto del {umbral_uso_sistema} %."

Examine la partición de disco {nombre_partición_disco} y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.
Uso de disco alto Mediano

El uso del disco del nodo de Intelligence es alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto del {umbral_uso_sistema} %."

Examine la partición de disco {nombre_partición_disco} y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.
Uso de partición de disco de datos muy alto Crítico

El uso de la partición del disco de datos del nodo de Intelligence es muy alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco /data del nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral muy alto del {umbral_uso_sistema} %.

Cuando se resuelve el evento: "El uso del disco en la partición de disco /data del nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral muy alto del {umbral_uso_sistema} %."

Detenga la recopilación de datos de NSX Intelligence hasta que el uso del disco esté por debajo del umbral.

En la interfaz de usuario de NSX, vaya a Sistema Dispositivos Dispositivo de NSX Intelligence. A continuación, seleccione ACCIONES > Detener la recopilación de datos.

Uso de partición de disco de datos alto Mediano

El uso de la partición del disco de datos del nodo de Intelligence es alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco /data del nodo de NSX Intelligence {id_nodo_intelligence} es superior al valor del umbral alto del {umbral_uso_sistema} %.

Cuando se resuelve el evento: "El uso del disco en la partición de disco /data del nodo de NSX Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto del {umbral_uso_sistema} %."

Detenga la recopilación de datos de NSX Intelligence hasta que el uso del disco esté por debajo del umbral.

Examine la partición /data y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.

Estado de nodo degradado Alto

El estado del nodo de Intelligence se degradó.

Cuando se detecta el evento: "El servicio {nombre_servicio} en el nodo de NSX Intelligence {id_nodo_intelligence} no se está ejecutando."

Cuando se resuelve el evento: "El servicio {nombre_servicio} en el nodo de NSX Intelligence {id_nodo_intelligence} se está ejecutando."

Examine el estado del servicio y la información de estado invocando el comando de la CLI de NSX get services en el nodo de NSX Intelligence.

Reinicie los servicios detenidos de forma inesperada en el nodo de Intelligence con el comando de la CLI de NSX restart service <service-name>.

Eventos de administración de direcciones IP

Los eventos de administración de direcciones IP (IPAM) surgen de los nodos de NSX Manager.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Uso de bloque de IP muy alto Mediano

A partir de NSX-T Data Center 3.1.2.

El uso de la subred IP de un bloque de direcciones IP alcanzó el 90 %.

Cuando se detecta el evento: "El uso del bloque de direcciones IP <ruta_intención> es muy alto. El bloque de direcciones IP se acerca a su capacidad total. Es posible que produzca un error al crear una subred usando el bloque de direcciones IP".

Cuando se soluciona un evento:

Ningún mensaje.

  • Revise el uso de bloques de direcciones IP. Utilice un nuevo bloque de direcciones IP para crear recursos o elimine la subred de IP no utilizada del bloque de direcciones IP. Para comprobar la subred que se está utilizando para un bloque de direcciones IP:
    1. En la interfaz de usuario de NSX, desplácese hasta la pestaña Redes > Grupos de direcciones IP > Grupos de direcciones IP.
    2. Seleccione los grupos de direcciones IP en los que se está utilizando el bloque de direcciones IP. Compruebe las columnas Subredes y Direcciones IP asignadas.
    3. Elimine la subred o el grupo de direcciones IP si no se utiliza ninguna de las asignaciones y no se utilizará en el futuro.
  • Utilice las siguientes API para comprobar si el grupo de direcciones IP está utilizando el bloque de direcciones IP y también para comprobar las asignaciones de direcciones IP.
    • Para obtener las subredes configuradas de un grupo de direcciones IP, invoque la siguiente NSX API.

      GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-subnets

    • Para obtener asignaciones de direcciones IP, invoque la siguiente NSX API.

      GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations

Nota: Elimine una subred o un grupo de direcciones IP solo si no tiene direcciones IP asignadas y no se utilizará en el futuro.
Uso de grupo de IP muy alto Mediano

A partir de NSX-T Data Center 3.1.2.

El uso de la asignación de direcciones IP de un grupo de direcciones IP alcanzó el 90 %.

Cuando se detecta el evento: "El uso del grupo de direcciones IP <ruta_intención> es muy alto. El grupo de direcciones IP se acerca a su capacidad total. Se podría producir un error al crear una entidad o servicio que depende de la asignación de la dirección IP desde el grupo de direcciones IP."

Cuando se soluciona un evento:

Ningún mensaje.

Revise el uso del grupo de direcciones IP. Libere asignaciones de direcciones IP no utilizadas del grupo de direcciones IP o cree un nuevo grupo de direcciones IP.

  1. En la interfaz de usuario de NSX, desplácese hasta la pestaña Redes > Grupos de direcciones IP > Grupos de direcciones IP.
  2. Seleccione grupos de direcciones IP y compruebe la columna Direcciones IP asignadas para ver las IP asignadas desde el grupo de direcciones IP.

Puede liberar las direcciones IP que no se utilizan. Para liberar asignaciones de IP no utilizadas, invoque la siguiente NSX API.

DELETE /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations/<ip-allocation>

Eventos de licencia

Los eventos de licencia se generan en el nodo de NSX Manager.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Licencia caducada Crítico

Una licencia caducó.

Cuando se detecta el evento: "La licencia de tipo {tipo_edición_licencia} caducó."

Cuando se resuelve el evento: "La licencia caducada del tipo {tipo_edición_licencia} se eliminó, se actualizó o ya no está caducada."

Agregue una licencia nueva no caducada:
  1. En la interfaz de usuario de NSX, desplácese hasta Sistema > Licencias.
  2. Haga clic en Agregar y especifique la clave de la nueva licencia.
  3. Elimine la licencia caducada marcando la casilla de verificación y haciendo clic en Anular asignación.
La licencia está a punto de caducar Mediano

Cuando se detecta el evento: "La licencia de tipo {tipo_edición_licencia} está a punto de caducar."

Cuando se resuelve el evento: "La licencia que iba a caducar identificada por {tipo_edición_licencia} se eliminó, se actualizó o su fecha de caducidad ya no está próxima."

Agregue una licencia nueva no caducada:
  1. En la interfaz de usuario de NSX, desplácese hasta Sistema > Licencias.
  2. Haga clic en Agregar y especifique la clave de la nueva licencia.
  3. Elimine la licencia caducada marcando la casilla de verificación y haciendo clic en Anular asignación.

Eventos de equilibrador de carga

Los eventos del equilibrador de carga surgen de nodos de NSX Edge o de NSX Manager.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
CPU de LB muy alta Mediano

El uso de la CPU del equilibrador de carga es muy alto.

Cuando se detecta el evento: "El uso de CPU del equilibrador de carga {id_entidad} es muy alto. El umbral es {umbral_uso_sistema}%".

Cuando se resuelve el evento: "El uso de CPU del equilibrador de carga {id_entidad} es lo bastante bajo. El umbral es {umbral_uso_sistema}%".

Si el uso de CPU del equilibrador de carga es superior al {umbral_uso_sistema} %, la carga de trabajo será demasiado alta para este equilibrador de carga.

Cambie la escala del servicio del equilibrador de carga cambiando el tamaño del equilibrador de carga de pequeño a mediano o de mediano a grande.

Si el uso de la CPU de este equilibrador de carga sigue siendo alto, es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o mover los servicios del equilibrador de carga a otros nodos de Edge según la carga de trabajo correspondiente.

Estado de LB inactivo

Crítico

Cuando se detecta el evento: "El servicio del equilibrador de carga centralizado {id_entidad} está inactivo."

Cuando se resuelve el evento: "El servicio del equilibrador de carga centralizado {id_entidad} está activo".

  1. En el nodo de Edge activo, compruebe el estado del equilibrador de carga invocando el siguiente comando de la CLI de NSX.

    get load-balancer <lb-uuid> status
  2. Si el estado del servicio del equilibrador de carga es not_ready o no hay salida, haga que el nodo de Edge entre en modo de mantenimiento y, a continuación, salga del modo de mantenimiento.
Estado de servidor virtual inactivo Mediano

El servicio virtual del equilibrador de carga está inactivo.

Cuando se detecta el evento: "El servidor virtual del equilibrador de carga {id_entidad} está inactivo."

Cuando se resuelve el evento: "El servidor virtual del equilibrador de carga {id_entidad} está activo".

Consulte el grupo de equilibradores de carga para determinar su estado y comprobar su configuración.

Si está configurado de forma incorrecta, vuelva a configurarlo, quite el grupo de equilibradores de carga del servidor virtual y vuelva a agregarlo al servidor virtual.

Estado de grupo inactivo Mediano

Cuando se detecta el evento: "El estado del grupo de equilibradores de carga {id_entidad} es inactivo."

Cuando se resuelve el evento: "El estado del grupo de equilibradores de carga {id_entidad} es activo".

  1. Consulte el grupo de equilibradores de carga para determinar qué miembros están inactivos.
  2. Compruebe la conectividad de red desde el equilibrador de carga hasta los miembros del grupo afectados.
  3. Valide el estado de la aplicación de cada miembro del grupo.
  4. Valide también el estado de cada miembro del grupo mediante el monitor configurado.

Cuando se establece el buen estado del miembro, el estado del miembro del grupo se actualizará a correcto según la configuración de Recuento de subida.

Estado de LB degradado

Mediano

A partir de NSX-T Data Center 3.1.2.

Cuando se detecta el evento: "El servicio del equilibrador de carga {id_entidad} está degradado."

Cuando se resuelve el evento: "El servicio del equilibrador de carga {id_entidad} no está degradado".

  • Para el equilibrador de carga centralizado:
    1. En el nodo de Edge en espera, compruebe el estado del equilibrador de carga invocando el siguiente comando de la CLI de NSX.

      get load-balancer <lb-uuid> status
    2. Si el estado del servicio del equilibrador de carga es 'not_ready' o si no hay salida, haga que el nodo de Edge entre en modo de mantenimiento y, a continuación, salga del modo de mantenimiento.
  • Para el equilibrador de carga distribuido:
  1. Obtenga un estado detallado invocando la siguiente NSX API.

    GET /policy/api/v1/infra/lb-services/<LBService>/detailed-status?source=realtime
  2. En la salida de la API, busque el host ESXi con instance_number distinto a cero con el estado NOT_READY o CONFLICT.
  3. En el nodo del host ESXi, invoque el siguiente comando de la CLI de NSX.

    get load-balancer <lb-uuid> status

    Si se indica ''Conflict LSP'', compruebe si este LSP está conectado a otro servicio de equilibrador de carga y si este conflicto es aceptable.

    Si se muestra el mensaje de 'Not Ready LSP', compruebe el estado de este LSP invocando este comando de la CLI de NSX.

    get logical-switch-port status

Estado de DLB inactivo

Crítico

A partir de NSX-T Data Center 3.1.2.

Cuando se detecta el evento: "El servicio del equilibrador de carga distribuido {id_entidad} está inactivo."

Cuando se resuelve el evento: "El servicio del equilibrador de carga distribuido {id_entidad} está activo".

  1. En el nodo del host ESXi, invoque el siguiente comando de la CLI de NSX.

    get load-balancer <lb-uuid> status
  2. Si se indica ''Conflict LSP'', compruebe si este LSP está conectado a cualquier otro servicio de equilibrador de carga y si este conflicto es aceptable. Si se muestra el mensaje de 'Not Ready LSP', compruebe el estado de este LSP invocando el siguiente comando de la CLI de NSX.

    get logical-switch-port status

Capacidad de Edge de LB en uso alto

Crítico

A partir de NSX-T Data Center 3.1.2.

Cuando se detecta el evento: "El uso del servicio del equilibrador de carga en el nodo de Edge {id_entidad} es alto. El umbral es {umbral_uso_sistema}%".

Cuando se resuelve el evento: "El uso del servicio del equilibrador de carga en el nodo de Edge {id_entidad} es lo bastante bajo. El umbral es {umbral_uso_sistema}%".

Implemente un nuevo nodo de Edge y mueva el servicio de equilibrador de carga de los nodos de Edge existentes al nodo de Edge recién implementado.

Capacidad de miembro de grupo de LB en uso muy alto

Crítico

A partir de NSX-T Data Center 3.1.2.

Cuando se detecta el evento: "El uso de los miembros del grupo en el nodo de Edge {id_entidad} es muy alto. El umbral es {umbral_uso_sistema}%".

Cuando se resuelve el evento: "El uso de los miembros del grupo en el nodo de Edge {id_entidad} es lo bastante bajo. El umbral es {umbral_uso_sistema}%".

Implemente un nuevo nodo de Edge y mueva el servicio de equilibrador de carga de los nodos de Edge existentes al nodo de Edge recién implementado.

Eventos de estado de Manager

Los eventos de estado de NSX Manager se generan en el clúster de nodos de NSX Manager.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Dirección IP duplicada Mediano

Otro dispositivo está usando la dirección IP del nodo de Manager.

Cuando se detecta el evento: "La dirección IP {dirección_ip_duplicada} del nodo de Manager {id_entidad} se está utilizando actualmente en otro dispositivo de la red."

Cuando se resuelve el evento: "El nodo de Manager {id_entidad} parece que ya no utiliza {dirección_ip_duplicada}".

  1. Determine qué dispositivo está usando la dirección IP del administrador y asígnele una nueva dirección IP.
    Nota: No se admite la reconfiguración de Manager para utilizar una nueva dirección IP.
  2. Asegúrese de que el servidor DHCP o el grupo de direcciones IP estáticas estén configurados correctamente.
  3. Corrija la dirección IP del dispositivo si se asigna de forma manual.
Uso de la CPU de Manager muy alto Crítico

El uso de la CPU del nodo de Manager es muy alto.

Cuando se detecta el evento: "El uso de CPU en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de CPU en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %."

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Manager.

Es recomendable ajustar el tamaño del factor de forma del dispositivo de Manager.

Uso de la CPU de Manager alto Mediano

A partir de la versión 3.0.1 de NSX-T Data Center

El uso de la CPU del nodo de Manager es alto.

Cuando se detecta el evento: "El uso de CPU en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de CPU en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %."

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Manager.

Es recomendable ajustar el tamaño del factor de forma del dispositivo de Manager.

Uso de la memoria de Manager muy alto Crítico

A partir de la versión 3.0.1 de NSX-T Data Center

El uso de la memoria del nodo de Manager es muy alto.

Cuando se detecta el evento: "El uso de memoria en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de memoria en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %."

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Manager.

Es recomendable ajustar el tamaño del factor de forma del dispositivo de Manager.

Uso de la memoria de Manager alto Mediano

El uso de la memoria del nodo de Manager es alto.

Cuando se detecta el evento: "El uso de memoria en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de memoria en el nodo de Manager {id_entidad} alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %."

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Manager.

Es recomendable ajustar el tamaño del factor de forma del dispositivo de Manager.

Uso del disco de Manager muy alto Crítico

El uso del disco del nodo de Manager es muy alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de disco en la partición de disco {nombre_partición_disco} del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %."

Examine la partición con un uso elevado y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.
Uso del disco de Manager alto Mediano

El uso del disco del nodo de Manager es alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %."

Cuando se resuelve el evento: "El uso de disco en la partición de disco {nombre_partición_disco} del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %."

Examine la partición con un uso elevado y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.
Uso del disco de configuración de Manager muy alto Crítico

El uso del disco de configuración del nodo de Manager es muy alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco /config del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. Esto podría indicar que el uso del disco por parte del servicio del almacén de datos de NSX es alto en el directorio /config/corfu."

Cuando se resuelve el evento: "El uso de disco en la partición de disco {config} del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %."

Examine la partición /config y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.
Uso del disco de configuración de Manager alto Mediano

El uso del disco de configuración del nodo de Manager es alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco /config del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. Esto podría indicar que está aumentando el uso del disco por parte del servicio del almacén de datos de NSX en el directorio /config/corfu."

Cuando se resuelve el evento: "El uso de disco en la partición de disco {config} del nodo de Manager alcanzó el {uso_recursos_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %."

Examine la partición /config y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.

Uso de disco de base de datos de operaciones alto

Mediano

El uso del disco en la partición de disco /nonconfig del nodo de Manager alcanzó el {system_resource_usage} %, que es igual o mayor que el valor del umbral alto del {system_usage_threshold} %. Esto podría indicar que está aumentando el uso del disco por parte del servicio del almacén de datos de NSX en el directorio /nonconfig/corfu.

Ejecute la siguiente herramienta y póngase en contacto con GSS si se notifica algún problema /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig.

Uso de disco de base de datos de operaciones muy alto Crítico

El uso del disco en la partición de disco /nonconfig del nodo de Manager alcanzó el {system_resource_usage} %, que es igual o mayor que el valor del umbral muy alto del {system_usage_threshold} %. Esto podría indicar que está aumentando el uso del disco por parte del servicio del almacén de datos de NSX en el directorio /nonconfig/corfu.

Ejecute la siguiente herramienta y póngase en contacto con GSS si se notifica algún problema /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig.

Eventos de NCP

Los eventos de estado de NSX Container Plug-in (NCP) surgen de los nodos de KVM y ESXi.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Complemento NCP inactivo Crítico

El nodo de Manager detectó que NCP está inactivo o en mal estado.

Cuando se detecta el evento: "El nodo de Manager detectó que NCP está inactivo o en mal estado."

Cuando se resuelve el evento: "El nodo de Manager detectó que NCP está de nuevo activo o en buen estado."

Para encontrar los clústeres que tienen problemas, invoque la NSX API: GET /api/v1/systemhealth/container-cluster/ncp/status para obtener todos los estados del clúster y determinar el nombre de los clústeres con estado INACTIVO o DESCONOCIDO.

Vaya a la página Inventario > Contenedor > Clústeres de la interfaz de usuario de NSX, busque los nombres de los clústeres con estado INACTIVO o DESCONOCIDO y haga clic en la pestaña Nodos, donde se muestran todos los miembros del clúster de Kubernetes y PAS.

Para el clúster de Kubernetes:
  1. Compruebe la ejecución del pod de NCP. Para ello, busque el nodo principal de K8s desde todos los miembros del clúster e inicie sesión en el nodo principal.

    A continuación, invoque el comando de kubectl kubectl get pods --all-namespaces. Si hay algún problema con el pod de NCP, utilice el comando kubectl logs de kubectl para comprobar el problema y solucionar el error.

  2. Compruebe la conexión entre el servidor de API de NCP y de Kubernetes
    La CLI de NSX se puede utilizar dentro del pod de NCP para comprobar el estado de la conexión invocando los siguientes comandos desde la máquina virtual principal.
    kubectl exec -it <NCP-Pod-Name> -n nsx-system bash nsxcli get ncp-k8s-api-server status
    Si hay algún problema con la conexión, compruebe las configuraciones de red y de NCP.
  3. Compruebe la conexión entre NCP y NSX Manager.
    La CLI de NSX se puede utilizar dentro del pod de NCP para comprobar el estado de la conexión invocando el siguiente comando desde la máquina virtual principal.
    kubectl exec -it <NCP-Pod-Name> -n nsx-system bash nsxcli get ncp-nsx status
    Si hay algún problema con la conexión, compruebe las configuraciones de red y de NCP.
Para el clúster de PAS:
  1. Compruebe las conexiones de red entre las máquinas virtuales y solucione los problemas de red.
  2. Compruebe el estado de los nodos y los servicios, y corrija los que estén bloqueados.

    Invoque los comandos bosh vms y bosh instances -p para comprobar el estado de los nodos y los servicios.

Eventos de estado de los agentes de nodo evento

Los eventos de estado de agente de nodo se generan en los nodos de KVM y ESXi.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Agentes de nodo inactivos Alto

Parece que los agentes que se ejecutan en la máquina virtual del nodo están inactivos.

Cuando se detecta el evento: "Parece que los agentes que se ejecutan en la máquina virtual del nodo están inactivos."

Cuando se resuelve el evento: "Los agentes de la máquina virtual del nodo se están ejecutando."

Para ESX:

  1. Si falta Vmk50, consulte el artículo 67432 de la base de conocimientos.
  2. Si falta el HyperBus 4094: puede resultar útil reiniciar nsx-cfgagent o la máquina virtual del host de contenedor.
  3. Si la VIF del host de contenedor está bloqueada, compruebe la conexión al controlador para asegurarse de que se envían todas las configuraciones.
  4. Si nsx-cfgagent se detuvo, reinicie nsx-cfgagent.

Para KVM:

  1. Si falta el espacio de nombres de HyperBus, reiniciar nsx-opsagent puede ayudar a volver a crear el espacio de nombres.
  2. Si falta la interfaz de HyperBus dentro del espacio de nombres de HyperBus, puede resultar útil reiniciar nsx-opsagent.
  3. Si nsx-agent se detuvo, reinicie nsx-agent.

Para ESX y KVM:

  1. Si falta el paquete de node-agent: compruebe si el paquete de node-agent se instaló correctamente en la máquina virtual del host de contenedor.
  2. Si la interfaz de node-agent en la máquina virtual del host de contenedor está inactiva: compruebe el estado de la interfaz de eth1 en la máquina virtual del host de contenedor.

Eventos de NSX Federation

Los eventos de NSX Federation se generan en NSX Manager, NSX Edge y los nodos de puerta de enlace pública.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada

Error de sincronización de LM a LM

Alto

A partir de la versión 3.0.1 de NSX-T Data Center

Se produjo un error en la sincronización entre {site_name}({site_id} y {remote_site_name}({remote_site_id} durante más de 5 minutos.

  1. Invoque el comando de la CLI de NSX get site-replicator remote-sites para obtener el estado de conexión entre ubicaciones remotas. Si una ubicación remota está conectada, pero no sincronizada, es posible que la ubicación aún esté en proceso de resolución principal. En este caso, espere aproximadamente 10 segundos e intente invocar de nuevo la CLI para comprobar el estado de la ubicación remota. Si una ubicación está desconectada, intente realizar el siguiente paso.

  2. Compruebe la conectividad del Local Manager (LM) en la ubicación {site_name}{site_id} a los LM en la ubicación {remote_site_name}{remote_site_id}) haciendo ping. Si no se puede hacer ping, compruebe si la conectividad WAN es inestable. Si no hay problemas de conectividad de red física, pruebe el paso siguiente.

  3. Compruebe el archivo /var/log/cloudnet/NSX-CCP.log en los nodos de Manager del clúster local en la ubicación {site_name}({site_id} que activó la alarma para ver si hay errores de comunicación entre sitios. Además, busque los errores registrados por el subcomponente nsx-appl-proxy en /var/log/syslog.

Advertencia de sincronización de LM a LM Mediano

A partir de la versión 3.0.1 de NSX-T Data Center

Se produjo un error en la sincronización entre {site_name}({site_id} y {remote_site_name}({remote_site_id}.

El canal de control al nodo de transporte lleva inactivo demasiado tiempo.

  1. Invoque el comando de la CLI de NSX get site-replicator remote-sites para obtener el estado de conexión entre ubicaciones remotas. Si una ubicación remota está conectada, pero no sincronizada, es posible que la ubicación aún esté en proceso de resolución principal. En este caso, espere aproximadamente 10 segundos e intente invocar de nuevo la CLI para comprobar el estado de la ubicación remota. Si una ubicación está desconectada, intente realizar el siguiente paso.

  2. Compruebe la conectividad del Local Manager (LM) en la ubicación {site_name}{site_id} a los LM en la ubicación {remote_site_name}{remote_site_id}) haciendo ping. Si no se puede hacer ping, compruebe si la conectividad WAN es inestable. Si no hay problemas de conectividad de red física, pruebe el paso siguiente.

  3. Compruebe el archivo /var/log/cloudnet/NSX-CCP.log en los nodos de Manager del clúster local en la ubicación {site_name}({site_id} que activó la alarma para ver si hay errores de comunicación entre sitios. Además, busque los errores registrados por el subcomponente nsx-appl-proxy en /var/log/syslog.

BGP de RTEP inactivo Alto

A partir de la versión 3.0.1 de NSX-T Data Center

La sesión de BGP de RTEP desde la IP de origen {bgp_source_ip} a la ubicación remota {remote_site_name} con IP de vecino {bgp_neighbor_ip} está inactiva. Motivo: {failure_reason}.

  1. Invoque el comando de la CLI de NSX get logical-routers en el nodo de Edge afectado.

  2. Cambie al contexto de REMOTE_TUNNEL_VRF
  3. Invoque el comando de la CLI de NSX get bgp neighbor para comprobar el vecino de BGP.
  4. Como alternativa, puede invocar la NSX API GET /api/v1/transport-nodes/<transport-node-id>/inter-site/bgp/summary para obtener el estado del vecino BGP.
  5. Invoque el comando de la CLI de NSX get interfaces y compruebe si la dirección IP de RTEP correcta está asignada a la interfaz con el nombre remote-tunnel-endpoint.
  6. . Compruebe si el ping funciona correctamente entre la dirección IP de RTEP asignada {bgp_source_ip} y la ubicación remota {remote_site_name} con la dirección IP de vecino {bgp_neighbor_ip}.
  7. Compruebe si en /var/log/syslog hay errores relacionados con BGP.
  8. Invoque la API GET o PUT /api/v1/transport-nodes/<transport-node-id> para obtener/actualizar la configuración de remote_tunnel_endpoint en el nodo de Edge. Se actualizará la dirección IP de RTEP asignada al nodo de Edge afectado.

Eventos del administración de contraseñas

Los eventos del administración de contraseñas se generan en NSX Manager, NSX Edge y los nodos de puerta de enlace pública.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Contraseña caducada Crítico

La contraseña del usuario caducó.

Cuando se detecta el evento: "La contraseña del usuario {usuario} caducó."

Cuando se resuelve el evento: "La contraseña del usuario {usuario} se cambió correctamente o ya no está caducada."

Es necesario cambiar la contraseña del usuario {usuario} para poder acceder al sistema. Por ejemplo, para aplicar una nueva contraseña a un usuario, invoque la siguiente NSX API con una contraseña válida en el cuerpo de la solicitud:

PUT /api/v1/node/users/<userid>

donde <userid> es el identificador del usuario. Si caducó la contraseña del usuario administrador (con el <userid> 10000), este deberá iniciar sesión en el sistema a través de SSH (si está habilitado) o de la consola para poder cambiar la contraseña. Tras introducir la contraseña actual caducada, se solicitará al administrador que introduzca una nueva contraseña.

La contraseña está a punto de caducar Alto

La contraseña del usuario está a punto de caducar.

Cuando se detecta el evento: "La contraseña del usuario {usuario} está a punto de caducar (quedan {días_para_que_caduque_contraseña} días)."

Cuando se resuelve el evento: "La contraseña del usuario {usuario} se cambió correctamente o ya no está a punto de caducar."

Asegúrese de que la contraseña del usuario identificado por {usuario} se cambie inmediatamente. Por ejemplo, para aplicar una nueva contraseña a un usuario, invoque la siguiente NSX API con una contraseña válida en el cuerpo de la solicitud:

PUT /api/v1/node/users/<userid>

donde <userid> es el identificador del usuario.

Método de caducidad de contraseña Mediano

La contraseña del usuario caducará pronto.

Cuando se detecta el evento: "La contraseña del usuario {usuario} está a punto de caducar (quedan {días_para_que_caduque_contraseña} días)."

Cuando se resuelve el evento: "La contraseña del usuario {usuario} se cambió correctamente o ya no está a punto de caducar."

La contraseña del usuario identificado por {usuario} se debe cambiar pronto. Por ejemplo, para aplicar una nueva contraseña a un usuario, invoque la siguiente NSX API con una contraseña válida en el cuerpo de la solicitud:

PUT /api/v1/node/users/<userid>

donde <userid> es el identificador del usuario.

Eventos de enrutamiento

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
BGP inactivo Alto

Vecino BGP inactivo.

Cuando se detecta el evento: "En el enrutador {id_entidad}, el vecino BGP {id_vecino_bgp} está inactivo. Motivo: {motivo_error}."

Cuando se resuelve el evento: "En el enrutador {id_entidad}, el vecino BGP {id_vecino_bgp} está activo."

  1. SSH en el nodo de Edge.
  2. Invoque el comando de la CLI de NSX: get logical-routers
  3. Cambie al enrutador de servicio {id_sr}.
  4. Compruebe si en /var/log/syslog hay algún error relacionado con la conectividad de BGP.

Detección de reenvío bidireccional (BFD) inactiva en la interfaz externa

Alto

La sesión de BFD está inactiva.

Cuando se detecta el evento: "En el enrutador {id_entidad}, la sesión de BFD para {dirección_mismo_nivel} está inactiva."

Cuando se resuelve el evento: "En el enrutador {id_entidad}, la sesión de BFD para {dirección_mismo_nivel} está activa."

  1. SSH en el nodo de Edge.
  2. Invoque el comando de la CLI de NSX: get logical-routers
  3. Cambie al enrutador de servicio {id_sr}.
  4. Verifique la conectividad invocando el comando de la CLI de NSX: ping <peer_address>.
Enrutamiento inactivo Alto

Todas las sesiones de BGP/BFD están inactivas.

Cuando se detecta el evento: "Todas las sesiones de BGP/BFD están inactivas."

Cuando se resuelve el evento: "Al menos una sesión de BGP/BFD está activa."

  1. Invoque el comando de la CLI NSX get logical-routers para obtener el enrutador de servicio de nivel 0.
  2. Cambie al VRF del enrutador de servicio nivel 0 y, a continuación, invoque los siguientes comandos de la CLI de NSX:
    • Comprobar la conectividad: ping <BFD peer IP address>
    • Comprobar estado de BFD:
      get bfd-config get bfd-sessions
    • Comprobar estado de BGP: get bgp neighbor summary
      get bfd neconfig get bfd-sessions
    Compruebe si en /var/log/syslog hay algún error relacionado con la conectividad de BGP.
Enrutamiento estático eliminado Alto

Ruta estática eliminada.

Cuando se detecta el evento: "En el enrutador {id_entidad}, se eliminó la ruta estática {dirección_estática} porque BFD estaba inactivo".

Cuando se resuelve el evento: "En el enrutador {id_entidad}, la ruta estática {dirección_estática} se agregó de nuevo como BFD recuperado."

  1. SSH en el nodo de Edge.
  2. Invoque el comando de la CLI de NSX: get logical-routers
  3. Cambie al enrutador de servicio {id_sr}.
  4. Verifique la conectividad invocando el comando de la CLI de NSX:.
    get bgp neighbor summary
  5. Además, compruebe la configuración en NSX y BFD para asegurarse de que no se hayan cambiado los temporizadores.

Estado del nodo de transporte

Los eventos de estado del nodo de transporte se generan en los nodos KVM y ESXi.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Miembro LAG inactivo Mediano

LACP informa que el miembro está inactivo.

Cuando se detecta el evento: "LACP informa que el miembro está inactivo."

Cuando se resuelve el evento: "LACP informa que el miembro está activo."

Compruebe el estado de la conexión de los miembros de LAG en los hosts.
  1. En la interfaz de usuario de NSX, vaya a Tejido > Nodos > Nodos de transporte > Nodos de transporte de host.
  2. En la lista de nodos de transporte de host, compruebe la columna Estado de nodo.

    Busque el nodo de transporte con un estado degradado o inactivo.

  3. Seleccione <nodo de transporte> > Supervisar.

    Busque el enlace (vínculo superior) que indica un estado degradado o inactivo.

  4. Compruebe los detalles del estado de los miembros de LACP. Para ello, inicie sesión en el host con errores e invoque:
    • ESXi: esxcli network vswitch dvs vmware lacp status get
    • KVM: ovs-appctl bond/show y ovs-appctl lacp/show
Vínculo superior de VDS inactivo Mediano

El vínculo superior se está desconectando.

Cuando se detecta el evento: "El vínculo superior se está desconectando".

Cuando se resuelve el evento: "El vínculo superior está activo".

Compruebe el estado de las NIC físicas de los vínculos superiores de los hosts.
  1. En la interfaz de usuario de NSX, vaya a Tejido > Nodos > Nodos de transporte > Nodos de transporte de host.
  2. En la lista de nodos de transporte de host, compruebe la columna Estado de nodo.

    Busque el nodo de transporte con un estado degradado o inactivo.

  3. Seleccione <nodo de transporte> > Supervisar.

    Compruebe la información del estado del enlace (vínculo superior) que indica un estado degradado o inactivo.

    Para evitar un estado degradado, asegúrese de que todas las interfaces de vínculo superior estén conectadas y en funcionamiento, independientemente de si están o no en uso.

Eventos de VPN

Los eventos de VPN se generan en los nodos de puerta de enlace pública y NSX Edge.

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Sesión basada en directiva de IPsec inactiva Mediano

La sesión de VPN de IPsec basada en directivas está inactiva.

Cuando se detecta el evento: "La sesión de VPN de IPsec basada en directivas {id_entidad} está inactiva. Motivo: {razón_sesión_inactiva}".

Cuando se resuelve el evento: "La sesión de VPN de IPsec basada en directivas {id_entidad} está activa.

Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo de inactividad de la sesión.

Sesión basada en rutas de IPsec inactiva Mediano

La sesión de VPN de IPsec basado en rutas está inactiva.

Cuando se detecta el evento: "La sesión de VPN de IPsec basada en rutas {id_entidad} está inactiva. Motivo: {razón_sesión_inactiva}".

Cuando se resuelve el evento: "La sesión de VPN de IPsec basada en rutas {id_entidad} está activa."

Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo de inactividad de la sesión.

Túnel basado en directiva de IPsec inactivo Mediano

Los túneles de VPN de IPsec basados en directivas están inactivos.

Cuando se detecta el evento: "Uno o varios túneles de VPN de IPsec basados en directivas en la sesión {id_entidad} están inactivos."

Cuando se resuelve el evento: "Todos los túneles de VPN de IPsec basados en directivas {id_entidad} están activos".

Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo de inactividad del túnel.

Túnel basado en rutas de IPsec inactivo Mediano

Los túneles de VPN de IPsec basados en rutas están inactivos.

Cuando se detecta el evento: "Uno o varios túneles de VPN de IPsec basados en rutas en la sesión {id_entidad} están inactivos."

Cuando se resuelve el evento: "Todos los túneles de VPN de IPsec basados en rutas {id_entidad} están activos".

Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo de inactividad del túnel.

Sesión de L2VPN inactiva Mediano

La sesión de L2VPN está inactiva.

Cuando se detecta el evento: "La sesión de L2VPN {id_entidad} está inactiva."

Cuando se resuelve el evento: "La sesión de L2VPN {id_entidad} está activa."

Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo.

Eventos del firewall de identidad

Nombre del evento Gravedad Mensaje de alerta Acción recomendada
Se perdió la conectividad con el servidor LDAP

Crítico

Se perdió la conectividad con el servidor LDAP.

Cuando se detecta un evento: no se pudo conectar al servidor LDAP.

Cuando se detecta un evento: se conectó correctamente al servidor LDAP.

Siga estos pasos para comprobar la conectividad del servidor LDAP:

  1. Se puede acceder al servidor LDAP desde nodos de NSX.
  2. Los detalles del servidor LDAP están configurados correctamente en NSX.
  3. El servidor LDAP se está ejecutando correctamente.
  4. No hay ningún firewall que bloquee el acceso entre el servidor LDAP y los nodos de NSX.

Después de solucionar el problema de conexión, utilice "PROBAR CONEXIÓN" en la interfaz de usuario del servidor LDAP para probar la conexión con el servidor LDAP.

Errores durante la sincronización Delta

Crítico

Se encontró un error durante la sincronización delta con el dominio de AD

Cuando se detecta un evento: la sincronización delta finalizó con un error.

Cuando se detecta un evento: la sincronización delta finalizó sin errores.

Si la alarma
Se perdió la conectividad con el servidor LDAP
se activa, resuélvala.

Si la conexión con el servidor LDAP está activa, siga el mensaje de error del registro para comprobar los cambios relacionados en el servidor de AD.