This site will be decommissioned on December 31st 2024. After that date content will be available at techdocs.broadcom.com.

Catálogo de eventos de NSX

En las siguientes tablas se describen eventos que activan las alarmas en VMware NSX®, incluidos los mensajes de alarma y las acciones recomendadas para resolverlas. Cualquier evento con una gravedad superior aBAJOactiva una alarma. La información de alarmas se muestra en varias ubicaciones dentro de la interfaz de NSX Manager. La información de las alarmas y los eventos también se incluye con otras notificaciones en el menú desplegable Notificaciones de la barra de título. Para ver las alarmas, desplácese hasta la página inicio y haga clic en la pestaña Alarmas. Para obtener más información sobre alarmas y eventos, consulte "Trabajar con eventos y alarmas" en la Guía de administración de NSX.

Eventos de administración de alarmas

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Servicio de alarma sobrecargado Crítico global-manager, manager, aas

El servicio de alarma está sobrecargado.

Cuando se detecta el evento: "Debido a los informes sobre el elevado volumen de alarmas, el servicio de alarmas está temporalmente sobrecargado. La interfaz de usuario de NSX y la NSX API GET /api/v1/alarms dejaron de informar sobre nuevas alarmas; sin embargo, las entradas del syslog y las capturas de SNMP (si están habilitadas) todavía siguen generando informes que incluyen los detalles de los eventos subyacentes. En el momento en el que se solucionen los problemas subyacentes que provocan el elevado volumen de alarmas, el servicio de alarmas volverá a generar informes sobre nuevas alarmas. "

Cuando se resuelve el evento: "El elevado volumen de alarmas ha disminuido y se están volviendo a generar informes de alarmas nuevas. "

Revise todas las alarmas activas mediante la página Alarmas de la interfaz de usuario de NSX o la NSX API GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED. Para cada alarma activa, investigue la causa principal y aplique los pasos recomendados para la alarma. Cuando se solucionen el número suficiente de alarmas, el servicio de alarmas volverá a generar informes de alarmas nuevas.

3.0.0
Volumen elevado de alarmas Crítico global-manager, manager, aas

Se detectó un volumen elevado de un tipo de alarma específico.

Cuando se detecta el evento: "Debido al elevado volumen de alarmas {id_evento}, el servicio de alarmas ha dejado de generar temporalmente informes sobre alarmas de este tipo. La interfaz de usuario de NSX y la NSX API GET /api/v1/alarms no están generando informes sobre nuevas instancias de estas alarmas; sin embargo, las entradas del syslog y las capturas de SNMP (si están habilitadas) todavía siguen generando informes que incluyen los detalles de los eventos subyacentes. En el momento en el que se solucionen los problemas subyacentes que provocan el elevado volumen de alarmas {id_evento}, el servicio de alarmas volverá a generar informes sobre nuevas alarmas {id_evento}. "

Cuando se resuelve el evento: "El elevado volumen de alarmas de {id_evento} ha disminuido y se están volviendo a generar informes de alarmas nuevas. "

Revise todas las alarmas activas del tipo {id_evento} mediante la página Alarmas de la interfaz de usuario de NSX o la siguiente NSX API: GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED. Para cada alarma activa, investigue la causa principal y aplique los pasos recomendados para la alarma. Cuando se solucionen el número suficiente de alarmas, el servicio de alarmas volverá a generar informes de alarmas nuevas de {id_evento}.

3.0.0

Eventos de estado del registro de auditoría

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Error de actualización del archivo de registro de auditoría Crítico global-manager, manager, edge, public-cloud-gateway, esx, kvm, bms

No se puede escribir en al menos uno de los archivos de registro supervisados.

Cuando se detecta el evento: "Al menos uno de los archivos de registro supervisados tiene permisos de solo lectura o tiene una propiedad usuario/grupo incorrecta en los nodos de Manager, Global Manager, Edge, Public Cloud Gateway, KVM o Linux Physical Server. O bien, falta la carpeta de registros en los nodos del servidor físico Windows. O bien falta rsyslog.log en los nodos de Manager, Global Manager, Edge o Public Cloud Gateway. "

Cuando se resuelve el evento: "Todos los archivos de registro supervisados tienen la propiedad y los permisos de archivo correctos en los nodos de Manager, Global Manager, Edge, Public Cloud Gateway, KVM o Linux Physical Server. Y la carpeta de registros existe en los nodos del servidor físico Windows. Y rsyslog.log existe en los nodos de Manager, Global Manager, Edge o Public Cloud Gateway. "

1. En los nodos de Manager y Global Manager, los nodos de puerta de enlace de nube pública y Edge, y los nodos del host de KVM de Ubuntu garantizan que los permisos del directorio /var/log sean 775 y que la propiedad sea root:syslog. Un nodo de host de KVM y BMS de RHEL garantiza que el permiso para el directorio /var/log sea 755 y que la propiedad sea root:root.
2. En los nodos de Manager y Global Manager, asegúrese de que los permisos de archivo para auth.log, nsx-audit.log, nsx-audit-write.log, rsyslog.log y syslog en /var/log sean 640 y que la propiedad sea syslog:admin.
3. En los nodos de puerta de enlace de nube pública y Edge, asegúrese de que los permisos de archivo para rsyslog.log y syslog en /var/log sean 640 y que la propiedad sea syslog:admin.
4. En los nodos de host de KVM y servidor físico de Ubuntu, asegúrese de que los permisos de archivo de auth.log y vmware/nsx-syslog en /var/log sean 640 y que la propiedad sea syslog:admin.
5. En los nodos de host de KVM de RHEL y los nodos del servidor físico CentOS/RHEL/SLES, asegúrese de que el permiso de archivo de vmware/nsx-syslog en /var/log sea 640 y que la propiedad sea root:root.
6. Si alguno de estos archivos tiene permisos o propiedad incorrectos, invoque los comandos chmod &ltmodo&gt &ltruta&gt y chown &ltusuario&gt:&ltgrupo&gt &ltruta&gt.
7. Si falta rsyslog.log en los nodos de Manager, Global Manager, Edge o Public Cloud Gateway, invoque el comando de la CLI de NSX restart service syslog, que reinicia el servicio de registro y vuelve a generar /var/log/rsyslog.log.
8. En nodos del servidor físico Windows, asegúrese de que exista la carpeta de registro: C:\ProgramData\VMware\NSX\Logs. Si no es así, vuelva a instalar NSX en los nodos del servidor físico Windows.

3.1.0
Error del servidor de registro remoto Crítico global-manager, manager, edge, public-cloud-gateway

Los mensajes de registro no se pueden entregar debido a una configuración incorrecta del servidor de registro remoto.

Cuando se detecta el evento: "Los mensajes de registro al servidor de registro {nombre_de_host_o_dirección_ip_con_puerto} ({id_entidad}) no se pueden enviar debido a un FQDN que no se puede resolver, a un certificado TLS no válido o a una regla de iptables del dispositivo de NSX que falta. "

Cuando se resuelve el evento: "La configuración del servidor de registro {nombre_de_host_o_dirección_ip_con_puerto} ({id_entidad}) es correcta. "

1. Asegúrese de que {nombrehost_o_dirección_ip_con_puerto} sea el nombre de host o la dirección IP y el puerto correctos.
2. Si el servidor de registro se especifica con un FQDN, asegúrese de que el FQDN se pueda resolver desde el dispositivo de NSX mediante el comando de la CLI de NSX nslookup &ltfqdn&gt. Si no se puede resolver, compruebe que se haya especificado el FQDN correcto y que el servidor DNS de red tenga la entrada necesaria para el FQDN.
3. Si el servidor de registro está configurado para usar TLS, compruebe que el certificado especificado sea válido. Por ejemplo, asegúrese de que el servidor de registro esté utilizando realmente el certificado o compruebe que el certificado no haya caducado mediante el comando openssl openssl x509 -in &ltruta-archivo-cert&gt -noout -dates.
4. Los dispositivos de NSX utilizan reglas iptables para permitir explícitamente el tráfico saliente. Compruebe que la regla iptables del servidor de registro esté configurada correctamente invocando el comando de la CLI de NSX verify logging-servers que vuelve a configurar las reglas iptables del servidor de registro según sea necesario.
5. Si, por algún motivo, el servidor de registro está mal configurado, debería eliminarse mediante el comando `del logging-server &ltnombre-host-o-dirección-ip[:puerto]&gt proto &ltproto&gt level &ltnivel&gt` de la CLI de NSX y volver a agregarlo con la configuración correcta.

3.1.0

Eventos de capacidad

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Umbral de capacidad mínima Mediano manager

Se ha infringido el umbral de capacidad mínima.

Cuando se detecta el evento: "El número de objetos definidos en el sistema para {nombre_visualización_capacidad} ha alcanzado los {recuento_uso_capacidad}, que es superior al umbral de capacidad mínimo ({umbral_capacidad_mín} %). "

Cuando se resuelve el evento: "El número de objetos definidos en el sistema para {nombre_visualización_capacidad} ha alcanzado los {recuento_uso_capacidad}, que es igual o inferior al umbral de capacidad mínimo ({umbral_capacidad_mín} %). "

Desplácese hasta la página Capacidad en la interfaz de usuario de NSX y revise el uso actual frente a los límites de umbral. Si se espera el uso actual; puede aumentar los valores del umbral mínimo. Si el uso actual es inesperado, revise las directivas de red configuradas para reducir el uso hasta el umbral mínimo o por debajo de él.

3.1.0
Umbral de capacidad máxima Alto manager

Se ha infringido un umbral de capacidad máxima.

Cuando se detecta el evento: "El número de objetos definidos en el sistema para {nombre_visualización_capacidad} ha alcanzado los {recuento_uso_capacidad}, que es superior al umbral de capacidad máximo ({umbral_capacidad_máx} %). "

Cuando se resuelve el evento: "El número de objetos definidos en el sistema para {nombre_visualización_capacidad} ha alcanzado los {recuento_uso_capacidad}, que es igual o inferior al umbral de capacidad máximo ({umbral_capacidad_máx} %). "

Desplácese hasta la página Capacidad en la interfaz de usuario de NSX y revise el uso actual frente a los límites de umbral. Si se espera el uso actual; puede aumentar los valores del umbral máximo. Si el uso actual es inesperado, revise las directivas de red configuradas para reducir el uso hasta el umbral máximo o por debajo de él.

3.1.0
Capacidad máxima Crítico manager

Se ha infringido la capacidad máxima.

Cuando se detecta el evento: "El número de objetos definidos en el sistema para {nombre_visualización_capacidad} ha alcanzado los {recuento_uso_capacidad}, que es superior al recuento máximo admitido ({recuento_capacidad_admitido_máx} %). "

Cuando se resuelve el evento: "El número de objetos definidos en el sistema para {nombre_visualización_capacidad} ha alcanzado los {recuento_uso_capacidad}, que es igual o inferior al recuento máximo admitido ({recuento_capacidad_admitido_máx} %). "

Asegúrese de que el número de objetos de NSX creados se encuentre dentro de los límites admitidos por NSX. Si hay objetos sin utilizar; elimínelos mediante la API o la interfaz de usuario de NSX correspondientes del sistema. Considere aumentar el formato de todos los nodos de Manager o de Edge. Tenga en cuenta que el formato de cada tipo de nodo debe ser el mismo. Si no es así, se utilizarán los límites de capacidad del formato más bajo implementado.

3.1.0

Eventos de certificado

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Certificado caducado Crítico global-manager, manager

Un certificado caducó.

Cuando se detecta el evento: "El certificado {id_entidad} caducó. "

Cuando se resuelve el evento: "El certificado caducado {id_entidad} se eliminó o ya no está caducado. "

Asegúrese de que se actualicen los servicios que están utilizando el certificado para que usen un nuevo certificado que no caduque. Una vez que el certificado caducado no esté en uso, deberá eliminarse invocando la siguiente NSX API: DELETE {ruta_colección_api}{id_entidad}. Si la plataforma NAPP utiliza el certificado caducado, se interrumpirá la conexión entre NSX y la plataforma NAPP. Consulte el documento de solución de problemas de la plataforma NAPP para utilizar un certificado de CA de NAPP autofirmado para recuperar la conexión.

3.0.0
El certificado está a punto de caducar Alto global-manager, manager

Un certificado está a punto de caducar.

Cuando se detecta el evento: "El certificado {id_entidad} está a punto de caducar. "

Cuando se resuelve el evento: "El certificado que iba a caducar {id_entidad} se eliminó o ya no está a punto de caducar. "

Asegúrese de que los servicios que están utilizando el certificado se actualicen para usar un nuevo certificado que no esté a punto de caducar. Una vez que el certificado que iba a caducar no esté en uso, deberá eliminarse invocando la siguiente NSX API: DELETE {ruta_colección_api}{id_entidad}.

3.0.0
Método de caducidad de certificados Mediano global-manager, manager

Un certificado caducará pronto.

Cuando se detecta el evento: "El certificado {id_entidad} caducará pronto. "

Cuando se resuelve el evento: "El certificado que iba a caducar {id_entidad} se eliminó o su fecha de caducidad ya no está próxima. "

Asegúrese de que los servicios que están utilizando el certificado se actualicen para usar un nuevo certificado que no esté a punto de caducar. Una vez que el certificado que iba a caducar no esté en uso, deberá eliminarse invocando la siguiente NSX API: DELETE {ruta_colección_api}{id_entidad}.

3.0.0
Actualización del paquete de CA recomendada Alto global-manager, manager

Se recomienda actualizar un paquete de CA de confianza.

Cuando se detecta el evento: "El paquete de CA de confianza {id_entidad} se actualizó hace más de {umbral_antigüedad_paquete_ca} días. Le recomendamos actualizar el paquete de CA de confianza. "

Cuando se resuelve el evento: "El paquete de CA de confianza {id_entidad} se eliminó, se actualizó o ya no está en uso. "

Asegúrese de que los servicios que utilizan actualmente el paquete de CA de confianza estén actualizados para utilizar un paquete de CA de confianza actualizado recientemente. A menos que sea un paquete proporcionado por el sistema, el paquete se puede actualizar mediante la NSX API PUT /policy/api/v1/infra/cabundles/{id_entidad}. Una vez que el paquete caducado ya no está en uso, debe eliminarse (si no está proporcionado por el sistema) invocando la NSX API DELETE /policy/api/v1/infra/cabundles/{id_entidad}.

3.2.0
Actualización del paquete de CA sugerida Mediano global-manager, manager

Se sugiere actualizar un paquete de CA de confianza.

Cuando se detecta el evento: "El paquete de CA de confianza {id_entidad} se actualizó hace más de {umbral_antigüedad_paquete_ca} días. Se sugiere actualización del paquete de CA de confianza. "

Cuando se resuelve el evento: "El paquete de CA de confianza {id_entidad} se eliminó, se actualizó o ya no está en uso. "

Asegúrese de que los servicios que utilizan actualmente el paquete de CA de confianza estén actualizados para utilizar un paquete de CA de confianza actualizado recientemente. A menos que sea un paquete proporcionado por el sistema, el paquete se puede actualizar mediante la NSX API PUT /policy/api/v1/infra/cabundles/{id_entidad}. Una vez que el paquete caducado ya no está en uso, debe eliminarse (si no está proporcionado por el sistema) invocando la NSX API DELETE /policy/api/v1/infra/cabundles/{id_entidad}.

3.2.0
El certificado del nodo de transporte caducó Crítico bms, edge, esx, kvm, public-cloud-gateway

Un certificado caducó.

Cuando se detecta el evento: "El certificado caducó para el nodo de transporte {id_entidad}. "

Cuando se resuelve el evento: "El certificado caducado del nodo de transporte {id_entidad} se reemplazó o ya no está caducado. "

Reemplace el certificado del nodo de transporte {id_entidad} por un certificado que no esté caducado. El certificado caducado debe reemplazarse invocando NSX API POST /api/v1/trust-management/certificates/action/replace-host-certificate/{id_entidad}. Si el nodo de transporte utiliza el certificado caducado, se interrumpirá la conexión entre el nodo de transporte y el nodo de Manager.

4.1.0
El certificado del nodo de transporte está a punto de caducar Alto bms, edge, esx, kvm, public-cloud-gateway

Un certificado está a punto de caducar.

Cuando se detecta el evento: "El certificado del nodo de transporte {id_entidad} está a punto de caducar. "

Cuando se resuelve el evento: "El certificado que iba a caducar del nodo de transporte {id_entidad} se eliminó o ya no está a punto de caducar. "

Reemplace el certificado del nodo de transporte {id_entidad} por un certificado que no esté caducado. El certificado caducado debe reemplazarse invocando NSX API POST /api/v1/trust-management/certificates/action/replace-host-certificate/{id_entidad}. Si no se reemplaza el certificado, cuando este caduque se interrumpirá la conexión entre el nodo de transporte y el nodo de Manager.

4.1.0
La caducidad del certificado del nodo de transporte está próxima Mediano bms, edge, esx, kvm, public-cloud-gateway

Un certificado caducará pronto.

Cuando se detecta el evento: "El certificado del nodo de transporte {id_entidad} caducará pronto. "

Cuando se resuelve el evento: "El certificado que iba a caducar del nodo de transporte {id_entidad} se eliminó o su fecha de caducidad ya no está próxima. "

Reemplace el certificado del nodo de transporte {id_entidad} por un certificado que no esté caducado. El certificado caducado debe reemplazarse invocando NSX API POST /api/v1/trust-management/certificates/action/replace-host-certificate/{id_entidad}. Si no se reemplaza el certificado, cuando este caduque se interrumpirá la conexión entre el nodo de transporte y el nodo de Manager.

4.1.0

Eventos de agrupación de clústeres

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Clúster degradado Mediano global-manager, manager

El miembro del grupo está inactivo.

Cuando se detecta el evento: "El miembro del grupo {id_nodo_manager} del servicio {tipo_grupo} está inactivo. "

Cuando se resuelve el evento: "El miembro del grupo {id_nodo_manager} de {tipo_grupo} está activo. "

1. Invoque el comando de la CLI de NSX 'get cluster status' para ver el estado de los miembros del grupo del clúster.
2. Asegúrese de que el servicio de {tipo_grupo} se esté ejecutando en el nodo. Invoque la NSX API GET /api/v1/node/services/&ltnombre_servicio&gt/status o el comando de la CLI de NSX get service &ltnombre_servicio&gt para determinar si el servicio se está ejecutando. Si no se está ejecutando, invoque la NSX API POST /api/v1/node/services/&ltnombre_servicio&gt?action=restart o la CLI de NSX restart service &ltnombre_servicio&gt para reiniciar el servicio.
3. Compruebe en /var/log/ del servicio {tipo_grupo} si se notificaron errores.

3.2.0
Clúster no disponible Alto global-manager, manager

Todos los miembros del grupo del servicio están inactivos.

Cuando se detecta el evento: "Todos los miembros del grupo {ids_nodo_manager} del servicio {tipo_grupo} están inactivos. "

Cuando se resuelve el evento: "Todos los miembros del grupo {ids_nodo_manager} del servicio {tipo_grupo} están activos. "

1. Asegúrese de que el servicio de {tipo_grupo} se esté ejecutando en el nodo. Invoque la NSX API GET /api/v1/node/services/&ltnombre_servicio&gt/status o el comando de la CLI de NSX get service &ltnombre_servicio&gt para determinar si el servicio se está ejecutando. Si no se está ejecutando, invoque la NSX API POST /api/v1/node/services/&ltnombre_servicio&gt?action=restart o la CLI de NSX restart service &ltnombre_servicio&gt para reiniciar el servicio.
2. Compruebe en /var/log/ del servicio {tipo_grupo} si se notificaron errores.

3.2.0

Eventos de estado de CNI

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Conexión de HyperBus con Manager inactiva en DPU Mediano dpu

HyperBus en la DPU se puede comunicarse con el nodo de Manager.

Cuando se detecta el evento: "HyperBus en la DPU {id_dpu} no se puede comunicar con el nodo de Manager. "

Cuando se resuelve el evento: "HyperBus en la DPU {id_dpu} se puede comunicar con el nodo de Manager. "

Es posible que falte la interfaz de VMkernel de HyperBus (vmk50) en la DPU {id_dpu}. Consulte el artículo de la base de conocimientos https://kb.vmware.com/s/article/67432.

4.0.0
Conexión de HyperBus con Manager inactiva Mediano esx, kvm

HyperBus no se puede comunicar con el nodo de Manager.

Cuando se detecta el evento: "HyperBus no se puede comunicar con el nodo de Manager. "

Cuando se resuelve el evento: "HyperBus se puede comunicar con el nodo de Manager. "

Es posible que falte la interfaz de VMkernel de HyperBus (vmk50). Consulte el artículo de la base de conocimientos https://kb.vmware.com/s/article/67432.

3.0.0

Eventos de comunicación

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Disponibilidad limitada en DPU Mediano dpu

No se puede acceder al recopilador especificado a través de vmknic(s) en el DVS especificado en DPU.

Cuando se detecta el evento: "No se puede acceder al recopilador de {nombre_vertical} {ip_recopilador} a través de vmknics (pila {alias_pila}) en DVS {alias_dvs} en DPU {id_dpu}, pero se puede acceder a él a través de vmknic(s) (pila {alias_pila}) en otros DVS. "

Cuando se resuelve el evento: "Se puede acceder al recopilador de {nombre_vertical} {ip_recopilador} a través de vmknics (pila {alias_pila}) en DVS {alias_dvs} en DPU {id_dpu} o no se puede acceder al recopilador de {nombre_vertical} {ip_recopilador} por completo. "

Si la advertencia está activada, no significa que no se pueda acceder al recopilador. Los flujos exportados generados por la vertical basada en DVS {alias_dvs} pueden seguir llegando al recopilador {ip_recopilador} a través de vmknic(s) en DVS, además de DVS {alias_dvs}. Si esto no es aceptable, el usuario puede intentar crear vmknics con {alias_pila} de pila en DVS {alias_dvs} y configurarlo con una dirección IPv4(6) personalizada y, a continuación, comprobar si se puede acceder al recopilador de {nombre_vertical} {ip_recopilador} a través de las vmknics recién creadas en la DPU {id_dpu} invocando vmkping {ip_recopilador} -S {alias_pila} -I vmkX con SSH a DPU a través de ESXi habilitado.

4.0.1
Recopilador inaccesible en DPU Crítico dpu

No se puede acceder al recopilador especificado a través de vmknics existentes en DPU.

Cuando se detecta el evento: "No se puede acceder al recopilador de {nombre_vertical} {ip_recopilador} a través de vmknic(s) existentes (pila {alias_pila}) en cualquier DVS de DPU {id_dpu}. "

Cuando se resuelve el evento: "Se puede acceder al recopilador de {nombre_vertical} {ip_recopilador} con vmknics existentes (pila {alias_pila}) ahora en DPU {id_dpu}. "

Para que se pueda acceder al recopilador para la vertical especificada en el DVS, el usuario debe asegurarse de que haya vmknics con la pila esperada {alias_pila} creadas y configuradas con direcciones IPv4(6) adecuadas, y que la conexión de red al recopilador de {nombre_vertical} {ip_recopilador} también sea correcta. Por lo tanto, el usuario debe realizar la comprobación en DPU {id_dpu} y realizar la configuración necesaria para asegurarse de que se cumpla la condición. Por último, si vmkping {ip_recopilador} -S {alias_pila} con SSH a DPU a través de ESXi habilitado se realiza correctamente, esto indica que el problema está resuelto.

4.0.1
Latencia del clúster de Manager alta Mediano manager

El promedio de latencia de red entre los nodos de Manager es alto.

Cuando se detecta el evento: "El promedio de latencia de red entre los nodos de Manager {id_nodo_manager} ({dirección_dispositivo}) y {id_nodo_manager_remoto} ({dirección_dispositivo_remoto}) es superior a 10 ms durante los últimos 5 minutos. "

Cuando se resuelve el evento: "El promedio de latencia de red entre los nodos de Manager {id_nodo_manager} ({dirección_dispositivo}) y {id_nodo_manager_remoto} ({dirección_dispositivo_remoto}) no supera los 10 ms. "

Asegúrese de que no haya reglas de firewall que bloqueen el tráfico de ping entre los nodos de Manager. Si hay otros servidores de gran ancho de banda y aplicaciones que comparten la red local, considere moverlas a una red diferente.

3.1.0
Canal de control al nodo de Manager inactivo demasiado tiempo Crítico bms, edge, esx, kvm, public-cloud-gateway

La conexión del plano de control del nodo de transporte con el nodo de Manager está inactiva desde hace mucho tiempo.

Cuando se detecta el evento: "La conexión del plano de control del nodo de transporte {id_entidad} con el nodo de Manager {dirección_dispositivo} está inactiva desde hace al menos {tiempo_de_espera_en_minutos} minutos desde el punto de vista del nodo de transporte. "

Cuando se resuelve el evento: "El nodo de transporte {id_entidad} restaura la conexión del plano de control con el nodo de Manager {dirección_dispositivo}. "

1. Compruebe la conectividad desde el nodo de transporte {id_entidad} a la interfaz del nodo de Manager {dirección_dispositivo} haciendo ping. Si no se puede hacer ping, compruebe si la conectividad de red es inestable.
2. Compruebe si las conexiones TCP se establecen mediante la salida de netstat para ver si el servicio de controlador en el nodo de Manager {dirección_dispositivo} está escuchando las conexiones en el puerto 1235. Si no es así, compruebe las reglas del firewall (o) iptables para ver si el puerto 1235 está bloqueando las solicitudes de conexión del nodo de transporte {id_entidad}. Asegúrese de que no haya firewalls de host ni firewalls de red subyacentes bloqueando los puertos IP requeridos entre los nodos de Manager y los nodos de transporte. Esto está documentado en nuestra herramienta de puertos y protocolos disponible aquí: https://ports.vmware.com/.
3. Es posible que el nodo de transporte {id_entidad} aún esté en modo de mantenimiento. Puede comprobar si el nodo de transporte está en modo de mantenimiento a través de la siguiente API: GET https://&ltnsx-mgr&gt/api/v1/transport-nodes/&ltuuid-tn&gt. Cuando se establece el modo de mantenimiento, el nodo de transporte no se conectará al servicio del controlador. Por lo general, esto ocurre cuando la actualización del host está en curso. Espere unos minutos y vuelva a comprobar la conectividad.

3.1.0
Canal de control a nodo de Manager inactivo Mediano bms, edge, esx, kvm, public-cloud-gateway

La conexión del plano de control del nodo de transporte al nodo de Manager está inactiva.

Cuando se detecta el evento: "La conexión del plano de control del nodo de transporte {id_entidad} con el nodo de Manager {dirección_dispositivo} está inactiva desde hace al menos {tiempo_de_espera_en_minutos} minutos desde el punto de vista del nodo de transporte. "

Cuando se resuelve el evento: "El nodo de transporte {id_entidad} restaura la conexión del plano de control con el nodo de Manager {dirección_dispositivo}. "

1. Compruebe la conectividad desde el nodo de transporte {id_entidad} a la interfaz del nodo de Manager {dirección_dispositivo} haciendo ping. Si no se puede hacer ping, compruebe si la conectividad de red es inestable.
2. Compruebe si las conexiones TCP se establecen mediante la salida de netstat para ver si el servicio de controlador en el nodo de Manager {dirección_dispositivo} está escuchando las conexiones en el puerto 1235. Si no es así, compruebe las reglas del firewall (o) iptables para ver si el puerto 1235 está bloqueando las solicitudes de conexión del nodo de transporte {id_entidad}. Asegúrese de que no haya firewalls de host ni firewalls de red subyacentes bloqueando los puertos IP requeridos entre los nodos de Manager y los nodos de transporte. Esto está documentado en nuestra herramienta de puertos y protocolos disponible aquí: https://ports.vmware.com/.
3. Es posible que el nodo de transporte {id_entidad} aún esté en modo de mantenimiento. Puede comprobar si el nodo de transporte está en modo de mantenimiento a través de la siguiente API: GET https://&ltnsx-mgr&gt/api/v1/transport-nodes/&ltuuid-tn&gt Cuando se establece el modo de mantenimiento, el nodo de transporte no se conectará al servicio del controlador. Por lo general, esto ocurre cuando la actualización del host está en curso. Espere unos minutos y vuelva a comprobar la conectividad. Nota: Esta alarma no es crítica y debe resolverse. No es necesario que se ponga en contacto con GSS para notificar esta alarma, a menos que la alarma permanezca sin resolver durante un período de tiempo prolongado.

3.1.0
Canal de control a nodo de transporte inactivo Mediano manager

La conexión del servicio de controlador al nodo de transporte está inactiva.

Cuando se detecta el evento: "El servicio del controlador en el nodo de Manager {dirección_dispositivo} ({id_plano_control_central}) al nodo de transporte {nombre_nodo_transporte} ({id_entidad}) está inactivo desde hace al menos tres minutos desde el punto de vista del servicio del controlador. "

Cuando se resuelve el evento: "El servicio del controlador en el nodo de Manager {dirección_dispositivo} ({id_plano_control_central}) restaura la conexión con el nodo de transporte {id_entidad}. "

1. Compruebe la conectividad desde el servicio de controlador {id_plano_control_central} y la interfaz del nodo de transporte {id_entidad} mediante ping y traceroute. Esto se puede realizar en la CLI admin del nodo de NSX Manager. La prueba de ping no debe detectar descartes y debe tener valores de latencia coherentes. VMware recomienda valores de latencia de 150 ms o menos.
2. Desplácese hasta Sistema | Tejido | Nodos | Nodo de transporte {id_entidad} en la interfaz de usuario de NSX para comprobar si se establecieron las conexiones TCP entre el servicio de controladores en el nodo de Manager {dirección_dispositivo} ({id_plano_control_central}) y el nodo de transporte {id_entidad}. Si no es así, compruebe las reglas del firewall en la red y los hosts para ver si el puerto 1235 está bloqueando las solicitudes de conexión del nodo de transporte {id_entidad}. Asegúrese de que no haya firewalls de host ni firewalls de red subyacentes bloqueando los puertos IP requeridos entre los nodos de Manager y los nodos de transporte. Esto está documentado en nuestra herramienta de puertos y protocolos disponible aquí: https://ports.vmware.com/.

3.1.0
Canal de control a nodo de transporte inactivo mucho tiempo Crítico manager

La conexión del servicio de controlador al nodo de transporte lleva inactiva demasiado tiempo.

Cuando se detecta el evento: "El servicio del controlador en el nodo de Manager {dirección_dispositivo} ({id_plano_control_central}) al nodo de transporte {nombre_nodo_transporte} ({id_entidad}) está inactivo desde hace al menos 15 minutos desde el punto de vista del servicio del controlador. "

Cuando se resuelve el evento: "El servicio del controlador en el nodo de Manager {dirección_dispositivo} ({id_plano_control_central}) restaura la conexión con el nodo de transporte {id_entidad}. "

1. Compruebe la conectividad desde el servicio de controlador {id_plano_control_central} y la interfaz del nodo de transporte {id_entidad} mediante ping y traceroute. Esto se puede realizar en la CLI admin del nodo de NSX Manager. La prueba de ping no debe detectar descartes y debe tener valores de latencia coherentes. VMware recomienda valores de latencia de 150 ms o menos.
2. Desplácese hasta Sistema | Tejido | Nodos | Nodo de transporte {id_entidad} en la interfaz de usuario de NSX para comprobar si se establecieron las conexiones TCP entre el servicio de controladores en el nodo de Manager {dirección_dispositivo} ({id_plano_control_central}) y el nodo de transporte {id_entidad}. Si no es así, compruebe las reglas del firewall en la red y los hosts para ver si el puerto 1235 está bloqueando las solicitudes de conexión del nodo de transporte {id_entidad}. Asegúrese de que no haya firewalls de host ni firewalls de red subyacentes bloqueando los puertos IP requeridos entre los nodos de Manager y los nodos de transporte. Esto está documentado en nuestra herramienta de puertos y protocolos disponible aquí: https://ports.vmware.com/.

3.1.0
Canal de control de Manager inactivo Crítico manager

El canal de Manager al controlador está inactivo.

Cuando se detecta el evento: "Se produjo un error de comunicación entre la función de administración y la función de control en el nodo de Manager {nombre_nodo_manager} ({dirección_dispositivo}). "

Cuando se resuelve el evento: "La comunicación entre la función de administración y la función de control se restauró en el nodo de Manager {nombre_nodo_manager} ({dirección_dispositivo}). "

1. En el nodo de administración {nombre_nodo_manager} ({dirección_dispositivo}), invoque el siguiente comando de la CLI de NSX: get service applianceproxy para comprobar periódicamente el estado del servicio durante 60 minutos.
2. Si el servicio no se está ejecutando durante más de 60 minutos, invoque el siguiente comando de la CLI de NSX: restart service applianceproxy y vuelva a comprobar el estado. Si el servicio sigue inactivo, póngase en contacto con el servicio de soporte de VMware.

3.0.2
Canal de administración para el nodo de transporte inactivo Mediano manager

El canal de administración para el nodo de transporte está inactivo.

Cuando se detecta el evento: "El canal de administración al nodo de transporte {nombre_nodo_transporte} ({dirección_nodo_transporte}) lleva inactivo 5 minutos. "

Cuando se resuelve el evento: "El canal de administración al nodo de transporte {nombre_nodo_transporte} ({dirección_nodo_transporte}) está activo. "

Asegúrese de que haya conectividad de red entre los nodos de Manager y el nodo de transporte {nombre_nodo_transporte} ({dirección_nodo_transporte}) y que ningún firewall bloquee el tráfico entre los nodos. En los nodos de transporte de Windows, asegúrese de que se esté ejecutando el servicio nsx-proxy invocando el comando C:\NSX\nsx-proxy\nsx-proxy.ps1 status en Windows PowerShell. Si no se está ejecutando, reinícielo con el comando C:\NSX\nsx-proxy\nsx-proxy.ps1 restart. En todos los nodos de transporte, asegúrese de que se esté ejecutando el servicio nsx-proxy invocando el comando /etc/init.d/nsx-proxy status. Si no se está ejecutando, reinícielo con el comando /etc/init.d/nsx-proxy restart.

3.0.2
Canal de administración para el nodo de transporte inactiva mucho tiempo Crítico manager

El canal de administración al nodo de transporte lleva inactivo demasiado tiempo.

Cuando se detecta el evento: "El canal de administración al nodo de transporte {nombre_nodo_transporte} ({dirección_nodo_transporte}) lleva inactivo 15 minutos. "

Cuando se resuelve el evento: "El canal de administración al nodo de transporte {nombre_nodo_transporte} ({dirección_nodo_transporte}) está activo. "

Asegúrese de que haya conectividad de red entre los nodos de Manager y el nodo de transporte {nombre_nodo_transporte} ({dirección_nodo_transporte}) y que ningún firewall bloquee el tráfico entre los nodos. En los nodos de transporte de Windows, asegúrese de que se esté ejecutando el servicio nsx-proxy invocando el comando C:\NSX\nsx-proxy\nsx-proxy.ps1 status en Windows PowerShell. Si no se está ejecutando, reinícielo con el comando C:\NSX\nsx-proxy\nsx-proxy.ps1 restart. En todos los nodos de transporte, asegúrese de que se esté ejecutando el servicio nsx-proxy invocando el comando /etc/init.d/nsx-proxy status. Si no se está ejecutando, reinícielo con el comando /etc/init.d/nsx-proxy restart.

3.0.2
Error de búsqueda de FQDN de Manager Crítico global-manager, bms, edge, esx, kvm, manager, public-cloud-gateway

Error en la búsqueda de DNS para el FQDN del nodo de Manager.

Cuando se detecta el evento: "Se produjo un error en la búsqueda de DNS para el nodo de Manager {id_entidad} con el FQDN {fqdn_dispositivo}, y se estableció la marca publish_fqdns. "

Cuando se resuelve el evento: "La búsqueda de FQDN para el nodo de Manager {id_entidad} con el FQDN {fqdn_dispositivo} se realizó correctamente o se borró la marca publish_fqdns. "

1. Asigne los FQDN correctos a todos los nodos de Manager y compruebe que la configuración de DNS sea correcta para la búsqueda correcta de los FQDN de todos los nodos de Manager.
2. Como alternativa, deshabilite el uso de FQDN invocando la NSX API PUT /api/v1/configs/management con publish_fqdns establecido en false en el cuerpo de la solicitud. Después de esa llamada desde los nodos de transporte y desde Federation a los nodos de Manager en este clúster, solo se utilizarán direcciones IP.

3.1.0
Error de búsqueda inversa de FQDN de Manager Crítico global-manager, manager

Error en la búsqueda inversa de DNS para la dirección IP del nodo de Manager.

Cuando se detecta el evento: "Se produjo un error en la búsqueda inversa de DNS para el nodo de Manager {id_entidad} con la dirección IP {dirección_dispositivo} y se estableció la marca publish_fqdns. "

Cuando se resuelve el evento: "La búsqueda inversa de DNS para el nodo de Manager {id_entidad} con la dirección IP {dirección_dispositivo} se realizó correctamente o se borró la marca publish_fqdns. "

1. Asigne los FQDN correctos a todos los nodos de Manager y compruebe que la configuración de DNS sea correcta para la búsqueda inversa correcta de la dirección IP del nodo de Manager.
2. Como alternativa, deshabilite el uso de FQDN invocando la NSX API PUT /api/v1/configs/management con publish_fqdns establecido en false en el cuerpo de la solicitud. Después de esa llamada desde los nodos de transporte y desde Federation a los nodos de Manager en este clúster, solo se utilizarán direcciones IP.

3.1.0
Canal de administración a nodo de Manager inactivo Mediano bms, edge, esx, kvm, public-cloud-gateway

El canal de administración para el nodo de Manager está inactivo.

Cuando se detecta el evento: "El canal de administración al nodo de Manager {id_nodo_manager} ({dirección_dispositivo}) está inactivo durante 5 minutos. "

Cuando se resuelve el evento: "El canal de administración al nodo de Manager {id_nodo_manager} ({dirección_dispositivo}) está activo. "

Asegúrese de que haya conectividad de red entre el nodo de transporte {id_nodo_transporte} y el nodo principal de Manager. Asegúrese también de que ningún firewall bloquee el tráfico entre los nodos. Asegúrese de que el servicio messaging-manager se esté ejecutando en los nodos de Manager mediante el comando /etc/init.d/messaging-manager status. Si el servicio messaging-manager no se está ejecutando, reinícielo invocando el comando /etc/init.d/messaging-manager restart.

3.2.0
Canal de administración a nodo de Manager inactivo mucho tiempo Crítico bms, edge, esx, kvm, public-cloud-gateway

El canal de administración al nodo de Manager lleva inactivo demasiado tiempo.

Cuando se detecta el evento: "El canal de administración al nodo de Manager {id_nodo_manager} ({dirección_dispositivo}) está inactivo durante 15 minutos. "

Cuando se resuelve el evento: "El canal de administración al nodo de Manager {id_nodo_manager} ({dirección_dispositivo}) está activo. "

Asegúrese de que haya conectividad de red entre el nodo de transporte {id_nodo_transporte} y los nodos principales de Manager. Asegúrese también de que ningún firewall bloquee el tráfico entre los nodos. Asegúrese de que el servicio messaging-manager se esté ejecutando en los nodos de Manager mediante el comando /etc/init.d/messaging-manager status. Si el servicio messaging-manager no se está ejecutando, reinícielo invocando el comando /etc/init.d/messaging-manager restart.

3.2.0
Latencia de red alta Mediano manager

La latencia de red del nodo de transporte de administración es alta.

Cuando se detecta el evento: "El promedio de la latencia de red entre los nodos de Manager y el host {nombre_nodo_transporte} ({dirección_nodo_transporte}) es superior a 150 ms durante 5 minutos. "

Cuando se resuelve el evento: "El promedio de latencia de red entre los nodos de Manager y el host {nombre_nodo_transporte} ({dirección_nodo_transporte}) es alto. "

1. Espere 5 minutos para ver si la alarma se resuelve automáticamente.
2. Haga ping al nodo de transporte de NSX desde el nodo de Manager. La prueba de ping no debe detectar descartes y debe tener valores de latencia coherentes. VMware recomienda valores de latencia de 150 ms o menos.
3. Inspeccione si hay otros problemas de la capa de red física. Si el problema persiste, póngase en contacto con el servicio de soporte de VMware.

4.0.0

Eventos de DHCP

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Error en la asignación de concesión de grupo Alto edge, autonomous-edge, public-cloud-gateway

Se agotaron las direcciones IP en un grupo de direcciones IP.

Cuando se detecta el evento: "Se agotaron las direcciones del grupo de direcciones IP {id_entidad} del servidor DHCP {id_servidor_dhcp}. La última solicitud de DHCP falló y las solicitudes futuras fallarán. "

Cuando se resuelve el evento: "El grupo de direcciones IP {id_entidad} del servidor DHCP {id_servidor_dhcp} ya no está agotado. Una concesión se asignó correctamente a la última solicitud de DHCP. "

Revise la configuración del grupo de DHCP en la interfaz de usuario de NSX o en el nodo de Edge en el que se ejecuta el servidor DHCP invocando el comando de la CLI de NSX get dhcp ip-pool. También puede revisar las concesiones activas actuales en el nodo de Edge invocando el comando de la CLI de NSX get dhcp lease. Compare las concesiones con el número de máquinas virtuales activas. Es recomendable reducir el tiempo de concesión en la configuración del servidor DHCP si el número de máquinas virtuales es bajo en comparación con el número de concesiones activas. También puede expandir el rango de grupos del servidor DHCP en la página Redes | Segmentos | Segmento en la interfaz de usuario de NSX.

3.0.0
Grupo sobrecargado Mediano edge, autonomous-edge, public-cloud-gateway

Un grupo de direcciones IP está sobrecargado.

Cuando se detecta el evento: "El uso del grupo de direcciones IP {id_entidad} del servidor DHCP {id_servidor_dhcp} está a punto de agotarse, con un {uso_grupo_dhcp} % de las direcciones IP asignadas. "

Cuando se resuelve el evento: "El grupo de direcciones IP {id_entidad} del servidor DHCP {id_servidor_dhcp} descendió por debajo del umbral de uso elevado. "

Revise la configuración del grupo de DHCP en la interfaz de usuario de NSX o en el nodo de Edge en el que se ejecuta el servidor DHCP invocando el comando de la CLI de NSX get dhcp ip-pool. También puede revisar las concesiones activas actuales en el nodo de Edge invocando el comando de la CLI de NSX get dhcp lease. Compare las concesiones con el número de máquinas virtuales activas. Es recomendable reducir el tiempo de concesión en la configuración del servidor DHCP si el número de máquinas virtuales es bajo en comparación con el número de concesiones activas. También puede expandir el rango de grupos del servidor DHCP en la página Redes | Segmentos | Segmento en la interfaz de usuario de NSX.

3.0.0

Eventos de firewall distribuido

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Uso de CPU de DFW muy alto Crítico esx

El uso de la CPU del DFW es muy alto.

Cuando se detecta el evento: "El uso de CPU del DFW en el nodo de transporte {id_entidad} alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de CPU del DFW en el nodo de transporte {id_entidad} alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts. Revise el diseño de seguridad para optimizarlo. Por ejemplo, utilice la configuración de apply-to si las reglas no se aplican a todo el centro de datos.

3.0.0
Uso de CPU de DFW muy alto en DPU Crítico dpu

El uso de CPU de DFW es muy alto en DPU.

Cuando se detecta el evento: "El uso de CPU del DFW en el nodo de transporte {id_entidad} alcanzó el {uso_recurso_sistema} % en la DPU {id_dpu}, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de CPU del DFW en el nodo de transporte {id_entidad} alcanzó el {uso_recurso_sistema} % en la DPU {id_dpu}, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts. Revise el diseño de seguridad para optimizarlo. Por ejemplo, utilice la configuración de apply-to si las reglas no se aplican a todo el centro de datos.

4.0.0
Uso de memoria de DFW muy alto Crítico esx

El uso de la memoria del DFW es muy alto.

Cuando se detecta el evento: "El uso de memoria del DFW {tipo_pila} en el nodo de transporte {id_entidad} alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de memoria del DFW {tipo_pila} en el nodo de transporte {id_entidad} alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Para ver el uso actual de la memoria de DFW, invoque el comando de la CLI de NSX get firewall thresholds en el host. Es recomendable volver a equilibrar las cargas de trabajo en este host con otros hosts.

3.0.0
Uso de memoria de DFW muy alto en DPU Crítico dpu

El uso de memoria de DFW es muy alto en DPU.

Cuando se detecta el evento: "El uso de memoria del DFW {tipo_pila} en el nodo de transporte {id_entidad} alcanzó el {uso_recurso_sistema} % en la DPU {id_dpu}, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de memoria del DFW {tipo_pila} en el nodo de transporte {id_entidad} alcanzó el {uso_recurso_sistema} % en la DPU {id_dpu}, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Para ver el uso actual de la memoria de DFW, invoque el comando de la CLI de NSX get firewall thresholds en la DPU. Es recomendable volver a equilibrar las cargas de trabajo en este host con otros hosts.

4.0.0
Error de vMotion de DFW Crítico esx

Error de vMotion de DFW (puerto desconectado).

Cuando se detecta el evento: "vMotion de DFW para el filtro de DFW {id_entidad} en el host de destino {nombre_nodo_transporte} falló y se desconectó el puerto de la entidad. "

Cuando se resuelve el evento: "La configuración de DFW para el filtro de DFW {id_entidad} en el host de destino {nombre_nodo_transporte} se completó correctamente y se borró el error causado por un fallo de vMotion de DFW. "

Compruebe las máquinas virtuales del host en NSX Manager, vuelva a insertar manualmente la configuración de DFW a través de la interfaz de usuario de NSX Manager. El filtro de DFW {id_entidad} puede rastrear la directiva de DFW que se va a volver a insertar. También puede buscar la máquina virtual a la que está asociado el filtro de DFW y reiniciarla.

3.2.0
Límite de advertencia de inundación de DFW Mediano esx

El límite de inundación de DFW alcanzó el nivel de advertencia.

Cuando se detecta el evento: "El límite de inundación de DFW para el filtro de DFW {id_entidad} en el host {nombre_nodo_transporte} alcanzó el nivel de advertencia del 80 % del límite configurado para el protocolo {nombre_protocolo}. "

Cuando se resuelve el evento: "Se borró la condición de límite de inundación de advertencia para el filtro de DFW {id_entidad} en el host {nombre_nodo_transporte} para el protocolo {nombre_protocolo}. "

Compruebe las máquinas virtuales del host en NSX Manager y compruebe el nivel de advertencia de inundación configurado del filtro de DFW {id_entidad} para el protocolo {nombre_protocolo}.

4.1.0
Límite crítico de inundación de DFW Crítico esx

El límite de inundación de DFW alcanzó el nivel crítico.

Cuando se detecta el evento: "El límite de inundación de DFW para el filtro de DFW {id_entidad} en el host {nombre_nodo_transporte} alcanzó el nivel crítico del 98% del límite configurado para el protocolo {nombre_protocolo}. "

Cuando se resuelve el evento: "Se borró la condición de límite de inundación crítico para el filtro de DFW {id_entidad} en el host {nombre_nodo_transporte} para el protocolo {nombre_protocolo}. "

Compruebe las máquinas virtuales del host en NSX Manager y compruebe el nivel crítico de inundación configurado del filtro de DFW {id_entidad} para el protocolo {nombre_protocolo}.

4.1.0
Número alto de sesiones de DFW Crítico esx

El número de sesiones de DFW es alto.

Cuando se detecta el evento: "El número de sesiones del DFW es alto en el nodo de transporte {id_entidad}. Alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El número de sesiones del DFW en el nodo de transporte {id_entidad} alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral del {umbral_uso_sistema} %. "

Revise el nivel de carga de tráfico de red de las cargas de trabajo en el host. Es recomendable volver a equilibrar las cargas de trabajo en este host con otros hosts.

3.2.0
Se superó el límite de reglas de DFW por vNIC Crítico esx

El límite de reglas de DFW por vNIC está a punto de superar el límite máximo.

Cuando se detecta el evento: "El límite de reglas de DFW para la VIF {id_entidad} en el host de destino {nombre_nodo_transporte} está a punto de superar el límite máximo. "

Cuando se resuelve el evento: "El límite de reglas de DFW para VIF {id_entidad} en el host de destino {nombre_nodo_transporte} bajó por debajo del límite máximo. "

Inicie sesión en el host ESX {nombre_nodo_transporte} e invoque el comando de la CLI de NSX get firewall &ltUUID_VIF&gt ruleset rules para obtener las estadísticas de las reglas configuradas en la VIF correspondiente. Reduzca el número de reglas configuradas para la VIF {id_entidad}.

4.0.0
El límite de reglas de DFW por vNIC está próximo Mediano esx

El límite de reglas de DFW por vNIC está próximo al límite máximo.

Cuando se detecta el evento: "El límite de reglas de DFW para la VIF {id_entidad} en el host de destino {nombre_nodo_transporte} está próximo al límite máximo. "

Cuando se resuelve el evento: "El límite de reglas de DFW para VIF {id_entidad} en el host de destino {nombre_nodo_transporte} bajó del límite máximo. "

Inicie sesión en el host ESX {nombre_nodo_transporte} e invoque el comando de la CLI de NSX get firewall &ltUUID_VIF&gt ruleset rules para obtener las estadísticas de las reglas configuradas en la VIF correspondiente. Reduzca el número de reglas configuradas para la VIF {id_entidad}.

4.0.0
Se superó el límite de reglas de DFW por host Crítico esx

El límite de reglas de DFW por host está a punto de superar el límite máximo.

Cuando se detecta el evento: "El límite de reglas de DFW para el host {nombre_nodo_transporte} está a punto de superar el límite máximo. "

Cuando se resuelve el evento: "El límite de reglas de DFW para el host {nombre_nodo_transporte} bajó del límite máximo. "

Inicie sesión en el host ESX {nombre_nodo_transporte} e invoque el comando de la CLI de NSX get firewall rule-stats total para obtener las estadísticas de las reglas configuradas en el host ESX {nombre_nodo_transporte}. Reduzca el número de reglas configuradas para el host {nombre_nodo_transporte}. Compruebe el número de reglas configuradas para varias VIF usando el comando de la CLI de NSX get firewall &ltUUID_VIF&gt ruleset rules. Reduzca el número de reglas configuradas para varias VIF.

4.0.0
El límite de reglas de DFW por host está próximo Mediano esx

El límite de reglas de DFW por host está próximo al límite máximo.

Cuando se detecta el evento: "El límite de reglas de DFW para el host {nombre_nodo_transporte} está próximo al límite máximo. "

Cuando se resuelve el evento: "El límite de reglas de DFW para el host {nombre_nodo_transporte} bajó del umbral. "

Inicie sesión en el host ESX {nombre_nodo_transporte} e invoque el comando de la CLI de NSX get firewall rule-stats total para obtener las estadísticas de las reglas configuradas en el host ESX {nombre_nodo_transporte}. Reduzca el número de reglas configuradas para el host {nombre_nodo_transporte}. Compruebe el número de reglas configuradas para varias VIF usando el comando de la CLI de NSX get firewall &ltUUID_VIF&gt ruleset rules. Reduzca el número de reglas configuradas para varias VIF.

4.0.0

Eventos de IDS/IPS distribuido

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Se alcanzó el número máximo de eventos Mediano manager

Se alcanzó el número máximo de eventos de intrusión.

Cuando se detecta el evento: "El número de eventos de intrusión del sistema es {número_eventos_ids}, que es superior al valor máximo permitido ({máx_eventos_ids_permitidos}). "

Cuando se resuelve el evento: "El número de eventos de intrusión del sistema es {número_eventos_ids}, que es inferior al valor máximo permitido ({máx_eventos_ids_permitidos}). "

No se requiere ninguna intervención manual. Se iniciará automáticamente un trabajo de purga cada 3 minutos que eliminará el 10 % de los registros anteriores para que el número total de eventos de intrusión en el sistema sea menor que el valor del umbral de 1,5 millones de eventos.

3.1.0
Uso de memoria del motor NSX IDPS alto Mediano esx

El uso de la memoria del motor NSX IDPS alcanzó al menos el 75%.

Cuando se detecta el evento: "El uso de la memoria del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto del 75 %. "

Cuando se resuelve el evento: "El uso de la memoria del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es inferior al valor del umbral alto del 75 %. "

Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts.

3.1.0
Uso de memoria del motor NSX IDPS alto en DPU Mediano dpu

El uso de la memoria del motor NSX IDPS alcanzó al menos el 75 % en DPU.

Cuando se detecta el evento: "El uso de la memoria del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto del 75 % en la DPU {id_dpu}. "

Cuando se resuelve el evento: "El uso de la memoria del motor NSX-IDPS alcanzó el {uso_recurso_sistema} % en la DPU {id_dpu}, que es inferior al valor del umbral alto del 75 %. "

Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts.

4.0.0
Uso de memoria del motor NSX IDPS medio alto Alto esx

El uso de la memoria del motor NSX IDPS alcanzó al menos el 85 %.

Cuando se detecta el evento: "El uso de la memoria del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto medio del 85%. "

Cuando se resuelve el evento: "El uso de la memoria del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es inferior al valor del umbral alto medio del 85%. "

Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts.

3.1.0
Uso de memoria del motor NSX IDPS medio en DPU Alto dpu

El uso de la memoria del motor NSX IDPS alcanzó al menos el 85% en DPU.

Cuando se detecta el evento: "El uso de la memoria del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto medio del 85% en la DPU {id_dpu}. "

Cuando se resuelve el evento: "El uso de la memoria del motor NSX-IDPS alcanzó el {uso_recurso_sistema} % en la DPU {id_dpu}, que es inferior al valor del umbral alto medio del 85%. "

Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts.

4.0.0
Uso de memoria del motor NSX IDPS muy alto Crítico esx

El uso de la memoria del motor NSX IDPS alcanzó al menos el 95 %.

Cuando se detecta el evento: "El uso de la memoria del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del 95%. "

Cuando se resuelve el evento: "El uso de la memoria del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es inferior al valor del umbral muy alto del 95%. "

Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts.

3.1.0
Uso de memoria del motor NSX IDPS muy alto en DPU Crítico dpu

El uso de la memoria del motor NSX IDPS alcanzó al menos el 95% en DPU.

Cuando se detecta el evento: "El uso de la memoria del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del 95 % en la DPU {id_dpu}. "

Cuando se resuelve el evento: "El uso de la memoria del motor NSX-IDPS alcanzó el {uso_recurso_sistema} % en la DPU {id_dpu}, que es inferior al valor del umbral muy alto del 95%. "

Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts.

4.0.0
Uso de CPU del motor NSX IDPS alto Mediano esx

El uso de la CPU del motor NSX IDPS alcanzó al menos el 75 %.

Cuando se detecta el evento: "El uso de la CPU del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto del 75 %. "

Cuando se resuelve el evento: "El uso de la CPU del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es inferior al valor del umbral alto del 75 %. "

Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts.

3.1.0
Uso de CPU del motor NSX IDPS medio Alto esx

El uso de la CPU del motor NSX IDPS alcanzó al menos el 85 %.

Cuando se detecta el evento: "El uso de la CPU del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto medio del 85 %. "

Cuando se resuelve el evento: "El uso de la CPU del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es inferior al valor del umbral alto medio del 85%. "

Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts.

3.1.0
Uso de CPU del motor NSX IDPS muy alto Crítico esx

El uso de la CPU del motor NSX IDPS superó el 95 %.

Cuando se detecta el evento: "El uso de la CPU del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del 95%. "

Cuando se resuelve el evento: "El uso de la CPU del motor NSX-IDPS ha alcanzado el {uso_recurso_sistema} %, que es inferior al valor del umbral muy alto del 95%. "

Es recomendable volver a equilibrar las cargas de trabajo de la máquina virtual en este host con otros hosts.

3.1.0
Motor NSX IDPS inactivo Crítico esx

NSX IDPS está habilitado a través de la directiva de NSX y las reglas IDPS están configuradas, pero el motor NSX-IDPS está inactivo.

Cuando se detecta el evento: "NSX IDPS está habilitado a través de la directiva de NSX y las reglas IDPS están configuradas, pero el motor NSX-IDPS está inactivo. "

Cuando se resuelve el evento: "NSX IDPS se encuentra en uno de los siguientes casos. 1. NSX IDPS está deshabilitado a través de la directiva de NSX. 2. El motor NSX IDPS está habilitado, el motor NSX-IDPS y VDPI están activos, y NSX IDPS se habilitó y las reglas de IDPS se configuraron a través de la directiva de NSX. "

1. Compruebe /var/log/nsx-syslog.log para ver si se han notificado errores.
2. Invoque el siguiente comando de la CLI de NSX get ids engine status para comprobar si NSX Distributed IDPS está deshabilitado. Si es así, invoque /etc/init.d/nsx-idps start para iniciar el servicio.
3. Invoque /etc/init.d/nsx-vdpi status para comprobar si nsx-vdpi se está ejecutando. Si no es así, invoque /etc/init.d/nsx-vdpi start para iniciar el servicio.

3.1.0
Motor NSX IDPS inactivo en DPU Crítico dpu

NSX IDPS está habilitado a través de la directiva de NSX y las reglas IDPS están configuradas, pero el motor NSX-IDPS está inactivo en DPU.

Cuando se detecta el evento: "NSX IDPS está habilitado a través de la directiva de NSX y las reglas IDPS están configuradas, pero el motor NSX-IDPS está inactivo en DPU {id_dpu}. "

Cuando se resuelve el evento: "NSX IDPS se encuentra en uno de los siguientes casos en la DPU {id_dpu}. 1. NSX IDPS está deshabilitado a través de la directiva de NSX. 2. El motor NSX IDPS está habilitado, el motor NSX-IDPS y VDPI están activos, y NSX IDPS se habilitó y las reglas de IDPS se configuraron a través de la directiva de NSX. "

1. Compruebe /var/log/nsx-idps/nsx-idps.log y /var/log/nsx-syslog.log para ver si se notificaron errores.
2. Invoque el siguiente comando de la CLI de NSX get ids engine status para comprobar si NSX Distributed IDPS está deshabilitado. Si es así, invoque /etc/init.d/nsx-idps start para iniciar el servicio.
3. Invoque /etc/init.d/nsx-vdpi status para comprobar si nsx-vdpi se está ejecutando. Si no es así, invoque /etc/init.d/nsx-vdpi start para iniciar el servicio.

4.0.0
Sobresuscripción de CPU del motor de IDPS alta Mediano esx

El uso de la CPU para el motor IDPS distribuido es alto.

Cuando se detecta el evento: "El uso de la CPU del motor IDPS distribuido es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del motor IDPS distribuido es inferior al umbral alto del {umbral_uso_sistema} %. "

Revise el motivo de la sobresuscripción. Mueva algunas aplicaciones a un host diferente.

4.0.0
Sobresuscripción de CPU del motor de IDPS muy alta Alto esx

El uso de la CPU para el motor IDPS distribuido es muy alto.

Cuando se detecta el evento: "El uso de la CPU del motor IDPS distribuido es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del motor IDPS distribuido es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Revise el motivo de la sobresuscripción. Mueva algunas aplicaciones a un host diferente.

4.0.0
Sobresuscripción de red del motor de IDPS alta Mediano esx

El uso de la red para el motor IDPS distribuido es alto.

Cuando se detecta el evento: "El uso de la red del motor IDPS distribuido es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la red del motor IDPS distribuido es inferior al umbral alto del {umbral_uso_sistema} %. "

Revise el motivo de la sobresuscripción. Revise las reglas de IDPS para reducir la cantidad de tráfico sujeto al servicio IDPS.

4.0.0
Sobresuscripción de red del motor de IDPS muy alta Alto esx

El uso de la red para el motor IDPS distribuido es muy alto.

Cuando se detecta el evento: "El uso de la red del motor IDPS distribuido es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la red del motor IDPS distribuido es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Revise el motivo de la sobresuscripción. Revise las reglas de IDPS para reducir la cantidad de tráfico sujeto al servicio IDPS.

4.0.0
El motor IDPS descartó tráfico - Exceso de suscripciones de CPU Crítico esx

El motor IDPS distribuido descartó tráfico debido al exceso de suscripciones de la CPU

Cuando se detecta el evento: "El motor IDPS no tiene suficientes recursos de CPU y no puede mantener el ritmo del tráfico entrante, lo que provoca que se descarte el exceso de tráfico. Para obtener más información, inicie sesión en el host ESX y emita el siguiente comando: vsipioctl getdpiinfo -s y consulte las estadísticas de sobresuscripción. "

Cuando se resuelve el evento: "El motor IDPS distribuido tiene recursos de CPU adecuados y no descarta ningún tráfico. "

Revise el motivo de la sobresuscripción. Mueva algunas aplicaciones a un host diferente.

4.0.0
El motor IDPS descartó tráfico - Exceso de suscripciones de red Crítico esx

El motor IDPS distribuido descartó tráfico debido al exceso de suscripciones de la red

Cuando se detecta el evento: "El motor IDPS no puede mantener el ritmo del tráfico entrante, lo que provoca que se descarte el exceso de tráfico. Para obtener más información, inicie sesión en el host ESX y emita el siguiente comando: vsipioctl getdpiinfo -s y consulte las estadísticas de sobresuscripción. "

Cuando se resuelve el evento: "El motor IDPS distribuido no está descartando ningún tráfico. "

Revise el motivo de la sobresuscripción. Revise las reglas de IDPS para reducir la cantidad de tráfico sujeto al servicio IDPS.

4.0.0
El motor IDPS omitió tráfico - Exceso de suscripciones de CPU Crítico esx

El motor IDPS distribuido omitió tráfico debido al exceso de suscripciones de la CPU

Cuando se detecta el evento: "El motor IDPS no tiene suficientes recursos de CPU y no puede mantener el ritmo del tráfico entrante, lo que provoca que se omita el exceso de tráfico. Para obtener más información, inicie sesión en el host ESX y emita el siguiente comando: vsipioctl getdpiinfo -s y consulte las estadísticas de sobresuscripción. "

Cuando se resuelve el evento: "El motor IDPS distribuido tiene recursos de CPU adecuados y no omite ningún tráfico. "

Revise el motivo de la sobresuscripción. Mueva algunas aplicaciones a un host diferente.

4.0.0
El motor IDPS omitió tráfico - Exceso de suscripciones de red Crítico esx

El motor IDPS distribuido omitió tráfico debido al exceso de suscripciones de la red

Cuando se detecta el evento: "El motor IDPS no puede mantener el ritmo del tráfico entrante, lo que provoca que se omita el exceso de tráfico. Para obtener más información, inicie sesión en el host ESX y emita el siguiente comando: vsipioctl getdpiinfo -s y consulte las estadísticas de sobresuscripción. "

Cuando se resuelve el evento: "El motor IDPS distribuido no está omitiendo ningún tráfico. "

Revise el motivo de la sobresuscripción. Revise las reglas de IDPS para reducir la cantidad de tráfico sujeto al servicio IDPS.

4.0.0

Eventos de DNS

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Reenviador inactivo Alto edge, autonomous-edge, public-cloud-gateway

Un reenviador de DNS está inactivo.

Cuando se detecta el evento: "El reenviador de DNS {id_entidad} no se está ejecutando. Esto afecta al reenviador de DNS identificado que está habilitado actualmente. "

Cuando se resuelve el evento: "El reenviador de DNS {id_entidad} se está ejecutando de nuevo. "

1. Invoque el comando de la CLI de NSX get dns-forwarders status para comprobar si el reenviador de DNS está inactivo.
2. Compruebe /var/log/syslog para ver si se han notificado errores.
3. Recopile un paquete de soporte y póngase en contacto con el equipo de soporte de NSX.

3.0.0
Reenviador deshabilitado Información edge, autonomous-edge, public-cloud-gateway

Un reenviador de DNS está deshabilitado.

Cuando se detecta el evento: "El reenviador de DNS {id_entidad} está deshabilitado. "

Cuando se resuelve el evento: "El reenviador de DNS {id_entidad} está habilitado. "

1. Invoque el comando de la CLI de NSX get dns-forwarders status para comprobar si el reenviador de DNS está deshabilitado.
2. Use la API de Directiva o de Manager de NSX para habilitar el reenviador de DNS si no debería estar deshabilitado.

3.0.0
Tiempo de espera del servidor upstream del reenviador Alto edge, autonomous-edge, public-cloud-gateway

Se agotó el tiempo de espera de un servidor upstream del reenviador DNS.

Cuando se detecta el evento: "El reenviador de DNS {ruta_intención}({id_dns}) no recibió una respuesta a tiempo del servidor upstream {ip_upstream_dns}. Es posible que se vea afectada la conectividad de la instancia de cómputo con los FQDN con tiempo de espera agotado. "

Cuando se resuelve el evento: "El servidor upstream {ip_upstream_dns} del reenviador de DNS {ruta_intención}({id_dns}) es normal. "

1. Invoque la NSX API GET /api/v1/dns/forwarders/{id_dns}/nslookup? address=&ltdirección&gt&server_ip={ip_upstream_dns}&source_ip=&ltip_origen&gt. Esta solicitud de API activa una búsqueda de DNS en el servidor upstream del espacio de nombres de red del reenviador DNS. &ltdirección&gt es la dirección IP o el FQDN en el mismo dominio que el servidor upstream. &ltip_origen&gt es una dirección IP en la zona del servidor upstream. Si la API devuelve una respuesta de que se agotó el tiempo de espera de la conexión, es probable que haya un error de red o un problema con el servidor upstream. Compruebe por qué las búsquedas de DSN no están llegando al servidor upstream o por qué el servidor upstream no devuelve una respuesta. Si la respuesta de la API indica que el servidor upstream responde, continúe con el paso 2.
2. Invoque la NSX API GET /api/v1/dns/forwarders/{id_dns}/nslookup? address=&ltdirección&gt. Esta solicitud de API activa una búsqueda de DNS para el reenviador de DNS. Si la API devuelve una respuesta válida, es posible que el servidor upstream se haya recuperado y que esta alarma se resuelva en unos minutos. Si la API devuelve una respuesta de tiempo de espera de conexión agotado, continúe con el paso 3.
3. Invoque el comando de la CLI de NSX `get dns-forwarder {id_dns} live-debug server-ip {ip_upstream_dns}`. Este comando activa la depuración en vivo en el servidor upstream y registra detalles y estadísticas que muestran el motivo por el cual el reenviador de DNS no obtiene una respuesta.

3.1.3

Eventos de Edge

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
La configuración del nodo de Edge no coincide Crítico manager

La configuración del nodo de Edge no coincide.

Cuando se detecta el evento: "La configuración de los ajustes del nodo de Edge {id_entidad} no coincide con la configuración de la intención de directiva. La configuración del nodo de Edge visible para el usuario en la interfaz de usuario o la API no es la misma que la que se ha realizado. Los cambios en el nodo de Edge realizados por el usuario fuera de NSX Manager se muestran en los detalles de esta alarma y cualquier edición en la interfaz de usuario o la API sobrescribirá la configuración realizada. Los campos que difieren para el nodo de Edge se especifican en los datos de tiempo de ejecución {motivo_diferencia_config_nodo_edge}"

Cuando se resuelve el evento: "La configuración del nodo de Edge {id_entidad} ya es coherente con la intención de directiva. "

Revise los ajustes del nodo de transporte de Edge {id_entidad}. Siga una de estas acciones para resolver la alarma:
1. Actualice manualmente la configuración de directiva del nodo de transporte de Edge mediante la API: PUT https://&ltip-manager&gt/api/v1/transport-nodes/&ltid-tn&gt.
2. Acepte los ajustes de nodo de Edge realizados o de intención para este nodo de transporte de Edge a través del solucionador de nodos de transporte de Edge para resolver esta alarma.
3. Para resolver la alarma, acepte la configuración del nodo de Edge mediante la API de actualización - POST https://&ltip-manager&gt/api/v1/transport-nodes/&ltid-tn&gt?action=refresh_node_configuration&resource_type=EdgeNode.

3.2.0
Error de coincidencia de la configuración de vSphere de máquina virtual de Edge Crítico manager

Error de coincidencia de la configuración de vSphere de máquina virtual de Edge.

Cuando se detecta el evento: "La configuración del nodo de Edge {id_entidad} en vSphere no coincide con la configuración de la intención de directiva. La configuración del nodo de Edge visible para el usuario en la interfaz de usuario o la API no es la misma que la que se ha realizado. Los cambios en el nodo de Edge realizados por el usuario fuera de NSX Manager se muestran en los detalles de esta alarma y cualquier edición en la interfaz de usuario o la API sobrescribirá la configuración realizada. Los campos que difieren para el nodo de Edge se especifican en los datos de tiempo de ejecución {motivo_diferencia_config_vsphere_vm_edge}"

Cuando se resuelve el evento: "La configuración de vSphere de la máquina virtual del nodo de Edge {id_entidad} es coherente con la intención de la directiva en este momento. "

Revise la configuración vSphere de este nodo de transporte de Edge {id_entidad}. Siga una de estas acciones para resolver la alarma:
1. Acepte la intención o la configuración de nodo de Edge realizada de vSphere para este nodo de transporte de Edge a través del solucionador de nodos de transporte de Edge para resolver esta alarma.
2. Para resolver la alarma, acepte la configuración realizada de vSphere del nodo de Edge usando la API de actualización POST https://&ltip-manager&gt/api/v1/transport-nodes/&ltid-tn&gt?action=refresh_node_configuration&resource_type=EdgeNode.

3.2.0
Se cambió la configuración del nodo de Edge y la configuración de vSphere Crítico manager

Se cambió la configuración del nodo de Edge y la configuración de vSphere.

Cuando se detecta el evento: "Los ajustes del nodo de Edge {id_entidad} y la configuración de vSphere se cambiaron y no coinciden con la configuración de intención de directiva. La configuración del nodo de Edge visible para el usuario en la interfaz de usuario o la API no es la misma que la que se ha realizado. Los cambios en el nodo de Edge realizados por el usuario fuera de NSX Manager se muestran en los detalles de esta alarma y cualquier edición en la interfaz de usuario o la API sobrescribirá la configuración realizada. Los campos que difieren para la configuración del nodo de Edge y la configuración de vSphere se especifican en los datos de tiempo de ejecución {motivo_diferencia_config_vsphere_nodo_edge}"

Cuando se resuelve el evento: "La configuración del nodo de Edge {id_entidad} y la configuración de vSphere son coherentes con la intención de la directiva en este momento. "

Revise los ajustes del nodo y la configuración de vSphere de este nodo de transporte de Edge {id_entidad}. Siga una de estas acciones para resolver la alarma:
1. Actualice manualmente la intención de la directiva de configuración del nodo de transporte de Edge mediante la API: PUT https://&ltip-manager&gt/api/v1/transport-nodes/&ltid-tn&gt.
2. Acepte la intención o la configuración de nodo de Edge realizada de vSphere o los ajustes del nodo de Edge realizados para este nodo de transporte de Edge a través del solucionador de nodos de transporte de Edge para resolver esta alarma.
3. Para resolver la alarma, acepte la configuración y la configuración realizada de vSphere mediante la API de actualización - POST https://&ltip-manager&gt/api/v1/transport-nodes/&ltid-tn&gt?action=refresh_node_configuration&resource_type=EdgeNode.

3.2.0
Error de coincidencia de ubicación de vSphere de Edge Alto manager

Error de coincidencia de ubicación de vSphere de Edge.

Cuando se detecta el evento: "El nodo de Edge {id_entidad} se movió mediante vMotion. La configuración del nodo de Edge {id_entidad} en vSphere no coincide con la configuración de la intención de directiva. La configuración del nodo de Edge visible para el usuario en la interfaz de usuario o la API no es la misma que la que se ha realizado. Los cambios realizados en el nodo de Edge realizados por el usuario fuera de NSX Manager se muestran en los detalles de esta alarma. Los campos que difieren para el nodo de Edge se enumeran en los datos de tiempo de ejecución {motivo_diferencia_ubicación_vsphere_edge}"

Cuando se resuelve el evento: "La configuración de vSphere del nodo de Edge {id_entidad} es coherente con la intención de la directiva en este momento. "

Revise la configuración vSphere de este nodo de transporte de Edge {id_entidad}. Siga una de estas acciones para resolver la alarma:
1. Para resolver la alarma, acepte la configuración realizada de vSphere del nodo de Edge usando la API de actualización POST https://&ltip-manager&gt/api/v1/transport-nodes/&ltid-tn&gt?action=refresh_node_configuration&resource_type=EdgeNode.
2. Si desea volver a la ubicación anterior, utilice la NSX Redeploy API: POST https://&ltip-manager&gt/api/v1/transport-nodes/&ltid-tn&gt?action=redeploy. No se admite el uso de vMotion para volver al host original.

3.2.0
La máquina virtual de Edge está en el inventario de NSX, pero no en vCenter Crítico manager

La máquina virtual de Edge automática está en el inventario de NSX, pero no en vCenter.

Cuando se detecta el evento: "La máquina virtual de {nombre_vm_edge_directiva} con el identificador de MoRef {id_moref_vm} correspondiente a los parámetros de ubicación de vSphere del nodo de transporte de Edge {id_entidad} se encuentra en el inventario de NSX, pero no en vCenter. Compruebe si la máquina virtual se eliminó de vCenter o si tiene un identificador de MoRef diferente."

Cuando se resuelve el evento: "El nodo de Edge {id_entidad} con el identificador de MoRef de máquina virtual {id_moref_vm} está tanto en el inventario de NSX como en vCenter. "

El identificador de referencia de objeto administrado de una máquina virtual tiene el formato vm-número que se puede ver en la URL al seleccionar la máquina virtual de Edge en la interfaz de usuario de vCenter. Por ejemplo, vm-12011 en https://&lturl-vc>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary. Busque la máquina virtual {nombre_vm_edge_directiva} con el identificador de MoRef {id_moref_vm} en vCenter para el nodo de transporte de Edge {id_entidad}. Si la máquina virtual de Edge está en vCenter con un identificador MoRef diferente, haga lo siguiente. Utilice la API para agregar o actualizar de NSX con las propiedades de carga útil de la solicitud JSON vm_id y vm_deployment_config para actualizar el nuevo identificador de MoRef de la máquina virtual y los parámetros de implementación de vSphere. POST https://&ltip-manager&gt/api/v1/transport-nodes/&ltid-tn&gt?action=addOrUpdatePlacementReferences. Si la máquina virtual de Edge con el nombre {nombre_vm_edge_directiva} no está en vCenter, utilice la API de reimplementación de NSX para implementar una nueva máquina virtual para el nodo de Edge. POST https://&ltip-manager&gt/api/v1/transport-nodes/&ltid-tn&gt?action=redeploy.

3.2.1
La máquina virtual de Edge no está ni en el inventario de NSX ni en vCenter Crítico manager

La máquina virtual de Edge automática no está ni en el inventario de NSX ni en vCenter.

Cuando se detecta el evento: "La máquina virtual {nombre_vm_edge_directiva} con el identificador de MoRef {id_moref_vm} correspondiente a los parámetros de ubicación de vSphere del nodo de transporte de Edge {id_entidad} no se encuentra en el inventario de NSX ni en vCenter. Los parámetros de ubicación en la configuración de vSphere del nodo de transporte de Edge {id_entidad} hacen referencia a la máquina virtual con MoRef {id_moref_vm}. "

Cuando se resuelve el evento: "El nodo de Edge {id_entidad} con el identificador de MoRef de máquina virtual {id_moref_vm} está tanto en el inventario de NSX como en vCenter. "

El identificador de referencia de objeto administrado de una máquina virtual tiene el formato vm-número que se puede ver en la URL al seleccionar la máquina virtual de Edge en la interfaz de usuario de vCenter. Por ejemplo, vm-12011 en https://&lturl-vc>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary. Busque la máquina virtual {nombre_vm_edge_directiva} con el identificador de MoRef {id_moref_vm} en vCenter para el nodo de transporte de Edge {id_entidad}. Haga lo siguiente para resolver la alarma: - Compruebe si la máquina virtual se eliminó en vSphere o si tiene un identificador de MoRef diferente.
1. Si la máquina virtual aún está en vCenter, ponga el nodo de transporte de Edge en modo de mantenimiento y, a continuación, apague y elimine la máquina virtual de Edge en vCenter. Utilice la API de reimplementación de NSX para implementar una nueva máquina virtual para el nodo de Edge. El tráfico de datos del nodo de transporte de Edge se interrumpirá en el período provisional si la máquina virtual de Edge reenvía tráfico.
2. Si la máquina virtual no está en vCenter, utilice la API de reimplementación para volver a implementar una nueva máquina virtual para el nodo de Edge. POST https://&ltip-manager&gt/api/v1/transport-nodes/&ltid-tn&gt?action=redeploy.

3.2.1
No se pudo eliminar la máquina virtual anterior en vCenter al volver a implementar Crítico manager

Se produjo un error en la operación de apagado y eliminación de la máquina virtual de Edge anterior en vCenter al volver a implementar.

Cuando se detecta el evento: "No se pudo apagar ni eliminar la máquina virtual del nodo de Edge {id_entidad} con el identificador de MoRef {id_moref_vm} en vCenter al volver a implementar. Se implementó una nueva máquina virtual de Edge con el identificador de MoRef {nuevo_id_moref_vm}. Tanto las máquinas virtuales antiguas como las nuevas de esta instancia de Edge funcionan de forma simultánea y pueden provocar conflictos de IP y problemas de red. "

Cuando se resuelve el evento: "El nodo de Edge {id_entidad} con el identificador de MoRef de máquina virtual obsoleto {id_moref_vm} ya no se encuentra en el inventario de NSX ni en vCenter. Hay una nueva máquina virtual implementada con el identificador de MoRef {nuevo_id_moref_vm} en el inventario de NSX y en vCenter. "

El identificador de referencia de objeto administrado de una máquina virtual tiene el formato vm-número que se puede ver en la URL al seleccionar la máquina virtual de Edge en la interfaz de usuario de vCenter. Por ejemplo, vm-12011 en https://&lturl-vc>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary. Busque la máquina virtual {nombre_vm_edge_directiva} con el identificador de MoRef {id_moref_vm} en vCenter para el nodo de transporte de Edge {id_entidad}. Apague y elimine la máquina virtual de Edge anterior {nombre_vm_edge_directiva} con el identificador de MoRef {id_moref_vm} en vCenter.

3.2.1
Error de coincidencia de versiones de hardware de Edge Mediano manager

La versión de hardware del nodo de Edge no coincide.

Cuando se detecta el evento: "La versión de hardware del nodo de Edge {nombre_nodo_transporte} en el clúster de Edge {nombre_clúster_edge} es {versión_hw_nt_edge}, que es inferior a la versión de hardware más alta {versión_hw_más_alta_clúster_edge} en el clúster de Edge. "

Cuando se resuelve el evento: "Se resolvió el error de coincidencia de la versión de hardware del nodo de Edge {nombre_nodo_transporte}. "

Siga el artículo de la base de conocimientos para resolver la alarma por el error de coincidencia de versiones de hardware para el nodo de Edge {nombre_nodo_transporte}.

4.0.1

Eventos de clústeres de Edge

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Error de reubicación de miembro del clúster de Edge Crítico manager

Alarma de error de reubicación de miembro de clúster de Edge

Cuando se detecta el evento: "Se produjo un error en la operación en el clúster de Edge {id_clúster_edge} para reubicar todo el contexto de servicio para el índice de miembros del clúster de Edge {id_índice_miembro} con el identificador de nodo de transporte {id_nodo_transporte}."

Cuando se resuelve el evento: "El nodo de Edge con error de reubicación {id_nodo_transporte} se ha resuelto ahora. "

Revise la capacidad disponible para el clúster de Edge. Si se requiere más capacidad, escale el clúster de Edge. Vuelva a intentar la operación de reubicar miembros del clúster de Edge.

4.0.0

Eventos de estado de Edge

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Uso de CPU de Edge muy alto Crítico edge, public-cloud-gateway

El uso de la CPU del nodo de Edge es muy alto.

Cuando se detecta el evento: "El uso de la CPU en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Edge. Es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o reequilibrar los servicios a otros nodos de Edge según la carga de trabajo correspondiente.

3.0.0
Uso de CPU de Edge alto Mediano edge, public-cloud-gateway

El uso de la CPU del nodo de Edge es alto.

Cuando se detecta el evento: "El uso de la CPU en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Edge. Es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o reequilibrar los servicios a otros nodos de Edge según la carga de trabajo correspondiente.

3.0.0
Uso de memoria de Edge muy alto Crítico edge, public-cloud-gateway

El uso de la memoria del nodo de Edge es muy alto.

Cuando se detecta el evento: "El uso de la memoria en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Edge. Es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o reequilibrar los servicios a otros nodos de Edge según la carga de trabajo correspondiente.

3.0.0
Uso de memoria de Edge alto Mediano edge, public-cloud-gateway

El uso de la memoria del nodo de Edge es alto.

Cuando se detecta el evento: "El uso de la memoria en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Edge. Es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o reequilibrar los servicios a otros nodos de Edge según la carga de trabajo correspondiente.

3.0.0
Uso de disco de Edge muy alto Crítico edge, public-cloud-gateway

El uso del disco del nodo de Edge es muy alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Edge alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Edge alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Examine la partición con un uso elevado y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.

3.0.0
Uso de disco de Edge alto Mediano edge, public-cloud-gateway

El uso del disco del nodo de Edge es alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Edge alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Edge alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Examine la partición con un uso elevado y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.

3.0.0
Uso muy alto de la CPU en la ruta de datos de Edge Crítico edge, autonomous-edge, public-cloud-gateway

El uso de la CPU de la ruta de datos del nodo de Edge es muy alto.

Cuando se detecta el evento: "El uso de CPU de la ruta de datos en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_ruta_datos} %, que es igual o superior al umbral muy alto durante al menos dos minutos. "

Cuando se resuelve el evento: "El uso de CPU del nodo de Edge {id_entidad} bajó del valor del umbral muy alto. "

Revise las estadísticas de CPU en el nodo de Edge invocando el comando de la CLI de NSX get dataplane cpu stats para mostrar las tasas de paquetes por núcleo de CPU. Se espera un uso de CPU más alto con tasas de paquetes mayores. Es recomendable aumentar el tamaño del factor de forma del dispositivo Edge y reequilibrar los servicios en este nodo de Edge a otros nodos de Edge en el mismo clúster u otros clústeres de Edge.

3.0.0
Uso alto de la CPU en la ruta de datos de Edge Mediano edge, autonomous-edge, public-cloud-gateway

El uso de la CPU de la ruta de datos del nodo de Edge es alto.

Cuando se detecta el evento: "El uso de CPU de la ruta de datos en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_ruta_datos} %, que es igual o superior al umbral alto durante al menos dos minutos. "

Cuando se resuelve el evento: "El uso de CPU del nodo de Edge {id_entidad} bajó del valor del umbral alto. "

Revise las estadísticas de CPU en el nodo de Edge invocando el comando de la CLI de NSX get dataplane cpu stats para mostrar las tasas de paquetes por núcleo de CPU. Se espera un uso de CPU más alto con tasas de paquetes mayores. Es recomendable aumentar el tamaño del factor de forma del dispositivo Edge y reequilibrar los servicios en este nodo de Edge a otros nodos de Edge en el mismo clúster u otros clústeres de Edge.

3.0.0
Error de configuración de la ruta de datos de Edge Alto edge, autonomous-edge, public-cloud-gateway

No se pudo configurar la ruta de datos de los nodos de Edge.

Cuando se detecta el evento: "No se pudo habilitar la ruta de datos en el nodo de Edge después de tres intentos. "

Cuando se resuelve el evento: "La ruta de datos en el nodo de Edge se habilitó correctamente. "

Asegúrese de que la conectividad del nodo de Edge con el nodo de Manager sea correcta. Desde la CLI de NSX del nodo de Edge, invoque el comando get services para comprobar el estado de los servicios. Si se detiene el servicio de plano de datos, invoque al comando start service dataplane para iniciarlo.

3.0.0
Controlador criptográfico de la ruta de datos de Edge inactivo Crítico edge, autonomous-edge, public-cloud-gateway

El controlador criptográfico del nodo de Edge está inactivo.

Cuando se detecta el evento: "El controlador criptográfico {nombre_und_cripto_edge} del nodo de Edge está inactivo. "

Cuando se resuelve el evento: "El controlador criptográfico {nombre_und_cripto_edge} del nodo de Edge está activo. "

Actualice el nodo de Edge según sea necesario.

3.0.0
Grupo de memoria en la ruta de datos de Edge alto Mediano edge, autonomous-edge, public-cloud-gateway

El uso del grupo de memoria de la ruta de datos del nodo de Edge es alto.

Cuando se detecta el evento: "El uso del grupo de memoria de la ruta de datos para {nombre_grupo_memoria} en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del grupo de memoria de la ruta de datos para {nombre_grupo_memoria} en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Inicie sesión como usuario raíz e invoque los comandos edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show y edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap para comprobar el uso de memoria de DPDK.

3.0.0
Uso alto de tabla ARP global de Edge Mediano edge, autonomous-edge, public-cloud-gateway

El uso de la tabla ARP global del nodo de Edge es alto.

Cuando se detecta el evento: "El uso de la tabla ARP global en el nodo de Edge {id_entidad} alcanzó el {uso_recurso_ruta_datos} %, que supera el umbral alto durante más de dos minutos. "

Cuando se resuelve el evento: "El uso de la tabla ARP global en el nodo de Edge {id_entidad} bajó del valor del umbral alto. "

Inicie sesión como usuario raíz, invoque el comando edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show y compruebe si el uso de la memoria caché de neigh es normal. Si es así, invoque el comando edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries para aumentar el tamaño de la tabla ARP.

3.0.0
NIC de Edge fuera del búfer de recepción Mediano edge, autonomous-edge, public-cloud-gateway

La NIC del nodo de Edge no tiene búferes de anillo RX temporalmente.

Cuando se detecta el evento: "La NIC de Edge {nombre_nic_edge} del búfer del anillo de recepción se desbordó un {porcentaje_desbordamiento_búfer_anillo_recepción} % en un nodo de Edge {id_entidad}. El recuento de paquetes perdidos es {recepciones_perdidas} y el recuento de paquetes procesados es {recepciones_procesadas}. "

Cuando se resuelve el evento: "El uso del búfer del anillo de recepción de la NIC de Edge {nombre_nic_edge} en el nodo de Edge {id_entidad} ya no se está desbordando. "

Ejecute el comando de la CLI de NSX get dataplane cpu stats en el nodo de Edge y compruebe lo siguiente:
1. Si el uso de la CPU es alto, es decir, si es >90 %, realice una captura de paquetes en la interfaz mediante el comando `start capture interface &ltnombre-interfaz&gt direction input o start capture interface &ltnombre-interfaz&gt direction input core &ltid-núcleo&gt` (para capturar paquetes que entran en un núcleo específico cuyo uso es alto). A continuación, analice la captura para ver si la mayoría son paquetes fragmentados o paquetes ipsec. Si es así, se espera que se tome una acción. Si no es así, es probable que la ruta de datos esté ocupada con otras operaciones. Si esta alarma dura entre 2 y 3 minutos, póngase en contacto con el servicio de soporte de VMware.
2. Si el uso de la CPU no es alto, es decir, si es <90 %, compruebe si el valor de PPS de RK es alto mediante el comando get dataplane cpu stats (solo para asegurarse de que la velocidad de tráfico está aumentando). A continuación, aumente el tamaño del anillo en 1024 mediante el comando set dataplane ring-size rx . NOTA: El aumento continuo del tamaño del anillo por 1024 puede producir problemas de rendimiento. Si incluso después de aumentar el tamaño del anillo, el problema persiste, significa que Edge necesita una implementación de formato más grande para admitir el tráfico.
3. Si la alarma continúa con oscilaciones, es decir, si se activa y se resuelve al poco tiempo, eso se debe a un tráfico en ráfagas. En este caso, compruebe el valor de PPS de RX, tal como se describe anteriormente. Si no es alto durante el período activo de la alarma, póngase en contacto con el servicio de soporte de VMware. Si el valor de PPS es alto, eso confirmará el tráfico en ráfagas. Se recomienda suprimir la alarma. NOTA: No hay ninguna comparativa específica que establezca qué se considera un valor de PPS alto. Depende de la infraestructura y del tipo de tráfico. La comparación se puede hacer anotando cuándo la alarma está inactiva y cuándo está activa.

3.0.0
NIC de Edge fuera del búfer de transmisión Crítico edge, autonomous-edge, public-cloud-gateway

La NIC del nodo de Edge no tiene búferes de anillo TX temporalmente.

Cuando se detecta el evento: "La NIC de Edge {nombre_nic_edge} del búfer del anillo de transmisión se desbordó un {porcentaje_desbordamiento_búfer_anillo_transmisión} % en un nodo de Edge {id_entidad}. El recuento de paquetes perdidos es {transmisiones_perdidas} y el recuento de paquetes procesados es {transmisiones_procesadas}. "

Cuando se resuelve el evento: "El uso del búfer del anillo de transmisión de la NIC de Edge {nombre_nic_edge} en el nodo de Edge {id_entidad} ya no se está desbordando. "

1. Si el hipervisor admite una gran cantidad de máquinas virtuales junto con la instancia de Edge, es posible que la máquina virtual de Edge no obtenga tiempo para ejecutarse, por lo que el hipervisor no podrá recuperar los paquetes. A continuación, es probable que la máquina virtual de Edge se migre a un host con menos máquinas virtuales.
2. Aumente el tamaño del anillo en 1024 mediante el comando `set dataplane ring-size tx `. Si el problema persiste incluso después de aumentar el tamaño del anillo, póngase en contacto con el servicio de soporte de VMware, ya que el búfer del anillo de transmisión del lado ESX puede tener un valor inferior. Si no hay ningún problema en el lado de ESX, significa que la instancia de Edge debe escalarse a una implementación de formato más grande para admitir el tráfico.
3. Si la alarma continúa con oscilaciones, es decir, si se activa y se resuelve al poco tiempo, eso se debe a un tráfico en ráfagas. En este caso, compruebe el valor de PPS de TX mediante el comando get dataplane cpu stats. Si no es alto durante el período activo de la alarma, póngase en contacto con el servicio de soporte de VMware. Si el valor de PPS es alto, eso confirmará el tráfico en ráfagas. Se recomienda suprimir la alarma. NOTA: No hay ninguna comparativa específica que establezca qué se considera un valor de PPS alto. Depende de la infraestructura y del tipo de tráfico. La comparación se puede hacer anotando cuándo la alarma está inactiva y cuándo está activa.

3.0.0
Estado de vínculo de NIC de Edge inactivo Crítico edge, autonomous-edge, public-cloud-gateway

El vínculo de NIC del nodo de Edge está inactivo.

Cuando se detecta el evento: "El vínculo de NIC del nodo de Edge {nombre_nic_edge} está inactivo. "

Cuando se resuelve el evento: "El vínculo de NIC del nodo de Edge {nombre_nic_edge} está activo. "

En el nodo de Edge, confirme si el vínculo de NIC está físicamente inactivo invocando el comando de la CLI de NSX get interfaces. Si está inactivo, compruebe la conexión del cable.

3.0.0
Error de almacenamiento Crítico edge, autonomous-edge, public-cloud-gateway

El disco del nodo de Edge es de solo lectura.

Cuando se detecta el evento: "Las siguientes particiones de disco en el nodo de Edge están en modo de solo lectura: {nombre_partición_disco}"

Cuando se resuelve el evento: "Las siguientes particiones de disco en el nodo de Edge se recuperaron del modo de solo lectura: {nombre_partición_disco}"

Examine la partición de solo lectura para ver si el reinicio resuelve el problema o si se debe reemplazar el disco. Póngase en contacto con GSS para obtener más información.

3.0.1
Subproceso de ruta de datos interbloqueado Crítico edge, autonomous-edge, public-cloud-gateway

El subproceso de la ruta de datos del nodo de Edge se encuentra en una condición de interbloqueo.

Cuando se detecta el evento: "El subproceso de la ruta de datos del nodo de Edge {nombre_subproceso_edge} está interbloqueado. "

Cuando se resuelve el evento: "El subproceso de ruta de datos del nodo de Edge {nombre_subproceso_edge} está libre del interbloqueo. "

Reinicie el servicio de plano de datos invocando el comando de la CLI de NSX restart service dataplane.

3.1.0
Rendimiento muy alto de la NIC en la ruta de datos de Edge Crítico edge, autonomous-edge, public-cloud-gateway

El rendimiento de la NIC de la ruta de datos del nodo de Edge es muy alto.

Cuando se detecta el evento: "El rendimiento de la NIC en la ruta de datos para {nombre_nic_edge} en el nodo de Edge {id_entidad} alcanzó el {rendimiento_nic} %, que es igual o superior al valor del umbral muy alto del {umbral_rendimiento_nic} %. "

Cuando se resuelve el evento: "El uso El rendimiento de la NIC en la ruta de datos para {nombre_nic_edge} en el nodo de Edge {id_entidad} alcanzó el {rendimiento_nic} %, que es inferior al valor del umbral muy alto del {umbral_rendimiento_nic} %. "

Examine los niveles de tráfico en la NIC y determine si se necesitan cambios de configuración. El comando 'get dataplane thoughput &ltsegundos&gt' se puede utilizar para supervisar el rendimiento.

3.2.0
Rendimiento alto de la NIC en la ruta de datos de Edge Mediano edge, autonomous-edge, public-cloud-gateway

El rendimiento de la NIC de la ruta de datos del nodo de Edge es alto.

Cuando se detecta el evento: "El rendimiento de la NIC en la ruta de datos para {nombre_nic_edge} en el nodo de Edge {id_entidad} alcanzó el {rendimiento_nic} %, que es igual o superior al valor del umbral alto del {umbral_rendimiento_nic} %. "

Cuando se resuelve el evento: "El uso El rendimiento de la NIC en la ruta de datos para {nombre_nic_edge} en el nodo de Edge {id_entidad} alcanzó el {rendimiento_nic} %, que es inferior al valor del umbral alto del {umbral_rendimiento_nic} %. "

Examine los niveles de tráfico en la NIC y determine si se necesitan cambios de configuración. El comando 'get dataplane thoughput &ltsegundos&gt' se puede utilizar para supervisar el rendimiento.

3.2.0
Error en el dominio no administrado Crítico edge, public-cloud-gateway

Todos los miembros del dominio de errores están inactivos.

Cuando se detecta el evento: "Todos los miembros del dominio de errores {id_nodo_transporte} están inactivos. "

Cuando se resuelve el evento: "Se puede acceder a todos los miembros del dominio de errores {id_nodo_transporte}. "

1. En el nodo de Edge identificado por {id_nodo_transporte}, compruebe la conectividad con los planos de administración y control invocando el comando de la CLI de NSX get managers y get controllers.
2. Invoque el comando de la CLI de NSX get interface eth0 para comprobar el estado de la interfaz de administración.
3. Invoque el comando de la CLI get services para comprobar el estado de los servicios principales, como dataplane/local-controller/nestdb/router, etc.
4. Examine /var/log/syslog para encontrar el posible error.
5. Reinicie el nodo de Edge.

3.2.0
Frecuencia de aciertos de caché de microflujo baja Mediano edge, autonomous-edge, public-cloud-gateway

La frecuencia de aciertos de la memoria caché de microflujo disminuye y la CPU de Datapath es alta.

Cuando se detecta el evento: "La frecuencia de aciertos de la memoria caché de microflujo en el nodo de Edge {id_entidad} ha disminuido por debajo del umbral especificado del {umbral_caché_flujo} % para el núcleo {id_núcleo}, y el uso de la CPU de la ruta de datos aumentó durante los últimos 30 minutos. "

Cuando se resuelve el evento: "La frecuencia de aciertos de la caché de flujos se encuentra en el rango normal. "

La frecuencia de aciertos de flujo de memoria caché ha disminuido durante los últimos 30 minutos, lo que indica que el rendimiento de Edge puede degradarse. El tráfico se seguirá reenviando y es posible que no experimente ningún problema. Compruebe si uso de la CPU de la ruta de datos para Edge {id_entidad} núcleo {id_núcleo} es alto durante los últimos 30 minutos. La instancia de Edge tendrá una frecuencia de aciertos de caché de flujos baja cuando se creen continuamente nuevos flujos, ya que el primer paquete de cualquier flujo nuevo se utilizará para configurar la caché de flujos para procesar rápido la ruta de acceso. Es recomendable aumentar el tamaño del dispositivo de Edge o aumentar el número de nodos de Edge utilizados para las puertas de enlace activas/activas.

3.2.2
Frecuencia de aciertos de caché de megaflujo baja Mediano edge, autonomous-edge, public-cloud-gateway

La frecuencia de aciertos de la memoria caché de megaflujo disminuye y la CPU de la ruta de datos es alta.

Cuando se detecta el evento: "La frecuencia de aciertos de la memoria caché de megaflujo en el nodo de Edge {id_entidad} ha disminuido por debajo del umbral especificado del {umbral_caché_flujo} % para el núcleo {id_núcleo}, y el uso de la CPU de la ruta de datos aumentó durante los últimos 30 minutos. "

Cuando se resuelve el evento: "La frecuencia de aciertos de la caché de flujos se encuentra en el rango normal. "

La frecuencia de aciertos de flujo de memoria caché ha disminuido durante los últimos 30 minutos, lo que indica que el rendimiento de Edge puede degradarse. El tráfico se seguirá reenviando y es posible que no experimente ningún problema. Compruebe si uso de la CPU de la ruta de datos para Edge {id_entidad} núcleo {id_núcleo} es alto durante los últimos 30 minutos. La instancia de Edge tendrá una frecuencia de aciertos de caché de flujos baja cuando se creen continuamente nuevos flujos, ya que el primer paquete de cualquier flujo nuevo se utilizará para configurar la caché de flujos para procesar rápido la ruta de acceso. Es recomendable aumentar el tamaño del dispositivo de Edge o aumentar el número de nodos de Edge utilizados para las puertas de enlace activas/activas.

3.2.2

Eventos de protección de endpoints

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Estado de EAM inactivo Crítico manager

El servicio ESX Agent Manager (EAM) en el administrador de equipos está inactivo.

Cuando se detecta el evento: "El servicio ESX Agent Manager (EAM) en el administrador de equipos {id_entidad} está inactivo. "

Cuando se resuelve el evento: "El servicio ESX Agent Manager (EAM) del administrador de equipos {id_entidad} está activo, o el administrador de equipos {id_entidad} se eliminó. "

Inicie el servicio ESX Agent Manager (EAM). Utilice SSH en vCenter e invoque el comando service vmware-eam start.

3.0.0
Canal de partners inactivo Crítico esx

La conexión de la SVM de partners y el módulo de host está inactiva.

Cuando se detecta el evento: "La conexión entre el módulo de host y la SVM de partners {id_entidad} está inactiva. "

Cuando se resuelve el evento: "La conexión entre el módulo de host y la SVM de partners {id_entidad} está activa. "

Consulte el artículo https://kb.vmware.com/s/article/85844 y asegúrese de que la SVM de partners {id_entidad} se vuelva a conectar al módulo de host.

3.0.0

Eventos de Federation

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
BGP de RTEP inactivo Alto edge, autonomous-edge, public-cloud-gateway

Vecino BGP de RTEP inactivo.

Cuando se detecta el evento: "La sesión de BGP de RTEP (endpoint de túnel remoto) desde la IP de origen {ip_origen_bgp} a la ubicación remota {nombre_sitio_remoto} con IP de vecino {ip_vecino_bgp} está inactiva. Motivo: {motivo_error}. "

Cuando se resuelve el evento: "La sesión de BGP de RTEP (endpoint de túnel remoto) desde la IP de origen {ip_origen_bgp} a la ubicación remota {nombre_sitio_remoto} con IP de vecino {ip_vecino_bgp} está establecida. "

1. Invoque el comando de la CLI de NSX get logical-routers en el nodo de Edge afectado.
2. Cambie al contexto REMOTE_TUNNEL_VRF.
3. Invoque el comando de la CLI de NSX get bgp neighbor summary para comprobar el estado del vecino de BGP.
4. Como alternativa, puede indicar la NSX API GET /api/v1/transport-nodes/&ltid-nodo-transporte&gt/inter-site/bgp/summary para obtener el estado del vecino de BGP.
5. Invoque el comando de la CLI de NSX get interfaces y compruebe si la dirección IP de RTEP correcta está asignada a la interfaz con el nombre remote-tunnel-endpoint.
6. Compruebe si el ping funciona correctamente entre la dirección IP de RTEP asignada {ip_origen_bgp} y la ubicación remota {nombre_sitio_remoto} con la dirección IP de vecino {ip_vecino_bgp}.
7. Compruebe si en /var/log/syslog hay errores relacionados con BGP.
8. Invoque la NSX API GET o PUT /api/v1/transport-nodes/&ltid-nodo-transporte&gt para obtener/actualizar la configuración de remote_tunnel_endpoint en el nodo de Edge. Se actualizará la dirección IP de RTEP asignada al nodo de Edge afectado. Si el motivo indica que Edge no está listo, compruebe por qué el nodo de Edge no está en buen estado.
1. Invoque el comando de la CLI de NSX get edge-cluster status para comprobar el motivo por el que el nodo de Edge podría estar inactivo.
2. Invoque los comandos de la CLI de NSX get bfd-config y get bfd-sessions para comprobar si BFD se está ejecutando correctamente.
3. Compruebe las alarmas relacionadas con el estado de Edge para obtener más información.

3.0.1
Advertencia de sincronización de LM a LM Mediano manager

Se produjo un error en la sincronización entre ubicaciones remotas durante más de 3 minutos.

Cuando se detecta el evento: "Se produjo un error en la sincronización entre {nombre_sitio}({id_sitio}) y {nombre_sitio_remoto}({id_sitio_remoto}) durante más de 3 minutos. "

Cuando se resuelve el evento: "Las ubicaciones remotas {nombre_sitio}({id_sitio}) y {nombre_sitio_remoto}({id_sitio_remoto}) ahora están sincronizadas. "

1. Invoque el comando de la CLI de NSX get site-replicator remote-sites para obtener el estado de conexión entre las ubicaciones remotas. Si una ubicación remota está conectada, pero no sincronizada, es posible que la ubicación aún esté en proceso de resolución principal. En este caso, espere unos 10 segundos e intente invocar de nuevo la CLI para comprobar el estado de la ubicación remota. Si una ubicación está desconectada, intente realizar el siguiente paso.
2. Compruebe la conectividad del Local Manager (LM) en la ubicación {nombre_sitio}({id_sitio}) a los LM en la ubicación {nombre_sitio_remoto}({id_sitio_remoto}) haciendo ping. Si no se puede hacer ping, compruebe si la conectividad WAN es inestable. Si no hay problemas de conectividad de red física, pruebe el paso siguiente.
3. Compruebe el archivo /var/log/cloudnet/nsx-ccp.log en los nodos de Manager del clúster local en la ubicación {nombre_sitio}({id_sitio}) que activó la alarma para ver si hay errores de comunicación entre sitios. Además, busque los errores registrados por el subcomponente nsx-appl-proxy en /var/log/syslog.

3.0.1
Error de sincronización de LM a LM Alto manager

Se produjo un error en la sincronización entre ubicaciones remotas durante más de 15 minutos.

Cuando se detecta el evento: "Se produjo un error en la sincronización entre {nombre_sitio}({id_sitio} y {nombre_sitio_remoto}({id_sitio_remoto} durante más de 15 minutos. "

Cuando se resuelve el evento: "Los sitios remotos {nombre_sitio}({id_sitio}) y {nombre_sitio_remoto}({id_sitio_remoto}) ahora están sincronizados. "

1. Invoque el comando de la CLI de NSX get site-replicator remote-sites para obtener el estado de conexión entre las ubicaciones remotas. Si una ubicación remota está conectada, pero no sincronizada, es posible que la ubicación aún esté en proceso de resolución principal. En este caso, espere unos 10 segundos e intente invocar de nuevo la CLI para comprobar el estado de la ubicación remota. Si una ubicación está desconectada, intente realizar el siguiente paso.
2. Compruebe la conectividad del Local Manager (LM) en la ubicación {nombre_sitio}({id_sitio}) a los LM en la ubicación {nombre_sitio_remoto}({id_sitio_remoto}) haciendo ping. Si no se puede hacer ping, compruebe si la conectividad WAN es inestable. Si no hay problemas de conectividad de red física, pruebe el paso siguiente.
3. Compruebe el archivo /var/log/cloudnet/nsx-ccp.log en los nodos de Manager del clúster local en la ubicación {nombre_sitio}({id_sitio}) que activó la alarma para ver si hay errores de comunicación entre sitios. Además, busque los errores registrados por el subcomponente nsx-appl-proxy en /var/log/syslog.

3.0.1
Se perdió la conectividad de RTEP Alto manager

Se perdió la conectividad de ubicación de RTEP.

Cuando se detecta el evento: "El nodo de Edge {nombre_nodo_transporte} perdió la conectividad de RTEP (endpoint de túnel remoto) con la ubicación remota {nombre_sitio_remoto}. "

Cuando se resuelve el evento: "El nodo de Edge {nombre_nodo_transporte} restauró la conectividad de RTEP (endpoint de túnel remoto) con la ubicación remota {nombre_sitio_remoto}. "

1. Invoque el comando de la CLI de NSX get logical-routers en el nodo de Edge afectado {nombre_nodo_transporte}.
2. Cambie al contexto REMOTE_TUNNEL_VRF.
3. Invoque el comando de la CLI de NSX get bgp neighbor summary para comprobar el estado del vecino de BGP.
4. Como alternativa, puede indicar la NSX API GET /api/v1/transport-nodes/&ltid-nodo-transporte&gt/inter-site/bgp/summary para obtener el estado del vecino de BGP.
5. Invoque el comando de la CLI de NSX get interfaces y compruebe si la dirección IP de RTEP correcta está asignada a la interfaz con el nombre remote-tunnel-endpoint.
6. Compruebe si el ping funciona correctamente entre la dirección IP de RTEP asignada y las direcciones IP de RTEP de la ubicación remota {nombre_sitio_remoto}.
7. Compruebe si en /var/log/syslog hay errores relacionados con BGP.
8. Invoque la NSX API GET o PUT /api/v1/transport-nodes/&ltid-nodo-transporte&gt para obtener/actualizar la configuración de remote_tunnel_endpoint en el nodo de Edge. La dirección IP de RTEP asignada al nodo de Edge afectado {nombre_nodo_transporte} se actualizará.

3.0.2
Cerebro dividido de GM a GM Crítico global-manager

Varios nodos de Global Manager están activos al mismo tiempo.

Cuando se detecta el evento: "Hay varios nodos de Global Manager activos: {global_managers_activos}. Solo un nodo de Global Manager debe estar activo en cualquier momento. "

Cuando se resuelve el evento: "El nodo de Global Manager {global_manager_activo} es el único nodo de Global Manager activo ahora. "

Configure solo un nodo de Global Manager como activo y los demás nodos de Global Manager como en espera.

3.1.0
Advertencia de latencia de GM a GM Mediano global-manager

La latencia entre Global Managers es superior a la esperada durante más de 2 minutos

Cuando se detecta el evento: "La latencia es superior a la esperada entre los Global Managers {ruta_gm_origen} y {ruta_gm_destino}. "

Cuando se resuelve el evento: "La latencia es inferior a los niveles esperados entre los Global Managers {ruta_gm_origen} y {ruta_gm_destino}. "

Compruebe la conectividad entre el Global Manager {ruta_gm_origen}({id_sitio}) y el Global Manager {ruta_gm_destino}({id_sitio_remoto}) haciendo ping. Si no se puede hacer ping, compruebe si la conectividad WAN es inestable.

3.2.0
Advertencia de sincronización de GM a GM Mediano global-manager

El Global Manager activo y el Global Manager en espera no se pueden sincronizar

Cuando se detecta el evento: "El Global Manager activo {ruta_gm_origen} y el Global Manager en espera {ruta_gm_destino} no se pueden sincronizar. "

Cuando se resuelve el evento: "La sincronización entre el Global Manager activo {ruta_gm_origen} y el Global Manager en espera {ruta_gm_destino} está en buen estado. "

Compruebe la conectividad entre el Global Manager {ruta_gm_origen}({id_sitio}) y el Global Manager {ruta_gm_destino}({id_sitio_remoto}) haciendo ping.

3.2.0
Error de sincronización de GM a GM Alto global-manager

El Global Manager activo no se puede sincronizar con el Global Manager en espera durante más de 5 minutos

Cuando se detecta el evento: "El Global Manager activo {ruta_gm_origen} no se puede sincronizar con el Global Manager en espera {ruta_gm_destino} durante más de 5 minutos. "

Cuando se resuelve el evento: "La sincronización entre el Global Manager activo {ruta_gm_origen} y el Global Manager en espera {ruta_gm_destino} está en buen estado. "

Compruebe la conectividad entre el Global Manager {ruta_gm_origen}({id_sitio}) y el Global Manager {ruta_gm_destino}({id_sitio_remoto}) haciendo ping.

3.2.0
Advertencia de sincronización de GM a LM Mediano global-manager, manager

La sincronización de datos entre Global Manager (GM) y Local Manager (LM) ha fallado.

Cuando se detecta el evento: "No se pudieron sincronizar los sitios {nombre_sitio}({id_sitio}) y {nombre_sitio_remoto}({id_sitio_remoto}) para {id_flujo}. Motivo: {motivo_problema_sinc} "

Cuando se resuelve el evento: "Los sitios {nombre_sitio}({id_sitio}) y {nombre_sitio_remoto}({id_sitio_remoto}) ya están sincronizados para {id_flujo}". "

1. Compruebe la conectividad de red entre el sitio remoto y el sitio local haciendo ping.
2. Asegúrese de que se permita el tráfico TCP/1236 entre los sitios locales y remotos.
3. Asegúrese de que el servicio async-replicator se esté ejecutando en sitios locales y remotos. Invoque la NSX API GET /api/v1/node/services/async_replicator/status o el comando de la CLI de NSX get service async_replicator para determinar si el servicio se está ejecutando. Si no se está ejecutando, invoque la NSX API POST /api/v1/node/services/async_replicator?action=restart o la CLI de NSX restart service async_replicator para reiniciar el servicio.
4. Compruebe /var/log/async-replicator/ar.log para ver si se han notificado errores.

3.2.0
Error de sincronización de GM a LM Alto global-manager, manager

La sincronización de datos entre Global Manager (GM) y Local Manager (LM) ha fallado durante un período prolongado.

Cuando se detecta el evento: "No se pudieron sincronizar los sitios {nombre_sitio}({id_sitio}) y {nombre_sitio_remoto}({id_sitio_remoto}) para {id_flujo} durante un período prolongado. Motivo: {motivo_problema_sinc}. "

Cuando se resuelve el evento: "Los sitios {nombre_sitio}({id_sitio}) y {nombre_sitio_remoto}({id_sitio_remoto}) ya están sincronizados para {id_flujo}". "

1. Compruebe la conectividad de red entre el sitio remoto y el sitio local haciendo ping.
2. Asegúrese de que se permita el tráfico TCP/1236 entre los sitios locales y remotos.
3. Asegúrese de que el servicio async-replicator se esté ejecutando en sitios locales y remotos. Invoque la NSX API GET /api/v1/node/services/async_replicator/status o el comando de la CLI de NSX get service async_replicator para determinar si el servicio se está ejecutando. Si no se está ejecutando, invoque la NSX API POST /api/v1/node/services/async_replicator?action=restart o la CLI de NSX restart service async_replicator para reiniciar el servicio.
4. Compruebe /var/log/async-replicator/ar.log para ver si se han notificado errores.
5. Recopile un paquete de soporte y póngase en contacto con el equipo de soporte de NSX.

3.2.0
Umbral de ocupación de cola superado Mediano manager, global-manager

El umbral de tamaño de ocupación de la cola superó la advertencia.

Cuando se detecta el evento: "La cola ({nombre_cola}) utilizada para sincronizar datos entre los sitios {nombre_sitio}({id_sitio}) y {nombre_sitio_remoto}({id_sitio_remoto}) alcanzó el tamaño {tamaño_cola}, que es igual o superior al umbral máximo de {umbral_tamaño_cola} %. "

Cuando se resuelve el evento: "La cola ({nombre_cola}) utilizada para sincronizar datos entre los sitios {nombre_sitio}({id_sitio}) y {nombre_sitio_remoto}({id_sitio_remoto}) alcanzó el tamaño {tamaño_cola}, que es inferior al umbral máximo de {umbral_tamaño_cola} %. "

El tamaño de la cola puede superar el umbral debido a un problema de comunicación con el sitio remoto o un sistema sobrecargado. Compruebe el rendimiento del sistema y /var/log/async-replicator/ar.log para ver si hay algún error notificado.

3.2.0
Advertencia de latencia de GM a LM Mediano global-manager, manager

La latencia entre Global Manager y Local Manager es superior a la esperada durante más de 2 minutos

Cuando se detecta el evento: "La latencia entre los sitios {nombre_sitio}({id_sitio}) y {nombre_sitio_remoto}({id_sitio_remoto}) alcanzó el {valor_latencia}, que es superior al umbral de {umbral_latencia}. "

Cuando se resuelve el evento: "La latencia entre los sitios {nombre_sitio}({id_sitio}) y {nombre_sitio_remoto}({id_sitio_remoto}) alcanzó el {valor_latencia}, que es inferior al umbral de {umbral_latencia}. "

1. Compruebe la conectividad de red entre el sitio remoto y el sitio local haciendo ping.
2. Asegúrese de que se permita el tráfico TCP/1236 entre los sitios locales y remotos.
3. Compruebe /var/log/async-replicator/ar.log para ver si se han notificado errores.

3.2.0
Restauración de LM mientras la importación de la configuración está en curso Alto global-manager

El Local Manager se restaura mientras la importación de la configuración está en curso en Global Manager.

Cuando se detecta el evento: "La importación de la configuración desde el sitio {nombre_sitio}({id_sitio}) está en curso. Sin embargo, el administrador restaura el sitio {nombre_sitio}({id_sitio}) a partir de una copia de seguridad, lo que la deja en un estado incoherente. "

Cuando se resuelve el evento: "Se resolvió la incoherencia de configuración en el sitio {nombre_sitio}({id_sitio}). "

1. Inicie sesión en la CLI de NSX del dispositivo de Global Manager.
2. Cambie a raíz.
3. Invoque la NSX API DELETE http://localhost:64440 /gm/api/v1/infra/sites/&ltnombre-sitio&gt/onboarding/status en modo local. Esto eliminará el estado de incorporación del sitio para Global Manager.
4. Vuelva a iniciar la incorporación de la configuración.

3.2.0

Eventos de firewall de puerta de enlace

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Número de flujos de IP alto Mediano edge, public-cloud-gateway

El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico IP es alto. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecta el evento: "El uso en la tabla de flujos del firewall de puerta de enlace para IP en el enrutador lógico {id_entidad} alcanzó el {firewall_ip_flow_usage} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. "

Cuando se resuelve el evento: "El uso en la tabla de flujos del firewall de puerta de enlace para los flujos que no son IP en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %. "

Inicie sesión como usuario admin en el nodo de Edge e invoque el comando de la CLI de NSX get firewall &ltLR_INT_UUID&gt interface stats | json usando el UUID de interfaz correcto, y compruebe el uso de los flujos IP en la tabla de flujos. Compruebe que los flujos de tráfico que pasan por la puerta de enlace no son un ataque de DOS ni una ráfaga anómala. Si el tráfico parece estar dentro de la carga normal, pero se alcanza el umbral de alarma, aumente el umbral de alarma o enrute el tráfico nuevo a otro nodo de Edge.

3.1.3
Número de flujos de IP excedido Crítico edge, public-cloud-gateway

La tabla de flujos del firewall de puerta de enlace para el tráfico IP superó el umbral establecido. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecta el evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico IP en el enrutador lógico {id_entidad} alcanzó el {firewall_ip_flow_usage} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. "

Cuando se resuelve el evento: "El uso en la tabla de flujos del firewall de puerta de enlace en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %. "

Inicie sesión como usuario admin en el nodo de Edge e invoque el comando de la CLI de NSX get firewall &ltLR_INT_UUID&gt interface stats | json usando el UUID de interfaz correcto, y compruebe el uso de los flujos IP en la tabla de flujos. Compruebe que los flujos de tráfico que pasan por la puerta de enlace no son un ataque de DOS ni una ráfaga anómala. Si el tráfico parece estar dentro de la carga normal, pero se alcanza el umbral de alarma, aumente el umbral de alarma o enrute el tráfico nuevo a otro nodo de Edge.

3.1.3
Número alto de flujos de UDP Mediano edge, public-cloud-gateway

El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico UDP es alto. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecta el evento: "El uso en la tabla de flujos del firewall de puerta de enlace para UDP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_udp_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. "

Cuando se resuelve el evento: "El uso en la tabla de flujos del firewall de puerta de enlace para UDP en enrutador lógico {id_entidad} bajó del umbral alto. "

Inicie sesión como usuario admin en el nodo de Edge e invoque el comando de la CLI de NSX get firewall &ltLR_INT_UUID&gt interface stats | json usando el UUID de interfaz correcto, y compruebe el uso de los flujos UDP en la tabla de flujos. Compruebe que los flujos de tráfico que pasan por la puerta de enlace no son un ataque de DOS ni una ráfaga anómala. Si el tráfico parece estar dentro de la carga normal, pero se alcanza el umbral de alarma, aumente el umbral de alarma o enrute el tráfico nuevo a otro nodo de Edge.

3.1.3
Se superó el número de flujos de UDP Crítico edge, public-cloud-gateway

La tabla de flujos del firewall de puerta de enlace para el tráfico UDP superó el umbral establecido. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecta el evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico UDP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_udp_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. "

Cuando se resuelve el evento: "El uso en la tabla de flujos del firewall de puerta de enlace en el enrutador lógico {id_entidad} bajó del umbral alto. "

Inicie sesión como usuario admin en el nodo de Edge e invoque el comando de la CLI de NSX get firewall &ltLR_INT_UUID&gt interface stats | json usando el UUID de interfaz correcto, y compruebe el uso de los flujos UDP en la tabla de flujos. Compruebe que los flujos de tráfico que pasan por la puerta de enlace no son un ataque de DOS ni una ráfaga anómala. Si el tráfico parece estar dentro de la carga normal, pero se alcanza el umbral de alarma, aumente el umbral de alarma o enrute el tráfico nuevo a otro nodo de Edge.

3.1.3
Número de flujos ICMP alto Mediano edge, public-cloud-gateway

El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico ICMP es alto. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecta el evento: "El uso en la tabla de flujos del firewall de puerta de enlace para ICMP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_icmp_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. "

Cuando se resuelve el evento: "El uso en la tabla de flujos del firewall de puerta de enlace para ICMP en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %. "

Inicie sesión como usuario admin en el nodo de Edge e invoque el comando de la CLI de NSX get firewall &ltLR_INT_UUID&gt interface stats | json usando el UUID de interfaz correcto, y compruebe el uso de los flujos ICMP en la tabla de flujos. Compruebe que los flujos de tráfico que pasan por la puerta de enlace no son un ataque de DOS ni una ráfaga anómala. Si el tráfico parece estar dentro de la carga normal, pero se alcanza el umbral de alarma, aumente el umbral de alarma o enrute el tráfico nuevo a otro nodo de Edge.

3.1.3
Número de flujos ICMP superado Crítico edge, public-cloud-gateway

La tabla de flujos del firewall de puerta de enlace para el tráfico ICMP superó el umbral establecido. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecta el evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico ICMP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_icmp_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. "

Cuando se resuelve el evento: "El uso en la tabla de flujos del firewall de puerta de enlace en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %. "

Inicie sesión como usuario admin en el nodo de Edge e invoque el comando de la CLI de NSX get firewall &ltLR_INT_UUID&gt interface stats | json usando el UUID de interfaz correcto, y compruebe el uso de los flujos ICMP en la tabla de flujos. Compruebe que los flujos de tráfico que pasan por la puerta de enlace no son un ataque de DOS ni una ráfaga anómala. Si el tráfico parece estar dentro de la carga normal, pero se alcanza el umbral de alarma, aumente el umbral de alarma o enrute el tráfico nuevo a otro nodo de Edge.

3.1.3
Número alto de flujos medio abiertos de TCP Mediano edge, public-cloud-gateway

El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico medio abierto de TCP es alto. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecta el evento: "El uso en la tabla de flujos del firewall de puerta de enlace para TCP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_medio_abierto_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. "

Cuando se resuelve el evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el flujo medio abierto de TCP en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %. "

Inicie sesión como usuario admin en el nodo de Edge e invoque el comando de la CLI de NSX get firewall &ltLR_INT_UUID&gt interface stats | json indicando el UUID de interfaz correcto y compruebe en la tabla de flujos el uso del flujo medio abierto de TCP. Compruebe que los flujos de tráfico que pasan por la puerta de enlace no son un ataque de DOS ni una ráfaga anómala. Si el tráfico parece estar dentro de la carga normal, pero se alcanza el umbral de alarma, aumente el umbral de alarma o enrute el tráfico nuevo a otro nodo de Edge.

3.1.3
Se superó el número de flujos medio abiertos de TCP Crítico edge, public-cloud-gateway

La tabla de flujos del firewall de puerta de enlace para el tráfico medio abierto de TCP superó el umbral establecido. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo.

Cuando se detecta el evento: "El uso en la tabla de flujos del firewall de puerta de enlace para el tráfico medio abierto TCP en el enrutador lógico {id_entidad} alcanzó el {uso_flujo_medio_abierto_firewall} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. El firewall de puerta de enlace descartará los nuevos flujos cuando el uso alcance el límite máximo. "

Cuando se resuelve el evento: "El uso en la tabla de flujos del firewall de puerta de enlace en el enrutador lógico {id_entidad} bajó del valor del umbral alto del {umbral_uso_sistema} %. "

Inicie sesión como usuario admin en el nodo de Edge e invoque el comando de la CLI de NSX get firewall &ltLR_INT_UUID&gt interface stats | json indicando el UUID de interfaz correcto y compruebe en la tabla de flujos el uso de los flujos medio abiertos de TCP. Compruebe que los flujos de tráfico que pasan por la puerta de enlace no son un ataque de DOS ni una ráfaga anómala. Si el tráfico parece estar dentro de la carga normal, pero se alcanza el umbral de alarma, aumente el umbral de alarma o enrute el tráfico nuevo a otro nodo de Edge.

3.1.3

Eventos de grupo

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Se superó el límite de tamaño de grupo Mediano manager

El número total de elementos de grupo traducidos superó el límite máximo.

Cuando se detecta el evento: "El grupo {id_grupo} tiene al menos {tamaño_grupo} elementos traducidos que son iguales o mayores que el límite máximo de números de {límite_número_máx_grupo}. Esto puede provocar tiempos de procesamiento prolongados y provocar interrupciones y cancelaciones por agotar el tiempo de espera. El recuento actual de cada tipo de elemento es el siguiente. Conjuntos de IP:{número_ip}, Conjuntos de MAC:{número_mac}, VIFS:{número_vif}, Puertos de conmutador lógico:{número_lsp}, Puertos de enrutador lógico:{número_lsp}, AdGroups:{número_sid}. "

Cuando se resuelve el evento: "El número total de elementos del grupo {id_grupo} es inferior al límite máximo de {límite_número_máx_grupo}. "

1. Considere la posibilidad de ajustar los elementos del grupo sobredimensionado {id_grupo}.
2. Considere la posibilidad de dividir el grupo sobredimensionado {id_grupo} en varios grupos más pequeños y distribuir los miembros del grupo sobredimensionado entre estos grupos.

4.1.0

Eventos de alta disponibilidad

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Conmutación por error de puerta de enlace de nivel 0 Alto edge, autonomous-edge, public-cloud-gateway

Una puerta de enlace de nivel 0 conmutó por error.

Cuando se detecta el evento: "La puerta de enlace de nivel 0 {id_entidad} tiene una conmutación por error de {estado_puerta_enlace_anterior} a {estado_puerta_enlace_actual}, enrutador-servicio {id_enrutador_servicio}"

Cuando se resuelve el evento: "La puerta de enlace de nivel 0 {id_entidad} ya está activa. "

Invoque el comando de la CLI de NSX get logical-router &ltid_enrutador_servicio&gt para identificar el identificador vrf de enrutadores de servicio de nivel 0. Cambie al contexto de VRF invocando vrf &ltid-vrf&gt y, a continuación, invoque get high-availability status para determinar qué servicio está inactivo.

3.0.0
Conmutación por error de puerta de enlace de nivel 1 Alto edge, autonomous-edge, public-cloud-gateway

Una puerta de enlace de nivel 1 conmutó por error.

Cuando se detecta el evento: "La puerta de enlace de nivel 1 {id_entidad} tiene una conmutación por error de {estado_puerta_enlace_anterior} a {estado_puerta_enlace_actual}, enrutador-servicio {id_enrutador_servicio}"

Cuando se resuelve el evento: "La puerta de enlace de nivel 1 {id_entidad} ya está activa. "

Invoque el comando de la CLI de NSX get logical-router &ltid_enrutador_servicio&gt para identificar el identificador vrf de enrutadores de servicio de nivel 1. Cambie al contexto de VRF invocando vrf &ltid-vrf&gt y, a continuación, invoque get high-availability status para determinar qué servicio está inactivo.

3.0.0
Conmutación por error del grupo de servicios de nivel 0 Alto edge, public-cloud-gateway

El grupo de servicios no tiene una instancia activa.

Cuando se detecta el evento: "El clúster del grupo de servicios {id_entidad} actualmente no tiene ninguna instancia activa. Está en estado {estado_ha} (donde 0 es inactivo, 1 es en espera y 2 es activo) en el nodo de Edge {id_nodo_transporte}, y en estado {estado_ha2} en el nodo de Edge {id_nodo_transporte2}. "

Cuando se resuelve el evento: "El clúster del grupo de servicios de nivel 0 {id_entidad} ahora tiene una instancia activa en el nodo de Edge {id_nodo_transporte}. "

Invoque el comando de la CLI de NSX get logical-router &ltid_enrutador_servicio&gt service_group para comprobar todos los grupos de servicios configurados en un enrutador de servicio determinado. Examine la salida para ver el motivo por el que un grupo de servicios deja de tener el estado activo.

4.0.1
Conmutación por error del grupo de servicios de nivel 1 Alto edge, public-cloud-gateway

El grupo de servicios no tiene una instancia activa.

Cuando se detecta el evento: "El clúster del grupo de servicios {id_entidad} actualmente no tiene ninguna instancia activa. Está en estado {estado_ha} (donde 0 es inactivo, 1 es en espera y 2 es activo) en el nodo de Edge {id_nodo_transporte}, y en estado {estado_ha2} en el nodo de Edge {id_nodo_transporte2}. "

Cuando se resuelve el evento: "El clúster del grupo de servicios de nivel 1 {id_entidad} ahora tiene una instancia activa en el nodo de Edge {id_nodo_transporte}. "

Invoque el comando de la CLI de NSX get logical-router &ltid_enrutador_servicio&gt service_group para comprobar todos los grupos de servicios configurados en un enrutador de servicio determinado. Examine la salida para ver el motivo por el que un grupo de servicios deja de tener el estado activo.

4.0.1
Redundancia reducida del grupo de servicios de nivel 0 Mediano edge, public-cloud-gateway

Se produjo un error en una instancia en espera en un grupo de servicios.

Cuando se detecta el evento: "Se produjo un error en el clúster del grupo de servicios {id_entidad} asociado al enrutador de servicio de nivel 0 {id_enrutador_servicio} en el nodo de Edge {id_nodo_transporte}. Como resultado, el clúster del grupo de servicios actualmente no tiene ninguna instancia en espera. "

Cuando se resuelve el evento: "El clúster del grupo de servicios {id_entidad} está en estado {estado_ha} (donde 0 es inactivo, 1 es en espera y 2 es activo) en el nodo de Edge {id_nodo_transporte}, y en estado {estado_ha2} en el nodo de Edge {id_nodo_transporte2}. "

Invoque el comando de la CLI de NSX get logical-router &ltid_enrutador_servicio&gt service_group para comprobar todos los grupos de servicios configurados en un enrutador de servicio determinado. Examine el resultado para ver el motivo del error de un grupo de servicios en espera.

4.0.1
Redundancia reducida del grupo de servicios de nivel 1 Mediano edge, public-cloud-gateway

Se produjo un error en una instancia en espera en un grupo de servicios.

Cuando se detecta el evento: "Se produjo un error en el clúster del grupo de servicios {id_entidad} asociado al enrutador de servicio de nivel 1 {id_enrutador_servicio} en el nodo de Edge {id_nodo_transporte}. Como resultado, el clúster del grupo de servicios actualmente no tiene ninguna instancia en espera. "

Cuando se resuelve el evento: "El clúster del grupo de servicios {id_entidad} está en estado {estado_ha} (donde 0 es inactivo, 1 es en espera y 2 es activo) en el nodo de Edge {id_nodo_transporte}, y en estado {estado_ha2} en el nodo de Edge {id_nodo_transporte2}. "

Invoque el comando de la CLI de NSX get logical-router &ltid_enrutador_servicio&gt service_group para comprobar todos los grupos de servicios configurados en un enrutador de servicio determinado. Examine el resultado para ver el motivo del error de un grupo de servicios en espera.

4.0.1

Eventos del firewall de identidad

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Se perdió la conectividad con el servidor LDAP Crítico manager

Se perdió la conectividad con el servidor LDAP.

Cuando se detecta el evento: "Se perdió la conectividad con el servidor LDAP {servidor_ldap}. "

Cuando se resuelve el evento: "Se restauró la conectividad con el servidor LDAP {servidor_ldap}. "

Compruebe lo siguiente:
1. Se puede acceder al servidor LDAP desde nodos de NSX.
2. Los detalles del servidor LDAP están configurados correctamente en NSX.
3. El servidor LDAP se está ejecutando correctamente.
4. No hay ningún firewall que bloquee el acceso entre el servidor LDAP y los nodos de NSX. Una vez solucionado el problema, utilice PROBAR CONEXIÓN en la interfaz de usuario de NSX en AD del firewall de identidad para probar la conexión.

3.1.0
Error en la sincronización Delta Crítico manager

Se produjeron errores al realizar la sincronización Delta.

Cuando se detecta el evento: "Se produjeron errores al realizar la sincronización Delta con {dominio_directorio}. "

Cuando se resuelve el evento: "No se produjeron errores al realizar la sincronización Delta con {dominio_directorio}. "

1. Compruebe si hay alguna alarma Se perdió la conectividad con el servidor LDAP.
2. Busque los detalles del error en /var/log/syslog. Aproximadamente a la hora de activación de la alarma, busque el texto: Se produjo un error al sincronizar los objetos LDAP.
3. Consulte con el administrador de AD si hay algún cambio reciente de AD que pueda causar los errores.
4. Si el error persiste, recopile el paquete de soporte técnico y póngase en contacto con el equipo de soporte técnico de VMware.

3.1.0

Eventos de comunicación de infraestructura

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Túneles de Edge inactivos Crítico edge, public-cloud-gateway

El estado del túnel de un nodo de Edge es inactivo.

Cuando se detecta el evento: "El estado de túnel general del nodo de Edge {id_entidad} es inactivo. "

Cuando se resuelve el evento: "Se restauraron los túneles del nodo de Edge {id_entidad}. "

Invoque el comando de la CLI de NSX get tunnel-ports para obtener todos los puertos del túnel y, a continuación, compruebe cada una de las estadísticas del túnel invocando el comando de la CLI de NSX get tunnel-port &ltUUID&gt stats para comprobar si hay alguna pérdida de conexión. Además, compruebe si en /var/log/syslog hay errores relacionados con el túnel.

3.0.0

Eventos del servicio de infraestructura

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Estado del servicio desconocido en DPU Crítico dpu

El estado del servicio en la DPU es anómalo.

Cuando se detecta el evento: "El servicio {nombre_servicio} en la DPU {id_dpu} no respondió durante 10 segundos. "

Cuando se resuelve el evento: "El servicio {nombre_servicio} en la DPU {id_dpu} vuelve a responder. "

Compruebe que el servicio {nombre_servicio} en la DPU {id_dpu} sigue en ejecución invocando /etc/init.d/{nombre_servicio} status. Si se indica que el servicio está en ejecución, es posible que tenga que reiniciarlo, lo que puede hacer ejecutando /etc/init.d/{nombre_servicio} restart. Vuelva a ejecutar el comando de estado para verificar que el servicio se está ejecutando. Si el reinicio del servicio no resuelve el problema o si el problema vuelve a ocurrir después de un reinicio correcto, póngase en contacto con el equipo de soporte técnico de VMware.

4.0.0
Estado de servicio desconocido Crítico esx, kvm, bms, edge, manager, public-cloud-gateway, global-manager

El estado del servicio es anormal.

Cuando se detecta el evento: "El servicio {nombre_servicio} no respondió durante 10 segundos. "

Cuando se resuelve el evento: "El servicio {nombre_servicio} vuelve a responder. "

Compruebe que el servicio {nombre_servicio} sigue en ejecución invocando /etc/init.d/{nombre_servicio} status. Si se indica que el servicio está en ejecución, es posible que tenga que reiniciarlo, lo que puede hacer ejecutando /etc/init.d/{nombre_servicio} restart. Vuelva a ejecutar el comando de estado para verificar que el servicio se está ejecutando. Si el script /etc/init.d/{nombre_servicio} no está disponible, invoque systemctl {nombre_servicio} status y reinicie mediante systemctl {nombre_servicio} restart con privilegios de usuario root. Si el reinicio del servicio no resuelve el problema o si el problema vuelve a ocurrir después de un reinicio correcto, póngase en contacto con el equipo de soporte técnico de VMware.

3.1.0
Error de entrega de métricas Crítico esx, bms, edge, manager, public-cloud-gateway, global-manager

No se pudieron enviar métricas al destino especificado.

Cuando se detecta el evento: "No se pudieron entregar las métricas de SHA al destino {alias_destino_métricas}({dirección_destino_métricas}:{puerto_destino_métricas}). "

Cuando se resuelve el evento: "Se recuperó la entrega de métricas al destino {alias_destino_métricas}({dirección_destino_métricas}:{puerto_destino_métricas}). "

El usuario debe realizar las siguientes comprobaciones para excluir el problema que provoca el error: 1. Compruebe si la dirección de destino {dirección_destino_métricas} y el puerto {puerto_destino_métricas} (el valor predeterminado es 443 en el caso de que no se especifique el puerto) se transmitieron para conectarse es el destino esperado. 2. Compruebe si el certificado es correcto mediante /opt/vmware/nsx-nestdb/bin/nestdb-cli --cmd 'put vmware.nsx.nestdb.CommonAgentHostConfigMsg'. 3. Compruebe si se puede acceder al destino {dirección_destino_métricas}. 4. Compruebe si el administrador de métricas en el destino {dirección_destino_métricas} se está ejecutando mediante docker ps | grep metrics_manager. 5. Comprueba si el puerto {puerto_destino_métricas} está abierto mediante netstat -a | grep {puerto_destino_métricas} en el destino. 6. Compruebe si la regla de firewall ALLOW está instalada en el nodo mediante iptables -S OUTPUT | grep {puerto_destino_métricas}(EDGE/UA) o localcli network firewall ruleset list | grep nsx-sha-tsdb(ESX). 7. Reinicie el daemon SHA para ver si se puede resolver mediante /etc/init.d/netopa restart(ESX), /etc/init.d/nsx-netopa restart(EDGE) o /etc/init.d/nsx-sha restart(UA).

4.1.0
Estado de servicio de Edge inactivo Crítico edge, autonomous-edge, public-cloud-gateway

El servicio de Edge está inactivo durante al menos un minuto.

Cuando se detecta el evento: "El servicio {nombre_servicio_edge} está inactivo desde hace al menos un minuto. {motivo_servicio_inactivo}"

Cuando se resuelve el evento: "El servicio {nombre_servicio_edge} está activo. "

En el nodo de Edge, compruebe que el servicio no haya finalizado debido a un error buscando archivos de núcleo en el directorio /var/log/core. Además, invoque el comando de la CLI de NSX get services para confirmar si el servicio se detuvo. Si es así, invoque start service &ltnombre-servicio&gt para reiniciar el servicio.

3.0.0
Estado del servicio de Edge cambiado Mediano edge, autonomous-edge, public-cloud-gateway

El estado del servicio de Edge cambió.

Cuando se detecta el evento: "El servicio {nombre_servicio_edge} cambió de {estado_servicio_anterior} a {estado_servicio_actual}. {motivo_servicio_inactivo}"

Cuando se resuelve el evento: "El servicio {nombre_servicio_edge} cambió de {estado_servicio_anterior} a {estado_servicio_actual}. "

En el nodo de Edge, compruebe que el servicio no haya finalizado debido a un error buscando archivos de núcleo en el directorio /var/log/core. Además, invoque el comando de la CLI de NSX get services para confirmar si el servicio se detuvo. Si es así, invoque start service &ltnombre-servicio&gt para reiniciar el servicio.

3.0.0
Aplicación bloqueada Crítico global-manager, autonomous-edge, bms, edge, esx, kvm, manager, public-cloud-gateway

La aplicación se bloqueó y generó un volcado de núcleo.

Cuando se detecta el evento: "Se bloqueó la aplicación en el nodo de NSX {nombre_host_o_visual_nodo}. El número de archivos principales encontrados es {número_volcado_núcleo}. Recopile el paquete de soporte, incluidos los archivos de volcado de núcleo, y póngase en contacto con el equipo de soporte de VMware. "

Cuando se resuelve el evento: "Todos los archivos de volcado de núcleo se retiran del sistema. "

Recopile el paquete de soporte para el nodo de NSX {nombre_host_o_visual_nodo} usando la API o la interfaz de usuario de NSX Manager. Tenga en cuenta que los volcados de núcleo se pueden configurar para mover o copiar en el paquete de soporte de NSX Tech con el fin de eliminar o conservar la copia local en el nodo. La copia del paquete de soporte con archivos de volcado de núcleo es esencial para que el equipo de soporte de VMware pueda solucionar el problema y se recomienda guardar una copia más reciente del paquete de soporte técnico, incluidos los archivos de volcado de núcleo, antes de eliminar los archivos de volcado de núcleo del sistema. Consulte el artículo de la base de conocimientos para obtener más información.

4.0.0

Eventos de comunicación de Intelligence

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
El exportador de flujo de TN se desconectó Alto esx, kvm, bms

Un nodo de transporte está desconectado del agente de mensajería de su nodo de Intelligence. La recopilación de datos se ve afectada.

Cuando se detecta el evento: "El exportador de flujos en el nodo de transporte {id_entidad} está desconectado del agente de mensajería del nodo de Intelligence. La recopilación de datos se ve afectada. "

Cuando se resuelve el evento: "El exportador de flujo en el nodo de transporte {id_entidad} se volvió a conectar al agente de mensajería del nodo de Intelligence. "

Reinicie el servicio de mensajería si no se está ejecutando en el nodo de Intelligence. Resuelva el error de conexión de red entre el exportador de flujo del nodo de transporte y el nodo de Intelligence.

3.0.0

Eventos de estado de Intelligence

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Uso de CPU muy alto Crítico manager, intelligence

El uso de la CPU del nodo de Intelligence es muy alto.

Cuando se detecta el evento: "El uso de la CPU en el nodo de Intelligence {id_nodo_intelligence} es superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU en el nodo de Intelligence {id_nodo_intelligence} es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Utilice el comando top para comprobar qué procesos utilizan más la CPU y, a continuación, revise /var/log/syslog y los registros locales de estos procesos para comprobar si hay errores pendientes que resolver.

3.0.0
Uso de CPU alto Mediano manager, intelligence

El uso de la CPU del nodo de Intelligence es alto.

Cuando se detecta el evento: "El uso de la CPU en el nodo de Intelligence {id_nodo_intelligence} es superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU en el nodo de Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Utilice el comando top para comprobar qué procesos utilizan más la CPU y, a continuación, revise /var/log/syslog y los registros locales de estos procesos para comprobar si hay errores pendientes que resolver.

3.0.0
Uso de memoria muy alto Crítico manager, intelligence

El uso de la memoria del nodo de Intelligence es muy alto.

Cuando se detecta el evento: "El uso de la memoria en el nodo de Intelligence {id_nodo_intelligence} es superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria en el nodo de Intelligence {id_nodo_intelligence} es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Utilice el comando top para comprobar qué procesos utilizan más memoria y, a continuación, revise /var/log/syslog y los registros locales de estos procesos para comprobar si hay errores pendientes que resolver.

3.0.0
Uso de memoria alto Mediano manager, intelligence

El uso de la memoria del nodo de Intelligence es alto.

Cuando se detecta el evento: "El uso de la memoria en el nodo de Intelligence {id_nodo_intelligence} es superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria en el nodo de Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Utilice el comando top para comprobar qué procesos utilizan más memoria y, a continuación, revise /var/log/syslog y los registros locales de estos procesos para comprobar si hay errores pendientes que resolver.

3.0.0
Uso de disco muy alto Crítico manager, intelligence

El uso del disco del nodo de Intelligence es muy alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Intelligence {id_nodo_intelligence} es superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Intelligence {id_nodo_intelligence} es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Examine la partición de disco {nombre_partición_disco} y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.

3.0.0
Uso de disco alto Mediano manager, intelligence

El uso del disco del nodo de Intelligence es alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Intelligence {id_nodo_intelligence} es superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Examine la partición de disco {nombre_partición_disco} y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.

3.0.0
Uso de partición de disco de datos muy alto Crítico manager, intelligence

El uso de la partición del disco de datos del nodo de Intelligence es muy alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco /data del nodo de Intelligence {id_nodo_intelligence} es superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco en la partición de disco /data del nodo de Intelligence {id_nodo_intelligence} es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Detenga la recopilación de datos de NSX intelligence hasta que el uso del disco esté por debajo del umbral. En la interfaz de usuario de NSX, vaya a Sistema | Dispositivos | Dispositivo de NSX Intelligence. A continuación, haga clic en ACCIONES, Detener la recopilación de datos.

3.0.0
Uso de partición de disco de datos alto Mediano manager, intelligence

El uso de la partición del disco de datos del nodo de Intelligence es alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco /data del nodo de Intelligence {id_nodo_intelligence} es superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco en la partición de disco /data del nodo de Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Detenga la recopilación de datos de NSX intelligence hasta que el uso del disco esté por debajo del umbral. Examine la partición de disco /data y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.

3.0.0
Latencia de almacenamiento alta Mediano manager, intelligence

La latencia de almacenamiento del nodo de Intelligence es alta.

Cuando se detecta el evento: "La latencia de almacenamiento en la partición de disco {nombre_partición_disco} del nodo de Intelligence {id_nodo_intelligence} es superior al valor del umbral alto de {umbral_uso_sistema} milisegundos. "

Cuando se resuelve el evento: "La latencia de almacenamiento en la partición de disco {nombre_partición_disco} del nodo de Intelligence {id_nodo_intelligence} es inferior al valor del umbral alto de {umbral_uso_sistema} milisegundos. "

Es posible que se produzca una latencia de almacenamiento elevada transitoria debido a un pico de solicitudes de E/S. Si la latencia de almacenamiento permanece alta durante más de 30 minutos, considere la posibilidad de implementar el dispositivo de NSX Intelligence en un disco de baja latencia o de no compartir el mismo dispositivo de almacenamiento con otras máquinas virtuales.

3.1.0
Estado de nodo degradado Alto manager, intelligence

El estado del nodo de Intelligence se degradó.

Cuando se detecta el evento: "El nodo de Intelligence {id_nodo_intelligence} está degradado. "

Cuando se resuelve el evento: "El nodo de Intelligence {id_nodo_intelligence} se está ejecutando correctamente. "

Invoque la NSX API GET /napp/api/v1/platform/monitor/category/health para comprobar qué pod específico está inactivo y por qué. Invoque el siguiente comando de la CLI para reiniciar el servicio degradado: kubectl rollout restart &ltstatefulset/deployment&gt &ltnombre_servicio&gt -n &espacio_de_nombres&gt

3.0.0

Eventos de IPAM

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Uso de bloque de IP muy alto Mediano manager

El uso del bloque de direcciones IP es muy alto.

Cuando se detecta el evento: "El uso del bloque de direcciones IP {ruta_intención} es muy alto. El bloque de direcciones IP se acerca a su capacidad total. Se puede producir un error al crear la subred mediante el bloque de direcciones IP. "

Cuando se resuelve el evento: "El uso del bloque de direcciones IP {ruta_intención} está por debajo del nivel de umbral. "

Revise el uso de bloques de direcciones IP. Utilice un nuevo bloque de direcciones IP para crear recursos o elimine la subred de IP no utilizada del bloque de direcciones IP. Para comprobar la subred que se utiliza para el bloque de direcciones IP, haga lo siguiente. En la interfaz de usuario de NSX, desplácese hasta Redes | Grupos de direcciones IP | Pestaña Grupos de direcciones IP. Seleccione los grupos de direcciones IP en los que se utiliza el bloque de direcciones IP y consulte Subredes y la columna Direcciones IP asignadas en la interfaz de usuario. Si no se ha utilizado ninguna asignación para el grupo de direcciones IP y no se va a utilizar en el futuro, elimine la subred o el grupo de direcciones IP. Utilice la siguiente API para comprobar si el bloque de direcciones IP está siendo utilizado por el grupo de direcciones IP, y también si se ha realizado alguna asignación de IP: Para obtener las subredes configuradas de un grupo de direcciones IP, invoque la NSX API GET /policy/api/v1/infra/ip-pools/&ltgrupo-ip&gt/ip-subnets. Para obtener asignaciones de IP, invoque la NSX API GET /policy/api/v1/infra/ip-pools/&ltgrupo-ip&gt/ip-allocations. Nota: Solo se debe eliminar el grupo de direcciones IP o la subred si no tiene ninguna dirección IP asignada y no se va a utilizar en el futuro.

3.1.2
Uso de grupo de IP muy alto Mediano manager

El uso del grupo de direcciones IP es muy alto.

Cuando se detecta el evento: "El uso del grupo de direcciones IP {ruta_intención} es muy alto. El grupo de direcciones IP se acerca a su capacidad total. La creación de la entidad o el servicio depende de la dirección IP que se asigne desde el grupo de direcciones IP, por lo que se puede producir un error. "

Cuando se resuelve el evento: "El uso del grupo de direcciones IP {ruta_intención} es normal en este momento. "

Revise el uso del grupo de direcciones IP. Libere asignaciones de IP no utilizadas del grupo de direcciones IP o cree un nuevo grupo de direcciones IP y úselo. En la interfaz de usuario de NSX, desplácese hasta Redes | Grupos de direcciones IP | Pestaña Grupos de direcciones IP. Seleccione los grupos de direcciones IP y consulte la columna Direcciones IP asignadas. Se mostrarán las direcciones IP asignadas desde el grupo de direcciones IP. Si el usuario ve que alguna dirección IP no se está utilizando, pueden liberarla. Para liberar asignaciones de IP no utilizadas, invoque la NSX API DELETE /policy/api/v1/infra/ip-pools/&ltgrupo-ip&gt/ip-allocations/&ltip-allocation&gt

3.1.2

Eventos de licencias

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Licencia caducada Crítico global-manager, manager

Una licencia caducó.

Cuando se detecta el evento: "La clave de licencia del tipo {tipo_edición_licencia} que termina en {clave_licencia_mostrada} caducó. "

Cuando se resuelve el evento: "La licencia caducada del tipo {tipo_edición_licencia} que termina en {clave_licencia_mostrada} se eliminó, se actualizó o ya no está a punto de caducar. "

Para agregar una licencia nueva no caducada mediante la interfaz de usuario de NSX, vaya a Sistema | Licencias y, a continuación, haga clic en AGREGAR y especifique la clave de la nueva licencia. Debe eliminar la licencia caducada marcando la casilla de verificación de la licencia y haciendo clic en ELIMINAR.

3.0.0
La licencia está a punto de caducar Mediano global-manager, manager

Una licencia está a punto de caducar.

Cuando se detecta el evento: "La clave de licencia del tipo {tipo_edición_licencia} que termina en {clave_licencia_mostrada} está a punto de caducar. "

Cuando se resuelve el evento: "La licencia que iba a caducar del tipo {tipo_edición_licencia} que termina en {clave_licencia_mostrada} se eliminó, se actualizó o ya no está a punto de caducar. "

La licencia caducará dentro de unos días. Debe agregar una licencia nueva que no esté a punto de caducar mediante la interfaz de usuario de NSX. Vaya a Sistema | Licencias y, a continuación, haga clic en AGREGAR y especifique la clave de la nueva licencia. Debe eliminar la licencia caducada marcando la casilla de verificación de la licencia y haciendo clic en ELIMINAR.

3.0.0

Eventos de equilibrador de carga

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
CPU de LB muy alta Mediano Edge

El uso de la CPU del equilibrador de carga es muy alto.

Cuando se detecta el evento: "El uso de CPU del equilibrador de carga {id_entidad} es muy alto. El umbral es {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de CPU del equilibrador de carga {id_entidad} es lo bastante bajo. El umbral es {umbral_uso_sistema} %. "

Si el uso de CPU del equilibrador de carga es superior al umbral de uso del sistema, la carga de trabajo será demasiado alta para este equilibrador de carga. Cambie la escala del servicio del equilibrador de carga cambiando el tamaño del equilibrador de carga de pequeño a mediano o de mediano a grande. Si el uso de la CPU de este equilibrador de carga sigue siendo alto, es recomendable ajustar el tamaño del factor de forma del dispositivo Edge o mover los servicios del equilibrador de carga a otros nodos de Edge según la carga de trabajo correspondiente.

3.0.0
Estado de LB degradado Mediano manager

El servicio del equilibrador de carga está degradado.

Cuando se detecta el evento: "El servicio del equilibrador de carga {id_entidad} está degradado. "

Cuando se resuelve el evento: "El servicio del equilibrador de carga {id_entidad} no está degradado. "

Para el equilibrador de carga centralizado: compruebe el estado del equilibrador de carga en el nodo de Edge en espera, ya que el estado degradado significa que el estado del equilibrador de carga en el nodo de Edge en espera no está listo. En el nodo de Edge en espera, invoque el comando de la CLI de NSX get load-balancer &ltuuid-lb&gt status. Si el estado del servicio de equilibrado de carga es not_ready o no hay ningún resultado, haga que el nodo de Edge entre en modo de mantenimiento y, a continuación, salga del modo de mantenimiento. Para el equilibrador de carga distribuido:
1. Obtenga el estado detallado invocando la NSX API GET /policy/api/v1/infra/lb-services/&ltLBService&gt/detailed-status?source=realtime
2. En el resultado de la API, busque el host ESXi que notifica un instance_number distinto de cero con el estado NOT_READY o CONFLICT.
3. En el nodo de host ESXi, invoque el comando de la CLI de NSX `get load-balancer &ltuuid-lb&gt status`. Si se indica ''Conflict LSP'', compruebe si este LSP está conectado a otro servicio de equilibrador de carga. Compruebe si este conflicto es aceptable. Si se muestra el mensaje de ''Not Ready LSP'', compruebe el estado de este LSP invocando el comando de la CLI de NSX get logical-switch-port status. NOTA: Debe ignorar la alarma si se puede resolver automáticamente en 5 minutos, ya que el estado degradado puede ser transitorio.

3.1.2
Estado de DLB inactivo Crítico manager

El servicio del equilibrador de carga distribuido está inactivo.

Cuando se detecta el evento: "El servicio del equilibrador de carga distribuido {id_entidad} está inactivo. "

Cuando se resuelve el evento: "El servicio del equilibrador de carga distribuido {id_entidad} está activo. "

En el nodo de host ESXi, invoque el comando de la CLI de NSX `get load-balancer &ltuuid-lb&gt status`. Si se indica ''Conflict LSP'', compruebe si este LSP está conectado a otro servicio de equilibrador de carga. Compruebe si este conflicto es aceptable. Si se muestra el mensaje de ''Not Ready LSP'', compruebe el estado de este LSP invocando el comando de la CLI de NSX get logical-switch-port status.

3.1.2
Estado de LB inactivo Crítico Edge

El servicio del equilibrador de carga centralizado está inactivo.

Cuando se detecta el evento: "El servicio del equilibrador de carga centralizado {id_entidad} está inactivo. "

Cuando se resuelve el evento: "El servicio del equilibrador de carga centralizado {id_entidad} está activo. "

En el nodo de Edge activo, compruebe el estado del equilibrador de carga invocando el comando de la CLI de NSX get load-balancer &ltuuid-lb&gt status. Si el estado del servicio de equilibrado de carga es not_ready o no hay ningún resultado, haga que el nodo de Edge entre en modo de mantenimiento y, a continuación, salga del modo de mantenimiento.

3.0.0
Estado de servidor virtual inactivo Mediano Edge

El servicio virtual del equilibrador de carga está inactivo.

Cuando se detecta el evento: "El servidor virtual del equilibrador de carga {id_entidad} está inactivo. "

Cuando se resuelve el evento: "El servidor virtual del equilibrador de carga {id_entidad} está activo. "

Consulte el grupo de equilibradores de carga para determinar su estado y comprobar su configuración. Si está configurado de forma incorrecta, vuelva a configurarlo, quite el grupo de equilibradores de carga del servidor virtual y vuelva a agregarlo al servidor virtual.

3.0.0
Estado de grupo inactivo Mediano Edge

El grupo del equilibrador de carga está inactivo.

Cuando se detecta el evento: "El estado del grupo de equilibradores de carga {id_entidad} es inactivo. "

Cuando se resuelve el evento: "El estado del grupo de equilibradores de carga {id_entidad} es activo"

Consulte el grupo de equilibradores de carga para determinar qué miembros están inactivos invocando el comando de la CLI de NSX get load-balancer &ltlb-uuid&gt pool &ltpool-uuid&gt status o la NSX API GET /policy/api/v1/infra/lb-services/&ltid-servicio-lb&gt/lb-pools/&ltid-grupo-lb&gt/detailed-status. Si se notifica INACTIVO o DESCONOCIDO, compruebe el miembro del grupo. Compruebe la conectividad de red desde el equilibrador de carga hasta los miembros del grupo afectados. Valide el estado de la aplicación de cada miembro del grupo. Valide también el estado de cada miembro del grupo mediante el monitor configurado. Cuando se establece el buen estado del miembro, el estado del miembro del grupo se actualizará a correcto según la configuración de 'Recuento de subida' en el monitor. Para corregir el problema, reinicie el miembro del grupo o haga que el nodo de Edge entre en modo de mantenimiento y, a continuación, salga del modo de mantenimiento.

3.0.0
Capacidad de Edge de LB en uso alto Mediano Edge

El uso del equilibrador de carga es alto.

Cuando se detecta el evento: "Cuando se detecta el evento: "El uso del servicio del equilibrador de carga en el nodo de Edge {id_entidad} es alto. El umbral es {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del servicio del equilibrador de carga en el nodo de Edge {id_entidad} es lo bastante bajo. El umbral es {umbral_uso_sistema} %. "

Si se configuraron varias instancias de LB en este nodo de Edge, implemente un nuevo nodo de Edge y mueva algunas instancias de LB al nuevo nodo de Edge. Si solo se configuró una instancia de LB (pequeña/mediana/etc.) en un nodo de Edge de mismo tamaño (pequeño/mediano/etc.), implemente una nueva instancia de Edge de mayor tamaño y mueva la instancia de LB a ese nuevo nodo de Edge.

3.1.2
Capacidad de miembro de grupo de LB en uso muy alto Crítico Edge

El uso del miembro del grupo del equilibrador de carga es muy alto.

Cuando se detecta el evento: "El uso de los miembros del grupo en el nodo de Edge {id_entidad} es muy alto. El umbral es {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de los miembros del grupo en el nodo de Edge {id_entidad} es lo bastante bajo. El umbral es {umbral_uso_sistema} %. "

Implemente un nuevo nodo de Edge y mueva el servicio de equilibrador de carga de los nodos de Edge existentes al nodo de Edge recién implementado.

3.1.2
No se realizó la configuración del equilibrio de carga debido a falta de memoria Mediano Edge

La configuración del equilibrador de carga no se realiza debido al uso elevado de memoria en el nodo de Edge.

Cuando se detecta el evento: "No se realizó la configuración del equilibrador de carga {id_entidad} debido al uso elevado de memoria en el nodo de Edge {id_nodo_transporte}. "

Cuando se resuelve el evento: "La configuración del equilibrador {id_entidad} se realiza en {id_nodo_transporte}. "

Preferir definir equilibradores de carga pequeños y medianos en lugar de equilibradores de carga de gran tamaño. Distribuya los servicios del equilibrador de carga entre los nodos de Edge disponibles. Reduzca la cantidad de servidores virtuales definidos.

3.2.0

Eventos de estado de prevención de malware

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Estado del servicio inactivo Alto manager

El estado del servicio es inactivo.

Cuando se detecta el evento: "El servicio {nombre_servicio_mps} no se está ejecutando en {nombre_nodo_transporte}. "

Cuando se resuelve el evento: "El servicio {nombre_servicio_mps} se está ejecutando correctamente en {nombre_nodo_transporte}. "

1. En el nodo de Edge identificado por {nombre_nt_edge_nsx}, invoque la CLI de NSX get services para comprobar el estado de {nombre_servicio_mps}. Inspeccione /var/log/syslog para encontrar cualquier error sospechoso.
2. En el nodo de host identificado por {nombre_nt_esx_nsx}, inicie sesión en la máquina virtual del servicio de prevención de malware asociada {id_entidad} y compruebe el estado de {nombre_servicio_mps}. Inspeccione /var/log/syslog en la máquina virtual asociada del servicio de prevención de malware {id_entidad} para encontrar cualquier error sospechoso.

4.0.1
Servicio de extracción de archivos inaccesible Alto manager

El estado del servicio es degradado.

Cuando se detecta el evento: "El servicio {nombre_servicio_mps} se degradó en {nombre_nodo_transporte}. No se puede comunicar con la funcionalidad de extracción de archivos. Todas las capacidades de extracción de archivos del {nombre_nodo_transporte}están en pausa. "

Cuando se resuelve el evento: "El servicio {nombre_servicio_mps} se está ejecutando correctamente en {nombre_nodo_transporte}. "

1. En el nodo de Edge identificado por {nombre_nt_edge_nsx}, invoque la CLI de NSX get ids engine status para comprobar el estado del servicio de file_extraction (IDS). Inspeccione /var/log/syslog para encontrar cualquier error sospechoso con el servicio de extracción de archivos (IDS) o {nombre_servicio_mps}.
2. En el nodo host identificado por {nombre_nt_esx_nsx}, inicie sesión en la máquina virtual del servicio de prevención de malware asociada {id_entidad} y compruebe el estado del servicio de extracción de archivos (NXGI). Inspeccione /var/log/syslog en la máquina virtual asociada del servicio de prevención de malware {id_entidad} para encontrar cualquier error sospechoso.

4.0.1
Base de datos inaccesible Alto manager

El estado del servicio es degradado.

Cuando se detecta el evento: "El servicio {nombre_servicio_mps} se degradó en NSX Application Platform. No se puede comunicar con la base de datos de Prevención de malware. "

Cuando se resuelve el evento: "El servicio {nombre_servicio_mps} se está ejecutando correctamente en NSX Application Platform. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales para comprobar qué servicio está degradado. Invoque la NSX API GET /napp/api/v1/platform/monitor/feature/health para comprobar qué servicio específico está inactivo y por qué. Invoque el siguiente comando de la CLI para reiniciar el servicio degradado: kubectl rollout restart &ltstatefulset/deployment&gt &ltnombre_servicio&gt -n &ltespacio_de_nombres&gt. Determine el estado del servicio Malware Prevention Database.

4.0.1
Servicio de API de analista inaccesible Alto manager

El estado del servicio es degradado.

Cuando se detecta el evento: "El servicio {nombre_servicio_mps} se degradó en NSX Application Platform. No se puede comunicar con el servicio analist_api. Es posible que los veredictos de archivo inspeccionados no estén actualizados. "

Cuando se resuelve el evento: "El servicio {nombre_servicio_mps} se está ejecutando correctamente en NSX Application Platform. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales para comprobar qué servicio está degradado. Invoque la NSX API GET /napp/api/v1/platform/monitor/feature/health para comprobar qué servicio específico está inactivo y por qué. Invoque el siguiente comando de la CLI para reiniciar el servicio degradado: kubectl rollout restart &ltstatefulset/deployment&gt &ltnombre_servicio&gt -n &ltespacio_de_nombres&gt. Determine el estado del servicio Malware Prevention Cloud Connector.

4.0.1
No se puede acceder al servicio de reputación de NTICS Alto manager

El estado del servicio es degradado.

Cuando se detecta el evento: "El servicio {nombre_servicio_mps} se degradó en NSX Application Platform. No se puede comunicar con el servicio de reputación de NTICS. Es posible que la reputación de los archivos inspeccionados no esté actualizada. "

Cuando se resuelve el evento: "El servicio {nombre_servicio_mps} se está ejecutando correctamente en NSX Application Platform. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales para comprobar qué servicio está degradado. Invoque la NSX API GET /napp/api/v1/platform/monitor/feature/health para comprobar qué servicio específico está inactivo y por qué. Invoque el siguiente comando de la CLI para reiniciar el servicio degradado: kubectl rollout restart &ltstatefulset/deployment&gt &ltnombre_servicio&gt -n &ltespacio_de_nombres&gt. Determina si el acceso al servicio NTICS está inactivo.

4.1.0

Eventos de estado de Manager

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Uso de la CPU de Manager muy alto Crítico global-manager, manager

El uso de la CPU del nodo de Manager es muy alto.

Cuando se detecta el evento: "El uso de la CPU en el nodo de Manager {id_entidad} alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU en el nodo de Manager {id_entidad} alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Manager. Es recomendable ajustar el tamaño del factor de forma del dispositivo de Manager.

3.0.0
Uso de la CPU de Manager alto Mediano global-manager, manager

El uso de la CPU del nodo de Manager es alto.

Cuando se detecta el evento: "El uso de la CPU en el nodo de Manager {id_entidad} alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU en el nodo de Manager {id_entidad} alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Manager. Es recomendable ajustar el tamaño del factor de forma del dispositivo de Manager.

3.0.0
Uso de la memoria de Manager muy alto Crítico global-manager, manager

El uso de la memoria del nodo de Manager es muy alto.

Cuando se detecta el evento: "El uso de la memoria en el nodo de Manager {id_entidad} alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria en el nodo de Manager {id_entidad} alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Manager. Es recomendable ajustar el tamaño del factor de forma del dispositivo de Manager.

3.0.0
Uso de la memoria de Manager alto Mediano global-manager, manager

El uso de la memoria del nodo de Manager es alto.

Cuando se detecta el evento: "El uso de la memoria en el nodo de Manager {id_entidad} alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria en el nodo de Manager {id_entidad} alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Revise la configuración, los servicios en ejecución y el tamaño de este nodo de Manager. Es recomendable ajustar el tamaño del factor de forma del dispositivo de Manager.

3.0.0
Uso del disco de Manager muy alto Crítico global-manager, manager

El uso del disco del nodo de Manager es muy alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Manager alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Manager alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Examine la partición con un uso elevado y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.

3.0.0
Uso del disco de Manager alto Mediano global-manager, manager

El uso del disco del nodo de Manager es alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Manager alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco en la partición de disco {nombre_partición_disco} del nodo de Manager alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Examine la partición con un uso elevado y compruebe si hay archivos inesperadamente grandes que se puedan eliminar.

3.0.0
Uso del disco de configuración de Manager muy alto Crítico global-manager, manager

El uso del disco de configuración del nodo de Manager es muy alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco /config del nodo de Manager alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. Esto podría indicar que el uso del disco por parte del servicio del almacén de datos de NSX es alto en el directorio /config/corfu. "

Cuando se resuelve el evento: "El uso del disco en la partición de disco /config del nodo de Manager alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Ejecute la siguiente herramienta y póngase en contacto con GSS si se notifica algún problema: /opt/vmware/tools/support/inspect_checkpoint_issues.py

3.0.0
Uso del disco de configuración de Manager alto Mediano global-manager, manager

El uso del disco de configuración del nodo de Manager es alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco /config del nodo de Manager alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. Esto podría indicar que está aumentando el uso del disco por parte del servicio del almacén de datos de NSX en el directorio /config/corfu. "

Cuando se resuelve el evento: "El uso del disco en la partición de disco /config del nodo de Manager alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Ejecute la siguiente herramienta y póngase en contacto con GSS si se notifica algún problema: /opt/vmware/tools/support/inspect_checkpoint_issues.py

3.0.0
Uso de disco de base de datos de operaciones muy alto Crítico manager

El uso del disco nonconfig del nodo de Manager es muy alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco /nonconfig del nodo de Manager alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral muy alto del {umbral_uso_sistema} %. Esto podría indicar que el uso del disco por parte del servicio del almacén de datos de NSX es alto en el directorio /nonconfig/corfu. "

Cuando se resuelve el evento: "El uso del disco en la partición de disco /nonconfig del nodo de Manager alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral muy alto del {umbral_uso_sistema} %. "

Ejecute la siguiente herramienta y póngase en contacto con GSS si se notifica algún problema: /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig

3.0.1
Uso de disco de base de datos de operaciones alto Mediano manager

El uso del disco nonconfig del nodo de Manager es alto.

Cuando se detecta el evento: "El uso del disco en la partición de disco /nonconfig del nodo de Manager alcanzó el {uso_recurso_sistema} %, que es igual o superior al valor del umbral alto del {umbral_uso_sistema} %. Esto podría indicar que está aumentando el uso del disco por parte del servicio del almacén de datos de NSX en el directorio /nonconfig/corfu. "

Cuando se resuelve el evento: "El uso del disco en la partición de disco /nonconfig del nodo de Manager alcanzó el {uso_recurso_sistema} %, que es inferior al valor del umbral alto del {umbral_uso_sistema} %. "

Ejecute la siguiente herramienta y póngase en contacto con GSS si se notifica algún problema: /opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig

3.0.1
Dirección IP duplicada Mediano manager

Otro dispositivo está usando la dirección IP del nodo de Manager.

Cuando se detecta el evento: "La dirección IP {id_entidad} del nodo de Manager {dirección_ip_duplicada} se está utilizando actualmente en otro dispositivo de la red. "

Cuando se resuelve el evento: "El dispositivo que utiliza la dirección IP asignada al nodo de Manager {id_entidad} parece que ya no utiliza {dirección_ip_duplicada}. "

1. Determine qué dispositivo está usando la dirección IP del administrador y asígnele una nueva dirección IP. Tenga en cuenta que no se admite la reconfiguración de Manager para utilizar una nueva dirección IP.
2. Asegúrese de que el servidor DHCP o el grupo de direcciones IP estáticas estén configurados correctamente.
3. Corrija la dirección IP del dispositivo si se asigna de forma manual.

3.0.0
Error de almacenamiento Crítico global-manager, manager

El disco del nodo de Manager es de solo lectura.

Cuando se detecta el evento: "La siguiente partición de disco en el nodo de Manager {id_entidad} está en modo de solo lectura: {nombre_partición_disco}"

Cuando se resuelve el evento: "La siguiente partición de disco en el nodo de Manager {id_entidad} se recuperó del modo de solo lectura: {nombre_partición_disco}"

Examine la partición de solo lectura para ver si el reinicio resuelve el problema o si se debe reemplazar el disco. Póngase en contacto con GSS para obtener más información.

3.0.2
Falta una entrada de DNS para el FQDN de Manager Crítico global-manager, manager

Falta la entrada de DNS para el FQDN de Manager.

Cuando se detecta el evento: "La configuración de DNS para el nodo de Manager {nombre_nodo_manager} ({id_entidad}) es incorrecta. El nodo de Manager es de doble pila o se utiliza un certificado de API firmado por una CA, pero las direcciones IP del nodo de Manager no se resuelven en un FQDN ni en diferentes FQDN. "

Cuando se resuelve el evento: "La configuración de DNS para el nodo de Manager {nombre_nodo_manager} ({id_entidad}) es correcta. El nodo de Manager no es de doble pila y el certificado de API firmado por una CA ya no se utiliza, o bien las direcciones IP del nodo de Manager se resuelven en el mismo FQDN. "

1. Asegúrese de que los servidores DNS adecuados estén configurados en el nodo de Manager.
2. Asegúrese de que los registros A y los registros PTR adecuados estén configurados en los servidores DNS de modo que la búsqueda inversa de las direcciones IP del nodo de Manager devuelva el mismo FQDN, y la búsqueda directa del FQDN devuelva todas las direcciones IP del nodo de Manager.
3. Como alternativa, si el nodo de Manager no es de doble pila, reemplace el certificado firmado por CA para el tipo de servicio de API por un certificado autofirmado.

4.1.0
Falta una entrada de DNS para el FQDN de Vip Crítico manager

Falta la entrada de FQDN para la VIP de Manager.

Cuando se detecta el evento: "En caso de un certificado de API de doble pila o firmado por una CA para NSX Manager, la dirección IPv4 virtual {dirección_ipv4} y la dirección IPv6 virtual {dirección_ipv6} para el nodo de Manager {id_entidad} deben resolverse en el mismo FQDN. "

Cuando se resuelve el evento: "Direcciones VIP de pila dual para el nodo de Manager {id_entidad} resueltas en el mismo FQDN. "

Examine la entrada de DNS de las direcciones VIP para ver si se resuelven en el mismo FQDN.

4.1.0

Eventos de comprobación de MTU

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Error de coincidencia de MTU dentro de la zona de transporte Alto manager

Error de coincidencia de la configuración de MTU entre nodos de transporte asociados a la misma zona de transporte.

Cuando se detecta el evento: "Error de coincidencia de la configuración de MTU entre los nodos de transporte (ESXi, KVM y Edge) asociados a la misma zona de transporte. Los valores de MTU en todos los conmutadores asociados a la misma zona de transporte que no sean coherentes provocarán problemas de conectividad. "

Cuando se resuelve el evento: "Todos los valores de MTU entre nodos de transporte asociados a la misma zona de transporte son coherentes ahora. "

1. Desplácese a Sistema | Tejido | Configuración | Comprobación de configuración de MTU | Inconsistente en la interfaz de usuario de NSX para comprobar más detalles de discrepancias.
2. Establezca el mismo valor de MTU en todos los conmutadores asociados a la misma zona de transporte invocando la NSX API PUT /api/v1/host-switch-profiles/&ltid-perfil-conmutador-host&gt con mtu en el cuerpo de la solicitud, o la API PUT /api/v1/global-configs/SwitchingGlobalConfig con physical_uplink_mtu en el cuerpo de la solicitud.

3.2.0
La MTU del enrutador global es demasiado grande Mediano manager

La configuración de MTU del enrutador global es mayor que la MTU de la zona de transporte superpuesta.

Cuando se detecta el evento: "La configuración de MTU del enrutador global es mayor que la MTU de los conmutadores en la zona de transporte superpuesta que se conecta al nivel 0 o al nivel 1. El valor de MTU del enrutador global debe ser menor que el valor de MTU de todos los conmutadores en al menos 100, ya que se requiere una cuota de 100 para la encapsulación de Geneve. "

Cuando se resuelve el evento: "La MTU del enrutador global es menor que la MTU de la zona de transporte superpuesta ahora. "

1. Desplácese a Sistema | Tejido | Configuración | Comprobación de configuración de MTU | Inconsistente en la interfaz de usuario de NSX para comprobar más detalles de discrepancias.
2. Establezca el valor de MTU más grande en los conmutadores invocando la NSX API PUT /api/v1/host-switch-profiles/&ltid-perfil-conmutador-host&gt con mtu en el cuerpo de la solicitud, o la API PUT /api/v1/global-configs/SwitchingGlobalConfig con physical_uplink_mtu en el cuerpo de la solicitud.
3. O bien, establezca el valor de MTU más pequeño de la configuración del enrutador global invocando la NSX API PUT /api/v1/global-configs/RoutingGlobalConfig con logical_uplink_mtu en el cuerpo de la solicitud.

3.2.0

Eventos de NAT

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
El uso del puerto SNAT en la puerta de enlace es alto Crítico edge, public-cloud-gateway

El uso del puerto SNAT en la puerta de enlace es alto.

Cuando se detecta el evento: "El uso de los puertos SNAT en el enrutador lógico {id_entidad} para la IP de SNAT {dirección_ip_snat} alcanzó el valor del umbral alto del {umbral_uso_sistema} %. Los nuevos flujos no se procesarán con SNAT cuando el uso alcance el límite máximo. "

Cuando se resuelve el evento: "El uso de los puertos SNAT en el enrutador lógico {id_entidad} para la IP de SNAT {dirección_ip_snat} alcanzó por debajo del valor del umbral alto del {umbral_uso_sistema} %. "

Inicie sesión como usuario admin en el nodo de Edge e invoque el comando de la CLI de NSX get firewall &ltLR_INT_UUID&gt connection state indicando el UUID de interfaz correcto y compruebe varias asignaciones SNAT para la IP de SNAT {dirección_ip_snat}. Compruebe que los flujos de tráfico que pasan por la puerta de enlace no son un ataque de denegación de servicio ni una ráfaga anómala. Si el tráfico parece estar dentro de la carga normal, pero se alcanza el umbral de alarma, agregue más direcciones IP de SNAT para distribuir la carga o enrute el tráfico nuevo a otro nodo de Edge.

3.2.0

Eventos de estado de NCP

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Complemento NCP inactivo Crítico manager

El nodo de Manager detectó que NCP está inactivo o en mal estado.

Cuando se detecta el evento: "El nodo de Manager detectó que NCP está inactivo o en mal estado. "

Cuando se resuelve el evento: "El nodo de Manager detectó que NCP está de nuevo activo o en buen estado. "

Para encontrar los clústeres que tienen problemas, utilice la interfaz de NSX y desplácese hasta la página Alarmas. El valor Nombre de entidad de esta instancia de alarma identifica el nombre del clúster. O bien, invoque la NSX API GET /api/v1/systemhealth/container-cluster/ncp/status para obtener todos los estados del clúster y determinar el nombre de los clústeres con estado DOWN o UNKNOWN. A continuación, en la página Inventario | Contenedor | Clústeres de la interfaz de usuario de NSX, busque el clúster por nombre y haga clic en la pestaña Nodos, donde se muestran todos los miembros del clúster de Kubernetes y PAS. Para el clúster de Kubernetes:
1. Compruebe la ejecución del pod de NCP. Para ello, busque el nodo principal de K8s desde todos los miembros del clúster e inicie sesión en el nodo principal. A continuación, invoque el comando de kubectl kubectl get pods --all-namespaces. Si hay algún problema con el pod de NCP, utilice el comando kubectl logs para comprobar el problema y solucionar el error.
2. Compruebe la conexión entre el servidor de API de NCP y de Kubernetes La CLI de NSX se puede utilizar dentro del pod de NCP para comprobar el estado de la conexión invocando los siguientes comandos de la máquina virtual principal. kubectl exec -it &ltNCP-Pod-Name&gt -n nsx-system bash nsxcli get ncp-k8s-api-server status. Si hay algún problema con la conexión, compruebe las configuraciones de red y de NCP.
3. Compruebe la conexión entre NCP y NSX Manager. La CLI de NSX se puede utilizar dentro del pod de NCP para comprobar el estado de la conexión invocando el siguiente comando de la máquina virtual principal. kubectl exec -it &ltNCP-Pod-Name&gt -n nsx-system bash nsxcli get ncp-nsx status. Si hay algún problema con la conexión, compruebe las configuraciones de red y de NCP. Para el clúster de PAS:
1. Compruebe las conexiones de red entre las máquinas virtuales y solucione los problemas de red.
2. Compruebe el estado de los nodos y los servicios, y corrija los que estén bloqueados. Invoque el comando bosh vms y bosh instances -p para comprobar el estado de los nodos y los servicios.

3.0.0

Eventos de estado de los agentes de nodo evento

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Agentes de nodo inactivos en DPU Alto dpu

Parece que los agentes que se ejecutan en la máquina virtual del nodo están inactivos en la DPU.

Cuando se detecta el evento: "Parece que los agentes que se ejecutan en la máquina virtual del nodo están inactivos en la DPU {id_dpu}. "

Cuando se resuelve el evento: "Los agentes de la máquina virtual del nodo se están ejecutando en la DPU {id_dpu}. "

1. Si falta Vmk50 en la DPU {id_dpu}, consulte este artículo de la base de conocimientos https://kb.vmware.com/s/article/67432.
2. Si falta HyperBus 4094 en la DPU {id_dpu}, puede resultar útil reiniciar nsx-cfgagent on la DPU {id_dpu} o reiniciar la máquina virtual del host de contenedor.
3. Si la VIF del host de contenedor está bloqueada, compruebe la conexión al controlador para asegurarse de que se envíen todas las configuraciones.
4. Si se detuvo nsx-cfg-agent en la DPU {id_dpu}, reinicie nsx-cfgagent en la DPU {id_dpu}.
5. Si falta el paquete node-agent, compruebe si se instaló correctamente en la máquina virtual del host de contenedor.
6. Si la interfaz de node-agent en la máquina virtual del host de contenedor está inactiva, compruebe el estado de la interfaz de eth1 en la máquina virtual del host de contenedor.

4.0.0
Agentes de nodo inactivos Alto esx, kvm

Parece que los agentes que se ejecutan en la máquina virtual del nodo están inactivos.

Cuando se detecta el evento: "Parece que los agentes que se ejecutan en la máquina virtual del nodo están inactivos. "

Cuando se resuelve el evento: "Los agentes de la máquina virtual del nodo se están ejecutando. "

Para ESX:
1. Si falta Vmk50, consulte este artículo de la base de conocimientos https://kb.vmware.com/s/article/67432.
2. Si falta HyperBus 4094, puede resultar útil reiniciar nsx-cfgagent o reiniciar la máquina virtual del host de contenedor.
3. Si la VIF del host de contenedor está bloqueada, compruebe la conexión al controlador para asegurarse de que se envíen todas las configuraciones.
4. Si nsx-cfg-agent está detenido, reinícielo. Para KVM:
1. Si falta el espacio de nombres de HyperBus, reiniciar nsx-opsagent puede ayudar a volver a crear el espacio de nombres.
2. Si falta la interfaz de HyperBus en el espacio de nombres de HyperBus, puede resultar útil reiniciar nsx-opsagent.
3. Si nsx-agent se detuvo, reinícielo. Para ESX y KVM:
1. Si falta el paquete node-agent, compruebe si se instaló correctamente en la máquina virtual del host de contenedor.
2. Si la interfaz de node-agent en la máquina virtual del host de contenedor está inactiva, compruebe el estado de la interfaz de eth1 en la máquina virtual del host de contenedor.

3.0.0

Eventos de comunicación de NSX Application Platform

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Manager desconectado Alto manager, intelligence

El clúster de NSX Application Platform está desconectado del clúster de administración de NSX.

Cuando se detecta el evento: "El clúster de NSX Application Platform {id_clúster_napp} está desconectado del clúster de administración de NSX. "

Cuando se resuelve el evento: "El clúster de NSX Application Platform {id_clúster_napp} se reconectó al clúster de administración de NSX. "

Compruebe si el certificado del clúster de Manager, los certificados del nodo de Manager, el certificado kafka y el certificado de entrada coinciden tanto en el clúster NSX Application Platform como en NSX Manager. Compruebe que las fechas de caducidad de los certificados mencionados anteriormente sean válidas. Compruebe la conexión de red entre NSX Manager y NSX Application Platform y resuelva cualquier error.

3.2.0
Retraso detectado en Rawflow de Mensajería Crítico manager, intelligence

Se detectó un procesamiento de datos lento en el tema Raw Flow de Mensajería.

Cuando se detecta el evento: "El número de mensajes pendientes en el flujo sin formato del tema Mensajería es mayor que el umbral de mensajes pendientes de {umbral_lag_mensajería_napp}. "

Cuando se resuelve el evento: "El número de mensajes pendientes en el flujo sin formato del tema Mensajería es inferior al umbral de mensajes pendientes de {umbral_lag_mensajería_napp}. "

Agregue nodos y, a continuación, escale verticalmente el clúster de NSX Application Platform. Si se puede atribuir un cuello de botella a un servicio específico, por ejemplo, el servicio de análisis, escale verticalmente el servicio específico cuando se agregan los nuevos nodos.

3.2.0
Retraso detectado en Overflow de Mensajería Crítico manager, intelligence

Se detectó un procesamiento de datos lento en el tema Over Flow de Mensajería.

Cuando se detecta el evento: "El número de mensajes pendientes en el tema Over Flow de Mensajería es mayor que el umbral de mensajes pendientes de {umbral_lag_mensajería_napp}. "

Cuando se resuelve el evento: "El número de mensajes pendientes en el tema Over Flow de Mensajería es inferior al umbral de mensajes pendientes de {umbral_lag_mensajería_napp}. "

Agregue nodos y, a continuación, escale verticalmente el clúster de NSX Application Platform. Si se puede atribuir un cuello de botella a un servicio específico, por ejemplo, el servicio de análisis, escale verticalmente el servicio específico cuando se agregan los nuevos nodos.

3.2.0
El exportador de flujo de TN se desconectó Alto esx, kvm, bms

Un nodo de transporte está desconectado del agente de mensajería del clúster de NSX Application Platform. La recopilación de datos se ve afectada.

Cuando se detecta el evento: "El exportador de flujo en el nodo de transporte {id_entidad} está desconectado del agente de mensajería del clúster de NSX Application Platform. La recopilación de datos se ve afectada. "

Cuando se resuelve el evento: "El exportador de flujo en el nodo de transporte {id_entidad} se volvió a conectar al agente de mensajería del clúster de NSX Application Platform. "

Reinicie el servicio de mensajería si no se está ejecutando en el clúster de NSX Application Platform. Resuelva el error de conexión de red entre el exportador de flujo del nodo de transporte y el clúster de NSX Application Platform.

3.2.0
El exportador de flujo de TN se desconectó en DPU Alto dpu

Un nodo de transporte está desconectado del agente de mensajería de su nodo de Intelligence. La recopilación de datos se ve afectada en DPU.

Cuando se detecta el evento: "El exportador de flujo en nodo de transporte {id_entidad} DPU {id_dpu} está desconectado del agente de mensajería del nodo de Intelligence. La recopilación de datos se ve afectada. "

Cuando se resuelve el evento: "El exportador de flujo en nodo de transporte {id_entidad} DPU {id_dpu} se volvió a conectar al agente de mensajería del nodo de Intelligence. "

Reinicie el servicio de mensajería si no se está ejecutando en el nodo de Intelligence. Resuelva el error de conexión de red entre el exportador de flujo del nodo de transporte y el nodo de Intelligence.

4.0.0

Eventos de estado de NSX Application Platform

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Uso de CPU de clúster muy alto Crítico manager, intelligence

El uso de la CPU del clúster de NSX Application Platform es muy alto.

Cuando se detecta el evento: "El uso de la CPU del clúster de NSX Application Platform {id_clúster_napp} es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del clúster de NSX Application Platform {id_clúster_napp} es inferior al umbral muy alto del {umbral_uso_sistema} %. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales y compruebe el campo Carga del sistema en cada servicio para comprobar qué servicio está bajo presión. Compruebe si se puede reducir la carga. Si se requiere más potencia informática, haga clic en el botón Escalado horizontal para solicitar más recursos.

3.2.0
Uso de CPU de clúster alto Mediano manager, intelligence

El uso de la CPU del clúster de NSX Application Platform es alto.

Cuando se detecta el evento: "El uso de la CPU del clúster de NSX Application Platform {id_clúster_napp} es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del clúster de NSX Application Platform {id_clúster_napp} es inferior al umbral alto del {umbral_uso_sistema} %. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales y compruebe el campo Carga del sistema en cada servicio para comprobar qué servicio está bajo presión. Compruebe si se puede reducir la carga. Si se requiere más potencia informática, haga clic en el botón Escalado horizontal para solicitar más recursos.

3.2.0
Uso de memoria de clúster muy alto Crítico manager, intelligence

El uso de la memoria del clúster de NSX Application Platform es muy alto.

Cuando se detecta el evento: "El uso de la memoria del clúster de NSX Application Platform {id_clúster_napp} es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del clúster de NSX Application Platform {id_clúster_napp} es inferior al umbral muy alto del {umbral_uso_sistema} %. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales y compruebe el campo Memoria en cada servicio para comprobar qué servicio está bajo presión. Compruebe si se puede reducir la carga. Si se requiere más memoria, haga clic en el botón Escalado horizontal para solicitar más recursos.

3.2.0
Uso de memoria de clúster alto Mediano manager, intelligence

El uso de la memoria del clúster de NSX Application Platform es alto.

Cuando se detecta el evento: "El uso de la memoria del clúster de NSX Application Platform {id_clúster_napp} es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del clúster de NSX Application Platform {id_clúster_napp} es inferior al umbral alto del {umbral_uso_sistema} %. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales y compruebe el campo Memoria en cada servicio para comprobar qué servicio está bajo presión. Compruebe si se puede reducir la carga. Si se requiere más memoria, haga clic en el botón Escalado horizontal para solicitar más recursos.

3.2.0
Uso de disco de clúster muy alto Crítico manager, intelligence

El uso del disco del clúster de NSX Application Platform es muy alto.

Cuando se detecta el evento: "El uso del disco del clúster de NSX Application Platform {id_clúster_napp} es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del clúster de NSX Application Platform {id_clúster_napp} es inferior al umbral muy alto del {umbral_uso_sistema} %. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales y compruebe el campo Almacenamiento en cada servicio para comprobar qué servicio está bajo presión. Compruebe si se puede reducir la carga. Si se requiere más espacio de almacenamiento en el disco, haga clic en el botón Escalado horizontal para solicitar más recursos. Si el servicio de almacenamiento está bajo presión, otra solución es hacer clic en el botón Escalado vertical para aumentar el tamaño del disco.

3.2.0
Uso de disco de clúster alto Mediano manager, intelligence

El uso del disco del clúster de NSX Application Platform es alto.

Cuando se detecta el evento: "El uso del disco del clúster de NSX Application Platform {id_clúster_napp} es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del clúster de NSX Application Platform {id_clúster_napp} es inferior al umbral alto del {umbral_uso_sistema} %. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales y compruebe el campo Almacenamiento en cada servicio para comprobar qué servicio está bajo presión. Compruebe si se puede reducir la carga. Si se requiere más espacio de almacenamiento en el disco, haga clic en el botón Escalado horizontal para solicitar más recursos. Si el servicio de almacenamiento está bajo presión, otra solución es hacer clic en el botón Escalado vertical para aumentar el tamaño del disco.

3.2.0
Estado de NAPP degradado Mediano manager, intelligence

El estado general del clúster de NSX Application Platform es degradado.

Cuando se detecta el evento: "El estado general del clúster {id_clúster_napp} de NSX Application Platform es degradado. "

Cuando se resuelve el evento: "El clúster de NSX Application Platform {id_clúster_napp} se está ejecutando correctamente. "

Obtenga más información de las alarmas de nodos y servicios.

3.2.0
Estado de NAPP inactivo Alto manager, intelligence

El estado general del clúster de NSX Application Platform es inactivo.

Cuando se detecta el evento: "El estado general del clúster {id_clúster_napp} de NSX Application Platform es inactivo. "

Cuando se resuelve el evento: "El clúster de NSX Application Platform {id_clúster_napp} se está ejecutando correctamente. "

Obtenga más información de las alarmas de nodos y servicios.

3.2.0
Uso de CPU de nodo muy alto Crítico manager, intelligence

El uso de la CPU del nodo de NSX Application Platform es muy alto.

Cuando se detecta el evento: "El uso de la CPU del nodo de NSX Application Platform {nombre_nodo_napp} es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del nodo de NSX Application Platform {nombre_nodo_napp} es inferior al umbral muy alto del {umbral_uso_sistema} %. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales y compruebe el campo Carga del sistema en cada servicio para comprobar qué servicio está bajo presión. Compruebe si se puede reducir la carga. Si solo una pequeña cantidad de nodos muestra un uso elevado de la CPU, Kubernetes volverá a programar los servicios automáticamente de forma predeterminada. Si la mayoría de los nodos muestra un uso elevado de la CPU y la carga no se puede reducir, haga clic en el botón Escalado horizontal para solicitar más recursos.

3.2.0
Uso de CPU de nodo alto Mediano manager, intelligence

El uso de la CPU del nodo de NSX Application Platform es alto.

Cuando se detecta el evento: "El uso de la CPU del nodo de NSX Application Platform {nombre_nodo_napp} es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del nodo de NSX Application Platform {nombre_nodo_napp} es inferior al umbral alto del {umbral_uso_sistema} %. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales y compruebe el campo Carga del sistema en cada servicio para comprobar qué servicio está bajo presión. Compruebe si se puede reducir la carga. Si solo una pequeña cantidad de nodos muestra un uso elevado de la CPU, Kubernetes volverá a programar los servicios automáticamente de forma predeterminada. Si la mayoría de los nodos muestra un uso elevado de la CPU y la carga no se puede reducir, haga clic en el botón Escalado horizontal para solicitar más recursos.

3.2.0
Uso de memoria de nodo muy alto Crítico manager, intelligence

El uso de la memoria del nodo de NSX Application Platform es muy alto.

Cuando se detecta el evento: "El uso de la memoria del nodo de NSX Application Platform {nombre_nodo_napp} es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del nodo de NSX Application Platform {nombre_nodo_napp} es inferior al umbral muy alto del {umbral_uso_sistema} %. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales y compruebe el campo Memoria en cada servicio para comprobar qué servicio está bajo presión. Compruebe si se puede reducir la carga. Si solo una pequeña cantidad de nodos muestra un uso elevado de la memoria, Kubernetes volverá a programar los servicios automáticamente de forma predeterminada. Si la mayoría de los nodos muestra un uso elevado de la memoria y la carga no se puede reducir, haga clic en el botón Escalado horizontal para solicitar más recursos.

3.2.0
Uso de memoria de nodo alto Mediano manager, intelligence

El uso de la memoria del nodo de NSX Application Platform es alto.

Cuando se detecta el evento: "El uso de la memoria del nodo de NSX Application Platform {nombre_nodo_napp} es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del nodo de NSX Application Platform {nombre_nodo_napp} es inferior al umbral alto del {umbral_uso_sistema} %. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales y compruebe el campo Memoria en cada servicio para comprobar qué servicio está bajo presión. Compruebe si se puede reducir la carga. Si solo una pequeña cantidad de nodos muestra un uso elevado de la memoria, Kubernetes volverá a programar los servicios automáticamente de forma predeterminada. Si la mayoría de los nodos muestra un uso elevado de la memoria y la carga no se puede reducir, haga clic en el botón Escalado horizontal para solicitar más recursos.

3.2.0
Uso de disco de nodo muy alto Crítico manager, intelligence

El uso del disco del nodo de NSX Application Platform es muy alto.

Cuando se detecta el evento: "El uso del disco del nodo de NSX Application Platform {nombre_nodo_napp} es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del nodo de NSX Application Platform {nombre_nodo_napp} es inferior al umbral muy alto del {umbral_uso_sistema} %. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales y compruebe el campo Almacenamiento en cada servicio para comprobar qué servicio está bajo presión. Borre los registros o datos no utilizados para liberar recursos de disco y compruebe si se puede reducir la carga. Si se requiere más espacio de almacenamiento en el disco, escale horizontalmente el servicio que está bajo presión. Si el servicio de almacenamiento está bajo presión, otra solución es hacer clic en el botón Escalado vertical para aumentar el tamaño del disco.

3.2.0
Uso de disco de nodo alto Mediano manager, intelligence

El uso del disco del nodo de NSX Application Platform es alto.

Cuando se detecta el evento: "El uso del disco del nodo de NSX Application Platform {nombre_nodo_napp} es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del nodo de NSX Application Platform {nombre_nodo_napp} es inferior al umbral alto del {umbral_uso_sistema} %. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales y compruebe el campo Almacenamiento en cada servicio para comprobar qué servicio está bajo presión. Borre los registros o datos no utilizados para liberar recursos de disco y compruebe si se puede reducir la carga. Si se requiere más espacio de almacenamiento en el disco, escale horizontalmente el servicio que está bajo presión. Si el servicio de almacenamiento está bajo presión, otra solución es hacer clic en el botón Escalado vertical para aumentar el tamaño del disco.

3.2.0
Estado de nodo degradado Mediano manager, intelligence

El estado del nodo de NSX Application Platform es degradado.

Cuando se detecta el evento: "El nodo de NSX Application Platform {nombre_nodo_napp} está degradado. "

Cuando se resuelve el evento: "El nodo de NSX Application Platform {nombre_nodo_napp} se está ejecutando correctamente. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Recursos para comprobar qué nodo se degradó. Compruebe el uso de red, memoria y CPU del nodo. Reinicie el nodo si es un nodo de trabajo.

3.2.0
Estado de nodo inactivo Alto manager, intelligence

El estado del nodo de NSX Application Platform es inactivo.

Cuando se detecta el evento: "El nodo de NSX Application Platform {nombre_nodo_napp} no se está ejecutando. "

Cuando se resuelve el evento: "El nodo de NSX Application Platform {nombre_nodo_napp} se está ejecutando correctamente. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Recursos para comprobar qué nodo está inactivo. Compruebe el uso de red, memoria y CPU del nodo. Reinicie el nodo si es un nodo de trabajo.

3.2.0
Uso de CPU de almacén de datos muy alto Crítico manager, intelligence

El uso de la CPU del servicio Almacenamiento de datos es muy alto.

Cuando se detecta el evento: "El uso de la CPU del servicio Almacenamiento de datos es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del servicio Almacenamiento de datos es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escale horizontalmente todos los servicios o el servicio Almacenamiento de datos.

3.2.0
Uso de CPU de almacén de datos alto Mediano manager, intelligence

El uso de la CPU del servicio Almacenamiento de datos es alto.

Cuando se detecta el evento: "El uso de la CPU del servicio Almacenamiento de datos es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del servicio Almacenamiento de datos es inferior al umbral alto del {umbral_uso_sistema} %. "

Escale horizontalmente todos los servicios o el servicio Almacenamiento de datos.

3.2.0
Uso de CPU de Mensajería muy alto Crítico manager, intelligence

El uso de la CPU del servicio Mensajería es muy alto.

Cuando se detecta el evento: "El uso de la CPU del servicio Mensajería es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del servicio Mensajería es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escale horizontalmente todos los servicios o el servicio Mensajería.

3.2.0
Uso de CPU de Mensajería alto Mediano manager, intelligence

El uso de la CPU del servicio Mensajería es alto.

Cuando se detecta el evento: "El uso de la CPU del servicio Mensajería es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del servicio Mensajería es inferior al umbral alto del {umbral_uso_sistema} %. "

Escale horizontalmente todos los servicios o el servicio Mensajería.

3.2.0
Uso de CPU de base de datos de configuración muy alto Crítico manager, intelligence

El uso de la CPU del servicio Base de datos de configuración es muy alto.

Cuando se detecta el evento: "El uso de la CPU del servicio Base de datos de configuración es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del servicio Base de datos de configuración es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escalar horizontalmente todos los servicios.

3.2.0
Uso de CPU de base de datos de configuración alto Mediano manager, intelligence

El uso de la CPU del servicio Base de datos de configuración es alto.

Cuando se detecta el evento: "El uso de la CPU del servicio Base de datos de configuración es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del servicio Base de datos de configuración es inferior al umbral alto del {umbral_uso_sistema} %. "

Escalar horizontalmente todos los servicios.

3.2.0
Uso de CPU de Métrica muy alto Crítico manager, intelligence

El uso de la CPU del servicio Métrica es muy alto.

Cuando se detecta el evento: "El uso de la CPU del servicio Métrica es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del servicio Métrica es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escalar horizontalmente todos los servicios.

3.2.0
Uso de CPU de Métrica alto Mediano manager, intelligence

El uso de la CPU del servicio Métrica es alto.

Cuando se detecta el evento: "El uso de la CPU del servicio Métrica es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del servicio Métrica es inferior al umbral alto del {umbral_uso_sistema} %. "

Escalar horizontalmente todos los servicios.

3.2.0
Uso de CPU de Análisis muy alto Crítico manager, intelligence

El uso de la CPU del servicio Análisis es muy alto.

Cuando se detecta el evento: "El uso de la CPU del servicio Análisis es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del servicio Análisis es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escale horizontalmente todos los servicios o el servicio Análisis.

3.2.0
Uso de CPU de Análisis alto Mediano manager, intelligence

El uso de la CPU del servicio Análisis es alto.

Cuando se detecta el evento: "El uso de la CPU del servicio Análisis es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del servicio Análisis es inferior al umbral alto del {umbral_uso_sistema} %. "

Escale horizontalmente todos los servicios o el servicio Análisis.

3.2.0
Uso de CPU de plataforma muy alto Crítico manager, intelligence

El uso de la CPU del servicio Servicios de plataforma es muy alto.

Cuando se detecta el evento: "El uso de la CPU del servicio Servicios de plataforma es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del servicio Servicios de plataforma es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escalar horizontalmente todos los servicios.

3.2.0
Uso de CPU de plataforma alto Mediano manager, intelligence

El uso de la CPU del servicio Servicios de plataforma es alto.

Cuando se detecta el evento: "El uso de la CPU del servicio Servicios de plataforma es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la CPU del servicio Servicios de plataforma es inferior al umbral alto del {umbral_uso_sistema} %. "

Escalar horizontalmente todos los servicios.

3.2.0
Uso de memoria del almacén de datos muy alto Crítico manager, intelligence

El uso de la memoria del servicio Almacenamiento de datos es muy alto.

Cuando se detecta el evento: "El uso de la memoria del servicio Almacenamiento de datos es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del servicio Almacenamiento de datos es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escale horizontalmente todos los servicios o el servicio Almacenamiento de datos.

3.2.0
Uso de memoria de almacén de datos alto Mediano manager, intelligence

El uso de la memoria del servicio Almacenamiento de datos es alto.

Cuando se detecta el evento: "El uso de la memoria del servicio Almacenamiento de datos es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del servicio Almacenamiento de datos es inferior al umbral alto del {umbral_uso_sistema} %. "

Escale horizontalmente todos los servicios o el servicio Almacenamiento de datos.

3.2.0
Uso de memoria de Mensajería muy alto Crítico manager, intelligence

El uso de la memoria del servicio Mensajería es muy alto.

Cuando se detecta el evento: "El uso de la memoria del servicio Mensajería es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del servicio Mensajería es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escale horizontalmente todos los servicios o el servicio Mensajería.

3.2.0
Uso de memoria de Mensajería alto Mediano manager, intelligence

El uso de la memoria del servicio Mensajería es alto.

Cuando se detecta el evento: "El uso de la memoria del servicio Mensajería es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del servicio Mensajería es inferior al umbral alto del {umbral_uso_sistema} %. "

Escale horizontalmente todos los servicios o el servicio Mensajería.

3.2.0
Uso de memoria de base de datos de configuración muy alto Crítico manager, intelligence

El uso de la memoria del servicio Base de datos de configuración es muy alto.

Cuando se detecta el evento: "El uso de la memoria del servicio Base de datos de configuración es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del servicio Base de datos de configuración es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escalar horizontalmente todos los servicios.

3.2.0
Uso de memoria de base de datos de configuración alto Mediano manager, intelligence

El uso de la memoria del servicio Base de datos de configuración es alto.

Cuando se detecta el evento: "El uso de la memoria del servicio Base de datos de configuración es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del servicio Base de datos de configuración es inferior al umbral alto del {umbral_uso_sistema} %. "

Escalar horizontalmente todos los servicios.

3.2.0
Uso de memoria de Métrica muy alto Crítico manager, intelligence

El uso de memoria del servicio Métrica es muy alto.

Cuando se detecta el evento: "El uso de la memoria del servicio Métrica es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del servicio Métrica es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escalar horizontalmente todos los servicios.

3.2.0
Uso de memoria de Métrica alto Mediano manager, intelligence

El uso de memoria del servicio Métrica es alto.

Cuando se detecta el evento: "El uso de la memoria del servicio Métrica es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del servicio Métrica es inferior al umbral alto del {umbral_uso_sistema} %. "

Escalar horizontalmente todos los servicios.

3.2.0
Uso de memoria de Análisis muy alto Crítico manager, intelligence

El uso de la memoria del servicio Análisis es muy alto.

Cuando se detecta el evento: "El uso de la memoria del servicio Análisis es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del servicio Análisis es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escale horizontalmente todos los servicios o el servicio Análisis.

3.2.0
Uso de memoria de Análisis alto Mediano manager, intelligence

El uso de la memoria del servicio Análisis es alto.

Cuando se detecta el evento: "El uso de la memoria del servicio Análisis es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del servicio Análisis es inferior al umbral alto del {umbral_uso_sistema} %. "

Escale horizontalmente todos los servicios o el servicio Análisis.

3.2.0
Uso de memoria de plataforma muy alto Crítico manager, intelligence

El uso de la memoria del servicio Servicios de plataforma es muy alto.

Cuando se detecta el evento: "El uso de la memoria del servicio Servicios de plataforma es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del servicio Servicios de plataforma es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escalar horizontalmente todos los servicios.

3.2.0
Uso de memoria de plataforma alto Mediano manager, intelligence

El uso de la memoria del servicio Servicios de plataforma es alto.

Cuando se detecta el evento: "El uso de la memoria del servicio Servicios de plataforma es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso de la memoria del servicio Servicios de plataforma es inferior al umbral alto del {umbral_uso_sistema} %. "

Escalar horizontalmente todos los servicios.

3.2.0
Uso de disco de almacén de datos muy alto Crítico manager, intelligence

El uso del disco del servicio Almacenamiento de datos es muy alto.

Cuando se detecta el evento: "El uso del disco del servicio Almacenamiento de datos es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del servicio Almacenamiento de datos es inferior al umbral muy alto del {umbral_uso_sistema} %. "

Escale horizontalmente o verticalmente el servicio Almacenamiento de datos.

3.2.0
Uso de disco de almacén de datos alto Mediano manager, intelligence

El uso del disco del servicio Almacenamiento de datos es alto.

Cuando se detecta el evento: "El uso del disco del servicio Almacenamiento de datos es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del servicio Almacenamiento de datos es inferior al umbral alto del {umbral_uso_sistema} %. "

Escale horizontalmente o verticalmente el servicio Almacenamiento de datos.

3.2.0
Uso de disco de Mensajería muy alto Crítico manager, intelligence

El uso del disco del servicio Mensajería es muy alto.

Cuando se detecta el evento: "El uso del disco del servicio Mensajería es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del servicio Mensajería es inferior al umbral muy alto del {umbral_uso_sistema} %. "

No es necesario limpiar los archivos. Escale horizontalmente todos los servicios o el servicio Mensajería.

3.2.0
Uso de disco de Mensajería alto Mediano manager, intelligence

El uso del disco del servicio Mensajería es alto.

Cuando se detecta el evento: "El uso del disco del servicio Mensajería es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del servicio Mensajería es inferior al umbral alto del {umbral_uso_sistema} %. "

No es necesario limpiar los archivos. Escale horizontalmente todos los servicios o el servicio Mensajería.

3.2.0
Uso de disco de base de datos de configuración muy alto Crítico manager, intelligence

El uso del disco del servicio Base de datos de configuración es muy alto.

Cuando se detecta el evento: "El uso del disco del servicio Base de datos de configuración es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del servicio Base de datos de configuración es inferior al umbral muy alto del {umbral_uso_sistema} %. "

No es necesario limpiar los archivos. Escalar horizontalmente todos los servicios.

3.2.0
Uso de disco de base de datos de configuración alto Mediano manager, intelligence

El uso del disco del servicio Base de datos de configuración es alto.

Cuando se detecta el evento: "El uso del disco del servicio Base de datos de configuración es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del servicio Base de datos de configuración es inferior al umbral alto del {umbral_uso_sistema} %. "

No es necesario limpiar los archivos. Escalar horizontalmente todos los servicios.

3.2.0
Uso de disco de Métrica muy alto Crítico manager, intelligence

El uso del disco del servicio Métrica es muy alto.

Cuando se detecta el evento: "El uso del disco del servicio Métrica es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del servicio Métrica es inferior al umbral muy alto del {umbral_uso_sistema} %. "

No es necesario limpiar los archivos. Escalar horizontalmente todos los servicios.

3.2.0
Uso de disco de Métrica alto Mediano manager, intelligence

El uso del disco del servicio Métrica es alto.

Cuando se detecta el evento: "El uso del disco del servicio Métrica es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del servicio Métrica es inferior al umbral alto del {umbral_uso_sistema} %. "

No es necesario limpiar los archivos. Escalar horizontalmente todos los servicios.

3.2.0
Uso de disco de Análisis muy alto Crítico manager, intelligence

El uso del disco del servicio Análisis es muy alto.

Cuando se detecta el evento: "El uso del disco del servicio Análisis es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del servicio Análisis es inferior al umbral muy alto del {umbral_uso_sistema} %. "

No es necesario limpiar los archivos. Escale horizontalmente todos los servicios o el servicio Análisis.

3.2.0
Uso de disco de Análisis alto Mediano manager, intelligence

El uso del disco del servicio Análisis es alto.

Cuando se detecta el evento: "El uso del disco del servicio Análisis es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del servicio Análisis es inferior al umbral alto del {umbral_uso_sistema} %. "

No es necesario limpiar los archivos. Escale horizontalmente todos los servicios o el servicio Análisis.

3.2.0
Uso de disco de plataforma muy alto Crítico manager, intelligence

El uso del disco del servicio Servicios de plataforma es muy alto.

Cuando se detecta el evento: "El uso del disco del servicio Servicios de plataforma es superior al umbral muy alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del servicio Servicios de plataforma es inferior al umbral muy alto del {umbral_uso_sistema} %. "

No es necesario limpiar los archivos. Escalar horizontalmente todos los servicios.

3.2.0
Uso de disco de plataforma alto Mediano manager, intelligence

El uso del disco del servicio Servicios de plataforma es alto.

Cuando se detecta el evento: "El uso del disco del servicio Servicios de plataforma es superior al umbral alto del {umbral_uso_sistema} %. "

Cuando se resuelve el evento: "El uso del disco del servicio Servicios de plataforma es inferior al umbral alto del {umbral_uso_sistema} %. "

No es necesario limpiar los archivos. Escalar horizontalmente todos los servicios.

3.2.0
Estado del servicio degradado Mediano manager, intelligence

El estado del servicio es degradado.

Cuando se detecta el evento: "El servicio {nombre_servicio_napp} se degradó. Es posible que el servicio aún pueda alcanzar un cuórum, mientras que los pods asociados con {nombre_servicio_napp} no son todos estables. Los recursos consumidos por estos pods inestables pueden liberarse. "

Cuando se resuelve el evento: "El servicio {nombre_servicio_napp} se está ejecutando correctamente. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales para comprobar qué servicio está degradado. Invoque la NSX API GET /napp/api/v1/platform/monitor/feature/health para comprobar qué servicio específico está degradado y por qué. Invoque el siguiente comando de la CLI para reiniciar el servicio degradado si fuera necesario: kubectl rollout restart &ltstatefulset/deployment&gt &ltnombre_servicio&gt -n &ltespaciodenombre&gt. Los servicios degradados funcionarán correctamente, pero el rendimiento no será óptimo.

3.2.0
Estado del servicio inactivo Alto manager, intelligence

El estado del servicio es inactivo.

Cuando se detecta el evento: "El servicio {nombre_servicio_napp} no se está ejecutando. "

Cuando se resuelve el evento: "El servicio {nombre_servicio_napp} se está ejecutando correctamente. "

En la interfaz de usuario de NSX, desplácese hasta Sistema | NSX Application Platform | Servicios principales para comprobar qué servicio está degradado. Invoque la NSX API GET /napp/api/v1/platform/monitor/feature/health para comprobar qué servicio específico está inactivo y por qué. Invoque el siguiente comando de la CLI para reiniciar el servicio degradado: kubectl rollout restart &ltstatefulset/deployment&gt &ltnombre_servicio&gt -n &espacio_de_nombres&gt

3.2.0

Eventos de estado de NSXaaS

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Servicio degradado Alto aas

Servicio degradado.

Cuando se detecta el evento: "El servicio {nombre_servicio_nsxaas} se degradó. En su estado actual, es posible que el servicio esté funcionando con una eficiencia reducida, lo que puede afectar a las cargas de trabajo del cliente. {motivo_servicio_inactivo}"

Cuando se resuelve el evento: "El servicio {nombre_servicio_nsxaas} ya no está en estado degradado. "

Revise los datos incluidos en la descripción de la alarma que identifican el servicio donde se implementa el servicio y los datos adicionales capturados por el servicio de supervisión de estado. Revise también los datos históricos registrados por el servicio Métrica o Wavefront, según corresponda.

4.1.0
Servicio inactivo Crítico aas

Servicio inactivo.

Cuando se detecta el evento: "El servicio {nombre_servicio_nsxaas} está inactivo. {motivo_servicio_inactivo}"

Cuando se resuelve el evento: "El servicio {nombre_servicio_nsxaas} vuelve a estar disponible. "

Revise los datos incluidos en la descripción de la alarma que identifican el servicio donde se implementa el servicio y los datos adicionales capturados por el servicio de supervisión de estado. Revise también los datos históricos registrados por el servicio Métrica o Wavefront, según corresponda.

4.1.0

Eventos del administración de contraseñas

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Contraseña caducada Crítico global-manager, manager, edge, public-cloud-gateway

La contraseña del usuario caducó.

Cuando se detecta el evento: "La contraseña del usuario {usuario} caducó. "

Cuando se resuelve el evento: "La contraseña del usuario {usuario} cambió correctamente o ya no está caducada, o el usuario ya no está activo. "

Es necesario cambiar la contraseña del usuario {usuario} para poder acceder al sistema. Por ejemplo, para aplicar una nueva contraseña a un usuario, invoque la siguiente NSX API con una contraseña válida en el cuerpo de la solicitud: PUT /api/v1/node/users/&ltid_usuario&gt donde &ltid_usuario&gt es el identificador del usuario. Si caducó la contraseña del usuario admin (con el &ltid_usuario&gt 10000), este deberá iniciar sesión en el sistema a través de SSH (si está habilitado) o de la consola para poder cambiar la contraseña. Tras introducir la contraseña actual caducada, se solicitará al usuario admin que introduzca una nueva contraseña.

3.0.0
La contraseña está a punto de caducar Alto global-manager, manager, edge, public-cloud-gateway

La contraseña del usuario está a punto de caducar.

Cuando se detecta el evento: "La contraseña del usuario {usuario} caducará dentro de {días_para_que_caduque_la_contraseña} días. "

Cuando se resuelve el evento: "La contraseña del usuario {usuario} cambió correctamente o ya no está caducada, o el usuario ya no está activo. "

Asegúrese de que la contraseña del usuario {usuario} se cambie inmediatamente. Por ejemplo, para aplicar una nueva contraseña a un usuario, invoque la siguiente NSX API con una contraseña válida en el cuerpo de la solicitud: PUT /api/v1/node/users/&ltid_usuario&gt donde &ltid_usuario&gt es el identificador del usuario.

3.0.0
Método de caducidad de contraseña Mediano global-manager, manager, edge, public-cloud-gateway

La contraseña del usuario caducará pronto.

Cuando se detecta el evento: "La contraseña del usuario {usuario} caducará próximamente (dentro de {días_caducidad_contraseña} días). "

Cuando se resuelve el evento: "La contraseña del usuario {usuario} cambió correctamente o ya no está caducada, o el usuario ya no está activo. "

La contraseña del usuario {usuario} se debe cambiar pronto. Por ejemplo, para aplicar una nueva contraseña a un usuario, invoque la siguiente NSX API con una contraseña válida en el cuerpo de la solicitud: PUT /api/v1/node/users/&ltid_usuario&gt donde &ltid_usuario&gt es el identificador del usuario.

3.0.0

Eventos de servidor físico

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Error en la instalación del servidor físico Crítico manager

Error en la instalación del servidor físico (BMS).

Cuando se detecta el evento: "Error en la instalación del servidor físico {nombre_nodo_transporte} ({id_entidad}). "

Cuando se resuelve el evento: "Se completó la instalación del servidor físico {nombre_nodo_transporte} ({id_entidad}). "

Desplácese hasta Sistema > Tejido > Nodos > Nodos de transporte de host y resuelva el error en el nodo.

4.0.0
Error en la actualización del servidor físico Crítico manager

Error en la actualización del servidor físico (BMS).

Cuando se detecta el evento: "Error en la actualización del servidor físico {nombre_nodo_transporte} ({id_entidad}). "

Cuando se resuelve el evento: "Se completó la actualización del servidor físico {nombre_nodo_transporte} ({id_entidad}). "

Desplácese hasta Sistema > Actualizar, resuelva el error y vuelva a activar la actualización.

4.0.0
Error en la desinstalación del servidor físico Crítico manager

Error en la desinstalación del servidor físico (BMS).

Cuando se detecta el evento: "Error en la desinstalación del servidor físico {nombre_nodo_transporte} ({id_entidad}). "

Cuando se resuelve el evento: "Se completó la desinstalación del servidor físico {nombre_nodo_transporte} ({id_entidad}). "

Desplácese hasta Sistema > Tejido > Nodos > Nodos de transporte de host y resuelva el error en el nodo.

4.0.0

Eventos de restricción de directiva

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Se alcanzó el límite de creación Mediano manager

El recuento de entidades alcanzó el límite de restricción de la directiva.

Cuando se detecta el evento: "El número de entidades para el tipo {tipo_restricción} en {ruta_tipo_restricción} es actualmente de {número_actual}, lo que alcanza el límite máximo de {límite_restricción}. "

Cuando se resuelve el evento: "El número de {tipo_restricción} está por debajo del umbral. "

Revise el uso de {tipo_restricción}. Actualice la restricción para aumentar el límite o eliminar {tipo_restricción} que no se utilice.

4.1.0

Eventos de enrutamiento

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
BFD inactivo en la interfaz externa Alto edge, autonomous-edge, public-cloud-gateway

La sesión de BFD está inactiva.

Cuando se detecta el evento: "En el enrutador {id_lr}, , la sesión de BFD para {dirección_mismo_nivel} está inactiva. "

Cuando se resuelve el evento: "En el enrutador {id_lr}, la sesión de BFD para {dirección_mismo_nivel} está activa. "

1. Invoque el comando de la CLI de NSX get logical-routers.
2. Cambie al enrutador de servicio {id_sr}
3. Invoque el comando de la CLI de NSX ping {dirección_mismo_nivel} para comprobar la conectividad.

3.0.0
Enrutamiento estático eliminado Alto edge, autonomous-edge, public-cloud-gateway

Ruta estática eliminada.

Cuando se detecta el evento: "En el enrutador {id_lr}, se eliminó la ruta estática {id_entidad} ({dirección_estática}) porque BFD estaba inactivo. "

Cuando se resuelve el evento: "En el enrutador {id_lr}, la ruta estática {id_entidad} ({dirección_estática}) se agregó de nuevo como BFD recuperado. "

Se quitó la entrada de enrutamiento estático debido a que la sesión de BFD estaba inactiva.
1. Invoque el comando de la CLI de NSX get logical-routers.
2. Cambie al enrutador de servicio {id_sr}.
3. Invoque el comando de la CLI de NSX ping &ltdirección IP del mismo nivel de BFD&gt para comprobar la conectividad. Además, compruebe la configuración en NSX y BFD para asegurarse de que no se hayan cambiado los temporizadores.

3.0.0
BGP inactivo Alto edge, autonomous-edge, public-cloud-gateway

Vecino BGP inactivo.

Cuando se detecta el evento: "En el enrutador {id_lr}, el vecino BGP {id_entidad} ({ip_vecino_bgp}) está inactivo. Motivo: {motivo_error}. "

Cuando se resuelve el evento: "En el enrutador {id_lr}, el vecino BGP {id_entidad} ({ip_vecino_bgp}) está activo. "

1. Invoque el comando de la CLI de NSX get logical-routers.
2. Cambie al enrutador de servicio {id_sr}. Si el motivo indica error de red o de configuración:
3. Invoque el comando de la CLI de NSX get bgp neighbor summary para comprobar el estado del vecino de BGP. Si el motivo indica que Edge no está listo, compruebe por qué el nodo de Edge no está en buen estado.
4. Invoque el comando de la CLI de NSX get edge-cluster status para comprobar el motivo por el que el nodo de Edge podría estar inactivo.
5. Invoque los comandos de la CLI de NSX get bfd-config y get bfd-sessions para comprobar si BFD se está ejecutando correctamente.
6. Compruebe las alarmas relacionadas con el estado de Edge para obtener más información. Compruebe si en /var/log/syslog hay algún error relacionado con la conectividad de BGP.

3.0.0
ARP de proxy no configurado para la IP de servicio Crítico manager

El ARP de proxy no está configurado para la IP de servicio

Cuando se detecta el evento: "El ARP de proxy para la IP de servicio {ip_servicio} y la entidad de servicio {id_entidad} no están configurados porque el número de entradas del proxy ARP generadas debido a la superposición de la IP de servicio con la subred de lrport {id_lrport} en el enrutador {id_lr} ha superado el límite de umbral permitido de 16384. "

Cuando se resuelve el evento: "El ARP de proxy para la entidad de servicio {id_entidad} se genera correctamente porque la superposición de la IP de servicio con la subred de lrport {id_lrport} en el enrutador {id_lr} está dentro del límite permitido de 16384 entradas. "

Vuelva a configurar la IP de servicio {ip_servicio} para la entidad de servicio {id_entidad} o cambie la subred de lrport {id_lrport} en el enrutador {id_lr} de modo que el número de entradas ARP del proxy generadas por la superposición entre la IP de servicio y la subred de lrport sea menor que el límite de umbral permitido de 16384.

3.0.3
Enrutamiento inactivo Alto edge, autonomous-edge, public-cloud-gateway

Todas las sesiones de BGP/BFD están inactivas.

Cuando se detecta el evento: "Todas las sesiones de BGP/BFD están inactivas. "

Cuando se resuelve el evento: "Está activa al menos una sesión de BGP/BFD. "

Invoque el comando de la CLI de NSX get logical-routers para obtener el enrutador de servicio de nivel 0 y cambie a este VRF. A continuación, invoque los siguientes comando de la CLI de NSX.
1. ping &ltdirección IP del mismo nivel de BFD&gt para verificar la conectividad.
2. get bfd-config y get bfd-sessions para comprobar si BFD se está ejecutando correctamente.
3. get bgp neighbor summary para comprobar si BGP se está ejecutando correctamente. Además, compruebe si en /var/log/syslog hay algún error relacionado con la conectividad de BGP.

3.0.0
El vecino de OSPF se desconectó Alto edge, autonomous-edge, public-cloud-gateway

El vecino de OSPF cambió de un estado completo a otro estado.

Cuando se detecta el evento: "El vecino de OSPF {dirección_mismo_nivel} cambió de un estado completo a otro estado. "

Cuando se resuelve el evento: "El vecino de OSPF {dirección_mismo_nivel} cambió a un estado completo. "

1. Invoque el comando de la CLI de NSX get logical-routers para obtener el identificador de VRF y cambiar al enrutador de servicio nivel 0.
2. Ejecute get ospf neighbor para comprobar el estado actual de este vecino. Si el vecino no se muestra en el resultado, significa que se desactivó o está fuera de la red.
3. Invoque el comando de la CLI de NSX ping &ltdirección IP de vecino de OSPF&gt para comprobar la conectividad.
4. Compruebe también la configuración del enrutador del mismo nivel y de NSX para asegurarse de que coincidan los temporizadores y el identificador de área.
5. Compruebe si en /var/log/syslog hay algún error relacionado con la conectividad.

3.1.1
El límite máximo de rutas IPv4 está próximo Mediano edge, autonomous-edge, public-cloud-gateway

El límite máximo de rutas IPv4 está próximo en el nodo de Edge.

Cuando se detecta el evento: "El límite de rutas IPv4 alcanzó {umbral_límite_rutas} en la puerta de enlace de nivel 0 y todos los VRF de nivel 0 en el nodo de Edge {nodo_edge}. "

Cuando se resuelve el evento: "Las rutas IPv4 están dentro del límite de {umbral_límite_rutas} en la puerta de enlace de nivel 0 y todas las VRF de nivel 0 en el nodo de Edge {nodo_edge}. "

1. Compruebe las directivas de redistribución de rutas y las rutas recibidas de todos los elementos del mismo nivel externos.
2. Considere la posibilidad de reducir el número de rutas mediante la aplicación de directivas y filtros de enrutamiento según corresponda.

4.0.0
Está a punto de alcanzarse el límite máximo de rutas IPv6 Mediano edge, autonomous-edge, public-cloud-gateway

El límite máximo de rutas IPv6 está próximo en el nodo de Edge.

Cuando se detecta el evento: "El límite de rutas IPv6 alcanzó {umbral_límite_rutas} en la puerta de enlace de nivel 0 y todos los VRF de nivel 0 en el nodo de Edge {nodo_edge}. "

Cuando se resuelve el evento: "Las rutas IPv6 están dentro del límite de {umbral_límite_rutas} en la puerta de enlace de nivel 0 y todas las VRF de nivel 0 en el nodo de Edge {nodo_edge}. "

1. Compruebe las directivas de redistribución de rutas y las rutas recibidas de todos los elementos del mismo nivel externos.
2. Considere la posibilidad de reducir el número de rutas mediante la aplicación de directivas y filtros de enrutamiento según corresponda.

4.0.0
Se superó el máximo de rutas IPv4 Crítico edge, autonomous-edge, public-cloud-gateway

Se superó el límite máximo de rutas IPv4 en el nodo de Edge.

Cuando se detecta el evento: "Las rutas IPv4 superaron el límite de {límite_máx_rutas} en la puerta de enlace de nivel 0 y todos los VRF de nivel 0 en el nodo de Edge {nodo_edge}. "

Cuando se resuelve el evento: "Las rutas IPv4 están dentro del límite de {límite_máx_rutas} en la puerta de enlace de nivel 0 y todas las VRF de nivel 0 en el nodo de Edge {nodo_edge}. "

1. Compruebe las directivas de redistribución de rutas y las rutas recibidas de todos los elementos del mismo nivel externos.
2. Considere la posibilidad de reducir el número de rutas mediante la aplicación de directivas y filtros de enrutamiento según corresponda.

4.0.0
Se superó el máximo de rutas IPv6 Crítico edge, autonomous-edge, public-cloud-gateway

Se superó el límite máximo de rutas IPv6 en el nodo de Edge.

Cuando se detecta el evento: "Las rutas IPv6 superaron el límite de {límite_máx_rutas} en la puerta de enlace de nivel 0 y todos los VRF de nivel 0 en el nodo de Edge {nodo_edge}. "

Cuando se resuelve el evento: "Las rutas IPv6 están dentro del límite de {límite_máx_rutas} en la puerta de enlace de nivel 0 y todas las VRF de nivel 0 en el nodo de Edge {nodo_edge}. "

1. Compruebe las directivas de redistribución de rutas y las rutas recibidas de todos los elementos del mismo nivel externos.
2. Considere la posibilidad de reducir el número de rutas mediante la aplicación de directivas y filtros de enrutamiento según corresponda.

4.0.0
El máximo de prefijos IPv4 desde el vecino de BGP está próximo Mediano edge, autonomous-edge, public-cloud-gateway

El número máximo de prefijos IPv4 recibidos del vecino BGP está próximo.

Cuando se detecta el evento: "El número de prefijos de {familia_direcciones_posteriores} IPv4 recibidos de {ip_vecino_bgp} es de {umbral_número_prefijos}. El límite definido para este elemento del mismo nivel es {número_máximo_prefijos}. "

Cuando se resuelve el evento: "El número de prefijos de {familia_direcciones_posteriores} IPv4 recibidos de {ip_vecino_bgp} está dentro del límite {umbral_número_prefijos}. "

1. Compruebe las directivas de enrutamiento de BGP en el enrutador externo.
2. Considere la posibilidad de reducir la cantidad de rutas anunciadas por el elemento BGP del mismo nivel mediante la aplicación de directivas de enrutamiento y filtros al enrutador externo.
3. Si es necesario, aumente la configuración máxima de prefijos en la sección de configuración de vecino BGP.

4.0.0
El máximo de prefijos IPv6 desde el vecino de BGP está próximo Mediano edge, autonomous-edge, public-cloud-gateway

El número máximo de prefijos IPv6 recibidos del vecino BGP está próximo.

Cuando se detecta el evento: "El número de prefijos de {familia_direcciones_posteriores} IPv6 recibidos de {ip_vecino_bgp} es de {umbral_número_prefijos}. El límite definido para este elemento del mismo nivel es {número_máximo_prefijos}. "

Cuando se resuelve el evento: "El número de prefijos de {familia_direcciones_posteriores} IPv6 recibidos de {ip_vecino_bgp} está dentro del límite {umbral_número_prefijos}. "

1. Compruebe las directivas de enrutamiento de BGP en el enrutador externo.
2. Considere la posibilidad de reducir la cantidad de rutas anunciadas por el elemento BGP del mismo nivel mediante la aplicación de directivas de enrutamiento y filtros al enrutador externo.
3. Si es necesario, aumente la configuración máxima de prefijos en la sección de configuración de vecino BGP.

4.0.0
Se superó el máximo de prefijos IPv4 desde el vecino de BGP Crítico edge, autonomous-edge, public-cloud-gateway

Se superó el máximo de prefijos IPv4 recibidos del vecino de BGP.

Cuando se detecta el evento: "El número de prefijos de {familia_direcciones_posteriores} IPv4 recibidos de {ip_vecino_bgp} superó el límite definido para este elemento del mismo nivel de {número_máximo_prefijos}. "

Cuando se resuelve el evento: "El número de prefijos de {familia_direcciones_posteriores} IPv4 recibidos de {ip_vecino_bgp} está dentro del límite {número_máximo_prefijos}. "

1. Compruebe las directivas de enrutamiento de BGP en el enrutador externo.
2. Considere la posibilidad de reducir la cantidad de rutas anunciadas por el elemento BGP del mismo nivel mediante la aplicación de directivas de enrutamiento y filtros al enrutador externo.
3. Si es necesario, aumente la configuración máxima de prefijos en la sección de configuración de vecino BGP.

4.0.0
Se superó el máximo de prefijos IPv6 desde el vecino de BGP Crítico edge, autonomous-edge, public-cloud-gateway

Se superó el máximo de prefijos IPv6 recibidos del vecino BGP.

Cuando se detecta el evento: "El número de prefijos de {familia_direcciones_posteriores} IPv6 recibidos de {ip_vecino_bgp} superó el límite definido para este elemento del mismo nivel de {número_máximo_prefijos}. "

Cuando se resuelve el evento: "El número de prefijos de {familia_direcciones_posteriores} IPv6 recibidos de {ip_vecino_bgp} está dentro del límite {número_máximo_prefijos}. "

1. Compruebe las directivas de enrutamiento de BGP en el enrutador externo.
2. Considere la posibilidad de reducir la cantidad de rutas anunciadas por el elemento BGP del mismo nivel mediante la aplicación de directivas de enrutamiento y filtros al enrutador externo.
3. Si es necesario, aumente la configuración máxima de prefijos en la sección de configuración de vecino BGP.

4.0.0

Eventos de cumplimiento de seguridad

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Activar no conformidad con NDcPP Crítico manager

El estado de seguridad de NSX no es conforme con NDcPP.

Cuando se detecta el evento: "Se está infringiendo uno de los requisitos de conformidad de NDcPP. Eso significa que actualmente el estado de NSX no es conforme con NDcPP. "

Cuando se resuelve el evento: "Se han resuelto todos los problemas de conformidad de NDcPP. "

Ejecute el informe de conformidad desde el menú Inicio de la interfaz de usuario - Supervisión y Panel de control - Informe de conformidad y resuelva todos los problemas marcados con el nombre de conformidad NDcPP.

4.1.0
Activar no conformidad con EAL4 Crítico manager

El estado de seguridad de NSX no es conforme con EAL4+.

Cuando se detecta el evento: "Se está infringiendo uno de los requisitos de conformidad de EAL4+. Eso significa que actualmente el estado de NSX no es conforme con EAL4+. "

Cuando se resuelve el evento: "Se han resuelto todos los problemas de conformidad de EAL4+. "

Ejecute el informe de conformidad desde el menú Inicio de la interfaz de usuario - Supervisión y Panel de control - Informe de conformidad y resuelva todos los problemas marcados con el nombre de conformidad EAL4+.

4.1.0
Sondear no conformidad con NDcPP Crítico manager

La configuración de seguridad NSX no es conforme con NDcPP.

Cuando se detecta el evento: "Se está infringiendo uno de los requisitos de conformidad de NDcPP. Eso significa que actualmente la configuración de NSX no es conforme con NDcPP. "

Cuando se resuelve el evento: "Se han resuelto todos los problemas de conformidad de NDcPP. "

Ejecute el informe de conformidad desde el menú Inicio de la interfaz de usuario - Supervisión y Panel de control - Informe de conformidad y resuelva todos los problemas marcados con el nombre de conformidad NDcPP.

4.1.0
Sondear no conformidad con EAL4 Crítico manager

La configuración de seguridad NSX no es conforme con EAL4+.

Cuando se detecta el evento: "Se está infringiendo uno de los requisitos de conformidad de EAL4+. Eso significa que actualmente la configuración de NSX no es conforme con EAL4+. "

Cuando se resuelve el evento: "Se han resuelto todos los problemas de conformidad de EAL4+. "

Ejecute el informe de conformidad desde el menú Inicio de la interfaz de usuario - Supervisión y Panel de control - Informe de conformidad y resuelva todos los problemas marcados con el nombre de conformidad EAL4+.

4.1.0

Eventos de inserción de servicios

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Servicio implementado correctamente Información manager

La implementación del servicio se realizó correctamente.

Cuando se detecta el evento: "La implementación de servicio {id_entidad} para el servicio {nombre_servicio} en el clúster {id_clúster_vcenter}se realizó correctamente. "

Cuando se resuelve el evento: "La implementación del servicio {id_entidad} en el clúster {id_clúster_vcenter} se realizó correctamente; no se necesita ninguna acción. "

No es necesario realizar ninguna acción.

4.0.0
Error en la implementación del servicio Crítico manager

Error en la implementación del servicio.

Cuando se detecta el evento: "Error en la implementación de servicio {id_entidad} para el servicio {nombre_servicio} en el clúster {id_clúster_vcenter}. Motivo: {motivo_error} "

Cuando se resuelve el evento: "Se eliminó la implementación de servicio {id_entidad} con errores. "

Elimine la implementación del servicio mediante la API o la interfaz de usuario de NSX. Realice cualquier acción correctiva de la base de conocimientos y vuelva a intentar la implementación del servicio.

4.0.0
Implementación de servicio anulada correctamente Información manager

La eliminación de la implementación del servicio se realizó correctamente.

Cuando se detecta el evento: "La eliminación de la implementación de servicio {id_entidad} para el servicio {nombre_servicio} en el clúster {id_clúster_vcenter}se realizó correctamente. "

Cuando se resuelve el evento: "La eliminación de la implementaciones de servicio {id_entidad} en el clúster {id_clúster_vcenter} se realizó correctamente; no se necesita ninguna acción. "

No es necesario realizar ninguna acción.

4.0.0
Error al anular la implementación del servicio Crítico manager

Error al eliminar la implementación del servicio.

Cuando se detecta el evento: "Error en la eliminación de la implementación de servicio {id_entidad} para el servicio {nombre_servicio} en el clúster {id_clúster_vcenter}. Motivo: {motivo_error} "

Cuando se resuelve el evento: "Se eliminó el nombre de implementación de servicio {id_entidad} con errores. "

Elimine la implementación del servicio mediante la API o la interfaz de usuario de NSX. Realice cualquier acción correctiva de la base de conocimientos y vuelva a intentar eliminar la implementación del servicio. Resuelva la alarma manualmente después de comprobar que se eliminaron todos los objetos y la máquina virtual.

4.0.0
Estado de mantenimiento de SVM activo Información manager

La SVM está funcionando en el servicio.

Cuando se detecta el evento: "La comprobación de estado de la SVM {id_entidad} para el servicio {nombre_servicio} funciona correctamente en {nombre_host_o_dirección_ip_con_puerto}. "

Cuando se resuelve el evento: "La SVM {id_entidad} está funcionando correctamente; no se necesita ninguna acción. "

No es necesario realizar ninguna acción.

4.0.0
Estado de mantenimiento de SVM inactivo Alto manager

La SVM no funciona en el servicio.

Cuando se detecta el evento: "La comprobación de estado de la SVM {id_entidad} para el servicio {nombre_servicio} no funciona correctamente en {nombre_host_o_dirección_ip_con_puerto}. Motivo: {motivo_error}. "

Cuando se resuelve el evento: "Se eliminó la SVM {id_entidad} con un estado incorrecto. "

Elimine la implementación del servicio mediante la API o la interfaz de usuario de NSX. Realice cualquier acción correctiva de la base de conocimientos y vuelva a intentar la implementación del servicio si es necesario.

4.0.0
Estado de infraestructura de inserción de servicios inactivo Crítico esx

Estado de la infraestructura de inserción de servicios inactivo y no habilitado en el host.

Cuando se detecta el evento: "El SPF no está habilitado en el nivel del puerto en el host {id_nodo_transporte} y el estado es inactivo. Motivo: {motivo_error}. "

Cuando se resuelve el evento: "El estado de la infraestructura de inserción de servicios es activo y se habilitó correctamente en el host. "

Realice cualquier acción correctiva indicada en la base de conocimientos y compruebe si el estado es activo. Resuelva la alarma manualmente después de comprobar el estado.

4.0.0
Estado de ejecución de SVM inactivo Crítico manager

Estado de ejecución de SVM inactivo.

Cuando se detecta el evento: "El estado de ejecución de la SVM está inactivo en {id_entidad} y el flujo de tráfico se ve afectado. "

Cuando se resuelve el evento: "El estado de ejecución de SVM está activo y configurado según lo esperado. "

Realice cualquier acción correctiva indicada en la base de conocimientos y compruebe si el estado es activo.

4.0.0
Ruta de cadena de servicios inactiva Crítico manager

Ruta de cadena de servicios inactiva.

Cuando se detecta el evento: "La ruta de cadena de servicios está inactiva en {id_entidad} y el flujo de tráfico se ve afectado. "

Cuando se resuelve el evento: "La ruta de cadena de servicios está activa y configurada según lo esperado. "

Realice cualquier acción correctiva indicada en la base de conocimientos y compruebe si el estado es activo.

4.0.0
Nuevo host agregado Información esx

Se agregó un nuevo host al clúster.

Cuando se detecta el evento: "Se agregará un nuevo host al clúster {id_clúster_vcenter} y se implementará la SVM. "

Cuando se resuelve el evento: "Nuevo host agregado correctamente. "

Compruebe el estado de implementación de la máquina virtual y espere hasta que se encienda.

4.0.0

Eventos de estado de TEP

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
TEP con errores Mediano esx

El estado de TEP es incorrecto.

Cuando se detecta el evento: "TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte}. Las cargas de trabajo de superposición que utilizan este TEP sufrirán interrupciones en la red. Motivo: {motivo_error_vtep}. "

Cuando se resuelve el evento: "TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} está en buen estado. "

1. Compruebe si TEP tiene una IP válida o cualquier otro problema de conectividad subyacente.
2. Habilite TEP HA para realizar la conmutación por error de las cargas de trabajo a otros TEP en buen estado.

4.1.0
TEP HA activado Información esx

TEP HA activado.

Cuando se detecta el evento: "TEP HA activado para TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte}. "

Cuando se resuelve el evento: "TEP HA borrado para TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte}. "

Habilite la recuperación automática o invoque la recuperación manual para TEP:{nombre_vtep} en VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte}.

4.1.0
Recuperación automática de TEP correcta Información esx

La recuperación automática se realizó correctamente.

Cuando se detecta el evento: "La recuperación automática para TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} se realizó correctamente. "

Cuando se resuelve el evento: "La recuperación automática para TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} se borró. "

Ninguna.

4.1.0
Error de recuperación automática de TEP Mediano esx

Error de recuperación automática.

Cuando se detecta el evento: "Error de recuperación automática para TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte}. Las cargas de trabajo superpuestas que utilizan este TEP realizarán una conmutación por error a otros TEP en buen estado. Si no hay otros TEP en buen estado, las cargas de trabajo de superposición sufrirán interrupciones de red. "

Cuando se resuelve el evento: "La recuperación automática para TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} se borró. "

Compruebe si TEP tiene una IP válida o cualquier otro problema de conectividad subyacente.

4.1.0
TEP con errores en la DPU Mediano dpu

El TEP tiene un estado incorrecto en la DPU.

Cuando se detecta el evento: "TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} en la DPU {id_dpu}. Las cargas de trabajo de superposición que utilizan este TEP sufrirán interrupciones en la red. Motivo: {motivo_error_vtep}. "

Cuando se resuelve el evento: "TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} en la DPU {id_dpu} está en buen estado. "

1. Compruebe si TEP tiene una IP válida o cualquier otro problema de conectividad subyacente.
2. Habilite TEP HA para realizar la conmutación por error de las cargas de trabajo a otros TEP en buen estado.

4.1.0
TEP HA activado en DPU Información dpu

TEP HA activado en DPU.

Cuando se detecta el evento: "TEP HA activado para TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} en la DPU {id_dpu}. "

Cuando se resuelve el evento: "TEP HA borrado para TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} en la DPU {id_dpu}. "

Habilite la recuperación automática o invoque la recuperación manual para TEP:{nombre_vtep} en VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} en la DPU {id_dpu}.

4.1.0
Recuperación automática de TEP correcta en DPU Información dpu

La recuperación automática se realiza correctamente en la DPU.

Cuando se detecta el evento: "La recuperación automática para TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} en la DPU {id_dpu} se realizó correctamente. "

Cuando se resuelve el evento: "La recuperación automática para TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} en la DPU {id_dpu} se borró. "

Ninguna.

4.1.0
Error de recuperación automática de TEP en DPU Mediano dpu

Error de recuperación automática en la DPU.

Cuando se detecta el evento: "Error de recuperación automática para TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} en la DPU {id_dpu}. Las cargas de trabajo superpuestas que utilizan este TEP realizarán una conmutación por error a otros TEP en buen estado. Si no hay otros TEP en buen estado, las cargas de trabajo de superposición sufrirán interrupciones de red. "

Cuando se resuelve el evento: "La recuperación automática para TEP:{nombre_vtep} de VDS:{nombre_dvs} en el nodo de transporte:{id_nodo_transporte} en la DPU {id_dpu} se borró. "

Compruebe si TEP tiene una IP válida o cualquier otro problema de conectividad subyacente.

4.1.0

Eventos de estado del nodo de transporte

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Vínculo superior de nodo de transporte inactivo en DPU Mediano dpu

El vínculo superior en DPU se está desconectando.

Cuando se detecta el evento: "El vínculo superior en la DPU {id_dpu} se está desconectando. "

Cuando se resuelve el evento: "El vínculo superior en la DPU {id_dpu} se está activando. "

Compruebe el estado de las NIC físicas de los vínculos superiores en la DPU {id_dpu}. Averigüe el nombre asignado de esta NIC física en el host y, a continuación, realice una comprobación de la interfaz.
1. En la interfaz de usuario de NSX, vaya a Tejido | Nodos | Nodos de transporte | Nodos de transporte de host.
2. En la lista de nodos de transporte de host, compruebe la columna Estado de nodo. Busque el nodo de transporte con un estado degradado o inactivo.
3. Seleccione &ltnodo de transporte&gt | Supervisar. Compruebe la información del estado del enlace (vínculo superior) que indica un estado degradado o inactivo. Para evitar un estado degradado, asegúrese de que todas las interfaces de vínculo superior estén conectadas y en funcionamiento, independientemente de si están o no en uso.

4.0.0
Miembro de LAG inactivo en la DPU Mediano dpu

LACP en la DPU informa de que el miembro está inactivo.

Cuando se detecta el evento: "LACP en la DPU {id_dpu} informa de que el miembro está inactivo. "

Cuando se resuelve el evento: "LACP en la DPU {id_dpu} informan que el miembro está activo. "

Compruebe el estado de la conexión de los miembros de LAG en la DPU {id_dpu}. Busque el nombre asignado de la NIC física relacionada en el host y, a continuación, realice la comprobación en la interfaz de usuario.
1. En la interfaz de usuario de NSX, vaya a Tejido | Nodos | Nodos de transporte | Nodos de transporte de host.
2. En la lista de nodos de transporte de host, compruebe la columna Estado de nodo. Busque el nodo de transporte con un estado degradado o inactivo.
3. Seleccione &ltnodo de transporte&gt | Supervisar. Busque el enlace (vínculo superior) que indica un estado degradado o inactivo.
4. Compruebe los detalles del estado de los miembros de LACP iniciando sesión en la DPU {id_dpu} con errores e invocando esxcli network vswitch dvs vmware lacp status get.

4.0.0
Vínculo superior de NVDS inactivo Mediano esx, kvm, bms

El vínculo superior se está desconectando.

Cuando se detecta el evento: "El vínculo superior se está desconectando. "

Cuando se resuelve el evento: "El vínculo superior está activo. "

Compruebe el estado de las NIC físicas de los vínculos superiores de los hosts.
1. En la interfaz de usuario de NSX, vaya a Tejido | Nodos | Nodos de transporte | Nodos de transporte de host.
2. En la lista de nodos de transporte de host, compruebe la columna Estado de nodo. Busque el nodo de transporte con un estado degradado o inactivo.
3. Seleccione &ltnodo de transporte&gt | Supervisar. Compruebe la información del estado del enlace (vínculo superior) que indica un estado degradado o inactivo. Para evitar un estado degradado, asegúrese de que todas las interfaces de vínculo superior estén conectadas y en funcionamiento, independientemente de si están o no en uso.

3.0.0
Vínculo activo de nodo de transporte inactivo Mediano esx, kvm, bms

El vínculo superior se está desconectando.

Cuando se detecta el evento: "El vínculo superior se está desconectando. "

Cuando se resuelve el evento: "El vínculo superior está activo. "

Compruebe el estado de las NIC físicas de los vínculos superiores de los hosts.
1. En la interfaz de usuario de NSX, vaya a Tejido | Nodos | Nodos de transporte | Nodos de transporte de host.
2. En la lista de nodos de transporte de host, compruebe la columna Estado de nodo. Busque el nodo de transporte con un estado degradado o inactivo.
3. Seleccione &ltnodo de transporte&gt | Supervisar. Compruebe la información del estado del enlace (vínculo superior) que indica un estado degradado o inactivo. Para evitar un estado degradado, asegúrese de que todas las interfaces de vínculo superior estén conectadas y en funcionamiento, independientemente de si están o no en uso.

3.2.0
Miembro LAG inactivo Mediano esx, kvm, bms

LACP informa que el miembro está inactivo.

Cuando se detecta el evento: "LACP informa que el miembro está inactivo. "

Cuando se resuelve el evento: "LACP informa que el miembro está activo. "

Compruebe el estado de la conexión de los miembros de LAG en los hosts.
1. En la interfaz de usuario de NSX, vaya a Tejido | Nodos | Nodos de transporte | Nodos de transporte de host.
2. En la lista de nodos de transporte de host, compruebe la columna Estado de nodo. Busque el nodo de transporte con un estado degradado o inactivo.
3. Seleccione &ltnodo de transporte&gt | Supervisar. Busque el enlace (vínculo superior) que indica un estado degradado o inactivo.
4. Compruebe los detalles del estado de los miembros de LACP. Para ello, inicie sesión en el host con errores e invoque esxcli network vswitch dvs vmware lacp status get en un host ESXi o ovs-appctl bond/show y ovs-appctl lacp/show en un host KVM.

3.0.0

Eventos de aplicación de VMC

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
Error de conexión de tránsito Mediano manager

Transit Connect no se realizó por completo.

Cuando se detecta el evento: "La configuración relacionada con Transit Connect no se realizó correctamente. Los posibles problemas podrían ser no recuperar la información del proveedor o algún error transitorio de comunicación del proveedor. "

Cuando se resuelve el evento: "Se corrigió el error de Transit Connect. "

Si esta alarma no se resuelve automáticamente en 10 minutos, vuelva a intentar las solicitudes relacionadas con Transit Connect más recientes. Por ejemplo, si una solicitud de API de asociación de TGW activó esta alarma, vuelva a intentar la solicitud de API de asociación de TGW. Si la alarma tampoco se resuelve después de esto, pruebe los siguientes pasos:
1. Compruebe si la tarea sigue fallando o si se ha recuperado. a) Identifique el nodo principal de Manager. Después de iniciar sesión en uno de los nodos, ejecute el comando: - su admin - get cluster status verbose. Esto mostrará el nodo principal de Manager b) Inicie sesión en el nodo principal de NSX Manager. Compruebe vmc-app.log en el nodo principal de Manager: - tail -f /var/log/policy/vmc-app.log c) Compruebe los registros de las siguientes impresiones - Si se muestra alguno de estos mensajes de error cada dos minutos, significa que la tarea sigue fallando. - No se pudo obtener la tabla de rutas de TGW para []. Error: [] - No se pudieron obtener las rutas de TGW para la asociación [] en la tabla de rutas []. Error: - No se pudo obtener el identificador de VPC de la asociación de TGW para []. Error: [] - No se pudo obtener el identificador de recurso de la asociación de TGW para []. Error: Tipo de recurso desconocido - No se pudieron obtener asociaciones de TGW para TGW []. Error: [] - No se pudo obtener la asociación de la TGW local []. Error: [] - No se pudo encontrar el estado de TgwAttachment correcto en AWS, estado: [], omitiendo la tarea de actualización de ruta de TGW - La asociación de TGW [] no está asociada con ninguna tabla de rutas - No se encontró ninguna asociación de SDDC de TGW local para []
2. Compruebe si fallaron todas las llamadas de AWS desde NSX Manager en el nodo principal de Manager. Ejecute el siguiente comando: - export HTTP_PROXY=http://&ltpop ip&gt:3128 - export HTTPS_PROXY=http://&ltpop ip&gt:3128 - export NO_PROXY=169.254.169.254 - aws ec2 describe-instances --region Si el comando de AWS falla, es posible que haya un problema del sistema en la configuración del proxy inverso HTTP en pop o que haya un problema en el lado del servicio de AWS.
3. Compruebe si la asociación de TGW aún existe en AWS. a) El identificador de asociación de TGW se puede encontrar con GET cloud-service/api/v1/infra/associated-groups - aws ec2 describe-transit-gateway-attachments --region --transit-gateway-attachment-id &ltID asociación TGW&gt Si la asociación de TGW se eliminó, póngase en contacto con el servicio de soporte técnico de VMware y comparta con ellos el identificador del SDDC y el identificador de la asociación de TGW. Una vez que el equipo de soporte de VMware haya identificado el problema, elimine manualmente el objeto si fuera necesario. b) Compruebe si esta asociación de TGW existe en la consola de AWS. c) Otra opción es iniciar sesión en NSX Manager y usar el siguiente comando de AWS para comprobar el estado de la asociación de TGW: - aws ec2 describe-transit-gateway-attachments --region --transit-gateway-attachment-id &ltID asociación TGW&gt

4.1.0

Eventos de VPN

Nombre del evento Gravedad Tipo de nodo Mensaje de alerta Acción recomendada Versión introducida
El servicio IPsec está inactivo Mediano edge, autonomous-edge, public-cloud-gateway

El servicio IPsec está inactivo.

Cuando se detecta el evento: "El servicio IPsec {id_entidad} está inactivo. Motivo: {motivo_servicio_inactivo}. "

Cuando se resuelve el evento: "El servicio IPsec {id_entidad} está activo. "

1. Deshabilite y habilite el servicio IPsec desde la interfaz de usuario de NSX Manager.
2. Si el problema persiste, compruebe los registros de error en syslog y póngase en contacto con el soporte de VMware.

3.2.0
Sesión basada en directiva de IPsec inactiva Mediano edge, autonomous-edge, public-cloud-gateway

La sesión de VPN de IPsec basada en directivas está inactiva.

Cuando se detecta el evento: "La sesión de VPN de IPsec basada en directivas {id_entidad} está inactiva. Motivo: {motivo_sesión_inactiva}. "

Cuando se resuelve el evento: "La sesión de VPN de IPsec basada en directivas {id_entidad} está activa. "

Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo de inactividad de la sesión.

3.0.0
Sesión basada en rutas de IPsec inactiva Mediano edge, autonomous-edge, public-cloud-gateway

La sesión de VPN de IPsec basado en rutas está inactiva.

Cuando se detecta el evento: "La sesión de VPN de IPsec basada en rutas {id_entidad} está inactiva. Motivo: {motivo_sesión_inactiva}. "

Cuando se resuelve el evento: "La sesión de VPN de IPsec basada en rutas {id_entidad} está activa. "

Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo de inactividad de la sesión.

3.0.0
Túnel basado en directiva de IPsec inactivo Mediano edge, autonomous-edge, public-cloud-gateway

Los túneles de VPN de IPsec basados en directivas están inactivos.

Cuando se detecta el evento: "Uno o varios túneles de VPN de IPsec basados en directivas en la sesión {id_entidad} están inactivos. "

Cuando se resuelve el evento: "Todos los túneles de VPN de IPsec basados en directivas {id_entidad} están activos. "

Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo de inactividad del túnel.

3.0.0
Túnel basado en rutas de IPsec inactivo Mediano edge, autonomous-edge, public-cloud-gateway

El túnel de VPN de IPsec basado en rutas está inactivo.

Cuando se detecta el evento: "El túnel de VPN de IPsec basado en rutas {id_entidad} está inactivo. Motivo: {motivo_túnel_inactivo}. "

Cuando se resuelve el evento: "El túnel de VPN de IPsec basado en rutas {id_entidad} está activo. "

Compruebe la configuración de la sesión de VPN de IPsec y resuelva los errores según el motivo de inactividad del túnel.

3.0.0
Sesión de L2VPN inactiva Mediano edge, autonomous-edge, public-cloud-gateway

La sesión de L2VPN está inactiva.

Cuando se detecta el evento: "La sesión de L2VPN {id_entidad} está inactiva. "

Cuando se resuelve el evento: "La sesión de L2VPN {id_entidad} está activa. "

Compruebe el estado de la sesión de L2VPN para determinar el motivo de que esté inactiva y resuelva los errores según sea necesario.

3.0.0
Scroll to top icon