¿Cómo se comporta la canalización de procesamiento de datos en condiciones límite, como cuando se interrumpe la comunicación entre el recopilador y la plataforma?

  • ¿Cuál es el período de retención predeterminado?

    30 días, aunque puede aumentarse desde la interfaz de usuario con licencia Enterprise. Nota: cuando se aumente, procure seguir las directrices del disco.

  • ¿Cómo se tratan los datos en el recopilador?

    Todos los datos del recopilador, incluidos los datos de flujo, se convierten en un mensaje autodescriptivo (Self Describing Message, SDM) antes de enviarlos a la plataforma. Esto abarca todos los datos de configuración, inventario y métricas de cualquier origen de datos. Si no se puede acceder a la plataforma o la carga del SDM en la cola de Kafka genera errores, los datos se escribirán en el disco, en la máquina virtual de recopilador (en /var/BLOB_STORE).

  • ¿Cuándo se empezarán a purgar los datos en el recopilador?

    Datos que no son de flujo: existe una asignación de 10 GB de espacio para almacenar SDM en el disco (BLOB_STORE). Cuando el almacenamiento llega a su límite, el recopilador comienza a eliminar los SDM más antiguos y agrega nuevos SDM al disco. La rapidez con la que se llegue a este límite depende del tamaño de los datos recopilados de todos los orígenes de datos.

    Datos de flujo: existe una asignación de 15 GB de espacio para almacenar flujos sin procesar (en /var/flows/vds/nfcapd). En cuanto este espacio se consuma, el procesador de flujos comienza a eliminar los archivos de flujo más antiguos. Con una velocidad de flujos sin procesar entrantes de alrededor de 2 M/min, la rotación se iniciarían después de unas 10 horas.
  • ¿Cuál es la lógica de la purga?

    Los SDM más antiguos se eliminan primero.

  • ¿Cuándo dejarán de procesarse los nuevos datos en el recopilador?

    Nunca, siempre y cuando los servicios funcionen correctamente.

  • Suponiendo que la plataforma y el recopilador están desconectados y que no se cumple ninguna condición de purga, ¿se reconciliarán todos los datos en la plataforma al restablecerse la conexión?

    Todos los datos almacenados en el disco se enviarán a la plataforma. Deberían reconciliarse completamente, excepto si existen condiciones de pérdida de datos en la plataforma (encontrará más información a continuación).

  • ¿Cuáles son las condiciones en las que se pueden perder datos en la plataforma?

    La plataforma comienza a quitar los SDM que lleven más de 6 horas en la cola de Kafka (o 18, si se trata de un clúster de 3 nodos). Otra posibilidad es que la cola esté saturada. Esto puede ocurrir cuando hay un retraso de compilación en el sistema y la velocidad de los datos entrantes es alta.

  • ¿En qué orden se envían los SDM, de más reciente a más antiguo o al revés?

    Primero se envían los SDM más antiguos. Existe un problema conocido hasta la versión 3.9 que hará que se pierdan algunos datos. Póngase en contacto con GSS para obtener más información.

  • ¿Los datos se almacenan en el disco en el recopilador y, después, se envían a la plataforma cuando no hay ningún problema de comunicación?

    Si no hay ningún problema de comunicación, los SDM no se almacenan en el disco, sino que se envían a la plataforma desde la propia memoria. Solo se almacenarán en el disco cuando el recopilador reciba que hubo un problema al enviar un SDM.

  • En caso de que haya algún problema, ¿cómo sabe el recopilador cuál fue el último archivo de flujo que se procesó?

    El procesador de flujos deja un marcador en la base de datos en la que se procesó el archivo nfcapd por última vez.

  • ¿Cuál es el tamaño máximo de SDM que se puede procesar sin problemas? ¿Cómo puede estar el usuario al tanto en caso de infringirlo?

    Existe un límite de 15 MB en el tamaño del SDM. A partir de la versión 3.9, cada vez que la plataforma quita un SDM grande, se genera un evento.