Componentes comunes de los grupos de procesos de NiFi

Se utiliza un conjunto común de procesadores NiFi para realizar diversas tareas de procesamiento dentro de HCL Commerce grupos de procesos NiFi.

Los grupos de procesos simplifican los flujos de datos complejos permitiéndole agrupar componentes, como procesadores, dentro de su propio lienzo incorporado en la interfaz de usuario de NiFi. HCL Commerce Search viene con un conjunto de componentes predeterminados que se utilizan comúnmente en grupos de procesos de Ingest. Estos procesadores se describen más abajo, así como el conjunto más común de procesadores proporcionados por NiFi que se utilizan.

Para obtener más información sobre los grupos de procesos, consulte Anatomía de un grupo de procesos en la documentación de Apache NiFi.

Procesadores suministrados por HCL

ComposeDatabaseSQL

Normalmente se utiliza antes de ExecuteSQL. Su finalidad es definir la sentencia de SQL para utilizarla con ExecuteSQL, así como actuar como salida de usuario para un perfil de Ingest opcional para realizar modificaciones adicionales en el SQL proporcionado antes de enviar a ExecuteSQL.

AnalyzeExecuteSQLRecordResponse

Normalmente se utiliza después de ExecuteSQL para analizar la respuesta de la consulta de la base de datos. Tiene dos propiedades: Tipo de relación y renovar índice.

Tipo de relación: El tipo de relación define si la conexión entrante está en un estado de "éxito" o "error": hay una lógica dedicada dentro de este procesador para clasificar si la respuesta es de un error real, satisfactoria o está vacía.
Renovar índice: Renovar índice es una función opcional que permite al índice de Elasticsearch realizar una operación de renovación inmediatamente después de procesar cada página de las bases de datos.

RouteOnCatalog

Se utiliza solo en la unión del flujo de procesamiento principal en cada etapa del flujo, para determinar cuántos archivos de flujo adicionales deben enviarse al flujo lateral. Un "flujo lateral" en NiFi es un flujo de procesamiento opcional alternativo en una canalización de introducción que se utiliza con perfiles de Ingest para realizar tareas de ETL personalizadas. Este procesador utiliza tres propiedades para controlar los flujos laterales, que se basan en el catálogo maestro, el catálogo predeterminado y otros catálogos.

Para obtener más información, consulte Personalización de perfiles de Ingest.

FilterOnCatalog

solo se utiliza en la unión del flujo de proceso principal en cada etapa de flujo, para asegurarse de que los archivos de flujo con las propiedades de catálogo deseadas se envíen al flujo lateral. Este procesador utiliza tres propiedades para controlar lo que se puede y no se puede direccionar a flujos secundarios: Catálogo maestro, catálogo predeterminado y otros catálogos.

RouteOnLanguage

Se utiliza solo en la unión del flujo de procesamiento principal en cada etapa del flujo, para determinar cuántos archivos de flujo adicionales deben enviarse al flujo lateral. Este procesador utiliza dos propiedades para controlar los flujos secundarios, que se basan en el idioma predeterminado y otros idiomas soportados.

FilterOnLanguage

solo se utiliza en la unión del flujo de proceso principal, en cada etapa de flujo, para asegurarse de que los archivos de flujo con las propiedades de idioma deseadas se envíen al flujo lateral. Este procesador utiliza dos propiedades para controlar lo que se puede y no se puede direccionar a los flujos secundarios: Idioma predeterminado y otros idiomas soportados.

TrackBulkRequest

Se utiliza solo al principio, inmediatamente después de entrar en cualquiera de los servicios masivos. TrackBulkRequest registra metadatos adicionales en cada archivo de flujo entrante, para hacer un seguimiento de su estado y del tiempo total pasado dentro de este servicio masivo. El procesador tiene una propiedad, Control de la velocidad de los flujos de datos, que se puede utilizar para habilitar o deshabilitar el control de la velocidad en el flujo de datos entrante. El control de velocidad se puede utilizar para ralentizar el flujo de datos a la velocidad especificada para evitar sobrecargar Elasticsearch. Además, este procesador también actúa como salida de usuario para un perfil de Ingest opcional para realizar una personalización adicional del flujo de datos entrante.

AnalyzeBulkResponse

solo se utiliza al final de un servicio masivo. Sus usos principales son analizar la respuesta masiva de Elasticsearch para determinar errores y actuar como una salida de usuario para un perfil de Ingest opcional para realizar una personalización adicional del flujo de datos tras el postproceso. Este procesador también detecta el último archivo de flujo de una etapa y envía una señal de liberación al enlace de espera correspondiente de esa etapa en el flujo principal, para permitir que continúe a la siguiente etapa.

ScrollElasticsearch

Desplácese por un conjunto de resultados determinado de Elasticsearch.

ComposeIndexSchema

Llamada a un perfil de Ingest determinado (si se ha definido) para personalizar un esquema de índice existente para Elasticsearch.

SerializeDocument

Busque todos los registros (bidimensionales) en serie y conviértalos en formato (una sola dimensión) para que los procese el procesador personalizado en sentido descendente.

MapIndexFieldsFromDatabase

Correlación de columnas de tablas de bases de datos personalizadas en los campos de esquemas de índice correspondientes para la operación de Ingest.

PublishEvent

Publique el contenido del archivo de flujo actual como un evento en HCL Cache.

SubscribeEvent

Sucesos de suscripción generados a partir de HCL Cache.

UpdateDocumentCounter

Aumente o disminuya un contador HCL Cache determinado con el valor delta proporcionado. Este procesador se utiliza principalmente con contadores de eventos para realizar el seguimiento de los flujos de datos dentro de NiFi.

TrackDocument

Registre los metadatos que se utilizarán para realizar el seguimiento del flujo de datos en la etapa de introducción actual, como Product Stage 1a - Create Product Documents, por ejemplo.

RetryDocument

Reintente la parte seleccionada de un archivo de flujo de solicitud masivo determinado en su cola de espera.

Procesadores suministrados por NiFi

ExecuteSQL: Ejecuta la sentencia de SQL proporcionada. Para obtener más información, consulte ExecuteSQL en la documentación de Apache NiFi.
ControlRate: Controla la velocidad a la que se transfieren los datos a los procesadores subsiguientes. Para obtener más información, consulte ControlRate en la documentación de Apache NiFi.
InvokeHTTP: Se utiliza principalmente para interactuar con un punto final configurable HTTP de Elasticsearch. Para obtener más información, consulte InvokeHTTP en la documentación de Apache NiFi.
RetryFlowFile: Se utiliza principalmente, junto con el procesador predeterminado RetryDocument , para realizar operaciones de reintento basadas en reglas. Para obtener más información, consulte RetryFlowFile en la documentación de Apache NiFi.