Preparación de datos para el procesamiento del lenguaje natural

Los datos entrantes deben procesarse previamente para que la función de procesamiento de lenguaje natural de HCL Commerce Search pueda utilizarlos.

HCL Commerce Search utiliza el analizador de idiomas Stanford CoreNLP para proporcionar el servicio de consultas con compatibilidad multilingüe, análisis gramatical completo y extensibilidad. Las mejoras proporcionadas por HCL Commerce Search específicamente las necesidades de los compradores en línea, proporcionando una mayor capacidad de respuesta e inteligencia al sistema de búsqueda.

Matchmaker también es una característica importante de la IA del procesador de lenguaje natural. También es necesario preparar los datos para su consumo.

Durante el proceso de consulta, los datos textuales se analizan de las siguientes maneras. Este proceso identifica las características en el texto con el que el procesador NLP puede trabajar durante la consulta.
Tokenización
Proceso mediante el que se divide el texto en unidades más pequeñas (conocidas como "token") con las que se puede trabajar de varias maneras. Para obtener una explicación completa del proceso de tokenización, consulte Tokenización en la documentación de Stanford CoreNLP.
Detener eliminación de palabras
Las palabras comunes se eliminan para que los términos exclusivos destaquen en el procesador. Para obtener más información, consulte Eliminar términos comunes: Palabras frecuentes
Lematización
Las palabras se reducen a su forma básica, eliminando contracciones y otras variaciones en nombres básicos. Consulte Lematización.
Etiquetado de la parte del habla
Las palabras y frases individuales se clasifican por tipo: nombre, verbo, preposición, etc. Véase Partes del habla.
Reconocimiento de entidad nombrada (NER)
Identifica personas, compañías y productos en el texto. El servicio de consultas construye un archivo NER personalizado, que es una lista de word y valueseparada por tabuladores, donde value es la clasificación dada a la palabra. Por ejemplo, el término de búsqueda "camisa blanca niña" se dividirá en tres señales: white/color, shirt/category y girls/category . "camisas blancas niña menos de 37$" se añadirán a 37/filter como cuarta señal.
Puede añadir sus propios términos al archivo NER personalizado; para obtener más información, consulte Adición de nombres personalizados y clasificaciones a nombre-entidad-reconocimiento de entidad NLP (NER).
Preparación de datos para el Matchmaker
El servicio Ingest analizará los datos entrantes para tres características relevantes para Matchmaker.
  • Matchmaker de color Los nombres de color encontrados en los datos de indexación se definen como valores de atributo. Se indexan con nombres de familia de colores predefinidos. En el momento de la consulta, se realiza un análisis similar en la frase de búsqueda para identificar las familias de colores adecuadas que se utilizarán para el filtrado. De este modo, solo se devolverán los productos de la misma familia de colores. Para obtener más información sobre las familias de colores y cómo se administran, consulte Matchmaker de color .
  • Matchmaker de medidas. Siempre que se detecta una unidad de medida en un valor de atributo durante el tiempo de indexación, su número cardinal correspondiente se convertirá automáticamente en todas las unidades de medida soportadas dentro de la misma familia de medidas. En el momento de la consulta, se realiza un análisis similar en la frase de búsqueda para identificar la unidad de medida solicitada. Esto filtra la misma unidad de medida indexada, incluso cuando el comprador proporciona una unidad distinta de la especificada con el producto. Para obtener más información, consulte Adición de configuración personalizada a Matchmaker medidas.
  • Matchmaker de dimensiones. De forma similar al Matchmaker de medidas, el analizador de indexación también intentará su adivinar la dimensión adecuada proporcionada en un valor de atributo. Indexará dicha dimensión en la categoría de longitud y dimensión adecuada. Estas dimensiones se pueden utilizar para un filtrado más preciso durante la consulta. Para obtener más información, consulte Adición de configuración personalizada al Matchmaker de dimensiones .
Los sistemas de medida soportados son:
  • Largo: centímetros, millar, nanométrico, medida, metros, pulgada, pies, milla, pera
  • WEIGHT libra, kilogramo, gramos, entresa, piedra, libra, onza
  • Hora: nanosegundos, microsegundos, milisegundos, segundo, minuto, hora, día, semana, mes, año
  • Volumen: galón, litro, mililíquelo

El servicio de consulta inicializa Stanford Core NLP pasando el archivo NER personalizado al objeto Core NLP. Cuando se realiza una consulta, el término de búsqueda se pasa al método SearchNLPSupportProvider, que a su vez lo pasa al objeto Stanford Core NLP. A A continuación, SearchNLPSupportProvider devuelve el resultado.