Preparación de datos para el procesamiento del lenguaje natural
Los datos entrantes deben procesarse previamente para que la función de procesamiento de lenguaje natural de HCL Commerce Search pueda utilizarlos.
HCL Commerce Search utiliza el analizador de idiomas Stanford CoreNLP para proporcionar el servicio de consultas con compatibilidad multilingüe, análisis gramatical completo y extensibilidad. Las mejoras proporcionadas por HCL Commerce Search específicamente las necesidades de los compradores en línea, proporcionando una mayor capacidad de respuesta e inteligencia al sistema de búsqueda.
Matchmaker también es una característica importante de la IA del procesador de lenguaje natural. También es necesario preparar los datos para su consumo.
- Tokenización
- Proceso mediante el que se divide el texto en unidades más pequeñas (conocidas como "token") con las que se puede trabajar de varias maneras. Para obtener una explicación completa del proceso de tokenización, consulte Tokenización en la documentación de Stanford CoreNLP.
- Detener eliminación de palabras
- Las palabras comunes se eliminan para que los términos exclusivos destaquen en el procesador. Para obtener más información, consulte Eliminar términos comunes: Palabras frecuentes
- Lematización
- Las palabras se reducen a su forma básica, eliminando contracciones y otras variaciones en nombres básicos. Consulte Lematización.
- Etiquetado de la parte del habla
- Las palabras y frases individuales se clasifican por tipo: nombre, verbo, preposición, etc. Véase Partes del habla.
- Reconocimiento de entidad nombrada (NER)
- Identifica personas, compañías y productos en el texto. El servicio de consultas construye un archivo NER personalizado, que es una lista de word y valueseparada por tabuladores, donde value es la clasificación dada a la palabra. Por ejemplo, el término de búsqueda "camisa blanca niña" se dividirá en tres señales:
white/color
,shirt/category
ygirls/category
. "camisas blancas niña menos de 37$" se añadirán a37/filter
como cuarta señal. - Preparación de datos para el Matchmaker
- El servicio Ingest analizará los datos entrantes para tres características relevantes para Matchmaker.
El servicio de consulta inicializa Stanford Core NLP pasando el archivo NER personalizado al objeto Core NLP. Cuando se realiza una consulta, el término de búsqueda se pasa al método SearchNLPSupportProvider, que a su vez lo pasa al objeto Stanford Core NLP. A A continuación, SearchNLPSupportProvider devuelve el resultado.