Esquema del índice de HCL Commerce Search

El proceso de índice de HCL Commerce Search implica un esquema de índice de búsqueda y se crea a partir de tablas temporales.

La indexación de contenido de con la requiere un diseño de esquema de índice bien estructurado, para que el llenado y la realización de consultas en el índice sea eficiente cuando se envían las búsquedas.HCL CommerceHCL Commerce Search

A continuación, se muestran los conceptos clave al gestionar índices y consultas en la HCL Commerce Search:

Instancia de servidor Solr: Un entorno de ejecución independiente que incluye proceso de servidor Solr, inicio de Solr y núcleos Solr.
Núcleo Solr: Permite a la instancia Solr contener varias configuraciones e índices, de este modo es más eficiente que las instancias Solr dedicadas para cada configuración e índice. Debido a las características de recarga e intercambio de núcleo dinámico, se recomienda Solr Core.
Índice Solr: Solr mantiene uno o más índices, que son colecciones en las que se pueden hacer búsquedas de artículos de documentos denominados. Al utilizar Solr para soportar la búsqueda de catálogo, los documentos del índice representan las entradas de catálogo.; La adición de un documento en un índice suele denominarse indexación del documento.; Cada documento está compuesto por un conjunto de atributos denominados campos. Por ejemplo, un documento de entrada de catálogo puede tener campos como Partnumber, Name y Description.; Cuando un documento se añade a un índice, cada campo del documento puede indexarse o almacenarse, o indexarse o almacenarse. Un campo indexado es uno que puede utilizarse para la búsqueda, la clasificación y las subcategorías. Si se indexa el campo, los ID de documento pueden determinarse desde los valores de campo. Un campo almacenado es el campo cuyo valor puede recuperarse por una búsqueda. Como alternativa, si el campo está almacenado, los valores de campo pueden determinarse a partir de ID de documento.
Esquema Solr: Definido en el archivo de configuración Solr, schema.xml. Define los campos de esquema y el tipo de datos de los campos.
Data Import Handler (DIH) de Solr: Proporciona un método dirigido por configuración para importar datos desde bases de datos relacionales o XML al índice Solr.
Inicio Solr: El directorio raíz de los archivos de configuración Solr y los archivos de datos de índice. Cada instancia Solr puede correlacionarse con un inicio Solr.

La información relacionada con el esquema de HCL Commerce Search se almacena en el archivo schema.xml, con otra información de configuración almacenada en el archivo solrconfig.xml. Puede personalizar estos archivos directamente para satisfacer sus necesidades de empresa. La clave exclusiva del índice es el campo catentry_id. Es decir, el documento de índice es solo para CATENTRY. Si deben indexarse otros objetos de HCL Commerce, por ejemplo, CATGROUP, debe crearse un documento de índice diferente. El operador de consulta predeterminado se establece en OR.

Se encuentran disponibles los tipos de campo predeterminado siguientes, los cuales proporcionan funciones de índice avanzadas:

wc_text: Se utiliza para campos en los que se pueden realizar búsquedas. El campo se simboliza y se escriba en minúsculas para soportar búsquedas no sensibles a mayúsculas y minúsculas. Se habilitan las funciones de diccionario, como sinónimos, palabras de detención y lematización.
wc_keywordText: Se utiliza para la clasificación y las subcategorías genéricas. El campo es no simbolizado. No hay ninguna función de diccionario habilitada. En general, la HCL Commerce Search requiere que se indexe un campo de clasificación o con facetas, pero no de varios valores o simbolizado.
wc_keywordTextLowerCase: Se utiliza para la clasificación y las subcategorías que no distinguen entre mayúsculas y minúsculas. El campo no es simbolizado se especifica en minúsculas. No hay ninguna función de diccionario habilitada. En general, la HCL Commerce Search requiere que se indexe un campo de clasificación o con facetas, pero no de varios valores o simbolizado.

Archivos de diccionario de búsqueda

Los sinónimos, las palabras frecuentes y la lematización se controlan de las siguientes maneras:

Sinónimos: La ampliación de sinónimos se implementa utilizando servicios web de HCL Commerce.
Palabras frecuentes: Las palabras frecuentes básicas en inglés de Estados Unidos se encuentran en el archivo stopwords.txt. Esta lista de palabras excluidas contiene palabras que están fusionadas de las palabras frecuentes Solr predeterminadas y las palabras frecuentes ODE. Puede mantener manualmente palabras frecuentes en el archivo stopwords.txt si es necesario.
Lematización: EnglishPorterFilterFactory se utiliza para el idioma inglés, ya que esta fábrica soporta palabras protegidas definidas por usuario y funciona relativamente bien. SnowballPorterFilterFactory se utiliza para otros idiomas. La lematización solo se habilita en el tipo de campo wc_text. Puede mantener manualmente palabras protegidas en el archivo protwords.txt si es necesario.

Resalte de palabras clave de búsqueda

El resalte de palabras clave es un componente de consulta predeterminado. La consulta controla el modo en que se resaltan las palabras. El campo debe almacenarse en el índice para que se habilite el resalte. La opción de campo stored debe establecerse en true en el archivo schema.xml.

Corrección ortográfica

El contenido indexado se utiliza para crear el diccionario de términos, de modo que los datos de diccionario generados son relevantes para los datos indexados. La corrección ortográfica se habilita en el manejador de solicitudes de búsqueda en el componente wc_spellcheck del archivo solrconfig.xml. El tipo de campo wc_textSpell y el campo spellCheck se crea en el archivo schema.xml. El campo Corrección ortográfica el nombre del campo, una descripción breve y la palabra clave por defecto.

La consulta de ejemplo siguiente busca la palabra coffee con la corrección ortográfica habilitada:


http://localhost/solr/CatalogEntry/select?indent=on&version=2.2&q=shortDescription%3Acofffee
&fq=&start=0&rows=10&fl=*%2CsCore&qt=standard&wt=standard&explainOther=&hl.fl=&
spellcheck=true&spellcheck.collate=true

Componente de corrector ortográfico

Se utiliza un corrector ortográfico más eficiente, DirectSolrSpellChecker, en lugar del índice de corrección ortográfica. Este componente de corrector ortográfico utiliza datos directamente desde el índice CatalogEntry, en lugar de depender de un índice autónomo independiente. Por lo tanto, no se necesitan creaciones de índice adicionales para sincronizar los cambios entre el índice de base y el índice de corrector ortográfico. Para obtener más información, consulte SpellCheckComponent.

Sugerencia automática de palabra clave

TermsComponent se implementa en HCL Commerce para las funciones de sugerencia automática. El componente proporciona una faceta de campo rápida en todo el índice. Es decir, no está restringido por la consulta base ni por ningún filtro. Las frecuencia de documento devueltas son el número de documentos que coinciden con el término, incluidos los documentos marcados para eliminarse pero que todavía no se han eliminado del índice.

La recuperación de términos del orden de índice es relativamente rápida ya que la implementación utiliza directamente las funciones TermEnum de Lucene para repetirlos en el diccionario de términos.

El componente de búsqueda wc_termsComponent y el manejador de solicitudes wc_terms se crean en el archivo solrconfig.xml.

La consulta de sugerencia automática señala al manejador de solicitudes wc_terms para obtener los términos auto-suggest. Por ejemplo:


http://localhost/solr/MC_10001_CatalogEntry_en_US/terms?terms.fl=shortDescription&terms.sort=index&erms.limit=5&terms.prefix=ligh

Ámbito de búsqueda predeterminado

Se realizan búsquedas en las columnas siguientes de forma predeterminada; es decir, en lugar de buscar en todo el índice de búsqueda, si no se proporciona ningún campo de índice:

Descripción del producto (name)
Descripción breve (shortDescription)
Número de pieza (partNumber_ntk)
Keyword
Valores de atributo de Diccionario de atributos

Con todo, el tiempo de ejecución de HCL Commerce Search pasa un ámbito de búsqueda y se define como parte del perfil de búsqueda. Para obtener más información, consulte HCL Commerce Search archivo de configuración (wc-search.xml).

Cambios de esquema para contenido estructurado y no estructurado relacionado

Cuando el contenido estructurado contiene una relación con contenido no estructurado, debe contener un campo nuevo en el archivo schema.xml estructurado para representar la información no estructurada. Este nuevo campo puede realizar consultas de objetos estructurados mediante su contenido no estructurado.

Por ejemplo, cuando se buscan productos por la información de contenido de los adjuntos, la definición de campo nuevo siguiente es similar al formato siguiente:


<field name="unstructure" type="wc_text" indexed="true" stored="false" multiValued="true" />

Donde el fragmento de código stored="false" permite que el contenido no estructurado no se recupere mediante consultas.