Esquema del índice de HCL Commerce Search
El proceso de índice de HCL Commerce Search implica un esquema de índice de búsqueda y se crea a partir de tablas temporales.
La indexación de contenido de con la requiere un diseño de esquema de índice bien estructurado, para que el llenado y la realización de consultas en el índice sea eficiente cuando se envían las búsquedas.HCL CommerceHCL Commerce Search
- Instancia de servidor Solr
- Un entorno de ejecución independiente que incluye proceso de servidor Solr, inicio de Solr y núcleos Solr.
- Núcleo Solr
- Permite a la instancia Solr contener varias configuraciones e índices, de este modo es más eficiente que las instancias Solr dedicadas para cada configuración e índice. Debido a las características de recarga e intercambio de núcleo dinámico, se recomienda Solr Core.
- Índice Solr
- Solr mantiene uno o más índices, que son colecciones en las que se pueden hacer búsquedas de artículos de documentos denominados. Al utilizar Solr para soportar la búsqueda de catálogo, los documentos del índice representan las entradas de catálogo.
- Esquema Solr
- Definido en el archivo de configuración Solr, schema.xml. Define los campos de esquema y el tipo de datos de los campos.
- Data Import Handler (DIH) de Solr
- Proporciona un método dirigido por configuración para importar datos desde bases de datos relacionales o XML al índice Solr.
- Inicio Solr
- El directorio raíz de los archivos de configuración Solr y los archivos de datos de índice. Cada instancia Solr puede correlacionarse con un inicio Solr.
La información relacionada con el esquema de HCL Commerce Search se almacena en el archivo schema.xml, con otra información de configuración almacenada en el archivo solrconfig.xml. Puede personalizar estos archivos directamente para satisfacer sus necesidades de empresa. La clave exclusiva del índice es el campo catentry_id. Es decir, el documento de índice es solo para CATENTRY. Si deben indexarse otros objetos de HCL Commerce, por ejemplo, CATGROUP, debe crearse un documento de índice diferente. El operador de consulta predeterminado se establece en OR.
- wc_text
- Se utiliza para campos en los que se pueden realizar búsquedas. El campo se simboliza y se escriba en minúsculas para soportar búsquedas no sensibles a mayúsculas y minúsculas. Se habilitan las funciones de diccionario, como sinónimos, palabras de detención y lematización.
- wc_keywordText
- Se utiliza para la clasificación y las subcategorías genéricas. El campo es no simbolizado. No hay ninguna función de diccionario habilitada. En general, la HCL Commerce Search requiere que se indexe un campo de clasificación o con facetas, pero no de varios valores o simbolizado.
- wc_keywordTextLowerCase
- Se utiliza para la clasificación y las subcategorías que no distinguen entre mayúsculas y minúsculas. El campo no es simbolizado se especifica en minúsculas. No hay ninguna función de diccionario habilitada. En general, la HCL Commerce Search requiere que se indexe un campo de clasificación o con facetas, pero no de varios valores o simbolizado.
Archivos de diccionario de búsqueda
- Sinónimos
- La ampliación de sinónimos se implementa utilizando servicios web de HCL Commerce.
- Palabras frecuentes
- Las palabras frecuentes básicas en inglés de Estados Unidos se encuentran en el archivo stopwords.txt. Esta lista de palabras excluidas contiene palabras que están fusionadas de las palabras frecuentes Solr predeterminadas y las palabras frecuentes ODE. Puede mantener manualmente palabras frecuentes en el archivo stopwords.txt si es necesario.
- Lematización
- EnglishPorterFilterFactory se utiliza para el idioma inglés, ya que esta fábrica soporta palabras protegidas definidas por usuario y funciona relativamente bien. SnowballPorterFilterFactory se utiliza para otros idiomas. La lematización solo se habilita en el tipo de campo wc_text. Puede mantener manualmente palabras protegidas en el archivo protwords.txt si es necesario.
Resalte de palabras clave de búsqueda
El resalte de palabras clave es un componente de consulta predeterminado. La consulta controla el modo en que se resaltan las palabras. El campo debe almacenarse en el índice para que se habilite el resalte. La opción de campo stored
debe establecerse en true
en el archivo schema.xml.
Corrección ortográfica
El contenido indexado se utiliza para crear el diccionario de términos, de modo que los datos de diccionario generados son relevantes para los datos indexados. La corrección ortográfica se habilita en el manejador de solicitudes de búsqueda en el componente wc_spellcheck del archivo solrconfig.xml. El tipo de campo wc_textSpell y el campo spellCheck se crea en el archivo schema.xml. El campo Corrección ortográfica el nombre del campo, una descripción breve y la palabra clave por defecto.
http://localhost/solr/CatalogEntry/select?indent=on&version=2.2&q=shortDescription%3Acofffee
&fq=&start=0&rows=10&fl=*%2CsCore&qt=standard&wt=standard&explainOther=&hl.fl=&
spellcheck=true&spellcheck.collate=true
Componente de corrector ortográfico
Se utiliza un corrector ortográfico más eficiente, DirectSolrSpellChecker
, en lugar del índice de corrección ortográfica. Este componente de corrector ortográfico utiliza datos directamente desde el índice CatalogEntry, en lugar de depender de un índice autónomo independiente. Por lo tanto, no se necesitan creaciones de índice adicionales para sincronizar los cambios entre el índice de base y el índice de corrector ortográfico. Para obtener más información, consulte SpellCheckComponent.
Sugerencia automática de palabra clave
TermsComponent se implementa en HCL Commerce para las funciones de sugerencia automática. El componente proporciona una faceta de campo rápida en todo el índice. Es decir, no está restringido por la consulta base ni por ningún filtro. Las frecuencia de documento devueltas son el número de documentos que coinciden con el término, incluidos los documentos marcados para eliminarse pero que todavía no se han eliminado del índice.
La recuperación de términos del orden de índice es relativamente rápida ya que la implementación utiliza directamente las funciones TermEnum de Lucene para repetirlos en el diccionario de términos.
El componente de búsqueda wc_termsComponent y el manejador de solicitudes wc_terms se crean en el archivo solrconfig.xml.
http://localhost/solr/MC_10001_CatalogEntry_en_US/terms?terms.fl=shortDescription&terms.sort=index&erms.limit=5&terms.prefix=ligh
Ámbito de búsqueda predeterminado
- Descripción del producto (name)
- Descripción breve (shortDescription)
- Número de pieza (partNumber_ntk)
- Keyword
- Valores de atributo de Diccionario de atributos
Cambios de esquema para contenido estructurado y no estructurado relacionado
Cuando el contenido estructurado contiene una relación con contenido no estructurado, debe contener un campo nuevo en el archivo schema.xml estructurado para representar la información no estructurada. Este nuevo campo puede realizar consultas de objetos estructurados mediante su contenido no estructurado.
<field name="unstructure" type="wc_text" indexed="true" stored="false" multiValued="true" />
Donde el fragmento de código stored="false"
permite que el contenido no estructurado no se recupere mediante consultas.