Contenido no estructurado y contenido del sitio

La HCL Commerce Search puede buscar contenido del sitio estructurado y no estructurado.

El contenido del sitio no estructurado incluye documentos que no se adhieren a un modelo de datos específico, como adjuntos del producto contenidos en diversos formatos. Por ejemplo, el contenido como manuales de usuario e información de garantía se considera contenido no estructurado. Sus elementos, construcción y organización suelen ser desconocidos y pueden variar en función del tipo de archivo.

Importante: De forma predeterminada, la HCL Commerce Search indexa los datos no estructurados descifrados. Es decir, el proceso de datos cifrados con la HCL Commerce Search no está soportado.

Al trabajar con tipos de índice de búsqueda, el contenido no estructurado se categoriza según el índice de búsqueda de entrada de catálogo.

Aunque es posible que la base de datos de HCL Commerce no almacene el contenido no estructurado, dicho contenido todavía puede indexarse y recuperarse. Por ejemplo, cuando se somete una búsqueda de portátil, el resultado de búsqueda puede encontrar el contenido no estructurado como archivos adjuntos en formato .pdf o .doc, que contienen la palabra clave portátil.

Contenido del sitio

Al trabajar con tipos de índice de búsqueda, el contenido del sitio se categoriza en el índice de búsqueda de entrada de catálogo.

El contenido del sitio incluye archivos HTML y otros archivos del sitio de tiendas de inicio de WebSphere Commerce.HCL Commerce Este contenido es captado y rastreado por el rastreador de contenido del sitio.

HCL Commerce WebSphere Commerce proporciona archivos HTML estáticos de ejemplo de forma predeterminada, que el rastreador de contenido del sitio capta y rastrea para ayudar a rellenar el índice de búsqueda de contenido del sitio. Puede configurar el rastreador de contenido de sitio para captar contenido adicional de las tiendas de inicio de WebSphere Commerce.HCL Commerce

Para obtener más información, consulte Indexación de contenido de sitio con la HCL Commerce Search.

Tipos de archivo admitidos

La HCL Commerce Search utiliza bibliotecas de analizador para detectar y extraer metadatos y contenido de texto estructurado de documentos.

Por defecto, se soportan los tipos de archivo siguientes:

Microsoft Office: Excel 97-2003 (.xls).; Excel 2007.xlsx; Documentos Outlook (.msg).; PowerPoint 97-2003 (.ppt).; PowerPoint 2007 (.pptx).; Visio (.vsd).; Word 97-2003 (.doc).; Word 2007 (.docx).
JAVA: Clases (.class).; Archivos JAR (.jar).
Documentos y texto: Abrir documento (.odt, odp, .ods).; Texto plano (.txt).; Portable Document Format (.pdf).; Formato de texto enriquecido (.rtf).

Se proporciona la versión de Tika siguiente con HCL Commerce Search de forma predeterminada para analizar documentos no estructurados:

Tika 1.7

Esquema de contenido no estructurado

La HCL Commerce Search puede extraer directamente metadatos y contenido de origen de datos no estructurado. Diferentes formatos de datos no estructurados pueden contener diferente información de metadatos. Por ejemplo, los archivos de Microsoft Word contienen metadatos como por ejemplo creador, compañía y fecha de creación, mientras que los archivos de imagen JPEG contienen metadatos como por ejemplo la anchura y la altura.

La celda Solr proporciona un mecanismo para añadir un prefijo al campo de metadatos generados. Este comportamiento solicita que el diseño de esquema típico de contenido no estructurado debe contener al menos un campo dinámico, como por ejemplo tika_*, para almacenar toda la información de metadatos. La principal diferencia entre contenido estructurado y no estructurado es que el nombre y número total de campos de un documento no estructurado pueden variar de otro documento no estructurado.

La HCL Commerce Search gestiona el contenido no estructurado solicitando a Tika que analice los documentos antes de que se procesen. A continuación, se envían al servidor de HCL Commerce Search para la futura indexación.

Cambios de esquema para contenido estructurado y no estructurado relacionado

Cuando el contenido estructurado contiene una relación con contenido no estructurado, debe contener un campo nuevo en el archivo schema.xml estructurado para representar la información no estructurada. Este nuevo campo puede realizar consultas de objetos estructurados mediante su contenido no estructurado.

Por ejemplo, cuando se buscan productos por la información de contenido de los adjuntos, la definición de campo nuevo siguiente es similar al formato siguiente:


<field name="unstructure" type="wc_text" indexed="true" stored="false" multiValued="true" />

Donde el fragmento de código stored="false" permite que el contenido no estructurado no se recupere mediante consultas.