Contenido no estructurado y contenido del sitio
El contenido del sitio no estructurado incluye documentos que no se adhieren a un modelo de datos específico, como adjuntos del producto contenidos en diversos formatos. Por ejemplo, el contenido como manuales de usuario e información de garantía se considera contenido no estructurado. Sus elementos, construcción y organización suelen ser desconocidos y pueden variar en función del tipo de archivo.
Aunque es posible que la base de datos de HCL Commerce no almacene el contenido no estructurado, dicho contenido todavía puede indexarse y recuperarse. Por ejemplo, cuando se somete una búsqueda de portátil, el resultado de búsqueda puede encontrar el contenido no estructurado como archivos adjuntos en formato .pdf o .doc, que contienen la palabra clave portátil.
Contenido del sitio
Al trabajar con tipos de índice de búsqueda, el contenido del sitio se categoriza en el índice de búsqueda de entrada de catálogo.
El contenido del sitio incluye archivos HTML y otros archivos del sitio de tiendas de inicio de WebSphere Commerce.HCL Commerce Este contenido es captado y rastreado por el rastreador de contenido del sitio.
HCL Commerce WebSphere Commerce proporciona archivos HTML estáticos de ejemplo de forma predeterminada, que el rastreador de contenido del sitio capta y rastrea para ayudar a rellenar el índice de búsqueda de contenido del sitio. Puede configurar el rastreador de contenido de sitio para captar contenido adicional de las tiendas de inicio de WebSphere Commerce.HCL Commerce
Para obtener más información, consulte Indexación de contenido de sitio con la HCL Commerce Search.
Tipos de archivo admitidos
La HCL Commerce Search utiliza bibliotecas de analizador para detectar y extraer metadatos y contenido de texto estructurado de documentos.
- Microsoft Office
- Excel 97-2003 (.xls).
- JAVA
- Clases (.class).
- Documentos y texto
- Abrir documento (.odt, odp, .ods).
- Tika 1.7
Esquema de contenido no estructurado
La HCL Commerce Search puede extraer directamente metadatos y contenido de origen de datos no estructurado. Diferentes formatos de datos no estructurados pueden contener diferente información de metadatos. Por ejemplo, los archivos de Microsoft Word contienen metadatos como por ejemplo creador, compañía y fecha de creación, mientras que los archivos de imagen JPEG contienen metadatos como por ejemplo la anchura y la altura.
La celda Solr proporciona un mecanismo para añadir un prefijo al campo de metadatos generados. Este comportamiento solicita que el diseño de esquema típico de contenido no estructurado debe contener al menos un campo dinámico, como por ejemplo tika_*
, para almacenar toda la información de metadatos. La principal diferencia entre contenido estructurado y no estructurado es que el nombre y número total de campos de un documento no estructurado pueden variar de otro documento no estructurado.
La HCL Commerce Search gestiona el contenido no estructurado solicitando a Tika que analice los documentos antes de que se procesen. A continuación, se envían al servidor de HCL Commerce Search para la futura indexación.
Cambios de esquema para contenido estructurado y no estructurado relacionado
Cuando el contenido estructurado contiene una relación con contenido no estructurado, debe contener un campo nuevo en el archivo schema.xml estructurado para representar la información no estructurada. Este nuevo campo puede realizar consultas de objetos estructurados mediante su contenido no estructurado.
<field name="unstructure" type="wc_text" indexed="true" stored="false" multiValued="true" />
Donde el fragmento de código stored="false"
permite que el contenido no estructurado no se recupere mediante consultas.