Configuración del rastreador de contenido del sitio

El rastreador de contenido del sitio utiliza archivos de configuración y archivos de manifiesto para determinar el comportamiento del rastreador de contenido del sitio.

Puede iniciar el rastreador de contenido del sitio accediendo al siguiente URL:
http://searchHost:port/search/admin/resources/crawler?action=start&langId=langId&storeId=storeId&catalogId=catalogId
Parámetros de contexto obligatorios
langId
Identificador numérico interno que representa el idioma, por ejemplo, -1 para inglés.
storeId
Identificador numérico interno que representa la tienda, por ejemplo, 10001.
catalogId
Identificador numérico interno que representa el catálogo, por ejemplo, 10001.

El motor de ejecución rellena automáticamente las dos variables siguientes: hostname y portnum, que serán el nombre de host del servidor de tienda y su número de puerto, respectivamente.

El rastreador de contenido del sitio utiliza los siguientes archivos de configuración de entrada, que se encuentran en el siguiente directorio, Liberty/usr/servers/searchServer/resources\search\index\crawler\ext\:
droidConfig.xml
El archivo de configuración del rastreador de contenido del sitio contiene variables y parámetros que determinan el comportamiento del rastreador de contenido del sitio. Las variables que se especifican en el archivo de configuración del rastreador de contenido del sitio se utilizan luego para insertar valores posteriormente en el archivo de configuración.
Parámetros
initialLocations
la URL inicial para el rastreador de contenido del sitio.
Importante: Debe actualizar la URL inicial para que el rastreador de contenido del sitio funcione correctamente.
Por ejemplo:
https://${hostname}:${portnum}/shop/StaticContentSitemap?storeId=1&langId=-1&catalogId=10502
relativePath
Si se especifica, la vía de acceso relativa se omite de las URL añadidos al archivo de manifiesto. Por ejemplo:

4,StaticContent/Recipe.html,8fa661c4-f812-4b3c-aa5c-361894120d23.html,text/html,UTF-8,A,3 
Si no se especifica, se establece una vía de acceso absoluta en las URL. Por ejemplo:

4,http://wcsolr05/webapp/wcs/stores/servlet/StaticContent/Recipe.html,5b770798-cd9a-478d-9fb3-b75c1e1c3b91.html,text/html,UTF-8,A,6 
Es importante establecer la vía de acceso relativa para que los entornos de producción no apunten al servidor de transición, sino que apunten a sí mismos.
depth
La profundidad máxima que rastrea el rastreador. Un valor de -1 indica que no hay restricciones de profundidad.
max
El número máximo de páginas a rastrear. Un valor de -1 indica que no hay ningún máximo.
delay
El tiempo de retardo en milisegundos entre cada solicitud HTTP.
filters
La ubicación del archivo de configuración de filtros de host.
threadmode
La modalidad de hebra del rastreador de contenido del sitio.
0
Modalidad de hebra única
1
Modalidad de varias hebras
maxthread
El número de hebras a crear cuando se está en modalidad de varias hebras.
autoIndex
Indica si se debe habilitar la indexación automática de contenido de sitio después de que se rastree el contenido.
skipDownload
Indica las URL que no se van a añadir al archivo manifest.txt y que, por tanto, no se van a indexar. Por ejemplo, StaticContentSitemap.jsp:

http://${hostname}/webapp/wcs/stores/servlet/StaticContentSitemap?storeId=${storeId}&langId=${langId}&catalogId=${catalogId}
jndiName
El nombre JNDI del origen de datos JDBC, por ejemplo, <jndiName>jdbc/jndiName</jndiName>. solo se utiliza cuando se ejecuta el rastreador a través de la URL. Cuando se especifica este parámetro, el rastreador puede utilizar ese origen de datos para actualizar la base de datos después de que finalice el rastreo.
filters.txt
El archivo de configuración de filtros determina si el rastreador de contenido del sitio incluye o ignora las URL.
Puede actualizar el archivo de configuración de filtros utilizando expresiones regulares para incluir o ignorar valores.
Importante: Debe actualizar el archivo de configuración de filtros para incluir el nombre de host de HCL Commerce.
Los valores de ejemplo predeterminados contienen sentencias ignore, tales como la exclusión de URLs que contienen enlaces de correo electrónico o FTP, o páginas que requieren registrarse en el sitio.
SiteMap.jsp
El mapa del sitio, utilizado por los navegadores web y los motores de búsqueda externos, contiene punteros a las diferentes páginas de tienda de inicio
StaticContentSitemap.jsp
El mapa del sitio estático contiene punteros a los archivos de contenido estático que están en la base de datos de HCL Commerce.
la URL que se pasa del archivo de configuración al rastreador de contenido del sitio es:
http://host_name/webapp/wcs/stores/servlet/StaticContentSitemap?storeId=storeId&langId=-1&catalogId=catalogId
Debe actualizar el archivo de mapa del sitio estático para incluir los archivos de contenido estático adicionales que están en la base de datos de HCL Commerce.

Este archivo solo debe utilizarlo el rastreador de contenido de sitio.

Archivos de manifiesto del rastreador de contenido del sitio
Los archivos de salida manifest.txt del rastreador de contenido del sitio son documentos con formato CSV (valores separados por comas) que contienen información generada.manifest.txt Puede encontrar los archivos en el directorio searchServerPath\resources\search\index\crawler\cache\date\number, donde:
fecha
Es la fecha en que se ejecutó el programa de utilidad de rastreador.
number
Significa el número de veces que se ha ejecutado el rastreador, empezando por 1.
  1. El archivo de manifiesto que indica la carpeta que contiene los archivos de contenido del sitio descargados. Contiene las siguientes columnas:
    Indicación de fecha y hora
    La indicación de fecha y hora para la columna.
    Vía de acceso de directorio
    La vía de acceso del directorio del contador.
    URLs de ubicación inicial
    las URL iniciales separados por una coma.
  2. El archivo de manifiesto que contiene las correlaciones de archivos descargados con URLs. Contiene las siguientes columnas:
    ID
    El ID que distingue a cada archivo en el documento. Por ejemplo, una secuencia simple.
    URL
    la URL relativo a la tienda actual, o la URL completo que apunta a recursos externos.
    Vía de acceso de archivo local
    La vía de acceso de archivo, en formato completo o formato relativo, del contenido del sitio almacenado.
    Tipo de contenido
    El tipo de contenido del archivo por ejemplo, text/html.
    Codificación
    La codificación del archivo, si es un archivo basado en texto.