Configuración del rastreador de contenido del sitio
El rastreador de contenido del sitio utiliza archivos de configuración y archivos de manifiesto para determinar el comportamiento del rastreador de contenido del sitio.
Puede iniciar el rastreador de contenido del sitio accediendo al siguiente URL:
http://searchHost:port/search/admin/resources/crawler?action=start&langId=langId&storeId=storeId&catalogId=catalogId
- langId
- Identificador numérico interno que representa el idioma, por ejemplo, -1 para inglés.
- storeId
- Identificador numérico interno que representa la tienda, por ejemplo, 10001.
- catalogId
- Identificador numérico interno que representa el catálogo, por ejemplo, 10001.
El motor de ejecución rellena automáticamente las dos variables siguientes: hostname y portnum, que serán el nombre de host del servidor de tienda y su número de puerto, respectivamente.
El rastreador de contenido del sitio utiliza los siguientes archivos de configuración de entrada, que se encuentran en el siguiente directorio, Liberty/usr/servers/searchServer/resources\search\index\crawler\ext\:
- droidConfig.xml
- El archivo de configuración del rastreador de contenido del sitio contiene variables y parámetros que determinan el comportamiento del rastreador de contenido del sitio. Las variables que se especifican en el archivo de configuración del rastreador de contenido del sitio se utilizan luego para insertar valores posteriormente en el archivo de configuración.
Parámetros - initialLocations
- la URL inicial para el rastreador de contenido del sitio.Importante: Debe actualizar la URL inicial para que el rastreador de contenido del sitio funcione correctamente.Por ejemplo:
https://${hostname}:${portnum}/shop/StaticContentSitemap?storeId=1&langId=-1&catalogId=10502
- relativePath
- Si se especifica, la vía de acceso relativa se omite de las URL añadidos al archivo de manifiesto. Por ejemplo:
4,StaticContent/Recipe.html,8fa661c4-f812-4b3c-aa5c-361894120d23.html,text/html,UTF-8,A,3
- depth
- La profundidad máxima que rastrea el rastreador. Un valor de -1 indica que no hay restricciones de profundidad.
- max
- El número máximo de páginas a rastrear. Un valor de -1 indica que no hay ningún máximo.
- delay
- El tiempo de retardo en milisegundos entre cada solicitud HTTP.
- filters
- La ubicación del archivo de configuración de filtros de host.
- threadmode
- La modalidad de hebra del rastreador de contenido del sitio.
- 0
- Modalidad de hebra única
- 1
- Modalidad de varias hebras
- maxthread
- El número de hebras a crear cuando se está en modalidad de varias hebras.
- autoIndex
- Indica si se debe habilitar la indexación automática de contenido de sitio después de que se rastree el contenido.
- skipDownload
- Indica las URL que no se van a añadir al archivo manifest.txt y que, por tanto, no se van a indexar. Por ejemplo, StaticContentSitemap.jsp:
http://${hostname}/webapp/wcs/stores/servlet/StaticContentSitemap?storeId=${storeId}&langId=${langId}&catalogId=${catalogId}
- jndiName
- El nombre JNDI del origen de datos JDBC, por ejemplo,
<jndiName>jdbc/jndiName</jndiName>
. solo se utiliza cuando se ejecuta el rastreador a través de la URL. Cuando se especifica este parámetro, el rastreador puede utilizar ese origen de datos para actualizar la base de datos después de que finalice el rastreo.
- filters.txt
- El archivo de configuración de filtros determina si el rastreador de contenido del sitio incluye o ignora las URL.
- SiteMap.jsp
- El mapa del sitio, utilizado por los navegadores web y los motores de búsqueda externos, contiene punteros a las diferentes páginas de tienda de inicio
- StaticContentSitemap.jsp
- El mapa del sitio estático contiene punteros a los archivos de contenido estático que están en la base de datos de HCL Commerce.la URL que se pasa del archivo de configuración al rastreador de contenido del sitio es:
Debe actualizar el archivo de mapa del sitio estático para incluir los archivos de contenido estático adicionales que están en la base de datos de HCL Commerce.http://host_name/webapp/wcs/stores/servlet/StaticContentSitemap?storeId=storeId&langId=-1&catalogId=catalogId
Este archivo solo debe utilizarlo el rastreador de contenido de sitio.
- Archivos de manifiesto del rastreador de contenido del sitio
-
Los archivos de salida manifest.txt del rastreador de contenido del sitio son documentos con formato CSV (valores separados por comas) que contienen información generada.manifest.txt Puede encontrar los archivos en el directorio searchServerPath\resources\search\index\crawler\cache\date\number, donde:
- fecha
- Es la fecha en que se ejecutó el programa de utilidad de rastreador.
- number
- Significa el número de veces que se ha ejecutado el rastreador, empezando por 1.
- El archivo de manifiesto que indica la carpeta que contiene los archivos de contenido del sitio descargados. Contiene las siguientes columnas:
- Indicación de fecha y hora
- La indicación de fecha y hora para la columna.
- Vía de acceso de directorio
- La vía de acceso del directorio del contador.
- URLs de ubicación inicial
- las URL iniciales separados por una coma.
- El archivo de manifiesto que contiene las correlaciones de archivos descargados con URLs. Contiene las siguientes columnas:
- ID
- El ID que distingue a cada archivo en el documento. Por ejemplo, una secuencia simple.
- URL
- la URL relativo a la tienda actual, o la URL completo que apunta a recursos externos.
- Vía de acceso de archivo local
- La vía de acceso de archivo, en formato completo o formato relativo, del contenido del sitio almacenado.
- Tipo de contenido
- El tipo de contenido del archivo por ejemplo,
text/html
. - Codificación
- La codificación del archivo, si es un archivo basado en texto.