Adición de etiquetas de parte del discurso

Los tokens de búsqueda se etiquetan de acuerdo con su parte del discurso (POS). Por ejemplo, "sofá" suele estar etiquetado como sustantivo. Los términos que no están etiquetados como un tipo reconocido se ignorarán, pero puede ampliar la lógica de la parte del discurso para dar cabida a nuevos tipos.

Cómo se procesan las partes del discurso

Durante el preproceso de búsqueda, a las señales de búsqueda entrantes se les asignan normalmente etiquetas correspondientes a sustantivos, verbos, adjetivos u objetos numéricos. La codificación predeterminada para estas categorizaciones es:

    "name": "NLPPOSCodes",
    "property": [
     {
       "name" : "NOUN_CODE",
       "value" : "NN,NNS,NNS,NNPS,NOUN,NE"
     },
     {
       "name" : "VERB_CODE",
       "value" : "VB,VBD,VBG,VBN,VBP,VBZ,VERB,VMFIN,VVINF,VVFIN,VV"
     },
     {
       "name" : "ADJECTIVE_CODE",
       "value" : "DT,PDT,JJ,JJR,JJS,ADJ,ADJA,ADJD"
     },
     {
     	"name" : "NUMERIC_CODE",
       "value" : "CD,CARD,NUM,NFP"

Cuando la serie de búsqueda incluye el token "sofá", por ejemplo, CoreNLP anotará esa señal con la etiqueta POS de NN (sustantivo).

La serie de token anotada se pasa al procesador adecuado:

Las búsquedas de sustantivos se realizan en natural.nouns.normalized y natural.nouns.raw en el índice.
Las búsquedas de adjetivos se realizarán en natural.adjectives.normalized y natural.adjectives.raw en el índice.
Los códigos numéricos se utilizan basándose en el término de búsqueda introducido identificado por el matchmaker y, a continuación por natural.*.measurements, o en otros casos, se buscará en natural.adjectives.normalized y natural.adjectives.raw en el índice.
Los tokens de búsqueda anotados con una etiqueta de verbo se ignorarán durante la búsqueda.

La serie de tokens puede contener más de un tipo de etiqueta. Los cuatro tipos más comunes de etiquetas serán reconocidas por los procesadores anteriores. Las etiquetas que no sean de estos tipos se ignorarán. En el caso de la serie de búsqueda "hello world", "hello" se etiquetará como UH, mientras que "world" se etiquetará como NN. UH no es uno de los tipos listados para sustantivos, adjetivos, numéricos o verbos. Por lo tanto, solo "mundo" participará en la búsqueda.

Para evitar esta situación, puede añadir la etiqueta POS a la lista utilizando una llamada PATCH al punto final de REST /configuration.

PATCH http://dataQueryHost:dataQueryPort/search/resources/api/v2/configuration?nodeName=component&envType=auth

Note: La primera vez que añada esta o cualquier configuración al nodo del componente, utilice el método de solicitud POST. En llamadas posteriores, utilice PATCH.

Utilice el siguiente código JSON como cuerpo de la solicitud.

{
    "extendedconfiguration": {
        "configgrouping": [
            {
                "name": "NLPPOSCodes",
                "property": [
                    {
                        "name": "NOUN_CODE",
                        "value": "NN,NNS,NNS,NNPS,NOUN,NE,UH"
                    }
                ]
            }
        ]
    }
}

Note: Reinicie el servicio de consulta después de realizar este cambio.