Resolución de anáfora directa basada en conocimiento para pronombres definitivos

Alvarado Gutiérrez, Jesus Alexander; Gelbukh, Alexander; Kolesnikova, Olga; Alvarado Gutiérrez, Jesus Alexander; Gelbukh, Alexander; Kolesnikova, Olga

doi:10.13053/cys-25-2-3935

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Computación y Sistemas

On-line version ISSN 2007-9737Print version ISSN 1405-5546

Comp. y Sist. vol.25 n.2 Ciudad de México Apr./Jun. 2021 Epub Oct 11, 2021

https://doi.org/10.13053/cys-25-2-3935

Artículos

Resolución de anáfora directa basada en conocimiento para pronombres definitivos

Knowledge-based Direct Anaphora Resolution for Definitive Pronouns

Jesus Alexander Alvarado Gutiérrez¹^*

Alexander Gelbukh¹

Olga Kolesnikova¹

^¹ Instituto Politécnico Nacional, Centro de Investigación en Computación, México. j.alexander.ag@hotmail.com, gelbukh@gelbukh.com, kolesolga@gmail.com

Resumen

El fenómeno de anáfora es utilizado frecuentemente en la mayoría de los idiomas debido a que permite economizar palabras, permitiendo realizar omisión de antecedentes previamente mencionados en una oración y sustituirlos con referentes, esta investigación se enfoca en la resolución de la relación anafórica presente en los pronombres definitivos especialmente con aquellos que no presentan restricciones lingüísticas de género y cantidad. Actualmente la tendencia inclina a la mayoría de los enfoques a abordar los problemas de procesamiento de lenguaje natural utilizando word embedding por los resultados obtenidos, debido a esto ha perdido popularidad en la utilización de enfoques basados en conocimiento, por lo que en esta investigación se mostraran resultados de diversos experimentos utilizando este enfoque, mostrando que se pueden obtener resultados representativos. Se proponen diferentes métodos para encontrar los antecedentes correctos en una oración que presenta relación anafórica utilizando las similitudes léxicas basadas en WordNet: calculando las distancias que existen entre cada candidato y el contexto presente en la oración; utilizando la medida de similitud de coseno y añadiendo peso a los candidatos que presenten una frecuencia mayor en las colocaciones con los verbos presentes en la oración.

Palabras clave: Pronombres definidos; esquemas de Winogad; resolución de anafora; wordnet; similitud de coseno

Abstract

The anaphora phenomenon is the presupposition of an element, so this element is not mentioned directly, anaphora is a reference to previous antecedent. anaphora resolution tries to find the antecedent of a referent, this research is focused in the anaphoric relation between a noun and a pronoun in the Winograd Scheme, the anaphora resolution is essential for many tasks in Natural Language Processing, such automatic translation, automatic summarization, etc. Nowadays there are many different approaches for anaphora resolution and pronoun resolution, this research is based in a knowledge approach with similarity and relatedness measure. proposing many methods to choose the correct antecedent for a pronoun in anaphoric relation, using stemming, removing determinants, synonyms and hypernyms to get a higher range of match in verb-noun relation.

Keywords: Definite pronouns; Winograd schemes; anaphora resolution; cosine similarity

1. Introducción

El problema de resolución de anáfora presente en los pronombres definitivos aún sigue siendo un problema difícil de tratar en la actualidad, debido a la falta de recursos y técnicas que logren realizar una distinción adecuada entre candidatos, esencialmente en el fenómeno de anáfora presente en los esquemas de Winograd ^[¹^]:

— S₁: The bee landed on the flower because it had pollen.
— P₁: it,
— C₁: the bee,
— C₂: the flower,
— A₁: the flower,

donde:

— S₁: Oración (dos antecedentes y un pronombre),
— P₁: Pronombre a desambiguar dentro de la oración S₁,
— C₁: Primer antecedente mencionado en la oración S₁,
— C₂: Segundo antecedente mencionado en la oración S₂,
— A₁: Antecedente correcto para el pronombre P₁.

Los esquemas de Winograd están basados en pronombres complejos debido a que la oración contiene un conector de discurso que la divide en dos partes; en la primer parte se encuentran los dos candidatos y en la segunda se encuentra la referencia para un candidato. El problema recae en que los esquemas de Winograd son propuestos en dos oraciones pares^[²^] las cuales cumplen la misma estructura léxica:

— The bee landed on the flower because it had pollen.
— The bee landed on the flower because it want pollen.

El problema de resolución de anáfora en pronombres definidos fue propuesto como una alternativa a la prueba de Turing ^[³^] debido a que la prueba de Turing depende de un evaluador humano el cual determinara si sistema está pensando mediante un conjunto de preguntas, a diferencia de los esquemas de Winograd, los cuales no necesitan de un evaluador, ya que estos tienen definido cual es la respuesta correcta lo cual lo vuelve un problema de clasificación binario.

En el trabajo de Altaf Rahman and Vincent Ng ^[²^] se creó un vector de características utilizando deferentes métodos como: Narrative chains, frecuencia de las colocaciones en Google, FrameNet, Heurísticas de polaridad, para crear un vector de características el cual fue entrenado por una MSV, logrando un 73.05% de exactitud, este experimento conlleva un tiempo relativamente grande, para la extracción de características y finalmente el entrenamiento.

En el presente trabajo se utilizara un vector de características creado a partir de las diferentes medidas de similitud que se pueden extraer de WordNet ^[⁴^]. aplicadas a las derivaciones semánticas de los sustantivos presentes en el contexto de los candidatos a desambiguar.

2. Extracción de derivaciones semánticas

Se realizó un análisis sintáctico de la oración con el analizador Stanford parser^[⁵^] para obtener los sustantivos NN y verbos VB presentes en la oración. Ejemplo:

input:

S_i(text) = the bee landed in the flower

because it want pollen.

output:

(bee/NN),

(landed/VBD),

(flower/NN),

(want/VBP),

(pollen/NN)

Se obtuvieron derivaciones semánticas como sinónimos e hiperónimos de cada uno de los sustantivos presentes en la oración. Ejemplo:

input:

S_i(text) = the bee landed in the flower

because it want pollen.

output:

(bee/NN),

(animal/NN),

(insect/NN),

(landed/VBD),

(flower/NN),

(flora/NN),

(want/VBP),

(pollen/NN),

(seed-plant/NN)

3. Extracción de similitud semántica

Se aplicaron seis medidas de similitud con todos los sustantivos presentes en el contexto de la oración S_i incluyendo las derivaciones semánticas (sinónimos e hiperónimos) Con ellos se obtuvo un vector de características de medidas semánticas para cada uno de los candidatos, para ello es necesario definir tres conceptos importantes utilizados en las medidas de similitud.

Probabilidad de un concepto: Se calcula con el número de veces que el concepto "c" aparece en el corpus con respecto a la cantidad total de palabras en él (1):

Pc=∑wcwordsccountcN. (1)

Information Content (IC): Se refiere a la cantidad de información que tiene un concepto, es calculada con el logaritmo negativo de la probabilidad del concepto como muestra la siguiente formula (2):

ICc=-logPc. (2)

Lowest Common Subsumer (LCS): Es el ancestro común más cercano a dos conceptos tomando en cuenta la jerarquía de WordNet.

El vector de características está formado con siguientes medidas de similitud semántica:

— Wu and Palmer ^[⁶^]:

wup=2×depthlcs/depths1+depths2. (3)

— Jiang and Conrath ^[⁷^]:

distjcnc1,c2=2×logPLCSc1,c2-logPc1+logPc2. (4)

— Leacock and Chodorow ^[⁸^]:

lch=-loglength/2×D. (5)

— Lin ^[¹⁰^]:

simlinc1,c2=2×logPLCSc1,c2logPc1+logPc2. (6)

— Resnik^[⁹^]:

simresnikc1,c2=ICLCSc1,c2=-logLCSc1,c2. (7)

— Path length ^[¹¹^]: Se basa en la intuición de que dos conceptos que pertenecen a la misma jerarquía son similares entre más cercanos estén, esta medida es obtenida contando las aristas entre ellos, tomando en cuenta el camino más corto (Fig. 1).

Fig. 1 Ejemplo de la medida de similitud Path length

Estas medidas fueron seleccionadas debido a que lograron mejor desempeño en los experimentos realizados.

4. Extracción de concordancia Sustantivo-Verbo

Se obtuvieron dos medidas a partir de la frecuencia de concordancia entre el verbo dentro de la oración con cada uno de los candidatos y sus derivaciones semánticas, para agregarlo al vector de características, las colocaciones de concordancia fueron obtenidas a partir del corpus de Sketch Engine. Una medida fue la frecuencia en la que estas dos palabras aparecen juntas y la segunda medida fue calculada con tf-id (tabla 1).

Tabla 1 Ejemplo de tuplas V, N, frecc, tf, idf, w

Verbo	Sustantivo	frecuencia	tf	idf	tf-idf
Take	place	185576	0.11822153	2.163086	0.25572333
be	part	164582	0.048840113	1.7947271	0.08765467
be	way	133611	0.039649393	1.6282218	0.06455801
be	time	127544	1.7805147E-6	1.4735535	2.6236837E-6
be	thing	83126	0.024667844	1.7624434	0.04347568
take	part	81055	0.051636234	1.7947271	0.092672944
be	member	77505	0.022999799	2.0418725	0.046962656
be	something	77092	0.02287724	2.2324471	0.05107223
be	case	74254	0.022035057	2.1579447	0.047550432
be	year	69744	1.4837623E-6	1.5949645	2.3665482E-6
be	problem	68683	0.02038185	2.0705914	0.042202484
be	place	62293	0.0184856	2.163086	0.03998594
be	number	61279	0.018184694	1.7596849	0.03199933
be	lot	59444	0.017640153	2.2357676	0.039439283
provide	information	58785	0.03744909	2.0086408	0.07522177
provide	service	58505	0.037270717	1.7982997	0.06702392
be	bit	58102	0.017241912	2.079086	0.035847418
be	nothing	51171	0.0151851205	2.8770673	0.043688614
have	time	51145	5.7334664E-6	1.4735535	8.44857E-6
make	decision	50900	0.032425936	2.5711317	0.083371356
be	people	50826	1.7805147E-6	1.4104064	2.5112492E-6
have	effect	50770	0.03234312	2.0464492	0.06618855
have	problem	49299	5.0964145E-6	2.0705914	1.0552592E-5
be	man	48795	0.014480037	1.625207	0.023533056
play	role	47274	0.030115988	2.337194	0.07038691

5. Experimentos y resultados

Para los experimentos se utilizó el curpus creado en el trabajo de Altaf Rahman and Vincent Ng ^[²^]: que consta de 941 oraciones pares etiquetadas. Aplicando extracción de medidas de similitud y la extracción de concordancia verbo-sustantivo se crearon vectores de características de cada una de las oraciones dentro del corpus.

Ejemplo de vector de características por medida de similitud (Tabla 2):

— S₁: the bee landed in the flower because it want pollen,
— s: frecuencia de concordancia verbo-sustantivo de cada sustantivo,
— d: frecuencia de concordancia verbo-sustantivo de cada sustantivo y sus sinónimos,
— h: frecuencia de concordancia verbo-sustantivo de cada sustantivo y sus hiperónimos:
- — 1: medida de similitud wup,
- — 2: medida de similitud jco,
- — 3: medida de similitud lch,
- — 4: medida de similitud lin,
- — 5: medida de similitud res,
- — 6: medida de similitud path,
- — w: medida tf-idf.

Tabla 2 Ejemplo de arreglo de vector de características para cada candidato de la oración S₁

Vector	s	d	h	1	2	3	4	5	6	w
Candidato 1	0.6000	0.0690	0.4403	0.1936	0.8230	0.1111	0.3160	0.3160	0.4352	0.0002
Candidato 2	0.6315	0.0683	0.5581	0.1920	0.8230	0.1250	0.8960	0.8960	0.2412	0.0005

Se realizaron tres experimentos con los vectores de características resultantes:

— Algoritmo de votación.
— Similitud de coseno.
— Clasificación con una red neuronal.

5.1. Algoritmo de votación

El primer experimento que se realizó se obtuvo con la intuición de que el candidato con la medida de similitud menor y la frecuencia de concordancia mayor es el candidato que resuelve la referencia, para ello se implementó el siguiente algoritmo en el cual obtiene el menor valor para cada una de las medidas de similitud y el mayor valor para cada frecuencia de concordancia realizando un conteo con cada una de las medidas, obteniendo como respuesta el candidato con mayor número de votaciones (Fig. 2).

Fig. 2 Algoritmo de votación que aumenta la votación en 1 para cada medida que cumpla la condición

5.2. Similitud de coseno

El segundo método se basó en la distancia de coseno en la cual se creó un vector de características ideal, el cual está compuesto por los valores para cada medida en la cual representa una similitud de 1, donde 1 representa el valor ideal y por el lado contrario 0 que no tienen similitud .

Se obtuvieron dos vectores de características para cada candidato y se normalizaron los datos a valores entre 0 y 1.

La intuición de similitud de coseno mide el ángulo entre vectores no la magnitud, por lo que se obtuvo aquel vector de características que maximizaba la similitud de coseno entre los dos vectores de características de cada candidato y el vector ideal (Tabla 3).

Tabla 3 Ejemplo de arreglo de vectores sometidos a similitud de coseno

Vector	s	d	h	1	2	3	4	5	6	w
Candidato 1	0.6000	0.0690	0.4403	0.1936	0.8230	0.1111	0.3160	0.3160	0.4352	0.0002
Ideal	1	1	1	1	1	1	1	1	1	1
Candidato 2	0.6315	0.0683	0.5581	0.1920	0.8230	0.1250	0.8960	0.8960	0.2412	0.0005

5.3. Clasificación con una red neuronal

Para este experimento se creó un vector de características como entrada para la red neuronal que consta de la concatenación de los 2 vectores de características por cada candidato, con un vector resultante de 20 características, para este experimento se tomó el 70% del corpus como conjunto de entrenamiento y el 30% como conjunto de prueba, el conjunto de entrenamiento se sometió a una red neuronal con una capa oculta con 25 nodos, debido a la naturaleza binaria del problema se utilizó una función de activación relu en la capa oculta y la función de activación sigmoid en la capa de salida (Fig. 3).

Fig. 3 Modelo utilizado para entrenar la red neuronal

6. Resultados

Con cada uno de los tres métodos propuestos se realizaron diferentes experimentos, se utilizaron los resultados de cada medida por separado y con las posibles combinaciones, por lo que se realizó el conjunto potencia de las 10 medidas para realizar los experimentos realizando un total de 10² - 1 experimentos, para encontrar el mejor resultado cada experimento se evaluó con las siguientes medidas utilizadas en clasificación: precisión (eq: 8), recall (eq: 9) y F1:

precisión=TPTP+FP, (8)

donde:

— TP (True Positives): representa los datos positivos clasificados como poritivos.
— FP (False Positives): representa los datos clasificados como positivos que son falsos.

Recall es dada por (eq:9):

recall=TPTP+FN, (9)

donde:

— TP (True Positives): representa los datos positivos clasificados como positivos.
— FN (False Negative): representa los datos falsos clasificados como positivos.

6.1. Resultados por combinación

Con los valores de cada una de las medidas se formó un vector de características por cada candidato los cuales fueron sometidos a los 3 experimentos previamente mencionados: algoritmo de votación con combinación(tabla 8), similitud de coseno con combinación (tabla 9), y finalmente el resultado del entrenamiento con la red neuronal por combinación de medidas (tabla 10), con los que se obtuvo los siguientes resultados (se muestran los resultados más representativos por combinación), se realizó la evaluación con la métrica F1 debió a que otros métodos del estado del arte han sido evaluados con esta métrica.

Tabla 4 Accuracy para cada medida

Medida	Accuracy
w	49.78
s	49.65
2-jco	49.65
3-lch	49.43
h	49.36
d	49.32
6-path	48.96
1-wup	47.80
5-res	45.81
4-lin	44.89

Tabla 5 Precisión para cada medida

Medida	Precision
w	50.41
d	50.00
h	50.00
s	49.73
2-jco	49.73
3-lch	49.73
6-path	48.64
1-wup	48.0
5-res	45.45
4-lin	42.00

Tabla 6 Recall para cada medida

Medida	Recall
h	52.08
4-lin	51.12
w	50.83
s	49.77
d	48.44
2-jco	43.37
3-lch	42.53
1-wup	42.17
6-path	41.66
5-res	40.00

Tabla 7 F1 para cada medida

Medida	F1
h	51.02
w	50.62
s	49.77
d	49.20
2-jco	46.34
3-lch	45.85
1-wup	44.90
6-path	44.88
5-res	42.55
4-lin	40.00

Tabla 8 F1 para la combinación de las medidas de similitud

Medida	F1
[s, 3, d, 6, h]	51.36
[w, s, 3, d, 6]	51.36
[1, w, s, 3, d, 6, h]	51.52
[1, w, s, 5, h]	51.46
[1, w, s, 6, h]	51.42

Tabla 9 F1 para la similitud de coseno

Medida	F1
[1, 5, 6, s, d, w]	55.65
[1, 6, h, s, r]	54.34
[1, w, 3, d, 6, h]	54.32
[1, w, s, ]	54.46
[1, w, s, 6, h]	54.82

Tabla 10 F1 red neuronal

Key	F1
[1-2-5-6-s-d-h]	61.53
[1-3-6]	61.53
[1, w, 3, d, 6, h]	60.89
[1-3-4-5-6-s-d ]	60.89
[1-2-3-5-h]	60.89

Finalmente se realizó una comparativa entre los trabajos que han sido probados con el mismo corpus (Tabla 11), obteniendo mejor resultado la mayoría de los métodos simples utilizados en el estado del arte y muy cercanos a los resultados obtenidos por trabajos que utilizan modelado con redes neuronales para extracción de características, entrenamiento y clasificación, por lo que nuestro sistema es eficiente en tiempo y ejecución.

Tabla 11 Valores de exactitud en Winograd schema challenge

Autor	Name	F1
(Rahman and Ng et al., 2012)	Narrative Chains	30.67
(Rahman and Ng et al., 2012)	Google	33.16
(Lee et al., 2011)	The Stanford resolver.	40.1
(quian Liu at al., 2016)	USSM	48.7
(quian Liu at al., 2016)	NKAM	49.1
—	The Random baseline.	50
(quian Liu at al., 2016)	USSM + NKAM	50.2
(Durrett and Klein, 2013)	BERKELEYnew	50.32
(Chang et al.2013),	Illinois	51.48
—	our system - similitud de caracteristicas	51.52
—	our system - similitud de coseno	55.65
—	our system - red neuronal	61.53
(Canasai Kruengkrai, 2014)	—	69.68
(Rahman and Ng et al., 2012)	MENTRANKER	73.05
(Peng and Khashabi, 2015 )	KnowComb	76.76

6.2. Resultados por medida

Se muestran los resultados individuales por cada una de las 6 medida de similitud y las 3 frecuencias de concordancia: accuracy (tabla 4), precisión (tabla 5), recall (tabla 6) y F1 (tabla 7), ordenados por la medida que obtuvo mejor desempeño individualmente.

7. Conclusiones

Los resultados obtenidos en los experimentos como resultado de las tres nuevas técnicas basadas en conocimiento, muestran que es posible obtener resultados competitivos, creando un vector de características basada en conocimiento evitando utilizar demasiados recursos y tiempo de ejecución como otros métodos del estado del arte que para la extracción características utilizan redes neuronales o word embedding.

Los resultados son alentadores, indicando que es posible agregar más restricciones léxicas y semánticas, para evaluar diferentes condiciones que pueden presentar las oraciones como por ejemplo módulos para tratar con negación, con marcos de roles, antónimos, merónimos, holónimos, etc. que brindaran más información semántica a los vectores de características.

Por lo que para trabajos futuros se planea agregar estas características y adaptar este vector de características para utilizarlo con word embedding.

Referencias

1. Levesque, H.J. (2011). The Winograd Schema Challenge. Proceedings of the Twenty-Seventh Conference on Innovative Applications of Artificial Intelligence, pp. 63-68. [ Links ]

2. Rahman, A., Ng, V. (2012). Resolving complex cases of definite pronouns: the Winograd schema challenge. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pp. 777-789, Association for Computational Linguistics. [ Links ]

3. Turing, A.M. (1950). Computing machinery and intelligence. Mind, 59(236), pp. 433-460. [ Links ]

4. Fellbaum, C. (1998). WordNet: An electronic database. [ Links ]

5. De Marneffe, M.C., Manning, C.D. (2008). Stanford typed dependencies manual. pp. 338-345, Technical report, Stanford University. [ Links ]

6. Wu, Z., Palmer, M. (1994). Verbs semantics and lexical selection. In: Proceedings of the 32nd annual meeting on Association for Computational Linguistics, pp. 133-138, Association for Computational Linguistics. [ Links ]

7. Jiang, J.J., Conrath, D.W. (1997). Semantic similarity based on corpus statistics and lexical taxonomy. arXiv preprint cmp-lg/9709008. [ Links ]

8. Leacock, C., Chodorow, M. (1998). Combining local context and WordNet similarity for word sense identification. In: WordNet: An electronic lexical database, pp. 265-283. [ Links ]

9. Resnik, P. (1995). Using information content to evaluate semantic similarity in a taxonomy. arXiv preprint cmp-lg/9511007. [ Links ]

10. Lin, D. (1997). Using syntactic dependency as local context to resolve word sense ambiguity. Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, pp. 64-71, Association for Computational Linguistics. [ Links ]

11. Pedersen, T., Patwardhan, S., Michelizzi, J. (2004). WordNet::Similarity: measuring the relatedness of concepts. Demonstration papers at HLT-NAACL 2004, pp. 38-41, Association for Computational Linguistics. [ Links ]

Recibido: 10 de Mayo de 2020; Aprobado: 11 de Diciembre de 2020

^* Corresponding author is Alexander Gelbukh. j.alexander.ag@hotmail.com

Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons

Services on Demand

Journal

Article

Indicators

Related links

Share

Computación y Sistemas

On-line version ISSN 2007-9737Print version ISSN 1405-5546

Comp. y Sist. vol.25 n.2 Ciudad de México Apr./Jun. 2021 Epub Oct 11, 2021

https://doi.org/10.13053/cys-25-2-3935