Servicios Personalizados
Revista
Articulo
Indicadores
- Citado por SciELO
- Accesos
Links relacionados
- Similares en SciELO
Compartir
Computación y Sistemas
versión On-line ISSN 2007-9737versión impresa ISSN 1405-5546
Comp. y Sist. vol.15 no.2 Ciudad de México oct./dic. 2011
Artículos
Evaluating ngram Models for a Bilingual Word Sense Disambiguation Task
Evaluación de modelos de ngramas para la tarea de desambiguación bilingüe del sentido de las palabras
David Pinto, Darnes Vilariño, Carlos Balderas, Mireya Tovar, and Beatriz Beltrán
Facultad de Ciencias de la Computación Benemérita Universidad Autónoma of Puebla, Puebla, Mexico. Email: dpinto@cs.buap.mx, darnes@cs.buap.mx, mtovar@cs.buap.mx, bbeltran@cs.buap.mx
Article received on 12/03/2010.
Accepted 05/02/2011.
Abstract
The problem of Word Sense Disambiguation (WSD) is about selecting the correct sense of an ambiguous word in a given context. However, even if the problem of WSD is difficult, when we consider its bilingual version, this problem becomes much more complex. In this case, it is necessary not only to find the correct translation, but such translation must consider the contextual senses of the original sentence (in the source language), in order to find the correct sense (in the target language) of the source word. In this paper we present a probabilistic model for bilingual WSD based on ngrams (2grams, 3grams, 5grams and kgrams, for a sentence S of a length k). The aim is to analyze the behavior of the system with different representations of a given sentence containing an ambiguous word. We use a Naïve Bayes classifier for determining the probability of the target sense (in the target language) given a sentence which contains an ambiguous word (in the source language). For this purpose, we use a bilingual statistical dictionary, which is calculated with Giza++ by using the EUROPARL parallel corpus. On the average, the representation model based on 5grams with mutual information demonstrated the best performance.
Keywords: Bilingual word sense disambiguation, machine translation, parallel corpus, Naïve Bayes classifier.
Resumen
El problema de desambiguación del sentido de las palabras (WSD) consiste en seleccionar el sentido adecuado de una palabra polisémica, considerando el contexto en el que ésta se encuentra. Esta tarea se complica aún más cuando se desea desambiguar entre distintos idiomas; en el caso de dos idiomas, a este problema se le conoce como WSD bilingüe. Es necesario entonces no solamente encontrar la traducción correcta, sino también esta traducción debe considerar los sentidos de las palabras en el contexto de la oración original (en un idioma fuente), para encontrar el correcto sentido de la palabra ambigua (en un idioma destino). En este trabajo de investigación se presenta un modelo probabilístico para la desambiguación bilingüe basado en ngramas (2gramas, 3gramas, 5gramas y kgramas, para una oración S de longitud k). El objetivo es analizar el comportamiento del sistema de desambiguación con diferentes representaciones de la oración que contiene la palabra ambigua. Para este propósito se usa el clasificador de Naïve Bayes para determinar la probabilidad de un sentido candidato (en un idioma destino), dada una oración que contiene la palabra ambigua (en un idioma fuente). Se emplea un diccionario estadístico bilingüe, el cual es calculado con el software Giza++ usando el corpus paralelo EUROPARL. Se evaluaron las diferentes representaciones llegando a la conclusión de que aquella basada en 5gramas con esquema de filtrado por información mutua de bigramas ofrece el mejor valor de precisión.
Palabras clave: Desambiguación bilingüe del sentido de las palabras, traducción automática, corpus paralelo, clasificador de Naïve Bayes.
DESCARGAR ARTÍCULO EN FORMATO PDF
References
1. Aguirre, E. & Edmonds, P. (2006). Word Sense Disambiguation: algorithms and applications. Dordrecht: Springer. [ Links ]
2. Barceló, G., (2010). Desambiguación de los sentidos de las palabras en español usando textos paralelos. Tesis de Doctorado, Instituto Politécnico Nacional, Centro de Investigación en Computación, México, D.F. [ Links ]
3. Carpuat, M. & Wu, D. (2007). Improving statistical machine translation using word sense disambiguation. 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLPCoNLL 2007). Prague, Czech Republic, 6172. [ Links ]
4. Chan, Y., Ng, H. & Chiang, D. (2007). Word sense disambiguation improves statistical machine translation. 45th Annual Meeting of the Association for Computational Linguistics, Prague, Czech Republic, 3340. [ Links ]
5. Cortes, C. & Vapnik, V. (1995). Supportvector networks. Machine Learning, 20 (3), 273297. [ Links ]
6. Florian, R. & Yarowsky, D. (2002). Modeling consensus: Classifier combination for word sense disambiguation. ACL02 Conference on Empirical Methods in Natural Language Processing, Philadelphia, USA, 10, 2532. [ Links ]
7. Harris, Z. (1981). Distributional structure. In Henry Hiz (Ed.), Papers on syntax (322). Boston: Kluwer Boston Inc. [ Links ]
8. Lafferty, J.D., McCallum, A. & Pereira, F.C.N. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. Eighteenth International Conference on Machine Learning, ICML '01. Massachusetts, USA, 282289. [ Links ]
9. Lee, Y.K. & Ng, H.T. (2002). An empirical evaluation of knowledge sources and learning algorithms for word sense disambiguation. ACL02 Conference on Empirical Methods in Natural Language Processing, Philadelphia, USA, 10, 41 48. [ Links ]
10. Lefever, E. & Hoste, V. (2010). Semeval2010 task 3: Crosslingual word sense disambiguation. NAACL HLT Workshop on Semantic Evaluations: Recent Achievements and Future Directions. Colorado, USA, 8287. [ Links ]
11. Mihalcea, R.F. & Moldovan, D.I. (2001). Pattern learning and active feature selection for word sense disambiguation. Second International Workshop on Evaluating Word Sense Disambiguation Systems (SENSEVAL2). Toulouse, France, 127130. [ Links ]
12. Ng, H. T., Wang, B. & Chan, Y. S. (2003). Exploiting parallel texts for word sense disambiguation: An empirical study. 41st Annual Meeting of the Association for Computational Linguistics (ACL'03). Sapporo, Japan, 455462. [ Links ]
13. Sinha, R., McCarthy, D. & Mihalcea, R. (2010). Semeval2010 task 2: Crosslingual lexical substitution. NAACL HLT Workshop on Semantic Evaluations: Recent Achievements and Future Directions. Colorado, USA, 7681. [ Links ]
14. Yarowsky, D., Cucerzan, S., Florian, R., Schafer, C. & Wicentowski, R. (2001). The Johns Hopkins Senseval2 system descriptions. Second International Workshop on Evaluating Word Sense Disambiguation Systems (SENSEVAL2). Toulouse, France, 163166. [ Links ]