SciELO - Scientific Electronic Library Online

 
vol.15 número2Recuperación de documentos árabes antiguos a partir de imágenes sin usar reconocimiento de caracteresEtiquetación de emociones a nivel de documento: aprendizaje automático y un método basado en recursos índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • No hay artículos similaresSimilares en SciELO

Compartir


Computación y Sistemas

versión On-line ISSN 2007-9737versión impresa ISSN 1405-5546

Resumen

PINTO, David et al. Evaluación de modelos de n-gramas para la tarea de desambiguación bilingüe del sentido de las palabras. Comp. y Sist. [online]. 2011, vol.15, n.2, pp.209-220. ISSN 2007-9737.

El problema de desambiguación del sentido de las palabras (WSD) consiste en seleccionar el sentido adecuado de una palabra polisémica, considerando el contexto en el que ésta se encuentra. Esta tarea se complica aún más cuando se desea desambiguar entre distintos idiomas; en el caso de dos idiomas, a este problema se le conoce como WSD bilingüe. Es necesario entonces no solamente encontrar la traducción correcta, sino también esta traducción debe considerar los sentidos de las palabras en el contexto de la oración original (en un idioma fuente), para encontrar el correcto sentido de la palabra ambigua (en un idioma destino). En este trabajo de investigación se presenta un modelo probabilístico para la desambiguación bilingüe basado en n-gramas (2-gramas, 3-gramas, 5-gramas y k-gramas, para una oración S de longitud k). El objetivo es analizar el comportamiento del sistema de desambiguación con diferentes representaciones de la oración que contiene la palabra ambigua. Para este propósito se usa el clasificador de Naïve Bayes para determinar la probabilidad de un sentido candidato (en un idioma destino), dada una oración que contiene la palabra ambigua (en un idioma fuente). Se emplea un diccionario estadístico bilingüe, el cual es calculado con el software Giza++ usando el corpus paralelo EUROPARL. Se evaluaron las diferentes representaciones llegando a la conclusión de que aquella basada en 5-gramas con esquema de filtrado por información mutua de bigramas ofrece el mejor valor de precisión.

Palabras llave : Desambiguación bilingüe del sentido de las palabras; traducción automática; corpus paralelo; clasificador de Naïve Bayes.

        · resumen en Inglés     · texto en Inglés     · Inglés ( pdf )

 

Creative Commons License Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons