1. Introducción
La caracterización del perfil de los autores (en inglés Author Profiling, AP) es una tarea dirigida a estudiar el uso del lenguaje para distinguir grupos de autores que comparten una característica demográfica común (e.g. edad y género).
Existe una diversidad de rasgos socio-demográficos que conforman el perfil de los autores y que la literatura ha explorado mediante enfoques de AP. Por ejemplo, se han propuesto métodos para detectar personalidad [11,20], orientación política [15], idioma nativo [23], ocupación [8] y edad/género [2,19]. Actualmente, esta tarea ha ganado gran relevancia para la comunidad científica debido a sus aplicaciones en diversas disciplinas. Por ejemplo, en lingüística forense puede generar evidencia adicional para identificar características de autores de mensajes de acoso. En Mercadotecnia, puede ayudar a generar publicidad dirigida de acuerdo con el perfil de las personas que gustan o disgustan de un producto. Inclusive, el impacto de la tarea en redes sociales ha motivado la creación de foros internacionales de evaluación para métodos referentes a AP [18].
Tradicionalmente, AP ha sido una tarea abordada como un problema de clasificación supervisado textos [21]. La mayoría de las contribuciones se concentran en la búsqueda de un conjunto de atributos que modele el perfil lingüístico de los autores. Dos tipos de características han sobresalido: temáticas (e.g. sustantivos, verbos y adjetivos) y características de estilo (e.g., palabras de función, signos de puntuación y etiquetas de partes de la oración). Combinaciones de ambos tipos han resultado exitosas en evaluaciones del PAN [18]. Recientemente, enfoques más sofisticados han sido considerados: n-gramas de caracteres, palabras o sintácticos [4,17], representaciones basadas en tópicos [2], atributos de segundo orden [10] y representaciones continuas de palabras (wordembeddings representations) [1,5], así como técnicas de aprendizaje profundo [22,24].
En contraste a la búsqueda común de atributos, esta investigación se enriquece de hallazgos psicológicos para seleccionar y ponderar la información más relevante para AP en redes sociales. De acuerdo con la perspectiva psicológica, el uso de pronombres personales en primera persona del singular (PP) se asocia con características que definen el perfil de las personas [16]. Por lo tanto, esta investigación sustenta que las frases que contienen PP1, denominadas frases personales (FP), reflejan información personal como sentimientos, preferencias, intereses y hábitos entre otras características que pueden revelar el perfil del autor.
Específicamente, en la primer parte de la investigación se estudió la relevancia de las FP en AP. El estudio indico que las FP conforman la esencia de los documentos para la tarea. En la segunda parte, se desarrolló un enfoque para AP que se compone de un nuevo método de selección y un novedoso esquema de pesado de términos, los cuales, además de cuantificar la frecuencia de los términos, consideran una calificación para la cantidad de información personal revelada por cada término. El enfoque fue evaluado para clasificar edad y género de autores; se obtuvieron mejoras promedio de exactitud de 7.34% y 5.76% respectivamente con respecto a resultados del estado del arte. Los resultados señalan que es posible mejorar el desempeño cuando se enfatiza el valor de los términos asociados a las FP. De esta manera se confirma la relevancia de las FP en la tarea.
El resto del manuscrito resume la investigación. Más detalles se presentan en la tesis [12] y las publicaciones representativas derivadas [14,13].
2. El rol de las frases personales en la Identificación del perfil de autores
La idea base de la investigación considera que las personas expresan sus intereses y estilo de escritura cuando hablan acerca de ellas mismas (mediante las FP). Por ejemplo, en la Tabla ?? se muestran algunas FP describiendo actividades que las personas comúnmente realizan al despertar en la mañana. Como se observa, cada persona usa su propio estilo de escritura y su vez, refleja sus intereses temáticos. Sin embargo, es posible encontrar patrones discriminativos de perfiles (e.g., hombres vs mujeres, o jóvenes vs adultos).
Fragmento de texto | Género | Edad |
---|---|---|
“And then I woke up at
11:00 & took a shower & got dressed. Then I was gonna fix my hair & put on my makeup & mom said there was no use in goin because it was late anyway.. So” |
M | 15 |
“I woke up Sunday morning
and cleaned up the house. I have decided not to run away, just yet. Once the house was cleaned I took a long bath and washed my hair and gave it an intensive conditioning treatment." |
M | 41 |
“Wow what a day! I woke up
about 11:30 to a great breakfast of tacos!! Beef, egg, cheese and salsa sauce to be precise, yummmm!” |
H | 15 |
“I woke up this morning feeling great. I went to the kitchen, fried me a hamburger patty, and some eggs.” |
H | 44 |
Por ejemplo, los hombres hablan más de comida que las mujeres, mientras las mujeres se expresan más acerca del cuidado personal, específicamente de su cabello. También puede ser notado que los jóvenes tienden a mencionar a sus padres o a escribir informalmente ("..", "&" o "!!").
La destacable riqueza de la información observada en las FP motivo el desarrollo de un análisis más profundo que responde, principalmente, a las siguientes preguntas de investigación: a) ¿Es toda la información en un documento igualmente relevante para AP? Específicamente, ¿son las frases personales más discriminativas que las otras frases? y b)¿Son las frases personales igualmente relevantes en diferentes medios sociales?. El análisis se realizó de acuerdo con la siguiente configuración experimental.
2.1. Configuración experimental
La investigación adopto un marco estándar de clasificación para AP: una combinación de características de contenido, estilo y sintácticas. Particularmente, se usaron los 1000 términos con mayor ganancia de información. Estos términos incluyeron palabras de contenido, signos de puntuación y palabras coloquiales (slang words).
También se consideraron ocurrencias de palabras de función (FW) y unigramas de etiquetas POS. Usando tales términos, se construyó una bolsa de palabras cuyos pesos corresponden a su frecuencia normalizada (TF). En la fase de clasificación se aplicó SVM mediante un esquema de validación estratificada de 10 capas reportando exactitud.
Conjuntos de datos. Corresponden a textos en escritos en inglés provenientes de redes sociales y etiquetados automáticamente con la edad y género de los autores. Específicamente, se usaron dos conjuntos: blogs de Schler [19] y el corpus PAN-AP-20142. En particular, los blogs de Schler3 fueron concentrados en tres categorías según su edad [19]: 10s (desde 13 hasta 17 años), 20s (desde 23 hasta 27 años) y 30s (desde 33 hasta 47 años). Por su parte, el corpus PAN-AP-20144 se compone de cuatro dominios: blogs, revisiones de hoteles de TripAdvisor (de aquí en adelante, denotadas como Reviews), documentos de redes sociales (generalizados como Social Media) y publicaciones de Twitter (denotadas como Twitter). En este corpus, la etiqueta edad tiene 5 categorías: 18-24, 25-34, 35-49, 50-64 y ≥65.
2.2. Relevancia de las FP para AP
Para responder a las preguntas de investigación, se evaluó el rol de las FP en AP. Para ello, primero, se filtraron las FP de cada documento en la colección de textos, creando un corpus filtrado. Posteriormente, se comparó el desempeño de clasificación del corpus original (que contiene todas las frases de los documentos) y el corpus filtrado. Los resultados se muestran en la Tabla 2 y confirman valores de exactitud similares para el corpus filtrado y el original; sin embargo, es notable que las colecciones filtradas representan un pequeño subconjunto (de 15% a 48%) del corpus original.
Colección | Corpus | Exactitud | % en el corpus filtrado |
|
---|---|---|---|---|
Edad | Género | |||
Schler | Original | 77.49 | 80.07 | 48.12% (de |
Filtrado | 76.09 | 79.63 | 9,155,301) | |
Blogs | Original | 36.56 | 68.42 | 24.20% (de |
Filtrado | 43.92 | 62.14 | 22,944 frases) | |
Original | 35.33 | 71.33 | 15.54% (de | |
Filtrado | 37.49 | 59.55 | 318,691 frases | |
Reviews | Original | 30.84 | 67.24 | 36.43% (de |
Filtrado | 29.21 | 65.21 | 52,833 frases) | |
Social | Original | 34.84 | 53.64 | 22.97% (de |
Media | Filtrado | 33.99 | 52.68 | 3,207,509) |
Las pruebas de significancia estadística5 indicaron que los resultados para la predicción de edad fueron comparables a través de todos los dominios considerados excepto para Blogs de Schler, mientras para la clasificación de género, se encontró una diferencia estadísticamente significante solo para Twitter y Blogs. En general, estos resultados soportan la relevancia de las frases personales reafirmando su rol como la esencia de los documentos para AP.
Adicionalmente, se encontró que los resultados usando el corpus filtrado son significativamente mejores que esos correspondientes al corpus complemento, aunque hay menos información en el primero. Por ejemplo, en el caso de Blogs de Schler, el corpus complemento presento) una exactitud de 69.98% para edad y 72.59% para género respectivamente. Esto indica que la información personal de los autores es, en efecto, más importante que la información no personal.
Cabe señalar que, el análisis del rol de las frases personales en AP también incluyo el estudio de frases conteniendo pronombres personales en primera persona del plural, encontrando que estas no tienen una relevancia especial para AP. Por otro lado, también se estudió la naturaleza del tipo de información contenida en las FP, concluyendo que la información del estilo de redacción de los autores podría ser igualmente capturada tanto en FP como en FNP, pues ambos tipos de frases son escritas por el mismo autor. Sin embargo, los intereses temáticos de los autores son mejor capturados en las FP. Más detalles se muestran en [13].
3. Enfatizando el valor de las frases personales
Los hallazgos anteriores motivaron el desarrollo de un nuevo enfoque de AP, el cual considera todos los términos de los documentes (presentes en FP o FNP) pero enfatiza el valor de aquellos contenidos en FP. Este enfoque inicia con la cuantificación de la cantidad de información personal del autor revelada por cada término. Para ello, se diseñaron tres nuevas medidas: precisión personal, cobertura personal y el índice de expresión personal.
Estas medidas son definidas considerando la siguiente notación: un documento dj está formado por un conjunto de frases Sj , el cual a su vez está compuesto por los subconjuntos Pj y Nj , que representan los subconjuntos de frases personales y no personales, respectivamente. Por lo tanto, un término ti puede aparecer en el subconjunto Pj y/o en Nj.
Precisión personal (ρ) estima la concentración de información personal revelada en el contexto de un término. Es definida como el porcentaje de frases personales conteniendo el término ti dentro del documento dj:
Cobertura personal (𝒯) cuantifica la porción de frases personales de un documento (i.e., la porción de su "esencia") cubierta por el término ti . Puede ser interpretada como la probabilidad condicional de la ocurrencia de un término dado el conjunto de frases personales:
Aunque ρ y 𝒯 son medidas cuyo valor incrementa cuando el número de ocurrencias en las frases personales es más grande, su comportamiento, es, de algún modo, opuesto. Por ejemplo, un término apareciendo una sola vez en un documento y particularmente en una frase personal, obtendría un valor muy alto de precisión personal (ρ), pero no necesariamente alta cobertura (𝒯), principalmente, porque el documento puede estar formado por varias frases personales. Por el contrario, un término apareciendo en la única frase personal de un documento conseguiría el más alto valor para &$961;, independientemente de sus ocurrencias en frases no personales. De ahí que, para medir el balance entre ρ y 𝒯 se propone la siguiente medida.
Índice de expresión personal (PEI por sus siglas en inglés, Personal Expression Index) es una combinación de ρ y 𝒯 e indica que entre más frecuente es la ocurrencia de un término en frases personales y menos frecuente en las frases no personales, el término revela más información del perfil del autor:
PEI establece que los términos más valiosos son aquellos con alta precisión personal así como alta cobertura.
3.1. El enfoque propuesto DPP-EXPEI
Desde la perspectiva de la clasificación supervisada, la construcción de un
clasificador que asigne categorías predefinidas (categorías de autores)
3.1.1. Selección de términos: pureza personal discriminativa
La técnica de selección propuesta, DPP, permite elegir términos relacionados al perfil de los usuarios por medio de la medida PEI, tal como se muestra en la fórmula 4. Básicamente, DPP tiene dos componentes: un factor descriptivo definido como el máximo valor de la función PPk (Eq. 5), que captura la capacidad de un término para describir información personal de autores pertenecientes a la categoría (ck ); y un factor discriminativo, basado en el coeficiente gini[7], que califica la habilidad de un término para discriminar ente categorías de autores (perfiles). Enseguida se describen ambos componentes:
Pureza personal categórica como factor descriptivo.
La pureza personal categórica de un término ti en un categoría ck , definida como PPk (ti ), evalúa la información personal capturada por el término en los documentos pertenecientes a esa categoría. Formalmente, PPk está representada por la ecuación 5:
donde NEI6, un concepto opuesto a PEI, captura el nivel de asociación de cada término a la información no personal.
Por lo tanto, PPk es calculada como el cociente acumulativo de PEI entre NEI de todos los términos pertenecientes a los documentos de la categoría ck. De esta manera, un término con valores de PEI mayores que NEI será premiado.
Gini coeficiente como factor descriptivo.
El factor discriminativo denotado como gini(ti) estima la capacidad de un término para discriminar documentos de las diferentes categorías de autores. Este segundo factor es determinado a través del coeficiente Gini, una medida que captura, en un solo valor, el nivel de concentración o desigualdad de cualquier distribución; en este caso, la distribución de los términos en todas las categorías. Por ejemplo, la presencia concentrada de un término en solo una de las categorías señala su pertinencia para lograr la discriminación. Por el contrario, las ocurrencias de un término igualmente distribuidas en todas las categorías indica un bajo nivel de discriminación. Para estimar el coeficiente Gini, se aplicó la formula mostrada en [7], cuyo rango de valores va desde 0 hasta 1, indicando completa igualdad o desigualdad respectivamente.
3.1.2. Pesado de términos: recompensa exponencial de información personal
El esquema de pesado propuesto EXPEI, el cual se representa en la fórmula 6 considera todos los términos de los documentos, es decir, aquellos provenientes de FP así como de FNP, pero enfatiza el valor de la información personal.
donde TF(ti
, dj ) representa la frecuencia
normalizada del término ti en el
documento dj calculada como
El esquema está basado en los valores de TF asignados a los términos. Por ejemplo, los términos con PEI = 1, obtendrán pesos iguales a 1 (EXPEI = 1, su máximo valor posible), independientemente de su frecuencia. Por otro lado, los términos con 0 < PEI < 1 serán proporcionalmente premiados; este premio es más importante para aquellos términos con baja frecuencia. Finalmente, los pesos de los términos con PEI = 0 serán suavizados por EXPEI (haciéndolos un poco más grandes que sus valores de TF). De esta manera se permite que los términos con baja frecuencia, pero relacionados con información personal, tengan la oportunidad de contribuir en la descripción del documento.
El enfoque DPP-EXPEI fue evaluado analizando su desempeño para predecir la edad y género de los autores bajo un marco experimental similar al presentado en la sección 2.1; naturalmente, se usó DPP como técnica de selección y EXPEI como esquema de pesado de términos. Los resultados fueron comparados con enfoques del estado del arte presentados en: [2], donde se explotan representaciones basadas en tópicos usando análisis semántico latente (LSA) y conteos de palabras (LIWC); [10], donde se describe una representación basada sub perfiles de usuario (SSR), es el método de referencia principal porque ha obtenido los mejores resultados en las colecciones del PAN 2013-2016; [9], donde se exploran atributos de segundo orden (SOA); [25], donde se presenta un método basado en ideas de recuperación de información; [6], donde se usan atributos a nivel de grupo (GLA) mediante un análisis de tópicos; [3], donde se presenta un análisis de más de 140 millones de palabras en inglés (MW) obtenidas de blogs; [19], donde un conjunto de características estilísticas así como de contenido (SC) es usado para encontrar diferencias de género y edad.
Los resultados y comparaciones se muestran en la Tabla 3. Se observa que DPP-EXPEI supera a los enfoques de referencia en cada colección del PAN 2014 (únicamente en Social Media, SSR reporto una mejor exactitud). Además, el enfoque obtuvo mejores resultados que SSR en tres colecciones en el caso edad. Mientras, en el caso género, se mejoran los resultados en las cuatro colecciones. También existen ganancias importantes, por ejemplo, en el corpus Blogs para el caso edad existe una diferencia aproximada de 22%; mientras las perdidas obtenidas fueron muy pequeñas, la desventaja más representativa corresponde a 4.15% en el caso edad de la colección Social Media.
Enfoque | Colecciones PAN 2014 | Schler corpus |
||||
---|---|---|---|---|---|---|
Reviews | Blogs | Social Media |
||||
Edad | DPP-EXPEI | 44.83 | 61.44 | 75.34 | 33.91 | 75.9 |
LSA | 34 | 39 | 48 | 36 | - | |
LIWC | 29 | 47 | 42 | 34 | - | |
SSR | 36.9 | 49.01 | 53.06 | 38.06 | 77.68 | |
SOA | 33.92 | 47.97 | 48.07 | 37 | - | |
IRF | 37.62 | 52.61 | 45.58 | 42.51 | - | |
GLA | - | - | - | - | 72.83 | |
MW | - | - | - | - | 77.4 | |
SC | - | - | - | - | 76.01 | |
Género | DPP-EXPEI | 76.42 | 81.5 | 84.25 | 58.57 | 79.43 |
LSA | 65 | 66 | 70 | 52 | - | |
LIWC | 62 | 71 | 60 | 50 | - | |
SSR | 69.27 | 71.69 | 80.95 | 55.39 | 82.01 | |
SOA | 68.05 | 71.92 | 77.96 | 55.36 | - | |
IRF | 71.03 | 78.76 | 82.99 | 57.04 | - | |
GLA | - | - | - | - | 75.04 | |
MW | - | - | - | - | 80.5 | |
SC | - | - | - | - | 80.01 |
Por otro lado, la prueba del rango con signo de Wilcoxon usando un nivel 0.05 de significancia indica que DPP-EXPEI es significativamente mejor que sSr (se comparó estadísticamente SSR y DPP-EXPEI sobre los diez conjuntos de datos).
Los resultados permiten concluir que DPP-EXPEI enfoca la atención en los términos más relevantes (intereses personales) cuando se tiene menos información (i.e., colecciones pequeñas). Sin embargo, cuando hay más información textual disponible (colecciones más grandes) DPP-EXPEI tiene menos impacto, principalmente, porque los términos frecuentes tienden a exponer directamente tales intereses personales.
Un análisis detallado sobre el desempeño de cada uno de los componentes del enfoque DPP-EXPEI es mostrado en [14].
3.2. Discusión
A pesar de la heterogenidad de los esquemas de selección y pesado de términos, la mayoría están soportados en inferencias estadísticas sobre las ocurrencias de los términos en los documentos sin considerar características cualitativas de esas ocurrencias. En contraste, las técnicas DPP y EXPEI están basadas en la idea de que no toda la información en un documento es igualmente relevante; por lo tanto, analizan el contexto de procedencia de cada término tomando ventaja de su ocurrencia en las FP. Por ejemplo, en los experimentos, la mayoría de los términos más relevantes seleccionados por DPP fueron también elegidos por IG, como se muestra en la Figura 1.
Si bien, varios términos seleccionados únicamente por DPP no son frecuentes, ellos parecen ser términos intuitivos conocidos en la literatura de AP. En específico, para identificar adultos hay términos valiosos como: newspaper, doctors y treatments. A su vez, para la identificación de género las palabras mysql, haddop o plugins son muy cercanas a tópicos de tecnología, los cuales han sido asociados con el género masculino. Finalmente, palabras como xoxo, aws, hubby han mostrado ser de gran ayuda para la Identificación de mujeres. De esta manera, DPP enriquece la selección incluyendo varios términos relacionados con expresiones personales que IG califica como no informativos.
Particularmente, también se estudiaron correlaciones entre el esquema EXPEI y el tradicional TF, como se muestra en la Figura 2. Se encontró que ambos esquemas están menos correlacionados en los documentos con pocas publicaciones, esto indica que EXPEI extrae información relevante para AP incluso cuando es poco frecuente, lo cual se traduce en una ventaja importante cuando hay poca información. Por otro lado, cuando existen más publicaciones, las correlaciones tienden a incrementar, sugiriendo que en documentos largos la frecuencia es suficiente para detectar información discriminativa de perfiles de autores.
Finalmente, también se estudió la influencia de las características de las colecciones con el desempeño del enfoque tomando como referencia el método SSR. Mediante correlaciones extraídas usando el coeficiente de Spearman se encontró que el enfoque es apropiado para AP cuando existan pocos ejemplos con alta densidad léxica y colecciones de entrenamiento desbalanceadas. Todas ellas son condiciones desafiantes en AP. Por el contrario, se recomienda evitar el uso del enfoque propuesto cuando exista un gran número de ejemplos; en este caso, se sugiere el uso de otros métodos como SSR o tradicionales.
4. Conclusiones y trabajo futuro
En este trabajo de investigación se aborda la tarea AP en redes sociales. La hipótesis principal de esta investigación indica que las frases personales integran la esencia de los textos para la tarea AP. Principalmente, porque en este tipo de frases se exponen términos que revelan rasgos del perfil de las personas. Para comprobar la hipótesis se comparó el desempeño de un método del estado del arte [19] usando los documentos completos versus usando el subconjunto de FP. Los resultados fueron sorprendentes, se obtuvo una exactitud similar usando cualquiera de los dos conjuntos, aunque el subconjunto de frases personales representa solo una pequeña porción de la colección original. Los resultados corroboran la hipótesis y sugieren que las FP conforman . es encia" de los documentos para AP.
El hallazgo mencionado inspiro el diseño de dos nuevos esquemas: DPP para selección de términos y EXPEI para pesado de términos; ambos basados en una medida llamada índice de expresión personal (PEI), la cual fue propuesta para cuantificar el grado de asociación de los términos a la información personal del autor. La combinación de tales esquemas (DPP-EXPEI) supero los resultados reportados en el estado del arte en la mayoría de las colecciones, mostrando mejoras promedio de 7.34% y 5.76% para edad y género respectivamente.
Los resultados de esta investigación han motivado el interés de evaluar el enfoque propuesto: usando otros idiomas (e.g. español), prediciendo otras dimensiones del perfil de autores (e.g. personalidad), así como su aplicación en la caracterización de tipos de comportamientos sociales de los usuarios (e.g. Identificación de acoso y detección de usuarios con depresión).