Introducción
El origen de la minería de textos se encuentra en las áreas de investigación de bases de datos, aprendizaje automático y estadística. Las bases de datos se requieren para almacenar, acceder y analizar grandes cantidades de información. El aprendizaje automático (machine learning) representa un área de la inteligencia artificial relacionada con el desarrollo de técnicas que permiten a los computadores aprender, por medio del análisis de conjuntos de datos. La estadística tiene sus bases en las matemáticas y se ocupa de la ciencia y la práctica para el análisis de datos empíricos (Hotho, Nürnberger y Paaß 2005). El uso de la minería de textos para extraer información -a partir de los documentos producidos y publicados por los científicos- ha tomado fuerza con la aparición de la inteligencia artificial. Su propósito primordial radica en identificar relaciones e interacciones temáticas entre conceptos. Las temáticas identificadas proporcionan a los científicos ideas concretas para explorar nuevos campos, o bien, fortalecer los campos de investigación existentes. La minería de textos tiene como objeto de estudio la producción académica que se publica en un área del conocimiento, o bien, los datos y las informaciones que se comparten en las redes sociales. Esto significa que la información debe estar en un soporte que sea legible por máquinas, pues, la minería de textos aparece gracias a los desarrollos de la computación.
La minería de textos o descubrimiento de conocimiento a partir del texto (knowledge discovery from text, en sus siglas en inglés KDT), tiene como propósito «revelar la información oculta, por medio de métodos que, [...] son capaces de hacer frente a la gran cantidad de palabras y estructuras en el lenguaje natural [que] permite manejar la vaguedad, la incertidumbre y la borrosidad» (Hotho, Nürnberger y Paa Paaß 2005, 2). La minería de textos usa métodos que permiten explorar la información textual que se publica en Internet en diferentes formatos, sobre todo ayuda a la exploración de patrones que se encuentran en los datos no estructurados. Estos constituyen imágenes, audios, datos de texto, datos cartográficos, etcétera. Normalmente tienen una estructura interna, son generados por el ser humano o una máquina en formato textual o no textual. En este caso los artículos publicados en revistas científicas se consideran datos no estructurados, porque su elaboración, apartados y formalismos de forma y de fondo responden a las indicaciones propias de cada revista. Es así como la minería de textos ayuda a identificar patrones relacionados con las palabras contenidas en los resúmenes, títulos o desarrollo de los artículos.
La minería de textos posibilita que se puedan «descubrir tendencias, patrones, desviaciones y asociaciones de una colección de textos [...] en considerables cantidades de información no estructurada» (Contreras 2014, 131) como es el caso de la información académica, la cual se caracteriza por tres aspectos. Primero, presenta resultados de investigación contenidos en datos textuales, datos numéricos, imágenes, etcétera. Segundo, la información es publicada en canales de comunicación formales o informales (redes sociales). Tercero, la información académica no está estructurada; por ejemplo, libros, informes de investigación, etcétera, y el investigador utiliza un vocabulario técnico para referirse al fenómeno o problema de investigación.
La minería de textos se complementa con el procesamiento del lenguaje natural (PLN) para extraer información significativa, por medio de paqueterías o softwares especializados que aplican procesos de lematización, fragmentación y derivación para la identificación de «n-gramas» y «tokens», entre otras formas que aparecen en un conjunto de documentos. Además, ambas técnicas usan la co-ocurrencia de las palabras para captar semántica y sintácticamente las relaciones entre palabras, con el fin de que los computadores entiendan y comprendan de la mejor manera el lenguaje humano (Trask, Gilmore y Russell 2015; Russell 2013). También, las técnicas de PLN y minería de textos resultan ampliamente usadas para analizar los sentimientos contenidos en las publicaciones (Alkan, Karakuş y Direkci 2023; Ma et al. 2023).
En general, estas técnicas se usan para analizar el lenguaje humano a partir de la eliminación «stopwords», es decir, de la eliminación de artículos, preposiciones, conjunciones, signos de puntuación, etcétera. Después de este proceso se realiza la derivación (stemming) que convierte las palabras a su forma simple. Por último, la fragmentación consiste en convertir un texto en oraciones y luego en «tokens» o palabras. La tokenización de oraciones puede presentar problemas al romper una oración por contener palabras abreviadas en un texto, las cuales normalmente llevan al final un punto (Russell 2013). Este tipo de fallas en la tokenización las ejemplifica Russell (2013) con oraciones como «Mr. Green killed Colonel Mustard in the study with the candlestick». Seguramente el tokenizador de oraciones no extraerá a Mr. Green en la tokenización. La aplicación de estos procesos permite obtener datos que facilitan el análisis de co-ocurrencias de palabras (ACP) y el análisis de colocaciones.
El ACP permite mapear la estructura intelectual de un dominio específico, por medio del conteo y análisis de las co-ocurrencias de palabras contenidas en unidades bibliográficas como artículos académicos, ponencias, capítulos de libros, entre otros. Básicamente el análisis de co-ocurrencias explora la red conceptual de las palabras clave para identificar relaciones temáticas en diferentes campos del conocimiento. Se considera un método cuantitativo para mapear las relaciones e interrelaciones entre conceptos, ideas y problemas en diferentes campos científicos (Hosseini et al. 2021). Este tipo de análisis se fundamenta en que «dos o más palabras se relacionan entre sí en un significado semántico, [en tanto] si coocurren en el mismo documento» (Yin 2020, 1886). El análisis de co-ocurrencia de palabras permite descubrir conceptos y sus relaciones en un documento.
El análisis de colocaciones se sustenta en que ninguna palabra aislada tiene significado por sí sola. Según Firth (1957, 6), «conoces a una palabra por sus compañeras», esto es, que el significado de una palabra se basa en el significado de las palabras que la rodean. Para Corpas Pastor (2001), las colocaciones representan unidades fraseológicas que están formadas por al menos dos palabras; por ejemplo, «cambio climático», «minería artesanal», etcétera, de no ser así, por palabras que si bien no están unidas tienen una relación sintáctica o de significado. Esas unidades fraseológicas constituyen grupos de palabras que se convierten en términos estandarizados por el uso que hacen de dichos grupos de palabras una comunidad académica. También, se puede entender por colocación combinaciones de palabras que resultan teóricamente posibles y consumadas por los hablantes, o bien, para este caso los autores de los artículos académicos publicados en Scopus sobre esta temática.
Ambas técnicas se complementan y se basan en las palabras clave contenidas en los títulos, los resúmenes y los descriptores que forman parte inherente de los textos producidos por los científicos. Por ello, con la aplicación de las técnicas usadas en la minería de textos se tiene como propósito extraer las temáticas de investigación de los resúmenes y datos bibliográficos de los artículos indexados en la base de datos Scopus que tienen como objeto de estudio al departamento del Chocó (Colombia). Para ello se intentará dar respuesta a las siguientes preguntas:
¿Cómo puede contribuir el procesamiento del lenguaje natural a la organización de la información y al conocimiento de la bibliotecología?
¿Cuáles son las palabras con mayores frecuencias de aparición?
¿Cuáles son los pares de palabras o bigrams que aparecen en el corpus?
¿Cuáles son las interacciones entre las palabras o la co-ocurrencia de palabras?
¿Cuáles son las relaciones temáticas o colocaciones de las palabras «gold», «Chocó», «biodiversity», «climate» y «Atrato»?
El departamento del Chocó conforma un departamento colombiano que se localiza en el occidente, limita con la República de Panamá y el mar caribe. Su economía depende de la minería que se concentra en la extracción de oro, plata y platino, también de la explotación forestal, así como de la agricultura y la ganadería. Integra uno de los departamentos con una gran extensión de selva y de alta pluviosidad, tiene costas sobre los océanos Atlántico y Pacífico. Además, cuenta con dos importantes ríos, el Atrato y San Juan, que constituyen las principales vías de transporte. La mayor parte de la población está compuesta por: afrodescendiente (75,68 %), le siguen indígenas (11,9 %), mestizos (7,42%) y blancos (5,01 %) (Gobernación del Chocó 2023). Las características geográficas de este departamento lo convierten en un objeto de investigación importante para los científicos de diferentes disciplinas, más aún, al no encontrar estudios similares aplicando esta técnica.
Destaca que, con la aplicación de la minería de textos, no sólo se extraen tendencias en investigación sobre el departamento del Chocó en los documentos indexados en Scopus, sino que además se están aportando a la bibliotecología y a la documentación técnicas que permiten identificar conceptos, lugares geográficos, nombres, etcétera, los cuales se usan en la literatura científica y se pueden utilizar en la organización de la información para representar la literatura existente en un campo del conocimiento, y de esta manera facilitar la recuperación de la misma. Por igual, dichas técnicas se pueden usar para la construcción de ontologías y tesauros.
Revisión de literatura
La revisión de literatura se centró en identificar tres tipos de estudios publicados. Primero, artículos que hubieran aplicado la minería de textos en la bibliotecología y documentación; segundo, artículos que usaron el lenguaje de programación R en la bibliotecología y documentación; tercero, estudios que aplicaron las técnicas de minería de textos, el PLN y el lenguaje de programación R.
Se identificaron artículos que aplicaron la minería de textos en la bibliotecología y la documentación, como el caso del trabajo de Al-Betar et al. (2023), quienes aplican la agrupación de documentos en función de la similitud de su contenido para extraer palabras clave de los artículos. También Zhang et al. (2023) proponen un modelo para extraer las palabras clave basado en un modelo de gráfico jerárquico semántico. El método propuesto tiene en cuenta el contexto interno y la relación que establecen las palabras clave. Shen (2023) usó SciBERT para mejorar las tareas que realiza el procesamiento del lenguaje natural y aplicó un modelo previamente entrenado basado en los resúmenes publicados en las revistas Social Science Citation Index (SSCI).
Asimismo, la revisión de la literatura identificó estudios publicados que utilizaron el lenguaje de programación R. Este lenguaje conforma un conjunto integrado de funciones que facilita la manipulación de datos, cálculo y visualización gráfica. En general, constituye un entorno en el cual se implementan técnicas estadísticas aplicables, ya que en el entorno integrado se pueden instalar más de ocho mil paquetes, creados por diferentes personas en el mundo entero (The R Foundation 2023), lo que facilita el uso de una infinidad de posibilidades para realizar análisis de datos de múltiples temas.
Cierto que existen otros lenguajes de programación que permiten la aplicación de técnicas de minería de textos, como Python. Este lenguaje de programación es simple y fácil de aprender, incluye múltiples bibliotecas y herramientas en un solo lenguaje de programación (Python 2023). Según esto, R tiene múltiples ventajas para la visualización de datos, mientras que Python resulta sencillo y fácil de aprender. Esta revisión de literatura se enfocó en identificar artículos que usaron el lenguaje de programación R para aplicar la minería de textos, ya que esta investigación usó este lenguaje de programación. Por ejemplo, Urbizagástegui-Alvarado (2022) utilizó la minería de textos en la construcción de encabezamientos de materia, palabras clave y/o términos de indexación para artículos de revistas con RStudio. Por igual, Contreras Barrera (2016) empleó la minería de textos para desarrollar un clasificador automatizado para la clasificación de material bibliográfico.
La mayoría de las investigaciones publicadas en bibliotecología y documentación que usan la minería de texto y el PLN no utilizan el lenguaje de programación R, sino otros softwares que permite realizar este tipo de análisis. En este punto toman fuerza y resultan trascendentes este modelo de artículos para la bibliotecología, debido a que muestran que R resulta de gran valor en dicha área del conocimiento, aunque siempre teniendo presente las limitaciones de los paquetes, los cuales se pueden cargar en este lenguaje y el conocimiento del lenguaje de programación, así como el uso de otros lenguajes de programación.
También se encontraron estudios que aplicaron la minería de textos, el PLN y el lenguaje de programación R en otras áreas del conocimiento que examinaron los temas explorados en el dominio de las ciencias sociales sobre investigaciones de COVID-19 (Roychowdhury, Bhanja y Biswas 2022); y los que desarrollaron un prototipo de visualización para apoyar el aprendizaje del análisis netnográfico con la exploración de colecciones de datos, utilizando métodos de análisis de red y minería de textos (Musabirov y Bulygin 2020); incluso, los que analizaron la longitud y la frecuencia de la coocurrencia de palabras (n-gramas) en el contenido no estructurado de notas clínicas, mediante análisis proporcional y agrupamiento jerárquico no supervisado (Rahimian et al. 2019); además de los que estudiaron el léxico de palabras, con el fin de extraer opiniones de textos no estructurados publicados en Facebook y Twitter, con el propósito de identificar el discurso del odio (Udanor y Anyanwu 2019); y aquellos que compararon la citación con los tweets en la psicología (Ye y NA 2018).
En general, la aplicación de la minería de textos en la bibliotecología y la documentación constituye un tema novedoso que requiere de la exploración en los diferentes ámbitos de competencia de estas disciplinas. Esta revisión de la literatura mostró que la minería de textos ha sido aplicada en la organización de la información que se interpola con la recuperación de la información.
Metodología
Este artículo conforma un estudio exploratorio que utilizó los datos obtenidos en una búsqueda de información en Scopus en el campo de búsqueda: Article title, Abstract, Keywords, la cual se llevó a cabo el 22 de enero de 2023. En este campo se agregaron las palabras «Chocó AND Colombia»1 que arrojó un resultado de 668 documentos. Se tomaron todas las referencias bibliográficas de los documentos indexados por Scopus, estos incluyen artículos científicos (628 documentos), capítulos de libro (11 referencias), ponencias (27 registros) y libros (dos ejemplares) que fueron publicados en los años que abarcan de 1913 a 2022.2 El producto de la búsqueda fue exportado considerando la información bibliográfica de autor(es), título, publicación periódica, volumen, número y año, además se agregó el resumen. Los resultados se obtuvieron en un archivo de texto que incluyó la referencia bibliográfica y el resumen de cada artículo en inglés, este archivo se revisó y se eliminaron referencias, símbolos de copyright o resúmenes en español, también se cambiaron títulos que aparecieron en español por el título en inglés, ya que la mayoría de ellos aparecen indexados en este último idioma. Aunque es importante aclarar que los títulos de las revistas se dejaron en el idioma en el que aparecen. El archivo se convirtió en formato pdf y se manipuló con la ejecución de cuatro procesos que se llevaron con el software R de acceso libre en el entorno de desarrollo integrado (EDI). En el EDI se cargaron los paquetes o las librerías que contienen un conjunto de funciones, datos y códigos de R que permitieron manipular y convertir los datos en formatos legibles por los diferentes paquetes para obtener los resultados esperados en este trabajo. En cada proceso se explicó qué paquetería se usó, no se incluyó el código que se utilizó por la extensión que debe tener este artículo,3 por eso se agregaron las referencias bibliográficas de cada uno de los paquetes para que cualquier otro investigador pueda replicar este estudio usando las funciones que establecen la paquetería para realizar minería de textos.
Con la aplicación del primer proceso se realizó la codificación del texto que consistió en preprocesar los documentos y almacenar la información en un archivo de texto sin formato. En esta etapa se usaron las librerías pdftools (Ooms 2023) que permitió extraer el texto del documento; tm (Feinerer y Hornik 2023) posibilitó realizar la minería de textos; readr (Wickham, Hester y Bryan 2023) se utilizó para leer archivos en diferentes formatos como pdf, txt, etc.; Dplyr (Wickham et al. 2023) se usó para analizar el subconjunto de datos o el data frame; y tibble (Müller y Wickham 2023) son data frames que ayudan a modificar algunas características antiguas de R Studio.
Con la aplicación del segundo proceso se obtuvo la lista de palabras y su frecuencia de aparición en el texto. Se aplicó la tokenización que consiste en dividir un documento en una secuencia de palabras y la eliminación de todos los signos de puntuación, marcas y reemplazo de las tabulaciones y otros caracteres que no son texto por espacios en blanco. La unión del conjunto de palabras y documentos de texto se denomina «diccionario de una colección de documentos». En esta etapa se usaron las paqueterías tidyr (Wickham y Romain 2016) que facilitó la creación de datos ordenados, es decir, cada columna representa una variable, cada fila una observación y cada celda tiene un valor único; Purr (Lionel y Wickham 2018) permitió realizar bucles o interacciones repetitivas y stringr (Wickham 2022) se usó para generar cadenas de texto.
Con la aplicación del tercer proceso se redujo el número de palabras contenidas en el diccionario de la colección de documentos, por ello se usaron métodos de filtrado, derivación y lematización. Con el filtrado se eliminaron las palabras vacías; por ejemplo, artículos, conjunciones, preposiciones, etcétera. Con la lematización se identificaron las formas verbales sin conjugar, sustantivos sin conjugar y palabras en singular. Con la derivación se construyeron las formas básicas de las palabras, es decir, se extrajo la raíz natural de un grupo de palabras, por eso se eliminan el plural, los sufijos en los sustantivos y los verbos como «ing» y otros sufijos. En esta etapa se usó stopwords (Muhr, Benoit y Watanabe 2023) para eliminar los artículos, los pronombres y otras palabras vacías.
Con la aplicación del cuarto proceso se obtuvo la lista de bigrams y su frecuencia de aparición en el texto, la coocurrencia de palabras y se aplicó el método de colocaciones. Este proceso consiste en utilizar software para manipular las palabras obtenidas e identificar patrones, pares de palabras, colocaciones y coocurrencia de palabras. En esta etapa se usaron las herramientas: tidytext (Silge 2023) para ordenar los datos obtenidos; NLP (Hornik 2022) para el procesamiento del lenguaje natural; igraph (Csardi y Nepusz 2006), ggraph (Pedersen 2022) y scales (Wickham y Seidel 2022) así como ggplot2 (Wickham 2009), se emplearon para generar gráficos. También se usó quanteda (Benoit y Nulty 2016) para crear y administrar corpus textuales, extraer características de datos textuales y analizar esas características utilizando métodos cuantitativos (Mendoza 2016).
Resultados
Características generales de las palabras
Se examinó la frecuencia de aparición de las palabras en la información bibliográfica y resúmenes de los 668 documentos indexados en Scopus publicados entre 1913 y 2022. Se hallaron 997 palabras con una frecuencia de aparición de 1 268 a diez, estas palabras se agruparon en singular o plural, verbos en presente o pasado, adjetivos, conjunciones y sustantivos.
Con el proceso de filtrado, lematización y derivación se encontraron 219 términos que aparecen 1 268 a 49 veces, de este filtrado se identificaron 76 palabras que tienen entre 1 268 a 100 apariciones en el texto. Algunas de las palabras con el mayor número de frecuencia de aparición: «species», «forest», «pacific», «tropical», «diversity», «América», etcétera. (véase Anexo Tabla 1). Estas palabras representan las temáticas de investigación que se están desarrollando sobre el Chocó (Colombia).
Análisis de bigrams
Se identificaron los bigrams o pares de palabras. Se encontraron 89 841 pares de palabras que tienen una frecuencia de aparición de 221 a una vez. Destacan los bigrams que aparecen de 221 a 20 veces en el análisis; por ejemplo, «new species», «pacific coast», «pacific ocean», «rain forest», «San Juan», «gold mining», «Atrato river», «river basin», «Chocó biogeographic», y «climate change», etcétera. (véase Anexo Tabla 2). Estos pares de palabras evidencian cuáles son las temáticas de interés en la comunidad académica que está atraída en investigar acerca de este lugar geográfico.
Los bigrams fueron filtrados y se eliminaron las palabras vacías (artículos, pronombres y preposiciones), se obtuvieron 88 467 que fueron separados en dos columnas, y, a partir de esta separación, se hallaron 65 985 con una frecuencia de aparición de 133 a una vez. Algunas de las palabras que destacan: «biogeographic/climate/change, Pacific/Ocean, Biogeographic/Chocó», entre otras (véase Anexo Tabla 3).
Análisis de coocurrencias de palabras
La ocurrencia de palabras se entiende como la coexistencia de las palabras clave «a» y clave «b» que se usan juntas en el mismo documento. Su propósito radica en analizar las relaciones entre las palabras clave que se podrían considerar las más significativas por su frecuencia de aparición en un documento (Callon, Courtial y Laville 1991). A partir del filtrado de los pares de palabra, se extrajeron aquellas con una frecuencia de aparición en el texto mayor a diez. Se obtuvo un gráfico de co-ocurrencia de palabras que muestra las relaciones temáticas agrupadas por estas. Con dicha técnica se visualiza la estructura del conocimiento de un campo intelectual como es el caso de la literatura indexada en Scopus sobre el Chocó (Colombia) (véase Figura 1).

Fuente: Elaboración propia.
Figura 1 Coocurrencia de palabras sobre los artículos publicados del Chocó, Colombia
Con base en la coocurrencia de palabras se observan aquellas clave que están conectadas con otros subgrupos de palabras clave, se localizan en el centro de la Figura 1. También se encontraron temáticas periféricas, las cuales se localizan alrededor de dichas palabras que representan temáticas con mayor frecuencia de aparición, además no están interconectadas con otros subgrupos de palabras clave y normalmente se conectan dos o hasta seis palabras. Este análisis por igual muestra las temáticas que representan las preocupaciones de la comunidad científica interesada en investigar este lugar geográfico, incluso Urbizagastegui-Alvarado (2021) encontró en el análisis de la bibliometría brasilera las temáticas de interés en ese campo del conocimiento.
Análisis de colocaciones de palabras
Se analizaron las colocaciones de palabras que aparecen en el texto junto a «gold», «Chocó», «biodiversity» y «climate» para determinar las relaciones temáticas. Se estudiaron con el enfoque que introduce la noción de «núcleo», es decir, la palabra que es objeto de análisis y las palabras relacionadas que son aquellas que combinan con dicho núcleo. El principal requisito establece que estén relacionadas sintácticamente, es decir, cada palabra tiene una función dentro de una oración. Se considera que colocación no indica un fenómeno lineal, las colocaciones se pueden dar entre palabras que no están unidas. El núcleo puede estar separado por varias palabras a la derecha o a la izquierda (Corpas 2001).
La colocación de la palabra «gold» se relacionó de forma sintáctica con las palabras: «Choco», «mining», «mercury», «platinum», «alluvial», entre otras (véase Figura 2).
La posición de la palabra «Chocó» se relacionó sintácticamente con las palabras: «Colombia», «pacific», «biogeographic», «coast», entre otras (véase Figura 3).
La disposición de la palabra «biodiversity» se relacionó de manera sintáctica con las palabras: «conservation», «tropical», «forest», «agricultural», «deforestation», «climate», etcétera (véase Figura 4).
En cambio, al colocar la palabra «climate» se relacionó con: «change», «forest», «basin», «sediment» y «marine», y demás (véase Figura 5).
En general, la técnica de las colocaciones mostró las relaciones semánticas de las palabras núcleo. Las conexiones encontradas muestran no sólo un vínculo sintáctico, sino que presentan las preocupaciones de los investigadores que logran publicar sus trabajos en revistas indexadas en Scopus. También evidencian los intereses temáticos de esas revistas, es decir, en las indexadas en Scopus no se encontró un interés creciente por los artículos que tiene como objeto de estudio los problemas sociales que aquejan al Chocó en Colombia.
Consideraciones finales
La minería de textos indica una técnica para identificar tendencias temáticas a partir de la manipulación y conversión de un documento o conjunto de ellos en un archivo de texto, con el fin de aplicar métodos de filtrado, derivación y lematización que muestran las palabras más frecuentes en un documento o grupo de estos. Se encontró, en el caso de la literatura indexada en Scopus sobre Chocó (Colombia), las temáticas preponderantes de minería, biodiversidad, cambio climático, bosque tropical, océano pacífico, etcétera.
Las técnicas de minería de textos describen patrones que explican o resumen las relaciones subyacentes en los datos (Mariñelarena-Dondena, Errecalde y Castro 2017). Se enfoca en el descubrimiento de «tendencias, desviaciones y asociaciones entre 'gran' la cantidad de información textual» (Montes-y-Gómez 2000, 1). Con el apoyo de esta técnica se identificaron los pares de palabras o bigrams, entre los cuales destacan por el número de apariciones: «pacific coast», «biogeographic región», «pacific ocean», «rain forest», «San Juan», «gold mining», «tropical forest», «tropical pacific», «Atrato river», «river basin», «Chocó biogeographic», y «climate change», entre otras. Estas temáticas pueden convertirse en descriptores que representen el contenido de los artículos indexados en Scopus. La información extraída con la minería de texto y la PLN representan un importante insumo para la organización de la información en el campo de la bibliotecología y la documentación, pues las temáticas que se pueden usar para representar el contenido de un documento están inmersas dentro del mismo contenido analizado.
Para Eíto Brun y Senso (2004), entre las principales funciones de la minería de textos está identificar conceptos y crear redes de conceptos. Esto es, las palabras por sí solas no tiene un significado, deben estar rodeadas por otras para dar sentido a una oración, párrafo o texto. Principalmente el análisis de co-ocurrencia encuentra conceptos que aparecen juntos en un documento, o sea, existe una relación de proximidad de dos o más palabras en una frase, párrafo o documento. Por ejemplo, en el caso de «forest» y «rain»; «america» y «central»; «america» y «native», y así de manera sucesiva se encuentra una relación semántica entre los términos que están presentes en la Figura 1.
La base teórica de las colocaciones se fundamenta en que «conoces a una palabra por sus compañeras» (Firth 1957, 6), en resumen, el significado de una palabra se cimienta en el de las otras que la rodean. Esto quiere decir que están formadas por mínimo dos palabras (Corpas 2001). Estas muestran las relaciones de significado de palabras como «gold» con mercurio, por ejemplo; «Chocó» con biogeográfica; «biodiversity» con conservación; «climate» con cambio, y así sucesivamente. Estos constituyen algunos ejemplos de palabras que dan sentido a las que se utilizaron en este trabajo para las colocaciones.
En síntesis, la minería de textos es una técnica que se puede aplicar con el lenguaje de programación R, por medio de la paquetería y funciones incluidas en estos. Este lenguaje de programación permite extraer temáticas, o bien, patrones textuales para representar el contenido de un documento. Lo interesante de la minería de textos radica en que se puede aplicar no sólo en las redes sociales para extraer las palabras que representan las distintas emociones expresadas, por medio del lenguaje humano, sino en documentos académicos y técnicos que incluyen conceptos, lugares, acontecimientos, por ejemplo, y que son usados por los científicos para explicar los fenómenos estudiados en las áreas del conocimiento. La extracción de estas palabras permite identificar tendencias temáticas y relaciones semánticas entre conceptos. Estas tendencias y relaciones muestran el inicio, la marcha y el horizonte de las investigaciones, por medio del análisis de los datos bibliográficos y resumen de la literatura producida sobre el Chocó e indexada en Scopus.