Introducción
Debido al crecimiento exponencial de la información y a la necesidad de reaccionar rápidamente dentro de un entorno competitivo en la toma de decisiones (Carneiro, 2009; Ochoa Reyes, Orellana García y Lizama Mué, 2014), las empresas requieren de estrategias que permitan la mejora continua de los servicios dispuestos a partir de la gestión de las tecnologías de la información (Shrestha et al., 2014). En este sentido, son variadas las herramientas y técnicas informáticas que utilizan los decisores en el entorno empresarial que contribuyen en gran medida al proceso de toma de decisión y la correcta gestión de los procesos de negocio (Mora et al., 2013). Entre las técnicas más novedosas destacan las de minería: minería de datos, texto, web y de procesos.
La minería de proceso destaca por su capacidad de reflejar a través de modelos la realidad empresarial, ya sea con carácter predictivo o auditable. A través de la extracción de datos utilizando esta técnica, donde los log son una pieza fundamental de información, se pueden identificar las rutas críticas de los procesos dentro de la entidad y de esta manera apoyar a los directivos en su labor de gestión (Van der Aalst et al., 2012). Es la más joven de las técnicas mencionadas y es la que tiene una visualización fuerte en los procesos de la empresa (Orellana García, Larrea Armenteros y Pérez Alfonso, 2014). Se ubica entre la inteligencia computacional y la minería de datos, por una parte, y la modelación y análisis de procesos, por otra (Van der Aalst, 2011). Surge con el objetivo de analizar los registros de eventos destinados a recopilar las trazas de los procesos que ocurren en los sistemas de información actuales en busca de errores, inconsistencias y vulnerabilidades.
Van der Aalst (2011)) define la minería de proceso como una disciplina que tiene como objetivo descubrir, monitorear y mejorar procesos de negocio a través de la extracción de conocimiento del registro de eventos de los sistemas de información. Entre sus principales ventajas para las organizaciones se pueden citar las siguientes:
Descubrir el modelo de ejecución real del proceso.
Determinar si el proceso cumple con la reglamentación y procedimientos documentados.
Analizar la interacción del personal que ejecuta el proceso.
Descubrir cuellos de botella.
Monitorear la productividad del personal.
Predecir el tiempo de ciclo de un caso.
Determinar la relación entre las variables de un caso.
El descubrimiento de proceso, la verificación de conformidad y el mejoramiento de modelos son los tres tipos fundamentales de minería de proceso identificados por Van der Aalst (2011). La Figura 1 muestra el posicionamiento de estas técnicas.
Descubrimiento. Se usa un registro de eventos para producir un modelo sin usar a priori. El descubrimiento de procesos es la técnica de minería de proceso más destacada. Para muchas organizaciones es sorprendente ver que las técnicas existentes son realmente capaces de descubrir los procesos reales meramente basados en las muestras de ejecución de los registros de eventos.
Entre los principales algoritmos para el descubrimiento se encuentran:
Verificación de conformidad. Necesitan un registro de eventos y un modelo como entrada. La salida consiste en información de diagnóstico que muestra las diferencias y elementos en común entre el modelo y el registro de eventos. Aquí se compara un proceso existente con un registro de eventos del mismo proceso, para verificar si la realidad, según el registro, es equivalente al modelo y viceversa.
Mejoramiento. Se busca extender o mejorar un modelo de proceso existente con la información del proceso real almacenado en un registro de eventos. También necesitan un registro de eventos y un modelo como entrada. La salida es un modelo mejorado o extendido.
En Cuba, la minería de proceso es un área del conocimiento en exploración, en la cual la Universidad de Ciencias Informática (UCI) es la líder en las investigaciones. Las líneas de investigaciones desarrolladas en UCI sobre minería de proceso se centran en tres aspectos:
Análisis y transformación de trazas.
Algoritmos para la detección de subprocesos.
Modelos para detectar variabilidad en la ejecución de procesos.
Estas investigaciones se han aplicado fundamentalmente en sistemas hospitalarios (Mans, Van der Aalst y Vanwersch, 2015; Orellana García et al., 2016; Ochoa Reyes, Orellana García y Lizama Mué, 2014), sistemas de negocios (Yzquierdo Herrera, 2013; Giraldo Mejía, 2016) y el Sistema Único de Identificación Nacional.
Los estudios bibliométricos pertenecen a un campo de investigación interdisciplinario que tiene el potencial de extenderse a casi todos los campos científicos. En el análisis documental realizado no se encontró evidencias de estudios bibliométricos sobre el tema en cuestión; atendiendo a la importancia que tiene la minería de proceso como herramienta que apoya la toma de decisiones y la gestión empresarial, el presente trabajo se propone realizar un estudio bibliométrico sobre el comportamiento de la producción científica que permita conocer el estado del arte de esta área del conocimiento.
Metodología
Para el análisis de la producción científica sobre minería de proceso, a partir de un marco teórico conceptual sobre los aspectos metodológicos y las relaciones interdisciplinarias de los estudios métricos de la información, se estudiaron las salidas de investigación representadas en artículos en revistas científicas, conferencias en eventos y capítulos de libros. El método bibliométrico es un método documental que ha alcanzado un importante desarrollo durante las últimas tres décadas (Ayala Picazo, 2016) y constituye en la actualidad la herramienta esencial para el estudio de la actividad investigadora (Bojo Canales et al., 2004).
Atendiendo a la amplia cobertura temática se utilizó como fuente de información la base de datos bibliográfica Scopus, lo que permitió tener una visión de la producción global sobre el tema en cuestión. Se realizó una descarga directa, utilizando como estrategia de búsqueda la frase exacta “process mining”. La recuperación contempló un periodo de 16 años, desde 2002 hasta marzo de 2017, por lo que se asume que la información referente a este año está incompleta. El fichero recuperado fue importado hacia el gestor de referencias bibliográficas EndNote v17.0.1.7212.
En el estudio se utilizó la metodología para la aplicación de indicadores bibliométricos en la actividad científica (Rodríguez Sánchez, 2012) que cuenta con cuatro fases:
Fase I. Compilación de la producción científica
Fase II. Construcción de la base de datos bibliométrica
Fase III. Procesamiento de la producción científica
Fase IV. Aplicación de los módulos bibliométricos
Se obtuvieron un total de 1 618 registros y posteriormente se procedió a la normalización. Comúnmente ésta se centra en el campo de adscripción (Hernández García y Navarro Contreras, 2017), en nuestro caso se estandarizaron el nombre de los autores, la afiliación de los artículos, el país de las instituciones colaboradoras y la clasificación temática de los artículos.
Se aplicó la ley de Lotka (Urbizagástegui Alvarado, 1999; Lotka, 1926) para agrupar a los autores por nivel de productividad, mientras que la ley de Bradford (Bradford, 1948) permitió identificar las publicaciones núcleos. La aplicación práctica de la ley de Bradford proporcionó los mecanismos para seleccionar las publicaciones periódicas no sólo más productivas sino también más relevantes para cubrir el área del conocimiento estudiada (Urbizagástegui Alvarado, 2016).
Para graficar los resultados se utilizaron Microsoft Excel 2016, Tableau 10.3, AntCont 3.4.4w y VosViewer 1.6.5. Microsoft Excel 2016, del paquete de Microsoft Office, es ampliamente conocido e ideal para la elaboración de tablas, gráficos, entre muchas otras funciones; Tableau es un programa creado en el Departamento de Ciencias de la Computación de la Universidad Stanford entre los años 1997 y 2002 por el profesor Pat Hanrahan y el estudiante de doctorado Chris Stolte, quien se especializaba en técnicas de visualización, exploración y análisis de bases de datos; lograron obtener una herramienta que de manera sencilla permite visualizar e interactuar con sus datos en un tiempo relativamente corto (Sood et al., 2017).
AntCont es un programa creado por Anthony (2014), muy útil para realizar análisis lingüísticos de conjuntos de textos (corpus lingüístico) en formato .txt. Está compuesto de herramientas (Concordance-Clusters-Collocates-Wordlist) dentro de las cuales hay una serie de instrumentos de análisis y de funciones que permiten, entre otras acciones, elaborar listados de palabras monoléxicas, poliléxicas o polilexemáticas, de agrupamientos léxicos (clústeres), bien de todo el conjunto de textos o bien de una palabra base, y de palabras clave (keywords) (Navarro Colorado, 2015).
Finalmente, VOSviewer es una herramienta gratuita que se descarga de la página web de la Universidad de Leiden (Centre for Science and Technology Studies, 2017), con una curva de aprendizaje moderada, una interfaz amigable y de fácil entendimiento; no requiere mayores ajustes para obtener grafos claros y clústeres bien agrupados (Pichuante Escaida, 2016). Sus creadores afirman haber probado las fórmulas predefinidas que modelan la herramienta y le dan la mayor importancia a la posibilidad de representación de grandes mapas bibliométricos de fácil interpretación (Van Eck y Waltman, 2010).
Batería de indicadores utilizados:
Producción total: total de contribuciones de la muestra.
Productividad por autores: cantidad de registros por cada autor.
Producción por años: cantidad de registros por cada año comprendido en el estudio.
Producción por entidades y sectores.
Producción por tipología documental.
Producción por continentes y países: cantidad de registros por continentes y países.
Palabras clave más representativas: frecuencia de palabras clave.
Co-ocurrencia de términos en el resumen y en el título.
Resultados y discusión
Productividad por años
Se analizó el periodo comprendido entre 2002 y marzo de 2017. La Figura 2 muestra el comportamiento de este indicador.
Es evidente el aumento sostenido en los últimos años a partir de 2011, siendo 2015 el más productivo con un total de 240 contribuciones. El decrecimiento que se aprecia en 2017 es debido a que las publicaciones recuperadas corresponden a los tres primeros meses del año.
A partir de 2011 se producen 1 027 contribuciones que representan 63 % del total de las contribuciones, se infiere que este incremento puede deberse a que en 2011 aparece la versión original del Process Mining Manifesto (Van der Aalst et al., 2012). Este manifiesto fue escrito por los miembros y personas que respaldaban la IEEE Task Force on Process Mining (Fuerza de Trabajo de la IEEE sobre Minería de Proceso), cuyo objetivo es promover la investigación, desarrollo, educación, implementación, evolución y entendimiento acerca de la minería de proceso.
Autores más destacados
Un total de 2 426 autores fueron responsables de la producción científica sobre minería de proceso durante el periodo analizado. La mayor parte de los trabajos se publicó bajo la autoría de investigadores de diferentes países; se observó alta colaboración entre científicos de diferentes países, lo que denota una marcada tendencia a la autoría múltiple con más de 90 % de las contribuciones bajo esta categoría.
El autor más productivo con un total de 286 contribuciones es el holandés Wil Van der Aalst,1 de la Universidad Tecnológica de Eindhoven, seguido con 53 publicaciones por Boudewijn van Dongen, profesor asistente de Ciencias de la Computación de la misma institución.
En la Tabla 1 se ratifica la tendencia a la autoría múltiple y a la colaboración entre autores de diferentes entidades y países.
Autores | Total de contribuciones | Primer autor | Autoría individual | Últimos años (2012-marzo 2017) |
---|---|---|---|---|
Wil van der Aalst | 286 | 77 | 39 | 129 |
Boudewijn van Dongen | 53 | 12 | 24 | |
Fabrizio Maggi | 37 | 12 | 2 | 33 |
Josep Carmona | 36 | 7 | 1 | 20 |
Jan Mendling | 33 | 27 | ||
Jianmin Wang | 33 | 6 | 19 | |
Minseok Song | 29 | 4 | 11 | |
Wichian Premchaiswadi | 28 | 2 | 28 | |
Jan Vanthienen | 28 | 21 | ||
Eric Verbeek | 26 | 11 | 2 | 11 |
Wil van der Aalst es el autor que tiene mayor cantidad de contribuciones como autor principal y mayor cantidad de autoría individual. Todas las contribuciones de Jan Mendling y Jan Vanthienen las realizaron en colaboración con otros autores y en el periodo analizado, en ninguna de ella son autores principales. De los 10 autores más productivos, tres pertenecen a la Universidad Tecnológica de Eindhoven de Holanda, entidad que más ha investigado sobre minería de proceso.
La aplicación de la ley de Lotka permitió agrupar a los autores por niveles de productividad (Tabla 2).
Número de Artículos o Contribuciones | No. de Autores recuperados en la investigación | No. de Autores esperados según la ley de Lotka | Dif. entre autores esperados y recuperados | Proporción Obtenida | Proporción Esperada | Dif. De las proporciones esperadas y obtenidas |
---|---|---|---|---|---|---|
1 | 1598 | 1598.00 | 0.00 | 65.87% | 62.39% | -3.48 |
2 | 404 | 399.50 | -4.50 | 16.65% | 15.60% | -1.05 |
3 | 133 | 177.56 | 44.56 | 5.48% | 6.93% | 1.45 |
4 | 94 | 99.88 | 5.88 | 3.87% | 3.90% | 0.02 |
5 | 54 | 63.92 | 9.92 | 2.23% | 2.50% | 0.27 |
6 | 45 | 44.39 | -0.61 | 1.85% | 1.73% | -0.12 |
7 | 15 | 32.61 | 17.67 | 0.62% | 1.27% | 0.66 |
8 | 13 | 24.97 | 11.97 | 0.54% | 0.97% | 0.44 |
9 | 11 | 19.73 | 8.73 | 0.45% | 0.77% | 0.32 |
10 | 10 | 15.98 | 5.98 | 0.41% | 0.62% | 0.21 |
11 | 5 | 13.21 | 8.21 | 0.21% | 0.52% | 0.31 |
12 | 5 | 11.10 | 6.10 | 0.21% | 0.43% | 0.23 |
13 | 8 | 9.46 | 1.46 | 0.33% | 0.91% | 0.04 |
14 | 3 | 8.15 | 5.15 | 0.12% | 0.32% | 0.19 |
15 | 4 | 7.10 | 3.10 | 0.16% | 0.28% | 0.11 |
16 | 2 | 6.24 | 4.24 | 0.08% | 0.24% | 0.16 |
18 | 3 | 4.93 | 1.93 | 0.12% | 0.19% | 0.07 |
19 | 1 | 4.43 | 3.43 | 0.04% | 0.17% | 0.13 |
20 | 3 | 4.00 | 1.00 | 0.12% | 0.16% | 0.03 |
24 | 2 | 2.77 | 0.77 | 0.08% | 0.11% | 0.03 |
25 | 3 | 2.56 | -0.44 | 0.12% | 0.10% | -0.02 |
26 | 1 | 2.36 | 1.36 | 0.04% | 0.09% | 0.05 |
28 | 2 | 2.04 | 0.04 | 0.08% | 0.08% | 0.00 |
29 | 1 | 1.90 | 0.90 | 0.04% | 0.07% | 0.03 |
33 | 2 | 1.47 | -0.53 | 0.08% | 0.06% | -0.03 |
36 | 1 | 1.23 | 0.23 | 0.04% | 0.05% | 0.01 |
37 | 1 | 1.17 | 0.17 | 0.04% | 0.05% | 0.00 |
53 | 1 | 0.57 | -0.43 | 0.04% | 0.02% | -0.02 |
286 | 1 | 0.02 | -0.98 | 0.04% | 0.00% | -0.04 |
TOTALES | 2426 | 2461.23 | 134.23 | 100.00% | 100% | 0.00 |
Se pudo comprobar que los autores recuperados en la investigación constituyen 95 % de los esperados según la ley de Lotka, mientras que 5 % restante se ubica en las posiciones de los menos productivos. Se puede afirmar además que hay una distribución desigual de productividad en los autores y que, al menos en la disciplina de minería de proceso, la mayoría publica el menor número de trabajos, mientras que unos pocos autores publican la mayor parte de la bibliografía relevante y forman el grupo más prolífico. A pesar de que la ley de crecimiento exponencial es criticada basándose en que la misma calcula como valor de calidad la cantidad y no necesariamente los autores que más artículos publican son los que más impacto tienen en su campo, en el caso de la minería de proceso los autores que más publican son los de mayor impacto, lo que concuerda con la investigación, con esta ley bibliométrica, enunciada por Alfred Lotka en 1926.
Con la finalidad de obtener visualmente valores menos dispersos, en la Figura 3 se utilizó una escala logarítmica, con una curva de tendencia o regresión tipo potencial. Del total de 2 426 autores pertenecen a la clasificación de grandes productores 59, todos ellos con 10 o más contribuciones; el grupo de los medianos productores está constituido por 365 autores y el grupo de los pequeños productores está formado por 2 002 autores que representan 83 % del total de autores.
En la Figura 3 se observan, además, dos círculos que están ubicados a la derecha, distantes del grupo de los autores más productivos y que representan a los holandeses Wil van der Aalst y Boudewijn van Dongen; en su caso se determinó un comportamiento diferente respecto a la producción científica analizada, que representan 26.11 % de las contribuciones respecto al resto de los autores clasificados en este nivel.
Países más productivos
En relación a la distribución geográfica de la producción científica, la Figura 4 muestra los continentes y los 10 países más productivos.
El continente europeo produce más de la mitad de las contribuciones (60 %) sobre minería de proceso, seguido de Asia (23 %) y América (11 %) y en menor medida se sitúan Australia (5 %) y África (1 %). El Medio Oriente, representado por Irán, Israel, Arabia Saudita, Emiratos Árabes Unidos y Turquía, cuenta con 50 contribuciones y Oceanía con cinco de Nueva Zelanda. En el continente americano se destaca Estados Unidos como el país más representativo en el área con 96 contribuciones seguido de Brasil con 41.
El país más productivo es Holanda, con 352 contribuciones, seguido de China con 178 y los que tienen más entidades responsables de la producción científica en esta área del conocimiento son China (84), Estados Unidos (81) y Alemania (72). Entre los países más productivos ocho pertenecen al continente europeo, lo que identifica a éste como el continente más prolífero, destacándose Holanda y Italia en los últimos años con más de 100 contribuciones.
Como se aprecia en la Tabla 3, de los ochos países productivos del continente americano Cuba ocupa el quinto lugar, por encima de Argentina, Colombia y México. De las 10 contribuciones de Cuba siete pertenecen a la UCI, una de ellas en colaboración con el Instituto Nacional de Astrofísica, Óptica y Electrónica de Puebla, México. El Instituto Superior Politécnico José Antonio Echevarría cuenta con tres publicaciones, una de ellas en colaboración con la Universidad de São Paulo, de Brasil.
Países | Contribuciones | Últimos Años(2012- marzo 2017) | % | ||
---|---|---|---|---|---|
Continente americano | Estados Unidos | 96 | 53 | 55.2 | |
Canadá | 23 | 14 | 60.8 | ||
Países de Iberoamérica | Brasil | 41 | 27 | 65.8 | |
Chile | 20 | 17 | 85 | ||
Cuba | 10 | 7 | 70 | ||
Argentina | 4 | 2 | 50 | ||
Colombia | 2 | 2 | 100 | ||
México | 3 | 1 | 33.3 | ||
Ecuador | 1 | 1 | 100 | ||
España | 82 | 49 | 59.7 | ||
Portugal | 33 | 19 | 57.5 | ||
Total | 200 | 124 | 62 | ||
Total | 196 | 125 | 63.7 |
Aunque España ocupa el octavo lugar de los países más productivos en Iberoamérica tiene el liderazgo con 82 contribuciones que corresponden a 23 entidades, de ellas 14 universidades, destacándose la Universidad Politécnica de Cataluña con 38 aportes. En los últimos años (2012-marzo 2017) generó 49 aportes, que representan 59.7 % del total de las contribuciones de este país.
Entidades y sectores más productivos
Sobre minería de proceso en el periodo analizado publicaron 876 entidades, sobresaliendo la Universidad Tecnológica de Eindhoven, de Holanda. La Tabla 4 muestra las entidades más productivas con más de 20 contribuciones.
Entidades | País | Contribuciones |
---|---|---|
Universidad Tecnológica de Eindhoven | Holanda | 328 |
Universidad de Queensland | Australia | 55 |
Universidad de Tartu | Estonia | 45 |
Universidad de Tsinghua | China | 39 |
Universidad Politécnica de Cataluña | España | 38 |
Universidad de Leuven | Bélgica | 32 |
Universidad de Siam | Tailandia | 28 |
Universidad de Ciencia y Tecnología | Corea del Sur | 27 |
Universidad de Viena | Austria | 25 |
Escuela de Altos Estudios Económicos | Rusia | 24 |
Instituto de Cálculos y Redes de Alto Rendimiento del Consejo Nacional de Investigación (ICAR, CNR) | Italia | 24 |
Universidad de Calabria | Italia | 21 |
Universidad de Economía y Administración de Negocios | Austria | 21 |
La Universidad Tecnológica de Eindhoven ocupó, en 2017, el puesto 177 internacionalmente y el lugar 64 en el mundo de Ingeniería y Tecnologías de la Información del World University Rankings. Esta entidad tiene entre sus principales líneas de investigación los sistemas automotrices, tecnologías de telecomunicaciones de banda ancha, sistemas de información y comunicación, nanoingeniería, plasmas y polímeros entre otros.
Las investigaciones en esta área del conocimiento se centran en las universidades (1 439). Las 13 entidades más productivas pertenecen al sector de la educación, nueve pertenecen al continente europeo y tres a Asia, continentes más productivos. El mayor porcentaje de las investigaciones corresponden al sector educación (77 %), que agrupa las investigaciones que se realizan desde instituciones relacionadas directamente con este sector y el cual está representado significativamente por universidades. Los sectores empresarial, de salud, ciencia y técnica tienen escasa productividad, pues en conjunto sólo representan 23 %.
Tipología documental
Los resultados de las investigaciones en esta área del conocimiento, en el periodo analizado, se presentaron en artículos de revista, ponencias de eventos y capítulos de libros. El artículo de revista es la tipología documental predominante (55 %), superando a las memorias de eventos (34 %) y a los capítulos de libros (11 %).
En la actualidad una de las principales fuentes para comunicar el conocimiento son las revistas científicas, especializadas en cada rama de la ciencia; son periódicas y el riguroso sistema de revisión constituye una forma de validar el conocimiento. Las revistas son reconocidas como medios para obtener información, esto puede ser también una razón por la cual los autores las prefieren, pues el usuario o consumidor logra acceder a ellas fácilmente, están diseñadas para ser atractivas y su salida regular garantiza actualidad en los textos que las incluyen.
Productividad de publicaciones
El núcleo Bradford acumula una porción sustancial de contribuciones (más de 100) producidas, está integrado por tres publicaciones alemanas: Lecture Notes in Business Information Processing seguido de Lecture Notes in Computer Science, ambas editadas por Springer Verlag. El tercer lugar lo ocupa la revista CEUR Workshop Proceedings. La mayor cantidad de contribuciones se centra en estas publicaciones, de lo que se infiere que ocupan la preferencia de los autores para divulgar los resultados de investigación sobre minería de proceso. La Figura 5 muestra las publicaciones que en el periodo analizado tienen más de 10 contribuciones sobre minería de proceso.
Lecture Notes in Business Information Processing informa de los resultados más avanzados en áreas relacionadas con los sistemas de información empresarial y el desarrollo de software de aplicación industrial. Tiene un índice h de 27 y publica actas de eventos, informes de proyectos, tutoriales, conferencias, seminarios y tesis premiadas, entre otros materiales. Según Scimago Journal Report, en el periodo comprendido entre 2009 y 2016 esta publicación tuvo un ranking de 0.22, la cantidad de citas por documentos es de 0.52 y el total de citas es de 992.
Lecture Notes in Computer Science tiene un índice h de 251 y publica resultados de todas las áreas de investigación, desarrollo y educación en informática y tecnología de la información. Según Scimago Journal Report, en el periodo comprendido entre 2009 y 2016 esta publicación tuvo un ranking de 0.32, la cantidad de citas por documentos es de 0.67 y el total de citas es de 44840.
CEUR Workshop Proceedings es una serie monográfica publicada en Alemania, de libre acceso, de Sun SITE Europa Central, operado con el auspicio de RWTH Aachen University.
En relación a los eventos o congresos existen 397 contribuciones, entre las que destacan International Conference on ICT and Knowledge Engineering con 27 contribuciones, seguida de Proceedings of the ACM Symposium on Applied Computing con 18 y Proceedings - International Conference on Research Challenges in Information Science con 10.
Frecuencia de aparición de palabras clave
Del análisis de las palabras clave de los registros se obtuvieron un total de 2 638 palabras clave. De la muestra, 76 % sólo aparecen una vez, el término PROCESS MINING es el que más se destaca (960), seguido de BUSINESS PROCESS MANAGEMENT (87) y PROCESS DISCOVERY (84). De manera general las palabras clave asignadas en ocasiones abarcan poco y no describen con exactitud el contenido de las investigaciones, lo cual limita los análisis de información.
La significativa representatividad del término PROCESS MINING en el campo de las palabras clave (keywords) nos indica la efectividad de la recuperación partiendo que en la estrategia de búsqueda se utilizó la frase exacta (“process mining”). Utilizando la herramienta AntConc 3.4.4 para analizar el corpus de todos los resúmenes, se obtuvo, luego de filtrar todas las StopWords en inglés que, de los 121 709 términos, PROCESS y MINING siguen ocupando el primer y segundo lugar del ranking, con frecuencias de aparición de 6 405 y 2 950 respectivamente. Se destacan otros términos como EVENT, DATA, MODEL, BUSINESS. La Figura 6 muestra el análisis de los términos en el resumen.
Co-ocurrencia de términos en el resumen y en el título
El análisis de co-palabras estudia la co-ocurrencia de palabras en un texto, permite detectar clústeres, programas o líneas de investigación presentes en el objeto de estudio (Restrepo Arango y Urbizagástegui Alvarado, 2017). El abordaje de este tipo de análisis ha estado siempre sometido a debate en relación a cuáles son los métodos más adecuados para representar la constitución del dominio disciplinar desde su estructuración temática (Liberatore y Herrero Solana, 2013), centrándose la discusión en cuanto a los niveles de subjetividad.
Al realizar el conteo de las palabras más frecuentes del resumen y el título y visualizarlas, se puede observar los términos más frecuentes en las publicaciones sobre minería de proceso. Estos términos identificados pueden caracterizarse por conceptos de proximidad y distancia y, a su vez, representarse gráficamente a través de mapas de ciencia obteniéndose como resultado la estructura temporal del campo del conocimiento sobre esta temática (Restrepo Arango y Urbizagástegui Alvarado, 2017).
En la Figura 7 se muestran las dos variantes de visualización de la densidad de co-ocurrencia de términos. A la izquierda se muestran grupos de términos asociados por tonalidades de gris, la cantidad de gris, utilizados nos da el número de clúster de términos presentes en los resúmenes. A la derecha, se observa la densidad de co-ocurrencia de cada término. La cercanía al gris más intenso determina los términos más abordados en las investigaciones (zonas calientes) (Gálvez, 2016), esta intensidad se va degradando para las frecuencias de aparición más pequeñas.
La red de términos (Figura 8) nos muestra el grado de asociación de los términos entre sí con la utilización de un mismo tono de gris, las líneas que los unen son más fuertes a partir del aumento de grosor de las mismas y el peso del término está en correspondencia con el tamaño del nodo y de sus textos. Como se aprecia, los log en el modelo del proceso ocupa un papel fundamental y están relacionados con el criterio de la comunidad científica, que los datos de eventos deben ser tratados como ciudadanos de primera clase (Van der Aalst et al., 2012).
Los términos más frecuentes en los resúmenes, como se aprecia en las Figuras 7 y 8, son “process model”, “log”, “event log”, “algorithm” y “management”. Estos términos también pueden ser considerados tópicos consolidados o calientes, es decir, los temas más abordados en este periodo de tiempo; los términos más alejados de la zona gris más intensa son emergentes o que en algún momento fueron muy tratados, pero han perdido actualidad.
De manera similar (Figuras 9 y 10), en los títulos se destacan los términos “log”, “process model”, “process discovery”, “technique”, “study” como los más abordados. Otros términos como “process mining” o “business process” se muestran con una intensidad más baja pero en ascenso, lo que coincide con la idea de que la minería de proceso es una tecnología relativamente joven y a pesar de esto las empresas la están incorporando a sus aplicaciones con la intención de mejorar sus procesos de negocios (Orellana García, Larrea Armenteros y Pérez Alfonso, 2014; Giraldo Mejía, 2016).
A través del análisis de los términos del resumen y del título se pueden apreciar coincidencias entre los que más se destacan, de lo que se infiere que son los principales frentes de investigación sobre minería de proceso y, de cierta manera, coinciden con los planteados por la fuerza de trabajo del Institute of Electrical and Electronics Engineers (IEEE) en el manifiesto (Van der Aalst et al., 2012) y entre los que se destaca:
Estudios relacionados con encontrar, fusionar y limpiar datos de eventos.
Mejorar el sesgo representacional utilizado para el descubrimiento de procesos.
Proporcionar soporte operacional.
Combinar la minería de proceso con otros tipos de análisis.
Mejorar la usabilidad y entendimiento para los no expertos.
Consideraciones finales
El análisis de la producción científica sobre minería de proceso a partir de herramientas métricas permitió la caracterización de esta área del conocimiento desde una mirada tanto cuantitativa como cualitativa. La identificación de los principales frentes, tendencias, líderes de investigación y publicaciones núcleo constituye una valiosa herramienta para la vigilancia tecnológica.
En el año 2011 aparece la versión original del Process Mining Manifesto, cuyo principal objetivo es promover la investigación, desarrollo, educación, implementación, evolución y entendimiento acerca de la minería de proceso. En ese año se visualizó un incremento sostenido en la producción científica sobre esta área del conocimiento. Se demostró la efectividad de la estrategia trazada por la Fuerza de Trabajo de la IEEE sobre minería de proceso, la cual pudiera ser extendible a otras áreas del conocimiento en desarrollo.
Se identificó un marcado comportamiento a la autoría múltiple y una fuerte colaboración entre autores de diferentes entidades y países en temas de investigación relacionada con la minería de proceso liderada por el sector académico, lo que garantiza se propague con inmediatez el uso de esta herramienta.
Las entidades más productivas corresponden al sector educativo, en el cual destaca la Universidad Tecnológica de Eindhoven en salidas de investigaciones sobre el tema en cuestión, por lo que se infiere que la minería de proceso es un área de consolidación con un crecimiento exponencial en sus contribuciones. Atendiendo a las ventajas que tiene esta técnica en el contexto organizacional sería beneficioso que otros sectores de la economía implementen su uso.
A pesar de que estadísticamente las ponencias o conferencias publicadas en memorias de eventos en ocasiones superan en cantidad a los artículos científicos, en el caso de la minería de proceso se demostró que los artículos en revistas científicas son las principales fuentes para comunicar el conocimiento. Este comportamiento resulta lógico para una ciencia en evolución y crecimiento, donde de manera general los investigadores prefieren esta vía para lograr una mayor visibilidad y reconocimiento en la comunidad científica.
Se determinaron las principales líneas de investigación y se denota que el empleo de esta técnica puede tener aplicabilidad en diferentes áreas del conocimiento, lo que evidencia la importancia de este tipo de análisis para destacar los diversos frentes de investigación existentes y nuevas tendencias investigativas.
En los países industrializados existe una sostenida producción científica sobre minería de proceso liderada por Holanda. En América, Estados Unidos es el país más productivo, pero comienza a visualizarse un aumento en las investigaciones sobre este tema en otros países del área. Se evidenció la brecha tecnológica existente en las diferentes áreas geográficas e inclusive dentro de países de un mismo continente. La aplicación de la ley de Lotka en este periodo demostró una distribución desigual de las contribuciones al estar concentrada en una pequeña proporción de autores altamente productivos.
El núcleo de Bradford permitió identificar las principales fuentes donde se publican investigaciones sobre esta área del conocimiento, lo cual deriva en una herramienta académica para los interesados en conocer o investigar sobre minería de proceso. Contribuye, además, a establecer políticas de gestión de colecciones en entidades que trabajan o investigan sobre este tema ya que permite determinar los títulos de publicaciones que deben adquirirse.