Introducción
Este artículo reflexiona sobre la aplicación en general de la investigación reproducible en las Ciencias de la Información Geográfica y, en particular, se centra en el caso de la conferencia internacional AGILE (https://agile-online.org/). No se trata de un artículo donde se discute la definición del término reproducibilidad científica, y su importancia para la ciencia moderna y nuestra comunidad investigadora. Respecto a la primera cuestión, la definición, existe una extensa bibliografía científica al uso (véase, por ejemplo, Barba, 2018). Respecto a la segunda, su importancia, no podemos más que subrayar de nuevo la relevancia de la reproducibilidad como un pilar básico de la ciencia. Otros autores también han escrito mucho sobre ello incluyendo un reciente artículo en la Revista Cartográfica (Ballari, 2018), por lo que no vamos a incidir de nuevo en esta cuestión, aunque sí que repasaremos brevemente algunos trabajos recientes que se centran explícitamente en la reproducibilidad en la Ciencia de la Información Geográfica (CIG). A estas alturas, está fuera de toda duda para el lector que la investigación reproducible, la ciencia abierta, la reproducibilidad computacional y replicación son imprescindibles para la buena práctica y la integridad en la investigación y ciencia actual.
Este artículo relata la experiencia de un pequeño grupo de investigadores en la CIG (los autores) para la promoción e incentivación de prácticas en investigación reproducible en la comunidad AGILE. Describimos nuestra historia, las acciones y actividades llevadas a cabo y los logros conseguidos y nos centramos, especialmente, en uno de los recursos generados -las directrices para artículos reproducibles-, que se ponen en práctica por primera vez en la conferencia AGILE 2020. De ningún modo nuestra intención es elevar nuestro ego personal con este artículo. Nuestra intención es mucho más prosaica, regida por la simple idea de compartir experiencias y resultados tanto positivos como negativos.
Queremos que el relato de nuestras actividades y experiencias sirvan de ejemplo de primera mano para aquellos lectores interesados en la investigación reproducible, que las hagan suyas y las adapten a sus entornos. Creemos firmemente que la fórmula para incentivar progresivamente las prácticas en investigación reproducible en una comunidad y/o conferencia en la CIG es exportable y aplicable a otras situaciones y regiones (Granell et al., 2018). Por ello, este artículo incluye una serie de recomendaciones para la puesta en marcha de la investigación reproducible, que puede aplicarse a diversos contextos, como por ejemplo dentro de un grupo de investigación, en un departamento, o incluso a comunidades relacionadas con la CIG de ámbito nacional o supranacional.
Si el primer objetivo es transmitir nuestras experiencias y logros obtenidos en la comunidad AGILE, el segundo objetivo de este artículo es una “llamada” a la comunidad CIG de América Latina en cuanto a la investigación reproducible. En especial, creemos que América Latina está bien posicionada para la adopción de prácticas reproducibles en la investigación, ya que la cultura de lo abierto (acceso abierto, software abierto, etc.) ha estado tradicionalmente bien enraizada en el mundo académico y educativo.
A continuación, introducimos a grandes rasgos el concepto de reproducibilidad en la investigación, citando algunos trabajos recientes en el campo de la CIG, así como recursos docentes relacionados. Luego, enumeramos las actividades realizadas en el marco de nuestra iniciativa para la promoción de las buenas prácticas en investigación reproducible tanto en la comunidad AGILE como en su conferencia anual. Uno de los recursos generados de especial relevancia para la conferencia AGILE son las directrices para autores para la elaboración de artículos reproducibles, que se tratan en una sección aparte. Finalmente, terminamos el artículo con una serie de recomendaciones, dirigidas a los distintos actores que forman parte del proceso de investigación científica (investigadores, universidades, entidades editoras, entidades de política científica, etc.) y que, desde su posición e intereses particulares, pueden influir significativamente en la promoción de hábitos y buenas prácticas en la investigación reproducible.
Breve reseña sobre la reproducibilidad en CIG
En esta sección definimos el término reproducibilidad. Luego, indicamos algunos trabajos recientes o de especial relevancia en la aplicación o estudio de aspectos reproducibles a la CIG, que dan fe del creciente interés de la comunidad investigadora de la CIG en las prácticas reproducibles. Finalmente, a modo informativo, añadimos algunos recursos docentes que se centran en la reproducción desde la óptica de la educación y de la realización de materiales docentes. Este artículo no trata la reproducibilidad como concepto en la docencia, pero definitivamente será un aspecto clave en el futuro próximo para que la próxima generación de científicos y científicas adquieran las prácticas de investigación reproducibles como parte natural de sus actividades diarias.
Nuestro interés en reproducibilidad se centra en las publicaciones en conferencias (como AGILE) y, por lo tanto, nos basamos en la definición adoptada en trabajos previos (Ostermann y Granell, 2017; Nüst et al., 2018). Otros trabajos como Stodden et al. (2014), Barba (2018), Nüst et al. (2018) y la colección de artículos y editoriales de Nature (https://www.nature.com/collections/prbfkwmwvz) abordan en detalle la literatura en cuanto a las diferentes interpretaciones del concepto de reproducibilidad, desde disciplinas y áreas del conocimiento científico dispares. En este trabajo, nos ceñimos a la siguiente definición: “un documento reproducible garantiza que un revisor o lector pueda recrear el flujo de trabajo computacional de un estudio o experimento, incluidos los conocimientos previos y el entorno computacional. El primero implica que el argumento científico es comprensible y sólido. El último requiere una descripción detallada del software y los datos usados, y que ambos están disponibles de forma abierta.” (Nüst et al., 2018: 7).
Con respecto a la literatura científica focalizada en la reproducibilidad en la CIG, Richardson et al. (2015) ya alertaba de las barreras a la reproducibilidad en la CIG con respecto a la revelación de la localización y otros datos confidenciales de participantes en un proyecto de investigación o experimento. Sin embargo, ha sido a partir de 2018 cuando la comunidad de la CIG ha puesto el ojo con mayor atención a las prácticas de investigación reproducible. Por ejemplo, nuestro trabajo previo, Ostermann y Granell (2017) y Nüst et al. (2018) ya ponen el foco en la reproducción y replicación de estudios en la CIG, bien en los datos geoespaciales generados por el usuario o en trabajos de investigación en el marco de la conferencia AGILE, respectivamente. El último de ellos lo trataremos en detalle en la siguiente sección. En la línea de la reproducción de estudios que procesan datos generados por el usuario, Cerutti et al. (2019) examina la utilidad de los sistemas de gestión del flujo de trabajos científicos para reproducir tres estudios que investigan las redes sociales y los incendios forestales en Australia.
Gahegan (2019), reflexiona sobre las dificultades de la reproducción desde el punto de la eCiencia (eScience en inglés), donde el campo de la geo-computación es determinante, es decir, la aplicación de análisis computacionales a casos de usos donde las dimensiones espacial y temporal son claves. El autor sugiere distintas aproximaciones para la mejora de la reproducción de flujos de trabajo geo-computacionales. Relacionado con la compartición de análisis computacionales, Konkol et al. (2020) comparan exhaustivamente una serie de herramientas y aplicaciones para la publicación y ejecución de flujos de trabajos computacionales de forma reproducible.
Otro hilo de trabajos relacionados se centra en el plano teórico en lugar de aspectos prácticos en el uso de herramientas de ayuda a la reproducción, como en los ejemplos anteriores. Los trabajos de Kedron y colegas (Kedron, 2019 y Kedron et al., 2018), se contextualizan en la investigación relacionada con la rama de la geografía humana o económica. Los autores discuten la incertidumbre que va aparejada a las distintas conceptualizaciones e interpretaciones en la difusión y comunicación de los resultados de los análisis geográficos. Todo ello, sin lugar a dudas, afecta seriamente a la reproducción y replicación de estudios y análisis en el campo de la geografía humana y económica. Otro ejemplo destacable es la reflexión de Kray et al. (2019) con respecto a la investigación reproducible en el campo de la geo-informática. Los autores, se alejan un tanto de la aproximación teórica de los dos ejemplos anteriores, para reflexionar sobre los retos y ventajas de la reproducción en la geo-informática, y en la CIG en general, donde la tecnología y las ciencias de la computación son fundamentales.
Terminamos esta reseña con un guiño a una serie de recursos docentes sobre la reproducción en la ciencia en general y aplicada a la CIG. Cabe destacar la iniciativa FORRT (Framework for Open and Reproducible Research Training, en inglés) (FORRT, 2019) que teoriza sobre las dimensiones y factores a tener en cuenta para la incorporación de prácticas reproducibles en el currículum docente. Crüwell et al. (2018) mantienen una lista debidamente curada de recursos y artículos relevantes que van desde la problemática inicial hasta cuestiones de análisis estadístico que minan la reproducción. Aunque la lista de recursos tiene un cierto sesgo hacia la psicología, debido a que la reproducibilidad ha sido tradicionalmente un aspecto crítico en esta disciplina, resulta relevante para el diseño y confección de un hipotético currículum sobre la reproducibilidad y replicabilidad de la ciencia.
Si miramos a la CIG, ya empiezan a surgir recursos docentes, en los cuales la reproducción ocupa una posición predominante. Por ejemplo, como parte de la visión que integra la ciencia de los datos y la CIG (Singleton y Arribas‐Bel, 2019), Arribas-Bel (2019) describe un curso completo que incluye módulos didácticos, junto con código y datos, en una mezcla única que aplica técnicas de análisis de datos desde la perspectiva geográfica, atendiendo por supuesto a aspectos de reproducibilidad, especialmente con el uso de Jupyter Notebooks (Millman y Pérez, 2014).
Iniciativa de reproducibilidad en AGILE: experiencias y actividades
En esta sección resumimos las actividades y acciones realizadas en los tres últimos años, desde el primer encuentro del grupo en la conferencia de AGILE 2017 (mayo 2017) hasta las actividades en curso y planteadas para la próxima conferencia de AGILE en 2020. No se trata únicamente de trazar una línea temporal de los acontecimientos, la cual resulta por sí sola interesante, sino de recalcar el hecho de que un grupo reducido y apasionado en la promoción de las prácticas reproducibles en la investigación puede influir de manera considerable en un grupo mucho mayor, la comunidad AGILE, hasta el punto de introducir cambios estructurales en la próxima conferencia, en cuanto a la ciencia abierta y prácticas reproducibles de los trabajos de investigación enviados. El camino no ha sido fácil, y nuestros objetivos iniciales no eran ni mucho menos tan ambiciosos. Como veremos en las actividades realizadas en el resto de esta sección, en todo momento nuestro contexto de actuación se limitó a la comunidad AGILE, y no a otras comunidades CIG en otras latitudes y regiones. Delimitar un campo de actuación manejable y de acorde a las posibilidades, pero a la vez lo bastante ambicioso, ha sido sin duda uno de los factores de éxito de nuestra iniciativa (Granell et al., 2018).
El mensaje que queremos transmitir es que un pequeño grupo puede llevar a cabo grandes cambios, hasta el punto de influenciar la comunidad de la cual forma parte. Esperamos que las actividades y recursos aquí relatados, junto con las recomendaciones expuestas en la próxima sección, surjan de ejemplo para que (pequeños o grandes) colectivos en Latinoamérica impulsen el cambio hacia prácticas de reproducibilidad en sus propias comunidades de ámbito regional o nacional, o incluso, supra nacional, en el ámbito de la investigación en la Ciencia de la Información Geográfica.
Origen y contexto
Nuestras actividades nacen y se desarrollan en el ámbito de AGILE. Al tratarse de una asociación europea, cabe incluir unas breves líneas sobre sus objetivos y trayectoria para aquellos que la desconozcan. En primer lugar, AGILE es una asociación que agrupa actualmente a unos 100 miembros, provenientes de diversos países europeos. Un miembro es un grupo de investigación o departamento de universidad cuya investigación, tanto teórica como aplicada, se desarrolla en torno a la CIG. Como asociación, AGILE lleva a cabo diversas acciones para sus miembros con el fin de incentivar la comunicación y la transferencia de conocimiento. Destaca la conferencia homónima, que se celebra anualmente de forma ininterrumpida desde 1998. La conferencia AGILE cumple ya 23 ediciones en 2020 y por ello se puede considerar una de las más longevas en su campo.
Los autores de este artículo son miembros de la Asociacón y la conferencia ha sido un evento fundamental desde el inicio de sus carreras investigadores, hasta el punto que podríamos considerarla como nuestra alma mater, si tal calificativo fuera aplicable a conferencias tal como lo es para la universidad de formación. De lo anterior se desprende una motivación compartida del grupo para mejorar AGILE y regenerar la conferencia tradicional (hasta 2019) de forma que la reproducibilidad y los datos abiertos sean características de los artículos de la conferencia (para la próxima edición de 2020).
Por lo tanto, una de las claves de éxito fue la acertada elección de la comunidad. Podríamos haber elegido nuestras universidades o nuestros grupos de investigación. Sin embargo, nuestra motivación, la red de contactos, e incluso, un cierto sentimiento para mejorar el evento científico que nos ha visto crecer y desarrollarnos científicamente, fueron sin lugar a dudas factores decisivos a la hora de optar por AGILE como objetivo. Asimismo, creemos que estos mismos factores pueden ser perfectamente válidos para la elección de comunidades objetivo en otras regiones como en América Latina.
A continuación desglosamos la lista de acciones (https://o2r.info/reproducible-agile/) y como han crecido en complejidad, en cuanto a los resultados obtenidos, y en eficiencia, a la hora de estimular cambios estructurales en la conferencia AGILE.
Acciones realizadas
El primer encuentro del grupo tuvo lugar en la conferencia AGILE 2017 (Wageningen, Países Bajos), que justo marcaba el vigésimo aniversario de la conferencia y, por esa razón, el evento volvía al país donde se celebró la primera edición. En el taller previo a la conferencia Reproducible Geosciences Discussion Forum (https://o2r.info/reproducible-agile/2017/), discutimos el tema de la investigación reproducible en general y si la “crisis de reproducibilidad” que se anunciaba en economía (Ioannidis, Stanley y Doucouliagos, 2017), neurociencia (Button et al., 2013), y en otros tantos campos del conocimiento (Ioannidis, 2005) también había llegado a la CIG. El intercambio de opiniones llevó rápidamente al hecho de que la reproducibilidad, la reproducibilidad computacional, replicación, y otros términos relacionados (véase Barba, 2018), no parecían ocupar un lugar destacado en la agenda de la comunidad de AGILE. Como resultado, el taller se reorientó hacia el intercambio de conocimiento y la colaboración entre el grupo con el fin de profundizar más sobre el estado de reproducibilidad de los trabajos de investigación publicados en la conferencia AGILE y explorar cómo podría mejorar y extenderse la conferencia con buenas prácticas de investigación reproducible.
De esta primera toma de contacto cabe destacar dos acciones fundamentales. 1) marcó la senda de la colaboración del grupo. La distribución geográfica del grupo hacía difícil las reuniones presenciales, a excepción de los encuentros anuales en cada edición de la conferencia, por lo que organizamos teleconferencias periódicas (que siguen todavía en curso) para debatir y consensuar próximas acciones y repartir responsabilidades. 2) acordamos la redacción de un artículo para la siguiente conferencia AGILE (2018), en el cual responderíamos a las siguientes preguntas: ¿Qué aspectos hay que tener en cuenta para reproducir un artículo concreto? ¿Cuál es el estado de reproducibilidad de los mejores artículos presentados en edición pasadas de la conferencia AGILE? ¿Qué podría hacer AGILE (como asociación) para fomentar la reproducibilidad en las próximas ediciones de la conferencia?
Nüst et al. (2018) plasmaron algunas de las respuestas para las preguntas anteriores. El trabajo analizó el nivel real de reproducibilidad de un conjunto de artículos (32) nominados para las sesiones de mejores trabajos (tanto completos como cortos) de las conferencias AGILE realizadas entre 2010 y 2017 (ambos inclusive). Con respecto a la primera pregunta, propusimos una serie de criterios -datos, pre-procesamiento, métodos, entorno computacional, y resultados-, y asignamos un nivel de reproducibilidad entre 0 (no reproducible) y 3 (completamente reproducible). De esta forma, calculamos fácilmente el nivel de pre-reproducibilidad (Stark, 2018) de cada trabajo, sopesando el nivel de cada criterio basado en la lectura de cada artículo. Los resultados arrojaron una valoración pobre en cuanto a los niveles de reproducibilidad, coincidiendo en gran medida con la opinión de los propios autores de los trabajos analizados (Nüst et al., 2018). Respecto a la tercera pregunta del párrafo anterior, planteamos una serie de medidas y recomendaciones para atajar el problema de la falta de reproducibilidad, que comentaremos más adelante en la sección “Recomendaciones”.
Llegó la siguiente conferencia AGILE 2018 (Lund, Suecia) y realizamos el taller Reproducible Research Publications (https://o2r.info/reproducible-agile/2018/). Con una asistencia más bien mediocre, presentamos los resultados de nuestro análisis (Nüst et al., 2018) para poner de relieve las carencias en reproducibilidad de los trabajos presentados en conferencias pasadas de AGILE. El caso de estudio despertó el interés de los participantes, pasando inmediatamente de un plano conceptual a uno práctico y experimental. El concepto de reproducibilidad en sí es sencillo, lo difícil es responder a la pregunta ¿por dónde empiezo para adquirir prácticas reproducibles en mi investigación? La segunda parte del taller, versó justo en la reproducción por parte de los participantes del flujo de trabajo computacional depositado en un repositorio abierto (Nüst, 2018) asociado al análisis publicado (Nüst et al., 2018).
Los resultados de la reproducción fueron dispares y desiguales, dependiendo del conocimiento previo de los participantes, desde expertos hasta principiantes, en el lenguaje utilizado (R) y en las herramientas (RStudio). Sin embargo, lejos de ser un fracaso, la experiencia fue fructífera, ya que demostró que la reproducción de un trabajo por un investigador no experimentado no es una tarea imposible. Algunos de los participantes, sin el conocimiento previo en el lenguaje R, lograron reproducir en menos de dos horas un compendio de investigación bien preparado (Nüst et al., 2017), es decir, un paquete reproducible que integra código y datos. En la parte negativa, la instalación del entorno computacional adecuado para la ejecución del código y las dependencias entre paquetes de software, como apuntado posteriormente por Konkol et al. (2019), fueron las mayores dificultades encontradas por los participantes. Aunque parezca banal, es una lección valiosísima para los autores de artículos reproducibles: si deseas que los no expertos puedan reproducir tu trabajo, no asumas que saben lo que es fácil de hacer (para el autor).
El taller finalizó con un debate abierto. Los participantes admitieron que la reproducción manual es una experiencia de aprendizaje eficaz siempre y cuando se parta de un trabajo reproducible bien preparado. Conocer de primera mano los problemas con los que se encuentran a menudo otros investigadores al reproducir un trabajo, es una ayuda invaluable para motivar los cambios de hábitos en un investigador en cuanto a la adopción de buenas prácticas de investigación reproducibles. No todos los problemas son previsibles, por supuesto. Hubo consenso en admitir que una sala llena de gente con conocimientos e intereses diversos, y con sistemas operativos y versiones de software variopintos, encontrará siempre alguna dificultad en la reproducción que el autor no pudo prever con antelación.
Una de las apreciaciones más destacables del taller, fue que el concepto de reproducción no es difícil de entender. Todo el mundo lo entiende y aprecia su importancia para la ciencia. Sin embargo, parece ser que su simplicidad conceptual correlaciona negativamente con la complejidad experimental. Todos los participantes expresaron serias dudas en cuanto por dónde empezar para adquirir hábitos reproducibles en su trabajo de investigación diario. Aun reconociendo que no existen proyectos de investigación “típicos”, y que por lo tanto la reproducción está sujeta a las idiosincrasias de cada proyecto o trabajo de investigación, hubo un clamor popular por la disponibilidad de materiales educativos, guías o directrices para ayuden a los investigadores en la aplicación de la investigación reproducible.
Nosotros escuchamos e hicimos de las directrices nuestro siguiente reto.
Con una aportación económica de la asociación AGILE, los autores junto con un grupo reducido de expertos internacionales en ciencia abierta, curación de datos y reproducibilidad (véase https://o2r.info/reproducible-agile/initiative/), nos reunimos tres días (abril, 2019) en Delft (Países Bajos) para abordar la creación de unas directrices para autores y revisores para la elaboración de artículos reproducibles para AGILE. Las directrices deberían ayudar tanto a los autores, para preparar los manuscritos, como a los revisores, para evaluarlos. Las directrices deberían ser lo bastante genéricas para cubrir la mayoría de los tipos de trabajos enviados a la conferencia AGILE, pero al mismo tiempo lo bastante detalladas para que sirvieran de ayuda a los autores, incluyendo por ejemplo recomendaciones en cuanto a repositorios de datos (p.e. Zenodo, etc.) y de código (p.e. OSF, GitLab), flujos de trabajo transparentes (p. ej., Notebook en Binder), normas de citación y tipo de licencias de software y datos. Posteriormente, en la sección “Directrices para la redacción de artículos reproducibles”, las describimos en detalle.
El tercer taller de la serie se realizó en la Conferencia AGILE 2019 (Limassol, Chipre), con el título de “Reproducible Research” (https://o2r.info/reproducible-agile/2019/). Con un registro de asistentes mayor que en la edición anterior, el taller se centró en la difusión de las directrices recién publicadas (Nüst et al., 2019), reforzado con la presentación de dichas directrices en la sesión de posters (Hofer et al., 2019). En definitiva, por un lado, sopesamos que tal las directrices habían sido recibidas por parte de la comunidad AGILE. Por otro, seguimos enfatizando en el taller la parte práctica de la reproducibilidad, planteando sesiones de reproducción de trabajos para niveles básico y avanzado.
Recientes actividades ponen de manifiesto el calado de las prácticas en investigación reproducibles en la comunidad AGILE. Por ejemplo, la quinta edición, celebrada en Tartu (Estonia) en noviembre de 2019, dedicó, por primera vez, un día completo a la reproducibilidad. Además, el grupo (los autores) seguimos adelante con la cuarta edición de talleres sobre reproducibilidad para AGILE 2020 (https://o2r.info/reproducible-agile/2020/).
Políticas realizadas
Las actividades en el plano técnico (la serie de talleres, las directrices, etc.) son necesarias, pero no suficientes para llevar a cabo cambios estructurales de calado. Sin la apuesta clara de la Asociación, en su compromiso por la integración de la reproducibilidad en las conferencias AGILE, todo el trabajo realizado hasta el momento corría el serio peligro de quedar en papel mojado.
Por fortuna, el Consejo apoyó la reproducibilidad. El siguiente paso lógico fue instaurar oficialmente dichas directrices en AGILE, como parte fundamental de la próxima conferencia en el 2020, lo cual acarreó cambios substanciales en la estructura organizativa de la conferencia:
La obligatoriedad para los autores de ajustarse a las directrices para la redacción de artículos reproducibles enviados a la conferencia AGILE (Nüst et al., 2019).
La creación de un nuevo Comité de Reproducibilidad, para asegurar que todos los manuscritos enviados cumplieran las directrices de artículos reproducibles para AGILE.
La creación de un servicio de discusión en línea para ayudar a los autores en la adaptación de las directrices en sus trabajos.
La creación de unas recomendaciones para los revisores (Nüst et al. 2020), para tener en cuenta los aspectos relacionados con la reproducibilidad en la revisión de artículos.
La transformación lógica de la conferencia AGILE a una conferencia de acceso abierto. Para la edición de 2020, los artículos largos se publicarán en Springer con licencia en acceso abierto, mientras que los artículos cortos lo harán con Copernicus Publications, un reputado editor de acceso abierto.
Muchos más cambios se entreven para futuras ediciones de la conferencia AGILE, con el fin de convertirla en un referente de reproducibilidad en el campo de la CIG. Pero como en todo, los cambios radicales deben ser progresivos, sobre todo para dar tiempo a la comunidad a interiorizar los hábitos y prácticas en investigación reproducible, resumidos someramente en las directrices que comentamos a continuación.
Directrices para la redacción de artículos reproducibles
En esta sección nos centramos en las directrices para la redacción de artículos reproducibles para la conferencia AGILE. El recurso de referencia es la versión inglesa (Nüst et al., 2019a), la cual se actualiza periódicamente a media que se incorporan comentarios, aclaraciones y ejemplos de los propios autores. También hay disponible una versión traducida al castellano (Granell, 2019).
Las directrices no son exhaustivas en cuanto a los pasos a realizar. Existen excelentes recursos que describen reglas y pasos concretos para que los datos y análisis computacionales asociados a un trabajo científico sean reproducibles (p.e. Sandve et al., 2013; Wilson et al., 2017, Rule et al., 2019). Sin embargo, las directrices aportan un valor adicional con respecto a estos recursos más generalistas, en cuanto que se centran en las características propias de los trabajos de investigación en la CIG, aportando ejemplos específicos a esta disciplina.
¿Qué elementos o aspectos son los más destacables en las directrices? Por su utilidad práctica, el primero es sin lugar a dudas la lista de verificación de la reproducibilidad de un artículo previo al envío. Los autores/as pueden comprobar fácilmente si algún elemento de la lista todavía requiere su atención. Resulta un recurso muy útil y rápido para asegurar que los artículos enviados cumplen con todos los requisitos pertinentes a la reproducibilidad.
Otro elemento destacable es el contenido de la nueva sección “Disponibilidad de Datos y Software”. Con ella forzamos a los autores/as a indicar dónde se encuentran publicados los datos y el código, para que otros investigadores/as puedan acceder a esos recursos. Evidentemente, la reproducibilidad implica necesariamente el acceso público a los recursos asociados a una investigación. Esta sección por lo tanto permite aglutinar en un único lugar toda la información necesaria para acceder a los datos y código utilizados en el propio artículo. En caso de que existan restricciones, como por ejemplo que los datos utilizados se rigen por una licencia restrictiva que no permite su acceso y compartición, entonces sugerimos que se indique también los motivos. El objetivo de esta sección es que sea homogénea a todos los artículos y que permita fácilmente evaluar el nivel de pre-reproducibilidad (Stark, 2018) de un artículo simplemente leyendo la información de la sección. Las directrices incluyen una plantilla para el contenido de la misma, que puede tomarse como base para otros tipos de documentos como por ejemplo trabajos de maestrías.
Como los datos y el código son elementos clave para la reproducción de un trabajo, el documento de directrices los trata en dos apartados independientes. El apartado de datos se refiere a la información de entrada en una investigación; a los datos intermedios y resultados finales (p.e. mapas, tablas, graficas), que normalmente forman parte del artículo. El segundo apartado engloba tanto el código (o paquete de software, biblioteca, etc.) pertinente al análisis computacional realizado, como al entorno necesario para ejecutar dicho código.
Ambos apartados siguen una estructura similar. Organizamos las sugerencias a los autores en una tabla de dos dimensiones. Por un lado, respondemos los cuestionamientos de: qué, dónde y cómo; y por otro, planteamos para cada una de las tres preguntas anteriores, requisitos mínimos, que todos los autores deben cumplir, y también requisitos ideales. La reproducción de un artículo de investigación no es una cuestión de todo o nada, sino que hay un espectro de posibilidades entre los dos extremos. Por lo tanto, queremos transmitir la idea que la redacción de un artículo reproducible es un proceso gradual, de menos (mínimo) a más (ideal), y reconocemos que los autores sin experiencia se fijen con los requisitos mínimos y, a medida que adquieren experiencia y destrezas en el uso de herramientas y aplicaciones de soporte a la reproducibilidad, tengan en consideración las sugerencias ideales.
Destaca también que ambos apartados incluyen una serie de ejemplos (“que pasa si”) en el contexto de la CIG, que aportan sugerencias concretas a los autores para cada uno de los supuestos planteados. Por ejemplo, si los datos no están debidamente anonimizados y se publican con el nombre de los autores, damos información de cómo crear enlaces anónimos a los datos depositados en repositorios para permitir el proceso de revisión por el sistema de doble ciego. Para que las directrices fuesen un recurso conciso y breve para la comunidad investigadora, mantenemos un sitio web y wiki asociado (https://osf.io/phmce/wiki/home/) donde se incluyen muchos otros ejemplos para que los autores reconozcan su situación particular y sepan cómo actuar para hacer que sus artículos sean (más) reproducibles.
Recomendaciones
Sin lugar a dudas, adquirir un nuevo hábito requiere esfuerzo y persistencia. A diferencia de hábitos que se centran únicamente en el individuo como la adquisición de hábitos saludables, la ciencia actual ya no se limita a la labor de un investigador individual, sino que se ve afectada por un ecosistema de actores con diferentes intereses que moldean el proceso científico. Desde investigadores, grupos de investigación, universidades, asociaciones, pasando por las editoriales que publican las revistas académicas, hasta las agencias públicas y privadas que subvencionan la investigación, y los comités de selección y promoción que evalúan los méritos científicos, todo ellos influyen de alguna manera en cómo se realiza la labor científica diaria. Por lo tanto, para mejorar significativamente la reproducibilidad en la investigación, se deben realizar cambios en cada uno de estos actores, con mejoras en los planes de estudio educativos, en los procesos de laboratorio, la política científica de las universidades, las normas de publicación de artículos de las editoriales de revistas académicas y en los criterios de las agencias de financiación, de modo que los esfuerzos requeridos para llevar a cabo las buenas prácticas en la investigación reproducibles sean reconocidos y debidamente valorados.
Es esta sección no abordamos cada uno de estos actores, sino que nos centramos en recomendaciones para las asociaciones relacionadas con la CIG, que tienen el poder para influir positivamente en una comunidad amplia de investigadores/as en la promoción de prácticas de investigación reproducible. Este aspecto es especialmente relevante en Latinoamérica, por ejemplo, con el Instituto Panamericano de Geografía e Historia (IPGH, https://www.ipgh.org/), ya que puede jugar un papel trascendental a la hora de promocionar la investigación reproducible en la región. Para autores individuales, remitimos a la discusión en Nüst et al. (2018), que a su vez incluye una buena selección de recursos para autores.
Por lo tanto, ¿qué pueden hacer las asociaciones relacionadas con la CIG para fomentar la reproducibilidad? Un prerrequisito clave es que las propias asociaciones científicas como IPGH u otras, que proveen soporte para la publicación científica ya sea por medio de revistas académicas o conferencias, reconozcan el papel primordial de las prácticas de investigación reproducible para la comunidad de la CIG. Otra recomendación obvia es que las publicaciones sean en acceso abierto, y con licencias permisivas para los propios autores y para el resto de la comunidad investigadora. En este sentido, las publicaciones periódicas del IPGH ya se licencian en “Creative Commons”, los artículos están en abierto, y el sistema de gestión y publicación de revistas se basa en código abierto (Open Journal System), lo cual allana el camino hacia las siguientes recomendaciones.
Las directrices para autores son un recurso fundamental para sentar las bases de una conferencia o revista reproducible. Como hemos visto en la sección anterior, unas directrices deben incluir instrucciones claras sobre cuándo, cómo y dónde publicar material complementario (datos, código) al artículo escrito. Además, las directrices deben sensibilizar a los autores para que hagan visible la información relacionada con la reproducibilidad para los revisores y otros investigadores, por ejemplo, mediante una sección específica del artículo al estilo de la sección de “Disponibilidad de datos y software”. No hace falta empezar de cero. Las directrices para la redacción de artículos reproducibles (Nüst et al., 2019a; Granell, 2019) están a disposición de todas las asociaciones y comunidades científicas que editen publicaciones periódicas o que promueven conferencias para que las personalicen a sus particularidades, con el fin de promover la investigación reproducible entre la comunidad de autores. Cabe destacar aquí el trabajo de Liu y Salganik (2019) que describen con sumo detalle su experiencia como editores de un número especial centrado únicamente en artículos reproducibles. Los retos, problemas, y las recomendaciones que plantean los autores son sin duda una guía práctica de gran ayuda para editores y organizadores de conferencias.
Relacionado con las directrices, las asociaciones tienen a su disposición otros elementos que puede llevar a cabo sin demasiado esfuerzo, pero con un impacto considerable en cuanto a la motivación y reconocimiento de la labor de los autores de artículos reproducibles. Uno de estos elementos son los premios para los mejores artículos reproducibles, similares a los tradicionales premios a los mejores artículos científicos. Esta práctica ya existe en algunas comunidades y conferencias (véase Nüst et al., 2018), y poco a poco se va instaurando. En el caso de la conferencia AGILE 2020, se pondrá en marcha una sesión especial para los tres mejores trabajos reproducibles, con el fin de visibilizar y reconocer el esfuerzo de los autores y que sirvan de ejemplo para la comunidad AGILE.
Otros elemento son los “badges” o insignias. Kidwell et al. (2016) demuestran que las insignias han tenido un efecto positivo en la publicación de datos asociados a artículos publicados en la revista Psychological Science. Otras asociaciones de renombre como ACM (Association for Computing Machinery) disponen de un amplio rango de insignias para reconocer aspectos distintivos de los artículos, como por ejemplo la disponibilidad de datos en abierto o que el artículo sea reproducible (https://www.acm.org/publications/policies/artifact-review-badging). En el ámbito de las CIG, Nüst et al. (2019 b) presentaron recientemente un sistema de insignias integrado en motores de búsqueda de literatura científica como Google Scholar.
Con estas básicas recomendaciones, dirigidas a distintos actores que forman parte del proceso de investigación científica, queremos destacar que la promoción de hábitos en investigación reproducible no es una odisea imposible. Se trata más bien de una cuestión de voluntad y que todos los actores implicados expresen su convencimiento por la instauración progresiva de estas prácticas. Los investigadores y grupos de investigación pueden hacer esfuerzos de forma individual, pero para que despegue definitivamente la cultura de la ciencia abierta y reproducible, todos los demás actores, desde agencias de política científica hasta universidades y asociaciones científicas, deben apostar definitivamente por la investigación reproducible para que la próxima generación de investigadores e investigadoras desarrolle su trabajo de forma transparente, integra y honesta.
Conclusiones
En este artículo hemos presentado nuestras experiencias, actividades y logros en la promoción de recomendaciones para la investigación reproducible, contextualizada a la comunidad AGILE. Destacamos sobre todo las directrices para autores de artículos reproducibles, un recurso disponible para cualquier investigador interesado en reproducibilidad para que pueda adoptarlas a su propio entorno, ya sea de forma individual, en su grupo de trabajo, departamento, universidad, e incluso en la comunidad científica de la cual es miembro.
Este artículo también es una llamada de la comunidad latinoamericana, para que haga suya los recursos descritos en este trabajo y, sobretodo, promocione de forma activa la investigación reproducible en la CIG en su entorno local. Pero es también una llamada a colaboración, para que se establezcan sinergias entre la comunidad AGILE y asociaciones similares en la región latinoamericana. Necesitamos una apuesta clara por la ciencia abierta, la reproducción y replicación, así como por los datos y códigos en abierto y públicamente accesibles, como prevención a una crisis de reproducibilidad en nuestra disciplina.