Introducción
El quinto informe del Grupo Intergubernamental de Expertos del Cambio Climático (IPCC, por sus siglas en inglés) proyecta que el aumento de la temperatura global (de 1.5 °C a 4.5 °C) producto del calentamiento global producirá un gran impacto en los recursos hídricos, acortará el periodo de lluvias, reducirá la cubierta de nieve, elevará el nivel del mar y generará con mayor frecuencia eventos extremos como inundaciones y sequías (Gaillard et al., 2005). Se espera que la intensidad, frecuencia y duración de los eventos de precipitación cambien con el calentamiento global (Bates et al., 2008). Asimismo, Guha-Sapir et al. (2016) argumentan que evaluar la vulnerabilidad de un sistema hidrológico se ha convertido en un tema de interés general debido a que cada año millones de personas en todo el mundo son afectadas por desastres provocados por eventos naturales extremos atribuidos al cambio climático (Gaillard et al., 2005; IPCC, 2014). Por las razones anteriores, es de gran importancia evaluar los efectos que puede tener el cambio climático en una cuenca hidrológica y contar con herramientas para proyectar si un año será seco o húmedo con el fin de mitigar o adaptarse ante un fenómeno extremo.
Sin embargo, uno de los principales problemas para evaluar estos efectos sigue siendo la incertidumbre en los escenarios proyectados. Según Refsgaard et al. (2007), la incertidumbre puede ser vista como una propiedad de la información empleada para tomar decisiones o como una manifestación de la confianza que se tiene en dicha información. La incertidumbre puede ser del tipo reducible o irreducible. Según Matott et al. (2009), la incertidumbre reducible puede ser disminuida mediante mejoras en la adquisición de los datos de entrada al modelo, la estructura del modelo y mejores calibraciones. Por otro lado, la incertidumbre irreducible asociada con la predicción de futuros resultados es la más compleja de evaluar y reducir, debido a que no se conoce el estado futuro de los factores y variables que intervienen (Matott et al., 2009). En el mismo contexto, existen una gran variedad de fuentes de incertidumbre, desde el instrumento utilizado al momento de realizar la medición hasta parámetros específicos en el modelado. De forma particular, en el modelado hidrológico, las fuentes de incertidumbre provienen principalmente de simplificaciones en los procesos hidrológicos, la conceptualización del modelo, los parámetros y los inputs (Muñoz et al., 2014; Wang et al., 2017). Estos últimos están principalmente asociados a las proyecciones de variables meteorológicas como la precipitación.
En el caso de las redes neuronales artificiales (RNA), Lee et al. (2020) mencionan que las principales fuentes de incertidumbre son la información de entrenamiento incompleta, los algoritmos de entrenamiento, la estructura del modelo y una incorrecta parametrización del modelo. Según Zhou et al. (2020), la incertidumbre puede ser analizada como un fenómeno probabilístico o como un fenómeno estadístico. En el primer caso, la incertidumbre se determina a partir de los datos históricos. Por su parte, en el análisis estadístico, la incertidumbre se calcula directamente a partir de una serie de experimentos. De acuerdo con Rajabi et al. (2015), el método más utilizado para el análisis de incertidumbre es el de Monte Carlo, que es un método numérico no intrusivo, basado en muestras, y que involucra la generación de una serie de muestras que caracterizan la incertidumbre. De forma paralela, Mae et al. (2021) establecen que la estimación bayesiana y Monte Carlo han sido comúnmente utilizadas para la evaluación de la incertidumbre dentro de las técnicas machine learning, como por ejemplo las RNA.
Con base en todo lo expuesto, en este artículo se evaluó mediante el método de Monte Carlo la incertidumbre resultante de realizar el downscaling a las proyecciones de precipitación mediante RNA.
Caso de estudio
En la investigación se seleccionó como caso de estudio la subcuenca del río Turbio, definida hasta la estación hidrométrica Las Adjuntas (Figura 1). Se decidió usar solo esta subcuenca debido a que no existen más estaciones hidrométricas en la cuenca del río Turbio, además de que es una zona de gran importancia para el estado de Guanajuato, ya que en ella se encuentran las ciudades más importantes, una gran producción agrícola y un gran estrés hídrico. Además, es una subcuenca con escasa información observada, permitiendo adecuar la metodología a esta problemática para que pueda ser implementada en otras cuencas de México. La subcuenca del río Turbio se ubica al oeste del estado de Guanajuato y al noreste del estado de Jalisco. Con un área de 2983 km2, comprende los municipios de Manuel Doblado, Purísima del Rincón, San Francisco del Rincón y León.
En la investigación se seleccionaron un total de 24 estaciones meteorológicas (Figura 1). Los registros históricos de precipitación diarios se obtuvieron del Servicio Meteorológico Nacional de México (SMN). Sin embargo, se trabajó con precipitaciones acumuladas medias mensuales con la finalidad de poder modelar periodos mayores sin incrementar los tiempos de cómputo. Para poder seleccionar el periodo de análisis fue necesario comparar la información de todas las estaciones y buscar un periodo en común donde los datos faltantes de una estación no afectaran a las demás estaciones. Después del análisis anterior, se estableció como periodo de comparación del año 1982 al 2014. En el caso de las estaciones con datos faltantes en el periodo de análisis seleccionado, estas fueron descartadas de la investigación. Con base en los datos de la serie histórica en la subcuenca, se tiene una precipitación media anual de 656 mm; la mayor parte de la precipitación ocurre en los meses de junio, julio, agosto y septiembre (Figura 2). El mes de julio es el más lluvioso, ya que se precipitan 166.8 mm, y el mes más seco es marzo, con precipitaciones de 4.9 mm (Figura 2).
Materiales y métodos
La metodología involucra los datos observados de las estaciones meteorológicas y las proyecciones del modelo de circulación general CSIRO-Mk3-6-0 (GCM, por sus siglas en inglés) para los escenarios de emisiones de gases de efecto invernadero (GEI): RCP4.5, RCP6.0 y RCP8.5 del IPCC (Arnell & Lloyd-Hughes, 2014). Es importante comentar que la selección del modelo CSIRO-Mk3-6-0 se realizó después de correlacionar las proyecciones de precipitación de los 13 GCM que incluye el Proyecto de Intercomparación de Modelos Climáticos (CMIP5, por sus siglas en inglés) con los datos observados de las estaciones meteorológicas seleccionadas. El modelo CSIRO-Mk3-6-0 fue el que obtuvo las mejores correlaciones con valores superiores al 0.5 (Para más información del CMIP5, consultar: Orozco et al., 2020; Parodi et al., 2020; Taylor et al., 2012). La metodología propuesta también incluyó el uso de redes neuronales artificiales (RNA) entrenadas y validadas para realizar el downscaling a las proyecciones del modelo CSIRO-Mk3-6-0. Durante el proceso de evaluación de la incertidumbre no se entrenaron nuevamente las RNA ni se modificó su estructura. La condición anterior permitió generar los outputs de una forma más rápida. Finalmente, se aplicó el método de Monte Carlo para evaluar la incertidumbre (Figura 3).
En la simulación con Monte Carlo se generaron primeramente las series aleatorias para cada una de las estaciones meteorológicas (Figura 1) y para los escenarios RCP4.5, RCP6.0 y RCP8.5, los cuales sirvieron como inputs de las RNA. Lo anterior se llevó a cabo tomando como referencia los valores del modelo CSIRO-Mk3-6-0, que fueron multiplicados por una serie de números aleatorios generados a través de una función de distribución uniforme. Paso seguido, se calcularon las precipitaciones de salida a partir de las series aleatorias mediante las RNA. Como resultado, se obtuvieron series temporales con las precipitaciones a escala de la cuenca para las 24 estaciones y los tres escenarios de trayectorias de concentración representativas (RCP, por sus siglas en inglés) (Earth System Grid Generation-Lawrence Livermore National Laboratory [ESGF-LLNL], 2020). Para poder simplificar la información y analizar su comportamiento a lo largo de las simulaciones de Monte Carlo, se calcularon los valores medio, máximo y mínimo de las series temporales.
GCM y escenarios RCP
Los GCM son herramientas matemáticas basadas en las ecuaciones de Navier-Stokes, las cuales proporcionan información de proyecciones de variables meteorológicas considerando los escenarios de emisión denominados trayectorias de concentración representativas (RCP, por sus siglas en inglés) del IPCC [Padhiary et al., 2019]. Sin embargo, la información que proporcionan estos modelos es a escala regional, dificultando su uso a escala de cuenca (Orozco et al., 2020). Como una solución a lo anterior, se ha venido utilizando el downscaling, que consiste en una reducción de escala para obtener una mejor representación de la heterogeneidad de las características espaciales de la cuenca y temporales de las variables meteorológicas (Bouwer et al., 2004; McSweeney et al., 2015). En esta investigación se utilizaron las RNA para realizar el downscaling a las proyecciones que se obtienen de los GCM para los escenarios RCP del IPCC. Para ello, se entrenaron y validaron las RNA en cada una de las estaciones meteorológicas. Para medir las eficiencias de las RNA se empleó el coeficiente de correlación (R), la varianza y la raíz del error cuadrático medio (RMSE, por sus siglas en inglés), además del Bias estimado usando la ecuación siguiente:
donde O i es las variable observada y E i es la variable estimada con las RNA. Finalmente, se ha evaluado la eficiencia usando el estadístico F test (F), que es empleado para probar si las varianzas de dos poblaciones son iguales. En el cálculo de F se usa la ecuación 2, que correlaciona la varianza de las RNA con la varianza de los datos observados.
En cuanto a los escenarios RCP, describen trayectorias plausibles de diferentes aspectos del futuro, que se construyen para investigar las posibles consecuencias del cambio climático (IPCC, 2014). En esta investigación se utilizaron los escenarios RCP4.5, RCP6.0 y RCP8.5. Según IPCC (2014), en el escenario RCP4.5 las máximas emisiones se alcanzan en el año 2040, y luego disminuyen, causando un calentamiento global medio de 1.4 °C entre el 2046 y 2065; mientras que en el escenario RCP6.0 las emisiones alcanzan su máximo alrededor del año 2080, y luego disminuyen, con un calentamiento global medio de 1.3 °C entre los años 2046 y 2065. Finalmente, el escenario 8.5 es el más drástico, con un aumento de las emisiones durante todo el siglo XXI y produciendo un calentamiento global medio de 2.0 °C entre los años 2046 y 2065. Con base en lo anterior, las trayectorias pueden estar condicionadas a decisiones u opciones en una amplia gama de futuros posibles en una determinada región. Es por ello, que en esta investigación se propone el método de Monte Carlo para incluir la gama de futuros posibles y comprender mejor las incertidumbres asociadas a las proyecciones de los escenarios.
Redes neuronales artificiales
Una RNA es un modelo con múltiples parámetros, capaz de reproducir complejas relaciones no lineales, cuyo proceso de entrenamiento requiere de una gran cantidad de información. Las RNA son veloces y pueden ser utilizadas cuando los modelos físicos resultan inadecuados (Oyebode & Stretch, 2019). A las RNA se les ha venido considerando como modelos de “caja negra”, ya que es difícil explicar por qué una RNA toma una decisión y durante el proceso de entrenamiento no es posible seguir por completo el procedimiento iterativo que determina los pesos óptimos. Lo anterior se complica aún más si se incrementan el número de neuronas y de capas ocultas. La RNA convencional se denomina perceptrón multicapa (MLP, por sus siglas en inglés) y consiste en una capa de entrada, una capa de salida y por lo menos una capa oculta (Figura 3). Cada neurona está conectada a las capas precedentes y cada conexión está ponderada por un peso (Zanotti et al., 2019). Según Delgado et al. (2019), en la neurona se considera un dato de entrada (x), que es multiplicado por un peso (w), y su correspondiente valor de umbral o sesgo (bn); el resultado obtenido es analizado por una función de activación f(x) para posteriormente obtener la salida esperada (Figura 4).
Método de Monte Carlo
Este método consiste en realizar una serie de simulaciones a partir de parámetros que son muestreados de forma aleatoria dentro de un rango y que son elegidos por el modelador con base a su experiencia y su conocimiento del sistema (Blasone et al., 2008; Muñoz et al., 2014). Existen una variedad de opciones para realizar la estimación de Monte Carlo y que, según Janssen (2013), Muñoz et al. (2014) y Wunderli (2019), se pueden resumir de forma general de la manera siguiente. Primero se parte de un modelo y los inputs con los cuales será evaluado. Con los inputs se crea un generador de muestras aleatorias a partir de una determinada función de distribución. En el caso de realizar un análisis de sensibilidad, existen métodos más específicos para cubrir las diferentes combinaciones y rangos de los parámetros, y de esta forma lograr que las muestras sean más representativas (Janssen, 2013). El modelo se pone a prueba a través de una serie de iteraciones, y se calculan los outputs. Finalmente, se calcula la incertidumbre a partir de los estadísticos de todas las simulaciones.
Resultados
A partir de las RNA entrenadas y validadas, se observó una sobreestimación promedio de 19.1 mm en el entrenamiento y de 36.2 mm en la validación. Asimismo, se observó una subestimación promedio de 25.5 mm en el entrenamiento y 52.4 mm en la validación. Las RNA tienden a subestimar las precipitaciones, y el error cometido en la mayoría de los casos se duplica al comparar el entrenamiento con la validación (Tabla 1). En la Figura 5 se presenta un ejemplo de los resultados conseguidos con las RNA entrenas y validadas.
Proceso | R | Bias (%) | Varianza | F | RMSE |
Entrenamiento | 0.7 a 0.9 | -3.16 a 8.22 | 326 a 5153 | 0.54 a 0.82 | 14 a 49.7 |
Validación | 0.5 a 0.8 | -5.9 a 35 | 242 a 8990 | 0.09 a 1.48 | 46 a 80 |
Fuente: Elaboración propia.
Una vez realizado lo anterior, se procedió a evaluar la incertidumbre asociada a las proyecciones calculadas con las RNA. Para ello, se obtuvieron series temporales aleatorias del modelo GCM, y con los outputs de las RNA se graficaron los valores medios y el RMSE. En las Figuras 6, 7 y 8 se muestran ejemplos de una simulación de Monte Carlo con 1000 iteraciones, para tres estaciones diferentes. Los valores medios de las series temporales aleatorias tienen un comportamiento similar al valor medio de los registros históricos. Sin embargo, en las series calculadas por las RNA a través de la simulación de Monte Carlo se observaron 3 casos diferentes: los valores medios de las series temporales fueron inferiores a la media de las precipitaciones observadas (Figuras 6 y 7), estaciones donde las medias de las predicciones fueron oscilando alrededor del promedio de la serie histórica (Figura 8). Para el caso de la estación 11020, los valores máximos de precipitación oscilaron entre 198 mm y 236 mm, mientras que la media osciló entre 36.8 mm y 48.4 mm. Las RNA subestimaron las precipitaciones, ya que la media de la serie histórica es de 49.3 mm.
Para evaluar la eficiencia de las RNA respecto a usar un modelo GCM directamente, se calculó el RMSE. Para el caso particular de la estación meteorológica con clave 11036, el RMSE promedio disminuyó de 121 hasta 78 (Figura 9). En la Figura 9 se muestra cómo las RNA lograron reducir el error cometido respecto a la serie histórica para todos los escenarios RCP. En todas las estaciones se repite este mismo comportamiento, lo que mostró que el downscaling, mediante las RNA, disminuyó de forma significativa los errores, a pesar de tener ciertos sesgos respecto a la serie histórica.
Con base en los resultados anteriores, se procedió a generar los escenarios futuros usando las RNA. Las proyecciones de precipitación para los escenarios RCP4.5, RCP6.0 y RCP8.5 se generaron a escala mensual desde el año 2015 al 2035. Este periodo fue elegido debido a que el 2015 es el año siguiente al 2014 de la serie histórica y el 2035 se considera como el futuro cercano.
Como se puede observar, en la Figura 10 las proyecciones mostraron la misma tendencia observada en el entrenamiento y validación de las RNA. Lo anterior significa que las proyecciones tendrán la misma incertidumbre asociada que la cuantificada con Monte Carlo.
Conclusiones
El análisis de incertidumbre permitió conocer el comportamiento medio de las series temporales aleatorias y sus eficiencias en cada iteración de Monte Carlo. La tendencia observada confirmó que, para este caso específico, las RNA tienden a subestimar y sobreestimar las precipitaciones en la mayoría de los casos. También se observó que existen estaciones donde el promedio de la serie histórica cae dentro del rango de la simulación de Monte Carlo. A pesar de los sesgos descritos con anterioridad, las eficiencias tuvieron una mejora significativa durante toda la simulación de Monte Carlo, y esto resalta la importancia de realizar un downscaling a las proyecciones de precipitación de los modelos GCM usando las RNA. Lo anterior tiene una gran relevancia en el entendimiento de la incertidumbre futura y en cómo debe ser manejada al momento de proponer acciones de mitigación del cambio climático.