Introducción
La información geográfica sobre el Uso del Suelo y Vegetación (USV) es un insumo importante para apoyar los estudios espacio-temporales del comportamiento de las comunidades vegetales presentes en el país, y con ello se contribuye al conocimiento del estado que guarda la cobertura del suelo (Inegi, 2017), lo cual es fundamental para los investigadores y tomadores de decisiones. A partir de los mapas de USV se deducen escenarios sobre la pérdida del capital natural o biodiversidad, se generan modelos sobre posibles efectos del cambio global y se fundamentan las estrategias de planificación de uso del suelo (Mas et al., 2009).
En México, de acuerdo a los mapas de USV del Instituto Nacional de Estadística y Geografía (Inegi), la tasa de cambio de uso de suelo en el periodo de 1992 a 2016 para el caso de bosques y selvas fue, en promedio, de -133 000 ha año-1, con una evidente disminución de las superficies de vegetación primaria y un incremento de los usos del suelo asociados a las actividades agropecuarias (agricultura de riego, agricultura de temporal, pastizal inducido y pastizal cultivado, principalmente), aunque en los últimos años de análisis, del 2010 a 2016, la tasa de cambio se estabilizó (Paz-Pellat et al., 2019).
El cambio de cobertura del suelo implica la modificación en ciertas características de la superficie como el tipo de vegetación; mientras que el cambio en el uso del suelo consiste en una alteración en la forma en que los seres humanos usan o gestionan cierta área de la Tierra (Patel et al., 2019). El cambio de la cobertura del suelo tiene numerosas consecuencias ecológicas, físicas y socioeconómicas (Pellikka et al., 2013). A pesar de su importancia, esta se identifica generalmente mediante la clasificación efectuada por un experto, incluso se realiza con una interpretación visual de imágenes satelitales, lo cual es costoso, dispendioso e impreciso. Implementar métodos computacionales permite generar la clasificación de coberturas con imágenes satelitales de manera automática, rápida, precisa y económica (Suárez et al., 2017), por lo que la teledetección de los cambios en la cobertura y el uso del suelo, tiene la ventaja de ofrecer métodos automatizados y repetibles a gran escala para monitorear indicadores de la condición de la vegetación (Lawley et al., 2015).
En los últimos años, ha aumentado el interés y la necesidad de disponer de información de usos y coberturas del territorio confiable y actualizada (Borràs et al., 2017). Derivar la cobertura terrestre a partir de datos de sensores remotos, es fundamental para la elaboración de mapas, además de proporcionar información básica para respaldar las actividades científicas, ya que las imágenes de satélite son de acceso gratuito y abierto, además de que poseen un mayor almacenamiento y poder computacional (Hermosilla et al., 2022). Sin embargo, la clasificación detallada es una tarea extenuante debido a la ilimitada cantidad de los datos obtenidos por la teledetección y de la complejidad de los patrones y composiciones espaciales de las especies, así como de la falta de enfoques adecuados (Xie et al., 2019).
Dada esta problemática, se necesitan utilizar nuevas técnicas como la inteligencia artificial que centra la investigación de múltiples conceptos enfocados a imitar las funciones que el humano desarrolla (Ponce et al., 2014). Al respecto, destaca el aprendizaje automático o aprendizaje máquina (machine learning) como una herramienta común en la extracción de información de grandes conjuntos de datos (Shalev-Shwartz y Ben-David, 2014), y en la que se sugiere el uso de una máquina/computadora para aprender de forma análoga cómo el cerebro aprende y predice, con el fin de automatizar operaciones para reducir la intervención humana en la detección automática en los datos de patrones significativos (Theodoridis, 2015).
El aprendizaje profundo es una de las técnicas modernas más versátiles para la extracción y clasificación de características (Bhosle y Musande, 2019), además, analiza de forma inteligente los datos a gran escala (Sarker, 2021). Los algoritmos de aprendizaje profundo extraen abstracciones complejas de alto nivel (Najafabadi et al., 2015), entre ellos destacan dos tipos que se distinguen por el método de entrada de datos: supervisado y no supervisado. El aprendizaje supervisado se realiza con datos conocidos (datos de entrenamiento) de la clase por identificar (Suárez et al., 2017), mientras que en el aprendizaje no supervisado, no se requiere conocimiento de las clases por determinar (Pérez y Arco, 2016). La entrada de un algoritmo de aprendizaje son los datos de entrenamiento y la salida suele adoptar la forma de otro programa informático que puede efectuar alguna tarea (Shalev-Shwartz y Ben-David, 2014).
En el campo del aprendizaje automático, las redes neuronales convolucionales (CNN, por sus siglas en inglés) han logrado mejoras considerables y han despertado un gran interés en las comunidades académicas e industriales (Krizhevsky et al., 2017) porque utilizan conexiones locales para extraer eficazmente la información espacial y los pesos compartidos (Chen et al., 2016). La CNN puede extraer características más eficaces con la ayuda de información específica de la clase (Chen et al., 2016), por lo que se requieren conjuntos de datos de entrenamiento grandes, y si es un problema de múltiples clases, que los datos estén balanceados (Suárez et al., 2017).
Existen diversos métodos para clasificar imágenes, pero no todos son aplicables a la clasificación de la cubierta terrestre (Macedo-Cruz et al., 2010). Por eso, y con la finalidad de valorar la precisión con la cual el aprendizaje profundo puede con redes neuronales convolucionales identificar patrones en la clasificación del uso de suelo y vegetación mediante datos de la reflectancia captada por los sensores remotos a bordo de plataformas satelitales, se planteó el estudio en las condiciones de la cuenca del río Atoyac-Salado, que debido a su diversidad de ecosistemas y sistemas productivos, desarrollo urbano, orografía y en particular la gran diversidad de clases de USV que convergen en ella, hacen que sea una zona idónea y desafiante para aplicar métodos de clasificación supervisada con inteligencia artificial.
El objetivo fue proponer y evaluar el desempeño de un método computacional basado en redes neuronales convolucionales para la clasificación supervisada de 22 clases distintas de USV en la cuenca del río Atoyac-Salado en el estado de Oaxaca.
Materiales y Métodos
La cuenca Río Atoyac-Salado se localiza en la parte central del estado de Oaxaca (Figura 1), entre los paralelos 16°49'25.86" y 17°11'34.09" de latitud norte y 96°17'23.60" y 96°43'41.66" de longitud oeste. Comprende desde el nacimiento del río Salado hasta la estación hidrométrica Oaxaca. Este tiene sus orígenes en San Francisco Telixtlahuaca, donde lleva el nombre de río Nariz, a una altitud aproximada de 2 418 m. Al sur de San Pablo Huitzo se denomina río Atoyac, y cruza la ciudad de Oaxaca de Juárez hasta la estación hidrométrica Oaxaca a una altitud aproximada de 1 500 m (Semarnat, 2017).
La delimitación de la cuenca del río Atoyac-Salado se realizó en ArcSWAT™ (2012.10_4.21) como una extensión del software ArcGIS™ (14.4.1), a partir del modelo digital de elevación de alta resolución LiDAR de Inegi con resolución de 15 m, proyección Universal Transversa de Mercator (UTM) zona 14. La salida de la cuenca se ubicó en la estación hidrométrica Paso Ancho.
Las unidades de análisis correspondieron a las distintas coberturas y usos del suelo del conjunto de datos vectoriales Serie VI escala 1:250 000 (Inegi, 2017). De las 22 clases de USV (Cuadro 1), se distinguen dos con mayor extensión: agricultura de temporal anual con 21.41 % de la superficie total y vegetación secundaria arbustiva de bosque de encino con 17.78 %. Se registraron tres tipos de agricultura: temporal, riego y humedad, que por su duración se dividieron en anuales, semipermanentes y permanentes. Con base en esta variabilidad de usos del suelo, la cuenca del río Atoyac-Salado resultó adecuada para aplicar métodos de clasificación supervisada con inteligencia artificial.
Clase | Clave | Tipo de uso del suelo y vegetación | Superficie (ha) |
---|---|---|---|
0 | AH | Urbano construido | 21 690.4 |
1 | BP | Bosque de pino | 1 384.1 |
2 | BPQ | Bosque de pino-encino | 10 157.7 |
3 | BQP | Bosque de encino-pino | 630.6 |
4 | HS | Agricultura de humedad semipermanente | 358.6 |
5 | PI | Pastizal inducido | 41 935.9 |
6 | RA | Agricultura de riego anual | 2 915.4 |
7 | RAS | Agricultura de riego anual y semipermanente | 3 836.2 |
8 | RS | Agricultura de riego semipermanente | 1 032.2 |
9 | TA | Agricultura de temporal anual | 79 647.6 |
10 | TAP | Agricultura de temporal anual y permanente | 15 552.3 |
11 | VSa/BP | Vegetación secundaria arbustiva de bosque de pino | 9 473.3 |
12 | VSa/BPQ | Vegetación secundaria arbustiva de bosque de pino-encino | 4 378.7 |
13 | VSa/BQ | Vegetación secundaria arbustiva de bosque de encino | 66 145.4 |
14 | VSa/BQP | Vegetación secundaria arbustiva de bosque de encino-pino | 11 682.1 |
15 | VSa/MK | Vegetación secundaria arbustiva de bosque de mezquite | 772.8 |
16 | VSa/SBC | Vegetación secundaria arbustiva de selva baja caducifolia | 8 138.4 |
17 | VSA/BP | Vegetación secundaria arbórea de bosque de pino | 10 569.2 |
18 | VSA/BPQ | Vegetación secundaria arbórea de bosque de pino-encino | 20 728.7 |
19 | VSA/BQ | Vegetación secundaria arbórea de bosque de encino | 19 473.6 |
20 | VSA/BQP | Vegetación secundaria arbórea de bosque de encino-pino | 6 210.4 |
21 | VSh/BQ | Vegetación secundaria herbácea de bosque de encino | 726.5 |
Total | 372 068.3 |
Imágenes de satélite
La misión Copernicus Sentinel-2 consta de dos satélites idénticos (2A y 2B) en la misma órbita, desarrollados por la Agencia Espacial Europea (ESA, https://www.esa.int/Applications/Observing_the_Earth/Copernicus/Sentinel-2). Equipados con un sensor óptico, el instrumento multiespectral tiene una resolución espacial que varía de 10 a 60 m en función de la banda espectral (Drusch et al., 2012), con 13 bandas en los intervalos visible, infrarrojo cercano e infrarrojo de onda corta del espectro electromagnético, y con un tiempo de revisita de 5 días en el Ecuador (Gascon et al., 2017).
Las imágenes utilizadas correspondieron a los Tiles T14QQD y T14QQE y a las bandas RGB y NIR de escenas multitemporales con resolución espacial de 10 m, adquiridos el 13 de abril de 2021 y el 3 de mayo de 2021, respectivamente. Ambas imágenes fueron capturadas por el satélite Sentinel-2A, con un nivel de procesamiento 2-A. Se seleccionaron escenas con poca o ninguna nube o neblina, y se descargaron del portal Copernicus Open Access Hub (https://scihub.copernicus.eu/). La unidad de muestreo consistió en recortes de 20×20 píxeles. El método de muestreo fue aleatorio estratificado (Congalton y Green, 2009) mediante conocimiento previo del área de estudio a partir de recorridos de campo para dividir el área en grupos o estratos, los cuales se muestrearon aleatoriamente.
Muestras de entrenamiento
Para extraer muestras de entrenamiento y delimitar el área de estudio se usó QGIS (3.18.3), las cuales se obtuvieron de 20×20×4 píxeles (alto, ancho y número de bandas) en formato .tiff, se consideró que al menos 80 % del recorte pertenecía a una sola clase. Se empleó un conjunto de entrenamiento balanceado para evitar realizar la clasificación con datos desequilibrados (Gnip et al., 2021). De cada clase de USV se extrajeron 6 000 muestras de entrenamiento, con excepción de las clases Agricultura de humedad de ciclo semipermanente con 2 280 y Agricultura de riego de ciclo semipermanente con 4 356 que por tener menor superficie, se evitó el sobremuestreo. En total, se generaron 126 636 muestras de entrenamiento.
Modelo de CNN
La programación del algoritmo del modelo de CNN se realizó en lenguaje Python en un entorno de desarrollo Jupyter notebook en el que se usaron bibliotecas de código abierto como Tensorflow y Keras para el aprendizaje automático. El modelo aplicado fue de tipo Secuencial, las capas de la red se ordenaron y apilaron linealmente (Xie et al., 2020). Todas las neuronas de una capa conectan con todas las de la capa siguiente, basado en secuencias de tres tipos de capas: convolucionales, de agrupación y totalmente conectadas. La convolución y las capas totalmente conectadas suelen ir seguidas de una función de activación no lineal (Rousset et al., 2021).
La arquitectura del modelo constó de tres capas convolucionales y tres de agrupación, de acuerdo a las sugerencias de Chen et al. (2016) para equilibrar la complejidad y la solidez de la red. Se usaron en cada capa 128 neuronas, un tamaño de Kernel de 3 por 3, con un mismo relleno (Padding). Se agregaron ceros alrededor de las imágenes de entrada; las salidas de la capa tuvieron las mismas dimensiones espaciales que sus entradas. Una función de activación denominada como Unidad Rectificada Lineal (ReLu) que devuelve 0 por cada valor negativo en la imagen de entrada y regresa el mismo valor por cada valor positivo, seguido de un filtro de submuestreo de agrupación promedio (Average-Pooling) que considera la media de los valores de activación de una ventana, además de una capa de regulación (Dropout) con 20 % de posibilidades de establecer las entradas en cero.
A continuación, una capa (Flatten) que aplana las salidas multidimensionales de la última capa de convolución en un formato unidimensional, y dos capas densas: una de 512 neuronas ocultas con una activación ReLu y capa Dropout a 20 %, y la última con 22 neuronas de salida que correspondieron al número de clases por identificar, con función de activación softmax para predecir la probabilidad de cada clase.
El entrenamiento es el proceso para que las entradas produzcan las salidas deseadas. Se lleva a cabo a partir del establecimiento de pesos conocidos con anterioridad (Vinet y Zhedanov, 2011). Para el ajuste de los pesos de las conexiones, se dividió el conjunto de datos en dos grupos: entrenamiento (80 %) y prueba (20 %). Los primeros, a su vez, se dividieron en entrenamiento (80 %) y evaluación (20 %), los cuales se introdujeron varias veces en la red y se denominó época a cada reiteración. El modelo se entrenó con 100 épocas.
Durante la fase de aprendizaje, se aplicó una función de transferencia a través de una serie de iteraciones para comparar los valores predichos con los valores observados (Bocco et al., 2007). El conjunto de pruebas no es visto por el modelo en el entrenamiento y se utiliza después, tras el ajuste de los hiperparámetros para proporcionar una evaluación imparcial del modelo final. Al realizar las épocas y ajustar los pesos, se ingresan los datos de validación. El entrenamiento finaliza cuando se alcanza un error bajo para todos los patrones de aprendizaje (Bocco et al., 2007). En la evaluación y prueba se utilizaron hiperparámetros: tamaño de Kernel, la tasa de abandono, las capas ocultas, la profundidad de las capas y las funciones de activación.
La compilación del modelo incluyó tres parámetros: optimizador, pérdida y métricas. Se usó Adam como algoritmo optimizador, ya que es computacionalmente eficiente, tiene pocos requisitos de memoria, es invariable al cambio de escala diagonal de los gradientes y adecuado para problemas grandes en términos de datos o parámetros (Kingma y Ba, 2014). Se compiló con la función entropía cruzada categórica y la métrica de rendimiento de interés fue la exactitud (accuracy), que se relaciona con la observación correctamente predicha y el total de observaciones.
La clasificación se evaluó con la matriz de confusión, ya que resume la evaluación de la precisión y representa una buena práctica (Olofsson et al., 2014). La matriz de doble entrada confronta los valores reales con los resultados de la clasificación, por lo que es fácil detectar dónde está confundiendo dos clases. Los elementos en la diagonal corresponden a la predicción correcta y los que están fuera de esta corresponden a predicciones incorrectas, tanto en forma horizontal como vertical (Yeturu, 2020). La proporción de puntos correctamente asignados expresa la confiabilidad (Mas et al., 2003). Además, se calcularon otras métricas de evaluación: la precisión, la sensibilidad y la puntuación.
Adicionalmente, el rendimiento del modelo se analizó con las variaciones de su sensibilidad y especificidad mediante la curva de características operativas del receptor (ROC), un parámetro para evaluar la bondad de la prueba. La exactitud de la prueba aumenta a medida que la curva se desplaza desde la diagonal hacia el vértice superior izquierdo. Un valor mayor indica que el modelo puede lograr un mejor rendimiento (Liu et al., 2022).
Resultados y Discusión
Los conjuntos de datos de entrenamiento y validación se utilizaron para proporcionar una evaluación insesgada del modelo entrenado, con el ajuste de los hiperparámetros para obtener el mejor rendimiento del modelo de red neuronal desarrollado (Figura 2).
La relación entre el número total de entradas identificadas correctamente y el número total de entradas dio la precisión global de la clasificación, la cual alcanzó un máximo de 89.44 % sobre los datos de entrenamiento y 84.57 % en validación durante 100 épocas.
Los resultados de la clasificación de imágenes se evaluaron utilizando la matriz de confusión. En la Figura 3, se muestran en color más claro las clases con mayor precisión en la clasificación y también con qué clase se confundió la clase ingresada. En este caso, la red confundió más las etiquetadas como 19 y 20, que correspondieron a vegetación secundaria arbórea de bosque de encino y vegetación secundaria arbórea de bosque de encino-pino debido a que son ecosistemas de vegetación natural similares, con predominio de formas de vida arbóreas, en las cuales cambia parcialmente el componente florístico, lo que puede explicar la confusión entre clases.
De acuerdo con los resultados, para las métricas de evaluación (Cuadro 2 y Figura 4), se aprecia un conjunto de puntuaciones medias (macro y ponderada) y exactitud con rendimiento general estimado de 85 % para todas las métricas, por lo que se consideró que el modelo de clasificación de uso del suelo y vegetación fue robusto. Estos resultados indican que el modelo tiene una baja dispersión del conjunto de valores obtenidos, con 85 % de casos positivos que fueron identificados correctamente por el algoritmo.
Clase | Precisión | Sensibilidad | Puntuación F1 |
---|---|---|---|
0 | 0.89 | 1 | 0.94 |
1 | 0.97 | 0.96 | 0.97 |
2 | 0.78 | 0.79 | 0.79 |
3 | 0.97 | 0.99 | 0.98 |
4 | 0.98 | 0.98 | 0.98 |
5 | 0.86 | 0.77 | 0.82 |
6 | 0.93 | 0.93 | 0.93 |
7 | 0.83 | 0.79 | 0.81 |
8 | 0.98 | 0.99 | 0.99 |
9 | 0.72 | 0.82 | 0.77 |
10 | 0.88 | 0.77 | 0.82 |
11 | 0.84 | 0.85 | 0.85 |
12 | 0.91 | 0.90 | 0.91 |
13 | 0.82 | 0.74 | 0.78 |
14 | 0.86 | 0.81 | 0.83 |
15 | 0.99 | 0.98 | 0.99 |
16 | 0.84 | 0.89 | 0.86 |
17 | 0.81 | 0.82 | 0.82 |
18 | 0.72 | 0.78 | 0.75 |
19 | 0.56 | 0.51 | 0.53 |
20 | 0.62 | 0.69 | 0.65 |
21 | 0.99 | 0.98 | 0.98 |
Exactitud | 0.85 | ||
Media macro |
0.85 | 0.85 | 0.85 |
Media
ponderada |
0.85 | 0.85 | 0.85 |
Durante el entrenamiento, la red experimentó un cambio positivo cuando se utilizó una capa de regulación (Dropout) con 20 % de posibilidades de establecer las entradas en cero, lo que permitió al modelo el ajuste de los datos minimizando el error producido por estos en cada época. Mientras que, al no usarse, hubo un punto en que el error aumentó y generó sobreentrenamiento.
En este trabajo, se utilizaron 22 clases distintas cuando habitualmente se emplean alrededor de 10. Por ejemplo, Suárez et al. (2017) usaron cuatro clases con 91.02 % de exactitud, Hu et al. (2018) clasificaron siete clases y 82 % en precisión, Bhosle y Musande (2019) clasificaron 16 y cuatro clases con precisiones de 97.58 y 79.43 %, respectivamente.
Los resultados obtenidos en rendimiento fueron altos, presentaron respuestas acertadas y mostraron avances para el procedimiento realizado con CNN en la clasificación automatizada de USV con 22 clases, a pesar de que la escala para crear las series tuvo el problema de generar grandes polígonos de clases de USV no representativas de la escala local (Paz-Pellat et al., 2019). Los resultados del presente trabajo fueron mejores en comparación con otros previos de clasificación con CNN, en los cuales se registró una exactitud de 83.27 % en entrenamiento y 91.02 % en validación para identificar cuatro clases (Suárez et al., 2017), y con precisiones de 90.18 % en clasificación de cobertura vegetal y de 87.92 % para uso del suelo en 12 clases (Zhang et al., 2019).
El modelo propuesto presentó resultados satisfactorios en un conjunto de datos muy desafiante, aun solo con el uso del aprendizaje supervisado. Una vez entrenado el conjunto de datos, la red experimentó un sobreajuste sustancial cuando se omite Dropout, pero no se informó sobreajuste cuando se agregó esta función (Srivastava et al., 2014).
Cabe destacar que al eliminar cualquiera de las capas intermedias, el rendimiento de la red se degrada (Krizhevsky et al., 2017) y supone una pérdida de alrededor de 5 % si se elimina una sola capa convolucional. La configuración de profundidad de la red CNN es fundamental en la precisión de la clasificación, ya que la calidad de las características aprendidas está influenciada por los niveles de representaciones y abstracciones (Zhang et al., 2019).
Los resultados muestran la idoneidad de las CNN para clasificar los USV en áreas complejas, sin embargo, su precisión puede variar a medida que se incremente el número de clases, como es el caso de los mapas de USV del Inegi en las que se consideran 70 clases con 15 agrupaciones (Paz-Pellat et al., 2019), por lo que probablemente se tendría que agrupar en clases espectralmente similares para hacer operativo un esquema de clasificación con aprendizaje profundo. En la actualidad, existen muchas otras opciones de aprendizaje profundo con arquitecturas más complejas con las que se podría avanzar en trabajos posteriores. Además, usar solo información de reflectancias de las bandas espectrales independientes puede ser limitante, por lo que se sugiere añadir capas de índices de vegetación.
Conclusiones
El modelo detecta correctamente las clases más separadas espectralmente y que poseen características diferenciales. No se afectan las clases con menor número de datos de entrenamiento, aunque clases próximas espectralmente registran índices de reconocimiento bajos. Los resultados mejoran al aumentar la red en número de capas y tiempo de entrenamiento, pero aún quedan órdenes de magnitud por superar para aumentar la precisión en la clasificación.
Se comprobó con suficiente precisión que el aprendizaje profundo con redes neuronales convolucionales, puede identificar patrones en los datos de la reflectancia captada por las imágenes del satélite Sentinel-2 para la clasificación del uso de suelo y vegetación en áreas con una dificultad intrínseca en la cuenca del Río Atoyac-Salado.