SciELO - Scientific Electronic Library Online

 
vol.18 número2Precios de transferencia de fondos en bancos de México entre febrero de 2012 y mayo de 2021Prima para la cobertura por exceso de contagios de COVID-19 índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • No hay artículos similaresSimilares en SciELO

Compartir


Revista mexicana de economía y finanzas

versión On-line ISSN 2448-6795versión impresa ISSN 1665-5346

Rev. mex. econ. finanz vol.18 no.2 Ciudad de México abr./jun. 2023  Epub 13-Mayo-2024

https://doi.org/10.21919/remef.v18i2.857 

Artículos de investigación y revisión

Efectos del endeudamiento de los hogares mexicanos en su ahorro y consumo: un enfoque de Ciencia de datos

Effects of Mexican Household Indebtedness on Their Savings and Consumption: A Data Science Approach

Guillermo Cerda-Guillén1  * 

Salvador Cruz-Aké1 

María Teresa Verónica Martínez-Palacios1 

1Instituto Politécnico Nacional, México


Resumen

El objetivo de esta investigación es agrupar muestras de hogares endeudados mexicanos que compartan atributos socioeconómicos similares mediante el algoritmo k-medias de manera que se estimen modelos no lineales para medir los efectos de la deuda de cada grupo en su ahorro y consumo. El algoritmo se implementó sobre hogares endeudados incluidos en la ENIGH 2018. Como resultado se conformaron cuatro clústeres donde uno sobresalió al conformar el 3.4% de la muestra, sin embargo, su tasa de endeudamiento promedio excede en 53 puntos porcentuales a la tasa de endeudamiento promedio del resto de los clústeres. Se recomienda el uso de técnicas de agrupación modernas para aprovechar la abundancia de datos oficiales y para elaborar políticas económicas, basadas en datos, dirigidas a grupos particulares de la población. La originalidad de esta investigación se basa en el uso de un algoritmo no supervisado para la elección de la muestra estudiada. Como conclusión los hogares con mayores niveles de sobreendeudamiento se conforman por aquellos donde el jefe cuenta con estudios superiores, indistintamente del decil de ingreso al que pertenezca el hogar.

Clasificación JEL: C14; D14; D15; E21

Palabras clave: endeudamiento; ahorro; consumo; k-medias

Abstract

This research aims to group samples of indebted Mexican households that share similar socioeconomic attributes using the k-means algorithm so that nonlinear models are estimated to measure the effects of each group's debt on their savings and consumption. The algorithm was implemented on indebted households included in the ENIGH 2018. As a result, four clústers were formed where one stood out by making up 3.4% of the sample; however, its average indebtedness rate exceeds the average indebtedness rate by 53 percentage points from the rest of the clústers. Modern clústering techniques are recommended to utilize the abundance of official data and develop data-driven economic policies targeted at particular population groups. The originality of this research is based on the use of an unsupervised algorithm for the choice of the studied sample. In conclusion, the households with the highest levels of over-indebtedness are made up of those where the head has higher education, regardless of the income decile to which the household belongs.

JEL Classification: C14; D14; D15; E21

Keywords: indebtedness; savings; consumption; k-means

1. Introducción

La conducta financiera de los hogares mexicanos varía en función de diversos factores. Es posible estudiar empíricamente dicha conducta mediante los datos recabados en las encuestas oficiales que contienen información sobre sus fuentes de ingreso, la manera en que financian su consumo, así como diversos atributos sociodemográficos que caracterizan dichos hogares.

En la literatura se encuentran investigaciones sobre el comportamiento de las variables financieras relacionadas con los hogares. Su estudio cobra relevancia desde el punto de vista microeconómico debido al impacto en el bienestar de los hogares que producen el acceso al crédito y el uso del ahorro como herramientas para suavizar el consumo ante la presencia de incertidumbre en los ingresos y restricciones de liquidez (Castellanos y Garrido, 2010; Fernández-García et al., 2012; Demirgüç-Kunt y Klapper, 2012; Bayer et al., 2019). La importancia del endeudamiento y el ahorro de los hogares en el ámbito macroeconómico radica en la relación entre el crecimiento del sistema financiero y los efectos positivos en el crecimiento económico, pues la demanda por el uso de instrumentos que permitan financiar el consumo y administrar el ahorro provocan en consecuencia el crecimiento de un sector que se encuentra en vías de volverse más inclusivo y que conlleva como beneficios económicos adicionales estabilidad y crecimiento (Venegas et al., 2009; Cardaci, 2018; Asteriou y Spanos, 2019).

Los datos estadísticos recopilados en la Encuesta Nacional de Ingresos y Gastos de los Hogares 2018 (INEGI - ENIGH, 2018) permiten la elaboración de análisis estadísticos con información relativa a los ingresos y gastos de los hogares junto con información de tipo sociodemográfica, donde las unidades de observación son el hogar y las personas. La información de la ENIGH tiene gran valor informativo ya que es utilizada como fuente de datos para el análisis y elaboración de políticas públicas. La segmentación de los hogares en función de su nivel de ingreso es la práctica más común dentro de la literatura referente análisis sobre las finanzas de los hogares incluyendo estudios sobre desigualdad (en sus distintas dimensiones) y pobreza. Una vez realizada la segmentación de los hogares, generalmente por cuantiles de ingreso, es posible la construcción de variables para implementar modelos econométricos utilizados para la medición de elasticidades sobre las variables de interés. El ingreso es una de las principales variables de estudio al momento de analizar el efecto de la deuda de los hogares en el consumo y el ahorro, ya que es uno de los principales determinantes de acceso al crédito; por lo que se asume que los hogares que pertenecen al cuantil de ingresos más bajos sean aquellos con menor acceso a los productos de crédito y ahorro disponibles en el sistema financiero. Al analizar los datos disponibles se encontró que la tasa de endeudamiento tiene un comportamiento distinto al esperado. Bajo un enfoque multivariado que considera características socioeconómicas distintas al nivel de ingresos encontramos que los efectos de la deuda en la tasa de ahorro y el consumo son distintos respecto a los grupos de hogares segmentados por cuantiles de ingreso.

Para segmentar la muestra de estudio se utilizó el algoritmo iterativo de agrupamiento k-medias (MacQueen, 1967), el cual consiste en clasificar datos que comparten atributos similares en grupos llamados clústeres. Los atributos utilizados al implementar el algoritmo sobre una muestra de grupos de hogares endeudados fueron la tasa de endeudamiento, el nivel educativo del jefe del hogar y la edad del jefe del hogar. Una vez que se formaron los grupos se estimaron modelos econométricos no lineales para determinar el efecto de la tasa de endeudamiento sobre la tasa de ahorro y los niveles de consumo de cada grupo, controlando para distintas variables socioeconómicas. Adicionalmente, se estimaron los modelos propuestos para encontrar los puntos críticos que muestran la existencia de efectos marginales de la tasa de endeudamiento de cada grupo de hogares en los niveles de consumo y la tasa de ahorro.

Los factores socioeconómicos distintos del nivel de ingresos permiten caracterizar el comportamiento financiero de aquellos hogares con atributos similares a pesar del cuantil de ingresos al que pertenecen. Los hallazgos que se presentan en la investigación son de relevancia para efectos de implementación de políticas públicas diferenciadas que complementen, por ejemplo, la Política Nacional de Inclusión Financiera impulsada por la Comisión Nacional Bancaria y de Valores, ya que al hacer una clasificación de hogares por grupos distintos a los cuantiles de ingreso es posible encontrar distintos efectos de los niveles de endeudamiento en el consumo y el ahorro. Adicionalmente, al momento de la elaboración de este trabajo no hay alguna investigación que utilice la metodología propuesta para agrupar hogares endeudados con el fin de estudiar los efectos de dicha deuda sobre el ahorro y el consumo.

Esta investigación se organiza de la siguiente forma. La sección 2 contiene una breve revisión de la literatura referente a las investigaciones relevantes en el ámbito de las finanzas de los hogares, las variables relacionadas y las investigaciones sobre la conducta de los hogares más recientes apoyadas en el algoritmo k-medias. La sección 3 describe la metodología utilizada para la elaboración de la investigación. La sección 4 contiene la descripción de los datos utilizados. La sección 5 comprende la especificación de los modelos econométricos estimados y los resultados obtenidos. Finalmente, la sección 6 contiene las conclusiones.

2. Breve revisión de la literatura

Las investigaciones sobre las finanzas de los hogares tienen como principal objetivo estudiar las decisiones de consumo y gasto de los integrantes de los hogares y cómo estos utilizan los instrumentos financieros disponibles en los mercados; estas se realizan a partir de datos agregados o microdatos (Guiso y Sodini, 2013; Badarinza, et al., 2016; Baker, 2018). En el caso mexicano los estudios sobre las finanzas de los hogares suelen enfocarse en el análisis de las pautas o trayectorias que siguen el consumo, el ingreso y el ahorro a lo largo del ciclo de vida de los hogares con el fin de documentar el comportamiento de la totalidad de los hogares o sólo de ciertos segmentos. Se encuentra el trabajo de Székely (1998), donde se documenta por primera vez, mediante un análisis econométrico, el comportamiento del ahorro de los hogares utilizando datos de las Encuestas Nacionales de Ingresos y Gastos de los Hogares levantadas en 1984, 1989 y 1992. Este estudio es relevante en la literatura sobre la desigualdad de ingresos en México ya que uno de los hallazgos documentados implica que los hogares mexicanos que se ubican en los tres deciles más altos en la distribución de ingresos del país son quienes concentran las decisiones de ahorro, y que aproximadamente el 75% del ahorro de los hogares se concentraba en el último decil. Fuentes y Villagómez (2001) elaboran un estudio por cohortes del ahorro de los hogares, enfocando su estudio hacia las pautas de ahorro de los hogares de ingresos bajos en México utilizando datos de las Encuestas Nacionales de Ingresos y Gastos de los Hogares de 1984 a 1996. De las estimaciones econométricas, obtenidas a partir de una regresión de la tasa de ahorro contra un polinomio en edad, el autor encuentra evidencia sobre la trayectoria del ahorro a lo largo del ciclo de vida de los jefes de los hogares más pobres que se contraponen al comportamiento predicho en la teoría del ciclo de vida Modigliani (Modigliani y Brumberg, 1954; Modigliani, 1986) dado que dicho modelo no considera la presencia de restricciones de liquidez o motivos precautorios para el ahorro, mismos que se presentan en los hogares más pobres. Estudios posteriores confirman los hallazgos mencionados anteriormente, pero utilizando periodos de tiempo más extensos, tal es el caso de las investigaciones de Villagómez (2014) y de Campos y Meléndez (2013), donde adicionalmente se documenta cómo los hogares mexicanos destinan menos del 20% de sus ingresos al gasto en bienes duraderos y se encuentra una alta correlación entre los comportamientos de consumo y ahorro de los hogares segmentados según el nivel de escolaridad del jefe del hogar y la ubicación del hogar según sea en zonas rurales o urbanas.

Otra variable para considerar dentro del estudio del financiamiento del consumo de los hogares, además del ahorro, es la utilización del crédito. Una de las primeras investigaciones respecto al papel del crédito en las finanzas de los hogares es el de Herendeen (1974) donde analiza el papel del crédito en la generación de utilidad para los hogares, su influencia en la inversión, el ahorro y el consumo, así como la importancia del papel de las instituciones financieras en la promoción del uso del crédito y la inclusión financiera. Investigaciones posteriores muestran evidencia sólida sobre la relación entre el crecimiento del sistema financiero y crecimiento económico, tanto en México como a nivel internacional (Demetriades y Hussein, 1996; Arestis y Demetriades, 1997; Levine, 2002; Levine, 2005; Correa, Vidal y Marshall, 2013; Tinoco-Zermeño, Venegas-Martínez y Torres-Preciado, 2014). Es en este contexto donde cobra relevancia el estudio del uso de la deuda de los hogares en México, no sólo para describir su importancia como generadora de utilidad para los hogares, sino como evidencia de la caída en el poder adquisitivo de los hogares más pobres y de ingresos medios, y su uso como sustituto del ingreso monetario como medio para suavizar la trayectoria del consumo de los hogares a lo largo de su ciclo de vida (Grajeda et al., 2013).

El uso de técnicas computacionales para el agrupamiento de datos comienza a cobrar popularidad dentro del área de estudio de las encuestas de hogares que contienen información socioeconómica. Entre los trabajos más recientes encontramos el trabajo de Maion et al. (2019) donde presentan un estudio con microdatos provenientes de una encuesta compuesta por más de setenta variables de tipo numéricas y categóricas con información de 476 hogares del sector agrícola distribuidos en seis ciudades de Brasil. Utilizando minería de datos y análisis de clústeres con una extensión del algoritmo k-medias obtienen un modelo para la clasificación de hogares en dos grupos según las variables seleccionadas con el fin de pronosticar la asignación de futuros hogares dentro de cada grupo o clúster. En el trabajo de Dogan et al. (2019) se analiza el gasto en salud de una muestra de 1,021 hogares en Turkia con datos de la encuesta de presupuesto de los hogares de 2017 mediante un análisis de clústeres con una extensión del algoritmo k-medias sobre datos categóricos con seis variables socioeconómicas. En el estudio se clasificaron los hogares en cinco grupos y se examinaron los gastos catastróficos en salud de cada grupo y sus determinantes. En Källestål et al. (2020) se elabora un estudio multidimensional de la pobreza en Nicaragua con información de la base de datos de vigilancia sanitaria y demográfica de Cuatro Santos para el año 2014. La muestra se compone por 5,966 hogares y 56 variables incluyendo información socioeconómica y demográfica. Con el algoritmo k-medias se identifican grupos de hogares donde se analizan distintas dimensiones de pobreza con el fin de entender mejor el desarrollo de la pobreza entre cada grupo considerando las variables de estudio.

3. Metodología

Para abordar el estudio sobre el efecto del endeudamiento sobre el ahorro y el consumo en los hogares mexicanos se utilizaron microdatos de tipo corte transversal obtenidos de la Encuesta Nacional de Ingresos y Gastos de los Hogares (ENIGH) 2018. Esta encuesta se elabora con periodicidad bianual desde 1992 y presenta información estadística sobre diversas características sociodemográficas y económicas de los integrantes de los hogares mexicanos. La unidad de muestreo son las viviendas particulares, el tamaño de la muestra nacional es de 34,744,818 hogares que representan a 125,091,790 habitantes, lo que asegura la representatividad de la muestra seleccionada. El criterio principal para la selección de la muestra de este trabajo fue la elección de hogares que contaran al menos con algún tipo de deuda de entre deudas en tarjeta de crédito o comerciales, hipotecas y deudas contraídas con la empresa donde trabajan u otras personas e instituciones. Al discriminar por los hogares que cumplen con dichas características se obtuvo una muestra conformada por 5,672,534 hogares. Esto indica que aproximadamente el 16% de los hogares del país mantuvieron algún tipo de deuda al momento del levantamiento de la encuesta.

Con la muestra seleccionada se implementó un algoritmo de agrupamiento por k-medias con el objetivo de crear grupos de hogares con características económicas similares, tales como tasa de ahorro, tasa de endeudamiento, gasto e ingreso monetario. Las variables monetarias corresponden a flujos trimestrales a precios corrientes de 2018. Una vez que se encontró el número más conveniente de grupos de hogares se hicieron las estimaciones de los modelos correspondientes a los efectos no lineales del endeudamiento sobre la tasa de ahorro y el consumo de cada grupo, controlando por variables económicas y sociodemográficas.

4. Descripción de datos

A continuación, se describen las variables económicas y sociodemográficas que componen la muestra.

Gasto corriente monetario. Comprende los gastos que efectúan los hogares para el consumo de bienes y servicios. El INEGI lo compone por la suma nueve categorías: alimentos y bebidas, vestido y calzado, vivienda y gasto en servicios relacionados con esta, artículos y servicios para el cuidado del hogar, gastos en cuidado de salud, gastos en transporte y comunicaciones, gasto en educación y esparcimiento, gasto en cuidados personales y transferencias de gasto.

Ingreso corriente. Se define como el ingreso destinado para la adquisición de productos y servicios de consumo final y privado. Corresponde a los ingresos de los hogares dividido en cinco categorías: ingreso por su trabajo, rentas por posesión de activos financieros o tangibles, transferencias, estimación del alquiler de la vivienda propia y otro tipo de ingreso corriente.

Tasa de ahorro. La tasa de ahorro es una variable construida a partir del cociente de, la diferencia entre el ingreso corriente y el gasto corriente, y el ingreso corriente de los hogares. Indica la proporción del monto ahorrado respecto al ingreso de los hogares.

Tasa de endeudamiento. Es una variable construida que representa la razón deuda-ingreso y describe la proporción de las deudas contraídas respecto al ingreso de los hogares. La deuda de los hogares se calculó como la suma del gasto por concepto de las siguientes variables:

  1. Pago por tarjeta de crédito. Corresponde a la cifra pagada por tarjeta de crédito bancaria o comercial.

  2. Pago de deudas. Representa el pago de deudas del hogar a la empresa donde laboran, a otras personas o instituciones, excluyendo créditos hipotecarios.

  3. Pago de hipotecas de bienes inmuebles. Representa el flujo destinado al pago de hipotecas de casas, locales, terrenos, edificios y otros.

Se consideró la selección de dichas variables debido a la relevancia que tienen en la composición del portafolio de deudas formales de los hogares de acuerdo con la Encuesta Nacional de Inclusión Financiera (ENIF) 2018 elaborada por el INEGI. De acuerdo con la información de la encuesta, la deuda conformada por tarjetas de crédito bancarias y comerciales representa aproximadamente el 67%, el crédito hipotecario representa aproximadamente el 15%, y los créditos personales y de nómina suman aproximadamente el 11% del total de las deudas formales.

La gráfica 1 muestra las tasas promedio de ahorro y endeudamiento por decil de ingreso para la muestra de hogares endeudados. Respecto a la tasa de ahorro se aprecia su tendencia creciente conforme se incrementan los ingresos de los hogares endeudados. Los hogares que pertenecen al primer decil tienen, en promedio, una tasa de ahorro negativa. La tasa de endeudamiento se mantiene relativamente estable a partir del segundo decil, sin embargo, el primer decil muestra la tasa de endeudamiento promedio más elevada respecto al resto de los deciles.

Fuente: Elaboración propia con datos de la ENIGH 2018

Gráfica 1 Tasas de ahorro promedio y de endeudamiento promedio para la muestra por deciles de ingreso.  

Localidad. Esta variable hace referencia al tamaño de la localidad por número de habitantes. Esta variable ayuda a definir si el hogar es parte de la población urbana o rural. De acuerdo con el INEGI se considera una población rural cuando tiene menos de 2,500 habitantes, de lo contrario se considera como población urbana. El 65% de los hogares endeudados se localizan en zonas urbanas, y el resto en zonas rurales.

Educación formal del jefe del hogar. El INEGI hace una clasificación de 11 niveles educativos, siendo el primer el que corresponde a no contar con instrucción y el onceavo el correspondiente a estudios de posgrado. La gráfica 2 muestra la distribución de la deuda de los hogares de la muestra por nivel educativo. Para la muestra seleccionada se observa que aproximadamente la tercera parte de las deudas se concentra en los hogares donde el jefe del hogar cuenta con estudios de nivel superior y posgrado, mientras que la mitad de la deuda se concentra en aquellos donde no cuenta con instrucción formal y con nivel de educación básica.

Fuente: Elaboración propia con datos de la ENIGH 2018.

Gráfica 2 Participación de la deuda de los hogares por nivel educativo. 

Edad del jefe del hogar. El INEGI define a la edad del jefe del hogar como los años transcurridos entre la fecha de nacimiento del jefe del hogar y la fecha de la elaboración de la encuesta. La muestra comprende los hogares endeudados donde el rango de edad del jefe del hogar es de 17 años hasta 75 años. Los datos muestran que aproximadamente la mitad de la deuda se concentra en los hogares cuyo rango de edad del jefe del hogar se encuentra entre 37 años y 56 años.

Sexo del jefe del hogar. Es la distinción como hombre o mujer del jefe del hogar. En la muestra, los hogares donde el jefe de los hogares endeudados es hombre se concentra el 74% de las deudas, mientras que el 26% lo mantienen los hogares donde el jefe es mujer.

La gráfica 3 muestra la composición de la deuda de la muestra por rango de edades y sexo. Se observa que en la medida en que el jefe del hogar envejece, se disminuye la participación de la deuda por parte de los hogares con jefe del sexo masculino, sin que este deje de mantener la mayor proporción de la deuda de los hogares seleccionados.

Fuente: Elaboración propia con datos de la ENIGH 2018.

Gráfica 3 Participación de la deuda de los hogares por rango de edad y sexo 

4.1 Agrupamiento de los hogares y el algoritmo k-medias.

Las variables utilizadas para identificar los hogares que componen cada grupo fueron consideradas como atributos son la tasa de endeudamiento, el nivel educativo del jefe del hogar y la edad de este. Se eligió la tasa de endeudamiento de los hogares por ser la principal variable explicativa. El comportamiento de esta variable no es creciente en función del nivel de decil de ingreso como se muestra en la gráfica 4.

Fuente: Elaboración propia con datos de la ENIGH 2018.

Gráfica 4 Tasa de endeudamiento por decil de ingreso para los hogares endeudados.  

El nivel educativo del jefe del hogar se consideró como una variable de importancia ya que la tasa de endeudamiento según el nivel educativo muestra una tendencia creciente; sin embargo, los hogares en los que el jefe no tiene educación formal muestran una tasa de ahorro 6% mayor que aquellos en los que el jefe del hogar tiene estudios de posgrado, como se muestra en la gráfica 5. Si se toma en cuenta que la mayoría de los hogares donde el jefe no tiene educación formal se concentran en los deciles más pobres, entonces se asume que esta variable es relevante en la formación de grupos de hogares. Se consideró la edad del jefe de hogar por reflejar el comportamiento de las variables de estudio a lo largo del ciclo de vida.

Fuente: Elaboración propia con datos de la ENIGH 2018.

Gráfica 5 Distribución de las tasas de ahorro promedio, tasa de endeudamiento promedio y consumo por nivel educativo en hogares endeudados.  

La gráfica 6 muestra un comportamiento constante de la tasa de endeudamiento promedio por rango de edad mientras se observa una tendencia creciente en la tasa de ahorro de los hogares endeudados.

Fuente: Elaboración propia con datos de la ENIGH 2018.

Gráfica 6 Distribución de la tasa de ahorro promedio, tasa de endeudamiento promedio y consumo por rangos de edad.  

El proceso para agrupar los hogares en clústeres y la estimación del modelo consistió en los siguientes pasos.

  1. Selección de la muestra a partir de los datos contenidos en la ENIGH 2018:

    1. Selección de hogares que tienen al menos uno de los siguientes tipos de deuda: tarjeta de crédito, crédito hipotecario y pago de deuda.

    2. Selección de hogares donde el jefe del hogar se encuentra en el rango de edad de 17 a 75 años.

  2. Determinación del número óptimo de clústeres en función de la muestra seleccionada mediante la normalización de los datos y posterior ejecución del método elbow para encontrar el número óptimo de clústeres.

  3. Implementación del algoritmo k-medias para los atributos seleccionados (tasa de endeudamiento, nivel educativo y edad del jefe de hogar) y el número óptimo de clústeres.

  4. Estimación de los modelos no lineales para cada clúster.

4.2 Algoritmo k-medias.

El algoritmo k-medias es parte de las técnicas de agrupamiento no supervisadas del aprendizaje automático y se introdujo por primera vez por MacQueen (1967). Las técnicas de aprendizaje supervisado se utilizan principalmente para predecir la respuesta de una variable Y dado un conjunto de características X1,,Xp para n observaciones. En las técnicas de agrupamiento no supervisadas, solo hay un conjunto de p características X1,,Xp medidas para n observaciones y no se busca la predicción del comportamiento de una variable Y (Huang, 2014). Por lo tanto, el objetivo de la implementación del algoritmo es agrupar las observaciones en función de las similitudes entre los atributos de los datos.

El objetivo del algoritmo es segmentar un conjunto de datos en diferentes k-grupos. Para ello, es necesario especificar con anticipación el número de grupos. Posteriormente se ejecuta el algoritmo que asigna cada observación de la muestra al grupo o clúster correspondiente. El objetivo es minimizar la variación total dentro del grupo (variación total intra-clúster). Hartigan y Wong (1979) definen la variación total dentro del grupo como:

WCk=xiCkxi-μk2 (1)

donde xi representa la observación i del clúster Ck , y μk representa el valor medio de los puntos de datos agrupados en el clúster Ck . Entonces se resuelve el siguiente problema de optimización:

MinimizarC1, ...,Ckk=1kWCk (2)

donde WCk mide las distancias euclidianas cuadráticas entre cada observación y su centro correspondiente o centroide.

4.3 Método para la determinación del número óptimo de clústeres (k).

El método utilizado para encontrar el número óptimo de clústeres en el algoritmo k-medias fue el método iterativo-gráfico llamado “método elbow” que consiste en la búsqueda de la reducción de la suma total de cuadrados dentro de cada clúster (total within-clúster sum of squares) mediante el siguiente proceso iterativo:

  1. Ejecute el algoritmo k-medias para diferente número de clústeres.

  2. Calcular la suma total de cuadrados dentro de cada clúster.

  3. Grafique el valor de la suma total de cuadrados dentro de cada clúster contra el número de k clústeres para cada una de las ejecuciones.

  4. Identifique el punto de inflexión en la gráfica y seleccione el número correspondiente de k clústeres como el número óptimo de grupos.

Para el caso de la muestra seleccionada, el número óptimo de grupos fue k = 4 .

Fuente: Elaboración propia con datos de la ENIGH 2018 utilizando la librería NbClust (Charrad et al., 2014) en lenguaje R.

Gráfica 7 Implementación del método elbow para determinar el número óptimo de clústeres.  

5. Especificación de los modelos y resultados

Para medir el efecto del endeudamiento sobre el ahorro y el consumo se proponen dos regresiones, la primera se estima sobre la tasa de ahorro, sik , y el segundo sobre el logaritmo del gasto monetario, logcik , como proxy del consumo para cada hogar (i) y clúster (k).

Modelo ahorro:

sik=αk+β1logingik+β2drik+β3drik2+β4urbanoik+β5eduik+β6edadik+β7edadik2+β8sexoik+εik (3)

Modelo consumo:

logcik=αk+β1logingik+β2drik+β3drik2+β4urbanoik+β5eduik+β6edadik+β7edadik2+β8sexoik+εik (4)

En cada modelo, el coeficiente de endeudamiento cuadrático se incluye de tal manera que es posible identificar los efectos decrecientes o crecientes del coeficiente de la tasa de endeudamiento sobre las variables dependientes correspondientes de modo que el punto crítico (límite de endeudamiento) se puede calcular a partir de los coeficientes del modelo como β^2/2β^3 .

A continuación, se describen las variables que componen los modelos econométricos.

Cuadro 1 Descripción de variables. 

Variables dependientes
Variable Descripción
sik
Tasa de ahorro
cik
Gasto monetario
Variables económicas explicativas
ingik
Ingreso monetario
drik
Tasa de endeudamiento.
drik2
Cuadrado de la tasa de endeudamiento.
Variables explicativas sociodemográficas
urbanoik
Tipo de localidad (urbana o rural)
eduik
Años de educación jefe del hogar
edadik
Edad del jefe del hogar
edadik2
Cuadrado de la edad jefe del hogar
sexoik
Sexo jefe hogar

Fuente: Elaboración propia con datos de la ENIGH 2018.

6. Resultados

Una vez que se implementó el algoritmo k-medias sobre la muestra de hogares endeudados seleccionados se conformaron cuatro clústeres que comparten atributos similares respecto a la tasa de endeudamiento, nivel educativo del jefe del hogar y edad del jefe del hogar. El segundo clúster sobresale de entre el resto debido a que está conformado por hogares con altas tasas de endeudamiento, esto se refleja en la tasa de endeudamiento promedio del clúster del 61.5%, además de ser el clúster que cuenta con el menor número de observaciones, las cuales representan al 3.4% de hogares de la muestra. Los clústeres 1, 3 y 4 muestran tasas de endeudamiento del 7.2%, 10.1% y 8.1% respectivamente y en cada uno se distribuye la cantidad de hogares restantes en la muestra de forma relativamente homogénea.

Cuadro 2 Tasa de endeudamiento por clúster. 

Clúster Tasa de endeudamiento
1 7.2%
2 61.5%
3 10.1%
4 8.1%

Fuente: Elaboración propia.

La gráfica 8 muestra la distribución de los hogares por deciles de ingreso contenidos en cada uno de los clústeres de la muestra. El nivel de ingresos no se contempló como atributo para la conformación de los clústeres, sin embargo, se observa que los hogares dentro de cada clúster se distribuyen con patrones distintos considerando los distintos deciles de ingreso intra-clúster.

Fuente: Elaboración propia con datos de la ENIGH 2018.

Gráfica 8 Distribución de la muestra de hogares por deciles de ingresos intra-clúster.  

La gráfica 9 muestra la distribución de la tasa de endeudamiento promedio para los hogares en cada clúster por decil de ingreso. La gráfica muestra los niveles de sobreendeudamiento de los hogares incluidos en el clúster 2, siendo los hogares del decil más pobre los más endeudados. La tasa de endeudamiento de los hogares del resto de los clústeres se mantiene constante a través de la distribución del ingreso.

Fuente: Elaboración propia con datos de la ENIGH 2018.

Gráfica 9 Distribución de la tasa de endeudamiento promedio por deciles de ingresos intra-clúster.  

Respecto a la distribución de las edades del jefe del hogar en cada clúster podemos observar en la gráfica 10 la manera en que el algoritmo consideró este atributo en el proceso de clasificación de hogares. El clúster 1 concentra hogares donde la edad del jefe se distribuye principalmente entre los 17 y 46 años con un promedio de 37 años, es el caso contrario para el clúster 4 donde las edades de los jefes del hogar se concentran en el rango de los 47 a los 75 años con un promedio de 59 años. En los clústeres 2 y 3 las edades de los jefes del hogar se distribuyen aproximadamente de manera normal con edades promedio de 49 y 45 años respectivamente.

Fuente: Elaboración propia con datos de la ENIGH 2018.

Gráfica 10 Distribución edades del jefe del hogar intra-clúster.  

La gráfica 11 muestra la distribución de los hogares intra-clúster por nivel educativo. La distribución del nivel educativo de los jefes de los hogares del clúster 2 es más heterogénea respecto al resto de los clústeres, siendo este el clúster con la tasa de endeudamiento promedio más elevada y con el mayor porcentaje de jefes del hogar con estudios profesionales. Para los clústeres 1, 3 y 4 el algoritmo concentró los hogares donde el jefe tiene niveles de educación principalmente básica, profesional y básica respectivamente.

Fuente: Elaboración propia con datos de la ENIGH 2018.

Gráfica 11 Distribución de jefes del hogar intra-clúster por nivel educativo.  

Los resultados de la regresión para el clúster 1 se muestran en el cuadro 3. Cabe destacar que los coeficientes para la tasa de endeudamiento, dri1 , resultaron estadísticamente significativos al nivel de significancia del 5% para los modelos de ahorro y consumo, sin embargo, no fue el caso para los coeficientes de la tasa de endeudamiento al cuadrado en ambas variables dependientes. En el caso del modelo de consumo se observa una relación cuadrática decreciente con los coeficientes de la tasa de endeudamiento, lo que implicaría que los hogares del clúster reducen sus niveles de consumo al exceder su tasa de endeudamiento del 57.7%. Este resultado es trivial, ya que la tasa de endeudamiento máxima en este clúster no excede al 40%.

Cuadro 3 Resultados de la estimación para el clúster 1. 

Clúster 1
Variables dependientes
si1
logci1
Intercepto -

2.2738

(0.1768)

2.6939

(0.1987)

logingi1

0.2921

(0.0109)

0.6501

(0.0122)

dri1
-

0.1073

(0.2395)

0.5885

(0.269)

dri12
-

1.8223

(0.8753)

-0.5098

(0.9835)

urbanoi1
-

0.0602

(0.0124)

0.083

(0.0139)

edui1
-

0.0768

(0.0125)

0.0948

(0.0141)

edadi1
-

0.0212

(0.0078)

0.0208

(0.0087)

edadi12

0.0003

(0.0001)

-0.0003

(0.0001)

sexoi1

0.009

3(0.0146)

-

0.0221

(0.0164)

Tasa de endeudamiento promedio 7.2%
Límite de endeudamiento 2.9% 57.7%
Número de observaciones 4 398
Número de hogares 1 865 324
R2
0.1621 0.4672

Fuente: Elaboración propia.

El modelo de tasa de ahorro para el clúster 2 muestra que los coeficientes del índice de deuda no son estadísticamente significativos al nivel de significancia del 5%, sin embargo, si lo son para el modelo de consumo. Hay un efecto marginal decreciente de la tasa de endeudamiento sobre el logaritmo del consumo, el límite de la tasa de endeudamiento indica que a partir de una tasa de endeudamiento de aproximadamente 344% los niveles de consumo comienzan a decrecer. Sólo 608 hogares, es decir, el 0.3% de los hogares incluidos en este clúster estarían en riesgo de disminuir sus niveles de consumo a causa del sobreendeudamiento. Los coeficientes relacionados con la tasa de endeudamiento en el modelo de ahorro resultaron no ser significativos.

Cuadro 4 Resultados de la estimación para el clúster 2. 

Clúster 2
Variables dependientes
si2
logci2
Intercepto -

8.7195

(1.8097)

3.7643

(0.6733)

logingi2

1.005

3(0.1048)

0.5341

(0.039)

dri2

-0.672

(0.5652)

0.758

(0.2103)

dri22

0.0511

(0.1453)

-0.1101

(0.054)

urbanoi2
-

0.3253

(0.1931)

0.1038

(0.0719)

edui2
-

0.4014

(0.1064)

0.2126

(0.0396)

edadi2
-

0.0238

(0.0555)

0.0072

(0.0206)

edadi22

0.0003

(0.0006)

-0.0001

(0.0002)

sexoi2
-

0.115

(0.1994)

-

0.0916

(0.0742)

Tasa de endeudamiento promedio 61.5%
Límite de endeudamiento 657.4% 344.4%
Número de observaciones 376
Número de hogares 193 418
R2
0.2460 0.5153

Fuente: Elaboración propia.

La estimación del modelo de consumo para el clúster 3 muestra que el coeficiente de la tasa de endeudamiento es estadísticamente significativo al nivel de significancia del 5%. La tasa de endeudamiento tiene un efecto marginal decreciente sobre el logaritmo del consumo, pues a partir de un límite de endeudamiento de aproximadamente 42% los niveles de consumo comienzan a decrecer. Esto afecta a 4,468 hogares dentro del clúster, es decir, aproximadamente al 0.02% de la muestra incluida en el grupo. Los coeficientes de la tasa de endeudamiento en el modelo de ahorro no resultaron estadísticamente significativos al nivel de significancia del 5%.

Cuadro 5 Resultados de la estimación para el clúster 3. 

Clúster 3
Variables dependientes
si3
logci3
Intercepto -

1.974

(0.1533)

2.21

(0.1687)

logingi3

0.2387

(0.0111)

0.696

(0.0123)

dri3
-

0.3024

(0.2461)

0.8734

(0.2709)

dri32
-

0.9929

(0.749)

-1.0421

(0.8246)

urbanoi3
-

0.0209

(0.0193)

0.0248

(0.0212)

edui3
-

0.0933

(0.019)

0.1358

(0.021)

edadi3
-

0.0044

(0.0042)

0.0119

(0.0047)

edadi32

0.0001

(0)

-0.0002

(0)

sexoi3

0.0227

(0.0166)

-0.0222

(0.0182)

Tasa de endeudamiento promedio 10.1%
Límite de endeudamiento 15.2% 41.9%
Número de observaciones 3 287
Número de hogares 1 887 890
R2
0.1537 0.5519

Fuente: Elaboración propia.

En el clúster 4 las tasas de endeudamiento son estadísticamente significativas para los modelos de ahorro y consumo. En el modelo de ahorro la tasa de endeudamiento tiene un efecto creciente. El límite de la tasa de endeudamiento para el modelo de ahorro indica que los hogares del clúster, al exceder una tasa de endeudamiento de aproximadamente 22% la tasa de ahorro comienza a crecer. En este caso encontramos 114,615 hogares dentro del clúster, los cuales representan aproximadamente al 6.6%. En el modelo de consumo las tasas de endeudamiento son estadísticamente significativas y se observa un efecto marginal decreciente sobre los niveles de consumo. El límite de la tasa de endeudamiento indica que a partir de una tasa de endeudamiento de aproximadamente 18.8% los niveles de consumo de los hogares del clúster disminuyen. En este caso encontramos 171,974 hogares dentro del clúster que representan aproximadamente al 10% de la muestra.

Cuadro 6 Resultados de la estimación para el clúster 4. 

Clúster 4
Variables dependientes
si4
logci4
Intercepto -

2.1938

(0.4078)

2.5782

(0.4974)

logingi4

0.1937

(0.0092)

0.7324

(0.0112)

dri4
-

0.6964

(0.2192)

0.8371

(0.2674)

dri42

1.571

(0.7026)

-2.2282

(0.8571)

urbanoi4

0.0168

(0.0129)

0.0025

(0.0157)

edui4
-

0.0793

(0.0134)

0.1115

(0.0164)

edadi4

0.0145

(0.0135)

-0.0077

(0.0165)

edadi42
-

0.0001

(0.0001)

0

(0.0001)

sexoi4

0.0446

(0.0131)

-

0.0569

(0.016)

Tasa de endeudamiento promedio 8.1%
Límite de endeudamiento 22.2% 18.8%
Número de observaciones 3 922
Número de hogares 1 725 712
R2
0.1252 0.5688

Fuente: Elaboración propia.

7. Conclusiones

Actualmente es posible hacer hallazgos relevantes dentro de los grandes cúmulos de datos disponibles a partir del uso de computadoras personales junto con algoritmos desarrollados por científicos de la computación. En el contexto económico se modela la conducta de los hogares a partir de microdatos recabados por instituciones públicas y privadas, mismos que son sujetos de análisis econométrico, ya sea para fines comerciales o para el desarrollo de políticas públicas. En esta investigación utilizamos el algoritmo k-medias con el fin de aportar nuestra metodología al campo del estudio de las finanzas de los hogares. Al hacer una clasificación de hogares endeudados por atributos distintos al ingreso es posible encontrar diversos efectos de los niveles de endeudamiento sobre el consumo y el ahorro. Factores socioeconómicos distintos al nivel de ingreso permiten caracterizar la conducta financiera aquellos hogares con atributos similares a pesar del decil de ingresos al que pertenecen. En esta investigación se muestra que tener un mayor nivel educativo, o pertenecer al decil de ingresos más pobre de la población no implica que se mantengan niveles de endeudamiento sanos. El contexto socioeconómico de los hogares puede explicar los niveles de endeudamiento observados; es probable que los hogares endeudados con los menores niveles de ingreso utilicen la deuda como complemento de sus escasos ingresos, y los hogares en el decil de ingresos más rico probablemente excedan los niveles sanos de endeudamiento debido a la sobreoferta de productos de crédito disponibles en el mercado. Finalmente, es necesario realizar un análisis a futuro una vez que estén disponibles los datos de ingreso gasto de los hogares después de la crisis sanitaria ocasionada por el virus SARS-CoV-2, esto debido al cambio esperado en los patrones de consumo y ahorro de los hogares mexicanos independientemente del nivel socioeconómico al que estos pertenezcan. Un cambio en el patrón de consumo de bienes no esenciales, ocasionado por el confinamiento, reduciría la demanda por instrumentos de crédito al consumo por lo que se esperaría una reducción en las tasas de endeudamiento de los hogares que lo utilizan de forma más intensiva. En este sentido se esperaría un incremento en las tasas de ahorro como efecto del ahorro precautorio ocasionado por la incertidumbre ante la disminución de los ingresos futuros de los hogares; el impacto en las variables estudiadas deberá ser medido para los segmentos de la población analizados en esta investigación.

Referencias

Arestis, P., y Demetriades, P. (1997). Financial Developmnet and Economic Growth: Assessing the Evidence. Economic Journal, 107(442), 783-799. https://doi.org/10.1016/j.frl.2018.05.011. [ Links ]

Asteriou, D., y Spanos, K. (2019). The relationship between financial development and economic growth during the recent crisis: Evidence from the EU. Finance Research Letters, 28, 238-245. https://doi.org/10.1016/j.frl.2018.05.011. [ Links ]

Badarinza, C., Campbell, J. Y., y Ramadorai, T. (2016). International comparative household finance. Annual Review of Economics, 8, 111-144. https://doi.org/10.1146/annurev-economics-080315-015425. [ Links ]

Baker, S. R. (2018). Debt and the response to household income shocks: Validation and application of linked financial account data. Journal of Political Economy, 126(4), 1504-1557. https://doi.org/10.1086/698106Links ]

Bayer, C., Luetticke, R., Pham-Dao, L. and Tjaden, V. (2019), Precautionary Savings, Illiquid Assets, and the Aggregate Consequences of Shocks to Household Income Risk. Econometrica, 87: 255-290. https://doi.org/10.3982/ECTA13601. [ Links ]

Campos Vázquez, R. M., y Meléndez Martínez, Á. (2013). Una estimación semiparamétrica de las pautas de consumo e ingreso a lo largo del ciclo de vida para México. El Trimestre Económico, 80(4), 805-840. https://doi.org/10.20430/ete.v80i320.104. [ Links ]

Cardaci, A. (2018). Inequality, household debt and financial instability: An agent-based perspective. Journal of Economic Behavior & Organization, 149, 434-458. https://doi.org/10.1016/j.jebo.2018.01.010. [ Links ]

Castellanos, S. y Garrido, D. (2010). Tenencia y uso de tarjetas de crédito en México. Un análisis de los datos de la encuesta nacional de ingresos y gastos de los hogares 2006. El Trimestre Económico, 77(1), 69-103. https://doi.org/10.20430/ete.v77i305.435. [ Links ]

Charrad, M., Ghazzali, N., Boiteau, V., y Niknafs, A. (2014). NbClust: An R Package for Determining the Relevant Number of Clústeres in a Data Set. Journal of Statistical Software, 61(6), 1-36. https://doi.org/10.18637/jss.v061.i06. [ Links ]

Correa, E., Vidal, G., y Marshall, W. (2013). Financialization in Mexico: trajectory and limits. Journal of Post Keynesian Economics, 35(2), 255-275. https://doi.org/10.2753/PKE0160-3477350205. [ Links ]

Demetriades, P. O., & Hussein, K. A. (1996). Does financial development cause economic growth? Time-series evidence from 16 countries. Journal of Development Economics, 51(2), 387-411. https://doi.org/10.1016/S0304-3878(96)00421-X. [ Links ]

Demirgüç-Kunt, A. y Klapper, L. (2012). Measuring financial inclusion: The global Findex Database. World Bank Policy Research Paper (6025). Washington: Banco Mundial. https://doi.org/10.1596/1813-9450-6025. [ Links ]

Dogan, O., Kaya, G., Kaya, A., y Beyhan, H. (2019). Catastrophic Household Expenditure for Healthcare in Turkey: Clústering Analysis of Categorical Data. Data, 4(3), 112. https://doi.org/10.3390/data4030112. [ Links ]

Fernández García, O., Venegas-Martínez, F., y Almagro Vázquez, F. (2012). Un modelo de suavización de consumo en el sector informal: incertidumbre salarial y cajas de ahorro. Tiempo Económico, Vol. 7, No. 20, pp. 5-14. http://tiempoeconomico.azc.uam.mx/wp-content/uploads/2017/07/20te1.pdf. [ Links ]

Fernández-Villaverde, J., y Krueger, D. (2007). Consumption over the life cycle: Facts from consumer expenditure survey data. The Review of Economics and Statistics, 89(3), 552-565. https://doi.org/10.1162/rest.89.3.552. [ Links ]

Fuentes, R., y Villagómez, F. A. (2001). El ahorro en los hogares de bajos ingresos en México: un análisis por cohortes. El Trimestre Económico, 68(1), 109-133. http://www.jstor.org/stable/20857051. [ Links ]

Guiso, L., y Sodini, P. (2013). Household finance: An emerging field. In Handbook of the Economics of Finance (Vol. 2, pp. 1397-1532). Elsevier. https://doi.org/10.1016/B978-0-44-459406-8.00021-4. [ Links ]

Hartigan, J. A., y Wong, M. A. (1979). Algorithm AS 136: A k-means clústering algorithm. Journal of the royal statistical society. series c (applied statistics), 28(1), 100-108. https://doi.org/10.2307/2346830Links ]

Herendeen, J. B. (1974). The Role of Credit in the Theory of the Household. The Journal of Consumer Affairs, 8(2), 157-181. https://doi.org/10.1111/j.1745-6606.1974.tb00538.x. [ Links ]

Huang, J.Z. (2014) An Introduction to Statistical Learning: With Applications in R By Gareth James, Trevor Hastie, Robert Tibshirani, Daniela Witten. Journal of Agricultural, Biological, and Environmental Statistics. Volume 19, 556-557 (2014). https://doi.org/10.1007/s13253-014-0179-9. [ Links ]

Källestål, C., Blandón, E. Z., Peña, R., Peréz, W., Contreras, M., Persson, L. Å., y Selling, K. E. (2020). Assessing the multiple dimensions of poverty. data Mining approaches to The 2004-14 health and Demographic surveillance system in Cuatro Santos, nicaragua. Frontiers in public health, 7, 409. https://dx.doi.org/10.3389/fpubh.2019.00409. [ Links ]

Levine, R. (2001). International financial liberalization and economic growth. Review of international Economics, 9(4), 688-702. https://doi.org/10.1111/1467-9396.00307. [ Links ]

Levine, R. (2005). Finance and Growth: Theory and Evidence. En Handbook of Economic Growth (Vol. 1, págs. 865-934). Amsterdam: Elsevier. https://doi.org/10.3386/w10766. [ Links ]

Maione, C., Nelson, D. R., y Barbosa, R. M. (2019). Research on social data by means of clúster analysis. Applied Computing and Informatics, 15(2), 153-162. https://doi.org/10.1016/j.aci.2018.02.003. [ Links ]

MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. En Proceedings of the fifth Berkeley symposium on mathematical statistics and probability. Vol. 1, No. 14, pp. 281-297. [ Links ]

Modigliani, F. (1970). The life cycle hypothesis of saving and intercountry differences in the saving ratio. En Induction, growth and trade: essays in honour of Sir Roy Harrod (págs. 197-225). Oxford: Clarendon. [ Links ]

Modigliani, F. (1986). Life cycle, individual thrift, and the wealth of nations. The American Economic Review, 76(3), 297-313. https://doi.org/10.1126/science.234.4777.704. [ Links ]

Modigliani, F., y Brumberg, R. (1954). Utility Analysis and the Consumption Function: An Interpretation of Cross-Section Data. En Post-Keynesian Economics. New Brunswick, NJ: Rutgers University Press. [ Links ]

Ramírez-Grajeda, M., S. Coronado-Ramírez y F. Venegas-Martínez (2013). Patterns of Consumption in Mexico, 2002-2010. American International Journal of Contemporary Research, Vol. 3, No. 1, pp. 13-18. http://www.aijcrnet.com/journals/Vol_3_No_1_January_2013/2.pdfLinks ]

Speckman, P. (1988). Kernel Smoothing in Partial Linear Models. Journal of the Royal Statistical Society, 50(3), 413-436. https://doi.org/10.1111/j.2517-6161.1988.tb01738.x. [ Links ]

Székely, M. (1998). Monto y distribución del ahorro de los hogares en México. El Trimestre Económico, 65(2), 263-313. https://www.jstor.org/stable/20856960. [ Links ]

Tinoco-Zermeño, M. Á., Venegas-Martínez, F., y Torres-Preciado, V. H. (2014). Growth, bank credit, and inflation in Mexico: evidence from ARDL-bounds testing approach. Latin American Economic Review, 23(1), 1-8. https://doi.org/10.1007/s40503-014-0008-0. [ Links ]

Venegas-Martínez, F., Tinoco-Zermeño, M. Á., y Torres-Preciado, V. H. (2009). Desregulación financiera, desarrollo del sistema financiero y crecimiento económico en México: efectos de largo plazo y causalidad. Estudios Económicos, 24(2),249-283. https://doi.org/10.24201/ee.v24i2.123. [ Links ]

Villagómez, F. A. (2014). El ahorro para el retiro. Una reflexión para México. El trimestre económico, 81(323), 549-576. https://doi.org/10.20430/ete.v81i323.122. [ Links ]

*Sin fuente de financiamiento para el desarrollo de la investigación

Recibido: 14 de Marzo de 2023; Aprobado: 27 de Marzo de 2023

*Autor para correspondencia: guillermocerda@outlook.com

Creative Commons License Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons