Todas las personas, de manera inconsciente o deliberada, generan e interpretan información abundante, con mayor o menor grado de complejidad. El índice compuesto (IC), también llamado sintético, agregado, o multidimensional, es una forma de sintetizar datos para expresar una idea o mensaje de forma simple. La combinación de variables condensadas en un IC expresa un fenómeno o concepto latente que sólo puede medirse indirectamente por variables observables. Un IC puede desglosarse en indicadores (también denominados pilares, dimensiones o subíndices) que agrupan componentes (variables). La jerarquía básica de agregación envolvente es IC, dimensiones (cuando existen) y variables (cuadro 1).
Indicador (dimensión) | Componente (variable) | Abreviación |
Rezago educativo (1/5) | X1. Población de 15 años o más analfabeta (1/15) X2. Población de 6 a 14 años que no asiste a la escuela (1/15) X3. Población de 15 años y más con educación básica incompleta (1/15) | Analf No_asiste Edu_incom |
Acceso a los servicios de salud (1/5) | X4. Población sin derechohabiencia a servicios de salud (1/5) | Salud |
Calidad y espacios de la vivienda (1/5) | X5. Viviendas con piso de tierra (1/5) | Tierra |
Servicios básicos en la vivienda (1/5) | X6. Viviendas que no disponen de excusado o sanitario (1/20) X7. Viviendas que no disponen de agua entubada de la red pública (1/20) X8. Viviendas que no disponen de drenaje (1/20) X9. Viviendas que no disponen de energía eléctrica (1/20) | Excusa Agua Dren Elec |
Bienes del hogar (1/5) | X10. Viviendas que no disponen de lavadora (1/10) X11. Viviendas que no disponen de refrigerador (1/10) | Lava Refri |
Fuente: Elaborado con base en información del CONEVAL (2007).
En esta investigación ‘multivariado’ y ‘multidimensional’ son conceptos distintos. Multivariado puede referir a muchos componentes o variables (v.g., población analfabeta, población que no asiste a la escuela, población con educación básica incompleta) dentro de una misma dimensión o indicador (v.g., educación). Multidimensional, por el contrario, se refiere a varias dimensiones o indicadores (v.g., educación, vivienda, salud, activos del hogar) que engloban distintas variables. En la jerarquía de agregación, los IC pueden ser multidimensionales o multivariados. El estudio de caso en esta investigación ilustra ambas posibilidades. La agregación de variables con igual ponderación de naturaleza multidimensional requiere que las variables sean previamente clasificadas en dimensiones. La agregación de variables en un IC general con el primer componente principal del Análisis de Componentes Principales (ACP) son de naturaleza multivariable, no multidimensional, porque las dimensiones de las variables en los datos de entrada no son tomadas en cuenta.1
Las variables de índices multivariados o multidimensionales pueden tener polaridad positiva o negativa. La variable individual tiene polaridad positiva si un incremento en ella se traduce en un aumento en el índice agregado, independientemente de que este último exprese un aspecto socialmente deseable o indeseable. En la polaridad negativa, por el contrario, un incremento en el valor de la variable se refleja en una disminución en el índice. Una misma variable puede tener polaridad positiva o negativa, lo que depende del mensaje del índice. El mensaje del IC define la polaridad de las variables que lo componen. La mortalidad infantil, por ejemplo, tiene una polaridad negativa (inversa) en un índice de bienestar o desarrollo humano que incluye variables como ingreso por encima de la línea de pobreza y acceso a satisfactores de la vida. La misma variable tiene polaridad positiva en un índice de marginación que contenga variables como ingreso por debajo de la línea de pobreza e insuficiente acceso a los derechos sociales esenciales, tales como salud, educación, vivienda. Es necesario que un IC, con mensaje positivo o negativo, tenga variables con polaridad positiva. Todas las variables tienen una misma dirección. Si hay variables con ambas polaridades, es necesario revertir la polaridad negativa en los datos de entrada o en la estandarización. Los datos de entrada que están en porcentajes pueden revertirse multiplicando por -1 sin alterar su escala ni complicar su interpretación porque la operación refiere el complemento de la medición. Hay otros casos donde la inversión de la polaridad es de interpretación más difícil (v.g., mortalidad o ingreso de los hogares). En todos los casos, la inversión de la polaridad en la fase de estandarización es más intuitiva y de mejor comprensión, como lo describe esta investigación en la sección correspondiente.
Las preguntas globales inherentes a la naturaleza de un IC son: ¿Qué mide y para qué se elabora el IC? ¿Cuál es el enfoque conceptual? ¿El índice expresa un aspecto positivo (bienestar) o negativo (pobreza, marginación, rezago)? ¿Qué variables debe incluir? ¿Qué método de estandarización es mejor para elaborar un índice compuesto (IC)? ¿Qué estandarización de variables es más balanceada? ¿Qué variables tienen mayor peso en el IC? ¿Qué procedimiento de agregación es apropiado para tener índices más estables? ¿Qué variables afectan más la estabilidad del IC en el estudio de caso? De acuerdo con estas preguntas, ¿cuál es el IC recomendado?
El objetivo general del escrito es la búsqueda de un IC que sintetice y jerarquice información socioeconómica conservando la distancia o brecha entre las unidades jerarquizadas, que pudiera ser útil para monitorear y asignar recursos o proporcionar servicios a distinta escala espacial en un momento dado. Al efecto, es necesario: a) repasar críticamente la literatura en distintas etapas en la elaboración de un IC, según el enfoque conceptual; b) explorar las opciones actuales en cada etapa luego de considerar bondades y limitaciones de los criterios disponibles y, en su caso, sugerir modificaciones pertinentes para la elaboración de un IC, y c) ilustrar las etapas de un IC en su versión positiva y negativa con un estudio de caso.
La relevancia de esta investigación es de carácter metodológico porque aplica a un grupo de variables predeterminado. Cualquier modificación metodológica a la estandarización, ponderación o agregación de variables en un IC tiene consecuencias en el ámbito donde es, o ha sido, aplicado. A reserva de un mayor desglose en la descripción de cada IC, esta investigación modifica la estandarización en el índice, por ejemplo en el Índice Mazziotta Pareto (MPI, por sus siglas en inglés). Esta modificación repercute dondequiera que el MPI es utilizado: en dos institutos nacionales de estadística (el ISTAT en Italia y el INE de España); un organismo internacional (OECD, 2015); y un sinnúmero de estudios recientes (Cutillo; Mazziotta, & Pareto, 2021; Costa; Declich; Marchesich, & Osti, 2019; Bruzzi; Ivaldi, & Santagata, 2021).
El estudio concluye que la Media Geométrica con estandarización balanceada (zEB) e igualmente ponderada (MGW), propuesta en la investigación actual, es la opción más estable para un índice multidimensional no compensatorio. Esta afirmación es válida tanto para índices con mensaje negativo (rezago social) como positivo (bienestar) que registran la jerarquía espacial de las observaciones. Entre las tareas pendientes por realizar se destacan la evaluación de los distintos procedimientos de estratificación, el número de estratos apropiado y el cálculo espacio-temporal de la MGW comparable en el periodo 2000-2020.
El estudio aborda en cinco partes el objetivo planteado. La primera parte es de tipo conceptual. La segunda presenta los aspectos metodológicos en cada una de las tareas básicas de un índice compuesto. La tercera parte aborda el estudio de caso para ilustrar los conceptos y aplicar los principios metodológicos revisados o propuestos en las secciones previas. La cuarta confronta y discute los aspectos metodológicos con los resultados en el estudio de caso. Finalmente, la quinta parte recoge las aportaciones, presenta las limitaciones y sugiere futuras líneas de investigación del estudio.
Enfoque conceptual
Los enfoques del IC pueden ser reflexivo o formativo (Jarvis; MacKenzie, & Podsakoff, 2003; Maggino, 2017). En el enfoque reflexivo, el concepto latente (v.g., IQ, aptitudes de las personas, pruebas de personalidad) explica las variables que lo miden. A mayor inteligencia o aptitudes de las personas, mayores las respuestas correctas que miden el intelecto o la capacidad para desarrollar una actividad (Simonetto, 2012). Las variables son intercambiables y la omisión de una de ellas no modifica la medición del concepto latente. El fenómeno existe independientemente de las variables seleccionadas para medirlo. En el enfoque formativo, las variables explican al concepto latente (desarrollo, bienestar, marginación, progreso), no son intercambiables y la omisión de una de ellas afecta (parcialmente) la medición del concepto latente. Las variables son parte de la definición del fenómeno (Fayers, & Hand, 2002).
Además de reflexivo o formativo, un IC puede ser compensatorio o no compensatorio (Casadio, & Guarini, 2013; Terzi; Otoiu; Grimaccia; Mazziotta, & Pareto, 2021). Un procedimiento de agregación compensatorio permite el intercambio o sustitución variables, sin alterar el nivel de satisfacción actual. El valor bajo que expresa desventaja en una variable puede ser compensado por el valor alto que muestra beneficio en otra variable, lo cual mantiene sin cambio el nivel de satisfacción. El equivalente de este concepto en teoría económica es la “tasa marginal de sustitución”, que expresa la utilidad que un consumidor está dispuesto a sacrificar a cambio de una unidad adicional de otro bien, manteniéndose en la misma curva de indiferencia; es decir, manteniendo su nivel de satisfacción constante (Munda, 2007). Ejemplos de índices totalmente compensatorios son los índices basados en la media aritmética (v.g., el Índice de Desarrollo Humano hasta 2009); los índices de naturaleza ordinal o jerárquica que alteran la distancia entre los casos y son producto de una suma o promedio aritmético de variables, tal como Knox (Ricketts, Ilbery, & Kneafsey, 2006), Borda (Dasgupta, & Weale, 1992), percentil (Acharya, & Porwal, 2020; Flanagan, Gregory, Hallisey, Heitgerd, & Lewis, 2011); y los índices basados en el Método Componentes Principales (v.g., en México, los índices de marginación del CONAPO hasta 2015 y todos los de rezago social del CONEVAL).2
Los procedimientos de agregación parcialmente compensatorios impiden la sustituibilidad o intercambio completo de valores entre variables.3 El valor bajo en una variable no es compensado por el valor alto de otra. Cada variable vale por sí misma. Ejemplos de procedimientos parcialmente compensatorios aplicados en índices con mensaje positivo (v.g., bienestar, progreso, desarrollo) o negativo (v.g., pobreza, vulnerabilidad, marginación) son los basados en la media geométrica (MG) (v.g., el Índice de Desarrollo Humano a partir de 2010) y el MPI (Mazziotta, & Pareto, 2017b), utilizado en distintos aspectos socioeconómicos, como se detalla en la sección de agregación. Otro índice parcialmente compensatorio es la Media Contra Armónica (MCA), aconsejado sólo para índices con mensaje negativo ya que, en este caso, es equivalente al MPI. Un ejemplo de índice completamente no compensatorio es el valor mínimo de las variables estandarizadas en mediciones con un mensaje positivo o el valor máximo si el mensaje es negativo. En el primer caso, no hay una observación por debajo del mínimo. Exactamente lo opuesto aplica para el valor máximo (Mazziotta, & Pareto, 2020).
Hay incongruencia conceptual en la obtención de índices de naturaleza no-compensatoria (v.g., marginación o rezago social) mediante procedimientos compensatorios (v.g., Media Aritmética, MA, o Análisis de Componentes Principales, ACP), aunque los resultados sean similares a los obtenidos por métodos no compensatorios (v.g., MCA o MG). Esta incongruencia conceptual en el cálculo del índice compuesto no impide el uso de estrategias estadísticas mixtas o híbridas. Por ejemplo, es posible recurrir a procedimientos compensatorios (como el ACP) para determinar los pesos o selección de las variables que son agregadas por un método no-compensatorio, como la MCA (Bruzzi, Ivaldi, & Landi, 2019; Pereira, Da Silva, Correa, Melo, Laudares, & Bernardes, 2020). También es posible utilizar un procedimiento de agregación compensatorio para las variables al interior de cada dimensión (v.g., suma ponderada o MA) y otro no compensatorio para agregar dimensiones (v.g., DP2), como en Ciacci y Tagliafico (2020).
El estudio de caso ilustra la descripción conceptual en estas líneas mediante un índice socioeconómico no compensatorio con mensaje negativo, de naturaleza formativa: el índice de rezago social en los estados de México en 2020. La investigación también convierte el índice de rezago en un índice de bienestar para verificar si los resultados son similares para un índice con mensaje positivo.
Los tres procesos (etapas o pasos) básicos que son específicos de un índice compuesto (compensatorio, parcialmente compensatorio o no compensatorio) son, en este orden: la estandarización, ponderación y agregación de variables (OECD, 2008; Santos, & Santos, 2014; Talukder, Hipel, & vanLoon, 2017; El Gibari, Gómez, & Ruiz, 2018; Greco, Ishizaka, Tasiou, & Torrisi, 2018). Cada uno de estos pasos, aunque interdependientes, son temas de investigación en sí mismos, como lo muestran los escritos específicos sobre estandarización transversal y longitudinal (Mazziotta, & Pareto, 2022), agregación (Hwang, & Yoon, 1981; Saisana, & Tarantola, 2002; Mazziota, & Pareto, 2015; 2016b) y ponderación (Becker; Saisana; Paruolo, & Vandecasteele, 2017). A estos tres pasos sigue el tema de la estabilidad del índice compuesto (Nardo, 2009; Saisana, Saltelli, & Tarantola, 2005; Becker, Saisana, Paruolo, & Vandecasteele, 2017) y la medición de la importancia de sus variables (Schlossarek, Syrovátka, & Vencálek, 2019). Un análisis preliminar de datos usualmente precede a estos procesos básicos para seleccionar los indicadores y componentes del IC.
Metodología
a) Análisis estadístico preliminar
Varias publicaciones reportan los pasos principales para la construcción de un índice compuesto (Saisana, & Tarantola, 2002; OECD, 2008; Terzi; Otoiu; Grimaccia; Mazziotta, & Pareto, 2021; Istat, 2020; Hawken, & Munck, 2012; Profit; Typpo; Hysong; Woodard; Kallen, & Petersen, 2010; Gan; Fernandez; Guo; Wilson; Zhao; Zhou, & Wu, 2017; Alaimo, 2020). Pareciera que en esta materia lo que debe ser conocido ya está escrito. No es así. Las adaptaciones de temas de estadística básica como la asimetría, correlación o estandarización existen de manera fragmentada (Smith, 1975; Gilthorpe, 1995) o escapan a la crítica y reinterpretación en la construcción de indicadores compuestos. Esta investigación refiere tangencialmente tres actividades preliminares básicas, la correlación entre las variables, el intervalo4 de valores y la asimetría de cada variable.
Correlación. En la matriz de correlación son importantes el signo y el valor del coeficiente. El signo de la correlación indica la polaridad de las variables en un índice compuesto. Es común tener una lista larga de variables que representan el fenómeno estudiado (v.gr., bienestar, desarrollo humano, pobreza). Este listado puede contener variables que se correlacionen positivamente (polaridad positiva) o negativamente (polaridad negativa) con el fenómeno. Cada uno de los procedimientos de estandarización (abordada más adelante) tienen, o deben tener, una forma o procedimiento para ‘corregir’ la polarización negativa de las variables que serán agregadas posteriormente en un índice compuesto. A veces hay variables que es necesario eliminar porque las correlaciones son distintas a las esperadas. Tal es el caso de presencia de cocina propia en los menos educados y ausencia de ella en los más educados, en el Censo del 2000 de Shanghai, China (Weaver; Dai; Stauber; Luo, & Rothenberg, 2014).
El valor del coeficiente de correlación es el segundo tema de interés. La inclusión o exclusión de las variables preseleccionadas por una revisión teórico-conceptual depende del valor de su coeficiente de correlación. La ‘regla de dedo’ sugiere que, en principio, las correlaciones muy altas (> 0.8, según Balcerzak, 2016) o bajas (< 0.3, según Hair et al., 2019) deben eliminarse.5 Si dos variables están altamente correlacionadas una debe eliminarse para evitar redundancia. Esta decisión presenta el problema potencial de eliminar variables altamente correlacionadas que miden o representan distintas dimensiones del problema o fenómeno social investigado. Tal es el caso de los médicos y las camas de hospital, expresados por mil habitantes. Ambas variables son complementarias, no sustitutas, aunque tengan alta correlación (Mazziotta, & Pareto, 2016a). También pudieran excluirse variables por su baja correlación. Este criterio es errado si las variables excluidas son importantes en el problema estudiado. En un enfoque formativo, el coeficiente de correlación puede ser bajo, incluso en el ACP siempre que la diagonal de la matriz anti-imagen sea superior a 0.5.
Intervalos desiguales y asimetría. El intervalo de valores de una variable produce índices distorsionados porque tienen sesgo hacia los recorridos con mayor amplitud (ponderación implícita). Mazziotta, & Pareto (2022) proponen su “estandarización minmax restringida” (zMP en esta investigación) que logra intervalos de igual magnitud, pero deja la asimetría y el igual máximo y mínimo entre variables como asignatura pendiente.
Las variables de igual intervalo pueden tener distinta asimetría. La asimetría crea o magnifica el efecto sustitución o compensatorio en la agregación lineal de las variables. En la asimetría positiva muchos lugares reportan valores bajos y pocos lugares valores altos. En la suma o promedio (media aritmética), las variables con mayor valor compensan o ‘esconden’ las variables con menor valor. En la distribución muy asimétrica la media y desviación estándar pierden su valor como medidas sintéticas. Por ejemplo, un índice compuesto de criminalidad es más sensitivo a un incremento en la tasa de un delito frecuente (p.ej., robo a casa habitación) que al mismo incremento en un índice menos frecuente y más grave (p.ej., homicidio) (Smith, 1975). En las variables con asimetría a la izquierda (asimetría negativa) la mayoría de los casos tiene valores altos en la variable original. En este segundo caso, las variables no diferencian las observaciones significativamente y deben ser omitidas en la investigación (Balcerzak, 2016).
En estadística destacan dos estrategias para diluir los efectos de la asimetría e intervalos desiguales: i) normalizar o ‘enderezar’ la distribución asimétrica y, después, estandarizar los datos (Bonatti; Ivaldi, & Soliani, 2017; Gilthorpe, 1995),6 o ii) combinar la estandarización y transformación para obtener un re-escalamiento robusto (Leys et al., 2013; Brimicombe, 2000). La estandarización balanceada propuesta en esta investigación obtiene máximos y mínimos iguales entre las variables, por lo tanto, intervalos de igual amplitud, y mantiene la asimetría en un nivel estadísticamente aceptable.
b) Estandarización
La afirmación usual de que la función de la estandarización es expresar los datos originales en una misma unidad de medida para que sean comparables y/o agregadas en indicadores compuestos es una verdad a medias. Es correcto decir que la estandarización expresa en una misma escala numérica variables que originalmente están en unidades distintas (v.g., porcentajes, minutos, kilómetros, tasas por mil o 100 mil, personas por cuarto). Hay, sin embargo, otras razones importantes para la estandarización: i) invertir la polaridad negativa de las variables seleccionadas para medir el fenómeno, si la hubiere; ii) balancear las variables con pesos implícitos en la unidad de medición y en su intervalo de valores (Mazziota, & Pareto, 2017b); iii) identificar los casos extremos que dificultan el uso de la estadística paramétrica, y iv) lograr que las variables sean comparables en el tiempo y espacio (Norman, 2010).
El balance es la característica deseada donde los valores extremos superior e inferior de cada variable son equidistantes del centro de su distribución (balanceados). El desbalance en las variables tiene su origen en la asimetría de la distribución de los datos. Las estandarizaciones clásicas, z (media cero y desviación estándar igual a la unidad) y min-max (valores en la escala de cero a 1), buscan que los valores fluctúen dentro de intervalos y unidades similares, pero no modifican su asimetría. La estandarización más reciente propuesta para el Índice Mazziotta Pareto (zMP) re-escala pero no modifica la asimetría de las estandarizaciones clásicas (Cutillo; Mazziotta, & Pareto, 2021). Es necesaria una estandarización que simultáneamente garantice un mismo recorrido de valores y controle la asimetría.
La presente investigación propone la estandarización balanceada (
Para casos con polaridad negativa:
También (más fácil e igualmente preciso):
En distribuciones asimétricas transversales, la referencia (ref) en
c) Ponderación
Esta investigación aplica la igual ponderación de las variables (normativa). En ausencia de un criterio convincente para sostener que una variable o dimensión es más importante que otra, los pesos deben distribuirse por igual entre las variables (principio de razón insuficiente). En esta postura conceptual, si algo tiene que justificarse no es la igual distribución de pesos sino la desigual asignación de éstos (Babbie, 2021). Es preciso aclarar, sin embargo, que la igual ponderación no equivale a la no ponderación. Surge una paradoja en la ponderación cuando las variables están agrupadas en dimensiones o subcomponentes: si las dimensiones tienen distinto número de variables, la igual ponderación de las dimensiones implica necesariamente diferentes pesos de las variables, y la igual ponderación de las variables implica necesariamente distinto peso de las dimensiones (Schlossarek; Syrovátka, & Vencálek, 2019). Esta investigación, para evitar esa paradoja, asigna igual ponderación a los subcomponentes y cada uno de ellos, a la vez, reparte por igual el peso que le corresponde entre las variables que agrupa, como lo muestra el cuadro 1.
d) Agregación
La importancia de la agregación es resumida por la siguiente expresión: sin agregación no hay índice compuesto. Esta investigación presenta dos medias estadísticas utilizadas como procedimientos no compensatorios en los índices compuestos: la media contra (o anti) armónica (MCA), en la interpretación de Mazziotta y Pareto (2017b) para índices con mensaje negativo (MPI); y la media geométrica (MG). A estos dos procedimientos se añaden el Método de Componentes Principales y la Distancia de Pena (DP2), ambos aplicados actualmente a índices compuestos en México.
e) Sensibilidad
En esta investigación, el análisis de sensibilidad tiene dos encargos importantes: i) identificar el método de agregación más estable y, por tanto, preferible para sintetizar variables, y ii) medir la importancia de cada variable en el índice compuesto (IC) (Hogan; Stevens; Hosseinpoor, & Boerma, 2018). Esta investigación sólo aborda la identificación de la importancia, no su explicación que incluye la valoración del peso de las ponderaciones, la correlación de cada variable con las restantes, y la varianza de cada variable (Munda, & Nardo, 2009; Becker; Saisana; Paruolo, & Vandecasteele, 2017).
i) Estabilidad de los procedimientos de agregación. Esta operación establece la preferencia de un procedimiento de agregación sobre otro con base en su estabilidad. La estabilidad de cada índice compuesto es el cambio absoluto promedio en los rangos del índice recalculado al omitir una variable a la vez (Aguña, & Kovacevic, 2011):
Donde IS es el índice de estabilidad como promedio de los rangos del IC recalculado al omitir la variable zj (o wzj); n es el número de observaciones; Rref es el rango de la observación i en el índice compuesto (IC) obtenido con todas las variables j
ii) Importancia de las variables en el IC. La importancia de las variables puede abordarse desde la estabilidad o el valor del IC. En el primer caso, una variable es importante si su ausencia altera notablemente la posición relativa de las observaciones. Para ello basta revisar el IS de cada variable en cada método de agregación. Al comparar variables en un mismo método de agregación (v.g., MGW o PCA), el valor mayor del IS identifica la variable más importante.
La segunda opción para medir la importancia de las variables utiliza los mismos cálculos del IS. Primero se calcula el IC con todas las variables y se correlaciona con el IC obtenido cuando se omite una variable a la vez (IC-X). La lógica es sencilla: hay una relación inversa entre la correlación y la importancia de la variable que se omite. Una alta correlación entre ambos índices indica que la variable ausente no modifica sustancialmente el IC. Esto no quiere decir que la variable omitida sea irrelevante, sino que tal vez existan otras variables con mayor impacto en el valor del IC. Por el contrario, una baja correlación r (IC, IC-X) sugiere que la variable ausente modifica sustancialmente el valor del IC y es más importante que las demás (Schlossarek, Syrovátka, & Vencálek, 2019). En este procedimiento pudiera ocurrir que todas las variables tengan alta o baja correlación respecto al IC, pero aun en ese caso unas son más importantes que otras.
Resultados para el estudio de caso
Análisis preliminar. La selección de variables es un trabajo detallado de tipo conceptual y estadístico. En el estudio de caso, la selección de variables del Índice de Rezago Social (IRS) es resultado de muchos años de trabajo en el Consejo Nacional de Evaluación de la Política de Desarrollo Social (CONEVAL). La confiabilidad de las variables fue probada de manera individual y como índice compuesto por el CONEVAL para el cálculo del IRS con el ACP para el año 2020 (cuadro 1).7 La decisión de tomar las variables previamente seleccionadas ahorra pasos preliminares, siempre cuestionados, y de confiabilidad de las variables. Conviene, sin embargo, revisar la asimetría y correlación entre variables por la relevancia que el balance de los datos y la polaridad de las variables tienen en un índice compuesto
Correlación. El signo y el valor del coeficiente de correlación no son un problema metodológico porque las variables provienen de la base de datos del CONEVAL específicamente seleccionadas para cumplir con los requerimientos del ACP. En el estudio de caso, el signo de las correlaciones no es un problema porque todas las variables tienen una polaridad positiva (correlación positiva o en la misma dirección) en la medición del rezago social. En cuanto al valor de las correlaciones, aunque algunas son bajas (v.g., x2 vs x6= 0.051; x2 vs x8= 0.153), la Medida de suficiencia de muestreo general (prueba KMO) es .793 (superior al referente de 0.5). El contraste de esfericidad de Barttlet es significativo al 0.05 y todas las variables en la diagonal de la matriz de correlación anti-imagen tienen un valor superior a 0.5. Estos resultados indican que la matriz de variables es adecuada para aplicar el ACP y utilizar los coeficientes de F1 como ponderador de las variables estandarizadas o el propio F1 como índice compuesto de rezago social. Los resultados del ACP no sorprenden por haber sido trabajados por el CONEVAL, pero conviene recordarlos al utilizar los datos en esta investigación. El supuesto básico al trabajar con esta base de datos es que las variables seleccionadas no sólo cumplen las exigencias estadísticas del ACP, sino que también son apropiadas para aplicar los otros procedimientos de agregación en el estudio.
Estandarización y asimetría. Los resultados para los estados de México con información para 2020 muestran que las estandarizaciones z, min-max, y ZPM convierten los valores originales a unidades comunes, conservando la misma asimetría y curtosis de la distribución original (porcentajes de entrada en la matriz X). Si la distribución original es desbalanceada, también lo está en esas versiones estandarizadas. Las estandarizaciones Z MP y Z EB tienen exactamente el mismo intervalo (60) en todas las variables sin ponderar. La amplitud cambia por variable en datos ponderados, pero es la misma en ambas estandarizaciones. La diferencia entre una estandarización y otra es la asimetría. Todas las estandarizaciones no sólo son asimétricas, sino que la asimetría es idéntica en todas las variables, con excepción de zEB, propuesta en esta investigación (cuadro 2).
z 0±1 | z de la Asim | zi | z de 100±10 Asim | z minmax 0 a 100 | z de Asim | zMP 100±30 | z de Asim | zEB 100±30 | z de Asim | |
X1. Analf | z1 | 3.71 | z1 | 3.71 | z1MM | 3.71 | z1MP | 3.71 | z1EB | 1.42 |
X2. No_asiste | z2 | 3.82 | z2 | 3.91 | z2MM | 3.91 | z2MP | 3.91 | z2 EB | 1.36 |
X3. Edu_incom | z3 | 2.28 | z3 | 2.28 | z3MM | 2.28 | z3MP | 2.28 | z3 EB | 1.09 |
X4. Salud | z4 | 1.14 | z4 | 1.15 | z4MM | 1.15 | z4MP | 1.15 | z4 EB | 1.06 |
X5. Tierra | z5 | 5.27 | z5 | 5.28 | z5MM | 5.28 | z5MP | 5.28 | z5 EB | 2.05 |
X6. Excusa | z6 | 5.98 | z6 | 5.91 | z6MM | 5.91 | z6MP | 5.91 | z6 EB | 0.16 |
X7. Agua | z7 | 3.37 | z7 | 3.36 | z7MM | 3.36 | z7MP | 3.36 | z7 EB | 1.79 |
X8. Dren | z8 | 5.21 | z8 | 5.19 | z8MM | 5.19 | z8MP | 5.19 | z8 EB | 0.80 |
X9. Elec | z9 | 1.82 | z9 | 1.74 | z9MM | 1.74 | z9MP | 1.74 | z9 EB | 0.28 |
X10. Lava | z10 | 2.66 | z10 | 2.66 | z10MM | 2.66 | z10MP | 2.66 | z10 EB | 0.93 |
X11. Refri | z11 | 3.28 | z11 | 3.27 | z11MM | 3.27 | z11MP | 3.27 | z11 EB | 1.23 |
Fuente: Cálculos del autor. Notas. Z de la asim.: Valor z para la asimetría= Asimetría/error estándar de la asimetría. En las estandarizaciones zMP y zEB se utiliza la desviación estándar de la población en vez de la muestra, por congruencia con la literatura actual (Cutillo, Mazziotta, & Pareto 2021). Los valores en negritas están fuera del criterio de normalidad en la asimetría (z ± 1.96).
Los valores z de la asimetría (z de la Asim.) son idénticos para las estandarizaciones z, min-max (zMM) y zMP ya que re-escalan los datos originales x i sin modificar la forma de la distribución. No es necesario que la variable tenga una distribución normal; basta que en el valor z para la asimetría (Asimetría/Error estándar de la asimetría) se mantenga el intervalo ± 1.96 (Gilthorpe, 1995). Sólo la estandarización balanceada (zEB) propuesta en esta investigación en las Ec, (1) y Ec. (2) mantiene la asimetría en el intervalo aceptable. Esta característica es muy importante porque los procedimientos de agregación no-compensatorios, como la media geométrica, cuando agregan variables estandarizadas asimétricas, generan índices compuestos distorsionados.
Ponderación. En esta investigación, el rezago social es un índice compuesto que captura la carencia de los derechos sociales (componentes) agrupados en indicadores (dimensiones). Estos indicadores, en ausencia de un argumento firme para ponderar de manera diferencial, se ponderan por igual, como lo sugiere la literatura (Babbie, 2021; Mothupi; De Man; Tabana, & Knight, 2021). Un derecho social no es más importante que otro. Cada indicador distribuye por igual su peso entre sus componentes (variables). En el estudio de caso, la igual ponderación modifica la amplitud de intervalo, dependiendo del número de variables en cada una de las cinco dimensiones (cuadro 1).
Agregación. Esta sección aplica la media contra armónica (MCA), también conocido como MPI+ para el caso de rezago social, y la media geométrica (MG) para agregar las variables, por su naturaleza no compensatoria. El estudio incluye, con fines comparativos, el F1 sin rotar (compensatorio) del ACP y el índice DP2 (no compensatorio) utilizados por el CONEVAL y CONAPO, respectivamente (cuadro 3). Las correlaciones de rango entre estos cuatro índices son muy altas, superiores a 0.9. Cualquiera de tales índices podría emplearse para medir el rezago si fueran conceptualmente compatibles e igualmente estables, pero no lo son. En rigor conceptual, F1 no debiera utilizarse para medir el rezago porque es un método compensatorio utilizado para agregar variables de naturaleza no compensatoria (los derechos sociales). El índice DP2, por otro lado, es conceptualmente adecuado para medir el rezago, pero estudios previos sugieren que es más inestable que la MCA (MPI + )(Bruzzi; Ivaldi, & Landi, 2019). El análisis de sensibilidad confirma esta afirmación para el estudio de caso (cuadro 4).
Caso | Estandarización balanceada (zEB) | Est. Mazziotta-Pareto (zMP) | ACP (CONEVAL) | DP2 (CONAPO) | ||||||
Media contra armónica MCA (igual a MPI+) | Media geométrica (MG) | Media contra armónica MCA (igual a MPI+) | Media geométrica (MG) | |||||||
Razón insuf. | w de F1 | Razón insuf. | w de F1 | Razón insuf. | w de F1 | Razón insuf. | w de F1 | |||
Ags | 76.5 | 76.50 | 76.0 | 75.97 | 85.51 | 86.51 | 85.2 | 86.30 | -1.10 | 34.11 |
BC | 86.3 | 86.24 | 85.2 | 84.78 | 91.73 | 92.11 | 91.3 | 91.62 | -.64 | 35.48 |
BCS | 91.6 | 93.55 | 88.7 | 91.08 | 95.12 | 97.75 | 92.4 | 95.91 | -.31 | 35.58 |
Cam | 97.6 | 100.83 | 96.8 | 100.12 | 99.83 | 102.99 | 98.9 | 102.25 | .25 | 38.54 |
Coa | 76.0 | 75.71 | 75.6 | 75.34 | 85.21 | 85.94 | 85.0 | 85.72 | -1.14 | 34.00 |
Col | 85.6 | 85.80 | 84.2 | 84.26 | 90.50 | 91.83 | 89.3 | 91.24 | -.69 | 35.18 |
Chis | 123.2 | 123.78 | 122.5 | 122.85 | 131.80 | 133.18 | 130.4 | 131.57 | 2.64 | 45.53 |
Chih | 85.1 | 88.63 | 82.5 | 85.90 | 90.92 | 94.53 | 88.4 | 92.44 | -.52 | 35.86 |
CdMx | 81.9 | 76.40 | 79.0 | 74.92 | 90.03 | 86.77 | 89.1 | 86.18 | -1.11 | 34.43 |
Dgo | 96.5 | 96.53 | 95.4 | 94.72 | 99.04 | 100.16 | 98.1 | 98.52 | -.05 | 37.52 |
Gto | 91.7 | 94.00 | 90.6 | 92.83 | 95.20 | 97.41 | 94.3 | 96.65 | -.21 | 37.15 |
Gro | 118.4 | 121.17 | 116.2 | 119.77 | 128.13 | 131.41 | 123.6 | 128.46 | 2.46 | 45.07 |
Hgo | 102.7 | 102.70 | 100.9 | 101.31 | 104.94 | 104.88 | 103.7 | 103.82 | .32 | 38.70 |
Jal | 90.1 | 85.72 | 87.1 | 83.43 | 95.76 | 92.65 | 94.5 | 91.77 | -.63 | 36.21 |
Méx | 98.0 | 92.95 | 95.5 | 91.44 | 101.26 | 96.89 | 99.7 | 96.05 | -.30 | 36.84 |
Mich | 109.7 | 104.79 | 107.3 | 103.03 | 111.75 | 107.27 | 109.5 | 105.44 | .53 | 39.89 |
Mor | 98.6 | 96.15 | 97.7 | 95.11 | 100.54 | 98.98 | 100.1 | 98.51 | -.13 | 37.12 |
Nay | 96.4 | 98.53 | 95.6 | 97.62 | 98.47 | 101.11 | 97.5 | 99.91 | .04 | 37.85 |
NL | 74.6 | 73.59 | 74.3 | 73.34 | 84.28 | 84.70 | 84.0 | 84.43 | -1.25 | 33.68 |
Oax | 120.5 | 122.79 | 119.1 | 121.57 | 129.86 | 133.01 | 126.9 | 130.59 | 2.60 | 44.44 |
Pue | 107.3 | 106.88 | 106.9 | 106.30 | 109.98 | 109.78 | 109.2 | 108.86 | .75 | 39.41 |
Qro | 88.1 | 89.11 | 87.7 | 88.70 | 92.29 | 93.51 | 92.0 | 93.27 | -.52 | 36.02 |
QR | 93.7 | 92.37 | 92.7 | 91.03 | 96.82 | 96.15 | 96.4 | 95.54 | -.33 | 36.89 |
SLP | 97.8 | 102.45 | 95.3 | 100.78 | 100.08 | 105.26 | 97.2 | 103.15 | .31 | 37.69 |
Sin | 86.9 | 88.70 | 86.1 | 87.79 | 91.20 | 93.13 | 90.6 | 92.71 | -.56 | 35.70 |
Son | 85.8 | 87.21 | 84.7 | 85.64 | 90.62 | 92.44 | 89.7 | 91.61 | -.65 | 35.20 |
Tab | 101.7 | 99.70 | 100.6 | 98.78 | 103.02 | 101.68 | 102.2 | 100.94 | .08 | 37.93 |
Tam | 85.0 | 86.54 | 84.2 | 85.39 | 90.68 | 92.28 | 90.3 | 91.91 | -.63 | 35.43 |
Tla | 96.8 | 95.61 | 94.2 | 92.57 | 101.70 | 101.07 | 99.8 | 98.78 | -.05 | 37.12 |
Ver | 108.2 | 110.27 | 107.9 | 109.83 | 111.45 | 114.51 | 110.8 | 113.72 | 1.13 | 40.67 |
Yuc | 94.0 | 98.14 | 91.5 | 95.29 | 98.47 | 102.45 | 96.6 | 100.32 | .15 | 38.57 |
Zac | 86.8 | 89.87 | 85.5 | 88.36 | 91.85 | 94.48 | 91.1 | 93.71 | -.45 | 36.21 |
País | 100.0 | 100.00 | 100.0 | 100.00 | 100.00 | 100.00 | 100.0 | 100.00 |
Fuente: Cálculos propios con base en información del CONEVAL (2021).
Variable que se omite | DP2 | ACP | MCA | MG | MCA | MG | MCA | MG | MCA | MG |
Ponderación por Razón Insuficiente (RI) | ||||||||||
zEB con w de F1 | zEB | zMP | z clásica | |||||||
Analf | 1.19 | 0.63 | 0.88 | 0.81 | 0.50 | 0.56 | 0.31 | 0.25 | 0.50 | 0.56 |
No_asiste | 0.69 | 0.69 | 0.50 | 0.44 | 0.50 | 0.44 | 0.69 | 0.56 | 0.81 | 0.56 |
Edu_incom | 0.19 | 1.06 | 0.69 | 0.75 | 0.31 | 0.31 | 0.50 | 0.44 | 0.50 | 0.56 |
Salud | 1.88 | 1.06 | 0.75 | 0.50 | 2.00 | 1.88 | 2.44 | 2.63 | 2.56 | 2.56 |
Tierra | 0.25 | 0.31 | 0.88 | 0.69 | 1.19 | 1.13 | 0.81 | 1.00 | 0.88 | 1.00 |
Excusa | 1.13 | 0.56 | 0.94 | 0.88 | 0.69 | 0.56 | 0.81 | 0.44 | 0.63 | 0.56 |
Agua | 0.56 | 0.69 | 1.00 | 1.06 | 0.50 | 0.44 | 0.56 | 0.25 | 0.56 | 0.50 |
Dren | 0.81 | 0.75 | 1.25 | 1.00 | 0.38 | 0.13 | 0.44 | 0.06 | 0.63 | 0.19 |
Elec | 1.25 | 0.88 | 1.25 | 1.19 | 0.25 | 0.25 | 0.38 | 0.56 | 0.50 | 0.63 |
Lava | 0.63 | 0.63 | 1.19 | 1.00 | 0.81 | 0.63 | 0.56 | 0.88 | 0.63 | 0.81 |
Refri | 0.19 | 0.75 | 0.88 | 0.75 | 0.75 | 0.56 | 1.13 | 0.50 | 0.63 | 0.31 |
Media | 0.80 | 0.73 | 0.93 | 0.82 | 0.72 | 0.63 | 0.78 | 0.69 | 0.80 | 0.75 |
DS | 0.50 | 0.21 | 0.23 | 0.22 | 0.48 | 0.47 | 0.57 | 0.66 | 0.57 | 0.61 |
Fuente: Cálculos del autor. Notas. zEB= Estandarización balanceada en el intervalo 100 ± 30; zMP= Estandarización de Cutillo, Mazziotta, y Pareto (2021); z= Estandarización tradicional llevada a la escala 100 ±10. RI: Ponderación por razón insuficiente, donde corresponda. w de F1= Coeficiente de puntuación del componente F1 sin rotar, en el ACP. DP2 y ACP generan su propia ponderación. Ambos se incluyen con fines comparativos a causa de ser utilizados por organismos oficiales en México. El ACP se obtiene con SPSS v.25 y DP2 con la adaptación del Script en R del CONAPO (2021).
La correlación de rangos entre las dos medias ponderadas (MCAw y MGW) indica que el orden jerárquico de ambas mediciones es prácticamente el mismo, puesto que es muy cercana a la unidad (0.991). La preferencia de un índice sobre otro, por ser ambos no compensatorios, tiene que determinarse en el análisis de estabilidad, si fuera necesario.
Estabilidad de los procedimientos de agregación en el rezago social. Los resultados muestran que la MG con datos de zEB igualmente ponderados (criterio de razón insuficiente, RI) es el procedimiento de agregación más estable con media en los desplazamientos de rangos al omitir una variable a la vez de 0.63 y desviación estándar 0.47 (cuadro 4).
Importancia de las variables en el IRS. La omisión de Salud o Tierra, con un desplazamiento promedio de 1.88 y 1.13 posiciones, respectivamente, son las variables que causan mayor inestabilidad en los rangos promedio de la MG con zEB. Dren, con una variación promedio de rangos en el IC de apenas 0.13 posiciones, es la variable de menor impacto.
Las correlaciones entre el índice compuesto obtenido con todas las variables (IC) y el índice compuesto cuando se omite una variable (IC-X) son muy altas, por lo que puede concluirse que todas las variables son importantes. Si por fuerza hubiera que proporcionar una jerarquía de variables con base en MGW y MCAw, la salud y la tierra son las más importantes y la electricidad y el drenaje las menos importantes en el IC.
Estabilidad con variables de bienestar. En variables con mensaje positivo (v.g., bienestar), el análisis de estabilidad muestra que la MG es más estable que el MPIen todas las combinaciones ensayadas, excepto en la estandarización con datos desbalanceados (z ) sin ponderar.8 Este resultado merece discutirse en la siguiente sección.
Discusión
Los resultados sobre estabilidad muestran que el MPI + coincide con la MG en índices con mensaje negativo (v.g., rezago social) cuando se utilizan variables igualmente ponderadas (por Razón Insuficiente) con estandarización zMP. Un resultado similar reporta De Muro, Mazziotta, y Pareto (2010) para el MPI + y la media de orden 3 (utilizada en el índice de pobreza humana de las Naciones Unidas). En opinión de estos autores, los resultados de la MCA (conocida como MPI + ) y la MG son muy similares en los índices negativos porque la varianza relativa en la primera ‘castiga’ en la misma dirección de la segunda.
La MG es más estable con variables estandarizadas simétricas (zEB) (Media= 0.63 y DS= 0.47) o asimétricas (media= 0.69 y DS= 0.66) que la MCA (Media= 0.0.72 y DS= 0.48) y (Media= 0.78 y DS= 0.57), respectivamente (cuadro 4). Hasta ahora, la literatura sólo reporta la MCA con estandarización asimétrica (zMP), bajo el nombre de MPI + . Este resultado sugiere que la MG será la agregación más estable en todos los casos de la literatura donde MPI + haya sido preferida por su estabilidad. La MCA (MPI + ) sólo es más estable que la MG en el caso de estandarización asimétrica (zMP) sin ponderar.
El estudio de Costa, Declich, Marchesich, y Osti (2019) muestra que el MPIes más estable que la MG para variables de bienestar, sin notar que los datos estandarizados con zMP sin ponderar son asimétricos. No es correcto confrontar estos dos procedimientos de agregación porque la zMP no es simétrica y la ‘no-ponderación’ no es ‘igual ponderación’ cuando se consideran las dimensiones que agrupan variables. En breve, la MG es más estable que el MPI-, a menos que se utilice la estandarización zMP con datos asimétricos sin ponderar. En este caso, el investigador deberá evaluar el criterio más apropiado para su estudio. Hasta ahora todos los estudios que prefieren el MPI - para agregar variables han sido omisos de la asimetría y ponderación de los datos. Ambas características, como lo muestran estas líneas, son determinantes en el análisis de estabilidad de un índice compuesto.
El análisis de estabilidad para el IRS muestra que la MG de los valores zEB ponderados por Razón Insuficiente es la opción no compensatoria más estable para agregar datos sobre rezago social. Para verificar si la MG también es más estable que el MPI en un índice con mensaje positivo (MPI - = MA (1 - CV 2 ), los valores de rezago social se transforman en valores de bienestar con la siguiente operación: 200 z .9 Los resultados confirman que la MG de la zEB con datos igualmente ponderados es más estable que el MPI - en un índice con mensaje positivo (bienestar) (Media= 0.64 y DS= 0.49).10
Conclusión
El enfoque conceptual del índice compuesto (IC) en esta investigación es formativo no compensatorio. Formativo porque la omisión de una variable afecta (parcialmente) la medición del concepto latente. No compensatorio porque las variables que expresan al concepto latente no son intercambiables.
El escrito concluye que los índices compuestos que miden aspectos socioeconómicos deben revisarse y, eventualmente, recalcularse por razones conceptuales, técnicas o ambas. En los motivos conceptuales, el procedimiento de agregación debe concordar con el marco conceptual. Por ejemplo, es conceptualmente incorrecto usar el Análisis de Componentes Principales (ACP) o la media aritmética, procedimientos compensatorios, para agregar variables que no son sustituibles entre sí, como los derechos sociales. Este requisito no descarta el uso del ACP para identificar pesos de las variables con base en la estructura de los datos. Existirá la posibilidad, sin embargo, de que los pesos determinados de manera estadística no correspondan a la realidad social. Entre las razones técnicas destaca la agregación de variables con distribución asimétrica. Por ejemplo, el uso de la media geométrica (MG) para agregar variables desbalanceadas genera índices distorsionados (Mazziotta, & Pareto, 2017a), aunque este procedimiento no-compensatorio sea conceptualmente apropiado para elaborar índices socioeconómicos. No sorprende que la MG sea menos estable que la media contra armónica (MCA o MPI + ) cuando se utilicen distribuciones asimétricas. Todas las estandarizaciones revisadas, excepto la estandarización balanceada propuesta en esta investigación, tienen exactamente la misma forma de los datos de entrada. Si estos datos son asimétricos, también lo son sus estandarizaciones. Cuando la distribución es simétrica, la MG es el procedimiento de agregación más estable al compararse con el resto de los procedimientos revisados. Finalmente, debiera evitarse la agregación de variables con procedimientos compensatorios en vez de utilizar métodos no-compensatorios (problema conceptual) en variables con distribuciones desbalanceadas (problema técnico).
Los resultados del estudio de caso sugieren la siguiente recomendación, si la estabilidad fuera el principal criterio de selección de un IC socioeconómico: utilizar la media geométrica (MG) con estandarización simétrica (zEB), ponderada con el criterio de razón insuficiente (RI). La MG reúne las características deseables de un índice compuesto (Diamantopoulos, & Winklhofer, 2001; Tebala, & Tebala, 2021; Mazziotta, & Pareto, 2013): es un procedimiento no compensatorio simple, estable, toma en cuenta la interacción entre las variables, de cálculo transparente y de fácil interpretación.
Limitaciones y futuras líneas de investigación. Todo estudio que toma como referencia observaciones en el espacio adolece de la falacia ecológica: atribuye las características del todo a sus partes. No todas las personas que viven en áreas con alto rezago son pobres ni todas las que viven en zonas de alto bienestar son no-pobres. Entre los temas no incluidos en el estudio que pueden considerarse como posibles tareas de investigación destacan: i) elaborar un índice basado en la MG igualmente ponderada (MGW) comparable en el tiempo y el espacio, que considere la evolución del valor y jerarquía entre las observaciones de este índice absoluto; ii) desagregar la MGW como índice de rezago social al nivel municipal y de las principales áreas metropolitanas; y iii) cuantificar necesidades para determinar las acciones necesarias por variable a fin de establecer metas y eliminar déficits en materia de servicios sociales.