Instroducción
Los instrumentos psicométricos de auto reporte con escalas de respuesta tipo Likert constituyen herramientas de medición utilizadas profusamente en estudios de áreas tan diversas como la psicología, la mercadotecnia, la educación, la salud, la industria, la economía y la sociología. Una escala se conforma con varios reactivos integrados por una afirmación declarativa y tres o más opciones de respuesta, que permiten a los respondientes graduar sus respuestas con descriptores verbales (como “Totalmente de acuerdo”- “Totalmente en desacuerdo” o “Siempre”- “Nunca”) y/o con números; para efectuar los análisis, se promedian los valores cuantitativos o puntajes numéricos asignados a cada opción de respuesta (DeVellis, 2017; Maeda, 2015; Mills, & Gay, 2016). Es frecuente que los investigadores se cuestionen acerca de las propiedades psicométricas de las escalas que aplican y que indaguen cómo hacer que sus mediciones sean cada vez más precisas (Croasmun & Ostrom, 2011; Revilla, Saris, & Krosnick, 2014). Entre las numerosas decisiones que deben tomarse al aplicar escalas Likert se encuentra el número de opciones de respuesta. Aunque con frecuencia se utilizan cuatro o cinco (Preston & Colman, 2000), la literatura sobre construcción de instrumentos psicosociales ha mostrado que no necesariamente constituyen un número óptimo.
El número de opciones de respuesta tiene que ver con el nivel de medición de las variables. Desde que Stevens (1946, 1957) propuso las cuatro escalas de medición en psicología (nominal, ordinal, intervalar y de razón), se ha discutido el nivel al que corresponden los instrumentos tipo Likert. En sentido estricto, debido a que el tamaño de los intervalos entre las opciones de respuesta no es exactamente el mismo, no se trata de mediciones intervalares y, por tanto, nunca podría usarse estadística paramétrica con tales datos; no obstante, los investigadores generalmente tratan a nivel intervalar la mayoría de los tests y escalas multi-reactivos cuyos puntajes se suman o promedian (Furr, 2018). Miles y Shevlin (2011) proponen que la pregunta que se plantee el investigador respecto de la variable medida no sea: “¿está en una escala intervalar?”, sino “¿está suficientemente cerca de una escala intervalar? (p. 62), y ello hace alusión al número de categorías u opciones de respuesta que se usen en el instrumento. Al emplear el número máximo de categorías que los participantes pueden discriminar, se estará más cerca de una escala de intervalo.
Respecto del número ideal de opciones de respuesta, los investigadores mantienen una de tres posturas generales: a) al aumentar el número de opciones, se incrementa la validez y la confiabilidad del instrumento (v.gr., Allen & Seaman, 2007; Lozano, García-Cueto, & Muñiz, 2008; Weng, 2004), b) menos opciones mejoran la medición (v.gr., Chang, 1994; Revilla et al., 2014), y c) el número de opciones no afecta la calidad psicométrica de la escala (v.gr., Dawes, 2008; Domínguez, 2013).
En relación con los estudios que señalan que existe una asociación positiva entre el número de opciones y las propiedades psicométricas de la escala, diversos autores han encontrado que tener un mayor número de ellas permite obtener más información del individuo (Chang, 1994; Comrey, 1988, Garner, 1960; Green & Rao, 1970), y que más opciones de respuesta llevan a mayor evidencia de validez y mejor capacidad discriminativa (Nunnally & Bernstein, 1994; Preston & Colman, 2000). Lozano et al. (2008) reportaron que, conforme aumenta el número de opciones de respuesta en las escalas aplicadas, aumenta el porcentaje de varianza explicada.
Asimismo, se ha señalado que usar más opciones incrementa la confiabilidad obtenida, aunque hasta cierto punto, después del cual la confiabilidad no aumenta a pesar de que se agreguen más opciones de respuesta. En este sentido, algunos autores han encontrado que el punto en el que se maximiza la confiabilidad corresponde a siete opciones de respuesta (Allen & Seaman, 2007; McKelvie, 1978; Ramsay, 1973), y otros reportan que la confiabilidad se estabiliza utilizando cinco (Cummins & Gullone, 2000) o seis opciones (Aiken, 1983; Boote, 1981; Weng, 2004). Streiner, Norman y Cairney (2015) han señalado que existe evidencia empírica de que las personas prefieren y son capaces de discriminar siete opciones. Simms, Zelazny, Williams y Bernstein (2019) analizaron de dos a once opciones y encontraron que la precisión psicométrica era baja en los subtests del inventario de personalidad que aplicaron con cinco o menos opciones, pero que después de seis se mantenía sin variación. En cuanto al análisis multivariado de los datos, Martínez y Rodríguez (2017) realizaron un estudio de simulación para evaluar el efecto del número de opciones de respuesta en el cálculo de diferentes coeficientes de correlación. Sus análisis mostraron que la estimación producto-momento, en contraste con la estimación tetracórica-politórica, infravalora la relación entre las variables cuando el número de opciones de respuesta es pequeño (dos, tres o cuatro); sin embargo, ambos coeficientes resultan muy similares cuando el número de opciones de respuesta es mayor (cinco o siete). En otro estudio de simulación, Maydeu-Olivares, Fairchild y Hall (2017) mostraron que, puesto que con pocas opciones de respuesta la desviación estándar se reduce y la curtosis aumenta, el poder (1-β) de los índice de ajuste (como χ², RMSEA y SRMR) para detectar modelos incorrectos en la estructura factorial del instrumento resulta severamente afectado cuando se utilizan menos de cinco opciones.
En contraposición a esta postura, Revilla et al. (2014) realizaron un estudio en el que compararon escalas con cinco, siete y once opciones de respuesta y sus resultados mostraron que un mayor número de opciones hizo que los participantes efectuaran más interpretaciones, lo cual condujo a obtener menor validez. Respecto de la confiabilidad, Chang (1994) comparó los coeficientes de consistencia interna de instrumentos con cuatro y seis opciones de respuesta y encontró que el cuestionario de cuatro opciones mostró mayores índices de confiabilidad que el de seis.
También se ha señalado que la validez y la confiabilidad del instrumento son independientes del número de opciones de respuesta (Schuts & Rucker, 1975). López (2005), al comparar cinco formatos obtenidos al “colapsar” las cuatro de opciones de respuesta de un test de depresión a dos o tres categorías, reportó la misma confiabilidad y validez con un formato politómico que con uno dicotómico. En un estudio similar, Domínguez (2013) aplicó una escala de autoeficacia con cuatro opciones de respuesta, analizó diferentes combinaciones de éstas, también agrupadas en tres y dos opciones, y llegó a la conclusión de que sus índices psicométricos no fueron afectados por este factor. Dawes (2008), al evaluar el impacto de cinco, siete y diez opciones de respuesta en la media, la desviación estándar, el sesgo y la curtosis, reportó que no hubo diferencias entre los instrumentos y concluyó que la información obtenida es útil, independientemente del número de opciones de respuesta; sin embargo, no comparó sus indiíndices psicométricos. Wakita, Ueshima y Noguchi (2012) aplicaron un cuestionario de personalidad con cuatro, cinco y siete opciones de respuesta y señalaron que la confiabilidad fue independiente del número de categorías utilizadas en el cuestionario.
En virtud de que es fundamental medir con precisión en la psicología (y en todas las ciencias) y de que aún no existe consenso respecto del efecto del número de opciones de respuesta y del medio de aplicación de un instrumento sobre la calidad de los datos obtenidos, el objetivo del presente estudio fue comparar diferentes versiones de escalas de constructos psicológicos con formato de respuesta tipo Likert. Se hipotetizó que en las versiones con mayor número de opciones de respuesta se obtendrían índices psicométricos más altos (variabilidad, confiabilidad y validez factorial). A fin de evaluar el posible efecto diferencial de estas variaciones según el constructo medido, se aplicaron cuatro escalas breves unidimensionales de variables psicosociales: optimismo, gratitud, bienestar psicológico y soledad. El estudio pretende aportar evidencia empírica que apoye la toma de decisiones de los investigadores respecto del número de opciones más adecuado para utilizar en escalas que permita incrementar la validez y confiabilidad de sus mediciones. Adicionalmente, esta investigación tuvo el propósito de aportar evidencia empírica sobre esta temática en población mexicana.
Método
Participantes
La muestra fue de tipo no aleatorio intencional; estuvo constituida por 757 estudiantes universitarios de licenciatura (85.2%) y posgrado (14.8%), de instituciones públicas (83.9%) y privadas (16.1%) de la Ciudad de México y área metropolitana. El 72.0% de los participantes eran mujeres; sus edades oscilaron entre los 18 y los 30 años (M=21.82 años, DE=3.24); la mayoría dijeron ser solteros (93.7%) y no tener un trabajo remunerado (69.9%).
Diseño
Se empleó un diseño cuasiexperimental de tres grupos no aleatorios. El 30.02% de los participantes respondió la versión de cinco opciones de respuesta, el 35.63% la de seis y el 34.35% la de siete.
Instrumentos
Se conformó una batería integrada por un cuestionario demográfico (que registraba sexo, edad, estado civil, trabajo remunerado, nivel de estudios y tipo de universidad) y cuatro escalas psicosociales, cuyos reactivos se muestran en el Apéndice: Cuestionario de Optimismo, Cuestionario de Gratitud, Escala de Bienestar Subjetivo y Escala Multifactorial de Soledad. Estas escalas fueron seleccionadas por ser instrumentos cortos (entre 7 y 10 reactivos), unidimensionales y con índices psicométricos adecuados, características que permitían efectuar los análisis requeridos para el cumplimiento de los objetivos planteados y evaluar el efecto de las variables del estudio. Además, los constructos medidos resultaron de interés y fueron pertinentes para los integrantes de la muestra. El número total de reactivos para las cuatro escalas fue de 34.
Cuestionario de Optimismo, COP (Pedrosa, Celis, Suárez, García y Muñiz, 2015). Se dirige a jóvenes y está integrado por un solo factor, que explica el 42.43% de la varianza total, con nueve reactivos y cinco opciones de respuesta; los autores reportaron un índice de consistencia interna α de Cronbach = .84. MiMide el optimismo disposicional, es decir, la tendencia personal estable de evaluar positivamente los posibles eventos futuros (Carver, Scheier y Segerstrom, 2010).
Cuestionario de Gratitud, GQ-6 (McCullough, Emmons y Tsang, 2002). El instrumento original, Gratitude Questionnaire-6, se dirige a estudiantes universitarios y consta de un solo factor, conformado por seis reactivos con siete opciones de respuesta; los autores probaron el ajuste unidimensional de los datos mediante un análisis factorial confirmatorio (CFI=0.95, SRMR=0.04) y reportaron un coeficiente alfa de .82. El GQ-6 evalúa la gratitud como una disposición para reconocer las acciones de benevolencia de otras personas y responder a ellas con una emoción de agradecimiento. El GQ-6 fue sometido al proceso de traducción, re-traducción y adaptación por los autores del presente trabajo. La versión en español quedó integrada finalmente por siete reactivos, ya que el reactivo 5. “As I get older I find myself more able to appreciate the people, events, and situations that have been part of my life history”, fue dividido en dos: “Conforme avanzo en edad, valoro más a las personas que han formado parte de mi vida” y “Conforme soy mayor, valoro más las experiencias que he vivido”.
Escala de Bienestar Subjetivo (EBS) (Calleja y Almazán, en prensa). Fue desarrollada con el propósito de evaluar el bienestar subjetivo en jóvenes mexicanos. En su construcción se observaron los procedimientos psicométricos establecidos (cfr. DeVellis, 2017). El constructo se definió como la evaluación que hacen las personas de su satisfacción con la vida (con su trabajo, su escuela, su familia), cognoscitiva y emocionalmente (Diener, 2006; Diener y Diener, 1996) y se diferenció del bienestar eudomonista y del bienestar psicológico (González y Andrade, 2016). Consta de una dimensión con ocho reactivos y siete opciones de respuesta de acuerdo-desacuerdo. Su validación en población general mostró una consistencia interna α=.971 y una varianza explicada de 78.73%. Los índices de ajuste del análisis factorial confirmatorio resultaron satisfactorios (CMIN/DF = .668; GFI = .980, NFI = .992; CFI = .998; RMSEA =.041).
Escala Multifactorial de Soledad (Montero, 1998). Está conformada por cuatro factores, que explican el 51% de la varianza total; los índices de confiabilidad de los factores oscilan entre .72 y .94. En el presente estudio se aplicaron únicamente los 10 reactivos con mayor carga factorial de la subescala de Bienestar Emocional. La soledad se ha definido como un fenómeno psicológico potencialmente estresante, que resulta de percibir carencias afectivas, sociales y físicas (Montero y Sánchez, 2001).
Procedimiento
Con el objetivo de evitar sesgos en las respuestas, los reactivos de las cuatro escalas fueron integrados y ordenados de manera aleatoria en una batería. Se crearon tres versiones de la batería, una en la que los reactivos tenían cinco opciones de respuestas, otra con seis y la tercera con siete. En esta última, las opciones fueron: Muy en desacuerdo (0), En desacuerdo (1), Ni en acuerdo ni en desacuerdo (2), De acuerdo (3), Muy de acuerdo (4), Bastante de acuerdo (5) y Totalmente de acuerdo (6); en la versión de seis opciones se eliminó la de Muy en desacuerdo, y en la de cinco, además de ésta, la de Bastante de acuerdo (véase tabla 1). La batería se elaboró tanto en formato impreso como en versión electrónica. Cada uno fue piloteado con 15 voluntarios que poseían características similares a los de la muestra. Inmediatamente después de la aplicación, se efectuaron entrevistas estructuradas para explorar dificultades en la compresión de cada uno de los reactivos, errores en la secuencia de los mismos y problemas con el formato de respuesta. Los datos obtenidos fueron analizados por el grupo de investigadores responsables; se decidió realizar los siguientes cambios: invertir y modificar el fraseo del reactivo 3 de la Escala de Optimismo (“Pienso que todo saldrá mal” por “Tiendo a pensar que todo saldrá bien”), del reactivo 3 de la Escala de Gratitud (“Cuando miro al mundo, no veo mucho por lo que estar agradecido” por “Cuando miro a mi alrededor, considero que hay mucho por lo que estar agradecido”) y del 6 de la misma escala (“Puede pasar mucho tiempo antes de que me sienta agradecido por algo o por alguien” por “Con frecuencia me siento agradecido(a) por algo o con alguien”). Asimismo, se cerraron todas las preguntas del cuestionario sociodemográfico. No fue necesario modificar el formato ni la secuencia de los reactivos.
La batería se aplicó tanto en formato impreso (59.45%) como electrónico (40.55%). Los instrumentos impresos fueron aplicados a los estudiantes universitarios en sus propios salones de clase o en el campus de la institución a la que asistían; en el primer caso, en forma grupal y en el segundo, de manera individual. Después de presentarse, los aplicadores explicaban los objetivos del estudio y los invitaba a participar en él de manera voluntaria; se hacía énfasis en que sus respuestas serían tratadas de forma completamente anónima y confidencial. Las aplicaciones electrónicas fueron respondidas en las plataformas Google Forms y E-survey creator, y en los formularios de Adobe Acrobat IX; la difusión se efectuó a través de redes sociales o por invitación directa vía correo electrónico.
Análisis de los datos
Las propiedades psicométricas de los cuatro instrumentos que conformaron la batería fueron analizadas separadamente por versión de opciones de respuesta (cinco, seis y siete). Se efectuaron los siguientes análisis estadísticos: distribución de frecuencias en las diferentes opciones de respuesta, medias y desviaciones estándar, pruebas t para muestras independientes y análisis de varianza (Anova de un factor) y análisis de confiabilidad mediante índices de consistencia interna (α de Cronbach). Para confirmar la estructura factorial de las escalas, evaluar los índices de ajuste así como determinar el porcentaje de varianza media extraída (AVE), se efectuaron análisis factoriales confirmatorios (AFC) con el método de máxima verosimilitud. Se analizaron los siguientes índices (Hu & Bentler, 1999): prueba de bondad de ajuste χ2; cociente χ2/gl (CMIN/DF) cuyo valor <3 indica un ajuste adecuado, los índices comparativos CFI (Comparative Fit Index) y TLI (Tucker Lewis Index), que con valores ≥.95 se interpretan como propios de un ajuste adecuado; así como los de error: SRMR (Standarized Root Mean Square Residual) y RMSEA (Root Mean Square of Aproximation), que muestran un ajuste adecuado con valores <.08 en el primer caso, y <.06, en el segundo. Respecto de la varianza media extraída, Fornell y Larcker (1981) recomiendan valores por encima de .50. Se emplearon los programas SPSS y AMOS, ambos versión 22, para llevar a cabo los procedimientos estadísticos.
Resultados
Distribución de frecuencias
Al analizar la distribución de frecuencias en cada una de las versiones de opciones de respuesta y para cada uno de los instrumentos aplicados, se observó una mayor dispersión en la versión de siete opciones de respuesta y la mayor concentración en una de las opciones de respuesta en la de cinco; sin embargo, en ningún caso rebasó el 50%. En la tabla 1 se presenta el porcentaje promedio de participantes en cada una de las opciones de respuesta de los reactivos que integraron cada uno de los instrumentos, en las versiones de cinco, seis y siete opciones. Para cada instrumento, el promedio por opción se obtuvo sumando a los participantes que eligieron esa
Opciones de respuesta | ||||||||
---|---|---|---|---|---|---|---|---|
Versión por nmero de opciones | Muy en desacuerdo 0 | En desacuerdo 1 | Ni en acuerdo ni en desacuerdo 2 | De acuerdo 3 | Muy de acuerdo 4 | Bastante de acuerdo 5 | Totalmente de acuerdo 6 | Total |
Cuestionario de Optimismo (9 reactivos) | ||||||||
5 | –––– | 1.24 | 10.04 | 28.93 | 32.71 | –––– | 27.08 | 100 |
6 | –––– | 2.41 | 10.37 | 19.44 | 17.00 | 23.96 | 26.81 | 100 |
7 | 1.84 | 3.97 | 10.64 | 20.60 | 16.97 | 24.91 | 21.07 | 100 |
Cuestionario de Gratitud (7 reactivos) | ||||||||
5 | –––– | 1.31 | 7.40 | 23.21 | 30.53 | –––– | 37.56 | 100 |
6 | –––– | 1.05 | 4.76 | 15.43 | 15.95 | 23.00 | 39.81 | 100 |
7 | 1.32 | 3.24 | 6.54 | 17.69 | 15.55 | 23.46 | 32.20 | 100 |
Escala de Bienestar Subjetivo (8 reactivos) | ||||||||
5 | –––– | 0.51 | 9.05 | 24.37 | –––– | 39.00 | 27.07 | 100 |
6 | –––– | 1.26 | 6.49 | 16.97 | 17.47 | 28.87 | 28.94 | 100 |
7 | 1.1 | 3.4 | 9.2 | 18.5 | 16.8 | 27.7 | 23.4 | 100 |
Escala de Soledad (10 reactivos) | ||||||||
5 | –––– | 49.85 | 41.83 | 5.28 | –––– | 2.18 | 0.86 | 100 |
6 | –––– | 35.24 | 33.06 | 22.67 | 5.17 | 3.13 | 0.73 | 100 |
7 | 31.85 | 33.69 | 22.19 | 5.46 | 3.00 | 2.27 | 1.54 | 100 |
opción en todos los reactivos de la escala, y dividiendo el total entre el número de reactivos. En todos los casos, el porcentaje más alto en una opción de respuesta se encontró en la versión de cinco opciones, seguida por la de seis y, finalmente, la de siete. En los instrumentos de atributos positivos, los mayores porcentajes se ubicaron en las opciones de Muy de acuerdo a Totalmente de acuerdo o de Casi siempre y Siempre, y en la de Soledad, en la de En desacuerdo.
Medias y desviaciones estándar
Se probó la significancia de las diferencias entre los grupos que respondieron a diferentes opciones de respuesta. Las desviaciones estándar más altas (mayores dispersiones) se encontraron en la versión de siete opciones y las medias más altas en la de seis. Las diferencias resultaron significativas en dos de las cuatro escalas (Optimismo y Gratitud); en ellas, la versión de cinco difirió significativamente de la de seis opciones y la de seis de la de siete (véase tabla 2).
Índices de consistencia interna
Los índices más altos de consistencia interna de los instrumentos aplicados correspondieron a la versión de siete opciones, con excepción de la Escala de Bienestar Subjetivo, en la que el alfa de Cronbach más alto se ubicó en la versión de seis opciones. En la escala de Optimismo y en la de Gratitud la mayor diferencia ocurrió entre la versión de cinco y la de siete opciones de respuesta, y la menor, entre la versión de seis y siete opciones (véase tabla 3). En tres de los cuatro instrumentos, las menores diferencias en los índices alfa se presentaron entre la versión de seis y la de siete opciones.
Estructura factorial y varianza media extraída
Mediante análisis factoriales confirmatorios se probaron las soluciones unifactoriales para las cuatro escalas. La varianza media extraída (que indica la proporción de la varianza de los reactivos explicada por el factor latente) resultó >.50 en las versiones de seis y de siete opciones, siendo más alta en éstas últimas, excepto para la Escala de Bienestar Subjetivo. Si bien en todos los casos el cociente χ2/gl fue <.3, los menores cocientes se obtuvieron en las versiones de siete opciones. Los índices de ajuste comparativo (TLI y CFI) superaron el criterio de .95 en las versiones de seis y siete opciones y fueron más altos en los de siete, en tanto que los menores índices de error (SRMR y RMSEA) se obtuvieron con siete opciones, seguidas por las de seis. Las diferencias más altas ocurrieron entre las versiones de cinco y siete opciones, y las menores entre las de seis y siete.
Discusión
La finalidad del presente estudio fue determinar el efecto del número de opciones de respuesta (cinco, seis o siete) de escalas tipo Likert sobre la calidad psicométrica y los resultados de la medición de distintos constructos. Los criterios de evaluación fueron: variabilidad, índice de consistencia interna (confiabilidad), porcentaje de la varianza explicada (validez factorial) y estadísticos descriptivos.
En todas las escalas se encontró la mayor dispersión de participantes en las versiones de siete opciones y, consecuentemente, la mayor concentración en una de las opciones de respuesta en las versiones de cinco opciones. Sin embargo, los porcentajes no rebasaron el 50%, lo que probablemente ocurriría en versiones de tres o cuatro opciones. Los conceptos fundamentales en medición psicológica se construyen sobre el concepto de variabilidad (Furr, 2018), ya que ésta refleja las diferencias en la cantidad del atributo que poseen las personas evaluadas. La desviación estándar, el indicador estadístico de la variabilidad, resultó mayor en la versión de siete opciones y en la aplicación electrónica versus la de papel, lo que muestra mayor precisión en la medición y, por tanto, mayor calidad psicométrica.
Se esperaba que las medias obtenidas fueran similares, independientemente del número de opciones de respuesta y del medio de aplicación que se utilizara. Esto ocurrió en dos de las cuatro escalas aplicadas (Bienestar Subjetivo y Soledad), en las que no se encontraron diferencias significativas entre las medias de las versiones de cinco, seis y siete opciones. Wakita et al. (2012) no encontró diferencias en su medición con cuatro y cinco opciones de respuesta, pero sí con siete. Leung (2011) reportó resultados similares entre las medias de instrumentos con 4, 5, 6 y 11 opciones de respuesta. Habrá que evaluar, en un estudio posterior, la razón por la que en el presente estudio se obtuvieron diferencias en dos escalas (Optimismo y Gratitud) y por qué la media de la versión de seis opciones resultó la más alta en todos los casos. Entre tanto, habrá que tener muy presente este efecto diferencial del número de opciones sobre las medias.
Instrumentos | Versión de nmero de opciones | Anova | Pruebas post hoc Scheffe | ||
---|---|---|---|---|---|
5 | 6 | 7 | |||
Optimismo | 4.01 (0.96) | 4.30 (1.14) | 4.06 (1.24) | F(2,754) = 4.938, p = .007 | 56: p=.022 57: n.s. 67: p=042 |
Gratitud | 4.33 (0.98) | 4.75 (1.03) | 4.42 (1.20) | F(2,754)=12.349, p<.001 | 56: p<.001 57: n.s. 67: p=.002 |
Bienestar subjetivo | 4.24 (1.06) | 4.44 (1.22) | 4.21 (1.25) | F(2,754) = 2.940, n.s. | n.s. |
Soledad | 1.15 (0.91) | 1.12 (0.88) | 1.27 (0.99) | F(2,754) = 1.752, n.s. | n.s. |
*Media teórica = 3; rango 1 a 7; n.s.: Diferencia no significativa.
Instrumentos | Versión de número de opciones | Diferencias | ||
---|---|---|---|---|
Cinco | Seis | Siete | ||
Optimismo | .883 | .932 | .937 | 5–6: -0.049 5–7: -0.054 6–7: -0.005 |
Gratitud | .850 | .908 | .910 | 5–6: -0.058 5–7: -0.060 6–7: -0.002 |
Bienestar subjetivo | .922 | .952 | .944 | 5–6: -0.030 5–7: -0.022 6–7: 0.008 |
Soledad | .896 | .905 | .925 | 5–6: -0.009 5–7: -0.029 6–7: -0.020 |
Instrumentos | AVE e índices de ajuste | Versión de número de opciones | Diferencias | ||||
---|---|---|---|---|---|---|---|
Cinco | Seis | Siete | 5-6 | 5-7 | 6-7 | ||
Optimismo | AVE | .41 | .58 | .61 | -.17 | -.20 | -.03 |
χ2(gl=21) | 49.817 | 46.341 | 40.083 | 3.476 | 9.734 | 6.258 | |
χ2/gl | 2.372 | 2.207 | 1.908 | 0.165 | 0.464 | 0.299 | |
TLI | .942 | .974 | .983 | -.032 | -.041 | .009 | |
CFI | .966 | .985 | .989 | -.019 | -.023 | -.004 | |
SRMR | .041 | .026 | .024 | .015 | .017 | .002 | |
RMSEA | .078 | .068 | .056 | .010 | .022 | .012 | |
Gratitud | AVE | .44 | .58 | .59 | -.14 | -.15 | -.01 |
χ2(gl=12) | 32.748 | 25.277 | 19.716 | 7.471 | 13.032 | 5.561 | |
χ2/gl | 2.949 | 2.106 | 1.643 | 0.843 | 1.306 | 0.463 | |
TLI | .895 | .981 | .988 | -.086 | -.093 | -.007 | |
CFI | .955 | .989 | .994 | -.034 | -.039 | -.005 | |
SRMR | .044 | .022 | .021 | .022 | .023 | .001 | |
RMSEA | .094 | .061 | .050 | .033 | .044 | .011 | |
Bienestar subjetivo | AVE | .55 | .67 | .62 | -.12 | -.07 | .05 |
χ2(gl=14) | 39.091 | 30.236 | 24.722 | 8.855 | 14.369 | 5.514 | |
χ2/gl | 2.792 | 2.160 | 1.766 | 0.632 | 1.026 | 0.394 | |
TLI | .967 | .978 | .988 | -.011 | -.021 | -.010 | |
CFI | .977 | .984 | .994 | -.007 | -.017 | -.010 | |
SRMR | .036 | .026 | .019 | .010 | .017 | .007 | |
RMSEA | .077 | .067 | .054 | .010 | .023 | .013 | |
Soledad | AVE | .47 | .52 | .56 | -.05 | -.09 | -.04 |
χ2(gl=31) | 80.536 | 58.977 | 53.219 | 21.559 | 27.317 | 5.758 | |
χ2/gl | 2.598 | 1.902 | 1.717 | 0.696 | 0.881 | 0.185 | |
TLI | .915 | .975 | .979 | -.060 | -.064 | -.004 | |
CFI | .942 | .983 | .986 | -.041 | -.044 | -.003 | |
SRMR | .046 | .030 | .028 | .016 | .018 | .002 | |
RMSEA | .090 | .055 | .053 | .035 | .037 | 002 |
Índices de ajuste y criterios de corte: χ2/gl <3; TLI (Tucker Lewis Index) ≥.95; CFI (Comparative Fit Index) ≥.95; SRMR (Standarized Root Mean Square Residual) <.08; RMSEA (Root Mean Square of Aproximation) <.06.
Los índices de consistencia interna más altos de tres de los cuatro instrumentos aplicados correspondieron a las versiones de siete opciones (en la escala de Bienestar Subjetivo el índice alfa más alto se obtuvo en seis opciones, aunque la diferencia con la de siete fue mínima). Estos resultados concuerdan con los reportados por otros autores (v.gr., Cicchetti et al., 1985; McKelvie, 1978; Preston & Colman, 2000), quienes afirman que la confiabilidad tiende a maximizarse con el uso de seis y siete opciones de respuesta.
En cuanto a la validez factorial, el mayor porcentaje de varianza media extraída fue obtenido en las versiones de siete opciones de respuesta y el menor, en las de cinco (excepto, nuevamente, en la Escala de Bienestar Subjetivo, en la que el índice más alto correspondió a la versión de seis opciones, aunque la diferencia con la de siete fue mínima). Lozano et al. (2008) también encontraron que al aumentar el número de opciones de respuesta, la varianza explicada se incrementa. En relación con el ajuste de los modelos factoriales a los datos, en los análisis factoriales confirmatorios (ver tabla 4) se obtuvieron consistentemente mejores índices en las versiones de siete y seis opciones que en las de cinco, para las cuatro escalas. Es decir, con instrumentos que sólo difieren en el número de opciones de respuesta, los procedimientos estadísticos arrojan mejores ajustes para las mediciones más finas que para las más gruesas, debido a la mayor variabilidad que es posible obtener. Puesto que, como señalan Maydeu-Olivares et al. (2017), el modelamiento estructural con variables latentes es una piedra angular de la psicometría y se usa con frecuencia para probar y construir teorías, es fundamental tomar en cuenta que el poder que tienen para probar los modelos propuestos está influenciado de manera decisiva por el número de opciones de respuesta.
Limitaciones y propuestas
Los resultados de este estudio indican que las escalas con seis y siete opciones de respuesta presentan, en términos generales, índices psicométricos más fuertes que las de cinco. Además, al utilizar este número de opciones de respuesta se obtiene mayor variabilidad, se realizan distinciones más precisas en la medición del atributo y es factible aplicar procedimientos estadísticos paramétricos.
Sin embargo, en virtud de que la investigación fue realizada en población universitaria, que suele estar familiarizada con cuestionarios y encuestas y que posee habilidades para discriminar entre varias opciones de respuesta, será necesario realizar estudios semejantes con muestras de características heterogéneas. Otra limitación es que sólo se analizaron cinco, seis y siete opciones de respuesta; sería conveniente incluir menos (dos, tres y cuatro) y más opciones (ocho, nueve y diez) para lograr una compresión más completa del fenómeno. Asimismo, puesto que en el presente estudio se evaluaron tres emociones positivas, las cuales tienen efectos específicos sobre el comportamiento (Schmidt, 2008) y cuyos puntajes se ubicaron por arriba de la media teórica, es probable que difieran de otras variables psicológicas, por lo que se sugiere replicarlo midiendo otros constructos y/o utilizando otros instrumentos. También habrá que considerar que las escalas aplicadas fueron cortas y unidimensionales (de siete a diez reactivos), por lo que es posible que los resultados varíen con instrumentos de mayor extensión. Asimismo, se requiere evaluar la compresión que los participantes tienen de las diferentes opciones de respuesta y preguntarles su preferencia respecto de éstas. Finalmente, habrá que considerar que los elementos psicométricos estudiados aquí son solo un aspecto del extraordinariamente complejo proceso de la medición del comportamiento humano.