Introducción
Los resultados de la educación son una manifestación del currículum, el ambiente, el clima, la calidad y los cambios, además de las relaciones entre ellos1. Por ello, el clima es un determinante importante del comportamiento de los estudiantes2. Bajo este enfoque, la evaluación de la percepción que tienen los estudiantes del clima educacional ha sido relacionada con el desempeño, la satisfacción y el éxito en la trayectoria académica3-5.
En México, el Consejo Mexicano para la Acreditación de la Educación Médica incluye el ambiente académico como indicador para la acreditación del programa y la Asociación Mexicana de Escuelas de Medicina señala que propicia características de armonía, comunicación, convivencia, liderazgo, responsabilidades necesarias para el cumplimiento de los objetivos del programa y el buen desarrollo del proceso enseñanza-aprendizaje6.
Existen varios instrumentos diseñados para conocer el ambiente, con diferentes objetivos, dimensiones y número de ítems. Entre ellos, por su aplicación internacional, destaca el Dundee Ready Education Envieronment Measure (DREEM), construido para evaluar el ambiente educacional de escuelas de medicina de pregrado. Fue creado entre 1995 y 1997 por un panel de 80 expertos de escuelas internacionales de medicina convocados por investigadores en educación médica adscritos a la universidad de Dundee del Reino Unido, mediante una combinación de métodos cuantitativos y cualitativos7. Consta de 50 ítems agrupados en cinco subescalas (Tabla 1).
Subescala para la percepción de | Ítems | Puntaje total |
El aprendizaje | 1, 7, 13, 16, 20, 22, 24, 25*, 38, 44, 47, 48* | 48 |
Los docentes | 2, 6, 8*, 9*, 18, 29, 32, 37, 39*, 40, 50* | 44 |
Autopercepción académica | 5, 10, 21, 26, 27, 31, 41, 45 | 32 |
La atmósfera | 11, 12, 17*, 23, 30, 33, 34, 35*, 36, 42, 43, 49 | 48 |
Autopercepción social | 3, 4*, 14, 15, 19, 28, 46 | 28 |
Puntaje total | 200 |
* Ítems codificados en reversa.
Los estudiantes responden los ítems utilizando una escala de cinco opciones tipo Likert que al codificarse y sumarse proporcionan un puntaje total que se interpreta como: 0-50 ambiente educativo muy pobre; 51-100 abundancia de problemas; 101-150 ambiente más positivo que negativo; 151-200 excelente ambiente educativo8.
Desde su aparición, el DREEM ha sido traducido a ocho diferentes lenguas y usado, hasta 2012, en cuando menos 20 países, principalmente en Europa y Asia. En América ha sido aplicado en Chile, Brasil y Canadá9. En México se aplicó para evaluar el ambiente educacional en una unidad de medicina familiar10 y en una prueba piloto en la Facultad de Medicina de la UNAM11. Probar la validez del DREEM en un nuevo contexto es muy importante, pues se refiere al grado en que la evidencia recogida apoya las inferencias que se hacen a partir de las puntuaciones obtenidas con el instrumento que se utilice12, implica que funcione del mismo modo para distintos grupos en relación con las variables seleccionadas, lo que es aún más relevante cuando es diseñado en otro idioma.
Para validar la traducción existen diversos métodos que coinciden en que, para obtener una alta calidad, lo más conveniente es realizar un riguroso procedimiento multietápico con procedimientos de revisión centralizados13. En instituciones de educación médica en la India 14, Malasia15, Suecia16,17, Irán18, Brasil19, Chile20 y Grecia21 se ha validado y aplicado el DREEM, destacándose los métodos estadísticos y no hay reportes, o solo dedican unas líneas a la metodología empleada para su traducción, por lo que el objetivo de este estudio fue validar la escala DREEM después de traducirla y adecuarla del idioma inglés al español-mexicano.
Método
El proceso de traducción y validación de la escala DREEM se llevó a cabo en estudiantes de la Licenciatura en Médico Cirujano de la División Académica de Ciencias de la Salud de la Universidad Juárez Autónoma de Tabasco, en México. Se realizó en dos etapas: la traducción con metodología cualitativa y la validación de la consistencia interna con metodología cuantitativa.
Consideraciones éticas. El protocolo fue autorizado por el comité de ética de la institución. Previamente, a todos los estudiantes que participaron, se les presentaron los puntos clave del protocolo, informó que su participación era voluntaria y garantizó el anonimato sus respuestas.
1a Etapa (cualitativa). Diseño del proceso de traducción
Se siguió la propuesta de Wild13 , de diez etapas, con dos modificaciones: en la etapa dos, se introdujo la revisión por cinco expertos para validar la traducción, y en la etapa siete al realizar la retrotraducción posterior a las adecuaciones y armonizaciones señaladas en el método original. En total participaron ocho traductores que cumplieron mínimo cuatro criterios de selección: tener más de 10 años de docencia en el área de la salud, contar con el grado mínimo de maestría o especialidad médica, experiencia en investigación por método de encuesta y con alto dominio del idioma inglés demostrado con documentos probatorios o haber realizado al menos una estancia académica en universidades de países de habla inglesa y disertar en idioma inglés en congresos internacionales del área de la salud. Cada uno de ellos trabajó siempre de manera individual.
La metodología para los grupos focales se llevó a cabo de acuerdo con Mella22. En la armonización de los términos que causaron discusión, se replantearon en correspondencia con el manejo cotidiano de los estudiantes cuidando no alterar el campo semántico, para lo cual se realizó la consulta lingüística en el Diccionario de la Real Academia Española, versión electrónica23 . Las once etapas del proceso de traducción del DREEM con las actividades realizadas se describen brevemente en la Tabla 2.
Secuencia | Etapa | Actividades y criterios |
1 | Preparación | Invitaciones a traductores; diseño de instrumentos complementarios |
2 | Traducción inglés-español mexicano (T1) | Traducción literal de los 50 ítems por un traductor seleccionado con base a criterios establecidos |
3 | * Revisión de traducción. Adaptación al contexto (T2, T3, T4, T5 y T6) | Trabajo individual de 5 traductores seleccionados con base a criterios establecidos. Vaciado en cédula de tres columnas: 1) pregunta en inglés/traducción literal; 2) acuerdo/desacuerdo; 3) en caso de desacuerdo, propuesta de traducción |
4 | Reconciliación | Codificación de acuerdos/desacuerdos-propuestas. Comparación: 100% de coincidencia positiva, se mantuvo la traducción; coincidencia parcial, se revisó y reformuló la traducción del ítem de acuerdo con la sugerencia de la mayoría; 100% coincidencia negativa, se reformuló la traducción tal y como lo sugirieron los expertos |
5 | ** Interrogatorio cognitivo (grupo focal) | Prueba de traducción en 3 grupos focales de 12 estudiantes c/u de ciencias de la salud. Anotación de comentarios |
6 | Revisión | Revisión y cotejo de observaciones de los grupos focales. Identificación de causas |
7 | Armonización | Consulta del Diccionario de la Real Academia Española, versión electrónica para adecuación de términos sin alterar campos semánticos |
8 | Retrotraducción español mexicano-inglés (T7 y T8) | Dos traductores seleccionados con base en criterios establecidos que no habían participado en ninguna etapa anterior trabajando de forma independiente. Vaciado en cédula como se describe en el punto 3 |
9 | Revisión de resultados | Comparación de las dos retrotraducciones para identificar acuerdos, divergencias. Armonización de ambas por los investigadores responsables |
10 | Lectura de prueba | Revisión individual por los investigadores responsables |
11 | Reporte final | Documentación del proceso |
Etapas con base en Wild13 .
* Modificación realizada a la metodología por los autores.
** Con base en Mella22 ; T1-T8: traductores.
2a Etapa (cuantitativa). Validación de la consistencia interna del DREEM
Para determinar la consistencia interna del instrumento, se aplicó de manera autoadministrada a una muestra por conveniencia de 110 estudiantes de medicina, de los cuales el 52% eran mujeres y el 48% hombres, que cursaban los semestres segundo a octavo. Los cuestionarios respondidos se sometieron a los filtros de calidad, que todos aprobaron. Se capturaron y se hizo codificación en reversa de los ítems 4, 8, 9, 17, 25, 35, 39, 48 y 50 como lo señalan McAleer y Roff8. Se calcularon media, desviación estándar, media de correlación de Pearson corregida ítem-subescala, correlación interna de los ítems mediante el coeficiente alfa de Cronbach estratificado para cada una de las cinco subescalas y el global. La interpretación de los resultados se realizó de acuerdo con George y Mallery24 quienes establecieron que, con un alfa de Cronbach <0.5 la fiabilidad no es aceptable; entre 0.5 y 0.6 es pobre; entre 0.6 y 0.7 es débil; entre 0.7 y 0.8 es aceptable; entre 0.8 y 0.9 es buena, y >0.9 la fiabilidad es excelente. Las correlaciones corregidas ítem-subescala (correlación entre cada ítem y el total del puntaje remanente de los ítems de la escala hipotética) deberían ser ≥ 0.3 para considerarse aceptables e interpretadas como evidencia que apoya la validez del constructo y se presentaron los promedios de cada subescala. Los datos fueron analizados mediante el paquete estadístico Minitab© versión 15 para Windows.
Resultados
Etapa cualitativa. Traducción del instrumento
Se tradujeron literalmente los ítems del inglés al español-mexicano por una traductora. Posteriormente los investigadores responsables adecuaron la traducción a la realidad del funcionamiento académico y administrativo de la institución educativa sustituyendo «escuela» por «Universidad» y «año escolar» por «semestre».
Revisión de la traducción
En la revisión de la traducción al español-mexicano de los 50 ítems realizada por cinco traductores, en 40 (80%) de los ítems hubo una coincidencia del 100% positiva de la traducción. En 7 ítems (14%) hubo coincidencia parcial y en 3 (6%) hubo 100% de coincidencia negativa.
Reconciliación
Se reformuló la traducción de los ítems que tuvieron coincidencia parcial eligiendo la más apegada a la versión original. En las coincidencias negativas, se reformularon como lo sugirieron los traductores.
Grupos focales
Para probar la traducción y adecuación de términos se procedió a someter el instrumento a 3 grupos focales de estudiantes, donde hubo nueve ítems que generaron discusión. En los ítems 4, 14, 38 y 42 los estudiantes estaban confundidos sobre ¿a qué curso se refiere la pregunta?; en los ítems 13 y 48 no había acuerdo en la interpretación del término «centrada»; lo mismo sucedió en los ítems 25 y 47 sobre el término «enfatiza»; y en el ítem 30 había diferentes concepciones sobre el término «interpersonales».
Revisión
Al analizar las notas y observaciones de los grupos focales se identificaron las frases y términos que generaron confusiones. Sobre el curso al que se refería el ítem, se debió a que los estudiantes cursan en cada semestre entre seis y ocho materias o cursos. El término «centrada» era correctamente interpretado, el problema surgía cuando se completaba la frase «centrada en el estudiante» y «centrada en el profesor», lo que generó discusión. El término «interpersonales» no era correctamente interpretado por todos los estudiantes. En cuanto al término «enfatiza» no es usual que lo utilicen, de ahí que es poco conocida su aplicación.
Armonización
Como el objetivo es que los estudiantes expresaran su percepción sobre todas las materias cursadas en el semestre correspondiente a la aplicación del instrumento, se cambió el término «curso» a «cursos». El término «enfatiza» por «sobresale», «interpersonales» se sustituyó por «para relacionarme con otras personas». En cuanto al término «centrada», se acordó anexar entre paréntesis el significado quedando: «La enseñanza está centrada en el estudiante (hay variedad de métodos de enseñanza y formas de evaluación)» y «La enseñanza está demasiado centrada en el profesor (el profesor entrega información de manera tradicional con clase expositiva)».
Retrotraducción
A otros dos traductores independientes se les presentó la secuencia metodológica de la traducción del instrumento y procedieron a retrotraducirlo al inglés. Realizaron pequeñas observaciones sobre algunos términos y coincidieron en que las adecuaciones no lo habían alterado.
Revisión
La retrotraducción del instrumento al idioma original coincidió en un 98% entre ambos traductores.
Prueba de lectura
Se realizó la lectura individual del instrumento y hubo acuerdo total del mismo.
Las escalas original y su correspondiente adecuada y traducida, se presentan en el Anexo 1.
Etapa cuantitativa
Se calculó el coeficiente alfa de Cronbach para cada subescala, el alfa global, la desviación estándar y la correlación corregida ítem-subescala (Tabla 3).
Subescala | Media | DE | α de Cronbach | Media de correlación corregida ítem-subescala (p = 0.000) |
Percepción de los estudiantes | ||||
De la enseñanza (12 ítems) | 34.06 | 6.38 | 0.84 | 0.52* |
De los docentes (11 ítems) | 28.47 | 5.81 | 0.80 | 0.46a |
Autopercepción académica (8 ítems) | 23.64 | 4.28 | 0.76 | 0.49b |
De la atmósfera (12 ítems) | 31.92 | 6.37 | 0.78 | 0.44c |
Autopercepción social (7 ítems) | 17.36 | 3.58 | 0.56 | 0.28d |
DREEM global (50 ítems) | 135.44 | 22.82 | 0.93 | 0.45 |
Correlación <0.3 en los ítems.
* Ítem 47(p = 0.001).
a Ítem 9(p = 0.001).
b Ítem 5(p = 0.002).
c Ítem 35(p = 0.002).
d Ítems 3(p = 0.026), 14(p = 0.001) y 46 (p = 0.02).
De acuerdo con la propuesta de George y Mallery24 para la interpretación del coeficiente de alfa de Cronbach, los resultados muestran una fiabilidad excelente en la escala global, buena en las subescalas de percepción de la enseñanza y los docentes; aceptable en la autopercepción académica y la atmósfera y hubo una fiabilidad pobre en la subescala de autopercepción social, además, no hay ítems midiendo el mismo elemento del constructo25.
En cuanto al cálculo de la correlación corregida ítem-subescala, en los ítems 47 de la primera subescala, 9 de la segunda, 5 de la tercera y 35 de la cuarta, resultaron <0.3, mientras que la media promedio de las subescalas fue ≥0.44. En la quinta subescala, la de autopercepción social, los ítems 3, 14 y 46 también tuvieron una correlación <0.3 y la media de la subescala fue igual a 0.28, lo que pone en duda la consistencia y se refleja en la fiabilidad, que también fue la más baja. La correlación global de la escala fue de 0.45 (p= 0.000) (Tabla 3).
Discusión
La escala DREEM es el instrumento más utilizado a nivel internacional para evaluar el ambiente educacional en las escuelas de medicina, ya que ha demostrado su utilidad para identificar las fortalezas y debilidades de las instituciones desde la perspectiva de los estudiantes. Al haberse diseñado originalmente en inglés, ha sido necesario realizar adecuaciones en algunos ítems para que sean comprendidos por estudiantes en otros países. En el presente trabajo, después de la traducción literal y primera adecuación de términos, a través de metodología cualitativa se identificaron los ítems 13, 25, 30, 47 y 48 que eran incomprensibles, los que se adecuaron para lograr su contextualización. En la traducción al griego21 los ítems 17 y 29 fueron rediseñados. En la traducción al sueco17 hubo resultados estadísticamente insatisfactorios en los ítems 17, 23, 25, 39, 46 y 48, los que pudieron haber sido no entendidos o fueron irrelevantes en el contexto estudiantil. En Irán26 , como resultado de una validación por juicio de expertos, se rediseñaron los ítems 7, 11, 12, 25, 27, 35, 42, 47 y 50. La coincidencia en los ítems podría evidenciar que aun cuando se considera que el DREEM se diseñó sin tendencias culturales27, es necesario validar su comprensión por los estudiantes para lograr una interpretación lo más apegada posible a la propuesta original, lo que también fue documentado por Whittle28 al introducir métodos cualitativos para explorar la percepción del ambiente educacional.
El análisis estadístico para conocer en qué medida el DREEM mantiene su fiabilidad, en las cinco subescalas el alfa de Cronbach resultó entre 0.56 y 0.84, interpretándose las subescalas de percepción de la enseñanza y los docentes como buenas, la autopercepción académica y de la atmósfera aceptables, la autopercepción social pobre y que no hay ítems midiendo el mismo elemento del constructo24,25. Estos resultados son comparables con reportes del alfa de Cronbach entre 0.48-0.79 en Grecia21; 0.58-0.75 en Chile20; 0.58-0.82 en Brasil19; 0.60-0.84 y 0.69- 0.81 en Suecia16,17 y 0.64-0.80 y 0.45-0.77 en Irán18,26. Lo interesante es que, en los estudios mencionados, incluido el presente, la subescala con menor fiabilidad fue la autopercepción social, excepto la traducción al portugués donde fue aún más baja la autopercepción académica.
Esto es válido, dado que el coeficiente alfa de Cronbach necesariamente va a cambiar según la población donde se aplique, pues su cálculo se basa en las respuestas introducidas en la fórmula y no refleja las características de la escala en sí misma29.
El cálculo del coeficiente de correlación corregida ítem- subescala, identificó en el instrumento siete ítems con un bajo valor. Oliveira19 reportó ocho ítems con muy bajo coeficiente de correlación y Jakobsson17 cinco que tuvieron una correlación <0.3, aunque cuatro lo superaron en el análisis factorial. Estos resultados no pueden explicarse en función de que los ítems fueran incomprensibles o deficiente su adecuación, pues no está documentada la metodología utilizada en la traducción de los reportes mencionados, incluso en algunos casos solo se menciona una validación aparente o participación única de dos traductores con posterior tratamiento estadístico en todos los casos16-18,26. También pueden existir otros factores que están interactuando o tratarse de un problema en la estructura de la escala, lo que ya ha sido planteado por otros autores15,17,30. En este trabajo el alfa global fue de 0.93, superior a 0.90 reportado en Grecia21),0.91 en Chile(20 e Irán18,26, y similar a 0.93 en Brasil19 y Suecia17 resultados que se consideran excelentes24.
Conclusiones
El DREEM es un instrumento de aplicación internacional, de ahí que es muy importante que conserve su capacidad de comparación cuando es traducido a un idioma diferente al original, para lo cual se recomienda utilizar una metodología que considere varios profesionales por etapas, con criterios establecidos para su traducción y validar el nuevo instrumento.
En el primer caso, en este trabajo se dio la oportunidad de armonizar las discrepancias surgidas de la adecuación del instrumento al sustituir la traducción literal con términos que correspondían a la realidad de los estudiantes. Así también, fue relevante la adecuación de la redacción al realizar el interrogatorio en grupos focales de estudiantes, donde se identificaron términos que provocaban confusiones que podrían generar resultados no fidedignos al no ser claros los enunciados.
Con respecto al cálculo estratificado del coeficiente alfa de Cronbach, en las subescalas de percepción de la enseñanza y de los docentes se obtuvo un buen resultado de fiabilidad, en la autopercepción académica y la atmósfera los resultados fueron aceptables, mientras que en la autopercepción social la fiabilidad fue pobre. En esta última subescala, habría que profundizar en el análisis de los ítems que la integran para identificar la razón de su baja correlación, que podría ser su irrelevancia o incomprensión por los estudiantes. El valor de la escala global fue excelente, aunque se elevó al introducir las cinco subescalas en el cálculo, lo que puede ser una sobreestimación al aumentar la varianza sistemáticamente colocada en el numerador. Por esta razón, es recomendable que cuando se aplique, se proporcionen los resultados del coeficiente mencionado y, dado que la subescala de la autopercepción social presentó baja consistencia, se sugiere que siempre se analicen y reporten los ítems de manera individual para garantizar su efectividad en la identificación de las debilidades del clima educacional. Al respecto, es recomendable profundizar en el análisis de la escala para decidir si se eliminan algunos ítems por ser irrelevantes para los estudiantes en el contexto mexicano.
Se concluye que la escala DREEM demostró una buena consistencia interna y no perdió fiabilidad con la traducción del idioma inglés al español-mexicano ni con las adecuaciones de los enunciados, los cuales no modificaron el campo semántico original. Además, al haberse diseñado especialmente para escuelas de medicina, a pesar de sus limitaciones, sigue siendo una herramienta muy útil para evaluar el clima educacional en las instituciones de educación médica en México.
Responsabilidades éticas
Protección de personas y animales. Los autores declaran que para esta investigación no se han realizado experimentos en seres humanos ni en animales.
Confidencialidad de los datos. Los autores declaran que han seguido los protocolos de su centro de trabajo sobre la publicación de datos de pacientes.
Derecho a la privacidad y consentimiento informado. Los autores declaran que en este artículo no aparecen datos de pacientes.
Financiamiento. Ninguno.
Autoría/colaboradores
Contribución de los autores:
SAB: coordinación general, diseño, análisis de datos, reporte final.
AJS: diseño, coordinación del levantamiento de datos, reporte final.
MLCO: levantamiento de datos, análisis de datos, reporte final.
Conflicto de intereses. Los autores declaran no tener ningún conflicto de intereses.