Introducción
La lectura crítica de investigación continúa siendo una herramienta de aprendizaje muy poderosa necesaria para evaluar la información médica publicada en el medio científico, pero no se encuentra destacada en los planes de estudio de las universidades o de las instituciones de salud que forman a su personal relegando la necesidad de formación en este campo1. Se han publicado diferentes reportes para medir su desarrollo, encontrando, en forma persistente, resultados que se ubican en niveles de azar, a través de los años2.
Sin embargo se observan resultados promisorios posteriores a estrategias educativas de participación que muestran los beneficios a su exposición en diferentes ámbitos, en los que la crítica es el eje de aprendizaje a través de la lectura crítica en sus 3 componentes (interpretación, enjuiciamiento y propuestas), ampliamente referidos en trabajos previos3,4. A pesar de la necesidad de desarrollar esta habilidad, que la sitúa en un papel curricular predominante, se soslaya su implementación.
Cuando la investigación se encuentra en los planes de estudio, en los cursos correspondientes se continúan utilizando estrategias de aprendizaje no sustentadas en la elaboración del conocimiento y en la crítica de la experiencia, como propone Viniegra5.
Por otro lado, los diseños metodológicos se fortalecen a través de los años y a los 4 diseños básicos que propuso originalmente la Universidad de Mac Master para iniciar la lectura crítica de diseños metodológicos es necesario ahora agregar la construcción de instrumentos, los estudios de seguimiento y los metaanálisis para transitar apenas por la superficie de la medicina basada en evidencias, aspecto fundamental para un ejercicio clínico adecuado6.
El manejo apropiado de los diseños referidos antes es ya imprescindible en los estudiantes de medicina y en general para todo el personal de salud. Por ello es necesario abordarlos a través de la lectura crítica, que enfatiza aspectos metodológicos como la validez, la consistencia, la fortaleza de los diseños seleccionados, el muestreo, la determinación del tamaño muestral, el control de los sesgos, los estadísticos pertinentes, el análisis de los resultados presentados, la discusión y la pertinencia en el medio en el que se llevan a cabo, entre otros, y que le confieren o no validez a los reportes de investigación factual.
Evaluar el conocimiento así como el desarrollo de esta habilidad compleja en el personal de salud, de cualquier nivel educativo, nos obliga a construir instrumentos válidos y confiables para tal fin. Además estos instrumentos se deben actualizar a medida que los profesores avanzan en el camino interminable de la crítica, con nuevos diseños para otorgar a los alumnos una mirada completa de los mismos que le permitan evaluar los reportes o enfrentar sus propias preguntas de investigación7,8.
Es necesario que los instrumentos elaborados tengan validez intrínseca (teórica, de constructo, de contenido) y extrínseca (predictiva y concurrente) así como una consistencia adecuada para poder utilizarlos y obtener resultados con los que se puedan tomar decisiones adecuadas en el aprendizaje de los alumnos9,10. Diversos metaanálisis, preponderantemente en los cursos de medicina basada en evidencias, muestran un reporte muy bajo y deficiente de las características psicométricas de los mismos11,12.
No existen muchos reportes en la literatura sobre el proceso de la construcción y validación de instrumentos de lectura crítica, a pesar del amplio uso de la medicina basada en evidencias, y con frecuencia se relacionan a preguntas que exploran memoria o indagaciones generales de habilidades, en cuestionarios cortos de hasta 5 reactivos13-15.
El objetivo del estudio es reportar el proceso de construcción, validación y consistencia de un instrumento para evaluar el desarrollo de la lectura crítica de informes de investigación con los diseños indispensables al inicio del internado de pregrado.
Método
Diseño: construcción, validación y determinación de la consistencia de un instrumento para evaluar el desarrollo de la lectura crítica de informes de investigación factual en pregrado en medicina.
Población: se aplicó un instrumento a médicos internos de pregrado en una institución de seguridad social en la que el curso de investigación es parte fundamental del plan de estudios. Un grupo iniciaba apenas el internado (novato), sin el curso de investigación (G1, n = 23, promedio 84.4, DE: 3.3) y el otro, después de 6 meses de iniciado el internado, lo había ya cursado (intervenido, G2, n = 24, promedio 83.6, DE 5.4). Este último grupo no tuvo contacto previo con el instrumento en estudio. Los alumnos de ambos grupos provenían de distintas universidades, 2 locales privadas y una privada del occidente del país. Los promedios reportados fueron de la carrera, en una escala de 0-100.
Proceso de validación del instrumento
El plan de construcción del instrumento fue asignar un artículo de investigación por cada tipo de diseño (8 en total), a partir del cual se generaron una serie de tallos, con 96 reactivos, 12 para cada artículo.
Selección de artículos
Se revisaron 50 artículos en una primera ronda y 22 en una segunda, publicados en revistas indizadas, metodológicamente consistentes, relacionados con problemas del entorno geográfico, a fin de indagar mejor las distintas secciones, con los siguientes diseños: construcción de instrumentos, encuestas, casos y controles, pruebas diagnósticas, ensayos clínicos aleatorizados, cohortes, seguimiento y metaanálisis. Finalmente se seleccionaron 8, uno por diseño, que representaban las características más relevantes de los mismos.
Elaboración del instrumento
De los 8 seleccionados se elaboró un resumen, no mayor de media cuartilla, con las características más importantes del diseño, selección, tamaño muestral, sesgos, estadísticos usados, resultados más importantes, la significación y discusión. A cada resumen se agregaron tallos relacionados con los aspectos que otorgaban rigor metodológico como: validez, consistencia, pertinencia del diseño, muestreo, tamaño muestral, estadísticos, resultados, significación y discusión. Los enunciados incluían reactivos que exploraban la validez o no de cada uno de los aspectos referidos. Los reactivos exploraban los componentes de la lectura crítica: interpretar (el diseño usado, los implícitos del estudio, el muestreo, etc.), enjuiciar (la pertinencia de un diseño o de un estadístico sobre otro, de una técnica o no de aleatorización, etc.), y proponer (con propuestas que superaban a las del autor en los aspectos previos).
Se elaboraron los resúmenes inicialmente con 141 reactivos y se enviaron a 6 validadores para una primera ronda. Estos fueron médicos especialistas (3 pediatras, 2 internistas y un médico familiar), 2 tenían doctorado en ciencias, 2 tesistas de doctorado en educación y 2 con maestría en educación, con experiencia en la construcción de estos instrumentos, con publicaciones en diferentes revistas y eran profesores de investigación en maestrías, posgrado o pregrado.
Todos ellos recibieron un formato en el que se invitaba a revisar la pertinencia de los resúmenes elaborados, revisando aspectos de sintaxis, aspectos metodológicos distintivos de los diseños explorados, los tallos incluidos así como los componentes elaborados y sus posibles respuestas a cada uno de ellos. Se anexa un ejemplo de resumen, tallo y reactivos (anexo 1).
Se les invitó de manera independiente. La revisión fue anónima e independiente, en 2 rondas, por vía electrónica (técnica Delphi). Se les pidió que evaluaran la validez teórica (lectura crítica y componentes), la validez de constructo relacionada con la elaboración de los resúmenes, los enunciados y los reactivos y la validez de contenido (los 3 componentes y los 8 diseños). Asimismo se les solicitó contestar los enunciados como «Cierto» o «Falso» de acuerdo a su experiencia.
Se tomaron como adecuados aquellos en los que hubiera un acuerdo en las respuestas de 5/6 o 6/6. En la primera ronda hubo un acuerdo de 70 reactivos, que ascendieron a 100 en la segunda. Se realizaron las modificaciones sugeridas a resúmenes y reactivos.
Posteriormente se elaboró una hoja de respuestas para los alumnos con instrucciones precisas. Cada respuesta se contestaba como «Cierto», «Falso» o «No sé», ya que no se sustentan en el recuerdo de datos y se agrega la posibilidad de determinar mejor la respuesta por azar. Las respuestas correctas (cierta o falsa) sumaban un punto, las incorrectas restaban un punto y las «no sé» no restaban ni sumaban puntos.
Se diseñó un sistema computarizado de captura en programa Excel para minimizar errores y obtener los resultados (medianas) de manera automática por indicador, global y por diseño. La captura fue ciega.
El instrumento se aplicó en una muestra piloto de 32 alumnos internos de pregrado, en una sede diferente, sin realizarse observaciones al mismo. Se aplicó finalmente a G1 y G2 para determinar la consistencia y se compararon los extremos con la prueba de U de Mann-Whitney para buscar diferencias significativas. Los promedios se compararon con t de Student.
En todos los casos se solicitó autorización escrita a las autoridades educativas correspondientes para su aplicación y a los alumnos se les pidió su consentimiento verbal para su resolución. No hubo algún beneficio por participar o represalia por negarse a ello. La duración promedio de la resolución fue de 45 min.
Al mismo tiempo y con 3 semanas de diferencia se aplicó otro instrumento válido y consistente utilizado hasta ese momento para determinar la validez concurrente a través de la S de Spearman, aunque el instrumento era diferente16. Las respuestas de los alumnos se clasificaron en diversas categorías (azar, muy bajo, bajo, intermedio, alto, muy alto) una vez determinado el azar, de acuerdo a las recomendaciones de Pérez-Padilla y Viniegra17.
Resultados
En su versión final el instrumento quedó conformado y equilibrado con 96 reactivos, 36 para cada componente, 12 para cada diseño y 48 respuestas correctas y falsas.
Se determinó la consistencia mediante la fórmula 21 de Kuder-Richardson con un resultado de 0.79. No hubo diferencia en ambos grupos en promedios de la carrera (t: NS). Se obtuvo una S de Spearman de 0.37, (p = 0.12) cuando se compararon los resultados obtenidos por instrumento construido actualmente y el otro aplicado 3 semanas después.
Se compararon los grupos novato e intervenido (G1 y G2) en los 3 indicadores y resultados globales (G1 Mdn: 11 y G2 Mdn: 29), así como en los 8 diseños referidos antes. En todos los indicadores de la lectura crítica y por diseño de artículo, hubo diferencias estadísticamente significativas a favor del G2, excepto en interpretación y los diseños de metaanálisis y seguimiento (tablas 1 y 2).
Componente | Máximo correctas | Novatos (n = 23) | Intervenidos (n = 24) | p * | |
---|---|---|---|---|---|
(Medianas) | |||||
1. | Interpretar | 32 | 1 | 4 | NS |
2. | Juicio | 32 | 5 | 12 | 0.001 |
3. | Propuestas | 32 | 7 | 14 | 0.001 |
4. | Global | 96 | 11 | 29 | 0.001 |
* U de Mann-Whitney.
Diseño | Máximo correctas | Novatos (n = 23) | Intervenidos (n = 24) | p * | |
---|---|---|---|---|---|
(Medianas) | |||||
1. | Ensayo clínico | 12 | 1 | 4 | 0.008 |
2. | Casos controles | 12 | 0 | 2 | 0.006 |
3. | Pruebas diagnósticas | 12 | 1 | 4 | 0.001 |
4. | Cohortes | 12 | 2 | 4 | 0.006 |
5. | Metaanálisis | 12 | 1 | 3 | NS |
6. | Seguimiento | 12 | 1 | 2 | NS |
7. | Instrumentos | 12 | 1 | 4 | 0.03 |
8. | Encuestas | 12 | 3 | 6 | 0.004 |
* U de Mann-Whitney.
Se compararon a su vez las medianas globales obtenidas por los alumnos en los percentiles 25 y 75 en cada grupo y en los 2 grupos, con resultados significativos para el G1 (Mdn P25 4 vs. P75 18, p < 0.002) y el G2 (Mdn P25 22 vs. P75 37, p < 0.002) y al combinarse ambos grupos (Mdn P25 4 vs. P75 37, p < 0.001).
Cuando se comparan las respuestas, descartando el azar, en ambos grupos y en las categorías respectivas, se observó una frecuencia más alta en el azar en el G1 (tabla 3).
Discusión
Se presenta el proceso de construcción, validación y consistencia de un instrumento para medir el desarrollo de la lectura crítica de informes de investigación factual.
La fortaleza del estudio se relaciona con la referencia del proceso en la elaboración de estos instrumentos, desde el acopio y búsqueda de los diseños que se desea incluir -considerados más adecuados- para que el médico enfrente la lectura de los mismos en artículos publicados; ya que en diversos reportes se refiere la falta de información, si no ausencia, de su validación y consistencia18.
Otros aspectos que le confieren fortaleza fue el consenso alto de los jueces en la primera ronda y el manejo de la técnica de Delphi por profesores e investigadores con experiencia en el campo y publicaciones de investigación factual y aún con experiencia en el aprendizaje de investigación a través de estrategias de participación y la lectura crítica como sustento.
La no diferencia entre los promedios refleja que la lectura crítica no se encuentra desarrollada antes de un curso dirigido a tal fin.
Cuando se utiliza el instrumento para comparar a 2 grupos, uno de los cuales iniciaba el internado de pregrado, con la mayoría de los alumnos que no habían llevado un curso de investigación, y otro que había sido ya intervenido con los mismos, encontramos diferencias significativas en los indicadores de juicio y propuestas así como en los valores globales y en casi todos los diseños excepto en metaanálisis y seguimiento. Lo anterior denota que el instrumento, además de los datos de consistencia referida, discrimina entre alumnos que ya han tenido experiencia, a través del curso de lectura crítica, contra aquellos que se enfrentan por primera vez a este tipo de instrumentos, que indagan más el aprendizaje de habilidades complejas como es la lectura crítica y sus componentes. Sin embargo hacen falta más estudios para fundamentar el hallazgo.
Además la no diferencia en los diseños referidos fortalecen la validez del instrumento pues esos fueron los de reciente introducción y, como hemos visto en estudios previos, cuando no se lleva a cabo un proceso continuo de reflexión y crítica es difícil que los alumnos obtengan resultados adecuados.
Cuando se comparan estos grupos, descartando el azar, observamos también las cualidades del instrumento para discriminar alumnos con experiencia en lectura crítica.
La mayoría del grupo de novatos queda en el azar y algunos alumnos se encuentran en niveles más altos. Fortaleciendo las cualidades del instrumento, los alumnos que obtienen medianas más altas se encontraban expuestos durante la carrera a la lectura crítica. En estudios previos se ha mostrado que esta ventaja es útil cuando los alumnos avanzados se convierten en docentes19.
La validez concurrente fue baja pues fueron instrumentos no del todo iguales, aunque el proceso de validación intrínseca le confiere consistencia.
Limitaciones del estudio: debido a la construcción del instrumento, con opciones de C y F no se obtienen otras mediciones psicométricas comunes en los de opción de respuesta 1 de 5, como el análisis factorial pero la validez y consistencia se acercan más a la mirada teórica más cualitativa de la participación.
La elaboración de instrumentos válidos y consistentes debe ser una tarea de los profesores que se apartan de la visión tradicional de la educación y que realizan indagaciones sobre el aprendizaje de sus alumnos. En nuestro caso esta es la cuarta versión de un instrumento para evaluar el desarrollo de la lectura crítica, y en cada una la experiencia y el propio avance de los profesores en esta actividad, que ha sido continua en los últimos 20 años, les confiere aspectos que son relevantes20,21. En esta versión se incluyeron los diseños de metaanálisis y de seguimiento que actualmente aparecen con mayor frecuencia en la literatura médica y que todo el personal de salud debe conocer y criticar al estar dotados de esta herramienta metodológica, pues la generación de artículos médicos es exponencial y se deben evaluar con rigor metodológico.
Aún más, con el ejercicio de la medicina basada en evidencias se analizan con mayor frecuencia estos diseños mediante estrategias educativas diversas, con artículos publicados, esenciales en el médico para el aprendizaje de la clínica y las decisiones médicas, a través de revisiones sistemáticas que muestran su efectividad22-25. También se han desarrollado instrumentos a fin de confirmar las habilidades docentes para el desarrollo de esta habilidad26.
No se trata de elaborar instrumentos continuamente por una exigencia administrativa, sino de desafiar el avance de los profesores e incorporarlos en su ejercicio docente para dotar a los alumnos mediante estrategias participativas de esta poderosa herramienta de aprendizaje.
La investigación es una actividad primordial en medicina y el desarrollo de la lectura crítica debe ser un aspecto prioritario en nuestros estudiantes. Los instrumentos válidos y confiables son relevantes para constatar su avance.
Conclusiones
La elaboración de instrumentos válidos y consistentes debe ser una actividad permanente del quehacer docente. El que presentamos aquí exhibe estas cualidades, aunque con las limitaciones referidas antes, lo que servirá para tomar decisiones pertinentes relacionadas con el aprendizaje de los alumnos en esta compleja habilidad. Pueden observarse sutilezas (diseños e indicadores) que no son detectadas con otros instrumentos de medición sustentados en otras miradas educativas que favorecen más el recuerdo que la crítica.
Responsabilidades éticas
Protección de personas y animales
Los autores declaran que para esta investigación no se han realizado experimentos en seres humanos ni en animales.
Contribución de los autores
HCA: elaboración de proyecto, elaboración del instrumento, análisis, elaboración final del manuscrito.
PPC: elaboración de proyecto, validación del instrumento, análisis, elaboración final del manuscrito.
HDLGQ: validación del instrumento, análisis, elaboración final del manuscrito.
CEOC: elaboración de programa de captura, análisis de los datos y colaboración con la elaboración final del manuscrito.