INTRODUCCIÓN
La evaluación es fundamental en la enseñanza de la medicina humana, sus beneficios van más allá de medir el conocimiento y las competencias adquiridas por los estudiantes, también ayuda a direccionar y estimular el aprendizaje y en retroalimentar a los profesores y estudiantes1. Ninguna evaluación puede medir por sí sola todos los dominios teóricos y prácticos del aprendizaje. Se describen dos formas de evaluación, la formativa y la sumativa. La evaluación formativa es vital para la promoción del aprendizaje, mientras que la sumativa es usualmente aplicada al final de un periodo académico para medir el resultado del aprendizaje de un estudiante1,2. Los resultados de la evaluación sumativa pueden aplicarse para mejorar la formulación de un curso, para evaluar la efectividad de la enseñanza, evaluar la calidad educativa de un programa; además, por sí sola, puede enriquecer el proceso de aprendizaje3.
Existen diversas modalidades de evaluación sumativa, todas ellas buscan determinar los niveles de competencia de un estudiante usando diferentes representaciones de pacientes, que van desde un paciente real a formatos alternativos como casos clínicos, modelos anatómicos, maniquíes, simuladores o pacientes simulados4. Algunos ejemplos son el examen clínico objetivo estructurado (OSCE por sus siglas en inglés), el examen práctico objetivo estructurado, la evaluación basada en casos o las evaluaciones escritas1,3,5.
Las evaluaciones con preguntas escritas pueden ser abiertas o de opción múltiple, además pueden clasificarse como aquellas con contexto de un caso clínico o sin él6. Las evaluaciones con contexto clínico generan un proceso cognitivo más complejo y próximo al de las situaciones clínicas1. Las evaluaciones escritas basadas en casos clínicos con opciones múltiples se han convertido en una submodalidad popular para evaluar el conocimiento y habilidad para resolver problemas, además ha mostrado ventajas sobre las preguntas de respuesta abierta7-9. Actualmente, una de las formas más conocidas de representación de pacientes reales son los casos narrativos que consisten en relatos que describen un paciente y su historial médico. Las narraciones suelen basarse en casos clínicos reales y son presentados al estudiante en texto o digitalmente, y con imágenes de apoyo4.
Se ha estudiado la asociación entre diversos tipos de evaluaciones sumativas y el desempeño clínico de estudiantes de ciencias de la salud, por ejemplo, una revisión sistemática encontró que la mayor parte de los estudios ha evaluado la correlación del puntaje de un OSCE con el desempeño clínico, mientras que cuatro estudios evaluaron dicha correlación para evaluaciones escritas y solo uno, hasta el 2016, correlacionó la submodalidad de evaluación escrita basada en casos con preguntas de opciones múltiples y el desempeño clínico2. Por otro lado, algunos estudios han evaluado la correlación entre puntajes de OSCE con el promedio ponderado, este último como indicador de desempeño académico10-12; sin embargo, la correlación de evaluaciones escritas basadas en casos clínicos y el promedio ponderado no han sido igualmente estudiados en estudiantes de medicina humana.
Las evaluaciones escritas como herramienta de evaluación sumativa permiten evaluar el conocimiento y el saber qué hacer con dicho conocimiento, por ello, es necesario contar con nuevas metodologías de este tipo de evaluación; una primera aproximación es explorar si una evaluación escrita basada en casos clínicos con preguntas de opción múltiple se encuentra correlacionada con el desempeño académico.
OBJETIVO
Evaluar la correlación entre el puntaje de un examen anual escrito basado en casos clínicos con preguntas de opción múltiple y el promedio ponderado -como indicador de desempeño académico- en estudiantes de medicina humana de una universidad en Perú.
MÉTODO
Ámbito y diseño de estudio
Se realizó un estudio de fuentes secundarias, la fuente de información fue una base de datos proporcionada por la facultad de medicina humana de la Universidad de Piura. Esta facultad se encuentra en la sede ubicada en la ciudad de Lima en Perú. Esta universidad privada fue seleccionada porque desde el inicio de su programa de medicina humana, el 2017, se implementó una evaluación denominada “Examen anual de medicina basado en casos clínicos” (EAM). El estudio tuvo un diseño longitudinal en panel para el periodo 2017 al 2020.
La estrategia de evaluación
El EAM fue usado para fines de evaluación sumativa. Esta evaluación forma parte de la valoración integral del alumno y corresponde a un examen escrito objetivo basado en diferentes casos clínicos, a partir de los cuales los docentes de cada asignatura del plan de estudios formulan preguntas de su asignatura. La evaluación tiene 250 preguntas de opción múltiple con cinco alternativas, solo una de ellas es la respuesta correcta.
El examen se distribuye en tres cuadernillos, cada uno incluye preguntas en torno a cuatro o seis casos clínicos narrativos, extraídos de publicaciones del tipo reporte de caso en revistas médicas arbitradas. Este tipo de publicación tiene en su estructura una introducción, el reporte del caso, discusión y referencias bibliográficas; para la elaboración del EAM solo se extrae la sección del reporte de caso, incluyendo las imágenes y tablas derivadas del estudio del paciente (anexo 1).
El EAM incluye todas las asignaturas que el alumno ha llevado, por ejemplo, un alumno de cuarto año será evaluado en las asignaturas desde el primer hasta el cuarto año de la carrera. La distribución del número de preguntas tiene dos criterios: a) El año de estudios que ha culminado el alumno (se rinde hasta el sexto año); y b) El número de créditos de la asignatura, en ambos casos el número de preguntas es directamente proporcional (anexo 2). El examen se rinde de manera no obligatoria al finalizar cada año académico en fecha única.
Sujetos de estudio
La población de estudio estuvo conformada por los estudiantes de la facultad de medicina humana de una universidad, ingresantes entre el 2017 al 2020. Se incluyó a toda la población de estudio, se excluyeron a los estudiantes que no rindieron ningún EAM.
Definición de variables
El puntaje del EAM varía de 0 a 250 puntos con base en el número de respuestas correctas, la respuesta correcta brinda un punto. Para el presente análisis convertimos dicho puntaje a la escala vigesimal. El índice acumulado es el promedio ponderado promocional registrado en el Sistema de Gestión Académica de la facultad para cada año académico, el puntaje varía de 0 a 20 puntos. Este promedio se obtiene al ponderar las calificaciones obtenidas en todas las asignaturas llevadas por el estudiante. Cada asignatura tiene un número de créditos (en función del número de horas académicas), la nota obtenida en la asignatura es multiplicado por el número de créditos, se realiza la suma total de estos elementos, y se divide entre el número total de créditos llevados. Otras variables fueron sexo (masculino/femenino), año de ingreso (2017, 2018, 2019, 2020) y número de créditos matriculados por semestre.
Análisis estadístico
Se realizó un análisis descriptivo del sexo, año de estudio, número de EAM rendidos, puntaje del EAM y promedio ponderado para cada año analizado. Se evaluó el tipo de distribución mediante la prueba de Kolmorogov-Smirnov. Se aplicó la prueba U de Mann-Whitney para determinar la asociación entre la mediana del número de créditos matriculados y haber rendido el EAM para cada año.
Para cada año, se evaluó la correlación entre el promedio ponderado y el puntaje del EAM mediante el coeficiente de correlación por rangos de Spearman, previamente se realizó un gráfico de dispersión. Este análisis fue realizado para toda la muestra y por sexo. Se evaluó la correlación entre los puntajes del EAM, por último, se elaboraron gráficos de Bland y Altman para explorar la concordancia entre el EAM y el promedio ponderado. La significancia estadística fue evaluada con pruebas de hipótesis a dos colas, se consideró como significativos valores de p < 0.05. El análisis fue realizado en SPSS versión 25.
CONSIDERACIONES ÉTICAS
Se solicitó a la secretaría académica de la facultad los puntajes de los EAM y promedio ponderado promocional de los años 2017 al 2020. La base de datos contenía el código del alumno y las variables solicitadas. Dicha información fue recolectada para la gestión académica, y fue solicitada solo para fines del presente análisis. El código del alumno que es un identificador personal fue intercambiado por un identificador alfanumérico una vez que se realizó la limpieza de la base de datos. El estudio fue aprobado por el Comité Institucional de Ética en Investigación de la Universidad.
RESULTADOS
Entre 2017 y 2020, hubo 234 estudiantes matriculados al final de año académico, seis no rindieron ningún EAM, por lo cual fueron excluidos del análisis. Tres excluidos fueron ingresantes del 2019 y otros tres del 2020. Ingresaron al análisis 228 estudiantes, 114 (50.0%) fueron mujeres. 51 estudiantes (22.4%) ingresaron en el año 2017; 57 (25.0%), en el 2018; 56 (24.6%), en el 2019; y 64 (28.1%), en el 2020.
De los ingresantes en el 2017, el 58.8% rindieron los cuatro EAM posibles; dicho porcentaje se incrementó a 82.5% en 2018; 85.7%, en 2019; y 100%, en el 2020 (tabla 1). El EAM del 2017 fue aplicado al 86.3% (44/51) de estudiantes; el del 2018, al 87.0% (94/108); el del 2019, al 86.0% (141/164); y el del 2020, al 96.5% (220/228). Aquellos que rindieron el EAM tenían un mayor número de créditos comparados con aquellos que no lo rindieron (año 2017: comparación de medianas (rango intercuartílico): 25 (0) versus 15 (16), U de Mann-Whitney (U) = 94.0, valor de p = 0.001; año 2018: 25 (0) versus 16 (20), U = 345.0, valor de p = 0.001; año 2019: 25 (0) versus 17 (6), U = 554.0, valor de p < 0.001; y año 2020: 25 (0) versus 25 (17), U = 472.0, valor de p = 0.021).
Año | Número de exámenes anuales de medicina basado en casos clínicos | Total | ||||
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
2017 | n | 2 | 9 | 10 | 30 | 51 |
% | 3.9 | 17.6 | 19.6 | 58.8 | ||
2018 | n | 0 | 10 | 47 | 0 | 57 |
% | 0.0 | 17.5 | 82.5 | 0.0 | ||
2019 | n | 8 | 48 | 0 | 0 | 56 |
% | 14.3 | 85.7 | 0.0 | 0.0 | ||
2020 | n | 64 | 0 | 0 | 0 | 64 |
% | 100.0 | 0.0 | 0.0 | 0.0 |
Las medias de los puntajes del EAM fluctuaron entre 9.61 para el 2019 a 10.75 para el 2018. El promedio ponderado tuvo un incremento de 0.78 puntos entre el 2017 y 2020, además el coeficiente de variación fue disminuyendo de 12.16% en 2017 a 9.67% en 2020. La variabilidad de los puntajes fue mayor para el EAM respecto al promedio ponderado (tabla 2).
Variable | n | Media | DE | CV (%) | Mediana | Q1 - Q3 |
---|---|---|---|---|---|---|
Puntaje del Examen Anual de Medicina Basado en Casos Clínicos (A) | ||||||
2017 | 44 | 9.68 | 2.15 | 22.25 | 9.28 | 8.40 - 10.86 |
2018 | 94 | 10.75 | 2.34 | 21.77 | 11.00 | 9.42 - 12.16 |
2019 | 141 | 9.61 | 1.91 | 19.88 | 9.68 | 8.40 - 10.92 |
2020 | 220 | 10.09 | 2.10 | 20.84 | 10.24 | 8.74 - 11.36 |
Promedio ponderado promocional (B) | ||||||
2017 | 51 | 13.37 | 1.63 | 12.16 | 13.14 | 12.28 - 14.44 |
2018 | 107 | 13.50 | 1.56 | 11.56 | 13.40 | 12.47 - 14.56 |
2019 | 162 | 13.42 | 1.51 | 11.28 | 13.35 | 12.23 - 14.56 |
2020 | 226 | 14.15 | 1.37 | 9.67 | 14.14 | 13.30 - 15.10 |
Diferencia entre puntajes (A - B) | ||||||
2017 | 44 | -3.87 | 1.36 | 35.05 | -3.76 | -4.36 a -3.07 |
2018 | 94 | -2.90 | 1.43 | 49.29 | -2.70 | -3.58 a -1.91 |
2019 | 141 | -4.05 | 1.15 | 28.30 | -4.10 | -4.83 a -3.19 |
2020 | 220 | -4.13 | 1.49 | 36.06 | -4.02 | -5.02 a -3.01 |
DE: desviación estándar. CV: coeficiente de variación. Q1: cuartil 1. Q3: cuartil 3.
En todos los años se encontró una correlación lineal directa significativa entre el promedio ponderado anual y el puntaje del EAM (figura 1). La mayor correlación se dio en el 2019 (rho de Spearman (rS = 0.812). En el análisis de correlación según sexo se mantuvieron correlaciones significativas. En dos años, 2017 y 2019, el coeficiente de correlación fue mayor entre mujeres (tabla 3).
Año | Grupo | Coeficiente de correlación por rangos de Spearman* | n |
---|---|---|---|
2017 | Femenino | 0.857 | 19 |
Masculino | 0.762 | 25 | |
Total | 0.788 | 44 | |
2018 | Femenino | 0.787 | 39 |
Masculino | 0.791 | 55 | |
Total | 0.786 | 94 | |
2019 | Femenino | 0.833 | 63 |
Masculino | 0.803 | 78 | |
Total | 0.812 | 141 | |
2020 | Femenino | 0.608 | 112 |
Masculino | 0.765 | 108 | |
Total | 0.690 | 220 |
*En todos los análisis de correlación lineal el valor de p fue <0.001.
Se encontraron correlaciones lineales significativas entre los puntajes de los EAM, los mayores coeficientes de correlación se identificaron entre los puntajes del 2018 y 2019 (rS = 0.802, valor de p < 0.001) y los puntajes del 2017 y 2019 (rS = 0.708, valor de p < 0.001) (figura 2). Los puntajes del EAM resultaron menores a los del promedio ponderado para todos los años de estudio. Se observó una tendencia que a mayor promedio de los puntajes menor diferencia entre los ellos. Solo un alumno en el EAM del 2018 logró un puntaje mayor que su respectivo promedio ponderado, no se identificaron valores concordantes (anexo 3).
DISCUSIÓN
Se encontró que el puntaje de una evaluación sumativa escrita basada en casos clínicos está moderada o fuertemente correlacionado con el desempeño académico en términos de promedio ponderado. Algunos estudios encontraron correlación entre la evaluación sumativa escrita basada en situaciones clínicas y el promedio ponderado, por ejemplo, en un estudio en 65 estudiantes de Corea del Sur se encontró un coeficiente de correlación de Pearson (r) de 0.837 (p < 0.001) entre el promedio ponderado y un examen de seis secciones y 400 preguntas de opción múltiple basado en el examen de licenciamiento médico de Corea5. Otro estudio en 119 estudiantes de los Estados Unidos de Norteamérica (EEUU), encontró una correlación significativa (r = 0.67) entre el promedio ponderado y el resultado de un examen de certificación nacional para médicos que emplea preguntas cerradas de opción múltiple y única respuesta13. En 428 estudiantes en Australia se encontró que el 31.18% de la variabilidad (p < 0.01) en el puntaje de una evaluación basada en preguntas de opción múltiple diseñado para una evaluación sumativa fue atribuido al promedio ponderado12.
Nuestros resultados son consistentes con estudios que evaluaron la correlación entre el puntaje de una OSCE y el desempeño clínico. Si bien, la OSCE es otro tipo de evaluación sumativa, obtuvimos de manera análoga resultados que apoyan la existencia de correlación entre nuestra evaluación sumativa y el desempeño clínico medido a través del promedio ponderado. Una revisión sistemática encontró que 12 de 15 estudios mostraron una asociación significativa, y que el puntaje en la OSCE explicaba entre el 1.9% y 39.7% de la variabilidad en el desempeño clínico de los estudiantes de medicina2. Otra investigación en 302 estudiantes de Australia aplicó una herramienta de evaluación del desempeño clínico para médicos recién egresados, y encontró que el puntaje de dicha evaluación tuvo una correlación significativa (r = 0.257, p < 0.001) con el promedio ponderado y con el puntaje de un OSCE medido en el cuarto (r = 0.137, p = 0.027) y quinto año (r = 0.161, p = 0.022) de la carrera14.
La utilidad de las evaluaciones sumativas escritas para predecir el desempeño clínico es aún discutible con la evidencia disponible. Las evaluaciones con preguntas de opción múltiple y otras modalidades como preguntas de emparejamiento ampliado explicarían solo el 29.2% de la variación de un puntaje de desempeño clínico16, otro estudio encontró que un examen escrito tomado en el quinto año de la carrera no estuvo correlacionado con el desempeño clínico medido con la herramienta denominada Junior Doctor Assessment Tool (JDAT) (r = 0.076, valor de p = 0.148), mientras que para el examen en el sexto año si hubo correlación (r = 0.178, valor de p = 0.014)14. La evidencia, incluyendo nuestros hallazgos, muestra correlaciones lineales directas significativas entre los resultados de evaluaciones sumativas escritas y el promedio ponderado5,12,13, más que con las evaluaciones de desempeño clínico.
En el presente análisis, el desempeño académico del estudiante fue medido a través del promedio ponderado, este puntaje ha sido empleado como criterio de selección de graduados para programas de posgrado o para fines de empleabilidad15. Además, es una medida objetiva y estable en el tiempo, por su naturaleza acumulativa y ha sido empleada como un aproximado al desempeño académico en estudiantes de medicina16. En el Perú, entre el 2008 y 2010 se encontró que el promedio ponderado tuvo correlación (rS = 0.582, p < 0.001) con el puntaje de un examen nacional de medicina, el cual busca medir los conocimientos de los estudiantes en su último año de formación profesional17. Para el 2013, dicha correlación también estuvo presente (rS = 0.566, p < 0.001)18.
Se empleó un examen escrito con preguntas de opción múltiple para fines de evaluación sumativa. Entre las limitaciones de esta modalidad esta la falta de aplicación de habilidades clínicas y su enfoque en el recuerdo de información19,20. También genera el efecto de señalización, situación en la que los alumnos pueden responder mediante el reconocimiento de la opción correcta, y que en ausencia de opciones no podrían responder1. Sin embargo, la novedad del examen descrito radica en su formulación, la cual emplea casos clínicos publicados como reportes de casos para brindarle contexto a las preguntas; de esta manera fue posible evaluar conocimientos, entendimiento, aplicación y análisis, es decir un mayor nivel de habilidades del pensamiento según la taxonomía de Bloom. Así, hemos podido evaluar la capacidad del estudiante para sintetizar información, así como su razonamiento clínico21.
La forma más frecuente de preguntas de opción múltiple es la de única mejor respuesta22, y fue la empleada en nuestra evaluación. Estas preguntas fueron formuladas agrupadas en función de un escenario clínico, cada pregunta aborda conocimientos aprendidos en asignaturas que el estudiante ha completado hasta el momento de rendir el EAM. De esta manera los alumnos rendirán progresivamente seis EAM durante la carrera universitaria, y en cada EAM se van incluyendo preguntas de una mayor variedad de asignaturas.
El EAM no es obligatorio, por ello, no todos los estudiantes realizaron la evaluación. Sin embargo, el porcentaje de estudiantes que dieron todos los exámenes posibles fue incrementándose. El principal determinante para realizar el examen fue haberse matriculado en el mayor número de créditos posibles. Los estudiantes que han completado todas las asignaturas tendrían un mayor nivel de motivación para evaluar su nivel de aprendizaje, así como para identificar las brechas en su conocimiento y esperar una retroalimentación luego de la evaluación20,21; por el contrario, aquellos estudiantes que no se matricularon en la totalidad de créditos o llevaron solo algunos cursos evitaron rendir la evaluación.
Se encontraron resultados consistentes en la correlación entre el promedio ponderado y el puntaje del EAM en los cuatro años analizados, lo cual brinda evidencia robusta sobre una real correlación lineal directa entre dichos puntajes. Si se considera un coeficiente de correlación de 0.8 o más como fuertemente positivo y de 0.5 o más como moderadamente positiva23, en todos los años se encontró por lo menos una moderada correlación, que se mantuvo en ambos sexos. Otra característica relevante fue que los puntajes del EAM son menores a los promedios ponderados, este hallazgo se encontró en todos los años analizados. Este hallazgo podría explicarse por la naturaleza acumulativa del EAM y por la exigencia de evaluar la capacidad de síntesis y aplicación del conocimiento de parte del estudiante.
El estudio tiene limitaciones, en vista que el EAM no es obligatorio, no todos los alumnos rindieron la evaluación. El diseño del estudio no permitió determinar si el puntaje del promedio ponderado predice el puntaje en la evaluación sumativa escrita, o viceversa. Debido a que es un estudio de fuentes secundarias, se utilizó el dato disponible de promedio ponderado como un aproximado al desempeño académico. El estudio fue realizado en una sola universidad, los hallazgos no necesariamente serán generalizables a otros contextos.
A pesar de lo mencionado, el presente estudio presenta una novedosa experiencia de evaluación sumativa basada en casos clínicos descritos en reportes de casos de revistas científicas. Las preguntas son de opción múltiple, y formuladas en torno a una hipotética situación clínica. A nuestro conocimiento, esta submodalidad de evaluación sumativa escrita es la primera descrita en Perú y puede resultar novedosa para el contexto latinoamericano.
CONCLUSIONES
Se ha demostrado en cada uno de los años analizados que el puntaje obtenido en el EAM se correlaciona de manera lineal directa con el promedio ponderado, también se ha encontrado que existe correlación lineal directa en los puntajes de EAM. Se recomienda continuar la investigación en el desarrollo y validación de nuevas estrategias escritas de evaluación sumativa basadas en casos clínicos que puedan complementar al examen clínico estructurado objetivo, la evaluación directa de las habilidades clínicas, entre otras.