Introducción
Históricamente el proceso de evaluación educativa ha sido un evento complejo pues en él intervienen muy diversos aspectos, sólo por mencionar algunos, se tiene que en ocasiones se ha priorizado a la enseñanza vs. el aprendizaje y es éste último, el que realmente marca la pauta de las metas de enseñanza alcanzadas; otro aspecto de la complejidad es la formación previa del aprendiz, pues para que adquiera el conocimiento en un tópico determinado se tuvieron que haber adquirido conocimientos previos para hacer viables los nuevos y finalmente entre otros muchos más factores participantes, se debe señalar que la afinidad entre enseñante y aprendiz es determinante pues de ello depende -en muchas ocasiones- el éxito de la adquisición de conocimiento.
La manera en la que se puede comprobar que se está ejerciendo la enseñanza es mediante la adquisición del aprendizaje obtenido por los estudiantes y las evaluaciones realizadas dan evidencia de la evolución del proceso enseñanza-aprendizaje. Además la evaluación es un componente fundamental dentro del proceso educativo ya que ayuda a valorar si se logran los objetivos propuestos. Jaap y cols. en 2003 señalan que en una evaluación se requiere: 1) que haya validez de contenido, 2) que haya validez de constructo teórico para identificar si el instrumento de evaluación está a la altura de las pretensiones, es una medida de qué tan bien se mide al constructo con ese instrumento, 3) que se apoye en una estructura lógica y congruente de los conocimientos, 4) que sea confiable, 5) que sea apropiada y viable en términos de tiempos y 6) que sea transparente en cuanto a los contenidos y a la forma de calificar (1).
Por otro lado la evaluación educativa cumple con el objetivo fundamental -que ya se había mencionado- de medir el aprendizaje adquirido por el estudiante, pero en primera instancia ésta debe servir para que el estudiante se dé cuenta, en función de las calificaciones obtenidas, si su técnica de estudio es eficiente o debe cambiar por otra que presuma le proporcionará mejores resultados, si deberá intensificar el estudio, apoyarse en otros materiales que le ayuden a comprender la temática básica, etc., en segundo lugar para que el evaluador conozca, en función de las respuestas dadas por los estudiantes, si lo que está evaluando coincide con los objetivos planteados, con la dinámica de enseñanza utilizada, con los contenidos, etc. y en tercer término la evaluación tiene la finalidad de que el sistema escolarizado se entere y de ahí se tomen decisiones de la promoción o no del estudiante.
Los encargados de la evaluación son los que toman las decisiones, los que definen qué es normal, relevante, adecuado o bueno, en relación al comportamiento de los estudiantes así como a los contenidos que deben cubrir los resultados de su aprendizaje, además de los tiempos en los que se debe adquirir el mismo (2).
El resultado terminal conduce a emitir una calificación, misma que debe ser objetiva, que exprese una correcta correspondencia con la calidad de lo asimilado y que disminuya o elimine la influencia de un factor subjetivo mediante el cual el profesor pueda otorgar calificaciones diferentes a dos estudiantes ante resultados iguales. Los instrumentos de evaluación deben cumplir con el requisito de que su contenido esté directamente relacionado con los objetivos educacionales para que al aplicarlos demuestren validez y confiabilidad (3).
Es por ello que en la elaboración de los instrumentos de evaluación hay una gran responsabilidad social ya que entre otros, involucra el éxito o fracaso escolar, una diversidad en el rendimiento educativo, buenos o malos estudiantes y profesores, diferente calidad de la enseñanza, apreciación o no de excelencia institucional. El Centro Nacional de Evaluación de la Educación Superior (CENEVAL) fue creado con el propósito de regular el ingreso a las escuelas preparatorias y a las universidades. Es conveniente que todas las instituciones de educación tengan una evaluación validada con estándares de calidad y en caso de que esto se lleve a cabo, ayudaría a mejorar la enseñanza, pues con los resultados obtenidos, se puede indicar qué parte de los exámenes están bien hechos y en cuál hay que hacer mejoras para alcanzar la excelencia que tanto se busca en la educación.
Desarrollo
En la Facultad de Medicina de la Universidad Nacional Autónoma de México (UNAM), desde hace poco más de 50 años se han venido aplicando en las materias de los ciclos básicos, exámenes de selección múltiple para evaluar el conocimiento de los estudiantes. Este tipo de evaluaciones presenta ventajas cuando se necesita saber el conocimiento que han adquirido los estudiantes de grandes poblaciones ya que agiliza los tiempos para la obtención de resultados, además de que es eficaz para valorar si en todos los grupos se ha cubierto los objetivos, pero, al mismo tiempo presenta desventajas ya que con algunas preguntas no siempre se puede valorar el nivel de conocimiento obtenido, la posibilidad de que por azar se obtengan respuestas correctas, la facilidad de copiar respuestas, la posibilidad de que haya preguntas que sean conocidas y divulgadas entre los estudiantes antes del examen, etc.
Dentro del proyecto de investigación educativa relacionado con el rendimiento de aprendizaje adquirido por los estudiantes de Bioquímica y Biología Molecular en la Facultad de Medicina de la UNAM, se presenta en este trabajo, el análisis realizado a las respuestas dadas por los estudiantes en un primer examen departamental en el que se cubrieron los siguientes temas: Termodinámica, agua pH e iones, química de proteínas, enzimas y prácticas de laboratorio relacionadas con los temas estudiados. Este trabajo se llevó a cabo basándonos en el Examen de Habilidades y Conocimientos Básicos (EXHCOBA) que se usa en gran escala en México para conocer los estándares de calidad (4).
Las técnicas utilizadas para llevar a cabo este análisis fueron cuatro, las tres primeras conforme lo plantean Backhoff y colaboradores (4): 1) Índice de de dificultad (Pi) que sirve para identificar qué tan fácil o difícil es un reactivo en sus respuestas y se obtiene dividiendo el número de estudiantes que contestaron bien un reactivo entre el total de los que lo contestaron; si se obtiene un valor <0.3 son difíciles, de 0.31 a 0.5 son medianamente difíciles, de 0.51 a 0.7 son de dificultad media, de 0.71 a 0.8 son medianamente fáciles y arriba de este valor son fáciles Fig.1; 2) Índice de discriminación (Di) donde se analizan el 27% de alumnos que tuvieron la calificación más alta en contraste con el 27% de los que la obtuvieron más baja (4), se considera como aceptables los valores superiores a 0.3 (Fig. 2); 3) Coeficiente de discriminación (rpbis) el cual tiene la ventaja de incluir la dispersión y el promedio de cada uno de los reactivos en el 100% de los alumnos y de las respuestas por lo que se considera la técnica más adecuada, un valor satisfactorio es de 0.26, aunque lo ideal es a partir de 0.36 (4) (Fig.3) y 4) alfa de Cronbach que consiste en evaluar qué tan confiable es un examen en cada uno de sus temas e indica cuales reactivos hay que eliminar para que se incremente su validez.
Objetivos
Demostrar que existen formas mediante las cuales se puede calificar el instrumento con el que se evalúa el aprendizaje de los estudiantes validando los reactivos de los exámenes mediante diferentes técnicas.
Calcular el índice de dificultad (Pi), el índice de discriminación (Di), el coeficiente de discriminación (rpbis) así como el alfa de Cronbach para cada una de las 70 preguntas del primer examen departamental.
Enlistar los reactivos ordenados por temas e indicar en cuáles de ellos se recomienda una revisión.
Método
El examen parcial de Bioquímica y Biología Molecular recientemente aplicado lo presentaron 1321 alumnos. La unidad de estudio fue el promedio de la calificación que los alumnos obtuvieron en cada uno de los 70 reactivos, por lo mismo fueron 70 unidades de estudio las cuales estuvieron distribuidas de la siguiente manera: 5 reactivos de termodinámica, 25 de pH, agua e iones, 15 de proteínas, 15 de enzimas, y 10 de práctica de laboratorio. El tipo de estudio fue retrosprospectivo, observacional, transversal y descriptivo por lo que se encuadra en una encuesta descriptiva (5)
El índice de dificultad (Pi), el de discriminación (Di) y el coeficiente de discriminación (rpbis) se obtuvieron de la técnica para medir el examen de conocimientos básicos (EXHCOBA) de Backhoff y col. (4). Los valores recomendados por estos y otros autores para el índice de dificultad son del 5% para los reactivos fáciles, 20% para los medianamente fáciles, 50% con una dificultad media, 20% medianamente difíciles y 5% difíciles; los valores recomendados para el índice de discriminación son con un valor de Di > 0.30 y los recomendados para el coeficiente de discriminación fueron con un rpbis > 0.26. El alfa de Cronbach se obtuvo de acuerdo al manual de SPSS de Camacho (6) donde se recomienda quitar los reactivos que bajan el valor del alfa.
Resultados
Índice de dificultad. Respecto al índice de dificultad un 4% de los reactivos fueron difíciles, 17% medianamente difíciles, 43% de dificultad media, 16% medianamente fáciles y 20% fáciles. Al contrastarlos con los valores recomendados, los reactivos fáciles fueron los que más discreparon, con respecto a los demás índices de dificultad en donde los valores encontrados son semejantes a los recomendados. Según este análisis 17 reactivos habrá que revisarlos para modificarlos o eliminarlos. (Fig. 1 y Tabla 1).
Índice de discriminación. En lo que concierne al índice de discriminación se encontró un 9% de reactivos deficientes, 7% regulares, 11% buenos y 73% excelentes. (Fig. 2). Según este análisis 11 reactivos deben ser eliminados o modificados.
Coeficiente de discriminación. En este coeficiente se obtuvieron el mayor número de reactivos con una discriminación negativa, esta fue del 22%, un 11% fue pobre, 16% regular, 11% buena y un 40% tuvieron un excelente poder de discriminación.
Según este análisis 36 reactivos sería conveniente eliminarlos o modificarlos. (Fig. 3).
Alfa de Cronbach. El alfa de Cronbach tiene una escala entre 0 y 1. Entre más cercano esté el valor a la unidad tendrá más confiabilidad. En la Tabla 2 se señalan los 28 reactivos del total de 70 que deberán modificarse o eliminarse para que dé un valor más alto y por lo tanto más confiable. En la figura 4 se observa que de los 70 reactivos del examen 16 de ellos (23%) estuvieron bien elaborados ya que no se les encontró ninguna falla en las cuatro técnicas aquí revisadas; 31 (44%) tuvieron una sola recomendación para su mejoramiento; 13 reactivos (19%) tuvieron dos recomendaciones y finalmente 10 de ellos (14%) alcanzaron 3 recomendaciones para su mejoramiento.
De los resultados obtenidos en este estudio se concluye que los 16 reactivos de evaluación que no tienen sugerencias de corrección, sumadas a las 31 que tienen una sola, se pueden incorporar a un banco de reactivos para su futura utilización. Por ejemplo el siguiente reactivo no tiene sugerencia de corrección:
14.- Identifica el espacio líquido que tiene como amortiguador principal al par bicarbonato/ácido carbónico. La respuesta correcta es Plasma, la cual se eligió de un grupo de opciones que son: a) Orina b) Plasma c) Agua total) d) Líquido intersticial y e) Líquido intracelular.
Por otro lado, hay 10 reactivos que tienen 3 sugerencias de correcciones, razón por la cual no se consideran aptos en la manera en la que están redactados, ya sea porque los resultados indican que son fáciles o difíciles (Tabla 1).
Dentro del grupo de los reactivos fáciles, entre otros, están los siguientes: 10, 29, 46, 47.
46.- Molécula sobre la que actúa la enzima. La respuesta correcta es Sustrato que se eligió del grupo de respuestas a) Enzima b) Sustrato c) Inhibidor competitiva d) Inhibidor no competitiva y e) pH y temperatura.
38.- Reconoce la estructura de las proteínas que tienen como único enlace covalente al puente disulfuro entre cadenas. La respuesta correcta es Estructura cuaternaria y se eligió del grupo de opciones a) Estructura primaria b) Estructura secundaria c) Estructura terciaria d) Estructura cuaternaria y e) Estructura nativa.
Discusión
Para el análisis de este examen se utilizó el Examen de Habilidades y Conocimientos Básicos (EXHCOBA) (4) debido a que está validado, es confiable y evalúa tres formas para calificar cada uno de los reactivos del examen, además se incrementó con el alfa de Cronbach, que es un parámetro de confiabilidad.
El objetivo principal de este trabajo es demostrar que existen formas para identificar la calidad de los reactivos de evaluación y para medir el aprendizaje de los estudiantes.
Es importante notar que estas técnicas dan diferentes resultados (Figs. 2, 3 y Tabla 1), pero la más confiable de las cuatro es el coeficiente de discriminación (Fig. 3) porque evalúa el 100% de los reactivos así como al 100% de los alumnos. Además, arrojó mayor información ya que permite identificar aquellos ítems o reactivos que requieren modificaciones, pues no obtuvieron valores aceptables. Lo conveniente de acuerdo a esta técnica de análisis es que en un examen el coeficiente y el índice de discriminación -que como ya se mencionó- analiza el 27% de alumnos que tuvieron la calificación más alta y el 27% de los que tuvieron la calificación más baja, siguieran una ruta paralela puesto que así se puede ver que en lo relativo al 54% de los reactivos analizados tendría semejanza al 100% de ellos. Esa situación no sucedió en este trabajo y por ende es necesario revisar el examen aquí referido. El alfa de Cronbach indica cuales de los reactivos se sugiere eliminarlos o modificarlos para tener un valor más alto y entre más alto sea el valor del alfa, se tendrá mayor confiabilidad. Esto sería conveniente trabajarlo para cada uno de los temas que conforman el examen y ahí ver cuáles de los reactivos se deben eliminar o modificar. Lo más relevante de este trabajo es la factibilidad de hacer uso de técnicas ya validadas que existen en la literatura para así incrementar la confianza en los exámenes de Bioquímica y Biología Molecular que se aplican en la Facultad de Medicina de la UNAM.