Introducción
El desarrollo de habilidades matemáticas es un factor relevante no solo para el éxito académico de los estudiantes (Claessens y Engel, 2013), sino también para el desarrollo intelectual de los niños y jóvenes, ya que les ayuda a pensar de manera lógica, razonar ordenadamente y tener una mente preparada para la resolución de problemas, generalización y abstracción (Benson-O'Connor et al., 2019). Además, les permite desarrollar habilidades relacionadas con la exactitud en los resultados, la comprensión y la utilización de símbolos (Villegas-Zamora, 2019), así como promover habilidades de cooperación, respeto de turnos y autorregulación, incluso en los estudiantes más pequeños (Stipek et al., 2012).
En pocas palabras, independientemente de la situación del ámbito escolar, el aprendizaje matemático les ayuda a las personas para comprender y participar en el mundo de manera activa y crítica para luego tomar decisiones frente a eventos que requieren razonamiento y operaciones numéricas (Angier, 2019). De hecho, las matemáticas son herramientas esenciales para tomar decisiones en el mundo adulto (Menoyo Díaz, 2020; Trejo, 2020), lo cual se pone a prueba, por ejemplo, al momento de ahorrar, invertir, decidir sobre el sistema de pensiones, comprender lo que implica una tasa de interés o aplicar procedimientos para determinar cantidades al cocinar o tomar un medicamento, etc.
Por estos motivos, se puede asegurar que examinar cómo están aprendiendo los estudiantes las matemáticas y cuánto están familiarizados con aplicarlas para resolver problemas cotidianos resulta un indicador también de su formación ciudadana (Andrade y Guzmán, 2018). Para tal fin, las pruebas estandarizadas nacionales e internacionales pueden proporcionar información de gran interés que permita determinar cuáles habilidades deben ser potenciadas, así como cuáles metodologías y estrategias pedagógicas del docente se pueden mejorar.
Con base en este propósito, Canales y Maldonado (2018) estudiaron los resultados del Sistema de Medición de la Calidad de la Educación (SIMCE) de octavo básico de 2011 y su encuesta complementaria. Estos autores encontraron que los docentes contribuyen de manera significativa a los resultados de matemáticas y lenguaje de los estudiantes, especialmente aquellos con más años de experiencia. Además, observaron que los profesores con menos experiencia y competencias pedagógicas tienden a estar a cargo de los estudiantes desfavorecidos, que se encuentran en una situación socioeconómica vulnerable, lo que limita aún más las posibilidades de mejora de estos alumnos.
En concordancia con esta idea, Torres (2018) señala que si bien existen docentes efectivos de matemáticas y lenguaje en establecimientos educacionales de bajo nivel socioeconómico, se observa una mayor variabilidad en los efectos de estos en el desempeño de los estudiantes. De hecho, esta variabilidad es menor en establecimientos de mayor nivel socioeconómico, donde hay menos docentes clasificados como poco efectivos.
En un intento por comprender el desempeño de los estudiantes chilenos en el Programa para la Evaluación Internacional de Alumnos (PISA), Villarroel et al. (2015) indagaron en los aciertos y errores más frecuentes de los estudiantes en los distintos ítems de la prueba del 2009. Los autores demostraron que algunos factores que influyen en el desempeño de los alumnos fueron el tipo de ítem, la familiaridad de los alumnos con estos y la complejidad de las habilidades cognitivas necesarias para contestar las preguntas. Además, observaron que los estudiantes cometen más errores en preguntas que miden habilidades cognitivas de alta complejidad, como establecer relaciones entre datos y procedimientos en matemáticas.
En la misma línea, Valenzuela et al. (2015) analizaron las variables sistémicas e individuales que inciden en la mejora de resultados de los estudiantes frente a la prueba PISA en el periodo 2000-2009, y hallaron que las actitudes de los estudiantes explicaban el 25% de la mejora de los resultados, mientras que las estrategias de aprendizaje no se configuraban como significativas en la explicación.
A nivel internacional, en Turquía, Aydın y Özgeldi (2017) profundizaron en las dificultades de estudiantes de pedagogía en matemáticas para resolver los ítems de la prueba PISA 2012. Para ello, administraron un examen de 26 ítems a 52 futuros maestros, seguido de 12 entrevistas, en el marco de una estrategia mixta. Las investigadoras reportaron que los docentes en formación presentaban consistentes dificultades en los ítems que combinaban el conocimiento conceptual, contextual y aplicado de las matemáticas, ya que ofrecían limitadas explicaciones conceptuales frente a los ítems y una contextualización fragmentada.
Por su parte, Radišić y Baucal (2018) exploraron cómo los maestros perciben el pensamiento de los estudiantes serbios en relación con el contenido matemático de dos ítems de PISA 2012. Encontraron que la familiaridad del ítem es un facilitador de una correcta resolución, mientras que la descontextualización del contenido incidiría en un mal desempeño. Sin embargo, los docentes mostraron acuerdo respecto a que los alumnos solo necesitaban conocimientos básicos de primaria para responder a los ítems de la prueba, aunque muchos no fueron capaces de precisar el procedimiento que el estudiante requería para resolverlo. En este sentido, el desacuerdo entre los juicios de los docentes para identificar el elemento del ítem que lo hace más difícil fue notable, pues se hallaron atribuciones sobre la complejidad de la habilidad medida y la complejidad de la instrucción, o la construcción de la pregunta. Por último, las autoras concluyen que la incapacidad de los docentes para imaginar las dificultades que los estudiantes pueden presentar frente a un ítem puede vincularse a un débil cultivo de la relación profesor-alumno y a una escasa formación en competencias pedagógicas.
Estas investigaciones enfocadas en comprender el nivel de aprendizaje alcanzado por los estudiantes en matemáticas arrojan luz sobre las políticas educativas de los países. En particular, la prueba PISA, desarrollada por la Organización para la Cooperación y el Desarrollo Económico, mide el nivel de preparación de estudiantes de 15 años para enfrentar los desafíos que pueden encontrar en el futuro (OCDE, 2010, 2019).
Los ítems de este instrumento se basan en situaciones y contextos cercanos a la vida de los alumnos, quienes deben enfrentar el desafío de resolver problemas utilizando los conocimientos aprendidos (Caño y Luna, 2011). El nivel de complejidad de estos ítems puede clasificarse en tres categorías: a) básico, donde se evalúan habilidades matemáticas básicas, como la resolución de problemas simples y la interpretación de información numérica, b) moderado, en el que se abordan situaciones más complejas que exigen la aplicación de conceptos matemáticos en situaciones del mundo real, y c) superior, que implica la resolución de problemas altamente abstractos y teóricos, que requieren de un alto grado de razonamiento matemático y la capacidad de abordar situaciones novedosas. Estos niveles permiten medir no solo la comprensión de conceptos matemáticos, sino también la capacidad de los estudiantes para aplicar sus conocimientos en contextos diversos y desafiantes (Villarroel et al., 2015).
Ahora bien, en el caso concreto de Chile, el país ha participado en las evaluaciones PISA desde el año 2000, y aunque los resultados muestran una mejora sostenida, existe un porcentaje importante de alumnos que no logran el desempeño mínimo de competencias necesarias para la vida. Los resultados, de hecho, se sitúan por debajo del promedio de los países de la OCDE, aunque significativamente por encima del promedio de otros países de Latinoamérica (OCDE, 2019; Valenzuela et al., 2009).
Ante este escenario, se plantearon las siguientes interrogantes: ¿son los profesores de aula competentes para predecir los ítems en los que sus estudiantes tendrán un mejor y peor desempeño?, ¿qué explicaciones ofrecen los profesores respecto a los ítems en los que los estudiantes chilenos presentan un desempeño más bajo?
La revisión de literatura presentada destaca la importancia de comprender cómo los docentes perciben las características y dificultades de este tipo de evaluaciones para entender el origen del desempeño de los estudiantes y tener un impacto directo en el diseño e implementación de prácticas de enseñanza y evaluación innovadoras sustentadas en la literatura especializada. Este interés surge debido a lo significativo que resulta la competencia de planificación del proceso de enseñanza y aprendizaje (Morales Salas, 2018), de ahí que la presente investigación se enfoque en la perspectiva de los docentes de matemáticas.
Por eso, y con base en las conclusiones de Villarroel et al. (2015), se puede indicar que el objetivo de este trabajo es analizar la capacidad de los docentes de matemáticas de enseñanza media (o secundaria) para emitir un juicio evaluativo en relación con la complejidad de los ítems PISA 2015 en Chile, así como también estimar o predecir el desempeño de los alumnos chilenos en ellos. Al respecto, cabe aclarar que se estudia esta competencia de juicio evaluativo docente porque son los profesores quienes construyen, aplican e interpretan las evaluaciones en el aula. Cuanto mayor sea la distancia y las diferencias entre las habilidades evaluadas en estas pruebas y las mediciones estandarizadas como PISA, menos probable es que mejore el desempeño de los estudiantes en estas últimas.
En definitiva, la pregunta de investigación que orientó este estudio fue la siguiente: ¿existe concordancia en la dificultad de los ítems PISA 2015 según la evaluación de los profesores y los niveles de acierto y error que presentaron los estudiantes chilenos tras su aplicación?
Materiales y método
La investigación se llevó a cabo mediante un diseño no experimental de corte transversal, correspondiente a un modelo de expansión de datos cuantitativos (Onwuegbuzie y Collins, 2007). Además, se efectuó un análisis cuantitativo de datos a partir de la aplicación de un cuestionario con preguntas de respuesta cerrada y abierta. Luego, se realizó un análisis de contenido de las opiniones recabadas.
Muestra
La muestra fue de tipo no probabilística, con un muestreo intencional o de conveniencia, donde los participantes fueron seleccionados siguiendo criterios específicos. En primer lugar, los criterios de inclusión fueron los siguientes: a) ser docentes de enseñanza media de matemáticas, b) haber impartido clases en segundo año de enseñanza media en la provincia de Concepción, Chile, durante los últimos dos años, y c) los establecimientos participantes debían tener un puntaje SIMCE (Sistema de Medición de la Calidad de la Educación) dentro del promedio nacional para su dependencia. Es decir, los colegios públicos se encontraban en un rango de puntaje entre 240 a 250, los particulares subvencionados entre 260 a 290, y los de dependencia privada pagada sobre los 290 puntos.
En total, participaron 18 docentes de matemáticas, de los cuales 7 eran mujeres y 11 hombres. Respecto a la dependencia educativa, 7 pertenecían a la educación pública, 6 a la subvencionada y 5 a la privada. El promedio de edad de los profesores fue de 47 años (DE = 4.3). En cuanto a la experiencia docente, esta variaba entre 26 y 15 años, con un promedio de 23 años (DE = 5.0). Todos los participantes contaban con grado de magíster.
Procedimiento
Siguiendo la línea de investigación de Villarroel et al. (2015), se seleccionaron diez ítems en matemáticas: cinco en los cuales los estudiantes chilenos mostraron alto desempeño (70% o más de aciertos) (ítems: 12, 4, 16, 18, 20), y cinco en los que evidenciaron bajo desempeño (30% o menos de aciertos) (ítems: 11, 13, 15, 17, 19) en la prueba PISA 2015 de matemáticas (Tabla 1). De las 10 preguntas, 2 eran de selección múltiple (SM), 2 de selección múltiple compleja (SMC), 2 de respuesta construida de tipo cerrada (RCC), 2 de respuesta corta (RC), y 2 de respuesta construida de tipo abierta (RCA).
Matemáticas | |||
---|---|---|---|
Nivel desempeño | Tipo ítem | N.º del ítem | % de acierto |
Alto Desempeño | SM | 11 | 79.9 |
SMC | 13 | 27.7 | |
RCC | 15 | 54.9 | |
RC | 17 | 52.1 | |
RCA | 19 | 53.3 | |
Bajo Desempeño | SM | 12 | 29.9 |
SMC | 14 | 19.9 | |
RCC | 16 | 26.7 | |
RC | 18 | 7.60 | |
RCA | 20 | 15.0 |
Fuente: Elaboración propia
Estos ítems se distribuyeron de manera variada en un documento tipo dossier que se entregaba a los docentes de matemáticas encargados de evaluarlos, el cual proporcionaba el número del ítem y la opción de respuesta correcta, además de una pauta de evaluación para cada ítem (en el siguiente apartado se describirá este instrumento). Los profesores evaluaban de manera ciega, es decir, desconocían el desempeño de los estudiantes chilenos en estas preguntas de PISA.
Durante el primer acercamiento a los establecimientos, se entrevistó a los directores para solicitar su autorización a través de una carta para aplicar el estudio con los docentes. Tanto el director del colegio como los profesores firmaron un consentimiento informado donde aceptaban participar y autorizaban el uso de los datos recogidos para la investigación. A cada docente se le comunicó el objetivo del estudio y se le entregó el conjunto de ítems. Se informó a los profesores que evaluarían ítems que arrojaron un mayor grado de acierto y error en la prueba PISA, pero no se especificaron los resultados de los estudiantes con el fin de evitar sesgos al responder.
En la primera parte, los profesores debían marcar en un casillero su grado de acuerdo o desacuerdo con el indicador planteado en cada dimensión. En la segunda valoraron los ítems que evaluaron en la primera parte mediante una equis en uno de los cuatro niveles propuestos; luego, respondieron una pregunta abierta relacionada con el posible desempeño de los alumnos en cada ítem. Las pautas fueron devueltas por los profesores dentro de los 30 días siguientes a su recepción.
Instrumento
Se diseñó una pauta de evaluación para cada ítem, la cual consideraba dimensiones, indicadores y niveles de acuerdo para cada afirmación, además de dos preguntas. Esta pauta fue construida a partir de la literatura consultada; además, fue eximida por jueces, lo cual arrojó un índice de correlación intraclase (ICC= 0.85). La pauta constaba de cinco dimensiones:
Formulación del ítem: Esta dimensión evaluaba la redacción del ítem, la pertinencia de su vocabulario, la familiaridad de los estudiantes con las preguntas y si la información proporcionada era útil para resolver el problema en cuestión. Un puntaje más alto indicaba que el ítem estaba mejor formulado.
Contenido del ítem: Evaluaba si el contenido del ítem estaba presente en el currículo escolar y si era tratado de manera principal o no. Un puntaje más alto implicaba que el contenido evaluado en PISA había sido abordado en el currículo escolar chileno.
Contextualización del ítem: Medía qué tan contextualizado y auténtico era el problema, qué tan realista era el ítem y si mostraba un problema relevante y de posible aplicación para la vida cotidiana del estudiante. Un puntaje más alto indicaba mayor contextualización del ítem.
Habilidad cognitiva: Esta dimensión evaluaba la habilidad de reproducción, análisis y razonamiento. Un puntaje más alto indicaba que se estaban midiendo habilidades cognitivas de alto orden, relacionadas con análisis y razonamiento.
Complejidad del ítem: Esta dimensión buscaba determinar qué tan compleja sería la resolución del problema para los estudiantes en cuanto al contenido y la forma de los ítems. Un puntaje más alto indicaba mayor complejidad del ítem.
Cada dimensión tenía 16 indicadores, los cuales se respondían considerando cinco niveles: (1) muy en desacuerdo, (2) desacuerdo, (3) ni de acuerdo ni en desacuerdo, (4) de acuerdo, y (5) muy de acuerdo.
Por último, la pauta de evaluación presenta una pregunta relacionada con la valoración sobre el desempeño de los estudiantes, la cual se dividía en cuatro niveles: (1) muy mal, (2) mal, (3) bien, y (4) muy bien. Además, incluía una pregunta abierta relacionada con el posible desempeño de los alumnos en el ítem.
Análisis de datos
Se llevó a cabo un análisis descriptivo de los datos según el sexo, el establecimiento, la dependencia, el tipo de prueba, la evaluación de cada indicador y la predicción sobre el nivel de desempeño de los estudiantes en cada ítem. Luego, se analizó el grado de concordancia entre los profesores en relación con la evaluación de cada ítem y sus cinco dimensiones, utilizando el estadístico descriptivo alfa de Kripendorff (Hayes y Krippendorff, 2007). Asimismo, se examinó la evaluación de las cinco dimensiones a través del promedio de las evaluaciones para determinar la dimensión mejor evaluada por ellos.
Posteriormente, se valoró la concordancia entre la predicción de los profesores sobre el desempeño de los estudiantes en los ítems analizados. Dado que las variables no seguían una distribución normal, se optó por utilizar la prueba no paramétrica de Kruskal-Wallis.
Finalmente, se efectuó un análisis de contenido sobre las atribuciones al desempeño de los estudiantes, acompañado de algunos extractos prototípicos para cada categoría. Los profesores fueron codificados con un número arábigo, una letra para identificar el sexo (m para mujer y h para hombre) y una letra para la dependencia administrativa (m para público, ps para particular subvencionado y pp para particular pagado). Por ejemplo, el docente número 1 corresponde a un hombre de un colegio particular pagado (docente 1hpp).
Resultados
A continuación, se presentan los resultados derivados del análisis cuantitativo, seguido de la producción de datos cualitativos.
Descripción de los docentes sobre la dificultad de los ítems
En las tablas 2 y 3 se presenta el promedio (M) de la evaluación realizada por los profesores a los ítems de matemáticas en una escala que va desde 1 (muy en desacuerdo) hasta 5 (muy de acuerdo). Los indicadores presentados en las tablas corresponden a la descripción que mejor representa la afirmación propuesta en la pauta de evaluación de los ítems.
Ítems bajo desempeño (tipo) | |||||||
---|---|---|---|---|---|---|---|
Dimensión | Indicador | 12 (SM) | 14 (SMC) | 16 (RCC) | 18 (RC) | 20 (RCA) | M |
Formulación del ítem | Redacción | 4.06 | 4.33 | 3.89 | 4.61 | 4.39 | 4.25 |
Vocabulario | 4.06 | 4.50 | 4.17 | 4.61 | 4.50 | 4.36 | |
Conocido | 3.17 | 3.39 | 2.00 | 4.33 | 3.94 | 3.36 | |
Información | 4.11 | 4.44 | 3.33 | 4.67 | 4.44 | 4.19 | |
M | 3.84 | 4.16 | 3.34 | 4.55 | 4.31 | 4.04 | |
Contenido | Currículo | 4.39 | 4.50 | 2.94 | 4.78 | 4.44 | 4.21 |
Frecuencia | 3.39 | 3.67 | 2.50 | 4.44 | 3.56 | 3.50 | |
Aplicación | 2.00 | 1.61 | 3.11 | 1.39 | 1.61 | 1.94 | |
M | 3.26 | 3.26 | 2.85 | 3.53 | 3.20 | 3.21 | |
Contextualización | Realista | 4.11 | 3.94 | 3.78 | 4.44 | 3.39 | 3.93 |
Importante | 3.56 | 3.22 | 2.94 | 3.39 | 2.78 | 3.17 | |
Familiar | 3.39 | 3.50 | 2.44 | 3.61 | 2.61 | 3.11 | |
M | 3.68 | 3.55 | 3.05 | 3.81 | 2.92 | 3.40 | |
Habilidad cognitiva | Reproducir | 2.67 | 3.11 | 3.33 | 3.83 | 3.44 | 3.27 |
Analizar | 4.44 | 4.50 | 4.39 | 3.89 | 4.11 | 4.26 | |
Reflexionar | 4.39 | 4.44 | 3.83 | 2.94 | 3.94 | 3.90 | |
M | 3.83 | 4.01 | 3.55 | 3,55 | 3,83 | 3.81 | |
Complejidad | Integrar | 4.44 | 4.44 | 3.83 | 3.28 | 3.94 | 3.98 |
Planificar | 4.17 | 4.28 | 3.83 | 3.56 | 3.94 | 3.95 | |
Complejo | 4.06 | 4.39 | 4.00 | 2.61 | 3.72 | 3.75 | |
M | 4.22 | 4.37 | 3.88 | 3.15 | 3.86 | 3.89 | |
M total | 3.78 | 3.89 | 3.39 | 3.77 | 3.67 | 3,70 |
Fuente: Elaboración propia
La Tabla 2 revela que las dimensiones que explican las dificultades de los estudiantes para responder adecuadamente a los ítems son el contenido (M = 3.21), la habilidad cognitiva (M = 3.81) y la complejidad (M = 3.89), lo cual muestra diferencias significativas con respecto al resto de las dimensiones (chi cuadrado= 7.82; p < .05).
En la dimensión contenido, el indicador más bajo fue aplicación, mientras que en el resto de las dimensiones todos los indicadores puntuaron alto (se destacan analizar, integrar y planificar). Asimismo, se observa una baja puntuación en el indicador conocido de la dimensión de formulación del ítem. En resumen, un estudiante tendría más dificultades para resolver estas preguntas si el tipo de ítem es poco conocido, el contenido requiere aplicación, la habilidad cognitiva evaluada está relacionada con el análisis, y el ítem involucra la planificación e integración del conocimiento.
En la Tabla 3 se observa que, según los profesores de matemáticas, las dimensiones que más facilitan la resolución de los ítems son la formulación del ítem (M = 4.41) y contextualización (M = 3.98), ya que obtuvieron los promedios más altos y muestran diferencias significativas con respecto al resto de las dimensiones (chi cuadrado= 7.33; p < .05). En cuanto a los indicadores que facilitarían la resolución de los ítems, los más mencionados fueron redacción, vocabulario, conocido e información, correspondientes a la dimensión formulación del ítem; así como los indicadores realista, importante y familiar de la dimensión contextualización. En otras palabras, un estudiante tendría menos dificultades para resolver estos ítems si la formulación del ítem es clara, el vocabulario y el tipo de ítem son conocidos, y el contexto es familiar.
Ítems alto desempeño (Tipo) | |||||
---|---|---|---|---|---|
Dimensión | Indicador | 21 (SM) | 23 (SMC) | 26 (RCA) | M |
Formulación del ítem | Redacción | 4.89 | 4.33 | 4.67 | 4.63 |
Vocabulario | 4.67 | 4.50 | 4.67 | 4.61 | |
Conocido | 4.78 | 3.78 | 4.17 | 4.24 | |
Información | 4.50 | 4.00 | 4.00 | 4.16 | |
M | 4.71 | 4.15 | 4.37 | 4.41 | |
Contenido | Currículo | 4.67 | 3.56 | 3.44 | 3.89 |
Frecuencia | 4.67 | 3.39 | 2.89 | 3.65 | |
Aplicación | 2.33 | 3.28 | 3.00 | 2.87 | |
M | 3.89 | 3.41 | 3.11 | 3.47 | |
Contextualización | Realista | 4.67 | 4.17 | 4.33 | 4.39 |
Importante | 4.44 | 3.17 | 3.50 | 3.70 | |
Familiar | 4.33 | 3.56 | 3.67 | 3.85 | |
M | 4.48 | 3.63 | 3.83 | 3.98 | |
Habilidad cognitiva | Reproducir | 4.11 | 3.11 | 2.61 | 3.27 |
Analizar | 2.83 | 2.50 | 2.33 | 2.55 | |
Reflexionar | 2.72 | 2.44 | 2.33 | 2.49 | |
M | 3.22 | 2.68 | 2.42 | 2.77 | |
Complejidad | Integrar | 2.50 | 2.89 | 2.78 | 2.72 |
Planificar | 2.11 | 2.56 | 2.33 | 2.33 | |
Complejo | 2.06 | 2.78 | 2.44 | 2.42 | |
M | 2.22 | 2.74 | 2.51 | 2.49 | |
M total | 3.77 | 3.38 | 3.32 | 3.49 |
Fuente: Elaboración propia
Concordancia entre docentes
En la Tabla 4 se muestra la evaluación realizada por los profesores para cada ítem y sus cinco dimensiones: formulación del ítem (Form), contenido (Conten), contextualización (Contex), habilidad cognitiva (HCog) y complejidad (Com). Se presenta un promedio para resaltar la dimensión mejor evaluada en el área de matemáticas. Además, se observa el grado de concordancia en relación con la evaluación de cada ítem en las áreas investigadas.
Ítem | Tipo | Form | Conten | Contex | HCog | Com | α | (IC 95 %) |
---|---|---|---|---|---|---|---|---|
Alto desempeño | SM | 4.64 | 3.54 | 4.15 | 3.11 | 2.09 | .60 | (.55- .65) |
SMC | 4.53 | 3.52 | 3.93 | 3.74 | 2.84 | .37 | (.29- .43) | |
RCC | 4.64 | 3.65 | 4.18 | 3.33 | 2.26 | .57 | (.51- .62) | |
RC | 4.54 | 3.41 | 3.13 | 3.17 | 2.28 | .49 | (.43- .55) | |
RCA | 4.08 | 3.46 | 3.59 | 3.31 | 2.43 | .32 | (.24- .39) | |
M | 4.48 | 3.51 | 3.79 | 3.33 | 2.38 | .47 | ||
Bajo Desempeño | SM | 3.85 | 3.26 | 3.69 | 3.83 | 4.22 | .24 | (.16- .32) |
SMC | 4.16 | 3.26 | 3.55 | 4.02 | 4.37 | .29 | (.22- .36) | |
RCC | 3.34 | 2.85 | 3.05 | 3.85 | 3.89 | .24 | (.15- .32) | |
RC | 4.56 | 3.54 | 3.81 | 3.55 | 3.15 | .45 | (.39- .51) | |
RCA | 4.32 | 3.20 | 2.93 | 3.83 | 3.87 | .27 | (.20- .35) | |
M | 4.04 | 3.22 | 3.40 | 3.81 | 3.90 | .29 | ||
M total | 4.27 | 3.37 | 3.60 | 3.57 | 3.14 |
Fuente: Elaboración propia
Se evidencia cierta concordancia entre las evaluaciones de los profesores, especialmente en cuanto a los ítems de alto desempeño, en los cuales hay mayor concordancia. En cuanto a las dimensiones, se observa que en todas las áreas la dimensión formulación del ítem tiene mayor concordancia entre los profesores, mientras que complejidad presenta menor promedio de concordancia.
Por último, el análisis de concordancia entre la valoración de los profesores y los resultados de los estudiantes por áreas -siguiendo los criterios establecidos en el estudio de Villarroel et al. (2015) - reveló que se considera un grado significativo de acuerdo cuando el porcentaje es igual o superior al 80 %. Los profesores evaluaron el desempeño de los estudiantes en cuatro niveles: (1) muy mal, (2) mal, (3) bien, (4) muy bien.
Al respecto, se encontró que los docentes tienen un mayor porcentaje de concordancia en los ítems de alto acierto, pues lograron concordar en el 60% de las evaluaciones y predecir en un 80% el desempeño de los alumnos en los ítems de alto desempeño en matemáticas. Sin embargo, el 40% de los docentes de matemáticas presentan dificultad para acertar con precisión respecto a los ítems donde los estudiantes mostraron bajo desempeño en matemáticas. En los ítems de bajo desempeño, solo alcanzaron el 21.42% de concordancia.
Diferencias docentes según dependencia
En la Tabla 5 se evidencia que, en la mayoría de los ítems de alto desempeño del área de matemáticas, no se encontraron diferencias estadísticamente significativas en la valoración realizada por los jueces de las distintas dependencias. Solo en el ítem de RCA se encontró una diferencia estadísticamente significativa, con un valor de χ2= 6.011 y p = .05. En los ítems de bajo acierto, no se identificaron diferencias estadísticamente significativas.
Ítem | Tipo | Público (n=7) | Subvencionado (n=6) | Privado (n=5) | χ2 | p |
---|---|---|---|---|---|---|
Alto desempeño | SM | 9.64 | 9.67 | 9.10 | 0.057 | .972 |
SMC | 9.64 | 9.67 | 9.10 | 0.050 | .975 | |
RCC | 9.14 | 10.00 | 9.40 | 0.120 | .942 | |
RC | 8.14 | 10.17 | 10.60 | 1.029 | .598 | |
RCA | 6.50 | 12.50 | 10.10 | 6.011 | .050 | |
Bajo desempeño | SM | 10.36 | 9.17 | 8.70 | 0.456 | .796 |
SMC | 8.36 | 11.42 | 8.80 | 1.466 | .480 | |
RCC | 9.93 | 11.92 | 6.00 | 3.867 | .145 | |
RC | 8.64 | 13.17 | 6.30 | 5.506 | .064 | |
RCA | 7.86 | 11.00 | 10.00 | 1.550 | .461 |
Fuente: Elaboración propia
No se apreciaron diferencias significativas según edad, sexo y experiencia docente entre los juicios de los profesores de matemáticas en los diferentes ítems y dimensiones analizadas.
Análisis de contenido
El análisis de contenido se llevó a cabo considerando la valoración de los profesores sobre el desempeño de los estudiantes en matemáticas en cada uno de los ítems, su concordancia con los resultados obtenidos en PISA y las atribuciones expresadas por los profesores respecto del desempeño de los estudiantes. Este análisis se dividió en ítems de alto y bajo desempeño para determinar la presencia o ausencia de concordancia entre los profesores, junto con las razones que expusieron para ello.
En relación con la concordancia entre la percepción de los profesores y los resultados de los estudiantes en dicha área, se observó que, de los diez ítems evaluados, cinco correspondían a la categoría de alto desempeño y cinco a bajo desempeño. De los ítems de alto desempeño, cuatro presentaron una mayor concordancia entre la valoración de los profesores y el buen resultado de los estudiantes. En estos ítems, los profesores fundamentaron como atribuciones al alto desempeño que la habilidad cognitiva requería un razonamiento básico para su resolución y que el contenido frecuentemente se trabajaba.
Solo el ítem requiere de recordar el orden de números decimales, situación que se trabaja desde quinto básico. Por tanto, este ítem es frecuentemente practicado en el currículum nacional. Por tanto, los resultados de esta pregunta debiesen ser óptimos (docente 26hps).
En el ítem 13, un grupo de profesores describe las mismas razones de alto desempeño mencionadas anteriormente. En cambio, aquellos que valoran el ítem como difícil para los estudiantes argumentan que estos no están familiarizados con él y que se les exige analizar variables, lo que requiere una mayor comprensión lectora y habilidad cognitiva de orden superior.
El tema es muy familiar en la vida del estudiante, pero la resolución del problema es muy compleja y les afecta la comprensión lectora (docente 41 hm).
De los ítems de bajo desempeño, en tres de ellos existe concordancia entre la percepción de los profesores y el bajo resultado obtenido por los estudiantes en matemáticas. En los ítems 12, 14 y 20, los profesores consideraron que las razones del bajo desempeño de los estudiantes estarían dadas por la complejidad que presentan. Además, la formulación del ítem también afectaría el bajo desempeño debido a la extensión y redacción, lo que dificulta la comprensión lectora.
El problema contiene bastante información, la cual puede dificultar su comprensión. Hay que trabajar con más de una, hay que relacionar la información con lo que se pide, lo cual puede no ser claro (docente 7mpp).
En el ítem 16, algunos profesores atribuyen las mismas razones de bajo desempeño otorgadas en los ítems 12, 14 y 20, a saber, habilidad cognitiva, contenido, complejidad y formulación de ítem. A ello suman la falta de información y la contextualización del ítem, ya que la situación planteada no es familiar para el estudiante.
Trabajar con un sistema de numeración “nuevo” para los estudiantes es complejo. Además, no se explica de forma clara como se escribe una fracción en este sistema, por lo tanto, es posible que no lo entiendan y respondan mal (docente 44mm).
El ítem 18 fue valorado en la categoría de baja dificultad, y los profesores consideraron que los estudiantes tuvieron un buen desempeño, ya que argumentaron que demanda habilidades básicas. Sin embargo, no existe concordancia con los resultados estudiantiles obtenidos.
Es muy familiar y “parecido” a lo trabajado (docente 2hpp).
Por otra parte, los profesores que valoran este ítem con bajo desempeño expresan que la dificultad proviene de la integración de distintas variables al mismo tiempo, es decir exige mayores habilidades cognitivas y un manejo de contenidos que no se abordan ni se ejercitan en su totalidad en clases.
La respuesta no está en el contexto presentado, ya que el alumno debe recurrir a conocimientos previos. No se señala ningún procedimiento a seguir. No se evidencia una fórmula a aplicar. Se requiere que el alumno extraiga de sus propios conocimientos la estrategia a seguir para lograr la solución. Falta reconocer las variables involucradas (longitud del lado), superficie de una zona cuadrada (docente 45hm).
Discusión
La evaluación educativa desempeña un papel crucial en los procesos de enseñanza y aprendizaje al permitir a los docentes conocer el impacto de sus prácticas pedagógicas en el aula y ajustarlas según sea necesario para mejorar el aprendizaje de los estudiantes. Este estudio ha proporcionado una comprensión del juicio evaluativo de los docentes de matemáticas sobre la dificultad de los ítems en la prueba PISA, así como la concordancia de sus opiniones con los resultados obtenidos por los estudiantes. Estos hallazgos contribuyen al fomento de una cultura evaluativa que reconoce el error como una oportunidad de aprendizaje en el aula. Además, se destaca la importancia de la participación activa de los docentes como agentes clave en la mejora de la educación.
En cuanto a la calidad del juicio evaluativo de los docentes, se concluye que, en general, tienen dificultades para reconocer la complejidad de los ítems, especialmente aquellos en los que los alumnos muestran un bajo rendimiento, en contraste con lo observado en el contexto francés (Le Hebel et al., 2019). Sin embargo, los docentes logran predecir mejor el nivel de dificultad de los ítems donde los estudiantes tienen un mejor desempeño. Igual ocurre con la concordancia entre los profesores, que es mayor cuando se evalúan los ítems con mejor desempeño estudiantil.
Los profesores de matemáticas tienden a lograr una mejor predicción de la dificultad de los ítems cuando se centran en cuán familiarizada es su estructura para el estudiante. El indicador clave en este sentido es el titulado como “conocido” dentro de la dimensión formulación del problema. Este hallazgo se relaciona con lo descrito por Villarroel et al. (2015), donde se sugiere que los ítems más desafiantes para los estudiantes son aquellos de respuesta múltiple compleja, los cuales no son comunes en la práctica educativa nacional.
En relación con las dimensiones evaluadas, desde la perspectiva de los profesores de matemáticas, aquellas que parecen favorecer el desempeño de los estudiantes son la formulación del ítem, particularmente cuando los indicadores asociados a la redacción y vocabulario son elevados.
Por otro lado, la dificultad de los ítems parece estar más vinculada a la evaluación realizada por el docente sobre su complejidad, especialmente cuando implica la integración de variables, planificación y subdivisión de tareas. Aunque aún se necesita más investigación sobre la familiaridad del contexto y su impacto en el rendimiento de los estudiantes, es plausible afirmar que un entorno familiar puede facilitar la resolución de problemas matemáticos. No obstante, sigue siendo difícil para los estudiantes abstraer y transferir la estructura matemática del problema en cuestión, como señala Almuna-Salgado (2017).
Respecto a las oportunidades de mejora de este estudio, resulta crucial fortalecer la muestra de profesores que fungieron como jueces de la complejidad de los ítems para futuras investigaciones. En tal sentido, es importante tener en cuenta que la enseñanza de las matemáticas ha experimentado cambios significativos, como el aumento de la instrucción virtual y el desarrollo de corrientes pedagógicas que se centran en la aplicación de las matemáticas en contextos reales y en la vida cotidiana, entre otros aspectos (Cantoral, 2020).
Por lo tanto, las preguntas de las futuras evaluaciones, tanto las de PISA como las creadas por cada docente, deben adaptarse a estas nuevas condiciones, así como también las prácticas pedagógicas implementadas en el aula.
Por último, una fortaleza del estudio radica en el empleo de un diseño de investigación que incorpora preguntas abiertas, lo que ha permitido profundizar en las valoraciones y atribuciones de los docentes respecto de los ítems y el desempeño de los estudiantes.
Se concluye, por tanto, que es necesario avanzar en la investigación sobre evaluación educativa, especialmente en lo que respecta a las categorías analíticas utilizadas con el fin de desarrollar estrategias alternativas de formación docente tanto inicial como continua en el ámbito de la evaluación del aprendizaje. Además, sería interesante replicar esta metodología para examinar el desempeño frente a otras evaluaciones estandarizadas, tanto a nivel nacional como internacional, y con otras poblaciones de estudio.
Conclusiones
Los resultados hasta este punto sugieren que para mejorar los desempeños estudiantiles es crucial facilitar la familiaridad y contextualización de los ítems, tanto para los estudiantes como para los docentes. Además, se evidencia que estos últimos enfrentan dificultades para identificar el nivel de habilidades evaluadas en los ítems, pues tienden a pensar que sus estudiantes tendrán un menor desempeño en ítems de mayor complejidad que miden habilidades cognitivas de análisis.
Por lo tanto, se debe trabajar con los profesores en el reconocimiento y aplicación de habilidades, especialmente las de nivel superior. También se requiere introducir con mayor frecuencia este tipo de ítems, que miden habilidades de alto orden, en las evaluaciones de aula.
Es posible que la dificultad para reconocer las habilidades cognitivas medidas por los ítems se deba a un enfoque funcional del aprendizaje, en el cual se mide de manera más memorística y literal el conocimiento. Por ende, se vislumbra el desafío de diseñar y proponer situaciones problemáticas realistas donde se incorporen transversalmente los diferentes niveles de complejidad cognitiva, en consonancia con los resultados de la literatura revisada.
Futuras líneas de investigación
El desafío de los profesores de matemáticas para identificar los ítems con mayor dificultad por parte de los estudiantes es un área crucial que requiere un análisis continuo. La habilidad de los docentes para estimar el nivel de dificultad de los ítems de una prueba, así como su capacidad para predecir el éxito o fracaso de los estudiantes en ellos, refleja su competencia en el ámbito de la evaluación del aprendizaje. Si existen dificultades en este aspecto, es probable que se deba a un déficit en esta competencia docente específica, como lo sugieren estudios que señalan que la evaluación en el aula es el área más carente en la práctica pedagógica, como se evidencia en evaluaciones de desempeño realizadas a docentes del sistema escolar público en Chile en los últimos años (Manzi et al., 2011).
Por tal motivo, es esencial continuar realizando investigaciones con profesores, especialmente en el campo de la evaluación, para comprender mejor la cultura evaluativa que influye en sus prácticas pedagógicas y creencias sobre la evaluación en el ámbito de las matemáticas. Además, sería pertinente profundizar en la evaluación de los propios estudiantes sobre la dificultad de los ítems de PISA. Esto permitiría obtener información sobre su percepción de éxito o fracaso, grado de familiaridad con los distintos ítems y nivel de motivación respecto a la forma y contenido de la evaluación. Integrar esta información en la planificación y evaluación en el aula podría enriquecer significativamente la práctica docente.