INTRODUCCIÓN
El aprendizaje de la lengua es uno de los propósitos más importantes de los sistemas educativos. Lograr que las personas puedan comunicarse de forma adecuada tanto en materia oral como escrita resulta fundamental para la niñez en su etapa de escolarización, así como para su posterior inserción en la vida social. En México, en todos los niveles de educación básica, el campo de formación académica de lenguaje y comunicación se clasifica en cinco asignaturas (Lengua materna-español, Lengua materna-lengua indígena, Segunda lengua-lengua indígena, Segunda lengua-español y Lengua extranjera-inglés), que comparten la visión general de lenguaje; en especial, la asignatura Lengua materna-español se orienta a la promoción de la lengua en español que el alumno adquiere de los adultos que lo rodean en su contexto natural (Secretaría de Educación Pública [SEP], 2017). En el nivel preescolar, por las características de los alumnos, el principal enfoque de este campo es la promoción de la oralidad y la integración a la cultura escrita (SEP, 2017).
De acuerdo con la SEP (2017), que es la dependencia del Poder Ejecutivo federal encargada de la administración, regulación y fomento de la educación en México, la importancia de la adquisición de los contenidos del campo de lenguaje y comunicación radica en dos vertientes. Primero, la oralidad es mencionada como el preámbulo para adquirir la lengua escrita, mientras que el campo de formación en general es considerado como la base para el logro de otros aprendizajes. Segundo, el lenguaje incide en el desarrollo cognitivo y emocional, ya que es una herramienta para la construcción de conocimientos y significados que le permiten al alumno integrarse a su sociedad y cultura, así como adquirir seguridad y confianza en sí mismo.
En este punto, las evaluaciones realizadas a nivel nacional en 2007 y 2011 por el Examen de la Calidad y el Logro Educativo para preescolar (EXCALE 00) revelaron que el mayor porcentaje de alumnos de tercer grado de preescolar se encontraba en el nivel básico en lenguaje (niveles de desempeño de la prueba: por debajo del básico, básico, medio y avanzado). En este nivel de dominio, los alumnos solamente son capaces de reconocer su nombre escrito y mencionarlo, proporcionar información básica de su familia, intercambiar opiniones de acuerdo o desacuerdo sobre un tema y seguir instrucciones (Instituto Nacional de Evaluación Educativa [INEE], 2014).
Ahora bien, la evaluación de alumnos en edad preescolar (tres a cinco años) tiene características particulares que la hacen en especial difícil; entre ellas destacan tres: la primera es que las estrategias de evaluación deben coincidir con el nivel de desarrollo físico, mental y social del niño (Wortham & Hardin, 2016); la selección inadecuada de estrategias conlleva a la obtención de datos insuficientes que limitan la evaluación y, con ello, se compromete la confiabilidad de esta (Snow & Van-Hemel, 2008). La segunda es que en esa edad los alumnos aún no leen o escriben de forma convencional, lo que dificulta utilizar evaluaciones a lápiz y papel (Shepard et al., 1998; Wortham & Hardin, 2016). La tercera característica es que los niños necesitan contextos familiares para poder demostrar sus habilidades (Shepard et al., 1998), ya que la evaluación por agentes externos, sin familiaridad con los alumnos, puede resultar amenazante para ellos e interferir en su desempeño (Moreno, 2015).
A partir de los usos inapropiados de las evaluaciones, se establecieron algunos principios para el desarrollo y uso de estas, los cuales señalan que la evaluación a niños y niñas debería generar beneficios para ellos mismos; adaptarse a un propósito específico y ser confiables, válidas y justas para ese objetivo; reconocer que la confiabilidad y la validez de las evaluaciones aumentan con la edad de los niños; ser apropiadas para la edad tanto en contenido como en método de recolección de datos; y los padres y docentes son una fuente de información valiosa, además de una audiencia para los resultados de la evaluación (Shepard et al., 1998).
La tabla 1 incluye tres de los propósitos de las evaluaciones en niños y niñas de tres a cinco años de edad, así como los usos pretendidos y requisitos técnicos que le corresponden a cada uno. El primero se refiere a una evaluación para el aprendizaje; el segundo es para identificar servicios de salud y necesidades especiales, mientras que el tercero es para reconocer tendencias y evaluación de los programas. Cabe señalar que estos propósitos podrían conjugarse, especialmente el primero y el tercero, siempre y cuando se adopten los requisitos técnicos necesarios (Shepard et al., 1998).
Propósito | Usos | Requisitos técnicos |
1. Evaluación para promover el aprendizaje y el desarrollo de los niños | Los padres, cuidadores y docentes de preescolar utilizan medidas directas, incluidas observaciones de lo que los niños están aprendiendo, para decidir qué enseñar a continuación | Los requisitos de confiabilidad y validez son los menos exigentes de todos los propósitos. Pueden ser evaluaciones informales durante la enseñanza Las evaluaciones más formales, realizadas para mejorar el aprendizaje, deben estar vinculadas al plan de estudios de preescolar y tener claras implicaciones sobre qué hacer a continuación. Para ello, los docentes deben conocer la progresión típica de las competencias de los niños y estar familiarizados con las expectativas de edad y grado para reconocer desempeños precoces, por debajo o de acuerdo con lo esperado |
2. Identificar niños para servicios de salud y educación especial | Los niños que ingresan a programas preescolares deben someterse a pruebas de identificación de necesidades de salud, incluidos controles de vista y audición. Los niños con posibles retrasos en el desarrollo deben ser referidos para una evaluación en profundidad | Los instrumentos se aplican en dos pasos: una primera aplicación con instrumentos y examinadores menos exactos para una posible identificación; una segunda, en caso de detección, realizada con instrumentos más confiables y especialistas en el área a evaluar |
3. Monitoreo de tendencias y evaluación de programas y servicios | Las evaluaciones, incluidas las medidas directas e indirectas del desarrollo de los niños, podrían construirse y usarse para evaluar los programas de preescolar, pero tales medidas no serían lo suficientemente precisas para tomar decisiones importantes sobre niños individuales | Deben seguir altos estándares técnicos para asegurar la precisión Ser ampliamente representativas de las dimensiones del aprendizaje y el desarrollo infantil temprano Pueden aplicarse con diseño matricial para evitar procesos extenuantes para los niños. Sin embargo, no se obtienen resultados por niño, pero permiten conocer tendencias a gran escala de la idoneidad de los programas |
Fuente. Shepard et al. (1998)/American Psychological Association-Coalition for Psychology in Schools and Education (2019).
Con base en el panorama planteado, el análisis sobre el desarrollo de instrumentos de evaluación del lenguaje en el ámbito internacional arroja un número considerable de herramientas referidas a la norma, en su mayoría diseñadas en Estados Unidos y Canadá (Fernald et al., 2017). En distintos países de Latinoamérica se han utilizado instrumentos en principio diseñados para angloparlantes, tal es el caso del Early Grade Reading Assessment, concebido para establecer una línea base de las habilidades para la adquisición de lectura, así como evaluar programas educativos a gran escala, lo que es coincidente con los propósitos uno y tres de la tabla 1. Mide aspectos como la identificación del nombre de la letra, identificación sonoro-gráfica, decodificación, segmentación silábica, entre otros (Dubeck & Gove, 2015). Es evidente que los aspectos medidos por este instrumento no son concordantes con el enfoque socioconstructivista que prevalece en los currículos de la mayoría de países latinoamericanos.
Otro elemento ampliamente utilizado en los países de Latinoamérica es la evaluación infantil temprana (The Learning Bar, 2021), cuyo objetivo es valorar el desarrollo infantil en cinco dominios, incluido el lenguaje -propósitos uno y tres-. A partir de un conjunto de rúbricas, los docentes evalúan a los infantes en su desempeño cotidiano en el aula (The Learning Bar, 2021; Willms, 2014). Esta evaluación se ha utilizado de manera censal en países como Uruguay, con aplicaciones al inicio y al final del ciclo escolar; se ha podido reconocer a niños en riesgo y realizar intervención temprana en el ciclo escolar (López & Willms, 2020).
En México, el Instituto Nacional para la Evaluación de la Educación (INEE) puso en práctica el Examen de Calidad y Logro Educativo para preescolar (EXCALE 00) con el objetivo de proveer información sobre el aprendizaje del currículo a un nivel de agregación nacional -propósito tres- y por tipo de servicio educativo. Esta prueba estandarizada es aplicable por un evaluador externo y, dado su carácter matricial, no es posible obtener resultados individuales (INEE, 2014).
Marín, Guzmán y Castro (2012) elaboraron un instrumento para evaluar competencias de los niños en edad preescolar sobre el área de lenguaje y teniendo como referente el Programa de Educación Preescolar de 2004 (PEP 04). Con la finalidad de capturar el desempeño de los niños en tareas familiares, los autores diseñaron tareas evaluativas que pueden aplicarse en tres formatos: por la educadora, por observador externo con apoyo de la educadora, y en circuitos o estaciones -propósitos uno y tres-. El instrumento mostró adecuados índices de confiabilidad en cada una de las modalidades probadas y se aportaron evidencias de validez del contenido.
Otro instrumento utilizado es el Manual de exploración de habilidades básicas en escritura, lectura y conteo, un examen estructurado aplicable por la educadora de manera estandarizada, con el objetivo de evaluar componentes específicos del proceso de alfabetización inicial (SEP, 2018) -propósitos uno y tres-. Este manual presenta las siguientes problemáticas: no brinda un seguimiento del avance en el dominio de los contenidos a lo largo de los tres años de preescolar y, por tanto, se cuenta con un menor tiempo para llevar a cabo estrategias remediales respecto a contenidos no desarrollados de la forma esperada; no muestra evidencias de validez; únicamente evalúa contenidos de lectura y escritura, y deja de lado aspectos de la oralidad, aun cuando esta es una prioridad en educación preescolar (SEP, 2017).
Sobre las evaluaciones que se enfocan solo a uno de los aspectos del lenguaje, por ejemplo, la lectura o escritura, tenemos que reconocer que ello implica tener una subrepresentación del constructo, además de posibles consecuencias sociales no deseadas por la evaluación. Black y William (2018) señalan que este es un problema común de las evaluaciones: centrarse en lo que puede evaluarse de forma estructurada, pero también tiene consecuencias sociales no deseadas, pues origina que los docentes se centren en evaluar apenas algunos aspectos o en enseñar los contenidos evaluados, y omiten elementos importantes del aprendizaje.
Los diseñadores de instrumentos han implementado algunas medidas que les ayuden a enfrentar las dificultades de la evaluación de los niños y niñas de edad preescolar. Entre estas, podemos destacar la evaluación a partir de desempeños y tareas auténticas, el uso de rúbricas y el involucramiento de las educadoras para realizar las valoraciones (Marín, Guzmán y Castro, 2012; Shepard et al., 1998). Estas características les han permitido tener propiedades métricas robustas y obtener resultados por alumno en evaluaciones a gran escala e, incluso, ofrecer información para ser utilizada con fines de mejora por las educadoras (López & Willms, 2020).
Una de las tareas más complejas de los docentes es la evaluación, por lo que no es raro que se reconozca como un área de mejora (García et al., 2011;Martínez-Rizo, 2012a, 2012b). En educación preescolar, las educadoras también manifiestan dificultades en esas prácticas, como problemas al evaluar desde el enfoque de competencias (Marín, Guzmán y Castro, 2012), el uso inadecuado de técnicas como la observación y la falta de formación para realizar evaluaciones (Gómez et al., 2018).
No obstante, la evaluación en preescolar tiene la posibilidad de promover la mejora en el desempeño de los alumnos. En el aula, es capaz de favorecer aspectos referentes al aprendizaje y enseñanza a partir de identificar las metas, reconocer el estado en el cual se encuentran los niños y las niñas, y promover la retroalimentación para alcanzar niveles ulteriores de desarrollo, además de fomentar procesos metacognitivos y de autorregulación (Black & William, 2019; Hattie & Timperley, 2007). Al docente le permite reflexionar y decidir sobre el curso posterior de su práctica (Martínez, 2012a, 2012b). Desde una visión macro, la información que proporciona es también valiosa, pues permite al sistema educativo reconocer los avances o rezagos que se tienen y tomar decisiones informadas.
La investigación sobre la evaluación de aprendizajes en educación preescolar se encuentra en un estado incipiente (Gómez et al., 2018). Queda de manifiesto la necesidad de contar con instrumentos de evaluación que faciliten valorar las competencias del currículo (Cardemil y Roman, 2014; Gómez et al., 2018; Gómez y Seda, 2008; Marín, Guzmán y Castro, 2012) y sean sensibles a las características y el desarrollo de los infantes en edad preescolar.
Con base en lo mencionado, el propósito de este artículo es presentar el desarrollo y la obtención de evidencias de validez de un instrumento de evaluación de lenguaje en español como lengua materna para alumnos de preescolar alineado con el currículo en el contexto mexicano.
MÉTODO
Para la consecución del objetivo, llevamos a cabo un estudio metodológico de evaluación educativa; de acuerdo con Jornet, González y Suárez (2010) y Jornet, Perales y González (2020), una rama de este tipo de estudios se orienta a la construcción y validación de instrumentos de evaluación.
Participantes
Tuvimos tres tipos de participantes: comités, educadoras frente a grupo y alumnos de educación preescolar. Formamos tres comités de jueces:
Comité de jueceo de diseño. Compuesto por dos expertos con amplia experiencia en el nivel preescolar: uno en investigación y evaluación educativa y otro con conocimiento del currículo y las prácticas educativas.
Comité de indicadores de desempeño. Formado por cuatro expertos, tres en lenguaje y comunicación para preescolar y uno en el área de desarrollo de instrumentos de medición.
Comité de jueceo del instrumento. Integrado por cuatro expertos en lenguaje y comunicación para preescolar y con experiencia en la práctica docente.
Juez | Puesto actual | Experiencia en educación preescolar o en área de lenguaje | Años de experiencia | Comité en que participó | ||
Diseño | Indicadores | Jueceo | ||||
1 | Jefa de sector de preescolar | Desarrollo del currículo de preescolar a nivel nacional. Evaluación a gran escala de prácticas docentes. Formación de docentes en servicio. Jefa de sector. Docente de escuela normal. Educadora frente a grupo | 25 años | X | X | |
2 | Investigador | Investigación en el nivel preescolar. Evaluación a gran escala de alumnos, docentes y escuelas. Diseño de instrumentos de evaluación. Estimulación del desarrollo infantil | 17 | X | X | |
3 | Profesora investigadora | Investigación en enseñanza de la lengua en preescolar y primaria. Docente universitaria de licenciatura y posgrado en área de lenguaje | 13 años | X | X | |
4 | ATP | Asesora técnico pedagógica. Docente de escuela normal. Investigación en enseñanza de la lengua en edad preescolar. Educadora frente a grupo | 6 años | X | X | |
5 | Estudiante de doctorado | Investigación en enseñanza de la lengua en edad preescolar y en escuelas multigrado. Diseño de programas para el desarrollo de la lengua escrita en educación indígena. Docente universitaria de licenciatura y posgrado en área de lenguaje | 8 años | X | X |
Además, participaron 11 educadoras frente a grupo y 241 niños y niñas (105 y 136, respectivamente) de educación preescolar de los grados segundo y tercero (111 y 130, en ese orden). Normativamente, los alumnos de segundo de preescolar deben tener cuatro años cumplidos y los de tercero, cinco. Tanto educadoras que fungieron como aplicadoras como los niños a los que se les suministró la rúbrica fueron seleccionados por conveniencia.
Procedimiento
El procedimiento se conformó de dos grandes etapas que se desarrollaron en forma paralela. La primera estuvo dedicada a la construcción del instrumento de evaluación; y la segunda, orientada a la obtención de evidencias de validez basadas en el contenido y la estructura interna.
Etapa 1. Desarrollo del instrumento de evaluación
En la figura observamos que, para la consecución de la primera etapa del estudio, hicimos una adaptación de la propuesta de Lane y colaboradores (2016) para la construcción de instrumentos de evaluación, la cual considera los criterios de calidad de los estándares de la American Educational Research Association/American Psychological Association/National Council on Measurement in Education (AERA/APA/NCME) (2014).
Plan general. Este componente describe los aspectos relevantes de la construcción del instrumento: contenido de evaluación, propósito, tipo de instrumento, referente (norma o criterio), clase de reactivos, usuario, forma de administración, entre otros (Lane et al., 2016).
Definición del contenido. Las actividades de este componente se relacionan con la delimitación del contenido a evaluar y las afirmaciones que se harán a partir del instrumento (Lane et al., 2016).
Para este instrumento, llevamos a cabo un análisis del currículo nacional para preescolar, a partir del cual construimos una estructura inicial valorada por el comité de jueceo de diseño. Posteriormente, desarrollamos una segunda versión de estructura, seleccionamos los contenidos a evaluar y los clasificamos dentro de la estructura prevista; el producto final fue presentado al comité de indicadores de desempeño, el cual agregó recomendaciones para la mejora y contribuyó al planteamiento de los indicadores y sus descriptores, además de ejemplos de desempeño. Por último, la información obtenida se trianguló con lo establecido en el currículo y la teoría.
Especificaciones del instrumento. De acuerdo con la AERA/APA/NCME (2014), este tipo de documento articula el alcance del dominio, los contenidos que se medirán, los procesos cognitivos requeridos, los formatos de los ítems y la clase de respuesta.
Las especificaciones de los ítems para el instrumento construido contienen descripción del contenido a evaluar, los contenidos que abarca cada aspecto de la rúbrica, indicadores graduados por nivel de desempeño y descripciones del formato de la rúbrica.
En cuanto al alcance del dominio, tomamos como base los aprendizajes esperados, así como las teorías con base en las que se plantea el currículo. En total, formulamos siete especificaciones referentes a cada uno de los ítems de la rúbrica.
Los indicadores de desempeño se definieron de manera conjunta con el comité del mismo nombre, y seguimos el procedimiento empleado por Pedroza y Luna (2017). A partir de una propuesta de indicadores de desempeño para cada ítem, en conjunto, los autores y los miembros del comité establecieron niveles de desempeño para cada indicador, así como ejemplos prototípicos. El trabajo se realizó en una sesión plenaria de seis horas y luego en interacciones individuales, presenciales y asincrónicas.
Desarrollo de ítems. Este paso corresponde a la construcción de los ítems (Lane et al., 2016); acorde con la lógica del instrumento elaborado, este paso se dedicó a la elaboración de las descripciones de los niveles de desempeño de cada aspecto de la rúbrica. En seguida, el comité de jueceo del instrumento se encargó de su valoración.
Puntuación. Las actividades en este componente se enfocan en el diseño de procedimientos para garantizar la integridad de todo el proceso de asignación de niveles de desempeño; para ello, se requieren pautas de puntaje bien elaboradas y evaluadores capacitados (Lane et al., 2016).
Para el método con que se puntúa la rúbrica, hicimos un acercamiento a docentes de preescolar. A partir de sus aportaciones, determinamos una lógica de puntuación para establecer la consolidación de los niveles de desempeño que plantea la teoría del desarrollo del lenguaje, una lógica para los alumnos cuyo dominio estuviera en desarrollo con base en la función de andamiaje de las educadoras -postulada en la teoría socioconstructivista y el currículo (SEP, 2017)- y una lógica para los alumnos que hubieran excedido los aprendizajes esperados para preescolar, con fundamento en los criterios estipulados en los programas de estudios para ese nivel.
Reproducción. El proceso de este componente se centra en la selección del formato o medio para reproducir el instrumento de evaluación, así como la confección de los elementos que habrán de acompañarlo, como formatos o materiales auxiliares (Lane et al., 2016).
Los elementos constitutivos del instrumento son: rúbrica, manual de aplicación y formato de registro. Para nuestro estudio, decidimos utilizar una versión impresa y una digital en línea; esta última facilitó el resguardo y acceso a los datos, el seguimiento de las evaluaciones y la producción de reportes generales por alumno y grupo. Las educadoras participantes tuvieron acceso a todos los materiales y a ambas versiones.
Capacitación. Llevamos a cabo actividades relacionadas con el contacto de las personas que dieron acceso a las instituciones donde se efectuaron las evaluaciones, la estandarización de la administración y aspectos éticos.
Una acción fundamental fue la implementación de un taller de capacitación para el uso de del instrumento. Este se diseñó para guiar al profesorado respecto al contenido de evaluación y los criterios de los niveles de desempeño de la rúbrica. Aunado a lo anterior, llevamos a cabo un ejercicio de calibración, que consistió en presentar siete videos de alumnos de preescolar en distintas situaciones pedagógicas -previamente analizados y puntuados por los desarrolladores del instrumento- y solicitar a las educadoras que ubicaran el nivel de desempeño de cada niño. El porcentaje de acuerdo exacto fue del 76% y el porcentaje de acuerdo entre categorías adyacentes (+/- 1) fue del 21%. Además, capacitamos a las docentes en el uso del instrumento en línea para el registro de la información.
Administración. Este componente abarca las actividades de la administración del instrumento (Lane et al., 2016); dado su impacto en la validez de las interpretaciones y usos de los puntajes, AERA/APA/NCME (2014) hacen hincapié en minimizar errores en la aplicación.
La administración del instrumento se realizó en tres semanas, agendado acorde con el periodo que el sistema educativo normalmente ofrece para la evaluación de los niños. A partir de las actividades que la educadora diseña para la evaluación, se utiliza el instrumento para hacer la valoración de grupos de alumnos a través de la observación de sus actividades. El proceso de administración es similar al de otros instrumentos, como la evaluación infantil temprana (López & Willms, 2020).
Informes de resultados. El producto de este componente es uno de los más destacados de los instrumentos, pues sirve como base para inferencias, decisiones y acciones (Lane et al., 2016). Para este estudio, elaboramos reportes individuales por alumno mediante la versión en línea del instrumento dirigidos al profesorado de preescolar.
Etapa 2. Obtención de evidencias de validez
El procedimiento para la obtención de evidencias de validez de los productos de la etapa 2 se muestra en la tabla 3. Para efectos de claridad, este apartado está estructurado de acuerdo con la fuente de evidencia de validez recabada.
Fases | Aspectos analizados | Evidencias de validez |
1. Evidencias de validez de contenido | Estructura del instrumento, tabla de selección y clasificación de contenidos Operacionalización de las variables |
Comité de jueceo de diseño |
Comité de indicadores | ||
Comité de jueceo del instrumento | ||
Versión previa del instrumento | ||
Puntuaciones obtenidas del jueceo del instrumento | Coeficiente de CVC* | |
2. Evidencias de validez de estructura interna | Dimensionalidad y confiabilidad del instrumento | AFE** |
Alfa de Cronbach |
*Coeficiente de validez de contenido
** Análisis factorial exploratorio
Fase 1. Evidencias de validez basadas en el contenido
Para este cometido, utilizamos el juicio de expertos (AERA/APA/NCME, 2014; Sireci & Faulkner, 2014). Tres comités valoraron el contenido del instrumento en concordancia con lo presentado en la tabla 3. En especial, el comité de jueceo del instrumento hizo una valoración individual mediante un cuestionario compuesto de una escala de cinco niveles, en la que se valoró la concordancia de cada ítem y los niveles de desempeño conforme a los siguientes criterios:
Relevancia. La información contenida es lo suficientemente importante para ser incluida en el instrumento.
Congruencia. Existe una relación lógica de la información con lo que se evalúa.
Claridad. El contenido evoca un mismo rasgo y no es confuso.
Suficiencia. Están incluidos los indicadores y criterios necesarios para evaluar cada dimensión.
Los datos fueron sistematizados a través del coeficiente de validez de contenido total (CVCt) (Hernández-Nieto, 2011), cuya ecuación se basa en las medias para calcular el acuerdo entre expertos y la validez de contenido. Con base en este autor, se recomienda mantener los ítems con un CVC superior a .80, siguiendo la ecuación (Hernández-Nieto, 2002, p. 72):
Donde:
N |
= número total de ítems del instrumento |
∑xi |
= sumatoria de los puntajes asignados por cada juez (J) a cada uno de los ítems (i) (sumatoria de todos los promedios de todos los criterios a evaluar) |
Vmx |
= valor máximo de la escala utilizada por los jueces |
Pei |
= probabilidad de error por cada ítem o de concordancia aleatoria entre jueces |
J |
= número de jueces asignados al ítem |
Fase 2. Evidencias de validez basadas en la estructura interna
Utilizamos el análisis factorial exploratorio (AFE) para examinar el conjunto de variables latentes o factores comunes que explican las respuestas a los ítems del instrumento de evaluación y el grado en que las categorías se mezclan a lo largo de estas dimensiones (Lloret-Segura et al., 2014). Como paso previo, los supuestos requeridos para el uso del AFE se cumplieron mediante la aplicación del índice Kaiser, Meyer y Olkin (KMO) y la prueba de esfericidad de Bartlett. Asimismo, dado que la métrica de los ítems es una escala de siete niveles, los datos se trataron como variables pseudocontinuas, pues, de acuerdo con Bentler (2006), en este caso las distorsiones presentadas en los análisis son mínimas. Además, la consistencia interna del instrumento se determinó con el coeficiente de confiabilidad alfa de Cronbach. El software utilizado para llevar a cabo los análisis correspondientes fue el SPSS Statistics 22.
RESULTADOS
Instrumento desarrollado: rúbrica de evaluación formativa de lenguaje con alineación curricular para preescolar
Esta rúbrica es un instrumento para evaluar el desempeño de niños y niñas de preescolar en el campo de lenguaje y comunicación de la lengua materna español, referido al currículo con fines formativos y monitoreo de tendencias. La educadora frente a grupo es quien valora el desempeño del instrumento con las pautas del manual de aplicación. El instrumento puede utilizarse con un formato en papel o digital y genera reportes individuales en términos descriptivos. Como apreciamos en la tabla 4, se compone de dos ámbitos, el lenguaje oral y el escrito, y cada uno se subdivide en producción e interpretación de la lengua; en total se compone de siete ítems basados en indicadores teóricos y prácticos. Como es notorio, hay una prevalencia del lenguaje oral sobre el escrito debido a que en el currículo la oralidad es el aspecto más relevante en la educación preescolar (SEP, 2017).
Ámbito | Subámbito | Ítems | Indicadores |
Lengua oral | Producción | 1. Conversación | Concreción y congruencia Aporte de información Gramática, semántica y organización de información |
2. Descripción | Enlista características, congruencia, detalla y discrimina | ||
3. Narración | Sigue secuencias, ordena ideas, sintetiza, une información y ordena temporalmente Narra, detalla información, selecciona información, coherencia, congruencia, inventa y describe Volumen, entonación, adecuación del lenguaje, estilo del habla, recursos literarios | ||
4. Explicación | Comprende lo que se le solicita, expresa, argumenta, verbaliza procedimientos, responde, determina su postura, anticipa y responde preguntas Organiza hechos e ideas, reconstruye secuencias y planea orden o pasos Uso de material de apoyo, vocabulario específico y uso de lenguaje especializado | ||
Interpretación | 5. Interpretación de la lengua oral | Competencia comunicativa o pragmática Semántica, pronunciación y gramática | |
Lengua escrita | Producción | 6. Producción de la lengua escrita | Patrones evolutivos de la escritura, convenciones de la lengua escrita, escritura silábica, variedad intra-figural: cantidad mínima y no repetir letras, uso de grafemas no icónicos (verdaderas letras, pseudoletras, cuasiletras o números) y estrategias para resolver los problemas de la comprensión del sistema alfabético |
Interpretación | 7. Interpretación de la lengua escrita | Procesamiento de texto como lenguaje y decodificar fonema-grafía Construcción de significado, proximidad, contexto interno, contexto externo, cantidad mínima y modular |
Los ítems de la rúbrica tienen siete niveles de desempeño, tres de ellos con descripciones sintéticas del desempeño. La tabla 5 muestra un ejemplo del ítem referente a conversación. El nivel uno se utiliza para ubicar el desempeño de un alumno cuando no cumple por completo con los criterios establecidos en el nivel dos. Los niveles pares dos, cuatro y seis contienen descriptores del nivel de desempeño de forma ascendente. Se emplean para ubicar el desempeño del alumno solo si cumple por sí mismo y sin apoyo con todos los criterios determinados en el nivel. Los niveles impares tres y cinco sirven para ubicar el nivel de desempeño del alumno cuando ha superado los descriptores del nivel anterior, pero no cumple por completo con los descriptores del nivel sucesivo, o cuando los cubre totalmente solo con apoyo del docente.
Nivel 1 | No alcanza todos los indicadores del nivel 2 |
Nivel 2 | Se limita a comunicar lo que quiere o se le pregunta con afirmaciones o negaciones sin aportar información nueva. Por su forma de comunicarse, hay ausencia de la organización de la información del discurso, uso de las normas que regulan el lenguaje y adaptación a la audiencia. Ejemplo: “sí”, “no” o usa palabras sueltas como “baño”, “agua” |
Nivel 3 | Alcanza algunos indicadores del nivel 4 o todos solo con apoyo de la docente |
Nivel 4 | Logra comunicar lo que quiere, pero aún no domina del todo la organización de la información de su discurso, el uso de las normas convencionales que estructuran el lenguaje y la adaptación del mensaje a la audiencia. Puede ser redundante en sus aportaciones. Ejemplo: usa frases más elaboradas como “ir baño”, “vaso con agua”, “gato bonito”, “amo mi mami” |
Nivel 5 | Alcanza algunos indicadores del nivel 6 o todos solo con apoyo de la docente |
Nivel 6 | Logra comunicar lo que quiere organizando la información de su discurso, haciendo uso de las normas convencionales que estructuran el lenguaje y adecuando el mensaje a la audiencia. Además, aporta información nueva relacionada o acorde con el objetivo o situación comunicativa. Ejemplo: “quiero un vaso de agua”, “me das permiso de ir al baño”, “ayer fui al parque” |
Nivel 7 | Supera los indicadores del nivel 6 |
El nivel siete se utiliza para ubicar el desempeño del alumno cuando se considera que excede los indicadores propuestos en el nivel anterior (seis) o demuestra un desempeño superior; por ejemplo, que en producción de la lengua escrita el alumno ya escriba de forma convencional por sí mismo, desempeño que en el currículo se propone hasta la educación primaria.
Las descripciones sintéticas se acompañaron de una descripción en extenso (ver tabla 6), incluidas en el manual de aplicación, el cual describe en términos operacionalizables cada uno de los indicadores. Decidimos manejar la versión en extenso de forma separada para facilitar la evaluación por las educadoras, como lo hacen otros instrumentos con base en rúbricas, por ejemplo, el Classroom Assessment Scoring System (Pianta, La Paro & Hamre, 2008).
Descriptores de indicadores por nivel | Indicadores agrupados | ||
Concretar y congruencia | Gramática, semántica y organización de información | Aportación de información | |
Nivel 2 | Divaga en los comentarios que realiza Se limita a afirmar, negar o ceder a lo que dijeron otros |
La estructura (gramática) es incorrecta Se le dificulta aclarar u organizar ideas o información de forma congruente, aunque se le apoye |
Le cuesta aportar información nueva o prefiere hablar de un mismo tema |
Nivel 4 | Los comentarios que realiza son congruentes, pero se le dificulta concretar sus aportaciones | Ha mejorado la estructura de los comentarios que realiza Organiza ideas o información, pero de forma limitada o con errores |
Conversa sobre experiencias similares a las que acaban de manifestar sus compañeros Aporta comentarios redundantes |
Nivel 6 | Ajusta el lenguaje al público Las respuestas o comentarios que realiza son congruentes (por tipo de respuesta y tema), concretos y realiza precisiones de estos (como pedir que se le aclare una pregunta, reformular una pregunta) con las preguntas |
Es capaz de organizar ideas o información que se le presenta, en su mayoría sin errores La estructura sintáctica y gramatical de sus aportaciones es correcta (tiempos verbales, conectores, orden, otros) |
Inicia conversaciones de diferentes experiencias, sucesos o temas En la resolución de problemas toma en cuenta los comentarios de sus compañeros para proponer soluciones que se ajusten al problema Aporta nueva información o diferentes puntos de vista del mismo tema |
Asimismo, en el manual se agregaron ejemplos comunes de desempeño de los niños para cada uno de los niveles clave de la rúbrica; estos tienen la intención de facilitar la ubicación del desempeño de los alumnos.
Nivel 2 | Alumnos que se expresan con monosílabos
Rehúyen conversar, aunque se les insista, porque aún no han consolidado la habilidad para conversar (darse a entender, comprender al otro) Se expresan mayormente con apoyo de señas Señalan algunos objetos porque no sabe cómo se llaman Se le dificulta pronunciar palabras |
Nivel 4 | Alumnos que ya participan por sí mismos
Aunque pronuncian incorrectamente las palabras, pero logran darse a entender; por ejemplo, los niños que dicen “sabo”, “quiedo”, otras Alumnos que utilizan frases como “mañana miré una película” Alumnos que usan lo que podría considerarse un exceso de muletillas, por ejemplo “y fuimos y le dije y corrimos y jugamos y…” Alumnos que han aumentado su vocabulario, pero que se expresan sin una organización de las ideas |
Nivel 6 | Alumnos que se comunican con frases largas y elaboradas si es necesario, como “ayer fuimos al cine con mis abuelos”
Alumnos que han incrementado su vocabulario |
Por último, cada aspecto de la rúbrica se acompaña de ejemplos de actividades que las educadoras pueden utilizar durante la aplicación; tienen el objetivo de modelar situaciones propicias para recolectar cierto tipo de información; por ejemplo, para conversación se proponen actividades como preguntar que hicieron ayer, observar a los alumnos mientras hablan entre ellos en actividades cotidianas, como el receso y platicar con el alumno cuando este se acerca por propia iniciativa. Por último, se agrega un glosario de términos que pudieran parecer ambiguos; su objetivo es evitar confusiones y facilitar la asimilación del instrumento.
Análisis descriptivos de los resultados obtenidos a través de la aplicación de la rúbrica
A partir de los resultados de la tabla 8, advertimos que hay un dominio general; si bien los desempeños observados abarcan todos los niveles, para el lenguaje oral, los niveles cinco y seis concentraron la mayor cantidad de casos. Por su parte, el ámbito del lenguaje escrito tuvo los porcentajes mayores en el nivel dos, tanto en lo relativo a la producción como a la interpretación. Lo anterior se traduce como un dominio general mayor de los evaluados en la oralidad, mientras que se evidencia uno menor en los aspectos referentes al dominio de la lengua escrita.
Ítem | Grado | Nivel | Total | ||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | |||
Conversación | Total | 2.1% | 5.4% | 14.1% | 21.2% | 18.3% | 29.5% | 9.5% | 100% |
2do. | 3.6% | 10.8% | 17.1% | 28.8% | 17.1% | 22.5% | 0.0% | 100% | |
3ro. | 0.8% | 0.8% | 11.5% | 14.6% | 19.2% | 35.4% | 17.7% | 100% | |
Narración | Total | 4.1% | 14.9% | 17.8% | 18.7% | 18.3% | 24.1% | 2.1% | 100% |
2do. | 9.0% | 27.9% | 32.4% | 19.8% | 8.1% | 2.7% | 0.0% | 100% | |
3ro. | 0.0% | 3.8% | 5.4% | 17.7% | 26.9% | 42.3% | 3.8% | 100% | |
Descripción | Total | 6.2% | 3.7% | 11.6% | 20.7% | 22.4% | 34.9% | 0.4% | 100% |
2do. | 12.6% | 7.2% | 18.9% | 28.8% | 19.8% | 12.6% | 0.0% | 100% | |
3ro. | 0.8% | 0.8% | 5.4% | 13.8% | 24.6% | 53.8% | 0.8% | 100% | |
Explicación | Total | 3.7% | 9.5% | 18.3% | 22.8% | 20.7% | 24.5% | 0.4% | 100% |
2do. | 7.2% | 14.4% | 28.8% | 23.4% | 18.9% | 7.2% | 0.0% | 100% | |
3ro. | 0.8% | 5.4% | 9.2% | 22.3% | 22.3% | 39.2% | 0.8% | 100% | |
PLE | Total | 26.1% | 31.1% | 11.2% | 15.4% | 9.1% | 5.8% | 1.2% | 100% |
2do. | 49.5% | 41.4% | 0.0% | 9.0% | 0.0% | 0.0% | 0.0% | 100% | |
3ro. | 6.2% | 22.3% | 20.8% | 20.8% | 16.9% | 10.8% | 2.3% | 100% | |
ILO | Total | 2.1% | 9.1% | 17.0% | 22.4% | 27.8% | 21.2% | 0.4% | 100% |
2do. | 4.5% | 18.0% | 27.9% | 23.4% | 19.8% | 6.3% | 0.0% | 100% | |
3ro. | 0.0% | 1.5% | 7.7% | 21.5% | 34.6% | 33.8% | 0.8% | 100% | |
ILE | Total | 12.0% | 27.4% | 17.0% | 17.8% | 12.0% | 13.3% | 0.4% | 100.0% |
2do. | 20.7% | 45.9% | 22.5% | 10.8% | 0.0% | 0.0% | 0.0% | 100% | |
3ro. | 4.6% | 11.5% | 12.3% | 23.8% | 22.3% | 24.6% | 0.8% | 100% |
ILO: interpretación de la lengua oral PLE: producción de la lengua escrita ILE: interpretación de la lengua escrita Nota: Las cifras resaltadas en cursivas corresponden a los porcentajes más altos.
Aunado a lo anterior, los resultados por grado escolar reflejan un nivel de desempeño de los alumnos evaluados consecuente con el grado escolar al que pertenecían; es decir, los alumnos de tercero de preescolar tendieron a ubicarse por encima del desempeño de los alumnos de segundo grado.
Evidencias de validez
Basadas en el contenido. A continuación, presentamos los resultados obtenidos a través del juicio de expertos.
Comité de jueceo de diseño. Los jueces aprobaron las características generales del instrumento, hicieron sugerencias a la estructura propuesta y señalaron qué podría adecuarse a lo estipulado en la propuesta curricular (SEP, 2017, p.180), en relación con la noción de práctica social del lenguaje y sus tres ejes articuladores: producción, interpretación y reflexión sobre la lengua, a su vez, divididas en los ámbitos lengua oral y lengua escrita.
Posteriormente, durante el trabajo con el comité de indicadores, se sugirió eliminar la dimensión de reflexión sobre la lengua, debido a que esta se encuentra implícita dentro de las dimensiones de producción e interpretación sobre la lengua (Ferreiro, 2006). Con base en estas recomendaciones, obtuvimos la estructura final que mostramos en la tabla 4.
Comité de jueceo del instrumento. Los jueces valoraron de forma adecuada el contenido de los ítems, pues el coeficiente de validez de contenido (CVC) para cada aspecto evaluado bajo los criterios agrupados de calidad, relevancia, congruencia y suficiencia resultó con valores cercanos o superiores a .90.
Aspecto evaluado | CVCt |
Conversación | 0.91 |
Narración | 0.91 |
Descripción | 0.83 |
Explicación | 0.87 |
Interpretación de la lengua oral | 0.95 |
Producción de la lengua escrita | 0.95 |
Interpretación de la lengua escrita | 0.87 |
Nota: Valores entre .8 y .9 = buenos, por encima de .9 = excelentes (Hernández-Nieto, 2011).
Aunado a lo anterior, la valoración cualitativa de los jueces se orientó mayormente a mejorar la claridad en la redacción de algunos niveles de la rúbrica y a clarificar la gradación de ciertos niveles de desempeño. Los apartados referentes a descripción y narración no recibieron comentarios. Por último, las aportaciones de este comité se reflejaron en el aumento de cinco a siete niveles de desempeño, así como en la mejora de la claridad en la redacción de los niveles señalados por los expertos.
Basadas en la estructura interna
Como primer paso, comprobamos que se cumplen los supuestos para el AFE al obtener un índice de Kaiser-Meyer-Olkin de .898, así como valores significativos en la prueba de esfericidad de Bartlett, lo que representa que las varianzas de los factores se encuentran correlacionadas.
La aplicación del AFE permitió determinar la unidimensionalidad del constructo medido, cuyo único factor explica el 76% de la varianza de los ítems (ver gráfico). Con estos datos se demuestra que todos los ítems forman parte de un mismo constructo latente sobre lenguaje y comunicación.
Asimismo, todas las cargas de los ítems presentaron un nivel de saturación suficientemente alto, por lo que ninguno debió ser eliminado o sometido a revisión (ver tabla 10). Por último, obtuvimos un coeficiente de alfa de Cronbach de 0.944. Lo anterior se traduce como una confiabilidad alta de los puntajes del instrumento dado que el coeficiente se acerca a uno (Morales, 2013).
DISCUSIÓN Y CONCLUSIONES
El propósito de esta investigación fue diseñar, desarrollar y obtener evidencias de validez de un instrumento de evaluación de lenguaje para alumnos de preescolar. A continuación, describimos los atributos del instrumento diseñado.
Diseño y desarrollo del instrumento
Para la construcción de la rúbrica, hicimos una adaptación de los componentes para el desarrollo de instrumentos de evaluación propuestos por Lane y colaboradores (2016), que, a su vez, se alinean con los estándares de la AERA/APA/NCME (2014). Dado lo anterior, la rúbrica construida se encuentra formulada con base en directrices reconocidas en el campo del desarrollo de instrumentos.
La rúbrica diseñada integra atributos que la vuelven atractiva para su uso en el sistema educativo mexicano. Estos atributos son: está armonizado con el currículo nacional; representa los distintos contenidos del currículo tanto de la lengua oral como escrita; permite evaluar desempeños complejos; y tiene una forma de administración fácil y confiable.
La rúbrica está adaptado al currículo nacional y se diseñó tomando como referente el PEP 2017. Ello ofrece la ventaja de utilizar el mismo lenguaje pedagógico que las educadoras, lo que significa, por una parte, que no es un contenido disruptivo y, por otra, se capitaliza que las educadoras están formadas en el currículo y orientan su práctica docente a partir de este. La enseñanza es una acción sistémica, dependiente del contexto, por lo que la consideración de este en las evaluaciones condiciona necesariamente su validez (Jornet, Perales y González, 2020).
La rúbrica permite evaluar de forma equilibrada los distintos contenidos del currículo, por ejemplo, se da más prioridad a la oralidad, la cual está representada con mayor relevancia en el currículo (SEP, 2017). Por una parte, la rúbrica vincula cada uno de los ítems a alguno de los aprendizajes esperados del programa; asimismo, desglosa los aprendizajes esperados en indicadores identificables y gradados por nivel de desempeño. De esta manera, se evita el error de concentrarse en la evaluación de aspectos de la lengua escrita: lectura y escritura.
El instrumento, al ser una rúbrica, posibilita evaluar desempeños como las competencias que espera desarrollar el PEP 2017. Para el instrumento, diseñamos una rúbrica del tipo analítica y general (Arter, 2010), es decir, que es aplicable en diversos desempeños de los niños, por lo que no se requiere que las educadoras implementen tareas evaluativas específicas. Además, las rúbricas son un instrumento capaz de promover el aprendizaje de niños y niñas, pues posibilitan dos acciones necesarias para la evaluación formativa: reconocer el desempeño actual de los alumnos y orientar respecto a desempeños subsiguientes sobre el que ellos pueden avanzar (Andrade, Bennett & Cizek, 2019; Arter, 2010; Black & William, 2018; Hattie & Timperley, 2007; Martínez, 2012a, 2012b).
Consideramos una fortaleza que la evaluación se realice por la educadora, ya que su incorporación ayuda a incrementar la precisión. Ella es quien conoce el rendimiento general del alumno a partir de que hace un monitoreo y seguimiento de las actividades de los niños. Por una parte, como vimos en la introducción de este artículo, se evita el sesgo de un evaluador externo (Leyva, 2011; Moreno, 2015). La aplicación de instrumentos basados en rúbricas por docentes de preescolar ha sido utilizada por otros instrumentos de evaluación (López & Willms, 2020; Marín, Guzmán y Castro, 2012; Willms, 2018) y su incorporación es recomendada como uno de los principios de evaluación para los menores de seis años (Shepard et al., 1998). Algunas investigaciones han encontrado que las evaluaciones de los docentes mediante instrumentos basados en rúbricas tienen valores similares a los aportados por evaluadores externos (Willms, 2014), lo cual indica que las evaluaciones con base en rúbricas administradas por docentes pueden tener resultados relativamente confiables.
De igual modo, el instrumento incorpora características que contribuyen a la fácil asimilación y aplicación por el propio docente. Su diseño tiene una cantidad manejable de ítems, y la facilidad de poder aplicarlo en distintas situaciones pedagógicas, asignaturas y de forma gradual. Además, su versión impresa y en línea pueden utilizarse en conjunto o por separado; la ventaja de la aplicación en línea estriba en que es capaz de resguardar los datos y proveer informes de los resultados en formato individual. A futuro, se espera generar informes por grupo, escuela, zona o municipio. En este sentido, el docente tiene acceso a los informes de resultados inmediatamente al término de la evaluación, lo que, de acuerdo con el INEE (s.f.), contribuye a incrementar la posibilidad de que docente y alumno se beneficien de sus propios resultados.
Evidencias de validez basadas en el contenido
De forma general, para sustentar el instrumento, creamos elementos que son considerados por la AERA/APA/NCME (2014) como fuentes de evidencia de validez de contenido: estructura de la rúbrica, operacionalización de las variables, especificaciones de contenido y jueceo de la operacionalización de las variables y de la rúbrica. Respecto al jueceo de la rúbrica, se obtuvieron coeficientes calificados de buenos a excelentes para cada uno de los ítems (Hernandez-Nieto, 2011).
Una de las estrategias principales de esta investigación consistió en focalizar los esfuerzos en obtener evidencias de validez del contenido, ya que dentro de la literatura estas se reconocen como un requisito previo a la adquisición de evidencias de cualquier otro tipo (AERA/APA/NCME, 2014; Vogt, King & King, 2004). Sin embargo, este requisito no siempre se cumple, y un ejemplo son los instrumentos publicados de 2000 a 2010 en la revista Journal of Educational Psychology, pues solo el 16% de los artículos concernientes a la construcción de instrumentos reportaron evidencias referentes a aspectos de contenido (Collie & Zumbo, 2014).
Aunado a lo anterior, acorde con los señalamientos de Brijmohan et al. (2018), dedicamos esfuerzos para asegurar que los expertos participantes en el proceso de diseño y de valoración de la rúbrica contaran con la pericia necesaria en evaluación, diseño de instrumentos y en el contenido. Asimismo, buscamos que tuvieran discernimiento de los conocimientos y las habilidades propuestos en el currículo mexicano, en la teoría subyacente y experiencia práctica respecto a los aprendizajes y dificultades de los estudiantes, así como la relación de estos aspectos con sus conocimientos y habilidades. Según Jornet, González y Suárez (2010), el dedicar especial atención a la conformación de los comités dota de credibilidad y utilidad al instrumento desarrollado.
Evidencias de validez basadas en la estructura interna
Esta fuente de evidencia se obtuvo a través del análisis de confiabilidad de alfa de Cronbach y del AFE, que arrojaron un coeficiente de confiabilidad de 0.944 y un factor único que explica más del 76% de la varianza de los puntajes alcanzados. En el campo de las ciencias sociales, ambas cifras son consideradas como altas (Morales, 2013).
En este trabajo presentamos dos fuentes de validez que respaldan el instrumento desarrollado para los usos pretendidos. Cabe mencionar que solo el 21% de los instrumentos publicados en la revista Journal of Educational Psychology entre 2000 y 2010 reportaron esta cantidad de fuentes (Collie & Zumbo, 2014). Por su parte, el 62% de los instrumentos de evaluación del lenguaje hacen explícitos datos sobre confiabilidad; sin embargo, no todos los artículos atendieron apropiadamente los criterios establecidos en la literatura. Asimismo, apenas el 54% mostraron información referente a aspectos de confiabilidad y validez (Castro y Neira, 2008).
Limitaciones
Para dar mayor soporte a los usos pretendidos del instrumento: formativo y de seguimiento de tendencias, será necesario que se generen dos tipos adicionales de evidencias de validez: del proceso de respuesta y de las consecuencias. Sobre el primero, es deseable que se determine el grado de asociación que tiene el instrumento cuando este es aplicado por un evaluador externo y la educadora frente a grupo. Ello implicaría tener observadores en aula para identificar los desempeños de los alumnos. Además, se requiere identificar el empleo que las educadoras hacen de los resultados, en específico si se utilizan para un uso formativo: de retroalimentación a los alumnos y de modificación de las prácticas docentes, así como si existen consecuencias no deseadas a partir del uso del instrumento.
Es necesario que el desarrollo de instrumentos de evaluación incorpore la perspectiva cualitativa en su diseño. La construcción de este instrumento privilegió el análisis documental y el trabajo con jueces expertos. Se pudo enriquecer con otras perspectivas cualitativas, por ejemplo, de la observación en el aula y la perspectiva de las educadoras en su experiencia de uso del instrumento. Con base en las necesidades emergentes durante este estudio, reconocemos la pertinencia de metodologías mixtas (Creswell & Creswell, 2018) para el desarrollo de instrumentos de evaluación, en especial para aquellos con una lógica similar al aquí propuesto.