I. Introducción
Los estudios sobre instrumentos en forma de test o cuestionarios que posibiliten la evaluación objetiva y en ocasiones hasta estandarizada del aprendizaje (fundamentalmente conceptual) logrado por los alumnos que reciben cursos de Física, desde la aparición del trabajo de Hestenes (1992), que constituyó un hito en este ámbito, han sido de considerable interés para una amplia gama de profesores que se empeñan en el perfeccionamiento de la enseñanza y el aprendizaje de esta disciplina (Adams et al., 2006; Beichner, 1994; Ding, Chabay, Sherwood y Beichner, 2006; Engelhardt y Beichner, 2004; Hake,1998; Hill Sharma, O’Byrne y Airey, 2014; Maloney, O’Kuma, Hieggelke y Van Heuvelen, 2001; Redish, 2003; Redish, Saul y Steinberg, 1998; Singh y Rosengrant, 2003; Thornton y Sokoloff, 1998).
Entre las áreas del contenido académico de la Física que desde la anterior perspectiva han sido más investigadas se encuentran la Mecánica (Beichner, 1994; Singh y Rosengrant, 2003; Thornton y Sokoloff, 1998) y el Electromagnetismo (Ding et al., 2006; Engelhardt y Beichner, 2004; Maloney et al., 2001). El área de la Física cuántica (o Física moderna) ha sido la menos estudiada en este sentido.
Knight (2003) ha planteado que el conocimiento sobre Física aprendido por los estudiantes es clasificable en tres tipos fundamentales: factual, conceptual y procedimental. Otros investigadores (Bacon y Stewart, 2006; Conway, Cohen y Stanhope, 1992) afirman que el factual no se conserva más allá de un año luego de culminar el curso que se tomó; mientras que investigaciones basadas en tests conceptuales de Física (Francis, Adams y Noonam, 1998; Kohlmyer et al., 2009; McDermoth, Shaffer y Constantinon, 2000; Pollock, 2009) defienden que la durabilidad del conocimiento conceptual aprendido resulta mayor que la del factual. El estudio de Deslauriers y Wieman (2011), apoyado en un test rigurosamente validado, arrojó que los conceptos de Mecánica cuántica aprendidos por estudiantes se muestran prácticamente iguales al cabo de año y medio de culminado el curso; a la vez que se constató que dicho resultado es casi insensible al método de enseñanza usado.
El instrumento sobre visualización de la Mecánica cuántica desarrollado por Cataloglu y Robinett (2002) y retomado por Robinett (2004), cuenta con una formulación rigurosa, pero tiene la limitante de resultar muy complejo para el estudiante universitario con rendimiento promedio, pues la mayor parte de sus preguntas se corresponden con aspectos de la Mecánica cuántica que se imparte en cursos que no son de nivel introductorio (junior-level), sino de niveles avanzados (senior o graduate-level).
El instrumento reportado por Singh (2008) sí va dirigido a evaluar el aprendizaje acerca de los procesos cuánticos que logran estudiantes del nivel inicial de ciertas carreras, pero las principales limitaciones de este trabajo son: a) abarca mayoritariamente el tratamiento de la Mecánica cuántica a través de la formalización de Schrödinger, aspecto que sólo constituye una parte de los cursos de Física cuántica de nivel introductorio que típicamente reciben los estudiantes universitarios de ingeniería, y b) hace uso de preguntas abiertas, que en general resultan valiosas pero no convenientes para conformar medios de evaluación que se pretende convertir en instrumentos tipificados en cuanto a interpretación y calificación.
El test conceptual sobre Física cuántica de Wuttiprom (2009), aunque de valor, revela como principal limitación que abarca un área de contenidos académicos relativamente estrecha, pues evalúa sólo los conceptos relacionados con el efecto fotoeléctrico y con la dualidad corpuscular-ondulatoria de la materia.
El más satisfactorio de los tests revisados es el de McKagan (2010), un test conceptual sobre Mecánica cuántica con una composición temática amplia que ha sido aplicado tanto a estudiantes de ingeniería como a alumnos de la carrera de Física que han recibido cursos de Física moderna de nivel introductorio en la Universidad de Colorado, y ha mostrado buenos resultados en los análisis psicométricos que se le han realizado. No obstante, dadas las diferencias que imponen los diversos contextos socioculturales (profesores, estudiantes, recursos tecnológicos, etc.), así como los aspectos de idioma y comunicación propios del instrumento evaluativo empleado, en ese trabajo se destaca la conveniencia de que se repitan investigaciones análogas en otros contextos, eso motivó en parte el presente trabajo.
Teniendo en cuenta el análisis precedente, se consideró que no se había reportado aún el estudio de algún instrumento lo suficientemente adecuado para la evaluación del aprendizaje conceptual logrado por los estudiantes al término de cursos de Física cuántica de nivel introductorio que típicamente reciben los estudiantes de ingeniería en países latinoamericanos. Lo impartido en dichos cursos no equivale al que generalmente lleva el nombre de Física moderna (donde se incluye el estudio de la Teoría Especial de la Relatividad), ni tampoco a un curso formalizado de Mecánica cuántica (con su lenguaje de operadores, etc.). Un curso de Física cuántica de nivel introductorio incluye los experimentos y conceptos que constituyeron la génesis de la actual Física cuántica, así como las ideas más generales o conceptos que subyacen a la Mecánica cuántica formalizada con las aportaciones de Schrödinger y Born (y no contempla correcciones relativistas, como las manejadas por Dirac para los electrones); con estos recursos los estudiantes pueden lograr un tratamiento preciso de muchos fenómenos de la escala atómica y subatómica que subyacen al saber actual en ingeniería.
Partiendo de lo anterior, el objetivo central de este estudio fue elaborar un test que revele adecuados niveles de validez y confiabilidad al evaluar el aprendizaje conceptual esencial de la Física cuántica introductoria en estudiantes que cursan carreras de ingeniería en un país hispanoamericano, como lo es Cuba. Desde la perspectiva metodológica de la elaboración de tests, entre las cualidades más importantes que deben caracterizar a un instrumento de evaluación para emplearse en investigaciones como las educacionales, se encuentran sus propiedades psicométricas, expresadas a través de adecuados niveles de validez y confiabilidad (Hernández, Fernández y Baptista, 2010).
Entre los tipos fundamentales de validez (medir realmente lo pretendido) se encuentran: a) validez de contenido (refleja si el instrumento abarca suficientes elementos del asunto que pretende evaluar), y b) validez de constructo (expresa la correspondencia entre la estructura de conceptos y relaciones que maneja el instrumento analizado y sus análogos en el marco teórico de la ciencia de respaldo). Por otro lado, la confiabilidad (o fiabilidad) de un instrumento caracteriza la estabilidad y precisión de los resultados al aplicarlo en muestras equivalentes, y entre las principales formas de evaluarla se encuentran: a) correlación entre los ítems y los puntajes globales en el instrumento, y b) correlación entre todos los ítems.
Para estimar la validez y la confiabilidad del instrumento elaborado en esta investigación se emplearon técnicas y criterios provenientes de la llamada Teoría Clásica de los Tests, que cuenta con un alto nivel de aceptación internacional (Arnau, 2011; Ding et al., 2006; Godino, et al., 2015; Kline, 1986; Marín y Benarroch, 2010; McKagan, 2010; Montero et al., 2015; Ornelas, Gastélum, Blanco y Peinado, 2014; Venter, 2006; Vilanova, García y Señoriño, 2007; Wittiprom, 2009).
II. Método
El enfoque investigativo aplicado fue de tipo transversal y descriptivo, y el accionar práctico se compuso de dos etapas fundamentales: a) la de conformación inicial del instrumento pretendido, con estimación de validez de contenido; y b) la de valoración de las principales características psicométricas reveladas por la aplicación del instrumento a la muestra elegida de estudiantes de ingeniería, con estimación de discriminación, de confiabilidad y de validez de constructo, sustentada esta última en el uso de análisis factorial exploratorio. Se utilizó el programa estadístico SPSS v.18.
En calidad de especialistas participaron nueve profesores vinculados a la enseñanza de la Física para ingeniería, cinco procedentes de la Universidad de Camagüey (UC) y el resto de la Universidad Autónoma de Nuevo León (UANL), de México, con la cual la UC ha mantenido vínculos de intercambio académico y científico durante más de 20 años.
La muestra generadora de datos se compuso de 456 estudiantes de cuatro carreras de ingeniería. El 57% de la muestra representó al sector masculino, y la edad promedio en 19 años. El test se aplicó en la última semana lectiva del curso de Física. El 98% de los participantes completó el test en un tiempo no superior al previsto (30 minutos).
Los instrumentos de evaluación publicados elegidos como referentes del test a elaborar fueron el de Wuttiprom (2009) y McKagan (2010). La versión publicada en inglés de estos instrumentos fue traducida al español por un profesional. Analizamos ambos instrumentos y relacionamos los temas y preguntas con los aspectos identificados previamente como constituyentes de un aprendizaje conceptual esencial de la Física cuántica introductoria que se imparte en el contexto de interés (Cuba). Estos criterios fueron obtenidos a través de la revisión de sílabos establecidos para cursos de Física cuántica para ingeniería en Cuba, México, República Dominicana y Panamá, entre otros; y del análisis de libros utilizados por los estudiantes de los países citados (Goldin y Nóvikova, 1990; Halliday, 1992; Savéliev, 1984; Sears, Zemansky, Young y Freedman, 1996; Serway y Beichner, 1993).
También se consideraron importantes aspectos incluidos en trabajos publicados sobre la comprensión conceptual de la Física cuántica de nivel universitario, tales como: a) relación entre la amplitud y la longitud de onda de la función de Schrödinger, según el tipo de función de energía potencial existente (Ambrose, 1999; Bao,1999; Sadaghiani, 2005); b) comportamiento energético de las ondas que experimentan el llamado efecto túnel cuántico (Falk, 2004; Morgan, Wittmann y Thompson, 2003); c) controversias epistemológicas relevantes sobre la Mecánica cuántica, que aún en la actualidad se manifiestan (Morones, 2005), y d) dificultades sobre fenómenos cuánticos que se presentan en libros y profesores del nivel educativo del bachillerato (Sinarcas y Solbes, 2013).
El análisis condujo a que el presente trabajo concluyera que el aprendizaje conceptual esencial de la Física cuántica introductoria que deben alcanzar los estudiantes de ingeniería en latinoamérica, y que constituye la variable central que intenta evaluar el test conformado, equivale al dominio por parte de los estudiantes del sistema conceptual de las temáticas siguientes: a) Efecto fotoeléctrico, b) Modelo atómico de Bohr, c) Longitud de onda de De Broglie, d) Relaciones de Heisenberg, y e) Elementos claves de la Mecánica cuántica básica según el formalismo de Schrödinger. Por su riqueza y trascendencia estos contenidos propician en alta medida el aprendizaje pretendido y, por tanto, se toman como fuentes para generar los ítems del test a conformar. Cabe destacar que estas temáticas también fueron utilizadas en al menos uno de los tests que constituyen los más cercanos antecedentes del presente trabajo (McKagan, 2010; Wuttiprom, 2009).
La primera versión del test, conformado por ítems dicotómicos de cuatro opciones de respuesta -y etiquetada como QPCT-UC-1.0- se sometió al análisis del equipo de profesores experimentados en Física. El coeficiente de concordancia de Kendall para la valoración que ellos hicieron de cada ítem tuvo un valor mínimo de 0.86. Esto condujo a una versión del test compuesto por 11 ítems (dos de Efecto fotoeléctrico, dos del Modelo de Bohr, dos sobre Longitud de onda de De Broglie, dos de Relaciones de Heisenberg y, tres sobre Elementos clave de la Mecánica cuántica básica según el formalismo de Schrödinger). Se sometió entonces el test a una prueba de comprensión por parte de seis estudiantes de ingeniería que recién habían aprobado la materia de Física cuántica (tres con altas calificaciones y tres con bajas). En las entrevistas individuales no surgió nada que hiciera cambiar la versión del test. Esta versión del test se etiquetó como QPCT-UC-1.1 (ver Anexo I) y se consideró que el proceso anterior, de consulta a profesores y estudiantes, es un satisfactorio respaldo a la validez de contenido del test diseñado.
III. Resultados
El índice de dificultad (P) calculado para cada uno de los ítems del test, y concebido como la proporción de respuestas acertadas que se produce en cada uno de ellos, se presenta en la figura 1.
El índice de discriminación (D) para cada uno de los ítems del test, entendido como la capacidad de cada reactivo de distinguir entre los estudiantes bien y mal preparados en el asunto que evalúa, se presenta en la figura 2, donde vale aclarar que los cálculos se realizaron con el 25% de la muestra, tanto del lado de las calificaciones más altas en el test, como del de las más bajas.
El coeficiente puntual biserial (RPBS) para cada uno de los ítems del test, considerado como una medida de homogeneidad obtenida por correlación entre los puntajes que arroja el ítem y los puntajes totales que arroja el test, se presenta en la figura 3.
Después se realizaron los cálculos de los dos índices siguientes: la delta de Ferguson (δ), concebida como expresión del poder discriminatorio que reporta el puntaje total del test al ser respondido por estudiantes bien y mal preparados, reportó un valor de 0.94; y el alfa de Cronbach, medida de fiabilidad del test obtenido a partir del grado de consistencia interna que se revela por vía de la correlación entre componentes del test, reportó un valor de 0.89.
Para valorar la unidimensionalidad del constructo medido a través de los ítems del test se ejecutó un análisis factorial exploratorio. La viabilidad que presentaban los datos para ejecutar tal análisis factorial se juzgó inicialmente. El índice de Kaiser-Meyer-Olkin (KMO) reportó 0.788 y la esfericidad de Bartlet arrojó 0.001, por lo que se consideró viable el referido análisis.
Como técnica de extracción de factores se empleó la de Componentes Principales y para decidir el número de componentes a retener se manejaron los siguientes criterios: a) Kaiser (autovalores superiores a 1); b) gráfico de sedimentación de Cattel (factores previos al cambio apreciable de inflexión de la pendiente); c) valores de las cargas con que los ítems o variables analizadas saturan en los factores, y d) valor del porcentaje acumulado de la varianza explicada. En la tabla I se muestran las cargas factoriales de los ítems en el primer y único factor que se retuvo, por lograrse con él todos los requisitos antes mencionados, incluyendo que las cargas citadas resultaran superiores a 0.3 y, además, que se produjera un acumulado de varianza explicada del 41.43%.
Los resultados anteriores condujeron a reconocer la existencia de una sola dimensión subyacente; o sea, que todos los reactivos tributan a la evaluación de un constructo global que -según se argumentó inicialmente- es el aprendizaje conceptual esencial de la Física cuántica introductoria a lograr por estudiantes de ingeniería del ámbito hispanoamericano, como es el caso de los cubanos. La unidimensionalidad detectada hizo innecesario el uso de la técnica de rotación de factores.
IV. Discusión y conclusiones
Por cuanto el test conformado en esta investigación utiliza parcialmente elementos relacionados con dos importantes antecedentes publicados (McKagan, 2010; Wuttiprom, 2009), se considera oportuno comparar aspectos afines manejados por estos tres instrumentos, como se presenta a continuación.
Atendiendo al índice de dificultad de cada reactivo, en el QPCT-UC-1.1 se obtiene que lo más complicado para los estudiantes es el tema de Efecto Fotoeléctrico, con un promedio en sus preguntas de 0.34; mientras que lo más simple para ellos es lo relacionado con la Longitud de onda de De Broglie, con promedio en esas preguntas de 0.86. Estos resultados resultan satisfactorios, ya que como es comprensible, en cualquier test los valores de este índice no deben quedar muy cercanos ni a 0 ni a 1 y, además, según lo recomendado, P debe estar entre 0.3 y 0.9 (Doran, 1980, p. 97). Un desempeño semejante ha sido también revelado tradicionalmente por este tipo de estudiantes de ingeniería a través de las evaluaciones parciales que usualmente ellos reciben como parte del curso de Física cuántica. Las preguntas sobre las Relaciones de Heisenberg revelaron un índice de dificultad promedio de 0.49, que se corresponde en buena medida con el valor homólogo de Wuttiprom (2009), que es de 0.50. Para las preguntas sobre la Mecánica cuántica formalizada se obtuvo un promedio de dificultad de 0.60, el que también se aproxima en buena medida al valor homólogo de 0.59 reportado por McKagan (2010).
Con respecto al índice de discriminación de cada ítem, se destaca positivamente que todos los reactivos del QPCT-UC-1.1 revelaron valores no inferiores al valor umbral de 0.3 para D que se recomienda (Doran, 1980, p. 99), pues en los trabajos antecedentes más cercanos (McKagan, 2010; Wuttiprom, 2009) algunos de los ítems incluidos en los tests manejados obtuvieron valores inferiores al citado umbral. El valor promedio del índice de discriminación para todo el instrumento QPCT-UC-1.1 fue de 0.38, lo cual se considera aceptable en tanto se encuentra incluido dentro del intervalo conformado por los valores homólogos de 0.35, reportado por Wuttiprom (2009) y de 0.41 reportado por McKagan (2010). También se manifiesta la relación comprensible reportada por Wuttiprom (2009) de que las preguntas con menor poder discriminatorio coinciden en ser las de más altos índices de dificultad, lo cual en este caso hace referencia a las relacionadas con la Longitud de onda de De Broglie.
También para el índice puntual biserial se puede resaltar que todos los reactivos del QPCT-UC-1.1 presentan valores superiores a 0.3, la cifra umbral de rpbs recomendada (Kline, 1986, p. 143), pues en importantes trabajos de este tipo (McKagan, 2010; Wuttiprom, 2009) tal condición no ha sido satisfecha plenamente. El valor promedio de este índice para todo el QPCT-UC-1.1 fue de 0.37, lo que se considera adecuado debido a que coincide con el reportado por McKagan (2010) y es superior al 0.28 alcanzado por Wuttiprom (2009).
La Delta de Ferguson y el alfa de Cronbach, como estadígrafos que caracterizan cualidades que revela el test en su totalidad, también arrojaron valores satisfactorios. La delta alcanzó 0.94, lo que sobrepasa el umbral de 0.9 recomendado para delta (Kline, 1986, p 144), además de ubicarse dentro del intervalo conformado por los valores homólogos de 0.93 reportado por McKagan (2010) y de 0.97 reportado por Wuttiprom (2009). El alfa de Cronbach, aunque no alcanza un valor tan alto como el 0.97 de Wuttiprom (2009), logró un 0.89 que supera claramente el umbral de 0.7 que se recomienda (Doran, 1980, p. 104).
Los diferentes análisis cualitativos y estadísticos aplicados al instrumento elaborado en este trabajo (QPCT-UC-1.1) revelan que dicho test cumple los requisitos de validez y confiabilidad que suelen manejarse en la literatura científica para este tipo de medio evaluativo del aprendizaje conceptual de estudiantes, por lo que se alcanzó el objetivo previsto en la investigación y se aporta una herramienta de valor para profesores de la Física de ingeniería en hispanoamérica.
Una posible tarea subsiguiente consiste en refinar la formulación de las dos preguntas del test (5 y 6) que arrojaron poderes discriminatorios que parecen algo mejorables.
Desarrollos más recientes dentro de la teoría de tests, como la Teoría de Respuesta a los Ítems, ofrecen un tratamiento todavía más riguroso de algunos aspectos de los aquí tratados (Leyva, 2011; Martínez y Herrera, 2014; Palacios, 2014), pero siempre bajo la condición de utilizar muestras relativamente grandes, lo que equivale a proyectos investigativos considerablemente amplios que requieren de un significativo respaldo económico.