1. Introducción
Los cursos en línea, también conocidos como e-learning, gradualmente han permeado en el ámbito educativo moderno. Este tipo de materiales educativos poseen el potencial de llegar a un gran número de personas que pueden beneficiarse del acceso fácil a un conocimiento de calidad. Un ejemplo de estas tecnologías son los cursos en línea masivos abiertos, coloquialmente conocidos como MOOCs por sus siglas en inglés (Massive Open Online Courses). En este tipo de entornos, una gran cantidad de estudiantes pueden aprender remotamente del material y avanzar a su ritmo, con la posibilidad de ser evaluados dentro del mismo entorno.
En cualquier sistema de aprendizaje en línea es vital que el material sea de calidad para que el aprovechamiento de los alumnos sea maximizado. Sin embargo, muchas veces los materiales de e-learning son estandarizados e idénticos para todos los estudiantes. En la gran mayoría de las ocasiones no se considera adaptar el material en caso de que el estudiante ya tenga conocimientos previos acerca del tema. En estas situaciones el alumno avanzado tiene que limitarse a aprender con el mismo material que el resto de los estudiantes. Esto suele ser perjudicial, ya que un alumno con conocimientos previos se comporta de manera distinta a un alumno neófito [1] y puede llegar a perder interés en el material, ya que los alumnos con un nivel más avanzado de lo usual, manifiestan expectativas de conocimientos nuevos como prioridad al participar en cursos en línea [2].
Además de esto, existe un factor aún más relevante que la presencia de conocimientos previos que afecta el aprovechamiento de los materiales educativos: los llamados "estilos cognitivos". Existen diferencias individuales entre los alumnos, por lo que no hay un método instruccional adecuado para todos [3]. Entre las diversas diferencias individuales, los estilos cognitivos son particularmente importantes porque afectan los hábitos de procesamiento de información de una persona, lo que refleja el modo preferido de un individuo de percibir, pensar, recordar y solucionar problemas [4]. En otras palabras, los individuos procesan la información de manera diferente de acuerdo con la tendencia de estilo de aprendizaje que presentan.
Los estilos cognitivos se refieren al enfoque coherente de cada individuo de procesar y organizar la información [5]. La investigación existente ha indicado que los estilos cognitivos influyen en el aprendizaje [6]. En el pasado, este tipo de investigación se centró en el campo de dependencia/independencia propuesto por Witkin et al. [7].
Trabajos más recientes han tratado de cambiar a otras dimensiones de estilos cognitivos [8,9,10]. Por ejemplo, el estilo holista/serialista se considera como otra dimensión influyente [11,12]. Las diferencias entre holistas y serialistas se enumeran en la Tabla 1.
Holistas | Serialistas |
---|---|
Adoptan un enfoque global y rápidamente crean vínculos conceptuales entre objetos. |
Adoptan un enfoque analítico, examinando conceptos individuales antes de vincularlos. |
Son capaces de alternar entre la teoría y ejemplos prácticos desde el inicio. |
Analizan la teoría o los ejemplos prácticos por separado. Solo los juntan si es necesario. |
Visión amplia. Prefieren estar ocupados en múltiples tareas simultáneas. |
Visión enfocada. Prefieren completar una tarea antes de pasar a la siguiente. |
Procesan la información de lo general a lo particular. |
Procesan la información de lo particular a lo general. |
En la última década, varios estudios encontraron que los holistas y serialistas demuestran diferentes comportamientos de aprendizaje. En [9], los autores investigaron las preferencias de los estudiantes para el uso de los motores de búsqueda desde una perspectiva de estilo cognitivo. Se encontró que los holistas prefieren múltiples opciones, pero los serialistas no demostraron tal preferencia. Más tarde, estos autores llevaron a cabo otro estudio que examina la relación entre los estilos cognitivos y las preferencias de los estudiantes para el aprendizaje basado en la web (WBL).
Los resultados mostraron que los holistas tuvieron mayores problemas en el uso de los botones adelante/atrás que los serialistas [10].
Los factores antes mencionados ponen en evidencia la necesidad de identificar el estilo de aprendizaje de cada estudiante para adaptar a sus necesidades la forma de presentación de los conceptos que componen un curso en línea, así como para detectar a aquellos estudiantes que ya tienen familiaridad con el tema y, por ende, necesitan de material más avanzado. Resolver estos problemas posibilitaría desarrollar materiales de aprendizaje en línea que se ajusten a las necesidades particulares de cada estudiante [1].
Por lo tanto, es importante desarrollar una forma de identificar automáticamente el estilo de aprendizaje y la presencia de conocimientos previos en un estudiante de un curso en línea. En este trabajo se propone el uso de tecnologías de monitoreo no invasivo para encontrar patrones en las señales fisiológicas de los alumnos que los identifiquen como pertenecientes a un determinado estilo de aprendizaje y evidencien si poseen conocimientos previos sobre el tema.
En concreto, se propone realizar una clasificación automática usando señales electroencefalográficas, así como de ritmo cardiaco, respuesta galvánica de la piel y temperatura corporal, de los estudiantes, obtenidas por medio de los dispositivos Emotiv EPOC y Microsoft Band 2, mientras participan en un curso en línea. Se decidió utilizar estos dos dispositivos debido a su disponibilidad comercial y relativo bajo costo.
Los métodos de clasificación automática propuestos en este trabajo son dos que han resultado eficaces en el campo de e-learning y en otros dominios de aplicación: las redes neuronales artificiales (RNA) [13,14] y las máquinas de vector de soporte (MVS) [15,16].
A pesar de que el objetivo principal es identificar patrones en las señales fisiológicas que permitan clasificar a los alumnos de acuerdo con su estilo de aprendizaje y su nivel de conocimientos previos, en este trabajo se exploran dos tareas de clasificación adicionales para investigar el potencial de este tipo de señales fisiológicas como predictores del género del estudiante y la clasificación del tipo de actividad que realiza (lectura vs. respuesta de preguntas).
La principal contribución de este trabajo es demostrar que las señales fisiológicas generadas por usuarios de herramientas de aprendizaje en línea contienen información relevante acerca de las características de dichos estudiantes y que esa información puede ser extraída automáticamente por medio de algoritmos de aprendizaje de máquina.
El resto de este artículo se estructura de la siguiente manera: la Sección 2 ofrece un resumen de los trabajos relacionados relativos al uso de señales electroencefalográficas con énfasis en el uso del Emotiv EPOC para resolver problemas de e-learning y otros dominios. De la misma forma, se revisan trabajos que hayan aplicado los clasificadores usados en esta investigación a otros problemas de e-learning. Posteriormente, la Sección 3 detalla las características del entorno experimental, el cual incluye a la población estudiada, los dispositivos usados, la estructura del curso, el tratamiento de los datos recabados en el experimento, así como la descripción de los distintos modelos de clasificación. La Sección 4 muestra los resultados de los experimentos y ofrece una discusión acerca de estos. Después, la Sección 5 ofrece una reflexión acerca de las implicaciones de los hallazgos de esta investigación con un enfoque a mejorar el aprendizaje en línea. Finalmente, la Sección 6 describe líneas de investigación a futuro sobre la base de este trabajo.
2. Trabajos relacionados
La presente investigación tiene como ejes centrales el uso de dispositivos no invasivos para obtener señales electroencefalográficas (EEG), y el uso de redes neuronales artificiales (RNA) y máquinas de vector de soporte (MVS) para predecir diversos aspectos de los estudiantes de un curso en línea, a partir de su respuesta fisiológica. A continuación, se menciona un resumen de trabajos relacionados con los ejes centrales de esta investigación.
El uso de señales electroencefalográficas (EEG) para resolver problemas en el campo del aprendizaje en línea ha tenido gran aceptación y éxito en la última década. Por ejemplo, en [17], los autores emplearon señales EEG para identificar conceptos relacionados semánticamente, a partir de los cambios en las señales de los sujetos al pensar en dichos conceptos. Las señales EEG no sólo se han usado para modelar conceptos, sino que también se les ha dado uso como predictores. En [18] los autores midieron señales EEG y las clasificaron usando redes neuronales artificiales (RNA) para identificar autismo en niños. Dentro del ámbito del aprendizaje en línea, en [19] los autores mostraron que es posible predecir si el sujeto responderá verdadero o falso en las preguntas de un cuestionario a partir de señales EEG. En [20] se utilizaron señales EEG tomadas con un dispositivo NeuroSky que fueron clasificadas usando una máquina de vectores de soporte (MVS) para detectar el nivel de atención de estudiantes en un curso en línea. Otra aplicación interesante de las señales EEG se muestra en [21], donde son utilizadas como un método biométrico para identificar personas.
El dispositivo Emotiv EPOC utilizado en el presente trabajo ha sido empleado en años recientes para obtener señales EEG confiables en una diversa gama de aplicaciones. Por ejemplo, los autores de [20] desarrollaron un sistema basado en el EPOC y un Kinect para controlar una silla de ruedas a través de una interfaz cerebral. De manera similar, en [23] se empleó el Emotiv EPOC para controlar remotamente un robot. Este dispositivo fue utilizado por los autores de [24] para analizar los cambios en las señales cerebrales de las personas al inducirles tristeza en un entorno de realidad virtual. Una instancia más del uso del EPOC en la investigación puede apreciarse en [25], donde se usó en conjunto con un sistema de monitoreo ocular para analizar el comportamiento de los sujetos ante la presencia de estímulos mercadológicos.
Los clasificadores utilizados en este trabajo, las RNA y las MVS, han sido ampliamente utilizadas en una multitud de dominios de aplicación. En esta revisión nos limitamos a mencionar algunas aplicaciones relacionadas al campo del aprendizaje en línea y la educación asistida por computadora.
Las RNA fueron empleadas en [26], junto con otros clasificadores, para predecir el desempeño de los alumnos en un curso en línea; mientras que en [27], las emplearon para ayudar a diseñar cursos de e-learning personalizados de acuerdo con las características de los estudiantes. En [28], los autores hicieron uso de las RNA para predecir el desempeño de los alumnos en un curso de inglés como lengua extranjera.
Las MVS también han mostrado buen desempeño en varias aplicaciones. Por ejemplo, en [29] los autores utilizaron las MVS para mejorar el desempeño de sistemas de e-learning inteligentes, mientras que en [30] usaron este modelo de clasificación para lograr un buen desempeño en el reconocimiento de expresiones faciales en un sistema de aprendizaje en línea. Un trabajo que emplea ambos modelos usados en la presente investigación puede verse en [31], donde se utilizaron RNA, MVS y otros modelos para predecir qué alumnos no terminarán un curso en línea.
Es preciso mencionar las principales diferencias entre los trabajos anteriormente mencionados y el presente trabajo. En primer lugar, estos trabajos no emplearon señales EEG y fisiológicas para realizar la clasificación, sino que se valieron de atributos demográficos y de que los alumnos contestaran cuestionarios para obtener sus datos de entrada; o monitorearon y registraron las actividades que realizaban los estudiantes durante el curso. Esta diferencia es importante, puesto que las respuestas a un cuestionario o la observación y el registro de actividades no son tan confiables como las señales EEG: un usuario fácilmente puede mentir o comportarse atípicamente a propósito, mientras que sería sumamente difícil que alterara conscientemente sus señales fisiológicas. Otra diferencia notable es que ninguno de estos trabajos intenta resolver la identificación del género del estudiante, la presencia de conocimientos previos, o trata de distinguir automáticamente el tipo de actividad realizada por la persona que está tomando el curso.
La predicción de los estilos de aprendizaje también ha sido un tema popular en el campo de la clasificación automática aplicada al ámbito educativo. Por mencionar algunos trabajos, en [32] se usó el algoritmo del vecino más cercano y algoritmos genéticos para predecir estilos de aprendizaje, mientras que en [33] hicieron uso de RNA alimentadas con las respuestas de un cuestionario con el mismo propósito. Por otra parte, en [34] los autores usaron los estilos de aprendizaje para clasificar objetos de e-learning. Finalmente, en [35] los autores probaron algoritmos de minería de datos para mejorar sistemas de aprendizaje en línea a través de la predicción de los estilos de aprendizaje.
3. Metodología
3.1. Procedimiento de experimentación
El objetivo de la presente investigación consiste en capturar las respuestas fisiológicas del cuerpo humano cuando la persona participa en un curso en línea, y a partir de estas señales explorar si es posible predecir características y tendencias de los alumnos.
En concreto, en este trabajo se investigan cuatro preguntas independientes:
¿Hay una diferencia en las señales fisiológicas emitidas por sujetos masculinos y femeninos durante la participación en un curso en línea?
¿Existe alguna relación entre las señales cerebrales del alumno mientras aprende y el estilo de aprendizaje al cual es más afín?
¿Es posible identificar si un alumno ya tiene conocimientos previos acerca del tema por medio de las señales fisiológicas que emite al leer la información, o son similares a las de un neófito?
¿Existe una diferencia significativa entre las señales fisiológicas de un alumno cuando lee un material y cuando contesta un cuestionario? Si la respuesta es positiva, ¿es posible predecir qué actividad realiza a partir de sus señales fisiológicas?
Para dar respuesta a las preguntas planteadas y basándose en estudios anteriores que han tenido éxito en predecir cuestiones similares [19,20,32,36], se consideró monitorear la actividad eléctrica cerebral e incluir también variables fisiológicas obtenidas de diversos sensores. Dichos sensores se enumeran a detalle en la Sección 3.1.1.
Para la obtención de los datos, se invitó a participar a estudiantes de una escuela del área de Ciencias Físico-Matemáticas del nivel medio superior (años 10-12 de instrucción) del Instituto Politécnico Nacional. Los alumnos participaron en un curso en línea de programación básica en lenguaje Python. Los criterios de selección fueron: (a) edades de 15 a 18 años, (b) habilidades de computación básicas para utilizar la aplicación del curso en línea y (c) conocimientos básicos de programación. De acuerdo con estos criterios, de 95 aspirantes originales se seleccionaron a 50 alumnos para participar, divididos en 22 mujeres y 28 hombres. Tener un balance entre sujetos masculinos y femeninos fue necesario para contestar la pregunta número 1.
El experimento se realizó en tres sesiones (una cada semana). En la primera sesión, el participante firma la hoja de consentimiento (Figura 1b.), contesta el "Cuestionario de Preferencias de Estudio (SPQ)" (Figura 1c.) [37], y se le registra en el software del curso (Figura 1d.). Posteriormente, se le colocan los dispositivos de monitoreo (Figura 1e.) y contesta un cuestionario para identificar algún conocimiento previo (Figura 1f.). Finalmente, le son presentados los primeros tres subtemas y contesta los correspondientes tres mini cuestionarios de evaluación. Cada sesión subsecuente, consiste en tres subtemas con sus correspondientes evaluaciones cada uno. Todos los experimentos se desarrollaron en un ambiente controlado donde los sujetos de prueba se encontraban libres de distracciones externas. Los aspectos del curso y del experimento se resumen en las siguientes secciones.
3.1.1. Dispositivos empleados
Para medir las variables fisiológicas del sujeto durante el experimento, se emplearon: a) Emotiv EPOC1 (Figura 2-a), un dispositivo inalámbrico de 14 canales que permite la monitorización de señales de electroencefalografía (EEG) y b) Microsoft Band 22 (Figura 2-b), una banda inteligente de segunda generación con funciones de smartwatch desarrolladas por Microsoft, que incluyen: monitor de ritmo cardíaco, medidores de respuesta galvánica de la piel y temperatura corporal, acelerómetro en 3 ejes, girómetro, micrófono, sensor ultravioleta, GPS, sensor de luz ambiental, sensor capacitivo y barómetro.
3.1.2. Material educativo empleado
El tema que se eligió para desarrollar los experimentos fue el de programación básica en Python. Este tema fue seleccionado después de hacer una investigación de campo y concluir que es un lenguaje de programación que actualmente está teniendo una adopción creciente por alumnos y profesores en escuelas del Instituto Politécnico Nacional, así como por la academia y la industria en general. Por lo anterior, este material le resulta de interés a los estudiantes, obteniendo un motivo más para captar la atención del participante durante las pruebas.
Específicamente, las características del curso fueron las siguientes:
Los contenidos consisten en adaptaciones del curso Introduction to Programing with Python, ofrecido de manera gratuita en Microsoft Virtual Academy [38].
El curso fue dividido en nueve subtemas con sus respectivas mini-pruebas.
El contenido en cada subtema fue adaptado para hacer que cada mini-prueba durara en promedio un periodo máximo de 5 minutos por subtema.
Las mini-pruebas consistieron de un cuestionario de opción múltiple, el cual evaluó los conocimientos adquiridos durante la sesión.
El material del curso utilizado en los presentes experimentos puede ser obtenido en: https://github.com/MarkCIC/PhysiologicalSignals.
3.1.3. Cuestionarios pre- y post- actividades
Antes de iniciar el experimento, los alumnos fueron sometidos a un cuestionario para identificar si poseían conocimientos previos sobre programación. Esta información fue necesaria para poder contestar la pregunta número 3 del experimento, relativa a la predicción de dichos conocimientos previos.
Como se mencionó anteriormente, al finalizar cada sesión, cada alumno fue evaluado por medio de un cuestionario por cada subtema revisado en la sesión. Estos cuestionarios estuvieron compuestos de 36 preguntas de opción múltiple con cuatro respuestas disponibles, con posibilidad de no contestar. A través de estos cuestionarios post-actividad fue posible recabar información para contestar las preguntas 4 y 5 del experimento; es decir: (a) tener datos fisiológicos de alumnos leyendo el material, así como contestando preguntas, y (b) tener información de las respuestas fisiológicas de los alumnos al estar contestando preguntas de las cuales, pueden estar o no seguros de conocer la respuesta correcta.
3.1.4. Cuestionario de Preferencias de Estudio (SPQ)
Para resolver la pregunta número 2 del experimento, fue necesario identificar las preferencias de estudio [39] de los participantes en el curso. Para este fin, se empleó el "Cuestionario de Preferencias de Estudio (SPQ)" [37] para evaluar las estrategias de aprendizaje de los estudiantes y clasificarlos como holistas o serialistas. Dicho cuestionario está conformado por 18 declaraciones con dos posibles respuestas, una a la izquierda y otra a la derecha, por lo que se les pidió que indicaran su grado de conformidad con alguna de las respuestas o que indicaran nula preferencia.
El presente estudio clasificó a los sujetos como holistas o serialistas mediante el uso de criterios sugeridos en [37]: si los participantes estuvieron de acuerdo con más de la mitad de los estados relacionados con los holistas, se clasificaron como holistas. Si estaban de acuerdo con más de la mitad de los estados relacionados con los serialistas, se clasificaron como serialistas. Si estaban de acuerdo con un número igual de los estados relacionados con los holistas y los serialistas, se clasificaron como neutrales. Dichos criterios son simples; en consecuencia, varios investigadores han acordado que el SPQ proporciona una medida relativamente rápida y fácil para identificar preferencias de estudio [9,40-42].
3.2. Análisis de datos
El estudio se subdividió en nueve módulos compuestos de diez tareas, seis de las cuales son del tipo "lectura de diapositivas"; mientras que los cuatro restantes, son del tipo "solución de cuestionario". Por cada una de las tareas realizadas por cada sujeto de prueba, se capturaron 23 series de tiempo correspondientes a cada una de las señales fisiológicas. La frecuencia de muestreo de todas las señales fisiológicas fue de una muestra por segundo.
Como se mencionó anteriormente, por cada serie de tiempo se calcularon los primeros cuatro momentos estadísticos: media, varianza, asimetría y curtosis. De esta forma, cada tarea se representó por 92 atributos, 23x4 de ellos, correspondientes a los momentos de las series de tiempo y uno más, correspondiente a su duración. Se decidió no utilizar momentos de mayor orden debido a que su cálculo requiere un número elevado de muestras y a que la longitud de las series de tiempo utilizadas está en el orden de las decenas de segundos.
En resumen, los resultados del estudio consisten en 4500 instancias obtenidas a partir del monitoreo de la respuesta fisiológica de 50 sujetos de prueba durante la realización de 90 actividades. Toda esta información, tanto las series de tiempo como los valores de los 93 atributos que caracterizan a cada instancia pueden ser obtenidas en la siguiente URL: https://github.com/MarkCIC/PhysiologicalSignals
Una vez almacenada la información obtenida, se determinó emplear algoritmos de clasificación supervisada para las cuatro características, cuyos posibles valores se detallan en la Tabla 2.
Características | Posibles Valores |
---|---|
Género del participante | Femenino/Masculino |
Conocimientos previos | Sí/No |
Tipo de actividad | Lectura/Respuesta |
Tipo de Aprendizaje | Holista/Serialista/Neutro |
Los algoritmos seleccionados fueron las redes neuronales artificiales (artificial neural networks) y las máquinas de vector de soporte (support vector machines). Estos algoritmos han demostrado ser clasificadores supervisados robustos y adecuados para resolver una amplia gama de tareas a través de los años [43,44].
Para las RNA se seleccionaron arquitecturas con 93 entradas (igual al número de atributos que componen a una tarea) y una salida (multiclase para la característica de tipo de aprendizaje y binaria para todas las demás), variando el número de capas ocultas (una y dos) y el número de neuronas en cada una de ellas (50, 93 y 200). Las redes fueron entrenadas usando el algoritmo estándar de Backpropagation. La función de activación empleada para las capas ocultas fue RELU, mientras que las funciones de activación Sigmoide y Softmax [45] fueron utilizadas para la salida binaria y multiclase, respectivamente. Se emplearon dos tipos de normalizaciones: "MinMax" y "RobustScaler" [46]. El caso sin normalizar fue omitido debido a que llevaba a problemas de convergencia.
En cuanto a las MVS, se seleccionaron dos tipos de kernel: lineal y RBF (Radial Basis Function), en ambos casos se varió el parámetro de penalización del término de error ("C") con valores de 0.5, 1.0, 2.0 y 3.0. El coeficiente de kernel (Gamma), presente únicamente en el kernel RBF, se varió también en valores de 1.0, 0.5 y 1/93. Se probaron modelos sin normalizar, así como empleando "MinMax" y "RobustScaler'.
Al utilizar dos dispositivos para monitorizar señales fisiológicas de los alumnos, es de interés caracterizar la contribución de la información recopilada por cada uno de ellos para predecir las tareas descritas anteriormente; o, en su caso, si la combinación de ambos dispositivos potencia el poder predictivo de los modelos empleados.
Para este fin, los experimentos se repitieron en tres situaciones: utilizando únicamente los datos proporcionados por la Microsoft Band 2, utilizando solamente el Emotiv Epoc, y finalmente, usando las señales de ambos dispositivos juntas.
Las tablas 3 y 4 presentan un resumen de los híper-parámetros considerados durante la etapa de entrenamiento.
Modelo | Entradas | Capas ocultas |
Capa 1 | Capa 2 | Salidas | Normalización | Abreviatura |
---|---|---|---|---|---|---|---|
1 | 93 | 1 | 50 | - - - | 1 | MinMax | M1(93 50 1) |
2 | 93 | 1 | 93 | - - - | 1 | MinMax | M2(93 93 1) |
3 | 93 | 1 | 200 | - - - | 1 | MinMax | M3(93 200 1) |
4 | 93 | 1 | 50 | - - - | 1 | RobustScaler | M4(93 50 1) |
5 | 93 | 1 | 93 | - - - | 1 | RobustScaler | M5(93 93 1) |
6 | 93 | 1 | 200 | - - - | 1 | RobustScaler | M6(93 200 1) |
7 | 93 | 2 | 50 | 50 | 1 | MinMax | M7(93 50 50 1) |
8 | 93 | 2 | 50 | 93 | 1 | MinMax | M8(93 50 93 1) |
9 | 93 | 2 | 50 | 200 | 1 | MinMax | M9(93 50 200 1) |
10 | 93 | 2 | 93 | 50 | 1 | MinMax | M10(93 93 50 1) |
11 | 93 | 2 | 93 | 93 | 1 | MinMax | M11(93 93 93 1) |
12 | 93 | 2 | 93 | 200 | 1 | MinMax | M12(93 93 200 1) |
13 | 93 | 2 | 200 | 50 | 1 | MinMax | M13(93 200 50 1) |
14 | 93 | 2 | 200 | 93 | 1 | MinMax | M14(93 200 93 1) |
15 | 93 | 2 | 200 | 200 | 1 | MinMax | M15(93 200 200 1) |
16 | 93 | 2 | 50 | 50 | 1 | RobustScaler | M16(93 50 50 1) |
17 | 93 | 2 | 50 | 93 | 1 | RobustScaler | M17(93 50 93 1) |
18 | 93 | 2 | 50 | 200 | 1 | RobustScaler | M18(93 50 200 1) |
19 | 93 | 2 | 93 | 50 | 1 | RobustScaler | M19(93 93 50 1) |
20 | 93 | 2 | 93 | 93 | 1 | RobustScaler | M20(93 93 93 1) |
21 | 93 | 2 | 93 | 200 | 1 | RobustScaler | M21(93 93 200 1) |
22 | 93 | 2 | 200 | 50 | 1 | RobustScaler | M22(93 200 50 1) |
23 | 93 | 2 | 200 | 93 | 1 | RobustScaler | M23(93 200 93 1) |
24 | 93 | 2 | 200 | 200 | 1 | RobustScaler | M24(93 200 200 1) |
Modelo | Kernel | Normalización | C | Gamma |
---|---|---|---|---|
1 | Lineal | Sin normalización | Default: 1.0 | - - - |
2 | Lineal | MinMax | Default: 1.0 | - - - |
3 | Lineal | RobustScaler | Default: 1.0 | - - - |
4 | RBF | Sin normalización | Default: 1.0 | Auto: 1/93 |
5 | RBF | MinMax | Default: 1.0 | Auto: 1/93 |
6 | RBF | RobustScaler | Default: 1.0 | Auto: 1/93 |
7 | Lineal | Sin normalización | 0.5 | - - - |
8 | Lineal | MinMax | 0.5 | - - - |
9 | Lineal | RobustScaler | 0.5 | - - - |
10 | Lineal | Sin normalización | 2.0 | - - - |
11 | Lineal | MinMax | 2.0 | - - - |
12 | Lineal | RobustScaler | 2.0 | - - - |
13 | Lineal | Sin normalización | 3.0 | - - - |
14 | Lineal | MinMax | 3.0 | - - - |
15 | Lineal | RobustScaler | 3.0 | - - - |
16 | RBF | Sin normalización | 0.5 | Auto: 1/93 |
17 | RBF | MinMax | 0.5 | Auto: 1/93 |
18 | RBF | RobustScaler | 0.5 | Auto: 1/93 |
19 | RBF | Sin normalización | 0.5 | 0.5 |
20 | RBF | MinMax | 0.5 | 0.5 |
21 | RBF | RobustScaler | 0.5 | 0.5 |
22 | RBF | Sin normalización | 0.5 | 1.0 |
23 | RBF | MinMax | 0.5 | 1.0 |
24 | RBF | RobustScaler | 0.5 | 1.0 |
25 | RBF | Sin normalización | Default: 1.0 | 0.5 |
26 | RBF | MinMax | Default: 1.0 | 0.5 |
27 | RBF | RobustScaler | Default: 1.0 | 0.5 |
28 | RBF | Sin normalización | Default: 1.0 | 1.0 |
29 | RBF | MinMax | Default: 1.0 | 1.0 |
30 | RBF | RobustScaler | Default: 1.0 | 1.0 |
31 | RBF | Sin normalización | 2.0 | Auto: 1/93 |
32 | RBF | MinMax | 2.0 | Auto: 1/93 |
33 | RBF | RobustScaler | 2.0 | Auto: 1/93 |
34 | RBF | Sin normalización | 2.0 | 0.5 |
35 | RBF | MinMax | 2.0 | 0.5 |
36 | RBF | RobustScaler | 2.0 | 0.5 |
37 | RBF | Sin normalización | 2.0 | 1.0 |
38 | RBF | MinMax | 2.0 | 1.0 |
39 | RBF | RobustScaler | 2.0 | 1.0 |
40 | RBF | Sin normalización | 3.0 | Auto: 1/93 |
41 | RBF | MinMax | 3.0 | Auto: 1/93 |
42 | RBF | RobustScaler | 3.0 | Auto: 1/93 |
43 | RBF | Sin normalización | 3.0 | 0.5 |
44 | RBF | MinMax | 3.0 | 0.5 |
45 | RBF | RobustScaler | 3.0 | 0.5 |
46 | RBF | Sin normalización | 3.0 | 1.0 |
47 | RBF | MinMax | 3.0 | 1.0 |
48 | RBF | RobustScaler | 3.0 | 1.0 |
Todos estos hiper-parámetros son los mismos para los experimentos tanto con los dos dispositivos por separado, como en su combinación.
4. Resultados y discusión
Considerando la cantidad de datos que componen los resultados obtenidos en cada experimento, se generó una muestra aleatoria del 10% de las instancias (450 registros) para utilizarlos como datos de prueba, mientras que el 90% restante (4050 registros) se empleó como datos de entrenamiento. El método empleado para validar el resultado de los modelos utilizados fue una validación cruzada de nueve iteraciones (9-fold cross-validation).
Una vez obtenidos los resultados de la eficacia de clasificación de las redes neuronales en los datos de entrenamiento para cada una de las características, empleando solo la Microsoft Band 2, solo el Emotiv Epoc, y ambos dispositivos juntos, se obtiene lo siguiente:
El modelo que durante la fase de entrenamiento arrojó mejores resultados globales fue el modelo de RNA número 6 (una capa oculta de 200 neuronas), utilizando ambos dispositivos, con un porcentaje promedio de aciertos de 77.52%.
Tomando en cuenta los dispositivos individuales, el mejor resultado promedio utilizando solo la Microsoft Band 2 lo obtuvo el modelo 24 (dos capas ocultas de 200 neuronas), con un 67.63%, mientras que el mejor resultado usando solo el Emotiv Epoc fue el modelo 22 (dos capas ocultas de 200 y 50 neuronas respectivamente), con 75.51% de efectividad. Podemos notar que en este caso la combinación de ambos dispositivos fue más efectiva para los datos de entrenamiento.
El tipo de normalización más adecuado fue el de RobustScaler, debido a que es parte de la arquitectura de los cinco mejores modelos de clasificación.
Por otro lado, considerando que cada característica es independiente, se puede obtener el siguiente comportamiento de los modelos basados en redes neuronales:
En lo que respecta a predecir el género del sujeto, el mejor modelo de clasificador neuronal fue el número 6, usando ambos dispositivos. Este modelo presenta un desempeño en la fase de entrenamiento de 88.32%, con una estructura de 93 entradas, una única capa oculta de 200 neuronas y una salida binaria. Usando solo el Emotiv Epoc, el mejor porcentaje obtenido fue 86.81%, también por el modelo 6. Por su parte, al usar solo la Microsoft Band 2 se llegó al 72.42%, usando el modelo 24.
Para detectar si la persona posee conocimientos previos del tema, el mejor clasificador neuronal con una eficiencia de 85.93% fue el modelo 5, usando ambos dispositivos. Este modelo cuenta con una estructura de 93 entradas, una única capa oculta de 93 neuronas y una salida binaria. Empleando los dispositivos de manera aislada, se obtuvieron menores desempeños: 84.74% para el modelo 22, usando solo el Emotiv Epoc y 72.77% para el modelo 24, usando solo la Microsoft Band 2.
En el caso de la predicción de tipo de actividad (lectura vs. respuesta), el modelo neuronal número 6, usando ambos dispositivos, obtuvo la mejor eficiencia con 74%. Para el caso de los dispositivos de forma individual, el mejor desempeño para esta tarea fue de 71.38%, empleando el Emotiv Epoc con el modelo 22, y para la Microsoft Band 2, el modelo 23 obtuvo el 72.77%.
Para el caso de la identificación del tipo de aprendizaje (holista, serialista o neutro), el modelo neuronal 6, nuevamente empleando ambos dispositivos, mostró el mejor desempeño con un valor de 80.77%. Los dispositivos aislados exhibieron una menor eficacia: el Emotiv Epoc alcanzó un 77.95% con el modelo 24, mientras que este mismo modelo, empleando solo la Microsoft Band 2, alcanzó el 64.27% de eficacia.
Para el caso de los modelos con máquinas de vector de soporte, se tiene que:
El modelo que mejores resultados globales arrojó en la fase de entrenamiento fue el modelo número 42 (kernel RBF y normalización RobustScaler con un valor de C=3.0 y un factor de gamma automático=1/93) con un porcentaje de clasificación promedio del 74.51%. El desempeño promedio más alto entre los modelos usados con los dispositivos en solitario fueron 72.66% para el Emotiv Epoc y 67.29% para la Microsoft Band 2, ambos con el modelo 24.
Para el caso de la selección de los parámetros que mejor funcionan para la clasificación, se infiere de los mejores modelos que: el kernel más adecuado es el RBF, la normalización más conveniente es RobustScaler, y que el valor de gamma debe ser pequeño (1/93), mientras que el valor del parámetro de penalización es el que menos relevancia tuvo en los presentes experimentos.
En lo que respecta al análisis individual de las características a clasificar se tiene que:
Referente a la predicción del género del sujeto, el mejor modelo de clasificador con 81.56% de eficiencia fue el número 42, usando ambos dispositivos, y con una estructura de kernel RBF, normalización RobustScaler, C=3.0 y gamma de 1/93. Los dispositivos usados de manera individual obtuvieron menor eficacia: 70.12% para la Microsoft Band 2 y 79.38% para el Emotiv Epoc, ambos con el modelo 24.
Con una eficiencia de 81.88%, el modelo 42, usando ambos dispositivos, fue el que mejor clasificó a la tarea de distinguir si una persona tiene conocimientos previos o no. El modelo 24 usando solamente el Emotiv Epoc se acercó a este resultado con un 80.27% de eficacia. Por su parte, la Microsoft Band 2 alcanzó un 70.15% de eficacia para esta tarea, también con el modelo 24.
Para distinguir si una persona se encuentra leyendo información o está contestando un cuestionario (tipo de actividad), el mejor clasificador, con una eficiencia de 74.05%, fue el modelo 33 con ambos dispositivos (kernel RBF, normalización RobustScaler, C=2.0 y gamma de 1/93). Para esta tarea, los resultados, usando dispositivos por separado, se acercaron a los obtenidos por ambos dispositivos en combinación: la Microsoft Band 2 obtuvo un 74.02% (modelo 21), mientras que el Emotiv Epoc obtuvo un 72.74% (modelo 6).
Para el caso de clasificar el tipo de aprendizaje, el modelo 42, con ambos dispositivos, obtuvo un desempeño de 72.79%. En este caso, los resultados de los dispositivos aislados fueron menores, con 61.63% para la Microsoft Band 2 y 69.01% para el Emotiv Epoc, ambos con el modelo 24.
Una vez obtenidos los mejores modelos para clasificar los datos de entrenamiento, se procedió a evaluar su desempeño al presentarles datos desconocidos para ellos. Para este fin, el conjunto de prueba reservado anteriormente fue clasificado por cada uno de los modelos, tanto de RNA como de MVS. Las tablas 5 y 6 muestran los modelos que mejor se desempeñaron para cada tarea, junto con los porcentajes de eficiencia de clasificación que obtuvieron para el conjunto de prueba. La tabla 7 muestra un resumen comparativo del mejor modelo RNA contra el mejor modelo MVS para cada una de las cuatro tareas.
Tarea | Dispositivo | Modelo | Prueba |
---|---|---|---|
Género | Microsoft Band 2 | 24 | 75.11% |
Emotiv Epoc | 6 | 86.89% | |
Ambos | 6 | 89.11% | |
Conocimientos | Microsoft Band 2 | 24 | 77.56% |
Emotiv Epoc | 22 | 87.33% | |
Ambos | 5 | 87.78% | |
Actividad | Microsoft Band 2 | 23 | 70.89% |
Emotiv Epoc | 22 | 70.00% | |
Ambos | 6 | 75.11% | |
Aprendizaje | Microsoft Band 2 | 24 | 64.67% |
Emotiv Epoc | 24 | 77.78% | |
Ambos | 6 | 82.89% |
Tarea | Dispositivo | Modelo | Prueba |
---|---|---|---|
Género | Microsoft Band 2 | 24 | 68.67% |
Emotiv Epoc | 24 | 73.56% | |
Ambos | 42 | 80.00% | |
Conocimientos | Microsoft Band 2 | 24 | 68.00% |
Emotiv Epoc | 24 | 75.78% | |
Ambos | 42 | 82.89% | |
Actividad | Microsoft Band 2 | 21 | 73.33% |
Emotiv Epoc | 6 | 72.89% | |
Ambos | 33 | 76.67% | |
Aprendizaje | Microsoft Band 2 | 24 | 57.78% |
Emotiv Epoc | 24 | 58.67% | |
Ambos | 42 | 70.22% |
Algoritmo | Género | Conocimientos Previos | Actividad | Tipo Aprendizaje |
---|---|---|---|---|
RNA | 89.11% | 87.78% | 75.11% | 82.89% |
MVS | 80.00% | 82.89% | 76.67% | 70.22% |
Al observar los resultados obtenidos, se puede llegar a las siguientes conclusiones:
Aunque la tarea de predecir el género no es un factor relevante para predecir aprovechamiento, fue la característica que mejor se pudo clasificar. El modelo 6 obtuvo un 89.11% de eficiencia en este rubro. Para el caso de las MVS, se obtuvo un valor relativamente alto de 80%, aunque superado por la red neuronal.
La presencia de conocimientos previos fue la segunda característica que mejor se pudo clasificar. El modelo 5 obtuvo un resultado de 87.78%. Esta característica, a diferencia de la primera, sí es un factor relevante para obtener una mejor calificación en el curso. En el caso de las MVS, el porcentaje obtenido fue bueno (82.89%), pero una vez más, superado por las redes neuronales.
La presencia de conocimientos previos fue la segunda característica que mejor se pudo clasificar. El modelo 5 obtuvo un resultado de 87.78%. Esta característica, a diferencia de la primera, sí es un factor relevante para obtener una mejor calificación en el curso. En el caso de las MVS, el porcentaje obtenido fue bueno (82.89%), pero una vez más superado por las redes neuronales.
Para el caso de predecir el tipo de aprendizaje, se obtuvo un valor de eficiencia de 82.89% con el modelo 6. Esta característica es importante para averiguar qué tan bien la persona se adapta al tipo de material presentado y cómo influirá esto en su calificación. En esta tarea las redes neuronales superaron ampliamente a las MVS, puesto que el mejor modelo de MVS alcanzó tan solo el 70.22% de eficiencia.
La tarea de distinguir entre los dos tipos de actividades presentes en el experimento (leer información o estar contestando un cuestionario) obtuvo un porcentaje de eficiencia de 75.11%, nuevamente con el modelo número 6. En esta tarea, las MVS tuvieron un mejor desempeño que las redes neuronales, imponiéndose por una estrecha ventaja con un 76.67% de eficiencia.
Se observa que la combinación de la Microsoft Band 2 junto con el Emotiv Epoc es responsable de un notable incremento en el porcentaje de eficiencia de clasificación del modelo, comparado con emplear cualquiera de los dispositivos de manera individual. En todos y cada uno de los casos analizados, tanto para entrenamiento como para prueba, el uso de los dos dispositivos en conjunto superó a cualquiera de ellos por separado. Lo anterior, sugiere que el aumento en el número de características disponibles para realizar la clasificación es benéfico para tener una mayor eficiencia al predecir las distintas características de los sujetos de estudio.
5. Conclusiones
Este trabajo consistió en probar dos paradigmas de clasificación de patrones: las redes neuronales y las máquinas de vector de soporte, para predecir cuatro atributos de estudiantes de un curso en línea a partir de las señales fisiológicas que emiten, mientras interactúan con el material. Estas señales fueron obtenidas por medio de dos dispositivos comerciales de fácil acceso: el Emotiv EPOC para obtener señales electroencefalográficas, y la Microsoft Band 2, para obtener otras señales como el ritmo cardíaco y la temperatura corporal, entre otros. En concreto, los cuatro atributos a predecir fueron: el género del participante, su tendencia de tipo aprendizaje, la presencia de conocimientos previos del tema del curso y el tipo de actividad que se encuentra realizando (respuesta vs. lectura).
La primera contribución de este trabajo fue la recopilación de un conjunto de datos de señales fisiológicas emitidas por participantes de cursos en línea. Estos datos pueden ser usados por la comunidad científica para realizar posteriores análisis sobre la información contenida en dichas señales fisiológicas. De la misma forma, este conjunto de datos puede ser usado para caracterizar el desempeño de algoritmos de clasificación para series de tiempo. Dichos datos están disponibles al público en el nuestro repositorio3.
Una vez procesadas estas señales, se probaron distintas configuraciones de cada clasificador para determinar los hiper-parámetros que producen el mejor desempeño de cada uno de los modelos. Los mejores modelos identificados en la etapa de entrenamiento fueron puestos a prueba con el resto de los datos obtenidos, para medir su desempeño al presentarles datos desconocidos y evaluar así, su capacidad de generalización.
La investigación realizada arrojó que tres de las tareas son clasificadas con un buen desempeño. La predicción del género del participante fue la mejor clasificada, seguida de la presencia de conocimientos previos y por último, la predicción del tipo de aprendizaje del alumno. Para estas tres tareas, las redes neuronales fueron superiores a las máquinas de vector de soporte y alcanzaron desempeños cercanos al 90%. Para la última tarea, la predicción de la actividad realizada, ambos clasificadores tuvieron mayor dificultad para predecir correctamente, aunque las MVS superaron a las redes neuronales.
Es preciso notar que los resultados mejoran significativamente al emplear las series de tiempo recopiladas por ambos dispositivos, comparado con el caso en que se utilizan individualmente las señales obtenidas de cualquiera de los dos. Esto sugiere que incrementar las características disponibles facilita la clasificación para este problema en particular.
Los porcentajes de clasificación obtenidos indican que las señales fisiológicas recopiladas durante el estudio contienen información que puede ser usada de manera efectiva para determinar un conjunto de características relevantes sobre los sujetos de prueba. Esto es particularmente interesante por el hecho de que los dispositivos utilizados para la captura de datos son de bajo costo y están comercialmente disponibles. Lo anterior, hace factible el desarrollo de una nueva generación de plataformas educativas altamente adaptativas que saquen provecho del monitoreo continuo de sus usuarios. Por ejemplo, al tener un buen nivel de confianza en la predicción de conocimientos previos, se puede diseñar un curso que eleve el nivel y la complejidad del contenido si se detecta que el alumno ya conoce la información presentada. De manera similar, la predicción del tipo de aprendizaje puede ayudar a diseñar cursos que se adapten a las necesidades de cada alumno para maximizar su aprovechamiento.
6. Trabajo futuro
La investigación posterior tendrá las siguientes vertientes. En el plano de las tecnologías educativas, se propone desarrollar una plataforma adaptativa que presente material didáctico de acuerdo con el nivel de conocimiento previo y con el tipo de estilo de aprendizaje. Se espera que este tipo de plataformas promuevan el mejor desempeño de sus usuarios. Adicionalmente, se propone desarrollar una metodología para evaluar la efectividad del material que compone a los cursos en línea, dependiendo de las características particulares de los estudiantes.
Con respecto al análisis de señales fisiológicas y sus aplicaciones, se propone extrapolar las técnicas de análisis desarrolladas en este trabajo a otros contextos tan diversos como el monitoreo clínico continuo, el monitoreo de desarrolladores de software, o de operadores de maquinaria y vehículos.
De la misma forma, se propone investigar la utilización de otros modelos de clasificación en el contexto del análisis de las señales fisiológicas.