Antecedentes
Existe un crecimiento en el uso y manejo de las Tecnologías de la Información y la Comunicación (TIC) en diversas áreas, debido al surgimiento de aplicaciones generadas por la actividad humana tales como la internet, los sistemas de comunicaciones móviles celulares, las redes inalámbricas, entre muchas otras. Este avance tecnológico ha propiciado un incremento en la cantidad de información a almacenar, la cual es generada para objetivos específicos y, una vez cumplidos, es ignorada o eliminada. No obstante, dicha información puede ser analizada para extraer algún tipo de conocimiento para generar un beneficio. Actualmente, este tipo de análisis se realiza por medio de técnicas de minería de datos, principalmente, en áreas comerciales y empresariales (Han, 2012). Debido a su éxito, se ha comenzado a utilizar estas técnicas en ambientes educativos con el objetivo de descubrir información útil que pueda beneficiar a los procesos de enseñanza y aprendizaje de diversas instituciones educativas. De esta manera, existe una tendencia al uso de técnicas de minería de datos en ambientes educativos (Romero y Ventura, 2010; 2012; Peña, 2014). En países de Latinoamérica, es un área reciente (Estrada, Zamarripa, Zúñiga y Martínez, 2016), por lo que existen diferentes líneas de investigación para su uso y desarrollo. Una de estas líneas de investigación es la predicción del rendimiento académico de estudiantes. El rendimiento académico se refiere al nivel de logro o éxito que se puede alcanzar en una o varias asignaturas (Reynoso y Méndez, 2018) y es parte esencial en las universidades, debido a que es uno de sus principales criterios de calidad académica (Shahiri, Husain y Rashid, 2015).
La capacidad de predecir el rendimiento académico ofrece beneficios al profesor, a los estudiantes y a la institución educativa, tales como: plantear programas de prevención estratégicos para estudiantes con bajo rendimiento, detectar estudiantes en peligro de deserción, identificar características de los estudiantes que les permiten obtener un buen rendimiento académico, entre muchas otras.
Perspectiva teórica
La reprobación estudiantil de uno o varios cursos es un insuficiente rendimiento cuantitativo y/o cualitativo de las capacidades de un estudiante para conseguir los parámetros mínimos establecidos por una institución educativa, lo cual limita o detiene el avance de un estudiante en su vida académica (Rodallegas et al., 2010). La reprobación puede ocasionar la deserción escolar, es decir, el abandono definitivo y sin causa justificada de la institución educativa por parte del estudiante sin haber terminado su etapa educativa que esté cursando. En el caso de las universidades, las principales problemáticas son los índices de reprobación y la deserción escolar, lo cual provoca bajos índices de eficiencia terminal (Vera, Ramos, Sotelo, Echeverría y Serrano, 2012). Con el objetivo de abatir estos problemas educativos y brindar una buena formación académica, las instituciones educativas están interesadas en retener a sus estudiantes. No obstante, a pesar de los programas que se han implementado para evitar el fracaso escolar, disminuir la reprobación y evitar el abandono, no es sencillo debido a que es un problema multifactorial.
En la actualidad, para reducir la reprobación y deserción de estudiantes en las instituciones educativas, se han aplicado con éxito técnicas de minería de datos para crear modelos predictivos del rendimiento académico (Márquez, Romero y Ventura, 2012). Algunos atributos de estudiantes que se han utilizado en la literatura para predicción del rendimiento académico son las evaluaciones internas, el promedio actual y otros factores socioeconómicos (Shahiri et al., 2015).
De manera general, la minería de datos es el proceso de extraer conocimiento útil y comprensible, previamente desconocido, de datos almacenados (Hernández, Ramírez y Ferri, 2004; Witten, Frank y Hall, 2005). Este proceso, aplicado a la educación, se conoce como minería educativa de datos, la cual surge como un paradigma orientado al diseño, tareas, métodos y algoritmos, con el objetivo de explorar los datos del ambiente educativo (Peña, 2014). Tiene como propósito descubrir conocimiento y patrones dentro de datos educativos para realizar predicciones del comportamiento de estudiantes (Luan, 2002), es decir, permite encontrar y analizar patrones que caractericen los comportamientos con base en sus logros, evaluaciones y dominio del contenido de conocimiento que tienen los alumnos en los diversos mecanismos de enseñanza y aprendizaje de las diversas instituciones públicas y privadas (Ballesteros y Sánchez, 2013).
De forma más amplia, el proceso completo de aplicación de técnicas de minería de datos es conocido como descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases, KDD) (Hernández et al., 2004), el cual coloca a la minería de datos como una de las fases del mismo. Este proceso se muestra esquemáticamente en la Figura 1.
La primera fase del proceso KDD es la integración y recopilación de datos, en la cual se determinan las fuentes de información y la manera de conseguirlas para formar la base de datos a utilizar. La siguiente fase es el procesamiento, en donde se realiza la selección de los datos más relevantes para el estudio y la limpieza de datos para eliminar problemas tales como datos erróneos o faltantes. En la transformación de los datos se convierten a una representación que sea manejable para la técnica de minería de datos seleccionada (Hernández et al., 2004). Posteriormente, se encuentra la fase de minería de datos, en la que define el algoritmo de minería de datos a implementar. Finalmente está la fase de evaluación, en la cual se determina la validez y confiabilidad de los patrones obtenidos que representan el conocimiento extraído.
Entre las tareas de minería educativa de datos, las predictivas son de las más populares y de uso más extendido (Romero y Ventura, 2010, 2012; Peña, 2014) debido a que permiten detectar problemas académicos con anticipación y tomar las decisiones más adecuadas al problema.
Una de las tareas predictivas es la clasificación, la cual consiste en predecir la clase de registros de datos de prueba por medio de registros de datos de entrenamiento. De manera más específica, existe un conjunto de atributos {A1,...,An} y una variable de clase Ci perteneciente a un conjunto ΩC={C1,…,Ck}. La probabilidad a posteriori de la variable de clase Ci dado un conjunto de atributos, se calcula a partir del teorema de Bayes de la siguiente forma:
Para clasificar un registro, es necesario identificar el valor más probable y devolverlo como resultado. En el teorema de Bayes, la hipótesis más probable es aquella con máxima probabilidad a posteriori (MAP). De esta forma, el valor de la clase más probable es:
El algoritmo conocido como Naïve Bayes (Hernández et al., 2004; Witten et al., 2005) supone que todos los atributos son independientes una vez conocido el valor de la clase. Con base en esta suposición, el valor de la clase a devolver es:
Cabe mencionar que la exactitud de las predicciones correctamente clasificadas con el algoritmo Naïve Bayes es semejante o superior al de otras técnicas de minería de datos (Michie, Spiegelhalter y Taylor, 1994; Kotsiantis, Pierrakeas y Pintelas, 2003).
A partir de las fórmulas anteriores, se construye el modelo predictivo mediante la estimación de las probabilidades a priori y a posteriori. Las probabilidades a priori P(Ci) se estiman dividiendo el número de registros de la clase Ci de los datos de entrenamiento entre el total de los mismos. La estimación de las probabilidades a posteriori P(Aj|Ci) de cada atributo discreto se calculan dividiendo el número de casos de aparición del evento entre el número de casos totales. En este trabajo, para solucionar el caso en el que las probabilidades P(Aj|Ci) sean igual a cero, se utiliza la estimación basada en la ley de sucesión de Laplace (Hernández et al., 2004), la cual consiste en obtener el número de casos favorables más uno, dividido entre el número de casos totales más el número de valores posibles.
Una vez construido el modelo, se puede clasificar un nuevo registro calculando las probabilidades de sus atributos y aplicando la fórmula 3 para determinar a qué clase corresponde.
Planteamiento del problema
Un problema que se ha identificado es la necesidad de modelos predictivos del rendimiento académico en estudiantes universitarios con técnicas de minería de datos para diseñar programas de prevención de reprobación y deserción escolar. Esta necesidad es evidente en México debido al poco desarrollo de este tipo de modelos, a pesar del potencial beneficio en la mejora del rendimiento académico de estudiantes.
La presente investigación se realizó para contestar las siguientes preguntas: ¿Cómo construir un modelo predictivo del rendimiento académico en estudiantes universitarios mediante el algoritmo Naïve Bayes y cuál es su exactitud en las predicciones? y ¿Cómo implementar el modelo predictivo construido utilizando lenguajes de programación adecuados para su uso en la web? De esta manera, el objetivo de esta investigación es construir un modelo para predecir el rendimiento académico de estudiantes universitarios mediante el algoritmo Naïve Bayes, obtener su exactitud en las predicciones y aplicarlo mediante lenguajes de programación para su uso en la web.
Metodología
En esta sección se presenta la primera fase del proceso KDD, la cual consiste en la integración y recopilación de datos.
Participantes
La muestra de datos corresponde a estudiantes inscritos en una carrera de ingeniería perteneciente al Instituto Politécnico Nacional en la Ciudad de México. Los datos recopilados fueron la aprobación y reprobación de los estudiantes en un curso de matemáticas. También se recopilaron datos personales y escolares que han sido utilizados en la literatura para la predicción del rendimiento académico, tales como ingreso familiar, escolaridad del padre, entre otros (Shahiri et al., 2015). En total participaron 122 estudiantes en este estudio. En Kotsiantis et al. (2003), y Mueen, Zafar y Manzoor (2016), se ha observado que, con cantidades similares, el algoritmo Naïve Bayes ha obtenido una exactitud mayor en comparación con otras técnicas de minería de datos.
Instrumento
La información de la aprobación y reprobación de los estudiantes participantes en este estudio fue proporcionada por los docentes del curso. Los demás datos fueron recopilados por medio de una encuesta, la cual estuvo formada por una hoja tamaño carta en la que se especifica el propósito y los datos a recabar. De manera oral, se indicó a los participantes que la información recabada tiene fines estadísticos y de investigación. En la Figura 2 se muestra el formato del instrumento utilizado para recabar la información.
Una vez que se recopilaron los datos se formó una tabla con 122 registros. En la Figura 3 se presenta una muestra de los datos de esta tabla.
En los datos recopilados no se tuvieron datos faltantes o erróneos, por lo que solo es necesaria la transformación de datos para el algoritmo de predicción utilizado. Esta transformación se explica en la siguiente sección.
Desarrollo
En esta sección se realiza la transformación de datos recopilados y la implementación del modelo predictivo mediante lenguajes de programación.
En la Figura 3 se observa que los datos recopilados contienen diez atributos (columnas), de los cuales el atributo “aprueba” define la etiqueta de la clase. Los datos se transformaron a valores nominales para su mejor manejo en la fase de minería de datos. En la Tabla 1 se muestran todos los atributos utilizados y sus posibles valores nominales.
Atributos | Valores posibles |
Escolaridad del padre (escpadre) | Educación primaria y secundaria (básica), educación media superior (msup), educación superior o mayor (sup) |
Escolaridad de la madre (escmadre) | Educación primaria y secundaria (básica), educación media superior (msup), educación superior o mayor (sup)) |
Ingreso familiar (ingresof) | Menos de $5000 (bajo), entre $5000 y $10000 (medio), más de $10000 (alto) |
Promedio de media superior (promant) | Entre 0 y 7.4 (bajo), entre 7.5 y 8.4 (medio), entre 8.5 y 10 (alto) |
Materias reprobadas actualmente (matrep) | Cero materias (cero), una materia (una), dos o más materias (dosomas) |
Promedio actual (promactual) | Entre 0 y 7.4 (bajo), entre 7.5 y 8.4 (medio), entre 8.5 y 10 (alto) |
Preferencia de estudio (prefestudio) | Estudiar solo (solo), estudiar en dúo (duo), estudiar en grupo (grupo) |
Preferencia para realizar actividades (prefact) | Realizar actividades solo (solo), realizar actividades en dúo (duo), realizar actividades en grupo (grupo) |
Frecuencia de estudio (frestudio) | Estudiar de forma continua (continuo), estudiar una semana antes del examen (semantes), estudiar un día antes del examen (diantes) |
Aprobación del curso (aprueba) | SÍ, NO |
Fuente: elaboración propia.
En la Figura 4, se presenta una muestra de los datos transformados a valores nominales.
Una vez transformados los datos, se les aplica la técnica de minería de datos para construir el modelo predictivo.
En este trabajo, la tarea predictiva empleada es la clasificación, y la técnica utilizada es el algoritmo Naïve Bayes. El modelo predictivo se construye por medio del cálculo de las probabilidades a priori y a posteriori, descrito en las secciones anteriores. Por ejemplo, el número de registros en donde el atributo “aprueba” es igual a “SÍ” es de 65 de 122 posibles, por lo que la probabilidad a priori P(aprueba=SÍ) es igual a 65/122 = 0.5328. Otro ejemplo, es el número de registros en donde el atributo “escpadre” es igual a “básica” dado que “aprueba” es igual a “SÍ”, tomando en cuenta la ley de sucesión de Laplace, es de 28 de 68 posibles; de esta manera, la probabilidad a posteriori P(escpadre=basica/aprueba=SÍ) es igual a 0.4118. La estimación de este tipo de probabilidades es laboriosa debido a la cantidad de datos a analizar, por lo que existen diferentes herramientas informáticas que permiten aplicar técnicas de minería de datos para crear modelos predictivos, tal y como se ha hecho en Jaramillo y Paz (2015), y Pacheco y Fernández (2015). No obstante, este tipo de herramientas requieren que los usuarios tengan conocimientos especializados, tanto en el uso de la herramienta como en minería de datos. Por lo que, a diferencia de estos trabajos y de manera similar a Valero, Salvador y García, (2010), en este trabajo se realizó una plataforma en la que se programó el algoritmo Naïve Bayes en HTML5 (HyperText Markup Language, versión 5) y PHP (Hypertext Pre-Processor) con el propósito de publicarlo en un sitio web como un apoyo a profesores, no solo de la institución donde fueron recabados los datos sino de cualquier institución educativa. Esta plataforma permite introducir datos de entrenamiento de un número variable de estudiantes y de cualquier área de estudios para calcular automáticamente las probabilidades a priori y a posteriori. La interfaz gráfica para introducir los datos de entrenamiento se muestra en la Figura 4.
Por medio de esta plataforma se obtuvieron todas las probabilidades a priori y a posteriori que componen el modelo predictivo, las cuales se presentan en la Tabla 2.
Probabilidades | clase = SÍ | clase = NO |
---|---|---|
P(aprueba=clase) | 0.5328 | 0.4672 |
P(escpadre=basica/aprueba=clase) | 0.4118 | 0.2667 |
P(escpadre=msup/aprueba=clase) | 0.3235 | 0.3333 |
P(escpadre=sup/aprueba=clase) | 0.2647 | 0.4 |
P(escmadre=basica/aprueba=clase) | 0.4118 | 0.3333 |
P(escmadre=msup/aprueba=clase) | 0.3529 | 0.4167 |
P(escmadre=sup/aprueba=clase) | 0.2353 | 0.25 |
P(ingresof=bajo/aprueba=clase) | 0.3382 | 0.35 |
P(ingresof=medio/aprueba=clase) | 0.5147 | 0.45 |
P(ingresof=alto/aprueba=clase) | 0.1471 | 0.2 |
P(promant=bajo/aprueba=clase) | 0.2794 | 0.4167 |
P(promant=medio/aprueba=clase) | 0.5147 | 0.4167 |
P(promant=alto/aprueba=clase) | 0.2059 | 0.1666 |
P(matrep=cero/aprueba=clase) | 0.5 | 0.3333 |
P(matrep=una/aprueba=clase) | 0.4118 | 0.25 |
P(matrep=dosomas/aprueba=clase) | 0.0882 | 0.4167 |
P(promactual=bajo/aprueba=clase) | 0.4853 | 0.7833 |
P(promactual=medio/aprueba=clase) | 0.3971 | 0.15 |
P(promactual=alto/aprueba=clase) | 0.1176 | 0.0667 |
P(prefestudio=solo/aprueba=clase) | 0.5294 | 0.4167 |
P(prefestudio=duo/aprueba=clase) | 0.2206 | 0.2833 |
P(prefestudio=grupo/aprueba=clase) | 0.25 | 0.3 |
P(prefact=solo/aprueba=clase) | 0.2647 | 0.2 |
P(prefact=duo/aprueba=clase) | 0.3235 | 0.3 |
P(prefact=grupo/aprueba=clase) | 0.4118 | 0.5 |
P(frestudio=continuo/aprueba=clase) | 0.3676 | 0.4 |
P(frestudio=semantes/aprueba=clase) | 0.5 | 0.5167 |
P(frestudio=diantes/aprueba=clase) | 0.1324 | 0.0833 |
Fuente: elaboración propia.
De la Tabla 2 se observa que la probabilidad a posteriori P(prefestudio=solo/aprueba=SÍ) = 0.5294 es la más alta de la clase aprueba=SÍ y la probabilidad a posteriori P(promactual=bajo/aprueba=NO) = 0.7833 es la más alta de la clase aprueba=NO. En el algoritmo Naïve Bayes, las probabilidades a posteriori se multiplican para predecir el rendimiento académico, por lo que las probabilidades a posteriori con valores mayores son las que más influyen en la aprobación y en la reprobación. De esta manera, en el modelo predictivo construido, el factor que más influye en que un estudiante repruebe el curso es si tiene un promedio actual bajo (≤7.4). De la misma forma, el factor que más influye en que un estudiante apruebe el curso es si el estudiante prefiere estudiar solo.
Resultados
Una vez construido el modelo, se puede predecir la aprobación de un nuevo estudiante a partir de las probabilidades de la Tabla 2 que correspondan a los atributos de dicho estudiante y aplicando la fórmula 3. Esto se puede hacer de forma automática por medio de la plataforma construida, ya que permite calcular la predicción de un nuevo registro, una vez estimadas las probabilidades del modelo. La interfaz gráfica para introducir los datos de prueba se muestra en la Figura 5.
Para evaluar el modelo predictivo construido se calcula la exactitud de las predicciones (porcentaje de la cantidad de registros con predicciones correctas entre el total de registros), utilizando el método conocido como validación cruzada (Hernández et al., 2004). Este método consiste en dividir aleatoriamente el total de los datos de entrenamiento en un número fijo de grupos; en este caso, se dividió en dos conjuntos equitativos. Se construye un modelo con el primer conjunto y se usa para predecir los resultados del segundo conjunto y se calcula su exactitud. Después, se construye un modelo con el segundo conjunto y se usa para predecir los resultados del segundo conjunto y se calcula su exactitud. Finalmente, se calcula la exactitud del modelo construido promediando las exactitudes calculadas anteriormente.
De esta manera, se dividieron en forma aleatoria los 122 registros de estudiantes en dos conjuntos de 61 registros, en donde un conjunto fue de entrenamiento y el otro de prueba para calcular su exactitud y viceversa. El promedio de estas exactitudes en porcentaje fue de 61.4754%, el cual representa la exactitud estimada del modelo predictivo.
Para comprobar la exactitud estimada del modelo predictivo construido, se aplicó el modelo para predecir el rendimiento académico de 71 estudiantes del mismo curso, pero del siguiente semestre. Primeramente, se utilizó el modelo predictivo construido y la plataforma realizada para obtener predicciones de los estudiantes. Posteriormente, se compararon estas predicciones con los resultados reales obtenidos por los estudiantes al final del curso. En la Figura 6 se presenta el número de predicciones correctas e incorrectas. Además, se observa que la exactitud de las predicciones fue de 70.4225 %, la cual es superior a la estimada con el método de validación cruzada.
Discusión y conclusiones
El objetivo de este trabajo ha sido presentar la construcción de un modelo predictivo del rendimiento académico de estudiantes universitarios, obtener la exactitud en sus predicciones e implementarlo en una plataforma educativa, en la cual se utilizó el algoritmo Naïve Bayes. Este algoritmo ha sido utilizado en la literatura para predecir el rendimiento académico (Shahiri et al., 2015), además, ha presentado una buena exactitud en las predicciones con una cantidad pequeña de datos de entrenamiento (Kavipriya, 2016). Por lo que este algoritmo es útil en ambientes educativos que generen pocos datos, tal es el caso de grupos de estudiantes de clases presenciales. Los resultados de este estudio muestran cómo, a partir de algunos datos académicos y personales de estudiantes al inicio de un curso, permite predecir con cierto porcentaje de exactitud el rendimiento académico de estudiante al final del curso. El diseño del modelo predictivo se realizó a partir del proceso de descubrimiento de extracción de conocimiento de bases de datos. El modelo predictivo se construyó en una plataforma que permite ingresar los datos de los estudiantes para construir el modelo y, posteriormente, introducir los datos de estudiantes a los cuales se les va a predecir su rendimiento académico. La plataforma construida acepta diferentes cantidades de registros de estudiantes de cualquier área, con los atributos mostrados en este análisis. Tiene la opción de introducir los datos de entrenamiento para calcular las probabilidades del modelo y de introducir los datos de prueba para realizar las predicciones del rendimiento académico. Esto brinda la posibilidad de ser utilizada por profesores que no tengan conocimientos de minería de datos.
El algoritmo Naïve Bayes predice si un estudiante aprueba o no con base en el producto de sus probabilidades, como lo indica la ecuación 3. Los valores más grandes de probabilidad son los que influyen de forma más significativa en la decisión de la predicción de aprobación o reprobación. El primer renglón de la Tabla 2 representa las probabilidades a priori de aprobación y reprobación. En este trabajo, la probabilidad P(aprueba=SÍ) es mayor que P(aprueba=SÍ) debido a que la cantidad de estudiantes aprobados es mayor que la de reprobados en los datos de entrenamiento. A partir del siguiente renglón de la Tabla 2, se encuentran las probabilidades a posteriori. Se observa que la probabilidad a posteriori más alta de la tercera columna (probabilidad que más influye en la reprobación) es P(promactual=bajo/aprueba=NO) = 0.7833, la cual ocurre cuando el promedio actual del estudiante es bajo (≤7.4). De la misma manera, la probabilidad a posteriori más alta de la segunda columna (probabilidad que más influye en la aprobación) es P(prefestudio=solo/aprueba=SÍ) = 0.5294, la cual sucede cuando el estudiante prefiere estudiar solo. El hecho de que los estudiantes que tienen un promedio actual bajo tengan mayor probabilidad de reprobar el curso, se debe a que el promedio actual es uno de los principales indicadores del rendimiento académico de estudiantes (Shahiri et al., 2015). En cuanto al hecho de que los estudiantes prefieran estudiar solos y tengan mayor probabilidad de aprobar el curso, tiene que ver con el poco tiempo que tienen para hacerlo o la falta de hábito de hacerlo en equipo, como se menciona en Álvarez, Gugelmeier y Hermida (2013). De esta manera, la construcción del modelo predictivo no solo permite obtener predicciones del rendimiento académico, además, permite identificar los factores que más influyen en la aprobación y reprobación de estudiantes específicos. Esto es de interés para profesores e instituciones educativas debido a que permite tomar las medidas necesarias con los estudiantes para evitar la reprobación y deserción escolar.
En la Figura 3, se observa que la exactitud estimada del modelo (61.4754 %) es menor a la exactitud obtenida al aplicar el modelo predictivo en nuevos datos (70.4225 %), lo que significa que los nuevos datos tuvieron un comportamiento ligeramente diferente al de los datos de entrenamiento.
Se debe notar que pocos trabajos instrumentan una plataforma para automatizar la predicción del rendimiento académico como el de Rico y Sánchez (2018), quienes utilizaron cinco atributos estudiantiles consiguiendo una exactitud de 62.3 % a partir de 94 estudiantes que participaron en el estudio. A diferencia de este trabajo, en esta investigación se instrumentó una plataforma automática de predicción que utiliza nueve atributos estudiantiles y se obtuvo una exactitud de 70.42 por ciento.
Finalmente, se debe resaltar que el modelo construido permite a los profesores identificar desde el inicio de sus cursos qué factores influyen en el rendimiento académico y qué estudiantes tienen mayor probabilidad de aprobar y reprobar. Así, los profesores tienen la oportunidad de diseñar estrategias de prevención y disminuir las estrategias de recuperación que impliquen que el estudiante repruebe alguna evaluación parcial, para que ellos puedan realizar algún tipo de intervención. Las estrategias de recuperación son una práctica frecuente en la mayoría de las instituciones educativas y es necesario cambiarlas por estrategias de prevención para mejorar los procesos de enseñanza y de aprendizaje.