Problema

Dado que más de mil estudiantes toman el curso de APO I (Algorítmica y Programación Orientada Por Objetos I) semestralmente, nuestro cliente quiere establecer cuales son las principales razones por las que un estudiante que toma el curso decide retirarlo o lo pierde. Lo anterior con el fin de poder tomar medidas preventivas hacia estos estudiantes y hacer que su paso por el nuevo primer curso de programación IP (Introducción a la programación) sea lo más exitoso posible.

Datos

Para obtener datos óptimos para la visualización, el archivo CSV original tuvo que modificarse. Originalmente se contaba con 11313 filas y 44 columnas de las cuales se seleccionaron solo 35. Entre estos atributos se tienen 13 categóricos y 22 ordenados, cuantitativos, y secuenciales. Lo anterior dado que estas columnas son las únicas que contienen información valiosa para las tareas y visualización. En más detalle se cuenta con un dataset de tipo tabla con información estática clasificada por ítems y atributos.

Atributo Interpretación Descripción
id Id del registro tomado por el equipo cupi2. Atributo categórico.
semestre Semestre en el cual se tomó el registro. Atributo ordenado, cuantitativo secuencial.
curso Identificador del curso en código uniandes. Ej: ISIS 1204. Atributo categórico.
código Código del estudiante anonimizado. Atributo categórico.
colegio Nombre del colegio del estudiante. Atributo categórico.
colegio_codigo Código icfes del colegio. Atributo categórico.
saber_v1 Puntaje acumulado del icfes del estudiante, en el formato 1 Atributo ordenado, cuantitativo secuencial.
saber_v2 Puntaje acumulado del icfes del estudiante, en el formato 2 Atributo ordenado, cuantitativo secuencial.
mate1203 Nota obtenida en la asignatura cálculo diferencial. Atributo ordenado, cuantitativo secuencial.
leng1501 Nota obtenida en la asignatura español version leng1501. Atributo ordenado, cuantitativo secuencial.
lite1611 Nota obtenida en la asignatura español version lite1611. Atributo ordenado, cuantitativo secuencial.
huma1300 Nota obtenida en la asignatura español version huma1300. Atributo ordenado, cuantitativo secuencial.
creditos_inscritos Créditos inscritos por el alumno en ese semestre. Atributo ordenado, cuantitativo secuencial.
semestre_segun_creditos Semestre el cual está cursando un estudiante según el número de créditos vistos. Atributo categórico.
spp Valor que identifica si un estudiante es beneficiario o no del programa Ser Pilo Paga. Atributo categórico.
generacion_e Valor que identifica si un estudiante es beneficiario o no del programa Generación - E. Atributo categórico.
curso_nombre Nombre de la materia que está cursando el estudiante. Atributo categórico.
veces_visto Número que identifica el número de veces que un estudiante ha visto la materia. Atributo ordenado, cuantitativo, secuencial.
definitiva_profesor Nota obtenida por un estudiante en la materia de APO sin aproximaciones. Atributo ordenado, cuantitativo, secuencial
retiro_banner Valor que identifica si el estudiante retiro o no la materia. Atributo categórico.
pga Promedio acumulado del estudiante. Atributo ordenado, cuantitativo, secuencial.
riesgo_deca Valor que indica si el estudiante se encuentra en riesgo de acuerdo a los criterios de la decanatura o no Atributo categórico.
tipo_riesgo_deca Una de las 5 categorías {2SPG, PGSS, PRAC, PRIM y PRRE} de riesgo en las que se puede clasificar un estudiante. Atributo categórico.
spadies Puntaje entre 1 y 4 SPADIES identificando el nivel de riesgo que presenta un estudiante. Atributo categórico.
saber_biologia Puntaje obtenido en el área de biología en el saber 11-1 (va de 0 a 100). Atributo ordenado, cuantitativo, secuencial.
saber_ciencias Puntaje obtenido en el área de ciencias en el saber 11-1 (va de 0 a 100). Atributo ordenado, cuantitativo, secuencial.
saber_filosofia Puntaje obtenido en el área de filosofía en el saber 11-1 (va de 0 a 100). Atributo ordenado, cuantitativo, secuencial.
saber_fisica Puntaje obtenido en el área de física en el saber 11-1 (va de 0 a 100). Atributo ordenado, cuantitativo, secuencial.
saber_lenguajes Puntaje obtenido en el área de lenguajes en el saber 11-1 (va de 0 a 100). Atributo ordenado, cuantitativo, secuencial.
saber_quimica Puntaje obtenido en el área de química en el saber 11-1 (va de 0 a 100). Atributo ordenado, cuantitativo, secuencial.
saber_matematicas Puntaje obtenido en el área de matemáticas en el saber 11-1 (va de 0 a 100). Atributo ordenado, cuantitativo, secuencial.
saber_v2_cienciasnaturales Puntaje obtenido en el área de ciencias naturales en el saber 11-2 (va de 0 a 100). Atributo ordenado, cuantitativo, secuencial.
saber_v2_ingles Puntaje obtenido en el área de inglés en el saber 11-2 (va de 0 a 100). Atributo ordenado, cuantitativo, secuencial.
saber_v2_lecturacritica Puntaje obtenido en el área de lectura crítica en el saber 11-2 (va de 0 a 100). Atributo ordenado, cuantitativo, secuencial.
saber_v2_socialesciudad Puntaje obtenido en el área de Sociales-ciudad en el saber 11-2 (va de 0 a 100). Atributo ordenado, cuantitativo, secuencial.

Limpieza de datos

La limpieza de los datos se realizó a través de la herramienta de excel de tablas, la cual permite filtrar por valores y darse cuenta de inconsistencias. En primer lugar dado que el alcance del proyecto era el curso de APO I, eliminamos todas las filas que correspondían al curso APOII, APOII honores e introducción a la programación. En segundo lugar existían algunos datos con inconsistencias en los retiros, dado que las columnas retiro y retiro banner indican que un estudiante no había retirado, pero la nota banner era 0, lo cual implicaba que el estudiante podía encontrarse en una situación de pendiente, luego se eliminaron estos registros y no se tuvieron en cuenta. En tercer lugar, la columna retiro y la columna retiro_banner no eran coherentes, es decir que en algunas ocasiones una columna indicaba un retiro mientras que la otra no, es por esto que en retiro_banner siempre que la columna retiro indicaba un retiro hicimos que retiro_banner también lo indicara. Por último, eliminamos todas las columnas que no utilizamos para las diferentes visualizaciones, donde el listado de las columnas finales se adjunta a continuación.