Dado que más de mil estudiantes toman el curso de APO I (Algorítmica y Programación Orientada Por Objetos I) semestralmente, nuestro cliente quiere establecer cuales son las principales razones por las que un estudiante que toma el curso decide retirarlo o lo pierde. Lo anterior con el fin de poder tomar medidas preventivas hacia estos estudiantes y hacer que su paso por el nuevo primer curso de programación IP (Introducción a la programación) sea lo más exitoso posible.
Para obtener datos óptimos para la visualización, el archivo CSV original tuvo que modificarse. Originalmente se contaba con 11313 filas y 44 columnas de las cuales se seleccionaron solo 35. Entre estos atributos se tienen 13 categóricos y 22 ordenados, cuantitativos, y secuenciales. Lo anterior dado que estas columnas son las únicas que contienen información valiosa para las tareas y visualización. En más detalle se cuenta con un dataset de tipo tabla con información estática clasificada por ítems y atributos.
Atributo | Interpretación | Descripción |
---|---|---|
id | Id del registro tomado por el equipo cupi2. | Atributo categórico. |
semestre | Semestre en el cual se tomó el registro. | Atributo ordenado, cuantitativo secuencial. |
curso | Identificador del curso en código uniandes. Ej: ISIS 1204. | Atributo categórico. |
código | Código del estudiante anonimizado. | Atributo categórico. |
colegio | Nombre del colegio del estudiante. | Atributo categórico. |
colegio_codigo | Código icfes del colegio. | Atributo categórico. |
saber_v1 | Puntaje acumulado del icfes del estudiante, en el formato 1 | Atributo ordenado, cuantitativo secuencial. |
saber_v2 | Puntaje acumulado del icfes del estudiante, en el formato 2 | Atributo ordenado, cuantitativo secuencial. |
mate1203 | Nota obtenida en la asignatura cálculo diferencial. | Atributo ordenado, cuantitativo secuencial. |
leng1501 | Nota obtenida en la asignatura español version leng1501. | Atributo ordenado, cuantitativo secuencial. |
lite1611 | Nota obtenida en la asignatura español version lite1611. | Atributo ordenado, cuantitativo secuencial. |
huma1300 | Nota obtenida en la asignatura español version huma1300. | Atributo ordenado, cuantitativo secuencial. |
creditos_inscritos | Créditos inscritos por el alumno en ese semestre. | Atributo ordenado, cuantitativo secuencial. |
semestre_segun_creditos | Semestre el cual está cursando un estudiante según el número de créditos vistos. | Atributo categórico. |
spp | Valor que identifica si un estudiante es beneficiario o no del programa Ser Pilo Paga. | Atributo categórico. |
generacion_e | Valor que identifica si un estudiante es beneficiario o no del programa Generación - E. | Atributo categórico. |
curso_nombre | Nombre de la materia que está cursando el estudiante. | Atributo categórico. |
veces_visto | Número que identifica el número de veces que un estudiante ha visto la materia. | Atributo ordenado, cuantitativo, secuencial. |
definitiva_profesor | Nota obtenida por un estudiante en la materia de APO sin aproximaciones. | Atributo ordenado, cuantitativo, secuencial |
retiro_banner | Valor que identifica si el estudiante retiro o no la materia. | Atributo categórico. |
pga | Promedio acumulado del estudiante. | Atributo ordenado, cuantitativo, secuencial. |
riesgo_deca | Valor que indica si el estudiante se encuentra en riesgo de acuerdo a los criterios de la decanatura o no | Atributo categórico. |
tipo_riesgo_deca | Una de las 5 categorías {2SPG, PGSS, PRAC, PRIM y PRRE} de riesgo en las que se puede clasificar un estudiante. | Atributo categórico. |
spadies | Puntaje entre 1 y 4 SPADIES identificando el nivel de riesgo que presenta un estudiante. | Atributo categórico. |
saber_biologia | Puntaje obtenido en el área de biología en el saber 11-1 (va de 0 a 100). | Atributo ordenado, cuantitativo, secuencial. |
saber_ciencias | Puntaje obtenido en el área de ciencias en el saber 11-1 (va de 0 a 100). | Atributo ordenado, cuantitativo, secuencial. |
saber_filosofia | Puntaje obtenido en el área de filosofía en el saber 11-1 (va de 0 a 100). | Atributo ordenado, cuantitativo, secuencial. |
saber_fisica | Puntaje obtenido en el área de física en el saber 11-1 (va de 0 a 100). | Atributo ordenado, cuantitativo, secuencial. |
saber_lenguajes | Puntaje obtenido en el área de lenguajes en el saber 11-1 (va de 0 a 100). | Atributo ordenado, cuantitativo, secuencial. |
saber_quimica | Puntaje obtenido en el área de química en el saber 11-1 (va de 0 a 100). | Atributo ordenado, cuantitativo, secuencial. |
saber_matematicas | Puntaje obtenido en el área de matemáticas en el saber 11-1 (va de 0 a 100). | Atributo ordenado, cuantitativo, secuencial. |
saber_v2_cienciasnaturales | Puntaje obtenido en el área de ciencias naturales en el saber 11-2 (va de 0 a 100). | Atributo ordenado, cuantitativo, secuencial. |
saber_v2_ingles | Puntaje obtenido en el área de inglés en el saber 11-2 (va de 0 a 100). | Atributo ordenado, cuantitativo, secuencial. |
saber_v2_lecturacritica | Puntaje obtenido en el área de lectura crítica en el saber 11-2 (va de 0 a 100). | Atributo ordenado, cuantitativo, secuencial. |
saber_v2_socialesciudad | Puntaje obtenido en el área de Sociales-ciudad en el saber 11-2 (va de 0 a 100). | Atributo ordenado, cuantitativo, secuencial. |
La limpieza de los datos se realizó a través de la herramienta de excel de tablas, la cual permite filtrar por valores y darse cuenta de inconsistencias. En primer lugar dado que el alcance del proyecto era el curso de APO I, eliminamos todas las filas que correspondían al curso APOII, APOII honores e introducción a la programación. En segundo lugar existían algunos datos con inconsistencias en los retiros, dado que las columnas retiro y retiro banner indican que un estudiante no había retirado, pero la nota banner era 0, lo cual implicaba que el estudiante podía encontrarse en una situación de pendiente, luego se eliminaron estos registros y no se tuvieron en cuenta. En tercer lugar, la columna retiro y la columna retiro_banner no eran coherentes, es decir que en algunas ocasiones una columna indicaba un retiro mientras que la otra no, es por esto que en retiro_banner siempre que la columna retiro indicaba un retiro hicimos que retiro_banner también lo indicara. Por último, eliminamos todas las columnas que no utilizamos para las diferentes visualizaciones, donde el listado de las columnas finales se adjunta a continuación.