Iteraciones sobre el proyecto

Selección cliente

El día 25 de septiembre se realizó la selección del proyecto a través de Slack. El proyecto que el grupo seleccionó pertenece al equipo cupi2 de la Universidad de los Andes que trabaja en temas relacionados con las clases de algorítmica y programación en niveles introductorios. Nosotros siendo estudiantes y habiendo visto esta clase tuvimos gran interés en poder contribuir con este proyecto. Más específicamente, el cliente quería evaluar cómo factores externos al curso de Algorítmica y programación orientada a objetos, en adelante APO, influyen en el éxito del estudiante en la materia y de acuerdo a esto aplicar esos conocimientos y tomar medidas para ayudar a los estudiantes en el nuevo curso de introducción a la programación, en adelante IP, que se está desarrollando.

Primera reunión cliente

Con el fin de identificar el problema que el cliente quería solucionar y conocer sus expectativas, tuvimos una primera reunión en la que la líder del proyecto cupi2 habló con nuestro equipo. Esta reunión se llevó a cabo el día jueves 3 de Octubre a través de Skype. En principio el cliente tenía ciertas hipótesis sobre los resultados de los estudiantes en APO y las posibles consecuencias a esto. Entre las hipótesis presentadas se encuentran:

Con relación a los cursos de precálculo y cálculo:

Con relación al curso de español:

Con relación a la prueba Saber 11:

Además nos hizo entrega de un archivo excel con los datos. Posteriormente, revisamos el archivo y pudimos realizar preguntas sobre los atributos y su significado. A partir de las hipótesis se identificaron las áreas sobre las cuales la cliente quería enfocar el proyecto dado que las visualizaciones permiten identificar más insights que solo los datos estadísticos que se obtienen de excel. En vista de que los datos que nos fueron entregados contienen información sensible sobre los estudiantes, fuimos llamados a firmar un acuerdo de confidencialidad en el cual se nos pidió usar esta información sólo para fines académicos, salvaguardando la identidad de los estudiantes y no permitir el acceso a los datos por parte de terceros.

Primera propuesta del proyecto

Para el 10 de Octubre se hizo la propuesta inicial del proyecto, la cual está disponible en siguiente enlace. De acuerdo a la primera reunión con el cliente y las hipótesis planteadas se identificaron tres áreas de trabajo. La identificación de insights a partir de las áreas descritas anteriormente se puede describir en tres tareas principales:

  1. Resumir (Query -> Summarize) las distribuciones (Attributes->One->Distribution) de las notas de precálculo de los estudiantes con su desempeño en la materia de APOI, desempeño en término de la nota obtenida y retiros.

  2. Identificar ( Query -> Identify) las correlaciones (Attributes -> Many -> Correlation) entre las notas de español y las obtenidas en la clase de APO.

  3. Identificar ( Query -> Identify) las correlaciones (Attributes -> Many -> Correlation) entre el puntaje del icfes (en el criterio de lectura crítica) y las notas obtenidas en la clase de APO.

A partir de estas tareas se realizaron 4 modismos: dos modismos para la primera tarea y un modismo para la tarea dos y tres respectivamente. Todas las visualizaciones se realizaron bajo el framework de Tamara por lo que cada una cumple una tarea y describe información sobre el what?, why? y how?.

Primer reporte de progreso

El primer reporte de progreso se presentó el martes 22 de Octubre. El informe contiene la contextualización sobre la materia APO y algunas estadísticas históricas de la materia, la descripción de las hipótesis planteadas por el cliente, la caracterización de los datos, que bajo el framework de Tamara se describe como el “what?”, y la definición de tareas secundarias que se construyeron a partir de las tareas principales descritas en la primera iteración del proyecto. Ampliando la descripción del “what?” se encuentra la explicación sobre lo que significan los atributos seleccionados, la clasificación de los atributos donde se tuvo dos tipos: categóricos y ordenados, cuantitativos, secuenciales. Además, dadas las características de los datos y la forma como fueron entregados se tiene un dataset de tipo tabla. Para esta entrega se realizó una presentación en Google slides y un documento con la información detallada de la entrega disponible en el siguiente enlace .

Pruebas de usabilidad

Las pruebas de usabilidad se llevaron a cabo el lunes 11 de Noviembre. Para esto se realizaron tres entrevistas con personas involucradas en el proyecto cupi2 y se realizó un reporte que se encuentra disponible en el siguiente enlace Para cada entrevista se hicieron una serie de preguntas cuantitativas y cualitativas. En primer lugar se definió el perfil del participante, se aclaró la forma en la que el equipo usaría la información recolectada y se pidió consentimiento para poder grabar la entrevista. A continuación, se realizaron una serie de preguntas y se pidió al participante interactuar con la aplicación. Paralelamente, se solicitó al participante compartir sus pensamientos y opiniones sobre la herramienta en voz alta. Por último, una vez terminada la interacción con las visualizaciones se realizó una encuesta Likert con el fin de obtener datos cuantitativos sobre la usabilidad de la herramienta y saber que tan de acuerdo o en desacuerdo estaba el participante sobre las afirmaciones presentadas. De esto se obtuvo retroalimentación valiosa para iterar sobre el producto. Cabe aclarar que una de las pruebas se realizó directamente con el cliente por lo que pudimos conocer la efectividad de las visualizaciones para cumplir con las tareas planteadas. De esto se discutieron posibles mejoras con el fin de facilitar la usabilidad y definir nuevos modismos que incluyeran información valiosa y la transmitieran de forma más clara que lo que estaba siendo presentado. A partir de la retroalimentación de los participantes se encontraron puntos de mejora en el proyecto. Para las visualizaciones que dan cumplimiento a la primera tarea se identificaron estos problemas:

  1. No se puede identificar fácilmente qué puntos representan que semestres.

  2. Es muy difícil entender el modismo para los usuarios sin que el entrevistador interviniera para explicar la visualización.

  3. Falta incluir las notas de APO en la visualización, es decir aplicar un diagrama de caja y bigotes de la misma forma en el eje X pero en el eje Y poner las notas de APO I, ya que con las notas y los retiros es mas fácil concluir acerca de la hipótesis si precalculo debía ser un prerrequisito de APO I.

de los anteriores problemas se plantearon las siguientes soluciones:

  1. Agregar un canal de color a los puntos para que se puedan identificar por semestre.

  2. Encontrar una forma de entrenar al usuario sin tener que intervenir yo directamente, es decir realizar una clase de tutorial que explique desde que es un diagrama de caja y bigotes, hasta explicar detalladamente que representan los ejes.

  3. Realizar una nueva visualización cambiando el eje Y por las promedio de las notas de APO I, ya que meter las notas en el mismo diagrama puede violar el principio de expresividad.

De la misma manera para la visualización que da cumplimiento a la segunda tarea se identificaron estos problemas:

  1. La visualización no permite extraer información extra sobre los datos. Es decir, información sobre la cantidad de estudiantes que tienen comportamientos iguales o similares en sus notas.

  2. Identificar que tipo de datos estoy teniendo en cuenta a la hora de realizar la visualización (cuando el estudiante retiro la materia o no la está viendo ese semestre).

  3. No hay un componente visual que ayude al usuario a validar que si existe esa correlación en las notas de APO y español. Debido a que hay dispersión muy alta de los datos en algunos rangos.

y de acuerdo a esto se determinaron las siguientes soluciones:

  1. Se tiene pensado realizar un cambio en el modismo a un heatmap, debido a que con el canal del color se puede brindar al usuario una estimación sobre la cantidad de estudiantes que tienen un comportamiento igual o similar en sus notas de APO y Español a través de las celdas del heatmap. De esta manera, se puedan analizar los datos en conjunto (una celda del Heatmap) y no por unidad (los puntos utilizados en la visualización), la cual no aporta información relevante al usuario.

  2. Poner un filtro en la visualización sobre los estudiantes que no están cursando la materia o la retiraron.

  3. Se tenía pensado realizar una regresión lineal sobre los datos en la visualización por puntos, pero debido al cambio de modismo, no tiene sentido la regresión lineal. Por otro lado, el agrupar por comportamiento (realizar pequeños clusters) ayuda a disminuir la dispersión que se observa en el modismo actual. Sin embargo, este hallazgo se evaluará de nuevo una vez realizado el nuevo modismo.

Por último, para la visualización que da cumplimiento a la tercera tarea se identificaron estos problemas:

  1. Los rangos no son claros para evidenciar cómo se dividen los grupos. No se entiende la división que se hizo de los puntajes que se hicieron de lectura crítica.

  2. El propósito del color no se entiende. Mientras que los 3 participantes denotaron el color como un indicador de la nota promedio de APO en un rango de lectura crítica, el verdadero propósito era mostrar densidad en los grupos. Es decir, entre más oscuro el tono de azul, mayor es la cantidad de estudiantes que pertenecen a ese rango.

  3. No hay una forma de saber cuántas personas pertenecen a un mismo grupo/rango de puntajes de lectura crítica en el icfes.

No hay una forma de saber cuántas personas pertenecen a un mismo grupo/rango de puntajes de lectura crítica en el icfes.

  1. De acuerdo a la retroalimentación de los tres participantes, se considera la opción de replantear el modismo. El color no fue interpretado de la manera correcta y los rangos no fueron la manera más efectiva para agrupar los puntajes de lectura crítica. A partir de esto se plantea como solución el uso de un heatmap donde el eje x sea el puntaje en lectura crítica y el eje y se la nota final en APO.

  2. Cada casilla corresponderá a un hue de azul donde el color más fuerte represente una mayor cantidad de estudiantes en esa categoría.

  3. Se utilizará la interactividad del mapa para mostrar información más precisa cómo la cantidad de estudiantes en esa categoría, la nota de APO y la puntuación de español en el icfes.

Segundo reporte de progreso

A partir de la retroalimentación obtenida en las pruebas de usabilidad y las soluciones planteadas a los problemas encontrados se corrigieron las visualizaciones. Estas se encuentran en el siguiente link De ahí se tiene que se incluyeron nuevos datos para cumplir con las tareas y se cambiaron los modismos correspondientes a la segunda y tercer tarea. Se implementaron heatmaps para las tareas dos y tres. Para la segunda tarea se incluyó información de retiros lo que permite filtrar la información. Respecto a la tercera tarea, se incluyó otro modismo, ahora el icfes incluye no solo los resultados en lectura crítica sino que también muestra los resultados de matemáticas.