Jorge Casillas

Al Grano con la Ciencia de Datos: Ejemplos Prácticos para Entender el Mundo Datificado

Profesor: Jorge Casillas

El taller consta de 8 horas con presencialidad telemática a través de la plataforma Google Meet

  • La primera edición se realizó los días 14, 16, 21 y 23 de abril de 2020 de 11h a 13h (UTC+1).
  • La segunda edición se realizó los días 20, 22, 27 y 29 de abril de 2020 de 11h a 13h (UTC+1).
  • La tercera edición se realizó los días 26 y 28 de mayo y 2 y 4 de junio de 2020 de 11h a 13h (UTC+1).

Requisitos:

  • Disponer de una cuenta de Google (@gmail.com, @go.ugr.es, etc.).
  • Para las clases telemáticas en Google Meet, se puede utilizar un ordenador, portátil, tablet o smartphone. En los dos primeros casos, se puede usar cualquier navegador web, aunque se recomienda Chrome e instalar la extensión Google Meet Grid View. Para la tablet o el smartphone, se debe instalar la app Hangouts Meet disponible en Google Play para Android y App Store para iOS.
  • El dispositivo deberá estar equipado con una cámara, altavoz y micrófono para la participación durante las clases. Se recomienda y ruega emplear auriculares con micrófono para una mejor comunicación.
  • Las prácticas en el software especializado de ciencia de datos y visualización deberá realizarse en ordenador o portátil. Aunque quizás sea posible usar tablets (según la versión y capacidad del dispositivo), no se recomienda. El uso de smartphones está totalmente desaconsejado. El software no necesita ser instalado en los dispositivos, todo su funcionamiento se hace on-line a través de cualquier navegador web.
  • Ganas de aprender y trabajar en equipo con especialistas de otras disciplinas.

Recomendaciones del alumnado

Con el curso probarás la Ciencia de Datos. ¡Cuidado! Es adictiva :)
Interesantísimo. Asequible por buena dirección. Salto de calidad. Machine learning es el futuro a día de hoy.
Aprenderás muchísimo, te divertirás y te sorprenderás.
Taller 100% recomendable: la complejidad del tema se convierte en accesible de la mano de un gran experto en el tema y de la comunicación.
Una buena forma de adentrarse en el mundo de los datos, prepárate para preguntarte millones de cuestiones nuevas.
Buen curso, ¡es muy difícil aprender tantas cosas en tan poco tiempo!

Presentación

El mundo datificado en el que vivimos, desde las redes sociales a las plataformas de comunicaciones o los dispositivos móviles, ofrecen una forma de acumular nuevos datos a gran escala, el conocido big data. Ciencia de datos proporciona la experiencia técnica necesaria para analizar estos datos, a veces heterogéneos y no estructurados. Pero este proceso debe ser complementado con un enfoque cualitativo obteniendo datos etnográficos e información subjetiva que permitan poner de manifiesto los contextos del objeto de estudio, el llamado thick data.

Los datos pueden ayudar a comprender grandes temas de interés crucial para muchas áreas. Desde las ciencias biosanitarias a las ciencias sociales y políticas, pasando por la empresa, la economía o el deporte, todas se interesan por análisis cuantitativos que expliquen comportamientos sociales, diseños de mercados, efectos epidemiológicos y cualquier otra forma responsable de mejorar el valor de los datos.

Por las implicaciones éticas que subyacen y la necesidad de complementar el análisis con información cualitativa, en los equipos multidisciplinares de ciencia de datos cada vez es más demandada la participación de especialistas en psicología, antropología, sociología, ciencias políticas, ética, medicina, biología, economía, etc. con una base técnica fundamental en ciencia de datos.

Este breve taller pretende traer el campo de la ciencia de datos a este contexto con un enfoque eminentemente práctico donde, sin necesidad de instalar ningún software, a partir de herramientas on-line, el alumnado podrá aplicar los fundamentos del aprendizaje automático (la rama de la inteligencia artificial que genera conocimiento a partir de datos) y la visualización (técnicas avanzadas de generación de gráficos) para abordar problemas de distinto tipo (sociales, empresa, salud…) desde un nuevo enfoque.

A quién va dirigido

El taller está orientado a toda persona con interés en acercarse por primera vez a la ciencia de datos, el aprendizaje automático y el big data, pero sin conocimientos previos en el campo y sin necesidad de formación avanzada en informática. No obstante, se recomienda cierta destreza en el uso fluido de software e informática en general para mejor aprovechamiento del taller. En cualquier caso, el profesor irá guiando a todo el alumnado para una consecución satisfactoria de los objetivos docentes.

Objetivos

  1. Comprender qué es el aprendizaje automático, la ciencia de datos y el big data.
  2. Entender lo que pueden y no pueden hacer; lo que deben y no deben hacer.
  3. Comprender su base conociendo algunos algoritmos básicos.
  4. Ganar experiencia en la aplicación de estas técnicas a datos del mundo real.

Contenidos

  • Introducción, aprendizaje automático, big data, casos de uso.
  • Clasificación: modelos predictivos mediante árboles de decisión.
  • Clustering: segmentación y análisis relacional.
  • Reglas de asociación: modelos de causalidad.
  • Análisis exploratorio de datos mediante visualización.
  • Implicaciones éticas de la ciencia de datos: aprendizaje automático responsable.
  • Prácticas con herramientas on-line especializadas.
  • Resolución por equipos de un microproyecto de ciencia de datos. Algunos ejemplos de los posibles proyectos son: análisis de Twitter sobre política o salud, predicción de campañas de telemarketing, análisis de ventas, perfiles de pacientes, diagnóstico de enfermedades, análisis relacional de cuestionarios médicos o sociales, flujos migratorios, etc.
  • Vídeos y tutoriales de apoyo, algunos con contenidos originales del profesor, para reforzar y completar la formación autónoma.


* nube de palabras sobre el taller generada por el alumnado

Metodología

Las clases serán telepresenciales a través de la plataforma Google Meet. Se empleará también software on-line especializado en ciencia de datos y visualización de fácil ejecución en cualquier ordenador de sobremesa o portátil. No podrán emplearse tablets o smartphones para realizar las prácticas, aunque sí se pueden usar para las clases telepresenciales.

El taller se compone de cuatro sesiones de dos horas cada una repartidas del siguiente modo:

  • Sesión 1: Conceptos básicos de introducción a ciencia de datos, aprendizaje automático y sus cuatro paradigmas fundamentales de clasificación, regresión, clustering y reglas de asociación.
  • Sesión 2: Introducción a software on-line (sin necesidad de instalación) para visualización y ciencia de datos. Durante la sesión, el alumnado votará para elegir entre varias propuestas (principalmente de aplicaciones sociales, de empresa o de salud) cuatro proyectos distintos (con datos reales), uno representativo de cada paradigma de aprendizaje automático. Posteriormente se organizarán equipos de 2 o 3 personas (buscando multidisciplinaridad y adaptando la dificultad del problema a las destrezas del alumnado) para que aborden uno de esos proyectos. El alumnado dispondrá de varios días para trabajar de forma autónoma en equipo en el proyecto que le corresponda.
  • Sesión 3: La primera parte de la sesión se dedica a completar la formación según las necesidades que se hayan observado e incluyendo otros aspectos como diseñar algoritmos de aprendizaje automático que sean justos y equitativos para evitar sesgos. La segunda mitad se dedica a una primera puesta en común de los resultados preliminares de los distintos equipos y resolución de dudas.
  • Sesión 4: Cada equipo expondrá su trabajo final y se contrastarán los diferentes enfoques seguidos para el mismo problema. Posteriormente se debatirá con el resto del alumnado en una discusión común y se propondrán diferentes mejoras al análisis.

El taller consta de 8 horas telepresenciales donde el alumnado puede interactuar en directo con el profesor, que se estima que supone alrededor del 35% del tiempo total de dedicación. Adicionalmente, se recomiendan hasta 6 horas más de vídeos y tutoriales para completar y reforzar la formación. Finalmente, se estima que el trabajo autónomo en el microproyecto en equipos de 2 o 3 personas puede suponer entre 4 y 8 horas de trabajo, incluyendo el tiempo de comunicación entre el equipo. En definitiva, supone hasta 2 horas de media al día de dedicación en el periodo que dura el taller. No obstante, cada alumno o alumna puede adaptar el trabajo autónomo a sus circunstancias personales y participar con mayor o menor esfuerzo.


Resultados de la encuesta

Se recibieron 45 respuestas del total de 72 participantes de las tres ediciones. Estos son los resultados.

Valora la metodología seguida en el taller (organización, herramientas usadas...)
  •  10 (38%)
  •   9 (36%)
  •   8 (15%)
  •   7 (11%)

Valora tu opinión sobre el profesor Jorge Casillas (conoce bien el temario, explica bien, es respetuoso, anima a la participación, etc.)
  •  10 (73%)
  •   9 (20%)
  •   8 (7%)

Si pudieras elegir hacer el mismo taller en un espacio físico de la forma tradicional o en uno virtual de modo telemático como se ha realizado, ¿cuál preferirías?
  •  Espacio físico, tradicional (56%)
  •  Espacio virtual, telemático (44%)

Indica tu grado de interés en lo que se ha hecho en el taller
  •  10 (51%)
  •   9 (29%)
  •   8 (11%)
  •   7 (7%)
  •  6

Valora tu opinión global sobre el taller
  •  10 (45%)
  •   9 (18%)
  •   8 (29%)
  •   7
  •   6

Algunos comentarios del alumnado

Es un taller que, más que enseñarte ciencia de datos, te enseña a aprender por tí mismo ciencia de datos, dándote pilares para construir nuevos conocimientos.
Simplemente perfecto. Una experiencia muy enriquecedora y amena.
En pocas horas te introduce en el mundo de los datos, me ha gustado descubrir herramientas potentes para la visualización de datos, los problemas propuestos son interesantes y prácticos. Mucho material complementario para aprender fuera del horario del curso.
Ha sido un taller muy práctico en el que se fomentaba el aprendizaje de manera autónoma. Los materiales han sido muy completos, adecuados para el nivel del curso. Un primer contacto con el mundo del aprendizaje automático muy acertado.
Me ha gustado trabajar en grupo y resolver problemas prácticos, que te obliga a trabajar más y saber cómo funciona el software.
Dado el tiempo del curso, ha habido una distribución óptima del tiempo para compaginar las explicaciones por parte del profesor como el trabajo colaborativo del alumnado. Además, la organización previa al comienzo con la agenda enviada con todos los enlaces para días de videollamada y no, orienta de manera exponencial el seguimiento del curso.
Considero que ha sido un proceso de aprendizaje bastante adecuado si atendemos a un primer acercamiento. Especialmente para aquellas personas que no teníamos una formación previa en ciencia de datos.
Acabas el curso con ideas muy claras de los conceptos impartidos, permitiendo así saber si es un tema que te interesa ahondar más o no según gusto personal.