Información general


Tipo de asignatura: optativa

Coordinador:

trimestre:2

Créditos: 4

Profesorado: Sandra Obiol Madrid

Descripción


En este curso se introducen los métodos básicos de Clasificación (aprendizaje supervisado) y de Clustering (aprendizaje no supervisado) en el contexto del Big Data. Los estudiantes seguirán un estudio de caso para cada uno de los métodos de aprendizaje con la ayuda de los profesores. Los estudiantes harán hasta un total de cuatro prácticas y al final desarrollarán un proyecto que consistirá en el análisis de unos datos utilizando las herramientas vistas durante el curso. Además deberán explicar la información que han podido extraer de los datos. El proyecto se deberá presentar de forma oral a un tribunal.

Esta asignatura dispone de recursos metodológicos y digitales para hacer posible su continuidad en modalidad no presencial en el caso de ser necesario por motivos relacionados con la Covidien-19. De esta forma se asegurará la consecución de los mismos conocimientos y competencias que se especifican en este plan docente.

Resultados de aprendizaje


Al final de la asignatura el estudiante será capaz de 

  • Entender la estructura de los datos que tienen en sus manos
  • Limpiar los datos
  • Visualizar los datos
  • Extraer conocimiento de los datos
  • Distinguir entre Clasificación y Clustering
  • Aplicar clasificación y clustering a problemas reales 
  • Evaluar la corrección y / o la utilidad de los modelos obtenidos de la clasificación y el clustering
  • Hacer consultas a los modelos obtenidos con clasificación y el clustering
  • Interpretar los modelos resultantes y las respuestas de las consultas

Metodología de trabajo


Todos los conceptos teóricos de la materia expondrán en clases de teoría (grupos grandes). En estas clases, ya discreción de los docentes impartidores, también se resolverán ejercicios y problemas de carácter más práctico. Asimismo, y siempre a discreción de los impartidores, se podrá pedir a los estudiantes que resuelvan, de manera individual o en grupo, problemas y / o ejercicios breves. Estas actividades, breves y optativas, servirán al estudiante como instrumento de autoevaluación de su adquisición de los contenidos de la materia y podrán ser utilizados por parte del docente para tomar decisiones sobre la calificación final del estudiante bueno y que nunca en detrimento de la calificación numérica calculada según el sistema de calificación especificado por la asignatura.

Se recomienda a los estudiantes / as que, en la medida de sus posibilidades, asistan a todas las clases con un ordenador portátil con la capacidad de ejecutar el software apropiado para la asignatura. Los docentes impartidores informarán de qué es este software y cómo se puede obtener.

contenidos


PARTE I        
1 Historia de la ciencia de datos. Del Business Intelligence al Big Data    
2 Calidad y visualización de los datos. Informes y cuadros de mando    
3 Clasificación    
    3.1 GLM
    3.2 Árboles
    3.3 Otros métodos
PARTE II        
4 Métodos Clustering    
    4.1 Medidas de distancia
    4.2 Kmeans
    4.3 Clustering jerárquico
5 Análisis de texto    
6 Evaluación del modelo    
7 Proyecto    

Actividades de aprendizaje


  • Práctica 1 Limpieza y visualización de los datos    
  • Práctica 2 Clasificación de datos    
  • Práctica 3 Clustering de datos    
  • Práctica 4 Análisis de texto    
  • Proyecto Analizar y extraer información de un conjunto de datos usando las metodologías aprendidas. Evaluación del modelo.    

Sistema de evaluación


La nota final se calculará como la media ponderada de las diferentes actividades: 

20% Prueba de clasificación (Lab)
20% Prueba de clustering (Lab)
45% Proyecto final (con presentación oral)
15% Participación en clase

recuperación

Se podrá recuperar la parte del proyecto final

Normas de realización de las actividades

Para cada actividad, los docentes informarán de las normas y condiciones particulares que las rijan.

Las actividades unipersonales presuponen el compromiso del estudiante de realizarlas de manera individual. Se considerarán suspendidas todas aquellas actividades en que el estudiante no se ajuste a este compromiso, independientemente de su papel (emisor o receptor). Igualmente, las actividades que se deban realizar en grupos presuponen el compromiso por parte de los estudiantes que lo integran de realizarlas en el seno del grupo. Se considerarán suspendidas todas aquellas actividad en la que el grupo no haya respetado este compromiso con independencia de su papel (emisor o receptor).

En las actividades realizadas en grupo el docente puede, en base a la información de que disponga, personalizar la calificación para cada integrante del grupo.

Es potestativo de los docentes aceptar o no entregas fuera de los plazos que se indiquen. En caso de que estas entregas fuera de plazo se acepten, es potestativo del docente decidir si aplica alguna penalización y la cuantía de la misma.

Bibliografía


básico

Cluster Analysis, 5th Edition
by Daniel Stahl, Morven Leese, Sabine Landau, Brian S. Everitt
Publisher: John Wiley & Sons
2011 de febrero
ISBN: 9780470749913