Informació general


Tipus d'assignatura: Optativa

Coordinador:

Trimestre:2

Crèdits: 4

Professorat: Sandra Obiol Madrid

Descripció


En aquest curs s'introdueixen els mètodes bàsics de Classificació (aprenentatge supervisat) i de Clustering (aprenentatge no supervisat) en el context del Big Data. Els estudiants seguiran un estudi de cas per cadascun dels mètodes d'aprenentatge amb l'ajuda dels professors. Els estudiants faran fins un total de quatre pràctiques i al final desenvoluparàn un projecte que consistirà en l'anàlisi d'unes dades emprant les eines vistes durant el curs. A més hauran d'explicar la informació que han pogut extreure de les dades. El projecte s'haurà de presentar de forma oral a un tribunal.

Aquesta assignatura disposa de recursos metodològics i digitals per fer possible la seva continuïtat en modalitat no presencial en el cas de ser necessari per motius relacionats amb la Covid-19. D'aquesta forma s'assegurarà l'assoliment dels mateixos coneixements i competències que s'especifiquen en aquest pla docent.

Resultats d'aprenentatge


Al final de l'assignatura l'estudiant serà capaç de 

  • Entendre l'estructura de les dades que tenen a les mans
  • Netejar les dades
  • Visualitzar les dades
  • Extreure coneixement de les dades
  • Distingir entre Classificació i Clustering
  • Aplicar classificació i clustering a problemes reals 
  • Avaluar la correctesa i/o l'utilitat dels models obtinguts de la classificació i el clustering
  • Fer consultes als models obtinguts amb classificació i el clustering
  • Interpretar els models resultants i les respostes de les consultes

Metodologia de trabajo


Tots els conceptes teòrics de la matèria s'exposaran en classes de teoria (grups grans). En aquestes classes, i a discreció dels docents impartidors, també es resoldran exercicis i problemes de caire més pràctic. Així mateix, i sempre a discreció dels impartidors, es podrà demanar als estudiants que resolguin, de manera individual o en grup, problemes i/o exercicis breus. Aquestes activitats, breus i optatives, serviran a l'estudiant com a instrument d'autoavaluació del seu assoliment dels continguts de la matèria i podran ser utilitzades per part del docent per a prendre decisions sobre la qualificació final de l'estudiant bo i que mai en detriment de la qualificació numèrica calculada segons el sistema de qualificació especificat per l'assignatura.

Es recomana als estudiants/es que, en la mesura de les seves possibilitats, assisteixin a totes les classes amb un ordinador portàtil amb la capacitat d’executar el software escaient per a l’assignatura. Els docents impartidors informaran de quin és aquest software i com es pot obtenir.

Continguts


PART I        
1    Història de la ciència de dades. Del Business Intelligence al Big Data    
2    Qualitat i visualització de les dades. Informes i quadres de comandament    
3    Classificació    
    3.1    GLM
    3.2    Arbres
    3.3    Altres mètodes
PART II        
4    Mètodes Clustering    
    4.1    Mesures de distància
    4.2    Kmeans
    4.3    Clustering jeràrquic
5    Anàlisi de text    
6    Avaluació del model    
7    Projecte    

Activitats d'aprenentatge


  • Pràctica 1    Neteja i visualització de les dades    
  • Pràctica 2    Classificació de dades    
  • Pràctica 3    Clustering de dades    
  • Pràctica 4    Anàlisi de text    
  • Projecte    Analitzar i extreure informació d'un conjunt de dades usant les metodologies apreses. Avaluació del model.    

Sistema d'avaluació


La nota final es calcularà com la mitja ponderada de les diferents activitats: 

20 % Prova de classificació (Lab)
20 % Prova de clustering (Lab)
45 % Projecte final (amb presentació oral)
15 % Participació a classe

Recuperació

Es podrà recuperar la part del projecte final

Normes de realització de les activitats

Per a cada activitat, els docents n'informaran de les normes i condicions particulars que les regeixin.

Les activitats unipersonals pressuposen el compromís de l'estudiant de realitzar-les de manera individual. Es consideraran suspeses totes aquelles activitats en què l'estudiant no s'ajusti a aquest compromís,  independentment del seu paper (emissor o receptor). Igualment, les activitats que s'hagin de realitzar en grups pressuposen el compromís per part dels estudiants que l'integren de realitzar-les en el si del grup. Es consideraran suspeses totes aquelles activitat en què el grup no hagi respectat aquest compromís amb independència del seu paper (emissor o receptor).

En les activitats realitzades en grup el docent pot, en base a la informació de què disposi, personalitzar la qualificació per a cada integrant del grup.

És potestatiu dels docents acceptar o no lliuraments fora dels terminis que s'indiquin. En el cas que aquests lliuraments fora de termini s'acceptin, és potestatiu del docent decidir si aplica alguna penalització i la quantia d'aquesta.

Bibliografia


Bàsic

Cluster Analysis, 5th Edition
by Daniel Stahl, Morven Leese, Sabine Landau, Brian S. Everitt
Publisher: John Wiley & Sons
February 2011
ISBN: 9780470749913