Strumenti Utente

Strumenti Sito


dm:dm.2008-09

Data Mining A.A. 2008/09

Docenti:

  • KDD LAB - Knowledge Discovery Laboratory, ISTI-CNR e Dipartimento di Informatica dell'Università di Pisa http://www-kdd.isti.cnr.it

News

  • [30/08/2009] I risultati dell'appello del 21 luglio 2009 sono online.
  • [06/07/2009] I risultati dell'appello del 30 giugno 2009 sono online.
  • [29/06/2009] I risultati dell'appello del 12 giugno 2009 sono online.
  • [08/06/2009] I risultati della seconda verifica sono online.
  • [22/05/2009] La seconda verifica è stata spostata al pomeriggio di giovedì 28 maggio. L'appello dell'8-12 giugno verrà invece spostato, causa coincidenza con elezioni europee.
  • Le date della seconda verifica e degli appelli sono state fissate, anche se in modo non definitivo.
  • Giovedì 21 maggio 2009 ci sarà una lezione extra di esercitazione.
  • La verifica intermedia del 7 aprile è stata anticipata alla mattina dello stesso giorno.
  • Gli studenti che devono ancora sostenere l'esame (scritto e/o presentazione progetto) possono farlo su appuntamento. Si prega di contattare il docente.

Obiettivi del corso

La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti:

  1. i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati;
  2. le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;
  3. alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.
  4. l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza

Orario e Aule

Lezioni:

  • Martedì, ore 14-16, aula C1
  • Giovedi, ore 11-13, aula D1

Ricevimento:

  • Giannotti: mercoledì 15-17, ISTI, Area Ricerca CNR, località San Cataldo, Pisa (prenotazione per e-mail)

Libro di Testo

Riferimenti bibliografici

  • Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Addison Wesley, ISBN 0-321-32136-7, 2006
  • Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2000 http://www.mkp.com/books_catalog/catalog.asp?ISBN=1-55860-489-8
  • U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (editors). Advances in Knowledge discovery and data mining, MIT Press, 1996.
  • Barry Linoff Data Mining Techniques for Marketing Sales and Customer Support, John Wiles & Sons, 2002

Calendario delle lezioni

Giorno/ora Aula Argomento Materiale didattico Docente
1. Martedì, Febbraio 24, 14-16 Aula C1 Presentazione del corso: motivazioni, classi di applicazioni dm_intro-1-2_2009.pdf Giannotti
2. Giovedì, Febbraio 26, 11-13 Aula D1 principali metodi di DM (Cap.1) idem Nanni
3. Martedì, Marzo 3, 14-16 Aula C1 I Dati: i tipi di dato, la qualità dei dati, la preparazione dei dati - Misure di similarità (Cap.2) chap2_data.pdf Giannotti
4. Giovedì, Marzo 5, 11-13 Aula D1 I Dati: Esplorazione dei dati (Cap.3) chap3_data_exploration.pdf Giannotti
5. Martedì, Marzo 10, 14-16 Aula C1 Regole Associative: concetti basici ed algoritmo A-Priori (Cap. 6: 6.1, 6.2, 6.3, 6.4, 6.7) Giannotti
6. Giovedì, Marzo 12, 11-13 Aula D1 Regole Associative: tassonomie, regole quantitative (Cap. 7: 7.1, 7.2, 7.3, 7.4) Giannotti
7. Martedì, Marzo 17, 14-16 Aula C1 Regole Associative: Pattern Sequenziali (Cap. 7: 7.1, 7.2, 7.3, 7.4) Giannotti
8. Giovedì, Marzo 19, 11-13 Aula D1 Clustering - Introduzione (Cap. 8: 8.1) chap8_basic_cluster_analysis.pdf (Slides 1-82) Nanni
9. Martedì, Marzo 24, 14-16 Aula C1 Clustering - Algoritmi k-means e gerarchici (Cap. 8: 8.2, 8.3) idem Nanni
10. Giovedì, Marzo 26, 11-13 Aula D1 Clustering - Algoritmi gerarchici e density-based (Cap. 8: 8.3, 8.4, 8.5.1) Idem Nanni
11. Martedì, Marzo 31, 14-16 Aula C1 Esercitazione di preparazione alla verifica: Regole Associative e Clustering Nanni
12. Giovedì, Aprile 2, 11-13 Aula D1 Esercitazione di preparazione alla verifica: Regole Associative e Clustering Giannotti
Martedì, Aprile 7, 11-13 Aula D1 VERIFICA
13. Martedì, Aprile 21, 14-16 Aula C1 Classificazione con alberi di decisione, Algoritmo C4.5 chap4_basic_classification.pdf Nanni
14. Giovedì, Aprile 23, 11-13 Aula D1 Classificazione Idem Nanni
15. Martedì, Aprile 28, 14-16 Aula C1 Classificazione Giannotti
16. Giovedì, Aprile 30, 11-13 Aula D1 Classificazione: esercitazione Giannotti
17. Martedì, Maggio 5, 14-16 Aula C1 Casi di studio redemption.pdf Nanni
18. Giovedì, Maggio 7, 11-13 Aula D1 Casi di studio / Strumenti di DM Giannotti
19. Martedì, Maggio 12, 14-16 Aula C1 Esercitazione di preparazione alla verifica: Classificazione Nanni
20. Giovedì, Maggio 14, 11-13 Aula D1 Casi di studio / Presentazione progetti coop_dw_abbandono.pdf Mazzoni/Nanni
21. Giovedì, Maggio 21, 11-13 Aula D1 Esercitazione di preparazione alla verifica: Classificazione Esercizio Nanni

Verifiche anni precedenti

Verifiche anni precedenti (sottoinsieme)

Verifiche 2007 (appelli giugno-luglio)

Verifiche 2008

Progetti

  • Vengono proposti 5 progetti (+1 jolly), descritti nel seguente documento: Progetti 2009.
  • I progetti andranno svolti in gruppi preferibilmente di 2 persone, eccezionalmente anche di 1 o 3 persone.
  • Ogni gruppo dovrà comunicare ai docenti la propria composizione e il progetto scelto. In particolare, si richiede di indicare più precisamente l'approccio che verrà utilizzato, in termini di definizione degli obiettivi e, in linea di massima, il tipo di analisi e di metodi di mining che verranno utilizzati. In risposta a tale comunicazione verranno inviate le istruzioni per reperire i dataset di lavoro.
  • I progetti e le corrispondenti relazioni dovranno in linea di massima seguire le linee guida del modello CRISP-DM, brevemente riassunto nelle seguenti slide: CRISP-DM. Esempio di relazione degli anni precedenti: 1c.relazione_coop_colla.pdf
  • La discussione del progetto avverrà in prossimità degli appelli d'esame regolari. I gruppi che intendono presentare il proprio progetto ad un dato appello sono pregati di (i) avvisare i docenti almeno 4-5 giorni prima dell'appello; e (ii) inviare la propria relazione, preferibilmente in formato PDF, almeno 2 giorni prima della'appello. Per entrambe le comunicazioni, scrivere a mirco [dot] nanni [at] isti [dot] cnr [dot] it.
  • La presentazione di ogni progetto durerà tra i 20 e i 30 minuti. Al termine delle presentazioni, agli studenti verrà chiesto di fornire copia della presentazione.

Software

  • I progetti possono essere svolti con qualunque software, a discrezione degli studenti, purché, ovviamente, provvisti di adeguate funzionalità di data mining.
  • Alcuni software di analisi potrebbero avere problemi a reggere la mole dei dati forniti. In tal caso, si consiglia di utilizzare un DBMS (Access, SQL Server, Oracle, MySQL, …) per effettuare una adeguata selezione/sfoltimento dei dati.
  • Tra i software di data mining disponibili, si consigliano i seguenti:

Appelli di esame

Verifiche intermedie

Data Orario Luogo Note Voti
7 aprile 2009, martedì 11-13 Aula D1 Verifica intermedia, 7 aprile 2009: Risultati (corretti il 29 aprile '09)
28 maggio 2009, giovedì 14-16 Aula D1 Testo verifica Verifica intermedia, 28 maggio 2009: Risultati

Appelli regolari

Tipo di prova Data Orario Luogo Note Voti
Appello 1 - scritto 12 giugno 2009 10-12 D1 Appello 12 giugno 2009: Risultati
orale 16 giugno 2009 10-13 B - -
Appello 2 - scritto 30 giugno 2009 10-12 D1 Testo Appello 30 giugno 2009: Risultati
orale 7 luglio 2009 10-13 D1 - -
Appello 3 - scritto 21 luglio 2009 10-12 D1 Testo Appello 21 luglio 2009: Risultati
orale 24 luglio 2009 10-13 D1 -
Appello 4 - scritto 3 settembre 2009 10-12 C Testo Appello 3 settembre 2009: Risultati
orale 10 settembre 2009 10-12 C Confermata

Edizioni anni precedenti

dm/dm.2008-09.txt · Ultima modifica: 23/12/2009 alle 15:38 (8 anni fa) da Mirco Nanni