Strumenti Utente

Strumenti Sito


dm:dm.2006-07

Data Mining A.A. 2006/07

Docenti:

  • KDD LAB - Knowledge Discovery Laboratory, ISTI-CNR e Dipartimento di Informatica dell'Università di Pisa http://www-kdd.isti.cnr.it

Obiettivi del corso

La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti:

  1. i concetti di base del processo di estrazione della conoscenza: studio e

preparazione dei dati, forme dei dati, misure e similarità dei dati;

  1. le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;
  2. alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.
  3. l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza

Orario

Lunedì 14-16, Aula D1, Giovedì 11-13 Aula C

Libro di Testo

• Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Addison Wesley, ISBN 0-321-32136-7, 2006

Riferimenti bibliografici

  • Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Addison Wesley, ISBN 0-321-32136-7, 2006
  • Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2000 http://www.mkp.com/books_catalog/catalog.asp?ISBN=1-55860-489-8
  • U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (editors). Advances in Knowledge discovery and data mining, MIT Press, 1996.
  • Barry Linoff Data Mining Techniques for Marketing Sales and Customer Support, John Wiles & Sons, 2002

Calendario delle lezioni

Giorno/ora Aula Argomento Materiale didattico Docente
1. Lunedì, Febbraio 19, 14-15 Aula D1 Presentazione del corso Giannotti
2. Giovedì, Febbraio 22, 11-13 Aula C Cosa è il Data Mining, Motivazioni, Classi di applicazioni, I principali metodi di datamining (Cap. 1) Slides Giannotti
3. Giovedì, Marzo 1, 11-13 Aula C I Dati: i tipi di dato, la qualità dei dati, la preparazione dei dati, misure di similarità e dissimilarità (Cap. 2) Slides Giannotti
4. Lunedì, Marzo 5, 14-16 Aula D1 Esplorazione dei dati: dalla statistica descrittava alla visualizzazione Cap. 3 Giannotti
5. Giovedì, Marzo 8, 11-13 Aula C Esplorazione dei dati: OLAP ed analisi multidimensionale - Esercitazione (Cap. 3) Giannotti
6. Lunedì, Marzo 12, 14-16 Aula D1 Regole Associative: concetti basici ed algoritmo A-Priori (Cap. 6: 6.1, 6.2, 6.3, 6.7) Giannotti
7. Giovedì, Marzo 15, 11-13 Aula C Regole Associative : tassonomie, regole quantitative, regole predittive - Pattern Sequenziali (Cap. 7: 7.1, 7.2, 7.3, 7.4) Giannotti
8. Lunedì, Marzo 19, 14-16 Aula D1 Regole Associative : Esercitazione Giannotti
9. Giovedì, Marzo 22, 11-13 Aula C Regole Associative : Esercitazione Giannotti
10. Lunedì, Marzo 26, 14-16 Aula D1 Clustering - Algoritmo k-means Nanni
11. Giovedì, Aprile 12, 11-13 Aula C Clustering - Algoritmi gerarchici e density-based Nanni
12. Lunedì, Aprile 16, 14-16 Aula A1 Lezione pratica su classificazione con strumenti commerciali e open-source Slides Bonchi
13. Giovedì, Aprile 19, 11-13 Aula C Classificazione con alberi di decisione, Algoritmo C4.5 Slides Giannotti
14. Lunedì, Aprile 23, 14-16 Aula D1 VERIFICA Giannotti
15. Giovedì, Aprile 26, 11-13 Aula C Classificazione: esercitazione - Assegnazione Progetti Giannotti - Nanni
16. Lunedì, Aprile 30, 14-16 Aula D1 - Lezione cancellata per vacanza accademica -
17. Giovedì, Maggio 3, 11-13 Aula C Pattern sequenziali - Strumenti di Data Mining: Clementine Nanni
18. Lunedì, Maggio 7, 14-16 Aula D1 Strumenti di Data Mining: Weka Nanni
19. Giovedì, Maggio 10, 11-13 Aula C Caso di studio 1: Customer Segmentation - Presentazione progetti su inquinamento Dispensa_case_studies Case_study_1 Nanni
20. Lunedì, Maggio 14, 14-16 Aula D1 Caso di studio 2: Redemption - Modello Crisp-DM - Caso di studio 3 Case_study_2 CRISP-DM Case_study_3 Nanni
21. Giovedì, Maggio 17, 11-12 Aula C Correzione compiti - Assegnazione progetti Giannotti

Verifiche 2007 e anni precedenti

Verifiche anni precedenti (sottoinsieme)

Verifiche 2007 (appelli giugno-luglio)

Progetti

I progetti proposti sono 7, pensati per gruppi di 3 persone l'uno. Una breve descrizione dei progetti è contenuta nel seguente documento: Progetti (Versione aggiornata).

Gli studenti interessati sono invitati a mandare una e-mail a Mirco Nanni, (mirco [dot] nanni [at] isti [dot] cnr [dot] it) indicando il gruppo di cui si fa parte e quali progetti, in ordine di preferenza, si vorrebbero scegliere. Gli assegnamenti definitivi verranno comunicati successivamente dai docenti del corso.

I progetti possono essere svolti utilizzando software a scelta degli studenti. (Almeno) per la fase di mining si suggerisce di utilizzare uno degli strumenti visti a lezione:

Appelli di esame

Verifica intermedia:

Appelli:

Appello Giorno Orario esame scritto Orario esami orali Aula Risultati
Martedì 5 giugno 2007 9.00 - 11.00 C1
Mercoledì 6 giugno 2007 15.00 - 18.00 Aula Seminari Ovest
Martedì 26 giugno 2007 9.00 - 11.00 13.00 - 18.00 C1
Martedì 24 luglio 2007 9.00 - 11.00 13.00 - 18.00 A1 PDF
Mercoledì 12 settembre 2007 9.00 - 11.00 B1 PDF
dm/dm.2006-07.txt · Ultima modifica: 22/02/2008 alle 11:25 (11 anni fa) da Mirco Nanni