====== Tecniche di Data Mining a.a. 2006-2007====== Docenti: * **Dino Pedreschi** http://www.di.unipi.it/~pedre [[pedre@di.unipi.it]] * **Francesco Bonchi** http://www-kdd.isti.cnr.it/~bonchi [[francesco.bonchi@isti.cnr.it]] * **KDD LAB** - Knowledge Discovery Laboratory, ISTI-CNR e Dipartimento di Informatica dell'Università di Pisa http://www-kdd.isti.cnr.it ====== News ====== * ** Appelli di gennaio-febbraio 2008: su appuntamento con il docente ** * Appello di settembre: Mercoledì 12.09.2007, ore 9:00, Aula B1 * Risultati dell'appello del 24 Luglio 2007 {{tdm:risultati.2007.07.24.pdf|pdf}} * Risultati dell'appello del 26 Giugno 2007 {{tdm:risultati26_06.pdf| pdf}} * Risultati dell'appello del 5 Giugno 2007 {{tdm:appello.2007.06.05.pdf| pdf}} * Risultati della verifica pre-appello del 30 Maggio 2007 {{tdm:risultati30_05.pdf| pdf}} * Le date degli appelli sono in linea. * Gli studenti interessati a fare un seminario o un progetto di analisi durante la sessione estiva sono pregati di comunicare a [[francesco.bonchi@isti.cnr.it]] il titolo del seminario o progetto e l'appello in cui intendono sostenere l'esame. * Si ricorda che dopo la sessione estiva non sarà più possibile sostituire l'esame orale con un seminario/progetto. ====== Obiettivi del corso ====== La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi, concentrandosi su quelli più diffusi e consolidati, ma discutendo anche gli aspetti avanzati ed ancora al limite fra tecnologia metura e ricerca. Si discutono esempi di uso delle tecniche di data mining in contesti applicativi realistici, quali la market basket analysis ed il rilevamento di frodi. Il corso si conclude con cenni sugli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti: - i concetti di base del processo di estrazione della conoscenza; - le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi, sia nelle versioni standard che avanzate; - alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici. - cenni sugli aspetti di privacy ed etici e delle tecnologie di analisi privacy-preserving. ====== Orario ====== * **Lunedì 14-16, Aula A1** * **Giovedì 16-18, Aula A** ====== Libro di Testo ====== • Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Pearson - Addison Wesley, ISBN 0-321-32136-7, 2006 * [[http://www-users.cs.umn.edu/~kumar/dmbook/index.php]] (slides e capitoli 4, 6 e 8 scaricabili liberamente). ====== Riferimenti bibliografici ====== * Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2000 http://www.mkp.com/books_catalog/catalog.asp?ISBN=1-55860-489-8 * U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (editors). Advances in Knowledge discovery and data mining, MIT Press, 1996. * Barry Linoff Data Mining Techniques for Marketing Sales and Customer Support, John Wiles & Sons, 2002 ====== Calendario delle lezioni ====== ^ ^ Giorno/ora ^ Aula ^ Argomento ^ Materiale didattico ^ Docente ^ |1.| Lunedì, Febbraio 19, 14-16 | A1 | //Presentazione del corso// | {{tdm:chap1_intro.pdf|lucidi}} | Pedreschi | |2.| Giovedì, Febbraio 22, 16-18 | A | //Cosa è il Data Mining, Motivazioni, Classi di applicazioni, I principali metodi di datamining// | | Pedreschi | |3.| Lunedì, Febbraio 26, 16-18 | A1 | //Il processo di estrazione della conoscenza, esempi: previsione di frodi fiscali, analisi competitiva, etc.// | {{tdm:bonchi260207.pdf|lucidi}} | Bonchi | |4.| Giovedì, Marzo 1, 16-18 | A | //I dati: i tipi di dato, la qualità dei dati, la preparazione dei dati// | {{tdm:tdm_data_preparation_2-3.pdf|lucidi}}| Pedreschi | |5.| Lunedì, Marzo 5, 14-16 | A1 | //Misure di similarità e dissimilarità// | {{tdm:chap2_data.pdf|lucidi}} | Pedreschi | |6.| Giovedì, Marzo 8, 16-18 | A | //Esplorazione dei dati: dalla statistica descrittiva alla visualizzazione// | {{tdm:chap3_data_exploration.pdf|lucidi}}|Pedreschi | |7.| Lunedì, Marzo 12, 14-16 | A1 | //Clustering - Algoritmo k-means// | {{tdm:chap8_basic_cluster_analysis.pdf|lucidi}} | Pedreschi | |8.| Giovedì, Marzo 15, 16-18 | A | //Clustering: Esercitazione// | | Pedreschi | |9.| Lunedì, Marzo 19, 14-16 | A1 | //Clustering - Algoritmi gerarchici e density-based// | | Pedreschi | |10.| Giovedì, Marzo 22, 16-18 | A | //Clustering - Algoritmi avanzati // | | Pedreschi | |11.| Lunedì, Marzo 26, 14-16 | A1 | //Classificazione con alberi di decisione, Algoritmo C4.5// | | Pedreschi | |12.| Giovedì, Aprile 12, 16-18 | A | //Valutazione dei modelli, Classificatori bayesiani // |{{tdm:tdm_12_aprile_07.pdf|lucidi}}| Bonchi | |13.| Lunedì, Aprile 16, 14-16 | A1 | //Classificazione con alberi di decisione, Esercitazione con strumenti software data mining // | {{tdm:TDM_DM_16_aprile_07.pdf|lucidi}}| Bonchi | |14.| Giovedì, Aprile 19, 16-18 | A | // LEZIONE ANNULLATA // | | Pedreschi | |15.| Lunedì, Aprile 23, 14-16 | A1 | //Classificazione - esercitzione con Insightful Miner // | | Pedreschi | |16.| Giovedì, Aprile 26, 16-18 | A | //Gestione del processo di KDD con strumenti commerciali e open-source// | | Pedreschi - Nanni | |17.| Lunedì, Aprile 30, 14-16 | A1 | //CANCELLATA PER vacanza accademica// | | | |18.| Giovedì, Maggio 3, 16-18 | A | //Altri algoritmi di classificazione. Assegnazione seminari e progetti.// | | Pedreschi | |19.| Lunedì, Maggio 7, 14-16 | A1 | //Regole Associative: concetti basici, algoritmi A-Priori e FP-Growth // |{{tdm:bonchi-7-maggio.pdf|lucidi}} | Bonchi | |20.| Giovedì, Maggio 10, 16-18 | A |//Itemset frequenti con vincoli // | {{tdm:bonchi-10-maggio.pdf|lucidi}}| Bonchi | |21.| Lunedì, Maggio 14, 14-16 | A1 | //Il sistema ConQueSt, Pattern Sequenziali// | {{tdm:bonchi-14-maggio.pdf|lucidi}}| Bonchi | |22.| Giovedì, Maggio 17, 16-18 | A | Privacy-preserving data mining ed aspetti etici |{{tdm:2._privacypreservingtechnologies_pedreschi_.pdf|}} {{tdm:1._geopkdd-introduction_giannotti_.pdf|lucidi}}| Giannotti - Pedreschi | |23.| **Mercoledì, Maggio 30, 9-11** | **A1** | **VERIFICA PRE-APPELLO** | | | ====== Verifiche anni precedenti ====== * {{tdm:verifica2006.pdf|Verifica 2006}} * {{tdm:verifica2005.pdf|Verifica 2005}} (con soluzioni) * {{tdm:verifica2004.pdf|Verifica 2004}} ====== Seminari e progetti di esame ====== * {{tdm:seminari_tdm_2007.pdf|Temi di approfondimento per seminari}} * {{tdm:progetti_adec_2007.pdf|Progetti di analisi}} (in collaborazione con il corso di [[http://www.cli.di.unipi.it/doku/doku.php/dm/start|Data Mining]] della Laurea Specialistica in Informatica per l'Economia e l'Azienda) * Seminari e progetti di esame già assegnati: ^ Gruppo ^ Progetto/Seminario ^ Appello ^ | Maffi | Sistemi Immunitari Artificiali | 3° | | Triolo, Parisi | Privacy Preserving Data Mining | 4°| | Pirosu | Spatio-temporal Data Mining | 4° | | Pulidori | Classificatori Bayesiani | 4°| | Accetta, Petriglieri | Algoritmi Scalabili per il Clustering | 4° | | Simon | Web Mining - ranking webpages from HITS and pagerank | 4° | | Tamberi | Anomaly Detection | 4° | | Scaiella, Rossino, Vitale | Analisi Utenti CAD | 3° | | Marcgheggiani, Cintia | Analisi dei dati di Inquinamento di Pisa | ? | | Masci, Caponi | Analidi di Dati relativi a Malattie del Fegato | ? | | Galdi, Rubino | Analidi di Dati relativi a Malattie del Fegato | ? | | Kolundzija | Graph pattern mining | 4° | | Grasso | Methods for comparing classifiers | ? | | Daoudagh, Ferro, Pardini | Analisi di dati sul Workflow | 5° | | Casanovi, Fioravanti | Analisi della defezione in Coop | 4° | | Conti, Righetti | Support Vector Machine | 5° | * Gli studenti interessati a fare un seminario o un progetto di analisi durante la sessione estiva sono pregati di comunicare a [[francesco.bonchi@isti.cnr.it]] il titolo del seminario o progetto e l'appello in cui intendono sostenere l'esame. * Si ricorda che dopo la sessione estiva non sarà più possibile sostituire l'esame orale con un seminario/progetto. ====== Appelli di esame ====== **Appello di settembre: Mercoledì 12.09.2007, ore 9:00, Aula B1** Per la sessione estiva sono previsti i seguenti tre appelli: ^ Appello ^ Giorno ^ Orario esame scritto ^ Orario esami orali, seminari, progetti ^ Aula ^ |3°| Martedì **5 giugno 2007**| 9.00 - 11.00 | 13.00 - 18.00 | **C1** | |4°| Martedì **26 giugno 2007**| 9.00 - 11.00 | 13.00 - 18.00 | **C1** | |5°| Martedì **24 luglio 2007**| 9.00 - 11.00 | 13.00 - 18.00 | **A1** | ====== Edizioni anni precedenti ====== * [[http://www.di.unipi.it/~pedre/TDM-ADEC2006.htm|TDM a.a. 2005-06]]