====== Data Mining A.A. 2012/13 ====== Instructors - Docenti: * **Dino Pedreschi, Fosca Giannotti, Mirco Nanni** * KDD Laboratory, Università di Pisa ed ISTI - CNR, Pisa * [[http://www-kdd.isti.cnr.it]] * [[dino.pedreschi@di.unipi.it]] * [[fosca.giannotti@isti.cnr.it]] * [[mirco.nanni@isti.cnr.it]] Teaching assistants - Assistenti: * **Anna Monreale, Luca Pappalardo, Diego Pennacchioli** * KDD Laboratory, Università di Pisa ed ISTI - CNR, Pisa * [[http://www-kdd.isti.cnr.it]] * [[annam@di.unipi.it]] * [[lpappalardo@di.unipi.it]] * [[diego.pennacchioli@isti.cnr.it]] ====== News ====== * [14.05.2013] **The text for part 2 of the project has been revised!** (an extra task has been added) See [[dm:start#esame_dm_parte_ii|Exam for DM2]] * [06.05.2013] The text for part 2 of the project is available! See [[dm:start#esame_dm_parte_ii|Exam for DM2]] * [21.03.2013] Correction: the room for lessons on Wednesday is now L1, instead of N1. * [27.02.2013] Prossime date per orali di DM: LUN 04.03.2013 ore 10:00 e LUN 18.03.2013 ore 11:00 Studio Pedreschi. * [11.02.2013] Prossima data per orali di DM: VEN 15.02.2013 ore 15:00 Studio Pedreschi. Non è possibile sostenere orali il 12.02.2013 Altre date saranno fissate prossimamente. * [21/01/2013] Le valutazioni/Evaluation del secondo esercizio sono /of the second homework is {{:dm:ris.pdf| online}} * The calendar of oral exams will be established on the first day of each session. Il calendario degli orali sarà fissato il giorno dell'appello. * [02/01/2013] **Exercise 3 is online. Deadline: two days prior of oral exam** * Appelli sessione invernale 2012-2013 - Exam sessions: Tuesday 22 January 2013 h 9:00 aula A, Tuesday 12 February 2013 h 9:00 aula C * [15/12/2012] **Exercise 2 is online. Deadline: 15.01.2013** * [05/12/2012] Le valutazioni/Evaluation del primo esercizio sono /of the first homework is {{:dm:risultati_primaverifica_2012.pdf| online}} * La lezione di/the class of Giovedi 6 Dicembre è cancellata/is canceled * Dropbox folder of [[https://www.dropbox.com/sh/mlccxpankb4i5c8/C4OKNgEPBT|audio/video lectures]] now available. * Exercise 1 is online. Deadline: 19.11.2012 * Il ricevimento del 29/10/2012 è cancellato per motivi di salute. Office hours of 29/10/2012 are canceled. * **Special issue of Crossroads - The Acm Magazine for Students - on [[http://xrds.acm.org/current-issue.cfm|Big Data analytics]]** * [[http://www.internetfestival.it/eventi/open-big-and-linked-data-un-nuovo-strumento-per-la-societa-digitale//|Internet festival]]: Dino Pedreschi and Fosca Giannotti will talk about Big Data and Social Data Mining at the panel in the Internet Festival this Saturday, October 6, in Sala Azzura at the Scuola Normale Superiore di Pisa, in Piazza dei Cavalieri. * [01/10/2012] **New rooms/aule: Gio/Thu 14:00-16:00 Aula B --- Ven/Fri 14:00-16:00 Aula A1** * [01/10/2012] **Survey: should we move the Thursday 14-16 class? Enter your availability at the following: [[http://doodle.com/75g7smz4fbzykibm|Doodle poll]]** * Remember to register as a user of this wiki and subscribe to receive a message when this wiki is updated! * [24/09/2012] Class begins Friday, September 28, 2012, h 14:00-16:00, Aula N1** --- **La prima lezione dell'edizione 2012-2013 del corso di Data Mining avrà luogo Venerdì 28 Settembre, ore 14:00 - 16:00 Aula N1 ====== Learning goals -- Obiettivi del corso ====== ** ... a new kind of professional has emerged, the data scientist, who combines the skills of software programmer, statistician and storyteller/artist to extract the nuggets of gold hidden under mountains of data. Hal Varian, Google’s chief economist, predicts that the job of statistician will become the "sexiest" around. Data, he explains, are widely available; what is scarce is the ability to extract wisdom from them. ** //Data, data everywhere. The Economist, Special Report on Big Data, Feb. 2010.// La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti: - i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati; - le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi; - alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici. - l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza ===== Reading about the "data scientist" job ===== * Data, data everywhere. The Economist, Feb. 2010 {{:dm:economist--010.pdf|download}} * Data scientist: The hot new gig in tech, CNN & Fortune, Sept. 2011 [[http://tech.fortune.cnn.com/2011/09/06/data-scientist-the-hot-new-gig-in-tech/|link]] * Welcome to the yotta world. The Economist, Sept. 2011 {{:dm:economist-2012-dm.pdf|download}} * Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review, Sept 2012 [[http://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/1|link]] * Il futuro è già scritto in Big Data. Il SOle 24 Ore, Sept 2012 [[http://www.ilsole24ore.com/art/tecnologie/2012-09-21/futuro-scritto-data-155044.shtml?uuid=AbOQCOhG|link]] * Special issue of Crossroads - The ACM Magazine for Students - on Big Data Analytics {{:dm:crossroadsxrds2012fall-dl.pdf|download}} ====== Hours - Orario e Aule ====== **Classes - Lezioni:** ^ Giorno ^ Orario ^ Aula ^ | Lunedì | 9:00 - 11:00 | Aula N1 | | Mercoledì | 9:00 - 11:00 | Aula L1 | **Office hours - Ricevimento:** * Prof. Pedreschi: Lunedì/Monday h 14:30 - 17:30, Dipartimento di Informatica * Giannotti/Nanni: appointment by email, c/o ISTI-CNR ====== Learning Material -- Materiale didattico ====== ===== Textbook -- Libro di Testo ===== * Pang-Ning Tan, Michael Steinbach, Vipin Kumar. **Introduction to Data Mining**. Addison Wesley, ISBN 0-321-32136-7, 2006 * [[http://www-users.cs.umn.edu/~kumar/dmbook/index.php]] ===== Slides del corso ===== * Le slide utilizzate durante il corso verranno inserite nel calendario al termine di ogni lezione. In buona parte esse sono tratte da quelle fornite dagli autori del libro di testo: [[http://www-users.cs.umn.edu/~kumar/dmbook/index.php#item4|Slides per "Introduction to Data Mining"]]. ===== Testi di esame ===== * Oltre ai testi e (dove disponibili) soluzioni degli appelli d'esame degli anni recenti, sono consultabili i seguenti esercizi proposti in anni precedenti. * {{tdm:verifica2006.pdf|Verifica 2006}}, {{tdm:verifica2005.pdf|Verifica 2005 (con soluzioni)}}, {{tdm:verifica2004.pdf|Verifica 2004}} * {{dm:verifica.05.06.2007.pdf|Verifica 5 giugno 2007}}, {{dm:verifica.26.06.2007.pdf|Verifica 26 giugno 2007}}, {{dm:verifica.24.07.2007_corretto.pdf|Verifica 24 luglio 2007}} (e {{dm:verifica.24.07.2007_soluzioni.pdf|Soluzioni}}) * {{:dm:verifica.2008.04.03.pdf|Verifica 3 aprile 2008}} (e {{:dm:soluzioni.2008.04.03.pdf|Soluzioni}}), {{:dm:dm-tdm.appello_2008_07_18_parte1.pdf|Verifica 18 luglio 2008 - parte 1}}, {{:dm:dm-tdm.appello_2008_07_18_parte2.pdf|Verifica 18 luglio 2008 - parte 2}} ===== Audio/video lectures ===== **Dropbox folder of [[https://www.dropbox.com/sh/mlccxpankb4i5c8/C4OKNgEPBT|audio/video lectures]] captured by students and instructors.** ===== Data mining software===== * **[[http://www.knime.org | KNIME ]] The Konstanz Information Miner. [[http://www.knime.org/download-desktop| Download page ]]** * **[[http://www.cs.waikato.ac.nz/ml/weka/ | WEKA ]] Data Mining Software in JAVA. University of Waikato, New Zealand [[http://www.cs.waikato.ac.nz/ml/weka/ | Download page ]]** ====== Class calendar - Calendario delle lezioni (2012-2013) ====== ==== First part of course, first semester (DMF - Data mining: foundations) ==== ^ ^ Day ^ Aula ^ Topic ^ Learning material ^ Instructor ^ |1.| 28.09.2012 14:00-16:00 | N1 | Intro: data mining & knowledge discovery process | Textbook, Chapt. 1 {{:dm:dm_intro-2011.pdf|}} | Pedreschi | |2.| 04.10.2012 14:00-16:00 | N1 | Overview of data mining techniques and applications | | Nanni | |3.| 05.10.2012 14:00-16:00 | N1 | Overview of data mining techniques and applications | | Nanni | |4.| 11.10.2012 14:00-16:00 | N1 | Data: types and basic measures | Textbook, Chapt. 2 {{:dm:chap2_data_new.pdf|}} | Pedreschi | |5.| 12.10.2012 09:00-11:00 | N1 | Data: types and basic measures | | Pedreschi | |6.| 18.10.2012 14:00-16:00 | N1 | Exploratory data analysis and data understanding. | Textbook, Chapt. 3 {{:dm:chap3_data_exploration.pdf|}} | Nanni | |7.| 19.10.2012 14:00-16:00 | N1 | Exploratory data analysis and data understanding. | | Pedreschi | |8.| 25.10.2012 14:00-16:00 | N1 | Exploratory data analysis and data understanding. Weka Lab | [[http://www.cs.waikato.ac.nz/ml/weka/|Weka]] | Pedreschi | |9.| 26.10.2012 14:00-16:00 | N1 | Clustering analysis. Centroid-based methods | Textbook, Chapt. 8 {{:dm:chap8_basic_cluster_analysis.pdf|}} | Pedreschi | |10.| 08.11.2012 14:00-16:00 | N1 | Clustering analysis. Hierarchical methods | | Pedreschi | |11.| 09.11.2012 14:00-16:00 | N1 | Clustering analysis. Density-based methods | | Pedreschi | |12.| 15.11.2012 14:00-16:00 | N1 | Clustering analysis. Validation and Weka Lab | | Pedreschi | |13.| 16.11.2012 14:00-16:00 | N1 | Classification and predictive methods | Textbook, Chapt. 4 {{:dm:chap4_basic_classification.pdf|}} | Pedreschi | |14.| 22.11.2012 14:00-16:00 | N1 | Classification. Decision trees | | Pedreschi | |15.| 23.11.2012 14:00-16:00 | N1 | Classification. Decision trees | | Pedreschi | |16.| 29.11.2012 14:00-16:00 | N1 | Classification. Rule-based and bayesian methods | | Pedreschi | |17.| 30.11.2012 14:00-16:00 | N1 | Classification. Validation and Weka Lab | | Pedreschi | |18.| 06.12.2012 14:00-16:00 | N1 | canceled | | Pedreschi | |19.| 07.12.2012 14:00-14:00 | N1 | Classification. Validation and Weka Lab | |Pedreschi | |20.| 13.12.2012 14:00-16:00 | N1 | canceled | | Pedreschi | |21.| 14.12.2012 14:00-14:00 | N1 | Wrap-up. Presentation of Second Semester syllabus| | Pedreschi, Giannotti, Nanni | ==== Second part of course, second semester (DMA - Data mining: advanced topics and case studies) ==== ^ ^ Day ^ Aula ^ Topic ^ Learning material ^ Instructor ^ |1.| 18.02.2013 9:00-11:00 | N1 | Introduction | | Giannotti | |2.| 27.02.2013 9:00-11:00 | N1 | Frequent patterns and association rules / 1 | {{:dm:2-3tdm-restructured_assoc_2013.pdf|Association Rules -- Slides}} | Giannotti | |3.| 04.03.2013 9:00-11:00 | N1 | Frequent patterns and association rules / 2 | | Giannotti | |4.| 06.03.2013 9:00-11:00 | N1 | Frequent patterns and association rules / 3 | | Giannotti | |5.| 11.03.2013 9:00-11:00 | N1 | Introduction to CRM and Churn analysis | {{:dm:1.dm2_crm_customersegmentation-airmiles_2013.pdf|}} {{:dm:3.dm2012_st_events.pdf|}} {{:dm:4.dm2_churn_coop_2013.pdf|}} {{:dm:4.dm2_churn_intro_2013.pdf|}} | Giannotti | | 6. | 13.03.2013 9:00-11:00 | N1 | Association rules on DM tools | {{:dm:en_tanagra_assoc_rules_comparison.pdf|}} [[http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes]]| Giannotti | |7.| 18.03.2013 9:00-11:00 | N1 | Sequential patterns / 1 | Textbook, Sect. 7.4 {{:dm:sequential_patterns.pdf|Sequential Patterns - Slides}} [1-12] | Nanni | |8.| 20.03.2013 9:00-11:00 | N1 | Sequential patterns / 2 | Sequential Patterns - Slides [13-24] | Nanni | |9.| 25.03.2013 9:00-11:00 | N1 | Time series / 1 + Data exploration: assignments | {{:dm:time_series_from_keogh_tutorial.pdf|Time Series - Slides}} [1-34] | Nanni | |10.| 27.03.2013 9:00-11:00 | L1 | Time series / 2 | Time Series - Slides [35-84] | Nanni | |11.| 08.04.2013 9:00-11:00 | N1 | Classification: evaluation methods + Case study: Fraud detection| {{:dm:fraud_detection.pdf|}}{{:dm:dm2-fraudedetection1.ppt.pdf|}} | Giannotti | |12.| 10.04.2013 9:00-11:00 | L1 | Network diffusion and Virality Marketing| {{:dm:7.mains_crm_innovatori.pdf|}} | Giannotti | |13.| 15.04.2013 9:00-11:00 | N1 | Mobility Data Mining / 1 | {{:dm:spatio-temporal-dm_2012.pdf|Mobility DM - Slides}} [1-33] + Reference book chapter (ask to instructor) | Nanni | |14.| 17.04.2013 9:00-11:00 | L1 | Mobility Data Mining / 2 | | Nanni | |15.| 22.04.2013 9:00-11:00 | N1 | Case study: Mobility Data Mining | {{:dm:slides20120229.pdf|MDM case study}} {{:dm:d4d.pdf|GSM for transport plannig}} | Nanni | |16.| 24.04.2013 9:00-11:00 | L1 | Case study: Mobility Data Mining/2 | | Giannotti - Nanni | |17.| 06.05.2013 9:00-11:00 | N1 | Data exploration: results of assignments + Presentation of projects | {{:dm:project_1_solution.pdf|Project 1 sample solution}} | Nanni | |18.| 08.05.2013 9:00-11:00 | L1 | Data Mining and Privacy/1 | {{:dm:privacy_lezione14-16.ppt.pdf|Privacy}} {{:dm:capprivacy.pdf|Mobility Data & Privacy}} | Giannotti | |19.| 13.05.2013 9:00-11:00 | N1 | Case study: Mining official data ed health data | {{:dm:5.dm2-miningofficialdata.pdf|Mining Official Data}} | Nanni | |20.| 15.05.2013 9:00-11:00 | L1 | Data Mining and Privacy/2 | | Giannotti | ====== Modalità di esame ====== ===== Esame DM parte I ====== L'esame consiste in una prova scritta ed in una prova orale: * La **prova scritta** è composta essenzialmente di esercizi sui metodi e algoritmi visti a lezione. I testi degli appelli d'esame passati vengono regolarmente messi online e possono essere presi come riferimento generale. La prova scritta può essere sostituita dalle due verifiche intermedie: nel caso vengano entrambe superate con successo la media dei loro voti costituirà il voto con cui presentarsi all'orale -- a meno che non si sostenga nuovamente l'esame scritto, nel qual caso il voto più recente cancella quelli precedenti (in meglio o in peggio). Non è possibile recuperare una sola verifica intermedia durante gli appelli d'esame regolari. Per l'a.a. 2011-2012, le verifiche intermedie sono sostituite da una serie di esercizi che verranno proposti durante il corso. * La **prova orale** verte sugli aspetti più teorici del corso (definizioni, metodi, algoritmi, ecc.) trattati a lezione, oppure dalla discussione di bibliografia concordata con i docenti. ===== Esame DM parte II ====== L'esame consta di due parti: * Un **progetto**, da scegliere tra quelli presentati a lezione. Gli interessati sono pregati di (1) scrivere a [[mirco.nanni@isti.cnr.it]] per ricevere i dati relativi al progetto scelto; (2) svolgere il progetto seguendo la traccia acclusa; e (3) inviare ai docenti una relazione che riassuma procedimento e risultati del progetto stesso, almeno 2 giorni prima di sostenere l'esame orale. * Traccia progetto 1: {{:dm:projects_dm_2012-13_part_1.pdf|Market transactions}} * Tracce progetto 2: {{:dm:projects_dm_2012-13_part_2_market.pdf|Market}}{{:dm:projects_dm_2012-13_part_2_fraud.pdf|Fraud}} {{:dm:projects_dm_2012-13_part_2_mobility.pdf|Mobility}} * Un **orale**, che include: (1) discussione del progetto svolto; (2) discussione degli argomenti culturali trattati a lezione; (3) teoria ed esercizi su regole associative e pattern sequenziali. ====== Esercizi 2011-2012 ====== ===== Esercizi DM parte I ===== * ** Data understanding: Pima indian dataset. Assigned on: 05.11.2012. To be completed within: 19.11.2012. Send papers (3 pages max of text, figures excluded) by email to [[pedre@di.unipi.it]] cc Anna Monreale [[annam@di.unipi.it]]. Use "[DM] exercise 1" in the subject. ** Download the Pima Indians Diabetes Data Set from the UCI Machine Learning Repository [[http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes]], explore the dataset with the analytical tools of KNIME or Weka (or whatevr you like) and write a concise "data understanding" report describing data semantics, assessing data quality, the distribution of the variables and the pairwise correlations. To load the file to Weka or KNIME: 1) rename the file using the .csv extension (comma separated values); 2) insert in the file a row in first position assigning names to the various variables (attributes). Valutazioni/Evaluations: {{:dm:risultati_primaverifica_2012.pdf| online}} * ** Clustering analysis: CarDrivers dataset. Assigned on: 09.12.2012. To be completed within: 15.01.2013. Send papers (3 pages max of text, figures excluded) by email to [[pedre@di.unipi.it]] cc: Anna Monreale [[annam@di.unipi.it]]. Use "[DM] exercise 2" in the subject. ** Download the {{:dm:cardrivers.rar|Car Drivers dataset}} (in CSV format, zipped). The dataset contains a number of variables describing the driving habits of a population of car drivers, in terms of number, length and duration of travels, probability of travelling on highways, in cities, at night, entropy of travels over roads, places, or in time, radius of gyration (average distance from mean position or most frequent location L1), and so on (more precise description of variables available soon). Perform an adequate data understanding phase, and then clustering analysis, with any of the studied methods, using an appropriate subset of variables. Determine an adequate number of clusters, if any, and try to explain the properties of the discovered clusters (or else, argue why this dataset does not exhibit a clustering structure). **Guidelines for the homework and a detailed description of the variables are [[dm:start:clustering|here]]. ** * ** Classification analysis: Breast Cancer Wisconsin (Diagnostic) Data Set. Assigned on: 02.01.2013. To be completed within: two days prior to oral exam. Send papers (3 pages max of text, figures excluded) by email to [[pedre@di.unipi.it]] cc: Anna Monreale [[annam@di.unipi.it]]. Use "[DM] exercise 3" in the subject. ** Download the {{http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29|dataset}} from the UCI archive. The dataset contains observations on samples of breast tissue, together with their classification as benign or malignant, as performed by istologists. Determine a decision tree for the task of classifying (diagnosing) a sample as benign or malignant. Describe the process adopted to select the proposed tree, together with its quality evaluation. * NOTE: in the depository you can find more than one dataset. You can use the dataset that you prefer! ===== Esercizi DM parte II ===== ====== Appelli di esame ====== ===== Verifiche intermedie/Esercizi ===== ^ ^ Data ^ Orario ^ Luogo ^ Note ^ Voti ^ |I Esercizio e II Esercizio | | | | | | ===== Appelli regolari ===== ^ Appello ^ Data ^ Orario ^ Luogo ^ Note ^ Voti ^ | | Tuesday 22 January 2013 | 9:00 | Aula A | | | | | Tuesday 12 February 2013 | 9:00 | Aula C | | | | | Monday 28 January 2013 | 10:00 | Pedreschi's Office |oral exam | | | | Friday 01 February 2013 | 15:00 | Pedreschi's Office |oral exam | | | | Wednesday 06 February 2013 | 15:00 | Pedreschi's Office |oral exam | | | | | | | | | | | June 3, 2013 (Monday) | 9:00 | Aula N1 | | | | | July 1, 2013 (Monday) | 9:00 | Aula N1 | | | | | July 24, 2013 (Wednesday) | 9:00 | Aula L1 | | | ====== Edizioni anni precedenti ===== * [[dm.2011-12]] * [[dm.2010-11]] * [[dm.2009-10]] * [[dm.2008-09]] * [[dm.2007-08]] * [[dm.2006-07]] * [[PhDWorkshop2011]] * [[SNA.Ingegneria2011]] * [[SNA.IMT.2011]] * [[MAINS.SANTANNA.2011-12]] * [[MAINS.SANTANNA.DM4CRM.2012]]