Strumenti Utente

Strumenti Sito


dm:dm.2012-13

Data Mining A.A. 2012/13

Instructors - Docenti:

Teaching assistants - Assistenti:

News

  • [14.05.2013] The text for part 2 of the project has been revised! (an extra task has been added) See Exam for DM2
  • [06.05.2013] The text for part 2 of the project is available! See Exam for DM2
  • [21.03.2013] Correction: the room for lessons on Wednesday is now L1, instead of N1.
  • [27.02.2013] Prossime date per orali di DM: LUN 04.03.2013 ore 10:00 e LUN 18.03.2013 ore 11:00 Studio Pedreschi.
  • [11.02.2013] Prossima data per orali di DM: VEN 15.02.2013 ore 15:00 Studio Pedreschi. Non è possibile sostenere orali il 12.02.2013 Altre date saranno fissate prossimamente.
  • [21/01/2013] Le valutazioni/Evaluation del secondo esercizio sono /of the second homework is online
  • The calendar of oral exams will be established on the first day of each session. Il calendario degli orali sarà fissato il giorno dell'appello.
  • [02/01/2013] Exercise 3 is online. Deadline: two days prior of oral exam
  • Appelli sessione invernale 2012-2013 - Exam sessions: Tuesday 22 January 2013 h 9:00 aula A, Tuesday 12 February 2013 h 9:00 aula C
  • [15/12/2012] Exercise 2 is online. Deadline: 15.01.2013
  • [05/12/2012] Le valutazioni/Evaluation del primo esercizio sono /of the first homework is online
  • La lezione di/the class of Giovedi 6 Dicembre è cancellata/is canceled
  • Dropbox folder of audio/video lectures now available.
  • Exercise 1 is online. Deadline: 19.11.2012
  • Il ricevimento del 29/10/2012 è cancellato per motivi di salute. Office hours of 29/10/2012 are canceled.
  • Special issue of Crossroads - The Acm Magazine for Students - on Big Data analytics
  • Internet festival: Dino Pedreschi and Fosca Giannotti will talk about Big Data and Social Data Mining at the panel in the Internet Festival this Saturday, October 6, in Sala Azzura at the Scuola Normale Superiore di Pisa, in Piazza dei Cavalieri.
  • [01/10/2012] New rooms/aule: Gio/Thu 14:00-16:00 Aula B — Ven/Fri 14:00-16:00 Aula A1
  • [01/10/2012] Survey: should we move the Thursday 14-16 class? Enter your availability at the following: Doodle poll
  • Remember to register as a user of this wiki and subscribe to receive a message when this wiki is updated!
  • [24/09/2012] Class begins Friday, September 28, 2012, h 14:00-16:00, Aula N1La prima lezione dell'edizione 2012-2013 del corso di Data Mining avrà luogo Venerdì 28 Settembre, ore 14:00 - 16:00 Aula N1

Learning goals -- Obiettivi del corso

… a new kind of professional has emerged, the data scientist, who combines the skills of software programmer, statistician and storyteller/artist to extract the nuggets of gold hidden under mountains of data. Hal Varian, Google’s chief economist, predicts that the job of statistician will become the “sexiest” around. Data, he explains, are widely available; what is scarce is the ability to extract wisdom from them.

Data, data everywhere. The Economist, Special Report on Big Data, Feb. 2010.

La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti:

  1. i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati;
  2. le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;
  3. alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.
  4. l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza

Reading about the "data scientist" job

  • Data, data everywhere. The Economist, Feb. 2010 download
  • Data scientist: The hot new gig in tech, CNN & Fortune, Sept. 2011 link
  • Welcome to the yotta world. The Economist, Sept. 2011 download
  • Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review, Sept 2012 link
  • Il futuro è già scritto in Big Data. Il SOle 24 Ore, Sept 2012 link
  • Special issue of Crossroads - The ACM Magazine for Students - on Big Data Analytics download

Hours - Orario e Aule

Classes - Lezioni:

Giorno Orario Aula
Lunedì 9:00 - 11:00 Aula N1
Mercoledì 9:00 - 11:00 Aula L1

Office hours - Ricevimento:

  • Prof. Pedreschi: Lunedì/Monday h 14:30 - 17:30, Dipartimento di Informatica
  • Giannotti/Nanni: appointment by email, c/o ISTI-CNR

Learning Material -- Materiale didattico

Textbook -- Libro di Testo

Slides del corso

  • Le slide utilizzate durante il corso verranno inserite nel calendario al termine di ogni lezione. In buona parte esse sono tratte da quelle fornite dagli autori del libro di testo: Slides per "Introduction to Data Mining".

Testi di esame

Audio/video lectures

Dropbox folder of audio/video lectures captured by students and instructors.

Data mining software

Class calendar - Calendario delle lezioni (2012-2013)

First part of course, first semester (DMF - Data mining: foundations)

Day Aula Topic Learning material Instructor
1. 28.09.2012 14:00-16:00 N1 Intro: data mining & knowledge discovery process Textbook, Chapt. 1 dm_intro-2011.pdf Pedreschi
2. 04.10.2012 14:00-16:00 N1 Overview of data mining techniques and applications Nanni
3. 05.10.2012 14:00-16:00 N1 Overview of data mining techniques and applications Nanni
4. 11.10.2012 14:00-16:00 N1 Data: types and basic measures Textbook, Chapt. 2 chap2_data_new.pdf Pedreschi
5. 12.10.2012 09:00-11:00 N1 Data: types and basic measures Pedreschi
6. 18.10.2012 14:00-16:00 N1 Exploratory data analysis and data understanding. Textbook, Chapt. 3 chap3_data_exploration.pdf Nanni
7. 19.10.2012 14:00-16:00 N1 Exploratory data analysis and data understanding. Pedreschi
8. 25.10.2012 14:00-16:00 N1 Exploratory data analysis and data understanding. Weka Lab Weka Pedreschi
9. 26.10.2012 14:00-16:00 N1 Clustering analysis. Centroid-based methods Textbook, Chapt. 8 chap8_basic_cluster_analysis.pdf Pedreschi
10. 08.11.2012 14:00-16:00 N1 Clustering analysis. Hierarchical methods Pedreschi
11. 09.11.2012 14:00-16:00 N1 Clustering analysis. Density-based methods Pedreschi
12. 15.11.2012 14:00-16:00 N1 Clustering analysis. Validation and Weka Lab Pedreschi
13. 16.11.2012 14:00-16:00 N1 Classification and predictive methods Textbook, Chapt. 4 chap4_basic_classification.pdf Pedreschi
14. 22.11.2012 14:00-16:00 N1 Classification. Decision trees Pedreschi
15. 23.11.2012 14:00-16:00 N1 Classification. Decision trees Pedreschi
16. 29.11.2012 14:00-16:00 N1 Classification. Rule-based and bayesian methods Pedreschi
17. 30.11.2012 14:00-16:00 N1 Classification. Validation and Weka Lab Pedreschi
18. 06.12.2012 14:00-16:00 N1 canceled Pedreschi
19. 07.12.2012 14:00-14:00 N1 Classification. Validation and Weka Lab Pedreschi
20. 13.12.2012 14:00-16:00 N1 canceled Pedreschi
21. 14.12.2012 14:00-14:00 N1 Wrap-up. Presentation of Second Semester syllabus Pedreschi, Giannotti, Nanni

Second part of course, second semester (DMA - Data mining: advanced topics and case studies)

Day Aula Topic Learning material Instructor
1. 18.02.2013 9:00-11:00 N1 Introduction Giannotti
2. 27.02.2013 9:00-11:00 N1 Frequent patterns and association rules / 1 Association Rules -- Slides Giannotti
3. 04.03.2013 9:00-11:00 N1 Frequent patterns and association rules / 2 Giannotti
4. 06.03.2013 9:00-11:00 N1 Frequent patterns and association rules / 3 Giannotti
5. 11.03.2013 9:00-11:00 N1 Introduction to CRM and Churn analysis 1.dm2_crm_customersegmentation-airmiles_2013.pdf 3.dm2012_st_events.pdf 4.dm2_churn_coop_2013.pdf 4.dm2_churn_intro_2013.pdf Giannotti
6. 13.03.2013 9:00-11:00 N1 Association rules on DM tools en_tanagra_assoc_rules_comparison.pdf http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes Giannotti
7. 18.03.2013 9:00-11:00 N1 Sequential patterns / 1 Textbook, Sect. 7.4 Sequential Patterns - Slides [1-12] Nanni
8. 20.03.2013 9:00-11:00 N1 Sequential patterns / 2 Sequential Patterns - Slides [13-24] Nanni
9. 25.03.2013 9:00-11:00 N1 Time series / 1 + Data exploration: assignments Time Series - Slides [1-34] Nanni
10. 27.03.2013 9:00-11:00 L1 Time series / 2 Time Series - Slides [35-84] Nanni
11. 08.04.2013 9:00-11:00 N1 Classification: evaluation methods + Case study: Fraud detection fraud_detection.pdfdm2-fraudedetection1.ppt.pdf Giannotti
12. 10.04.2013 9:00-11:00 L1 Network diffusion and Virality Marketing 7.mains_crm_innovatori.pdf Giannotti
13. 15.04.2013 9:00-11:00 N1 Mobility Data Mining / 1 Mobility DM - Slides [1-33] + Reference book chapter (ask to instructor) Nanni
14. 17.04.2013 9:00-11:00 L1 Mobility Data Mining / 2 Nanni
15. 22.04.2013 9:00-11:00 N1 Case study: Mobility Data Mining MDM case study GSM for transport plannig Nanni
16. 24.04.2013 9:00-11:00 L1 Case study: Mobility Data Mining/2 Giannotti - Nanni
17. 06.05.2013 9:00-11:00 N1 Data exploration: results of assignments + Presentation of projects Project 1 sample solution Nanni
18. 08.05.2013 9:00-11:00 L1 Data Mining and Privacy/1 Privacy Mobility Data & Privacy Giannotti
19. 13.05.2013 9:00-11:00 N1 Case study: Mining official data ed health data Mining Official Data Nanni
20. 15.05.2013 9:00-11:00 L1 Data Mining and Privacy/2 Giannotti

Modalità di esame

Esame DM parte I

L'esame consiste in una prova scritta ed in una prova orale:

  • La prova scritta è composta essenzialmente di esercizi sui metodi e algoritmi visti a lezione. I testi degli appelli d'esame passati vengono regolarmente messi online e possono essere presi come riferimento generale. La prova scritta può essere sostituita dalle due verifiche intermedie: nel caso vengano entrambe superate con successo la media dei loro voti costituirà il voto con cui presentarsi all'orale – a meno che non si sostenga nuovamente l'esame scritto, nel qual caso il voto più recente cancella quelli precedenti (in meglio o in peggio). Non è possibile recuperare una sola verifica intermedia durante gli appelli d'esame regolari. Per l'a.a. 2011-2012, le verifiche intermedie sono sostituite da una serie di esercizi che verranno proposti durante il corso.
  • La prova orale verte sugli aspetti più teorici del corso (definizioni, metodi, algoritmi, ecc.) trattati a lezione, oppure dalla discussione di bibliografia concordata con i docenti.

Esame DM parte II

L'esame consta di due parti:

  • Un progetto, da scegliere tra quelli presentati a lezione. Gli interessati sono pregati di (1) scrivere a mirco [dot] nanni [at] isti [dot] cnr [dot] it per ricevere i dati relativi al progetto scelto; (2) svolgere il progetto seguendo la traccia acclusa; e (3) inviare ai docenti una relazione che riassuma procedimento e risultati del progetto stesso, almeno 2 giorni prima di sostenere l'esame orale.
  • Un orale, che include: (1) discussione del progetto svolto; (2) discussione degli argomenti culturali trattati a lezione; (3) teoria ed esercizi su regole associative e pattern sequenziali.

Esercizi 2011-2012

Esercizi DM parte I

  • Data understanding: Pima indian dataset. Assigned on: 05.11.2012. To be completed within: 19.11.2012. Send papers (3 pages max of text, figures excluded) by email to pedre [at] di [dot] unipi [dot] it cc Anna Monreale annam [at] di [dot] unipi [dot] it. Use “[DM] exercise 1” in the subject. Download the Pima Indians Diabetes Data Set from the UCI Machine Learning Repository http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes, explore the dataset with the analytical tools of KNIME or Weka (or whatevr you like) and write a concise “data understanding” report describing data semantics, assessing data quality, the distribution of the variables and the pairwise correlations. To load the file to Weka or KNIME: 1) rename the file using the .csv extension (comma separated values); 2) insert in the file a row in first position assigning names to the various variables (attributes). Valutazioni/Evaluations: online
  • Clustering analysis: CarDrivers dataset. Assigned on: 09.12.2012. To be completed within: 15.01.2013. Send papers (3 pages max of text, figures excluded) by email to pedre [at] di [dot] unipi [dot] it cc: Anna Monreale annam [at] di [dot] unipi [dot] it. Use “[DM] exercise 2” in the subject. Download the Car Drivers dataset (in CSV format, zipped). The dataset contains a number of variables describing the driving habits of a population of car drivers, in terms of number, length and duration of travels, probability of travelling on highways, in cities, at night, entropy of travels over roads, places, or in time, radius of gyration (average distance from mean position or most frequent location L1), and so on (more precise description of variables available soon). Perform an adequate data understanding phase, and then clustering analysis, with any of the studied methods, using an appropriate subset of variables. Determine an adequate number of clusters, if any, and try to explain the properties of the discovered clusters (or else, argue why this dataset does not exhibit a clustering structure). Guidelines for the homework and a detailed description of the variables are here.
  • Classification analysis: Breast Cancer Wisconsin (Diagnostic) Data Set. Assigned on: 02.01.2013. To be completed within: two days prior to oral exam. Send papers (3 pages max of text, figures excluded) by email to pedre [at] di [dot] unipi [dot] it cc: Anna Monreale annam [at] di [dot] unipi [dot] it. Use “[DM] exercise 3” in the subject. Download the dataset from the UCI archive. The dataset contains observations on samples of breast tissue, together with their classification as benign or malignant, as performed by istologists. Determine a decision tree for the task of classifying (diagnosing) a sample as benign or malignant. Describe the process adopted to select the proposed tree, together with its quality evaluation.
  • NOTE: in the depository you can find more than one dataset. You can use the dataset that you prefer!

Esercizi DM parte II

Appelli di esame

Verifiche intermedie/Esercizi

Data Orario Luogo Note Voti
I Esercizio e II Esercizio

Appelli regolari

Appello Data Orario Luogo Note Voti
Tuesday 22 January 2013 9:00 Aula A
Tuesday 12 February 2013 9:00 Aula C
Monday 28 January 2013 10:00 Pedreschi's Office oral exam
Friday 01 February 2013 15:00 Pedreschi's Office oral exam
Wednesday 06 February 2013 15:00 Pedreschi's Office oral exam
June 3, 2013 (Monday) 9:00 Aula N1
July 1, 2013 (Monday) 9:00 Aula N1
July 24, 2013 (Wednesday) 9:00 Aula L1

Edizioni anni precedenti

dm/dm.2012-13.txt · Ultima modifica: 11/10/2013 alle 13:51 (5 anni fa) da Fosca Giannotti