Data Mining A.A. 2011/12

Docenti:

Dino Pedreschi, Fosca Giannotti, Mirco Nanni
- KDD Laboratory, Università di Pisa ed ISTI - CNR, Pisa
- http://www-kdd.isti.cnr.it
- dino [dot] pedreschi [at] di [dot] unipi [dot] it
- fosca [dot] giannotti [at] isti [dot] cnr [dot] it
- mirco [dot] nanni [at] isti [dot] cnr [dot] it

Assistenti:

Anna Monreale, Luca Pappalardo, Diego Pennacchioli
- KDD Laboratory, Università di Pisa ed ISTI - CNR, Pisa
- http://www-kdd.isti.cnr.it
- annam [at] di [dot] unipi [dot] it
- pappalar [at] di [dot] unipi [dot] it
- diego [dot] pennacchioli [at] isti [dot] cnr [dot] it

News

[17.07.2012] Nota: l'orario dell'appello del 20/07 slitta di 30 minuti.
[22.05.2012] Le date degli appelli estivi sono online.
[21.05.2012] Le valutazioni delle esercitazioni per DM2 sono le seguenti: esercitazioni_dm2_2012_voti.pdf
[03.05.2012] The Wall Street Journal: Big Data's Big Problem - Little Talent
[29.03.2012] La lezione del 30 marzo 2012 è annullata per sospensione della didattica.
[15.02.2012] I risultati dello scritto del 13.02.2012 sono online. Le date degli orali saranno su appuntamento dietro richiesta da parte dello studente.
[19.01.2012] I risultati dello scritto del 16.01.2012 sono online
[11.01.2012] Le valutazioni del secondo esercizio sono online.
[20.12.2011] Il terzo esercizio (Analisi di classificazione) è in linea. La scadenza per la consegna è due giorni prima dell'appello (valevole solo per gli appelli di gennaio e febbraio).
[11.12.2011] Appelli sessione invernale: Lunedì 16 gennaio 2012 e Lunedì 13 febbraio 2012 - entrambi gli appelli: ore 9:00 in Aula B1
[11.12.2011] Il ricevimento di Lunedi 12 Dicembre avrà luogo dalle 14 alle 16 e dalle 17:30 alle 19
[11.12.2011] Le valutazioni del primo esercizio sono online
[05.12.2011] Le lezioni di Mercoledì 07.12 e Venerdi 09.12 sono cancellate per impegni istituzionali del docente.
[23/11/2011] Il secondo esercizio (Analisi di clustering) è in linea. La scadenza per la consegna è Lunedi 12 Dicembre.
[04/11/2011] Mercoledì 9 novembre - Aula Seminari Est - Dipartimento di Informatica - ore 14:15 - Lezione speciale del corso di Data Mining nell'ambito del Seminario di Cultura Digitale: Social Data Science
[02/11/2011] Il primo esercizio (Comprensione dei dati) è in linea. La scadenza per la consegna è Mercoledì 16 Novembre.
[02/11/2011] Le lezioni di Mercoledì 02.11 e Venerdi 04.11 sono cancellate per la sospensione generale della didattica per lo svolgimento dei compitini.
[17/10/2011] Le lezioni di Mercoledì 19.10 e Venerdi 21.10 sono cancellate per impegni istituzionali del docente.
[29/09/2011] Mercoledì 5 Ottobre, ore 14:00 - 16:00 Aula P1 - Lezione speciale “Open Week”: BIG DATA: la nuova scienza dei dati per il mondo che cambia
[20/09/2011] La prima lezione dell'edizione 2011-2012 del corso di Data Mining avrà luogo Mercoledì 28 Settembre, ore 14:00 - 16:00 Aula L1

Obiettivi del corso

La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti:

i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati;
le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;
alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.
l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza

Reading about the "data analyst" job

Data, data everywhere. The Economist, Feb. 2010 download
Data scientist: The hot new gig in tech, CNN & Fortune, Sept. 2011 link
Welcome to the yotta world. The Economist, Sept. 2011 download

Orario e Aule

Lezioni:

Giorno	Orario	Aula
Mercoledì	14:00 - 16:00	primo semestre: L1, secondo semestre: I1
Venerdì	09:00 - 11:00	primo semestre: B1, secondo semestre: I1

Ricevimento:

Prof. Pedreschi: Lunedì ore 14:30 - 17:30 c/o Dipartimento di Informatica
oppure su appuntamento con i docenti c/o ISTI-CNR

Materiale didattico

Libro di Testo

Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining. Addison Wesley, ISBN 0-321-32136-7, 2006
- http://www-users.cs.umn.edu/~kumar/dmbook/index.php

Slides del corso

Le slide utilizzate durante il corso verranno inserite nel calendario al termine di ogni lezione. In buona parte esse sono tratte da quelle fornite dagli autori del libro di testo: Slides per "Introduction to Data Mining".

Testi di esame

Oltre ai testi e (dove disponibili) soluzioni degli appelli d'esame degli anni recenti, sono consultabili i seguenti esercizi proposti in anni precedenti.

Calendario delle lezioni (2011-2012)

Prima parte del corso, primo semestre

	Giorno/ora	Aula	Argomento	Materiale didattico	Docente
1.	28.09.2011 14:00-16:00	L1	Introduzione: il knowledge discovery process	Cap. 1 del libro di testo dm_intro-2011.pdf	Pedreschi
2.	05.10.2011 14:00-16:00	L1	Open week: lezione speciale su Big Data Mining		Pedreschi
3.	07.10.2011 14:00-16:00	L1	Overview delle tecniche di data mining		Pedreschi
4.	12.10.2011 14:00-16:00	L1	Dati: tipi e misure di base	Cap. 2 del libro di testo chap2_data_new.pdf	Pedreschi
5.	14.10.2011 09:00-11:00	B1	Dati: tipi e misure di base		Pedreschi
6.	19.11.2011 14:00-16:00	L1	Cancellata per impegno istituzionale del docente.		Pedreschi
7.	21.10.2011 09:00-11:00	B1	Cancellata per impegno istituzionale del docente.		Pedreschi
8.	26.10.2011 14:00-16:00	L1	Analisi esplorativa e data understanding. Esercitazione con il sistema Weka	Weka Cap. 3 del libro di testo chap3_data_exploration.pdf	Pedreschi
9.	28.10.2011 09:00-11:00	B1	Analisi esplorativa e data understanding. Esercitazione con il sistema Weka		Pedreschi
10.	09.11.2011 14:00-16:00	Aula Sem. Est	Seminario di cultura digitale: Social Data Science		Pedreschi
11.	11.11.2011 09:00-11:00	B1	Analisi di clustering. K-means e metodi gerarchici	Cap. 8 del libro di testo chap8_basic_cluster_analysis.pdf	Pedreschi
12.	16.11.2011 14:00-16:00	L1	Analisi di clustering. Metodi basati su densità		Pedreschi
13.	18.11.2011 09:00-11:00	B1	Esercitazione con il sistema Weka - Clustering		Pedreschi
14.	23.11.2011 14:00-16:00	L1	Classificazione. Alberi di decisione	Cap. 4 del libro di testo chap4_basic_classification.pdf	Pedreschi
15.	25.11.2011 09:00-11:00	B1	Classificazione. Alberi di decisione		Pedreschi
16.	30.11.2011 14:00-16:00	L1	Classificazione. Metodi a regole e bayesiani		Pedreschi
17.	02.12.2011 09:00-11:00	B1	Esercitazione con il sistema Weka		Pedreschi
18.	07.12.2011 14:00-16:00	L1	Cancellata per impegno istituzionale del docente.		Pedreschi
19.	09.12.2011 09:00-11:00	B1	Cancellata per impegno istituzionale del docente.		Pedreschi
20.	14.12.2011 14:00-16:00	L1	Esercitazione con il sistema Weka - Classificazione		Pedreschi
21.	16.12.2011 09:00-11:00	B1	Esercitazione con il sistema Weka - Classificazione		Pedreschi
22.	19.12.2011 14:00-16:00	TBD	Ricevimento collettivo		Pedreschi

Seconda parte del corso, secondo semestre

	Giorno/ora	Aula	Argomento	Materiale didattico	Docente
1.	22.02.2012 14:00-16:00	I1	Introduzione	Intro - Slides	Giannotti
2.	24.02.2012 09:00-11:00	I1	Pattern frequenti e Regole associative / 1	Regole Associative - Slides [sezioni 6.1-6.3]	Giannotti
3.	29.02.2012 14:00-16:00	I1	Pattern frequenti e Regole associative / 2	[sezioni 7.1-7.3]	Giannotti
4.	02.03.2012 09:00-11:00	I1	Pattern sequenziali / 1	Pattern Sequenziali - Slides	Nanni
5.	07.03.2012 14:00-16:00	I1	Pattern sequenziali / 2	Tools x Patt. Seq. - Slides	Nanni
6.	09.03.2012 09:00-11:00	I1	Time series e Motif	Time Series - Slides [pp.1-25]	Nanni
7.	14.03.2012 14:00-16:00	I1	Pattern frequenti e Regole associative /3		Giannotti
8.	16.03.2012 09:00-11:00	I1	Time series e Motif	Time Series - Slides [pp.25-84]	Nanni
9.	21.03.2012 14:00-16:00	I1	Pattern frequenti e Regole associative, Valutazione Classificatori	Esercitazione	Giannotti e Pedreschi
10.	23.03.2012 09:00-11:00	I1	Case study: Data Mining per la Fraud detection	dm2-fraudedetection1.ppt.pdf 4.dm2-frauddetection2-diva.ppt.pdf survey-datamining_frauddetection.pdf	Giannotti
11.	28.03.2012 14:00-16:00	I1	Case study: Data Mining per il CRM / 1	Intro al CRM e Intro alla Churn Analysis	Nanni
	30.03.2012 09:00-11:00	I1	Annullata per sospensione della didattica
12.	13.04.2012 09:00-11:00	I1	Case study: Data Mining per il CRM / 2	Churn Analysis e Analisi eventi collettivi	Nanni
13.	27.04.2012 09:00-11:00	I1	Fenomeni di diffusione e viralità	dm2_informtion_diffusion.pdf	Giannotti
14.	02.05.2012 14:00-16:00	I1	Privacy	privacy_lezione14-16.ppt.pdf e capprivacy.pdf	Giannotti
15.	04.05.2012 09:00-11:00	I1	Mobility Data Mining/1	Mobility Data Mining - Slides [pp.1-56]	Nanni
16.	09.05.2012 14:00-16:00	I1	Privacy + Presentazione progetto Fraud detection	economist-2012-dm.pdf e newdealondata.pdf	Giannotti
17.	11.05.2012 09:00-11:00	I1	Mobility Data Mining/2	Mobility Data Mining - Slides [pp.57-83]	Nanni
18.	16.05.2012 14:00-16:00	I1	Presentazione progetto Market basket + introduzione piattaforma di DM		Pennacchioli
19.	18.05.2012 09:00-11:00	I1	Case study: Mining della mobilità urbana e della mobilità sistematica	Case study MDM - Slides	Nanni
20.	23.05.2012 14:00-16:00	I1	Web usage mining e E-commerce	Web Usage Mining - Slides	Nanni

Modalità di esame

Esame DM parte I

L'esame consiste in una prova scritta ed in una prova orale:

La prova scritta è composta essenzialmente di esercizi sui metodi e algoritmi visti a lezione. I testi degli appelli d'esame passati vengono regolarmente messi online e possono essere presi come riferimento generale. La prova scritta può essere sostituita dalle due verifiche intermedie: nel caso vengano entrambe superate con successo la media dei loro voti costituirà il voto con cui presentarsi all'orale – a meno che non si sostenga nuovamente l'esame scritto, nel qual caso il voto più recente cancella quelli precedenti (in meglio o in peggio). Non è possibile recuperare una sola verifica intermedia durante gli appelli d'esame regolari. Per l'a.a. 2011-2012, le verifiche intermedie sono sostituite da una serie di esercizi che verranno proposti durante il corso.
La prova orale verte sugli aspetti più teorici del corso (definizioni, metodi, algoritmi, ecc.) trattati a lezione, oppure dalla discussione di bibliografia concordata con i docenti.

Esame DM parte II

L'esame consta di due parti:

Un progetto, da scegliere tra i due presentati a lezione (Fraud detection e Market basket analysis). Gli interessati sono pregati di (1) scrivere a mirco [dot] nanni [at] isti [dot] cnr [dot] it e diego [dot] pennacchioli [at] isti [dot] cnr [dot] it per ricevere i dati relativi al progetto scelto; (2) svolgere il progetto seguendo la traccia acclusa; e (3) inviare ai docenti una relazione che riassuma procedimento e risultati del progetto stesso, almeno 2 giorni prima di sostenere l'esame orale.

Un orale, che include tre parti: (1) discussione del progetto svolto; (2) discussione di un argomento culturale o approfondimento a propria scelta (l'elenco dei temi e il corrispondente materiale di studio si trova qui: Argomenti); (3) teoria ed esercizi su regole associative e pattern sequenziali. Il punto (3) sarà richiesto solo a chi non ha consegnato le due esercitazioni proposte durante il corso.

Esercizi 2011-2012

Esercizi DM parte I

Comprensione dei dati: Adult dataset. Assegnato il 02.11.2011. Da completarsi entro il 16.11.2011. Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset censuario Adult, scaricabile dall'UCI Machine Learning Repository http://archive.ics.uci.edu/ml/datasets/Census+Income, analizzarlo con gli strumenti di data understanding di Weka o di altri strumenti a scelta, e produrre un breve rapporto di “data understanding” (3 pag. max figure escluse, in formato pdf) che descriva la semantica e la qualità dei dati, le distribuzioni delle diverse variabili ed il grado di correlazione fra variabili. Per caricare il file in Weka: 1) ridenominarlo usando l'estensione .csv (comma separated values); 2) inserire nel file una riga in prima posizione contenente i nomi delle diverse variabili (o attributi).
- Risultati primo esercizio pdf
Clustering: Russian Companies dataset. Assegnato il 23.11.2011. Da completarsi entro il 12.12.2011. Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset RussianCompanies, scaricabile come file compresso nel formato .arff di Weka all'indirizzo russiancompanies.zip, relativo ad un insieme di 1438 aziende russe. Per ciascuna azienda sono state rilevate le seguenti informazioni, relativamente agli anni 1996 e 1997: numero dei lavoratori occupati (emp), ammontare degli stipendi (wage), valore prodotto (output), il logaritmo delle tre variabili precenti (rispettivamente ln = ln(emp), lw = ln(wage/emp), ly = ln(output)), il settore produttivo (sector: 1 = industria, 2 = costruzioni, 3 = commercio), il tipo di proprietà (owntype: 1 = pubblica, 2 = privata, 3 = mista). Dopo una adeguata comprensione dei dati, si effettui una analisi di clustering in base ad opportune scelte di variabili, e si interpretino i risultati ottenuti, anche in riferimento alle variabili categoriche disponibili (sector ed owntype). Si descrivano sinteticamente i risultati ottenuti in una breve relazione (3 pag. max figure escluse, in formato pdf).
- Risultati secondo esercizio pdf
Classificazione: German Credit dataset. Assegnato il 16.12.2011. Da consegnare entro due giorni prima dell'appello (solo appelli di gennaio/febbraio 2011). Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset Credit, scaricabile come file compresso nel formato .arff di Weka all'indirizzo credit.zip, relativo a 1000 record di richiesta di prestito ad una banca (descrizione dei dati disponibile online). Sperimentare la costruzione di alberi di decisione per il problema di classificazione binaria relativamente alla decisione della banca rispetto alla concessione del prestito (class = good oppure bad). Discutere la qualità dei modelli estratti e la relativa interpretazione. Si descrivano sinteticamente i risultati ottenuti in una breve relazione (3 pag. max figure escluse, in formato pdf).

Esercizi DM parte II

Pattern Discovery: Transazioni di acquisto. Assegnato il 29.02.2012. Da completarsi entro il 20.04.2012. Consegnare per email al docente, cc a diego [dot] pennacchioli [at] isti [dot] cnr [dot] it specificando [DM] nel subject della mail. Considerare un dataset di Transazioni di input, analizzarlo con gli strumenti di pattern discovery di Weka o di altri strumenti a scelta, e produrre un breve rapporto di “data modeling” (3 pag. max figure escluse, in formato pdf) che descriva i pattern e le la regole estratte, equipaggiate con le misure di qualità ed interesse adottate, proporre una la loro possibile interpretazione ed il loro possibile utilizzo.
- Dataset per Weka: occorre seguire un opportuno formato dei dati di input (ARFF con valori nulli). Il file pronto può essere scaricato qui: Transazioni ARFF. Si suggerisce di provare sia il “filtro” Apriori che FPGrowth (molto più efficiente, in alcuni casi).
- Dataset per altri software: (incluso Apriori da comando di linea, descritto sotto) seguire il formato CSV. Il file può essere scaricato qui: Transazioni CSV
- Apriori da comando di linea: il software e le istruzioni per utilizzarlo sono scaricabili qui: Apriori + info. Ulteriori informazioni sono reperibili sul sito dell'autore: http://www.borgelt.net/apriori.html.

Sequential Patterns: Sequenze di acquisto. Assegnato il 9.03.2012. Da completarsi entro il 20.04.2012. Consegnare per email al docente, specificando [DM] nel subject della mail. Considerare il seguente dataset di sequenze di transazazioni di acquisto: Dataset_sequenze, analizzarlo con uno strumenti di pattern sequenziali a propria scelta. Si suggerisce, tra le scelte possibili, SPAM, di cui si riportano qui gli eseguibili per Linux e Windows: spam_bin.zip. Produrre un breve rapporto di “data modeling” (3 pag. max figure escluse, in formato pdf) che descriva i pattern sequenziali estratti (effettuando preprocessing dei dati se ritenuto necessario), proponendo una la loro possibile interpretazione ed il loro possibile utilizzo. Nota: la codifica numerica dei prodotti acquistati è la stessa utilizzata nel primo esercizio, descritta in “marketing.csv”.

Voti delle due esercitazioni: esercitazioni_dm2_2012_voti.pdf

Appelli di esame

Verifiche intermedie/Esercizi

	Data	Orario	Luogo	Note	Voti
I Esercizio e II Esercizio

Appelli regolari

Appello	Data	Orario	Luogo	Voti
1	16.01.2012	09:00	Aula B1	Risultati scritto del 16.01.2012
2	13.03.2012	09:00	Aula B1
3	08.06.2012	09:30	Aula I1
4	29.06.2012	09:30	Aula I1
5	20.07.2012	10:00	Aula I1
6	Settembre 2012	Su appuntamento

DidaWiki

Indice