Strumenti Utente

Strumenti Sito


dm:dm.2011-12

Data Mining A.A. 2011/12

Docenti:

Assistenti:

News

  • [17.07.2012] Nota: l'orario dell'appello del 20/07 slitta di 30 minuti.
  • [22.05.2012] Le date degli appelli estivi sono online.
  • [21.05.2012] Le valutazioni delle esercitazioni per DM2 sono le seguenti: esercitazioni_dm2_2012_voti.pdf
  • [29.03.2012] La lezione del 30 marzo 2012 è annullata per sospensione della didattica.
  • [15.02.2012] I risultati dello scritto del 13.02.2012 sono online. Le date degli orali saranno su appuntamento dietro richiesta da parte dello studente.
  • [19.01.2012] I risultati dello scritto del 16.01.2012 sono online
  • [11.01.2012] Le valutazioni del secondo esercizio sono online.
  • [20.12.2011] Il terzo esercizio (Analisi di classificazione) è in linea. La scadenza per la consegna è due giorni prima dell'appello (valevole solo per gli appelli di gennaio e febbraio).
  • [11.12.2011] Appelli sessione invernale: Lunedì 16 gennaio 2012 e Lunedì 13 febbraio 2012 - entrambi gli appelli: ore 9:00 in Aula B1
  • [11.12.2011] Il ricevimento di Lunedi 12 Dicembre avrà luogo dalle 14 alle 16 e dalle 17:30 alle 19
  • [11.12.2011] Le valutazioni del primo esercizio sono online
  • [05.12.2011] Le lezioni di Mercoledì 07.12 e Venerdi 09.12 sono cancellate per impegni istituzionali del docente.
  • [23/11/2011] Il secondo esercizio (Analisi di clustering) è in linea. La scadenza per la consegna è Lunedi 12 Dicembre.
  • [04/11/2011] Mercoledì 9 novembre - Aula Seminari Est - Dipartimento di Informatica - ore 14:15 - Lezione speciale del corso di Data Mining nell'ambito del Seminario di Cultura Digitale: Social Data Science
  • [02/11/2011] Il primo esercizio (Comprensione dei dati) è in linea. La scadenza per la consegna è Mercoledì 16 Novembre.
  • [02/11/2011] Le lezioni di Mercoledì 02.11 e Venerdi 04.11 sono cancellate per la sospensione generale della didattica per lo svolgimento dei compitini.
  • [17/10/2011] Le lezioni di Mercoledì 19.10 e Venerdi 21.10 sono cancellate per impegni istituzionali del docente.
  • [29/09/2011] Mercoledì 5 Ottobre, ore 14:00 - 16:00 Aula P1 - Lezione speciale “Open Week”: BIG DATA: la nuova scienza dei dati per il mondo che cambia
  • [20/09/2011] La prima lezione dell'edizione 2011-2012 del corso di Data Mining avrà luogo Mercoledì 28 Settembre, ore 14:00 - 16:00 Aula L1

Obiettivi del corso

La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti:

  1. i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati;
  2. le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;
  3. alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.
  4. l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza

Reading about the "data analyst" job

  • Data, data everywhere. The Economist, Feb. 2010 download
  • Data scientist: The hot new gig in tech, CNN & Fortune, Sept. 2011 link
  • Welcome to the yotta world. The Economist, Sept. 2011 download

Orario e Aule

Lezioni:

Giorno Orario Aula
Mercoledì 14:00 - 16:00 primo semestre: L1, secondo semestre: I1
Venerdì 09:00 - 11:00 primo semestre: B1, secondo semestre: I1

Ricevimento:

  • Prof. Pedreschi: Lunedì ore 14:30 - 17:30 c/o Dipartimento di Informatica
  • oppure su appuntamento con i docenti c/o ISTI-CNR

Materiale didattico

Libro di Testo

Slides del corso

  • Le slide utilizzate durante il corso verranno inserite nel calendario al termine di ogni lezione. In buona parte esse sono tratte da quelle fornite dagli autori del libro di testo: Slides per "Introduction to Data Mining".

Testi di esame

Calendario delle lezioni (2011-2012)

Prima parte del corso, primo semestre

Giorno/ora Aula Argomento Materiale didattico Docente
1. 28.09.2011 14:00-16:00 L1 Introduzione: il knowledge discovery process Cap. 1 del libro di testo dm_intro-2011.pdf Pedreschi
2. 05.10.2011 14:00-16:00 L1 Open week: lezione speciale su Big Data Mining Pedreschi
3. 07.10.2011 14:00-16:00 L1 Overview delle tecniche di data mining Pedreschi
4. 12.10.2011 14:00-16:00 L1 Dati: tipi e misure di base Cap. 2 del libro di testo chap2_data_new.pdf Pedreschi
5. 14.10.2011 09:00-11:00 B1 Dati: tipi e misure di base Pedreschi
6. 19.11.2011 14:00-16:00 L1 Cancellata per impegno istituzionale del docente. Pedreschi
7. 21.10.2011 09:00-11:00 B1 Cancellata per impegno istituzionale del docente. Pedreschi
8. 26.10.2011 14:00-16:00 L1 Analisi esplorativa e data understanding. Esercitazione con il sistema Weka Weka Cap. 3 del libro di testo chap3_data_exploration.pdf Pedreschi
9. 28.10.2011 09:00-11:00 B1 Analisi esplorativa e data understanding. Esercitazione con il sistema Weka Pedreschi
10. 09.11.2011 14:00-16:00 Aula Sem. Est Seminario di cultura digitale: Social Data Science Pedreschi
11. 11.11.2011 09:00-11:00 B1 Analisi di clustering. K-means e metodi gerarchici Cap. 8 del libro di testo chap8_basic_cluster_analysis.pdf Pedreschi
12. 16.11.2011 14:00-16:00 L1 Analisi di clustering. Metodi basati su densità Pedreschi
13. 18.11.2011 09:00-11:00 B1 Esercitazione con il sistema Weka - Clustering Pedreschi
14. 23.11.2011 14:00-16:00 L1 Classificazione. Alberi di decisione Cap. 4 del libro di testo chap4_basic_classification.pdf Pedreschi
15. 25.11.2011 09:00-11:00 B1 Classificazione. Alberi di decisione Pedreschi
16. 30.11.2011 14:00-16:00 L1 Classificazione. Metodi a regole e bayesiani Pedreschi
17. 02.12.2011 09:00-11:00 B1 Esercitazione con il sistema Weka Pedreschi
18. 07.12.2011 14:00-16:00 L1 Cancellata per impegno istituzionale del docente. Pedreschi
19. 09.12.2011 09:00-11:00 B1 Cancellata per impegno istituzionale del docente. Pedreschi
20. 14.12.2011 14:00-16:00 L1 Esercitazione con il sistema Weka - Classificazione Pedreschi
21. 16.12.2011 09:00-11:00 B1 Esercitazione con il sistema Weka - Classificazione Pedreschi
22. 19.12.2011 14:00-16:00 TBD Ricevimento collettivo Pedreschi

Seconda parte del corso, secondo semestre

Giorno/ora Aula Argomento Materiale didattico Docente
1. 22.02.2012 14:00-16:00 I1 Introduzione Intro - Slides Giannotti
2. 24.02.2012 09:00-11:00 I1 Pattern frequenti e Regole associative / 1 Regole Associative - Slides [sezioni 6.1-6.3] Giannotti
3. 29.02.2012 14:00-16:00 I1 Pattern frequenti e Regole associative / 2 [sezioni 7.1-7.3] Giannotti
4. 02.03.2012 09:00-11:00 I1 Pattern sequenziali / 1 Pattern Sequenziali - Slides Nanni
5. 07.03.2012 14:00-16:00 I1 Pattern sequenziali / 2 Tools x Patt. Seq. - Slides Nanni
6. 09.03.2012 09:00-11:00 I1 Time series e Motif Time Series - Slides [pp.1-25] Nanni
7. 14.03.2012 14:00-16:00 I1 Pattern frequenti e Regole associative /3 Giannotti
8. 16.03.2012 09:00-11:00 I1 Time series e Motif Time Series - Slides [pp.25-84] Nanni
9. 21.03.2012 14:00-16:00 I1 Pattern frequenti e Regole associative, Valutazione Classificatori Esercitazione Giannotti e Pedreschi
10. 23.03.2012 09:00-11:00 I1 Case study: Data Mining per la Fraud detection dm2-fraudedetection1.ppt.pdf 4.dm2-frauddetection2-diva.ppt.pdf survey-datamining_frauddetection.pdf Giannotti
11. 28.03.2012 14:00-16:00 I1 Case study: Data Mining per il CRM / 1 Intro al CRM e Intro alla Churn Analysis Nanni
30.03.2012 09:00-11:00 I1 Annullata per sospensione della didattica
12. 13.04.2012 09:00-11:00 I1 Case study: Data Mining per il CRM / 2 Churn Analysis e Analisi eventi collettivi Nanni
13. 27.04.2012 09:00-11:00 I1 Fenomeni di diffusione e viralità dm2_informtion_diffusion.pdf Giannotti
14. 02.05.2012 14:00-16:00 I1 Privacy privacy_lezione14-16.ppt.pdf e capprivacy.pdf Giannotti
15. 04.05.2012 09:00-11:00 I1 Mobility Data Mining/1 Mobility Data Mining - Slides [pp.1-56] Nanni
16. 09.05.2012 14:00-16:00 I1 Privacy + Presentazione progetto Fraud detection economist-2012-dm.pdf e newdealondata.pdf Giannotti
17. 11.05.2012 09:00-11:00 I1 Mobility Data Mining/2 Mobility Data Mining - Slides [pp.57-83] Nanni
18. 16.05.2012 14:00-16:00 I1 Presentazione progetto Market basket + introduzione piattaforma di DM Pennacchioli
19. 18.05.2012 09:00-11:00 I1 Case study: Mining della mobilità urbana e della mobilità sistematica Case study MDM - Slides Nanni
20. 23.05.2012 14:00-16:00 I1 Web usage mining e E-commerce Web Usage Mining - Slides Nanni

Modalità di esame

Esame DM parte I

L'esame consiste in una prova scritta ed in una prova orale:

  • La prova scritta è composta essenzialmente di esercizi sui metodi e algoritmi visti a lezione. I testi degli appelli d'esame passati vengono regolarmente messi online e possono essere presi come riferimento generale. La prova scritta può essere sostituita dalle due verifiche intermedie: nel caso vengano entrambe superate con successo la media dei loro voti costituirà il voto con cui presentarsi all'orale – a meno che non si sostenga nuovamente l'esame scritto, nel qual caso il voto più recente cancella quelli precedenti (in meglio o in peggio). Non è possibile recuperare una sola verifica intermedia durante gli appelli d'esame regolari. Per l'a.a. 2011-2012, le verifiche intermedie sono sostituite da una serie di esercizi che verranno proposti durante il corso.
  • La prova orale verte sugli aspetti più teorici del corso (definizioni, metodi, algoritmi, ecc.) trattati a lezione, oppure dalla discussione di bibliografia concordata con i docenti.

Esame DM parte II

L'esame consta di due parti:

  • Un progetto, da scegliere tra i due presentati a lezione (Fraud detection e Market basket analysis). Gli interessati sono pregati di (1) scrivere a mirco [dot] nanni [at] isti [dot] cnr [dot] it e diego [dot] pennacchioli [at] isti [dot] cnr [dot] it per ricevere i dati relativi al progetto scelto; (2) svolgere il progetto seguendo la traccia acclusa; e (3) inviare ai docenti una relazione che riassuma procedimento e risultati del progetto stesso, almeno 2 giorni prima di sostenere l'esame orale.
  • Un orale, che include tre parti: (1) discussione del progetto svolto; (2) discussione di un argomento culturale o approfondimento a propria scelta (l'elenco dei temi e il corrispondente materiale di studio si trova qui: Argomenti); (3) teoria ed esercizi su regole associative e pattern sequenziali. Il punto (3) sarà richiesto solo a chi non ha consegnato le due esercitazioni proposte durante il corso.

Esercizi 2011-2012

Esercizi DM parte I

  1. Comprensione dei dati: Adult dataset. Assegnato il 02.11.2011. Da completarsi entro il 16.11.2011. Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset censuario Adult, scaricabile dall'UCI Machine Learning Repository http://archive.ics.uci.edu/ml/datasets/Census+Income, analizzarlo con gli strumenti di data understanding di Weka o di altri strumenti a scelta, e produrre un breve rapporto di “data understanding” (3 pag. max figure escluse, in formato pdf) che descriva la semantica e la qualità dei dati, le distribuzioni delle diverse variabili ed il grado di correlazione fra variabili. Per caricare il file in Weka: 1) ridenominarlo usando l'estensione .csv (comma separated values); 2) inserire nel file una riga in prima posizione contenente i nomi delle diverse variabili (o attributi).
    • Risultati primo esercizio pdf
  2. Clustering: Russian Companies dataset. Assegnato il 23.11.2011. Da completarsi entro il 12.12.2011. Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset RussianCompanies, scaricabile come file compresso nel formato .arff di Weka all'indirizzo russiancompanies.zip, relativo ad un insieme di 1438 aziende russe. Per ciascuna azienda sono state rilevate le seguenti informazioni, relativamente agli anni 1996 e 1997: numero dei lavoratori occupati (emp), ammontare degli stipendi (wage), valore prodotto (output), il logaritmo delle tre variabili precenti (rispettivamente ln = ln(emp), lw = ln(wage/emp), ly = ln(output)), il settore produttivo (sector: 1 = industria, 2 = costruzioni, 3 = commercio), il tipo di proprietà (owntype: 1 = pubblica, 2 = privata, 3 = mista). Dopo una adeguata comprensione dei dati, si effettui una analisi di clustering in base ad opportune scelte di variabili, e si interpretino i risultati ottenuti, anche in riferimento alle variabili categoriche disponibili (sector ed owntype). Si descrivano sinteticamente i risultati ottenuti in una breve relazione (3 pag. max figure escluse, in formato pdf).
    • Risultati secondo esercizio pdf
  3. Classificazione: German Credit dataset. Assegnato il 16.12.2011. Da consegnare entro due giorni prima dell'appello (solo appelli di gennaio/febbraio 2011). Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset Credit, scaricabile come file compresso nel formato .arff di Weka all'indirizzo credit.zip, relativo a 1000 record di richiesta di prestito ad una banca (descrizione dei dati disponibile online). Sperimentare la costruzione di alberi di decisione per il problema di classificazione binaria relativamente alla decisione della banca rispetto alla concessione del prestito (class = good oppure bad). Discutere la qualità dei modelli estratti e la relativa interpretazione. Si descrivano sinteticamente i risultati ottenuti in una breve relazione (3 pag. max figure escluse, in formato pdf).

Esercizi DM parte II

  1. Pattern Discovery: Transazioni di acquisto. Assegnato il 29.02.2012. Da completarsi entro il 20.04.2012. Consegnare per email al docente, cc a diego [dot] pennacchioli [at] isti [dot] cnr [dot] it specificando [DM] nel subject della mail. Considerare un dataset di Transazioni di input, analizzarlo con gli strumenti di pattern discovery di Weka o di altri strumenti a scelta, e produrre un breve rapporto di “data modeling” (3 pag. max figure escluse, in formato pdf) che descriva i pattern e le la regole estratte, equipaggiate con le misure di qualità ed interesse adottate, proporre una la loro possibile interpretazione ed il loro possibile utilizzo.
    • Dataset per Weka: occorre seguire un opportuno formato dei dati di input (ARFF con valori nulli). Il file pronto può essere scaricato qui: Transazioni ARFF. Si suggerisce di provare sia il “filtro” Apriori che FPGrowth (molto più efficiente, in alcuni casi).
    • Dataset per altri software: (incluso Apriori da comando di linea, descritto sotto) seguire il formato CSV. Il file può essere scaricato qui: Transazioni CSV
    • Apriori da comando di linea: il software e le istruzioni per utilizzarlo sono scaricabili qui: Apriori + info. Ulteriori informazioni sono reperibili sul sito dell'autore: http://www.borgelt.net/apriori.html.
  1. Sequential Patterns: Sequenze di acquisto. Assegnato il 9.03.2012. Da completarsi entro il 20.04.2012. Consegnare per email al docente, specificando [DM] nel subject della mail. Considerare il seguente dataset di sequenze di transazazioni di acquisto: Dataset_sequenze, analizzarlo con uno strumenti di pattern sequenziali a propria scelta. Si suggerisce, tra le scelte possibili, SPAM, di cui si riportano qui gli eseguibili per Linux e Windows: spam_bin.zip. Produrre un breve rapporto di “data modeling” (3 pag. max figure escluse, in formato pdf) che descriva i pattern sequenziali estratti (effettuando preprocessing dei dati se ritenuto necessario), proponendo una la loro possibile interpretazione ed il loro possibile utilizzo. Nota: la codifica numerica dei prodotti acquistati è la stessa utilizzata nel primo esercizio, descritta in “marketing.csv”.

Voti delle due esercitazioni: esercitazioni_dm2_2012_voti.pdf

Appelli di esame

Verifiche intermedie/Esercizi

Data Orario Luogo Note Voti
I Esercizio e II Esercizio

Appelli regolari

Appello Data Orario Luogo Note Voti
1 16.01.2012 09:00 Aula B1 Risultati scritto del 16.01.2012
2 13.03.2012 09:00 Aula B1
3 08.06.2012 09:30 Aula I1
4 29.06.2012 09:30 Aula I1
5 20.07.2012 10:00 Aula I1
6 Settembre 2012 Su appuntamento

Edizioni anni precedenti

dm/dm.2011-12.txt · Ultima modifica: 24/09/2012 alle 14:19 (6 anni fa) da Fosca Giannotti