====== Data Mining A.A. 2010/11 ====== Docenti: * **Dino Pedreschi, Fosca Giannotti, Mirco Nanni** * KDD Laboratory, Università di Pisa ed ISTI - CNR, Pisa * [[http://www-kdd.isti.cnr.it]] * [[dino.pedreschi@di.unipi.it]] * [[fosca.giannotti@isti.cnr.it]] * [[mirco.nanni@isti.cnr.it]] Assistenti: * **Anna Monreale, Salvo Rinzivillo, Diego Pennacchioli** * KDD Laboratory, Università di Pisa ed ISTI - CNR, Pisa * [[http://www-kdd.isti.cnr.it]] * [[annam@di.unipi.it]] * [[rinzi@di.unipi.it]] * [[pennacchioli@isti.cnr.it]] ====== News ====== * [28/04/2011] **La data del primo appello estivo è stata spostata al 15 giugno, in aula C** * [11/04/2011] Le date degli appelli estivi sono state fissate * [21/03/2011] Attenzione: a partire dal 28 marzo 2011, la lezione del venerdì viene sostituita con una il lunedì, dalle 14.00 alle 16.00, in aula N * [26/01/2011] Sono state fissate le [[#appelli_regolari|date di esame]] per il prossimo appello * [26/01/2011] I risultati della seconda prova intermedia sul clustering del dataset WarLogs sono [[dm:voti_30112010|online]]. * [24/01/2011] I risultati del primo esercizio sono [[dm:voti_30112010|online]]. * [21/12/2010] Una nuova versione del datset WarLogs, che Weka carica correttamente, è online. * [17/12/2010] Il secondo esercizio - clustering su WarLogs - è online. Consegna entro 10.01.2011. * [01/12/2010] Il Polo Fibonacci è occupato dagli studenti in mobilitazione contro il DDL Gelmini. La lezione del 01.12.2010 è cancellata. * [23/11/2010] Pubblicato il testo del primo esercizio 2010-2011. * [23/11/2010] Il Polo Fibonacci è occupato dagli studenti in mobilitazione contro il DDL Gelmini. La lezione del 24.11.2010 non è garantita. * [15/11/2010] La lezione di Mercoledì 17 Novembre 2010 è cancellata per lo sciopero generale di tutti i settori della conoscenza (scuola, università, ricerca) [[http://www.flcgil.it/attualita/sindacato/17-novembre-lavoratori-e-studenti-insieme-per-il-futuro-del-paese.flc|info]] * [15/11/2010] Il sito dell'edizione 2010-11 è online ====== Obiettivi del corso ====== La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti: - i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati; - le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi; - alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici. - l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza ====== Orario e Aule ====== **Lezioni:** ^ Giorno ^ Orario ^ Aula ^ ^ | Lunedì | 14:00 - 16:00 | N | valido a partire dal 28.03.2011 | | Mercoledì | 14:00 - 16:00 | C1 | | | Venerdì | 09:00 - 11:00 | B1 | valido fino al 25.03.2011 | **Ricevimento:** * su appuntamento con i docenti c/o ISTI-CNR ====== Materiale didattico ====== ===== Libro di Testo ===== * Pang-Ning Tan, Michael Steinbach, Vipin Kumar. **Introduction to Data Mining**. Addison Wesley, ISBN 0-321-32136-7, 2006 * [[http://www-users.cs.umn.edu/~kumar/dmbook/index.php]] ===== Slides del corso ===== * Le slide utilizzate durante il corso verranno inserite nel calendario al termine di ogni lezione. In buona parte esse sono tratte da quelle fornite dagli autori del libro di testo: [[http://www-users.cs.umn.edu/~kumar/dmbook/index.php#item4|Slides per "Introduction to Data Mining"]]. ===== Testi di esame ===== * Oltre ai testi e (dove disponibili) soluzioni degli appelli d'esame degli anni recenti, sono consultabili i seguenti esercizi proposti in anni precedenti. * {{tdm:verifica2006.pdf|Verifica 2006}}, {{tdm:verifica2005.pdf|Verifica 2005 (con soluzioni)}}, {{tdm:verifica2004.pdf|Verifica 2004}} * {{dm:verifica.05.06.2007.pdf|Verifica 5 giugno 2007}}, {{dm:verifica.26.06.2007.pdf|Verifica 26 giugno 2007}}, {{dm:verifica.24.07.2007_corretto.pdf|Verifica 24 luglio 2007}} (e {{dm:verifica.24.07.2007_soluzioni.pdf|Soluzioni}}) * {{:dm:verifica.2008.04.03.pdf|Verifica 3 aprile 2008}} (e {{:dm:soluzioni.2008.04.03.pdf|Soluzioni}}), {{:dm:dm-tdm.appello_2008_07_18_parte1.pdf|Verifica 18 luglio 2008 - parte 1}}, {{:dm:dm-tdm.appello_2008_07_18_parte2.pdf|Verifica 18 luglio 2008 - parte 2}} ====== Calendario delle lezioni ====== **Prima parte del corso** ^ ^ Giorno/ora ^ Aula ^ Argomento ^ Materiale didattico ^ Docente ^ |1.| 19.10.2010 11:00-13:00 | L1 | Introduzione: il knowledge discovery process | Cap. 1 del libro di testo {{:dm:dm_intro-2011.pdf|}} | Pedreschi | |2.| 22.10.2010 08:30-10:00 | B1 | Overview delle tecniche di data mining | | Giannotti | |3.| 26.10.2010 11:00-13:00 | L1 | Dati: tipi e misure di base | Cap. 2 del libro di testo {{:dm:chap2_data_new.pdf|}} | Pedreschi | |4.| 29.10.2010 08:30-10:00 | B1 | Dati: tipi e misure di base | | Pedreschi | |5.| 02.11.2010 11:00-13:00 | L1 | Analisi esplorativa e data understanding | Cap. 3 del libro di testo {{:dm:chap3_data_exploration.pdf|}} | Pedreschi | |6.| 05.11.2010 08:30-10:00 | B1 | Analisi esplorativa e data understanding | | Pedreschi | |7.| 10.11.2010 14:00-16:00 | G1 | Esercitazione con il sistema Weka | [[http://www.cs.waikato.ac.nz/ml/weka/|Weka]] | Pedreschi | |8.| 17.11.2010 14:00-16:00 | G1 | cancellata per sciopero del docente | | Pedreschi | |9.| 19.11.2010 08:30-10:00 | B1 | Analisi di clustering. K-means | Cap. 8 del libro di testo {{:dm:chap8_basic_cluster_analysis.pdf|}} | Pedreschi | |10.| 24.11.2010 14:00-16:00 | G1 | cancellata per occupazione studentesca | | Pedreschi | |11.| 26.11.2010 09:00-11:00 | B1 | cancellata per occupazione studentesca | | Pedreschi | |12.| 01.12.2010 14:00-16:00 | G1 | cancellata per occupazione studentesca | | Pedreschi | |13.| 03.12.2010 09:00-11:00 | B1 | Analisi di clustering. Metodi gerarchici | | Pedreschi | |14.| 08.12.2010 14:00-16:00 | G1 | festività | | | |15.| 11.12.2010 09:00-11:00 | B1 | Analisi di clustering. Metodi basati su densità | | Pedreschi | |16.| 15.12.2010 14:00-16:00 | G1 | Esercitazione con il sistema Weka | | Pedreschi | |17.| 17.12.2010 09:00-11:00 | B1 | Classificazione. Alberi di decisione | Cap. 4 del libro di testo {{:dm:chap4_basic_classification.pdf|}} | Pedreschi | |18.| 12.01.2011 14:00-16:00 | G1 | Classificazione. Alberi di decisione | | Pedreschi | |19.| 14.01.2011 09:00-11:00 | B1 | Classificazione. Alberi di decisione | | Pedreschi | |20.| 19.01.2011 14:00-16:00 | G1 | Esercitazione con il sistema Weka | | Pedreschi | |21.| 21.01.2011 09:00-11:00 | B1 | Esercitazione con il sistema Weka | | Pedreschi | **Seconda parte del corso** ^ ^ Giorno ^ Ora ^ Aula ^ Argomento ^ Materiale didattico ^ Docente ^ |1.|09.03.2011|14:00-16:00| C1 | Introduzione e casi di studio | {{:dm:dm2-intro-09.03.2011.pdf|}}, {{:dm:case_studies.pdf|}} | Giannotti | |2.|16.03.2011|14:00-16:00| C1 | Pattern frequenti (1/2) | {{:dm:dm2-assocrules-16-18.03.2011.pdf|}} | Giannotti | |3.|18.03.2011|09:00-11:00| B1 | Pattern frequenti (2/2) | {{:dm:chap6_basic_association_analysis_2010_b.pdf|}}| Giannotti | |4.|23.03.2011|14:00-16:00| C1 | Caso di studio - Fiscal Fraude Detection | | Giannotti | |5.|25.03.2011|09:00-11:00| B1 | Pattern frequenti su Weka | | Giannotti | |6.|28.03.2011|14:00-16:00| N | Pattern sequenziali |{{:dm:chap7_extended_association_analysis.pdf|}} | Giannotti | |7.|30.03.2011|14:00-16:00| C1 | Complementi di classificazione | | Pedreschi | |8.|04.04.2011|14:00-16:00| N | Caso di studio - Fiscal Fraude Detection: esercizi e progetto | | Giannotti | |9.|06.04.2011|14:00-16:00| C1 | Pattern sequenziali: software | | Giannotti | |10.|11.04.2011|14:00-16:00| N | Caso di studio - Market Basket Analysis: presentazione | {{:dm:intro_progetto_2.pdf|}}, {{:dm:tools_sequential_patterns.pdf|}} | Nanni | |11.|13.04.2011|14:00-16:00| C1 | Time series | {{:dm:intro_serie_temporali.pdf|}} | Nanni | |12.|02.05.2011|14:00-16:00| N | Anomalies detection | {{:dm:chap10_anomaly_detection.ppt|}}, {{:dm:high_quality_true-positive_prediction_for_fiscal_fraud_detectionv2-2.ppt.pdf|HQ_true_positive_prediction}} | Giannotti | |13.|04.05.2011|14:00-16:00| C1 | Social Network Analyis | | Pedreschi | |14.|09.05.2011|14:00-16:00| N | Mobility Data Mining (1/3) | {{:dm:spatio-temporal-dm.pdf|}} | Nanni | |15.|11.05.2011|14:00-16:00| C1 | Mobility Data Mining (2/3) Caso di studio - Market Basket Analysis: esercizi e progetto | | Nanni | |16.|16.05.2011|14:00-16:00| N | Mobility Data Mining (3/3) | | Nanni | |17.|18.05.2011|14:00-16:00| C1 | Caso di studio - Mobilità: presentazione | | Nanni | | |23.05.2011|14:00-16:00| N | **Lezione cancellata** | | | |18.|25.05.2011|14:00-16:00| C1 | Privacy and Big data | | Giannotti | |19.|30.05.2011|14:00-16:00| N | Caso di studio - Mobilità: esercizi e progetto | {{:dm:1.dm2011_churn_intro.pdf|Intro-churn}}, {{:dm:2.dm2011_churn_coop.pdf|Churn-1}}, {{:dm:3.dm2011_st_events.ppt.zip|Churn-Spatio-Temp}} | Nanni | |20.|01.06.2011|14:00-16:00| C1 | | | | ====== Modalità di esame ====== L'esame consiste in una prova scritta ed in una prova orale: * La **prova scritta** è composta essenzialmente di esercizi sui metodi e algoritmi visti a lezione. I testi degli appelli d'esame passati vengono regolarmente messi online e possono essere presi come riferimento generale. La prova scritta può essere sostituita dalle due verifiche intermedie: nel caso vengano entrambe superate con successo la media dei loro voti costituirà il voto con cui presentarsi all'orale -- a meno che non si sostenga nuovamente l'esame scritto, nel qual caso il voto più recente cancella quelli precedenti (in meglio o in peggio). Non è possibile recuperare una sola verifica intermedia durante gli appelli d'esame regolari. Per l'a.a. 2010-2011, le verifiche intermedie sono sostituite da una serie di esercizi che verranno proposti durante il corso. * La **prova orale** verte sugli aspetti più teorici del corso (definizioni, metodi, algoritmi, ecc.) trattati a lezione, oppure dalla discussione di bibliografia concordata con i docenti. ====== Esercizi 2010-2011 ====== ===== Esercizi DM parte I ===== - ** Comprensione dei dati: Adult dataset. Assegnato il 19.11.2010. Da completarsi entro il 30.11.2010. Consegnare per email al docente, cc a [[annamonreale@gmail.com]] specificando [DM] nel subject della mail. ** Considerare il dataset Adult, scaricabile dall'UCI Machine Learning Repository [[http://archive.ics.uci.edu/ml/datasets/Census+Income]], analizzarlo con gli strumenti di data understanding di Weka, e produrre un breve rapporto di "data understanding" (2-3 pag. max) che descriva la semantica e la qualità dei dati, le distribuzioni delle diverse variabili ed il grado di correlazione fra variabili. Per caricare il file in Weka: 1) ridenominarlo usando l'estensione .csv (comma separated values); 2) inserire nel file una riga in prima posizione contenente i nomi delle diverse variabili (o attributi). - ** Analisi di clustering: WarLogs dataset. Assegnato il 17.12.2010. Da completarsi entro il 10.01.2011. Consegnare per email al docente, cc a [[rinzivillo@isti.cnr.it]] specificando [DM] nel subject della mail. ** Testo e dataset sono scaricabili [[ warlogs | a questa pagina]] - ** Classificazione: Adult dataset. Da consegnare all'esame orale (solo appelli di febbraio/marzo 2011). ** Considerare il dataset Adult dell'esercio 1, e sperimentare la costruzione di alberi di decisione per il problema di classificazione binaria relativamente alla condizione "reddito superiore o inferiore a 50.000 dollari". Discutere la qualità dei modelli estratti e, ove possibile, una loro interpretazione. ===== Esercizi DM parte II ===== Dati e dettagli delle esercitazioni possono essere richiesti scrivendo a [[mirco.nanni@isti.cnr.it]]. Nota: i gruppi di progetto possono essere composti fino a 3 persone. - **Progetto “Rilevazione rischio frode fiscale”**. Consegna finale scaduta. - **Progetto “Market Basket Analysis”**. Consegna finale: fine maggio 2011. - **Progetto “Mobility Data Analysis”**. Consegna finale: fine giugno 2011. ====== Appelli di esame ====== ===== Verifiche intermedie/Esercizi ===== ^ ^ Data ^ Orario ^ Luogo ^ Note ^ Voti ^ |I Esercizio e II Esercizio | 30.11.2010 | | | | [[dm:voti_30112010|Risultati]] | ===== Appelli regolari ===== ^ Appello ^ Data ^ Orario ^ Luogo ^ Note ^ Voti ^ | |07 Febbraio 2011 | 9.00 -- 13.00 |Aula L1 | | | | |03 Marzo 2011 | 9.00 -- 13.00 |Aula C | | | | |15 Giugno 2011 | 9.00-12.00 |Aula C | Scritto + Orali | | | | | 14.00-16.30 |Aula C1 | Orali | | | |27 Giugno 2011 | 9.00 |Aula C1 | | | | |18 Luglio 2011 | 9.00 |Aula B | | | | |Settembre 2011: **su appuntamento** | | | | | ====== Edizioni anni precedenti ===== * [[dm.2009-10]] * [[dm.2008-09]] * [[dm.2007-08]] * [[dm.2006-07]] * [[PhDWorkshop2011]] * [[SNA.Ingegneria2011]]