====== Data Mining A.A. 2009/10 ====== Docenti: * __Mirco Nanni__ * KDD Laboratory, ISTI - CNR, Pisa * Tel.: 050-3152843 * [[http://ercolino.isti.cnr.it/mirco]] * [[mirco.nanni@isti.cnr.it]] ====== News ====== * **[15/09/2010]** I risultati dell'appello del 9 settembre 2010 sono online. * [20/07/2010] I risultati dell'appello del 13 luglio 2010 sono online. * [28/06/2010] I risultati dell'appello del 22 giugno 2010 sono online. * [10/06/2010] I risultati dell'appello del 1 giugno 2010 sono online. * [16/05/2010] I risultati della prima verifica (8 aprile 2010) sono online. * [13/02/2010] I risultati dell'appello del 18 gennaio 2010 sono online. * [01/02/2010] L'orario delle lezioni (ancora provvisorio) è stato fissato. * [23/12/2009] Gli appelli di gennaio-febbraio 2010 sono stati inseriti. ====== Obiettivi del corso ====== La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti: - i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati; - le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi; - alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici. - l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza ====== Orario e Aule ====== **Lezioni:** ^ Giorno ^ Orario ^ Aula ^ | Martedì | 14:00 - 16:00 | B1 | | Giovedì | 11:00 - 13:00 | B1 | **Ricevimento:** * Su appuntamento ====== Materiale didattico ====== ===== Libro di Testo ===== * Pang-Ning Tan, Michael Steinbach, Vipin Kumar. **Introduction to Data Mining**. Addison Wesley, ISBN 0-321-32136-7, 2006 * [[http://www-users.cs.umn.edu/~kumar/dmbook/index.php]] ===== Slides del corso ===== * Le slide utilizzate durante il corso verranno inserite nel calendario al termine di ogni lezione. In buona parte esse sono tratte da quelle fornite dagli autori del libro di testo: [[http://www-users.cs.umn.edu/~kumar/dmbook/index.php#item4|Slides per "Introduction to Data Mining"]]. ===== Esercizi ===== * Oltre ai testi e (dove disponibili) soluzioni degli appelli d'esame degli anni recenti, sono consultabili i seguenti esercizi proposti in anni precedenti. * {{tdm:verifica2006.pdf|Verifica 2006}}, {{tdm:verifica2005.pdf|Verifica 2005 (con soluzioni)}}, {{tdm:verifica2004.pdf|Verifica 2004}} * {{dm:verifica.05.06.2007.pdf|Verifica 5 giugno 2007}}, {{dm:verifica.26.06.2007.pdf|Verifica 26 giugno 2007}}, {{dm:verifica.24.07.2007_corretto.pdf|Verifica 24 luglio 2007}} (e {{dm:verifica.24.07.2007_soluzioni.pdf|Soluzioni}}) * {{:dm:verifica.2008.04.03.pdf|Verifica 3 aprile 2008}} (e {{:dm:soluzioni.2008.04.03.pdf|Soluzioni}}), {{:dm:dm-tdm.appello_2008_07_18_parte1.pdf|Verifica 18 luglio 2008 - parte 1}}, {{:dm:dm-tdm.appello_2008_07_18_parte2.pdf|Verifica 18 luglio 2008 - parte 2}} ====== Calendario delle lezioni ====== ^ ^ Giorno/ora ^ Aula ^ Argomento ^ Materiale didattico ^ Note ^ |1.| Martedì 23 febbraio 2010, ore 14.00 | B1 | //Presentazione del corso + principali metodi di DM (Cap.1) // | {{:dm:dm_intro.2010.nocasestudies.pdf|Slides Cap.1}} (tutte) | ✔ | |2.| Giovedì 25 febbraio 2010, ore 11.00 | B1 | //Tipi di dato (Cap.2 - parte I) + Esplorazione dati (Cap.3) // | {{:dm:chap2_data_new.pdf|Slides Cap.2}} (1-25) + {{:dm:chap3_data_exploration.pdf|Slides Cap.3}} (1-30) | ✔ | |3.| Martedì 2 marzo 2010, ore 14.00 | B1 | //Classificazione: principi generali, alberi di decisione, criteri di split (Cap. 4 - Parte I)// | {{:dm:chap4_basic_classification.pdf|Slides Cap.4}} (1-37) | ✔ | |4.| Giovedì 4 marzo 2010, ore 11.00 | B1 | //Classificazione: attributi continui, problematiche varie (Cap. 4 - Parte II) // | //Idem// (38-56) | ✔ | |5.| Martedì 9 marzo 2010, ore 14.00 | B1 | //Classificazione: problematiche varie, valutazione dei modelli (Cap. 4 - Parte III), Esercizi// | //Idem// (57-84) + {{:dm:classificazione_1.pdf|Es. Classificazione (1)}} | ✔ | |6.| Giovedì 11 marzo 2010, ore 11.00 | B1 | //Classificazione: confronto e validazione performance dei modelli (Cap. 4 - Parte IV), Esercizi// | //Idem// (85-99) | ✔ | |7.| Martedì 16 marzo 2010, ore 14.00 | B1 | //Preprocessing dei dati (Cap.2 - parte II)// | Slides Cap.2 (26-46) | ✔ | |8.| Giovedì 18 marzo 2010, ore 11.00 | B1 | //Misure di similarità (Cap.2 - parte III) e clustering (Cap. 8 - Parte I)//| Slides Cap.2 (47-68) + {{:dm:chap8_basic_cluster_analysis_new.pdf|Slides Cap.8}} (1-16) | ✔ | |9.| Martedì 23 marzo 2010, ore 14.00 | B1 | //Clustering: K-means (Cap. 8 - Parte II)// | Slides Cap.8 (17-45) | ✔ | |10.| Giovedì 25 marzo 2010, ore 11.00 | B1 | //Esercizi: clustering e misure di distanza// | {{:dm:clustering_1_k-means.pdf|Es. Clustering (1)}} | ✔ | | ^ Giovedì 8 aprile 2010, ore 11.00 ^ B1 ^ **I verifica in itinere** | {{:dm:classificazione_2.pdf|Es. Classificazione (2)}} | ✔ | |11.| Martedì 13 aprile 2010, ore 14.00 | B1 | //Clustering: Algoritmi gerarchici (Cap. 8 - Parte III)// | Slides Cap.8 (46-73) | ✔ | |12.| Giovedì 15 aprile 2010, ore 11.00 | B1 | --------- | | **Annullata** | |13.| Martedì 20 aprile 2010, ore 14.00 | B1 | --------- | | **Annullata** | |14.| Giovedì 22 aprile 2010, ore 11.00 | B1 | --------- | | **Annullata** | |15.| Martedì 27 aprile 2010, ore 14.00 | B1 | //Clustering: Algoritmi density-based ed esercizi (Cap. 8 - Parte IV)// | Slides Cap.8 (76-104 con qualche salto) + {{:dm:appello.2010.02.18.pdf|Es. 4, esame di febbraio 2010}} | ✔ | |16.| Giovedì 29 aprile 2010, ore 11.00 | B1 | //Association Analysis: introduzione e algoritmi di base (Cap. 6 - Parte I)// | {{:dm:chap6_basic_association_analysis_2010_b.pdf|Slides Cap. 6}} (1-25) | ✔ | |17.| Martedì 4 maggio 2010, ore 14.00 | B1 | //Association Analysis: altri algoritmi (Cap. 6 - Parte II)// | Slides Cap. 6 (26-44) | ✔ | |18.| Giovedì 6 maggio 2010, ore 11.00 | B1 | //Association Analysis: estrazione e valutazione di regole (Cap. 6 - Parte III)// | Slides Cap. 6 (45-67) | ✔ | |19.| Martedì 11 maggio 2010, ore 14.00 | B1 | //Casi di studio// | {{:dm:casi_di_studio_2010.pdf|Slides Casi di studio}} | ✔ | |20.| Giovedì 13 maggio 2010, ore 11.00 | B1 | //Pattern sequenziali: definizione, GSP, time constraints (Cap. 7 - Parte I), Esercizi // | {{:dm:chap7_extended_association_analysis.pdf|Slide Cap. 7}} (26-40) + {{:dm:appello.2010.02.18.pdf|Es. 3, esame 02/2010}}| ✔ | |21.| Martedì 18 maggio 2010, ore 14.00 | B1 | //Pattern sequenziali, Regole Associative multi-livello (Cap.7 - Parte II), Esercizi// | Slide Cap. 7 (41-56,21-25) + {{:dm:appello.2010.02.18.pdf|Es. 1, esame 02/2010}} + {{:dm:appello.2010.01.18.pdf|Es. 1, esame 01/2010}} | ✔ | |22.| Giovedì 20 maggio 2010, ore 11.00 | B1 | //Esercizi// | {{:dm:clustering_2_rda_seqpattern.pdf|Es. Clustering, RdA, Seq. Pattern}} | ✔ | | ^ Martedì 25 maggio 2010, ore 14.00 ^ B1 ^ **II verifica in itinere** | | | ====== Modalità di esame ====== L'esame consiste in una prova scritta ed in una prova orale: * La **prova scritta** è composta essenzialmente di esercizi sui metodi e algoritmi visti a lezione. I testi degli appelli d'esame passati vengono regolarmente messi online e possono essere presi come riferimento generale. La prova scritta può essere sostituita dalle due verifiche intermedie: nel caso vengano entrambe superate con successo la media dei loro voti costituirà il voto con cui presentarsi all'orale -- a meno che non si sostenga nuovamente l'esame scritto, nel qual caso il voto più recente cancella quelli precedenti (in meglio o in peggio). Non è possibile recuperare una sola verifica intermedia durante gli appelli d'esame regolari. * La **prova orale** verte sugli aspetti più teorici del corso (definizioni, metodi, algoritmi, ecc.) trattati a lezione. ====== Appelli di esame ====== ===== Verifiche intermedie ===== ^ ^ Data ^ Orario ^ Luogo ^ Note ^ Voti ^ | I verifica | 8 aprile 2010 | 11.00-13.00 | Aula B1 | ✔ {{:dm:dm.verifica1.2010.04.08.pdf|Testo}} e {{:dm:dm.verifica1.2010.04.08_sol.pdf|Soluzione}} | [[dm:verifica1.08.04.2010.risultati]] | | II verifica | 25 maggio 2010 | 14.00-16.00 | Aula B1 | ✔ {{:dm:dm.verifica2.2010.05.25.pdf|Testo}} e {{:dm:dm.verifica2.2010.05.25_sol_corretta.pdf|Soluzione}} | [[dm:verifica2.25.05.2010.risultati]] | ===== Appelli regolari ===== ^ Appello ^ ^ Data ^ Orario ^ Luogo ^ Note ^ Voti ^ | AA.08/09: 1 | scritto | 18 gennaio 2010 | 10.00-12.00 | Aula N1 | ✔ {{:dm:appello.2010.01.18.pdf|Testo}} | [[dm:appello.18.01.2010.risultati]] | | | orale / progetti | //idem// | 15.00- | c/o Ufficio Pedreschi | ✔ | | | AA.08/09: 2 | scritto | 18 febbraio 2010 | 10.00-12.00 | Aula N1 | ✔ {{:dm:appello.2010.02.18.pdf|Testo}} | | | | orale / progetti | //idem// | 15.00- | c/o Ufficio Pedreschi | ✔ | [[dm:appello.18.02.2010.risultati]] | | 1 | scritto | 1 giugno 2010 | 14.00-16.00 | Aula B1 | ✔ {{:dm:appello.2010.06.01.pdf|Testo}} e {{:dm:appello.2010.06.01_soluzioni.pdf|Soluzione}} | [[dm:appello.01.06.2010.risultati]] | | | orale | su appuntamento | | | | | | 2 | scritto | 22 giugno 2010 | 14.00-16.00 | Aula B1 | ✔ {{:dm:appello.2010.06.22.pdf|Testo}} e {{:dm:appello.2010.06.22_soluzioni.pdf|Soluzione}}| [[dm:appello.22.06.2010.risultati]] | | | orale | su appuntamento | | | | | | 3 | scritto | 13 luglio 2010 | 14.00-16.00 | Aula C1 | ✔ {{:dm:appello.2010.07.13.pdf|Testo}} e {{:dm:appello.2010.07.13_soluzioni.pdf|Soluzione}} | [[dm:appello.13.07.2010.risultati]] | | | orale | su appuntamento | | | | | | 4 | scritto | 9 settembre 2010 | 16.00-18.00 | Aula B1 | ✔ {{:dm:appello.2010.09.09.pdf|Testo}} e {{:dm:appello.2010.09.09_soluzioni.pdf|Soluzione}} | [[dm:appello.09.09.2010.risultati]] | | | orale | su appuntamento | | | | | ====== Edizioni anni precedenti ===== * [[dm.2009-10]] * [[dm.2008-09]] * [[dm.2007-08]] * [[dm.2006-07]]