Strumenti Utente

Strumenti Sito


dm:dm.2010-11

Data Mining A.A. 2010/11

Docenti:

Assistenti:

News

  • [28/04/2011] La data del primo appello estivo è stata spostata al 15 giugno, in aula C
  • [11/04/2011] Le date degli appelli estivi sono state fissate
  • [21/03/2011] Attenzione: a partire dal 28 marzo 2011, la lezione del venerdì viene sostituita con una il lunedì, dalle 14.00 alle 16.00, in aula N
  • [26/01/2011] Sono state fissate le date di esame per il prossimo appello
  • [26/01/2011] I risultati della seconda prova intermedia sul clustering del dataset WarLogs sono online.
  • [24/01/2011] I risultati del primo esercizio sono online.
  • [21/12/2010] Una nuova versione del datset WarLogs, che Weka carica correttamente, è online.
  • [17/12/2010] Il secondo esercizio - clustering su WarLogs - è online. Consegna entro 10.01.2011.
  • [01/12/2010] Il Polo Fibonacci è occupato dagli studenti in mobilitazione contro il DDL Gelmini. La lezione del 01.12.2010 è cancellata.
  • [23/11/2010] Pubblicato il testo del primo esercizio 2010-2011.
  • [23/11/2010] Il Polo Fibonacci è occupato dagli studenti in mobilitazione contro il DDL Gelmini. La lezione del 24.11.2010 non è garantita.
  • [15/11/2010] La lezione di Mercoledì 17 Novembre 2010 è cancellata per lo sciopero generale di tutti i settori della conoscenza (scuola, università, ricerca) info
  • [15/11/2010] Il sito dell'edizione 2010-11 è online

Obiettivi del corso

La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti:

  1. i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati;
  2. le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;
  3. alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.
  4. l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza

Orario e Aule

Lezioni:

Giorno Orario Aula
Lunedì 14:00 - 16:00 N valido a partire dal 28.03.2011
Mercoledì 14:00 - 16:00 C1
Venerdì 09:00 - 11:00 B1 valido fino al 25.03.2011

Ricevimento:

  • su appuntamento con i docenti c/o ISTI-CNR

Materiale didattico

Libro di Testo

Slides del corso

  • Le slide utilizzate durante il corso verranno inserite nel calendario al termine di ogni lezione. In buona parte esse sono tratte da quelle fornite dagli autori del libro di testo: Slides per "Introduction to Data Mining".

Testi di esame

Calendario delle lezioni

Prima parte del corso

Giorno/ora Aula Argomento Materiale didattico Docente
1. 19.10.2010 11:00-13:00 L1 Introduzione: il knowledge discovery process Cap. 1 del libro di testo dm_intro-2011.pdf Pedreschi
2. 22.10.2010 08:30-10:00 B1 Overview delle tecniche di data mining Giannotti
3. 26.10.2010 11:00-13:00 L1 Dati: tipi e misure di base Cap. 2 del libro di testo chap2_data_new.pdf Pedreschi
4. 29.10.2010 08:30-10:00 B1 Dati: tipi e misure di base Pedreschi
5. 02.11.2010 11:00-13:00 L1 Analisi esplorativa e data understanding Cap. 3 del libro di testo chap3_data_exploration.pdf Pedreschi
6. 05.11.2010 08:30-10:00 B1 Analisi esplorativa e data understanding Pedreschi
7. 10.11.2010 14:00-16:00 G1 Esercitazione con il sistema Weka Weka Pedreschi
8. 17.11.2010 14:00-16:00 G1 cancellata per sciopero del docente Pedreschi
9. 19.11.2010 08:30-10:00 B1 Analisi di clustering. K-means Cap. 8 del libro di testo chap8_basic_cluster_analysis.pdf Pedreschi
10. 24.11.2010 14:00-16:00 G1 cancellata per occupazione studentesca Pedreschi
11. 26.11.2010 09:00-11:00 B1 cancellata per occupazione studentesca Pedreschi
12. 01.12.2010 14:00-16:00 G1 cancellata per occupazione studentesca Pedreschi
13. 03.12.2010 09:00-11:00 B1 Analisi di clustering. Metodi gerarchici Pedreschi
14. 08.12.2010 14:00-16:00 G1 festività
15. 11.12.2010 09:00-11:00 B1 Analisi di clustering. Metodi basati su densità Pedreschi
16. 15.12.2010 14:00-16:00 G1 Esercitazione con il sistema Weka Pedreschi
17. 17.12.2010 09:00-11:00 B1 Classificazione. Alberi di decisione Cap. 4 del libro di testo chap4_basic_classification.pdf Pedreschi
18. 12.01.2011 14:00-16:00 G1 Classificazione. Alberi di decisione Pedreschi
19. 14.01.2011 09:00-11:00 B1 Classificazione. Alberi di decisione Pedreschi
20. 19.01.2011 14:00-16:00 G1 Esercitazione con il sistema Weka Pedreschi
21. 21.01.2011 09:00-11:00 B1 Esercitazione con il sistema Weka Pedreschi

Seconda parte del corso

Giorno Ora Aula Argomento Materiale didattico Docente
1.09.03.201114:00-16:00 C1 Introduzione e casi di studio dm2-intro-09.03.2011.pdf, case_studies.pdf Giannotti
2.16.03.201114:00-16:00 C1 Pattern frequenti (1/2) dm2-assocrules-16-18.03.2011.pdf Giannotti
3.18.03.201109:00-11:00 B1 Pattern frequenti (2/2) chap6_basic_association_analysis_2010_b.pdf Giannotti
4.23.03.201114:00-16:00 C1 Caso di studio - Fiscal Fraude Detection Giannotti
5.25.03.201109:00-11:00 B1 Pattern frequenti su Weka Giannotti
6.28.03.201114:00-16:00 N Pattern sequenziali chap7_extended_association_analysis.pdf Giannotti
7.30.03.201114:00-16:00 C1 Complementi di classificazione Pedreschi
8.04.04.201114:00-16:00 N Caso di studio - Fiscal Fraude Detection: esercizi e progetto Giannotti
9.06.04.201114:00-16:00 C1 Pattern sequenziali: software Giannotti
10.11.04.201114:00-16:00 N Caso di studio - Market Basket Analysis: presentazione intro_progetto_2.pdf, tools_sequential_patterns.pdf Nanni
11.13.04.201114:00-16:00 C1 Time series intro_serie_temporali.pdf Nanni
12.02.05.201114:00-16:00 N Anomalies detection chap10_anomaly_detection.ppt, HQ_true_positive_prediction Giannotti
13.04.05.201114:00-16:00 C1 Social Network Analyis Pedreschi
14.09.05.201114:00-16:00 N Mobility Data Mining (1/3) spatio-temporal-dm.pdf Nanni
15.11.05.201114:00-16:00 C1 Mobility Data Mining (2/3) Caso di studio - Market Basket Analysis: esercizi e progetto Nanni
16.16.05.201114:00-16:00 N Mobility Data Mining (3/3) Nanni
17.18.05.201114:00-16:00 C1 Caso di studio - Mobilità: presentazione Nanni
23.05.201114:00-16:00 N Lezione cancellata
18.25.05.201114:00-16:00 C1 Privacy and Big data Giannotti
19.30.05.201114:00-16:00 N Caso di studio - Mobilità: esercizi e progetto Intro-churn, Churn-1, Churn-Spatio-Temp Nanni
20.01.06.201114:00-16:00 C1

Modalità di esame

L'esame consiste in una prova scritta ed in una prova orale:

  • La prova scritta è composta essenzialmente di esercizi sui metodi e algoritmi visti a lezione. I testi degli appelli d'esame passati vengono regolarmente messi online e possono essere presi come riferimento generale. La prova scritta può essere sostituita dalle due verifiche intermedie: nel caso vengano entrambe superate con successo la media dei loro voti costituirà il voto con cui presentarsi all'orale – a meno che non si sostenga nuovamente l'esame scritto, nel qual caso il voto più recente cancella quelli precedenti (in meglio o in peggio). Non è possibile recuperare una sola verifica intermedia durante gli appelli d'esame regolari. Per l'a.a. 2010-2011, le verifiche intermedie sono sostituite da una serie di esercizi che verranno proposti durante il corso.
  • La prova orale verte sugli aspetti più teorici del corso (definizioni, metodi, algoritmi, ecc.) trattati a lezione, oppure dalla discussione di bibliografia concordata con i docenti.

Esercizi 2010-2011

Esercizi DM parte I

  1. Comprensione dei dati: Adult dataset. Assegnato il 19.11.2010. Da completarsi entro il 30.11.2010. Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset Adult, scaricabile dall'UCI Machine Learning Repository http://archive.ics.uci.edu/ml/datasets/Census+Income, analizzarlo con gli strumenti di data understanding di Weka, e produrre un breve rapporto di “data understanding” (2-3 pag. max) che descriva la semantica e la qualità dei dati, le distribuzioni delle diverse variabili ed il grado di correlazione fra variabili. Per caricare il file in Weka: 1) ridenominarlo usando l'estensione .csv (comma separated values); 2) inserire nel file una riga in prima posizione contenente i nomi delle diverse variabili (o attributi).
  2. Analisi di clustering: WarLogs dataset. Assegnato il 17.12.2010. Da completarsi entro il 10.01.2011. Consegnare per email al docente, cc a rinzivillo [at] isti [dot] cnr [dot] it specificando [DM] nel subject della mail. Testo e dataset sono scaricabili a questa pagina
  3. Classificazione: Adult dataset. Da consegnare all'esame orale (solo appelli di febbraio/marzo 2011). Considerare il dataset Adult dell'esercio 1, e sperimentare la costruzione di alberi di decisione per il problema di classificazione binaria relativamente alla condizione “reddito superiore o inferiore a 50.000 dollari”. Discutere la qualità dei modelli estratti e, ove possibile, una loro interpretazione.

Esercizi DM parte II

Dati e dettagli delle esercitazioni possono essere richiesti scrivendo a mirco [dot] nanni [at] isti [dot] cnr [dot] it. Nota: i gruppi di progetto possono essere composti fino a 3 persone.

  1. Progetto “Rilevazione rischio frode fiscale”. Consegna finale scaduta.
  2. Progetto “Market Basket Analysis”. Consegna finale: fine maggio 2011.
  3. Progetto “Mobility Data Analysis”. Consegna finale: fine giugno 2011.

Appelli di esame

Verifiche intermedie/Esercizi

Data Orario Luogo Note Voti
I Esercizio e II Esercizio 30.11.2010 Risultati

Appelli regolari

Appello Data Orario Luogo Note Voti
07 Febbraio 2011 9.00 – 13.00 Aula L1
03 Marzo 2011 9.00 – 13.00 Aula C
15 Giugno 2011 9.00-12.00 Aula C Scritto + Orali
14.00-16.30 Aula C1 Orali
27 Giugno 2011 9.00 Aula C1
18 Luglio 2011 9.00 Aula B
Settembre 2011: su appuntamento

Edizioni anni precedenti

dm/dm.2010-11.txt · Ultima modifica: 20/09/2011 alle 06:52 (13 anni fa) da Fosca Giannotti