====== Web Mining ed Analisi delle Reti Sociali 2010 - 2011 ====== Docenti: * **Dino Pedreschi** [[dino.pedreschi@di.unipi.it]] * **Fabrizio Silvestri** (ISTI-CNR) [[fabrizio.silvestri@isti.cnr.it]] * **Michele Berlingerio** (ISTI-CNR) [[michele.berlingerio@isti.cnr.it]] ===== Novità ===== * **Appelli di esame: venerdi 4 febbraio ore 9:00 aula B1, venerdi 4 marzo ore 9:00 aula B1** * E' online l'esercizio da svolgere per l'esame (vedere sezione "Modalità d'esame"). * ATTENZIONE: il Polo Fibonacci è occupato degli studenti in mobilitazione contro la riforma Gelmini, e la facoltà ha disposto la sospensione della didattica per il 30.11.2010. La lezione del 30.11.2010, pertanto, è cancellata * La lezione di martedi 22 novembre è cancellata per la sospensione della didattica decisa dal Senato Accademico (delibera del 18 novembre) "al fine di agevolare le iniziative di mobilitazione che verranno portate avanti dalle diversi componenti dell'Ateneo" * A partire dalla terza settimana di Novembre, la lezione del lunedì è spostata definitivamente al martedì, stesso orario, in aula L1. La lezione del 15 Novembre verrà quindi tenuta il 16. ====== Obiettivi ====== Il Web è diventato con il passare degli anni il più grande repository di dati esistente, con stime recenti di più di 500 miliardi di documenti online. Blog, Wiki, Pagine Web “Classiche”, sono solo alcuni esempi di cosa oggi contenga il Web. La dimensione partecipativa del cosiddetto Web 2.0 rende questo fenomeno ancora più complesso, amplificando la possibilità di relazione fra persone attraverso la proiezione online delle relazioni sociali ed economiche - il social networking. Lo scopo di questo corso è mostrare alcune tra le più importanti metodologie di analisi dei dati provenienti dal Web: dati relativi al contenuto delle risorse Web, alla struttura di link fra le risorse, all'uso e all'accesso alle risorse da parte degli utenti, ed infine alle reti (grafi) di relazioni fra soggetti che usano gli strumenti di social networking del Web 2.0. Dopo una breve introduzione che ricapitola le tecniche di base per l’analisi ed il mining dei dati Web, saranno affrontati e discussi i seguenti argomenti: Web mining [[http://en.wikipedia.org/wiki/Web_mining|link a Wikipedia]]: * Valutazione dell’importanza “Statica” di pagine Web * Ranking Dinamico di pagine Web * Link analysis * Analisi delle informazioni di uso del Web * Web Spam Advertisement nei motori di ricerca Reti sociali [[http://en.wikipedia.org/wiki/Social_network_analysis|link a Wikipedia]]: * Tassonomia di reti di relazioni fra persone (sociali, tecnologiche, economiche, di parentela, amicizia, ...) * Misure quantitative: componenti connesse, il fenomeno "small world", località e distribuzione delle relazioni * Modelli statistici ed evolutivi delle reti sociali * Data mining di grafi di relazioni sociali ====== Orario delle lezioni ====== * **Martedi** 11:00 - 13:00 Aula L1 (Polo Fibonacci) * **Giovedi** 14:00 - 16:00 Aula B1 (Polo Fibonacci) ====== Materiale didattico ====== * **Lucidi dei docenti**, resi disponibili attraverso questo wiki (sezione Calendario delle lezioni). * **M. E. J. Newman: The structure and function of complex networks**, SIAM Review, Vol. 45, p. 167-256, 2003. ({{:wma:newman_2003.pdf|download pdf}}) * **David Easley, Jon Kleinberg: Networks, Crowds, and Markets. [[http://www.cs.cornell.edu/home/kleinber/networks-book/]]** * **Anand Rajaraman, Jeffrey D. Ullman, Mining of Massive Datasets. [[http://infolab.stanford.edu/~ullman/pub/book.pdf]]** * Testo di consultazione: Duncan J. Watts. //Six Degrees: The Science of a Connected Age.// Norton, New York, 2003. ====== Calendario delle lezioni ====== ^ ^ Giorno ^ Argomento ^ Lucidi ^ Docente ^ |1. | Gio 21.10.2010 | Introduzione al Web Mining e all'Analisi di Reti Sociali|{{:wma:wma.sna.pedreschi.1.2010.pdf|}} | Pedreschi | |2. | Lun 25.10.2010 | Nozioni di base su grafi, misure su reti | | Pedreschi | |3. | Gio 28.10.2010 | Misure di base su reti reali |{{:wma:wma.sna.pedreschi.2.2010.pdf|}} | Berlingerio | |4. | Gio 04.11.2010 | Un tool di analisi per reti |{{:wma:lezione_cytoscape.pdf|}} | Berlingerio | |5. | Lun 08.11.2010 | Analisi di una rete reale e domande su reti | | Pedreschi - Berlingerio | |6. | Gio 11.11.2010 | Lezione speciale: Big Data e società della conoscenza | | Pedreschi | |7. | Mar 16.11.2010 | Reti sociali: weak and strong ties |{{:wma:wmr.2010.2011.pedreschi.weak.ties.pdf|}} | Pedreschi | |8. | Gio 18.11.2010 | Misure di centralità. Richiami di statistica | {{:wma:centrality.pdf|}} | Pedreschi | |9. | Mar 23.11.2010 | **cancellata per assemblea** | | | |10. | Gio 25.11.2010 | **cancellata per occupazione** | | | |10. | Mar 30.11.2010 | **cancellata per occupazione** | | | |11. | Gio 02.12.2010 | Modelli generativi delle reti: random, small world, preferential attachment | | Pedreschi | |12. | Mar 07.12.2010 | Community Discovery, Diffusione di informazione su reti | {{:wma:community.pdf|}} , {{:wma:diffusion.pdf|}} | Berlingerio | |13. | Gio 09.12.2010 | | | |14. | Mar 14.12.2010 | Richiami di Algebra Lineare | {{:wma:richiamidialgebra.pdf|}} | Silvestri | |15. | Gio 16.12.2010 | Link Analysis: HITS e PageRank | Un interessante survey per approfondire [[http://www.cs.toronto.edu/~tsap/publications/hubs-journal.pdf|Link Analysis]] | Silvestri | |16. | Mar 21.12.2010 | Link Analysis avanzata: Topic-Sensitive PR e Adversarial IR | | Silvestri | |17. | Mar 11.01.2011 | Advertisement nei Motori di Ricerca | | Silvestri | |18. | Gio 13.01.2011 | Esercitazione | | Venturini | |19. | Mar 18.01.2011 | Query Log Analysis | Slides {{:wma:lezione9.pdf|}} Survey su query log mining {{:wma:paper.pdf|}} | Silvestri | |20. | Gio 20.01.2011 | Query Log Analysis Avanzata / Recommender Systems | Slide sugli argomenti avanzati {{:wma:presentazione-tolomei.pdf|}} | Tolomei/Silvestri | |21. | Mar 25.01.2011 | Discussione Progetti e Modalita' di Esame | | Pedreschi/Berlingerio/Silvestri | ====== Modalità di esame ====== Come accennato a lezione, l'esercizio da svolgere in gruppo è alla pagina [[wma:esercizio1|]]. L'esercizio 1 racchiude entrambi gli esercizi proposti a lezione, in un'unica soluzione che va dalla creazione di una rete alla sua analisi. Per quanto riguarda la parte relativa al modulo di Web Mining. Si richiede di analizzare la rete costruita all'[[wma:esercizio1|]] usando PageRank e HITS. Lo studente dovrà soffermarsi in particolare sui risultati dell'analisi descrivendo eventuali similarità e differenze con i risultati dell'analisi ottenuti all'[[wma:esercizio1|]]. [Fabrizio Silvestri] ====== Appelli di esame ====== * **venerdi 4 febbraio ore 9:00 aula B1** * ** venerdi 4 marzo ore 9:00 aula B1** ====== Link alle edizioni precedenti ====== * Edizione 2008-2009 [[WMA20082009]]