====== WarLogs Dataset ====== Il dataset contiene un sottoinsieme del dataset pubblicato da WikiLeak il 22 Ottobre 2010 contenente i report di guerra in Iraq dal 2004 al 2009. I dati sono stati già filtrati e semplificati in una tabella relazionale, i cui attributi vengono descritti di seguito: * **report_key** | text: chiave univoca del rapporto * **to_timestamp** | timestamp: la data di emissione del rapporto (precisione fino al minuto) * **Type** | text: Macro-classificazione degli eventi di ogni rapporto * **category** | text: Classificazione specifica di ogni rappporto * **region** | text: classificazione della localizzazione dell'evento * **attack_on** | text: obiettivo dell'evento/attacco del rapporto * **coalition_forces_wounded** | integer: numero di alleati feriti nell'evento/attacco * **coalition_forces_killed** | integer: numero di alleati uccisi nell'evento/attacco * **iraq_forces_wounded** | integer: numero di soldati iracheni feriti nell'evento/attacco * **iraq_forces_killed** | integer: numero di soldati iracheni uccisi nell'evento/attacco * **civilian_wia** | integer: numero di civili feriti nell'evento/attacco * **civilian_kia** | integer: numero di civili uccisi nell'evento/attacco * **enemy_wia** | integer: numero di nemici feriti nell'evento/attacco * **enemy_kia** | integer: numero di nemici uccisi nell'evento/attacco * **enemy_detained** | integer: numero di nemici catturati nell'evento/attacco * **total_deaths** | integer: numero di morti totali per l'evento/attacco * **st_x** | numeric: longitudine della posizione dell'evento/attacco * **st_y** | numeric: latitudine della posizione dell'evento/attacco Il dataset viene fornito in formato CSV: {{:dm:warlogs.csv.zip| warlogs.csv.zip (nuova versione)}}\\ Viene fornito anche un sample del dataset contenente 2000 report estratti in modo random (distribuzione uniforme sulla report_key): {{:dm:warlogs2000.csv.zip|}} \\ :!: A causa di un errore nella generazione del dataset integrale (warlogs.csv), è stata caricato sul wiki una versione aggiornata del file. ===== Problema ===== Si richiede una analisi dei dati forniti utilizzando i metodi di clustering forniti da Weka mettendo in relazione i diversi tipi (attributo "Type") di attacco e le distribution di morti, feriti e nemici catturati. \\ Per ogni clustering effettuato è necesario fornire una motivatione/spiegazione del risultato in base al valore degli altri attributi (es. correlazione tra diversi attributi e classe di clustering). Suggerimenti: * I termini di alcuni attributi possono contenere alcuni errori/ripetizioni (al momento non viene rivelato quali sono questi attributi). Verificare se questi errori emergono all'interno del clustering * Alcuni attributi hanno un ruolo di classe (ad esempio, l'attributo "region"). Verificare che la correlazione con gli attributi "st_x" e "st_y" sia valida. * Provare a selezionare sottoinsiemi di attributi per eseguire clustering separati * Una volta determinato un clustering del dataset, è possibile selezionare uno dei cluster come un dataset separato per eseguire ulteriori analisi solo sul gruppo scelto? (è necessario l'uso di filtri esterni a Weka)