WarLogs Dataset

Il dataset contiene un sottoinsieme del dataset pubblicato da WikiLeak il 22 Ottobre 2010 contenente i report di guerra in Iraq dal 2004 al 2009.

I dati sono stati già filtrati e semplificati in una tabella relazionale, i cui attributi vengono descritti di seguito:

report_key | text: chiave univoca del rapporto
to_timestamp | timestamp: la data di emissione del rapporto (precisione fino al minuto)
Type | text: Macro-classificazione degli eventi di ogni rapporto
category | text: Classificazione specifica di ogni rappporto
region | text: classificazione della localizzazione dell'evento
attack_on | text: obiettivo dell'evento/attacco del rapporto
coalition_forces_wounded | integer: numero di alleati feriti nell'evento/attacco
coalition_forces_killed | integer: numero di alleati uccisi nell'evento/attacco
iraq_forces_wounded | integer: numero di soldati iracheni feriti nell'evento/attacco
iraq_forces_killed | integer: numero di soldati iracheni uccisi nell'evento/attacco
civilian_wia | integer: numero di civili feriti nell'evento/attacco
civilian_kia | integer: numero di civili uccisi nell'evento/attacco
enemy_wia | integer: numero di nemici feriti nell'evento/attacco
enemy_kia | integer: numero di nemici uccisi nell'evento/attacco
enemy_detained | integer: numero di nemici catturati nell'evento/attacco
total_deaths | integer: numero di morti totali per l'evento/attacco
st_x | numeric: longitudine della posizione dell'evento/attacco
st_y | numeric: latitudine della posizione dell'evento/attacco

Il dataset viene fornito in formato CSV: warlogs.csv.zip (nuova versione)
Viene fornito anche un sample del dataset contenente 2000 report estratti in modo random (distribuzione uniforme sulla report_key): warlogs2000.csv.zip

A causa di un errore nella generazione del dataset integrale (warlogs.csv), è stata caricato sul wiki una versione aggiornata del file.

Problema

Si richiede una analisi dei dati forniti utilizzando i metodi di clustering forniti da Weka mettendo in relazione i diversi tipi (attributo “Type”) di attacco e le distribution di morti, feriti e nemici catturati.
Per ogni clustering effettuato è necesario fornire una motivatione/spiegazione del risultato in base al valore degli altri attributi (es. correlazione tra diversi attributi e classe di clustering).

Suggerimenti:

I termini di alcuni attributi possono contenere alcuni errori/ripetizioni (al momento non viene rivelato quali sono questi attributi). Verificare se questi errori emergono all'interno del clustering
Alcuni attributi hanno un ruolo di classe (ad esempio, l'attributo “region”). Verificare che la correlazione con gli attributi “st_x” e “st_y” sia valida.
Provare a selezionare sottoinsiemi di attributi per eseguire clustering separati
Una volta determinato un clustering del dataset, è possibile selezionare uno dei cluster come un dataset separato per eseguire ulteriori analisi solo sul gruppo scelto? (è necessario l'uso di filtri esterni a Weka)