Strumenti Utente

Strumenti Sito


dm:warlogs

WarLogs Dataset

Il dataset contiene un sottoinsieme del dataset pubblicato da WikiLeak il 22 Ottobre 2010 contenente i report di guerra in Iraq dal 2004 al 2009.

I dati sono stati già filtrati e semplificati in una tabella relazionale, i cui attributi vengono descritti di seguito:

  • report_key | text: chiave univoca del rapporto
  • to_timestamp | timestamp: la data di emissione del rapporto (precisione fino al minuto)
  • Type | text: Macro-classificazione degli eventi di ogni rapporto
  • category | text: Classificazione specifica di ogni rappporto
  • region | text: classificazione della localizzazione dell'evento
  • attack_on | text: obiettivo dell'evento/attacco del rapporto
  • coalition_forces_wounded | integer: numero di alleati feriti nell'evento/attacco
  • coalition_forces_killed | integer: numero di alleati uccisi nell'evento/attacco
  • iraq_forces_wounded | integer: numero di soldati iracheni feriti nell'evento/attacco
  • iraq_forces_killed | integer: numero di soldati iracheni uccisi nell'evento/attacco
  • civilian_wia | integer: numero di civili feriti nell'evento/attacco
  • civilian_kia | integer: numero di civili uccisi nell'evento/attacco
  • enemy_wia | integer: numero di nemici feriti nell'evento/attacco
  • enemy_kia | integer: numero di nemici uccisi nell'evento/attacco
  • enemy_detained | integer: numero di nemici catturati nell'evento/attacco
  • total_deaths | integer: numero di morti totali per l'evento/attacco
  • st_x | numeric: longitudine della posizione dell'evento/attacco
  • st_y | numeric: latitudine della posizione dell'evento/attacco

Il dataset viene fornito in formato CSV: warlogs.csv.zip (nuova versione)
Viene fornito anche un sample del dataset contenente 2000 report estratti in modo random (distribuzione uniforme sulla report_key): warlogs2000.csv.zip

:!: A causa di un errore nella generazione del dataset integrale (warlogs.csv), è stata caricato sul wiki una versione aggiornata del file.

Problema

Si richiede una analisi dei dati forniti utilizzando i metodi di clustering forniti da Weka mettendo in relazione i diversi tipi (attributo “Type”) di attacco e le distribution di morti, feriti e nemici catturati.
Per ogni clustering effettuato è necesario fornire una motivatione/spiegazione del risultato in base al valore degli altri attributi (es. correlazione tra diversi attributi e classe di clustering).

Suggerimenti:

  • I termini di alcuni attributi possono contenere alcuni errori/ripetizioni (al momento non viene rivelato quali sono questi attributi). Verificare se questi errori emergono all'interno del clustering
  • Alcuni attributi hanno un ruolo di classe (ad esempio, l'attributo “region”). Verificare che la correlazione con gli attributi “st_x” e “st_y” sia valida.
  • Provare a selezionare sottoinsiemi di attributi per eseguire clustering separati
  • Una volta determinato un clustering del dataset, è possibile selezionare uno dei cluster come un dataset separato per eseguire ulteriori analisi solo sul gruppo scelto? (è necessario l'uso di filtri esterni a Weka)
dm/warlogs.txt · Ultima modifica: 21/12/2010 alle 10:53 (14 anni fa) da Fosca Giannotti