Progetto a.a. 2023/2024: Creazione e analisi di un Pangenome Graph

Il progetto riguarda la costruzione e l'analisi di un pangenome graph, che permette di rappresentare e analizzare variazioni genetiche all'interno di un insieme di genomi in bioinformatica. Utilizzando il formato GFA (Graphical Fragment Assembly), il progetto richiede di leggere file GFA e creare un grafo etichettato, nonché di eseguire diverse operazioni su di esso.

Obiettivi del Progetto

I. Lettura e Creazione del Grafo:

II. Analisi del Grafo:

III. Ricerca di Pattern sui Cammini del DAG:

V. Facoltativo: Calcolo delle Frequenze dei K-mer:

Struttura del GFA

Il formato GFA permette di rappresentare graficamente l'assemblaggio di frammenti genomici. Ogni linea nel file GFA ha un campo specifico:

Utilizzare solo S per i nodi e L per gli archi.

Esempio di Analisi

Consideriamo un grafo con i seguenti nodi e archi rappresentati in formato GFA:

H	VN:Z:1.0
S	s11	GAT
S	s12	T
S	s13	A
S	s14	CAG
S	unused	GAA
S	s15	A
S	s16	T
S	s17	TA
L	s11	+	s12	+	*
L	s11	+	s13	+	*
L	s12	+	s14	+	*
L	s13	+	s14	+	*
L	s14	+	s15	+	*
L	s14	+	s16	+	*
L	s15	+	s17	+	*
L	s16	+	s17	+	*
P	A	s11+,s12+,s14+,s15+,s17+	*,*,*,*
W	sample	1	A	0	10	>s11>s12>s14>s15>s17
W	sample	2	A	0	10	>s11>s13>s14>s16>s17

In questo grafo \( G \), analizziamo i cammini possibili e verifichiamo se il pattern \( P = TTCA \) è presente in una delle sequenze ottenute.

Riferimenti