martedì 11 febbraio 2014

ALIGNMENT: COME RICOSTRUIRE LE SEQUENZE DEI GENI NELLE ANALISI NGS

Alignment: fase dell'analisi bioinformatica, insieme al variant calling e al filtering & annotation
Il processo di alignment consta in un'elaborazione computerizzata che consente di allineare i frammenti di DNA (reads) ottenuti dal sequenziamento con le sequenze di riferimento del genoma umano, allo scopo di localizzare la posizione precisa di ciascuna read e di ricostruire così, come in un puzzle, le sequenze dei geni del paziente. L'alignment fa parte del processo di analisi bioinformatica, che include anche le fasi di variant calling e filtering & annotation.

La fase di alignment è tutt'altro che facile e non può essere fatta che in modo automatico da un computer. Basti pensare che il genoma umano è costituito da circa 3 miliardi di paia di basi e che le reads ottenute in un'analisi NGS hanno grandezza variabile da poche decine a poche centinaia di nucleotidi. Oltre all'impressionante mole dei dati da analizzare, alcuni degli ostacoli principali sono dati dalla qualità, non sempre ottimale, delle sequenze ottenute durante il sequenziamento e dal fatto che non tutte le reads sono localizzabili in modo univoco in un punto solo del genoma (alcune possono infatti essere allineate in più punti). Data la gran quantità di informazioni da gestire, il processo risulta estremamente impegnativo sia dal punto di vista informatico che dal punto di vista temporale. Non per nulla vi sono software che puntano più sulla velocità che sulla sensibilità del risultato.

I file di archiviazione dei risultati di un alignment possono essere di due tipi: SAM (Sequence Alignment/Map) e BAM (Binary Alignment/Map). Esistono diversi software di alignment in circolazione, alcuni disponibili a pagamento, altri freeware. Ognuno è basato su un algoritmo diverso e tuttavia molti condividono caratteristiche comuni. Quasi tutti, ad esempio, sono basati sul metodo dell'indicizzazione (indexing method), che consente di ridurre man mano le zone di possibile localizzazione della read all'interno del genoma. Alcuni permettono solo allineamenti perfetti, mentre altri (ad esempio BWA e Bowtie2) consento di allineare anche laddove compaiano piccole lacune nella sequenza (ungapped e gapped alignment, rispettivamente). Alcuni algoritmi ritornano un unico risultato di allineamento (quello cioè del miglior allineamento possibile - è il caso, ad esempio, di algoritmi come BWA, Bowtie e MAQ), mentre altri mostrano tutti gli allineamenti possibili (è il caso, ad esempio, degli algoritmi SOAP3 e SHRiMP). Come detto, alcuni software puntano più sulla sensibilità del risultato (ad esempio, Novoalign), altri puntano più sulla velocità (BWA e Bowtie), mentre altri cercano di combinare entrambe le caratteristiche (Stampy). Va detto, infine, che alcuni software sono in grado di allineare solo single-end reads, altri solo paired-end reads, altri entrambi i tipi di reads.

Per saperne di più: Libri e Pubblicazioni sulla Bioinformatica

Argomenti correlati:

Nessun commento: