Il processo di alignment consta in un'elaborazione computerizzata che consente di allineare i frammenti di DNA (reads) ottenuti dal sequenziamento con le sequenze di riferimento del genoma umano, allo scopo di localizzare la posizione precisa di ciascuna read e di ricostruire così, come in un puzzle, le sequenze dei geni del paziente. L'alignment fa parte del processo di analisi bioinformatica, che include anche le fasi di variant calling e filtering & annotation.
La fase di alignment è tutt'altro che facile e non può essere fatta che in modo automatico da un computer. Basti pensare che il genoma umano è costituito da circa 3 miliardi di paia di basi e che le reads ottenute in un'analisi NGS hanno grandezza variabile da poche decine a poche centinaia di nucleotidi. Oltre all'impressionante mole dei dati da analizzare, alcuni degli ostacoli principali sono dati dalla qualità, non sempre ottimale, delle sequenze ottenute durante il sequenziamento e dal fatto che non tutte le reads sono localizzabili in modo univoco in un punto solo del genoma (alcune possono infatti essere allineate in più punti). Data la gran quantità di informazioni da gestire, il processo risulta estremamente impegnativo sia dal punto di vista informatico che dal punto di vista temporale. Non per nulla vi sono software che puntano più sulla velocità che sulla sensibilità del risultato.
I file di archiviazione dei risultati di un alignment possono essere di due tipi: SAM (Sequence Alignment/Map) e BAM (Binary Alignment/Map). Esistono diversi software di alignment in circolazione, alcuni disponibili a pagamento, altri freeware. Ognuno è basato su un algoritmo diverso e tuttavia molti condividono caratteristiche comuni. Quasi tutti, ad esempio, sono basati sul metodo dell'indicizzazione (indexing method), che consente di ridurre man mano le zone di possibile localizzazione della read all'interno del genoma. Alcuni permettono solo allineamenti perfetti, mentre altri (ad esempio BWA e Bowtie2) consento di allineare anche laddove compaiano piccole lacune nella sequenza (ungapped e gapped alignment, rispettivamente). Alcuni algoritmi ritornano un unico risultato di allineamento (quello cioè del miglior allineamento possibile - è il caso, ad esempio, di algoritmi come BWA, Bowtie e MAQ), mentre altri mostrano tutti gli allineamenti possibili (è il caso, ad esempio, degli algoritmi SOAP3 e SHRiMP). Come detto, alcuni software puntano più sulla sensibilità del risultato (ad esempio, Novoalign), altri puntano più sulla velocità (BWA e Bowtie), mentre altri cercano di combinare entrambe le caratteristiche (Stampy). Va detto, infine, che alcuni software sono in grado di allineare solo single-end reads, altri solo paired-end reads, altri entrambi i tipi di reads.
Per saperne di più: Libri e Pubblicazioni sulla Bioinformatica
Argomenti correlati:
La fase di alignment è tutt'altro che facile e non può essere fatta che in modo automatico da un computer. Basti pensare che il genoma umano è costituito da circa 3 miliardi di paia di basi e che le reads ottenute in un'analisi NGS hanno grandezza variabile da poche decine a poche centinaia di nucleotidi. Oltre all'impressionante mole dei dati da analizzare, alcuni degli ostacoli principali sono dati dalla qualità, non sempre ottimale, delle sequenze ottenute durante il sequenziamento e dal fatto che non tutte le reads sono localizzabili in modo univoco in un punto solo del genoma (alcune possono infatti essere allineate in più punti). Data la gran quantità di informazioni da gestire, il processo risulta estremamente impegnativo sia dal punto di vista informatico che dal punto di vista temporale. Non per nulla vi sono software che puntano più sulla velocità che sulla sensibilità del risultato.
I file di archiviazione dei risultati di un alignment possono essere di due tipi: SAM (Sequence Alignment/Map) e BAM (Binary Alignment/Map). Esistono diversi software di alignment in circolazione, alcuni disponibili a pagamento, altri freeware. Ognuno è basato su un algoritmo diverso e tuttavia molti condividono caratteristiche comuni. Quasi tutti, ad esempio, sono basati sul metodo dell'indicizzazione (indexing method), che consente di ridurre man mano le zone di possibile localizzazione della read all'interno del genoma. Alcuni permettono solo allineamenti perfetti, mentre altri (ad esempio BWA e Bowtie2) consento di allineare anche laddove compaiano piccole lacune nella sequenza (ungapped e gapped alignment, rispettivamente). Alcuni algoritmi ritornano un unico risultato di allineamento (quello cioè del miglior allineamento possibile - è il caso, ad esempio, di algoritmi come BWA, Bowtie e MAQ), mentre altri mostrano tutti gli allineamenti possibili (è il caso, ad esempio, degli algoritmi SOAP3 e SHRiMP). Come detto, alcuni software puntano più sulla sensibilità del risultato (ad esempio, Novoalign), altri puntano più sulla velocità (BWA e Bowtie), mentre altri cercano di combinare entrambe le caratteristiche (Stampy). Va detto, infine, che alcuni software sono in grado di allineare solo single-end reads, altri solo paired-end reads, altri entrambi i tipi di reads.
Per saperne di più: Libri e Pubblicazioni sulla Bioinformatica
Argomenti correlati:
- ANALISI BIOINFORMATICA: LA VERA SFIDA DEL FUTURO
- NEXT GENERATION SEQUENCING
- APPLICAZIONI DELLA NEXT GENERATION SEQUENCING
- PERSONAL GENOME MACHINES: IL MOMENTO È ARRIVATO!
- EXOME SEQUENCING
- GENOME SEQUENCING
- ENRICHMENT NELLA NGS: LO STEP AGGIUNTIVO NECESSARIO
- MULTIPLEXING: UN’APPLICAZIONE FORMIDABILE DELLA NGS
- ROCHE 454: UNA PIATTAFORMA NGS MOLTO VELOCE
- ILLUMINA: PIATTOFORME NGS A RESA ELEVATA
- SOLiD: LA PIATTAFORMA NGS DI APPLIED BIOSYSTEMS
Nessun commento:
Posta un commento