sabato 15 febbraio 2014

INDELS CALLING: IL NON FACILE COMPITO DI INDIVIDUARE LE INSERZIONI/DELEZIONI

Come fare ad identificare le inserzioni/delezioni nei risultati di un sequenziamento?

Individuare le inserzioni/delezioni (indels) nelle sequenze dei geni di un paziente non è compito facilissimo, soprattutto nelle analisi NGS (nei sequenziamenti Sanger il compito può essere facilitato dalla ridotta mole di dati, che, se necessario, possono essere allineati e analizzati anche manualmente).

Abbiamo visto come alla fase di alignment (primo step dell'analisi bioinfomatica, nel quale si procede alla ricostruzione delle sequenze geniche del paziente) faccia seguito la fase di variant calling, ossia l'identificazione di tutte le deviazioni del paziente rispetto alle sequenze di riferimento (reference sequences). Se l'identificazione delle varianti di singolo nucleotide (single nucleotide variant - SNV) è relativamente facile, lo stesso non si può dire per le inserzioni/delezioni, cioè per quelle mutazioni consistenti in del (delezioni - perdita) o ins (inserzioni - aggiunta) o indels (cioè perdita e concomitante aggiunta) di piccole stringhe di nucleotidi. Non di rado, infatti, e specialmente quando inducono una modificazione minima della sequenza, queste mutazioni vengono erroneamente rilevate come SNV.

Per poter identificare propriamente le indels (indels calling) è necessario utilizzare programmi in grado di eseguire gapped alignment partendo da single-end reads. BWA e Novoalign, ad esempio, sono programmi adatti allo scopo. Altri algoritmi in grado di offrire l'indels calling sono Pindel, Pindel2 e Dindel. Anche VarScan e GATK sono in grado di identificare le indels, ma richiedono settaggi parametrici addizionali.

Dindel è il software migliore

Sebbene compatibile solamente con i file generati sulle piattoforme Illumina (e non è una limitazione da poco!), uno dei software migliori per lo indels calling è Dindel. Dindel è un freeware prodotto dal Welcome Trust Sanger Institute ed è adatto all'identificazione di delezioni e inserzioni di piccole dimensioni (inferiori alle 50 paia di basi). L'algoritmo di Dindel è basato sul metodo Bayesiano e procede sostanzialmente all'allineamento delle reads del paziente con diverse alternative di aplotipo della sequenza di riferimento. Dindel è stato impiegato nel 1000 Genome Project.

Per saperne di più: Libri e Pubblicazioni sulla Bionformatica (in italiano), Libri e Pubblicazioni sulla Bioinformatica (in inglese), Libri e Pubblicazioni sulla Next Generation Sequencing.

Argomenti correlati:

Nessun commento: