giovedì 13 febbraio 2014

VARIANT CALLING: LA FASE DI IDENTIFICAZIONE DELLE VARIANTI

Variant Calling: fase dell'analisi bioinformatica
Che cosa è il variant calling?

Il variant calling è la fase dell'analisi bioinformatica che segue quella dell'alignment. Infatti, una volta che le sequenze dei geni del paziente sono state ricostruite come in un puzzle tramite l'allineamento delle piccole reads ottenute nel sequenziamento, occorre individuare tutti i punti nei quali i geni del paziente differiscono dalle sequenze di riferimento del genoma umano archiviate nei database (reference sequences). Queste varianti saranno naturalmente numerossisime e in massima parte clinicamente irrilevanti, trattandosi per lo più dei semplici polimorfismi alla base delle differenze interindividuali. In un paziente affetto da una malattia genetica nota sarà tuttavia possibile identificare, con buona probabilità, una variante dall'effetto patogeno, più comunemente nota come mutazione malattia.

Tecnicamente il variant calling viene eseguito in automatico grazie all'ausilio di un software. Una volta terminata l'operazione, il risultato viene generalmente salvato in un file VCF (Variant Call Format). Uno dei problemi maggiori di un'operazione di variant calling è data dalla difficoltà nel riuscire a distinguere le varianti vere dalle varianti irreali, dovute ad artefatti del sequenziamento o ad errori nella fase di alignment. E si tratta tuttavia di un problema da risolvere a tutti i costi, poiché è dalla qualità del risultato di un'operazione di variant calling che dipende la probabilità di identificare o meno la mutazione-malattia o, nel caso degli studi di popolazione, di determinare in modo affidabile la frequenza allelica dei polimorfismi.

Volendo andare più nel dettaglio, i tre fattori che complicano maggiormente il variant calling sono:

1) la presenza di indels (inserzioni/delezioni), che possono essere erroneamente scambiate per varianti di singolo nucleotide (SNV) - questo errore è più frequente quando si usano software in grado di eseguire soltanto l'ungapped alignment invece del gapped alignment (per saperne di più potete leggere l'articolo sull'ALIGNMENT qui, mentre per saperne di più sui software adatti all'INDELS CALLING potete leggere qui); 2) errori di sequenziamento dovuti ad artefatti della PCR (non infrequenti nelle zone CpG, ad esempio, che causano spesso lo slittamento della polimerasi) - questi errori sono meno frequenti laddove si usino sistemi NGS basati sulle paired-end reads 3) variabilità della qualità del sequenziamento in corrispondenza delle estremità delle reads.

Alcuni di questi problemi possono essere ridotti tramite l'uso di software di alignment con elevati livelli di sensibilità come Stampy o Novoalign e impiegando algoritmi di variant calling che svolgano valutazioni di verosimiglianza delle varianti rilevate (tramite, ad esempio, calcoli Bayesiani o calcoli di linkage disequilibrium). Alcuni dei software di variant calling più utilizzati sono:

1) GATK (Genome Analysis ToolKit): si tratta di uno dei software più usati, che è stato impiegato in grandi progetti come il Cancer Genome Atlas e il 1000 Genome Project.

2) SOAPsnp: si tratta di un software open-source che è stato sviluppato da BGI (Beijing Genome Institute) e che può essere utilizzato per il variant calling sulla piattaforma del Genome Analyzer di Illumina. Il sistema utilizza il punteggio di qualità phred-like per valutare la verosimiglianza del genotipo rilevato in base ai risultati dell'alignment e al livello di qualità raggiunto nel sequenziamento. I software SOAPsnp e Bowtie sono stati utilizzati per creare il sistema integrato Crossbow, un programma open-source per l'esecuzione di operazioni di alignment e variant calling.

3) VarScan/VarScan2: si tratta di un programma open-source compatibile con diverse piattaforme di sequenziamento e con gli aligner Bowtie e Novoalign.

4) ATLAS 2: sviluppato dal Baylor Genome Center questo software è compatibile con numerose piattaforme NGS.

Per saperne di più: Libri e Pubblicazioni sulla Bionformatica (in italiano), Libri e Pubblicazioni sulla Bioinformatica (in inglese), Libri e Pubblicazioni sulla Next Generation Sequencing .

Argomenti correlati:

Nessun commento: