lunedì 27 ottobre 2014

RefSeq: IL DATATBASE DELLE SEQUENZE DI RIFERIMENTO

Come anticipato nell'introduzione ai termini e agli strumenti bioinformatici, in RefSeq sono contenute sequenze di riferimento di geni, trascritti e proteine. È da osservare anzitutto come il termine RefSeq sia in realtà solo il nome formale. Di fatto RefSeq è suddiviso in più database. Per ottenere la sequenza di un gene, infatti, bisognerà interrogare Gene, per ottenere una lista di trascritti bisognerà effettuare la ricerca in Nucleotide, mentre per ottenere la sequenza della proteina bisognerà interrogare Protein. Fanno parte di RefSeq anche alcuni progetti, a volte dalla descrizione non molto chiara. Si tratta dei cosiddetti RefSeq projects: RefSeqGene (in realtà ogni ricerca effettuata qui reindirizza a Gene), Consensus CDS, HIV-1 Human Interaction Database, Targeted Loci (un progetto mirato a raccogliere informazioni su geni codificanti per proteine o RNA ribosomiali che possano essere utilizzati nell’analisi filogenetica) e Virus Variation.

Tutte le reference sequences del database sono identificate da due lettere iniziali. Vediamo subito le più importanti:
  • NC_ → identifica la sequenza di riferimento di un intero genoma (assembly)
  • NM_ → identifica la sequenza di riferimento di un trascritto
  • NP_ → identifica la sequenza di riferimento di una proteina
Nella diagnostica genetica di routine NC_ e NP_ non sono poi molto utilizzati (sebbene possano essere codici di riferimento di estrema utilità in un contesto di ricerca). Le sequenze di riferimento più spesso utilizzate in diagnostica sono infatti le sequenze NM_, cioè quelle che identificano un trascritto. Infatti, come del resto raccomandato dalla Human Genome Variation Society (HGVS), le mutazioni vengono più comunemente descritte a livello del cDNA, ossia del trascritto (NM_). È da notare che ogni NP_ (proteina) è associata a una NM_ (infatti, se codificante, ad ogni trascritto corrisponde una determinata proteina) e a una NC_ (infatti, potendo le sequenze di un gene variare leggermente da un assembly all’altro, possono variare leggermente anche le sequenze dei trascritti).

Esistono poi altre sigle, di uso meno frequente. A livello genomico (ossia a livello del DNA) si distinguono:
  • AC_: identifica anche questa un intero genoma, che però non è solitamente quello di riferimento, bensì uno alternativo;
  • NG_: identifica soltanto una regione genomica incompleta;
  • NT_ e NW_: identifica un contig (contiguo) o uno scaffold (impalcatura, cioè un insieme di contigui). Identifica dunque solo una piccola porzione dell’intero genoma. NT_ identifica contig o scaffold ricostruiti con la metodica del clonaggio o dello Whole-Genome Sequencing (WGS), mentre NW_ rappresenta un contig o uno scaffold costruito primariamente con un WGS;
  • NS_: è una sequenza cosiddetta ambientale, ottenuta cioè dal sequenziamento di campioni prelevati nell’ambiente;
  • NZ_: è una sequenza prodotta da un WGS, ma incompleta.
A livello di trascritto (ossia a livello del cDNA) e delle proteine si hanno poi:
  • NR_: identifica un RNA (non un mRNA);
  • XM_: identifica un mRNA, ma solo secondo un modello di predizione. Non si tratta dunque di una sequenza revisionata e confermata del team di RefSeq. Similarmente si basano su modelli di predittivi le sequenze proteiche XP_ (ciascuna delle quali associata a una sequenza XM_) e le sequenze XR_ (RNA e non mRNA);
  • AP_ , cioè una sequenza proteica alternativa annotata sulla base di un assembly alternativo AC_;
  • ZP_, cioè una sequenza proteica alternativa basata su un assembly WGS incompleto NZ_;
  • YP_, altra sigla che identifica genericamente una predizione di sequenza proteica.
Un’utile tabella riassuntiva su tutte le sigle utilizzate in RefSeq è disponibile sul sito RefSeq cliccando qui.

Nessun commento: