Le sequenze di DNA e gli assembly che si trovano in Ensembl provengono da vari progetti in tutto il mondo. Ensembl fornisce, per tutte quelle sequenze che sono depositate anche in RefSeq, la corrispondente nomenclatura RefSeq, così che l’utente possa capire che si tratta della stessa identica sequenza riportata in due diversi database.
Anche in Ensembl, come in RefSeq, sono archiviate sequenze di riferimento di geni, trascritti e proteine. Le sequenze dei geni (sia codificanti per proteine che codificanti per ncRNA che pseudogeni) – sigla ENSG - sono disponibili nella sezione GENCODE, dove è possibile visualizzare l'intera sequenza nucleotidica, all'interno della quale le sequenze esoniche del gene vengono evidenziate in rosso. Eventuali altre regioni esoniche non appartenenti al gene, ma comunque presenti nella regione, sono evidenziate in rosa.
Figura 1 - Esempio di sequenza genica in Ensembl tratta dal gene BRCA2 (in evidenza sequenze esoniche). Riferimento Ensembl: ENSG00000139618. |
Poiché le pagine di GENCODE sono interattive, è possibile personalizzare la visualizzazione aggiungendo, ad esempio, le varianti nucleotidiche del gene: basta cliccare su "Configure this page" nel menù sul lato sinistro della pagina.
Venendo ai trascritti – sigla ENST – questi sono molto intelligentemente associati a un gene ENSG (Ensembl riporta infatti la formula: This transcript is a product of gene ENSG.....). Una volta sulla pagina principale di un trascritto ENST è possibile cliccare su "Show Transcript Table" per vedere la lista di tutti i trascritti presenti nel databse Ensembl e individuare subito quali, fra questi, corrispondono a trascritti RefSeq. Similmente, il database contiene anche sequenze proteiche - sigla ENSP.
Nessun commento:
Posta un commento