2008/05/17

IDENTIFICACIÓ DE DNA

PRÀCTICA DE BIOINFORMÀTICA

Objectiu: Identificar, a partir d’una seqüència nucleotídica desconeguda, l’espècie a la qual pertany i la funció d’aquest gen.

Pla de Treball

Els investigadors del CEAB han anat de campanya a buscar mostres a llacs de muntanya. Per fer-ho, agafen aigua del llac i la filtren amb filtres de diàmetres molt petits. Entremig dels filtres es queda material genètic dels organismes que viuen en aquell llac. Envien a seqüenciar aquest material genètic, i l’empresa els retorna un fitxer amb les seqüències nucleotídiques, però no saben a quina espècie corresponen, ni quina funció té aquest gen. Què els podries ajudar?

Seqüència 1:

CACATGCAAGTCGAACGGTAACGCGGGGCAACCTGGCGACGAGTGGCGAACGGGTGAGTAATATATCGGA
ACGTGCCCAATTGTGGGGGATAACGTAGAGAAATTTACGCTAATACCGCATACGATCTAAGGATGAAAGC
GGGGGATCGCAAGACCTCGCGCAATTGGAGCGGCTGATATCAGATTAGCTTGTTGGTGAGGTAAAAGCTC
ACCAAGGCGACGATCTGTAGCTGGTTTGAGAGAACGACCAGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGGGAATTTTGGACAATGGGCGAAAGCCTGATCCAGCAATGCCGCGTGCAG
GAAGAAGGCCTTCGGGTTGTAAACTGCTTTTGTACGGAACGAAACGGTCTGCCCTAATACGGCGGGCTAA
TGACGGTACCGTAAGAATAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGGGTGCGAGC
GTTAATCGGAATTACTGGGCGTAAAGCGTGCGCAGGCGGTTATGTAAGACAGTTGTGAAATCCCCGGGCT
CAACCTGGGAATTGCATCTGTGACTGCATAGCTAGAGTACGGTAGAGGGGGATGGAATTCCGCGTGTAGC
AGTGAAATGCGTAGATATGCGGAGGAACACCGATGGCGAAGGCAATCCCCTGGACCTGTACTGACGCTCA
TGCACGAAAGCGTGGGGAGCAAACAGGATTAGATACCCTGGTAGTCCACGCCCTAAACGATGTCAACTGG
TTGTTGGGTGCATTAGTACTCAGTAACGAAGCTAACGCGTGAAGTTGACCGCCTGGGGAGTACGGCCGCA
AGGTTGAAACTCAAAGGAATTGACGGGGACCCGCACAAGCGGTGGATGATGTGGTTTAATTCGATGCAAC
GCGAAAAACCTTACCTACCTTTGACATGTACGGAATTCGCCAGAGATGGCTTAGTGCTCGAAAGAGAGCC
GTAACACAGGTGCTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCG
CAACCCTTGTCATTAGTTGCTACATTTAGTTGGGCACTCTAATGAGACTGCCGGTGACAAACCGGAGGAA
GGTGGGGATGACGTCAAGTCCTCATGGCCCTTATAGGTAGGGCTACACACGTCATACAATGGATGGTACA
GAGGGTCGCCAACCCGCGAGGGGGAGCTAATCCCATAAAACCATTCGTAGTCCGGATCGCAGTCTGCAAC
TCGACTGCGTGAAGTCGGAATCGCTAGTAATCGCGGATCAGAATGTCGCGGTGAATACGTTCCCGGGTCT
TGTACACACCGCCCGTCACACCATGGGAGCGGGTTCTGCCAGAAGTAGTTAGCCTAACCGCAAGGAGGGC
GATTACC

Seqüència 2:

ATGGCATACTCATATACCGAAAAGAAACGGATCCGTAAGAATTTTGGTAAATTGCCTAGTGTTATGGATGCTCCGTACTTGCTCGCGATTCAAGTCGACTCGTACAGAACATTTTTACAAGATGGCAAATCACCAAAAAA
CCGCGAAGATATCGGTCTGCAAGCCGCGTTTCGTTCAGTTTTTCCTATAGAAAGTTATTCTGGCAATGCT
GCTTTAGAATTTGTTGAGTATAGTCTTGGTAAGCCTGAGTTTGATGTACGCGAATGTATTCTTCGTGGCT
CAACTTATGCAGCACCAATGCGCGTAAAAATTCGTTTGATCTTAAAAGATCGCGAAACTAAATCAATTAA
AGACGTGCGCGAGCAAGAAGTGTACATGGGTGAAATGCCACTCATGACCGATAACGGTACATTCGTTATT
AATGGTACTGAGCGTGTAATCGTATCTCAATTACACCGTTCACCAGGCGTGTTCTTTGACCACGATAAAG
GCAAAACCCACTCTAGTGGTAAAGTGCTTTATTCTGCGCGTATTATTCCTTACCGTGGTTCATGGTTAGA
CTTCGAATTTGACGCAAAAGACCTTGTATTTGTGCGTATTGACCGTCGTCGTAAATTACTCGCGACTGTG
GTTCTTCGTGCTTTGGGTTATAACAATGCGAAAATCTTAGACTTGTTCTATGAAAAAGTGCCTGTATACC
TAGACATGGGTAGCTACCAGATTGACCTTGTTCCAGAACGCTTACGTGGCGAAATGGCACAATTTGACAT
CGTAGATAATGATGGCAAAACCATTGTTGAGCAAGGCAAGCGTATCAACGCGCGTCATGTGCGTCAAATG
GAAGCTGCTGGCCTAGAAAAACTTTCTGTGCCAGATGAGTACTTGTACGAGCGCATTACTGCAGAAGACA
TCCCACTTAAAGATGGTGATGTGATTGCAGCTAATACCTTGTTAAGCCATGAAGTGATGGTGAAATTGGC
TGAAGGGGGTGTTAAACAATTTAACATTCTATTCACCAATGACATCGACCGTGGTTCATTCGTTGCAGAT
ACTTTACGTGCAGACACCACGACAGGTCGTGAAGAAGCATTGGTAGAAATCTACAAAGTAATGCGTCCAG
GCGAGCCACCAACGAAAGAAGCGGCTGAAAATTTATTCAATAACTTGTTCTTCTCTTCAGAACGTTATGA
CCTCTCTCCAGTGGGTCGTATGAAGTTCAACCGTCGTTTAGGTCGTCCTTACGAAGTGGGTACGGATCAG
AAGTCTCGTGAAGTTGAAGGTATTTTGTCGAACGAAGATATCACTGATGTATTAAAAACATTGGTTGAAA
TCCGTAACGGTAAAGGTGAAGTCGACGATATCGATCACTTGGGTAACCGTCGCGTGCGTTCAGTAGGCGA
AATGACTGAAAACCAATTCCGTGTTGGTCTAGTTCGTGTAGAACGTGCTGTTAAAGAACGTTTAAGCCAA
GCTGAAACAGATAACTTGTCTCCGCAAGATTTGATCAATGCGAAACCAGTGGCTGCTGCAATCAAAGAAT
TCTTTGGTTCAAGCCAGTTATCTCAGTTCATGGACCAAAACAACCCATTGTCTGAGATTACGCACAAACG
TCGTGTATCGGCGCTTGGTCCCGGTGGTTTGACACGTGAACGTGCGGGCTTTGAGGTACGTGACGTACAC
CAAACTCACTACGGTCGTGTATGTCCAATTGAAACGCCGGAAGGTCCAAACATTGGTTTGATCAACTCGC
TTTCTGTTTATGCGAAATGTAACAATTTCGGTTTCTTAGAAACACCATACCGTAAAGTGCTTGATGGTCG
TGTAACGGATGAAGTTGAGTATTTATCTGCAATTGAAGAAGTAGGTACTGTGATTGCACAGGCCGATTCT
GGCGTAGATAAAGACGGTAACTTAACAGAAGAATTTGTTTCTGTACGTCACCAAGGTGATTTCGTACGTA
TGCCGCCTGAAAAAGTGACGCATATGGACGTTTCTGCACAGCAGGTTGTTTCTGTTGCTGCATCACTCAT
TCCATTCCTTGAACACGATGACGCCAACCGTGCATTGATGGGTTCAAACATGCAGCGTCAAGCTGTGCCT
ACATTGATTGCTGACAAACCGCTTGTAGGTACAGGCATGGAAGCAAATGTAGCGCATGACTCTGGTGTGT
GTGTGATTGCGGGTCGTGGTGGTCGTATCGAATTCGTCGATGCTTCACGTGTTGTGATTCGTGTCAATGA
AGATGAAATGGTTGCAGGCGAGGCAGGTGTAGATATCTATAACCTGATCAAATATACACGTTCGAACCAA
AACACTTGTATTAACCAAAAAGTTCTTGTGAAACTTGGTGATAAAGTGGGTCGTGGCGATGTATTGGCTG
ATGGTCCATCAACAGATGGTGGTGAGCTTGCGCTAGGTCAAAACATGCGCGTTGCGTTCATGACGTGGAA
TGGTTACAACTATGAAGACTCGATCTTACTTTCAGAGCGCGTACTTCAAGAAGACCGTTTAACCTCGATT
CACATTCAAGAATTATCATGTGTTGCACGTGATACGAAATTGGGTGCGGAAGAGATCACAGCGGATATCC
CGAATGTGGGTGAAGCTGCACTGTCTAAGCTTGATGAATCAGGTATCGTATATATCGGTGCTGAAGTGAC
TGCTGGTGATATCCTTGTAGGTAAAGTAACGCCTAAAGGTGAAACGCAGTTAACACCAGAAGAAAAATTG
CTTCGTGCAATCTTCGGTGAAAAAGCAGCTGACGTAAAAGACTCATCTTTACGTGTTCCATCAGGTACCA
AAGGTACAGTGATTGACGTTCAAGTGTTTACACGTGACGGTCTTGAGAAAGACGAACGTGCGCAAGCAAT
TGAAAAAGCTCAGCTTGATTCATATCGTAAAGACTTGAAAGAAGAATACAAAATCTTCGAAGAAGCAGCA
CGTGAACGTATTGTTCGTTTGTTGACAGGTCAAGAGTCTAACGGTGGTGGTACAACCAAGCGTGGCGATA
AGCTTTCTGTAGACGTATTGTCTGGTTTAGAGTTGGTTGATTTACTTGAAATCCAACCGACTGATGAAGC
TATTGCAGAGCGTTTAACTCAAATTCAAGTGTTCTTGAAAGAGAAGAGCTTTGAAATTGATGAGAAGTTT
GCAGAGAAAAAACGCAAACTTTCTACAGGTGATGAATTAACAACAGGTGTATTGAAAGTTGTTAAGGTTT
ACTTGGCTGTTAAACGTCGCATCCAACCGGGTGATAAGATGGCGGGTCGTCACGGTAACAAGGGTGTTGT
TTCTAACATCTTGCCTGTTGAAGACATGCCGCACGATGCCAATGGTGTTCCAGTCGACATCGTATTGAAC
CCACTGGGTGTACCGTCACGTATGAACGTGGGTCAGATTCTAGAGACTCACTTAGGTATGGCAGCGAAAG
GTCTTGGCGAAGAAATCGACAAGATGTTAAAAGCGCAACGTACTGTACTTGAGCTTCGTGGATTCTTAGA
CAAGATTTATAACAAAGTTGGTGGCGAGCAAGAAGATCTTGATAGCTTAACTGATGATGAAATTTTGGTG
CTTTCGGGTAACTTGCGTGCGGGTGTTCCTCTTGCAACGCCAGTATTCGATGGTGCTGAAGAATCTCAAA
TTAAAGACTTGTTAGAGCTTGCGAACATTTCACGTACTGGTCAAACAGTATTGTATGATGGTCGTACAGG
TGAACAGTTTGACCGTCCTGTAACTGTAGGTTACATGTACATGTTGAAACTGAACCACTTGGTAGACGAC
AAGATGCACGCACGTTCTACTGGTTCTTACTCATTAGTAACTCAACAGCCGCTTGGTGGTAAAGCACAAT
TCGGTGGTCAGCGTTTCGGTGAGATGGAAGTCTGGGCGCTTGAAGCATATGGCGCAGCTTACACGCTTCA
AGAAATGCTTACTGTTAAGTCGGATGACGTTGAAGGTCGTACCCGTATCTATAAGAACATTGTAGATGGT
AACCATTATATGGACCCAGGTATGCCTGAATCGTTCAACGTATTGACCAAAGAGATCCGTTCTTTAGGTA
TCAACATTGAACTGAAAAATGGTGACTAA



La plana web: http://www.ncbi.nlm.nih.gov/ pertany al National Center for Biotechnology Information (NCBI) que és una institució dels Estats Units. En aquest web hi ha una base de dades de totes les seqüències que es disposen fins al moment. També hi ha varies aplicacions per treballar amb aquestes seqüències, articles científics, etc. Nosaltres utilitzarem un programa anomenat Blast. Aquest programa ens permet comparar la nostra seqüència amb totes les que tenen emmagatzemades a la base de dades i ens dóna la que s’assembla més. Hi ha diversos programes dins de Blast, segons si la nostra seqüència és de nucleotids o d’aminoàcids.

Procediment:

Entrem a la següent plana web: http://www.ncbi.nlm.nih.gov/blast/Blast.cgi
Cliquem sobre nucleotide blast, ja que les nostres seqüències són de nucleòtids.
Copiem i enganxem la seqüència 1.
On posa database escollim nucleotide collection (nr/nt).
Cliquem sobre BLAST per a què el programa comenci.
Un cop tenim la plana dels resultats veiem que primer ens posa un esquema del que ha trobat. Si baixem amb el ratolí anirem cap a la part que ens interessa, ens apareix tot un llistat de les seqüències que ha trobat similars a la nostra. Les seqüències estan en ordre des de les que més s’assemblen a la nostra a la que menys, així, les primeres són les més similars.

Observeu la informació que ens dóna el resultat de BlastN i responeu les següents preguntes.

A quina espècie correspon la seqüència 1?


A quin gen correspon la seqüència 1?


Quina longitud té la nostra seqüència 1?



A quina espècie correspon la seqüència 2?




A quin gen correspon la seqüència 2?