Nombres: Milton Cárdenas, Maria Paula Rincón
Código: 0000182602, 0000159112
Taller - Introducción a la Bioinformática
Búsqueda de Secuencias
La búsqueda de secuencias hace referencia a la selección y descarga de secuencias de
nucleótidos o aminoácidos de diferentes bases de datos.
Existen diferentes centros a nivel mundial para almacenar información biológica, los
centros más importantes a nivel mundial son NCBI ( [Link]), EMBL / EBI
([Link] / [Link] ) y DDBJ ( [Link] ).
NCBI
NCBI (National Center for Biotechnology Information) es una institución pública (U.S.A.)
que provee acceso a toda la información genética de especies de organismos de todos los
dominios de la vida (Bacteria, Archaea y Eukarya) e incluye también los virus. Es la mayor
base de datos pública sobre secuencias de ADN y proteínas.
Las bases de datos están contenidas en una base principal (Entrez) con todos los datos
disponibles. Además de las bases de datos, el NCBI ofrece una serie de herramientas
esenciales para los análisis bioinformáticos requeridos por muchos científicos, como
BLAST. Una de las bases de datos más conocidas presentes en el NCBI es el GenBank. A
continuación, veremos una de las formas más sencillas de acceder a la información presente
en GenBank y el NCBI en general.
Vaya a: [Link]
Verá una pantalla similar a la siguiente y los recursos más usados (Popular resources),
como en la figura 1.
Figura 1. En el menú desplegable ubicado en la parte superior izquierda aparece la opción
“All Databases”, en la casilla de búsqueda escriba el nombre de alguna enzima de su interés
y la opción “search”
Veamos la base de datos general “Entrez” (All databases):
→ busque “Polyhydroxyalkanoate”
Podrá observar la página web del sistema ENTREZ del NCBI e identificar la información
disponible en la base de datos del NCBI relacionada con el término de búsqueda. Para el
caso de esta búsqueda hay 125,739 secuencias de proteínas y 62,525 secuencias de
nucleótidos entre otras.
*Explore la información disponible en las diferentes bases de datos. Vea la información que
contiene el “PubMed”
Después de conocer las diferentes bases de datos que ofrece la página del NCBI, es
momento de acceder a las secuencias de interés
Ejercicio 1 (0.8 punto)
Secuencias de genes ribosomales
Usted ha amplificado y secuenciado el gen 16SrDNA (marcador taxonómico) de un aislado
que ha obtenido en el laboratorio. Un algoritmo llamado BLAST le permite buscar
secuencias similares en la base de datos. Para ello, se pega la secuencia “problema” en el
cuadro de búsqueda. Pueden acceder a la opción de BLAST a través de la página principal
del NCBI ([Link]
a. ¿Cual es la identificación de este aislado? Recuerde que por encima de
98.7% de identidad (de porcentaje de similitud) se clasifican en una misma
especie diferentes cepas aisladas.
Este aislado pertenece a la bacteria Clostridium beijerinckii y sus cepas. El aislado
también está relacionado con las bacterias Clostridium diolis y clostridium sp.
b. ¿Qué es E-value?
El E-value es un parámetro que nos permite definir qué alineamientos nos sirven de
acuerdo con la significancia estadística. Si el E-value es bajo, más significativo es el
alineamiento.
c. ¿Qué significa el porcentaje (Per. Ident) de identidad?
El porcentaje de identidad es un parámetro que indica cuántos pares de bases,
aminoácidos, etc.. son iguales en el aislado que estamos analizando y en la información
guardada en las bases de datos con respecto al total que conforman el aislado.
>Cepa201
GACGAACGCTGGCGGCGTGCTTAACACATGCAAGTCGAGCGATGAAGCTCCTT
CGGGAGNGGATTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTGCCTCAT
AGAGGGGAATAGCCTTTCGAAAGGAAGATTAATACCGCATAAGATTGTAGTGC
CGCATGGCATAGCAATTAAAGGAGTAATCCGCTATGAGATGGACCCGCGTCGC
ATTAGCTAGTTGGTGAGGTAACGGCTCACCAAGGCGACGATGCGTAGCCGACC
TGAGAGGGTGATCGGCCACATTGGGACTGAGACACGGCCCAGACTCCTACGGG
AGGCAGCAGTGGGGAATATTGCACAATGGGGGAAACCCTGATGCAGCAACGC
CGCGTGAGTGATGACGGTCTTCGGATTGTAAAGCTCTGTCTTCAGGGACGATAA
TGACGGTACCTGAGGAGGAAGCCACGGCTAACTACGTGCCAGCAGCCGCGGTA
ATACGTAGGTGGCAAGCGTTGTCCGGATTTACTGGGCGTAAAGGGAGCGTAGG
TGGATATTTAAGTGGGATGTGAAATACTCGGGCTTAACCTGGGTGCTGCATTCC
AAACTGGATATCTAGAGTGCAGGAGAGGAAAGTAGAATTCCTAGTGTAGCGGT
GAAATGCGTAGAGATTAGGAAGAATACCAGTGGCGAAGGCGACTTTCTGGACT
GTAACTGACACTGAGGCTCGAAAGCGTGGGGAGCAAACAGGATTAGATACCCT
GGTAGTCCACGCCGTAAACGATGAATACTAGGTGTAGGGGTTGTCATGACCTC
TGTGCCGCCGCTAACGCATTAAGTATTCCGCCTGGGGAGTACGGTCGCAAGATT
AAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCAGCGGAGCATGTGGTTTA
ATTCGAAGCAACGCGAAGAACCTTACCTAGACTTGACATCTCCTGAATTACCCT
TAATCGGGGAAGCCCTTCGGGGCAGGAAGACAGGTGGTGCATGGTTGTCGTCA
GCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTTATTGT
TAGTTGCTACCATTTAGTTGAGCACTCTAGCGAGACTGCCCGGGTTAACCGGGA
GGAAGGTGGGGATGACGTCAAATCATCATGCCCCTTATGTCTAGGGCTACACA
CGTGCTACAATGGCTGGTACAGAGAGATGCTAAACCGTGAGGTGGAGCCAAAC
TTTAAAACCAGTCTCA
Ejercicio 2 (0,8 punto)
Imagine que usted tiene la secuencia de un gen (gen 2) y desea averiguar que tipo de
proteína codifica este gen
>gen2
atgacccagactaacttgcgcaacggcccggatgccaacggcctgtttggcgccttcggc
ggccgctacgtggctgaaaccctgatgccgctggtgctcgacctggcccgcgaatacgaa
gccgccaaggccgaccccgaattcctcgagcagctggcctacttccagcgcgactacatt
ggccgcccgaacccgctgtactttgccgagcgcctgaccgaacactgcggcggcgccaag
atctacttcaagcgcgaagagctgaaccacaccggcgcgcacaaggtgaacaactgcatc
ggccaggtgctgctggccaagcgcatgggcaagaaacgcctgatcgccgaaaccggtgcc
ggcatgcacggcgtggccaccgccaccgtcgctgcccgcttcggcctgccttgcgtgatc
tacatgggcgccaccgacatcgagcgccaacaggccaacgtattccgcatgcgcctgctg
ggtgccgagatcgtgccggtcaccgctggcaccggcaccctgaaagacgccatgaacgaa
gcgctgcgcgactgggtgaccaacgtcgacgacaccttctacctgatcggcaccgtcgcc
ggcccacacccgtacccggccatggtgcgcgacttccagtcgatcatcggcaaggaaacc
cgcgaacagttgcacgccaaggaagggcgcctgcccgacagcctggtggcgtgcgtgggc
ggcggttccaacgccatgggcctgttccacccgttcctggacgacgccagcgtggaaatc
tacggcgttgaagccgccggccacggcgtggacaccgacaagcacgcggccagcctcaac
ggcggcgtgccgggcgtgctgcacggcaaccgcacctacctgctgcaggacgacgacggc
cagatcaccgacgcccactcgatctccgccggcctggactaccctggcatcggcccggaa
cacgcctggttgcacgagatcaagcgcgtgaactacgtcagcatcaccgatgacgaagcc
ctggccgcgttccacaccacctgccgcctggaaggcatcatcccggcactggagaccgcc
cacgccctggccgaagccatcaagcgcgcgcctaccctgcccaaggatcacctgatggtc
gtctgcctctcgggccgtggcgacaaagacatgcaaaccgtgatgagccatatggccgcc
gccgagcaggagaaactggcatga
a. ¿Cuál de las cuatro opciones disponibles de BLAST seleccionará para hacer la
búsqueda de proteínas cercanamente relacionadas a su secuencia en la base de datos y
por qué?
Debido a que se tiene el gen y no se sabe la proteína que codifica, elegiríamos la
herramienta Blastx.
Pegue la secuencia en el campo de búsqueda del BLAST elegido, ejecute el programa con
los parámetros por defecto y responda:
b. ¿Cuál es el porcentaje de identidad de su secuencia respecto a la más parecida
98.77% Tryptophan Synthase subunit beta [Pseudomonas].
c. Haga click en el número de acceso del resultado que mayor porcentaje de
identidad presentó y revise la información proporcionada. En “Features” puede
identificar el número de aminoácidos (identificados como aa) que codifican para la
proteína de interés, ¿cuántos son?
Numero de aminoácidos: 407
Ejercicio 3 (0.8 punto)
En el ejercicio anterior podríamos obtener directamente la secuencia de aminoacidos, pero
en algunos casos se requiere el uso de programas bioinformáticos que predigan todas las
regiones comprendidas entre un codón de inicio y un codón de parada que corresponde al
marco abierto de lectura (ORF open Reading frame) de un posible gen.
La página del NCBI tiene el programa Open Reading Frame Finder (ORF Finder) que
permite traducir una secuencia de nucleótidos e indentificar los posibles marcos abiertos de
lectura.
Acceda al link [Link] y pegue la secuencia en estudio en
la casilla “Enter Query Sequence”, oprima la opción “submit” usando los parámetros por
defecto y responda:
a. ¿Cuantos ORFs se detectaron?
Se encontraron 8 Open Reading Frames.
b. ¿Cuál de las ORFs detectadas corresponde a la proteína de interés?
justifique su elección.
EL ORF1 es el que corresponde a la proteína de interés puesto que tiene una extensión en
pares de bases igual y al buscar ese ORF en la base de datos por medio de la herramienta
BLAST, vemos que tiene buen porcentaje de similitud con la proteína, EL ORF3 tiene una
extensión en pares de bases similar pero no se ha encontrado similitud con alguna otra
proteína registrada y no se tendría la certeza. Los demás son muy cortas.
Para el ejercicio 4, copie la secuencia de aminoácidos que considera corresponde a la
proteína buscada.
Ejercicio 4 (0,8 puntos)
Ahora vamos a buscar la página InterPro (Protein sequence analysis & classification) del
EMBL-EBI [Link] Pegue la secuencia de la proteína en la casilla
de “Analyse your protein sequence” y de click en “submit”.
Revise la información disponible y de click sobre el nombre de la proteína identificada y
responda:
a. ¿Cuál es la función de la proteína identificada?
La proteína es la encargada de la síntesis de L-Triptófano a partir de indol y L-serina.
b. En “Protein family membership” de click al nombre de la proteína y
explore la opción “Structures” y “Pathways”, ¿cuál es la base de datos
utilizada en cada caso para definir la estructura y la ruta metabólica?,
explore las opciones.
La base de datos usada para conocer la estructura de esa familia de proteínas se llama
PDB. La base de datos en donde se visualizan las rutas metabólicas relacionadas con la
proteína se llama kegg.
Ejercicio 5 (0.9 puntos)
Ahora imagine que ha secuenciado el genoma de algún organismo procariota y necesita
realizar la anotación (describir los genes que tiene un genoma) de ese genoma. Seleccione
un organismo y busque su genoma en la página del NCBI. Para predecir que genes contiene
y las funciones acceda a la página [Link]
a. En Genome statistics describa qué es N50 y CDS
b. En Features Seleccione uno de los genes anotados y describa su función.
Ejercicio 6 (0.9 puntos)
Revise el siguiente video
[Link]
cloning
Búsque el programa recomendado para determinar los sitios de corte por enzimas de
restricción de una secuencia de nucleótidos que usted elija. Escoja una enzima que corte
por lo menos tres veces y responda:
(La secuencia de nucleótidos elegida es la misma del aislado 201 en el punto 1)
a. ¿Cuál es el nombre de la enzima?
CbiQI
b. ¿Qué secuencia reconoce?
GTAC
Pegue un pantallazo del resultado obtenido.