PRACTICAS DE BIOINFORMATICA E.P.
BIOLOGIA UNSA
FACULTAD DE CIENCIAS BIOLÓGICAS
ESCUELA PROFESIONAL DE BIOLOGÍA
Laboratorio de Bioinformática
“PRÁCTICA 3”
DOCENTE
Julio César Bernabé Ortiz
INTEGRANTES:
AGUILAR CAHUANA MIGUEL
ALVAREZ GONGORA MALHU YRAZEMA
PALMA VILCA FERNANDA
SANCHEZ CASTRO FLOR LEONOR MAYTE
Semestre:
8°
Arequipa-Perú
2021
PRACTICAS DE BIOINFORMATICA E.P. BIOLOGIA UNSA
PRACTICA 3. Alineamiento de secuencias
Objetivo:
Utilizar la versión gráfica del EMBOSS (Jemboss) en windows, en
esta guía también se incluyen los comandos utilizados si se trabaja
con la versión terminal del EMBOSS de Linux.
Hacer alineamientos con diferentes secuencias e interpretar sus
resultados.
Introducción:
El alineamiento es la comparación de secuencias de ADN, RNA o la estructura
primaria de proteínas.
Los alineamientos sirven, entre otras cosas para:
Asegurarse de que dos secuencias son similares y cuantificar su
similitud.
Encontrar dominios funcionales.
Comparar un gen y su producto.
Buscar posiciones homólogas en las secuencias.
Para poder cuantificar el grado de similitud de dos secuencias lo primero que hay
que hacer es alinearlas.
Hay dos tipos de alineamientos principales: globales y locales.
En el global se intenta que el alineamiento cubra las dos secuencias completamente
introduciendo los gaps que sean necesarios.
En el local se alinean sólo las zonas más parecidas.
El global sirve para alinear secuencias que se empiecen y acaben en la misma
región, por ejemplo, genes homólogos de especies similares.
El alineamiento local suele ser la mejor opción a no ser que se esté seguro de que
las los secuencias deben de parecerse a lo largo de toda su extensión. En muchos
casos las secuencias homólogas se parecen sólo en las regiones más conservadas.
ACTIVIDADES, pueden seguir la versión original en la dirección:
Alineamiento de secuencias — Bioinformatics at COMAV 0.1 documentation ([Link])
Dotplot
PRACTICAS DE BIOINFORMATICA E.P. BIOLOGIA UNSA
Estructura de un gen
Se puede estudiar la distribución de exones e intrones de un gen gráficamente utilizando el
programa dotmatcher. dotmatcher permite hacer dotplots dentro del EMBOSS. También podemos
utilizarlo en una página externa (servidor alternativo). Vamos a comparar una región genómica de
Arabidopsis AT3G52905.1 con el mRNA correspondiente.
Fig. 1, Relación de la secuencia del gen de Arabidopsis con la secuencia del DNA a partir del
mRNA.
Se resaltaron con líneas rojas las diagonales mas visibles, las cuales nos indican la secuencia similar
de bases que se detectaron al comparar el gen de Arabidopsis con la secuencia del DNA a partir del
mRNA.
PRACTICAS DE BIOINFORMATICA E.P. BIOLOGIA UNSA
¿Por qué es tan confuso el resultado?
Se debe a la poca compatibilidad, ya que el mRNA ya no posee intrones, mientras que el gen de
Arabidopsis los conserva, es por ello que en el gráfico se observa la poca compatibilidad debido a la
poca presencia de diagonales continuas.
¿Hay algún parámetro que lo pueda mejorar?
Alineamiento de secuencias mediante gaps.
¿Por qué está cortada en varios segmentos la diagonal principal?
Los segmentos de secuencia similar se detectan como diagonales, por lo tanto, se corta en varios
segmentos debido a que no se encuentran bases idénticas al compararlas.
Genes en especies cercanas
En general el dotplot sirve para ver gráficamente qué regiones de las secuencias se parecen entre sí.
Se puede estudiar qué regiones son similares entre proteínas homólogas de organismos más o menos
distantes. Utilizando el dotmatcher vamos a comparar los ARN mesajeros de dos ciclinas homólogas,
una humana y otra canina.
PRACTICAS DE BIOINFORMATICA E.P. BIOLOGIA UNSA
Fig. 2, Comparación de los ARN mensajeros de dos ciclinas homólogas, una humana y otra canina.
Se resaltó la diagonal principal de rojo. Las ciclinas son proteínas que controlan el ciclo celular,
permitiendo que este siga adelante o se pare. Las ciclinas aparecen en determinados periodos del ciclo
celular y actúan uniéndose a otras proteínas llamadas quinasas, dependientes de las ciclinas.
¿Son iguales en toda la extensión de los mensajeros?
Existe un pequeño fragmento el cual no completa la diagonal principal, lo que se deduce que no es
igual en su totalidad.
¿A qué puede deberse que unas regiones estén más conservadas que otras?
Se debe a que estas regiones son similares entre proteínas homólogas de organismos más o menos
distantes.
Repeticiones en tándem
PRACTICAS DE BIOINFORMATICA E.P. BIOLOGIA UNSA
El método de alineamiento gráfico es el mejor para observar regiones repetidas o invertidas. Como
ejemplo vamos a estudiar las repeticiones presentes en el dedo de zinc humano Q9P255. Hacer un
dotplot utilizando el dotmatcher de esta proteína consigo misma.
Fig. 3, Repeticiones presentes en el dedo de zinc humano Q9P255, comparado consigo mismo.
¿Qué significa este patrón?
Que ambos genes comparados son idénticos entre sí, ya que existen en su totalidad
regiones repetidas.
¿Cómo están distribuidas las repeticiones?
PRACTICAS DE BIOINFORMATICA E.P. BIOLOGIA UNSA
Partiendo de la diagonal principal para abajo se cuenta un total de 13 diagonales,
de igual forma se encuentran otras 13 diagonales por la parte superior de la diagonal
principal.
¿Cuántas repeticiones hay?
Hacia el eje X a parte de la diagonal principal un aproximado de 13 repeticiones, y
hacia el eje Y partiendo de la diagonal principal de igual forma un aproximado de
13 repeticiones.
Ver la estructura de las proteínas en la Uniprot:
- Q9P255:
Fig. 4, Estructura de la proteína Q9P255.
PRACTICAS DE BIOINFORMATICA E.P. BIOLOGIA UNSA
- P03001:
Fig. 5, Estructura de la proteína P03001.
Alineamientos locales
Proteínas homólogas
Se puede obtener el mejor alineamiento entre dos proteínas homólogas de especies
diferentes.
Este mismo método serviría para alinear familias proteicas dentro de la misma
especie.
Como ejemplo alinear las ciclinas humana y canina utilizando el matcher o el water.
$ matcher [Link] [Link] stdout
PRACTICAS DE BIOINFORMATICA E.P. BIOLOGIA UNSA
Fig. 6, Fragmento de alineación de las ciclinas humana y canina usando matcher.
¿Cuánto se parecen las secuencias?
Las secuencias de las ciclinas de humano y canina son muy parecidas debido a los
pocos mismath que se encuentran.
¿Hemos obtenido un alineamiento local o global? ¿Por qué?
Es un alineamiento local, pues compara cada 50 nucleótidos, por “paquetes de 50”,
y no de manera conjunta.
PRACTICAS DE BIOINFORMATICA E.P. BIOLOGIA UNSA
Regiones conservadas
Normalmente no todas las regiones varían del mismo modo entre proteínas
homólogas de especies alejadas.
Podemos descubrir qué regiones se conservan utilizando un alineamiento local.
Alinear las frataxinas humana y del mosquito de la fiebre amarilla utilizando
el matcher o el water.
$ matcher [Link] [Link] stdout
Fig. 7, Alineación de las frataxinas humana y del mosquito de la fiebre amarilla usando matcher.
PRACTICAS DE BIOINFORMATICA E.P. BIOLOGIA UNSA
¿Es local el alineamiento?
En la imagen se ven regiones que se conservan utilizando un alineamiento local,
pues hay secciones en las que está presentes un punto en común.
¿Por qué hay zonas de las proteínas que no se han alineado?
Ya que existe un alineamiento local es normal que no haya un alineamiento al 100%,
existiendo dichas zonas no alineadas.
¿Por qué unas regiones se parecen más que otras?
Porque al compararlos éstos al encontrar su “par” se alinearon en un principio.
¿Qué les sucede a los aminoácidos 92, 100, 101, 104, 108, 111, 112, 122 y 124 de
la humana?
Se alinearon de forma local.
Alineamientos globales
Se puede utilizar un algoritmo de alineamiento global que exija que la totalidad de
ambas secuencias se alinee.
Hacer un alineamiento global de los ejemplos anteriores utilizando el needle.
needle [Link] [Link] stdout -auto
PRACTICAS DE BIOINFORMATICA E.P. BIOLOGIA UNSA
Fig. 8, Alineación de las frataxinas humana y del mosquito de la fiebre amarilla usando needle.
¿Es este alineamiento mejor que el anterior?
Sí, puesto que aquí se usaron gaps, nos da una vista panorámica de que
nucleótidos tuvieron que moverse para encontrar los match, y así darnos una
puntuación.
Los alineamientos globales sólo hay que utilizarlos cuando estemos seguros que
las secuencias se parecen a lo largo de toda su extensión. Estos algoritmos suelen
dar malos resultados si hay regiones que no son similares entre las dos secuencias.
Estructura génica
El EMBOSS dispone de un programa creado específicamente para alinear ARN
mensajero y ADN genómico, est2genome.
Podemos probarlo con el gen de Arabidopsis
AT3G52905.1 (genómico, mRNA) (genómico, mRNA).
PRACTICAS DE BIOINFORMATICA E.P. BIOLOGIA UNSA
est2genome [Link] [Link] stdout -auto
Fig. 9, Alineación del ADN genómico y el mRNA usando est2genome .
¿Cuantos exones e intrones hay?
Hay 191 exones, y 0 intrones, debido a que la comparación se da con el mRNA.
Para obtener el alineamiento completo:
est2genome [Link] [Link] stdout -align
-auto
Este programa además de utilizar algoritmos de alineamiento convencionales tiene
en cuenta las secuencias necesarias para el splicing que rodean los intrones.
Bibliografía:
Jemboss — Bioinformatics at COMAV 0.1 documentation ([Link])
[Link]
Alineamiento de secuencias ([Link])