Alineamiento de secuencias
Introducción
1. Introducción
2. Conceptos evolutivos
3. ¿En qué consiste alinear 2 secuencias: Porcentajes de
identidad y similitud.
4. Matrices de sustitución.
5.Tipos de alineamientos
6. Algoritmos
8. Needleman-Wunsch
9. Smith-Waterman
10.BLAST
11. AMS
Alineamiento de secuencias
Introducción
Para qué?
>NP_001277651.1 myoglobin [Physeter catodon]
MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQ
SHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG
Alineamiento de secuencias
Introducción
Para qué?
>NP_001277651.1 myoglobin [Physeter catodon]
MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQ
SHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG
>NP_005359.1 myoglobin isoform 1 [Homo sapiens]
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ
SHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG
Alineamiento de secuencias
Introducción
Para qué?
>NP_001277651.1 myoglobin [Physeter catodon]
MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQ
SHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG
>NP_005359.1 myoglobin isoform 1 [Homo sapiens]
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ
SHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG
Para poder comparar y analizar las diferencias
Alineamiento de secuencias
Introducción
Premio Nobel de
Química- 1972
Alineamiento de secuencias
Introducción
Si comparo dos secuencias, si son suficientemente similares:
Probablemente tengan el mismo plegamiento y FUNCIÓN.
Alineamiento de secuencias
Introducción
Si comparo dos secuencias, las zonas que cambiaron:
Probablemente lo hicieron para adquirir alguna “característica” necesaria y
diferente del gen ancestral.
Alineamiento de secuencias
Conceptos Evolutivos
Si dos secuencias son suficientemente “similares”, podremos proponer que
descienden de un Gen ancestral común.
Alineamiento de secuencias
Conceptos Evolutivos
Si dos secuencias son suficientemente “similares”, podremos proponer que
descienden de un Gen ancestral común.
En ese caso, diremos que esas secuencias son HOMÓLOGAS.
Alineamiento de secuencias
Conceptos Evolutivos
Si dos secuencias son suficientemente “similares”, podremos proponer que
descienden de un Gen ancestral común.
En ese caso, diremos que esas secuencias son HOMÓLOGAS.
Si las secuencias pertencen a organismos diferentes ==> ORTÓLOGAS
Alineamiento de secuencias
Conceptos Evolutivos
Si dos secuencias son suficientemente “similares”, podremos proponer que
descienden de un Gen ancestral común.
En ese caso, diremos que esas secuencias son HOMÓLOGAS.
Si las secuencias pertencen a organismos diferentes ==> ORTÓLOGAS
Si las secuencias pertenecen al mismo organismo ==> PARÁLOGAS
Alineamiento de secuencias
Conceptos Evolutivos
Similitud de Secuencia ==> Similitud Estructural
>NP_001277651.1 myoglobin [Physeter catodon]
MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQ
SHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG
>NP_005359.1 myoglobin isoform 1 [Homo sapiens]
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ
SHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG
Alineamiento de secuencias
Introducción
"Comparando (alineando) secuencias puedo encontrar conjuntos de genes o
proteínas que probablemente presenten la misma estructura y cumplan la
misma función"
Alineamiento de secuencias
Conceptos Evolutivos
"Que dos secuencias sean similares, en términos evolutivos ==> Descienden de
un gen común (ancestral)"
Alineamiento de secuencias
Conceptos Evolutivos
"Que dos secuencias sean similares, en términos evolutivos ==> Descienden de
un gen común (ancestral)"
Cuanto más cambios (mutaciones) haya acumulado ==> podemos
suponer que se hayan más alejados evolutivamente
Alineamiento de secuencias
Conceptos Evolutivos
"Si comparamos más de 2 secuencias entre si ==> podremos saber quienes
son más parecidas entre si y establecer un probable árbol evolutivo
(filogenético)"
Alineamiento de secuencias
Conceptos Evolutivos
"Si comparamos más de 2 secuencias entre si ==> podremos hacer inferencias
filogenéticas”
Alineamiento de secuencias
Conceptos Evolutivos
>NP_001277651.1 myoglobin [Physeter catodon]
MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQ
SHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG
>NP_005359.1 myoglobin isoform 1 [Homo sapiens]
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ
SHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG
>ref|NP_599030.1|:1-190 cytoglobin [Homo sapiens]
MEKVPGEMEIERRERSEELSEAERKAVQAMWARLYANCEDVGVAILVRFFVNFPSAKQYFSQFKHMEDPLEMERSPQLRKHACRVMGALNT
VVENLHDPDKVSSVLALVGKAHALKHKVEPVYFKILSGVILEVVAEEFASDFPPETQRAWAKLRGLIYSHVTAAYKEVGWVQQVPNATTPPA
TLPSSGP
Citoglobina
Humana
Mioglobina Mioglobina Humana
Cachalote
Gen ancestral de la Globina
Gen ancestral de la Mioglobina
Citoglobina
(Humana)
Mioglobina Mioglobina
(Humana) (Cachalote)
Parálogas
Ortólogas
Alineamiento de secuencias
Necesidad de Calificar un Alineamiento
Identidad de Secuencia de un alineamiento
Similitud de Secuencia de un alineamiento
Alineamiento de secuencias
Concepto Estructural de los GAPS (InDels)
Alineamiento de secuencias
Qué secuencias alineamos: Proteicas o Genómicas?
Depende de la información que busquemos y de los
datos de que dispongamos.
1. Tener en cuenta que el parecido entre secuencias
de nucleótidos con un origen común se pierde más
rápidamente que el parecido en las secuencias de
aminoácidos correspondientes.
a)Por una parte porque el alfabeto es más reducido
(cuatro letras frente a veinte) .
b)Por otra porque la secuencia de nucleótidos puede
cambiar sin que esto se refleje en la de aminoácidos
(cambios sinónimos).
Alineamiento de secuencias
Qué secuencias alineamos: Proteicas o Genómicas?
La comparación de secuencias de nucleótidos es
apropiada cuando:
a)Queremos comparar secuencias muy parecidas, en
las que quizás sólo hay diferencias en uno o dos
nucleótidos (estudios filogenéticos, genética de
poblaciones, SNPs, etc).
b)Queremos identificar genes: por ejemplo, si
comparamos zonas equivalentes del genoma de ratón
y del genoma de humanos, vemos que las regiones
exónicas están más conservadas que las intrónicas.
c)Queremos comparar secuencias no codificantes.
Alineamiento de secuencias
Qué secuencias alineamos?
Si la secuencia es codificante
Alineamiento de secuencias
Otra escala de puntuación
Alineamiento de secuencias
Otra escala de puntuación
Alineamiento de secuencias
Otra escala de puntuación
Matriz de sustitución
Alineamiento de secuencias
Tipos de Alineamientos
1.- Alineamiento
Un alineamiento global se
global extiende por toda la longitud de la
secuencia
Homología
2.- Alineamiento
Un alineamiento local se limita a
local una región concreta de la
secuencia
Motivos
conservados
Alineamiento de secuencias
Escala de puntuación: matrices PAM
Alineamiento Global
>85% id. Secuencia
Basado en modelo de distancias
evolutivas
Margaret Dayhoff
Alineamiento de secuencias
Escala de puntuación: matrices PAM
Matriz de
Probabilidades:
PAM 1 (x10000)
Alineamiento de secuencias
Escala de puntuación: matrices PAM
PAM1 * PAM1= PAM2
Matrices PAM
Alineamiento de secuencias
Escala de puntuación: matrices BLOSUM
Alineamiento Local
Bloques con diferente % id. Secuencia
No infiere un árbol filogenético
Alineamiento de secuencias
Escala de puntuación: matrices BLOSUM
Por ej.: bloques que presenta 62% (o más) de identidad de secuencia
entre cualquier par de ellos, se usan para calcular las BLOSUM62
Alineamiento de secuencias
Escala de puntuación: matrices BLOSUM
Por ej.: bloques que presenta 62% (o más) de identidad de secuencia
entre cualquier par de ellos, se usan para calcular las BLOSUM62
Alineamiento de secuencias
Escala de puntuación: matrices BLOSUM62
Alineamiento de secuencias
Escala de puntuación: matrices BLOSUM62
Alineamiento de secuencias
Escala de puntuación: matrices BLOSUM62
Alineamiento de secuencias
Escala de puntuación: matrices BLOSUM62
Alineamiento de secuencias
Escala de puntuación: matrices BLOSUM62
Alineamiento de secuencias
Penalización por GAPs
En un sistema de puntuación es importante definir el costo de
insertar o eliminar un residuo, lo que en el alineamiento aparece
como un hueco (“gap”)
Suele penalizarse diferente
el primer hueco (“gap opening”)
que los restantes (“gap extension”) que parten de él
La variación de estos parámetros puede tener efectos
importantes en el alineamiento final
Alineamiento de secuencias
Efecto de la Penalización por GAPs
Alineamiento de secuencias
Métodos de Alineamiento de a pares
Global: Needleman-Wunsch
Exacto – Solución Óptima
Algoritmo de programación dinámica
Dinámica: porque se hace sobre la base de
residuo por residuo (matriz),
Programación: Porque usa un conjunto de reglas
para determinar el mejor alineamiento
Alineamiento de secuencias
Métodos de Alineamiento de a pares
Local: Smith-Waterman
Exacto – Solución Óptima
Algoritmo de programación dinámica
Dinámica: porque se hace sobre la base de residuo por residuo (matriz),
Programación: Porque usa un conjunto de reglas para determinar el mejor
alineamiento
Alineamiento de secuencias
Métodos de Alineamiento de a pares
Local: BLAST (Basado en SW)
Heurístico – No garantiza Solución Óptima
Algoritmo de programación dinámica
Alineamiento de secuencias
Identidad de Secuencia y Homología
Alineamientos Múltiples de Secuencias (AMS)
Un alineamiento múltiple de secuencias es un alineamiento de más de dos
secuencias. Pueden ser ADN, ARN o proteína.
Las aplicaciones más habituales de los alineamientos múltiples son:
La reconstrucción filogenética
El análisis estructural de proteínas
La búsqueda de dominios conservados
La búsqueda de regiones conservadas en promotores.
Algoritmos para Realizar Alineamientos Múltiples
de Secuencias (AMS)
1)ClustalW (Progresivos)
2)T-COFEE (Basados en Consistencia)
Complementos Conceptuales: PSSM-Perfiles
3)MAFFT (Iterativos + Consistencia)
4)MUSCLE (Progresivos + Iterativos)
5)PRALINE (Consistencia + Info. Estructural)
Complementos Conceptuales: Alineamiento Estructural
6)Expresso (Consistencia + Info. Estructural)
Algoritmos para Realizar AMS
MSA
Métodos exactos
(basados en la PD) DCA
CLUSTAL OMEGA
Métodos
T-COFFEE
AMS
progresivos
PRALINE
globales
MUSCLE
AMS
Métodos PRRN
Métodos iterativos SAGA
heurísticos
Métodos
PROBCONS
probabilísticos
AMS
locales
Métodos MAFFT
DIALIGN
híbridos
Algoritmos para Realizar AMS
Introducción
AMS
Para tener en cuenta
Si dos secuencias están muy próximas en su evolución, habrán cambiado muy
poco y será difícil detectar qué aa son los realmente importantes
Si dos secuencias están muy alejadas evolutivamente será difícil hacer un
alineamiento capaz de detectar los residuos importantes.
Par que un AMS sea útil debe contener tanto secuencias relacionadas como
distantes.
Muy Importante
En todos los casos los algoritmos de alineamiento múltiple suponen que las
secuencias que estamos alineando descienden de un antepasado común y lo que
intentamos hacer es alinear las posiciones homólogas.
AMS: Método de Alineamientos Progresivos
(ClustalW)
Alineamiento Consenso
Algoritmos de AMS: Progresivos
A.Sergio Garay - 2022 56
AMS: Resultados (grados de conservación)
Puntaje de un AMS
A.Sergio Garay - 2022 58