ALINEAMIENTO DE SECUENCIAS
Contenido
Objetivos y aplicaciones Métodos de alineamiento
Alineamiento de pares de secuencias Descargar MEGA, editor de texto (Notepad ++,
Alineamientos múltiples de secuencias TextWrangler)
Puntajes y matrices de puntajes Descargar secuencias
Homología y similitud de secuencias
Secuencias de DNA y proteína definen función.
Homología entre secuencias demuestra que comparten un ancestro en común.
Similitud entre 2 secuencias se puede calcular por el % nucleótidos idénticos entre ellas, relativo a la
longitud de la secuencia, o el % de residuos (aa) alineados que son similares en propiedades
fisicoquímicas.
Homología no es cuantitativo
Secuencias de un mismo gen en dos especies distintas pueden acumular mutaciones, inserciones o
deleciones a lo largo del tiempo.
Utilidad
Alineamiento de secuencias es un concepto esencial en bioinformática.
Cuantificar similitud entre secuencias → id Búsqueda de dominios conservados
molecular, id variants Búsqueda de regiones conservadas en
Análisis filogenéticos promotores
Modelos de homología sobre estructuras de Comparar producto y gen
proteínas Ensamblaje en shotgun sequencing
Obtención de datos
Dataset
Secuencias obtenidas de investigación propia
Secuencias de base de datos => criterio para escoger => objetivo del análisis
o Identificación molecular, identificación de variantes o genotipificación (Secuencias de referencia)
o Evaluación de monofilia (ancestro común): Secuencias más similares
Alineamiento de secuencias
Proceso mediante el cual las secuencias se Es una hipótesis sobre homología de múltiples
comparan mediante la búsqueda de patrones de residuos en una secuencia de nucleótidos o
caracteres comunes y el establecimiento de una aminoácidos
correspondencia residuo-residuo entre
secuencias relacionadas.
Consideraciones
La longitud de la secuencia es un factor importante
Más cota es mas alta la posibilidad de alineamiento al azar
Mas larga es menos probable que una coincidencia en el mismo nivel de similitud sea atribuida el azar=>
aumenta especificidad
Tres zonas de los alineamientos de secuencias: Homólogas, probablemente homologas, no es posible
determinar homología.
Regla general
Si sus secuencias tienen más de 100 a (o 100
nucleótidos) puede considerarlas como
homólogas si el 25% de los aa son idénticos (el
70% de los nucleótidos para el ADN). Por
debajo de este valor se entra en la zona de
penumbra.
Tipos de alineamiento
Local alineación del resto de las regiones de la
secuencia
No asume similitud e n toda la longitud de las 2 Secuencias mas divergentes => parones de
secuencias conservación
Longitud diferente
Encuentre regiones locales con el nivel mas
alto de similitud entre las dos secuencias y
Global
alinea estas regiones sin tener en cuenta la
Asume que las 2 secuencias son generalmente 2 secuencias estrechamente relacionadas
similares en toda su longitud Na da resultados óptimos para secuencias
divergentes
Busca mejor alineación posible en toda la
Longitudes similares
longitud
Componentes de un alineamiento
Matches → coincidencias Mismatches → no Gaps → espacios (penalidad)
(puntaje positivo) coincidencias (penalidad)
Alineamiento de pares de secuencias (PSA)
Sustituciones: cambio de un residuo por otro
o Error de replicación
Gaps: ausencia de una base en una de las secuencias → deleción o inserción
o Deslizamiento de la polimerasa
o Entrecruzamiento desigual
Conseguir alinear posiciones homólogas
Varias formas de representar alineamientos:
o “-” gap o “|” match o “.” mismatch
Puntuación
Alineamiento con mejor puntuación → alinea más posiciones homólogas → más razonable desde el
punto de vista biológico
Sistemas de puntuación:
o Cantidad de caracteres que o % de identidad → # o % de similitud →
coinciden coincidencias en 100 similitud fisicoquímica de
posiciones aa
Puntaje para gaps
La naturaleza favorece una menor cantidad de gaps largos vs una mayor cantidad de gaps pequeños
Diferente puntaje para gaps:
o Penalidad por abrir gap (mayor) o Penalidad por extender gap (menor)
PAM vs BLOSUM
PAM => Percent Accepted Mutation Preparadas a partir de comparaciones entre
secuencias, alineamiento global.
PAM250 → secuencias proteicas que se parecen Preparadas a partir de alineamientos de regiones
muy poco entre sí (~25%) conservadas de proteínas → bloques
PAM120 (40%), PAM80 (50%) Y PAM60 alineamiento local.
(60%) Bloques con un 80% de identidad →
Utiliza en estudios filogenéticos BLOSUM80
Nomenclatura denota la distancia evolutiva Bloques con un 60% de identidad →
BLOSUM60
BLOSUM => Blocks Substitution Búsquedas de dominios conservados.
Matrix
Métodos de alineamiento
Matriz de puntos
Representación gráfica Detectar repeticiones, inserciones,
Resultados intuitivos deleciones (largas)
Posibles alineamientos alternos DESV. Muestra regiones similares, pero no
da un alineamiento
Programación dinámica:
Romper un problema grande en subproblemas pequeños
Resolver cada subproblema pequeño → resolver el grande
Permite encontrar el alineamiento óptimo de dos secuencias y usando un esquema de puntuación
determinado
Needleman y Wunsch → alineamientos Smith y Waterman → alineamientos
globales locales
Líneas de caracteres de tamaño similar Encontrar regiones similares entre regiones no
similares
Genes con estructura similar
Encontrar regiones similares entre regiones de
Regiones largas con orden preservado
diferente longitud
RESUMEN PASOS
2 secuencias a la vez: o Búsquedas con BLAST o Alineamiento múltiple
(Clustal, Muscle, T-
o Alineamiento de pares de Muchas secuencias a la vez:
Coffee, MAFFT)
secuencias (BLAST,
EMBL-EBI)
Con patrones y perfiles
o Bases de datos de regiones Pfam)
conservadas (PROSITE,
BLAST - BASIC LOCAL ALIGNMENT SEARCH TOOL
1. Primer paso → lista de secuencias similares a nuestra secuencia de interés
a. Versiones de BLAST
i. BLASTP: compara proteínas con una base de datos de proteínas.
ii. BLASTN: compara nucleótidos con una base de datos de nucleótidos.
iii. BLASTX: compara nucleótidos (antes los traduce) con una base de datos de proteínas.
iv. TBLASTN: compara proteínas contra una base de datos de nucleótidos (antes los traduce).
2. Interpretación de valores:
a. E-value: el número esperado de secuencias que obtendrían un puntaje igual o mayor debido al azar, o
por casualidad
i. 1e-60 → se espera ver ese alineamiento (hit) 1 x 10-60 veces por casualidad, o sea no es al azar
b. Query cover: el porcentaje de la secuencia Query que cubre la alineación con la secuencia de
referencia
c. Percentage of identity: que tan similar es la secuencia query con la secuencia de referencia (cuantos
caracteres son idénticos)
Hit con los valores más altos en % of identity, query cover y el valor más bajo con E-Value
Resumen
2 secuencias a la vez:
o Alineamiento de pares de secuencias (BLAST, EMBL-EBI)
o Búsquedas con BLAST
Muchas secuencias a la vez:
o Alineamiento múltiple (Clustal, Muscle, T-Coffee, MAFFT)
Con patrones y perfiles
o Bases de datos de regiones conservadas (PROSITE, Pfam)
ALINEAMIENTO MÚLTIPLE (MSA)
Alineamiento de más de 2 secuencias.
o Reconstrucción filogenética
o Análisis estructural de proteínas
o Búsqueda de dominios conservados
Computacionalmente más complejo que PSA
Secuencias deben cubrir una misma región
o Ensamblaje de varias lecturas NGS
o Comparación con secuencia de referencia
Alineamiento global
Métodos heurísticos de alineación ClustalW, MAFFT, T-Coffee
progresiva
Métodos iterativos
Puntuación, penalidades por gaps y no
Reevalúan los alineamientos producidos en
coincidencias
pasos anteriores
Rápidos, no reevaluan alineamientos
Mejor para secuencias divergentes
anteriores
MUSCLE
Mejor para secuencias no muy distantes
Programas
MEGA
Software multiplataforma → análisis Análisis estadísticos de evolución molecular
filogenéticos Selección de códigos genéticos
Construcción de alineación de secuencias Editor de archivos de texto integrado
(ClustalW y Muscle) Visor de datos de secuencia
Modelos de sustitución de nucleótidos
Árboles filogenéticos
T-Coffee => Tree-based Consistency Objective Function for alignment Evaluation
T-Coffee es un programa de alineación de
secuencias multiples, que brinda resultados
más precisos.
Permite combinar los resultados obtenidos
Interpretación => Aminoacidos
con varios métodos de alineación (global y
“*” → Indica alineación perfecta.
local)
":" → Indica un sitio que pertenece a un grupo
Método de optimización que proporciona la
que muestra una gran similitud.
alineación múltiple que mejor se adapta a las
"." → indica un sitio que pertenece a un grupo
secuencias de entrada.
que exhibe una similitud débil.
Evaluación de la calidad del alineamiento
“ “ → no hay similitud
o X ej. PAM250 puntuación de 0,5 o menos → similitud
puntaje de más de 0,5 → similitud débil
fuerte
Alineamiento múltiple (MSA)
Evaluación de alineamientos
o Divergentes o similares → fragmentos ambiguos (Gblocks, TCS, trimAI)
o Estimar la confiabilidad del alineamiento aa o nucleótidos
o Mejora la construcción de árboles filogenéticos
Software: MEGA, ClustalX, BioEdit, UGENE
Web: TranslatorX, CIPRES, EMBL-EBI
Gblocks
Evalúa el alineamiento y limita las posiciones mal alineadas y las regiones divergentes de una
alineación de secuencias de ADN o proteínas.
Dichas regiones pueden ser no homologas o tener múltiples sustituciones → deben ser eliminadas
para análisis filogenético.
CIPRES Science Gateway
Un portal de internet para análisis filogenéticos.
Herramientas para la inferencia de relaciones filogenéticas (DNA y proteínas)
Permite ejecutar trabajos en computadoras de alto rendimiento.
Interface amigable
Con patrones y perfiles comparación
Dominios, partes conservadas. Uso alineamiento múltiple para saber que es conservada por gaps o sin ello.
Regiones conservadas
MSA permite detectar regiones conservadas en secuencias de proteínas o ADN.
Estas regiones en particular suelen estar asociadas con
o Señales (promotores, firmas de fosforilación, localización celular, ...) cumplen su función
o Estructura (plegamiento correcto, interacciones proteína-proteína ...)
o Reactividad química (sitios catalíticos, ...)
Regiones conservadas permite alinear secuencias, buscar secuencias similares en bases de datos o
anotar nuevas secuencias
Motivos
Promals 3D (
Modelamiento de regiones
conservadas
Existen diferentes métodos para construir modelos de estas regiones conservadas:
o Secuencias de consenso
o Patrones o motivos (expresiones regulares)
o Perfiles o Matrices de puntuación específicas de posición (PSSM)
o Modelos ocultos de Markov (HMM)
o ... y algunos otros.
Secuencia de consenso
Método más simple para construir un modelo a partir de una alineación de secuencia múltiple.
Reglas:
o La mayoría gana.
o Omita demasiada variación.
Este método es muy rápido y fácil de implementar. Los modelos no tienen información sobre
variaciones en las columnas.
Binario (SÍ / NO)
Útil para encontrar regiones altamente conservadas, como por ejemplo sitios de restricción de
enzimas para ADN
Patrones (expresiones regulares)
Describe un conjunto de secuencias alternativas, utilizando una sola expresión.
La sintaxis de Prosite para patrones:
o IUPAC para los aa (G = Gly, P = Pro, ...)
o "-“ → separa elementos de patrón
o "X" → cualquier aminoácido
o "[]“ → indica ambigüedades ([AG] significa Ala o Gly)
o "{}“ → aa que no se aceptan en una posición determinada ({AG} significa cualquier
aminoácido excepto Ala y Gly)
o "()" → repeticiones ([AG] (2,4) significa Ala o Gly entre 2 y 4 veces, X (2) significa
cualquier aminoácido dos veces),
o "<" → patrón en extremo N
o ">“ → patrón en extremo C
o L-lactate dehydrogenase active site:
[LIVMA]-G-[EQ]-H-G-[DN]-[ST]
o Ubiquitin-activating enzyme signature:
P-[LIVM]-C-T-[LIVM]-[KRH]-x-[FT]-P
o C2H2 Zinc Fingers
C-x(2,4)-C-x(3)-[LIVMFYWC]-X(8)-H-x(3,5)-H
Apropiado para construir modelos de firmas de secuencia corta, por ser cortos podrían presenter
falsos positivos
Método rápido y de fácil interpretación
Modelo pobre para indels Binario (SÍ / NO), no tiene puntuaciones
Secuencias pequeñas o sitios activos
Modelos estadísticos
PSSM (Matrices de puntuación específicas de posición)
o Se usan matrices de sustitución específicas por posición
o La puntuación se deriva de la relación entre las frecuencias observadas y las esperadas →
proporción logarítmica de verosimilitud:
o Regiones cortas y conservadas, no es adecuado para regiones de
secuencia relativamente larga.
Modelar regiones pequeñas con alta variabilidad, pero longitud constante.
Relativamente rápido y sencillo de implementar.
Puntuaciones de coincidencia en función de teoría estadística.
No pueden representar inserciones y deleciones.
http://meme.sdsc.edu/meme/website/ HMM: Hid
HMM (Hidden Markov Models)
o HMM es un modelo probabilístico, se basa en la teoría de las Cadenas de Markov
o Es una sucesión de estados conectado por transiciones
o Modelo más sólido y complejo
o Modelar dominios estructurales
o Dominio → región de una proteína que presenta interés funcional o estructural
Mayor poder de predicción, incluso obtenidos de un número reducido de secuencias.
Incrementa la sensibiidad del modelamiento/descubrimiento de motivos
Detecta secuencias divergentes, pero relacionadas
Bases de datos de regiones conservadas
PROSITE: base de datos de patrones y perfiles
Pfam:
o Colección de sec. múltiples y modelos HMM de varias familias de proteínas
o Asignar nuevas proteínas a su familia de proteínas, incluso si la similitud es débil
InterPro: proporciona un análisis funcional de proteínas clasificándolas en familias y prediciendo
dominios y sitios importantes
CDD (Conserved Domain Database): base de datos de dominios de proteínas
CDART (Conserved Domain Architecture Retrieval Tool)
SMART (Simple Modular Architecture Research Tool)