0% encontró este documento útil (0 votos)

135 vistas78 páginas

Msa

Este documento introduce los conceptos de alineamiento múltiple de secuencias (MSA) y describe varios algoritmos para realizar MSA. Explica que un MSA alinea tres o más secuencias homólogas para identificar residuos conservados. Luego describe algunos algoritmos populares como ClustalW, MUSCLE y métodos iterativos que mejoran progresivamente los alineamientos iniciales hasta converger en una solución óptima. Finalmente, discute cómo se pueden utilizar los MSA para identificar motivos y construir árboles filogenéticos.

Cargado por

Ana

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

135 vistas78 páginas

Msa

Cargado por

Ana

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Alineamientos de

Mltiples secuencias
Bioinformtica
Grado en Biotecnologa

Introduccin
Alineamientos por pares
Comparacin de dos secuencias entre s
BLAST
Comparacin por pares de una secuencia con muchas otras
almacenadas en una base de datos
Se buscan muchos alineamientos locales de pares de secuencias
que sean significativos
Multiple Sequence Alignment (MSA)
Comparacin de varias secuencias simultneamente, no por
parejas

Definiciones
MSA: coleccin de tres o ms secuencias de aminocidos

o nucletidos que estn completa o parcialmente

alineadas
Los residuos homlogos son alineados en columnas a lo
largo de toda la secuencia
Provienen de un ancestro comn
Ocupan un lugar relevante para la estructura 3D de la protena
Tienen una funcin concreta

Ejemplos
GAPDH
HomoloGene:107053
Casein kappa
HomoloGene:3818

Procedimiento prctico
Elegir las secuencias (homlogas) a alinear
Elegir un software que implemente la funcin de

puntuacin objetivo apropiada

Mtrica que maximice la puntuacin total de usa serie de

alineamientos por pares

Elegir los parmetros apropiados para la ejecucin

Penalizacin de huecos
Matriz de sustitucin

MSA correcto
No tiene por qu existir un alineamiento correcto de una

familia de protenas
Las estructuras evolucionan normalmente mucho ms
lentamente que las secuencias
Ejemplo: beta globina y mioglobina humana
25% identidad
Estructura tridimensional casi idntica
NP_000509 vs NP_005359
Alineamiento tridimensional no posible
Incluso a veces no se dispone de la estructura 3D

Usos de MSA (I)

Protena relacionada con un grupo de protenas
Ser informativo acerca de funcin, estructura y evolucin
La mayora de las protenas tienen miembros

relacionados distantes
MSA mejor que alineamiento por pares
Perfiles y HMMs

Bsqueda en bases de datos con BLAST

Puede hacerse un MSA para detectar motivos conservados?

Usos de MSA (II)

PopSet en Entrez
Contiene secuencias de nucletidos y protenas vistas como MSAs
Despus de la secuenciacin de un genoma
Deteccin de familias de protenas
Un MSA es el punto de partida para la construccin de rboles

filogenticos

Un MSA es el punto de partida para la identificacin de familias

y motivos que luego pueden ser almacenados en una base de

datos

Benchmarking
Varias categoras de algoritmos de construccin de MSAs
Mltiples variantes de esos algoritmos
Muchas posibles elecciones de parmetros e ejecucin
http://en.wikipedia.org/wiki/List_of_sequence_alignment_software

Cul es el mejor?
Comparacin con estructuras 3-D conocidas
Identidad
> 40% : Los resultados suelen ser muy similares
< 40% : Los resultados pueden ser muy variables

Funcin de puntuacin objetivo (I)

Alineamiento de N secuencias y M columnas
1

M
1

Este alineamiento es mejor o peor que otro?

Mtrica: Suma de pares (Sum-of-pairs score SPS)

Funcin de puntuacin objetivo (II)

Dado:
Un conjunto de N secuencias alineadas cada una de longitud M, en la forma de
una matriz A de alineamiento NxM
Una matriz de sustitucin (PAM, BLOSUM u otra) que da la puntuacin s(x,y)
para alinear x,y
Entonces el SP score SP(Ai) para la ith columna de A (Ai) es calculada

segn la expresin

SP(Ai ) = ! s(Aki , Ali )

k<l

Para el alineamiento completo

SP(A) = " SP(Ai )

Ejemplo: SPS MSA nucletidos

Ejemplo: SPS MSA aminocidos

Datos para benchmark de MSA

Algoritmos
Categoras:
Mtodos exactos
Alineamientos progresivos
ClustalW

Aproximaciones iterativas
PRALINE, IterAlign, MUSCLE

Mtodos basados en la consistencia

MAFFT, ProbCons

Mtodos basados en la estructura

Expresso

Las categoras no son excluyentes

Mtodos exactos
Se basan en programacin dinmica, al igual que NW y SW, pero

utilizando una matriz N-dimensional

Carrillo & Lipman, 1988
Lipman et al., 1990
Gupta et al, 1995

Slo para un limitado de secuencias

Complejidad computacional

O(2 N LN )

Mtodos progresivos
Fitch & Yasunobu (1975)
Hogeweg & Hesper (1984)
Feng & Doolittle (1987, 1990)
Progresivo
Se calculan los alineamientos por pares entre todas las secuencias
Se elige el mejor alineamiento por pares
Se van aadiendo progresivamente ms secuencias al MSA
Ventajas
Rapidez
Desventaja
El resultado final depende del orden en que se van aadiendo las
secuencias

ClustalW
Sitio Web para ejecutar el programa
http://www.ebi.ac.uk/Tools/msa/clustalw2/

Vamos a ver un primer ejemplo con 5 globinas divergentes

http://bioinfbook.org/chapter6/Webdocument_6-3_5divergent_globins.htm

>beta_globin 2hhbB NP_000509.1 [Homo sapiens]!

MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLG!
AFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVAN!
ALAHKYH!
>myoglobin 2MM1 NP_005359.1 [Homo sapiens]!
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVL!
TALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFR!
KDMASNYKELGFQG!
>neuroglobin 1OJ6A NP_067080.1 [Homo sapiens]!
MERPEPELIRQSWRAVSRSPLEHGTVLFARLFALEPDLLPLFQYNCRQFSSPEDCLSSPEFLDHIRKVML!
VIDAAVTNVEDLSSLEEYLASLGRKHRAVGVKLSSFSTVGESLLYMLEKCLGPAFTPATRAAWSQLYGAV!
VQAMSRGWDGE!
>soybean_globin 1FSL leghemoglobin P02238 LGBA_SOYBN [Glycine max]!
MVAFTEKQDALVSSSFEAFKANIPQYSVVFYTSILEKAPAAKDLFSFLANGVDPTNPKLTGHAEKLFALV!
RDSAGQLKASGTVVADAALGSVHAQKAVTDPQFVVVKEALLKTIKAAVGDKWSDELSRAWEVAYDELAAA!
IKKA!
>rice_globin 1D8U rice Non-Symbiotic Plant Hemoglobin NP_001049476.1 [Oryza sativa (japonica cultivar-group)]!
MALVEDNNAVAVSFSEEQEALVLKSWAILKKDSANIALRFFLKIFEVAPSASQMFSFLRNSDVPLEKNPK!
LKTHAMSVFVMTCEAAAQLRKAGKVTVRDTTLKRLGATHLKYGVGDAHFEVVKFALLDTIKEEVPADMWS!
PAMKSAWSEAYDHLVAAIKQEMKPAE!
!

ClustalW: Paso 1

1
( N !1) N
2

Generar todos los alineamientos por pares posibles

ClustalW: Paso 2
Crear un rbol gua

Parntesis: clustering
Algoritmo de Johnson
Lo veremos en detalle en el

tema de rboles
filogenticos

ClustalW: Paso 3
Se seleccionan la dos secuencias ms prximas segn el rbol gua
Se realiza el alineamiento por pares que da lugar a un perfil de dos

secuencias
Se selecciona el siguiente par ms prximo
Opcin 1: Si ninguna secuenca coincide con las anteriores se hace un

nuevo alienamiento por pares y se genera un nuevo perfil de dos

secuencias
Opcin 2: Si alguna secuencia coincide con las anteriores se crea un
perfil de tres secuencias
A medida que se va avanzando en el rbol gua ser necesario hacer

nuevos alineamientos:
Secuencia con secuencia
Secuencia con perfil
Perfil con perfil

Programacin dinmica

ClustalW: Paso 3
Resultado del alineamiento

Salida de ClustalW

Huecos en ClustalW
Poltica del algoritmo de Feng-Doolittle:
once a gap, always a gap
Los primeros alineamientos marcan en gran medida los huecos
que van a existir en el MSA
El resultado tiende a presentar estructura de bloques
Hay variantes posteriores que intentan minimizar la importancia de
los gaps de los primeros alineamenteos
Las secuencias que son muy prximas se les da un peso

menor (ClustalW)
Se intenta que las secuencias muy prximas no dominen

absolutamente el resultado del MSA final

Aproximaciones iterativas
Calculan una solucin subptima una estrategia progresiva
Modifican la solucin con distintas tcnicas hasta que la solucin

converge hacia un MSA mejorado

Intentan corregir los errores en las decisiones que pueden haberse
tomado en una estrategia progresiva
Ejemplos
MAFFT(Multiple Alignment using Fast FourierTransform)(Katoh et al.,

2005)
Iteralign (Karlin and Brocchieri, 1998)
Praline (Profile ALIgNmEnt) (Heringa, 1999; Simossis and Heringa, 2005)
MUSCLE (MUltiple Sequence Comparison by Log-Expectation) (Edgar,
2004a, 2004b).

MUSCLE Paso 1
Se genera un rbol gua borrador
Medida de distancias entre pares de secuencias
Identidad
k-mers counting

Matriz triangular de distancias

Construccin de un rbol enraizado (UPGMA o NJ)

Las secuencias se van aadiendo progresivamente

siguiendo el rbol gua

MUSCLE Paso 2
Medida de distancias (identidad) entre los pares de

secuencias segn el alineamiento del paso anterior

Se genera un nuevo rbol gua utilizando una matriz de
distancias de Kimura (se ver en el captulo siguiente)
El rbol es comparado con el del paso anterior y se utiliza
la informacin para mejorar el rbol gua
Se rehace el alineamiento progresivo siguiendo el nuevo
rbol gua
Este paso es iterativo hasta que no se consiga mejora en
el rbol gua

MUSCLE Paso 3
Se elimina una de las ramas de forma que se divide el

rbol en 2 subconjuntos o perfiles

Los dos perfiles se alinean entre s y por ltimo la
secuencia retirada y se ve si mejora la puntuacin
Este proceso se repite para cada una de las ramas,
generando los dos subconjuntos correspondientes y
eligiendo el rbol que da una mejor puntuacin
El proceso se repite de nuevo iterativamente un nmero
de veces o hasta convergencia

=@AB+"A CA"71 9+1+)/AD- 4EEF- G0B< 84- =0< H

Steps in MUSCLE

!"#$

Stage 1: Draft progressive

Stage 2: Improved
progressive

Stage 3: Refinement

,(%-'. "/ >'2% 12),-)8 %/88)-2X$% !'$ [.K .4 !'$ EFGHIJ )3,.-2!'8=
>'$-$ )-$ !'-$$ 8)20 %!),$%L G!),$ C ;1-)4! #-.,-$%%26$<& G!),$ R

=@AB+"A CA"71 9+1+)/AD- 4EEF- G0B< 84- =0< H

MUSCLE Stage 1

1.1 Compute k-mer distance matrix

1.2 Use UPGMA to make tree (TREE1)
1.3. Use guide tree to make first MSA

!"#$

K-mer distance
Let k=2

Sequence

2-mers

AKFLA

AK,KF, FL,LA

LKFL

LK, KF, FL

K-mer distance is defined from common fractional k-mer

count (F)

# of instances in
sequence 1

F =

A k-mer

min(n1 ( ), n2 ( ))
min(n, m) k + 1

Length of sequences

D=1-F

# of instances in
sequence 1

K-mer distance example

Sequence

2-mers

AKFLA

AK,KF, FL,LA

LKFLFL

LK, KF, FL,LF,FL

K-mer ()

# in sequence 1

# in sequence 2

Min(n1(t),n2(t))

2
1+1
=
F =
min(5, 6) 2 + 1 4

Stage 2: Improved progressive

2.1 Recompute similarity of sequences of pairs using mutual alignment

in MSA
2.2 Construct a phylogenetic tree (TREE2) using an alignment-based
distance
2.3 Build a new progressive alignment only for subtrees where
branching order has changed between TREE1 and TREE2
2.4 Repeat 2.3 until number of reordered nodes does not decrease.

,(%-'. "/ >'2% 12),-)8 %/88)-2X$% !'$ [.K .4 !'$ EFGHIJ )3,.-2!'8=

Stage 2.1. Recomputing pairwise sequence similarity

from a multiple alignment
Derived pairwise alignment
TGTTAAC
TGT-AAC

An MSA
-TGTTAAC
-TGT-AAC
-TGT--AC
ATGT---C
ATGT-GGC

Exclude gaps in
both sequences

Fraction identity
6/7

TGTTAAC
TGT--AC

5/7

-TGTTAAC
ATGT---C

4/8

-TGTTAAC
ATGT-GGC

4/8

(3)

D: fractional
sequences
Foridentity
D d of0.25
we use

a lookup table taken from th

TALW source code. For k-mer measures, we use:
dkmer = 1 - F.

(4)

Tree construction
Given a distance matrix, a binary tree is constr
clustering. Two methods are implemented: neighb

Stage 2.3 Re-align only when branching

order is changed
!"#$!%&%'(&)*+,%-.!"##$%!!&''(

)**+&,,---./01234536*

Recompute alignment
u
for these nodes

t
u

x
w

w
new tree

old tree
x

Figure
Tree
comparison
5
Tree comparison. Two trees are compared in order to
identify those nodes that have the same branching orders
within subtree rotation (white). If a progressive alignment
has been created using to the old tree, then alignments at
these nodes can be retained as the same result would be

ure 4). The option of always appl

MAFFT, is also provided. We foun
of a half penalty for terminal gap
Branching
same
wide rangeorder
of input
data, but tha
could sometimes by achieved by t
If the length ratio of the two profi
a threshold (by default, 20%), th
four different alignments in whic
neither terminals are fully penaliz
Branching
order different:
defined by subtracting all gap pen
x branches
before
terminal) from
the v
alignment sc
profile functions only. The align
conservation score is used.

Tree comparison
In progressive alignment, two sub
tical alignments if they have the s
their leaves and the same branch
We exploit this observation to o

%
1
)
$
$
$
%=

!
$

Stage 3: Iterative Refinement

3.1 Select a branch

,(%-'.
"/ >'2%profiles
12),-)8 %/88)-2X$% !'$ [.K .4 !'$ EFGHIJ )3,.-2!'8=
3.2 Extract
>'$-$ )-$ !'-$$ 8)20 %!),$%L G!),$ C ;1-)4! #-.,-$%%26$<& G!),$ R
3.3 Re-align profiles
;28#-.6$1 #-.,-$%%26$< )01 G!),$ ] ;-$90$8$0!<= Q 8/3!2#3$ )32,08$0! 2%
3.4 Update
if its score
is better
than
current
)6)23)(3$
)! !'$MSA
*.8#3$!2.0
.4 $)*'
%!),$& )!
K'2*'
#.20!MSA
!'$ )3,.-2!'8 8)"
!$-820)!$=

3.1 Selecting a branch

Select a branch in order of decreasing distance from the

root

MQTIF
LH-IW

MQTIF

2
LHIW

MQTIF
LH-IW
LQS-W
L-S-W

3
LQSW
L-SW

Branch selection order: 1,2,3,4,5,6

LQSW

4
LSF

3.2 Extracting a profile

MQTIF
LH-IW

MQTIF

Re-align profiles
for subtrees

MQTIF

LHI-W
MQTIF
LQS-W
L-S-W

LHIW
MQTIF
LH-IW
LQS-W
L-S-W

Delete
branch 1

3
LQSW
L-SW

LQSW

LH-IW
LQS-W
L-S-W

Is score better?

4
LSF

yes
Keep new
alignment

Discard

3.2 Extracting a profile

5
MQTIF
LH-IW
LQS-W
L-S-W

MQTIF
LH-IW

MQTIF

Re-align profiles
for subtrees

LHIW

2
LHI-W
MQTIF
LQS-W
L-S-W

LHIW
Delete
branch 2

3
LQSW
L-SW

MQTIF
LQS-W
L-S-W

LQSW
Is score better?

4
LSF

yes
Keep new
alignment

Discard

Summary of MUSCLE
Three stage algorithm
Stage 1: Draft progressive
k-mer distance
UPGMA tree (TREE1)
Guide tree based alignment (MSA1)
Stage 2: Improved progressive
Distance derived from MSA1
UPGMA tree (TREE2)
Redo alignment for nodes with changed orderings
Repeat until number of re-ordered nodes does not change
Stage 3: Iterative refinement
Generate subtree profiles
Realign profiles
Keep realignment if of higher score
Repeat until no more improvement or fixed number of steps.

Aproximaciones basadas en la
consistencia
Consistencia
Dadas tres secuencias x, y, z, si el residuo xi alinea con zk y zk
alinea con yj, entonces xi debera alinear con yj
Mtodos
ProbCons (Do et al., 2005)
T-Coffee (Notredame et al., 2000).

T-Coffee
Clculo de una biblioteca de alineamientos por pares
Todos los pares de alineamientos globales posibles (NW)
Los diez mejores alineamientos locales (SW)
A cada uno de los pares de residuos alineados se les

asigna un peso
Se genera una biblioteca ampliada que sirve como una position-

specific substitution matrix (PSSM)

A continuacin se calcula un alineamiento progresivo:

Creando una matriz distancias
Calculando un rbol gua (NJ)
Utilizando programacin dinmica y la matriz de sustitucin
calculada anteriormente

Aproximaciones basada en estructuras

Se puede mejorar la precisin de un MSA incluyendo

informacin acerca de de estructuras 3D de uno o ms

miembros del grupo de protenas que se van a alinear
Mtodos:
PRALINE (Simossis and Heringa, 2005)
T-Coffee module Expresso(Armougom et al., 2006b)
PipeAlign (Plewniak et al., 2003)

Expresso y iRMSD-APDB
Expresso
Para cada secuencia se lanza un BLAST contra PDB
Las coincidencias con >60% identidad se utilizan como un patrn para

crear el MSA

iRMSD-APDB
Se deben proporcionar los accesion number en PDB de al menos
dos de las protenas que se van a alinear

Secuencia de consenso y Logos

Perfiles
Se lleva a cabo un MSA en un conjunto de secuencias
Se seleccionan las regiones ms altamente conservadas

y se construye un MSA ms pequeo

Se construye una matriz de puntuacin a partir del MSA
PERFIL

Perfiles: ejemplo

Perfiles en Prosite

Patrones
Sintaxis para expresar patrones (PROSITE)
Residuo nico A
Conjunto de residuos [ACD]
Residuos excluidos {FHW}
Comodn x
Longitud del comodn x(3)
Longitud variable x(3,6)
Ejemplo
x(3)-[DE]-[AVLI]-x(4)-[RKH]-[VFWH]-x(3)!
X X X D A X X X X R V X X !

E V
I
L

K F!
H W!
H!

Patrones: limitaciones (I)

A C A - - - A T G
T C A A C T A T C
A C A C - - A G C
A G A - - - A T C
A C C G - - A T C

[AT] [CG] [AC] [ACGT]* A [TG] [GC]

Patrones: limitaciones (II)

A C A - - - A T G
T C A A C T A T C
A C A C - - A G C
A G A - - - A T C
A C C G - - A T C
[AT] [CG] [AC] [ACGT]* A [TG] [GC]
No distingue entre:
T G C T - - A G G

excepcional

A C A C - - A T C

consenso

Patrones vs perfiles
Patrones
Fciles de comprender
Legibles por los humanos
Pueden ser de gran longitud y con huecos variables
Perfiles
Ms sensibles
Pueden ser construidos automticamente
Requieren secuencias de entrenamiento suficientes (mnimo 20)
Se puede estimar la significacin estadstica fcilmente

Patrones en Prosite

Modelos ocultos de Markov (HMM)

Hidden Markov Models
Muy utilizados tradicionalmente en
problemas de reconocimiento automtico
del habla

Andrei Andreevich Markov

18561922

1989 Gary Churchill

Introduce su uso para el anlisis de
secuencias
Utiliza HMMs para segmentar una secuencia

de DNA en regiones alternativas con

distribucin de uso de nucletidos similares
Hoy en da los HMMs son utilizados para

gran nmero de tareas en Bioinformtica y

es uno de los mtodos ms importantes
junto con los mtodos de alineamientos de
secuencias
Gary Churchill

HMM: Un ejemplo sencillo (I)

Loaded
Fair

Probabilidades
de transicin

Modelo
de
Markov

Probabilidades
de emisin
Modelo multinomial

HMM: Un ejemplo sencillo (II)

L
F

Secuencia observable

4553653163363555133362665132141636651666

?
OCULTO

FFFFFFFFFFFFFFFFFFFFLLLLFFFFFFFLLLLLLLLL

Un HMM a partir de un alineamiento (I)

ACA
TCA
ACA
AGA
ACC

- - - ATG
ACT ATC
C - - AGC
- - - ATC
G - - ATC

Probabilidades
de transicin

Nodo de insercin

insercin

Probabilidades
de salida

node 1

node 2

node 3

node 4

El grosor depende de la
probabilidad de transicin

node 5

node 6

HMM: Match states

A
T
A
A
A

C
C
C
G
C

A
A
A
A
C

A
C
G

C
-

T
-

A
A
A
A
A

T
T
G
T
T

G
C!
C!
C!
C!

Posiciones con alta

conservacin: match states

HMM: Nodos de insercin

Las columnas 4, 5, 6 son las

A
T
A
A
A

C
C
C
G
C

A
A
A
A
C

A
C
G

C
-

T
-

A
A
A
A
A

T
T
G
T
T

G
C!
C!
C!
C!

inserciones
En la cuarta columna, 3 de 5
secuencias tienen inserciones
La probabilidad de transicin del tercer

nodo, al nodo de insercin ser 0.6

En el nodo de insercin hay 1 A, 2

Cs, 1 G, 1 T

Las probabilidades de A,C,G,T son 0.2,

0.4, 0.2, 0.2

Transiciones hacia fuera del nodo de

insercin

3 de las 5 inserciones terminan a

continuacin la insercin
La probabilidad de abandonar la
insercin es 0.6

HMM: clculo de la probabilidad de una

secuencia

Pr(ACACATC) = 0.8 1 0.8 1 0.8 0.6 0.4 0.6 1 1 0.8 1 0.8 0.047
Dos usos
Clculo de la probabilidad de una secuencia
Generacin de secuencias con una probabilidad dada

HMM: probabilidad de varias secuencias

Secuencia

Prob %

ACACATC

4.7

Secuencia 1

ACA---ATG

3.3

Secuencia 2

TCAACTATC

0.0075

Secuencia 3

ACAC--AGC

1.2

Secuencia 4

AGA---ATC

3.3

Secuencia 5

ACCG--ATC

0.59

Excepcional

TGCT--AGG

0.0023

Consenso

HMM y probabilidades
Sesgadas por la longitud de la secuencia
0.047
para ACAC--ATC
0.000075 para TCAACTATC
Normalizar para la longitud
L longitud de la secuencia
Dividir la probabilidad por (0.25)L
odd ratios

Tomar el logaritmo del odd ratio: log-odds score

log odd para secuencia S = log

P( S )
= log P( S ) L log 0.25
L
0.25

HMM: probabilidad y log-odd scores

Secuencia

Prob 100

log-odds

Consenso

ACAC--ATC

4.7

6.7

Secuencia 1

ACA---ATG

3.3

4.9

Secuencia 2

TCAACTATC

0.0075

3.0

Secuencia 3

ACAC--AGC

1.2

5.3

Secuencia 4

AGA---ATC

3.3

4.9

Secuencia 5

ACCG--ATC

0.59

4.6

Excepcional

TGCT--AGG

0.0023

-0.97

HMM: log-odd de una secuenca

log-odds(ACACATC) = 1.16 + 0 + 1.16 + 0 + 1.16 - 0.51 +0.47 - 0.51 +

1.39 + 0 + 1.16 + 0 + 1.16 = 6.64

Profile HMM (I)

Profile HMM (II)

Match states o main states
Modela columnas del alineamiento de zonas conservadas
La probabilidad de distribucin es justamente la frecuencia del aminocido

o nucletido en la muestra que genera el MSA

Insert states
Modela regiones altamente variables en el alineamiento
Puede utilizarse una distribucin fija de residuos o basarse en la muestra

que genera el MSA

Delete states
No modela ningn residuo
Hacen posible un salto hacia una o ms columnas en el alineamiento
En realidad modela situaciones en que unas pocas secuencias tienen -

en el MSA en una posicin

pHMM: ejemplo (I)

delete states

insercin

Zonas altamente conservadas

pHMM: ejemplo (II)

Transiciones
Sin flecha: transiciones de izq a der
De un estado de insercin a l mismo no se muestran
La probabilidad *100 se muestra en el diamante

Probabilidades:
0 no mostradas
Muy pequea lnea de puntos
Estados de borrado
Indican nicamente la posicin

HMMER 3.0

HMMER 3.0: phmmer

HMMER 3.0: hmmscan

HMMER 3.0: hmmsearch

Pfam - alineamientos

Pfam modelos (I)

Pfam modelos (II)

Pfam modelos: Logos (III)

También podría gustarte

Alineamientos Múltiples de Secuencias
Aún no hay calificaciones
Alineamientos Múltiples de Secuencias
55 páginas
Alineacion 2013 Vers Corta
Aún no hay calificaciones
Alineacion 2013 Vers Corta
31 páginas
Alineamiento Múltiple de Secuencias: Métodos y Aplicaciones
Aún no hay calificaciones
Alineamiento Múltiple de Secuencias: Métodos y Aplicaciones
26 páginas
Alineamientos
Aún no hay calificaciones
Alineamientos
34 páginas
Alineamiento Multiple de Secuencias
Aún no hay calificaciones
Alineamiento Multiple de Secuencias
27 páginas
Taller Final Asb
Aún no hay calificaciones
Taller Final Asb
13 páginas
Diferencias MUSCLE vs CLUSTAL
Aún no hay calificaciones
Diferencias MUSCLE vs CLUSTAL
2 páginas
Alineamiento Múltiple de Secuencias: Métodos y Aplicaciones
Aún no hay calificaciones
Alineamiento Múltiple de Secuencias: Métodos y Aplicaciones
19 páginas
Class 70 Sequence Alignment
Aún no hay calificaciones
Class 70 Sequence Alignment
300 páginas
Alineamiento de Secuencias en Bioinformática
Aún no hay calificaciones
Alineamiento de Secuencias en Bioinformática
21 páginas
Alineamiento de Secuencias: Algoritmos y Ejemplos
Aún no hay calificaciones
Alineamiento de Secuencias: Algoritmos y Ejemplos
73 páginas
Alineamientos de Pares
Aún no hay calificaciones
Alineamientos de Pares
73 páginas
Objetivos del Alineamiento en Bioinformática
Aún no hay calificaciones
Objetivos del Alineamiento en Bioinformática
9 páginas
Alineamiento de Secuencias con BLAST
Aún no hay calificaciones
Alineamiento de Secuencias con BLAST
33 páginas
Informe 1 - Gonzalez - Plua
Aún no hay calificaciones
Informe 1 - Gonzalez - Plua
9 páginas
Clase 8 - Alineamiento Simple
Aún no hay calificaciones
Clase 8 - Alineamiento Simple
33 páginas
Alineamiento de Secuencias: Métodos y Matrices
Aún no hay calificaciones
Alineamiento de Secuencias: Métodos y Matrices
36 páginas
Guía Completa de Búsqueda BLAST
Aún no hay calificaciones
Guía Completa de Búsqueda BLAST
14 páginas
Loor Z - Macas D - Reyes J - Zambrano J - Consulta de Bioinformática - Grupo 3
Aún no hay calificaciones
Loor Z - Macas D - Reyes J - Zambrano J - Consulta de Bioinformática - Grupo 3
12 páginas
Alineamiento de Secuencias: Métodos y Puntuaciones
Aún no hay calificaciones
Alineamiento de Secuencias: Métodos y Puntuaciones
54 páginas
Bioinfo 3
Aún no hay calificaciones
Bioinfo 3
10 páginas
Alineamiento de Secuencias Moleculares
Aún no hay calificaciones
Alineamiento de Secuencias Moleculares
51 páginas
fORMULARIO FINAL P2
Aún no hay calificaciones
fORMULARIO FINAL P2
23 páginas
Unidad1 AnálisisdeSecuencias A
Aún no hay calificaciones
Unidad1 AnálisisdeSecuencias A
59 páginas
Propuesta de Un Algoritmo Paralelo
Aún no hay calificaciones
Propuesta de Un Algoritmo Paralelo
10 páginas
Alineamientos de Secuencias Bioinformáticas
Aún no hay calificaciones
Alineamientos de Secuencias Bioinformáticas
4 páginas
Alineamiento Pares Mas AMS
Aún no hay calificaciones
Alineamiento Pares Mas AMS
54 páginas
Alineamiento de Secuencias con BLAST
Aún no hay calificaciones
Alineamiento de Secuencias con BLAST
15 páginas
BLAST Bioinformatics
Aún no hay calificaciones
BLAST Bioinformatics
40 páginas
Práctica 4
Aún no hay calificaciones
Práctica 4
7 páginas
Distancias Entre Secuencias y Upgm
Aún no hay calificaciones
Distancias Entre Secuencias y Upgm
35 páginas
4 Aliniamientos 2025-1
Aún no hay calificaciones
4 Aliniamientos 2025-1
31 páginas
Bioinformática: Estructuras y Funciones
Aún no hay calificaciones
Bioinformática: Estructuras y Funciones
171 páginas
Análisis Heurístico y Optimo GFS
Aún no hay calificaciones
Análisis Heurístico y Optimo GFS
5 páginas
Clase4 Bioinformatica
Aún no hay calificaciones
Clase4 Bioinformatica
15 páginas
Guía Bioinformática: Alineamientos ADN/Proteínas
Aún no hay calificaciones
Guía Bioinformática: Alineamientos ADN/Proteínas
5 páginas
Wuolah Free App 1706189836558 Gulag Free
Aún no hay calificaciones
Wuolah Free App 1706189836558 Gulag Free
8 páginas
HMM en Perfiles de Secuencias Biológicas
Aún no hay calificaciones
HMM en Perfiles de Secuencias Biológicas
10 páginas
Introducción a la Bioinformática
Aún no hay calificaciones
Introducción a la Bioinformática
20 páginas
Objetivo del Alineamiento de Secuencias
Aún no hay calificaciones
Objetivo del Alineamiento de Secuencias
14 páginas
Análisis de Secuencias y Algoritmos BLAST
Aún no hay calificaciones
Análisis de Secuencias y Algoritmos BLAST
50 páginas
Alineadores de Secuencia MUSCLE - ClustalW PDF
Aún no hay calificaciones
Alineadores de Secuencia MUSCLE - ClustalW PDF
32 páginas
Uso Del Software Mega
Aún no hay calificaciones
Uso Del Software Mega
9 páginas
Comparativa de Alineamiento Múltiple en Bioinformática
100% (1)
Comparativa de Alineamiento Múltiple en Bioinformática
19 páginas
Alineamiento Multiple Tipo Clustal
Aún no hay calificaciones
Alineamiento Multiple Tipo Clustal
27 páginas
Clase S4 1
Aún no hay calificaciones
Clase S4 1
42 páginas
Guía de BLAST para Bioinformáticos
Aún no hay calificaciones
Guía de BLAST para Bioinformáticos
75 páginas
Guia
Aún no hay calificaciones
Guia
11 páginas
Comparativa de Programas de Alineamiento
Aún no hay calificaciones
Comparativa de Programas de Alineamiento
2 páginas
Mapas de Restricción en Bioinformática
Aún no hay calificaciones
Mapas de Restricción en Bioinformática
19 páginas
Historia y Métodos de Secuenciación DNA
Aún no hay calificaciones
Historia y Métodos de Secuenciación DNA
43 páginas
Guía de Uso de BLAST para Bioinformática
Aún no hay calificaciones
Guía de Uso de BLAST para Bioinformática
39 páginas
Libro 03 Temab3 21
Aún no hay calificaciones
Libro 03 Temab3 21
50 páginas
LB PDF
Aún no hay calificaciones
LB PDF
15 páginas
Taller de Bioinformatica
Aún no hay calificaciones
Taller de Bioinformatica
16 páginas
Bioinformatica
Aún no hay calificaciones
Bioinformatica
16 páginas
Cuestionario Bioinformática
Aún no hay calificaciones
Cuestionario Bioinformática
3 páginas
Secuenciación y Bioinformática 2024-2
Aún no hay calificaciones
Secuenciación y Bioinformática 2024-2
34 páginas
Tema 4 Completo
Aún no hay calificaciones
Tema 4 Completo
2 páginas
Manual Básico de Nutrición Clínica y Dietética - Borras
96% (24)
Manual Básico de Nutrición Clínica y Dietética - Borras
312 páginas
Plan de Negocios Consulta Dietetica y Nutrición
100% (1)
Plan de Negocios Consulta Dietetica y Nutrición
27 páginas
Biofarmacos en Espana
Aún no hay calificaciones
Biofarmacos en Espana
11 páginas
Problemas de pH en Bioquímica
0% (1)
Problemas de pH en Bioquímica
2 páginas
Memoria Descriptiva - Losa Deportiva Uchuccarcco
Aún no hay calificaciones
Memoria Descriptiva - Losa Deportiva Uchuccarcco
6 páginas
Circuitos Electricos Rav4
100% (1)
Circuitos Electricos Rav4
10 páginas
8-5 Comparacion de Eficiencias de Conversion-8.5
Aún no hay calificaciones
8-5 Comparacion de Eficiencias de Conversion-8.5
9 páginas
Sobrecalentamiento y Subenfriamiento
100% (1)
Sobrecalentamiento y Subenfriamiento
82 páginas
Apv Valves Mix Proof Da4 Es
Aún no hay calificaciones
Apv Valves Mix Proof Da4 Es
38 páginas
Intro y M.T. - Inteligencia Artificial
Aún no hay calificaciones
Intro y M.T. - Inteligencia Artificial
5 páginas
Abril
Aún no hay calificaciones
Abril
34 páginas
Mecanismo Físico de La Convección
100% (3)
Mecanismo Físico de La Convección
10 páginas
Dosificación Lechada Inyección Anclajes
Aún no hay calificaciones
Dosificación Lechada Inyección Anclajes
3 páginas
Guia Tecnica para Conexiones de Una Olla de Sandblast
Aún no hay calificaciones
Guia Tecnica para Conexiones de Una Olla de Sandblast
3 páginas
Formato Nivel Inicial
Aún no hay calificaciones
Formato Nivel Inicial
26 páginas
Hoja de Cálculo Toma Lateral
Aún no hay calificaciones
Hoja de Cálculo Toma Lateral
4 páginas
Introducción a la Cinemática Básica
Aún no hay calificaciones
Introducción a la Cinemática Básica
15 páginas
Book
0% (1)
Book
46 páginas
32.5% Diesel Exhaust Fluid
Aún no hay calificaciones
32.5% Diesel Exhaust Fluid
3 páginas
Sílabo Topografía I
Aún no hay calificaciones
Sílabo Topografía I
4 páginas
Piedra Sillar en Arquitectura Peruana
Aún no hay calificaciones
Piedra Sillar en Arquitectura Peruana
8 páginas
Normas Técnicas de Agua y Alcantarillado
Aún no hay calificaciones
Normas Técnicas de Agua y Alcantarillado
31 páginas
Practica 5 de Laboratorio de Mecánica
Aún no hay calificaciones
Practica 5 de Laboratorio de Mecánica
8 páginas
@PLAN CLASE-semana 39-Matematica 3° BGU
Aún no hay calificaciones
@PLAN CLASE-semana 39-Matematica 3° BGU
1 página
Ánodos de Sacrificio para Protección Catódica
100% (1)
Ánodos de Sacrificio para Protección Catódica
2 páginas
Manual Usuario Computadora M8560
Aún no hay calificaciones
Manual Usuario Computadora M8560
13 páginas
Teja Cubiark
Aún no hay calificaciones
Teja Cubiark
7 páginas
Plano de Planta de Aguas
Aún no hay calificaciones
Plano de Planta de Aguas
1 página
Cabo PAT Estructura FLARE SUR 39
Aún no hay calificaciones
Cabo PAT Estructura FLARE SUR 39
1 página
Herramientas Mas Utlizadas en Refrigeracion
Aún no hay calificaciones
Herramientas Mas Utlizadas en Refrigeracion
6 páginas
TO DISEÑO SISTEMAS MECANICOS 223221 v1
Aún no hay calificaciones
TO DISEÑO SISTEMAS MECANICOS 223221 v1
36 páginas
Selección de Materiales y Herramientas en Electrónica
Aún no hay calificaciones
Selección de Materiales y Herramientas en Electrónica
12 páginas
Evaluación de Tuberías con Corrosión
Aún no hay calificaciones
Evaluación de Tuberías con Corrosión
112 páginas

Msa

Cargado por

Msa

Cargado por

Alineamientos de

o nucletidos que estn completa o parcialmente

puntuacin objetivo apropiada

alineamientos por pares

Elegir los parmetros apropiados para la ejecucin

Usos de MSA (I)

Bsqueda en bases de datos con BLAST

Usos de MSA (II)

Un MSA es el punto de partida para la identificacin de familias

y motivos que luego pueden ser almacenados en una base de

Funcin de puntuacin objetivo (I)

Este alineamiento es mejor o peor que otro?

Funcin de puntuacin objetivo (II)

SP(Ai ) = ! s(Aki , Ali )

Para el alineamiento completo

SP(A) = " SP(Ai )

Ejemplo: SPS MSA nucletidos

Ejemplo: SPS MSA aminocidos

Datos para benchmark de MSA

Mtodos basados en la consistencia

Mtodos basados en la estructura

Las categoras no son excluyentes

utilizando una matriz N-dimensional

Slo para un limitado de secuencias

Vamos a ver un primer ejemplo con 5 globinas divergentes

>beta_globin 2hhbB NP_000509.1 [Homo sapiens]!

Generar todos los alineamientos por pares posibles

nuevo alienamiento por pares y se genera un nuevo perfil de dos

absolutamente el resultado del MSA final

converge hacia un MSA mejorado

Matriz triangular de distancias

Las secuencias se van aadiendo progresivamente

siguiendo el rbol gua

secuencias segn el alineamiento del paso anterior

rbol en 2 subconjuntos o perfiles

=@AB+"A CA"71 9+1+)/AD- 4EEF- G0B< 84- =0< H

Stage 1: Draft progressive

=@AB+"A CA"71 9+1+)/AD- 4EEF- G0B< 84- =0< H

1.1 Compute k-mer distance matrix

K-mer distance is defined from common fractional k-mer

K-mer distance example

LK, KF, FL,LF,FL

Stage 2: Improved progressive

2.1 Recompute similarity of sequences of pairs using mutual alignment

Stage 2.1. Recomputing pairwise sequence similarity

substitution at a single site to be the only allowe

a lookup table taken from th

Stage 2.3 Re-align only when branching

ure 4). The option of always appl

Stage 3: Iterative Refinement

3.1 Select a branch

3.1 Selecting a branch

Branch selection order: 1,2,3,4,5,6

3.2 Extracting a profile

3.2 Extracting a profile

specific substitution matrix (PSSM)

A continuacin se calcula un alineamiento progresivo:

Aproximaciones basada en estructuras

informacin acerca de de estructuras 3D de uno o ms

Secuencia de consenso y Logos

y se construye un MSA ms pequeo

Patrones: limitaciones (I)

[AT] [CG] [AC] [ACGT]* A [TG] [GC]

Patrones: limitaciones (II)

Modelos ocultos de Markov (HMM)

Andrei Andreevich Markov

1989 Gary Churchill

de DNA en regiones alternativas con

gran nmero de tareas en Bioinformtica y

HMM: Un ejemplo sencillo (I)

HMM: Un ejemplo sencillo (II)

Un HMM a partir de un alineamiento (I)

HMM: Match states

Posiciones con alta

HMM: Nodos de insercin

nodo, al nodo de insercin ser 0.6