0% encontró este documento útil (0 votos)
40 vistas47 páginas

Filogenia: Métodos y Construcción de Árboles

Este documento describe los conceptos fundamentales de la filogenia y los árboles filogenéticos. Explica que la filogenia estudia las relaciones entre las especies basándose en la teoría de la evolución. Los árboles filogenéticos representan estas relaciones mediante nodos y ramas, donde las hojas son taxones y los nodos son ancestros compartidos. También describe los principales métodos para construir árboles filogenéticos, como los métodos de distancia, máxima parsimonia y máxima verosimilitud.

Cargado por

Maikel
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
40 vistas47 páginas

Filogenia: Métodos y Construcción de Árboles

Este documento describe los conceptos fundamentales de la filogenia y los árboles filogenéticos. Explica que la filogenia estudia las relaciones entre las especies basándose en la teoría de la evolución. Los árboles filogenéticos representan estas relaciones mediante nodos y ramas, donde las hojas son taxones y los nodos son ancestros compartidos. También describe los principales métodos para construir árboles filogenéticos, como los métodos de distancia, máxima parsimonia y máxima verosimilitud.

Cargado por

Maikel
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Filogenia y árboles filogenéticos

Antonio Gómez Tato


Departamento de Matemáticas
Filogenética
Objeto de estudio:
Las relaciones entre las distintas especies
Modelo subyacente:
Teoría de la evolución de Darwing
Datos:
Clásicamente datos morfológicos
Recientemente datos moleculares
Objetivo final:
Construir el árbol de la vida
http://tolweb.org/tree/phylogeny.html
Se usan árboles binarios donde las hojas son
taxones y los nodos son ancestros
compartidos
Ancestro compartido
Orangután

Chimpancé

Ardipithecus

Austrolophitecus

Humanos

Gorila
¿Cuántos árboles (topologías) hay?
Para 3 taxones

A A B

B B A

C C C
¿Cuántos árboles hay?
Para 4 taxones A
D
B
A D
C
B D

C D

D
3x5=15
¿Cuántos árboles hay?
Para N taxones con raíz

3x5x7x…..x(2N-3)= (2N-3)!!
Para N taxones sin raíz
3x5x7x…..x(2N-5)= (2N-5)!!
¿Qué tipos de datos se usan?
1. Secuencias alineadas “sin huecos” de ADN, ARN o mARN
2. Secuencias alineadas de aminoácidos correspondientes a
genes “ortólogos”
3. Lista ordenadas de genes si se dispone del genoma
completo
4. Lugares de restricción
5. …

En este curso nos restringiremos a las secuencias de ADN,


ARN o mARN
Principales métodos

Métodos de distancia
Máxima parsimonia
Máxima verosimilitud
Métodos de distancia
La distancia dos a dos
Lo más natural sería definir la distancia entre
dos especies en términos de años trans-
curridos desde su ancestro más próximo.

En general es una tarea imposible y se tienen


que usar distancias estimadas a partir de los
datos.

En la estimación se suelen usar los modelos


evolutivos.
Métodos de distancia

Para n taxones la distancia se presenta como una matriz D


de tamaño nxn donde el valor Dij es la “distancia
estimada” entre los taxones “i” y “j”.

OBJETIVO:
Construir un árbol tal que la “distancia” medida en el
árbol aproxime lo más posible a la dada por la matriz
Métodos de distancia

La distancia medida en un árbol es “aditiva”


dAB=dAv+dBv
dAC= dAv+dCv
B 2 1 D dBC= dBv+dCv
4
v u
3 1 C
A Distancia aditiva satisface
ABCD
Dados 4 taxones A B C D
A 0 5 8 8 dAB+ dCD≤ máx(dAC+ dBD, dAD+ dBC)
B 5 0 7 7
C 8 7 0 2
D 8 7 2 0
Métodos de distancia

Si el árbol tiene raíz, la distancia es ultramétrica

v3=v4
A v1=v2+v4= v2+v3

v1
v3 B
v2

v4
C
Métodos de distancia
Si la matriz de distancia
corresponde a una distancia
ultramétrica se puede reconstruir el
árbol de forma única
Métodos de distancia
1 ABCD
3 Si la matriz de distancia corresponde
A 0 6 8 8 a una distancia ultramétrica se
B 6 0 8 8 puede reconstruir el árbol de forma
única
3 3 1 1 C 8 8 0 2
A B C D D 8 8 2 0

Nueva matriz
ABU
WPGMA dUA=(dAC+dAD)/2 0 6 ?
A
UPGMA dUA=(TC dAC+TD dAD)/(TC+TD) B 6 0 ?
U 8 8 0

Paso 3
Métodos de distancia
Si la matriz no es ultramétrica
Ancestro
común a
ByC

B C

A D
B C

Datos Estimación

El algoritmo de Neighbor-Joining intenta corregir el problema


El algoritmo de Neighbor-Joining Métodos de distancia

Las ideas son las mismas que el UPGMA, salvo que para
calcular el mínimo usa una distancia corregida.

La idea es cambiar la noción de vecino. Vecinos serán aquellos que


están próximos pero también alejados de los demás.
El ajuste por mínimos cuadrados Métodos de distancia
El algoritmo de Fitch-Margoliash (1967)

A C
v1 v4
v3

v2 v5
B
D
El ajuste por mínimos cuadrados Métodos de distancia
El algoritmo de Fitch-Margoliash (1967)

Para cada topología estimar los vi que minimizan


El ajuste por mínimos cuadrados Métodos de distancia
El algoritmo de Fitch-Margoliash (1967)

Fijada la topología la solución es


un problema resoluble
Si no hay muchos taxones si busca la
mejor entre todas las topologías
Matriz=topología
El ajuste por mínimos cuadrados Métodos de distancia
El algoritmo de Fitch-Margoliash (1967)

Fijada la topología la solución es


un problema resoluble
Si no hay muchos taxones si busca la
mejor entre todas las topologías
En otro caso se usan procedimientos
heurísticos que dan una solución Matriz=topología

“aceptable”
¿Cómo se calcula las distancias?

Si nuestras secuencias fuesen puntos de un espacio n


dimensional no habría problemas. Pero no es el caso!!

Podemos pensar en usar como distancia la proporción de


coincidencias entre los nucleótidos. Pero no refleja
correctamente el proceso evolutivo!!

Lo más correcto es usar un modelo probabilístico de


evolución.
La probabilidad entra en escena
Las secuencias evolucionan mediante mutaciones,
inserciones delecciones, etc. Nosotros nos vamos a
restringir al caso de mutaciones.

Nuestro modelo asume que en una secuencia cada “sitio”


evoluciona de forma independiente. Por ello obtenemos
que dadas dos secuencias:
La probabilidad entra en escena
Nuestro modelo asume que en una secuencia cada “sitio”
evoluciona de forma independiente. Por ello obtenemos
que dadas dos secuencias:

La probabilidad de que S haya evolucionado a partir de R


en un tiempo t viene dada por la fórmula
La probabilidad entra en escena

Por lo que solo necesitamos establecer el modelo para la


evolución de un “sitio”.
Modelo de Kimura 2 parámetros

A G Purinas

Transiciones

C T Piramidinas

Transversiones
Una vez escogido el modelo, la distancia entre dos secuencias se
puede pensar como la suma del tiempo de evolución
transcurrido desde la “bifurcación” de su ancestro común más
cercano

S R

Ancestro?
El problema es que este ancestro no es conocido!!

Por lo tanto hay que estimar esa distancia evolutiva.

La forma más usual, ya que estamos metidos de lleno en


probabilidades, es buscar lo más probable (verosimil).

Como los sitios se suponen evolucionan de forma


independiente, nos basta trabajar el principio con
secuencias de longitud 1.
S R Datos iniciales:
El árbol, los nucleótidos de S y R

V1 Datos a estimar: v1, v2


V2

Ancestro?
Si el ancestro fuese una G tendríamos

Esto nos lo da el modelo elegido


Como el ancestro puede ser cualquier nucleótido de forma
equiprobable obtenemos:

Lo que buscamos son los valores de v1, v2 que hagan máxima


esa probabilidad.

Como los modelos que usamos son reversibles, esa


probabilidad sólo depende de la suma v1+v2. (Principio de la
polea de Felsenstein)
Máxima verosimilitud
Para un árbol arbitrario, se puede hacer algo análogo, salvo que
tendremos muchos más parámetros que estimar.

El método de máxima verosimilitud se basa en la optimización


de una función de verosimilitud obtenida a partir del árbol bajo
el establecimiento de un modelo de evolución y unas premisas
o hipótesis simplificadoras.

Computacionalmente, si para un árbol, la búsqueda del óptimo


no es sencilla, la búsqueda del árbol óptimo es casi imposible
si el número de taxones es alto.
Máxima verosimilitud
Hipótesis iniciales (Felsenstein 1981) :
•Todos los sitios evolucionan de manera independiente.

•Todos evolucionan según el mismo modelo y con la misma


velocidad.

•Una vez se produce una ramificación, las nuevas especies


evolucionan de forma independiente.
Máxima verosimilitud
mejoras en el modelo
•Todos los sitios evolucionan de manera independiente.

Hay evidencias de que sitios cercanos tienen una dependencia


evolutiva. Se intenta modelizar dicha dependencia por modelos de
Markov ocultos (HMM). (Felsenstein Churchill 1996)
Máxima verosimilitud
mejoras en el modelo
•Todos los sitios evolucionan según el mismo modelo y con la
misma velocidad (“rates”).

Se intenta solucionar permitiendo que los parámetros que nos dan


la velocidad de evolución se ajusten a una cierta distribución. Yang
1994

Se mejoran los modelos, introduciendo muchos más parámetros


que permitan distintas tasas de mutación entre los diferentes
nucleótidos.

Etc…
Consecuencias
Computacionalmente es cada vez más complejo ya que
aparecen más parámetros, las secuencias disponibles son
más grandes y el número de ellas es creciente.

A pesar del constante crecimiento de la capacidad de


cálculo de los ordenadores, esta sigue siendo insuficiente y
aparecen soluciones mediante la paralelización de los
algoritmos o el uso de redes de ordenadores.

Se investiga activamente en la búsqueda de soluciones


analíticas.
Máxima parsimonia
Parece ser el más usado.

La idea de partida es que las hipótesis simples son mejores


que las más complejas y que las hipótesis “ad hoc” deben ser
evitadas si es posible.

Lo que se busca es encontrar el mínimo número de cambios


que explique los datos.
Máxima parsimonia
El algoritmo más simple es el de Fitch.

En un primer paso, se recorre el árbol hacia la raíz para


determinar el número mínimo de cambios que se
necesitan.

En un segundo paso se intenta, ya partiendo de la raíz,


reconstruir las secuencias de los ancestros para obtener ese
número mínimo.

Como los cambios en un sitio no afectan a los otro sitios,


se puede hacer sitio a sitio.
Ejemplo: Máxima parsimonia

a g a t a

1 2 3 4 5

Reconstrucción

{a,t}
{a, g}
{a}

{a}

El número mínimo de cambios es 2!!


Árboles consenso
Como los distintos métodos pueden dar distintos árboles
para una misma colección de datos, se suelen hacer unos
árboles consenso. Hay distintos criterios y los árboles
resultantes no tienen porqué ser binarios.

Tipo de criterio: Si un nodo es compartido por la mayoría de


los árboles se adopta en el árbol consenso.
Resumen
• La filogenética es una ciencia antigua, pero la aparición de
nuevos tipos de datos “moleculares” la renueva y da lugar a
la filogenética molecular.

•Hay tres (tipos) de métodos de reconstrucción: distancia,


verosimilitud y parsimonia. Todos con sus ventajas e
inconvenientes.

•El problema de alineación múltiple es tan complejo como


el de reconstrucción filogenética.

•Las soluciones generalmente no son las óptimas y además


muchas veces no está garantizado que provengan de un
máximo local.

También podría gustarte