0% encontró este documento útil (0 votos)
177 vistas11 páginas

Tema 4 Bioinfo

Este documento trata sobre la filogenia molecular. Explica conceptos clave como árboles filogenéticos, tipos de grupos (clades y grupos parafiléticos), y métodos para construir árboles filogenéticos a partir de datos moleculares como secuencias de ADN o proteínas. También describe diferentes tipos de datos moleculares que se pueden usar y métodos como máxima parsimonia y máxima verosimilitud para inferir relaciones filogenéticas.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
177 vistas11 páginas

Tema 4 Bioinfo

Este documento trata sobre la filogenia molecular. Explica conceptos clave como árboles filogenéticos, tipos de grupos (clades y grupos parafiléticos), y métodos para construir árboles filogenéticos a partir de datos moleculares como secuencias de ADN o proteínas. También describe diferentes tipos de datos moleculares que se pueden usar y métodos como máxima parsimonia y máxima verosimilitud para inferir relaciones filogenéticas.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

TEMA 4: FILOGENIA MOLECULAR BIOINFORMÁTICA

TEMA 4: FILOGENIA MOLECULAR


CONTENIDO
INTRODUCCIÓN ................................................................................................................................ 1
ARBOLES FILOGENICOS..................................................................................................................... 2
TERMINOLOGÍA ............................................................................................................................ 2
TIPO DE ARBOLES ......................................................................................................................... 3
MANERAS DE ENRAIZAR UN ÁRBOL ......................................................................................... 3
TIPOS DE GRUPOS............................................................................................................................. 3
CLADE O GRUPO MONOFILÉTICO ................................................................................................. 3
GRUPO PARAFILETICO .................................................................................................................. 4
COMO CONSTRUIR UN ÁRBOL FILOGENÉTICO CON DATOS MOLECULARES .................................... 4
MODELOS DE EVOLUCIÓN DE DNA .............................................................................................. 5
MODELOS DE SUSTITUCION DE NUCLEOTIDOS ............................................................................ 5
EJEMPLOS ..................................................................................................................................... 6
TIPOS DE DATOS USADOS EN INTERFERENCIA FILOGENÉTICA ......................................................... 6
MÉTODOS BASADOS EN CARACTERES .......................................................................................... 6
MÉTODOS BASADOS EN DISTANCIAS ........................................................................................... 8
MÉTODOS BASADOS EN DISTANCIAS ....................................................................................... 8
SECUENCIAS DE NUCLEÓTIDOS O PROTEÍNAS ........................................................................... 10
BOOTSTRAPING .............................................................................................................................. 10
PASOS: ........................................................................................................................................ 10

INTRODUCCIÓN

La filogenia es la historia evolutiva de una especie o grupos de especies relacionadas.

Cuando utiliza datos moleculares (en vez de morfológicos) se denomina filogenia molecular.

1
TEMA 4: FILOGENIA MOLECULAR BIOINFORMÁTICA

¿Cuál es la especie actual más próxima a los humanos?

Al principio se creía que los humanos estaban más relacionados con los gorilas, pero los nuevos
árboles filogenéticos demuestran que están más alejados y que la separación humanos-
chimpancés se produjo hace 6 millones de años.

HAY DOS TIPOS:

A. Filogenia de especies
B. Filogenia de familias génicas

ARBOLES FILOGENÉTICOS

TERMINOLOGÍA

• OTUs (Operational Taxonomic Unit): unidades taxonómicas que se analizan.


- Al final del árbol.
- Son las especies que se pueden observar
• Raíz/nodo inicial: ancestro común.
- Opuesto a las OTUs.
• Ramas: entre las OTUs y la raíz.
- Pueden ser internas y externas.
- Tienen nodos internos que representan momentos de divergencia y especiación.

El patrón de ramificación de un árbol se denomina topología → hay muchos estilos diferentes pero
una sola topología.

NOTA: las poblaciones especies o genes


objeto de análisis filogenético se denomina
taxa o taxon (en singular)

2
TEMA 4: FILOGENIA MOLECULAR BIOINFORMÁTICA

TIPO DE ARBOLES

Los árboles filogenéticos pueden


ser:

A. Enraizados: existe un nodo


particular llamado raíz, del
que sale un camino único
hasta cualquier nodo.
a. La raíz es el
ancestro común de
las unidades taxonómicas y la dirección de cada camino indica el tiempo de
evolución.
b. Las relaciones filogenéticas son evidentes.
B. No enraizados: las relaciones filogenéticas no son fácilmente deducibles.

MANERAS DE ENRAIZAR UN ÁRBOL


Existen dos maneras de enraizar un árbol:

1. Usando un outgroup: se incluye un taxón que esté


más alejado de todos los objetos de estudio.
a. Por ejemplo, un ave en árbol de mamíferos,
un insecto en árbol de carnívoros.
b. No conviene que el outgroup esté
demasiado lejos ya que estrecharía el árbol
(↓precisión)
2. Con el punto medio o distancia: se coloca la raíz en
el punto medio de los taxones más alejados.

TIPOS DE GRUPOS

CLADE O GRUPO MONOFILÉTICO

Grupo de taxa que comparte un ancestro común, que no es compartido por ningún otro
grupo/especie fuera de ese clade.

Por tanto, un clade sería un grupo donde todos los taxa proceden de un ancestro común, el cual
es exclusivo de ese grupo

3
TEMA 4: FILOGENIA MOLECULAR BIOINFORMÁTICA

GRUPO PARAFILÉTICO

Es un grupo de taxa en el que su ancestro común es


compartido por otro grupo denominado taxón
parafilético o taxón inválido.

• No incluye a todos los descendientes.

Ejemplo: todos los reptiles comparten un antecesor


común pero las aves también comparten el mismo →
no es grupo monofilético sino parafilético.

Ejercicio:

Todos son monofiléticos menos el b), que es parafilético, ya que el grupo mouse, chimpanzee,
baboon proceden de un ancestro común pero no incluye a rat o human, que comparten el mismo
ancestro.

COMO CONSTRUIR UN ÁRBOL FILOGENÉTICO CON DATOS MOLECULARES

1. Elegir cuidadosamente los genes, proteínas, RNA a utilizar


2. Realizar un alineamiento múltiple
3. Elegir un modelo de sustitución de DNA o proteína
4. Elegir un método de construcción de arboles
5. Evaluar el árbol resultante

4
TEMA 4: FILOGENIA MOLECULAR BIOINFORMÁTICA

MODELOS DE EVOLUCIÓN DE DNA

La tasa de mutación en una secuencia de DNA depende de:

• La región del genoma


• La posición de la base en el codón

NOTA: las mutaciones no se dan con la misma frecuencia en todas las regiones del genoma

NOTA: en las mutaciones es donde van a divergir las secuencias a lo largo del tiempo

Hay que determinar qué modelo se ajusta mejor aa nuestros datos

• Selección de modelos de evolución:


o ModelTest (ADN)
o ProtTest (proteínas)

MODELOS DE SUSTITUCIÓN DE NUCLEÓTIDOS

Tipos de sustituciones:

• Transiciones
• Transversiones

5
TEMA 4: FILOGENIA MOLECULAR BIOINFORMÁTICA

EJEMPLOS

Evolución molecular

Es lo que observamos hoy en día

TIPOS DE DATOS USADOS EN INTERFERENCIA FILOGENÉTICA

MÉTODOS BASADOS EN CARACTERES

Un carácter es una propiedad de las unidades taxonómicas que puede tener uno o más estados
mutuamente excluyentes. Puede ser:

• Una variable (altura, peso, color)


• Un valor (1,72m, 76 kg, castaño)

Métodos basados en parámetros o probabilidades:

1. Máxima parsimonia
2. Máxima verosimilitud
3. Métodos bayesianos

MÉTODO DE MÁXIMA PARSIMONIA

Da el árbol con el menor número de cambios genéticos (sustituciones de nt o cambios de aas) en


un conjunto de secuencias, es decir, busca el menor número de pasos para explicar el resultado
filogenético.

• Árbol que nos explique el árbol con un numero mínimo de mutaciones a lo largo de la
evolución

Hipótesis mas sencillas son mas probables que las complicadas

Para ello, hay que identificar los sitios informativos y excluir los no informativos (donde no hay
cambios de secuencia o donde no hay al menos dos estados que tengan al menos dos taxones en
cada estado).

6
TEMA 4: FILOGENIA MOLECULAR BIOINFORMÁTICA

• Sitio informativo: es un sitio en el que al menos dos


caracteres distintos en el sitio y cuando cada uno
de los caracteres esta representado al menos dos
veces en alguna de las secuencias o especies
o Posición 4 no es un sitio ya que no están
representadas mas de dos veces
o Posición 5,7 y 9 si

Cada árbol tiene un coste (número total de cambios) y hay


que elegir el árbol más corto (la suma de las longitudes de
las ramas sea la menor posible).

• Ventajas:
o Fácil interpretación
o Utiliza más información que los métodos de distancias
o No requiere un modelo de evolución ya que viene implícito
• Desventajas:
o Puede dar resultados erróneos si hay homoplasia (cambios sobre cambios)

SI por ejemplo en la secuencia ancestral había una G, en la secuencia ancestral hay una G, en este
método supone que no había ningún cambio, aunque ha podido ocurrir que esa G haya mutado a
una A y esta A haya vuelto a mutar a una G. Donde el programa lo considera como 0 cuando debería
de ser 2.

o Se justifica con argumentos filosóficos y no estadísticos

MÉTODO DE MÁXIMA VEROSIMILITUD

Establece la topología del árbol y la longitud de las ramas mediante métodos estadísticos, es decir,
busca la mayor probabilidad de haber dado ese resultado filogenético.

Se considera por separado las probabilidades de los cambios en todos los sitios (nt o aas) de las
secuencias consideradas. Se elige el árbol con mayor probabilidad o verosimilitud.

Además, es un método fiable pero computacionalmente intensivo (costoso, lento).

Trata de contestar la siguiente cuestión:

• ¿Cuál es la probabilidad de que se observe una serie de datos (alineamiento de secuencias)


dado un determinado modelo de evolución?
o Datos: alineamiento de secuencias
o Modelo: árbol filogenético + proceso evolutivo
A. Ventajas
a. Estadística fiable
b. Todos los sitios son informativos
c. Permite estudiar un modelo mejor para los datos
d. Permite realizar contrastes estadísticos entre hipótesis alternativas

7
TEMA 4: FILOGENIA MOLECULAR BIOINFORMÁTICA

B. Desventajas
a. Si el modelo es incorrecto el árbol también lo será

MÉTODOS BASADOS EN DISTANCIAS

Los métodos basados en distancias indican la relación numérica entre secuencias → relacionado
con el alineamiento de secuencias.

Las distancias métricas deben tener cuatro propiedades:

1. las distancias son positivas: d(a, b) ≥ 0


2. las distancias son simétricas: d(a, b) = d(b, a)
3. las distancias son significativas: d(a, b) = 0 si a = b
4. las distancias son distintas entre los puntos: d(a, c) ≤ d(a, b) + d(b, c)

Los métodos moleculares que suministran datos de tipo carácter pueden ser convertidos en
distancias.

Para ello por ejemplo cogemos dos secuencias y se calcula por ejemplo cuantas posiciones son
idénticas, y cuantas son diferentes

Ejemplos:

1. ‐ UPGMA (Unweighted Pair Group Method with Arithmetic Mean)


2. ‐ Neighbor‐joining

MÉTODOS BASADOS EN DISTANCIAS


Da el árbol que combina recursivamente dos nodos con la distancia mínima. La distancia es la
medida de dis-similaridad entre secuencias.

Input:

se parte de una matriz de distancias entre las OTUs → por cada dos secuencias, se hace un
alineamiento por pares (global) y se obtiene la distancia de cada par.

Procedimiento: primero agrupa las secuencias más cercanas y en cada iteración, combina dichos
grupos en una nueva secuencia hasta que termina el árbol. Destaca UPGMA.

d: distancia

p: proporción de residuos que difieren

8
TEMA 4: FILOGENIA MOLECULAR BIOINFORMÁTICA

UPGMA (Unweighted Pair Group Method using Arithmetic Averages) – En desuso.

Es el método principal para construir árboles filogenéticos enraizados basados en distancias.

A partir del input (matriz de distancias), se unen las dos OTUs más cercanas y se calcula la media
de distancias de la nueva OTU al resto, formando una nueva matriz.

Las dos siguientes OTUs más cercanas se vuelven a unir y se calcula la media de distancias respecto
a las demás OTUs. El proceso se reitera hasta que todas las secuencias estén incluidas en la misma
matriz formando un árbol filogenético.

Ventaja: las ramas del árbol tienen la misma longitud, proporcionales a la distancia filogenética.

NEIGHBOR – JOINING

Este método se basa en que el mejor árbol es el que minimiza la


longitud de las ramas internas.

A partir de un árbol en estrella (todas las OTUs conectadas con un


solo nodo), se calcula la suma de las distancias de todas las ramas
del árbol y se eligen las OTUs que minimicen esta distancia.

El proceso se repite hasta completar el árbol filogenético, donde


todas las secuencias quedan unidas por nodos internos de longitud
mínima.

Forma árboles no enraizados y las ramas del árbol no tienen la


misma longitud; la longitud indica el cambio evolutivo.

9
TEMA 4: FILOGENIA MOLECULAR BIOINFORMÁTICA

SECUENCIAS DE NUCLEÓTIDOS O PROTEÍNAS

Depende del problema a resolver y de los datos disponibles.

• El DNA proporciona más información filogenética que las proteínas → el DNA tiene 3
posiciones diferentes y las proteínas solo 1 (2 sustituciones de nt sinónimas y una no
sinónima).
- ya que nos indica cuantos cambio han tenido lugar mientras que los aa solo muestra
1 cambio
• Las secuencias de aminoácidos pueden alinearse de forma más eficiente porque se
conservan más.
• Las regiones no codificantes (p.e pseudogenes) no varían porque no tienen presión
selectiva.
• El rRNA evoluciona muy lentamente.
- De hecho, el 16S se utiliza en análisis filogenético.
• El mtDNA evoluciona más deprisa que los genes nucleares y no se recombina
- Por lo que se utiliza en genética humana.

BOOTSTRAPING

Bootstraping es un método para evaluar si la topología del árbol es robusta (si pequeños cambios
aleatorios no afectan demasiado).

PASOS:

1. El programa construye un conjunto de datos del mismo tamaño que el original mediante el
muestreo con reposición de las columnas del alineamiento. Se produce un
“pseudoalineamiento”, con el que se construye otro árbol.
2. El proceso se repite y se examina la topología de los árboles.
3. Se asigna un número de bootstrap a cada nodo que refleja el porcentaje de
pseudoalineamientos en los que el nodo se mantiene respecto al original (a pesar de haber
hecho el sorteo).
• Si el boostraping da valores bajos, se sabe que la topología no es fiable.
• Se considera que la topología es robusta para valores mayores de 70%.

10
TEMA 4: FILOGENIA MOLECULAR BIOINFORMÁTICA

4. Además, se construye también el árbol consenso que recoge las ramificaciones más
frecuentes dándole su valor de Bootstrap

A partir de los nuevos alineamientos, se están construyendo nuevos árboles, en este caso, este
árbol coincide con el árbol original (en el caso 3 no coincide --> de tal manera que esta se
desecha.

Resumen: se coge el árbol que más veces salga en los diferentes ejemplos.

11

También podría gustarte