Phylogenie Moleculaire
Phylogenie Moleculaire
phylogénie moléculaire
Evolution
Microbiologie
Identification / Classification
etc.
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Arbres phylogénétiques
Les arbres sont des graphes A
connexes acycliques F
Nœuds = unités taxonomiques
(UT)
Opérationnelles (UTO) = A, B, C,
D, E = feuilles de l’arbre Racine H B
Hypothétiques (UTH) = F, G, H, I
= nœuds internes
C
Branches
internes = succession G
d’organismes reliant deux UTH I
externes = succession
d’organismes reliant entre UTH
et UTO D
Topologie (forme) de l’arbre =
Ensemble des branchements de
l’arbre (nœuds + branches)
Racine = ancêtre commun le plus
récent à tous les UTO E
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
C B D
B
E E
E A
D
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
B
Racine H B D
G
C
G F H
I A
E E
La racine permet de suivre chemin Sans racine il n’est pas possible de
évolutif séparant chaque feuille de déterminer les relations de parenté
l’ancêtre commun à tous les UTO entre les UTO
3 C
2 4 C D E B A C D E A B A B E D C
B
7
G D 4 5
F H 6
A
A B E C D A B C D E
1
5 6 7
A B E C D C D E A B
Chacune induit une histoire évolutive particulière… mais une seule est vraie
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Fig 5.
Phylogenetic tree showing the relationship of BtubA and BtubB relative to
eukaryotic α and β tubulins. Tree presented is parsimony tree rooted at the
midpoint. Circles indicate bootstrap values. Nodes supported at >75% in the
majority of analyses are indicated by the filled circles. Nodes supported at 50–74%
in most analyses are indicated by the open circles. Unsupported nodes (<50%)
have no circle. (Bar = 0.1 substitutions per site.)
Thermotogae
Fig. S2
Bayesian phylogenetic trees of SSU rRNA. 75 sequences and 1048
unambiguously aligned nucleic acid positions were used. Numbers at
nodes represent posterior probabilities (PP) inferred by MrBayes and
bootstrap values (BV) inferred by TreeFinder. For clarity only PP > 0.50
and BV > 50% are shown. Scale bars represent the average number of
substitutions per site. Thermotogales sequences retrieved from
mesothermic environments are shaded.
Arbres multifurqués
B
A
E E
E
C C
D D
0,1
A A D
B B
0,1 0,1 C
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
E A
E
C C E
D D
A A 0,1
D
B B
D A 0,1
C
Phylogrammes: la longueur des branches est
proportionnelle à la distance évolutive entre les séquences
(nb substitutions / site)
C B E
Arbres ultramétriques: la
C longueur des branches
représente un % de
E D
divergence (phénogrammes)
Cladogrammes: la longueur des branches A ou le temps
est arbitraire et ne reflète pas la distance (chronogrammes)
évolutive séparant les séquences 0,1 B
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Apparentement et similarité
E
H2 C
D
H3 A
0,1
H1 B
Apparentement et similarité
… mais C est plus similaire à A qu’à D
E
H2 C
D
H3 A
0,1
H1 B
d C D d C H 2 d D H 2 d C A d C H 2 d H 2 H 3 d H 3 H 1 d H 1 A
Format Newick
Les UTO sont séparés par des
«,» C
La ligne est terminée par un
«;» B
Les UTO descendant d’un L3
L7 D
même nœud sont indiquées L2
par des ( ) L4
( (A , B) , E , ( C , D ) ) ; L6
Les longueurs des branches L1
sont précédées par « : » A
( (A:L1 , B:L2):L6 , E:L5 , (C:L3 ,
L5
D:L4):L7 ) ;
Des labels (e.g. BV, PP)
peuvent être associés à
chaque nœud E
( (A:L1 , B:L2) BV1 :L6 , E:L5 ,
(C:L3 , D:L4) BV2 :L7 ) ;
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
2 feuilles 1 topologie
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
A C B
2 feuilles 1 topologie
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
A C B
A C B
2 feuilles 1 topologie
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
A C B C A B
A C B
2 feuilles 1 topologie
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
2 feuilles 1 topologie
3 feuilles 3 topologies
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
2 feuilles 1 topologie
3 feuilles 3 topologies
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
A DC B
A C B D
A C D B
A DC B A C D B
2 feuilles 1 topologie
3 feuilles 3 topologies
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
A DC B
A C B D
A C D B
A DC B A C D B
Combien d’arbres?
• Nb UTO Arbres racinés
2 1
3 3
4 15
5 105
6 ( 2 n 3 )! 945
7 n2 10 395
2 ( n 2 )!
8 135 135
9 2 027 025
10 34 459 425
20 ~ 8.2 x 1021
30 ~ 2.75 x 1076
Application
• Nb UTO Arbres racinés Arbres non racinés
2 1 1
3 3 1
4 15 3
5 105
15
6 ( 2 n 3 )! 945 ( 2 n 5 )! 105
7 n2 10 395 n3
2 ( n 2 )! 2 ( n 3 )! 945
8 135 135
9 2 027 025 10 395
10 34 459 425 135 135
2 027 025
20 ~ 8.2 x 1021 ~2.2 x 1020
NRracinés
nb d’arbres non = (2n-3)!
pour/ [2nn-2UTO
x (n-2)]
= nb! d’arbres
NNRracinés
= (2n-5)!
pour
n-3 x (n-3)] !
/ [2n-1 UTO
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Le Jacknife Estimation
de l’arbre
seq1
seq2
Alignement seq3
initial …
seqN
1 2 3 4 5 6 7 8 9 10 111213141516 17181920
Jacknife seq1
sample #1 seq2
seq3
…
seqN
2 5 7 9 121315 171820
Jacknife seq1
sample #X seq2
seq3
…
seqN
4 5 9 1012131416 1719
La robustesse de chaque branche de l’arbre initial peut être estimée par le nombre
de fois où cette même branche est retrouvée dans les réplicats de Jacknife
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Le Bootstrap
Le Bootstrap Estimation
seq1 de l’arbre
seq2
JDD seq3
initial …
seqN
1 2 3 4 5 6 7 8 9 10 111213141516 17181920
Bootstrap seq1
sample #1 seq2
seq3
…
seqN
5 8 8 8 9 101012 13 1315
Bootstrap seq1
sample #X seq2
seq3
…
seqN
1 1 2 4 7 7 1111 11 11 12
La robustesse de chaque branche de l’arbre initial peut être estimée par le nombre
de fois où cette même branche est retrouvée dans les réplicats de Bootstrap
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
ROBUSTESSE VERACITE !
GROUPE
Homme Rhino
EXTERIEUR
Cause de l’incongruence/problèmes
rencontrés en phylogénie moléculaire
Problèmes d’échantillonnages
Séquences trop courtes => effets stochastiques
Échantillonnage taxonomique trop réduit
Problèmes liés à la divergence des séquences
Séquences pas assez variables
Séquences trop divergentes => saturation
Séquences présentant des taux d’évolution hétérogènes
(Attraction des longues branches)
Exemple
Caractère Taille Pos. 68 CYTB
État de caractères 1,68 cm Alanine
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Reconstruire un arbre
Inférer une phylogénie procédure d’estimation de la véritable
histoire évolutive à partir de données incomplètes
Reconstruire un arbre
Inférer une phylogénie procédure d’estimation de la véritable
histoire évolutive à partir de données incomplètes
Meilleur arbre
(maximum global)
Méthodes
Méthodes de distances
Recherche l’arbre qui représente au mieux les distances évolutives
entre paires de séquences
Requière l’estimation des distances évolutives entre paires de
séquences, sachant un modèle d’évolution
UPGMA, NJ, minimum d’évolution, moindres carrés…
Méthodes cladistiques
Recherche l’arbre impliquant le moins de changements évolutifs
permettant d’expliquer les données
Considèrent les sites individuellement
Maximum de parcimonie
Méthodes statistiques
Recherche l’arbre ayant la plus forte vraisemblance sous le modèle
d’évolution considéré
Considèrent les sites individuellement
Maximum de vraisemblance, Méthodes bayésiennes
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Alignements et gaps
Chaque colonne de l’alignement représente une position (ou site)
composée de résidus homologues, cad dérivant d’un même site ancêtre
La qualité des alignements est essentielle
Les régions où l’alignement est ambigu doivent être retirées
(automatiquement ou manuellement) avant l’analyse phylogénique
La plupart des méthodes de reconstruction ne prend en compte que les
substitutions et non les événements d’insertions/délétions
Les sites contenant des gaps sont ignorés
230 218
(ClustalW) (Muscle)
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Méthodes de distances
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Reconstruction d’un arbre phylogénique dont les (di,j) sont les + proches
possibles des (di,j) minimise Q n n
Alignement de séquences
Q (d i, j di, j)
i 1 j
homologues
S2 S4 S5
Modèle d’évo. l4
S1 l2
S1 S 2 S3 S 4 S5 S3 l5
l1
S1 d 1, 2 d 1, 3 d 1, 4 d 1, 5 l3 l6
S 2 d 2 ,1 d 2 ,3 d 2,4 d 2 ,5
l8
S3 d 3 ,1 d 3,2 d 3,4 d 3,5
l7
S 4 d 4 ,1 d 4,2 d 4 ,3 d 4 ,5 Méthode de dist.
S5 d 5 ,1 d 5,2 d 5 ,3 d 5,4
Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2
n
p
p = p-distance
n = nb de sub. obs.
= nb de résidus comparés
Variance p (1 p )
Var ( p )
Soit 2 séquences ayant des * * ** * *
compositions homogènes Nb sub. obs. = 3 p = 3/14 = 0.214
0 p 0 . 75 (ADN) Nb sub. réel. = 12 /14 d = 0.857
T C T C
UPGMA - Application
Matrice de distances extraite de Sarich 1969
Chien 0 32 48 51 50 48 98 148
Ours 32 0 26 34 29 33 84 136
Racoon 48 26 0 42 44 44 92 152
Belette 51 34 42 0 44 38 86 142
Phoque 50 29 44 44 0 24 89 142
Otarie 48 33 44 38 24 0 90 142
Chat 98 84 92 86 89 90 0 148
UPGMA - Algorithme
UPGMA - Application
Matrice de distances extraite de Sarich 1969
Chien 0 32 48 51 50 48 98 148
Ours 32 0 26 34 29 33 84 136
Racoon 48 26 0 42 44 44 92 152
Belette 51 34 42 0 44 38 86 142
Phoque 50 29 44 44 0 24 89 142
Otarie 48 33 44 38 24 0 90 142
Chat 98 84 92 86 89 90 0 148
1. Trouver les deux UTO i et j pour lesquels la distance dij est la plus
petite
2. Créer le nouveau groupe (ij) contenant nij membres avec nij = ni +
nj (ni et nj nombre d’UTO dans les groupes i et j)
3. Connecter i et j dans l’arbre à un nouveau nœud (ij) qui
correspond au nouveau groupe (ij). Attribuer aux branches Li et Lj
connectant i à (ij) et j à (ij) la longueur dij /2
4. Calculer la distance entre le nouveau groupe (ij) et tous les autres
groupes en utilisant dij,k = ni x dik / (ni + nj) + nj x djk / (ni + nj)
5. Éliminer les colonnes et les lignes correspondant aux groupes i et j
et ajouter celles correspondant au nouveau groupe (ij)
6. Si il reste un seul élément dans la matrice, arrêter, sinon retourner
en 1.
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Chien 0 32 48 51 50 48 98 148
Ours 32 0 26 34 29 33 84 136
Racoon 48 26 0 42 44 44 92 152
Belette 51 34 42 0 44 38 86 142
Phoque 50 29 44 44 0 24 89 142
Otarie 48 33 44 38 24 0 90 142
Chat 98 84 92 86 89 90 0 148
1. Trouver les deux UTO i et j pour lesquels la distance dij est la plus
petite
2. Créer le nouveau groupe (ij) contenant nij membres avec nij = ni +
nj (ni et nj nombre d’UTO dans les groupes i et j) nij = ni + nj
nij = 1 + 1 = 2
3. Connecter i et j dans l’arbre à un nouveau nœud (ij) qui
correspond au nouveau groupe (ij). Attribuer aux branches Li et Lj
connectant i à (ij) et j à (ij) la longueur dij /2
4. Calculer la distance entre le nouveau groupe (ij) et tous les autres
groupes en utilisant dij,k = ni x dik / (ni + nj) + nj x djk / (ni + nj)
5. Éliminer les colonnes et les lignes correspondant aux groupes i et
j et ajouter celles correspondant au nouveau groupe (ij)
6. Si il reste un seul élément dans la matrice, arrêter, sinon retourner
en 1.
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Phoque
groupes i et j et ajouter celles correspondant au nouveau
Otarie
groupe (ij)
6. Si il reste un seul élément dans la matrice, arrêter, sinon
retourner en 1.
12 12
(ij)
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
1. Trouver les deux UTO i et j pour lesquels la distance dij est la plus
petite
2. Créer le nouveau groupe (ij) contenant nij membres avec nij = ni +
nj (ni et nj nombre d’UTO dans les groupes i et j)
3. Connecter i et j dans l’arbre à un nouveau nœud (ij) qui
correspond au nouveau groupe (ij). Attribuer aux branches Li et Lj
connectant i à (ij) et j à (ij) la longueur dij /2
4. Calculer la distance entre le nouveau groupe (ij) et tous les autres
groupes en utilisant dij,k = ni x dik / (ni + nj) + nj x djk / (ni + nj) dphoque-
otarie,chien = nphoque x dphoque,chien / (nphoque + notarie) + notarie x dotarie,chien /
(nphoque + notarie) = (50 + 48)/2 = 49
5. Éliminer les colonnes et les lignes correspondant aux groupes i et j
et ajouter celles correspondant au nouveau groupe (ij)
6. Si il reste un seul élément dans la matrice, arrêter, sinon retourner
en 1.
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Ours 32 0 26 34 29 33 84 136
Racoon 48 26 0 42 44 44 92 152
Belette 51 34 42 0 44 38 86 142
Phoque 0
Otarie
Phoque 50 29 44 44 0 24 89 142
Otarie 48 33 44 38 24 0 90 142
Chat 98 84 92 86 89 90 0 148
Phoque 50 29 44 44 0 24 89 142
Otarie 48 33 44 38 24 0 90 142
Ours 32 0 26 34 31 84 136
Racoon 48 26 0 42 44 92 152
Belette 51 34 42 0 41 86 142
Phoque
Racoon
Racoon
Phoque
Otarie
Otarie
Ours
Ours
13 13 12 12 13 13 12 12
5,75 6,75
Racoon
Phoque
Belette
Otarie
Ours
13 13 12 12 19,75
5,75 6,75
1
Quatrième agglomération
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Phoque
Racoon
Belette
Otarie
Chien
Ours
13 13 12 12 19,75 22,9
6,75
5,75
1 3,15
Cinquième agglomération
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Racoon
Phoque
Belette
Otarie
Chien
Ours
Chat
13 13 12 12 19,75 22,9
5,75 6,75
1 3,15 44,9166
22,0166
Sixième agglomération
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Racoon
Phoque
Belette
Otarie
Chien
Singe
Ours
Chat
13 13 12 12
44,9166
19,75 22,9
5,75 6,75
1 3,15
22,0166 72,1428
27,22619
Septième agglomération
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Critiques:
Hypothèse de l’égalité des taux d’évolution entre les lignées.
A B C D
A D A 0 17 21 28
B 17 0 12 19 B C D A
B C
C 21 12 0 15 6 6 8,5 11
13 4 4 11
2 2 2,5
D 28 19 15 0 2,5
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Le neighbor-joining (NJ)
Développé par Saitou et Nei (1987) est une approximation de l’algorithme
pour trouver l’arbre le plus court (minimum évolution)
Avantages
Rapidité => permet de travailler avec un très grand nombre de taxons
(plusieurs centaines)
Bonne approximation de la méthode du minimum d’évolution
Le neighbor-joining – Principe
Point de départ = topologie en étoile
Étape 1 : Pour toutes les paires i,j possibles, calculer Si,j la longueur de
l’arbre obtenu
Étape 2 : Retenir la paire i,j générant la plus petite valeur Si,j ; grouper i et j
dans l’arbre
Étape 3 : Calculer les nouvelles distances d entre le groupe nouvellement
6 5 6 5
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Le neighbor-joining – Application
Chien 0
Ours 32 0
Racoon 48 26 0
Belette 51 34 42 0
Phoque 50 29 44 44 0
Otarie 48 33 44 38 24 0
Chat 98 84 92 86 89 90 0
Chat 98 84 92 86 89 90 0 -134,833
(1) Pour chaque feuille i calculer ui = Ri / (m-2) = nk=1 dik mk=1 dik / (m-2)
(2) Choisir et i et j pour lesquels dij – ui – uj est la plus petite
(3) Joindre i et j. Calculer Li la longueur de la branche reliant i au nouveau nœud
A et Lj la longueur de la branche reliant j au nouveau nœud A comme étant
Li = dij/2 + (ui-uj)/2 = 148/2 + (114,5 – 168,3333)/2 = 47,0835
Lj = dij/2 + (uj-ui)/2 = 148/2 + (168,3333 – 114,5)/2 = 100,9165
(4) Calculer la distance entre le nouveau nœud A et chaque autre feuille comme
d(ij),k = (dik + djk – dij ) /2
100,9165
A
47,0835
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
(1) Pour chaque feuille i calculer ui = Ri / (m-2) = nk=1 dik /mk=1 dik / (m-2)
(2) Choisir et i et j pour lesquels dij – ui – uj est la plus petite
(3) Joindre i et j. Calculer Li la longueur de la branche reliant i au nouveau nœud
A et Lj la longueur de la branche reliant j au nouveau nœud A comme étant
Li = dij/2 + (ui-uj)/2
Lj = dij/2 + (uj-ui)/2
(4) Calculer la distance entre le nouveau nœud A et chaque autre feuille comme
d(ij),k = (dik + djk – dij ) /2
(5) Éliminer les colonnes et les lignes correspondant aux groupes i et j et ajouter
celles correspondant au nouveau groupe (ij)
(6) Si il reste un seul élément dans la matrice connecter les deux derniers
nœuds, sinon retourner en 1
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Chien 0
Ours 32 0
Racoon 48 26 0
Belette 51 34 42 0
Phoque 50 29 44 44 0
Otarie 48 33 44 38 24 0
Chien 0
Ours 32 0
Racoon 48 26 0
Belette 51 34 42 0
Phoque 50 29 44 44 0
Otarie 48 33 44 38 24 0
Chat 49 36 48 40 41,5 42
Singe
Chat 98 84 92 86 89 90 0
Ours 32 0
Racoon 48 26 0
Belette 51 34 42 0
Phoque 50 29 44 44 0
Otarie 48 33 44 38 24 0
Chat 49 36 48 40 41,5 42 0
Singe
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
100,9165
47,0835
100,9165
Deuxième agglomération
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
100,9165
6,875 100,9165
19,125
12,35 11,65 47,0835
Troisième agglomération
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
6,875 100,9165
19,125
12,35 11,65 47,0835
6,875
1,75
19,125 100,9165
25,25
12,35 11,65 47,0835
Quatrième agglomération
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
6,875
1,75
19,125 100,9165
25,25
12,35 11,65 47,0835
6,875
1,75
19,125
3,5
25,25 100,9165
12,35
47,0835
11,65 7,8125
Cinquième agglomération
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
6,875
1,75
19,125
3,5
25,25 100,9165
12,35
47,0835
11,65 7,8125
6,875
1,75
19,125
3,4375
19,5625
25,25
Sixième 100,9165
12,35
agglomération 20,44
7,8125
11,65 47,0835
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Comparaison UPGMA - NJ
12 11,65
5,75 Otarie Otarie 7,8125
12 Phoque
12,35
Phoque
1 1,5625
25,25
UPGMA 13 Chien NJ
Racoon
3,15 13 19,125
Ours Racoon 3,4375
6,75 20,44
22,0166 6,875 1,75
19,75 Ours
Belette
44,9166 47,0835
Chat Chat 100,9165
72,1428
Singe Singe
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Maximum de Parcimonie
Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)
La parcimonie
Le critère de parcimonie
Soit un caractère relevé dans 4 espèces {A,B,C,D} (dont on connaît
la phylogénie) et présentant les états de caractères x , x , y , y
x
y
y
Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)
Le critère de parcimonie
Soit un caractère relevé dans 4 espèces {A,B,C,D} (dont on connaît
la phylogénie) et présentant les états de caractères x , x , y , y
Substitution y => x
Quelle histoire a pu conduire à cet état final? Substitution x => y
B A C D
x x y y
x
y
y
NC = 1
Similarité par
ascendance commune
Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)
Le critère de parcimonie
Soit un caractère relevé dans 4 espèces {A,B,C,D} (dont on connaît
la phylogénie) et présentant les états de caractères x , x , y , y
Substitution y => x
Quelle histoire a pu conduire à cet état final? Substitution x => y
B A C D B A C D B A C D
x x y y x x y y x x y y
x y x
y y x
y y y
NC = 1 NC = 2 NC = 2
Le maximum de parcimonie
Parcimonie: Etape 1
NC = 4
Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)
{T} {A}
T->A {A}
{T}
A->T
{T} {A}
A->G
1 2 3 4 5 6 1 2 3 4 5 6
{C} {T} {G} {T} {A} {A} {C} {T} {G} {T} {A} {A}
Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)
Parcimonie: Etapes 2 et 3
Etape 2:
Calculer NC pour chaque site de l’alignement
Sommer tous les valeurs de NC pour l’ensemble des sites
Calculer L , la longueur totale de l’arbre
Etape 3:
Répéter l’étape 2 pour chaque topologie T composant
l’espace des arbres possibles à n feuilles
Retenir l’arbre de longueur L minimale arbre le plus
parcimonieux
Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)
Pour approfondir ces notions: Concepts et méthodes en phylogénie moléculaire (2010) Perrière &
Brochier-Armanet (Springer)
Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)
Consensus d’arbres
F E D C B A F E D C B A F E D C B A
D E F C B A
F E D C B A F E D C B A
Topologie de départ?
Topologie aléatoire
Meilleure topologie issue d’une recherche séquentielle
Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)
Recherche séquentielle
Arbre à 3 feuilles
Choix du 4ième taxon à ajouter
ordre des taxa dans
l’alignement
aléatoirement
maximum du minimum
L max 9
(Perrière & Brochier-Armanet, (2010) Concepts et méthodes en phylogénie moléculaire, Springer)
Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)
Branch-and-bound
L max 8
Examen de 10/15
topologies
L max 9 possibles
=> Gain de 1/3
B E C E B E
C D E
A D A C A D
B E B E B C
E A D E B C
F B F A
A 1 D E
G C G D
2
B F 3 4
4 A
C 3 G E C B E
Zone Zone D
F A F
résiduelle élaguée B
G D G C
C F A F C F C F
C E A F B F C F
5 6 7 8
B D B D A D A D
A F C E C E B E
B E
C F
Complexité en O(n3)
Star decomposition
([Link]
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Maximum de vraisemblance
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Généralité
Principe général
Un exemple simple
Données : L P ( D p )
Résultats observés : FFPPFPFFPPP
p (1 p )
5 6
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Un exemple simple
On cherche ensuite quelle est la valeur de p (parmi toutes les
valeurs possibles) qui maximise la probabilité d’obtenir les données
D, cad les résultats des lancers observés
L P ( D p ) p p (1 p ) (1 p ) p (1 p ) p p (1 p ) (1 p ) (1 p )
p (1 p )
5 6 L =f(p)
L
L
0,454
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
p
p
La vraisemblance est maximale pour p = 0,454
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
HYPOTHESES
Le processus de substitution suit un modèle probabiliste dont
l’expression mathématique est connue a priori, mais dont les
paramètres ne sont pas connus (modèle connu mais
paramètres inconnus => calcul des probabilité de passage
d’un état i à un état j le long d’une branche de longueur t)
Les sites évoluent indépendamment les uns des autres
Les probabilités de substitution ne changent pas au cours du
temps
Tous les sites obéissent au même processus de substitution
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Définition de la vraisemblance
Données
Séquences d’ADN lignées (n sites)
Modèle d’évolution M (JK, K2P, HKY…)
Hypothèses
Paramètres du modèle , topologie T , longueurs de
branches
La vraisemblance est
calculée de manière
Décomposition de la vraisemblance indépendante à
L P(D H ) P(D H ) chaque site
L P(D H ) P(D H ) ... P ( D
(1 ) (2) (n)
H)
n
L i 1 P ( D
(i)
H)
i 1
n
P ( D (i)
T , , )
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Application
Sites
Séquences 1 2 3 4 5 6 7 8 n
A A A G A G T T C N
B A G C C G T T C N
C A G A T A T C C N
D A G A G A T C C N
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Application
Modèle d’évolution M
Topologie ((A,B),(C,D)), Longueurs de branches
Y et Z = nœuds internes pour lesquels 4 états de caractères
sont possibles (A,T,C,G)
Question = Quelle est la probabilité que l’arbre aie généré les
données de la matrice suivant le modèle M ?
Sites
Séq. 1 2 3 4 5 6 7 8 n A l1 C
A A A G A G T T C N l5
l5 l3
B A G C C G T T C N
Y Z
C A G A T A T C C N l4 D
D A G A G A T C C N
B l2
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Application
Question = Quelle est la probabilité que l’arbre ait généré les
données de la matrice suivant le modèle M ?
Sites
Séq. 1 2 3 4 5 6 7 8 n A l1 C
A A A G A G T T C N l5
l5 l3
B A G C C G T T C N
Y Z
C A G A T A T C C N l4 D
D A G A G A T C C N
B l2
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Probabilité de ce scénario
P ( scenario ) P (Y A ) P ( Z A Y , l 5 ) P ( A G Y , l1 ) P ( B G Y , l 2 )
P (C A Z , l3 ) P ( D A Z , l 4 )
A A T A C A G A
A T T T C T G T
A C T C C C G C
A G T G C G G G
L L L ... L
(1 ) (2) (n)
L
(i)
L
i 1
L ln L ln L ... ln L
(1 ) (2) (n)
L
(i)
ln L
i 1
Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)
Maximisation de la vraisemblance
(1) On considère une topologie T , un site et un ensemble de
longueurs de branches l
C’est une des méthodes les plus justifiées d’un point de vue théorique
Les simulations montrent que cette méthode est supérieure aux autres dans
beaucoup de cas. En particulier elle est moins sensible aux artefacts
d’attraction des longues branches