Université Du Québec Montréal
Université Du Québec Montréal
MÉMOIRE
PRÉSENTÉ
DE LA MAÎTRISE EN MATHÉMATIQUES
(STATISTIQUE)
PAR
SEPTEMBRE 2014
UNIVERSITÉ DU QUÉBEC À MONTRÉAL
Service des bibliothèques
Avertissement
La diffusion de ce mémoire se fait dans le respect des droits de son auteur, qui a signé
le formulaire Autorisation de reproduire et de diffuser un travail de recherche de cycles
supérieurs (SDU-522- Rév.01-2006). Cette autorisation stipule que «conformément à
l'article 11 du Règlement no 8 des études de cycles supérieurs, [l'auteur] concède à
l'Université du Québec à Montréal une licence non exclusive d'utilisation et de
publication de la totalité ou d'une partie importante de [son] travail de recherche pour
des fins pédagogiques et non commerciales. Plus précisément, [l'auteur] autorise
l'Université du Québec à Montréal à reproduire, diffuser, prêter, distribuer ou vendre des
copies de [son] travail de recherche à des fins non commerciales sur quelque support
que ce soit, y compris l'Internet. Cette licence et cette autorisation n'entraînent pas une
renonciation de [la] part [de l'auteur] à [ses] droits moraux ni à [ses] droits de propriété
intellectuelle. Sauf entente contraire, [l'auteur] conserve la liberté de diffuser et de
commercialiser ou non ce travail dont [il] possède un exemplaire.»
REMERCIEMENTS
J'adresse mes remerciements aux personnes qui m'ont apporté du soutien tout
au long de mes études et qui ont contribué à la réalisation de ce mémoire.
Je remercie mes très chers parents, mes frères et soeurs, qui ont toujours été là
pour moi et sans qui je ne serai pas là aujourd'hui.
Figure Page
Tableau Page
3.1 Résultats algorithme Forward 59
Ils sont utilisés pour modéliser des séquences d'observations qualitatives ou quan-
titatives. La plupart des méthodes d'utilisation et de développement des MMC
ont été développées dans le cadre de la reconnaissance vocale. Par la suite ces
mêmes techniques ont été appliquées et adaptées à d'autres domaines.
Xotre objectif dans ce mémoire est de présenter une vue d'ensemble de la théorie
des MMC à temps discret. Nous exposons les trois problèmes classiques et développons
différents algorithmes susceptibles de les résoudre en effectuant de l'inférence sur
les états du processus.
Xous illustrons ensuite ces algorithmes en les appliquants à des exemples plus
démonstratifs .
Les processus stochastiques, notamment markoviens dans notre cas, sont des ou-
tils importants en théorie de probabilités. Ils permettent de modéliser plusieurs
types de phénomènes dans des domaines tels que la génétique des populations ou
l'évolution des cours de marchés boursiers en finance mathématique par exemple.
L'utilisation de tels processus suggère que les états sont les seules observations de
la chaîne. Il serait judicieux de se demander quels types de modèles utilisés dans
des situations où ces états ne sont pas directement observables, mais produisent
des observations particulières ("symboles"). Pour ce fait, on s'intéresse aux MMC
et aux problèmes qu'ils permettent de résoudre.
Tel qu'énoncé plus haut, dans les processus markoviens, les observations sont les
états du processus. Pour les MMC, c'est bien plus complexe. En effet, dans un
MMC on ne peut observer directement les états du processus mais des symboles
générés par les états selon une certaine loi de probabilité. Ainsi, à partir d'une
séquence de symboles, il n'est pas évident de connaître la trajectoire (séquence
d'états) par laquelle est passée le processus. D"où le nom de modèles de Markov
<cachés».
Le deuxième chapitre présPnte de manière formelle lPs MMC Pt les trois principaux
problèmes qu'ils permettent de résoudre : l'évaluation du modèle pour expliquer
une séquence de symboles observées, trouver le chemin qui optimise le mieux une
2
Enfin, le troisième chapitre est la mise en application de tout ce qui est établi
dans le chapitre 2. Nous utiliserons les algorithmes et applications développés sur
des données réelles obtenues par simulations. Xous illustrons le bon fonctionne-
ment des algorithmes et donnons autant que possible des conclusions à partir des
résultats obtenus.
CHAPITRE I
Les chaînes de Markov sont des suites de variables aléatoires caractérisées par une
aspect particulier de dépendance, qui leur attribue des propriétés singulières et un
rôle important en modélisation. Elles ont été introduites par Andreï Andreïevitch
.Markov (1856-1922) vers 1906. Ce chapitre introduit les principales notions développées
par Taylor et Karlin (1998) sur les chaînes de Markov à temps discret et met l'ac-
cent sur les points essentiels que nous utilisons tout au long de ce mémoire.
L'"ne chaîne de Markov est un réseau spécifique de variables aléatoires décrit par
un système dynamique d'états de transitions. Elle respecte les propriétés suivantes
tirées de Howard (1971).
(1.1)
4
(1.2)
Ainsi, on peut dire d'un processus X qu'il est markovien si son état actuel fourni
toute l'information nécessaire pour connaître son évolution future. Sa distribution
dans le futur étant donné le présent et le passé ne dépend que du présent. On
parle alors d'absence de mémoire.
Définition 1.1.2. Une chaîne de Markov est dite homogène lorsque la probabilité
de transition (2.1) ne dépend pas de n, c'est à dire :
PiJ = IP(Xn+I = JIXn = i) = IP(XI = JIXo = i), pour tout entier n. (1.4)
Remarque 1.1.2. L'expression L:1es Pii [Link] la somme dP tous lPs élémPnts
de la ligne j de la matrice de transition P. Elle vaut 1 pour tout i E S. En effet,
on remarque que :
1/3
1/3 (IP1
1/2
1/2
La loi d 'unf' une chaînf' de l\Iarkov hornog;ène X est détf'rminée par son espace
d'états S, sa matrice de transition P et son vecteur de distribution initiale J1 =
(1.5)
La notion de "k pas" vient du changement d'états après un certain temps k. Plus
clairement, la matrice de transition à k pas nous donne la probabilité qu'après un
temps k on soit dans l'état j sachant quf' l'on etait initialement dans l'état i.
1. 0 :::; P~7) : :; 1 ;
2. I:jES p;J) = 1 pour tout i E S;
Démonstration. La première propriété est immédiate car p~Jl est une probabi-
lité. La preuve de la deuxième propriété se fait de la même manière que dans la
remarque 2.1.1. :
= L IP'(Xn+k = j, ~n = i)
jES IP'(Xn = z))
IP'(Xn = i)
=
IP'(Xn = i)
=1
7
car les évènements {Xn+k = j}jES sont une partition disjointe deS et donc :
seulement si 0 ~ a, b ~ 1.
1-b
a~b
1-a
Supposons que la condition est vraie pour n- 1 ~ 1 et montrons que c'est aussi
le cas pour n :
=Pn.
8
Le cas n = 0 est trivial. Il est donc nécessaire de pouvoir cakulf'r la puissance d'une
matrice car elle nous permet de déterminer directement la matrice de transition.
0
= L IP(Xn+m = j, Xm = kiXo = i)
kES
= L IP(Xn+m =j,Xm ~ k,Xo = i)
kES JP>(Xo = t)
= L JP>(Xn+m = JIXm = k, Xo = i)IP(~m = kiXo = i)IP(Xo = i))
kES JP>(Xo = z)
= L IP(Xn+m = jiXm = k, Xo = i)IP(Xm = kiXo = i)
kES
Exemple 1.1.3. Considérons deux urnes, une de couleur noire contenant 2 boules
noires et 3 boules blanches, et l'autre de couleur blanche contenant 4 boules noires
et une boule blanche. On effectue un tirage avec remise. Après avoir tiré une boule,
on note sa couleur et on la replace dans son urne. La boule suivante est tirée de
l'urne dont la couleur correspond à celle de la dernière boule sortie.
L'espace d'états correspond à la couleur des urnes où sont effectués les tirages.
On a donc S = {1 =Blanche, 2 =Noire}.
La matrice de transition des états est :
p = [1/5 4/5]
3/5 2/5
1/5 3/5
13/25 12/25]
p(2) = p2 =
[ 9/25 16/25
Il existe différents types d'états. Leur classification permet de mieux étudier les
propriétés asymptotiques des chaînes de Markov. Maintenant, classifions les états
possibles selon diverses caractéristiquPs.
Les définitions qui suivent sont tirées des ouvrages de Taylor et Karlin (1998) et
de Lessard (2013).
11
Démonstration.
0
12
Remarque 1.2.1. On peut donc affirmer qu'un état i est récurrent si fii = l'et
transitoire si !ii < 1.
P ropos1't'1on 1 . 2 . 2 . p our nE ~T
1~, Pij(n) =
'\'n (n-k)J(k)
L....,k=oPjj ij .
En effet si le processus passe de l'état i à l'état j en n pas, on s'intéresse au k-ième
instant où il atteint pour la premièrf' fois l'f>tat j.
Il
oo oo n
~j(s) = L snp~j) = L sn L PJ}-k) Jijk) (proposition 2.2.2)
n=O n=O k=O
oo n
= LL sn-kp)j-k) sk fg)
n=Ok=O
00 00
= LL sn-kp);-k) sk J;jk)
k=On=k
lim1 F·(s)
11 = lim """'snf(n)
L tt
= """'f(n)
L u = f··u = 1 (récurrent)
s----t s----t 1 n=O n=O
00 00
.
11m n ( )
r;; ,.; = l'1m """'
L ,.; n Pii(n) = """'
L Pii(n) ·
s----tl- _.____. 1 - n=O n=O
L P~7) =
n=O
lim Pii(s) <===>!ii= 1
s----> 1-
00
On dit que les états i et j communiquent si ils sont tous deux accessibles l'un de
l'autre. On note i +------+ j.
15
En d'autres termes, on dit que l'état j est accessible depuis l'état i si la probabilité
d'atteindre j en n transitions depuis i est strictement positive .
Définition 1.2.4. La période d'un état i EX notée d(i) est l'entier définie par:
Proposition 1.2.4. La relation +---+ est une relation d'équivalence sur S. Elle
est
- réflexive : i communique avec i ;
- symétrique :Vi, jE S, i +---+ j si j +---+ i;
- tmnsitive: Vi. j, k E S, si i +---+ j et j +---+ k alors i +---+k.
Démonstmtion. Pour prouver cette équivalence, nous devons montrer que la rela-
tion est réflexive, symétrique et transitive.
Ainsi i +---+ k.
0
16
Cne classe d'état est clone fermée si aucun état hors d'elle n'est accessible depuis
ses états intérieurs. De plus, une chaîne de Markov est irréductible si elle n'est
formée que d'une unique clast;e fermée.
(1.16)
où Test une classe um:qucment constitué d'états transitoires ct {Ck}k~I est une
suite de classes irréductibles fermées d'états récurrents.
Démonstmt?:on. Soit {Ck}k~l une suite de classe d'états récurrents pour la relation
f-t.
Or i est un état récurrent, ce qui est contradictoire car si i est récurrent alors
:3 n ~ 1 tel que :
JPl(Xn = il Xo = i) = 1
D'où:
Ainsi, on vient de prouver que toutes les classes irréductibles d'états récurrents
sont fermées. En outre, puisque la relation +-----+est une relation d'équivalence, on
a directement la partition contenant la classe d'états transitoires T et la suite des
classes irréductibles fermées d'états récurrents.
Remarque 1.2.2. Si l'espace d'états S est fini alors il existe au moins un état
récurrent et tous les états récurrents sont non-nuls.
('i) ils sont tous les deux transitoires ou tous les deux récurrents;
(i'i) Dans le cas où les deux sont récurrents, ib sont récurrents nuls ou récurrents
positifs;
1/2
1/4
~1/2 1/2
Dans la classe {3, 4}, on remarque que Vn 2: 1 et Vj tt {3, 4}, p~;) = p~;) =O. Elle
est alors fermét:- sur un nombre d'états fini, donc récurrente positive et apériodique
car
d(1) = d(2) = 1.
19
1
Dans la classe { 5}, P54 -2 i- O. Elle n'est pas fermée, donc transitoire et
apériodique car
L'objectif de cette section est de trouver les conditions simples permettant d'ap-
proximer la loi d'une chaîne de Markov {Xn}n~l sur une longue période, plus
clairement sous quelles conditions pourrons nous trouver la limite lim Xn afin de
n-+ao
pouvoir identifier facilement la chaîne.
Définition 1.3.1. Un vecteur 11' = { 11'i}iEs surS est stationnaire pour la chaîne
de Markov X si
(i) 11'i ~ 0, Vi E S et L:iES 11'i = 1;
(ii) 11'j = L:iES 11'i~i• Vj ES ou en notation matricielle 11' = 7rP.
Cne chaîne de Markov est donc stationnaire sous JP> si pour tout k, n E N, la
distribution du vecteur aléatoire (X1 , X 2 , ... , Xn) est identique à celle du vecteur
(Xk, Xk+b ... , Xn+k)·
n EN.
20
Cne chaîne de Markov irréductible et apériodique est dite ergodique lorsque tous
ses états sont récurrents positifs et apériodique, et non-ergodique lorsque tous ses
états sont transitoires ou récurrents nuls.
Le théorème qui suit joue un rôle important dans !"étude des chaînes de Markov
pour des très longues périodes( transitions).
L'étude des points précédents suppose que les matrices de transition sont connues
à l'avance. Cependant, on se pose la question de savoir comment estimer à partir
d'une de ses trajectoires la matrice de transition d'une chaîne de Markov.
Aussi, on se demande comment statuer si la trajectoire que l'on observe provient
bel et bien d'une chaîne de Markov. Nous en discutons dans le point qui suit.
Cette partie traite de l'inférence basée sur les probabilités pour des chaînes de
~arkov ergodique finies. On discute des méthodes d'estimation des paramètres
d'une chaîne de Markov basées sur les travaux de Billingsley (1960) et de Anderson
et Goodman ( 195 7).
21
JP>(Xi =ai, i ES)= JP>(X1 = at)JP>(X2 = a2IX1 = a1) ... JP>(Xn+l = an+liXn =an)
(1.17)
(1.18)
On définit maintenant la variable Tij qui donne le nombre de fois que la chaîne
fait une transition de l'état i vers l'état j, donc lorsqu'on obtient successivement
xk =i et xk+l = j, pour 1 ~ k ~ n:
tl
rij = L
k=l
ll{xk=i,Xk+l=j} (1.19)
De plus posons ri. = L:j= 1 Tij et T.j = L:: 1 Tij qui correspondent respectivement
aux fréquences des états {a 1 , a2, ... , an} et {a 2 , a 3 •... , an+d· Whittle {1955) a pu
22
Ptablir que :
N(n)(R) = R* n m
i=l
.1
r, .. ( 1.23)
uv vu 0·t.J...
r,J.1
(1.24)
23
Des égalités {1.20) et {1.23), on peut constater que la probabilité qu'une séquence
{xi, x2, ... , Xn+l} ait une matrice de dénombrement R avec état initial xi = u et
état final .Tn+I =v est :
R* TI'?ll=I . 1 II r;
Tl.· 1
Jlu vu TI· . ..l Pij · {1.25)
lJ TzJ. i,j
Proposition 1.4.1. Soit X= (XI, X 2 , ... , Xm) un vecteur aléatoire qui suit une
loi multinomiale M(n, Pt. P2, ... , Pm). n E N d'espace paramétrique {1.26), alors,
sa densité de probabilité est :
(1.27)
24
ou' "'m
L..Jj=I x 1 = n.
p= (Xj .
-;-,J=1,2,
A )
... ,m. (1.28)
m m
LXi= [Link]
i=l i=l
X= n.
Xi
Pi=-,
A .
2 = 2
1, .... , m.
n
Revenons à la formule de Whittle. On laisse de côté les deux premiers facteurs /11,
et R~u car ils ne s'expriment pas en fonction des probabilités Pii· Ils n'ont donc
pas d'influence dans leurs estimations par maximum de vraisemblance. Le terme
qui nous intéresse est alors :
(1.29)
(1.30)
(1.31)
Ti. p.s.
- ..:........t 7r;; ( 1.32)
n
Tjj p.s.
- ..:........t 7r;p;j; (1.33)
n
1 c
y'ii(rij- r;.P;j) ---+ N (0, 1riPij(1- Pij)) (1.34)
"'* p.s.
P;j ..:........t Pij ( 1.35)
(1.36)
p· (1- p· ))
où r= diag ( l} 1ri •J est une matrice diagonale,
Le théorf>me que nous allons voir apporte l'information nécessaire pour la vali-
dation d'une chaîne de Markov, Billingsley (1960) et Dacunha-Castelle et Duflo
(1993).
Le résultat qui suit est démontré dans Dacunha-Castelle et Duflo (1993).
Ce chapitre résume les points essentiels dont on a besoin pour entrer dans le vif
du sujet de ce mémoire.
Dans le chapitre suivant nous introduisons un cas particulier des processus mar-
koviens. Il s'agit des modèles de Markov cachés (MMC).
CHAPITRE II
Xous introduisons les caractéristiques des MMC. Pour faire cela, considérons les
éléments notés N, lv!, A, B, Jl et ~, et définie rornme suit :
bs; (ok) = IP( Ot = okiYt = Si,~), avec i = 1, 2, ... , Net k = 1, 2, ... , M ;(2.2)
Remarque 2.1.1. La notation des MMC est très souvent réduite au triplet~=
(J.l, A, B) car A est une matrice N x N, et B une matrice N x M.
Exemple 2.1.1. Considérons le modèle À décrit par la figure 2.1. Les symboles
observables possibles sont o1 = I, o2 = II et o3 = III. Nous pouvons voir que
M = N = 3. Supposons que la loi de l'état initial est J.l = {0, 1/2, 1/2} et qu'on
a les valeurs suivantes :
On a:
~1~2
1/3 1/3 1/3 1/2
1/21
A= 2/3 0 1/3 et B = 1/2 0 .
2/3 1/3 0 1/2 0 1/2
1/3 1 1
(2' 2' 0) 1
!,II, III 1
1 1
(O, 2 ' 2)
1/3
Il existe un algorithme dans l'article de Rabiner (1989) utilisé pour générer effia-
cement par simulation une séquence d'observations à partir d'un MMC.
Pour des valeurs données de N, M, A, B et Ji., le MMC peut être utilisé pour
générer une séquence d'observations O(T) = 0 1 0 2 ... Or de la manière
33
suivante :
2. définir- t = 1 ;
L'exemple 2.1.1 illustre comment il est possible de générer une séquence d 'obser-
vations à part ir de la distribut iou de l'état irü tial, les probabilités de t ransition et
des observations du modèle. En sit uation réelle, nous n 'observons que les sorties
0(3) = (J , II. II) et devons alors faire de l'inférence sur les états sous-j aceuts
pour que le modèle soit efficace.
Afin de pouvoir exploiter le modèle, t rois problèmes fond amentaux doivent être
résolus, à savoir :
Le premier but de ce principe est de déterminer une manière efficace pour évaluer
la probabilité JP>(O(t)l~) d'observer la séquence O(t) = 0 1 0 2 ... Ot étant donné
le MMC de paramètres~-
Il est primordial de voir que cette probabilité peut s'exprimer sous la forme sui-
vante:
La somme est faite pour toutes les séqueiH'es possibles d'états y(t).
Ainsi, nous pouvons évaluer cette probabilité de manière directe en procédant
comme suit:
· · · lP(YtiYb .. ·, Yt-1, ~)
(2.12)
:\"ous pouvons alors réécrire les probabilités de l'égalité (2.7) à partir des expres-
sions (2.10) et (2.12), soit :
Ainsi en sommant la probabilité conjointe {2.13) sur toutes les séquences d'états
possible y(t), nous obtenons la probabilité d'observer la séquence O(t) étant donné
le modèle (égalité (2.5)).
Cette égalité peut être décrite de façon algorithmique à partir des probabilités
définies dans les caractéristiques des MM C :
{i) Au temps t = 1, le MMC démarre initialement à l'état y 1 avec probabilité f..ly 1
et produit une observation 0 1 avec probabilité by 1 ( 0 1 ) ;
(2.15)
Pour une séquence ordonnée en fonrtion du temps, dans le ras des modèles Mar-
koviens on a :
(2.16)
IP(FI) Q IP(Fp+II k61Fk) = IP(FI) IP(F2IF1) IP(F3IF1 n F2) ... IP ( Fnl :o: Fk)
= IP(F) IP(F1 n F2) IP(F1 n F2 n F3) IP (ni:= 1 Fk)
1
IP(F1) IP(F1 n F2) ... IP (n;::: Fk)
· = IP (n Fk)
k=l
La preuve pour les modèles de Markov est directe, ces modèles étant sans mémoire,
on peut donc écrire pour des séquences ordonnées F 1 , F 2 , ... , Fn :
Méthode Forward
(2.21)
On remarque que le MMC s'initialise à l'état Si avec probabilité /-Li et produit une
observation 0 1 avec probabilité bs, (OI) (2.21).
38
Ensuite, analysons plus en dPtails la valeur de o: 1+ 1 (j) afin d'en ressortir une
équation récursive :
o:I(2) = 1P'(01 = 1, YI= S2l~) = J-L2 * bs2 (I) = 1/2 * 1/2 = 1/4;
o:I(3) = IP'(01 = 1, YI= 531~) = /-l3 * bs3 (I) = 1/2 * 1/2 = 1/4.
n2(1) 1/6.
N
L at(i) = IP(O(t) 16). (2.28)
i= l
De toute cette analyse, on comprend donc que l'algorit hme Forward donne deux
informations , à savoir at(i) et P(O(T) I6). Résumons les étap es de cette méthode :
Algorithme Forward
2. Pour t = 1: T - 1, faire
Pour j = 1 : N, faire
at+1(i) = [2:~ 1 at(i) aij] bsj(Ot+l);
Fin Pour
Fin Pour
Fin Pour
3. Finalisation
féthode Backward
!3r('i) = 1. (2.30)
Rappelons que les seules observations données sont 0 1 , 02, ... , Or et que la pro-
babilité j3t(i) n'est définie que pour des temps discrets strictement inférieurs à
notre échéance T. Cela peut nous aider à justifier ce choix.
De même que pour la variable progressive, la transformation de la probabilité
conditionnelle j31 (i) que nous traitons ci-dessous permet de retrouver une forme
récursive rétroactive :
N
= L P(Yt+l = Sjl Yt = S;, ~) JPl(Ot+2:TIYt+l = Sj, ~)
j=l
N
= L:aij !3t+I(j) bs (0t+1). 1
(2.31)
j=l
,83(2) = 1
,83(3) = 1
,83 (1) * bs (II ) *au+ ,83 (2) * bs (II ) * a12 + ,83(3) * bs (II) * a13
1 2 3
De la m êm e manière on obtient :
On peut dès lors affirmer que l'algorithme Backward ne produit qu'une seule
information, soit .Bt(i) :
Algorithme Backward
1. Pour i = 1 : N , faire
,Br(i) = 1 ;
À partir des quantités a 1 (i) et /31 (i) (des deux algorithmes réunis), on peut cal-
culer la probabilité IP(O(T)I ~) d'observer la séquence O(T) à chaque instant tet
aussi évaluer plus facilement la probabilité 'Yt(i) = IP(y1 = S;IO(T), ~) d'être dans
l'état S; à un certain temps t étant donné la séquence d'observations O(T) et les
paramètres ~· On a :
N N
IP(O(T)I ,\) = LIP(O(T), Yt = S;l ,\) = LlP(O(t), Ot+l:Tl Yt = S;l .-\);
- i=l - i=1 -
N
= LIP(O(t), Yt = S;l ~) IP(Ot+l:TI O(t), Yt = S;, ~);
i=1
N
IP(O(T)I ~) = I.:at('i) f3t(i). (2.32)
i=1
Rabiner (1989).
- A lgorithme Forward-Backward
2. Pour t = 1 : T , faire
Pour i = 1 : N , faire
. O:t(i) f3t(i )
"ft(t) = L:~1 o:t(k ) f3t(k) ;
Fin Pour
Fin Pour .
Dans cette partie, nous venons d 'expliquer une méthode efficace pour évaluer la
probabilité d'observer une séquence O(T) à partir d'un MMC de paramètre ~
Cependant , avec cette méthode, il nous est impossible de déterminer une séquence
d'états la plus proba ble pour générer une séquence d 'observations connues.
Dans la section suivante, nous discutons d 'une nouvelle méthode permettant
d'évaluer ce genre de problème.
d'états y(T) = YI Y2 ... YT est optimale pour aller de l'état initial YI à l'état
45
échéant YT alors la sous trajectoire U(t) = u 1 u 2 ... 'Ut est optimale pour aller
initialement de l'état y 1 à l'état Yt (Figure 2.2).
Ce principe explique que la solution d'un problème global peut être obtenue en le
décomposant en sous-problèmes plus simples.
Proposition 2.2.2. Si f et g sont deux fonctions telles que f(a) > 0 pour tout
a, et g( a. b) ~ 0 pour tout a, b alors :
Soit la quantité 8t(j), j = 1, 2, ... , N, Rabiner (1989), Miller (20llb), définie par
8t(j) = max IP(y(t- 1), Yt = Si, O(t) 1 ~), avect = 1, 2, ... , T. (2.37)
y( t-l)
8t(j) est la probabilité maximale, étant donné le MMC ~de parcourir la séquence
d'états y(t) qui s'achève en S1 au temps t et d'y observer la séquence O(t).
46
= ma.r
Yt-1
[IP'(yt = SiiYt-1 =Si.>.) IP'(OtiYt =Si,>.)
- -
= max
S,
[aij bs1 ( Ot) 61-1 ( i)]
(2.38)
Xous pouvons considérer que argmax 61 (i) = 0 car aucune séquence d'observa-
s,
tions et d'état, n'est obsPrvablP à l'instant O.
47
Ainsi , en prenant l'a rgument du maximum des 6t(j) pour tous les t= 1, 2, ... , T
et j = 1, 2, ... , N , on obtient la séquence optimale d 'états . Dénotous par 'I/Jt(S1)
cet argument à l'instant t.
On peut dès lors résum er la procédure complète de l'algorithme de Viterbi :
Algorithme de Viterbi
1. Pour i = 1 : N , faire
61 ('i) = [Link] bsi (0 1) et 'I/J1('i) = 0 ;
2. Pour t = 2 : T , faire
Pour j = 1 : N, faire
6t(j) = max
s,
[aii bt- l(i) ] bs;(Ot);
't/Jt(Sj) = ar-gmax [aij 6t- I('i) ]·
S;
Fin Pour
Fin Pour
3. IP'* = max 6r(i) ;
S;
St T = argmax br( i)
. S ,,
Fin Pour
4. Construction de la séquence d 'états.
Pour t = T - 1 : ( - 1) : 1, faire
s~ t = '1/Jt+l (si~ t+1) ;
Fin Pour .
48
La probabilité IP* dans l'étape 3 corrPspond à celle de l'égalité (2.40). Cette étape
permet d'obtenir à la fois, la probabilité maximale et la séquence d'états associée.
Dans les sections 2.2.1 et 2.2.2, nous avons développé des procédures permettant
d'obtenir des séquences d'observations et d'états les plus probables à observer à
partir des pararn!>tres ~ du MMC.
La prochaine section traite du troisième et dernier problème sur les MMC. Nous
voulons cette fois extraire de l'information sur le MMC à partir des observations
données.
a
a-\ JP>(O(T)I ~)=o. (2.41)
N N
L:ot(i,j) = L:JP(yt =si, Yt+l = SjiO(T), ~),
j=l j=l
N
Let(i,j) = 'YtU). {2.45)
j=l
50
Ensuite, on peut réécrire le coefficient Oc (i, j) comme une fonction des probabilités
vues dans l'algorithme Forward-Backward :
JP>(yt =Si, Yt+l = Sj, O(T)I ~) = JP>(Ot+d Yt+l = Sj, ~) JP>(y, =Si, Yt+l = Sj, O(t), Ot+2:rl ~),
= bs1 (Ot+d JP>(Ot+2:rl Yt+l = Sj, ~) JP>(yt =Si, Yt+l = S1, O(t)i~),
= bs (Ot+d ;3,+1(j) JP>(Yt+l = Sjl Yt =Si, À)
} - JP>(y, =Si, O(t)l À),
-
= bs1 ( Üt+d ;3t+1 (j) aij Ot ( i). (2.46)
Remarque 2.2.3.
N N
JP(O(T)IÀ) = L L JP(yt =Sm, Yt+1 =Sn, O(T)IÀ),
- m=1 n=1 -
N N
= L L bsJOt+d .Bt+I(n) amn O't(m). (2.47)
m=1 n=1
À partir des expressions (2.46) et (2.47), on réecrit les valeurs des coefficient 01( i, j)
et "ft(i) par :
(2.48)
(2.49)
(2.50)
~
.... r-1
L....t=1
. .)
0t (Z,J
aii = .... T-1 ( .) ' (2.51)
L....t=1 "ft z
"T-1 ( ")
b (k) = L....t=1n01 =k "ft z (2.52)
S, "T-1 ( ·)
L....t=1 "ft z
(i) L'estimation !li (2. 50) représente le fr équ ence espérée des transitions à travers
l'éta t si a u temps initial t = 1.
(ii) Le coefficient â i j (2. 51) est la proport ion de la fréquence espéree des transitions
de l'état Si vers l'ét at Si.
(iii) Le coefficient bs;(k) (2. 52) représente la proportion du nombre espéré de tran-
sition à traver l'état Si et d 'observer le symbole Ok·
et(i, j) ;
Fin Pour
Î t(i) ;
Fin Pour
Fin Pour
Xotons qu'il y a plusieurs réestimations des paramètres, mais que le modèle fi-
nal ou adéquat est sélectionné selon le type de données à l'étude (étape 6 de
l'algorithme). On peut également constater que l'algorithme de Baum-Welch ne
réestime pas le nombre d'états cachés N, ce dernier doit donc être donné.
Dans la section 3.1 de ce chapitre, nous revenons sur l'inférence dans les chaînes
de Markov, vue au chapitre I. La matrice de transition à l'étude dans cette section
est aussi utilisée à la section 3.2.
À l'exception de cette matrice, il n'existe aucun lien entre les deux sections. Le
choix des données ne s'inscrit pas dans un contexte particulier, il est totalement
arbitraire.
1 2 3 4 5 6 7
1 0.10 0.15 0.30 0.10 0.10 0.15 0.10
2 0.10 0.10 0.20 0.20 0.20 0.05 0.15
3 0.20 0.10 0.15 0.10 0.25 0.10 0.10
(3.1)
pO= 4 0.10 0.15 0.25 0.25 0.10 0.10 0.05
5 0.15 0.10 0.20 0.10 0.15 0.10 0.20
6 0.30 0.20 0.17 0.03 0.10 0.10 0.10
7 0.21 0.12 0.17 0.20 0.10 0.07 0.10
Le but de cet exemple est de montrer que l'estimation par maximum de vraisem-
56
1 2 3 4 5 6 7
1 0.0965 0.1494 0.2966 0.1057 0.1006 0.1511 0.1001
2 0.1011 0.1016 0.2036 0.2007 0.1935 0.0463 0.1532
3 0.1983 0.0944 0.1460 0.0992 0.2587 0.1039 0.0995
(3.2)
P*= 4 0.0973 0.1445 0.2528 0.2477 0.1107 0.0990 0.0480
5 0.1505 0.1014 0.2007 0.1027 0.1486 0.0970 0.1991
6 0.2966 0.2030 0.1689 0.0300 0.0984 0.1000 0.1031
7 0.1985 0.1265 0.1732 0.2005 0.1001 0.0723 0.1289
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
o ~~L_
0 2
__ L___L___
4 6
- - Répartition empirique de Z
L_==~==I===~==~~
8 10 12 14 16 18
Ainsi s'achève l'exemple sur l'inférence dans les châines de Markov . À présent,
nou allon voir des exemples sur les algorithmes.
Maintenant notre objectif ici est de mettre en application les différents algorit hmes
vus au chapitre II via le langage MATLAB.
On considère la matrice de transition des états A = P 0 , ou P 0 est la matrice
donnée dans l'exemple précédent. On suppose que les états i (i = 1, 2, ... , 7)
peuvent générer des symboles (des lettres) ob ervables U, V, W, X et Y (U =
1, V = 2, W = 3, X = 4, Y = 5). On suppose aussi que l'information que nous
avons indiqué une corrélation entre les lettres ob ervables et le états i.
58
Enfin, on suppose la relation probabiliste entre les lettres et les états suivants :
u v w x y
1 0.2 0.3 0.1 0.15 0.25
2 0.15 0.25 0.35 0.05 0.2
3 0.09 0.24 0.12 0.21 0.34
(3.3)
B= 4 0.28 0.15 0.21 0.17 0.19
5 0.17 0.08 0.22 0.23 0.3
6 0.22 0.18 0.15 0.25 0.2
7 0.12 0.22 0.36 0.15 0.15
On considère pour la suite que le triplet ~ = {Jt, A. B} est connu. Afin de mieux
comprendre et illustrer le comportement des MMC, on applique les trois algo-
rithmes vus dans le chapitre II.
59
f3t ( 1) f3t (2) f3t (3) f3t (4) f3t (5) f3t (6) f3t(7)
t=1 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
t=2 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
t=3 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
t=4 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001
t=5 0.0003 0.0004 0.0004 0.0004 0.0003 0.0004 0.0004
t=6 0.0021 0.0023 0.0021 0.0021 0.0022 0.0021 0.0021
t=7 0.0108 0.0105 0.0107 0.0105 0.0103 0.0105 0.0101
t=8 0.0437 0.0432 0.0442 0.0425 0.0430 0.0390 0.0410
t=9 0.2510 0.2435 0.2500 0.2450 0.2395 0.2435 0.2358
t=10 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
Grâce à cet exemple, on peut tout d'abord remarquer que les résultats obtenus
sont meilleurs pour 10, 000 simulations, donc les réestimations convergent mieux
lorsqu'il y a plus d'observations. Ensuite, en comparant les modèles à 2 et 3 états,
on remarque une convergence plus précise de celui à 2 états (Â 2 versus Âa et B 2
versus Ba). Nous constatons que pour des modèles à plus de 3 états, les paramètres
réestimés ne convergent que pour de grandes séquences d'observations. Pour mieux
illustrer ceci, nous revenons au modèle à 7 états vu dans les points précédents.
En effet, nous avons essayé par l'éxécution du code en annexe B.6, de réestimer
les paramètres du modèles à partir de la séquence de symboles en (3.5) mais
il semblerait, comme dit plus haut, que pour des modèles à plus de 3 états la
64
1 2 3 4 5 6 7
1 0.0843 0.1424 0.2923 0.0902 0.1092 0.1715 0.1102
2 0.0862 0.0674 0.2231 0.2150 0.2405 0.0562 0.1115
3 0.1595 0.1057 0.1298 0.0952 0.2844 0.1103 0.1151
(3.6)
Â= 4 0.1122 0.1397 0.2527 0.2713 0.0847 0.0982 0.0411
5 0.1763 0.1431 0.1755 0.0950 0.1082 0.0846 0.2173
6 0.3394 0.2219 0.1670 0.0235 0.0732 0.0840 0.0911
7 0.2083 0.1010 0.1920 0.2119 0.1074 0.0735 0.1058
u v w x y
1 0.1875 0.3557 0.1020 0.1304 0.2243
2 0.1186 0.3016 0.3526 0.0401 0.1871
3 0.0740 0.2535 0.1129 0.2143 0.3452
(3.7)
B= 4 0.3274 0.1078 0.1780 0.1799 0.2069
5 0.1491 0.0566 0.2234 0.2342 0.3366
6 0.2479 0.1152 0.1605 0.3008 0.1756
7 0.1333 0.2043 0.3991 0.1215 0.1419
65
La convergence des paramètres réestimés vers le modèle initial n'est pas parfaite,
elle reste tout de même considérable. Les valeurs des nouveaux paramètres sont
assez proche des valeurs recherchées.
Il est sûr qu'en simulant une plus grande quantité de symboles, ces paramètres
convergeraient de façon plus évidente. On peut donc dire que la réestimation des
paramètres du MMC par l'algorithme EM nécessite une grande quantité d'infor-
mation surtout pour les modèles à plus de 3 états.
CONCLUSION
Au cours de ce mémoire, nous avons présenté la notion des MMC comme une
extension possible des chaînes de Markov, notion capable d'exprimer des systèmes
de dépendance plus complexes. On a expliqué que cette dépendance vient du fait
que chaque état df' la chaîne est lié à une loi df' probabilité, laquelle permet
d'émettre les symboles.
La compréhension des MMC est simplifiée par la manière dont les paramètres du
modèle sont construits.
Les algorithmes permettant de faire de l'inférence sur les MMC ont été codés
sur MATLAB à partir des formules récursives obtenues dans le développement
du Chapitre 2. Ce qui renforce la flexibilité de la paramétrisation des MMC car
l'indiciation mathématique est légère et la majorité des formules développées sont
souvent réduites à de simples sommes. De cette manière le codage en MATLAB
est beaucoup simplifié.
a pf'rrnis rlf' <'onstater qu'il dépend fortement rlu nombre rle données (symboles f't
états).
On a pu en Ptfet, illustrer à partir d'une longue séqueuC'e de symboles (100,000
symboles et 7 états), qu'il y a une convergence des paramètres réestimés par cet
algorithme.
ANNEXE A
MATÉRIAUX PRÉLIMINAIRES
Les définitions et les théorèmes présentés et montrés dans cet annexe sont issues
des articles et livres suivants :
Commençons tout d'abord par donner les notions de mesure et espace de proba-
bilité.
(i) JP>(O) = 1;
(ii) V F E ~. 0 ~ JP>(F) ~ 1, où F est un évènement;
(iii) VF1, F2, F3 , .•. E ~ tels que F; n Fj = 0 si i =1= j, IP(U;~1F;) = L:;~ 1 IP(Fi).
Définition A.1.2. Un espace de probabilité est un triplet (0, ~. JP>) où (0, ~) est
un espace mesumble et lP une mesure de probabilité.
Définition A.1.4. Soit (0, 8', JP>) un espace de probabilité. Un processus stochas-
tique est une famille { X 1, t E T} de var·iables aléatoires indexées par un ensemble
d'indice T, définies dans le même espace de probabilités et à valeurs dans un même
ensemble dénombrable S.
Remarque A.l.l. La définition 1.1.5 est valable si les conditions ci-dessous sont
satisfaite :
- p(x, y)> 0;
- L:x L:yp(x, y) = 1.
00
et v1 , v2 , ... , VN suivante :
N N-1
L Un(Vn- Vn-1) = (uNVN- ulvo)- L Vn(Uu+l -Un) (A.5)
n=l n=O
Selon l'énoncé du théorème, on suppose que L::'=o anxn converge pour lxi < 1 et
pour x= 1.
Pour prouver (A.4), on travaillera avec les sommes finies L:~=O anx 11 et L:~=O an.
Soit Sn = ao + a1 + ... +an, pour n ~ O. Il est facile de voir que Sn - Sn-I = an,
72
pour n 2: 1. On a alors :
N N
L an.r" = ao + L(8 11 - 8,._ 1 ).rn,
n=O n=l
N
= ao + L(sn- Sn-dUn
n=l
N-1
= ao + UN8N - 1tJ8o- L 8n(Un+l- Un), (par(A.5))
n=l
N-1
= ao + x N SN- xao- "~Sn ( x n+l -x n) , (cars 0 = ao)
n=l
N-1
= ao(1- :r) + J:N.<;N + L S 11 :r
11
(1- .r),
n=l
N-1
= XN SN+ L S11 X11 (l- x). (A.6)
n=O
Par hypothèse le terme à gauche de l'égalité (A.6) converge quand N --+ oo.
On a aussi que le terme xN sN --+ 0 quand N --+ oo car lim xN = 0 pour
N---+oo
-1 <x< 1 et SN est borné (sN converge car la série 2::~ 0 Un converge).
Soit s = 2::~ 0 ak.
Ainsi quand N --+ oo et lxi < 1, l'égalité (A.4) devient :
00 00
:x; 00
Par hypothèse Sn converge vers s quand n --+ oo. On peut choisir une valeur
E > 0 telle que pour des grandes valeurs den, n >Mon ait lsn- si sE. On peut
73
oo M-1 oc
L anX 11
- s = (1- x) L (sn- s)xn + (1- x) L (sn- s)x 11 •
n=O n=O n=M
oo M-1 oo
1L anxn- si:::; Il- xl L lsn- sllxln +Il- xl L lsn- sllxln,
n=O n=O n=NI
M-1 oo
:::; Il- xl L lsn- sllxln +Il- xl L t:lxln,
n=O n=M
On sait que lxi < 1. On sait aussi que pour 0 < :r < 1, Il -.Tl = 1 -x et que
oo M-1
1 L a 11 :r
11
- si < Il - xl L 18 11 - si + E:. (A.7)
n=O n=O
Quand x ~ 1-, le terme Il- xl est proche de O. Vu que la somme L:~(/ lsn- si
ne dépend pas de :r, elle ne change pas. C'est aussi le cas pour t:. Par conséquent,
quand x~ 1- on peut faire en sorte que Il- xl L:~~(/ lsn- si :::; t:. Alors, quand
x~ 1- on a:
00
Puisque t: est un nombre positif arbitraire, le terme 1 L:~=O anxn -si doit partir
de 0 quand x~ 1-. 0
Définition A.2.2. Un point x = (:.r 1 , :r 2 , ... , :rn) E Rn est dit point stationnaire
pour le problème d'optimisation de f (Définition A. 2.1) s'il existe un paramètre
.X E IR tel que :
a a
- Lg(x, .X) = 0, i = 1. 2, ... , n et D.X Lg(x, .X) =O.
0 X;
Le point (x, .X) est un point stationnaire pour la fonction Lg. Ainsi pour déterminer
les extrémums de la fonction f sous la contrainte h(x) = 0, la première étape
consiste à chercher ce point stationnaire.
C
On note cette convergence par Xn ---t X.
IP(w E n1 n---+oo
lim Xn(w) = X(w)).
" (k)
~ PjJ < oost. "~ Pii(k) < oo.
k<::O k<::O
dire que j est récurrent nul, et inversement par symétrie. Par conséquent i est
récurrent positif si et seulement si i est récurrent positif.
CODES MATLAB
1 function X= SimulMarkov(n,P,XO)
2 %fonction donnant l'estimation d'une matrice de transition
3 % P est la matrice de transition de la chaîne de Markov
4 % n est le nombre d'observation à simuler
5 % X est le vecteur contenant n observations simulées d'états de
e % la chaîne de Markov de matrice de transition P
24 for j =1 : s
2s if (r < Q (X ( i ) , j)) %Si r plus petit que la proba . cumulée
26 X (i+1 ) j; %on fixe le prochain état à simuler
27 break ; % sortir de la boucle contenant le if
28 end
29 end
30
31 end
32 rng (fix ) ;
33
38 ri=sum (rij , 2 ) ; %Somme sur les colonnes de {r_ij}, ce sont les r_i .
39
40 for i =1 : s
41 Pe(i , :)= ri j( i , :) /ri ( i) ; %Calcul de l ' EMV
42 riP(i , :) =ri ( i ) *P (i ,: ) ;
43 end
<14
<15
79
46 for j=l : s
47 %V=( (rij-riP) . - 2 ) . / riP ;
48 Z ( j ) = s um ( ( (ri j ( : , j ) -ri P ( : , j ) ) . - 2 ) . 1ri P ( : , j ) ) ;
49
50 end
51
52 Z= sort ( Z) ;
53 disp ( Z)
54
57
64
70
6 n= l e ngth (A ( 1 , :) ) ;
1 T= l e ngth (0) ;
s forward=zeros (T, n ) ;
9
s %initialisation
6 n =l e ngth (A ( 1 , :)) ;
7 T= length (0 ) ;
s b a ckwa rd = on e s (T, n );
9
15 end
5 %initialisation
6 T=length (0 ) ;
N=length (A ( 1 , : ));
12 ~=zeros (N, T ) ;
13 psi=z e ros (N , T ) ;
14
15 %Initialisation de ~
16 ~ ( : , 1) =B ( : , 0 ( 1 ) ) . *ffiU ' ;
17
23 ps i(j , t )=M;
24 end
2s end
26 [H , M] =Max(<:> (: , T) ) ;
21 proba =H;
28 se qu e nc e = ze ros ( 1 , T ) ;
29 s e qu e nc e ( T) =M;
30 for t = ( T -1 ) : ( - 1 ) : 1
31 s e qu e nc e( t )=psi (sequence (t+1 ), t+1 );
32 end
33 end
14 A2=[0 . 84 0 . 16 ;
15 0 . 2 2 0 . 7 8] ;
16 B2 = [ 0 .1 7 0 . 4 9 0 . 34 ;
17 0 . 5 0 . 09 0 . 41] ;
84
18 mu2= [ 0. 65 0 . 35] ;
19
30 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
31
3 83=[0 . 19 0 . 45 0 . 36 ;
39 0 . 29 0 . 20 0 . 51;
40 0 . 91 0 . 0 6 0 . 0 3] ;
41
obs.
51
52 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
53
'
J.-F. DANTZER: Mathématiques pour l'agrégation interne. Analyse ct probabilités.
2007.
P. WHITTLE : Sorne distribution and moment formula for the markov chain.
Journal of the Royal Statistical Society, Serie B. 17, p. 235-242, 1955.