0% ont trouvé ce document utile (0 vote)

69 vues102 pages

Université Du Québec Montréal

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

69 vues102 pages

Université Du Québec Montréal

Transféré par

Radhia Mohamed

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

UNIVERSITÉ DU QUÉBEC À MONTRÉAL

MODÈLES DE MARKOV CACHÉS

MÉMOIRE

PRÉSENTÉ

COMME EXIGENCE PARTIELLE

DE LA MAÎTRISE EN MATHÉMATIQUES

(STATISTIQUE)

PAR

JEAN-BAPTISTE VOUMA LEKOUNDJI

SEPTEMBRE 2014
UNIVERSITÉ DU QUÉBEC À MONTRÉAL
Service des bibliothèques

Avertissement

La diffusion de ce mémoire se fait dans le respect des droits de son auteur, qui a signé
le formulaire Autorisation de reproduire et de diffuser un travail de recherche de cycles
supérieurs (SDU-522- Rév.01-2006). Cette autorisation stipule que «conformément à
l'article 11 du Règlement no 8 des études de cycles supérieurs, [l'auteur] concède à
l'Université du Québec à Montréal une licence non exclusive d'utilisation et de
publication de la totalité ou d'une partie importante de [son] travail de recherche pour
des fins pédagogiques et non commerciales. Plus précisément, [l'auteur] autorise
l'Université du Québec à Montréal à reproduire, diffuser, prêter, distribuer ou vendre des
copies de [son] travail de recherche à des fins non commerciales sur quelque support
que ce soit, y compris l'Internet. Cette licence et cette autorisation n'entraînent pas une
renonciation de [la] part [de l'auteur] à [ses] droits moraux ni à [ses] droits de propriété
intellectuelle. Sauf entente contraire, [l'auteur] conserve la liberté de diffuser et de
commercialiser ou non ce travail dont [il] possède un exemplaire.»
REMERCIEMENTS

J'adresse mes remerciements aux personnes qui m'ont apporté du soutien tout
au long de mes études et qui ont contribué à la réalisation de ce mémoire.

D'abord, je tiens à exprimer toute ma reconnaissance à mon directeur de

recherche François Watier. Je le remercie pour tout l'encadrement, l'orientation,
l'aide et les conseils à mon égard.

Aussi, j'adresse mes sincères remerciements à la faculté des Sciences de l'UQÀM

et à tous les professeurs de ma maîtrise en particulier qui m'ont enseigné et m'ont
permis d'acquérir divers outils statistiques. Je remercie également Gisèle Legault
pour le soutien sur f1-TEX lors de la rédaction de ce mémoire.

Je remercie mes très chers parents, mes frères et soeurs, qui ont toujours été là
pour moi et sans qui je ne serai pas là aujourd'hui.

Finalement, je profite de cette occasion pour remercier ma partenaire de vie,

~ora, pour tout ce qu'elle a fait pour moi lors de ma maîtrise. Faire de la recherche
n'est pas toujours une tâche facile. Cependant tu as toujours été là, même pendant
les jours les plus sombres. Merci Nora pour tout ce que tu as fait.
------------------------------------------------------------------- ----------------- ------------
TABLE DES MATIÈRES

LISTE DES FIGURES . . vii

LISTE DES TABLEAUX ix
RÉSUMÉ . . . . . xi
INTRODUCTION 1
CHAPITRE 1
THÉORIE ET INFÉRENCE SUR LES CHAÎNES DE MARKOV À TEMPS
DISCRET . . . . . . . . . . . . . . . . . . . . . . 3
1.1 Préalables des chaînes de Markov à temps discret 3
1.2 Classification des états . . . . . . . . . . . . 10
1.2.1 Caractères récurrents et transitoires . 10
1.2.2 Partition des états . . . . . . . . . . 14
1.3 Distribution stationnaire et théorème ergodique 19
1.3.1 Distribution stationnaire . 19
1.3.2 Théorème ergodique . . . 20
1.4 Inférence sur les chaînes de Markov à temps discret 20
1.4.1 Matrice de dénombrement des transitions d'une chaîne de Markov 21
1.4.2 Estimation par le maximum de vraisemblance (EMV) de la
matrice de transition . . . . . . . . . . . . . . . . . . . . . 23
1.4.3 Test de Khi-deux pour validation d'une chaîne de Markov 27
CHAPITRE II
MODÈLES DE MARKOV CACHÉS À TEMPS DISCRET 29
2.1 Présentation et caractéristiques 29
2.1.1 Notions de base . . . . . 29
2.1.2 Caractéristiques des MMC . 30
2.1.3 Production d'une séquence d'observations par simulation 32
vi

2.2 Les propriétés fondamentales des MMC . . . . . . . . . . . . . . 34

2.2.1 Problème d'évaluation efficace de l'état le plus probable. 34
2.2.2 Décodage de la séquence optimale d'états cachés y(T) ayant
produit la séquence d'observations O(T) . . . . . . . . . . . . 43
2.2.3 Ré[Link] des paramètres du :v!MC afin de maximiser la
vraisemblance de la séquence d'observations O(T) . . . . . . . 48
CHAPITRE III
APPLICATION DES THÉORÈMES ET ALGORITHMES. 55
3.1 Exemple sur 1'inférence dans les chaînes de Markov 55
3.2 Application des algorithmes . . . . . . . . . . . . . 57
3.2.1 Application de l'algorithme Forward-Backward. 59
3.2.2 Application de l'algorithme de Viterbi . . . 61
3.2.3 Application de l'algorithme de Baum-Welch 62
CONCLUSION . . . . . . . . . . . 67
ANNEXE A
MATÉRIAUX PRÉLIMINAIRES. 69
A.1 Notions de probabilités . . . . 69
A.2 Autres notions mathématiques . 71
A.3 Démonstration théorème chapitre 1 75
A.3.1 Preuve du Théorème 1.2.2 . 75
ANNEXE B
CODES MATLAB . . . . . . . . . . . . . 77
B.1 Estimation et convergence en loi de la matrice de transition 77
B.2 Code pour l'Algorithme Forward . 80
B.3 Code pour l'Algorithme Backward. 80
B.4 Code pour l'Algorithme Forward-Backward. 81
B.5 Code pour l'Algorithme de Viterbi . . . . . 82
B.6 Code pour l'Algorithme de Baum-Welch. MathWorks (2014) 83
BIBLIOGRAPHIE . . . . . . . . . . . . . . . . . . . . . . . . . . 87
LISTE DES FIGURES

Figure Page

1.1 Diagramme chaîne de :Markov Exemple 1.1.1 5

1.2 Diagramme chaîne de :Markov Exemple 1.1.2 7

1.3 Diagramme chaîne de :Markov Exemple 1.1.3 9

1.4 Diagramme chaîne de :Markov Exemple 1.2.1 18

2.1 Diagramme MMC Exemple 2.1.1 32

2.2 Trajectoire et sous trajectoire . . 44

3.1 Convergence en loi de l'estimation de la matrice de transition. 57

LISTE DES TABLEAUX

Tableau Page
3.1 Résultats algorithme Forward 59

3.2 Résultats algorithme Backward 60

3.3 Résultats algorithme Forward-Backward 60
3.4 Résultats algorithme de Viterbi • • • • 0
61
RÉSUMÉ

Les modèles de Markov cachés (MMC) connaissent aujourd'hui un grand succès

dans divers domaines d'application. Ils ont été initialement introduits dans la
reconnaissance vocale par Baker (1975) et Rabiner (1989), et plus tard dans des
domaines tels que l'analyse de séquences biologiques par R. Durbin et Mitchison
(1998), l'ingénierie financière par Weigend et Shi (1997) et bien d'autres.

Ils sont utilisés pour modéliser des séquences d'observations qualitatives ou quan-
titatives. La plupart des méthodes d'utilisation et de développement des MMC
ont été développées dans le cadre de la reconnaissance vocale. Par la suite ces
mêmes techniques ont été appliquées et adaptées à d'autres domaines.

Xotre objectif dans ce mémoire est de présenter une vue d'ensemble de la théorie
des MMC à temps discret. Nous exposons les trois problèmes classiques et développons
différents algorithmes susceptibles de les résoudre en effectuant de l'inférence sur
les états du processus.

Les différents algorithmes dont nous traitons sont: l'algorithme Forward-Backward

développé par Rabiner et Juang (1986) pour le problème d'évaluation de l'état le
plus probable de générer une observation particulière, ou "symbole", à un certain
instant défini (évaluation), l'algorithme de Viterbi (1967) pour le problème de
calcul de la trajectoire d'états la plus probable de générer une séquence d'obser-
vations (décodage) et finalement l'algorithme de Baum-Welch traité par Baum et
Eagon (1967) pour la construction d'un modèle adapté aux séquences d'états ou
d'observations à modéliser (apprentissage).

Xous illustrons ensuite ces algorithmes en les appliquants à des exemples plus
démonstratifs .

MOTS-CLÉS : États, séquences, symboles observables, processus de

Markov à temps discret, M:MC, algorithme Forward-Backward,
algorithme de Viterbi, algorithme de Baulm-Welch, inférence.
------------
INTRODUCTION

Les processus stochastiques, notamment markoviens dans notre cas, sont des ou-
tils importants en théorie de probabilités. Ils permettent de modéliser plusieurs
types de phénomènes dans des domaines tels que la génétique des populations ou
l'évolution des cours de marchés boursiers en finance mathématique par exemple.

L'utilisation de tels processus suggère que les états sont les seules observations de
la chaîne. Il serait judicieux de se demander quels types de modèles utilisés dans
des situations où ces états ne sont pas directement observables, mais produisent
des observations particulières ("symboles"). Pour ce fait, on s'intéresse aux MMC
et aux problèmes qu'ils permettent de résoudre.

Tel qu'énoncé plus haut, dans les processus markoviens, les observations sont les
états du processus. Pour les MMC, c'est bien plus complexe. En effet, dans un
MMC on ne peut observer directement les états du processus mais des symboles
générés par les états selon une certaine loi de probabilité. Ainsi, à partir d'une
séquence de symboles, il n'est pas évident de connaître la trajectoire (séquence
d'états) par laquelle est passée le processus. D"où le nom de modèles de Markov
<cachés».

Le premier chapitre de ce mémoire est consacré au rappel sur la théorie des

processus markoviens à temps discrets avec quelques exemples.

Le deuxième chapitre présPnte de manière formelle lPs MMC Pt les trois principaux
problèmes qu'ils permettent de résoudre : l'évaluation du modèle pour expliquer
une séquence de symboles observées, trouver le chemin qui optimise le mieux une
2

séquence de symboles observés et un modèle donné, et enfin la construction d'un

modèle adapté aux séquences d'observations à modéliser.
Dans Cf' rhapitrf'. on f'Xpose le développement mathématique derrière les algo-
rithmes Forward-Backward, de Viterbi et de Baum-Welch permettant de résoudre
les diffPrents problèmes cités plus haut. Xous illustrons également par quelques
exemples.

Enfin, le troisième chapitre est la mise en application de tout ce qui est établi
dans le chapitre 2. Nous utiliserons les algorithmes et applications développés sur
des données réelles obtenues par simulations. Xous illustrons le bon fonctionne-
ment des algorithmes et donnons autant que possible des conclusions à partir des
résultats obtenus.
CHAPITRE I

THÉORIE ET INFÉRENCE SUR LES CHAÎNES DE MARKOV

À TEMPS DISCRET

Les chaînes de Markov sont des suites de variables aléatoires caractérisées par une
aspect particulier de dépendance, qui leur attribue des propriétés singulières et un
rôle important en modélisation. Elles ont été introduites par Andreï Andreïevitch
.Markov (1856-1922) vers 1906. Ce chapitre introduit les principales notions développées
par Taylor et Karlin (1998) sur les chaînes de Markov à temps discret et met l'ac-
cent sur les points essentiels que nous utilisons tout au long de ce mémoire.

1.1 Préalables des chaînes de Markov à temps discret

L'"ne chaîne de Markov est un réseau spécifique de variables aléatoires décrit par
un système dynamique d'états de transitions. Elle respecte les propriétés suivantes
tirées de Howard (1971).

Définition 1.1.1. Soient S un ensemble fini ou dénombrable et X = { Xn}nEN un

processus stochastique à valeurs dans S.
On dit que X est une chaîne de Markov si pour tout n E N, et pour tout
Xo, X!, 0 0 0, Xn+l E s telle que IP'(Xo = Xo, xl =X!, 0 0 0, Xn = Xn) > 0,

(1.1)
4

S est appelé espace d'états.

Remarque 1.1.1. La condition de l\larkov peut aussi s'écrire pour tout m, n EN

et {xi, i EN} à valeurs dans S, sous la forme:

(1.2)

Ainsi, on peut dire d'un processus X qu'il est markovien si son état actuel fourni
toute l'information nécessaire pour connaître son évolution future. Sa distribution
dans le futur étant donné le présent et le passé ne dépend que du présent. On
parle alors d'absence de mémoire.

Définition 1.1.2. Une chaîne de Markov est dite homogène lorsque la probabilité
de transition (2.1) ne dépend pas de n, c'est à dire :

IP(Xn+I = JIXn = i) = IP(XI = JIXo = i), pour tout entier n. (1.3)

L'homogénéité d'une chaîne de Markov précise donc que la probabilité de passer de

l'état i à l'état j reste la même à travers le temps. Ainsi, elle permet de condenser
dans une seule matrice les probabilités de transitions entre deux états quelconques.
La définition 2.1.2 permet alors de caractériser une chaîne de Markov homogène
à l'aide d'une matrice de transition et d'un vecteur d'états initiaux.

Définition 1.1.3. Soit X= {Xn}nEN une chaîne de Markov d'espace d'états S.

Soient ( i, j) E S 2 deu.T états. La probabilité de transition de i à j est notée

PiJ = IP(Xn+I = JIXn = i) = IP(XI = JIXo = i), pour tout entier n. (1.4)

On appelle matrice de transition de la chaîne X, la famille P = {PiJhJES, telle

que 0 ~ PiJ ~ 1 et LjES Pii = 1. Elle est dite stochastique.
5

Remarque 1.1.2. L'expression L:1es Pii [Link] la somme dP tous lPs élémPnts
de la ligne j de la matrice de transition P. Elle vaut 1 pour tout i E S. En effet,
on remarque que :

LPiJ = 2::JP(XI = jJXo = i) = JP(U{XI = j}JXo = i) = 1,

jES jES jES

car ce sont des évènements disjoints.

Exemple 1.1.1. Supposons l'espace d'états S = {1, 2, 3} avec des probabilités de

transitions Pn = P12 = PI3 = 1/3, P21 = O,P22 = P23 = 1/2, P3I = P32 = 0, et
P33 = 1. La matrice de transition est :

1/3 1/3 1/3

P= 0 1/2 1/2
0 0 1

La figure 1.1 est une représentation graphique de la chaîne de Markov définie.

Les états sont représentés par des cercles numérotés et les probabilités de transi-
tions positives par des flèches.

1/3

1/3 (IP1

1/2

Figure 1.1: Diagramme chaîne de Markov Exemple 1.1.1

La loi d 'unf' une chaînf' de l\Iarkov hornog;ène X est détf'rminée par son espace
d'états S, sa matrice de transition P et son vecteur de distribution initiale J1 =

(Jti)iES où l'·i = IP'(Xo = i) pour tout i E S. C'est la probabilité que la chaîne

démarre dans l'état i.
Dansee qui suit, nous considérons que les chaînes de Markov sont homog;ènes à
espace d'états dans S, de matrice de transition P et de loi initiale Jl.

Définition 1.1.4. La matrice de transition à k pas de la chaîne X, notée

p(k) = {p~Jl} pour tout k, nE N et 'i,j ES est la matrice d'éléments:

(1.5)

La notion de "k pas" vient du changement d'états après un certain temps k. Plus
clairement, la matrice de transition à k pas nous donne la probabilité qu'après un
temps k on soit dans l'état j sachant quf' l'on etait initialement dans l'état i.

Propriété 1.1.1. Quelques pmpriétés de la matrice de transition à k pas.

1. 0 :::; P~7) : :; 1 ;
2. I:jES p;J) = 1 pour tout i E S;

Elle est dite matrice stochastique.

Démonstration. La première propriété est immédiate car p~Jl est une probabi-
lité. La preuve de la deuxième propriété se fait de la même manière que dans la
remarque 2.1.1. :

L P~J) = L IP(Xn+k = JIXn = i)

jES jES

= L IP'(Xn+k = j, ~n = i)
jES IP'(Xn = z))
IP'(Xn = i)
=
IP'(Xn = i)
=1
7

car les évènements {Xn+k = j}jES sont une partition disjointe deS et donc :

JP(Xn = i) = L JP(Xn+k = j, Xn = i).

jES

La matrice p(k) nous donne la probabilité d'atteindre l'état j au temps n +k

sachant que la chaîne était à l'état i au temps n.

Exemple 1.1.2. La matrice P -

-
[ a
1-b
1
-al
b
est une matrice stochastique

seulement si 0 ~ a, b ~ 1.

1-b
a~b
1-a

Figure 1.2: Diagramme chaîne de Markov Exemple 1.1.2

Théorème 1.1.1. Pour tout nE N, on a :

p(n) = P". (1.6)

Démonstration. Montrons le théorème par induction.

On peut déjà remarquer que la matrice de transition à un pas n'est autre que la
matrice de transition elle même, soit p(l) = P. La condition est donc vraie pour
n=l.

Supposons que la condition est vraie pour n- 1 ~ 1 et montrons que c'est aussi
le cas pour n :

p(n) = p(n-l)p(l) = pn-lp

=Pn.
8

Le cas n = 0 est trivial. Il est donc nécessaire de pouvoir cakulf'r la puissance d'une
matrice car elle nous permet de déterminer directement la matrice de transition.
0

Théorème 1.1.2. Equation de Chapman-Kolmogorov

Pour tout état i, j ES, pour tout n, m E N et k E [0, n], on a l'égalité

(.n+m) "" (m) (n) (1. 7)

P;j = L Pik Pkj
kES

En notation matricielle, on a p(m+n) = p(m) p(n).

Démonstration. Soient k l'état de la chaîne au temps m. On a

P"// = IP(Xn+m =ji Xo = i)

111

= L IP(Xn+m = j, Xm = kiXo = i)
kES
= L IP(Xn+m =j,Xm ~ k,Xo = i)
kES JP>(Xo = t)
= L JP>(Xn+m = JIXm = k, Xo = i)IP(~m = kiXo = i)IP(Xo = i))
kES JP>(Xo = z)
= L IP(Xn+m = jiXm = k, Xo = i)IP(Xm = kiXo = i)
kES

= L JP>(Xm = kiXo = i)JP(Xn+m = jiXm = k)

kES
_ ""p(m)p(n)
- L ik kj ·
kES

Remarque 1.1.3. Les deux démonstrations précédentes sont effectuées par la

définition d'une probabilité conditionnelle, pour deux évènements A et B d'un
espace de probabilité Taylor et Karlin (1998) :

IP(AIB) = IP(A nB). (1.8)

IP(B)
9

et pour trois évènements A, B et C :

IP(A n BIC) = IP(BIC)IP(AIB n C). (1.9)

Cne interprétation de l'équation de Chapman- Kolmogorov est la suivante : La

probabilité de passer de l'état i à j en n + m pas, revient à calculer les probabilités
d'aller de l'état i à l en m pas et ensuite de l'état l à j en n pas, où l est un état
intermédiaire quelconque.
Étudier une chaîne de Markov peut se réduire à l'étude des propriétés algébriques
de sa matrice de transition.

Exemple 1.1.3. Considérons deux urnes, une de couleur noire contenant 2 boules
noires et 3 boules blanches, et l'autre de couleur blanche contenant 4 boules noires
et une boule blanche. On effectue un tirage avec remise. Après avoir tiré une boule,
on note sa couleur et on la replace dans son urne. La boule suivante est tirée de
l'urne dont la couleur correspond à celle de la dernière boule sortie.
L'espace d'états correspond à la couleur des urnes où sont effectués les tirages.
On a donc S = {1 =Blanche, 2 =Noire}.
La matrice de transition des états est :

p = [1/5 4/5]
3/5 2/5

1/5 3/5

Figure 1.3: Diagramme chaîne de Markov Exemple 1.1.3

La première colonne correspond aux probabilités de rester ou de quitter l'ume

blanche au prochain tirage et la deuxième colonne de rester ou de quitter l'ume
noire au prochain tirage. La pr·ernière ligne corr·espond aux probabilités de tirer
une boule dans l'ume blanche, et la deuxième ligne correspond à tirer une boule
dans l'ume noire.
Notre but est de déterminer la probabilité que la troisième boule soit tirée de l'ume
noir-e sachant que la pr·ernière b01ûe pmvient de l 'urrw blanche. On veut

IP(X3 = NoireiX 1 =Blanche) = IP(X3 = 2IXI = 1) = p~~ ,

on doit commencer par trouver la matrice de transition à deux pas :

13/25 12/25]
p(2) = p2 =
[ 9/25 16/25

La probabilité voulue est : pg) = 12/25.

1.2 Classification des états

Il existe différents types d'états. Leur classification permet de mieux étudier les
propriétés asymptotiques des chaînes de Markov. Maintenant, classifions les états
possibles selon diverses caractéristiquPs.

1.2.1 Caractères récurrents et transitoires

Les définitions qui suivent sont tirées des ouvrages de Taylor et Karlin (1998) et
de Lessard (2013).
11

Définition 1.2.1. Soit i E S, où S est l'espace des états.

1. Un état i est dit récurrent si, IP>(:3n 2: 1, Xn = iiXo = i) = 1. C'est à dire

que la probabilité d'un éventuel retour à l'état i vaut 1, sachant que la chaîne
a commencé à l'état i.
Sinon, on dit que l'état est transitoire;

2. Un état i est récurrent nul si, p; = E[~IXo = i] = oo où R; = min{r :

Xr = i}. Sinon, l'état i est récurrent positif.

Définition 1.2.2. Soient i, j E S et n 2: 1 un entier.

La probabilité du premier temps de passage à l'état j, au n-ième pas, sachant que
le processus démarre à l'état i est définie par :

Jijnl = P(Xn = j, Xk i= j, k = 1, 2, ... , n- 1IXo = i) (1.10)

= P(~ = niXo = i) , n = 1,2, ...

Par convention /;jo) = O.

Proposition 1.2.1. La probabilité !ii d'un possible passage de la chaîne à l'état

j sachant que'elle démarre à l'état i vaut
00

!ij = 2:.: tt). (1.11)

n=l

Démonstration.

!ii= JP>(un possible passage à l'étatjiXo = i)

= JP>( U{le premier passage à 1'état j se fait au temps n} IXo = i)

n=l
:x;

= L JP>(le premier passage à l'état j se fait au temps niXo = i)

n=l
x
= ""'J(n)
L..., 1] •
n=l

0
12

Remarque 1.2.1. On peut donc affirmer qu'un état i est récurrent si fii = l'et
transitoire si !ii < 1.
P ropos1't'1on 1 . 2 . 2 . p our nE ~T
1~, Pij(n) =
'\'n (n-k)J(k)
L....,k=oPjj ij .
En effet si le processus passe de l'état i à l'état j en n pas, on s'intéresse au k-ième
instant où il atteint pour la premièrf' fois l'f>tat j.

Démonstration. Soient i,j E Set l'évènement Zk = {Xk = j} n {Xr =/= j, r =

1. 2, ... , k - 1} pour tout entier k ~ n. On peut alors écrire :

= L JP>(Xn = j, ZkiXo = 'i).

k=O
De l'égalité (1.9) on peut écrire :
n
pg•) = L JP>(Zkl Xo = i)JP>(Xn = JIZk, Xo = i)
k=O
n
= L JP>(Zkl Xo = i)JP>(X" = JIXk = j) (car le processus est markovien)
k=O
n
= """'
~
f(~)p(~-k)
JJ
t) .
k=O
0

La formule de la proposition 1.2.2 permet de calculer de manière récursive les

probabilith Jijnl à partir des probabilités de transitions p~;).
:\!Iaintenant, l'objectif serait d'établir un critère de dépendance entre les probabi-
lités d€' transitions à n pas et celles des premiers temps de passage. Lequel nous
permettra de montrer certaines de leurs propriétés . Pour ce fait, on définie les
fonctions génératrices suivantes pour i,j E S,n EN et 1"'1 < 1 Lévêque (2014).
00
n ( ) _ """' n (n) (1.12)
'ii s - ~ s Pii
n=O
00

Fij(s) = L s" Jij"l. (1.13)

n=O
13

Proposition 1.2.3. Pour tous i, jE S, on a :

(i) ~;(s) = 1 + F;i(s)~i(s);
(ii) ~j(s) = Fi1 (s)Pj 1 (s), si i -::J j.

Démonstration. Preuve du point (i).

x 00 x
~i( s) = L snp~~) = p~fl + L snp~~) = 1+ L snp~~) (car p~f) = 1)
n=O n=l n=l
oo n x n
= 1+ L sn L p~~-k) fi~k) = 1 + L L snp~~-k) fi~k) (proposition 2.2.2 et f;~o) = 0)
n=l k=O n=Ok=O
~ n oo oo
_ 1 + "L...,
-
"L..., s n-kP;;(n-k) s kf(k)
ii
_
- 1 + "L..., "L..., s n-kP;;(n-k) s kf(k)
ii
n=Ok=O k=On=k
00 00
_ 1 + "L..., s kf(k)
- ii
"
L..., s
n-k (n-k)
Pii
k=O n-k=O

Preuve du point (ii).

oo oo n
~j(s) = L snp~j) = L sn L PJ}-k) Jijk) (proposition 2.2.2)
n=O n=O k=O
oo n
= LL sn-kp)j-k) sk fg)
n=Ok=O
00 00

= LL sn-kp);-k) sk J;jk)
k=On=k

Corollaire 1.2.1. Caractères récurrents et transitoires

- Un état i E S est récurrent si et seulement si L:~ 1 p~~) = oo;
- Un état i est transitoire si et seulement si L:~ 1 p~~) < oo.
14

Démonstration. En prenant la limite des expressions (1.12) et (1.13) quand s se

rapproche de 1, on obtient :
x 00

lim1 F·(s)
11 = lim """'snf(n)
L tt
= """'f(n)
L u = f··u = 1 (récurrent)
s----t s----t 1 n=O n=O
00 00
.
11m n ( )
r;; ,.; = l'1m """'
L ,.; n Pii(n) = """'
L Pii(n) ·
s----tl- _.____. 1 - n=O n=O

D'après l'assertion (i) de la proposition 1.2.3, on peut écrire pour i, j E S et

lsl < 1 :

P;; (s) = 1 + F;i (s) P;i (s)

P;;(s)(1- F;i(s)) = 1
1
P;;(s) = 1- Fii(s)

Par conséquPnt lim Pii(,.;) = oo. En invoquant le lemme d'Abel (Théori>mP

.• ----. 1-
A.2.1 en annexe), on en déduit que :
00

L P~7) =
n=O
lim Pii(s) <===>!ii= 1
s----> 1-
00

L P~7) = 00 <===> !ii = 1

n=O

On vient donc de prouver le premier point du corollaire. Le deuxième point n'est

qu'une conséquence du premier. 0

1.2.2 Partition des états

Définition 1.2.3. Soient i et j deux états de S. L'état j est accessible depuis

l'état i, noté i----+ j, si

:3 nE N, p~]l = IP(Xn = JIXo = i) >O. (1.14)

On dit que les états i et j communiquent si ils sont tous deux accessibles l'un de
l'autre. On note i +------+ j.
15

En d'autres termes, on dit que l'état j est accessible depuis l'état i si la probabilité
d'atteindre j en n transitions depuis i est strictement positive .

Définition 1.2.4. La période d'un état i EX notée d(i) est l'entier définie par:

d(i) = PGCD{n ~ 1: p~;l > 0} (1.15)

On dit que i est périodique si d( i) > 1, sinon il est apériodique .

Proposition 1.2.4. La relation +---+ est une relation d'équivalence sur S. Elle
est
- réflexive : i communique avec i ;
- symétrique :Vi, jE S, i +---+ j si j +---+ i;
- tmnsitive: Vi. j, k E S, si i +---+ j et j +---+ k alors i +---+k.

Démonstmtion. Pour prouver cette équivalence, nous devons montrer que la rela-
tion est réflexive, symétrique et transitive.

- réflexivité : p~~) = P(X0 = iiXo = ·i) = 1 > 0 alors i +---+ i;

- symétrie: par définition si i +---+ j alors :lm, n E N tels que p~'j') > 0 et PJ~) > O.
Inversement, on a j +---+ i ;
- tmnsitivité :
Si i +---+ j alors p~;l) > 0 avec n 1 E N,
Si j +---+ kalors PJ~ ) > 0 avec n2 E N.
2

De l'équation de Chapman-Kolmogorov, on a pour k EX

(n 1 +n2) ""' (nl) (n1) > (nl) (n2) > 0

Pik = ~ Pii Ptk - Pii Pjk ·
lEX

Ainsi i +---+ k.

0
16

L'espace d'états S de la chaîne de Markov peut être partitionné en differentes

classe~ d"équivalence. La chaîne est dite irréductible lorsque chacun de ses états
est accessible depuis tous les autres états. Xous verrons par la suite que les états
dans classe irréductible ont les mêmes caractères récurrent et transitoire.

Définition 1.2.5. Soit C Ç X une classe d'états.

1. C est dite fermée si Vi E C, j tj_ Cet n 2: 1, p~j) = 0;

2. C est dite irréductible si Vi, j E C, i f-t j.

Cne classe d'état est clone fermée si aucun état hors d'elle n'est accessible depuis
ses états intérieurs. De plus, une chaîne de Markov est irréductible si elle n'est
formée que d'une unique clast;e fermée.

Théorème 1.2.1. Décomposition de l'espace d'états Irwin {2006}

Par la relation d'équivalence f-t, il existe une unique partition de l'espace d'états
X telle que

(1.16)

où Test une classe um:qucment constitué d'états transitoires ct {Ck}k~I est une
suite de classes irréductibles fermées d'états récurrents.

Démonstmt?:on. Soit {Ck}k~l une suite de classe d'états récurrents pour la relation
f-t.

Montrons que les Ck sont fermées :

On procède par l'absurde. Supposons qu'il existe i E Ck et j tj_ Ck tel que Pij > O.
On a j ne communique pas avec i donc :

IP'(Xn ::1 i, Vn 2: li Xo = i) 2: IP'(Xt =JI Xo = i) = Pij 2: 0

Or i est un état récurrent, ce qui est contradictoire car si i est récurrent alors
:3 n ~ 1 tel que :

JPl(Xn = il Xo = i) = 1

D'où:

P(Xn # i, 'Vn ~li Xo = i) = 0

Ainsi, on vient de prouver que toutes les classes irréductibles d'états récurrents
sont fermées. En outre, puisque la relation +-----+est une relation d'équivalence, on
a directement la partition contenant la classe d'états transitoires T et la suite des
classes irréductibles fermées d'états récurrents.

Remarque 1.2.2. Si l'espace d'états S est fini alors il existe au moins un état
récurrent et tous les états récurrents sont non-nuls.

Théorème 1.2.2. Soient 'i et j deux états dans S. Si i +-----+ j alors

('i) ils sont tous les deux transitoires ou tous les deux récurrents;

(i'i) Dans le cas où les deux sont récurrents, ib sont récurrents nuls ou récurrents
positifs;

(iii) d(i) = d(j), ils ont la même période.

Démonstration. Voir en Annexe A. 0

Exemple 1.2.1. Considérons l'espace d'états X= {1, 2, 3, 4, 5}. Soient la chaîne

de Markov de diagramme et matrice de transition
18

1/2

1/4

~1/2 1/2

Figure 1.4: Diagramme chaîne de Markov Exemple 1.2.1

1/4 1/4 1/2 0 0

1/2 0 0 0 1/2
P= 0 0 0 1 0
0 0 1/2 1/2 0
0 0 1/3 1/3 1/3

La chaîne de markov a trois classes d'états { 1, 2}. {3, 4} et { 5}.

Dans la classe {1, 2}, p 13 = p25 = ~ =!=O. Alors la classe n'est pas fermée, donc
tmnsüoirt:- et périodiqut:- car

d(1) = d(2) = pgcd{n 2: 1: Pl~)> 0 et p~~) > 0} = pgcd{2, 4, 6, 8, ... } = 2.

Dans la classe {3, 4}, on remarque que Vn 2: 1 et Vj tt {3, 4}, p~;) = p~;) =O. Elle
est alors fermét:- sur un nombre d'états fini, donc récurrente positive et apériodique
car

d(1) = d(2) = 1.
19

1
Dans la classe { 5}, P54 -2 i- O. Elle n'est pas fermée, donc transitoire et
apériodique car

d(5) = pgcd{n ~ 1: p~~) > 0} = pgcd{1, 2,3, ... } = 1.

1.3 Distribution stationnaire et théorème ergodique

L'objectif de cette section est de trouver les conditions simples permettant d'ap-
proximer la loi d'une chaîne de Markov {Xn}n~l sur une longue période, plus
clairement sous quelles conditions pourrons nous trouver la limite lim Xn afin de
n-+ao
pouvoir identifier facilement la chaîne.

1.3.1 Distribution stationnaire

Définition 1.3.1. Un vecteur 11' = { 11'i}iEs surS est stationnaire pour la chaîne
de Markov X si
(i) 11'i ~ 0, Vi E S et L:iES 11'i = 1;
(ii) 11'j = L:iES 11'i~i• Vj ES ou en notation matricielle 11' = 7rP.

Cne chaîne de Markov est donc stationnaire sous JP> si pour tout k, n E N, la
distribution du vecteur aléatoire (X1 , X 2 , ... , Xn) est identique à celle du vecteur
(Xk, Xk+b ... , Xn+k)·

Remarque 1.3.1. La stationnarité de cette distribution se voit en itérant l'égalité

de l'assertion (ii), soit '7rP 2 = (7rP)P = 7rP = 1!'. De la même manière, on a
7l'pn =11',

n EN.
20

1.3.2 Théorème ergodique

Cne chaîne de Markov irréductible et apériodique est dite ergodique lorsque tous
ses états sont récurrents positifs et apériodique, et non-ergodique lorsque tous ses
états sont transitoires ou récurrents nuls.
Le théorème qui suit joue un rôle important dans !"étude des chaînes de Markov
pour des très longues périodes( transitions).

Théorème 1.3.1. Théorème ergodique

Soit une chaîne de Markov irréductible et apériodique X = { Xn}n::>t· Alors
1. lim p(n) = fij ·
n--tx •J Pi '
2. Sous les mêmes conditions,
.
l 1m _!_ "'n-1 (n)-
[Link]=O P;J· -
Jij
, pour t ous l es en t"zers z,. .
J dans S .
n--tx n p;

Démonstration. Voir Lessard (2013).

L'étude des points précédents suppose que les matrices de transition sont connues
à l'avance. Cependant, on se pose la question de savoir comment estimer à partir
d'une de ses trajectoires la matrice de transition d'une chaîne de Markov.
Aussi, on se demande comment statuer si la trajectoire que l'on observe provient
bel et bien d'une chaîne de Markov. Nous en discutons dans le point qui suit.

1.4 Inférence sur les chaînes de Markov à temps discret

Cette partie traite de l'inférence basée sur les probabilités pour des chaînes de
~arkov ergodique finies. On discute des méthodes d'estimation des paramètres
d'une chaîne de Markov basées sur les travaux de Billingsley (1960) et de Anderson
et Goodman ( 195 7).
21

1.4.1 Matrice de dénombrement des transitions d'une chaîne de

Markov

Soit l'espace des états S = {1, 2, ... , m} et { Xk, k = 1, 2, ... , n+ 1} un échantillon

provenant d'une chaîne de Markov ayant pour matrice de transition P = {Pij} et
de distribution stationnaire 1r = {1ri}iE8 , pour tous les entiers i et j dans S.
Si a= {a1, a2, ... , an+I} est une séquence de n+1 états dans S, alors la probabilité
que cette séquence corresponde à l'échantillon s'écrit :

JP>(Xi =ai, i ES)= JP>(X1 = at)JP>(X2 = a2IX1 = a1) ... JP>(Xn+l = an+liXn =an)

(1.17)

(1.18)

La première égalité découle de la définition d'un processus markovien vue dans le

chapitre 2.

On définit maintenant la variable Tij qui donne le nombre de fois que la chaîne
fait une transition de l'état i vers l'état j, donc lorsqu'on obtient successivement
xk =i et xk+l = j, pour 1 ~ k ~ n:

rij = L
k=l
ll{xk=i,Xk+l=j} (1.19)

La matrice R = { Tij} sera appelée matrice de dénombrement des transitions de

la séquence a. On a alors :

IP{Xl =al, x2 = a2,. 0

• 'Xn+l = an+d = f..lat IIP~j' (1.20)
i,j

De plus posons ri. = L:j= 1 Tij et T.j = L:: 1 Tij qui correspondent respectivement
aux fréquences des états {a 1 , a2, ... , an} et {a 2 , a 3 •... , an+d· Whittle {1955) a pu
22

Ptablir que :

Ti. - T.i = 8i,a 1 - 8i,an+l . pour tout entier i dans S (1.21)

m m
LTij = LTij = LTij = n ( 1.22)
i.j i=l j=l

où 8ij est le symbole de Kronecker.

L'égalité (1.21) s'interprète à partir de l'égalité (1.19). En effet, de (1.19) on

constate qu'à l'exception de l'état initial a 1 et de l'état final a 71 +1, chaque transition
dans un état i doit être suivie d'une sortie de cet état i. On remarque d'abord
qu'avec probabilité [Link] 1 on est intialement dans l'état a 1 , ensuite avec Pa 1 a2 on
transite de a1 vers a2 mais avec Pa 2 a3 , on sort de l'état a2 pour transiter vers a3

et ainsi de suite jusqu'à la transition finale de an vers a,1+l·

Le théorème suivant est une conséquence des conditions décrites ci-dessus, il a été
prouvé par Whittle (1955). Voir aussi les travaux deBillingsley (1960) pour plus
de détails.

Théorème 1.4.1. Lemme de Whittle.

Soit R = Tij une matrice m x m à composantes entières positives telles que
Li,j Tij = n et Ti. - r.i = 8i,u - 8i,tu i E S pour une certaine paire (u, v).
Si N~~)(R) est le nombre de séquences (a 1 , a 2 , ... , an) avec matrice de dénombrement
R satisfaisant a1 = u et an+l =v, alors

N(n)(R) = R* n m
i=l
.1
r, .. ( 1.23)
uv vu 0·t.J...
r,J.1

où R~u est le (v, u)-ième cofacteur de la matriceR*= {r;) de composantes

(1.24)
23

Démonstration. La preuve se fait par induction. Voir Whittle (1955). 0

Des égalités {1.20) et {1.23), on peut constater que la probabilité qu'une séquence
{xi, x2, ... , Xn+l} ait une matrice de dénombrement R avec état initial xi = u et
état final .Tn+I =v est :

R* TI'?ll=I . 1 II r;
Tl.· 1
Jlu vu TI· . ..l Pij · {1.25)
lJ TzJ. i,j

C'est la formule de Whittle, voir Billingsley {1960), Anderson et Goodman (1957).

Elle permet d'estimer par le maximum de vraisemblance les paramètres pour une
chaîne de Markov finie.

1.4.2 Estimation par le maximum de vraisemblance (EMV) de

la matrice de transition

La probabilité de transition Pi] peut être estimée en maximisant la formule de

Whittle(l.25) tout en gardant les propriétés des probabilités de transition, soient
Pij ~ 0 et L.'f:=I Pij = 1 pour tout entier i dans S. Anderson et Goodman (1957)
Avant de revenir sur la formule (1.25), introduisons d'abord la loi multinomiale
M(n,pi,p 2 , ... ,pm), nE Net m ~ 1 deux entiers. La proposition qui suit, définit
une loi multinomiale et donne l'EMY pour un vecteur aléatoire de loi multino-
miale. Son espace paramétrique s'écrit :
m
{(pi,P2, ··.,pm) E [0, 1]m: .L>i = 1}. (1.26)
i=I

Proposition 1.4.1. Soit X= (XI, X 2 , ... , Xm) un vecteur aléatoire qui suit une
loi multinomiale M(n, Pt. P2, ... , Pm). n E N d'espace paramétrique {1.26), alors,
sa densité de probabilité est :

(1.27)
24

ou' "'m
L..Jj=I x 1 = n.

L 'EMV du vecteur de probabilités p = (p1 , j = 1, 2, ... , m) associé à X est donné

par le vecteur :

p= (Xj .
-;-,J=1,2,
A )
... ,m. (1.28)

Démonstration. La loi multinomiale est une généralisation de la loi binomiale dans

laquelle chaque expérience possède m issues possibles avec la probabilité (1.27).
La preuve suivante est pour l'EMY.
On veut maximiser la vraisemblance ( 1.27), posons :
n! m x
L(pi,P2, ···,pm)= rrm .1 IJP/·
j=IxJ.j=I

On calcule d'abord le logarithme de la vraisemblance :

n! )
l(pi, P2· ... , Pm) = log(L(pi, P2 .... , Pm)) =log ( m 1 + Lm Xj log(pj)·
rrj=l xJ. j=l

Afin de maximiser cette expression, nous devons prendre en considération la

contrainte ~J=I p1 = 1. Celle-ci nous permet de construire la fonction de Lagrange
(Voir Annexe A pour plus de détails) suivante :

Lg(pi, P2, · · · , Pm, À) = f(PI, P2, · · ·, Pn) - À h(PI, P2, · · ·, Pn)

où f(PilP2, ... ,pn) =log (

nj=l
mn! .l) + ~J=I
xJ.
Xj log(pj) ,

h(pi, P2· .. . , Pn) = ~':= 1 Pi - 1 et À est le coefficient de Lagrange.

Ensuite on détermine les points zéros des dérivées partielles par rapport à À et
pi(i = 1, 2 .... , m) :
a x; a m
-a. Lg(pi,P2, ... ,pm, À)=-- À aÀ Lg(pi,P2, ···,pm, À)= LPi- 1
p, Pi j=l
m
X; _ _À= 0
LPi -1 = 0
Pi j=l
m
A ~ A~
~=~oo~=~A LPi = 1
À j=l
25

Or on sait que L:?~ 1 X; = n et L:~ 1 p; = 1 par conséquent,

m m
LXi= [Link]
i=l i=l

X= n.

On obtient finalement l'EV:M de Pi :

Xi
Pi=-,
A .
2 = 2
1, .... , m.
n

Revenons à la formule de Whittle. On laisse de côté les deux premiers facteurs /11,
et R~u car ils ne s'expriment pas en fonction des probabilités Pii· Ils n'ont donc
pas d'influence dans leurs estimations par maximum de vraisemblance. Le terme
qui nous intéresse est alors :

(1.29)

En observant le terme (1.29) on remarque une certaine analogie avec la probabi-

lité fonctionnelle d'une loi multinomiale pour des observations indépendantes. En
effet, on sait que L:~ 1 Tij = Ti., que 0 ~ Pii ~ 1 et que L:j= 1 Pii = 1 pour i E S.
Ce sont les mêmes conditions énoncés dans la proposition 1.4.1, on peut poser
k = m, n = Ti. et xi = Tij. Par conséquent le terme (1.29) représente la proba-
bilité d'obtenir m fréquences (T; 1, T; 2 , ... , rim) dans m échantillon indépendant de
taille Ti. (i = 1, 2, ... , m), pour une famille de lois multinomiales de paramètres
respectifs (P;I,Pi2, ... ,P;m).
Par la proposition 1.4.1, l'EMY de la matrice des probabilités de transition
26

P* = {Pi} }i,jES correspondant à ce type d'échantillon est :

(1.30)

(1.31)

Cet estimateur possède des propriétés asymptotiques importantes décrites par

Billingsley (1960) et Anderson et Goodman (1957), lesquelles sont tirées du rom-
portement des suites {ri.} et {rij}, pour tous les entiers i et j dans S. Ces pro-
priétés pt>rmettent, entre autres, d'établir un test d'ajustement de Khi-deux.

Théorème 1.4.2. Pour tout (i,j) E 5 2 , on a lorsque n---+ oo:

Ti. p.s.
- ..:........t 7r;; ( 1.32)
n
Tjj p.s.
- ..:........t 7r;p;j; (1.33)
n
1 c
y'ii(rij- r;.P;j) ---+ N (0, 1riPij(1- Pij)) (1.34)

Démonstration. Il se démontre à partir du théorème ergodique, voir Dacunha-

Ca.'>telle et Duflo (1993). D

De ce théorème, on déduit les propriétés de convergence de l'EMY p;j.

Propriété 1.4.1. Pour tout (i, j) dans S 2 , on a lorsque n ---+ x

"'* p.s.
P;j ..:........t Pij ( 1.35)

(1.36)

p· (1- p· ))
où r= diag ( l} 1ri •J est une matrice diagonale,

Démonstration. Il se démontre à partir du théorème précédent, voir Darunha-

Castelle et Duflo (1993). D
27

1.4.3 Test de Khi-deux pour validation d'une chaîne de Markov

Le théorf>me que nous allons voir apporte l'information nécessaire pour la vali-
dation d'une chaîne de Markov, Billingsley (1960) et Dacunha-Castelle et Duflo
(1993).
Le résultat qui suit est démontré dans Dacunha-Castelle et Duflo (1993).

Théorème 1.4.3. Soit {Xn}n~l une chaîne de Markov de matrice de transition

P = {Pij} sur un espace S à s éléments qui forme une seule classe de récurrence,
et soit k le nombre de couples (i, j) dans S pour lesquelles Pij > O. On a que :

si tous les Pi) >0

(1.37)
s'il existe au moins unpij =O.

Grâce à la convergence en loi de la statistique (1.37), il est possible d'établir

un test d'ajustement de type x2 sur les probabilités de transition estimées par
maximisation de vraisemblance afin de valider si la suite de variables aléatoires à
l'étude est bel et bien u11e chaine de Markov de matrice de transition P.

Remarque 1.4.1. L'interprétation du nombre de degrés de liberté est la suivante :

il y a k paramètres non-nuls, avec k 2 s vu qu'au moins un coefficient sur chaque
ligne de la matrice stochastique P est non-nul.

Ce chapitre résume les points essentiels dont on a besoin pour entrer dans le vif
du sujet de ce mémoire.
Dans le chapitre suivant nous introduisons un cas particulier des processus mar-
koviens. Il s'agit des modèles de Markov cachés (MMC).
CHAPITRE II

MODÈLES DÈ MARKOV CACHÉS À TEMPS DISCRET

2.1 Présentation et caractéristiques

2.1.1 Notions de base

Certains phénomènes peuvent se décrire adéquatement par des chaînes de Mar-

kov. Cela suppose alors que les états et les probabilités de transition sont bien
connus. Toutefois il est fréquent d'observer une fonction de ces états, et plus
généralement une variable aléatoire associée aux états. On parle alors de Modèles
de Markov Cachés (MMC). On peut les décrire comme des fonctions probabilistes
d'une chaîne de Markov.
Brièvement, un MMC à temps discret peut se définir comme une modélisation
doublement stochastique : un processus dit «caché» parfaitement modélisé par
une chaîne de Markov discrète et un processus observable dont la distribution
dépend des états du processus caché.
Il existe diverses sortes de MMC afin de répondre à plusieurs types de problèmes.
Dans ce mémoire, on s'intéresse particulièrement aux MMC de premier ordre.
Les éléments exposés dans ce chapitre sont, de façon générale, tirés des articles et
des ouvrages suivants :
Rabiner (1989), Rabiner et Juang (1993), Weigend et Shi (1997), Mamon et Elliott
30

(2007) et Bhar et Hamori (2004).

2.1.2 Caractéristiques des MMC

Xous introduisons les caractéristiques des MMC. Pour faire cela, considérons les
éléments notés N, lv!, A, B, Jl et ~, et définie rornme suit :

1. ~ est un ensemble paramètrique;

2. N est le nombre d'états cachés dans le modèle. On note l'ensemble d'états

cachés parS= {S1 , S 2 , ... , SN} et l'état au temps t par Yt;

3. M est le nombre de symboles distincts observables par états. On note ces

symboles par ok où k = 1, 2, ... , M, et l'observation au temps t par 0 1 ;

4. A = {aij} est la matrice de transition des états cachés où

aiJ = IP(Yt+t = SJIYt =Si,~), avec i = 1, 2, ... , N etj = 1, 2, ... , N; (2.1)

5. B = {bs;(ok)} est la matrice de probabilité des observations k dans l'état Si

où

bs; (ok) = IP( Ot = okiYt = Si,~), avec i = 1, 2, ... , Net k = 1, 2, ... , M ;(2.2)

La matrice B contient les probabilités d'observer au temps t le symbole k

sachant qu'au même instant le modèle est dans l'état caché Si;

6. J.L = {[Link]} la distribution de l'état initial du modèle où

[Link] = IP(yt = Sil~), i = 1, 2, ... , N; (2.3)

Ce vecteur contient la probabilité qu'au moment initial (t = 1), le modèle

se trouve dans l'état caché Si.

Un MMC est un quintuplet ~qui se définie par

~ = (N, M, JL, A, B), (2.4)

Soit T le nombre d'observations. On définit respectivement par O(T) = 0 1 0 2 ... Or

et y(T) =YI Y2 ... YT, des séquences d'observations ainsi que d'états cachés pou-
vant être obtenues à partir du modèle ~-

Remarque 2.1.1. La notation des MMC est très souvent réduite au triplet~=
(J.l, A, B) car A est une matrice N x N, et B une matrice N x M.

Exemple 2.1.1. Considérons le modèle À décrit par la figure 2.1. Les symboles
observables possibles sont o1 = I, o2 = II et o3 = III. Nous pouvons voir que
M = N = 3. Supposons que la loi de l'état initial est J.l = {0, 1/2, 1/2} et qu'on
a les valeurs suivantes :

bs1 (!) = 0, bs (II) = 1/2, bs (III) = 1/2;

1 1

bs2 (I) = 1/2, bs2 (Il) = 1/2, bs2 (J II) = 0;

bs3 (I) = 1/2, bs3 (II) = 0, bs2 (III) = 1/2.

On a:

~1~2
1/3 1/3 1/3 1/2
1/21
A= 2/3 0 1/3 et B = 1/2 0 .
2/3 1/3 0 1/2 0 1/2

Générons une séquence d'observations 0(3) = 0 1 0 2 0 3 à partir de ce modèle.

On sait que [Link] = 0, donc le modèle ne peut pas démarrer dans l'état 8 1 .
Choisissons alors aléatoirement entre les états S2 et S3 , et disons que le modèle
s'initialise en S3 . Après, nous devons produire un symbole observable en choisis-
sant au hasard entre I et II (car bs3 (II) = 0, il est donc impossible d'observer II
à partir de l'état caché S 3 ), disons que l'on obtient I.
32

1/3 1 1
(2' 2' 0) 1
!,II, III 1

1 1
(O, 2 ' 2)
1/3

Figure 2.1: Diagramme MMC Exemple 2.1.1

Le couple état-observation obtenu est (S3 , !). En pr-océdant de façon identique,

nous pourrions obtenir la séquence suivante de couples :

La séquence d'observation est 0(3) = (!, II, II).

Notons qu'une autre séquence aurait pu être observée, mais que toutefois dans
notre exemple, elle débuterait par l'observation I.

Il existe un algorithme dans l'article de Rabiner (1989) utilisé pour générer effia-
cement par simulation une séquence d'observations à partir d'un MMC.

2.1.3 Production d'une séquence d'observations par simulation

Pour des valeurs données de N, M, A, B et Ji., le MMC peut être utilisé pour
générer une séquence d'observations O(T) = 0 1 0 2 ... Or de la manière
33

1. Pour i = 1 : N ' choisir aléatoirem ent un état initial YI = si selon la

loi f1. ;

2. définir- t = 1 ;

3. P our k = 1 : M , choisir Ot = OJ..: selon la distri bution des observations

dans l'état Si , c 'est à dire selon b5 ;(k) ;

4. P o·ur t = 1 : T et j = 1 : N , choisir l 'état Y t+l = Si selon les

probabilités de tr-ansitions de l'état S.i , c'est à dire selon aij ;

5. défin·ir t = t + 1; si t < T alor-s 1·etonr- à l'étape 3. S·i non .fin de la

procédur-e.

L'exemple 2.1.1 illustre comment il est possible de générer une séquence d 'obser-
vations à part ir de la distribut iou de l'état irü tial, les probabilités de t ransition et
des observations du modèle. En sit uation réelle, nous n 'observons que les sorties
0(3) = (J , II. II) et devons alors faire de l'inférence sur les états sous-j aceuts
pour que le modèle soit efficace.
Afin de pouvoir exploiter le modèle, t rois problèmes fond amentaux doivent être
résolus, à savoir :

1. l'évaluation de la probabilité d 'observer une séquence de symboles donnée à

partir d 'un modèle ~ ;

2. le décodage de la séquence d 'états optimale susceptible d'avoir générée une

séquence d 'observat ions arbit raire;

3. la réestimation des paramèt res du modèles (modélisat ion) afin de maximiser

la probabilit é d 'observer une séquence d 'observations.

Dans la section 2.2 suivante, on décrit en profondeur ces t rois problèmes et on

donne des méthodes de résolution.

2.2 Les propriétés fondamentales des MMC

2.2.1 Problème d'évaluation efficace de l'état le plus probable

Le premier but de ce principe est de déterminer une manière efficace pour évaluer
la probabilité JP>(O(t)l~) d'observer la séquence O(t) = 0 1 0 2 ... Ot étant donné
le MMC de paramètres~-

Il est primordial de voir que cette probabilité peut s'exprimer sous la forme sui-
vante:

JP>(O(t)l ~) = LJP>(O(t), y(t)l~). (2.5)

La somme est faite pour toutes les séqueiH'es possibles d'états y(t).
Ainsi, nous pouvons évaluer cette probabilité de manière directe en procédant
comme suit:

JP>(O(t)l~) LJP>(O(t), y(t)l~), (2.6)

L JP>(O(t)ly(t), ~) JP>(y(t)l~), (2.7)

avec la séquence d'états y(t) = y1 y2 ... Yt où y1 est l'état initial du modèle.

Evaluons ensuite les probabilités JP>(O(t)ly(t), ~)et JP>(y(t)l~) (2.7). On a:

t
JP>(O(t)ly(t), ~) = II JP>(OjiYj, ~) (2.8)
j=l
t
II byJ(Oj) (2.9)
j=l

by 1 (0r) by2 (02) ... byt(Ot)· (2.10)

La probabilité d'avoir une séquence d'états y(t) peut s'exprimer de la manière

suivante par le théorème 2.2.1 :

IP(y(t)i~) = IP(Y11~) IP(y2IY1, ~) IP(y3IY1, Y2, ~) (2.11)

· · · lP(YtiYb .. ·, Yt-1, ~)

(2.12)

:\"ous pouvons alors réécrire les probabilités de l'égalité (2.7) à partir des expres-
sions (2.10) et (2.12), soit :

IP(O(t), y(t)i~) IP(O(t)iy(t), ~) IP{y(t)l~)

Ainsi en sommant la probabilité conjointe {2.13) sur toutes les séquences d'états
possible y(t), nous obtenons la probabilité d'observer la séquence O(t) étant donné
le modèle (égalité (2.5)).

IP(O(t)l~) = L f..lylbYI(OI) aYIY2bY2(02) ... aYt-IYtbYt(Ot)· {2.14)

YI.t/2, ···•Yt

Cette égalité peut être décrite de façon algorithmique à partir des probabilités
définies dans les caractéristiques des MM C :
{i) Au temps t = 1, le MMC démarre initialement à l'état y 1 avec probabilité f..ly 1
et produit une observation 0 1 avec probabilité by 1 ( 0 1 ) ;

(ii) À l'instant suivant t = 2 , le MMC transite à l'état y2 de l'état précédent y1

avec probabilité ay 1 y2 et produit une observation 02 avec probabilité by2 { 0 2) ;
(iii) La procédure se répète jusqu'à un certain temps t;
(iv) La dernière transition de l'état Yt-1 à l'état Yt se fait avec probabilité ay1 _ 1 y 1

et la production de l'observation finale O, avec probabilité by1 (0,).

Il s'agit là d'un cakul direct de la probabilité IP(O(t)l~). Mais cette façon de

procéder nous mène à des calculs d'ordre exponentiel (T x NT), qui sont très
coûteux en temps de calcul.
Par la suite, nous décrivons un procédé récursif plus astucieux et plus rapide qui
permet réduire le temps dt> cakul de la probabilité (2.5).

Il s'agit de l'algorithme Forward-Backward ou progressif-rétrogressif en français

Rabiner (1989), Miller (2011a). Cette méthode suppose que la distribution initiale
du modèle, les probabilités de transition des états, les probabilités des observations
dam; chaque état sont connues (~connu).

Avant de poursuivre sur cette méthode, nous introduisons d'abord un théorème

sur les probabilités conditionnelles très utile pour la suite. Dantzer (2007)

Théorème 2.2.1. Si n 2: 2 et F1 , F2 , ... , Fn sont des évènements dans l'en-

semble 8' tels que lP ( nz:i Fk) i= 0, alors :

(2.15)

Pour une séquence ordonnée en fonrtion du temps, dans le ras des modèles Mar-
koviens on a :

(2.16)

Démonstration. Remarquons que n~=I Fk nz:i Fk pour tout entier p et n 2: 2

c
tels que 1 :S p :S n- 1 et donc que lP (n~=I Fk) 2: lP ( nz:i Fk) > O. Par conséquent
les probabilités conditionnelles introduites sont bien définies. Avec la définition des
37

probabilités conditionnelles, on peut vérifier :

IP(FI) Q IP(Fp+II k61Fk) = IP(FI) IP(F2IF1) IP(F3IF1 n F2) ... IP ( Fnl :o: Fk)
= IP(F) IP(F1 n F2) IP(F1 n F2 n F3) IP (ni:= 1 Fk)
1
IP(F1) IP(F1 n F2) ... IP (n;::: Fk)

· = IP (n Fk)
k=l

La preuve pour les modèles de Markov est directe, ces modèles étant sans mémoire,
on peut donc écrire pour des séquences ordonnées F 1 , F 2 , ... , Fn :

Méthode Forward

Considérons une séquence donnée d'observations O(T) = 0102 ... Or.

Le but de cette méthode est d'effectuer un calcul progressif (Forward) qui permet
par la suite d'obtenir la probabilité des t premières observations O(t), se terminant
dans l'état Si, i = 1, 2, ... , N.
Soit la quantité at(i) définie par:

at(i) = IP(O(t), Yt = Sil~), t = 1, 2, ... , Teti = 1, 2, ... , N. (2.18)

A l'instant initial, on a la valeur de a 1 ( i) :

a1(i) = IP(O~, Y1 = Sil~) (2.19)

IP(yl = Sil~) IP(OIIYI =Si,~) (2.20)

(2.21)

On remarque que le MMC s'initialise à l'état Si avec probabilité /-Li et produit une
observation 0 1 avec probabilité bs, (OI) (2.21).
38

Ensuite, analysons plus en dPtails la valeur de o: 1+ 1 (j) afin d'en ressortir une
équation récursive :

O:t+l (j) IP'(O(t + 1), Yt+l = S1l~) (2.22)

N
= L IP'(O(t) 1\ Ot+l' Yt = 5;, Yt+l = Sjl~) (2.23)
i=l
N
L IP(O(t), Yt = 5;1~) IP(Ot+l, Yt+l = SjiO(t), Yt =Si, ~)(2.24)
i=l
N
= L O:t(i) IP'(Ot+l, Yt+l = SjiYt = S;, ~) (2.25)
i=l
N
Lat(i) IP(Ot+IIYt+l = S1, ~)IP(Yt+l = S1IYt = 5;, ~) (2.26)
i=l
N
L O:t(i) bs1 (Ot+I) a;1 . (2.27)
i=l

Illustrons les valeurs de o: 1 (i) par un exemple.

Exemple 2.2.1. Reprenons les données de l'exemple 2.1.1. La séquence d'obser-

vations était 0(3) = (!, II, II). Calculons o: 1 (i), avec t = 1, 2, 3 et i = 1, 2, 3.
À l'instant initial t = 1 pour chaque état 5 1, 5 2, et 5 3 :

n1(1) = 1P'(01 = l, YI= S1l~) = J-L1 * bs1 (!) = 0 * 0 = 0;

o:I(2) = 1P'(01 = 1, YI= S2l~) = J-L2 * bs2 (I) = 1/2 * 1/2 = 1/4;

o:I(3) = IP'(01 = 1, YI= 531~) = /-l3 * bs3 (I) = 1/2 * 1/2 = 1/4.

Aux instants t = 2 et t =3 pour chaque état 5 1 , 5 2 , et S3 :

3
o:2(1) = Z.:o:I(i)*bs 1 (02)*a;I
i=l
o:I(1) * bs1 (! I) *an+ o:I(2) * bs1 (II)* a21 + o:I(3) * bs1 (II)* a31
0 * 1/2 * 1/3 + 1/4 * 1/2 * 2/3 + 1/4 * 1/2 * 2/3

n2(1) 1/6.

De la même manière on obtient :

P ar cette méthod e progressive, en sommant la quantité a t(i) à chaque état Si , on

obtient la proba bilité de n 'observer que la séquence O(t) compte tenu du MMC
de paramètre À.

N
L at(i) = IP(O(t) 16). (2.28)
i= l

De toute cette analyse, on comprend donc que l'algorit hme Forward donne deux
informations , à savoir at(i) et P(O(T) I6). Résumons les étap es de cette méthode :

Algorithme Forward

1. Pour i = 1 : N (croissant) , faire

a1(i) =/-Li bs;(OI);

2. Pour t = 1: T - 1, faire
Pour j = 1 : N, faire
at+1(i) = [2:~ 1 at(i) aij] bsj(Ot+l);
Fin Pour
Fin Pour
Fin Pour

3. Finalisation

féthode Backward

Soit la quantité rétrogressive (Backward) f3t(i) définie par :

f3t(i) = IP(Ot+lrl Yt =Si, 6) , t = T - 1, T- 2, ... , 1, (2.29)

où Ot+l :T = o t+l o t+2 . . . Or.

f3t(i) est la probabilité d 'observer la séquence partielle ultérieure Ot+l r , sachant
que le MMC dé paramètre 6 ét ait dans l'état Si à l'instant t .
40

Contrairenwnt à la méthode précédente, la valeur de /31 ( i) à l'échéance est ar bi-

trairement choisie :

!3r('i) = 1. (2.30)

Rappelons que les seules observations données sont 0 1 , 02, ... , Or et que la pro-
babilité j3t(i) n'est définie que pour des temps discrets strictement inférieurs à
notre échéance T. Cela peut nous aider à justifier ce choix.
De même que pour la variable progressive, la transformation de la probabilité
conditionnelle j31 (i) que nous traitons ci-dessous permet de retrouver une forme
récursive rétroactive :

f3t(i) = JPl(Ot+l :Tl Yt = S;. ~)

N
= L JPl(Ot+l :T, Yt+l = Sjl Yt = S;, ~)
j=l
N
= L JPl(Ot+l A Ot+2:T, Yt+l = Sjl Yt = S;, .X)
j=l
N
=L IP'(Yt+l = SjiYt = S;, ~) JPl(Ot+2:TIYt+l = Sj, Yt = S;, ~)
j=l

N
= L P(Yt+l = Sjl Yt = S;, ~) JPl(Ot+2:TIYt+l = Sj, ~)
j=l

N
= L:aij !3t+I(j) bs (0t+1). 1
(2.31)
j=l

On illustre les valeurs de j31 ( i) par un exemple.

Exemple 2.2.2. On considère les données de l'exemple 4.1.1. On a la séquence

d'observation 0 (3) = (I, II, II). On évalue les valeurs de /31 ( i) pour t = 1, 2, 3
et i = 1, 2, 3.
41

À l'échéance t = 3 pour chaque états sl , s2, et s3 :

,83 (1) = 1

,83(2) = 1
,83(3) = 1

Aux instants t 2 et t 3 pour chaque états S1 , S2 , et S 3 , on obtient par

récursion :
3
,82(1) L_ ,B3 (j) * bs1(03) * a1j
j= l

,83 (1) * bs (II ) *au+ ,83 (2) * bs (II ) * a12 + ,83(3) * bs (II) * a13
1 2 3

1 * 1/2 * 1/3 + 1 * 1/2 * 1/3 + 1 * 0 * 1/3

,82(1) 1/3

De la m êm e manière on obtient :

,82(2) = 1/ 3; ,82 (3) = 1/ 2; ,81(1) = 1/ 9; ,81(2) = 1/ 9; ,81(3) = 1/ 6.

On peut dès lors affirmer que l'algorithme Backward ne produit qu'une seule
information, soit .Bt(i) :

Algorithme Backward

1. Pour i = 1 : N , faire
,Br(i) = 1 ;

2. Pour t = T - 1 : ( - 1) : 1 (décroissant) , faire

Pour j = 1 : N, faire

.Bt(i) = Lj=1 .Bt+l(j) a ij bs1 (0t+I) ;

Fin Pour
Fin Pour
Fin Pour.
42

Remarque 2.2.1. L'algorithme Backward est construit similairement à l'algo-

rithme Forward. Cependant, il ne permet pas de calculer directement la probabilité
IP( O(T) 1~)). La différence se voit au niveau des observations dès l'instant initial.
En d'autres mots, dans le cas de l'algorithme Forward la première observation de
la séquence correspond à 0 11 la deuxième à 0 2 , ainsi de suite jusqu'à la dernière
correspondant à Or; alors que pour l'algorithme Backward la première observa-
tion correspond à Or, la deuxième à Or_ 1 , ainsi de suite jusqu'à la dernière qui
correspond à 0 1 .

À partir des quantités a 1 (i) et /31 (i) (des deux algorithmes réunis), on peut cal-
culer la probabilité IP(O(T)I ~) d'observer la séquence O(T) à chaque instant tet
aussi évaluer plus facilement la probabilité 'Yt(i) = IP(y1 = S;IO(T), ~) d'être dans
l'état S; à un certain temps t étant donné la séquence d'observations O(T) et les
paramètres ~· On a :

N N
IP(O(T)I ,\) = LIP(O(T), Yt = S;l ,\) = LlP(O(t), Ot+l:Tl Yt = S;l .-\);
- i=l - i=1 -
N
= LIP(O(t), Yt = S;l ~) IP(Ot+l:TI O(t), Yt = S;, ~);
i=1
N
IP(O(T)I ~) = I.:at('i) f3t(i). (2.32)
i=1

. IP(yt = S;, O(T)I~) a 1 (i) /31 (i)

!t(z) = IP(O(T)i~) = 1
2:~ nt(i) #t(i). (2.33)

Remarque 2.2.2. Les observations sont indépendantes à chaque instant t. Dans

le cas ci-dessus par exemple, la séquence partielle 01+ 1 , 0 1+ 2 , ... , Or ne dépend
pas des observations précédentes 01, 02, ... , 0 1.
L'évaluation de IP(O(T)I.-\) grâce à la procédure forward-backward passe de l'ordre
de calcul T x NT à T x N 2 (Pour N = 3 et T = 100 par exemple, la procédure
réduit l'ordre du nombre de calcul d'environ 1050 à 900). Pour plus de détails voir
43

Rabiner (1989).

- A lgorithme Forward-Backward

1. Appliquer initialem ent les algorithmes Forward et Backward ;

2. Pour t = 1 : T , faire
Pour i = 1 : N , faire
. O:t(i) f3t(i )
"ft(t) = L:~1 o:t(k ) f3t(k) ;
Fin Pour
Fin Pour .

Dans cette partie, nous venons d 'expliquer une méthode efficace pour évaluer la
probabilité d'observer une séquence O(T) à partir d'un MMC de paramètre ~

Cependant , avec cette méthode, il nous est impossible de déterminer une séquence
d'états la plus proba ble pour générer une séquence d 'observations connues.
Dans la section suivante, nous discutons d 'une nouvelle méthode permettant
d'évaluer ce genre de problème.

2.2.2 Décodage de la séquence optimale d 'états cachés y(T)

ayant produit la séquence d 'observations O(T)

Nous cherchons à découvrir dans ce cas la partie cachée du modèle, trouver la

séquence d'états la plus probable d'avoir généré une séquence précise d 'observation
à partir du modèle donné.
Plusieurs critères d 'optimalité peuvent être considérés. Nous verrons que le choix
de ces critères a un impact impotant sur l'estimation de la séquence des états à
trouver.
Plus mathématiquement, notre but est de ·alculer la quantité, Rabiner (1989) et
44

Miller (2011b), argmax JP>(y(T) 1 O(T), ..\).

y(T)
On peut remarquer que :

JP>( O(T), y(T) 1 ~)

argmax JP>(y(T) 1 O(T), ~) (2.34)
y(T) ar~r;)ax JP>( O(T) 1 ~)
= argmax JP>(y(T), O(T) 1 ~). (2.35)
y(T)

Cne approche de résolution de ce problème provient de la programmation dyna-

mique, qui est un mode opératoire algorithmique pour des problèmes d'optimisa-
tion dans un ensemble fini de solutions, mais de grande cardinalité.
En supposant une trajectoire décomposée en plusieurs étapes, l'idée générale est
de prendre une décision optimale à chaque étape pour chaque état possible. C'est
le principe d'optimalité de Bellman ( 1954).
::\ous énonçons particulièrement ce principe car il joue un rôle important dans
l'algorithme qui nous permet de résoudre le problème présenté.

Définition 2.2.1. Notion de sous trajectoire

Étant donné la trajectoire ou ensemble de décision, U(T) = ui u 2 ... ur qui

génère la séquence d'états y(T) = YI Y2 ... Yr, la séquence de décision U(t) =

ui u2 ... Ut, t = 1, 2, ... , T- 1, qui génère la séquence d'états y(t) = YI Y2 ... Yt
est appelée une sous trajectoire de U (T).

Figure 2.2: Trajectoire et sous trajectoire

Proposition 2.2.1. Principe d'optimalité de Bellman {1954)

Toute sous trajectoire d'une trajectoire optimale est elle-même optimale.
De cette façon, si l'ensemble de décision U(T) = u 1 u 2 ... ur générant la séquence

d'états y(T) = YI Y2 ... YT est optimale pour aller de l'état initial YI à l'état
45

échéant YT alors la sous trajectoire U(t) = u 1 u 2 ... 'Ut est optimale pour aller
initialement de l'état y 1 à l'état Yt (Figure 2.2).

Ce principe explique que la solution d'un problème global peut être obtenue en le
décomposant en sous-problèmes plus simples.

:Maintenant, on revient au problème de maximisation de la probabilité en (2.36).

On va développer un algorithme reposant sur le principe d'optimalité de Bellman
appelé algorithme de Viterbi. Viterbi (1967), Omura (1969)
L'algorithme de Viterbi suppose que la séquence d'observations O(T) = 0 1 , 0 2 , ... , Or
et les paramètres du MMC sont connus. On a pour but d'évaluer l'expression
(2.35). Avant cela, introduisons la proposition suivante :

Proposition 2.2.2. Si f et g sont deux fonctions telles que f(a) > 0 pour tout
a, et g( a. b) ~ 0 pour tout a, b alors :

max f(a) g(a, b) = max [!(a) mbax g(a, b)] . (2.36)

a,b a

Démonstration. La fonction f(.) ne dépend pas de b. On peut donc écrire:

max f(a) g(a, b)

b
= f(a) [max g(a, b)],
b

mf}x [m~x f(a) g(a, b) J = mf}x [!(a) m~x g(a, b) J ,

max f(a) g(a, b) =max [!(a) max g(a, b)] .
a,b a b

Soit la quantité 8t(j), j = 1, 2, ... , N, Rabiner (1989), Miller (20llb), définie par

8t(j) = max IP(y(t- 1), Yt = Si, O(t) 1 ~), avect = 1, 2, ... , T. (2.37)
y( t-l)

8t(j) est la probabilité maximale, étant donné le MMC ~de parcourir la séquence
d'états y(t) qui s'achève en S1 au temps t et d'y observer la séquence O(t).
46

Supposons qu'on soit dans les états Si et Si aux instants respectifs t et t - 1.

Développons analytiquement les valeurs de 61 (j), t = 2, 3, ... , T afin d'en ressortir
une formult> récursive :

6t(j) = max IP'(y(t- 1), Yt =Si, O(t) 1 >.)

y(t-1) -

IP'(y(t- 2), Yt.-1 =Si. O(t- 1) 1 ~)

= ma.r
Yt-1
[IP'(yt = SiiYt-1 =Si.>.) IP'(OtiYt =Si,>.)
- -

max IP'(y(t- 2), Yt-1 =Si O(t- 1) 1 >.)]

y(t-2) -

= max
S,
[aij bs1 ( Ot) 61-1 ( i)]

(2.38)

L'égalité (2.36) permet le passage de la deuxième à la troisième égalité. La trans-

formation des probabilités est évidente à partir de la formule (2.16) pour des
processus markoviens.
Détt>rminer l'argument du maximum argma1: 61(j) rt>vient donc à obtenir argmax aii 61_ 1 (i).
~ ~
Cela nous permet de voir que la maximisation à l'instant initial t = 1 est alors
triviale.

L'algorithme s'initialise par la valeur :

61(i) =max IP'(y1 =Si, 01l>.)

S; -

= n~a1: [IP'(y1 = Sil~) IP'(01IY1 =Si,~)]

= m8~x [[Link] bs;(Ot)]

= [Link] bs; (Ot). (2.39)

Xous pouvons considérer que argmax 61 (i) = 0 car aucune séquence d'observa-
s,
tions et d'état, n'est obsPrvablP à l'instant O.
47

Si nous observons la probabilité maximale à l'échéance T, soit 6r(Yr) , on a:

6r(Yr) = max IP'(y(T) , O(T)jÀ).

y(T- 1) -

La maximisation de cette probabilité par rapport à l'état final Yr donne une

approche pour obtenir la valeur rech erchée en (2 .36) ,

max 6r(Yr) =max[ max IP'(y(T) , O(T) jÀ )]

YT YT y(T - 1) -

=max IP'(y(T) , O(T) I/\). (2.40)

y(T) -

Ainsi , en prenant l'a rgument du maximum des 6t(j) pour tous les t= 1, 2, ... , T
et j = 1, 2, ... , N , on obtient la séquence optimale d 'états . Dénotous par 'I/Jt(S1)
cet argument à l'instant t.
On peut dès lors résum er la procédure complète de l'algorithme de Viterbi :

Algorithme de Viterbi
1. Pour i = 1 : N , faire
61 ('i) = [Link] bsi (0 1) et 'I/J1('i) = 0 ;
2. Pour t = 2 : T , faire
Pour j = 1 : N, faire
6t(j) = max
s,
[aii bt- l(i) ] bs;(Ot);
't/Jt(Sj) = ar-gmax [aij 6t- I('i) ]·
S;
Fin Pour
Fin Pour
3. IP'* = max 6r(i) ;
S;
St T = argmax br( i)
. S ,,
Fin Pour
4. Construction de la séquence d 'états.
Pour t = T - 1 : ( - 1) : 1, faire
s~ t = '1/Jt+l (si~ t+1) ;
Fin Pour .
48

La probabilité IP* dans l'étape 3 corrPspond à celle de l'égalité (2.40). Cette étape
permet d'obtenir à la fois, la probabilité maximale et la séquence d'états associée.
Dans les sections 2.2.1 et 2.2.2, nous avons développé des procédures permettant
d'obtenir des séquences d'observations et d'états les plus probables à observer à
partir des pararn!>tres ~ du MMC.
La prochaine section traite du troisième et dernier problème sur les MMC. Nous
voulons cette fois extraire de l'information sur le MMC à partir des observations
données.

2.2.3 Réestimation des paramètres du M~C afin de maximiser

la vraisemblance de la séquence d'observations O(T)

Le but de ce problème est d'optimiser les paramètres du modèle ~ pour mieux

expliquer comment une séquence donnée d'observations survient. Autrement dit,
le but est de trouver le ~ qui maximise la probabilité JP>( O(T) 1 ~).
De façon immédiate et mathématique, maximiser ou minimiser la probabilité
IP( O(T) 1 ~) par rapport à ~ consiste à résoudre l'équation suivante :

a
a-\ JP>(O(T)I ~)=o. (2.41)

La résolution de ce type d'équation est difficile à obtenir, voir impossible en

pratique.
Essentiellement, pour résoudre ce type problème nous devons faire appel à l'algorithme
de Baum- Welch ou l'algorithme EM (Expectation-Maximization),voir Baum et Ea-
gon (1967).
L'objectif de ce dernier étant d'optimiser la vraisemblance d'un modèle probabi-
liste, markovien dans notre cas, Rabiner (1989) et Moore (2005).
49

L'algorithme de Baum- Welch permet d'obtenir ainsi :

.\* = argmax IP(O(T)I ~). {2.42)

- >. -

Il réestime les différents paramètres du modèle, lesquels sont le vecteur de

distribution initiale J.L, la matrice de transition des états A et la matrice de distri-
bution des observations selon les états observables B.
Pour calculer ces nouveaux paramètres, l'algorithme de Baum-Welch se sert de
deux nouvelles matrices de de probabilités que nous dénotons par 8 = {lit (i, j)}
et T = { Vt ( i)} où les coefficients sont définies par :

Ot(i,j) = IP(yt =Si, Yt+I = SiiO(T), ~) {2.43)

'Yt(i) = IP(yt = SiiO(T), ~). {2.44)

Le coefficient Ot( i, j) représente la probabilité selon le modèle de paramètres ~ et

la séquence d'observations O(T) de passer de l'état Si au moment t à l'état Si au
moment t + 1. Le coefficient 'Yt(i) quant à lui, est la probabilité selon le modèle de
paramètres ~ et la séquence d'observations O(T) d'être dans l'état Si à l'instant
t.
À l'aide des probabilités décrites par l'algorithme Forward-Backward, on peut
très vite obtenir les valeurs des coefficients Ot (i, j) et Vt ( i), i = 1, 2, ... , N et
j = 1,2, ... , N.
Pour commencer on peut écrire :

N N
L:ot(i,j) = L:JP(yt =si, Yt+l = SjiO(T), ~),
j=l j=l

N
Let(i,j) = 'YtU). {2.45)
j=l
50

On sait de (2.33) que :

JP>(yt =Si, O(T)I À)

'Yc(i)= JP>(O(T)I~) - '
etc(i) ;3c(i)
JP>(O(T)I À)"

Ensuite, on peut réécrire le coefficient Oc (i, j) comme une fonction des probabilités
vues dans l'algorithme Forward-Backward :

Ot(i. j) = JP>(yt =Si, Yt+l = SjiO(T), ~),

JP>(yt =Si, Yt+l = SJ, O(T)I ~)
JP>(O(T)I~)
JP>(yt =Si, Yt+l = Sj, O(t), Ot+l, Ot+2:rl ~)
JP>(O(T)I~)

Par la définition des probabilités conditionnelles, on peut transformer le numérateur

comme suit:

JP>(yt =Si, Yt+l = Sj, O(T)I ~) = JP>(Ot+d Yt+l = Sj, ~) JP>(y, =Si, Yt+l = Sj, O(t), Ot+2:rl ~),

= bs1 (Ot+d JP>(Ot+2:rl Yt+l = Sj, ~) JP>(yt =Si, Yt+l = S1, O(t)i~),
= bs (Ot+d ;3,+1(j) JP>(Yt+l = Sjl Yt =Si, À)
} - JP>(y, =Si, O(t)l À),
-
= bs1 ( Üt+d ;3t+1 (j) aij Ot ( i). (2.46)

Remarque 2.2.3.

1. La (t + 1)-ième observation dépt>nd uniquement du (t + 1)-iènw état et des

paramètres du modèles;

2. La séquence partielle d'observations Oc+ 2 : r dépend uniquement de l'état

caché à l'instant précédent, soit Yt+l et des paramètres du modèle;

3. L'état caché Yt+l Pst indépendant des ohsPrvations 0 1, 0 2, ... , Ot. Il ne

dépend que de l'information contenue dans !"état actuel Yt et des paramètres
du modèle.
51

On peut également transformer le dénominateur en se basant sur l'expression

(2.46) par :

N N
JP(O(T)IÀ) = L L JP(yt =Sm, Yt+1 =Sn, O(T)IÀ),
- m=1 n=1 -
N N
= L L bsJOt+d .Bt+I(n) amn O't(m). (2.47)
m=1 n=1

À partir des expressions (2.46) et (2.47), on réecrit les valeurs des coefficient 01( i, j)
et "ft(i) par :

(2.48)

(2.49)

On peut interpréter la fréquence relative des transitions à travers l'état Si en som-

mant le coefficient "'t(i) sur les instants t = 1, 2, ... , T- 1 : L.J=-:/ "fr(i). De la
même manière, on peut interpréter la fréquence relative des transitions de l'état
si à l'état sj par la sommation: L.T::/ Bt(i,j).
Ainsi, en allant dans le même sens d'interprétation, la réestimation des trois pa-
ramètres A = {aij}, B = {bs;(k)} et 11 = {lli} du MMC donnant les nouveaux
paramètres que l'on notera ~ = (jl, Â, Ê) est telle que pour i = 1, 2, ... , N et
j = 1, 2, ... , N:

(2.50)

~
.... r-1
L....t=1
. .)
0t (Z,J
aii = .... T-1 ( .) ' (2.51)
L....t=1 "ft z

"T-1 ( ")
b (k) = L....t=1n01 =k "ft z (2.52)
S, "T-1 ( ·)
L....t=1 "ft z

Cne simple interprétation des trois nouveaux paramètres ci-dessus :

(i) L'estimation !li (2. 50) représente le fr équ ence espérée des transitions à travers
l'éta t si a u temps initial t = 1.
(ii) Le coefficient â i j (2. 51) est la proport ion de la fréquence espéree des transitions
de l'état Si vers l'ét at Si.
(iii) Le coefficient bs;(k) (2. 52) représente la proportion du nombre espéré de tran-
sition à traver l'état Si et d 'observer le symbole Ok·

Voici un ré umé de ét apes de cette méthode :

Algorit hme de B aum-Welch

1. Appliquer les algorithmes Forward-Backwarâ sur le MMC initial de

paramètres arbitraire que l'on note ~(0) , z = 0;
2. Faire z = z + 1;
3. Pour t = 1 : T , faire
Pour i = 1 : N , faire
Pour j = 1 : N , faire (Calculer sous ~( z ))

et(i, j) ;
Fin Pour
Î t(i) ;
Fin Pour
Fin Pour

4. Calculer les fréq-u en ces espérées

"T - l
L..,t,= 1
et. (.t , J.) et· " T'- 1
L..,t= 1
( .)
Ît t ;

5. R ée stimer les paramètres du modèle

fl = {P,i} , Â = {âij } et Ê = {bs; (k)}. On pose ~( z+ 1) = (fl, Â , Ê) ;

6. R etour à l 'étape 2, tant qu 'il y a augm entation de la pro babilité
JP(O(T)I~( z )) o·u tant q1t 'il y a en cor·e des itérations à faire.
53

Après rt>estirnation des paramètres du modèle, l'algorithme de Baum-Welch com-

mence par réévaluer la vraisemblance avec les nouveaux paramètres du modèle,
soit~. Ensuite, l'algortithme recalcule les opérations de réestimation (2.50, 2.51, 2.52)
avec les paramètres ~tant que la vraisemblance IP(O(T)I ~) n'est pas maximale,
autrement dit, tant que la vraisemblance n'est pas très proche de 1.

Xotons qu'il y a plusieurs réestimations des paramètres, mais que le modèle fi-
nal ou adéquat est sélectionné selon le type de données à l'étude (étape 6 de
l'algorithme). On peut également constater que l'algorithme de Baum-Welch ne
réestime pas le nombre d'états cachés N, ce dernier doit donc être donné.

Pour conclure, à l'issu de ce chapitre, on est capable de définir un M::YIC et

d'évaluer les probabilités des séquences d'observations avant-arrière (Forward-
Backward) en temps discrets a 1(i) et ;31(i). De même, on a pris connaissance
de l'utilité de l'algorithme de Viterbi et de la schématisation de l'algorithme de
Baum-Welch.

Ces méthodes sont mises en pratique au chapitre suivant. On met en application

les algorithmes et les méthodes de calculs vues afin d'illustrer leur fonctionnement
et d'observer des convergences possibles des paramètres estimés ou réestimés vers
les modèles de référence.
CHAPITRE III

APPLICATION DES THÉORÈMES ET ALGORITHMES

Dans la section 3.1 de ce chapitre, nous revenons sur l'inférence dans les chaînes
de Markov, vue au chapitre I. La matrice de transition à l'étude dans cette section
est aussi utilisée à la section 3.2.
À l'exception de cette matrice, il n'existe aucun lien entre les deux sections. Le
choix des données ne s'inscrit pas dans un contexte particulier, il est totalement
arbitraire.

3.1 Exemple sur l'inférence dans les chaînes de Markov

On considère la matrice de transition de probabilité (7 x 7) suivante :

1 2 3 4 5 6 7
1 0.10 0.15 0.30 0.10 0.10 0.15 0.10
2 0.10 0.10 0.20 0.20 0.20 0.05 0.15
3 0.20 0.10 0.15 0.10 0.25 0.10 0.10
(3.1)
pO= 4 0.10 0.15 0.25 0.25 0.10 0.10 0.05
5 0.15 0.10 0.20 0.10 0.15 0.10 0.20
6 0.30 0.20 0.17 0.03 0.10 0.10 0.10
7 0.21 0.12 0.17 0.20 0.10 0.07 0.10

Le but de cet exemple est de montrer que l'estimation par maximum de vraisem-
56

blance (EMV) P* = {.Pii hiES de la matrice de transition d'une chaîne de Markov

converge vers la matrice initiale de transition de probabilité P 0 = {P?i}, i, j E S.
Ou effectue une simulation à partir d'un grand nombre de transition entre les
états (n = 65100).

Après avoir incrémenter n = 65100 fois à partir de l'état initial X 0 = 1, la fonction

SimulMarkov en annexe B.1 nous permet d'obtenir l'estimateur par maximum
de vraisemblance suivant :

1 2 3 4 5 6 7
1 0.0965 0.1494 0.2966 0.1057 0.1006 0.1511 0.1001
2 0.1011 0.1016 0.2036 0.2007 0.1935 0.0463 0.1532
3 0.1983 0.0944 0.1460 0.0992 0.2587 0.1039 0.0995
(3.2)
P*= 4 0.0973 0.1445 0.2528 0.2477 0.1107 0.0990 0.0480
5 0.1505 0.1014 0.2007 0.1027 0.1486 0.0970 0.1991
6 0.2966 0.2030 0.1689 0.0300 0.0984 0.1000 0.1031
7 0.1985 0.1265 0.1732 0.2005 0.1001 0.0723 0.1289

On peut voir qu'il y a effectivement une forte convergence de la matrice estimée

P* vers la matrice originelle P 0 . Nous avons également caculé la statistique de test
d'ajustement pour la validation de la chaîne de Markov, on a obtenu Z = 48.6289.

Au niveau 5% la statistique de test Z = 48.6289 < X~%, 42 = 58.1240, on ne peut

donc pas rejeter l'hypothèse nulle selon laquelle l'EMY de la matrice de transition
P* est égale à la matrice de transition initiale du modèle P 0 . La Figure 3.1
illustre bien la convergence en loi de la matrice estimée. La convergence n'est pas
parfaite mais assez bien représentative. Le degré de liberté de la Khi-deux ici vaut
42 car tous les P?J de la matrice de transition initiale sont strictement positifs.
Étant donné que l'espace d'états est de taille 7, alors le degré de liberté de la
Khi-deux vaut m(m- 1) = 7 * 6 = 42 (voir Théorème 1.4.3).
57

Convergence en loi de l'estimation de la matrice de transition

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1 - - loi du Khi-deux(dl=42)

o ~~L_
0 2
__ L___L___
4 6
- - Répartition empirique de Z
L_==~==I===~==~~
8 10 12 14 16 18

Figure 3.1: Convergence en loi de l'estimation de la matrice de transition

Ainsi s'achève l'exemple sur l'inférence dans les châines de Markov . À présent,
nou allon voir des exemples sur les algorithmes.

3.2 Application des algorit hmes

Maintenant notre objectif ici est de mettre en application les différents algorit hmes
vus au chapitre II via le langage MATLAB.
On considère la matrice de transition des états A = P 0 , ou P 0 est la matrice
donnée dans l'exemple précédent. On suppose que les états i (i = 1, 2, ... , 7)
peuvent générer des symboles (des lettres) ob ervables U, V, W, X et Y (U =
1, V = 2, W = 3, X = 4, Y = 5). On suppose aussi que l'information que nous
avons indiqué une corrélation entre les lettres ob ervables et le états i.
58

Enfin, on suppose la relation probabiliste entre les lettres et les états suivants :

u v w x y
1 0.2 0.3 0.1 0.15 0.25
2 0.15 0.25 0.35 0.05 0.2
3 0.09 0.24 0.12 0.21 0.34
(3.3)
B= 4 0.28 0.15 0.21 0.17 0.19
5 0.17 0.08 0.22 0.23 0.3
6 0.22 0.18 0.15 0.25 0.2
7 0.12 0.22 0.36 0.15 0.15

Pour ce système, l'espace d'états est S = {1,2,3.4,5,6. 7}. La transition d'un

état à un autre est un processus markovien d'ordre 1 car l'état suivant dépend
uniquement de l"état courant et les probabilités (3.1) sont fixes. Toutefois les états
du processus sont cachés car il n'est pas possible d'observer directement les états.
:Malgré que les états soient cachés, on peut observer les symboles U, V, W, X et Y.
Grâce à (3.3), les lettres observables nous donnent de l'information probabiliste
sur les états. Le système décrit ici est donc un MMC.
On considère la distribution initiale du modèle arbitrairement choisie :

J1 = [0.15, 0.20, 0.10. 0.15, 0.09, 0.20, 0.11]. (3.4)

On considère pour la suite que le triplet ~ = {Jt, A. B} est connu. Afin de mieux
comprendre et illustrer le comportement des MMC, on applique les trois algo-
rithmes vus dans le chapitre II.
59

3.2.1 Application de l'algorithme Forward-Backward

On génère aléatoirement une séquence de T = 10 symboles via la fonction

hmmgenerate(Taille voulue, A,B) de MATLAB. Nous avons obtenu:

0(10) = UYYW X UWY XY. (3.5)

On évalue les probabilités Forward et Backward séparément par les algorithmes

Forward et Backward basé sur la séquence (3.5). Ces dernières nous permettrons
d'appliquer l'agorithme Forward-Backward. On obtient en exécutant les codes
:MATLAB en annexe B.1 et B.2, les probabilités Forward, Backward des Tableaux
3.1 et 3.2.

at(1) at(2) at{3) at(4) at(5) at(6) at(7)

t=1 0.0300 0.0300 0.0090 0.0420 0.0153 0.0440 0.0132
t=2 0.0076 0.0053 0.0135 0.0049 0.0070 0.0036 0.0030
t=3 0.0018 0.0011 0.0031 0.0011 0.0022 0.0009 0.0008
t=4 0.0002 0.0005 0.0003 0.0003 0.0004 0.0002 0.0005
t=5 0.0001 0.0000 0.0001 0.0001 0.0001 0.0000 0.0000
t=6 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
t=7 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
t=8 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
t=9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
t=lO 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

Tableau 3.1: Résultats algorithme Forward

f3t ( 1) f3t (2) f3t (3) f3t (4) f3t (5) f3t (6) f3t(7)
t=1 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
t=2 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
t=3 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
t=4 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001
t=5 0.0003 0.0004 0.0004 0.0004 0.0003 0.0004 0.0004
t=6 0.0021 0.0023 0.0021 0.0021 0.0022 0.0021 0.0021
t=7 0.0108 0.0105 0.0107 0.0105 0.0103 0.0105 0.0101
t=8 0.0437 0.0432 0.0442 0.0425 0.0430 0.0390 0.0410
t=9 0.2510 0.2435 0.2500 0.2450 0.2395 0.2435 0.2358
t=10 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

Tableau 3.2: Résultats algorithme Backward

rt(1) /t(2) rt(3) rt(4) rt(5) rt(6) rt(7)

t=1 0.1682 0.1620 0.0499 0.2297 0.0814 0.2394 0.0694
t=2 0.1716 0.1178 0.3069 0.1089 0.1527 0.0792 0.0628
t=3 0.1597 0.1060 0.2743 0.0981 0.2097 0.0801 0.0721
t=4 0.0815 0.2151 0.1222 0.1304 0.1766 0.0666 0.2076
t=5 0.1290 0.0357 0.2475 0.1623 0.1872 0.1219 0.1163
t=6 0.1976 0.1205 0.1046 0.2088 0.1566 0.1291 0.0828
t=7 0.0776 0.2326 0.1321 0.1476 0.1427 0.0751 0.1924
t=8 0.1641 0.1014 0.2881 0.1235 0.1849 0.0645 0.0735
t=9 0.1402 0.0349 0.2493 0.1276 0.2069 0.1427 0.0985
t=10 0.1787 0.1059 0.2786 0.0954 0.1847 0.0834 0.0733

Tableau 3.3: Résultats algorithme Forward-Backward

L'algorithme Forward-Backward obtenu en combinant les rPsultats des Tableaux

3.1 et 3.2 (voir annexe B.3), nous donne l'état le plus probable à chaque position
dans la séquence de symboles. Ou peut par exemple dire que l'état 4 est le plus
probable de générer le symbole initial U de la séquence 0(10) car il a la plus
grande probabilité au temps 1 ("Yl (4) = 0.2297).
Cet algortihme est bien meilleur que de simples suppositions aléatoires pour don-
ner de l'information sur les états et les symboles. Les résultats obtenus sont affichés
dans le Tableau 3.3.

3.2.2 Application de l'algorithme de Viterbi

Dans cette partie, on veut déterminer la séquence d'états la plus probable de

générer la séquence de symbole observale en (3.5). Pour ce fait, on exécute le
code MATLAB en annexe B.5 de l'algorithme de Viterbi qui donne la probabilité
maximale et la séquence d'états correspondante.
::\'ous avons obtenu les résultats suivant :

Séquence d'états y(lO) la plus probable Probabilité maximale

4' 3, 5, 7' 4 '4' 4 '3' 5 '3 8.0056e-13

Tableau 3.4: Résultats algorithme de Viterbi

Pour générer la séquence de symbole 0(10) = UY Y W X U W Y X Y, il est plus

probable de partir initialement de l'état y1 = 4 ensuite d'aller à l'état y2 = 3 , ainsi
de suite, et de finir au temps T = 10 à l'état y10 = 3. La probabilité maximale
peut sembler très petite, cela s'explique par la multitude de séquences d'états de
taille 10 possible (7 10 = 282475249).
62

3.2.3 Application de l'algorithme de Baum-Welch

L'application de l'algorithme de Baum-Welch est un peu plus complexe. Avant de

poursuivre avec les données utilisées précédemment, nous appliquons d'abord cet
algorithme sur des modèles de hase à 2 et 3 états.

1. On considère le modèle initial à 2 états de matrices de transition et d'émission

d'observations (N = 2, M = 3) :

- (0.17 0.49 0.34) .

- (0.84 0.16) , B2-
A2-
0.22 0.78 0.5 0.09 0.41

Notre but est de réestimer les paramètres de ce modèle à partir de l'algorithme

EM. Pour ce fait, à l'aide de la fonction hmmgenerate, on génère une séquence
de symboles grâce au modèle initial. Ensuite on réestime les paramètres du
MMC grâce à la fonction hmmtrain qui détermine les probabilités de transi-
tion d'un Ml\IC à partir d'une séquence de symboles.
Pour mieux présenter les résultats de l'algorithme EM, nous avons réestimé les
paramètres pour 100 et 10,000 observations simulées. On a obtenu les résultats
suivants :

- pour 100 symboles simulf>s

A - (0.8998 0.1002) -A - (0.1923 0.5601 0.2476).

A2- , n2-
0.1302 0.8698 0.5868 0.0424 0.3708

- pour 10,000 symboles simulés

A - (0.8502 0.1498) A - (0.1734 0.4819 0.3447)

A2- , B2- .
0.2309 0.7691 0.5115 0.0716 0.4169

2. On applique similairement au point précédent l'algorithme EM sur un modèle

initale à 3 états de paramètres (N=3, M=3) :

0.12 0.54 0.34) [0.19 0.45 0.36)

Aa = 0.76 0.18 0.06 , Ba= 0.29 0.20 0.51 .
[
0.41 0.33 0.26 0.91 0.06 0.03

On a obtenu les résultats suivants :

- pour 100 symboles simulés

0.0000 0.0129 0.9871) [0.0000 0.6483 0.3517)

Âa = 0.5511 0.4489 0.0000 , Ba = 0.5314 0.0000 0.4686 .
[
0.2249 0.5201 0.2549 0.7581 0.1395 0.1024

- pour 10,000 symboles simulés

0.2407 0.4613 0.2980) [0.0742 0.4905 0.4353)

Âa = O. 7416 0.2174 0.0411 , Ba = 0.4045 0.1259 0.4695 .
[
0.3022 0.2852 0.4125 0.8958 0.0708 0.0334

Grâce à cet exemple, on peut tout d'abord remarquer que les résultats obtenus
sont meilleurs pour 10, 000 simulations, donc les réestimations convergent mieux
lorsqu'il y a plus d'observations. Ensuite, en comparant les modèles à 2 et 3 états,
on remarque une convergence plus précise de celui à 2 états (Â 2 versus Âa et B 2
versus Ba). Nous constatons que pour des modèles à plus de 3 états, les paramètres
réestimés ne convergent que pour de grandes séquences d'observations. Pour mieux
illustrer ceci, nous revenons au modèle à 7 états vu dans les points précédents.

En effet, nous avons essayé par l'éxécution du code en annexe B.6, de réestimer
les paramètres du modèles à partir de la séquence de symboles en (3.5) mais
il semblerait, comme dit plus haut, que pour des modèles à plus de 3 états la
64

convergence ne soit réalisable que pour de longue séquences de symboles. C'est

assez logique, avec un modèle à 7 états et une séquence de 10 observations, estimer
les probabilités de transition des états ou d'émission des observations n'Pst pas
évident (il y a peu d'information).
Les paramètrPs que nous avons essayé d'estimer avec la séquence 0(10) ne
convergeait pas vers les vraies valeurs. Par conséquent, pour pouvoir illustrer le
bon fonctionnement de cet algorithme. nous avons simulé T = 100,000 symboles
observables et effectuer 100 itérations pour l'estimation du modèle, A et B ont
été pris pour matrices du modèle initial. On a obtenu les résultats suivants :

1 2 3 4 5 6 7
1 0.0843 0.1424 0.2923 0.0902 0.1092 0.1715 0.1102
2 0.0862 0.0674 0.2231 0.2150 0.2405 0.0562 0.1115
3 0.1595 0.1057 0.1298 0.0952 0.2844 0.1103 0.1151
(3.6)
Â= 4 0.1122 0.1397 0.2527 0.2713 0.0847 0.0982 0.0411
5 0.1763 0.1431 0.1755 0.0950 0.1082 0.0846 0.2173
6 0.3394 0.2219 0.1670 0.0235 0.0732 0.0840 0.0911
7 0.2083 0.1010 0.1920 0.2119 0.1074 0.0735 0.1058

u v w x y
1 0.1875 0.3557 0.1020 0.1304 0.2243
2 0.1186 0.3016 0.3526 0.0401 0.1871
3 0.0740 0.2535 0.1129 0.2143 0.3452
(3.7)
B= 4 0.3274 0.1078 0.1780 0.1799 0.2069
5 0.1491 0.0566 0.2234 0.2342 0.3366
6 0.2479 0.1152 0.1605 0.3008 0.1756
7 0.1333 0.2043 0.3991 0.1215 0.1419
65

La réestimatiou du vecteur de loi initiale du modèle s'obtient, tel que vu, en

prenant les valeurs 'Yl(i), i E S. On a également compilé à partir de la même
séquence de symboles de tailleT= 100,000, l'algorithme Forward-Backward (celui
qui nous donne les lt(i)). On a obtenu:

{l = [11(1) /1(2) /1(3) /1(4) /1(5) /1(6) 11(7)], (3.8)

= [0.1388 0.1880 0.3360 0.0686 0.0402 0.1242 0.1041]. (3.9)

La convergence des paramètres réestimés vers le modèle initial n'est pas parfaite,
elle reste tout de même considérable. Les valeurs des nouveaux paramètres sont
assez proche des valeurs recherchées.
Il est sûr qu'en simulant une plus grande quantité de symboles, ces paramètres
convergeraient de façon plus évidente. On peut donc dire que la réestimation des
paramètres du MMC par l'algorithme EM nécessite une grande quantité d'infor-
mation surtout pour les modèles à plus de 3 états.
CONCLUSION

Au cours de ce mémoire, nous avons présenté la notion des MMC comme une
extension possible des chaînes de Markov, notion capable d'exprimer des systèmes
de dépendance plus complexes. On a expliqué que cette dépendance vient du fait
que chaque état df' la chaîne est lié à une loi df' probabilité, laquelle permet
d'émettre les symboles.

La compréhension des MMC est simplifiée par la manière dont les paramètres du
modèle sont construits.

Les algorithmes permettant de faire de l'inférence sur les MMC ont été codés
sur MATLAB à partir des formules récursives obtenues dans le développement
du Chapitre 2. Ce qui renforce la flexibilité de la paramétrisation des MMC car
l'indiciation mathématique est légère et la majorité des formules développées sont
souvent réduites à de simples sommes. De cette manière le codage en MATLAB
est beaucoup simplifié.

~ous avons utilisé l'algorithme Forward-Backward et l'algorithme de Viterbi afin

d'évaluer et donner de l'information sur la différence entre les états du modèle à
partir d'une séquence de symboles observés. Grâce aux résultats obtenus dans le
chapitre 3, on a pu voir effectivement qu'à travers le temps, certains états sont
plus probables que d'autres pour générer des symboles.

Finalement, nous avons également pu comprendre le fonctionnement de l'algo-

rithme de Baum-Welch. Ce dernier, qui a été utilisé pour la réestimation et l'ajus-
tement des paramètres du [Link] à partir d'une séquence de symboles observée,
68

a pf'rrnis rlf' <'onstater qu'il dépend fortement rlu nombre rle données (symboles f't
états).
On a pu en Ptfet, illustrer à partir d'une longue séqueuC'e de symboles (100,000
symboles et 7 états), qu'il y a une convergence des paramètres réestimés par cet
algorithme.
ANNEXE A

MATÉRIAUX PRÉLIMINAIRES

Les définitions et les théorèmes présentés et montrés dans cet annexe sont issues
des articles et livres suivants :

Dacunha-Castelle et Dufio (1993), Dantzer (2007), Hairer et Wanner (1996) et

Lessard (2013).

A.l Notions de probabilités

Commençons tout d'abord par donner les notions de mesure et espace de proba-
bilité.

Définition A.l.l. Soit (0, ~) un espace mesumble. La fonction lP : ~---+ [0, 1]

est une mesure de probabilité si

(i) JP>(O) = 1;
(ii) V F E ~. 0 ~ JP>(F) ~ 1, où F est un évènement;
(iii) VF1, F2, F3 , .•. E ~ tels que F; n Fj = 0 si i =1= j, IP(U;~1F;) = L:;~ 1 IP(Fi).

Définition A.1.2. Un espace de probabilité est un triplet (0, ~. JP>) où (0, ~) est
un espace mesumble et lP une mesure de probabilité.

Ensuite, nous introduisons le concept de variable aléatoire.

Définition A.1.3. Soit (0, ~, JP>) un espace de probabilité et (A, A) un espace

mesurable. On appelle variable aléatoire de 0 vers A, toute fonction mesurable X
den vers A.

Maintenant, on introduit la notion de processus stochastique.

Définition A.1.4. Soit (0, 8', JP>) un espace de probabilité. Un processus stochas-
tique est une famille { X 1, t E T} de var·iables aléatoires indexées par un ensemble
d'indice T, définies dans le même espace de probabilités et à valeurs dans un même
ensemble dénombrable S.

Exemple A.l.l. On parle de processus stochastique en temps discret pour T = N

et de processus stochastique en temps continue pour T =IR.

On s'intéresse particulièrement au processus stochastique en temps discret.

Pour finir, on introduit aussi les notions de loi marginale et de loi conjointe.

Définition A.1.5. Loi conjointe et marginale

- Soient X et Y deux variables aléatoires discrètes définies dans un ensemble
dénombrale S donné. La loi de probabilité conjointe p(x, y) est définie pour
chaque paire de nombres (:r, y) par :

p(x, y) = JP>(X =x, Y =y) (A.l)

- Les lois de probabilités marginales de X et de Y respectivement notées Px(x)

et py (y) sont données par :

Px(x) = JP>(X = :z:) = LP(.r,, y) (A.2)

py(y) = JP>(Y =y) = LP(,r,, y) (A.3)

x
Les sommes (1.2) et (1.3) se font pour chaque valeurs possibles de x et de y.
71

Remarque A.l.l. La définition 1.1.5 est valable si les conditions ci-dessous sont
satisfaite :
- p(x, y)> 0;
- L:x L:yp(x, y) = 1.

A.2 Autres notions mathématiques

Théorème A.2.1. Théorème d'Abel en analyse Hairer et Wanner {1996)

Soit f(x) = L:~=O anxn une série entière qui converge pour lxi < 1. Si la série
L:~=O an converge, alors

lim f(x) =Lan. (A.4)

x----+ 1- n=O

En d'autres mots, .si la série converge en x= 1, alors sa valeur en x= 1 est égale

à sa limite lim f(x).
x----+1-

Démonstration. On utilisera la sommation par parties pour deux séquences u 1 , u 2 , ... , UN

et v1 , v2 , ... , VN suivante :

N N-1
L Un(Vn- Vn-1) = (uNVN- ulvo)- L Vn(Uu+l -Un) (A.5)
n=l n=O

Selon l'énoncé du théorème, on suppose que L::'=o anxn converge pour lxi < 1 et
pour x= 1.
Pour prouver (A.4), on travaillera avec les sommes finies L:~=O anx 11 et L:~=O an.
Soit Sn = ao + a1 + ... +an, pour n ~ O. Il est facile de voir que Sn - Sn-I = an,
72

pour n 2: 1. On a alors :

N N
L an.r" = ao + L(8 11 - 8,._ 1 ).rn,
n=O n=l
N
= ao + L(sn- Sn-dUn
n=l
N-1
= ao + UN8N - 1tJ8o- L 8n(Un+l- Un), (par(A.5))
n=l
N-1
= ao + x N SN- xao- "~Sn ( x n+l -x n) , (cars 0 = ao)
n=l
N-1
= ao(1- :r) + J:N.<;N + L S 11 :r
11
(1- .r),
n=l
N-1
= XN SN+ L S11 X11 (l- x). (A.6)
n=O

Par hypothèse le terme à gauche de l'égalité (A.6) converge quand N --+ oo.
On a aussi que le terme xN sN --+ 0 quand N --+ oo car lim xN = 0 pour
N---+oo
-1 <x< 1 et SN est borné (sN converge car la série 2::~ 0 Un converge).
Soit s = 2::~ 0 ak.
Ainsi quand N --+ oo et lxi < 1, l'égalité (A.4) devient :

00 00

L UnX 11 = L SnX 11 (1- x),

n=O n=O
x 00

L UnX 11 - s = L SnX 11 (l- x)- s,

n=O n=O

:x; 00

L: anl: 11 -.., = (1- J:) L:(sn- s):r11 •

n=O n=O

Remarquons par les séries de Taylor que : ( 1 - x) L::=o X 11 = 1.

Le but revient à montrer que lim (1- x) L:~ 0 (sn- s)xn =O.
X---+J-

Par hypothèse Sn converge vers s quand n --+ oo. On peut choisir une valeur
E > 0 telle que pour des grandes valeurs den, n >Mon ait lsn- si sE. On peut
73

partitionner le terme de droite :

oo M-1 oc
L anX 11
- s = (1- x) L (sn- s)xn + (1- x) L (sn- s)x 11 •
n=O n=O n=M

On applique 1'inégalité triangulaire sur les sommes :

oo M-1 oo
1L anxn- si:::; Il- xl L lsn- sllxln +Il- xl L lsn- sllxln,
n=O n=O n=NI
M-1 oo
:::; Il- xl L lsn- sllxln +Il- xl L t:lxln,
n=O n=M

On sait que lxi < 1. On sait aussi que pour 0 < :r < 1, Il -.Tl = 1 -x et que

1- lxi = 1 -x. On peut alors obtenir la borne supérieure suivante :

oo M-1
1 L a 11 :r
11
- si < Il - xl L 18 11 - si + E:. (A.7)
n=O n=O

Quand x ~ 1-, le terme Il- xl est proche de O. Vu que la somme L:~(/ lsn- si
ne dépend pas de :r, elle ne change pas. C'est aussi le cas pour t:. Par conséquent,
quand x~ 1- on peut faire en sorte que Il- xl L:~~(/ lsn- si :::; t:. Alors, quand
x~ 1- on a:

1 L an:rn- 81 :::; E: +ê = 2t:.

n=O

Puisque t: est un nombre positif arbitraire, le terme 1 L:~=O anxn -si doit partir
de 0 quand x~ 1-. 0

~ous définissons maintenant une fonction pour la méthode d'optimisation du La-

grangien
74

Définition A.2.1. Méthode d'optimisation du Lagrangien

Le Lagrangien du problème d'optimisation de f sous la contrainte h(x) = 0 est la
fonction Lg(:r, .X) où (.r, .X)= (.r 1, .r 2 , ... , :r 71 , .X) E JRn+l définie par:

Lg(x, .X) = f(x)- .X h(x). (A.8)

Définition A.2.2. Un point x = (:.r 1 , :r 2 , ... , :rn) E Rn est dit point stationnaire
pour le problème d'optimisation de f (Définition A. 2.1) s'il existe un paramètre
.X E IR tel que :
a a
- Lg(x, .X) = 0, i = 1. 2, ... , n et D.X Lg(x, .X) =O.
0 X;

Le paramètre .X est appelé multiplicateur de Lagrange du point stationnaire x.

Le point (x, .X) est un point stationnaire pour la fonction Lg. Ainsi pour déterminer
les extrémums de la fonction f sous la contrainte h(x) = 0, la première étape
consiste à chercher ce point stationnaire.

Définition A.2.3. Convergence en Loi ( ~)

Soient F1, F 2 , ..• , Fn une suite de fonctions de répartition associée aux variables
aléatoires réelles X 1 , X 2 , .... X~, et F la fonction de répartition associée à la
variable aléatoire X.
La suite {Xn}nEN converge en loi vers X si:

lim Fn(.r) = F(.r), V.r ER

n---+"X.'

C
On note cette convergence par Xn ---t X.

Définition A.2.4. Convergence presque sûrement ( p.s))

Une suite {X,., n E N} converge presque sûrement vers X si la convergence est
vraie avec probabilité 1,

IP(w E n1 n---+oo
lim Xn(w) = X(w)).

On note cette convergence par Xn ~ X.

A.3 Démonstration théorème chapitre 1

A.3.1 Preuve du Théorème 1.2.2

Démonstration. Lessard (2013)

Preuve de l'assertion (i).
Par hytpothèse i, j E S tels que i +------+ j , alors il existe m, n ~ 0 tels que
(m) (n)
et a = Pij Pji >
0 , par d'fi · · de z. - t J. et J. - t z..
e mtwn
D'après les équations de Chapman-Kolmogorov, on a pour tout entier k ~ 0:

(m+k+n) > p~m)p(k)p('_l) = np(k)

Pii - tJ JJ Jt •r JJ ·

En sommant sur tous les k, on obtient :

" (k)
~ PjJ < oost. "~ Pii(k) < oo.
k<::O k<::O

D'après le Corollaire 1.2.1, on a j est transitoire si i l'est aussi. Et ineversement

par symétrie, i est transitoire si j l'est aussi. Par conséquent i récurrent si et
seulement si j est récurrent.

Preuve de l'assertion (ii).

Par l'assertion (i) on sait que si i est récurrent alors j l'est aussi et inversement.
S1. Pii(m+k+n) -
ktoo O ,
t
, d' . , l l (k) ktoo
, c est a 1re que t est recurrent nu, a ors Pjj - t 0 c'est a
,

dire que j est récurrent nul, et inversement par symétrie. Par conséquent i est
récurrent positif si et seulement si i est récurrent positif.

Preuve de l'assertion (iii).

Par les inégalités en (i), si p);l > 0 alors p~;n+k+n) > 0 c'est à dire que m +k +n
est un multiple de d(i), la période de l'état i. Mais alors on a aussi

(2k) > (k) (k) >0

Pii - Pii Pii ,
76

d'où rn+ 2k + n est un multiple de d(i).

Donc k = (rn+ 2k + n) - (rn+ k + n) est un multiple de d( i). Par définition de la
période de j, on a alors d(j) 2: d(i). Inversement , on a d(j) ~ d(i) par symétrie.
On conclut donc que d(j) = d(i). 0
ANNEXE B

CODES MATLAB

Certaines parties de ce code sont inspirées du projet de recherche d'Alneberg

(2011).

B.l Estimation et convergence en loi de la matrice de transition

1 function X= SimulMarkov(n,P,XO)
2 %fonction donnant l'estimation d'une matrice de transition
3 % P est la matrice de transition de la chaîne de Markov
4 % n est le nombre d'observation à simuler
5 % X est le vecteur contenant n observations simulées d'états de
e % la chaîne de Markov de matrice de transition P

s fix=rng; %on utilise 'rng' pour fixer le vecteur aléatoire qui

sera généré
9 s = length(P); %la taille de l'espace d'états de la chaîne
10 Pe=zeros([s,s)); %On initialise la matrice de transition à
estimer Pe
11 rij=zeros ( [s, s));
12 riP=zeros ( [s, s));
13 Z=zeros(l,s);
14
78

15 X zeros (n , 1 ) ; %On initialise le vecteur d ' observations simulées

17 x (1 ) XO ; %On fi xe l ' état initial de l a chaîne à XO

19 Q = cumsum (P , 2 ) ; % Q est la matrice de probabilités de transition

20 % cumulées (elle est obtenue de P )
21 for i=1:n-1
22 r = rand; %r variable aléatoire de distribution uniforme . . .
[0, 1 ]
23

24 for j =1 : s
2s if (r < Q (X ( i ) , j)) %Si r plus petit que la proba . cumulée
26 X (i+1 ) j; %on fixe le prochain état à simuler
27 break ; % sortir de la boucle contenant le if
28 end
29 end
30

31 end
32 rng (fix ) ;
33

34 for i=l : n-1

35 rij (X ( i ) , X ( i+1 ))= ri j(X( i) , X(i+1))+1 ; %On incrément les . ..
transitions
36 end
37

38 ri=sum (rij , 2 ) ; %Somme sur les colonnes de {r_ij}, ce sont les r_i .
39

40 for i =1 : s
41 Pe(i , :)= ri j( i , :) /ri ( i) ; %Calcul de l ' EMV
42 riP(i , :) =ri ( i ) *P (i ,: ) ;
43 end
<14

<15
79

46 for j=l : s
47 %V=( (rij-riP) . - 2 ) . / riP ;
48 Z ( j ) = s um ( ( (ri j ( : , j ) -ri P ( : , j ) ) . - 2 ) . 1ri P ( : , j ) ) ;
49

50 end
51

52 Z= sort ( Z) ;
53 disp ( Z)
54

55 %affichage du graphique pour comparaison du khi-deux et de D_n

ss x=( O: O. Ol : max (Z ) ) ; %axe des abscisses

59 %f=zeros ( l , length (x )); %on initialise le vecteur de khi deux
so %deg r elib= l ength(nonzeros(P))- l ength(non z er o s(P( :, l ))) ; % .. .
degré de freedom
s1 vde grel = 6*ones ( l , length (x )) ; %vecteur de degré de freedom
s2 f=chi2cdf( x , vdegrel) ; % dist ri bution de Khi-deux
63

65 plot (x , f, ' b ' , [O Z],[ O (1/s : l/s : l )], ' r ' )

66 title ( ' Convergence en loi de l' ' estimation de la matrice de . ..
transition ' , . . .
67 ' fon t s ize ' , 10 )
ss legend ( ' Répartition empirique de Z ' , ' loi du Khi-deux(dl=6 ) ' , 4 )
69

11 d i sp (P ) % affichage de la matrice de transition P

12 disp(Pe ) % affichage de la matrice estimée de transition Pe
73 end
80

B.2 Code pour l'Algorithme Forward

1 function [forward]=algoforward (O, A, B, mu )

2 %la fonction algoforward(O , A, B, mu ) évalue les probabilités . ..
forward pour les
3 %séquence d ' observation ' 0 ' à partir du MMC de distribution ...
initiale ' mu ',
4 %de matrice de transitio n ' A ' et de matrice de prob . . . .
d ' observations B .

6 n= l e ngth (A ( 1 , :) ) ;
1 T= l e ngth (0) ;
s forward=zeros (T, n ) ;
9

10 % Calcul les probabilités forward .

I l

12 forward ( l , : ) =mu . * (B (:, O ( l }}} ';

13 for t=2 : T
14 for j =1 : n
1s forward (t ,j }= ( forward (t-l ,:} * (A (: ,j) }) *B (j , O (t }};
16 end
11 end
end

B.3 Code pour l'Algorit hme Backward

1 function [backward] = algobackward (O, A, B}

2 %la fonction algobackward (O, A, B} évalue les probabilités . . .
for ward pour les
81

3 %séquence d ' observation ' 0 ' à partir du MMC de matrice de . . .

transition ' A ' et de %matrice de prob. d ' observations B .

s %initialisation
6 n =l e ngth (A ( 1 , :)) ;
7 T= length (0 ) ;
s b a ckwa rd = on e s (T, n );
9

10 % Calcul les probabilités backward .

11 for t= (T-1 ): (-1 ) : 1
12 x=B (: , O (t+1 ) ) . .. backward (t 1 , : ) ' ;
~ backward (t , :)=A•x ;
14 end
15 end

B. 4 Code pour l'Algorit hme Forward-Backward

2 function [gamma] =algoforwback (O, A, B, mu )

4 %calul des probabilités forward et backward par leur fonction

5 forward =algoforward (O, A, B, mu ) ;
6 backward=a l go b ackward (O, A, B) ;

s %calcu l des diff é r e nt s v e cteurs de probabilité

9 gamma = forward . •backward ;
10

11 f or t=l : length (O)

12 gamma ( t ,: ) =gamma (t , :) 1 ( forward (t ,:) * ( (backward ( t ,: )) ' )) ;
13 end
14
2

15 end

B.5 Code pour l'Algorithme de Vi ter bi

function [ proba , sequ e nce]=algovit e rb i( O, A, B, mu )

2 %La fonction algoviterbi trouve la séquence d ' états la plus
prob a b l e e t %c a lcul e la p lus grande probab i l ité associé e à ...
la séquence ' 0 ' , pour le MMC %de matrice de transition A,
de matrice de prob . des observations B et de %distribution ...
initiale 'mu '
3

5 %initialisation
6 T=length (0 ) ;

N=length (A ( 1 , : ));

g %constr u ctio n d es vect eu rs ~ (i, t) e t psi ( i , t ) où ' i '

correspond à un
w %état dans l ' espace d ' états et ' t ' correspond à un te mps .
Il

12 ~=zeros (N, T ) ;
13 psi=z e ros (N , T ) ;
14

15 %Initialisation de ~

16 ~ ( : , 1) =B ( : , 0 ( 1 ) ) . *ffiU ' ;

1s %calcul des séqu ences ~ et psi

19 for t=2 : T
20 for j=l : N
21 [ H , M] =max ( ~ ( : , t -1 ) ) . *A ( : , j ) ) ;
22 ~( j , t )= H*B ( j , O ( t )) ;
83

23 ps i(j , t )=M;
24 end
2s end
26 [H , M] =Max(<:> (: , T) ) ;
21 proba =H;
28 se qu e nc e = ze ros ( 1 , T ) ;
29 s e qu e nc e ( T) =M;
30 for t = ( T -1 ) : ( - 1 ) : 1
31 s e qu e nc e( t )=psi (sequence (t+1 ), t+1 );
32 end
33 end

B.6 Code pour l'Algorithme de Baum-Welch. MathWorks (2014)

%la fonction hmmgenerate(Seq , Transition , Emission ) est une

3 %fonction MATLAB qui peut génèrerer aléatoirement une
4 %séquence d ' états ou de symboles observable de taille
s %' Seq ' à partir du modèle initiale de matrice de transition
s %' Transition ' et de matrice d ' observations ' Emission '.

8 %la fonction hmmtrain(Obs , Transition , Emission ) est une

g %fonction MATLAB qui permet de réestimer les paramètres
10 %d ' un MMC à partir de la séquence d ' observations ' Obs ' ,
11 %du modèle initiale de matrice de transition ' Transition '
12 % et de matrice d ' observations ' Emissio n ' .
13

14 A2=[0 . 84 0 . 16 ;
15 0 . 2 2 0 . 7 8] ;

16 B2 = [ 0 .1 7 0 . 4 9 0 . 34 ;
17 0 . 5 0 . 09 0 . 41] ;
84

18 mu2= [ 0. 65 0 . 35] ;
19

20 %On simu le 100 et 10000 observations .

21 h2=rng ;
22 Obsl00=hmmgenerate ( l00 , A2 , B2) ;
23 Obsl0000=hmmgenerate ( l0000 , A2 , B2 ) ;
24 rng(h2) ;
25

26 On ré-estime les paramètres du modèles à 2 états.

21 [A 2estiml00 , B2estiml00] =hmmtrain (Obs100 , A2 , B2 ); %100 obs .
2s [A2estiml0000 , B2estim10000]=hmmtrain(Obsl0000 , A2 , B2) ; %10000 obs .
29

30 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
31

32 %Ré-estimation des paramètres du modèles .

33 %à 3 états et 3 observations .
34 f\3=[0 . 12 0 . 54 0 . 34 ;
35 0 . 76 0 . 18 0 . 06;
36 0 . 41 0 . 33 0 . 2 6 l ;
37

3 83=[0 . 19 0 . 45 0 . 36 ;
39 0 . 29 0 . 20 0 . 51;
40 0 . 91 0 . 0 6 0 . 0 3] ;
41

42 %On simule 100 et 1 0000 observations .

43 h3=rng ;
44 Obs3 _100=hmmgenerat e( l00 , A3 , B3 ) ;
45 Obs3 _10000=hmmge nerat e (10000 , A3 , B3 ) ;
46 rng(h3) ;

%On ré -estime les paramètres du modèle à 3 états .

49 [A3estiml00 , B3estiml00] =hmmtrain (Obs3 _100 , A3 , B3 ); %100 obs .
85

5o [A3estim10000, B3estim10000] =hmmtrain (Obs3_10000, A3, 83); %10000 ...

obs.
51

52 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
53

54 On simule 100000 obs.

55 h=rng;
56 Obs=hmmgenerate(lOOOOO,A,B);
57 rng(h);
58

59 %On ré-estime les paramètres du modèle à 7 états.

60 [Aestim, Bestim] =hmmtrain (Obs, A, B);
BIBLIOGRAPHIE

J. ALNEBERG : Movement of a prawn a hidden markov madel approach, 2011.

URL [Link]
pdf.

T. W. ANDERSON et L. A. GOODMAN: Statistical Inference about Markov Chains.

Institute of Mathematical Statistics, 1957.

J. K. BAKER: The dragon system-an overview. IEEE Transactions on Acoustics

Speech and Signal Processing, 23:24-29, 1975.

L. E. BAUM et J. A. EAGON : An inequality with applications to statistical

estimation for probabilistic functions of markov processes and to a madel for
ecology. Bulletin of the American Mathematical Society, 73, Number 3:360-363,
1967.

R. BELLMAN : The theory of dynamic programming. The RAND corporation,

1954.

R. BHAR et S. HAMORI : Hidden Markov Models : Applications to Financial

Economies. Springer, 2004.

P. BILLINGSLEY: Statistical methods in markov chains. Institute of Mathematical

Statistics - University of Chicago, p. 14-16, 1960.

D. DACUNHA-CASTELLE et M. DUFLO : Probabilités et Statistiques, Tome 2.

Problèmes à temps mobile. 1993.
88

'
J.-F. DANTZER: Mathématiques pour l'agrégation interne. Analyse ct probabilités.
2007.

E. HAIRER et G. WANNER: Analysis by Its History. Springer-Verlag, New York,

1996.

R. A. HOWARD Dynamic Probabilistic Systems, Volume I : Markov Models.

1971.

M. E. IRWIN: Markovchains, 2006. URL[Link]

Lecture/[Link].

S. LESSARD : Cours de processus stochastiques, 2013. URL http: 1/www. dms.

[Link]/-lessards/[Link].

O. LÉVÊQUE : Markov chains, recurrence, transience, 2014. URL http:

//[Link]/-leveque/Random~Walks/lecture_notes2.pdf.

R. S. MAMON et R. J. ELLIOTT : Hidden Markov Models in Finance. Springer

Science+Business Media, LLC, 2007.

MATHWORKS : hmmtrain, hidden markov model parameter estimates from

emissions, 2014. URL http: 1/wvw .mathworks. fr/fr/help/stats/hmmtrain.
html.

J. W. MILLER : Forward backward algorithm for hmms, 201la. URL http:

//[Link]/watch?v=7zDARfKVm7s.

J. W. MILLER : Viterbi algorithm, 201lb. URL http: 1/wvw. youtube. com/

watch?v=RwwfUICZLsA.

A. W. MoORE : Hidden markov model, school of computer science, carnegie

mellon university, 2005. URL http: 1/wvw. cs. emu. edu/-awm/10701/slides/
hmm14a. pdf.
89

J. ÜMURA : On the viterbi decoding algorithm. IEEE Transactions on Informa-

tion Theory, 15:177-179, 1969.

A. K. R. DURBIN, Sean R. Eddy et G. MITCHISON: Biological Sequence Analysis:

probabilistic models of proteins and nucleic acids. Cambridge University Press,
1998.

L. R. RABINER : A tutorial on hidden markov models and selected applications

in speech recognition. Proceedings of the IEEE, p. 257-286, 1989.

L. R. RABINER et B.-H. JUANG : An introduction to hidden markov models.

IEEE ASSP Magazine, p. 4-16, 1986.

L. R. RABINER et B.-H. JUANG : Fundamentals of Speech Recognition. Prentice

Hall Press, 1993.

H. M. TAYLOR et S. KARLIN: An Introduction to Stochastic Modeling. Academie

Press, 1998.

A. J. VITERBI : Error bounds for convolutional codes and an asymptotically

optimum decoding algorithm. IEEE Transactions on Information Theory, 13:
260 - 269, 1967.

A. S. WEIGEND et S. SHI: Taking time seriously: Hidden markov experts applied

to financial engineering. Proceedings of the IEEE/IAFE, p. 244-252, 1997.

P. WHITTLE : Sorne distribution and moment formula for the markov chain.
Journal of the Royal Statistical Society, Serie B. 17, p. 235-242, 1955.

Vous aimerez peut-être aussi

Chaine de Markov Caché
Pas encore d'évaluation
Chaine de Markov Caché
26 pages
BonDocument - Méthodes Probabilistes - Modèles de Markov Cachés p.1 - 51
Pas encore d'évaluation
BonDocument - Méthodes Probabilistes - Modèles de Markov Cachés p.1 - 51
51 pages
Chaîne de Markov
Pas encore d'évaluation
Chaîne de Markov
51 pages
CM Markov-MISC
Pas encore d'évaluation
CM Markov-MISC
11 pages
Introduction aux Chaînes de Markov
Pas encore d'évaluation
Introduction aux Chaînes de Markov
44 pages
Mathématiques pour la physique - Cours
Pas encore d'évaluation
Mathématiques pour la physique - Cours
293 pages
Cours Markov 21
Pas encore d'évaluation
Cours Markov 21
54 pages
Support Cours MEPS 2022 CM
100% (1)
Support Cours MEPS 2022 CM
8 pages
Optimisation combinatoire : méthodes et algorithmes
Pas encore d'évaluation
Optimisation combinatoire : méthodes et algorithmes
42 pages
Introduction aux chaînes de Markov
Pas encore d'évaluation
Introduction aux chaînes de Markov
78 pages
Chaînes de Markov
Pas encore d'évaluation
Chaînes de Markov
4 pages
Chaînes de Markov Pages 1-92
100% (1)
Chaînes de Markov Pages 1-92
92 pages
(TD11) Optimisation Combinatoire
Pas encore d'évaluation
(TD11) Optimisation Combinatoire
39 pages
Perceptron Python : Code et Explications
Pas encore d'évaluation
Perceptron Python : Code et Explications
8 pages
La Regression Lineaire
100% (1)
La Regression Lineaire
31 pages
Book Python
Pas encore d'évaluation
Book Python
120 pages
Regression Logistique
Pas encore d'évaluation
Regression Logistique
14 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
49 pages
Logique Floue
Pas encore d'évaluation
Logique Floue
10 pages
Processus de MARKOV
Pas encore d'évaluation
Processus de MARKOV
47 pages
La Statistique Bayésienne
100% (1)
La Statistique Bayésienne
8 pages
Chap2 Esperance Conditionneelle
Pas encore d'évaluation
Chap2 Esperance Conditionneelle
29 pages
1 Plandecours - A2019 - 1
Pas encore d'évaluation
1 Plandecours - A2019 - 1
5 pages
Introduction à la Complexité Algorithmique
Pas encore d'évaluation
Introduction à la Complexité Algorithmique
60 pages
Merise SupportMCD
Pas encore d'évaluation
Merise SupportMCD
22 pages
Théorie Bayesienne pour Étudiants Avancés
Pas encore d'évaluation
Théorie Bayesienne pour Étudiants Avancés
2 pages
Rammah2 PDF
Pas encore d'évaluation
Rammah2 PDF
225 pages
Cours Magistral Chaine Markov M1
Pas encore d'évaluation
Cours Magistral Chaine Markov M1
78 pages
ModMarkov - FA - ECC24 (Files D'attente) Etud
Pas encore d'évaluation
ModMarkov - FA - ECC24 (Files D'attente) Etud
60 pages
Automatque
Pas encore d'évaluation
Automatque
72 pages
Cours Python 3
100% (2)
Cours Python 3
155 pages
Mat2720 H16
Pas encore d'évaluation
Mat2720 H16
6 pages
Chapitre 5 - Méthodes de Recherche Locale
Pas encore d'évaluation
Chapitre 5 - Méthodes de Recherche Locale
5 pages
Grand Paris
Pas encore d'évaluation
Grand Paris
188 pages
Feuilletage 576
Pas encore d'évaluation
Feuilletage 576
24 pages
Guyader
Pas encore d'évaluation
Guyader
182 pages
C++ Leçon 9 : Maîtriser les Tableaux et Pointeurs
Pas encore d'évaluation
C++ Leçon 9 : Maîtriser les Tableaux et Pointeurs
13 pages
MEPS Presentation 2020 - 21
Pas encore d'évaluation
MEPS Presentation 2020 - 21
61 pages
Probabilités pour Ingénieurs
Pas encore d'évaluation
Probabilités pour Ingénieurs
59 pages
Condition Doptimalité
Pas encore d'évaluation
Condition Doptimalité
35 pages
Optimisation Combinatoire et Graphes
Pas encore d'évaluation
Optimisation Combinatoire et Graphes
120 pages
Processus Ornstein-Uhlenbeck : Modélisation et Applications
Pas encore d'évaluation
Processus Ornstein-Uhlenbeck : Modélisation et Applications
13 pages
Classification d'Images par Apprentissage Artificiel
100% (1)
Classification d'Images par Apprentissage Artificiel
7 pages
Cours de Maths Appliquees New 1
Pas encore d'évaluation
Cours de Maths Appliquees New 1
70 pages
Rapport Pfe
Pas encore d'évaluation
Rapport Pfe
36 pages
Ellipses Mathematiques Et Statistiques Appliqués Avec Python
Pas encore d'évaluation
Ellipses Mathematiques Et Statistiques Appliqués Avec Python
228 pages
Créez un Modèle Linéaire en ML
100% (1)
Créez un Modèle Linéaire en ML
31 pages
Concours D'accès Master Sécurité: Et Informatique
Pas encore d'évaluation
Concours D'accès Master Sécurité: Et Informatique
7 pages
Étude Logiciels Programmation Linéaire
Pas encore d'évaluation
Étude Logiciels Programmation Linéaire
49 pages
L2 Corrections-Td3 - 2021 - 2022
Pas encore d'évaluation
L2 Corrections-Td3 - 2021 - 2022
2 pages
Métaheuristique Colonie Des Fourmis
100% (1)
Métaheuristique Colonie Des Fourmis
19 pages
Cours Edp
100% (2)
Cours Edp
89 pages
Chaine de Markov Cachee2012
Pas encore d'évaluation
Chaine de Markov Cachee2012
9 pages
Chaînes de Markov à temps discret
Pas encore d'évaluation
Chaînes de Markov à temps discret
21 pages
Chaine de Markov Cachee-3-2
Pas encore d'évaluation
Chaine de Markov Cachee-3-2
12 pages
Chaînes de Markov et Processus de Poisson
100% (1)
Chaînes de Markov et Processus de Poisson
45 pages
Récursivité en Mathématiques Appliquées
Pas encore d'évaluation
Récursivité en Mathématiques Appliquées
103 pages
Tipe
100% (1)
Tipe
17 pages
Chaine de Markov
Pas encore d'évaluation
Chaine de Markov
63 pages
Enseignement Informatique au Secondaire
Pas encore d'évaluation
Enseignement Informatique au Secondaire
63 pages
Hizbul Lutf
0% (1)
Hizbul Lutf
11 pages
Culture et Histoire des Lobi en Afrique
Pas encore d'évaluation
Culture et Histoire des Lobi en Afrique
5 pages
4.Sc.C.2 23.24
Pas encore d'évaluation
4.Sc.C.2 23.24
3 pages
Aumonerie College 2023 2024
Pas encore d'évaluation
Aumonerie College 2023 2024
14 pages
Gisements de phosphates au Maroc
100% (2)
Gisements de phosphates au Maroc
24 pages
Le Milieu de Vie1
Pas encore d'évaluation
Le Milieu de Vie1
19 pages
Praxis Note 6 French L'Utilisation Des Proverbes Africains Chiku Malunga Rick James
Pas encore d'évaluation
Praxis Note 6 French L'Utilisation Des Proverbes Africains Chiku Malunga Rick James
16 pages
Arts plastiques et jardins créatifs
Pas encore d'évaluation
Arts plastiques et jardins créatifs
21 pages
Devoir de Modélisation et Calcul Scientifique
Pas encore d'évaluation
Devoir de Modélisation et Calcul Scientifique
3 pages
Ordre Interne
Pas encore d'évaluation
Ordre Interne
4 pages
La Bruyère : Portraits satiriques du XVIIe siècle
Pas encore d'évaluation
La Bruyère : Portraits satiriques du XVIIe siècle
1 page
TP Volume Molaire Partiel
100% (1)
TP Volume Molaire Partiel
6 pages
Patrick Chamoiseau - Une Enfance Créole I
Pas encore d'évaluation
Patrick Chamoiseau - Une Enfance Créole I
112 pages
Leçon 64 - Le Nom Maqŝūr (الاسْمُ الْمَقْصُورُ)
Pas encore d'évaluation
Leçon 64 - Le Nom Maqŝūr (الاسْمُ الْمَقْصُورُ)
4 pages
Cours et horaires électromécanique 2018-2019
Pas encore d'évaluation
Cours et horaires électromécanique 2018-2019
3 pages
TD Mécanique Générale 2023
Pas encore d'évaluation
TD Mécanique Générale 2023
6 pages
Conte
Pas encore d'évaluation
Conte
81 pages
EBOOK Aurelien Barrau Le Plus Grand Defi de Lhistoire de Lhumanite
100% (4)
EBOOK Aurelien Barrau Le Plus Grand Defi de Lhistoire de Lhumanite
64 pages
19 12 14 Chatenay Seminaire Theorique SCN2
Pas encore d'évaluation
19 12 14 Chatenay Seminaire Theorique SCN2
10 pages
Chant de Litanies de Saints by Chœur D'eglise
Pas encore d'évaluation
Chant de Litanies de Saints by Chœur D'eglise
3 pages
L'art subversif de Jean Dubuffet
100% (1)
L'art subversif de Jean Dubuffet
5 pages
Introduction au Management Moderne
Pas encore d'évaluation
Introduction au Management Moderne
97 pages
Youyou Tunisien : Recette Facile et Rapide
Pas encore d'évaluation
Youyou Tunisien : Recette Facile et Rapide
1 page
Infarctus Mésentérique : Symptômes et Traitement
Pas encore d'évaluation
Infarctus Mésentérique : Symptômes et Traitement
4 pages
Stratégies RH et Éthique en Entreprise
Pas encore d'évaluation
Stratégies RH et Éthique en Entreprise
6 pages
Hydroxygène RF Station Dermopro
Pas encore d'évaluation
Hydroxygène RF Station Dermopro
7 pages
Les Quatre Communes du Sénégal
Pas encore d'évaluation
Les Quatre Communes du Sénégal
5 pages
La Gestion en Interculturalité - Cas DECATHLON EL DJAZAIR
Pas encore d'évaluation
La Gestion en Interculturalité - Cas DECATHLON EL DJAZAIR
22 pages