0% ont trouvé ce document utile (0 vote)
26 vues205 pages

Cours

Transféré par

ossebiandouando7777
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
26 vues205 pages

Cours

Transféré par

ossebiandouando7777
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

École Nationale Supérieure de Techniques Avancées

Domaine : Mathématiques et leurs Applications

cours SOD333
Filtrage Bayésien
et Approximation Particulaire

version du 3 octobre 2018

François Le Gland
INRIA Rennes et IRMAR
http://www.irisa.fr/aspi/legland/ensta/
i

Objectif du cours

Le filtrage consiste à estimer de façon récursive un état caché au vu d’observations. Le do-


maine d’application principal est la localisation, la navigation et la poursuite de mobiles, dans
le domaine militaire, mais aussi en robotique mobile, en vision par ordinateur, où il s’agit de
combiner : un modèle a priori de déplacement du mobile, des mesures issues de capteurs, et
éventuellemnent une base de mesures de références, disponibles par exemples sous la forme
d’une carte numérique (modèle numérique de terrain, carte de couverture, etc.).
Le problème de filtrage possède une solution explicite, appelée filtre de Kalman, dans le cas
particulier des systèmes linéaires gaussiens. Dans le cas plus général des modèles de Markov
cachés, des méthodes de simulations efficaces sont apparues récemment, sous le nom de filtrage
particulaire. L’objectif de ce cours est de présenter différents algorithmes de filtrage particulaire,
de les mettre en œuvre dans le cadre de travaux pratiques, et de démontrer quelques résultats de
convergence en utilisant le cadre très général de l’approximation particulaire des distributions
de Feynman–Kac.
ii
Table des matières

1 Introduction 1
1.1 Importance de l’information a priori . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Estimation bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Cadre gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Exemples 15
2.1 Recalage altimétrique de navigation inertielle . . . . . . . . . . . . . . . . . . . . 15
2.2 Suivi visuel par histogramme de couleur . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Poursuite d’une cible furtive (track–before-detect) . . . . . . . . . . . . . . . . . 22
2.4 Navigation en environnement intérieur . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Filtrage de Kalman 29
3.1 Systèmes linéaires gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Lisseur de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4 Extensions aux systèmes non–linéaires 45


4.1 Filtre de Kalman linéarisé, filtre de Kalman étendu . . . . . . . . . . . . . . . . . 46
4.2 Filtre de Kalman unscented . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5 Au–delà des systèmes linéaires gaussiens 55


5.1 Systèmes non–linéaires à bruits non–gaussiens . . . . . . . . . . . . . . . . . . . . 55
5.2 Modèles de Markov cachés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3 Chaı̂nes de Markov à paramètres markoviens . . . . . . . . . . . . . . . . . . . . 60
5.4 Chaı̂nes de Markov partiellement observées . . . . . . . . . . . . . . . . . . . . . 62

6 Borne de Cramér–Rao a posteriori 67

iii
iv TABLE DES MATIÈRES

7 Filtrage bayésien 73
7.1 Modèles de Markov cachés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.2 Chaı̂nes de Markov partiellement observées . . . . . . . . . . . . . . . . . . . . . 78

8 Généralisation : distributions de Feynman–Kac 85


8.1 Modèle de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
8.2 Modèle (apparamment) plus général . . . . . . . . . . . . . . . . . . . . . . . . . 88
8.3 Modèle à valeurs transitions ou trajectoires . . . . . . . . . . . . . . . . . . . . . 93

9 Méthodes de Monte Carlo 101


9.1 Échantillonnage pondéré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
9.2 Simulation selon une distribution de Gibbs–Boltzmann . . . . . . . . . . . . . . . 106
9.3 Échantillonnage et approximation d’un mélange fini . . . . . . . . . . . . . . . . 118
9.4 Échantillonnage selon une distribution à support fini . . . . . . . . . . . . . . . . 127

10 Approximations particulaires 133


10.1 Échantillonnage pondéré (SIS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
10.2 Échantillonnage / ré–échantillonnage (SIR) . . . . . . . . . . . . . . . . . . . . . 136

11 Estimation d’erreur 153


11.1 Probabilité d’extinction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
11.2 Estimation d’erreur dans Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

12 TCL pour les approximations particulaires 163


12.1 Échantillonnage pondéré (SIS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
12.2 Échantillonnage / ré–échantillonnage (SIR) . . . . . . . . . . . . . . . . . . . . . 164

A Inversion matricielle 175

B Inégalités 179

C Théorème central limite conditionnel 185


C.1 TCL pour des variables aléatoires i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . 188
C.2 TCL pour des variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . 189
C.3 TCL conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
Chapitre 1

Introduction

En toute généralité, le filtrage consiste à estimer l’état d’un système dynamique, c’est–à–dire
évoluant au cours du temps, à partir d’observations partielles, généralement bruitées.
Typiquement, on dispose d’une suite Y0 , Y1 , · · · , Yn d’observations, par exemple obtenues
après traitement préalable du signal recueilli au niveau des capteurs. Chaque observation Yn est
reliée à l’état inconnu Xn par une relation du type

Yn = hn (Xn ) + Vn , (1.1)

où Vn est un bruit, qui modélise l’erreur d’observation. On précisera plus loin dans ce cours la
notion de bruit, en terme de variables alátoires le plus souvent centrées (de moyenne nulle).

1.1 Importance de l’information a priori

Une hypothèse assez commune est de supposer que les variables aléatoires V0 , V1 , · · · , Vn sont
indépendantes entre elles. A cause de cette hypothèse d’indépendance mutuelle des bruits d’ob-
servation, et a fortiori en absence de bruit, seule l’observation Yn participe à l’estimation de
l’état caché Xn , c’est–à–dire qu’on se trouve confronté à une succession de problèmes d’estima-
tion découplés : dans la relation (1.1), l’observation Yn est disponible (par définition) tandis que
ni l’état caché Xn ni le bruit Vn ne sont disponibles, et il faut arriver à retrouver (estimer) l’état
caché Xn au vu de l’observation Yn et malgré la présence du bruit Vn .
Tel qu’il est formulé, le problème de l’estimation de l’état caché Xn à partir des observations
Y0 , Y1 , · · · , Yn est en général mal–posé :

• en général, la dimension m de la variable cachée est plus grande que la dimension d de


l’observation : même en absence de bruit, on ne peut pas inverser la relation (1.1) qui
possède plus d’inconnues que d’équations,

• dans le cas favorable où m = d, et même en absence de bruit, il n’est pas toujours possible
d’inverser la relation (1.1) qui peut très bien posséder plusieurs solutions distinctes,

1
2 CHAPITRE 1. INTRODUCTION

• la situation est évidemment encore plus compliquée en présence de bruit : à cause du


phénomène de découplage cité plus haut, la suite X0 , X1 , · · · , Xn reconstituée peut ne pas
être pertinente en tant que trajectoire, même si chacune des estimations est pertinente
séparément.

Pour lever l’indétermination, c’est–à–dire pour garantir l’existence d’une solution unique, et
pour résoudre le problème de cohérence temporelle, la solution classique consiste à utiliser des
informations supplémentaires sur la suite cachée, par exemple sous la forme de fonctions de
coût portant sur l’état initial ou sur les transitions entre deux états successifs. Par exemple, on
cherchera à minimiser le critère

n ∑
n
J(x0:n ) = c0 (x0 ) + ck (xk−1 , xk ) + dk (xk ) ,
k=1 k=0

par rapport à la suite x0:n = (x0 , x1 , · · · , xn ), qui combine des fonctions de coût représentant
l’information a priori sur la solution avec des fonctions de coût d’une autre nature, qui peuvent
représenter par exemple un terme d’attache aux données, de la forme

hk (x) = 1
2 |Yk − hk (x)|2 ou bien hk (x) = 1
2 (Yk − hk (x))∗ Ik (Yk − hk (x)) ,

pour tout k = 0, 1, · · · , n, avec l’intreprétation que la suite recherchée doit également vérifier à
chaque instant l’équation d’observation en un sens approché. Plus généralement, ces fonctions de
coût peuvent juste représenter une contrainte (ou une propriété) que la suite recherchée devrait
vérifier (ou posséder). En absence d’information a priori , le critère se réduit simplement à


n ∑
n
J(x0:n ) = 1
2 |Yk − hk (xk )| 2
ou bien J(x0:n ) = 1
2 (Yk − hk (xk ))∗ Ik (Yk − hk (xk )) ,
k=0 k=0

ce qui revient en absence de couplage à minimiser séparément le critère


1
2 |Yk − hk (xk )|2 ou bien 1
2 (Yk − hk (xk ))∗ Rk−1 (Yk − hk (xk )) ,

par rapport à l’état xk , pour tout k = 0, 1, · · · , n, avec les conséquences déjà évoquées en terme
d’indétermination et de possible incohérence temporelle. Un exemple classique de fonctions de
coût représentant l’information a priori est

c0 (x) = 1
2 |x − µ|2 ou bien c0 (x) = 1
2 (x − µ)∗ Σ−1
0 (x − µ) ,

avec l’interprétation que l’état initial x0 recherché doit être proche de µ, et

ck (x, x′ ) = 1
2 |x′ − fk (x)|2 ou bien ck (x, x′ ) = 1
2 (x′ − fk (x))∗ Q−1 ′
k (x − fk (x)) ,

avec l’interprétation que l’état xk recherché doit être proche de fk (xk−1 ), ou de manière équiva-
lente que la transition (xk−1 , xk ) recherchée doit vérifier l’équation xk = fk (xk−1 ) dans un sens
approché, pour tout k = 1, · · · , n. On remarque que ces fonctions de coût sont (à une constante
additive près) de la forme

c0 (x) = − log p0 (x) et ck (x, x′ ) = − log pk (x′ | x) , (1.2)


1.1. IMPORTANCE DE L’INFORMATION A PRIORI 3

pour tout k = 1, · · · , n, où p0 (x) est la densité de probabilité initiale, et où pk (x′ | x) est la
densité de probabilité de transition, dans le modèle non–linéaire suivant avec bruits gaussiens
additifs
Xk = fk (Xk−1 ) + Wk avec Wk ∼ N(0, Qk ) ,
et avec condition initiale X0 ∼ N(µ, Σ). En effet (à une constante mutiplicative de normalisation
près)
P[X0 ∈ dx] ∝ exp{− 21 (x − µ)∗ Σ−10 (x − µ)} dx ∝ p0 (x) dx ,

et

P[Xk ∈ dx′ | Xk−1 = x] ∝ exp{− 21 (x′ − fk (x))∗ Q−1 ′ ′ ′ ′


k (x − fk (x))} dx ∝ pk (x | x) dx ,

pour tout k = 1, · · · , n. En toute généralité, si les relations (1.2) sont vérifiées pour une densité
de probabilité p0 (x) et pour des densités de probabilité de transition pk (x′ | x), pour tout
k = 1, · · · , n, alors le critère à minimiser peut s’écrire


n ∑
n
J(x0:n ) = − log p0 (x0 ) − log pk (xk | xk−1 ) + dk (xk ) ,
k=1 k=0

ce qui revient à maximiser


n ∑
n
exp{−J(x0:n )} = p0 (x0 ) pk (xk | xk−1 ) exp{− dk (xk )} ,
k=1 k=0
| {z }
p0:n (x0:n )

par rapport à la suite x0:n = (x0 , x1 , · · · , xn ). On remarque que p0:n (x0:n ) représente la densité
de probabilité conjointe des états successifs (X0 , X1 , · · · , Xn ) de la chaı̂ne de Markov caractérisée
par

• la densité de probabilité initiale p0 (x0 ),

• et les densités de probabilité de transition pk (x′ | x), pour tout k = 1, · · · , n.

Comme alternative au point de vue de l’optimisation déterministe développé jusqu’ici, on adop-


tera dans ce cours un point de vue d’estimation bayésienne, c’est–à–dire qu’on remplacera le
problème de minimisation déterministe, avec prise en compte de l’information a priori en terme
de fonctions de coût, par le problème du calcul de la distribution de Gibbs–Boltzmann définie
(à une constante multiplicative près) sur l’espace des trajectoires En = E × · · · × E par


n ∑
n
exp{−J(x0:n )} dx0:n = p0 (x0 ) pk (xk | xk−1 ) exp{− dk (xk )} dx0:n . (1.3)
k=1 k=0
| {z }
p0:n (x0:n )

En d’autres termes, on remplacera le problème de calculer le mode, c’est–à–dire la trajectoire


x0:n = (x0 , x1 , · · · , xn ) de plus forte densité, par le problème de calculer des espérances (ou des
4 CHAPITRE 1. INTRODUCTION

intégrales) du type
∫ ∫ ∫ ∫ ∑
n
··· f (x0:n ) exp{−J(x0:n )} dx0:n = ··· f (x0:n ) exp{− dk (xk )} p0:n (x0:n ) dx0:n
E E E E k=0


n
= E[f (X0:n ) exp{− dk (Xk )} ] ,
k=0

pour des fonctions–test f définies sur l’espace des trajectoires En = E ×· · ·×E. Dans la pratique,
on verra comment résoudre ce problème de manière approchée, en simulant des échantillons de
variables aléatoires distribuées (approximativement) selon la distribution de Gibbs–Boltzmann
trajectorielle définie (à une constante multiplicative près) par (1.3).

1.2 Estimation bayésienne

Dans de nombreux cas, la prise en compte de l’information a priori peut se ramener au problème
statique suivant : étant donnés deux vecteurs aléatoires X et Y , qu’apporte le fait d’observer la
réalisation Y = y sur la connaissance que l’on a de X ?
Soit X et Y deux variables aléatoires à valeurs dans E et dans F respectivement, et soit
ϕ une application mesurable définie sur E à valeurs dans Rp . Par définition, un estimateur de
ϕ(X) à partir de l’observation de Y est un vecteur aléatoire ψ(Y ), où ψ est une application
mesurable définie sur F à valeurs dans Rp (par abus de notation, la variable aléatoire ψ(Y ) sera
également notée ψ).

▶ Estimateur MMSE Soit ψ un estimateur de ϕ(X) sachant Y . Naturellement ψ = ψ(Y )


n’est pas égal à ϕ(X) : une mesure de l’écart entre l’estimateur et la vraie valeur est fournie par
la matrice (de dimension p × p) de corrélation d’erreur

E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] , (1.4)

dont la trace

trace E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] = E |ψ(Y ) − ϕ(X)|2 ,

est l’erreur quadratique moyenne. L’estimateur du minimum d’erreur quadratique moyenne


(MMSE, pour minimum mean–square error) de ϕ(X) sachant Y est un estimateur ϕb tel que
b ) − ϕ(X)) (ϕ(Y
E[ (ϕ(Y b ) − ϕ(X))∗ ] ≤ E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] ,

au sens des matrices symétriques, pour tout autre estimateur ψ.


La Proposition 1.1 ci–dessous montre que cet estimateur est obtenu à l’aide de la distribution
de probabilité conditionnelle de X sachant Y = y, définie à partir de la distribution de probabilité
jointe de (X, Y ) par la décomposition

P[X ∈ dx, Y ∈ dy] = P[X ∈ dx | Y = y] P[Y ∈ dy] . (1.5)


1.2. ESTIMATION BAYÉSIENNE 5

Proposition 1.1 Soit X et Y deux variables aléatoires à valeurs dans E et F respectivement,


et soit ϕ une application mesurable définie sur E à valeurs dans Rp . L’estimateur MMSE de
ϕ(X) sachant Y est la moyenne conditionnelle de ϕ(X) sachant Y , i.e.

b
ϕ(y) = E[ϕ(X) | Y = y] = ϕ(x) P[X ∈ dx | Y = y] .
E

Preuve. Pour tout estimateur ψ, la décomposition

b ) − ϕ(X) + ψ(Y ) − ϕ(Y


ψ(Y ) − ϕ(X) = ϕ(Y b ),

entraı̂ne

E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] =

b ) − ϕ(X)) (ϕ(Y
= E[ (ϕ(Y b ) − ϕ(X))∗ ] + E[ (ψ(Y ) − ϕ(Y
b )) (ψ(Y ) − ϕ(Y
b ))∗ ]

b )) (ϕ(Y
+ E[ (ψ(Y ) − ϕ(Y b ) − ϕ(X))∗ ] + E[ (ϕ(Y
b ) − ϕ(X)) (ψ(Y ) − ϕ(Y
b ))∗ ] ,

et on remarque que

b )) (ϕ(Y
E[ (ψ(Y ) − ϕ(Y b ) − ϕ(X))∗ ] =

∫ ∫
= b
(ψ(y) − ϕ(y)) b − ϕ(x))∗ P[X ∈ dx, Y ∈ dy]
(ϕ(y)
E F
∫ ∫
= b
(ψ(y) − ϕ(y)) b − ϕ(x))∗ P[X ∈ dx | Y = y] P[Y ∈ dy]
(ϕ(y)
E F
∫ ∫
{ }
= b
(ψ(y) − ϕ(y)) ∗ b − ϕ(x)) P[X ∈ dx | Y = y]
(ϕ(y) P[Y ∈ dy] = 0 ,
F E

b
par définition de ϕ(y). On a donc

E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] =

b ) − ϕ(X)) (ϕ(Y
= E[ (ϕ(Y b ) − ϕ(X))∗ ] + E[ (ψ(Y ) − ϕ(Y
b )) (ψ(Y ) − ϕ(Y
b ))∗ ]

b ) − ϕ(X)) (ϕ(Y
≥ E[ (ϕ(Y b ) − ϕ(X))∗ ] ,

b
au sens des matrices symétriques, avec égalité pour ψ = ϕ. 2

Remarque 1.2 Compte tenu que le vecteur aléatoire (ϕ(Y b ) − ϕ(X)) est centré, la matrice
de corrélation d’erreur est aussi la matrice de covariance d’erreur, dans le cas particulier de
b
l’estimateur ϕ.
6 CHAPITRE 1. INTRODUCTION

▶ Borne de Cramér–Rao a posteriori On suppose à présent que E = Rm , c’est–à–dire


que X et Y sont des variables aléatoires à valeurs dans Rm et F respectivement, et soit ϕ une
application mesurable définie sur Rm à valeurs dans Rp . Le biais de l’estimateur ψ de ϕ(X)
sachant Y est défini par
b(ψ, x) = E[ψ(Y ) | X = x] − ϕ(x) .

On suppose que la distribution de probabilité jointe des vecteurs aléatoires X et Y possède une
densité
P[X ∈ dx, Y ∈ dy] = p(x, y) dx λ(dy) ,

sur Rm ×F , suffisamment régulière par rapport à la variable x ∈ Rm , avec les deux factorisations
alternatives
p(x, y) = p(x | y) p(y) = p(y | x) p(x) ,

en termes de distributions de probabilités conditionnelles et marginales, et en particulier



P[X ∈ dx] = p(x) dx avec p(x) = p(x, y) λ(dy) .
F

On suppose que
∫ ∫ ∫ ∫ ∫
∂2 { ∂2 }
p(x, y) λ(dy) dx = p(x, y) λ(dy) dx = p′′ (x) dx = 0 .
Rm F ∂x2 Rm ∂x2 F Rm

Proposition 1.3 Si la matrice d’information de Fisher (de dimension m × m) définie par

∂2
J = −E[ log p(X, Y ) ] ,
∂x2

est inversible, alors la matrice de corrélation de l’erreur d’estimation est minorée (au sens des
matrices symétriques) par la relation suivante

C = E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] ≥ M J −1 M ∗ .

avec la matrice de sensibilité (de dimension p × m) définie par

M = E[ϕ′ (X)] ,

pour tout estimateur ψ de ϕ(X) sachant Y tel que



(b(ψ, x) p(x))′ dx = 0 . (1.6)
Rm

Remarque 1.4 La matrice d’information de Fisher J et la matrice de sensibilité M qui inter-


viennent dans l’expression de la borne ne dépendent pas de l’estimateur ψ.
1.2. ESTIMATION BAYÉSIENNE 7

Preuve. Par définition


∫ ∫
b(ψ, x) p(x) = (ψ(y) − ϕ(x)) p(y | x) p(x) λ(dy) = (ψ(y) − ϕ(x)) p(x, y) λ(dy) ,
F F

et la matrice jacobienne (de dimension p × m) associée vérifie


∫ ∫
′ ′ ∂
(b(ψ, x) p(x)) = −ϕ (x) p(x, y) λ(dy) + (ψ(y) − ϕ(x)) p(x, y) λ(dy)
F F ∂x

′ ∂
= −ϕ (x) p(x) + (ψ(y) − ϕ(x)) log p(x, y) p(x, y) λ(dy) .
F ∂x
En intégrant par rapport à la variable x ∈ Rm , il vient

(b(ψ, x) p(x))′ dx
Rm
∫ ∫ ∫
′ ∂
=− ϕ (x) p(x) dx + (ψ(y) − ϕ(x)) log p(x, y) p(x, y) λ(dy) dx
Rm Rm F ∂x

= −E[ϕ′ (X)] + E[ (ψ(Y ) − ϕ(X)) log p(X, Y ) ] ,
∂x
et si la condition (1.6) est vérifiée, alors

E[ (ψ(Y ) − ϕ(X)) log p(X, Y ) ] = M ,
∂x
où la matrice de sensibilité M ne dépend pas de ψ. D’autre part, il résulte de l’identité
∂2 1 ∂2 ∂ ∂
2
log p(x, y) = 2
p(x, y) − ( log p(x, y))∗ log p(x, y) ,
∂x p(x, y) ∂x ∂x ∂x
entre matrices de dimension m × m, que
∫ ∫
∂ ∂ ∂2 ∂2
E[ ( log p(X, Y ))∗ log p(X, Y ) ] = p(x, y) λ(dy) dx − E[ log p(X, Y ) ] ,
∂x ∂x Rm F ∂x2 ∂x2
et par hypothèse on a donc
∂ ∂
E[ ( log p(X, Y ))∗ log p(X, Y ) ] = J .
∂x ∂x
On introduit ensuite le vecteur aléatoire
 
 
 ψ(Y ) − ϕ(X)  C M
    .
  et sa matrice de covariance
 ∂ 
∗ M∗ J
( log p(X, Y ))
∂x
Compte tenu que cette matrice symétrique est semi–définie positive, il résulte du Lemme A.3
d’inversion matricielle que le complément de Schur ∆ = C − M J −1 M ∗ est également une
matrice semi–définie positive, c’est–à–dire que

C ≥ M J −1 M ∗ . 2
8 CHAPITRE 1. INTRODUCTION

Remarque 1.5 Par définition de l’estimateur MMSE, on a nécessairement

b ) − ϕ(X)) (ϕ(Y
E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] ≥ E[ (ϕ(Y b ) − ϕ(X))∗ ] ≥ M J −1 M ∗ ,

pour tout estimateur ψ, et la borne la plus à gauche est atteinte pour ψ = ϕ. b La borne donnée
par l’estimateur MMSE est donc plus fine que la borne de Cramér–Rao a posteriori, mais aussi
plus difficile à calculer : le plus souvent en effet on ne dispose pas de l’expression de l’estimateur
MMSE, mais l’expression des matrices J et M est assez facile à obtenir. La borne de Cramér–
Rao a posteriori peut même être assez grossière et atteinte par aucun estimateur, et on déduit
de l’encadrement ci–dessus que si la borne de Cramér–Rao a posteriori est atteinte, alors elle
est nécessairement atteinte pour l’estimateur MMSE ψ = ϕ. b

Exemple 1.6 Soit X et V deux vecteurs aléatoires gaussiens indépendants, de moyenne X̄ et


0, et de matrice de covariance QX et QV , respectivement, et on pose Y = h(X) + V . Si les
matrices de covariance QX et QV sont inversibles, alors on a

p(y | x) ∝ exp{− 21 (y − h(x))∗ Q−1


V (y − h(x)) } ,

et
p(x) ∝ exp{− 21 (x − X̄)∗ Q−1
X (x − X̄) } ,

de sorte que

− log p(x, y) = − log p(y | x) − log p(x)

= 1
2 (y − h(x))∗ Q−1 1 ∗ −1
V (y − h(x)) + 2 (x − X̄) QX (x − X̄) + cste ,

et
∂2
− log p(x, y) = (h′ (x))∗ Q−1 ′ ∗ −1 ′′ −1
V h (x) − (y − h(x)) QV h (x) + QX ,
∂x2
d’où l’expression de la matrice d’information de Fisher

∂2
J = −E[ log p(X, Y )] = E[(h′ (X))∗ Q−1 ′ ∗ −1 ′′ −1
V h (X)] − E[V QV h (X)] + QX
∂x2

= E[(h′ (X))∗ Q−1 ′ −1


V h (X)] + QX ,

compte tenu que


E[V ∗ Q−1 ′′
V h (X)] = 0 .

Dans le cas particulier où l’application h(x) = H x est linéaire, on obtient

J = H ∗ Q−1 −1
V H + QX et J −1 = QX − QX H ∗ (H QX H ∗ + QV )−1 H QX ,

d’après le Lemme A.1 d’inversion matricielle.


1.3. CADRE GAUSSIEN 9

1.3 Cadre gaussien

Dans le cas particulier des vecteurs aléatoires gaussiens, le résultat général obtenu ci–dessus
peut être précisé de la façon suivante.

Proposition 1.7 Soit Z = (X, Y ) un vecteur aléatoire gaussien de dimension m + d, de


moyenne et de matrice de covariance
   
X̄ QX QXY
Z̄ =   et QZ =   ,
Ȳ QY X QY

respectivement. Si la matrice QY est inversible, alors la distribution de probabilité conditionnelle


du vecteur aléatoire X sachant Y = y, est une distribution de probabilité gaussienne de moyenne
b = X̄ + QXY Q−1
X(y) Y (y − Ȳ ) ,

et de matrice de covariance
R = QX − QXY Q−1
Y QY X ,
complément de Schur de la matrice QY dans la matrice–bloc QZ .

Remarque 1.8 Pour simuler un vecteur aléatoire gaussien de dimension m, de moyenne X(y) b
′ ′ ′
et de matrice de covariance R, il suffit de simuler un vecteur aléatoire gaussien Z = (X , Y ) de
dimension m + d, de même moyenne et de même matrice de covariance que Z = (X, Y ), et de
poser
ξ(y) = X ′ + QXY Q−1 ′
Y (y − Y ) .
On vérifie en effet que le vecteur aléatoire ξ(y) ainsi défini est gaussien, comme transformation
affine du vecteur aléatoire gaussien Z ′ , de moyenne

E[ξ(y)] = E[X ′ ] + QXY Q−1 ′ −1 b


Y (y − E[Y ]) = X̄ + QXY QY (y − Ȳ ) = X(y) ,

et de matrice de covariance
b
E[ (ξ(y) − X(y)) b
(ξ(y) − X(y)) ∗
]

−1
= E[ ((X ′ − X̄) − QXY Q−1 ′ ′ ′ ∗
Y (Y − Ȳ )) ((X − X̄) − QXY QY (Y − Ȳ )) ]

= E[ (X ′ − X̄) (X ′ − X̄)∗ ] − E[ (X ′ − X̄) (Y ′ − Ȳ ))∗ ] Q−1


Y QY X

− QXY Q−1 ′ ′ ∗ −1 ′ ′ ∗ −1
Y E[ (Y − Ȳ ) (X − X̄) ] + QXY QY E[ (Y − Ȳ ) (Y − Ȳ ) ] QY QY X

= QX − QXY Q−1 −1 −1 −1
Y QY X − QXY QY QY X + QXY QY QY QY QY X

= QX − QXY Q−1
Y QY X = R ,
10 CHAPITRE 1. INTRODUCTION

compte tenu que

b
ξ(y) − X(y) = X ′ + QXY Q−1 ′ −1
Y (y − Y ) − (X̄ + QXY QY (y − Ȳ ))

= (X ′ − X̄) − QXY Q−1 ′


Y (Y − Ȳ ) ,

par différence.

Remarque 1.9 On vérifie aisément que

0 ≤ R ≤ QX ,

au sens des matrices symétriques (la majoration est immédiate et la minoration résulte du
Lemme A.3), c’est–à–dire que l’utilisation de l’information supplémentaire Y = y, ne peut que
réduire l’incertitude que l’on a sur le vecteur aléatoire X. En outre, la matrice R ne dépend pas
de y, et peut donc être calculée avant même de disposer de la valeur prise par l’observation Y .

b = X(Y
Remarque 1.10 Soit X b ) l’estimateur du minimum de variance de X sachant Y .
Compte tenu que
b = X̄ + QXY Q−1 (Y − Ȳ ) ,
X Y

b Y ) est un vecteur aléatoire


dépend de façon affine du vecteur aléatoire Y , on en déduit que (X, X,
gaussien, comme transformation affine du vecteur aléatoire gaussien Z = (X, Y ).

Remarque 1.11 Si Y = (Y ′ , Y ′′ ) où les composantes Y ′ et Y ′′ sont indépendantes, alors


   
X̄ QX QXY ′ QXY ′′
   
 ′  
Z̄ =  Ȳ 

 et QZ = 
 QY ′ X QY ′ 0  ,

   
Ȳ ′′ QY ′′ X 0 QY ′′

et si les matrices QY ′ et QY ′′ sont inversibles, alors la distribution de probabilité conditionnelle


du vecteur aléatoire X sachant Y = y, avec y = (y ′ , y ′′ ), est une distribution de probabilité
gaussienne de moyenne

b = X̄ + QXY Q−1
X(y) Y (y − Ȳ )

( ) −1  
QXY ′ QXY ′′ QY ′ 0 y ′ − Ȳ ′
= X̄ +    
0 QY ′′ y ′′ − Ȳ ′′

= X̄ + QXY ′ Q−1 ′ ′ −1 ′′ ′′
Y ′ (y − Ȳ ) + QXY QY ′′ (y − Ȳ ) ,
′′
1.3. CADRE GAUSSIEN 11

et de matrice de covariance

R = QX − QXY Q−1
Y QY X

( ) −1  
QXY ′ QXY ′′ QY ′ 0 QY ′ X
= QX −    
0 QY ′′ QY ′′ X

= QX − QXY ′ Q−1 ′ ′′
−1
Y ′ QY X − QXY QY ′′ QY X .
′′

Exemple 1.12 Soit X et V deux vecteurs aléatoires gaussiens indépendants, de moyenne X̄ et


0, et de matrice de covariance QX et QV , respectivement, et on pose Y = H X + V . Le vecteur
aléatoire Z = (X, Y ) est alors gaussien, de moyenne et de matrice de covariance
   
X̄ QX QX H ∗
Z̄ =   et QZ =   ,
H X̄ H QX H QX H∗ + QV

respectivement. Si la matrice QV est inversible, alors a fortiori la matrice QY = H QX H ∗ + QV


est inversible, et il découle de la Proposition 1.7 que la distribution de probabilité conditionnelle
du vecteur aléatoire X sachant Y , est une distribution de probabilité gaussienne de moyenne

b ) = X̄ + QX H ∗ (H QX H ∗ + QV )−1 (Y − H X̄) ,
X(Y

et de matrice de covariance déterministe

R = QX − QX H ∗ (H QX H ∗ + QV )−1 H QX ,

complément de Schur de la matrice QY = H QX H ∗ +QV dans la matrice–bloc QZ . Pour simuler


un vecteur aléatoire gaussien de dimension m, de moyenne X(Y b ) et de matrice de covariance R, il
découle de la Remarque 1.8 qu’il suffit de simuler deux vecteurs aléatoires gaussiens indépendants
X ′ et V ′ , de moyenne X̄ et 0, et de matrice de covariance QX et QV , respectivement, c’est–à–dire
de même moyenne et de même matrice de covariance que X et V respectivement, et de poser

ξ(Y ) = X ′ + QX H ∗ (H QX H ∗ + QV )−1 (Y − (H X ′ + V ′ )) .

Si en outre la matrice QX est inversible, alors il découle du Lemme A.1 d’inversion matricielle
que la matrice R est inversible, et

R−1 = H ∗ Q−1 −1
V H + QX = J ,

d’après l’expression obtenue dans l’Exemple 1.6 pour la matrice d’information de Fisher. Dans
ce cas particulier, la borne de Cramér–Rao a posteriori est donc atteinte, puisque

b ) − X) (X(Y
E[ (X(Y b ) − X)∗ ] = R = J −1 .
12 CHAPITRE 1. INTRODUCTION

Pour finir, on peut montrer directement la relation J = R−1 sans utiliser l’expression obtenue
dans l’Exemple 1.6. En effet, si la matrice R est inversible, ce qui est garanti dès que les matrices
QX et QV sont inversibles, alors on a

b
p(x | y) ∝ exp{− 12 (x − X(y))∗ −1 b
R (x − X(y))} ,

de sorte que
− log p(x | y) = 1 b
(x − X(y))∗ −1 b
R (x − X(y)) + cste ,
2

et
∂2
− log p(x | y) = R−1 ,
∂x2
et on retrouve bien l’expression de la matrice d’information de Fisher

∂2
J = −E[ log p(X | Y )] = R−1 .
∂x2

Preuve de la Proposition 1.7. On pose Ξ = X − QXY Q−1 Y Y , et on vérifie que le vecteur


aléatoire (Ξ, Y ) est gaussien, comme transformation affine du vecteur aléatoire gaussien Z =
(X, Y ). On calcule facilement la moyenne

Ξ̄ = E[Ξ] = X̄ − QXY Q−1


Y Ȳ ,

la matrice de covariance

QΞ = E[(Ξ − Ξ̄) (Ξ − Ξ̄)∗ ]

= E[((X − X̄) − QXY Q−1 −1 ∗


Y (Y − Ȳ )) ((X − X̄) − QXY QY (Y − Ȳ )) ]

= E[(X − X̄) (X − X̄)∗ ] − E[(X − X̄) (Y − Ȳ )∗ ] Q−1


Y QY X

− QXY Q−1 ∗ −1 ∗ −1
Y E[(Y − Ȳ ) (X − X̄) ] + QXY QY E[(Y − Ȳ ) (Y − Ȳ ) ] QY QY X

= QX − QXY Q−1
Y QY X = R ,

et la matrice de corrélation

QΞ Y = E[(Ξ − Ξ̄) (Y − Ȳ )∗ ]

= E[((X − X̄) − QXY Q−1 ∗


Y (Y − Ȳ )) (Y − Ȳ ) ]

= E[(X − X̄) (Y − Ȳ )∗ ] − QXY Q−1 ∗


Y E[(Y − Ȳ ) (Y − Ȳ ) ] = 0 ,

compte tenu que


Ξ − Ξ̄ = (X − X̄) − QXY Q−1
Y (Y − Ȳ ) ,
1.3. CADRE GAUSSIEN 13

par différence. En particulier, les vecteurs aléatoires gaussiens Ξ et Y sont décorrélés, donc
indépendants. Il suffit alors d’exprimer la fonction caractéristique de la distribution de probabi-
lité conditionnelle du vecteur aléatoire X = Ξ + QXY Q−1Y Y sachant Y

E[ exp{i u∗ X} | Y ] = E[ exp{i u∗ (Ξ + QXY Q−1


Y Y )} | Y ]

= exp{i u∗ QXY Q−1 ∗


Y Y } E[ exp{i u Ξ} ]

= exp{i u∗ QXY Q−1 ∗ −1 1 ∗


Y Y } exp{i u (X̄ − QXY QY Ȳ ) − 2 u R u}

b ) − 1 u∗ R u} .
= exp{i u∗ X(Y 2

b ) et de
On reconnait la fonction caractéristique d’un vecteur aléatoire gaussien de moyenne X(Y
matrice de covariance R. 2

Conclusion On voit qu’il est important de disposer d’une information a priori sur l’état
inconnu Xn , par exemple de disposer d’une équation d’état décrivant l’évolution de Xn quand
n varie. On peut considérer deux types de modèles :

• les systèmes linéaires gaussiens,

• les chaı̂nes de Markov à espace d’état fini,

et dans chacun de ces deux cas, il est possible de résoudre exactement le problème de filtrage
de façon optimale, par la mise en œuvre :

• du filtre de Kalman, dans le cas des systèmes linéaires gaussiens,

• des équations forward–backward de Baum, ou de l’algorithme de Viterbi, dans le cas des


chaı̂nes de Markov à état fini.

Ces deux cas peuvent être vus comme des cas particuliers de modèles beaucoup plus généraux :

• les chaı̂nes de Markov à espace d’état quelconque (fini, dénombrable, continu, hybride,
etc.),

et dans ce cas il ne sera pas possible de résoudre exactement le problème de filtrage de façon
optimale, qui s’exprime pourtant très simplement en termes de distributions de Feynman–Kac, et
il faudra avoir recours à la mise en œuvre de méthodes de résolution approchées, en l’occurrence :

• de filtres particulaires, c’est–à–dire de méthodes de Monte Carlo avec interaction.


14 CHAPITRE 1. INTRODUCTION
Chapitre 2

Exemples

2.1 Recalage altimétrique de navigation inertielle

Un avion survole une zone dont le relief est connu : la hauteur h(r) du relief en chaque point de
coordonnée horizontale r est connue, et enregistrée dans une carte numérique.
Dans la suite, la position horizontale de l’avion est notée r, la position verticale, ou altitude,
est notée z, et la vitesse horizontale est notée v. A l’instant 0, la position horizontale initiale
de l’avion est r0 , son altitude initiale est z0 et sa vitesse horizontale initiale est v0 . En réalité,
l’avion se déplace à l’altitude z = z0 constante et à la vitesse horizontale constante v = v0 .

Figure 2.1 – Modèle numérique de terrain, et trajectoire réelle

Pour effectuer la navigation, c’est–à–dire pour permettre à l’avion d’estimer sa propre po-
sition horizontale rk et sa propre vitesse horizontale vk à chaque instant tk , on recueille (au

15
16 CHAPITRE 2. EXEMPLES

moyen d’accéléromètres et de gyroscopes installés à bord) avec un pas de temps ∆ = tk − tk−1 et


jusqu’à l’instant final T , l’accélération horizontale de l’avion avec une erreur additive modélisée
par un bruit blanc gaussien centré de matrice de covariance σINS 2 I2 (on dénote par I2 la matrice
identité de dimension 2 × 2). L’écart–type σINS est une caractéristique supposée connue de la
centrale de navigation inertielle utilisée.
En respectant les caractéristiques statistiques données ci–dessus, la suite aINS
k d’accélérations
bruitées vérifie
aINS
k = ak + wkINS ,
où ak dénote l’accélération réelle de l’avion, ici ak ≡ 0 compte que l’avion se déplace en réalité à
vitesse constante, et où la suite wkINS est un bruit blanc gaussien centré de matrice de covariance
2
σINS I2 .
L’estimation rkINS de la position horizontale exacte rk est obtenue simplement en intégrant
les mesures d’accélération horizontale, à l’aide du modèle d’état suivant
( INS ) ( ) ( INS ) ( ) ( INS ) ( )
rk I2 ∆ I2 rk−1 0 r0 r0
= +∆ avec = .
INS
vkINS 0 I2 vk−1 aINS
k v0INS v0

Si on représente sur le même graphique la position horizontale exacte rk de l’avion et l’esti-


mation inertielle rkINS , pour chaque instant entre 0 et T , on remarque que la trajectoire estimée
s’écarte de la trajectoire réelle, juste parce que les erreurs sur l’estimation de l’accélération
s’accumulent au cours du temps.

Figure 2.2 – Modèle numérique de terrain, trajectoire réelle et trajectoire inertielle

On introduit comme nouvelles variables d’état les erreurs d’estimation inertielle en position
horizontale δrk = rkINS − rk et en vitesse horizontale δvk = vkINS − vk , et le modèle d’état
2.1. RECALAGE ALTIMÉTRIQUE DE NAVIGATION INERTIELLE 17

correspondant est donc donné par


( ) ( ) ( ) ( ) ( ) ( )
δrk I2 ∆ I2 δrk−1 0 δr0 0
= +∆ avec = ,
δvk 0 I2 δvk−1 wkINS δv0 0
où la suite wkINS est un bruit blanc gaussien centré de matrice de covariance σINS
2 I2 .
On se propose dans la suite d’estimer ces nouvelles variables d’état, en exploitant d’autres
mesures, de manière à corriger les estimations inertielles obtenues lors de cette première phase.
Pour corriger la dérive de l’estimation inertielle en position horizontale rkINS par rapport à
la position horizontale exacte rk , on recueille séparément (au moyen d’un radar altimétrique, ou
radio–altimètre, installé à bord) avec le même pas de temps ∆ une mesure dALT
k de la hauteur de
l’avion au–dessus du relief situé à la verticale, avec une erreur additive modélisée par un bruit
blanc gaussien centré de variance σALT 2 . L’écart–type σALT est une caractéristique supposée
connue du radio–altimètre utilisé.
On recueille également (au moyen d’un baromètre altimétrique, ou baro–altimètre, installé
à bord) avec le même pas de temps ∆ une mesure zkBAR de l’altitude de l’avion, avec une erreur
2
additive modélisée par un bruit blanc gaussien centré de variance σBAR . L’écart–type σBAR est
une caractéristique supposée connue du baro–altimètre utilisé.

1
0
11
0
0
1
0
1
0
1
1
00
1
1
00
1
0
1
01
0
1
01
0
1
0
11
0
0
1
0
1
0
1
1
00
1
0
1
01
0
1
0
11
0 hauteur au−dessus du terrain
0
1
0
1
0
1
1
00
1
1
00
1
0
1
0
11
0
0
11
0
0
position verticale 1
0
1
0
1
1
00
1
1
00
1
0
1
0
11
0
0
1
0
1
0
1
1
00
1
0
1
0
11
0
0
1
0
1
0
1
01
0
1
1
00
1
0 terrain
1
0
11
0
0
1
01
0
1
01
0 altitude du terrain
1
01
0
01
10
niveau zéro

Figure 2.3 – Principe du recalage altimétrique

A chaque instant tk , le radio–altimètre fournit une mesure bruitée dALT


k de la distance entre
l’avion et le relief, c’est–à–dire
dALT
k = (zk − h(rk )) + wkALT ,
où rk dénote la position horizontale réelle de l’avion, où zk dénote l’altitude réelle de l’avion, où
h(rk ) dénote la hauteur du relief au point de coordonnée horizontale rk , et où la suite wkALT est
18 CHAPITRE 2. EXEMPLES

2
un bruit blanc gaussien centré de variance σALT . Au même instant tk , le baro–altimètre fournit
BAR
une mesure bruitée zk de l’altitude de l’avion, c’est–à–dire
zkBAR = zk + wkBAR ,
où zk dénote l’altitude réelle de l’avion, et où la suite wkBAR est un bruit blanc gaussien centré de
2
variance σBAR . La hauteur du relief survolé à l’instant tk déduite à partir des mesures fournies
par le radio–altimètre et par le baro–altimètre est donc
hALT
k = zkBAR − dALT
k = h(rk ) + wkBAR − wkALT ,
et peut être reliée à l’erreur de position inertielle horizontale δrk par
hALT
k = h(rkINS − δrk ) + wkBAR − wkALT .

6600

6500

6400

6300

6200

6100

6000

5900

5800

5700

5600
0 10 20 30 40 50 60 70 80 90 100

Figure 2.4 – Profil réel du terrain survolé et mesures altimétriques

En résumé, le modèle d’état utilisé pour le recalage altimétrique de navigation inertielle com-
prend :

• l’équation d’état
( ) ( ) ( ) ( )
δrk I2 ∆ I2 δrk−1 0
= +∆ ,
δvk 0 I2 δvk−1 wkINS
2
où la suite wkINS est un bruit blanc gaussien centré de variance σINS I2 ,
• la condition initiale
( ) ( )
δr0 σr20 I2 0
gaussienne, centrée, de matrice de covariance ,
δv0 0 σv20 I2
2.2. SUIVI VISUEL PAR HISTOGRAMME DE COULEUR 19

• et l’équation d’observation

hALT
k = h(rkINS − δrk ) + wkBAR − wkALT .

où la suite wkALT est un bruit blanc gaussien centré de variance σALT
2 , et où la suite wkBAR
2
est un bruit blanc gaussien centré de variance σBAR .

L’estimation inertielle horizontale rkINS fournie par la centrale inertielle, et la mesure hALT
k de
la hauteur du relief fournie par le radio–altimètre et par le baro–altimètre sont disponibles. La
fonction r 7→ h(r) n’est pas connue de façon analytique, mais définie point–par–point en allant
lire la carte numérique.

2.2 Suivi visuel par histogramme de couleur

On souhaite réaliser un algorithme de suivi dans une séquence d’images numériques couleur. A
la lecture de la première image de la séquence, l’utilisateur sélectionne une zone de l’image, et
le suivi s’effectue de façon séquentielle sur l’ensemble de la séquence, voir Figure 2.5.

...
initialisation image 2 image 3 image 10

Figure 2.5 – Suivi d’un visage dans une séquence de 10 images

La méthode est construite sur l’algorithme SIR (souvent appelé algorithme condensation,
pour conditional density propagation, en vision par ordinateur). Elle repose sur l’hypothèse que
l’histogramme de couleur de la zone à suivre est constant le long de la séquence. Pour avoir plus
d’informations sur cette méthode de suivi visuel, on pourra lire [20].

Introduction aux images numériques

On désigne sous le terme d’image numérique toute image (dessin, icône, photographie, etc.)
acquise, créée, traitée ou stockée sous forme binaire. On distingue généralement deux grandes
catégories d’images :

• les images vectorielles, dont la description informatique est composée d’objets géométriques
individuels (segments de droite, polygones, arcs de cercle, etc.), chacun définis par divers
attributs de forme, de position, de couleur, etc.

• les images matricielles, représentées par un tableau à deux dimensions dont chaque case
est un pixel (mot dérivé de l’anglais picture element, élément d’image). A chaque pixel
est associée une ou plusieurs valeurs décrivant son niveau de gris ou sa couleur.
20 CHAPITRE 2. EXEMPLES

Les images vectorielles sont utilisées essentiellement pour du graphisme ou en CAO. Lorsque
l’on s’interesse au traitement d’images et à la vision par ordinateur, la représentation utilisé est
la forme matricielle. Il existe plusieurs standards de codage de la couleur :

bitmap noir et blanc : en stockant un bit dans chaque case, il est possible de définir deux
couleurs (noir ou blanc).

bitmap 256 niveaux de gris : en stockant un octet dans chaque case, il est possible de définir
256 dégradés de gris allant du noir au blanc

palette de couleurs (colormap) : grâce à cette méthode, il est possible de définir une palette,
ou table des couleurs, contenant l’ensemble des couleurs pouvant être contenues dans
l’image, à chacune desquelles est associé un indice. Le nombre de bits réservé au codage
de chaque indice de la palette détermine le nombre de couleurs pouvant être utilisées. On
appelle ainsi image en couleurs indexées une image dont les couleurs sont codées selon
cette technique.

couleurs vraies (true color) : le codage de la couleur est réalisé sur trois octets, chaque
octet représentant la valeur d’une composante couleur par un entier de 0 à 255. Ces trois
valeurs codent généralement la couleur dans l’espace RVB (rouge, vert, bleu), mais d’autres
espaces de couleurs peuvent être utilisé. Le nombre de couleurs différentes pouvant être
ainsi représentées est de 256 x 256 x 256 possibilités, soit près de 16 millions de couleurs.

Une image numérique est avant tout un signal 2D. D’un point de vue mathématique, on considère
l’image comme une fonction de R × R dans Ω où le couplet d’entrée est une position spatiale
sur la grille des pixels, et où Ω est l’espace des valeurs de codage de la couleur (ou du niveau
de gris). Par extension, on parlera d’images en dimension 2D+t (t pour le temps) pour désigner
une séquence d’images numériques (ou vidéo numérique).

Remarque 2.1 Etant donné que l’écran effectue un balayage de gauche à droite et de haut en
bas, on désigne généralement par les coordonnées (0, 0) le pixel situé en haut à gauche de l’image,
ce qui signifie que les axes de l’image sont orientés de la façcon suivante : l’axe X est orienté de
gauche à droite, l’axe Y est orienté de haut en bas, contrairement aux notation conventionnelles
en mathématiques, où l’axe Y est orienté vers le haut.

Principe de l’algorithme de suivi visuel

Le but de cet algorithme est de suivre une région d’intérêt dans une séquence d’images. Cette
région est initialisée par l’utilisateur et sa forme est fixée a priori. On considèrera ici un rectangle,
paramétré par la position, en pixel, du centre du rectangle d = (x, y) et un paramètre d’échelle
s. Au pas de temps k (i.e. à l’image k), l’état du système à estimer sera donc Xk = (dk , sk ). Le
paramètre d’échelle permet de suivre un objet même si celui-ci avance ou s’éloigne dans l’axe
de la caméra (effet de zoom). A l’initialisation, l’utilisateur clique 4 points dans l’image, qui
vont définir le rectangle initial. Celui-ci est décrit par les coordonnées du point haut/gauche,
une largeur et une hauteur.
2.2. SUIVI VISUEL PAR HISTOGRAMME DE COULEUR 21

Équation d’état On s’intéresse à la situation où aucune information a priori n’est disponible
sur la nature de l’objet suivi. Dans ce cas, l’équation dynamique du système doit être peu
informative. On supposera donc un modèle à position constante

Xk = Xk−1 + Wk ,

où Wk est un bruit blanc gaussien, centré en 0 et de matrice de covariance C, matrice 3 × 3


diagonale. Les valeurs sur la diagonale sont c1 , c2 et c3 . Notons que si la nature de l’objet suivi
est connu, il est plus intéressant d’utiliser un modèle dynamique approprié. Par exemple, on
pourrait imaginer utiliser un modèle à vitesse constante pour le suivi d’une voiture dans une
vidéo acquise par une caméra sur autoroute.

Modèle de couleur La zone initiale à suivre est caractérisée par un histogramme de couleur.
Cet histogramme de référence est construit sur les N b couleurs les plus représentatives de cette
zone, comme montré sur la Figure 2.6. Cet histogramme de référence est noté q ∗ = {q ∗ (n) , n =
1, · · · , N b}, où q ∗ (n) représente le nombre normalisé de pixels de la zone initiale dont la couleur

Nb
la plus proche est la couleur n. On a q ∗ (n) = 1. Pour plus d’informations sur les différents
n=1
espaces de couleur, on pourra se reporter à la page color space sous Wikipedia.

Figure 2.6 – Zone de l’image à suivre et histogramme de couleur associé pour N b = 64

Comme décrit précédement, le but est de suivre une zone de l’image le long de la séquence,
sous l’hypothèse que son histogramme de couleur est invariant dans le temps. Au temps k,
l’histogramme de couleur qk (x) d’un état hypothèse x sera comparé au modèle de couleur de
référence q ∗ , et on définit la mesure de distance D entre ces deux histogrammes de couleur
normalisés

Nb √
D(q ∗ , qk (x)) = ( 1 − q ∗ (n) qk (x, n) )1/2 ,
n=1

Pour favoriser les états hypothèses dont l’histogramme de couleur associé est proche de l’histo-
gramme de référence, on introduit la fonction de pondération

gk (x) ∝ exp{−λ D2 (q ∗ , qk (x))} .


22 CHAPITRE 2. EXEMPLES

2.3 Poursuite d’une cible furtive (track–before-detect)

Une image radar est constituée par un tableau rectangulaire de p × p pixels, où l’intensité de
l’écho recueilli en un point est codée par un niveau de gris allant du plus foncé (écho de faible in-
tensité) au plus clair (écho de forte intensité). La même situation se rencontre avec un dispositive
opto–électronique, comme une caméra matricielle, où chaque pixel reçoit et affiche une intensité
lumineuse différente. En principe, si une cible est présente dans la scène 3D visée, elle apparaı̂tra
dans le plan–image sous la forme d’un pixel plus clair (ou d’un groupe de pixels adjacents plus
clairs) que les autres pixels de l’image, lesquels correspondent à l’écho d’objets secondaires de
moindre intensité et/ou à un bruit spatial, indépendant ou bien spatialement corrélé d’un pixel
à l’autre. Pour détecter (et localiser) la cible, il suffit en principe de rechercher dans l’image le
pixel (ou le groupe de pixels adjacents) le plus clair, c’est–à–dire de plus forte intensité. Au lieu
d’une recherche exhaustive, on utilise souvent une méthode de seuillage : rechercher les pixels
d’intensité supérieure à un seuil bien choisi, permet souvent d’obtenir directement le pixel de
plus forte intensité. En répétant cette opération pour chaque image successivement on peut ainsi
détecter d’abord, puis suivre, la cible dans une séquence d’images.

observation, frame #7 avec la position réelle


100 100

50 50

0 0

−50 −50

−100 −100
−100 −50 0 50 100 −100 −50 0 50 100

histogramme des intensités détection, seuil = 2 sigma


80 100

60 50

40 0

20 −50

0 −100
−1 0 1 2 −100 −50 0 50 100

Figure 2.7 – Image observée, position réelle, histogramme, détection (cible visible)

On s’intéresse ici au cas d’une cible furtive, caractérisée par un écho de très faible intensité,
c’est–à–dire d’une intensité du même ordre de grandeur que l’intensité caractéristique du bruit
présent dans l’image, voire même d’un ordre de grandeur inférieur. Dans ce cas, une méthode de
seuillage est inefficace : quel que soit le seuil choisi, rechercher les pixels d’intensité supérieure au
seuil ne permet plus d’isoler la cible au milieu du bruit. Même un opérateur humain est incapable,
sur une image isolée, de détecter la présence et la position de la cible. En revanche, un opérateur
2.3. POURSUITE D’UNE CIBLE FURTIVE (TRACK–BEFORE-DETECT) 23

humain est capable dans certains cas de suivre la cible dans une séquence d’images, comme une
succession de pixels (un dans chaque image de la séquence) animés d’un mouvement cohérent
au milieu de l’agitation incoordonnée des autres pixels. En quelque sorte, l’œil humain suit la
cible sans jamais la détecter vraiment : c’est ce genre de performance qu’il s’agit de reproduire
ici de manière algorithmique, connue sous le terme de track–before–detect, en s’appuyant sur un
modèle a priori pour le déplacement de la cible, qui favorise le mouvement cohérent de pixels
entre des images successives.

observation, frame #3 avec la position réelle


100 100

50 50

0 0

−50 −50

−100 −100
−100 −50 0 50 100 −100 −50 0 50 100

histogramme des intensités détection, seuil = 2 sigma


40 100

30 50

20 0

10 −50

0 −100
−2 −1 0 1 2 −100 −50 0 50 100

Figure 2.8 – Image observée, position réelle, histogramme, détection (cible furtive)

Chaque image peut se représenter comme un champ aléatoire (Yk (s) , s ∈ S) où l’indice s ∈ S
désigne le pixel ou de manière équivalente le site d’un réseau bi–dimensionnel. Par hypothèse,
l’intensité observée au pixel s ∈ S se décompose comme

Yk (s) = I(rk , s) + Bk (s) ,

c’est–à–dire comme la somme de l’intensité due à la présence de la cible à la position (inconnue)


rk et de l’intensité due au bruit seulement. L’intensité au point s ∈ S due à la présence de
la cible à la position r est modélisée par une fonction d’étalement ponctuelle (ou point spread
function, PSF)
δ2 |r(s) − r|2
I(r, s) = I0 2 exp{− 2 } 1(s ∈ C(r)) ,
2 π σPSF 2 σPSF
où r(s) désigne la position dans l’espace physique du centre du pixel s, où δ > 0 désigne la
taille du pixel dans l’espace physique, et où l’ensemble C(r) désigne le voisinage à 9 points
dans l’espace–image autour du pixel contenant le point de position r dans l’espace physique.
24 CHAPITRE 2. EXEMPLES

L’intensité due au bruit seulement est modélisée comme un champ aléatoire gaussien (Bk (s) , s ∈
S) centré, de variance σB2 en tout pixel s ∈ S et décorrélé spatialement, c’est–à–dire

E[Bk (s)] = 0 et E[Bk (s) Bk (s′ )] = σB


2
1(s = s′ ) .

On définit le rapport signal à bruit (ou signal to noise ratio, SNR) en decibel, comme
I0
SNR = 20 log10 .
σB
On pose ici (par convention) I0 = 1 de sorte qu’un rapport signal à bruit de 20 dB correspond
à σB = 0.1 tandis qu’un rapport signal à bruit de 0 dB correspond à σB = 1.
La fonction de vraisemblance est donnée à une constante multiplicative près par l’expression,
en fonction de la variable r, de la densité du champ aléatoire observé (Yk (s) , s ∈ S) quand la
cible occupe la position r dans l’espace physique. On a donc par définition
1 ∑
gk (r) = exp{− 2 |Yk (s) − I(r, s)|2 } ,
2 σB
s∈S

et on remarque que
1 ∑ 1 ∑
gk (r) = exp{ 2 I(r, s) Yk (s) − 2 |I(r, s)|2 } ,
σB 2 σB
s∈C(r) s∈C(r)

à une constante multiplicative près, de sorte que le calcul porte seulement sur les 9 pixels du
voisinage C(r), et pas sur l’ensemble S de tous les pixels.
Le modèle a priori pour l’évolution de la cible est donné par le modèle d’état suivant
( ) ( ) ( ) ( )
rk I2 ∆ I2 rk−1 √ 0
= + σ ∆ ,
vk 0 I2 vk−1 wk

où wk est un vecteur aléatoire gaussien centré de matrice de covariance I2 , où la position initiale
r0 est distribuée uniformément dans l’espace physique défini ci–dessus, et où la vitesse initiale
v0 est distribuée uniformément dans le domaine délimité en module par vmin ≤ |v0 | ≤ vmax et
en orientation par [0, 2 π).
Sur chaque image, on peut rechercher le pixel de plus forte intensité observée, ou bien mettre
en œuvre une méthode de seuillage pour détecter les pixels d’intensité supérieure au seuil choisi.
On peut aussi extraire l’histogramme des intensités observées aux différents pixels de l’image.
Si le rapport signal à bruit est trop faible, alors une simple détection image par image s’avère
inefficace. On peut en revanche considérer les images successives comme des observations (ma-
tricielles), et mettre en œuvre un algorithme de filtrage pour effectuer directement le suivi.

2.4 Navigation en environnement intérieur

Un utilisateur se déplace à l’intérieur d’un bâtiment dont le plan est disponible sous la forme
d’une carte numérique. L’utilisateur est caractérisé à l’instant tk
2.4. NAVIGATION EN ENVIRONNEMENT INTÉRIEUR 25

• par sa position rk (un point du plan hors des zones noires),

• par son orientation θk (un vecteur unitaire, ou un angle) par rapport à la direction de
référence correspondant au vecteur unitaire u = (1, 0), dirigé vers la droite sur la carte.

Un exemple de trajectoire admissible, c’est–à–dire ne rencontrant pas les obstacles (représentés


par les zones noires), est représenté sur la Figure 2.9.

25

50

75

100
0 25 50 75 100 125 150

Figure 2.9 – Exemple de trajectoire admissible

Le segment numéro k, joignant les positions rk et rk+1 occupées par l’utilisateur aux instants
tk et tk+1 respectivement, peut être caractérisé de la manière équivalente

• par son origine rk , qui s’interprète comme la position de l’utilisateur à l’instant tk ,

• par sa longueur dk = |rk+1 − rk |, qui peut s’interpréter comme la distance parcourue par
l’utilisateur entre les instants tk et tk+1 ,

• et par son orientation θk (déja mentionnée), qui peut être définie de manière équivalente
par le vecteur unitaire uk = (rk+1 − rk )/dk ,

et on dénote par αk = θk − θk−1 le changement d’orientation entre le segment numéro (k − 1)


et le segment numéro k, qui peut s’interpréter comme une rotation effectuée par l’utilisateur à
l’instant tk .
Pour effectuer la navigation, c’est–à–dire pour permettre à l’utilisateur d’estimer sa propre
position à chaque instant, celui–ci est équipé d’un module de navigation à l’estime (ou module
PNS, pour pedestrian navigation system), qui fournit
26 CHAPITRE 2. EXEMPLES

• une mesure α bk de la rotation effectuée par l’utilisateur à l’instant tk , avec une incertitude
caractérisée par un bruit gaussien additif de moyenne nulle et de variance σturn 2 ,

• et une mesure dbk de la distance parcourue par l’utilisateur entre les instants tk et tk+1 , avec
une incertitude caractérisée par un bruit gaussien additif de moyenne nulle et de variance
2
σwalk .

En d’autres termes

bk = αk + wkturn
α (modulo 2π) et dbk = dk + wkwalk , (2.1)

où wkwalk et wkturn sont deux variables aléatoires gaussiennes indépendantes, de moyenne nulle et
2
de variance σwalk 2 , respectivement.
et σturn
Les mesures bruitées db1 , · · · , dbnmax−1 et α
b1 , α
b2 , · · · , α
bnmax−1 (avec la convention α
b1 = 0) sont
recueillies par l’utilisateur le long de la trajectoire. À partir de ces mesures PNS incrémentales
bruitées, et à partir d’estimations de la position initiale r1 et de l’orientation initiale θ1 inconnues,
on peut essayer de reconstruire la position et l’orientation de l’utilisateur à chaque instant, par
intégration

θkPNS = θk−1
PNS
bk
+α (modulo 2π) et PNS
rk+1 = rkPNS + dbk u(θkPNS ) ,

où u(θ) = (cos θ, sin θ) désigne le vecteur unitaire associé à l’angle θ. La trajectoire estimée à
partir des mesures PNS seulement est représentée sur la Figure 2.10.

25

50

75

100
0 25 50 75 100 125 150

Figure 2.10 – Trajectoire estimée à partir des mesures PNS seulement

On remarque que la trajectoire estimée s’écarte de la trajectoire réelle, juste parce que les
erreurs sur les mesures PNS incrémentales s’accumulent au cours du temps.
2.4. NAVIGATION EN ENVIRONNEMENT INTÉRIEUR 27

Pour corriger la dérive de la trajectoire estimée à partir des mesures PNS seulement, l’idée
consiste à recueillir séparément des mesures fournies par d’autres capteurs. Dans la solution
proposée ici, à l’intérieur du bâtiment sont disposées des balises de ranging identiques, dont les
positions sont connues. Chaque balise est caractérisée par sa portée R, de sorte que

• tout utilisateur se trouvant à une distance inférieure à R par rapport à une balise est
détecté par cette balise,

• et symétriquement, tout utilisateur se trouvant à une distance supérieure à R par rapport


à une balise n’est pas détecté par cette balise.

25

50

75

100
0 25 50 75 100 125 150

Figure 2.11 – Balises de ranging à portée limitée

En outre, si une balise détecte un utilisateur alors une mesure de la distance entre l’utilisateur
et cette balise est également disponible, avec une incertitude caractérisée par un bruit gaussien
2
additif de moyenne nulle et de variance σrange . Les éventuelles détections et mesures de distance
bruitées sont recueillies par l’utilisateur le long de la trajectoire, et sont disponibles pour le
reclalage de navigation.
28 CHAPITRE 2. EXEMPLES

Figure 2.12 – Détection par une balise de ranging

Pour réaliser le recalage de navigation, on dispose des informations suivantes

• un modèle a priori pour l’évolution de la position et de l’orientation de l’utilisateur, uti-


lisant les mesures PNS incrémentales bruitées définies en (2.1),

• une fonction de vraisemblance associée à chaque balise active, c’est–à–dire à chaque balise
déclenchée par l’utilisateur,

et on peut également prendre en compte

• la détection (ou la non–détection) de l’utilisateur par une balise,

• et les contraintes sur l’évolution de l’utilisateur dues à la présence d’obstacles, typiquement


les murs et cloisons intérieures du bâtiment, information disponible à partir de la carte
numérique.
Chapitre 3

Filtrage de Kalman

Le problème de filtrage (en temps discret) se présente en général de la manière suivante : on


considère {Xk }, un processus (dont les caractéristiques statistiques sont connues) représentant
l’état d’un système non observé. A l’instant k, on recueille une observation Yk qui est formée
d’un signal (i.e. une fonction h(Xk ) de l’état Xk ) et d’un bruit additif
Yk = h(Xk ) + Vk .
Les caractéristiques statistiques du bruit de mesure {Vk } sont également supposées connues.
A l’instant k, on dispose de l’information Y0:k = (Y0 , · · · , Yk ) et le but est d’obtenir le plus
d’information possible sur l’état du système Xk (on veut, par exemple, pouvoir calculer un
estimateur Xbk de Xk ). On a vu à la Section 1.2 que la solution consiste à calculer la distribution
de probabilité conditionnelle de la variable aléatoire Xk sachant Y0:k .
Dans le cas des systèmes décrits à la Section 3.1, le cadre est gaussien et l’évolution de
cette distribution de probabilité conditionnelle (déterminée par sa moyenne et sa matrice de
covariance) est régie par les équations du filtre de Kalman, présentées à la Section 3.2 et très
simples à mettre en œuvre. Dans tous les autres cas, par exemple dans le cas des systèmes
non–linéaires avec des bruits non gaussiens, ou dans le cas de modèles encore plus généraux qui
seront introduits au Chapitre 5, l’évolution de cette distribution de probabilité conditionnelle
est determinée par un tout autre type d’équations, qui seront décrites au Chapitre 7 et dont
la mise–en–oeuvre pratique sera présentée au Chapitre 10. Les techniques développées dans le
cas linéaire peuvent parfois s’étendre au cas non linéaire par des méthodes de linéarisation,
présentées à la Section 4.1. Les filtres ainsi obtenus sont très souvent utilisés en pratique mais
ont parfois des performances peu satisfaisantes.

3.1 Systèmes linéaires gaussiens

On considère une suite d’états cachés {Xk } à valeurs dans Rm , vérifiant


Xk = Fk Xk−1 + fk + Wk , (3.1)
et une suite d’observations {Yk } à valeurs dans Rd , vérifiant
Yk = Hk Xk + hk + Vk , (3.2)

29
30 CHAPITRE 3. FILTRAGE DE KALMAN

et on suppose que

• la condition initiale X0 est gaussienne, de moyenne X̄0 et de matrice de covariance QX


0 ,

• la suite {Wk } est un bruit blanc gaussien, de matrice de covariance QW


k ,

• la suite {Vk } est un bruit blanc gaussien, de matrice de covariance QVk ,

• les suites {Wk } et {Vk } et la condition initiale X0 sont mutuellement indépendants.

La signification du modèle (3.1) est la suivante

• même si l’état Xk−1 = x est connu exactement à l’instant (k − 1), on peut seulement dire
que l’état Xk à l’instant k est incertain, et distribué comme un vecteur aléatoire gaussien,
de moyenne Fk x + fk et de matrice de covariance QW k ,

• si l’état Xk−1 est incertain à l’instant (k − 1), et distribué comme un vecteur aléatoire
gaussien, de moyenne X̄k−1 et de matrice de covariance QX k−1 , alors cette incertitude se
propage à l’instant k : même en absence de bruit, c’est–à–dire même si Gk = 0, l’état Xk
à l’instant k est incertain, et distribué comme un vecteur aléatoire gaussien, de moyenne
Fk X̄k−1 + fk et de matrice de covariance Fk QX ∗
k−1 Fk .

Proposition 3.1 La suite {Zk = (Xk , Yk )} est une suite gaussienne à valeurs dans Rm+d .

Preuve. Comme sortie d’un système linéaire à entrées gaussiennes, la suite {Zk } est un proces-
sus aléatoire gaussien. En effet, pour tout instant n, le vecteur aléatoire (Z0 , Z1 , · · · , Zn ) peut
s’exprimer comme transformation affine du vecteur aléatoire (X0 , W1 , · · · , Wn , V0 , V1 , · · · , Vn )
qui par hypothèse est un vecteur aléatoire gaussien, donc le vecteur aléatoire (Z0 , Z1 , · · · , Zn )
est gaussien, comme transformation affine d’un vecteur aléatoire gaussien. 2

Remarque 3.2 Si les coefficients dépendent des observations passées, on parle de système
conditionnellement linéaire gaussien : on considère ainsi une suite d’états cachés {Xk } à va-
leurs dans Rm , vérifiant

Xk = Fk (Y0:k−1 ) Xk−1 + fk (Y0:k−1 ) + Gk (Y0:k−1 ) Wk ,

où la suite {Wk } prend ses valeurs dans Rp , et une suite d’observations {Yk } à valeurs dans Rd ,
vérifiant
Yk = Hk (Y0:k−1 ) Xk + hk (Y0:k−1 ) + Vk ,
et on suppose que

• la condition initiale X0 est gaussienne, de moyenne X̄0 et de matrice de covariance QX


0 ,

• la suite {Wk } est un bruit blanc gaussien, de matrice de covariance identité,

• la suite {Vk } est un bruit blanc gaussien, de matrice de covariance QVk ,


3.2. FILTRE DE KALMAN 31

• les suites {Wk } et {Vk } et la condition initiale X0 sont mutuellement indépendants.

Dans ce cas, la suite {Zk = (Xk , Yk )} n’est en général pas une suite gaussienne, mais on peut
vérifier que conditionnellement à Y0:k−1

• le vecteur aléatoire WkCLG = Gk (Y0:k−1 ) Wk est gaussien centré, de matrice de covariance


conditionnelle QW ∗
k (Y0:k−1 ) = Gk (Y0:k−1 ) Gk (Y0:k−1 ),

• le couple (Xk , Yk ) forme conjointement un vecteur aléatoire gaussien.

3.2 Filtre de Kalman

On considère un système linéaire du type (3.1) (3.2), c’est–à–dire

Xk = Fk Xk−1 + fk + Wk , (3.3)

Yk = Hk Xk + hk + Vk , (3.4)

avec les hypothèses faites à la Section 3.1. A l’instant k, on dispose de l’information

Y0:k = (Y0 , Y1 , · · · , Yk ) .

L’objectif est d’estimer de façon optimale et récursive le vecteur aléatoire Xk à partir de Y0:k .
Si on adopte le critère du minimum de variance, il s’agit d’après la Section 1.2 de calculer la
distribution de probabilité conditionnelle du vecteur aléatoire Xk sachant Y0:k . Comme le cadre
est gaussien, il suffit de calculer la moyenne et la matrice de covariance

bk = E[Xk | Y0:k ]
X et bk ) (Xk − X
Pk = E[(Xk − X bk )∗ | Y0:k ] .

On définit également les quantités suivantes

b − = E[Xk | Y0:k−1 ]
X et b − ) (Xk − X
Pk− = E[(Xk − X b − )∗ | Y0:k−1 ] .
k k k

D’après la Remarque 1.9, les matrices de covariances conditionnelles Pk et Pk− ne dépendent pas
des observations, c’est–à–dire que

bk ) (Xk − X
Pk = E[(Xk − X bk )∗ ] et b − ) (Xk − X
Pk− = E[(Xk − X b − )∗ ] .
k k

Supposons connue la distribution de probabilité conditionnelle du vecteur aléatoire Xk−1


sachant Y0:k−1 . Pour calculer la distribution de probabilité conditionnelle du vecteur aléatoire
Xk sachant Y0:k , on procède en deux étapes :

• dans l’étape de prédiction, on calcule la distribution de probabilité conditionnelle du


vecteur aléatoire Xk sachant les observations passées Y0:k−1 , ce qui est facile à partir
de (3.3),
32 CHAPITRE 3. FILTRAGE DE KALMAN

• dans l’étape de correction, on utilise la nouvelle observation Yk , et en particulier, on


considère la composante de l’observation Yk qui apporte une information nouvelle par
rapport aux observations passées Y0:k−1 , c’est–à–dire

Ik = Yk − E[Yk | Y0:k−1 ] ,

et d’après (3.4), on a
b − + hk ) ,
Ik = Yk − (Hk E[Xk | Y0:k−1 ] + hk + E[Vk | Y0:k−1 ]) = Yk − (Hk X k

compte tenu que Vk et Y0:k−1 sont indépendants.

Remarque 3.3 Par définition, toute fonction des variables (Y0 , · · · , Yk−1 , Yk ) peut s’exprimer
en fonction des variables (Y0 , · · · , Yk−1 , Ik ), et réciproquement. On en déduit que (Y0:k−1 , Ik )
contient exactement la même information que Y0:k .

Lemme 3.4 Le processus {Ik } est un processus gaussien à valeurs dans Rd , appelé processus
d’innovation. En particulier, le vecteur aléatoire Ik est gaussien, de moyenne nulle et de matrice
de covariance
QIk = Hk Pk− Hk∗ + QVk ,
b − , Ik ) est gaussien, de
et indépendant de Y0:k−1 . Plus généralement, le vecteur aléatoire (Xk − X k
moyenne nulle et de matrice de covariance
 
Pk− Pk− Hk∗
  ,
− − ∗ V
Hk Pk Hk Pk Hk + Qk

et indépendant de Y0:k−1 .

Preuve. D’après la Remarque 1.10, l’observation prédite E[Yk | Y0:k−1 ] dépend de façon af-
fine des observations passées (Y0 , Y1 , · · · , Yk−1 ), de sorte que l’innovation Ik dépend de façon
affine des observations (Y0 , Y1 , · · · , Yk ). On en déduit que le vecteur aléatoire (I0 , I1 , · · · , Ik ) est
gaussien, comme transformation affine d’un vecteur aléatoire gaussien.
Toujours d’après la Remarque 1.10, l’état prédit X b − = E[Xk | Y0:k−1 ] dépend de façon affine
k
des observations passées (Y0 , · · · , Yk−1 ), de sorte que le vecteur aléatoire (Y0 , · · · , Yk−1 , Xk −
Xb − , Ik ) dépend de façon affine du vecteur (Y0 , Y1 , · · · , Yk , Xk ) formé de l’état courant Xk et
k
des observations (Y0 , Y1 , · · · , Yk ). On en déduit que le vecteur aléatoire (Y0 , · · · , Yk−1 , Xk −
Xb − , Ik ) est gaussien, et donc a fortiori le vecteur aléatoire (Xk − X b − , Ik ) est gaussien, comme
k k
transformation affine d’un vecteur aléatoire gaussien. Compte tenu que
b − | Y0:k−1 ] = 0
E[Xk − X et E[Ik | Y0:k−1 ] = 0 ,
k

b − , Ik ) est indépendant de Y0:k−1 .


par définition, on en déduit que le vecteur aléatoire (Xk − X k
D’après l’équation (3.4), on a
b − + hk ) = Hk (Xk − X
Ik = Yk − (Hk X b − ) + Vk , (3.5)
k k
3.2. FILTRE DE KALMAN 33

et on en déduit que
QIk = E[Ik Ik∗ ]

b − ) + Vk ) (Hk (Xk − X
= E[(Hk (Xk − X b − ) + Vk )∗ ]
k k

b − ) (Xk − X
= Hk E[(Xk − X b − )∗ ] H ∗ + E[Vk V ∗ ]
k k k k

b − )∗ ] H ∗ + Hk E[(Xk − X
+ E[Vk (Xk − X b −) V ∗]
k k k k

= Hk Pk− Hk∗ + QVk .


b − ) est indépendant de Vk , donc
Dans cette dernière égalité, on a utilisé le fait que (Xk − Xk
b ) V ∗ ] = 0. On déduit également de (3.5) que
E[(Xk − X −
k k
b − ) I ∗ ] = E[(Xk − X
E[(Xk − X b − ) (Hk (Xk − X
b − ) + Vk )∗ ]
k k k k

b − ) (Xk − X
= E[(Xk − X b − )∗ ] H ∗ + E[(Xk − X
b −) V ∗]
k k k k k

= Pk− Hk∗ .
b − ) est indépendant de
Dans cette dernière égalité, on a de nouveau utilisé le fait que (Xk − Xk
Vk , donc E[(Xk − Xb − ) V ∗ ] = 0. 2
k k

Remarque 3.5 Si la matrice de covariance QVk est inversible, alors a fortiori la matrice de
covariance QIk = Hk Pk− Hk∗ + QVk est inversible, pour tout instant k.

Remarque 3.6 Compte tenu que la distribution de probabilité conditionnelle du vecteur aléa-
toire Yk sachant Y0:k−1 est gaussienne, de moyenne Hk X b − + hk et de matrice de covariance QI ,
k k
et pourvu que la matrice QIk soit inversible, on obtient l’expression suivante

n
Ln = b − + hk ))∗ (QI )−1 (Yk − (Hk X
exp{− 12 (Yk − (Hk X b − + hk )) }
k k k
k=0


n
= exp{− 21 Ik∗ (QIk )−1 Ik } ,
k=0

pour la vraisemblance du modèle, à une constante multiplicative près.

Théorème 3.7 (Filtre de Kalman) On suppose que la matrice de covariance QVk est inver-
bk } et {Pk } vérifient les équations récurrentes
sible, pour tout instant k. Alors les suites {X
suivantes
b − = Fk X
X bk−1 + fk ,
k

Pk− = Fk Pk−1 Fk∗ + QW


k ,
34 CHAPITRE 3. FILTRAGE DE KALMAN

et
X b − + Kk (Yk − (Hk X
bk = X b − + hk )) ,
k k

Pk = (I − Kk Hk ) Pk− ,
où la matrice
Kk = Pk− Hk∗ [Hk Pk− Hk∗ + QVk ]−1 ,
est appelée gain de Kalman, et avec les initialisations
b − = X̄0 = E[X0 ]
X et P0− = QX
0 = cov(X0 ) .
0

Remarque 3.8 Au vu de l’expression développée


Pk = Pk− − Pk− Hk∗ [Hk Pk− Hk∗ + QVk ]−1 Hk Pk− ,
on vérifie aisément que Pk ≤ Pk− , c’est–à–dire que la matrice de covariance de l’erreur de filtrage
est plus petite (au sens des matrices symétriques) que la matrice de covariance de l’erreur de
prédiction, pour tout instant k.

Remarque 3.9 On vérifie que la suite {Pk } ne dépend pas des observations : elle peut donc être
pré–calculée, en particulier dans le cas simple où les coefficients Fk = F , Hk = H, QWk = QW
et QVk = QV sont constants.

Remarque 3.10 Si les coefficients Fk , fk et QW k , et les coefficients Hk et hk dépendent des


observations passées Y0:k−1 , on a indiqué à la Remarque 3.2 que conditionnellement à Y0:k−1
le couple (Xk , Yk ) forme conjointement un vecteur aléatoire gaussien, et on peut vérifier que la
distribution de probabilité conditionnelle du vecteur aléatoire Xk sachant Y0:k est gaussienne,
de moyenne X bk et de matrice de covariance Pk données par les équations du Théorème 3.7 avec
des coefficients dépendant des observations.

Preuve. On procède en plusieurs étapes. Le point central est la Proposition 1.7 qui sera
constamment utilisée.

b0 et P0 en fonction de X
Expression de X b − et P − :
0 0
Le vecteur aléatoire (X0 , Y0 ) est gaussien, de moyenne et de matrice de covariance données
par    
b−
X P0− P0− H0∗
0
  et   ,
b−
H0 X 0 + h0 H0 P0− H0 P0− H0∗ + QV0
respectivement. D’après la Proposition 1.7, la distribution de probabilité conditionnelle du vec-
teur aléatoire X0 sachant Y0 est gaussienne, de moyenne
b0 = X
X b − + P − H0∗ [H0 P − H0∗ + QV0 ]−1 (Y0 − (H0 X
b − + h0 )) ,
0 0 0 0

et de matrice de covariance
P0 = P0− − P0− H0∗ [H0 P0− H0∗ + QV0 ]−1 H0 P0− .
3.2. FILTRE DE KALMAN 35

b − et P − en fonction de X
Expression de X bk−1 et Pk−1 :
k k

Le vecteur aléatoire (Xk , Y0 , · · · , Yk−1 ) est gaussien, et d’après la Proposition 1.7, la distri-
bution de probabilité conditionnelle du vecteur aléatoire Xk sachant Y0:k−1 est gaussienne, de
moyenne Xb − et de matrice de covariance P − . D’après l’équation (3.3), c’est–à–dire
k k

Xk = Fk Xk−1 + fk + Wk ,

on a

b − = E[Xk | Y0:k−1 ] = Fk E[Xk−1 | Y0:k−1 ] + fk + E[Wk | Y0:k−1 ] = Fk X


X bk−1 + fk ,
k

compte tenu que Wk et Yk−1 sont indépendants. Par différence

b − = Fk (Xk−1 − X
Xk − X bk−1 ) + Wk ,
k

de sorte que

b − ) (Xk − X
Pk− = E[(Xk − X b − )∗ ]
k k

bk−1 ) + Wk ) (Fk (Xk−1 − X


= E[(Fk (Xk−1 − X bk−1 ) + Wk )∗ ]

bk−1 ) (Xk−1 − X
= Fk E[(Xk−1 − X bk−1 )∗ ] F ∗ + E[Wk W ∗ ]
k k

bk−1 )∗ ] F ∗ + Fk E[(Xk−1 − X
+ E[Wk (Xk−1 − X bk−1 ) W ∗ ]
k k

= Fk Pk−1 Fk∗ + QW
k .

bk−1 ) est indépendant de Wk , donc


Dans cette dernière égalité, on a utilisé le fait que (Xk−1 − X
E[(Xk−1 − Xbk−1 ) W ] = 0.

k

bk et Pk en fonction de X
Expression de X b − et P − :
k k

Le vecteur aléatoire (Xk , Y0 , · · · , Yk ) est gaussien, et d’après la Proposition 1.7, la distribution


de probabilité conditionnelle du vecteur aléatoire Xk sachant Y0:k est gaussienne, de moyenne
bk et de matrice de covariance déterministe Pk . D’après la Remarque 3.3, on a
X

bk = E[Xk | Y0:k ]
X

b − + E[Xk − X
= X b − | Y0:k ]
k k

b − + E[Xk − X
= X b − | Y0:k−1 , Ik ]
k k

b − + E[Xk − X
= X b − | Ik ] ,
k k
36 CHAPITRE 3. FILTRAGE DE KALMAN

b − ) et Ik sont indépendants de Y0:k−1 , d’après le


compte tenu que les vecteurs aléatoires (Xk − X k
Lemme 3.4. Par différence
bk = (Xk − X
Xk − X b − ) − (X
bk − X
b − ) = (Xk − X
b − ) − E[Xk − X
b − | Ik ] ,
k k k k

de sorte que
bk ) (Xk − X
Pk = E[ (Xk − X bk )∗ ]

b − ) − E[Xk − X
= E[ ((Xk − X b − | Ik ]) ((Xk − X
b − ) − E[Xk − X
b − | Ik ])∗ ] .
k k k k

Pour calculer la moyenne conditionnelle et la matrice de covariance conditionnelle du vecteur


aléatoire Xk sachant Y0:k , il suffit donc de calculer la moyenne conditionnelle et la matrice de
covariance conditionnelle du vecteur aléatoire (Xk − X b − ) sachant Ik . En d’autres termes, pour
k
estimer l’état caché Xk au vu des observations Y0:k il suffit d’estimer de quelle quantité, exprimée
en fonction de l’écart Ik constaté entre la nouvelle observation et l’observation prédite, corriger
l’estimation prédite X b − . C’est de cette propriété que découle la forme récursive du filtre de
k
Kalman. D’après le Lemme 3.4, le vecteur aléatoire (Xk − X b − , Ik ) est gaussien, de moyenne
k
nulle et de matrice de covariance
 
Pk− Pk− Hk∗
  .
− − ∗ V
Hk Pk Hk Pk Hk + Qk
Si la matrice QVk est inversible, alors a fortiori la matrice QIk = Hk Pk− Hk∗ + QVk est inversible,
et d’après la Proposition 1.7 on a immédiatement
bk = X
X b − + P − H ∗ [Hk P − H ∗ + QV ]−1 Ik ,
k k k k k k

et
Pk = Pk− − Pk− Hk∗ [Hk Pk− Hk∗ + QVk ]−1 Hk Pk− ,
ce qui termine la démonstration. 2

3.3 Lisseur de Kalman

On dispose désormais de l’information


Y0:n = (Y0 , Y1 , · · · , Yn ) ,
et l’objectif est d’estimer de façon optimale le vecteur aléatoire Xk à partir de Y0:n , pour un
instant k intermédiaire entre l’instant initial 0 et l’instant final n. Si on adopte le critère du
minimum de variance, il s’agit d’après la Section 1.2 de calculer la distribution de probabilité
conditionnelle du vecteur aléatoire Xk sachant Y0:n . Comme le cadre est gaussien, il suffit de
calculer la moyenne et la matrice de covariance
b n = E[Xk | Y0:n ]
X et b n ) (Xk − X
Pkn = E[(Xk − X b n )∗ | Y0:n ] ,
k k k
bnn = X
et clairement, X bn et Pnn = Pn pour k = n. D’après la Remarque 1.9, la matrice de
covariance conditionnelle Pkn ne dépend pas des observations, c’est–à–dire que
b n ) (Xk − X
Pkn = E[(Xk − X b n )∗ ] .
k k
3.3. LISSEUR DE KALMAN 37

Théorème 3.11 (Lisseur de Kalman (formulation de Rauch–Tung–Striebel)) On sup-


pose que les matrices de covariance QW V
k et Qk sont inversibles, pour tout instant k. Alors les
b } et {P } vérifient les équations récurrentes rétrogrades suivantes
suites {X n n
k k

bn = X
X bk−1 + Lk (X
bn − X
b −) ,
k−1 k k

n
Pk−1 = Pk−1 + Lk (Pkn − Pk− ) L∗k ,

avec la matrice de gain


Lk = Pk−1 Fk∗ (Pk− )−1 ,
et avec les initialisations
bnn = X
X bn et Pnn = Pn .

Remarque 3.12 Au vu de l’expression développée

Pk−1 − Lk Pk− L∗k = Pk−1 − Pk−1 Fk∗ [Fk Pk−1 Fk∗ + QW


k ]
−1
Fk Pk−1 ,

on vérifie que la matrice Pk−1 − Lk Pk− L∗k est semi–définie positive, pour tout instant k. On en
déduit par récurrence arrière que la matrice Pkn (telle qu’elle est définie par l’équation rétrograde
de l’énoncé) est semi–définie positive, pour tout instant k. Par définition, Pnn = Pn , c’est–à–dire
que la relation est vraie au rank k = n. Si la relation est vraie au rang k, c’est–à–dire si la
matrice Pkn est semi–définie positive, alors nécessairement la matrice
n
Pk−1 = Pk−1 + Lk (Pkn − Pk− ) L∗k = (Pk−1 − Lk Pk− L∗k ) + Lk Pkn L∗k ,

aussi est semi–définie positive, c’est–à–dire que la relation est vraie au rang (k − 1).

Remarque 3.13 On vérifie par récurrence arrière que Pkn ≤ Pk , c’est–à–dire que la matrice de
covariance de l’erreur de lissage est plus petite (au sens des matrices symétriques) que la matrice
de covariance de l’erreur de filtrage, pour tout instant k. Par définition Pnn = Pn , c’est–à–dire
que la relation est vraie au rank k = n. Si la relation est vraie au rang k, c’est–à–dire si Pkn ≤ Pk ,
alors nécessairement Pkn ≤ Pk− compte tenu que Pk ≤ Pk− d’après la Remarque 3.8. En d’autres
termes, la différence (Pkn − Pk− ) est semi–définie négative, de sorte que la différence
n
Pk−1 − Pk−1 = Lk (Pkn − Pk− ) L∗k ,
n
aussi est semi–définie négative. En d’autres termes, Pk−1 ≤ Pk−1 , c’est–à–dire que la relation
est vraie au rang (k − 1).

Preuve. On remarque que le vecteur aléatoire Yk peut s’exprimer comme transformation affine
du vecteur aléatoire (Xk , Vk ), et donc a fortiori comme transformation affine du vecteur aléatoire
b − , Vk ). De même, le vecteur aléatoire Yk+p peut s’exprimer comme transformation
(Y0:k−1 , Xk − Xk
affine du vecteur aléatoire (Xk+p , Vk+p ), et par transitivité comme transformation affine du
vecteur aléatoire (Xk , Wk+1 , · · · , Wk+p , Vk+p ), et donc a fortiori comme transformation affine
du vecteur aléatoire (Y0:k−1 , Xk − X b − , Wk+1 , · · · , Wk+p , Vk+p ). On en déduit que le vecteur
k
aléatoire Y0:n = (Y0:k−1 , Yk , · · · , Yn ) peut s’exprimer comme transformation affine du vecteur
38 CHAPITRE 3. FILTRAGE DE KALMAN

b − , Zk+1:n ) où Zk+1:n = (Wk+1 , · · · , Wn , Vk , Vk+1 , · · · , Vn ) par définition.


aléatoire (Y0:k−1 , Xk − X k
Les vecteurs aléatoires Y0:k−1 , Xk − X b − et Zk+1:n sont mutuellement indépendants, et il résulte
k
de la Remarque 1.11 que

n
Uk−1 b − , Zk+1:n ]
= E[Xk−1 | Y0:k−1 , Xk − X k

bk−1 + E[Xk−1 − X
= X bk−1 | Y0:k−1 , Xk − X
b − , Zk+1:n ]
k

bk−1 + E[Xk−1 − X
= X bk−1 | Y0:k−1 ] + E[Xk−1 − X
bk−1 | Xk − X
b −]
k

bk−1 | Zk+1:n ]
+ E[Xk−1 − X

bk−1 + E[Xk−1 − X
= X bk−1 | Xk − X
b −] ,
k

compte tenu que E[Xk−1 − X bk−1 | Y0:k−1 ] = 0 par définition, et où on a utilisé dans la dernière
b
égalité le fait que (Xk−1 − Xk−1 ) est indépendant de Zk+1:n , donc E[Xk−1 − X bk−1 | Zk+1:n ] = 0.
Par différence

Xk−1 − Uk−1
n bk−1 ) − (U n − X
= (Xk−1 − X bk−1 )
k−1

bk−1 ) − E[Xk−1 − X
= (Xk−1 − X bk−1 | Xk − X
b −] ,
k

de sorte que

E[(Xk−1 − Uk−1
n
) (Xk−1 − Uk−1
n
)∗ ]

bk−1 ) − E[Xk−1 − X
= E[ ((Xk−1 − X bk−1 | Xk − X
b − ])
k

bk−1 ) − E[Xk−1 − X
((Xk−1 − X bk−1 | Xk − X
b − ])∗ ] .
k

Pour calculer la moyenne conditionnelle et la matrice de covariance conditionnelle du vecteur


aléatoire Xk−1 sachant (Y0:k−1 , Xk − X b − , Zk+1:n ), il suffit donc de calculer la moyenne condi-
k
tionnelle et la matrice de covariance conditionnelle du vecteur aléatoire (Xk−1 − X bk−1 ) sachant
b − b
(Xk − Xk ). D’après la Remarque 1.10, l’état estimé Xk−1 = E[Xk−1 | Y0:k−1 ] et l’état prédit
Xb − = E[Xk | Y0:k−1 ] dépendent de façon affine des observations passées (Y0 , · · · , Yk−1 ), de sorte
k
que le vecteur aléatoire (Xk−1 − X bk−1 , Xk − Xb − ) dépend de façon affine du vecteur aléatoire
k
(Y0 , · · · , Yk−1 , Xk−1 , Xk ). On en déduit que le vecteur aléatoire (Xk−1 − X bk−1 , Xk − X b − ) est
k
gaussien, comme transformation affine d’un vecteur aléatoire gaussien. Par différence

b − = Fk (Xk−1 − X
Xk − X bk−1 ) + Wk ,
k
3.3. LISSEUR DE KALMAN 39

de sorte que
bk−1 ) (Xk − X
E[(Xk−1 − X b − )∗ ]
k

bk−1 ) (Fk (Xk−1 − X


= E[(Xk−1 − X bk−1 ) + Wk )∗ ]

bk−1 ) (Xk−1 − X
= E[(Xk−1 − X bk−1 )∗ ] F ∗ + E[(Xk−1 − X
bk−1 ) W ∗ ]
k k

= Pk−1 Fk∗ .

Dans cette dernière égalité, on a utilisé le fait que (Xk−1 − Xbk−1 ) et Wk sont indépendants, donc
b ∗
E[(Xk−1 − Xk−1 ) Wk ] = 0. On en déduit que le vecteur aléatoire gaussien (Xk−1 − X bk−1 , Xk − X
b −)
k
est de moyenne nulle et de matrice de covariance
 
Pk−1 Pk−1 Fk∗
  .

Fk Pk−1 Pk

Par hypothèse la matrice Pk− est inversible, et d’après la Proposition 1.7 on a immédiatement
n
Uk−1 bk−1 + Pk−1 F ∗ (P − )−1 (Xk − X
=X b −) = X
bk−1 + Lk (Xk − X
b −) ,
k k k k

et

E[(Xk−1 − Uk−1
n
) (Xk−1 − Uk−1
n
)∗ ] = Pk−1 − Pk−1 Fk∗ (Pk− )−1 Fk Pk−1 = Pk−1 − Lk Pk− L∗k .

b − , Zk+1:n ) contient davantage d’information que Y0:n , de sorte


On rappelle que (Y0:k−1 , Xk − X k
que
b n = E[Xk−1 | Y0:n ] = E[U n | Y0:n ] = X
X bk−1 + Lk (Xbn − Xb −) .
k−1 k−1 k k
Par différence
b n = (Xk−1 − U n ) + (U n − X
Xk−1 − X bn ) et n
Uk−1 b n = Lk (Xk − X
−X b n) ,
k−1 k−1 k−1 k−1 k−1 k

de sorte que
n
Pk−1 b n ) (Xk−1 − X
= E[ (Xk−1 − X b n )∗ ]
k−1 k−1

= E[ ((Xk−1 − Uk−1
n n
) + (Uk−1 b n )) ((Xk−1 − U n ) + (U n − X
−X b n ))∗ ]
k−1 k−1 k−1 k−1

= E[ (Xk−1 − Uk−1
n
) (Xk−1 − Uk−1
n
)∗ ] + E[ (Uk−1
n b n ) (U n − X
−X b n )∗ ]
k−1 k−1 k−1

+ E[ (Uk−1
n b n ) (Xk−1 − U n )∗ ] + E[ (Xk−1 − U n ) (U n − X
−X b n )∗ ]
k−1 k−1 k−1 k−1 k−1

= (Pk−1 − Lk Pk− L∗k ) + Lk Pkn L∗k .

Dans cette dernière égalité, on a utilisé le fait que


40 CHAPITRE 3. FILTRAGE DE KALMAN

• (Uk−1
n b n ) dépend de (Y0:k−1 , Xk − X
−X b − , Zk+1:n ),
k−1 k

• et E[Xk−1 − Uk−1
n b − , Zk+1:n ] = 0 par définition,
| Y0:k−1 , Xk − X k

donc E[ (Xk−1 − Uk−1 bn ∗


k−1 − Xk−1 ) ] = 0. 2
n ) (U n

b n ) et
Proposition 3.14 La matrice de corrélation Ckn entre les erreurs de lissage (Xk−1 − Xk−1
b n ) à deux instants successifs vérifie la relation suivante
(Xk − X k

b n ) (Xk − X
Ckn = E[ (Xk−1 − X b n )∗ ] = Lk P n .
k−1 k k

Preuve. On rappelle que


b n = (Xk−1 − U n ) + Lk (Xk − X
Xk−1 − X b n) ,
k−1 k−1 k

de sorte que
b n ) (Xk − X
Ckn = E[ (Xk−1 − X b n )∗ ]
k−1 k

= E[ (Xk−1 − Uk−1
n b n )∗ ] + Lk E[ (Xk − X
) (Xk − X b n ) (Xk − X
b n )∗ ]
k k k

= Lk Pkn .

Dans cette dernière égalité, on a utilisé le fait que

b n ) = (Xk − X
• (Xk − X b − ) + (X
b− − X
b n ) dépend de (Y0:k−1 , Xk − X
b − , Zk+1:n ),
k k k k−1 k

• et E[Xk−1 − Uk−1
n b − , Zk+1:n ] = 0 par définition,
| Y0:k−1 , Xk − X k

donc E[ (Xk−1 − Uk−1 b n )∗ ] = 0.


n ) (X − X
k 2
k

Il existe plusieurs formulations équivalentes pour le lissage de Kalman, et on présente ci–


dessous une formulation alternative, qui ne fait pas l’hypothèse que la matrice de covariance

QWk est inversible, et qui n’utilise pas l’inverse de la matrice de covariance Pk .
Pour tout k = 1, · · · , n, on introduit les variables
bn − X
rk−1 = Fk∗ (Pk− )−1 (X b −) et Πk−1 = −Fk∗ (Pk− )−1 (Pkn − Pk− ) (Pk− )−1 Fk ,
k k

et on pose rn = 0 et Πn = 0 par convention. On rappelle que la différence (Pkn − Pk− ) est


semi–définie négative, de sorte que la matrice Πk−1 est semi–définie positive. Clairement
bn = X
X bk + Lk+1 (X
bn − Xb− )
k k+1 k+1

bk + Pk F ∗ (P − )−1 (X
= X bn − Xb− )
k+1 k+1 k+1 k+1

bk + Pk rk ,
= X
3.3. LISSEUR DE KALMAN 41

et de même

Pkn = Pk + Lk+1 (Pk+1
n
− Pk+1 ) L∗k+1

∗ − − −
= Pk + Pk Fk+1 (Pk+1 )−1 (Pk+1
n
− Pk+1 ) (Pk+1 )−1 Fk+1 Pk

= Pk − Pk Πk Pk ,

de sorte que le lisseur de Kalman X b n et la matrice de covariance d’erreur de lissage P n s’ex-


k k
priment comme
bn = X
X bk + Pk rk et Pkn = Pk − Pk Πk Pk , (3.6)
k

en fonction du filtre de Kalman X bk , de la matrice de covariance d’erreur de filtrage Pk , et des


variables rk et Πk , respectivement. On pose

Ξk = [Hk Pk− Hk∗ + QVk ]−1 de sorte que Kk = Pk− Hk∗ Ξk ,

pour tout k = 0, 1, · · · , n.

Théorème 3.15 (Lisseur de Kalman (formulation de Fraser–Potter)) On suppose que


b n } et {P n }
la matrice de covariance QVk est inversible, pour tout instant k. Alors les suites {X k k
sont données par les expressions suivantes
bn = X
X bk + Pk rk et Pkn = Pk − Pk Πk Pk ,
k

où les suites {rk } et {Πk } vérifient les équations récurrentes rétrogrades suivantes
b − + hk )) ,
rk− = (I − Kk Hk )∗ rk + Hk∗ Ξk (Yk − (Hk X k

Π− ∗ ∗
k = (I − Kk Hk ) Πk (I − Kk Hk ) + Hk Ξk Hk ,

et
rk−1 = Fk∗ rk− et Πnk−1 = Fk∗ Π−
k Fk ,

avec les initialisations


rn = 0 et Πn = 0 .

Preuve. On rappelle que

Pk = (I − Kk Hk ) Pk− = Pk− (I − Kk Hk )∗ ,

de sorte que

Pk (Pk− )−1 = I − Kk Hk et (Pk− )−1 Pk = (I − Kk Hk )∗ , (3.7)

et par définition
Kk = Pk− Hk∗ Ξk ,
42 CHAPITRE 3. FILTRAGE DE KALMAN

de sorte que
(Pk− )−1 Kk = Hk∗ Ξk . (3.8)
D’après l’étape de correction du filtre de Kalman, on a
bk = X
X b − + Kk (Yk − (Hk X
b − + hk )) ,
k k

de sorte que
bn − X
X b− = X
bk − X
b − + Pk rk = Kk (Yk − (Hk X
b − + hk )) + Pk rk ,
k k k k

et en reportant cette expression dans la définition de la variable rk−1 , on obtient


bn − X
rk−1 = Fk∗ (Pk− )−1 (X b −)
k k

b − + hk )) ]
= Fk∗ (Pk− )−1 [ Pk rk + Kk (Yk − (Hk Xk

b − + hk )) ] ,
= Fk∗ [ (I − Kk Hk )∗ rk + Hk∗ Ξk (Yk − (Hk Xk

compte tenu des identités (3.7) et (3.8). D’après l’étape de correction du filtre de Kalman, on a

Pk = Pk− − Pk− Hk∗ Ξk Hk Pk− ,

de sorte que

Pkn − Pk− = Pk − Pk− − Pk Πk Pk = −Pk− Hk∗ Ξk Hk Pk− − Pk Πk Pk ,

et en reportant cette expression dans la définition de la variable Πk−1 , on obtient

Πk−1 = −Fk∗ (Pk− )−1 (Pkn − Pk− ) (Pk− )−1 Fk

= Fk∗ (Pk− )−1 [ Pk Πk Pk + Pk− Hk∗ Ξk Hk Pk− ] (Pk− )−1 Fk

= Fk∗ [ (I − Kk Hk )∗ Πk (I − Kk Hk ) + Hk∗ Ξk Hk ] Fk ,

compte tenu de l’identité (3.8). 2


Les deux formulations partagent la même phase aller, qui comprend le calcul du filtre de
Kalman X bk et de la matrice de covariance d’erreur de filtrage Pk . Une condition nécessaire
pour cette phase aller est l’inversibilité de la matrice de covariance QIk = Hk Pk− Hk∗ + QVk de
dimension d × d, et une condition suffisante est l’inversibilité de la matrice de covariance QVk ,
une donnée du problème. Le calcul de la matrice inverse n’est pas nécessaire, mais la résolution
de systèmes linéaires de dimension d de la forme QIk y = b est requise, et passe par exemple par
la décomposition de Cholesky de la matrice QIk .
Dans la formulation de Rauch–Tung–Striebel, qui fait l’objet du Théorème 3.11, une condition
nécessaire pour la phase retour est l’inversibilité de la matrice de covariance Pk− = Fk Pk−1 Fk∗ +
QWk de dimension m×m, et une condition suffisante est l’inversibilité de la matrice de covariance
QWk , une donnée du problème. Le calcul de la matrice inverse n’est pas nécessaire, mais la
3.3. LISSEUR DE KALMAN 43

résolution de systèmes linéaires de dimension m de la forme Pk− x = b est requise, et passe par
exemple par la décomposition de Cholesky de la matrice Pk− . L’équation récurrente rétrograde
pour le calcul du lisseur X b n utilise les valeurs numériques du filtre X bk−1 et de la matrice de
k−1
covariance d’erreur de filtrage Pk−1 (à partir desquelles il est facile de reconstruire les valeurs
numériques du prédicteur X b − et de la matrice de covariance d’erreur de prédiction P − ). Ces
k k
valeurs numériques sont calculées dans la phase aller, et doivent donc être conservées en mémoire
pour être utilisées dans la phase retour. En revanche, cette équation récurrente rétrograde pour le
calcul du lisseur X b n n’utilise ni la valeur numérique de l’observation Yk ni celle de l’innovation
k−1
Ik = Yk − (Hk X b − + hk ).
k

Dans la formulation de Fraser–Potter, qui fait l’objet du Théorème 3.15, il n’y a pas de condition
nécessaire d’inversibilité pour la phase retour qui ne soit pas déjà nécessaire pour la phase aller.
Les expressions (3.6) pour le lisseur X b n et pour la matrice de covariance d’erreur de lissage P n
k k
utilisent les valeurs numériques du filtre X bk et de la matrice de covariance d’erreur de filtrage
Pk . Ces valeurs numériques sont calculées dans la phase aller, et doivent donc être conservées en
mémoire pour être utilisées dans la phase retour. L’équation récurrente rétrograde pour le calcul
de la variable rk utilise la valeur numérique de l’observation Yk ou de manière équivalente celle
de l’innovation Ik = Yk − (Hk X b − + hk ). Ces valeurs numériques sont calculées dans la phase
k
aller, et doivent donc être conservées en mémoire pour être utilisées dans la phase retour.
En conclusion :

• les deux formulations requièrent dans la phase aller une même condition d’inversibilité et
l’inversion de systèmes linéaires de dimension d,

• la formulation de Rauch–Tung–Striebel requiert dans la phase retour une condition d’in-


versibilité supplémentaire et l’inversion de systèmes linéaires de dimension m, tandis que la
formulation de Fraser–Potter ne requiert aucune condition d’inversibilité supplémentaire,

• les deux formulations utilisent dans la phase retour les valeurs numériques du filtre et de
la matrice de covariance d’erreur de filtrage — ces valeurs numériques sont calculées dans
la phase aller, et doivent donc être conservées en mémoire pour être utilisées dans la phase
retour,

• la formulation de Fraser–Potter utilise dans la phase retour la valeur numérique de l’ob-


servation ou de manière équivalente celle de l’innovation, tandis que la formulation de
Rauch–Tung–Striebel n’utilise aucune de ces valeurs numériques — ces valeurs numériques
sont calculées dans la phase aller, et doivent donc être conservées en mémoire pour être
utilisées dans la phase retour.

Remarque 3.16 Il est également possible d’obtenir une équation récurrente pour le lisseur,
dans le sens direct (et pas dans le sens rétrograde) et autonome (ne faisant pas intervenir ni le
filtre ni la matrice de covariance de l’erreur de filtrage). Par différence, on obtient

b n − Fk X
X bn = Xbk + Pk rk − Fk (X
bk−1 + Pk−1 rk−1 )
k k−1

bk − Fk X
= (X bk−1 ) + (Pk rk − Fk Pk−1 rk−1 ) .
44 CHAPITRE 3. FILTRAGE DE KALMAN

D’après l’étape de correction du filtre de Kalman, on a


b k − Fk X
X bk−1 = X
bk − X
b − = Kk (Yk − (Hk X
b − + hk )) ,
k k

et on remarque que
b − + hk )) ]
Pk− rk− = Pk− [ (I − Kk Hk )∗ rk + Hk∗ Ξk (Yk − (Hk X k

b − + hk )) ,
= Pk rk + Kk (Yk − (Hk X k

compte tenu des identités

Pk− (I − Kk Hk )∗ = Pk et Pk− Hk∗ Ξk = Kk ,

de sorte que
bk − Fk X
(X bk−1 ) + (Pk rk − P − r− ) = 0 .
k k

D’autre part

Pk rk − Fk Pk−1 rk−1 = Pk rk − Fk Pk−1 Fk∗ rk−

= Pk rk − (Pk− − QW −
k ) rk

= (Pk rk − Pk− rk− ) + QW −


k rk .

On en déduit que

X b n + (X
b n = Fk X bk−1 ) + (Pk rk − Fk Pk−1 rk−1 )
bk − Fk X
k k−1

b n + (X
= Fk X bk − Fk X
bk−1 ) + (Pk rk − P − r− ) + QW r−
k−1 k k k k

b n + QW r− ,
= Fk X k−1 k k

c’est–à–dire qu’on obtient une équation récurrente, dans le sens direct, et faisant seulement
intervenir la variable rk− .
Chapitre 4

Extensions aux systèmes


non–linéaires

On considère une suite d’états cachés {Xk } à valeurs dans Rm , vérifiant

Xk = bk (Xk−1 ) + σk (Xk−1 ) Wk , (4.1)

où {Wk } prend ses valeurs dans Rp , et une suite d’observations {Yk } à valeurs dans Rd , vérifiant

Yk = hk (Xk ) + Vk , (4.2)

et on suppose que

• la condition initiale X0 est gaussienne, de moyenne X̄0 et de matrice de covariance QX


0 ,

• la suite {Wk } est un bruit blanc gaussien, de matrice de covariance identité,

• la suite {Vk } est un bruit blanc gaussien, de matrice de covariance QVk inversible,

• les suites {Wk } et {Vk } et la condition initiale X0 sont mutuellement indépendants.

La signification du modèle (4.1) est la suivante

• même si l’état Xk−1 = x est connu exactement à l’instant (k − 1), on peut seulement dire
que l’état Xk à l’instant k est incertain, et distribué comme un vecteur aléatoire gaussien,
de moyenne bk (x) et de matrice de covariance σk (x) σk∗ (x).

La plupart des propriétés obtenues à la Section 3.1 ne sont pas vraies pour le système décrit
par les équations (4.1) et (4.2). En particulier, le processus {Zk = (Xk , Yk )} n’est pas gaussien (ni
même conditionnellement gaussien), et les moments conditionnels de Xk sachant Y0:k ne peuvent
pas être calculés de manière simple. Deux approches pragmatiques sont présentées dans ce cha-
pitre, qui permettent d’obtenir des estimateurs sous–optimaux, c’est–à–dire qui n’atteignent
pas nécessairement le minimum de l’erreur quadratique moyenne, mais qui sont néanmoins très
largement utilisés en pratique. La première approche présentée à la Section 4.1 repose sur des

45
46 CHAPITRE 4. EXTENSIONS AUX SYSTÈMES NON–LINÉAIRES

techniques de linéarisation, et donne lieu au filtre de Kalman linéarisé et au filtre de Kalman


étendu. La deuxième approche présentée à la Section 4.2 repose sur des techniques d’approxi-
mation gaussienne et de quadrature numérique, et donne lieu au filtre de Kalman dit unscented .
Dans les chapitres suivants, on abandonnera ce point de vue de lineéarisation ou d’approximation
gaussienne, et on s’attachera d’abord à caractériser la distribution de probabilité conditionnelle
de l’état caché sachant les observations, soit par une représentation probabiliste, soit par une
équation récurrente dans l’espace des distributions de probabilité, et on proposera ensuite des
approximations numériques reposant sur méthodes de simulation de type Monte Carlo.

4.1 Filtre de Kalman linéarisé, filtre de Kalman étendu

On considère le système non linéaire

Xk = bk (Xk−1 ) + σk (Xk−1 ) Wk ,
(4.3)
Yk = hk (Xk ) + Vk ,

et on suppose que les fonctions bk et hk sont dérivables. En linéarisant le système (4.3) autour
d’une suite déterministe donnée, ou bien autour de l’estimateur courant, on peut obtenir des
algorithmes sous–optimaux, qui sont décrits ci–dessous.

Filtre de Kalman linéarisé

On se donne une suite (déterministe) {x̄k } à valeurs dans Rm , appelée trajectoire nominale (on
peut prendre par exemple x̄k comme une approximation de la moyenne de Xk ). La méthode
consiste à linéariser les fonctions bk et σk autour de x̄k−1 , c’est–à–dire

bk (x) ≃ bk (x̄k−1 ) + b′k (x̄k−1 ) (x − x̄k−1 ) et σk (x) ≃ σk (x̄k−1 ) ,

et la fonction hk autour de x̄k , c’est–à–dire

hk (x) ≃ hk (x̄k ) + h′k (x̄k ) (x − x̄k ) .

Le système non–linéaire (4.3) est alors remplacé par le système linéaire gaussien

Xk = FkL Xk−1 + fkL + WkL ,

Yk = HkL Xk + hLk + Vk ,

avec
FkL = b′k (x̄k−1 ) et fkL = −b′k (x̄k−1 ) x̄k−1 + bk (x̄k−1 ) ,

et avec
HkL = h′k (x̄k ) et hLk = −h′k (x̄k ) x̄k + hk (x̄k ) .
4.1. FILTRE DE KALMAN LINÉARISÉ, FILTRE DE KALMAN ÉTENDU 47

Ici, le vecteur aléatoire WkL = σk (x̄k−1 ) Wk est gaussien, centré et de matrice de covariance
QLk = σk (x̄k−1 ) σk∗ (x̄k−1 ). On applique alors exactement le filtre de Kalman à ce nouveau système,
et on obtient l’algorithme sous–optimal suivant
b − = bk (x̄k−1 ) + b′ (x̄k−1 ) (X
X bk−1 − x̄k−1 ) ,
k k

Pk− = b′k (x̄k−1 ) Pk−1 (b′k (x̄k−1 ))∗ + σk (x̄k−1 ) σk∗ (x̄k−1 ) ,

et
bk = X
X b − + Kk (Yk − (hk (x̄k ) + h′ (x̄k ) (X
b − − x̄k ))) ,
k k k

Pk = (I − Kk h′k (x̄k )) Pk− ,

avec la matrice de gain

Kk = Pk− (h′k (x̄k ))∗ [ h′k (x̄k ) Pk− (h′k (x̄k ))∗ + QVk ]−1 .

A la place de la première et la troisième de ces équations, on peut utiliser


b − = bk (X
X bk−1 ) ,
k

bk = X
X b − + Kk (Yk − hk (X
b − )) .
k k

b − et P − de telle sorte que N(X


On choisit l’initialisation X b − , P − ) soit une bonne approximation
0 0 0 0
de la distribution de probabilité du vecteur aléatoire X0 .

Filtre de Kalman étendu

Au lieu de linéariser autour d’une trajectoire nominale déterministe {x̄k }, on peut utiliser l’es-
bk−1 , c’est–
timateur courant. La méthode consiste à linéariser les fonctions bk et σk autour de X
à–dire
bk−1 ) + b′ (X
bk (x) ≃ bk (X bk−1 ) (x − X
bk−1 ) et bk−1 ) ,
σk (x) ≃ σk (X
k

b − , c’est–à–dire
et à linéariser la fonction hk autour de X k

b − ) + h′ (X
hk (x) ≃ hk (X b − ) (x − X
b −) .
k k k k

Le système non–linéaire (4.3) est alors remplacé par le système conditionnellement linéaire
gaussien

Xk = FkL Xk−1 + fkL + WkL ,

Yk = HkL Xk + hLk + Vk ,

avec
bk−1 )
FkL = b′k (X et bk−1 ) X
fkL = −b′k (X bk−1 + bk (X
bk−1 ) ,
48 CHAPITRE 4. EXTENSIONS AUX SYSTÈMES NON–LINÉAIRES

et avec
b −)
HkL = h′k (X et b −) X
hLk = −h′k (X b − + hk (X
b −) ,
k k k k

et on remarque que
bk−1 + f L = bk (X
FkL X bk−1 ) et b − + hL = hk (X
HkL X b −) .
k k k k

Conditionnellement à Y0:k−1 , le vecteur aléatoire WkL = σk (X bk−1 ) Wk est gaussien, centré et de


matrice de covariance conditionnelle QLk = σk (X bk−1 ). On remarque que les coefficients
bk−1 ) σ ∗ (X
k
L L L L L
Fk , fk et Qk , et les coefficients Hk et hk dépendent des observations passées Y0:k−1 . On applique
alors exactement le filtre de Kalman à ce nouveau système, et au vu de la Remarque 3.10 on
obtient l’algorithme sous–optimal suivant
b − = bk (X
X bk−1 ) ,
k

bk−1 ) Pk−1 (b′ (X


Pk− = b′k (X bk−1 ))∗ + σk (X
bk−1 ) σ ∗ (X
bk−1 ) ,
k k

et
bk = X
X b − + Kk (Yk − hk (X
b − )) ,
k k

b − )) P − ,
Pk = (I − Kk h′k (X k k

avec la matrice de gain


b − ))∗ [h′ (X
Kk = Pk− (h′k (X b − ) P − (h′ (X
b − ))∗ + QV ]−1 .
k k k k k k k

b − et P − de telle sorte que N(X


On choisit l’initialisation X b − , P − ) soit une bonne approximation
0 0 0 0
de la distribution de probabilité du vecteur aléatoire X0 .

Remarque 4.1 Dans cet algorithme, la suite {Pk } dépend des observations, et ne peut donc
pas être pré–calculée.

4.2 Filtre de Kalman unscented

On considère à nouveau le système non linéaire (4.3), c’est–à–dire

Xk = bk (Xk−1 ) + σk (Xk−1 ) Wk ,

Yk = hk (Xk ) + Vk ,

et on ne suppose plus que les fonctions bk et hk sont dérivables, mais on suppose que les fonctions
bk , hk et σk et certaines fonctions associées, peuvent être intégrées par rapport à certaines
distributions de probabilité gaussiennes.
Au lieu de s’appuyer sur une linéarisation des fonctions autour de l’estimateur courant, on
se propose ici
4.2. FILTRE DE KALMAN UNSCENTED 49

• de remplacer les différentes distributions de probabilité conditionnelles par des distribu-


tions de probabilité gaussiennes ayant même moyenne et même matrice de covariance,
• d’utiliser des formules de quadrature, développées initialement pour le calcul numérique
d’intégrales, pour approcher ces moyennes et ces matrices de covariance conditionnelles.

Le premier point peut s’interpréter comme une projection, au sens de la distance de Kullback–
Leibler, sur la famille des distributions de probabilité gaussiennes.
▶ Le calcul des deux premiers moments (moyenne et matrice de covariance) de la distribution
de probabilité conditionnelle µ− k (dx) = P[Xk ∈ dx | Y0:k−1 ], c’est–à–dire le calcul de la moyenne
conditionnelle et de la matrice de covariance conditionnelle du vecteur aléatoire Xk sachant
Y0:k−1 , est facile. Par définition
b − = E[Xk | Y0:k−1 ]
X k

= E[bk (Xk−1 ) | Y0:k−1 ] + E[σk (Xk−1 ) Wk | Y0:k−1 ]



= bk (x) µk−1 (dx) ,
Rm
compte tenu que
E[σk (Xk−1 ) Wk | Y0:k−1 ] = E[ E[σk (Xk−1 ) Wk | Xk−1 , Y0:k−1 ] | Y0:k−1 ]

= E[σk (Xk−1 ) E[Wk | Xk−1 , Y0:k−1 ] | Y0:k−1 ] = 0 ,


où on a utilisé dans la dernière égalité l’indépendance de (Y0 , · · · , Yk−1 , Xk−1 ) et de Wk , donc
E[Wk | Xk−1 , Y0:k−1 ] = 0. Par différence
b − = (bk (Xk−1 ) − X
Xk − X b − ) + σk (Xk−1 ) Wk ,
k k

de sorte que
b − ) (Xk − X
Pk− = E[ (Xk − X b − )∗ | Y0:k−1 ]
k k

b − ) + σk (Xk−1 ) Wk ) ((bk (Xk−1 ) − X


= E[ ((bk (Xk−1 ) − X b − ) + σk (Xk−1 ) Wk )∗ | Y0:k−1 ]
k k

b − ) (bk (Xk−1 ) − X
= E[ (bk (Xk−1 ) − X b − )∗ | Y0:k−1 ]
k k

b − )∗ | Y0:k−1 ]
+ E[σk (Xk−1 ) Wk (bk (Xk−1 ) − X k

b − ) W ∗ σ ∗ (Xk−1 ) | Y0:k−1 ]
+ E[ (bk (Xk−1 ) − X k k k

+ E[σk (Xk−1 ) Wk Wk∗ σk∗ (Xk−1 ) | Y0:k−1 ]


∫ ∫
= b − ) (bk (x) − X
(bk (x) − X b − )∗ µk−1 (dx) + σk (x) σk∗ (x) µk−1 (dx) ,
k k
Rm Rm
50 CHAPITRE 4. EXTENSIONS AUX SYSTÈMES NON–LINÉAIRES

compte tenu que


E[σk (Xk−1 ) Wk Wk∗ σk∗ (Xk−1 ) | Y0:k−1 ]

= E[ E[σk (Xk−1 ) Wk Wk∗ σk∗ (Xk−1 ) | Xk−1 , Y0:k−1 ] | Y0:k−1 ]

= E[ σk (Xk−1 ) E[Wk Wk∗ | Xk−1 , Y0:k−1 ] σk∗ (Xk−1 ) | Y0:k−1 ]

= E[ σk (Xk−1 ) σk∗ (Xk−1 ) | Y0:k−1 ] ,


où on a utilisé dans la dernière égalité l’indépendance de (Y0 , · · · , Yk−1 , Xk−1 ) et de Wk , donc
E[Wk Wk∗ | Xk−1 , Y0:k−1 ] = I, et compte tenu que
b − )∗ | Y0:k−1 ]
E[σk (Xk−1 ) Wk (bk (Xk−1 ) − Xk

b − )∗ | Xk−1 , Y0:k−1 ] | Y0:k−1 ]


= E[ E[σk (Xk−1 ) Wk (bk (Xk−1 ) − X k

b − )∗ | Y0:k−1 ] = 0 ,
= E[σk (Xk−1 ) E[Wk | Xk−1 , Y0:k−1 ] (bk (Xk−1 ) − X k

où on a encore utilisé dans la dernière égalité l’indépendance de (Y0 , · · · , Yk−1 , Xk−1 ) et de Wk ,
donc E[Wk | Xk−1 , Y0:k−1 ] = 0.
▶ En revanche, le calcul des deux premiers moments (moyenne et matrice de covariance) de
la distribution de probabilité conditionnelle µk (dx) = P[Xk ∈ dx | Y0:k ], c’est–à–dire le calcul
de la moyenne conditionnelle et de la matrice de covariance conditionnelle du vecteur aléatoire
Xk sachant Y0:k , n’est pas immédiat, et on commence par le calcul des deux premiers moments
(moyenne et matrice de covariance) de la distribution de probabilité conditionnelle jointe du
vecteur aléatoire (Xk , Yk ) sachant Y0:k−1 , qui est plus facile. On rappelle que

b −
Xk = bk (x) µk−1 (dx) ,
Rm

a déjà été obtenu plus haut, et par définition


Ybk− = E[Yk | Y0:k−1 ]

= E[hk (Xk ) | Y0:k−1 ] + E[Vk | Y0:k−1 ]



= hk (x) µ−
k (dx) .
Rm

On rappelle que
∫ ∫
Pk− = b − ) (bk (x) − X
(bk (x) − X b − )∗ µk−1 (dx) + σk (x) σk∗ (x) µk−1 (dx) ,
k k
Rm

a déjà été obtenu plus haut, et par différence


Yk − Ybk− = (hk (Xk ) − Ybk− ) + Vk ,
4.2. FILTRE DE KALMAN UNSCENTED 51

de sorte que

Ξk = E[ (Yk − Ybk− ) (Yk − Ybk− )∗ | Y0:k−1 ]

= E[ ((hk (Xk ) − Ybk− ) + Vk ) ((hk (Xk ) − Ybk− ) + Vk )∗ | Y0:k−1 ]

= E[ (hk (Xk ) − Ybk− ) (hk (Xk ) − Ybk− )∗ | Y0:k−1 ] + E[Vk Vk∗ | Y0:k−1 ]

+ E[ (hk (Xk ) − Ybk− ) Vk∗ | Y0:k−1 ]

+ E[Vk (hk (Xk ) − Ybk− )∗ | Y0:k−1 ]



= (hk (x) − Ybk− ) (hk (x) − Ybk− )∗ µ− V
k (dx) + Qk ,
Rm

compte tenu que

E[Vk (hk (Xk ) − Ybk− )∗ | Y0:k−1 ]

= E[ E[Vk (hk (Xk ) − Ybk− )∗ | Xk , Y0:k−1 ] | Y0:k−1 ]

= E[ E[Vk | Xk , Y0:k−1 ] (hk (Xk ) − Ybk− )∗ | Y0:k−1 ] = 0 .

où on a utilisé dans la dernière égalité l’indépendance de (Y0 , · · · , Yk−1 , Xk ) et de Vk , donc


E[Vk | Xk , Y0:k−1 ] = 0, et

b − ) (Yk − Yb − )∗ | Y0:k−1 ]
Ck = E[ (Xk − Xk k

b − ) (hk (Xk ) − Yb − )∗ | Y0:k−1 ] + E[ (Xk − X


= E[ (Xk − X b − ) V ∗ | Y0:k−1 ]
k k k k


= b − ) (hk (x) − Yb − )∗ µ− (dx) .
(x − X k k k
Rm

On remplace la distribution de probabilité conditionnelle jointe du vecteur aléatoire (Xk , Yk )


sachant Y0:k−1 par la distribution de probabilité gaussienne de moyenne et de matrice de cova-
riance  −  − 
Xb P k Ck
k
  et   ,
b
Yk − C ∗
k Ξk

respectivement. Si la matrice QVk est inversible, alors a fortiori la matrice Ξk est inversible, et
d’après la Proposition 1.7 on obtient immédiatement les approximations suivantes

bk = X
X b − + Ck Ξ−1 (Yk − Yb − ) et Pk = Pk− − Ck Ξ−1 ∗
k k k k Ck ,
52 CHAPITRE 4. EXTENSIONS AUX SYSTÈMES NON–LINÉAIRES

pour les deux premiers moments de la distribution de probabilité conditionnelle µk , c’est–à–dire


pour la moyenne conditionnelle et de la matrice de covariance conditionnelle du vecteur aléatoire
Xk sachant Y0:k .
Ces équations ne sont pas fermées, c’est–à–dire que les moments X b − et P − ne s’expriment
k k
pas en fonction des moments X bk−1 et Pk−1 seulement, mais en fonction de toute la distribution
de probabilité conditionnelle µk−1 , et de même, les moments X bk et Pk ne s’expriment pas
en fonction des moments X b et P seulement, mais en fonction de toute la distribution de
− −
k k
probabilité conditionnelle µ−
k . Pour fermer ces équations, on adopte le principe de projection
énoncé plus haut.
▶ On remplace la distribution de probabilité conditionnelle µk−1 par la distribution de
probabilité gaussienne de moyenne Xbk−1 et de matrice de covariance Pk−1 = Sk−1 S ∗ , et en
k−1
effectuant le changement de variable x = Xbk−1 + Sk−1 u, on obtient les approximations

du
Xk ≈ bbk (u) exp{− 12 |u|2 }
b −
,
(2π)m/2
et

du
Pk− ≈ (bbk (u) − X
b − ) (bbk (u) − X
k
b − )∗ exp{− 1 |u|2 }
k 2
(2π)m/2

du
+ σ bk∗ (u) exp{− 12 |u|2 }
bk (u) σ
(2π)m/2

où par définition


bbk (u) = bk (X
bk−1 + Sk−1 u) et bk−1 + Sk−1 u) .
bk (u) = σk (X
σ

▶ De même, on remplace la distribution de probabilité conditionnelle µ− k par la distribution


b − −
de probabilité gaussienne de moyenne Xk et de matrice de covariance Pk = Sk− (Sk− )∗ , et en
effectuant le changement de variable x = X b − + S − u, on obtient les approximations
k k

b du
Ybk− ≈ hk (u) exp{− 21 |u|2 } ,
Rm (2π)m/2
et ∫
du
Ξk ≈ (b
hk (u) − Ybk− ) (b
hk (u) − Ybk− )∗ exp{− 12 |u|2 } m/2
+ QVk ,
Rm (2π)
et ∫
du
Ck ≈ Sk− u (b
hk (u) − Ybk− )∗ exp{− 21 |u|2 } ,
Rm (2π)m/2
où par définition
b b − + S − u) .
hk (u) = hk (X k k

Il reste donc à calculer les intégrales des fonctions non–linéaires

bbk (u), bbk (u) bb∗ (u), σ bk∗ (u), b


bk (u) σ h∗k (u) et b
hk (u), u b hk (u) b
h∗k (u) ,
k
4.2. FILTRE DE KALMAN UNSCENTED 53

par rapport à la densité gaussienne réduite centrée.

Remarque 4.2 Si on suppose que les fonctions bk et hk sont dérivables, et qu’on utilise un
développement limité au premier ordre au voisinage de u = 0 dans les intégrales ci–dessus, on
retrouve les équations du filtre de Kalman étendu. L’idée ici est de ne pas linéariser , et de
calculer les intégrales en utilisant des formules de quadrature numérique.

On introduit les formules de quadrature suivantes, reposant sur la notion de σ–points. En


dimension m, la densité de probabilité gaussienne centrée réduite (de matrice de covariance
identité) est représentée par 2m + 1 points de quadrature (u−m , · · · , um ) appelés σ–points, et
définis par √
u0 = 0 , u i = ei m + κ et u−i = −ui ,
où ei désigne le i–ème vecteur de base, affectés des poids
κ 1
w0 = et w−i = wi = , (4.4)
m+κ 2 (m + κ)
pour tout i = 1, · · · , m (d’autres choix de σ–points sont possibles). On vérifie que

+m ∑
+m ∑
+m ∑
m
wi = 1 , wi u i = 0 et wi ui u∗i = ei e∗i = I ,
i=−m i=−m i=−m i=1

c’est–à–dire que les deux premiers moments sont pris en compte exactement. Plus généralement
∫ ∑
+m
du
ϕ(u) exp{− 12 |u|2 } ≈ wi ϕ(ui ) ,
Rm (2π)m/2 i=−m

et un changement de variable évident donne aussitôt


∫ ∑
+m
du
ϕ(µ + Σ1/2 u) exp{− 12 |u|2 } m/2
≈ wi ϕ(µ + Σ1/2 ui ) ,
R m (2π) i=−m

pour toute fonction ϕ définie sur Rm , c’est–à–dire que les σ–points (x−m , · · · , xm ) associés à la
distribution de probabilité gaussienne de vecteur moyenne µ et de matrice de covariance Σ, sont
définis par la relation xi = µ + Σ1/2 ui , soit
√ √
x0 = µ , xi = µ + Σ1/2 ei m + κ et x−i = µ − Σ1/2 ei m + κ ,
pour tout i = 1, · · · , m. On vérifie que

+m ∑
+m ∑
m

wi x i = µ et wi (xi − µ) (xi − µ) = Σ1/2 ei (Σ1/2 ei )∗ = Σ ,
i=−m i=−m i=1

c’est–à–dire que les deux premiers moments sont pris en compte exactement. Plus généralement
encore, soit X un vecteur aléatoire gaussien de vecteur moyenne µ et de matrice de covariance
Σ, et soit T une transformation non–linéaire définie sur Rm . Clairement
∫ ∑
+m
du
ϕ(T (µ + Σ1/2 u)) exp{− 21 |u|2 } ≈ wi ϕ(T (xi )) ,
(2π)m/2 i=−m
54 CHAPITRE 4. EXTENSIONS AUX SYSTÈMES NON–LINÉAIRES

pour toute fonction ϕ définie sur Rm , c’est–à–dire que les σ–points (x′−m , · · · , x′m ) associés au
vecteur aléatoire transformé X ′ = T (X), sont simplement obtenus par la relation x′i = T (xi ) à
partir des σ–points (x−m , · · · , xm ) associés au vecteur aléatoire X, soit
√ √
x′0 = T (µ) , x′i = T (µ + Σ1/2 ei m + κ) et x′−i = T (µ − Σ1/2 ei m + κ) ,

pour tout i = 1, · · · , m.
Avec ces formules de quadrature, on obtient l’algorithme de filtrage sous–optimal suivant.

b − et P − en fonction de X
Expression de X bk−1 et Pk−1 = Sk−1 S ∗ :
k k k−1
On introduit les σ–points
√ √
bk−1 ,
x0 = X bk−1 + Sk−1 ei
xi = X m+κ et bk−1 − Sk−1 ei
x−i = X m+κ ,

affectés des poids (4.4) pour tout i = 1, · · · , m, et on définit le vecteur moyenne



+m
b− =
X wi bk (xi ) ,
k
i=−m

et la matrice de covariance

+m ∑
+m
Pk− = b − ) (bk (xi ) − X
wi (bk (xi ) − X b − )∗ + wi σk (xi ) σk∗ (xi ) = Sk− (Sk− )∗ .
k k
i=−m i=−m

bk et Pk en fonction de X
Expression de X b − et P − = S − (S − )∗ :
k k k k
On introduit les σ–points
√ √
b− ,
x0 = X b − + S − ei
xi = X m+κ et b − − S − ei
x−i = X m+κ ,
k k k k k

affectés des poids (4.4) pour tout i = 1, · · · , m, on définit le vecteur moyenne



+m
Ybk− = wi hk (xi ) ,
i=−m

la matrice de covariance

+m
Ξk = wi (hk (xi ) − Ybk− ) (hk (xi ) − Ybk− )∗ + QVk ,
i=−m

et la matrice de corrélation

+m
Ck = b − ) (hk (xi ) − Yb − )∗ ,
wi (xi − X k k
i=−m

et on pose
bk = X
X b − + Ck Ξ−1 (Yk − Yb − ) et Pk = Pk− − Ck Ξ−1 ∗ ∗
k k k k Ck = Sk Sk .
Chapitre 5

Au–delà des systèmes linéaires


gaussiens

5.1 Systèmes non–linéaires à bruits non–gaussiens

Il s’agit de la classe la plus générale de modèles d’état, et c’est aussi un cas particulier de la
classe plus générale des modèles de Markov cachés (pour lesquels l’espace d’état peut être très
général). On considère donc une suite d’états cachés {Xk } à valeurs dans Rm , vérifiant

Xk = fk (Xk−1 , Wk ) avec W k ∼ pW
k (dw) , (5.1)

avec des entrées bruitées {Wk } à valeurs dans Rp , pas nécessairement gaussiennes, et une condi-
tion initiale X0 ∼ η0 (dx) pas nécessairement gaussienne, et une suite d’observations {Yk } à
valeurs dans Rd , vérifiant

Yk = hk (Xk ) + Vk avec Vk ∼ qkV (v) dv , (5.2)

avec des bruits d’observation {Vk } additifs, à valeurs dans Rd , pas nécessairement gaussiens,
mais de distribution de probabilité qkV (v) dv absolument continue par rapport à la mesure de
Lebesgue dv. Les bruits blancs {Wk } et {Vk } sont indépendants entre eux et indépendants de
la condition initiale X0 . On ne suppose pas que les fonctions fk et hk sont dérivables. Pour la
suite, il sera suffisant de faire l’hypothèse suivante : pour tout instant k

• il est facile de simuler un vecteur aléatoire selon la distribution de probabilité pW


k (dw) du
vecteur aléatoire Wk ,

• la distribution de probabilité du vecteur aléatoire Vk admet une densité qkV (v) qu’il est
facile d’évaluer pour tout v ∈ Rd .

Proposition 5.1 La suite {Xk } est une chaı̂ne de Markov à valeurs dans Rm , c’est–à–dire que
la distribution de probabilité conditionnelle par rapport au passé

P[Xk ∈ dx′ | X0:k−1 ] = P[Xk ∈ dx′ | Xk−1 ] ,

55
56 CHAPITRE 5. AU–DELÀ DES SYSTÈMES LINÉAIRES GAUSSIENS

ne dépend que du passé immédiat, avec les probabilités de transition

P[Xk ∈ dx′ | Xk−1 = x] = Qk (x, dx′ ) ,

défini par ∫
Qk ϕ(x) = E[ ϕ(Xk ) | Xk−1 = x] = ϕ(fk (x, w)) pW
k (dw) ,
Rp
pour toute fonction test ϕ mesurable bornée, définie sur Rm .

Preuve. Compte tenu que Wk est indépendant de X0:k−1 , on a

E[ ϕ(Xk ) | X0:k−1 ] = E[ ϕ(fk (Xk−1 , Wk )) | X0:k−1 ]



= ϕ(fk (Xk−1 , w)) pW
k (dw) ,
Rp

pour toute fonction ϕ mesurable bornée définie sur Rm . Clairement, le résultat ne dépend que
de Xk−1 , c’est–à–dire que

E[ ϕ(Xk ) | X0:k−1 ] = E[ ϕ(Xk ) | Xk−1 ] ,

et ∫
E[ ϕ(Xk ) | Xk−1 = x] = ϕ(fk (x, w)) pW
k (dw) . 2
Rp

Remarque 5.2 Si fk (x, w) = bk (x)+w, et si la distribution de probabilité pWk (dw) de la variable


aléatoire Wk admet une densité encore notée pk (w), c’est–à–dire si pk (dw) = pW
W W
k (w) dw, alors

Qk (x, dx′ ) = pW ′ ′
k (x − bk (x)) dx ,

c’est–à–dire que le noyau Qk (x, dx′ ) admet une densité. En effet, le changement de variable
x′ = bk (x) + w donne immédiatement
∫ ∫
Qk ϕ(x) = W
ϕ(bk (x) + w) pk (w) dw = ϕ(x′ ) pW ′ ′
k (x − bk (x)) dx ,
Rm Rm

pour toute fonction test ϕ mesurable bornée, définie sur Rm .

Remarque 5.3 En général, le noyau Qk (x, dx′ ) n’admet pas de densité par rapport à la mesure
de Lebesgue sur Rm . En effet, conditionnellement à Xk−1 = x, le vecteur aléatoire Xk appartient
nécessairement au sous–ensemble

M(x) = {x′ ∈ Rm : il existe w ∈ Rp tel que x′ = fk (x, w)} ,

et dans le cas où p < m ce sous–ensemble M(x) est généralement, sous certaines hypothèses de
régularité, une sous–variété différentielle de dimension p dans l’espace Rm , c’est–à–dire un sous–
ensemble de mesure de Lebesgue nulle. La distribution de probabilité conditionnelle du vecteur
aléatoire Xk sachant Xk−1 = x ne peut donc pas avoir de densité par rapport à la mesure de
Lebesgue sur Rm .
5.1. SYSTÈMES NON–LINÉAIRES À BRUITS NON–GAUSSIENS 57

Proposition 5.4 La suite {Yk } vérifie l’hypothèse de canal sans mémoire, c’est–à–dire que pour
tout instant n

• conditionnellement aux états cachés X0:n les observations Y0:n sont mutuellement indépen-
dantes, ce qui se traduit par


n
P[Y0:n ∈ dy0:n | X0:n ] = P[Yk ∈ dyk | X0:n ] ,
k=0

• pour tout k = 0, · · · , n, la distribution de probabilité conditionnelle de la variable aléatoire


Yk sachant X0:n ne dépend que de Xk , ce qui se traduit par

P[Yk ∈ dyk | X0:n ] = P[Yk ∈ dyk | Xk ] ,

avec les probabilités d’émission

P[Yk ∈ dy | Xk = x] = qkV (y − hk (x)) dy ,

et on définit la fonction de vraisemblance

gk (x) = qkV (Yk − hk (x)) ,

qui mesure l’adéquation d’un état quelconque x ∈ Rm avec l’observation Yk .

En d’autres termes, la distribution de probabilité conditionnelle jointe des observations Y0:n


sachant les états cachés X0:n vérifie

n
P[Y0:n ∈ dy0:n | X0:n = x0:n ] = qkV (yk − hk (xk )) dy0 · · · dyn .
k=0

Exemple 5.5 Dans le cas particulier où le bruit additif Vk est un vecteur aléatoire gaussien
centré et de matrice de covariance identité, alors la probabilité d’émission
1
P[Yk ∈ dy | Xk = x] = exp{− 21 |y − hk (x)|2 } dy ,
(2 π)d/2

est absolument continue, et la fonction de vraisemblance, définie à une constante multiplicative


près, est donnée par
gk (x) = exp{− 12 |Yk − hk (x)|2 } .
58 CHAPITRE 5. AU–DELÀ DES SYSTÈMES LINÉAIRES GAUSSIENS

Preuve. Pour toute famille ϕ0 , · · · , ϕn de fonctions mesurables bornées définies sur Rd , et


compte tenu que les vecteurs aléatoires V0 , · · · , Vn sont mutuellement indépendants et indépen-
dants du vecteur aléatoire X0:n , on a
E[ϕ0 (Y0 ) · · · ϕn (Yn ) | X0:n ]

= E[ϕ0 (h0 (X0 ) + V0 ) · · · ϕn (hn (Xn ) + Vn ) | X0:n ]


∫ ∫
= ··· ϕ0 (h0 (X0 ) + v0 ) · · · ϕn (hn (Xn ) + vn ) P[V0:n ∈ dv0:n ]
Rd Rd
n ∫

= ϕk (hk (Xk ) + vk ) P[Vk ∈ dvk ]
k=0 R
d

n ∫

= ϕk (hk (Xk ) + vk ) qkV (vk ) dvk
k=0 Rd

n ∫
∏ ∏
n
= ϕk (yk ) qkV (yk − hk (Xk )) dyk = E[ϕk (Yk ) | Xk ] . 2
k=0 Rd | {z } k=0
P[Yk ∈ dyk | Xk ]

On voudrait également pouvoir prendre en compte un certain nombre de systèmes plus


généraux, qui correspondent à des situations d’intérêt pratique, par exemple les systèmes hy-
brides à saut markovien
Xk = fk (rk−1 , Xk−1 , Wk ) ,

Yk = hk (rk , Xk ) + Vk ,
où la suite {rk } forme une chaı̂ne de Markov à valeurs dans un espace fini, correspondant à
différents régimes ou modes de fonctionnement.

5.2 Modèles de Markov cachés

Plus généralement, on peut aussi considérer un modèle de Markov caché où les états cachés
{Xk } forment une chaı̂ne de Markov à valeurs dans un espace E qui peut être très général, par
exemple un espace hybride continu / discret, un sous–ensemble défini par des contraintes, une
variété différentielle, un graphe, etc., de noyaux de transition
P[Xk ∈ dx′ | Xk−1 = x] = Qk (x, dx′ ) ,
et de distribution de probabilité initiale
P[X0 ∈ dx] = η0 (dx) ,
et où les observations {Yk } vérifient l’hypothèse de canal sans mémoire, c’est–à–dire que pour
tout instant n
5.2. MODÈLES DE MARKOV CACHÉS 59

• conditionnellement aux états cachés X0:n les observations Y0:n sont mutuellement indépen-
dantes, ce qui se traduit par


n
P[Y0:n ∈ dy0:n | X0:n ] = P[Yk ∈ dyk | X0:n ] ,
k=0

• pour tout k = 0, · · · , n, la distribution de probabilité conditionnelle de la variable aléatoire


Yk sachant X0:n ne dépend que de Xk , ce qui se traduit par

P[Yk ∈ dy | X0:n ] = P[Yk ∈ dy | Xk ] ,

avec la probabilité d’émission

P[Yk ∈ dy | Xk = x] = gk (x, y) λFk (dy) ,

où la mesure positive λFk (dy) définie sur F ne dépend pas de l’état caché x ∈ E, et par
abus de notation on définit la fonction de vraisemblance

gk (x) = gk (x, Yk ) ,

qui mesure l’adéquation d’un état quelconque x ∈ E avec l’observation Yk .

La situation est complètement décrite par le diagramme suivant


- Xk−1 - Xk - Xk+1 -

? ? ?
Yk−1 Yk Yk+1

où les flèches représentent la dépendance entre variables aléatoires. En d’autres termes, la dis-
tribution de probabilité conditionnelle jointe des observations Y0:n sachant les états cachés X0:n
vérifie

n
P[Y0:n ∈ dy0:n | X0:n = x0:n ] = gk (xk , yk ) λF0 (dy0 ) · · · λFn (dyn ) .
k=0

Ce modèle peut paraı̂tre très abstrait à première vue, mais pour la suite il suffira que l’hypothèse
suivante soit vérifiée : pour tout instant k = 1, · · · , n

• il est facile de simuler pour tout x ∈ E, un vecteur aléatoire selon la distribution de


probabilité Qk (x, dx′ ),

• il est facile d’évaluer pour tout x′ ∈ E, la fonction de vraisemblance gk (x′ ).

Malgré leur grande généralité, les modèles de Markov cachés ne permettent pas de prendre en
compte un certain nombre de systèmes non–linéaires à bruits non–gaussiens, qui correspondent
60 CHAPITRE 5. AU–DELÀ DES SYSTÈMES LINÉAIRES GAUSSIENS

à des situations d’intérêt pratique, par exemple les cas où les observations dépendent de la
transition de la chaı̂ne de Markov cachée
Xk = fk (Xk−1 , Wk ) ,

Yk = hk (Xk−1 , Xk ) + Vk ,
les modèles de Markov à variables latentes
Xk = fk (Xk−1 , Wk ) ,

Yk = hk (Yk−1 , Xk ) + Vk ,
où conditionnellement aux états cachés, les observations forment une chaı̂ne de Markov, ou bien
les systèmes d’état à bruits corrélés
Xk = fk (Xk−1 , Vk−1 , Wk ) ,

Yk = hk (Xk ) + Vk ,
où clairement le bruit Uk−1 = (Vk−1 , Wk ) dans l’équation d’état est corrélé au bruit d’observation
Vk−1 . Dans ce dernier exemple, une solution pragmatique consiste à reporter dans l’équation
d’état l’expression pour Vk−1 tirée de l’équation d’observation, de sorte que
Xk = fk (Xk−1 , Yk−1 − hk−1 (Xk−1 ), Wk ) ,

Yk = hk (Xk ) + Vk .
Les classes de modèles de plus en plus généraux présentés dans les deux prochaines sections,
permettent de prendre en compte ces situations.

5.3 Chaı̂nes de Markov à paramètres markoviens

Certains problèmes sont décrits par une chaı̂ne de Markov {Yk }, et pour disposer d’une plus
grande possibilité de modélisation on propose de faire dépendre les noyaux de transitions d’une
suite de variables aléatoires latentes {Xk }, formant elle–même une chaı̂ne de Markov. Cette
situation se rencontre par exemple dans les modèles à volatilité stochastique, et à la différence
de la situation précédente, l’estimation de la suite latente n’est pas un objectif en soi.
Dans ces modèles, les états cachés {Xk } forment une chaı̂ne de Markov à valeurs dans un
espace E, de noyaux de transition
P[Xk ∈ dx′ | Xk−1 = x] = Qk (x, dx′ ) ,
et de distribution de probabilité initiale
P[X0 ∈ dx] = η0 (dx) ,
et conditionnellement aux états cachés, les observations {Yk } forment une chaı̂ne de Markov à
valeurs dans F , c’est–à–dire que pour tout instant n
5.3. CHAÎNES DE MARKOV À PARAMÈTRES MARKOVIENS 61

• conditionnellement aux états cachés X0:n les observations Y0:n forment une chaı̂ne de
Markov, ce qui se traduit pour tout k = 1, · · · , n, par

P[Yk ∈ dy | Y0:k−1 , X0:n ] = P[Yk ∈ dy | Yk−1 , X0:n ] ,

• pour k = 0, la distribution de probabilité conditionnelle de la variable aléatoire Y0 sachant


X0:n ne dépend que de X0 , ce qui se traduit par

P[Y0 ∈ dy | X0:n ] = P[Y0 ∈ dy | X0 ] ,

avec la probabilité initiale

P[Y0 ∈ dy | X0 = x] = g0 (x, y) λF0 (dy) ,

où la mesure positive λF0 (dy) définie sur F ne dépend pas de l’état caché x ∈ E, et par
abus de notation on définit la fonction de vraisemblance

g0 (x) = g0 (x, Y0 ) ,

qui mesure l’adéquation d’un état quelconque x′ ∈ E avec l’observation initiale Y0 ,

• pour tout k = 1, · · · , n, la distribution de probabilité conditionnelle de la variable aléatoire


Yk sachant Yk−1 et X0:n ne dépend que de Yk−1 et de Xk , ce qui se traduit par

P[Yk ∈ dyk | Yk−1 , X0:n ] = P[Yk ∈ dyk | Yk−1 , Xk ] ,

avec la probabilité d’émission

P[Yk ∈ dy ′ | Yk−1 = y, Xk = x′ ] = gk (x′ , y, y ′ ) λFk (y, dy ′ ) ,

où la mesure positive λFk (y, dy ′ ) définie sur F ne dépend pas de l’état caché x′ ∈ E, et par
abus de notation on définit la fonction de vraisemblance

gk (x′ ) = gk (x′ , Yk−1 , Yk ) ,

qui mesure l’adéquation d’un état quelconque x′ ∈ E avec les observations successives Yk−1
et Yk .

La situation est complètement décrite par le diagramme suivant

- Xk−1 - Xk - Xk+1 -

? ? ?
- Yk−1 - Yk - Yk+1 -
62 CHAPITRE 5. AU–DELÀ DES SYSTÈMES LINÉAIRES GAUSSIENS

où les flèches représentent la dépendance entre variables aléatoires. En d’autres termes, la dis-
tribution de probabilité conditionnelle jointe des observations Y0:n sachant les états cachés X0:n
vérifie

P[Y0:n ∈ dy0:n | X0:n = x0:n ]


n
= g0 (x0 , y0 ) λF0 (dy0 ) gk (xk , yk−1 , yk ) λFk (yk−1 , dyk )
k=1


n ∏
n
= [ g0 (x0 , y0 ) gk (xk , yk−1 , yk ) ] λF0 (dy0 ) λFk (yk−1 , dyk ) .
k=1 k=1

5.4 Chaı̂nes de Markov partiellement observées

Encore plus généralement, on peut considérer un modèle où les états cachés {Xk } ne forment
plus nécessairement une chaı̂ne de Markov, mais où conjointement états cachés et observations
{Zk } avec Zk = (Xk , Yk ) pour tout instant k = 0, 1, · · · , n, forment une chaı̂ne de Markov à
valeurs dans E × F , de distribution de probabilité initiale

P[X0 ∈ dx, Y0 ∈ dy] = γ0 (y, dx) λF0 (dy) , (5.3)

où la mesure positive λF0 (dy) définie sur F , ne dépend pas de l’état caché x ∈ E, et de probabilités
de transition

P[Xk ∈ dx′ , Yk ∈ dy ′ | Xk−1 = x, Yk−1 = y] = Rk (y, y ′ , x, dx′ ) λFk (y, dy ′ ) , (5.4)

où la mesure positive λFk (y, dy ′ ) définie sur F , dépend de l’observation précédente y ∈ F mais ne
dépend pas de la transition cachée (x, x′ ) ∈ E. En d’autres termes, la distribution de probabilité
jointe des états cachés X0:n et des observations Y0:n vérifie

P[X0:n ∈ dx0:n , Y0:n ∈ dy0:n ]


n
= γ0 (y0 , dx0 ) λF0 (dy0 ) Rk (yk−1 , yk , xk−1 , dxk ) λFk (yk−1 , dyk )
k=1


n ∏
n
= [ γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) ] λF0 (dy0 ) λFk (yk−1 , dyk ) .
k=1 k=1

Ce modèle général inclut comme cas particulier

• les modèles de Markov cachés, avec

γ0 (y, dx) = η0 (dx) g0 (x, y) et Rk (y ′ , x, dx′ ) = Qk (x, dx′ ) gk (x′ , y ′ ) ,

• les modèles auto–régressifs à paramètres markoviens, avec

γ0 (y, dx) = η0 (dx) g0 (x, y) et Rk (y, y ′ , x, dx′ ) = Qk (x, dx′ ) gk (x′ , y, y ′ ) .


5.4. CHAÎNES DE MARKOV PARTIELLEMENT OBSERVÉES 63

En toute généralité, les mesures positives γ0 (y, dx) et les noyaux positifs Rk (y, y ′ , x, dx′ ) peuvent
être factorisés comme

γ0 (y, dx) = g0imp (y, x) η0imp (y, dx) et Rk (y, y ′ , x, dx′ ) = gkimp (y, y ′ , x, x′ ) Qimp ′ ′
k (y, y , x, dx ) ,

respectivement, c’est–à–dire comme le produit

• d’une fonction de pondération positive g0imp (y, x) ou gkimp (y, y ′ , x, x′ ),

• et d’une distribution de probabilité η0imp (y, dx) ou d’un noyau markovien Qimp ′ ′
k (y, y , x, dx ).

Une telle factorisation n’est évidemment pas unique, mais il existe toujours au moins la factori-
sation donnée par
γ0 (y, dx)
γ0 (y, dx) = γ0 (y, E) ,
γ (y, E)
| {z } | 0 {z }
gb0 (y) ηb0 (y, dx)
et
Rk (y, y ′ , x, dx′ )
Rk (y, y ′ , x, dx′ ) = Rk (y, y ′ , x, E) ,
Rk (y, y ′ , x, E)
| {z } | {z }
gbk (x, y, y ′ ) b ′
Qk (y, y , x, dx )′

avec l’interprétation suivante : en intégrant (5.3) par rapport à x ∈ E, on obtient

P[Y0 ∈ dy] = gb0 (y) λF0 (dy) ,

d’où on déduit que


P[X0 ∈ dx | Y0 = y] = ηb0 (y, dx) ,
et en intégrant (5.4) par rapport à x′ ∈ E, on obtient

P[Yk ∈ dy ′ | Xk−1 = x, Yk−1 = y] = gbk (x, y, y ′ ) λFk (y, dy ′ ) ,

d’où on déduit que


b k (y, y ′ , x, dx′ ) .
P[Xk ∈ dx′ | Xk−1 = x, Yk−1 = y, Yk = y ′ ] = Q

Dans le cas particulier des modèles de Markov cachés, cette décomposition fait intervenir

• la probabilité d’émission

P[Yk ∈ dy ′ | Xk−1 = x] = gbk (x, y ′ ) λFk (dy ′ ) ,

où la fonction positive ∫



gbk (x, y ) = Qk (x, dx′ ) gk (x′ , y ′ ) ,
E
peut être interprétée pour tout état x ∈ E et pour toute observation y ′ ∈ F comme une
mesure quantitative du recouvrement entre l’application x′ 7→ gk (x′ , y ′ ) et la distribution
de probabilité Qk (x, dx′ ),
64 CHAPITRE 5. AU–DELÀ DES SYSTÈMES LINÉAIRES GAUSSIENS

• et la transition de probabilité

b k (y ′ , x, dx′ ) ,
P[Xk ∈ dx′ | Xk−1 = x, Yk = y ′ ] = Q

b k (y ′ , x, dx′ ) dépend de l’observation y ′ ∈ F ,


où le noyau markovien Q

et la situation est complètement décrite par le diagramme suivant


- Xk−1 - Xk - Xk+1 -
6 6 6

R R R R
Yk−1 Yk Yk+1

où les flèches représentent la dépendance entre variables aléatoires.

Exemple 5.6 On considère un système non–linéaire avec des bruits gaussiens additifs et une
fonction d’observation linéaire

Xk = fk (Xk−1 ) + σk (Xk−1 ) Wk ,

Yk = Hk Xk + hk + Vk ,

où la condition initiale X0 est un vecteur aléatoire gaussien de moyenne X̄0 et de matrice de
covariance QX 0 , et où les suites {Wk } et {Vk } sont des bruits blancs gaussiens indépendants,
indépendants de la condition initiale X0 , de matrices de covariance identité et QVk respective-
ment, avec QVk inversible. Il résulte de la Proposition 1.7 que

• conditionnellement à Y0 = y, le vecteur aléatoire X0 est gaussien, de moyenne


∗ ∗ V −1
m0 (y) = X̄0 + QX X
0 H0 [H0 Q0 H0 + Q0 ] (y − (H0 X̄0 + h0 )) ,

et de matrice de covariance (pas nécessairement inversible)


∗ ∗ V −1
0 − Q0 H0 [H0 Q0 H0 + Q0 ]
P0 = QX X X
H0 QX
0 ,

et il est facile de simuler un vecteur aléatoire X ′ selon la distribution de probabilité gaussi-


enne
ηb0 (y, dx) = Γ(dx, m0 (y), P0 ) ,
de moyenne m0 (y) et de matrice de covariance P0 pour tout y ∈ F : il suffit en effet,
d’après la Remarque 1.8, de simuler deux vecteurs aléatoires gaussiens indépendants X et
V , de moyenne X̄0 et 0 et de matrice de covariance QX V
0 et Q0 respectivement, et de poser

X ′ = X + QX ∗ X ∗ V −1
0 H0 [H0 Q0 H0 + Q0 ] (Y0 − (H0 X + h0 + V )) .
5.4. CHAÎNES DE MARKOV PARTIELLEMENT OBSERVÉES 65

Grâce à la linéarité de la fonction d’observation, on a

Xk = fk (Xk−1 ) + σk (Xk−1 ) Wk ,

Yk = Hk fk (Xk−1 ) + hk + Hk σk (Xk−1 ) Wk + Vk ,

d’où on déduit que conditionnellement à Xk−1 = x, le vecteur aléatoire (Xk , Yk ) est gaussien,
de moyenne et de matrice de covariance
   
fk (x) Σk (x) Σk (x) Hk∗
  et   ,
Hk fk (x) + hk ∗
Hk Σk (x) Hk Σk (x) Hk + Qk V

respectivement, avec Σk (x) = σk (x) σk∗ (x). Compte tenu que la matrice QVk est inversible, la
matrice Hk Σk (x) Hk∗ + QVk est inversible a fortiori, et il résulte de la Proposition 1.7 que

• conditionnellement à Xk−1 = x, le vecteur aléatoire Yk est gaussien, de moyenne Hk fk (x)+


hk et de matrice de covariance inversible Hk Σk (x) Hk∗ + QVk , et il est facile d’évaluer la
densité de probabilité gaussienne

gbk (x, y ′ ) = q(y ′ − (Hk fk (x) + hk ), Hk Σk (x) Hk∗ + QVk ) ,

de moyenne Hk fk (x) + hk et de matrice de covariance inversible Hk Σk (x) Hk∗ + QVk , pour


tout x ∈ E et tout y ′ ∈ F ,

• conditionnellement à (Xk−1 = x, Yk = y ′ ) le vecteur aléatoire Xk est gaussien, de moyenne

mk (y ′ , x) = fk (x) + Σk (x) Hk∗ [Hk Σk (x) Hk∗ + QVk ]−1 (y ′ − (Hk fk (x) + hk )) ,

et de matrice de covariance (pas nécessairement inversible)

Pk (x) = Σk (x) − Σk (x) Hk∗ [Hk Σk (x) Hk∗ + QVk ]−1 Hk Σk (x) ,

et il est facile de simuler un vecteur aléatoire X ′ selon la distribution de probabilité gaussi-


enne
b k (y ′ , x, dx′ ) = Γ(dx′ , mk (y ′ , x), Pk (x)) ,
Q
de moyenne mk (y ′ , x) et de matrice de covariance Pk (x) pour tout x ∈ E et tout y ′ ∈ F :
il suffit en effet, d’après la Remarque 1.8, de simuler deux vecteurs aléatoires gaussiens
indépendants W et V , centrés et de matrice de covariance identité et QVk respectivement,
et de poser
X = fk (x) + σk (x) W ,
et
X ′ = X + Σk (x) Hk∗ [Hk Σk (x) Hk∗ + QVk ]−1 (y ′ − (Hk X + hk + V )) .
66 CHAPITRE 5. AU–DELÀ DES SYSTÈMES LINÉAIRES GAUSSIENS
Chapitre 6

Borne de Cramér–Rao a posteriori

Pour évaluer la performance des algorithmes numériques de filtrage non–linéaire, y compris les
nombreuses variantes du filtrage particulaire, il est utile de disposer d’une borne inférieure sur
l’erreur commise par un estimateur quelconque de l’état caché. S’il s’agit d’estimer un paramètre
fixe, il est bien connu que la matrice d’information de Fisher associée au modèle statistique
permet d’obtenir une telle borne inférieure, sous le nom de borne de Cramér–Rao. Dans le cas
du filtrage bayésien, il s’agit d’estimer un paramètre aléatoire (et dynamique), à savoir la suite
des états cachés, pour lequel on dispose d’un modèle a priori : dans ce cadre bayésien, on peut
utiliser la notion de borne de Cramér–Rao a posteriori, pour laquelle des algorithmes de calcul
récursifs efficaces ont été obtenus.
On considère le modèle général d’une chaı̂ne de Markov partiellement observée, et on suppose
qu’il existe

• pour k = 0, une densité jointe initiale

P[X0 ∈ dx, Y0 ∈ dy] = r0 (x, y) dx λF0 (dy) ,

• pour tout k = 1, · · · , n, des densités de transition

P[Xk ∈ dx′ , Yk ∈ dy ′ | Xk−1 = x, Yk−1 = y] = rk (y, y ′ , x, x′ ) dx′ λFk (y, dy ′ ) ,

On peut poser dans ce cas

X0:n = (X0 , · · · , Xn ) et Y0:n = (Y0 , · · · , Yn ) ,

et se ramener au problème statique considéré dans la Proposition 1.3 ci–dessus pour l’estimation
du vecteur aléatoire
ϕ(X0:n ) = Xn ,
sachant Y0:n .

Théorème 6.1 Sous les hypothèses de la Proposition 1.3, la matrice de corrélation de l’erreur
d’estimation (ψ(Y0:n ) − Xn ) est minorée par la relation suivante

E[ (ψ(Y0:n ) − Xn ) (ψ(Y0:n ) − Xn )∗ ] ≥ Jn−1 ,

67
68 CHAPITRE 6. BORNE DE CRAMÉR–RAO A POSTERIORI

et la matrice d’information de Fisher Jn peut se calculer de la façon récursive suivante

Jk = Dk+ − Dk∗ (Jk−1 + Dk− )−1 Dk ,

avec
∂2
Dk− = −E[ log rk (Yk−1 , Yk , Xk−1 , Xk ) ] ,
∂x2k−1

∂2
Dk = −E[ log rk (Yk−1 , Yk , Xk−1 , Xk ) ] ,
∂xk−1 ∂xk

∂2
Dk+ = −E[ log rk (Yk−1 , Yk , Xk−1 , Xk ) ] .
∂x2k

Preuve. La densité jointe des vecteurs aléatoires X0:n et Y0:n est donnée par


n
p0:n (x0:n , y0:n ) = r0 (x0 , y0 ) rk (yk−1 , yk , xk−1 , xk ) ,
k=1

d’où la log–densité


n
log p0:n (x0:n , y0:n ) = log r0 (x0 , y0 ) + log rk (yk−1 , yk , xk−1 , xk )
k=1

= log p0:n−1 (x0:n−1 , y0:n−1 ) + log rn (yn−1 , yn , xn−1 , xn ) .


69

On en déduit que

 
∂2 ∂2
 ∂x2 ∂x0:n−1 ∂xn 
∂2  0:n−1 
log p0:n (x0:n , y0:n ) = 

 log p0:n (x0:n , y0:n )

∂x20:n  2 


∂x2n
 
∂2 ∂2 ∂2
 ∂x2 ∂x0:n−2 ∂xn 
 0:n−2 ∂x0:n−2 ∂xn−1 
 
 
  [ log p0:n−1 (x0:n−1 , y0:n−1 )
 ∂2 ∂ 2

= ⋆ 
 ∂x2n−1 ∂xn−1 ∂xn 
  + log rn (yn−1 , yn , xn−1 , xn ) ]
 
 
 ∂2 
⋆ ⋆
∂x2n
 
∂2 ∂2
 ∂x2 0
 0:n−2 ∂x0:n−2 ∂xn−1 
 
 
 
= ∂2  log p0:n−1 (x0:n−1 , y0:n−1 )
 ⋆ 0
 ∂x2n−1 
 
 
0 0 0
 
0 0 0
 
 
 ∂2 ∂2 
0 
+ ∂x2n−1 ∂xn−1 ∂xn  log rn (yn−1 , yn , xn−1 , xn )

 
 
 ∂2 
0 ⋆
∂x2n

de sorte que si on pose


 
An Bn
∂2
J0:n = −E[ log p0:n (X0:n , Y0:n ) ] =   , (6.1)
∂x20:n
⋆ Cn

alors on a également la décomposition par bloc alternative

     
An−1 Bn−1 0 0 0 0 An−1 Bn−1 0
     
     
J0:n =
 ⋆ Cn−1 0 
+0 Dn− Dn  
= ⋆ Cn−1 + Dn− Dn 
 , (6.2)
     
0 0 0 0 ⋆ +
Dn 0 ⋆ +
Dn
70 CHAPITRE 6. BORNE DE CRAMÉR–RAO A POSTERIORI

avec
∂2
Dn− = −E[ log rn (Yn−1 , Yn , Xn−1 , Xn ) ] ,
∂x2n−1

∂2
Dn = −E[ log rn (Yn−1 , Yn , Xn−1 , Xn ) ] ,
∂xn−1 ∂xn

∂2
Dn+ = −E[ log rn (Yn−1 , Yn , Xn−1 , Xn ) ] .
∂x2n
On remarque que ϕ′ (x0:n ) = (0 I) = Mn ne dépend pas de x0:n , et il résulte de la Proposi-
tion 1.3 que
−1
E[ (ψ(Y0:n ) − Xn ) (ψ(Y0:n ) − Xn )∗ ] ≥ Mn J0:n Mn∗ ,
et d’après le Lemme A.3 d’inversion matricielle et la Remarque A.4, on a
 −1      
( ) An Bn 0 ( ) ⋆ ⋆ 0
−1 ∗
Mn J0:n Mn = 0 I     = 0 I     = Jn−1 ,
Bn∗ Cn I ⋆ Jn−1 I

où la matrice Jn = Cn − Bn∗ A−1n Bn est le complément de Schur de la matrice An dans la


matrice–bloc J0:n . Par comparaison des deux décompositions par bloc (6.1) et (6.2), on a les
identifications suivantes
   
An−1 Bn−1 0
An =   , Bn =   et Cn = Dn+ ,
⋆ Cn−1 + Dn− Dn

et d’après le Lemme A.3 d’inversion matricielle et la Remarque A.4, on a


 −1  
( ) An−1 Bn−1 0
Jn = Dn+ − 0 Dn∗    

Bn−1 Cn−1 + Dn − Dn
   
( ) ⋆ ⋆ 0
= Dn+ − 0 Dn∗    
−1
⋆ ∆n−1 Dn

= Dn+ − Dn∗ ∆−1


n−1 Dn ,


où la matrice ∆n−1 = Cn−1 + Dn− − Bn−1 A−1 −
n−1 Bn−1 = Jn−1 + Dn est le complément de Schur
de la matrice An−1 dans la matrice–bloc An , de sorte que

Jn = Dn+ − Dn∗ (Jn−1 + Dn− )−1 Dn . 2

Soit un modèle de Markov caché dans lequel il existe

• pour k = 0, une densité initiale

P[X0 ∈ dx] = p0 (x) dx ,


71

• pour tout k = 1, · · · , n, des densités de transition

P[Xk ∈ dx′ | Xk−1 = x] = pk (x′ | x) dx′ ,

• et pour tout k = 0, 1, · · · , n, des densités d’émission

P[Yk ∈ dy | Xk = x] = qk (y | x) λFk (dy) .

Ce modèle est un cas particulier du modèle précédent, avec

r0 (y, x) = p0 (x) q0 (y | x) ,

et
rk (y, y ′ , x, x′ ) = pk (x′ | x) qk (y ′ | x′ ) ,
et dans ce cas
∂2
Dk− = −E[ log pk (Xk | Xk−1 ) ] ,
∂x2k−1

∂2
Dk = −E[ log pk (Xk | Xk−1 ) ] ,
∂xk−1 ∂xk

∂2 ∂2
Dk+ = −E[ log p k (X k | X k−1 ) ] − E[ log qk (Yk | Xk ) ] .
∂x2k ∂x2k

Exemple 6.2 Dans le cas particulier d’un système avec bruits gaussiens additifs, où

Xk = fk (Xk−1 ) + Wk avec Wk ∼ N(0, QW


k ) ,

et où
Yk = hk (Xk ) + Vk avec Vk ∼ N(0, QVk ) ,
avec des matrices de covariance QW V
k et Qk inversibles, on obtient

Dk− = E[ [fk′ (Xk−1 )]∗ (QW


k )
−1 ′
fk (Xk−1 ) ] ,

Dk = −E[ [fk′ (Xk−1 )]∗ ] (QW


k )
−1
,

−1
Dk+ = (QW
k ) + E[ [h′k (Xk )]∗ (QVk )−1 h′k (Xk ) ] .
72 CHAPITRE 6. BORNE DE CRAMÉR–RAO A POSTERIORI
Chapitre 7

Filtrage bayésien

L’objectif de ce chapitre est d’établir les équations du filtre non–linéaire, pour les systèmes
non–linéaires et non–gaussiens, ou plus généralement les équations du filtre bayésien, pour les
modèles de Markov cachés et les chaı̂nes de Markov partiellement observées. Il s’agit donc de
calculer la distribution de probabilité conditionnelle de la variable aléatoire Xk sachant Y0:k , et
la distribution de probabilité conditionnelle de la variable aléatoire Xk sachant Y0:k−1 , définies
par
µk (dx) = P[Xk ∈ dx | Y0:k ] et µ−
k (dx) = P[Xk ∈ dx | Y0:k−1 ] ,

respectivement.

7.1 Modèles de Markov cachés

D’après la formule de Bayes, et d’après la propriété de canal sans mémoire, la distribution de


probabilité jointe des états cachés X0:n et des observations Y0:n vérifie

P[X0:n ∈ dx0:n , Y0:n ∈ dy0:n ] = P[Y0:n ∈ dy0:n | X0:n = x0:n ] P[X0:n ∈ dx0:n ]


n
= P[X0:n ∈ dx0:n ] gk (xk , yk ) λF0 (dy0 ) · · · λFn (dyn ) .
k=0

En intégrant par rapport aux variables x0:n , on obtient la distribution de probabilité jointe des
observations Y0:n , c’est–à–dire
∫ ∫ ∏
n
P[Y0:n ∈ dy0:n ] = ··· gk (xk , yk ) P[X0:n ∈ dx0:n ] λF0 (dy0 ) · · · λFn (dyn )
E E k=0


n
= E[ gk (Xk , yk ) ] λF0 (dy0 ) · · · λFn (dyn ) .
k=0

73
74 CHAPITRE 7. FILTRAGE BAYÉSIEN

D’après la formule de Bayes, il vient

P[X0:n ∈ dx0:n , Y0:n ∈ dy0:n ]


n
= P[X0:n ∈ dx0:n ] gk (xk , yk ) λF0 (dy0 ) · · · λFn (dyn )
k=0

= P[X0:n ∈ dx0:n | Y0:n = y0:n ] P[Y0:n ∈ dy0:n ]


n
= P[X0:n ∈ dx0:n | Y0:n = y0:n ] E[ gk (Xk , yk ) ] λF0 (dy0 ) · · · λFn (dyn ) ,
k=0

et on obtient

n
gk (xk , yk ) P[X0:n ∈ dx0:n ]
k=0
P[X0:n ∈ dx0:n | Y0:n = y0:n ] = ,

n
E[ gk (Xk , yk ) ]
k=0

pour toute suite y0:n d’observations. Pour toute fonction test f définie sur l’espace produit
E n+1 = E × · · · × E, on a
∫ ∫ ∏
n
··· f (x0:n ) gk (xk , yk ) P[X0:n ∈ dx0:n ]
E E k=0
E[f (X0:n ) | Y0:n = y0:n ] =

n
E[ gk (Xk , yk ) ]
k=0


n
E[ f (X0:n ) gk (Xk , yk ) ]
k=0
= ,

n
E[ gk (Xk , yk ) ]
k=0

et on rappelle que

n
P[Y0:n ∈ dy0:n ] = E[ gk (Xk , yk ) ] λF0 (dy0 ) · · · λFn (dyn ) ,
k=0

et comme ces identités sont vérifiées pour toute suite y0:n d’observations, on en déduit que la
distribution de probabilité conditionnelle jointe des états cachés X0:n sachant Y0:n est donnée
par

n
E[f (X0:n ) gk (Xk ) ]
k=0
E[f (X0:n ) | Y0:n ] = , (7.1)

n
E[ gk (Xk ) ]
k=0
7.1. MODÈLES DE MARKOV CACHÉS 75

et la fonction de vraisemblance du modèle est donnée par



n
Ln = E[ gk (Xk ) ] ,
k=0

où l’espérance porte seulement sur la suite des états cachés X0:n : les fonctions de vraisemblance
g0 (x), · · · , gn (x) sont définies par abus de notation comme

gk (x) = gk (x, Yk ) ,

pour tout k = 0, 1, · · · , n, et dépendent implicitement des observations Y0:n , mais celles–ci


sont considérées comme fixées dans les expressions ci–dessus. En particulier, la distribution de
probabilité conditionnelle de l’état caché Xn sachant Y0:n est donnée par

n
E[ϕ(Xn ) gk (Xk ) ]
k=0 ⟨γn , ϕ⟩
⟨µn , ϕ⟩ = E[ϕ(Xn ) | Y0:n ] = = ,

n
⟨γn , 1⟩
E[ gk (Xk ) ]
k=0

où la mesure positive (non–normalisée) γn (dx) est définie par



n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ] ,
k=0

et pour ϕ ≡ 1, on a

n
⟨γn , 1⟩ = E[ gk (Xk ) ] = Ln .
k=0
De la même manière, la distribution de probabilité conditionnelle de l’état caché Xn sachant
Y0:n−1 est donnée par

n−1
E[ϕ(Xn ) gk (Xk ) ]
⟨γn− , ϕ⟩
⟨µ−
n , ϕ⟩ = E[ϕ(Xn ) | Y0:n−1 ] = k=0
= ,

n−1 ⟨γn− , 1⟩
E[ gk (Xk ) ]
k=0

où la mesure positive (non–normalisée) γn− (dx) est définie par


n−1
⟨γn− , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ] ,
k=0

et pour ϕ ≡ 1, on a

n−1
⟨γn− , 1⟩ = E[ gk (Xk ) ] = ⟨γn−1 , 1⟩ .
k=0

Pour obtenir une équation récurrente permettant d’exprimer µk en fonction de µk−1 , il suffit
donc d’une équation récurrente permettant d’exprimer γk en fonction de γk−1 , puis de normaliser.
76 CHAPITRE 7. FILTRAGE BAYÉSIEN

Théorème 7.1 (Filtre bayésien) La suite {µk } vérifie l’équation récurrente suivante
prédiction correction
µk−1 −−−−−−−−−−→ µ−k = µ k−1 Qk −
− −−−−−−−−→ µk = gk · µ−
k ,

et la suite {Lk } vérifie l’équation récurrente suivante



n
Lk = ⟨µ−
k , gk ⟩ Lk−1 soit en itérant Ln = ⟨µ−
k , gk ⟩ ⟨η0 , g0 ⟩ .
k=1

Remarque 7.2 Dans l’énoncé du théorème, la notation




µk−1 Qk (dx ) = µk−1 (dx) Qk (x, dx′ )
E

désigne l’action du noyau markovien Qk (x, dx′ ) sur la distribution de probabilité µk−1 (dx), et
la notation
gk µ−
gk · µ− = k
,
k
⟨µ−
k , g k⟩

désigne le produit projectif de la distribution de probabilité a priori µ− ′


k (dx ) et de la fonction

de vraisemblance gk (x ). De manière équivalente

⟨µk−1 Qk , ϕ⟩ = ⟨µk−1 , Qk ϕ⟩ = µk−1 (dx) E[ϕ(Xk ) | Xk−1 = x] ,
E
et ∫
ϕ(x) gk (x) µ−
k (dx)
⟨µ−
k , gk ϕ⟩
⟨gk · µ− , ϕ⟩ = = E∫
,
k
⟨µ−
k , gk ⟩ −
gk (x) µk (dx)
E
pour toute fonction mesurable bornée ϕ.

Remarque 7.3 De manière équivalente


µk−1 Rk
µk = ,
⟨µk−1 Rk , 1⟩
en une seule étape, avec le noyau positif (non–normalisé) Rk (x, dx′ ) = Qk (x, dx′ ) gk (x′ ). En effet,
pour toute fonction mesurable bornée ϕ

⟨µk−1 Rk , ϕ⟩ = µk−1 Rk (dx′ ) ϕ(x′ )
E
∫ ∫
= [ µk−1 (dx) Rk (x, dx′ ) ] ϕ(x′ )
E E
∫ ∫
= µk−1 (dx) Qk (x, dx′ ) gk (x′ ) ϕ(x′ )
E E
∫ ∫
= [ µk−1 (dx) Qk (x, dx′ ) ] gk (x′ ) ϕ(x′ )
E E

= µ− ′ ′ ′ −
k (dx ) gk (x ) ϕ(x ) = ⟨µk , gk ϕ⟩ ,
E
7.1. MODÈLES DE MARKOV CACHÉS 77

et en particulier pour ϕ ≡ 1
⟨µk−1 Rk , 1⟩ = ⟨µ−
k , gk ⟩ ,
et en normalisant, on vérifie que
⟨µk−1 Rk , ϕ⟩ ⟨µ− , gk ϕ⟩
= k− = ⟨µk , ϕ⟩ .
⟨µk−1 Rk , 1⟩ ⟨µk , gk ⟩

Preuve du Théorème 7.1. On procède en deux étapes, correspondant respectivement aux


étapes de prédiction et de correction, et en raisonnant d’abord sur les versions non normalisées.

Expression de µ−
n en fonction de µn−1 :
On remarque immédiatement que

n−1
⟨γn− , 1⟩ = E[ gk (Xk ) ] = ⟨γn−1 , 1⟩ ,
k=0

c’est–à–dire que la constante de normalisation est conservée. En utilisant la propriété de Markov,


on a

n−1
⟨γn− , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ]
k=0


n−1
= E[ E[ϕ(Xn ) | X0:n−1 ] gk (Xk ) ]
k=0


n−1
= E[ E[ϕ(Xn ) | Xn−1 ] gk (Xk ) ]
k=0


n−1
= E[Qn ϕ(Xn−1 ) gk (Xk )] = ⟨γn−1 , Qn ϕ⟩ = ⟨γn−1 Qn , ϕ⟩ ,
k=0

pour toute fonction test ϕ définie sur E, où la dernière égalité exprime simplement que

⟨γn−1 , Qn ϕ⟩ = γn−1 (dx) Qn ϕ(x)
E
∫ ∫ ∫ ∫
′ ′
= γn−1 (dx) [ Qn (x, dx ) ϕ(x ) ] = [ γn−1 (dx) Qn (x, dx′ ) ] ϕ(x′ )
E E E E

= γn−1 Qn (dx′ ) ϕ(x′ ) = ⟨γn−1 Qn , ϕ⟩ .
E
Comme la fonction test ϕ est quelconque, on en déduit que
γn− = γn−1 Qn ,
et en normalisant, on obtient
γn− γn−1 Qn
µ−
n = − = = µn−1 Qn .
⟨γn , 1⟩ ⟨γ n−1 , 1⟩
78 CHAPITRE 7. FILTRAGE BAYÉSIEN

Expression de µn en fonction de µ−
n :

On a simplement


n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ]
k=0


n−1
= E[ϕ(Xn ) gn (Xn ) gk (Xk ) ] = ⟨γn− , gn ϕ⟩ = ⟨gn γn− , ϕ⟩ ,
k=0

pour toute fonction test ϕ définie sur E, où la dernière égalité exprime simplement que
∫ ∫
⟨γn− , gn ϕ⟩ = [gn (x) ϕ(x)] γn− (dx) = ϕ(x) [gn (x) γn− (dx)] = ⟨gn γn− , ϕ⟩ .
E E

Comme la fonction test ϕ est quelconque, on en déduit que

γn = gn γn− ,

et en normalisant, on obtient

γn gn γ − gn µ−
µn = = − n = − n ,
⟨γn , 1⟩ ⟨γn , gn ⟩ ⟨µn , gn ⟩

où la dernière égalité est obtenue en divisant numérateur et dénominateur par la constante de
normalisation ⟨γn− , 1⟩. 2

7.2 Chaı̂nes de Markov partiellement observées

D’après la propriété de Markov, la distribution de probabilité jointe des états cachés X0:n et des
observations Y0:n vérifie

P[X0:n ∈ dx0:n , Y0:n ∈ dy0:n ]


n ∏
n
= [ γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) ] λF0 (dy0 ) λFk (yk−1 , dyk ) .
k=1 k=1

En intégrant par rapport aux variables x0:n , on obtient la distribution de probabilité jointe des
observations Y0:n , c’est–à–dire

P[Y0:n ∈ dy0:n ]

∫ ∫ ∏
n ∏
n
=[ ··· γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) ] λF0 (dy0 ) λFk (yk−1 , dyk ) .
E E k=1 k=1
7.2. CHAÎNES DE MARKOV PARTIELLEMENT OBSERVÉES 79

D’après la formule de Bayes, il vient

P[X0:n ∈ dx0:n , Y0:n ∈ dy0:n ]


n ∏
n
= [ γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) ] λF0 (dy0 ) λFk (yk−1 , dyk )
k=1 k=1

= P[X0:n ∈ dx0:n | Y0:n = y0:n ] P[Y0:n ∈ dy0:n ]

= P[X0:n ∈ dx0:n | Y0:n = y0:n ]

∫ ∫ ∏
n ∏
n
[ ··· γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) ] λF0 (dy0 ) λFk (yk−1 , dyk ) ,
E E k=1 k=1

et on obtient

n
γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk )
k=1
P[X0:n ∈ dx0:n | Y0:n = y0:n ] = ∫ ∫ ,

n
··· γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk )
E E k=1

pour toute suite y0:n d’observations. Pour toute fonction test f définie sur l’espace produit
E n+1 = E × · · · × E, on a
∫ ∫ ∏
n
··· γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) f (x0:n )
E E k=1
E[f (X0:n ) | Y0:n = y0:n ] = ∫ ∫ ,

n
··· γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk )
E E k=1

et on rappelle que

P[Y0:n ∈ dy0:n ]

∫ ∫ ∏
n ∏
n
=[ ··· γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) ] λF0 (dy0 ) λFk (yk−1 , dyk ) .
E E k=1 k=1

et comme ces identités sont vérifiées pour toute suite y0:n d’observations, on en déduit que la
distribution de probabilité conditionnelle jointe des états cachés X0:n sachant Y0:n est donnée
par
∫ ∫ ∏
n
··· γ0 (dx0 ) Rk (xk−1 , dxk ) f (x0:n )
E E k=1
E[f (X0:n ) | Y0:n ] = ∫ ∫ , (7.2)

n
··· γ0 (dx0 ) Rk (xk−1 , dxk )
E E k=1
80 CHAPITRE 7. FILTRAGE BAYÉSIEN

et la fonction de vraisemblance du modèle est donnée par


∫ ∫ ∏
n
Ln = ··· γ0 (dx0 ) Rk (xk−1 , dxk ) ,
E E k=1

où la mesure positive γ0 (dx) et les noyaux positifs (non–normalisés) Rk (x, dx′ ) sont définis par
abus de notation comme

γ0 (dx) = γ0 (Y0 , dx) et Rk (x, dx′ ) = Rk (Yk−1 , Yk , x, dx′ ) ,

pour tout k = 1, · · · , n, et dépendent implicitement des observations Y0:n , mais celles–ci sont
considérées comme fixées dans les expressions ci–dessus. En particulier, la distribution de pro-
babilité conditionnelle de l’état caché Xn sachant Y0:n est donnée par
∫ ∫ ∏
n
··· γ0 (dx0 ) Rk (xk−1 , dxk ) ϕ(xn )
E E k=1 ⟨γn , ϕ⟩
⟨µn , ϕ⟩ = E[ϕ(Xn ) | Y0:n ] = ∫ ∫ = ,

n
⟨γn , 1⟩
··· γ0 (dx0 ) Rk (xk−1 , dxk )
E E k=1

où la mesure positive (non–normalisée) γn (dx) est définie par


∫ ∫ ∏
n
⟨γn , ϕ⟩ = ··· γ0 (dx0 ) Rk (xk−1 , dxk ) ϕ(xn ) ,
E E k=1

et pour ϕ ≡ 1, on a
∫ ∫ ∏
n
⟨γn , 1⟩ = ··· γ0 (dx0 ) Rk (xk−1 , dxk ) = Ln .
E E k=1

Pour obtenir une équation récurrente permettant d’exprimer µk en fonction de µk−1 , il suffit
donc d’une équation récurrente permettant d’exprimer γk en fonction de γk−1 , puis de normaliser.

Théorème 7.4 (Filtre bayésien) La suite {µk } vérifie l’équation récurrente suivante

µk−1 Rk
µk = ,
⟨µk−1 Rk , 1⟩

et la suite {Lk } vérifie l’équation récurrente suivante


n
Lk = ⟨µk−1 Rk , 1⟩ Lk−1 soit en itérant Ln = ⟨µk−1 Rk , 1⟩ ⟨γ0 , 1⟩ .
k=1
7.2. CHAÎNES DE MARKOV PARTIELLEMENT OBSERVÉES 81

Preuve. On a
∫ ∫ ∏
n
⟨γn , ϕ⟩ = ··· γ0 (dx0 ) Rk (xk−1 , dxk ) ϕ(xn )
E E k=1
∫ ∫ ∏
n−1 ∫
= ··· γ0 (dx0 ) Rk (xk−1 , dxk ) Rn (xn−1 , dxn ) ϕ(xn )
E E k=1 E

∫ ∫ ∏
n−1
= ··· γ0 (dx0 ) Rk (xk−1 , dxk ) Rn ϕ(xn−1 )
E E k=1

= ⟨γn−1 , Rn ϕ⟩ = ⟨γn−1 Rn , ϕ⟩ .

Comme la fonction test ϕ est quelconque, on en déduit que

γn = γn−1 Rn ,

et en normalisant, on obtient

γn γn−1 Rn µn−1 Rn
µn = = = ,
⟨γn , 1⟩ ⟨γn−1 Rn , 1⟩ ⟨µn−1 Rn , 1⟩

où la dernière égalité est obtenue en divisant numérateur et dénominateur par la constante de
normalisation ⟨γn−1 , 1⟩. 2
On a déjà vu à la Section 5.4 que les mesures positives γ0 (y, dx) et les noyaux positifs
Rk (y, y ′ , x, dx′ ) peuvent être factorisés comme

γ0 (y, dx) = g0imp (y, x) η0imp (y, dx) et Rk (y, y ′ , x, dx′ ) = gkimp (y, y ′ , x, x′ ) Qimp ′ ′
k (y, y , x, dx ) ,

respectivement, c’est–à–dire comme le produit

• d’une fonction de pondération positive g0imp (y, x) ou gkimp (y, y ′ , x, x′ ),

• et d’une distribution de probabilité η0imp (y, dx) ou d’un noyau markovien Qimp ′ ′
k (y, y , x, dx ),

et avec les abus de notation habituels, une telle décomposition implique que la mesure positive
γ0 (dx) et le noyau positif Rk (x, dx′ ) peuvent être factorisés comme

γ0 (dx) = g0imp (x) η0imp (dx) et Rk (x, dx′ ) = gkimp (x, x′ ) Qimp ′
k (x, dx ) , (7.3)

respectivement, c’est–à–dire comme le produit

• d’une fonction de pondération positive, éventuellement aléatoire, g0imp (x) = g0imp (Y0 , x) ou
gkimp (x, x′ ) = gkimp (Yk−1 , Yk , x, x′ ),

• et d’une distribution de probabilité, éventuellement aléatoire, η0imp (dx) = η0imp (Y0 , dx) ou
d’un noyau markovien, éventuellement aléatoire, Qimp ′ imp ′
k (x, dx ) = Qk (Yk−1 , Yk , x, dx ).
82 CHAPITRE 7. FILTRAGE BAYÉSIEN

Cette décomposition est évidemment non unique : dans le cas particulier des modèles de Markov
cachés, le premier exemple d’une telle décomposition est donné naturellement par la définition

γ0 (dx) = g0 (x) η0 (dx) et Rk (x, dx′ ) = Qk (x, dx′ ) gk (x′ ) ,

avec le même abus de notation, et un autre exemple de décomposition est

γ0 (dx) Rk (x, dx′ )


γ0 (dx) = γ0 (E) et Rk (x, dx′ ) = Rk (x, E) ,
γ (E) R (x, E)
| 0{z } | {z } | k {z }
ηb0 (dx) gbk (x) Qb k (x, dx′ )

où la fonction de pondération



gbk (x) = Rk (x, E) = Qk (x, dx′ ) gk (x′ ) ,
E

peut être interprétée pour tout état x ∈ E comme une mesure quantitative du recouvrement
entre l’application x′ 7→ gk (x′ ) et la distribution de probabilité Qk (x, dx′ ). En pratique, la
décomposition d’importance doit être telle que

• il est facile de simuler une variable aléatoire selon la distribution de probabilité η0imp (dx),

• il est facile d’évaluer pour tout x ∈ E la fonction d’importance g0imp (x),

et pour tout instant k = 1, · · · , n

• il est facile de simuler pour tout x ∈ E une variable aléatoire selon la distribution de
probabilité Qimp ′
k (x, dx ),

• il est facile d’évaluer pour tout x, x′ ∈ E la fonction d’importance gkimp (x, x′ ),

quand bien même l’expression analytique du noyau positif Rk (x, dx′ ) serait inconnue, ou telle-
ment compliquée qu’il serait impossible en pratique de calculer des intégrales telles que
∫ ∫
′ ′ ′
Rk ϕ(x) = Rk (x, dx ) ϕ(x ) ou µ Rk (dx ) = µ(dx) Rk (x, dx′ ) .
E E

Exemple 7.5 Cette situation favorable se rencontre par exemple pour le système non–linéaire,
présenté dans l’Exemple 5.6, avec des bruits gaussiens additifs et une fonction d’observation
linéaire
Xk = fk (Xk−1 ) + σk (Xk−1 ) Wk ,
(7.4)
Yk = Hk Xk + hk + Vk ,
où les suites {Wk } et {Vk } sont des bruits blancs gaussiens indépendants, indépendants de
la condition initiale X0 , de matrices de covariance identité et QVk respectivement (avec QVk
inversible) à l’instant k. Dans ce cas en effet
7.2. CHAÎNES DE MARKOV PARTIELLEMENT OBSERVÉES 83

• il est facile de simuler un vecteur aléatoire X ′ selon la distribution de probabilité ηb0 (dx) :
il suffit de simuler deux vecteurs aléatoires gaussiens indépendants X et V , de moyenne
X̄0 et 0 et de matrice de covariance QX V
0 et Q0 respectivement, et de poser

X ′ = X + QX ∗ X ∗ V −1
0 H0 [H0 Q0 H0 + Q0 ] (Y0 − (H0 X + h0 + V )) ,

et pour tout instant k = 1, · · · , n

• il est facile d’évaluer pour tout x ∈ E la densité de probabilité gaussienne

gbk (x) = q(Yk − (Hk fk (x) + hk ), Hk Σk (x) Hk∗ + QVk ) ,

de moyenne Hk fk (x) + hk et de matrice de covariance inversible Hk Σk (x) Hk∗ + QVk avec


Σk (x) = σk (x) σk∗ (x),

• et il est facile de simuler pour tout x ∈ E un vecteur aléatoire X ′ selon la distribution de


probabilité Qb k (x, dx′ ) : il suffit de simuler deux vecteurs aléatoires gaussiens indépendants
W et V , centrés et de matrice de covariance identité et QVk respectivement, et de poser

X = fk (x) + σk (x) W ,

et
X ′ = X + Σk (x) Hk∗ [Hk Σk (x) Hk∗ + QVk ]−1 (Yk − (Hk X + hk + V )) .

L’équation du filtre bayésien a été obtenue très simplement, mais il est en général impossible
de la résoudre, sauf dans le cas particulier des systèmes linéaires gaussiens, où elle se ramène aux
équations du filtre de Kalman, présentées au Chapitre 3. Il faut donc avoir recours à une approxi-
mation numérique, et on présente ci–dessous une approximation de type Monte Carlo, appelée
filtre particulaire, qui a connu un développement spectaculaire au cours des dernières années,
et qui est maintenant largement répendu, en particulier dans les applications en localisation,
navigation ou poursuite de mobiles, aussi bien dans le domaine militaire (aéronef, sous–marin,
bâtiment de surface, missile, drone, etc.), que dans le domaine civil, avec des applications en
robotique mobile ou en communications sans–fil.
84 CHAPITRE 7. FILTRAGE BAYÉSIEN
Chapitre 8

Généralisation : distributions de
Feynman–Kac

8.1 Modèle de base

Plus généralement, on peut s’intéresser aux distributions non–normalisées et aux distributions


normalisées associées, définies par

n
⟨γn , ϕ⟩
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ] et ⟨µn , ϕ⟩ = , (8.1)
⟨γn , 1⟩
k=0
et par

n−1
⟨γn− , ϕ⟩
⟨γn− , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ] et ⟨µ−
n , ϕ⟩ = ,
k=0
⟨γn− , 1⟩
pour toute fonction mesurable bornée ϕ, où {Xk , k = 0, 1, · · · , n} est une chaı̂ne de Markov
caractérisée par

• la distribution de probabilité initiale η0 (dx),


• et les noyaux de probabilités de transition Qk (x, dx′ ), pour tout k = 1, · · · , n,

et où gk (x) sont des fonctions mesurables bornées (strictement positives) données, appelées
fonctions de sélection ou fonctions de fitness, pour tout k = 0, 1, · · · , n. L’hypothèse minimale,
faute de quoi le problème n’est pas bien posé, est que ⟨γn , 1⟩ > 0, ce qui est assuré par exemple
si les fonctions de sélection sont strictement positives.

▶ Équation récurrente En procédant comme dans la preuve du Théorème 7.1, on obtient



k
⟨γk , ϕ⟩ = E[ϕ(Xk ) gp (Xp ) ]
p=0


k−1
= E[ϕ(Xk ) gk (Xk ) gp (Xp ) ] = ⟨γk− , gk ϕ⟩ = ⟨gk γk− , ϕ⟩ ,
p=0

85
86 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

et en utilisant la propriété de Markov, on obtient


k−1
⟨γk− , ϕ⟩ = E[ϕ(Xk ) gp (Xp ) ]
p=0


k−1
= E[ E[ϕ(Xk ) | X0:k−1 ] gp (Xp ) ]
p=0


k−1
= E[ E[ϕ(Xk ) | Xk−1 ] gp (Xp ) ]
p=0


k−1
= E[ Qk ϕ(Xk−1 ) gp (Xp ) ] = ⟨γk−1 , Qk ϕ⟩ = ⟨γk−1 Qk , ϕ⟩ ,
p=0

pour toute fonction mesurable bornée ϕ, de sorte que la distribution non–normalisée vérifie la
relation de récurrence linéaire

γk = gk (γk−1 Qk ) = gk ηk ⟨γk−1 , 1⟩ et γ0 = g 0 η 0 , (8.2)

en posant ηk = µk−1 Qk , ou de manière équivalente γk = γk−1 Rk où le noyau positif (non


normalisé) Rk est défini par Rk (x, dx′ ) = Qk (x, dx′ ) gk (x′ ). La constante de normalisation vérifie
la relation de récurrence

⟨γk , 1⟩ = ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩ et ⟨γ0 , 1⟩ = ⟨η0 , g0 ⟩ , (8.3)

de sorte que la distribution normalisée vérifie la relation de récurrence non–linéaire décrite par
le schéma suivant

mutation pondération
µk−1 −−−−−−−−−−→ ηk = µk−1 Qk −−−−−−−−−−−−→ µk = gk · ηk ,

avec la condition initiale µ0 = g0 · η0 , où la notation · désigne le produit projectif. Il résulte de


la relation de récurrence (8.3) et de la définition (8.1) que


n ∏
n
⟨γn , 1⟩ = E[ gk (Xk ) ] = ⟨ηk , gk ⟩ ,
k=0 k=0

c’est–à–dire que l’espérance d’un produit est remplacée par un produit d’espérances.
On remarque que la distribution non–normalisée vérifie aussi la relation de récurrence linéaire

γk− = (gk−1 γk−1



) Qk et γ0− = η0 , (8.4)

ou de manière équivalente γk− = γk−1 −


Rk− où le noyau positif (non normalisé) Rk− est défini
par Rk− (x, dx′ ) = gk−1 (x) Qk (x, dx′ ). On montre par récurrence arrière l’identité suivante entre
noyaux positifs (non–normalisés)

gk (Rk+1:n−1 Qn ) = Rk+1:n , (8.5)
8.1. MODÈLE DE BASE 87

valide pour tout k = (n − 1), · · · , 1, 0. Par définition, on a immédiatement

gn−1 (x) Qn (x, dx′ ) = Rn− (x, dx′ ) ,

c’est–à–dire que l’identité (8.5) est vérifiée pour k = (n − 1). D’autre part, si l’identité (8.5) est
vérifiée à l’étape k, alors

gk−1 (x) (Rk:n−1 Qn )(x, dx′ ) = gk−1 (x) (Rk (Rk+1:n−1 Qn ))(x, dx′ )

= gk−1 (x) Rk (x, dx′′ ) (Rk+1:n−1 Qn )(x′′ , dx′ )
E

= gk−1 (x) Qk (x, dx′′ ) gk (x′′ ) (Rk+1:n−1 Qn )(x′′ , dx′ )
E


= gk−1 (x) Qk (x, dx′′ ) Rk+1:n (x′′ , dx′ )
E

= Rk− (x, dx′′ ) Rk+1:n

(x′′ , dx′ )
E


= Rk:n (x, dx′ ) ,

c’est–à–dire que l’identité (8.5) est vérifiée à l’étape (k − 1). En particulier, il résulte de (8.5)
que

gk Rk+1:n−1 1 = gk Rk+1:n−1 Qn 1 = Rk+1:n 1, (8.6)
pour tout k = 0, 1, · · · , (n − 1).

▶ Changement de modèle Si la distribution de probabilité initiale η0 (dx) est absolument


continue par rapport à une autre distribution de probabilité η00 (dx), avec la densité r0 (x), et
si le noyau de transition Qk (x, dx′ ) est absolument continu par rapport à un autre noyau de
transition Q0k (x, dx′ ), avec la densité rk (x, x′ ), c’est–à–dire que

η0 (dx) = r0 (x) η00 (dx) et Qk (x, dx′ ) = rk (x, x′ ) Q0k (x, dx′ ) , (8.7)

pour tout k = 1, · · · , n, alors



n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ]
k=0
∫ ∫ ∏
n ∏
n
= ··· ϕ(xn ) gk (xk ) η0 (dx0 ) Qk (xk−1 , dxk )
E E k=0 k=1
∫ ∫ ∏
n ∏
n ∏
n
= ··· ϕ(xn ) gk (xk ) r0 (x0 ) rk (xk−1 , dxk ) η00 (dx0 ) Q0k (xk−1 , dxk )
E E k=0 k=1 k=1


n
= E[ϕ(Xn0 ) gk0 (Xk−1
0
, Xk0 ) ] ,
k=0
88 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

pour toute fonction mesurable bornée ϕ, où la suite {Xk0 , k = 0, 1, · · · , n} est une chaı̂ne de
Markov, caractérisée par

• la distribution de probabilité initiale η00 (dx) ,


• et les noyaux de probabilités de transition Q0k (x, dx′ ), pour tout k = 1, · · · , n,

et où les fonctions de sélection sont définies par


g00 (x, x′ ) = g0 (x′ ) r0 (x′ ) et gk0 (x, x′ ) = gk (x′ ) rk (x, x′ ) ,
pour tout k = 1, · · · , n.
A première vue, cette expression paraı̂t plus générale compte tenu que chaque fonction de
sélection dépend maintenant de la transition courante (et plus seulement de l’état courant) de
la chaı̂ne de Markov.

8.2 Modèle (apparamment) plus général

Plus généralement encore, on peut aussi s’intéresser à la distribution non–normalisée et à la


distribution normalisée associée, définies par
∫ ∫ ∏
n
⟨γn , ϕ⟩
⟨γn , ϕ⟩ = ··· γ0 (dx0 ) Rk (xk−1 , dxk ) ϕ(xn ) et ⟨µn , ϕ⟩ = , (8.8)
E E ⟨γn , 1⟩
k=1

pour toute fonction mesurable bornée ϕ, où γ0 est une mesure positive donnée et où {Rk , k =
1, · · · , n} sont des noyaux positifs (non–normalisés) donnés. Ce modèle général inclut comme
cas particulier le modèle (8.1), avec
γ0 (dx) = η0 (dx) g0 (x) et Rk (x, dx′ ) = Qk (x, dx′ ) gk (x′ ) .

▶ Équation récurrente En procédant comme dans la preuve du Théorème 7.4, on obtient


∫ ∫ ∏
k
⟨γk , ϕ⟩ = ··· γ0 (dx0 ) Rp (xp−1 , dxp ) ϕ(xk )
E E p=1

∫ ∫ ∏
k−1 ∫
= ··· γ0 (dx0 ) Rp (xp−1 , dxp ) Rk (xk−1 , dxk ) ϕ(xk )
E E p=1 E

∫ ∫ ∏
k−1
= ··· γ0 (dx0 ) Rp (xp−1 , dxp ) Rk ϕ(xk−1 )
E E p=1

= ⟨γk−1 , Rk ϕ⟩ = ⟨γk−1 Rk , ϕ⟩ ,
pour toute fonction mesurable bornée ϕ, de sorte que la distribution non–normalisée vérifie la
relation de récurrence linéaire
γk = γk−1 Rk = µk−1 Rk ⟨γk−1 , 1⟩ . (8.9)
8.2. MODÈLE (APPARAMMENT) PLUS GÉNÉRAL 89

La constante de normalisation vérifie la relation de récurrence

⟨γk , 1⟩ = ⟨γk−1 Rk , 1⟩ = ⟨µk−1 Rk , 1⟩ ⟨γk−1 , 1⟩ . (8.10)

de sorte que la distribution normalisée vérifie la relation de récurrence non–linéaire décrite par
le schéma suivant
µk−1 Rk
µk−1 −−−−−−−−−→ µk = ,
⟨µk−1 Rk , 1⟩

avec la condition initiale µ0 = γ0 /⟨γ0 , 1⟩. Il résulte de la relation de récurrence (8.10) et de la


définition (8.8) que
∫ ∫ ∏
n ∏
n
⟨γn , 1⟩ = ··· γ0 (dx0 ) Rk (xk−1 , dxk ) = ⟨γ0 , 1⟩ ⟨µk−1 Rk , 1⟩ ,
E E k=1 k=1

c’est–à–dire qu’une intégrale multiple est remplacée par un produit d’intégrales doubles.

▶ Décomposition d’importance En toute généralité, les mesures positives γ0 (dx) et les


noyaux positifs Rk (x, dx′ ) peuvent être factorisés comme

γ0 (dx) = g0imp (x) η0imp (dx) et Rk (x, dx′ ) = gkimp (x, x′ ) Qimp ′
k (x, dx ) , (8.11)

respectivement, c’est–à–dire comme le produit

• d’une fonction de pondération positive g0imp (x) ou gkimp (x, x′ ),

• et d’une distribution de probabilité η0imp (dx) ou d’un noyau de probabilités de transition


Qimp ′
k (x, dx ),

pour tout k = 1, · · · , n, d’où on déduit l’expresssion équivalente suivante


∫ ∫ ∏
n ∏
n
⟨γn , ϕ⟩ = ··· η0imp (dx0 ) Qimp imp
k (xk−1 , dxk ) g0 (x0 ) gkimp (xk−1 , xk ) ϕ(xn ) ,
E E k=1 k=1

et la représentation probabiliste


n
⟨γn , ϕ⟩ = E[ϕ(Xnimp ) gkimp (Xk−1
imp
, Xkimp ) ] , (8.12)
k=0

pour toute fonction mesurable bornée ϕ, où la suite {Xkimp , k = 0, 1, · · · , n} est une chaı̂ne de
Markov caractérisée par

• la distribution de probabilité initiale η0imp (dx),

• et les noyaux de probabilités de transition Qimp ′


k (x, dx ), pour tout k = 1, · · · , n,
90 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

avec la convention g0imp (x, x′ ) = g0imp (x′ ) pour k = 0. On remarque que chaque fonction de
sélection dépend de la transition courante (et pas seulement de l’état courant) de la chaı̂ne de
Markov.
La décomposition (8.11) est évidemment non unique : dans le cas particulier du modèle
considéré à la Section 8.1, le premier exemple d’une telle décomposition est donné naturellement
par la définition

γ0 (dx) = g0 (x) η0 (dx) et Rk (x, dx′ ) = Qk (x, dx′ ) gk (x′ ) ,

où la fonction de sélection dépend seulement de l’état d’arrivée de la transition courante, et un


autre exemple de décomposition est
γ0 (dx) Rk (x, dx′ )
γ0 (dx) = γ0 (E) et Rk (x, dx′ ) = Rk (x, E) ,
γ (E) Rk (x, E)
| 0{z } | {z } | {z }
ηb0 (dx) gbk (x) Qb k (x, dx′ )

où la fonction de sélection ∫


γ0 (E) = g0 (x) η0 (dx) ,
E
est juste une constante, et où la fonction de sélection

gbk (x) = Rk (x, E) = Qk (x, dx′ ) gk (x′ ) ,
E

dépend seulement de l’état de départ de la transition courante, et peut être interprétée pour tout
état x ∈ E comme une mesure quantitative du recouvrement entre l’application x′ 7→ gk (x′ ) et
la distribution de probabilité Qk (x, dx′ ), pour tout k = 1, · · · , n, et plus généralement, il existe
une décomposition

γ0 (dx) = g0 (x) r0 (x) η00 (dx) et Rk (x, dx′ ) = gk (x′ ) rk (x, x′ ) Q0k (x, dx′ ) ,
| {z } | {z }

g00 (x) 0
gk (x, x )

pour chaque changement de modèle du type considéré en (8.7).


Autant que possible, une distinction claire devra être faite entre les résultats et les estima-
tions qui dépendent seulement du noyau positif Rk (x, dx′ ), et les résultats et les estimations
qui dépendent spécifiquement de la décomposition d’importance (8.11) utilisée, c’est–à–dire qui
dépendent explicitement du noyau markovien Qimp ′ imp ′
k (x, dx ) et de la fonction positive gk (x, x ).
En pratique, la décomposition d’importance doit être telle que

• il est facile de simuler une variable aléatoire selon la distribution de probabilité η0imp (dx),

• il est facile d’évaluer pour tout x ∈ E la fonction d’importance g0imp (x),

et pour tout instant k = 1, · · · , n

• il est facile de simuler pour tout x ∈ E une variable aléatoire selon la distribution de
probabilité Qimp ′
k (x, dx ),
8.2. MODÈLE (APPARAMMENT) PLUS GÉNÉRAL 91

• il est facile d’évaluer pour tout x, x′ ∈ E la fonction d’importance gkimp (x, x′ ),

quand bien même l’expression analytique du noyau positif Rk (x, dx′ ) serait inconnue, ou telle-
ment compliquée qu’il serait impossible en pratique de calculer des intégrales telles que
∫ ∫
Rk ϕ(x) = Rk (x, dx′ ) ϕ(x′ ) où µ Rk (dx′ ) = µ(dx) Rk (x, dx′ ) .
E E

▶ Décomposition d’importance dite optimale En exploitant la décomposition


g0 (x) η0 (dx) = ⟨η0 , g0 ⟩ ηb0 (dx) , (8.13)
et ∫
′ ′ gk (x, x′ ) Qk (x, dx′ )
gk (x, x ) Qk (x, dx ) = gk (x, x′′ ) Qk (x, dx′′ ) ∫ , (8.14)
E gk (x, x′′ ) Qk (x, dx′′ )
| {z } |E {z }
gbk (x) b
Qk (x, dx )′

pour tout k = 1, · · · , n, décomposition qui devient triviale dans le cas particulier où la fonction
de sélection g0 (x) = cste est constante, et où la fonction de sélection gk (x, x′ ) = gk (x) ne
dépend que de l’état de départ de la transition courante, pour tout k = 1, · · · , n, on obtient la
représentation probabiliste équivalente

n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk−1 , Xk ) ]
k=0
∫ ∫ ∏
n ∏
n
= ··· g0 (x0 ) η0 (dx0 ) gk (xk−1 , xk ) Qk (xk−1 , dxk ) ϕ(xn )
E E k=1 k=1
∫ ∫ ∏
n ∏
n
= ⟨η0 , g0 ⟩ ··· ηb0 (dx0 ) gbk (xk−1 ) b k (xk−1 , dxk ) ϕ(xn )
Q
E E k=1 k=1
∫ ∫ ∏
n−1 ∏
n
= ⟨η0 , g0 ⟩ ··· ηb0 (dx0 ) gbk+1 (xk ) b k (xk−1 , dxk ) ϕ(xn )
Q
E E k=0 k=1
∫ ∫ ∏
n−1 ∏
n
= ⟨η0 , g0 ⟩ ··· η0opt (dx0 ) gkopt (xk ) Qopt
k (xk−1 , dxk ) ϕ(xn )
E E k=0 k=1


n−1
= ⟨η0 , g0 ⟩ E[ϕ(Xnopt ) gkopt (Xkopt ) ]
k=0

= ⟨η0 , g0 ⟩ ⟨γnopt− , ϕ⟩ ,
où la suite {Xkopt , k = 0, 1, · · · , n} est une chaı̂ne de Markov, caractérisée par

• la distribution de probabilité η0opt (dx) définie par (8.13), c’est–à–dire


g0 (x) η0 (dx)
η0opt (dx) = ηb0 (dx) = ∫ , (8.15)
g0 (dx′ ) η0 (dx′ )
E
92 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

• et les noyaux de probabilités de transition Qopt ′


k (x, dx ) définis par (8.14), c’est–à–dire

′ b ′ gk (x, x′ ) Qk (x, dx′ )


Qopt
k (x, dx ) = Qk (x, dx ) =
∫ , (8.16)
′′ ′′
gk (x, x ) Qk (x, dx )
E

pour tout k = 1, · · · , n,

et où les fonctions de sélection gkopt (x′ ) sont définies par (8.14), c’est–à–dire

opt ′ ′
gk (x ) = gbk+1 (x ) = gk+1 (x′ , x′′ ) Qk+1 (x′ , dx′′ ) , (8.17)
E

pour tout k = 0, 1, · · · , (n − 1). En pratique, cette décomposition n’est vraiment utile que si

• il est facile de simuler une variable aléatoire selon la distribution de probabilité ηb0 (dx),

• il est facile d’évaluer la constante ⟨η0 , g0 ⟩,

et pour tout instant k = 1, · · · , n

• il est facile de simuler pour tout x ∈ E une variable aléatoire selon la distribution de
probabilité Qb k (x, dx′ ),

• il est facile d’évaluer pour tout x ∈ E la fonction d’importance gbk (x).

On introduit les distributions non–normalisées et les distributions normalisées associées, définies


par
∏n
⟨γnopt , ϕ⟩
⟨γnopt , ϕ⟩ = E[ϕ(Xnopt ) gkopt (Xkopt ) ] et ⟨µopt
n , ϕ⟩ = opt , (8.18)
k=0
⟨γ n , 1⟩
et

n−1
⟨γnopt− , ϕ⟩
⟨γnopt− , ϕ⟩ = E[ϕ(Xnopt ) gkopt (Xkopt ) ] et ⟨ηnopt , ϕ⟩ = ,
k=0
⟨γnopt− , 1⟩
pour toute fonction mesurable bornée ϕ, et on remarque que

⟨γn , ϕ⟩ ⟨γnopt− , ϕ⟩
⟨µn , ϕ⟩ = = opt− = ⟨ηnopt , ϕ⟩ ,
⟨γn , 1⟩ ⟨γn , 1⟩

c’est–à–dire que la distribution normalisée µn (c’est–à–dire le filtre, dans le contexte du filtrage


bayésien) pour le modèle d’origine peut s’interpréter comme la distribution normalisée ηnopt
(c’est–à–dire le prédicteur, dans le contexte du filtrage bayésien) pour le modèle dit optimal, et
opt
⟨γn , 1⟩ = ⟨η0 , g0 ⟩ ⟨γnopt− , 1⟩ = ⟨η0 , g0 ⟩ ⟨γn−1 , 1⟩ ,

c’est–à–dire que la constante de normalisation ⟨γn , 1⟩ pour le modèle d’origine peut s’interpréter
opt
en terme de la constante de normalisation ⟨γn−1 , 1⟩ à l’instant précédent pour le modèle dit
8.3. MODÈLE À VALEURS TRANSITIONS OU TRAJECTOIRES 93

optimal. On déduit de (8.4) que la distribution non–normalisée vérifie la relation de récurrence


linéaire
γkopt− = (gk−1
opt opt−
γk−1 ) Qopt opt− opt−
k = γk−1 Rk ,

ou de manière équivalente γkopt− = γk−1


opt− opt−
Rk où le noyau positif (non–normalisé) Rkopt− est
défini par

Rkopt− (x, dx′ ) = gk−1


opt
(x) Qopt ′ b k (x, dx′ ) = Rk (x, dx′ ) ,
bk (x) Q
k (x, dx ) = g (8.19)

pour tout k = 1, · · · , n, et on déduit de (8.5) l’identité suivante entre noyaux positifs (non–
normalisés)
gkopt (Rk+1:n−1
opt
Qopt opt−
n ) = Rk+1:n = Rk+1:n , (8.20)
valide pour tout k = (n − 1), · · · , 1, 0.

Remarque 8.1 A titre de vérification, et sans repasser par l’identité (8.5), on peut montrer de
manière directe l’identité (8.20) par récurrence arrière. D’après (8.19) on a immédiatement
opt ′ ′
gn−1 (x) Qopt
n (x, dx ) = Rn (x, dx ) ,

c’est–à–dire que l’identité (8.20) est vérifiée pour k = (n − 1). D’autre part, si l’identité (8.20)
est vérifiée à l’étape k, alors d’après (8.19) on a
opt opt ′ opt opt opt ′
gk−1 (x) (Rk:n−1 Qopt opt
n )(x, dx ) = gk−1 (x) (Rk (Rk+1:n−1 Qn ))(x, dx )


opt
= gk−1 (x) Rkopt (x, dx′′ ) (Rk+1:n−1
opt
Qopt ′′ ′
n )(x , dx )
E

opt ′′ opt ′′ ′′ ′
= gk−1 (x) Qopt opt opt
k (x, dx ) gk (x ) (Rk+1:n−1 Qn )(x , dx )
E

opt ′′ ′′ ′
= gk−1 (x) Qopt
k (x, dx ) Rk+1:n (x , dx )
E

= Rk (x, dx′′ ) Rk+1:n (x′′ , dx′ )
E

= Rk:n (x, dx′ ) ,

c’est–à–dire que l’identité (8.20) est vérifiée à l’étape (k − 1). En particulier, il résulte de (8.20)
que
gkopt Rk+1:n−1
opt
1 = gkopt Rk+1:n−1
opt
Qopt
n 1 = Rk+1:n 1 , (8.21)
pour tout k = (n − 1), · · · , 1, 0.

8.3 Modèle à valeurs transitions ou trajectoires


94 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

Tous les modèles présentés jusqu’ici semblent pouvoir être vus comme des cas particuliers du
modèle
∏ n
⟨γn , ϕ⟩
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk−1 , Xk ) ] et ⟨µn , ϕ⟩ = , (8.22)
⟨γn , 1⟩
k=0

pour toute fonction mesurable bornée ϕ, où {Xk , k = 0, 1, · · · , n} est une chaı̂ne de Markov
caractérisée par

• la distribution de probabilité initiale η0 (dx),

• les noyaux de probabilités de transition Qk (x, dx′ ), pour tout k = 1, · · · , n,

et où gk (x, x′ ) sont des fonctions mesurables bornées (strictement positives) données, appelées
fonctions de sélection ou fonctions de fitness, pour tout k = 0, 1, · · · , n, avec la convention
g0 (x, x′ ) = g0 (x′ ) pour k = 0.
On remarque que chaque fonction de sélection dépend de la transition courante de la chaı̂ne
de Markov, ce qui inclus comme cas particuliers le cas où chaque fonction de sélection dépend
seulement de l’état d’arrivée de la transition courante, comme dans le modèle (8.1), et le cas où
chaque fonction de sélection dépend seulement de l’état de départ de la transition courante.
Le modèle (8.22) peut être vu comme un cas particulier du modèle (8.8), avec

γ0 (dx) = g0 (x) η0 (dx) et Rk (x, dx′ ) = gk (x, x′ ) Qk (x, dx′ ) ,

pour tout k = 1, · · · , n. En effet


n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk−1 , Xk ) ]
k=0
∫ ∫ ∏
n ∏
n
= ··· ϕ(xn ) gk (xk−1 , xk ) η0 (dx0 ) Qk (xk−1 , dxk )
E E k=0 k=1
∫ ∫ ∏
n
= ··· ϕ(xn ) γ0 (dx0 ) Rk (xk−1 , dxk ) ,
E E k=1

pour toute fonction mesurable bornée ϕ, et on déduit de (8.9) que la distribution non–normalisée
vérifie la relation de récurrence linéaire

γk = γk−1 Rk = µk−1 Rk ⟨γk−1 , 1⟩ . (8.23)

▶ Équation récurrente On remarque que


∫ ∫
µ Rk (dx′ ) = µ(dx) Rk (x, dx′ ) = gk (x, x′ ) µ(dx) Qk (x, dx′ ) ,
E E
8.3. MODÈLE À VALEURS TRANSITIONS OU TRAJECTOIRES 95

de sorte que
∫ ∫
⟨µ Rk , ϕ⟩ = [ gk (x, x′ ) µ(dx) Qk (x, dx′ ) ] ϕ(x′ )
E E
∫ ∫
= ϕ(x′ ) gk (x, x′ ) µ(dx) Qk (x, dx′ )
E E

= ⟨µ ⊗ Qk , gk ϕ ◦ π⟩ ,

pour toute fonction mesurable bornée ϕ, et en particulier pour ϕ ≡ 1


∫ ∫
⟨µ Rk , 1⟩ = gk (x, x′ ) µ(dx) Qk (x, dx′ ) = ⟨µ ⊗ Qk , gk ⟩ ,
E E

où π : (x, x′ ) ∈ E × E 7→ x′ ∈ E désigne la projection sur la deuxième composante de l’espace


produit E × E, c’est–à–dire que l’application π pointe sur l’état final de la transition, et où
µ ⊗ Qk désigne la distribution de probabilité jointe

(µ ⊗ Qk )(dx, dx′ ) = µ(dx) Qk (x, dx′ ) ,

sur l’espace produit E × E, c’est–à–dire que

µ Rk = (gk (µ ⊗ Qk )) ◦ π −1 .

En utilisant cette expression dans (8.23), on obtient

γk = (gk (γk−1 ⊗ Qk )) ◦ π −1 et γ0 = g0 η0 , (8.24)

et la constante de normalisation vérifie

⟨γk , 1⟩ = ⟨µk−1 ⊗ Qk , gk ⟩ ⟨γk−1 , 1⟩ et ⟨γ0 , 1⟩ = ⟨η0 , g0 ⟩ . (8.25)

Il résulte de la relation de récurrence (8.25) et de la définition (8.22) que


n ∏
n
⟨γn , 1⟩ = E[ gk (Xk−1 , Xk ) ] = ⟨η0 , g0 ⟩ ⟨µk−1 ⊗ Qk , gk ⟩ ,
k=0 k=1

c’est–à–dire que l’espérance d’un produit est remplacée par un produit d’espérances.

Remarque 8.2 Pour générer une variable aléatoire (X, X ′ ) distribuée selon (µ ⊗ Qk )(dx, dx′ ),
il suffit de générer d’abord une variable aléatoire X distribuée selon µ(dx), et de générer ensuite
une variable aléatoire X ′ distribuée selon Qk (X, dx′ ).
96 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

▶ Représentation intégrale et distribution de Gibbs–Boltzmann trajectorielle On


remarque que

n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk−1 , Xk ) ]
k=0
∫ ∫ ∏
n ∏
n
= ··· ϕ(xn ) gk (xk−1 , xk ) η0 (dx0 ) Qk (xk−1 , dxk )
E E k=0 k=1
∫ ∫
= ··· ϕ ◦ π(x0:n ) g0:n (x0:n ) η0:n (dx0:n )
E E

= ⟨η0:n , g0:n ϕ ◦ π⟩

= E[ϕ ◦ π(X0:n ) g0:n (X0:n )] ,

pour toute fonction mesurable bornée ϕ, où π : (x0 , · · · , xn ) ∈ E × · · · × E 7→ xn ∈ E désigne


la projection sur la dernière composante de l’espace produit E n+1 = E × · · · × E, c’est–à–dire
que l’application π pointe sur l’état final de la trajectoire, où

n
η0:n (dx0:n ) = η0 (dx0 ) Qk (xk−1 , dxk ) = P[X0:n ∈ dx0:n ] ,
k=1

dénote la distribution de probabilité conjointe des états successifs de la chaı̂ne de Markov, ou de


manière équivalente la distribution de probabilité de la trajectoire X0:n = (X0 , · · · , Xn ), et où

n
g0:n (x0:n ) = gk (xk−1 , xk ) .
k=0

On remarque que
⟨γn , ϕ⟩ ⟨η0:n , g0:n ϕ ◦ π⟩
⟨µn , ϕ⟩ = = ,
⟨γn , 1⟩ ⟨η0:n , g0:n ⟩
pour toute fonction mesurable bornée ϕ, de sorte que la distribution normalisée µn s’exprime en
terme de la distribution de Gibbs–Boltzmann
g0:n η0:n
µ0:n = g0:n · η0:n = ,
⟨η0:n , g0:n ⟩
définie sur l’espace trajectoriel E n+1 = E × · · · × E, comme µn = µ0:n ◦ π −1 .

▶ Chaı̂ne de Markov à valeurs transitions En fait, contrairement aux apparences, le


modèle (8.22) où chaque fonction de sélection dépend de la transition courante de la chaı̂ne
de Markov, n’est pas plus général que le modèle (8.1) où chaque fonction de sélection dépend
seulement de l’état courant de la chaı̂ne de Markov, pourvu qu’on change de point de vue,
comme le montre le raisonnement suivant. On définit la variable aléatoire Xktr = (Xk−1 , Xk ) à
valeurs dans l’ensemble produit E tr = E × E, pour tout k = 1, · · · , n et la variable aléatoire
X0tr = X0 à valeurs dans E, pour k = 0. Clairement, la suite {Xktr , k = 0, 1, · · · , n} est une
chaı̂ne de Markov, caractérisée par
8.3. MODÈLE À VALEURS TRANSITIONS OU TRAJECTOIRES 97

• la distribution de probabilité initiale η0tr (dx) = η0 (dx),

• et les noyaux de probabilités de transition Qtr ′ ′


k (x1 , x2 , dx1 , dx2 ) définis par
′ ′ ′ ′ ′
Qtr
k (x1 , x2 , dx1 , dx2 ) = δx2 (dx1 ) Qk (x1 , dx2 ) , (8.26)

pour tout k = 1, · · · , n,

c’est–à–dire que l’état de départ de la nouvelle transition coı̈ncide avec l’état d’arrivée de la
transition précédente et l’état d’arrivée de la nouvelle transition est distribué à partir de l’état
de départ selon le noyau de transition du modèle (8.22), et on considère la distribution non–
normalisée et la distribution normalisée associée, définies par

n
⟨γntr , f ⟩
⟨γntr , f ⟩ = E[f (Xntr ) gk (Xktr ) ] et ⟨µtr
n , f⟩ = , (8.27)
⟨γntr , 1⟩
k=0

pour toute fonction mesurable bornée f définie sur l’ensemble produit E tr = E × E. On vérifie
que

n ∏
n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk−1 , Xk ) ] = E[ϕ ◦ π(Xntr ) gk (Xktr ) ] = ⟨γntr , ϕ ◦ π⟩ ,
k=0 k=0

pour toute fonction mesurable bornée ϕ, où π : (x, x′ ) ∈ E × E 7→ x′ ∈ E désigne la projection


sur la dernière composante de l’espace produit E × E, c’est–à–dire que l’application π pointe
sur l’état d’arrivée de la transition, de sorte que γn = γntr ◦ π −1 . En d’autres termes, la distri-
bution non–normalisée pour le modèle apparamment plus général (8.22) où chaque fonction de
sélection dépend de la transition courante de la chaı̂ne de Markov, s’exprime aussi en terme de
la distribution non–normalisée pour le modèle plus simple (8.27) où chaque fonction de sélection
dépend seulement de l’état courant de la chaı̂ne de Markov, pourvu qu’on change de point de
vue.
On en déduit en particulier que la distribution non–normalisée vérifie la relation de récurrence
linéaire
γktr = gk (γk−1 k ) = gk ηk ⟨γk−1 , 1⟩
tr
Qtr tr tr
et γ0tr = g0 η0 , (8.28)
en posant ηktr = µtr tr
k−1 Qk , et la constante de normalisation vérifie la relation de récurrence

⟨γktr , 1⟩ = ⟨ηktr , gk ⟩ ⟨γk−1


tr
, 1⟩ et ⟨γ0tr , 1⟩ = ⟨η0 , g0 ⟩ . (8.29)

Il résulte de la relation de récurrence (8.29) et de la définition (8.27) que



n ∏
n
⟨γn , 1⟩ = ⟨γntr , 1⟩ = E[ gk (Xktr ) ] = ⟨ηktr , gk ⟩ ,
k=0 k=0

c’est–à–dire que l’espérance d’un produit est remplacée par un produit d’éspérances.

Remarque 8.3 A titre de vérification et sans repasser par les représentations probabilistes as-
sociées (8.22) et (8.27), on peut montrer de manière directe la consistance des deux suites définies
par les relations de récurrence (8.24) et (8.28) respectivement, c’est–à–dire vérifier par récurrence
98 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

que γktr ◦ π −1 = γk , pour tout k = 1, · · · , n. On suppose que l’hypothèse de récurrence est vraie
au rang (k − 1), c’est–à–dire que la distribution marginale (non–normalisée) de γk−1 tr coincide
tr
avec la distribution non–normalisée γk−1 , ou en d’autres termes γk−1 (E, dx2 ) = γk−1 (dx2 ), et
en utilisant la relation de récurrence (8.28) on remarque que

⟨γktr , ϕ ◦ π⟩ = ⟨γk−1
tr
k , ϕ ◦ π gk ⟩
Qtr
∫ ∫ ∫ ∫
= tr
γk−1 (dx1 , dx2 ) δx2 (dx′1 ) Qk (x′1 , dx′2 ) ϕ(x′2 ) gk (x′1 , x′2 )
E E E E
∫ ∫ ∫
= tr
γk−1 (dx1 , dx2 ) Qk (x2 , dx′2 ) ϕ(x′2 ) gk (x2 , x′2 )
E E E
∫ ∫
= tr
γk−1 (E, dx2 ) Qk (x2 , dx′2 ) ϕ(x′2 ) gk (x2 , x′2 )
E E
∫ ∫
= γk−1 (dx2 ) Qk (x2 , dx′2 ) ϕ(x′2 ) gk (x2 , x′2 )
E E
∫ ∫
= γk−1 (dx2 ) Qk (x2 , dx′2 ) ϕ(x′2 ) gk (x2 , x′2 )
E E
∫ ∫
= (γk−1 ⊗ Qk )(dx2 , dx′2 ) ϕ(x′2 ) gk (x2 , x′2 )
E E

= ⟨γk−1 ⊗ Qk , gk ϕ ◦ π⟩

pour toute fonction mesurable bornée ϕ, de sorte que

γktr ◦ π −1 = (gk (γk−1 ⊗ Qk )) ◦ π −1 = γk ,

en utilisant la relation de récurrence (8.24), c’est–à–dire que l’hypothèse de récurrence est vraie
au rang k.

▶ Chaı̂ne de Markov à valeurs trajectoires Plus généralement encore, tous les modèles
présentés jusqu’ici peuvent être vus comme des cas particuliers du modèle trajectoriel suivant.
On définit la variable aléatoire Xk• = X0:k = (X0 , · · · , Xk ) à valeurs dans l’espace produit
E k+1 = E ×· · ·×E dépendant du temps, pour tout k = 0, 1, · · · , n. Clairement la suite {Xk• , k =
0, 1, · · · , n} est une chaı̂ne de Markov, caractérisée par

• la distribution de probabilité intitiale η0• (dx0:0 ) = η0 (dx0 ),

• et les noyaux de probabilités de transition Q•k (x0:k−1 , dx′0:k ) définis par

Q•k (x0 , · · · , xk−1 , dx′0 , · · · , dx′k ) = δx0 (dx′0 ) · · · δxk−1 (dx′k−1 ) Qk (xk−1 , dx′k ) ,

pour tout k = 1, · · · , n,
8.3. MODÈLE À VALEURS TRANSITIONS OU TRAJECTOIRES 99

et on considère la distribution non–normalisée et à la distribution normalisée associée, définies


par

n
⟨γ • , f ⟩
• •
⟨γn , f ⟩ = E[f (Xn ) gk• (Xk• ) ] et ⟨µ•n , f ⟩ = n• , (8.30)
⟨γn , 1⟩
k=0

pour toute fonction mesurable bornée f définie sur l’ensemble produit E n+1 = E × · · · × E, où
les fonctions de sélection gk• (x0:k ) sont définies par

gk• (x0 , · · · , xk ) = gk (xk−1 , xk ) ,

pour tout k = 0, 1, · · · , n, avec la convention g0 (x, x′ ) = g0 (x′ ) pour k = 0. On vérifie que


n ∏
n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk−1 , Xk ) ] = E[ϕ ◦ π(Xn• ) gk• (Xk• ) ] = ⟨γn• , ϕ ◦ π⟩ ,
k=0 k=0

pour toute fonction mesurable bornée ϕ, où π : (x0 , · · · , xn ) ∈ E × · · · × E 7→ xn ∈ E désigne la


projection sur la dernière composante de l’espace produit E n+1 = E × · · · × E, c’est–à–dire que
l’application π pointe sur l’état final de la trajectoire, de sorte que γn = γn• ◦ π −1 . En d’autres
termes, la distribution non–normalisée pour le modèle apparamment plus général (8.22) où
chaque fonction de sélection dépend de la transition courante de la chaı̂ne de Markov, s’exprime
aussi en terme de la distribution non–normalisée pour le modèle plus simple (8.30) où chaque
fonction de sélection dépend seulement de l’état courant de la chaı̂ne de Markov, pourvu qu’on
adopte un point de vue trajectoriel.
100 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC
Chapitre 9

Méthodes de Monte Carlo

Pour une distribution de probabilité µ donnée, il s’agit d’approcher numériquement, par des
méthodes de Monte Carlo, l’intégrale ou de manière équivalente l’espérance mathématique

⟨µ, ϕ⟩ = ϕ(x) µ(dx) = E[ϕ(X)] , (9.1)
E

où la variable aléatoire X a pour distribution de probabilité µ, pour toute fonction mesurable
bornée ϕ. Dans toute la suite, la notation S N (µ) désigne la distribution de probabilité empirique

1 ∑
N
S N (µ) = δ i
N ξ
i=1

associée à un N –échantillon (ξ 1 , · · · , ξ N ) de variables aléatoires i.i.d., de distribution de proba-


bilité commune µ, c’est–à–dire que

1 ∑
N
⟨S N (µ), ϕ⟩ = ϕ(ξ i ) ,
N
i=1

pour toute fonction mesurable bornée ϕ.


Dans les situations où il est facile de simuler des variables aléatoires de distribution de
probabilité µ, il est naturel d’introduire l’approximation suivante

1 ∑
N
⟨µ, ϕ⟩ ≈ ⟨S (µ), ϕ⟩ =
N
ϕ(ξ i ) ,
N
i=1

pour toute fonction mesurable bornée ϕ, c’est–à–dire que

1 ∑
N
µ ≈ S (µ) =
N
δ i ,
N ξ
i=1

où les variables aléatoires (ξ 1 , · · · , ξ N ) sont i.i.d., de distribution de probabilité commune µ. On


définit par
var(ϕ, µ) = ⟨µ, |ϕ − ⟨µ, ϕ⟩|2 ⟩ = ⟨µ, |ϕ|2 ⟩ − |⟨µ, ϕ⟩|2 ≤ ∥ϕ∥2 ,
la variance de la fonction mesurable bornée ϕ par rapport à la distribution de probabilité µ.

101
102 CHAPITRE 9. MÉTHODES DE MONTE CARLO

Théorème 9.1 La variable aléatoire ⟨S N (µ), ϕ⟩ est un estimateur non–biaisé de ⟨µ, ϕ⟩, et les
moments de l’erreur d’estimation vérifient
1
E| ⟨S N (µ) − µ, ϕ⟩ |2 = var(ϕ, µ) ,
N
et pour tout réel p ≥ 2, il existe une constante positive cp > 0 telle que
cp
{ E| ⟨S N (µ) − µ, ϕ⟩ |p }1/p ≤ √ ⟨µ, |ϕ − ⟨µ, ϕ⟩|p ⟩1/p ,
N
pour toute fonction mesurable bornée ϕ.

Remarque 9.2 Compte tenu que


|ϕ(x) − ⟨µ, ϕ⟩| ≤ osc(ϕ) = sup ϕ(x) − inf ϕ(x) ,
x∈E x∈E

pour tout x ∈ E, on a également la majoration plus grossière suivante


cp
{ E| ⟨S N (µ) − µ, ϕ⟩|p }1/p ≤ √ osc(ϕ) , (9.2)
N
pour toute fonction mesurable bornée ϕ.

Preuve. En exploitant l’indépendance des différentes variables aléatoires, on remarque que

1 ∑
N
E| ⟨S (µ) − µ, ϕ⟩ | = E|
N 2
[ϕ(ξ i ) − ⟨µ, ϕ⟩ ] |2
N
i=1

1 ∑
N
1
= 2
E|ϕ(ξ i ) − ⟨µ, ϕ⟩|2 = ⟨µ, |ϕ − ⟨µ, ϕ⟩|2 ⟩ ,
N N
i=1

pour toute fonction mesurable bornée ϕ. Plus généralement, pour tout réel p ≥ 2

1 ∑
N
E| ⟨S N (µ) − µ, ϕ⟩ |p = E| [ϕ(ξ i ) − ⟨µ, ϕ⟩ ] |p
N
i=1

Bp 1 ∑
N
Bp
≤ p/2 E|ϕ(ξ i ) − ⟨µ, ϕ⟩|p = p/2 ⟨µ, |ϕ − ⟨µ, ϕ⟩|p ⟩ ,
N N N
i=1

d’après l’inégalité de Marcinkiewicz–Zygmund, c’est–à–dire que


1/p
Bp
{ E| ⟨S (µ) − µ, ϕ⟩ | }
N p 1/p
≤ √ ⟨µ, |ϕ − ⟨µ, ϕ⟩|p ⟩1/p ,
N
pour toute fonction mesurable bornée ϕ. 2
Le théorème central limite (dans sa version classique, pour des variables indépendantes iden-
tiquement distribuées) donne
√ 1 ∑
N
N ⟨S (µ) − µ, ϕ⟩ = √
N
[ϕ(ξ i ) − ⟨µ, ϕ⟩ ] =⇒ N(0, var(ϕ, µ)) ,
N i=1
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ.
9.1. ÉCHANTILLONNAGE PONDÉRÉ 103

9.1 Échantillonnage pondéré

Une approche traditionnelle pour calculer l’intégrale (9.1) est l’échantillonnage pondéré, ou
importance sampling, dans laquelle une nouvelle distribution de probabilité ν ≫ µ est utilisée,
qui domine la distribution de probabilité µ, c’est–à–dire qu’il existe une densité (ou dérivée de
Radon–Nikodym) dµ/dν telle que
∫ ∫
dµ dµ dµ
⟨µ, ϕ⟩ = ϕ(x) µ(dx) = ϕ(x) (x) ν(dx) = ⟨ν, ϕ ⟩ = E[ϕ(Ξ) (Ξ)] ,
E E dν dν dν

où la variable aléatoire Ξ a pour distribution de probabilité ν, pour toute fonction mesurable
bornée ϕ. S’il est facile

• d’évaluer la fonction positive dµ/dν,

• et de simuler une variable aléatoire de distribution de probabilité ν,

alors il est facile

• d’approcher la distribution de probabilité µ par la distribution de probabilité empirique


pondérée associée à un échantillon de variables aléatoires i.i.d., de distribution de proba-
bilité commune ν et pondéré par la fonction positive dµ/dν.

On peut en effet introduire l’approximation suivante

1 ∑
N
dµ dµ dµ
⟨µ, ϕ⟩ = ⟨ν, ϕ ⟩ ≈ ⟨S (ν), ϕ
N
⟩= ϕ(xi ) (xi ) ,
dν dν N dν
i=1

où les variables aléatoires (x1 , · · · , xN ) sont i.i.d., de distribution de probabilité commune ν,
c’est–à–dire que
1 ∑ dµ
N
dµ dµ N
µ= ν ≈ µN = S (ν) = (xi ) δxi .
dν dν N dν
i=1

En particulier pour ϕ ≡ 1, la masse totale

1 ∑ dµ
N
⟨µN , 1⟩ = (xi ) ,
N dν
i=1

n’est pas nécessairement égale à 1, de sorte que l’approximation µN n’est pas nécessairement
normalisée. En revanche, il résulte immédiatement du Théorème 9.1 que la variable aléatoire
dµ dµ
⟨µN , ϕ⟩ = ⟨S N (ν), ϕ ⟩ est un estimateur non–biaisé de ⟨ν, ϕ ⟩ = ⟨µ, ϕ⟩, et la variance (non–
dν dν
asymptotique) de cet estimateur est

dµ 2 1 dµ
E|⟨µN − µ, ϕ⟩|2 = E⟨S N (ν) − ν, ϕ ⟩ = var(ϕ , ν) .
dν N dν
104 CHAPITRE 9. MÉTHODES DE MONTE CARLO

Remarque 9.3 Alternativement, on peut considérer l’approximation auto–normalisée



N

dµ ϕ(xi ) (xi )
µN ∑N (xi ) dν
µ′N = = dν δxi c’est–à–dire que ⟨µ′N , ϕ⟩ = i=1
,
⟨µN , 1⟩ ∑
N
dµ ∑
N

i=1
(xj ) (xi )
dν dν
j=1 i=1

pour toute fonction mesurable bornée ϕ, où les variables aléatoires (x1 , · · · , xN ) sont i.i.d., de
distribution de probabilité commune ν. Il résulte de la décomposition suivante
µN
µ′N − µ = − µ = (µN − µ) − ⟨µN − µ, 1⟩ µ′N ,
⟨µN , 1⟩
que
⟨µ′N − µ, ϕ⟩ = ⟨µN − µ, ϕ⟩ − ⟨µN − µ, 1⟩ ⟨µ′N , ϕ⟩ ,
de sorte que

{ E|⟨µ′N − µ, ϕ⟩|2 }1/2 ≤ { E|⟨µN − µ, ϕ⟩|2 }1/2 + { E|⟨µN − µ, 1⟩|2 }1/2 ∥ϕ∥ ,

d’après l’inégalité (triangulaire) de Minkowski, pour toute fonction mesurable bornée ϕ. Ce type
d’approximation sera étudié en détail à la Section 9.2.

On remarque que
∫ ∫
dµ dµ dµ
var(ϕ , ν) = (ϕ(x) (x)) ν(dx) − (
2
ϕ(x) (x) ν(dx) )2
dν E dν E dν


= (ϕ(x) (x))2 ν(dx) − ⟨µ, ϕ⟩2 ,
E dν
et ∫ ∫
dµ dµ
(ϕ(x) (x)) ν(dx) ≥ (
2
|ϕ(x)| (x) ν(dx) )2 = ⟨µ, |ϕ|⟩2 ,
E dν E dν
d’après l’inégalité de Jensen, d’où la borne inférieure suivante

var(ϕ , ν) ≥ ⟨µ, |ϕ|⟩2 − ⟨µ, ϕ⟩2 ≥ 0 ,

indépendante du choix de la distribution de probabilité d’importance ν. On remarque que si la
fonction ϕ garde un signe constant, alors la borne inférieure est nulle.
Parmi tous les choix possibles pour la distribution de probabilité d’importance ν, il existe
un choix qui minimise la variance, c’est–à–dire que la borne inférieure est atteinte, même si ce
choix est en pratique inaccessible car il nécessite de connaı̂tre la constante de normalisation

⟨µ, |ϕ|⟩ = |ϕ(x)| µ(dx) = E|ϕ(X)| ,
E

dont le calcul présente le même degré de difficulté que le calcul de l’intégrale (9.1) elle–même !
En effet, si on introduit
|ϕ| µ
ν∗ = |ϕ| · µ = ,
⟨µ, |ϕ|⟩
9.1. ÉCHANTILLONNAGE PONDÉRÉ 105

c’est–à–dire que la distribution de probabilité µ domine la distribution de probabilité ν∗ mais la


réciproque n’est pas nécessairement vraie, par exemple dans le cas où la fonction ϕ peut s’annuler,
mais en revanche la distribution de probabilité ν∗ domine la distribution de probabilité µ sur le
support de la fonction ϕ, avec

|ϕ| = ⟨µ, |ϕ|⟩ ,
dν∗
alors on vérifie que ∫

(ϕ(x) (x))2 ν∗ (dx) = ⟨µ, |ϕ|⟩2 ,
E dν ∗
de sorte que

dµ dµ
var(ϕ , ν∗ ) = (ϕ(x) (x))2 ν∗ (dx) − ⟨µ, ϕ⟩2 = ⟨µ, |ϕ|⟩2 − ⟨µ, ϕ⟩2 ,
dν∗ E dν ∗

et la borne inférieure est atteinte.

Remarque 9.4 La distribution de probabilité d’importance optimale ν∗ et la fonction d’impor-


tance optimale dµ/dν∗ associée dépendent de la fonction ϕ dont on veut calculer l’intégrale, et
ne sont donc pas universelles.

Remarque 9.5 Il est certainement possible de simuler une variable aléatoire distribuée selon
ν∗ , même si la constante de normalisation ⟨µ, |ϕ|⟩ est inconnue, en utilisant l’une ou l’autre des
méthodes proposées à la Section 9.2, mais la connaissance explicite de la constante de norma-
lisation est absolument nécessaire pour évaluer la fonction d’importance optimale dµ/dν∗ . En
pratique, le choix optimal n’est donc simplement pas utilisable. Cependant, on peut espérer que
des algorithmes adaptatifs, qui apprennent (de manière approchée) la distribution de probabilité
d’importance optimale ν∗ , produiront des estimateurs dont la variance approchera la variance
minimale.

Pour tout autre choix (non–optimal) de la distribution de probabilité d’importance ν et de


la fonction d’importance dµ/dν, on a

dµ dµ dµ
var(ϕ , ν) − var(ϕ , ν∗ ) = (ϕ(x) (x))2 ν(dx) − ⟨µ, |ϕ|⟩2
dν dν∗ E dν

dµ dν∗
= (ϕ(x) (x) (x))2 ν(dx) − ⟨µ, |ϕ|⟩2
E dν ∗ dν

dν∗
= ⟨µ, |ϕ|⟩2 ( (x))2 ν(dx) − ⟨µ, |ϕ|⟩2
E dν

dν∗
= ⟨µ, |ϕ|⟩2 (( (x))2 − 1) ν(dx)
E dν

= ⟨µ, |ϕ|⟩2 χ2 (ν∗ , ν) .


en terme de la divergence du χ2 entre les distributions de probabilité ν∗ et ν, définie par
∫ ∫
dν∗ dν∗
χ2 (ν∗ , ν) = ( (x) − 1)2 ν(dx) = (( (x))2 − 1) ν(dx) .
E dν E dν
106 CHAPITRE 9. MÉTHODES DE MONTE CARLO

pourvu que la distribution de probabilité d’importance ν domine la distribution de probabilité


d’importance optimale ν∗ . Si λ est une mesure positive, pas nécessairement normalisée, qui
domine à la fois ν∗ et ν, avec les densités
dν∗ dν
q∗ = et q= ,
dλ dλ
respectivement, alors on a les expressions équivalentes suivantes
∫ ∫ 2
(q∗ (x) − q(x))2 q∗ (x)
2
χ (ν∗ , ν) = λ(dx) = λ(dx) − 1 .
E q(x) E q(x)

En conclusion, si au lieu de la distribution de probabilité d’importance optimale ν∗ on utilise


une distribution de probabilité d’importance ν M

• qui domine la distribution de probabilité µ, et qui domine donc a fortiori la distribution


de probabilité d’importance optimale ν∗ , de sorte que la divergence χ2 (ν∗ , ν M ) est bien
définie,
• et qui approche la distribution de probabilité d’importance optimale ν∗ , c’est–à–dire que
χ2 (ν∗ , ν M ) tend vers zero, quand M ↑ ∞,

et si on construit l’estimateur suivant

1 ∑
N

⟨µM
N , ϕ⟩ = ϕ(xi ) M (xi ) ,
N dν
i=1

où les variables aléatoires (x1 , · · · , xN ) sont i.i.d. de distribution de probabilité commune ν M ,
alors la variance de cet estimateur est
1 dµ 1 dµ
E|⟨µM
N − µ, ϕ⟩| =
2
var(ϕ M , ν M ) = [var(ϕ , ν∗ ) + ⟨µ, |ϕ|2 ⟩ χ2 (ν∗ , ν M )] ,
N dν N dν∗
et si la fonction ϕ garde un signe constant, alors
1 2
E|⟨µM
N − µ, ϕ⟩| =
2
χ (ν∗ , ν M ) ⟨µ, |ϕ|2 ⟩ ,
N

compte tenu que la variance minimale var(ϕ , ν∗ ) est nulle dans ce cas, c’est–à–dire que
dν∗
l’erreur d’échantillonnage Monte Carlo et l’erreur d’approximation due à l’apprentissage de la
distribution de probabilité d’importance optimale ν∗ se multiplient au lieu de s’additionner !

9.2 Simulation selon une distribution de Gibbs–Boltzmann

Il peut arriver que la distribution de probabilité d’importance soit seulement connue à une
constante multiplicative près, par exemple dans la situation suivante. Si la distribution de pro-
babilité µ est de la forme
gη ⟨η, g ϕ⟩
µ=g·η = c’est–à–dire ⟨µ, ϕ⟩ = ,
⟨η, g⟩ ⟨η, g⟩
9.2. SIMULATION SELON UNE DISTRIBUTION DE GIBBS–BOLTZMANN 107

ou de manière équivalente
⟨γ, ϕ⟩
⟨γ, ϕ⟩ = ⟨η, g ϕ⟩ = E[g(Ξ) ϕ(Ξ)] et ⟨µ, ϕ⟩ = , (9.3)
⟨γ, 1⟩
où la variable aléatoire Ξ a pour distribution de probabilité η, pour toute fonction mesurable
bornée ϕ, et s’il est facile

• d’évaluer la fonction positive g,

• et de simuler une variable aléatoire de distribution de probabilité η,

alors il est possible

• de simuler une variable aléatoire de distribution de probabilité µ, avec une méthode


d’acceptation / rejet,

• ou bien d’approcher la distribution de probabilité µ par la distribution de probabilité


empirique pondérée associée à un échantillon de variables aléatoires i.i.d., de distribu-
tion de probabilité commune η et pondéré par la fonction positive g, avec une méthode
d’échantillonnage pondéré,

même si la constante de normalisation ⟨η, g⟩ n’est pas connue explicitement.

▶ Acceptation / rejet La constante de normalisation ⟨η, g⟩ n’est pas nécessairement connue,


et on suppose seulement que sup g(x) ≤ M < ∞.
x∈E
On simule indépendamment une variable aléatoire Ξ selon la distribution de probabilité η
et une variable aléatoire U uniforme sur [0, 1] : si g(Ξ) ≥ M U alors on pose X = Ξ, et sinon
on recommence. La variable aléatoire X simulée selon cet algorithme a pour distribution de
probabilité µ = g · η. En effet
E[ϕ(Ξ) 1(g(Ξ) ≥ M U ) ]
E[ϕ(X)] = E[ϕ(Ξ) | g(Ξ) ≥ M U ] = ,
P[g(Ξ) ≥ M U ]
et
∫ ∫ 1
E[ϕ(Ξ) 1(g(Ξ) ≥ M U ) ] = ϕ(x) 1(g(x) ≥ M u) du η(dx)
E 0

g(x) ⟨η, g ϕ⟩
= ϕ(x) η(dx) = ,
E M M
pour toute fonction mesurable bornée ϕ, et en particulier
⟨η, g⟩
P[g(Ξ) ≥ M U ] = ,
M
pour ϕ ≡ 1, de sorte que
⟨η, g ϕ⟩
E[ϕ(X)] = = ⟨µ, ϕ⟩ .
⟨η, g⟩
108 CHAPITRE 9. MÉTHODES DE MONTE CARLO

Soit (Uk , k ≥ 1) et (Ξk , k ≥ 1) deux suites indépendantes, de variables aléatoires i.i.d.


uniformes sur [0, 1] et de variables aléatoires i.i.d. de distribution de probabilité commune η
respectivement, et on définit le nombre aléatoire

T = inf{k ≥ 1 : g(Ξk ) ≥ M Uk } ,

qui représente le nombre d’itérations de l’algorithme d’acceptation / rejet nécessaires pour pro-
duire une variable aléatoire de distribution de probabilité µ = g · η.

Proposition 9.6 Les variables aléatoires X = ΞT et T sont indépendantes

• de distribution de probabilité µ = g · η,
⟨η, g⟩
• et de loi géométrique de paramètre ,
M

respectivement.

Preuve. Par indépendance


n−1
E[ϕ(X) 1(T = n) ] = E[ϕ(Ξn ) 1(g(Ξ ) ≥ M U ) 1(g(Ξ ) < M U ) ]
n n k k
k=1


n−1
= E[ϕ(Ξn ) 1(g(Ξ ) ≥ M U ) ] P[g(Ξk ) < M Uk ]
n n
k=1

⟨η, g ϕ⟩ ⟨η, g⟩ n−1


= (1 − )
M M
⟨η, g⟩ ⟨η, g⟩ n−1
= ⟨µ, ϕ⟩ (1 − ) ,
M M
pour tout entier n et pour toute fonction mesurable bornée ϕ, et en particulier pour ϕ ≡ 1

⟨η, g⟩ ⟨η, g⟩ n−1


P[T = n] = (1 − ) ,
M M
de sorte que

⟨η, g⟩ ⟨η, g⟩ n−1


E[ϕ(X) 1(T = n) ] = ⟨µ, ϕ⟩ (1 − ) = E[ϕ(X)] P[T = n] ,
M M
ce qui montre l’indépendance des variables aléatoires T et X = ΞT . 2
Soit (ξ 1 , · · · , ξ N ) un N –échantillon de distribution de probabilité commune µ = g · η ob-
tenu par l’algorithme d’acceptation / rejet présenté ci–dessus, et soit (T 1 , · · · , T N ) les nombres
d’itérations nécessaires pour produire respectivement les variables aléatoires (ξ 1 , · · · , ξ N ). Pour
énoncer un théorème central limite, et utiliser la variance asymptotique comme moyen de com-
parer les algorithmes entre eux, il est plus raisonnable d’utiliser comme normalisation le nombre
9.2. SIMULATION SELON UNE DISTRIBUTION DE GIBBS–BOLTZMANN 109

total d’itérations, c’est–à–dire le nombre total de variables aléaoires simulées, qui est une me-
sure quantitative du temps de calcul de l’algorithme d’acceptation / rejet pour générer un
N –échantillon. D’après la loi des grands nombres

1 ∑ i
N
M
T −→ E[T ] = ,
N ⟨η, g⟩
i=1

en probabilité quand N ↑ ∞, et d’après le lemme de Slutsky

∑N
M
( T i )1/2 ⟨S N (µ) − µ, ϕ⟩ =⇒ N(0, var(ϕ, µ)) ,
⟨η, g⟩
i=1

en distribution quand N ↑ ∞.

Remarque 9.7 La variance asymptotique est d’autant plus petite que le rapport

sup g(x)
M M x∈E
= ,
⟨η, g⟩ sup g(x) ⟨η, g⟩
x∈E

est petit (proche de 1). Le premier facteur est d’autant plus petit (proche de 1) que la borne M est
proche du supremum, c’est donc une caractéristique de la méthode, tandis que le second facteur
est d’autant plus petit (proche de 1) que le recouvrement entre la distribution de probabilité η
et la fonction g est grand, c’est–à–dire que la distribution de probabilité η est concentrée autour
des points où la fonction g prend ses plus grandes valeurs, c’est donc une caractéristique du
modèle lui–même.

▶ Échantillonnage pondéré Le principe consiste à approximer numérateur et dénominateur


dans (9.3) à l’aide d’un unique échantillon : on introduit les approximations suivantes

1 ∑
N
⟨γ, ϕ⟩ = ⟨η, g ϕ⟩ ≈ ⟨S (η), g ϕ⟩ =
N
g(ξ i ) ϕ(ξ i ) ,
N
i=1

et

N
g(ξ i ) ϕ(ξ i )
1 ∑
N
i=1
⟨µ, ϕ⟩ = ⟨g · η, ϕ⟩ ≈ ⟨g · S N (η), ϕ⟩ = pourvu que g(ξ i ) > 0 ,

N N
i=1
g(ξ i )
i=1

pour toute fonction mesurable bornée ϕ, c’est–à–dire que

1 ∑
N
γ ≈ γ N = g S N (η) = g(ξ i ) δ i
N ξ
i=1
110 CHAPITRE 9. MÉTHODES DE MONTE CARLO

et


N
g(ξ i ) ∑
N
1 ∑
N
µ ≈ µN = g · S N (η) = δ i = wi δ i pourvu que g(ξ i ) > 0 ,
i=1

N ξ
i=1
ξ N
i=1
g(ξ j )
j=1

où les variables aléatoires (ξ 1 , · · · , ξ N ) sont i.i.d., de distribution de probabilité commune η, et


où les poids positifs (w1 , · · · , wN ) sont définis par

g(ξ i )
wi = pour tout i = 1, · · · , N .

N
g(ξ j )
j=1

Il résulte du Théorème 9.1 que la variable aléatoire ⟨γ N , ϕ⟩ = ⟨S N (η), g ϕ⟩ est un estimateur


non–biaisé de ⟨γ, ϕ⟩ = ⟨η, g ϕ⟩, pour toute fonction mesurable bornée ϕ, et en particulier pour
ϕ ≡ 1, la variable aléatoire ⟨γ N , 1⟩ = ⟨S N (η), g⟩ est un estimateur non–biaisé de ⟨γ, 1⟩ = ⟨η, g⟩.
En revanche, en tant que rapport de deux estimateurs non–biaisés, la variable aléatoire ⟨µN , ϕ⟩ =
⟨γ N , ϕ⟩/⟨γ N , 1⟩ est un estimateur biaisé de ⟨µ, ϕ⟩ = ⟨γ, ϕ⟩/⟨γ, 1⟩.

Théorème 9.8 La variable aléatoire ⟨γ N , ϕ⟩ est un estimateur non–biaisé de ⟨γ, ϕ⟩, et les mo-
ments de l’erreur d’estimation vérifient

⟨γ N − γ, ϕ⟩ 2 1/2 1 ⟨η, |g ϕ − ⟨η, g ϕ⟩ |2 ⟩ 1/2


{ E| | } =√ ( ) , (9.4)
⟨γ, 1⟩ N ⟨η, g⟩2

et pour tout réel p ≥ 2

⟨γ N − γ, ϕ⟩ p 1/p cp ⟨η, |g ϕ − ⟨η, g ϕ⟩ |p ⟩ 1/p


{ E| | } ≤√ ( ) , (9.5)
⟨γ, 1⟩ N ⟨η, g⟩p

pour toute fonction ϕ mesurable bornée.

Preuve. On remarque que

⟨γ N − γ, ϕ⟩ ⟨S N (η) − η, g ϕ⟩
= ,
⟨γ, 1⟩ ⟨η, g⟩

et il résulte du Théorème 9.1 que

⟨S N (η) − η, g ϕ⟩ 2 1/2 1 ⟨η, |g ϕ − ⟨η, g ϕ⟩ |2 ⟩ 1/2


{ E| | } =√ ( ) ,
⟨η, g⟩ N ⟨η, g⟩2
et
⟨S N (η) − η, g ϕ⟩ p 1/p cp ⟨η, |g ϕ − ⟨η, g ϕ⟩ |p ⟩ 1/p
{ E| | } ≤√ ( ) ,
⟨η, g⟩ N ⟨η, g⟩p
pour tout réel p ≥ 2. 2
9.2. SIMULATION SELON UNE DISTRIBUTION DE GIBBS–BOLTZMANN 111

Remarque 9.9 En particulier pour ϕ ≡ 1, la variable aléatoire ⟨γ N , 1⟩ est un estimateur non–


biaisé de la constante de normalisation ⟨γ, 1⟩, et les moments de l’erreur relative d’estimation
vérifient
⟨γ N , 1⟩ 1 ⟨η, |g − ⟨η, g⟩ |2 ⟩ 1/2
{ E| − 1 |2 }1/2 = √ ( ) , (9.6)
⟨γ, 1⟩ N ⟨η, g⟩2
et
⟨γ N , 1⟩ cp ⟨η, |g − ⟨η, g⟩ |p ⟩ 1/p
{ E| − 1 |p }1/p ≤ √ ( ) , (9.7)
⟨γ, 1⟩ N ⟨η, g⟩p
pour tout réel p ≥ 2. On remarque aussi que
g (ϕ − ⟨µ, ϕ⟩) − ⟨η, g (ϕ − ⟨µ, ϕ⟩)⟩ = g (ϕ − ⟨µ, ϕ⟩) ,
compte tenu que
⟨η, g (ϕ − ⟨µ, ϕ⟩)⟩ = ⟨η, g⟩ ⟨µ, ϕ − ⟨µ, ϕ⟩⟩ = 0 ,
de sorte que
⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ 2 1/2 1 ⟨η, g 2 |ϕ − ⟨µ, ϕ⟩|2 ⟩ 1/2
{ E| | } =√ ( ) , (9.8)
⟨γ, 1⟩ N ⟨η, g⟩2
et
⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ p 1/p cp ⟨η, g p |ϕ − ⟨µ, ϕ⟩|p ⟩ 1/p
{ E| | } ≤√ ( ) , (9.9)
⟨γ, 1⟩ N ⟨η, g⟩p
pour tout réel p ≥ 2.

Théorème 9.10 La variable aléatoire ⟨µN , ϕ⟩ est un estimateur biaisé de ⟨µ, ϕ⟩, avec
E[ ⟨µN , ϕ⟩ ] = ⟨µ, ϕ⟩ + O(1/N ) , (9.10)
et les moments de l’erreur d’estimation vérifient
1 ⟨η, g 2 |ϕ − ⟨µ, ϕ⟩ |2 ⟩ 1/2
{ E| ⟨µN − µ, ϕ⟩ |2 }1/2 = √ ( ) + O(1/N ) , (9.11)
N ⟨η, g⟩2
et pour tout réel p ≥ 2
cp ⟨η, g p |ϕ − ⟨µ, ϕ⟩ |p ⟩ 1/p
{ E| ⟨µN − µ, ϕ⟩ |p }1/p ≤ √ ( ) + O(1/N ) ,
N ⟨η, g⟩p
pour toute fonction mesurable bornée ϕ.

Preuve. On rappelle la majoration grossière


| ⟨µN − µ, ϕ⟩ | = | ⟨µN , ϕ − ⟨µ, ϕ⟩⟩ | ≤ osc(ϕ) , (9.12)
valable pour toute fonction ϕ mesurable bornée. On remarque aussi que
⟨γ N − γ, ϕ⟩ ⟨γ N − γ, 1⟩
⟨µN − µ, ϕ⟩ = − ⟨µN , ϕ⟩
⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N − γ, ϕ⟩ ⟨γ N − γ, 1⟩ ⟨γ N − γ, 1⟩
= − ⟨µ, ϕ⟩ − ⟨µN − µ, ϕ⟩
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩
= − ⟨µN − µ, ϕ⟩ ( − 1) ,
⟨γ, 1⟩ ⟨γ, 1⟩
112 CHAPITRE 9. MÉTHODES DE MONTE CARLO

et en itérant cette relation, on obtient

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩
⟨µN − µ, ϕ⟩ =
⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩ ⟨γ N , 1⟩
−[ − ⟨µN − µ, ϕ⟩ ( − 1) ] ( − 1)
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩


= − ( − 1)
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N , 1⟩
+ ⟨µN − µ, ϕ⟩ ( − 1)2 .
⟨γ, 1⟩

Pour l’étude du biais, on remarque que

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩
E =0,
⟨γ, 1⟩

de sorte que

E[⟨µN , ϕ⟩] − ⟨µ, ϕ⟩ = E⟨µN − µ, ϕ⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩ ⟨γ N , 1⟩
= − E[ ( − 1)] + E[⟨µN − µ, ϕ⟩ ( − 1)2 ] ,
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩

et en utilisant l’inégalité triangulaire, puis l’inégalité de Hölder et la majoration grossière (9.12),


on obtient
⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩ ⟨γ N , 1⟩
| E[⟨µN , ϕ⟩] − ⟨µ, ϕ⟩ | ≤ E| ( − 1) | + E[ |⟨µN − µ, ϕ⟩| ( − 1)2 ]
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ 2 1/2 ⟨γ N , 1⟩


≤ {E| | } {E| − 1|2 }1/2
⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N , 1⟩
+ osc(ϕ) E| − 1|2 ,
⟨γ, 1⟩

où les deux termes dans la majoration sont d’ordre 1/N d’après (9.6) et (9.8).
9.2. SIMULATION SELON UNE DISTRIBUTION DE GIBBS–BOLTZMANN 113

Pour l’étude du moment d’ordre 2, en utilisant l’identité (9.8) et l’inégalité triangulaire, puis
l’inégalité de Hölder et la majoration grossière (9.12), on obtient
1 ⟨η, g 2 |ϕ − ⟨µ, ϕ⟩ |2 ⟩ 1/2
| {E|⟨µN − µ, ϕ⟩|2 }1/2 − √ ( ) |
N ⟨η, g⟩2

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ 2 1/2


= | {E|⟨µN − µ, ϕ⟩|2 }1/2 − {E| | } |
⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ 2 1/2


≤ {E|⟨µN − µ, ϕ⟩ − | }
⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩ ⟨γ N , 1⟩
≤ {E| ( − 1) |2 }1/2 + {E|⟨µN − µ, ϕ⟩ ( − 1)2 |2 }1/2
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ 4 1/4 ⟨γ N , 1⟩ ⟨γ N , 1⟩


≤ {E| | } {E| − 1|4 }1/4 + osc(ϕ) {E| − 1|4 }1/2 ,
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩
où les deux termes dans la majoration sont d’ordre 1/N d’après (9.7) et (9.9).
Pour l’étude du moment d’ordre p, en utilisant l’inégalité triangulaire et la majoration (9.9),
puis l’inégalité de Hölder et la majoration grossière (9.12), on obtient
⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ p 1/p
{E|⟨µN − µ, ϕ⟩|p }1/p ≤ {E| | } |
⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩
+ {E| ( − 1) |p }1/p
⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N , 1⟩
+ {E|⟨µN − µ, ϕ⟩ ( − 1)2 |p }1/p
⟨γ, 1⟩
cp ⟨η, g p |ϕ − ⟨µ, ϕ⟩|p ⟩ 1/p
≤ √ ( )
N ⟨η, g⟩p

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ 2p 1/2p ⟨γ N , 1⟩


+ {E| | } {E| − 1 |2p }1/2p
⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N , 1⟩
+ osc(ϕ) {E| − 1|2p }1/p ,
⟨γ, 1⟩
où les deux derniers termes dans la majoration sont d’ordre 1/N d’après (9.7) et (9.9). 2

Théorème 9.11
√ ⟨γ N , 1⟩ √
N[ − 1] =⇒ N(0, V ) et N ⟨µN − µ, ϕ⟩ =⇒ N(0, v(ϕ)) ,
⟨γ, 1⟩
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique
⟨η, g 2 ⟩ ⟨η, g 2 |ϕ − ⟨µ, ϕ⟩|2 ⟩
V = −1 et v(ϕ) = ,
⟨η, g⟩2 ⟨η, g⟩2
114 CHAPITRE 9. MÉTHODES DE MONTE CARLO

respectivement.

Remarque 9.12 On vérifie que la variance asymptotique V coı̈ncide avec la variance non–
asymptotique donnée en (9.6), et que la variance asymptotique v(ϕ) coı̈ncide avec le terme
dominant de l’erreur quadratique moyenne non–asymptotique donnée en (9.11) ou de manière
équivalente avec le terme dominant de la variance non–asymptotique, compte tenu que le biais
donné en (9.10) est asymptotiquement négligeable.

Preuve. Il résulte du théorème central limite (dans sa version classique, pour des variables
indépendantes identiquement distribuées), que
√ ⟨γ N − γ, ϕ⟩ √ ⟨S N (η) − η, g ϕ⟩ var(g ϕ, η)
N = N =⇒ N(0, ),
⟨γ, 1⟩ ⟨η, g⟩ ⟨η, g⟩2
en distribution quand N ↑ ∞, et en particulier pour ϕ ≡ 1
√ ⟨γ N , 1⟩ √ ⟨γ N − γ, 1⟩ var(g, η)
N[ − 1] = N =⇒ N(0, ),
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨η, g⟩2
en distribution quand N ↑ ∞. On remarque aussi que

⟨γ N − γ, ϕ⟩ ⟨γ N − γ, 1⟩ ⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ, 1⟩


⟨µN − µ, ϕ⟩ = − ⟨µ, ϕ⟩ = .
⟨γ N , 1⟩ ⟨γ N , 1⟩ ⟨γ, 1⟩ ⟨γ N , 1⟩
D’après la loi des grands nombres

1 ∑
N
⟨γ N , 1⟩ = g(ξ i ) −→ ⟨η, g⟩ = ⟨γ, 1⟩ ,
N
i=1

en probabilité quand N ↑ ∞, et d’après le lemme de Slutsky


√ ⟨γ, 1⟩ √ ⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ var(g (ϕ − ⟨µ, ϕ⟩), η)
N ⟨µN − µ, ϕ⟩ = N N =⇒ N(0, ),
⟨γ , 1⟩ ⟨γ, 1⟩ ⟨η, g⟩2
en distribution quand N ↑ ∞. On remarque que

⟨η, g (ϕ − ⟨µ, ϕ⟩) ⟩ = ⟨η, g⟩ ⟨µ, ϕ − ⟨µ, ϕ⟩⟩ = 0 ,

de sorte que
var(g (ϕ − ⟨µ, ϕ⟩), η) = ⟨η, g 2 |ϕ − ⟨µ, ϕ⟩|2 ⟩ . 2

Remarque 9.13 Le principe de l’échantillonnage pondéré est illustré sur la Figure 9.2. On
constate en particulier que l’approximation sera d’autant meilleure que la distribution d’impor-
tance η (densité a priori) et la fonction d’importance g (vraisemblance) se recouvrent mutuelle-
ment, de telle sorte que la fonction d’importance prend des valeurs significatives sur l’échantillon
généré. La décomposition d’importance sera au contraire mal–posée si les valeurs significatives
de la fonction d’importance sont obtenues dans les queues de la distribution d’importance, au-
quel cas la fonction d’importance prend des valeurs négligeables sur l’échantillon généré. Un
9.2. SIMULATION SELON UNE DISTRIBUTION DE GIBBS–BOLTZMANN 115

critère quantitatif pour mesurer le recouvrement mutuel entre la distribution d’importance η


et la fonction d’importance g est donné par l’intégrale normalisée (compte tenu que la fonction
d’importance est définie à une constante multiplicative près)

∫ sup g(x)
g(x′ )
η(dx′ )
x∈E
ou par le rapport inverse r= .
E sup g(x) ⟨η, g⟩
x∈E
116 CHAPITRE 9. MÉTHODES DE MONTE CARLO

prior distribution (sample view)


1.4
prior

1.2

0.8

0.6

0.4

0.2

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

prior distribution (histogram view)


1.4
prior

1.2

0.8

0.6

0.4

0.2

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Figure 9.1 – Densité a priori, échantillon (en haut) et histogramme associé à l’échantillon (en
bas)
9.2. SIMULATION SELON UNE DISTRIBUTION DE GIBBS–BOLTZMANN 117

prior distribution, likelihood function


and posterior distribution (weighted sample view)
1.4
prior
likelihood
posterior
1.2

0.8

0.6

0.4

0.2

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

prior distribution, likelihood function


and posterior distribution (histogram view)
1.4
prior
likelihood
posterior
1.2

0.8

0.6

0.4

0.2

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Figure 9.2 – Densité a priori, fonction de vraisemblance, densité a posteriori, échantillon


pondéré (en haut) et histogramme associé à l’échantillon pondéré (en bas)
118 CHAPITRE 9. MÉTHODES DE MONTE CARLO

Pour une décomposition µ = g · η donnée, la variance asymptotique de l’algorithme d’échan-


tillonnage pondéré est inférieure à la variance asymptotique, convenablement normalisée par le
nombre total de variable aléatoires simulées, de l’algorithme d’acceptation / rejet. En effet

⟨η, g 2 |ϕ − ⟨µ, ϕ⟩|2 ⟩ M ⟨η, g |ϕ − ⟨µ, ϕ⟩|2 ⟩ M


≤ = var(ϕ, µ) ,
⟨η, g⟩ 2 ⟨η, g⟩ ⟨η, g⟩ ⟨η, g⟩

où on suppose que sup g(x) ≤ M < ∞.


x∈E

Aucun de ces deux algorithmes ne nécessite la connaissance de la constante de normalisa-


tion ⟨η, g⟩, mais l’algorithme d’acceptation / rejet utilise quand même de façon explicite une
borne supérieure M de la fonction positive g, alors que l’algorithme d’échantillonnage pondéré
ne nécessite pas la connaissance d’une telle borne. En revanche, l’algorithme d’acceptation /
rejet produit un échantillon de distribution de probabilité µ exactement, alors que l’algorithme
d’échantillonnage pondéré produit seulement un échantillon de distribution de probabilité η,
pondéré par la fonction positive g et normalisé.

9.3 Échantillonnage et approximation d’un mélange fini

Si la distribution de probabilité η est définie comme un mélange fini de distributions de proba-


bilité (m1 , · · · , mM ) avec les poids positifs (w1 , · · · , wM ), c’est–à–dire si


M ∑
M
η= wi m i avec wi = 1 ,
i=1 i=1

et s’il est facile

• de simuler pour tout i = 1, · · · , M une variable aléatoire distribuée selon mi ,

alors il est facile, en principe, de simuler une variable aléatoire selon la distribution de proba-
bilité η. Il suffit en effet de simuler d’abord une variable aléatoire I à valeurs dans l’ensemble
fini {1, · · · , M } et distribuée selon les poids (w1 , · · · , wM ), c’est–à–dire P[I = i] = wi pour
tout i = 1, · · · , M , puis de générer une variable aléatoire distribuée selon mI . La probabilité
de sélectionner une composante du mélange sera d’autant plus grande que le poids de cette
composante est grand. La question qui reste, et qui sera traitée à la Section 9.4, est donc de
savoir simuler une variable aléatoire à valeurs dans l’ensemble fini {1, · · · , M }.

▶ Échantillonnage multinomial S’il s’agit d’approcher la distribution de probabilité η par


un mélange fini de masses de Dirac, ou particules, plusieurs approches sont possibles. On peut
simuler un N –échantillon (ξ1 , · · · , ξN ) distribué selon η, où N n’est pas nécessairement égal au
nombre M de composantes du mélange, et

1 ∑
N
S N (η) = δξi . (9.13)
N
i=1
9.3. ÉCHANTILLONNAGE ET APPROXIMATION D’UN MÉLANGE FINI 119

Les poids sont ici exploités pour sélectionner (avec remise) les composantes du mélange les mieux
loties, avec l’effet attendu que les composantes de plus forts poids seront sélectionnées plusieurs
fois, tandis que les composantes de moins forts poids pourront même être éliminées et ne plus
être représentées du tout dans l’approximation. Le nombre de fois que la i–ème composante
du mélange est sélectionée, ou de manière équivalente son nombre Ni de représentants dans
l’approximation, sera d’autant grand que le poids wi de cette composante est grand, et on peut
montrer que le vecteur aléatoire (N1 , · · · , NM ) suit une loi multinomiale. La question qui reste,
et qui sera traitée à la Section 9.4, est donc de savoir simuler un N –échantillon à valeurs dans
l’ensemble fini {1, · · · , M }, plus efficacement qu’en répétant N fois la simulation d’une seule
variable aléatoire.
Intuitivement, si tous les poids sont égaux à (ou proches de) 1/M , c’est–à–dire si la répartition
des poids de mélange est proche de l’équidistribution, alors il est inutile voire même contre–
productif de sélectionner les composantes du mélange, avec le risque de favoriser certaines com-
posantes au détriment des autres composantes, alors qu’en principe toutes les composantes ont
la même importance.

Théorème 9.14 La variable aléatoire ⟨S N (η), ϕ⟩ est un estimateur non–biaisé de ⟨η, ϕ⟩, et les
moments de l’erreur d’estimation vérifient
1
E| ⟨S N (η) − η, ϕ⟩ |2 = var(ϕ, η)
N
et pour tout réel p ≥ 2, il existe une constante positive cp > 0 telle que
cp
{ E| ⟨S N (η) − η, ϕ⟩|p }1/p ≤ √ ⟨η, |ϕ − ⟨η, ϕ⟩|p ⟩1/p ,
N
pour toute fonction mesurable bornée ϕ.

Remarque 9.15 Compte tenu que


|ϕ(x) − ⟨η, ϕ⟩| ≤ osc(ϕ) ,
pour tout x ∈ E, on a également la majoration plus grossière suivante
cp
{ E| ⟨S N (η) − η, ϕ⟩|p }1/p ≤ √ osc(ϕ) ,
N
pour toute fonction mesurable bornée ϕ.

Remarque 9.16 On remarque que



M ∑
M
var(ϕ, η) = wi ⟨mi , |ϕ|2 ⟩ − | wi ⟨mi , ϕ⟩|2
i=1 i=1


M ∑
M ∑
M
= wi var(ϕ, mi ) + [ wi |⟨mi , ϕ⟩| − |
2
wi ⟨mi , ϕ⟩ |2 ] ,
i=1
| i=1 {z i=1 }
WM
où le terme WM représente la variance des moyennes intra–composantes affectées du poids de
chaque composante.
120 CHAPITRE 9. MÉTHODES DE MONTE CARLO

▶ Conservation des poids A l’opposé, on peut décider de conserver les poids et de simuler
un représentant pour chaque composante du mélange (ce qui impose que N est nécessairement
égal au nombre M de composantes du mélange initial), et poser


M
ηM = wi δ ξ , (9.14)
i
i=1

où indépendamment pour tout i = 1, · · · , M la variable aléatoire ξi est distribuée selon mi .


Intuitivement, cette seconde approche est certainement pertinente dans le cas où la répartition
des poids de mélange est proche de l’équidistribution, mais en revanche peu appropriée dans le
cas extrême où presque tous les poids sont nuls sauf quelques uns, c’est–à–dire dans le cas où
quelques composantes seulement, voire même une seule composante, sont effectivement présentes
dans le mélange.

Théorème 9.17 La variable aléatoire ⟨ηM , ϕ⟩ est un estimateur non–biaisé de ⟨η, ϕ⟩, et les
moments de l’erreur d’estimation vérifient


M ∑
M
E| ⟨ηM − η, ϕ⟩ | = (
2
wi2 ) [ wi□ var(ϕ, mi ) ] ,
i=1 i=1

et pour tout réel p ≥ 2, il existe une constante positive cp > 0 telle que

∑M ∑
M
{ E| ⟨ηM − η, ϕ⟩|p }1/p ≤ cp ( wi2 )1/2 { wi□ ⟨mi , |ϕ − ⟨mi , ϕ⟩|p ⟩ }1/p ,
i=1 i=1

pour toute fonction mesurable bornée ϕ, où le vecteur de probabilité (w1□ , · · · , wM


□ ) est défini par


M
wi□ = wi2 / [ wj2 ] pour tout i = 1, · · · , M .
j=1

Remarque 9.18 Compte tenu que

|ϕ(x) − ⟨mi , ϕ⟩| ≤ osc(ϕ) ,

pour tout x ∈ E et pour tout i = 0, 1, · · · , M , on a également la majoration plus grossière


suivante
∑M
{ E| ⟨ηM − η, ϕ⟩|p }1/p ≤ cp ( wi2 )1/2 osc(ϕ) ,
i=1

pour toute fonction mesurable bornée ϕ.


9.3. ÉCHANTILLONNAGE ET APPROXIMATION D’UN MÉLANGE FINI 121

Preuve. En exploitant l’indépendance des différentes variables aléatoires, on remarque que


M
E| ⟨ηM − η, ϕ⟩ |2 = E| wi [ϕ(ξ i ) − ⟨mi , ϕ⟩ ] |2
i=1


M
= wi2 E|ϕ(ξ i ) − ⟨mi , ϕ⟩|2
i=1

∑M ∑
M
= ( wi2 ) [ wi□ var(ϕ, mi ) ] ,
i=1 i=1

pour toute fonction mesurable bornée ϕ. Plus généralement, pour tout réel p ≥ 2, il résulte de
l’inégalité de Marcinkiewicz–Zygmund (B.2) que


M
E| ⟨ηM − η, ϕ⟩ |p = E| wi [ϕ(ξ i ) − ⟨mi , ϕ⟩] |p
i=1

∑M ∑
M
≤ Bp ( 2 p/2
wi ) [ wi□ E| ϕ(ξ i ) − ⟨mi , ϕ⟩|p ]
i=1 i=1

∑M ∑
M
= Bp ( wi2 )p/2 [ wi□ ⟨mi , |ϕ − ⟨mi , ϕ⟩|p ⟩ ] ,
i=1 i=1

pour toute fonction mesurable bornée ϕ. 2

Remarque 9.19 La variance de l’estimateur (9.13) vérifie

1 ∑ ∑ 1 ∑
M M M
Vred = [ wi ⟨mi , |ϕ|2 ⟩ − | wi ⟨mi , ϕ⟩|2 ] ≥ wi var(ϕ, mi ) ,
N N
i=1 i=1 i=1

compte tenu que



M ∑
M
| wi ⟨mi , ϕ⟩|2 ≤ wi |⟨mi , ϕ⟩|2 ,
i=1 i=1

d’après l’inégalité de Jensen, à comparer avec la variance


M
Vnored = wi2 var(ϕ, mi ) ,
i=1

de l’estimateur (9.14). A l’équidistribution, c’est–à–dire si tous les poids sont égaux entre eux
(et égaux à 1/M ), alors
1 ∑
M
Vred ≥ 2 var(ϕ, mi ) = Vnored ,
M
i=1
122 CHAPITRE 9. MÉTHODES DE MONTE CARLO

ce qui confirme l’intuition que redistribuer est contre–productif dans ce cas extrême. A l’inverse,
si la distribution des poids est complètement dégénérée, c’est–à–dire si tous les poids sont nuls
sauf le poids wa = 1 pour la composante a du mélange, alors
1 1
Vred = [ ⟨ma , |ϕ|2 ⟩ − |⟨ma , ϕ⟩|2 ] = var(ϕ, ma ) ≤ var(ϕ, ma ) = Vnored ,
N N
ce qui confirme l’intuition que redistribuer est certainement pertinent dans cet autre cas extrême.

▶ Stratification et échantillonnage résiduel multinomial Sélectionner les composantes


du mélange en échantillonnant selon les poids respectifs n’est donc approprié que dans les cas
où la répartition des poids de mélange est éloigné de l’équidistribution, mais introduit de toute
manière un aléa supplémentaire. Pour limiter cette source d’aléa, on peut par exemple affecter
de manière déterministe à chaque composante du mélange un nombre de représentants égal au
nombre de fois que le poids 1/N est contenu dans le poids wi de la composante (le poids 1/N est
celui qui sera affecté à chaque particule dans l’approximation finale). Il reste ensuite à compléter
la population de particules de manière à assurer un effectif de taille N , par exemple en simulant
un échantillon selon la distribution résiduelle des poids non encore affectés. Concrètement, pour
toute composante i = 1, · · · , M le nombre de représentants affectés à l’issue de la première passe
est Ni = ⌊N wi ⌋, c’est–à–dire que

N w i = N i + qi avec 0 ≤ qi < 1 .

Compte tenu des identités


M ∑
M ∑
M ∑
M
N= N wi = (Ni + qi ) = Ni + N0 avec N0 = qi ,
i=1 i=1 i=1 i=1

et

M ∑
M
Ni ∑
M
qi ∑
M
Ni N0
η= wi m i = mi + mi = mi + m0 ,
N N N N
i=1 i=1 i=1 i=1
avec

M
qi
m0 = mi ,
N0
i=1

on déduit que (N − N0 ) représentants ont déjà été affectés à l’issue de cette première passe, et
il reste donc N0 représentants à affecter de manière à approcher la distribution de probabilité
résiduelle convenablement renormalisée m0 . L’approximation proposée consiste

• à simuler indépendamment pour tout i = 1, · · · , M un Ni –échantillon (ξ i,1 , · · · , ξ i,Ni )


distribué selon mi ,

• à simuler un N0 –échantillon (ξ 0,1 , · · · , ξ 0,N0 ) distribué selon le mélange fini m0 ,

toutes les variables aléatoires étant simulées de manière indépendantes, et à poser

1 ∑∑ 1 ∑
M Ni N0
ηN = δ i,j + δ 0,j , (9.15)
N ξ N ξ
i=1 j=1 j=1
9.3. ÉCHANTILLONNAGE ET APPROXIMATION D’UN MÉLANGE FINI 123

c’est–à–dire que
1 ∑∑ 1 ∑
M Ni N0
⟨ηN , ϕ⟩ = i,j
ϕ(ξ ) + ϕ(ξ 0,j ) ,
N N
i=1 j=1 j=1

et par différence

1 ∑∑ 1 ∑
M Ni N0
⟨ηN − η, ϕ⟩ = [ϕ(ξ ) − ⟨mi , ϕ⟩] +
i,j
[ϕ(ξ 0,j ) − ⟨m0 , ϕ⟩] ,
N N
i=1 j=1 j=1

pour toute fonction mesurable bornée ϕ.

Théorème 9.20 La variable aléatoire ⟨ηN , ϕ⟩ est un estimateur non–biaisé de ⟨η, ϕ⟩, et les
moments de l’erreur d’estimation vérifient

1 ∑ Ni
M
N0
E| ⟨ηN − η, ϕ⟩ |2 = [ var(ϕ, mi ) + var(ϕ, m0 ) ] ,
N N N
i=1

et pour tout réel p ≥ 2, il existe une constante positive cp > 0 telle que

c p ∑ Ni
M
N0
{ E| ⟨ηN − η, ϕ⟩|p }1/p ≤ √ [ ⟨mi , |ϕ − ⟨mi , ϕ⟩|p ⟩ + ⟨m0 , |ϕ − ⟨m0 , ϕ⟩|p ⟩ ]1/p ,
N i=1 N N

pour toute fonction mesurable bornée ϕ.

Remarque 9.21 Compte tenu que

|ϕ(x) − ⟨mi , ϕ⟩| ≤ osc(ϕ) ,

pour tout x ∈ E et pour tout i = 0, 1, · · · , M , on a également la majoration plus grossière


suivante
cp ∑ Ni N0 1/p
M
cp
{ E| ⟨ηN − η, ϕ⟩|p }1/p ≤ √ [ + ] osc(ϕ) ≤ √ osc(ϕ) ,
N i=1 N N N

pour toute fonction mesurable bornée ϕ.

Remarque 9.22 On remarque que


M
qi ∑
M
qi
var(ϕ, m0 ) = ⟨mi , |ϕ|2 ⟩ − | ⟨mi , ϕ⟩ |2 ,
N0 N0
i=1 i=1
124 CHAPITRE 9. MÉTHODES DE MONTE CARLO

et on rappelle que Ni = N wi − qi pour tout i = 1, · · · , M , de sorte que



M
Ni N0
var(ϕ, mi ) + var(ϕ, m0 ) =
N N
i=1


M
N0 ∑ qi
M
= wi var(ϕ, mi ) − [⟨mi , |ϕ|2 ⟩ − |⟨mi , ϕ⟩ |2 ]
N N0
i=1 i=1

N0 ∑ qi ∑
M M
qi
+ [ ⟨mi , |ϕ|2 ⟩ − | ⟨mi , ϕ⟩ |2 ]
N N0 N0
i=1 i=1


M
N0 ∑ qi
M ∑
M
qi
= wi var(ϕ, mi ) + [ |⟨mi , ϕ⟩|2 − | ⟨mi , ϕ⟩ |2 ] ,
N N0 N0
i=1
| i=1 {z i=1 }
WM
où le terme WM représente la variance des moyennes intra–composantes affectées du poids rési-
duel de chaque composante.

Remarque 9.23 En regroupant les termes différemment, et compte tenu que Ni + qi = N wi


pour tout i = 1, · · · , N , il vient

M
Ni N0
var(ϕ, mi ) + var(ϕ, m0 )
N N
i=1


M
Ni ∑
M
Ni
= ⟨mi , |ϕ| ⟩ −
2
|⟨mi , ϕ⟩ |2
N N
i=1 i=1

N 0 ∑ qi N 0 ∑ qi
M M
+ ⟨mi , |ϕ|2 ⟩ − | ⟨mi , ϕ⟩ |2
N N0 N N0
i=1 i=1


M ∑
M
Ni N 0 ∑ qi
M
= wi ⟨mi , |ϕ| ⟩ − [
2
|⟨mi , ϕ⟩ | + 2
| ⟨mi , ϕ⟩ |2 ] ,
N N N0
i=1 i=1 i=1

tandis que

M ∑
M
var(ϕ, η) = wi ⟨mi , |ϕ| ⟩ − |
2
wi ⟨mi , ϕ⟩ |2
i=1 i=1


M ∑
M
Ni N 0 ∑ qi
M
= wi ⟨mi , |ϕ|2 ⟩ − | ⟨mi , ϕ⟩ + ⟨mi , ϕ⟩ |2 .
N N N0
i=1 i=1 i=1

D’après l’inégalité de Jensen, on a



M
Ni N 0 ∑ qi
M ∑
M
Ni N 0 ∑ qi
M
| ⟨mi , ϕ⟩ + ⟨mi , ϕ⟩ |2 ≤ | ⟨mi , ϕ⟩ |2 + | ⟨mi , ϕ⟩ |2 ,
N N N0 N N N0
i=1 i=1 i=1 i=1
9.3. ÉCHANTILLONNAGE ET APPROXIMATION D’UN MÉLANGE FINI 125

d’où on déduit que



M
Ni N0
var(ϕ, η) ≥ var(ϕ, mi ) + var(ϕ, m0 ) ,
N N
i=1

c’est–à–dire que la variance de l’estimateur (9.15) est inférieure à la variance de l’estima-


teur (9.13). En d’autres termes, la variance de l’erreur d’estimation pour l’algorithme d’échan-
tillonnage résiduel multinomial est inférieure à la variance de l’erreur d’estimation pour l’algo-
rithme d’échantillonnage multinomial.

Preuve du Théorème 9.20. En exploitant l’indépendance des différentes variables aléatoires,


on remarque que

1 ∑∑ 1 ∑
M Ni N0
E| ⟨ηN − η, ϕ⟩ |2 = E| [ϕ(ξ i,j ) − ⟨mi , ϕ⟩] + [ϕ(ξ 0,j ) − ⟨m0 , ϕ⟩] |2
N N
i=1 j=1 j=1

1 ∑∑ 1 ∑
M Ni N0
= E|ϕ(ξ i,j
) − ⟨m i , ϕ⟩|2
+ E|ϕ(ξ 0,j ) − ⟨m0 , ϕ⟩|2
N2 N2
i=1 j=1 j=1

1 ∑ Ni
M
N0
= [ var(ϕ, mi ) + var(ϕ, m0 ) ] ,
N N N
i=1

pour toute fonction mesurable bornée ϕ. Plus généralement, pour tout réel p ≥ 2, il résulte de
l’inégalité Marcinkiewicz–Zygmund (B.1) que

1 ∑∑ 1 ∑
M Ni N0
E| ⟨ηN − η, ϕ⟩ | = E|
p
[ϕ(ξ ) − ⟨mi , ϕ⟩] +
i,j
[ϕ(ξ 0,j ) − ⟨m0 , ϕ⟩] |p
N N
i=1 j=1 j=1

Bp 1 ∑ ∑ ∑
M Ni N0
≤ p/2 [ E| ϕ(ξ i,j ) − ⟨mi , ϕ⟩|p + E| ϕ(ξ 0,j ) − ⟨m0 , ϕ⟩|p ]
N N
i=1 j=1 j=1

Bp ∑ Ni
M
N0
= p/2
[ ⟨mi , |ϕ − ⟨mi , ϕ⟩|p ⟩ + ⟨m0 , |ϕ − ⟨m0 , ϕ⟩|p ⟩ ] ,
N N N
i=1

pour toute fonction mesurable bornée ϕ. 2

▶ Échantillonnage adaptatif Étant donné la distribution de probabilité η définie comme


un mélange fini

M ∑M
η= wi m i avec wi = 1 ,
i=1 i=1

il n’est véritablement intéressant de sélectionner les composantes du mélange que si les poids
(w1 , · · · , wM ) sont très déséquilibrés. Plusieurs critères ont été proposés pour mesurer l’écart
à l’équidistribution, et pour décider de conserver les poids ou de les utiliser pour échantilloner
selon l’une ou l’autre des implémentations proposées ci–dessus, par exemple la distance du
126 CHAPITRE 9. MÉTHODES DE MONTE CARLO

χ2 ou la distance de Kullback–Leibler entre deux vecteurs de probabilité p = (p1 , · · · , pM ) et


q = (q1 , · · · , qM ), définies par


M
pi ∑
M
pi
2
χ (p, q) = qi ( − 1)2 et K(p, q) = pi log ,
qi qi
i=1 i=1

respectivement.

Distance du χ2 et taille effective de l’échantillon Un premier critère pour mesurer l’écart


entre les poids (w1 , · · · , wM ) et la distribution uniforme, est la distance du χ2

1 ∑ 1 ∑ ∑
M M M
M
0≤ (M wi − 1) =
2
(M wi ) − 1 = M
2
wi2 − 1 = −1 ,
M M Meff
i=1 i=1 i=1

où Meff est la taille effective de l’échantillon, définie par


M
1 ≤ Meff = 1 / [ wi2 ] ≤ M ,
i=1

et où l’égalité est atteinte à l’équidistribution, ce qui suggère de redistribuer si


M
− 1 ≥ χ2red > 0 c’est–à–dire si Meff ≤ cred M ,
Meff
où le seuil cred = 1/(1 + χ2red ) < 1 reste à déterminer.

Distance de Kullback–Leibler et entropie de l’échantillon Un second critère pour mesu-


rer l’écart entre les poids (w1 , · · · , wM ) et la distribution uniforme, est la distance de Kullback–
Leibler
∑M ∑M
0≤ wi log(M wi ) = wi log wi + log M = −Ent + log M ,
i=1 i=1
où Ent est l’entropie de l’échantillon, définie par


M
Ent = − wi log wi ≤ log M ,
i=1

et où l’égalité est atteinte à l’équidistribution, ce qui suggère de redistribuer si

−Ent + log M ≥ cred ,

où le seuil cred > 0 reste à déterminer.

Remarque 9.24 Les résultats obtenus au Théorème 9.17 pour l’estimateur (9.14) peuvent être
ré–interprétés en terme de la taille effective de l’échantillon. En effet

1 ∑ □
M
E| ⟨ηM − η, ϕ⟩ |2 = wi var(ϕ, mi ) ,
Meff
i=1
9.4. ÉCHANTILLONNAGE SELON UNE DISTRIBUTION À SUPPORT FINI 127

et pour tout réel p ≥ 2, il existe une constante positive cp > 0 telle que

cp ∑ M
{ E| ⟨ηM − η, ϕ⟩|p }1/p ≤ √ { w□ ⟨mi , |ϕ − ⟨mi , ϕ⟩|p ⟩ }1/p ,
Meff i=1 i

pour toute fonction mesurable bornée ϕ.

Remarque 9.25 On peut aussi introduire l’approximation particulaire adaptative définie par
 M
 ∑

 avec ξi ∼ mi pour tout i = 1 · · · M

 wi δ ξ


i

 i=1

 si Meff > cred M ,
ηM =



 1 ∑
M

 avec ξi ∼ η pour tout i = 1 · · · M


δξ

 M i
 i=1
si Meff ≤ cred M ,
avec l’expression suivante pour la variance de l’erreur d’estimation

1 ∑ □
M



 wi var(ϕ, mi ) si Meff > cred M ,
 Meff
E| ⟨ηM − η, ϕ⟩ |2 = i=1




 1 var(ϕ, η) si Meff ≤ cred M .
M

9.4 Échantillonnage selon une distribution à support fini

La question qui reste est donc de savoir simuler une variable aléatoire I à valeurs dans l’en-
semble fini {1, · · · , M }, ou bien de savoir simuler un N –échantillon à valeurs dans l’ensemble
fini {1, · · · , M }, et on commence par introduire un découpage de l’intervalle [0, 1] en M seg-
ments adjacents de longueurs respectives w1 , · · · , wM . Ces M segments sont délimités par les
probabilités cumulées
s0 = 0 et si = w1 + · · · + wi ,
pour tout i = 1, · · · , M et on vérifie que sM = 1.
La méthode la plus directe est la méthode d’inversion, qui consiste à générer une variable
aléatoire U uniforme sur [0, 1] : si U appartient au j–ème segment, i.e. si
sj−1 < U ≤ sj ,
alors on pose I = j. Une recherche binaire en O(log2 M ) opérations permet d’obtenir ce résultat,
et il suffit donc de N O(log2 M ) opérations pour générer un N –échantillon à valeurs dans l’en-
semble fini {1, · · · , M } et distribué selon les poids (w1 , · · · , wM ).
Au lieu de répéter N fois l’opération de
128 CHAPITRE 9. MÉTHODES DE MONTE CARLO

• générer une variable aléatoire uniforme sur [0, 1],

• puis effectuer une recherche binaire,

on peut penser à générer un N –échantillon (U1 , · · · , UN ) de variables aléatoires uniformes sur


[0, 1], puis à ordonner cet échantillon, ce qui nécessite O(N log2 N ) opérations. On peut alors
appliquer la méthode d’inversion à l’échantillon ré–ordonné U(1) ≤ · · · ≤ U(N ) : si U(i) appartient
au j–ème segment, i.e. si
sj−1 < U(i) ≤ sj ,
alors on pose Ii = j. L’avantage de travailler avec un échantillon ordonné est que pour générer
Ii+1 il suffit de tester l’appartenance de U(i+1) aux segments situés au–delà du j–ème segment,
et il suffit donc de M + N comparaisons au plus pour affecter les N variables ré–ordonnées aux
M différents segments, c’est–à–dire pour interclasser les deux suites ordonnées

0 ≤ U(1) ≤ · · · ≤ U(N ) ≤ 1 et 0 = s0 ≤ s1 ≤ · · · ≤ sM = 1 .

? ? ? ? ? ? ?

Avec cette méthode, il suffit donc de O(N log2 N )+O(M +N ) opérations pour générer un N –
échantillon à valeurs dans l’ensemble fini {1, · · · , M } et distribué selon les poids (w1 , · · · , wM ).
Une méthode plus efficace, qui évite l’étape préalable de ré–ordonner les variables aléatoires
uniformes, consiste à générer directement une N –statistique d’ordre uniforme, c’est–à–dire un
vecteur aléatoire (V1 , · · · , VN ) distribué comme le vecteur aléatoire (U(1) , · · · , U(N ) ) obtenu en
ré–ordonnant un N –échantillon (U1 , · · · , UN ) de variables aléatoires uniformes sur [0, 1]. L’un ou
l’autre des deux résultats suivants permet d’effectuer cette tâche en O(N ) opérations, et il suffit
donc de O(N ) + O(M + N ) opérations pour générer un N –échantillon à valeurs dans l’ensemble
fini {1, · · · , M } et distribué selon les poids (w1 , · · · , wM ).

Proposition 9.26 Soit (U1 , · · · , UN ) un N –échantillon de variables aléatoires uniformes sur


[0, 1]. On définit
1/N 1/i
V i = UN · · · Ui pour tout i = N, · · · , 1,
1/N
ou bien par récurrence : VN = UN et

1/i
Vi = Vi+1 Ui pour tout i = N − 1, · · · , 1.

Le vecteur aléatoire (V1 , · · · , VN ) est distribué comme le vecteur aléatoire (U(1) , · · · , U(N ) ) obtenu
en ré–ordonnant (U1 , · · · , UN ).
9.4. ÉCHANTILLONNAGE SELON UNE DISTRIBUTION À SUPPORT FINI 129

Preuve. Clairement, Vi ≤ Vi+1 pour tout i = 1, · · · , N − 1, c’est–à–dire que la suite

V1 ≤ · · · ≤ Vi ≤ Vi+1 ≤ · · · ≤ VN ,

est croissante. On remarque que


∫ 1 ∫ 1
ϕ(v) N v N −1 dv ,
1/N
E[ϕ(VN )] = E[ϕ(UN )] = ϕ(x1/N ) dx =
0 0

pour toute fonction mesurable bornée ϕ définie sur l’intervalle [0, 1], de sorte que

P[VN ∈ dv] = 1(0 ≤ v ≤ 1) N v N −1 dv .

Compte tenu que la variable aléatoire uniforme Ui est indépendante de (Vi+1 , · · · , VN ), on a


1/i
E[ϕ(Vi ) | Vi+1 , · · · , VN ] = E[ϕ(Vi+1 Ui ) | Vi+1 , · · · , VN ]

∫ 1
= ϕ(Vi+1 x1/i ) P[Ui ∈ dx | Vi+1 , · · · , VN ]
0
∫ 1
= ϕ(Vi+1 x1/i ) dx
0
∫ 1
i v i−1
= ϕ(v) 1(0 ≤ v ≤ V ) i dv ,
0 i+1 V
i+1

pour toute fonction mesurable bornée ϕ définie sur l’intervalle [0, 1], de sorte que

i v i−1
P[Vi ∈ dv | Vi+1 , · · · , VN ] = 1(0 ≤ v ≤ V ) i dv ,
i+1 V
i+1

pour tout i = N − 1, · · · , 1. On en déduit que


N −1
P[V1 ∈ dv1 , · · · , VN ∈ dvN ] = P[VN ∈ dvN ] P[Vi ∈ dvi | Vi+1 = vi+1 , · · · , VN = vN ]
i=1


N −1
N −1 i v i−1
= 1(0 ≤ v ≤ 1) N vN dvN 1(0 ≤ v ≤ v ) ii dvi
N
i=1
i i+1 vi+1

= N ! 1(0 ≤ v ≤ · · · ≤ v ≤ 1) dv1 · · · dvN . 2


1 N

Proposition 9.27 Soit (E1 , · · · , EN +1 ) un (N +1)–échantillon de variables aléatoires exponen-


tielles de paramètre 1 sur [0, ∞). On définit SN +1 = E1 + · · · + EN +1 et

Si
Si = E1 + · · · + Ei et Vi = pour tout i = 1, · · · , N ,
SN +1
130 CHAPITRE 9. MÉTHODES DE MONTE CARLO

E1
ou bien par récurrence : V1 = et
SN +1

Ei
Vi = Vi−1 + pour tout i = 2, · · · , N .
SN +1

Le vecteur aléatoire (V1 , · · · , VN ) est distribué comme le vecteur aléatoire (U(1) , · · · , U(N ) ) obtenu
en ré–ordonnant un N –échantillon (U1 , · · · , UN ) de variables aléatoires uniformes sur [0, 1].

Preuve. Clairement, Vi ≥ Vi−1 pour tout i = 2, · · · , N , c’est–à–dire que la suite

V1 ≤ · · · ≤ Vi ≤ Vi+1 ≤ · · · ≤ VN ,

est croissante. On remarque que S1 = E1 , de sorte que

P[S1 ∈ ds] = 1(s ≥ 0) e−s ds .

Compte tenu que (S1 , · · · , Si ) contient exactement la même information que (E1 , · · · , Ei ), et
que la variable aléatoire Ei+1 est indépendante de (E1 , · · · , Ei ), on a

E[ϕ(Si+1 ) | S1 , · · · , Si ] = E[ϕ(Si + Ei+1 ) | E1 , · · · , Ei ]


∫ ∞
= ϕ(Si + x) P[Ei+1 ∈ dx | E1 , · · · , Ei ]
0
∫ ∞
= ϕ(Si + x) e−x dx
0
∫ ∞
= ϕ(s) 1(s ≥ S ) e−(s−Si ) ds ,
0 i

pour toute fonction ϕ mesurable bornée définie sur l’intervalle [0, ∞), de sorte que

P[Si+1 ∈ ds | S1 , · · · , Si ] = 1(s ≥ S ) e−(s−Si ) ds ,


i

pour tout i = 1, · · · , N . On en déduit que


N
P[S1 ∈ ds1 , · · · , SN +1 ∈ dsN +1 ] = P[S1 ∈ ds1 ] P[Si+1 ∈ dsi | S1 = s1 , · · · , Si = si ]
i=1


N
= 1(s ≥ 0) e−s1 ds1 1(s e−(si+1 −si ) dsi
i+1 ≥ si )
i=1

= 1(0 ≤ s ≤ · · · ≤ s e−sN +1 ds1 · · · dsN +1 ,


1 N +1 )
9.4. ÉCHANTILLONNAGE SELON UNE DISTRIBUTION À SUPPORT FINI 131

et
S1 SN
E[f (V1 , · · · , VN )] = E[f ( ,··· , )]
SN +1 SN +1
∫ ∞ ∫ ∞
s1 sN
= ··· f( ,··· , ) P[S1 ∈ ds1 , · · · , SN +1 ∈ dsN +1 ]
0 0 sN +1 sN +1
∫ ∞ ∫ ∞
s1 sN
= ··· f( ,··· , ) 1(0 ≤ s ≤ · · · ≤ s ≤ s e−sN +1 ds1 · · · dsN dsN +1
0 0 sN +1 sN +1 1 N N +1 )
∫ ∞ ∫ ∞
−sN +1
= ··· f (v1 , · · · , vN ) 1(0 ≤ v ≤ · · · ≤ v ≤ 1) sN
N +1 e dv1 · · · dvN dsN +1
0 0 1 N
∫ ∞ ∫ ∞ ∫ ∞
−sN +1
= ··· f (v1 , · · · , vN ) 1(0 ≤ v ≤ · · · ≤ v ≤ 1) dv1 · · · dvN sN
N +1 e dsN +1
0 0 1 N 0
∫ ∞ ∫ ∞
= ··· f (v1 , · · · , vN ) N ! 1(0 ≤ v ≤ · · · ≤ v ≤ 1) dv1 · · · dvN ,
0 0 1 N

pour toute fonction f mesurable bornée définie sur l’ensemble produit [0, ∞)N , compte tenu que
∫ ∞
sN e−s ds = N ! .
0

On en déduit que

P[V1 ∈ dv1 , · · · , VN ∈ dvN ] = N ! 1(0 ≤ v ≤ · · · ≤ v ) dv1 · · · dvN . 2


1 N
132 CHAPITRE 9. MÉTHODES DE MONTE CARLO
Chapitre 10

Approximations particulaires

On se place dans le cadre général décrit au Chapitre 8, où différents modèles ont été considérés,
avec différents points de vue. Il ressort de la discussion que le modèle (8.22), où chaque fonction
de sélection dépend de la transition courante de la chaı̂ne de Markov, semble suffisamment
général pour inclure comme cas particuliers la plupart des modèles présentés jusqu’ici, mais il
ressort aussi de la discussion que le modèle (8.1) apparamment plus simple, où chaque fonction
de sélection dépend seulement de l’état courant (c’est–à–dire de l’état d’arrivée de la transition
courante) de la chaı̂ne de Markov, contient en fait le modèle (8.22) comme cas particulier,
pourvu qu’on change de point de vue et qu’on adopte le modèle (8.27) à valeurs transitions.
Cette remarque sera abondamment exploitée dans ce chapitre et dans les chapitres suivants, et
on considérera indifférement ces deux modèles et les différents points de vue associés.
Il s’agit ici d’approcher numériquement, par des méthodes de Monte Carlo, la distribution
non–normalisée et la distribution normalisée associée, définis

• soit par une représentation probabiliste comme (8.1), (8.22) ou (8.27),

• soit par une relation de récurrence comme (8.2), (8.24) ou (8.28),

respectivement, selon le modèle utilisé. Le premier point de vue conduit aux algorithmes d’é-
chantillonnage pondéré (SIS, pour sequential importance sampling) qui sont des algorithmes de
Monte Carlo classiques (sans interaction), assez inefficaces, et le second point de vue conduit
aux algorithmes d’échantillonnage / ré–échantillonnage (SIR, pour sampling with importance
resampling) qui sont des algorithmes de Monte Carlo avec interaction, beaucoup plus efficaces.

10.1 Échantillonnage pondéré (SIS)

Il n’y a aucune difficulté particulière à considérer directement le modèle (8.22) apparamment


plus général, où chaque fonction de sélection dépend de la transition courante de la chaı̂ne de
Markov, et à considérer ensuite comme un cas particulier le modèle (8.1) apparamment plus
simple, où chaque fonction de sélection dépend seulement de l’état courant (c’est–à–dire de
l’état d’arrivée de la transition courante) de la chaı̂ne de Markov.

133
134 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

Si on introduit la variable aléatoire X0:n = (X0 , X1 , · · · , Xn ) à valeurs trajectorielles, dont


la distribution de probabilité est

η0:n (dx0:n ) = P[X0:n ∈ dx0:n ] = η0 (dx0 ) Q1 (x0 , dx1 ) · · · Qn (xn−1 , dxn ) ,

et la fonction de poids

n
g0:n (x0:n ) = gk (xk−1 , xk ) ,
k=0
et si on définit
∫ ∫
⟨η0:n , g0:n f ⟩ = E[f (X0:n ) g0:n (X0:n ) ] = ··· f (x0:n ) g0:n (x0:n ) η0:n (dx0:n ) ,
E E

pour toute fonction mesurable bornée f définie sur l’espace produit E × · · · × E = E n+1 , alors
on a

n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ] = E[ϕ ◦ π(X0:n ) g0:n (X0:n )] = ⟨η0:n , g0:n ϕ ◦ π⟩ ,
k=0

où π : (x0 , x1 , · · · , xn ) ∈ E × · · · × E 7→ xn ∈ E désigne la projection sur la dernière composante


de l’espace produit E n+1 = E × · · · × E, c’est–à–dire que l’application π pointe sur l’état final
de la trajectoire, de sorte que
⟨γn , ϕ⟩ ⟨η0:n , g0:n ϕ ◦ π⟩
⟨µn , ϕ⟩ = = ,
⟨γn , 1⟩ ⟨η0:n , g0:n ⟩
et la distribution normalisée µn s’exprime en terme de la distribution de Gibbs–Boltzmann
trajectorielle
g0:n η0:n
µ0:n = g0:n · η0:n = ,
⟨η0:n , g0:n ⟩
comme µn = µ0:n ◦ π −1 . On se retrouve donc dans le cas statique considéré au Chapitre 9, et on
peut appliquer la méthode d’échantillonnage pondéré décrite à la Section 9.2, d’où l’approxima-
tion

N
µ0:n ≈ µ0:n = g0:n · S (η0:n ) =
N N
wni δ i ,
ξ0:n
i=1

où les variables aléatoires 1 ,···


(ξ0:n N )
, ξ0:n
à valeurs trajectorielles sont i.i.d. de distribution de
probabilité commune η0:n , c’est–à–dire que indépendamment pour tout i = 1, · · · , N , la trajec-
i
toire ξ0:n i = (ξ i , ξ i , · · · , ξ i ) où
s’exprime comme ξ0:n 0 1 n

• la variable aléatoire ξ0i est distribuée selon η0 ,

• pour tout k = 1, · · · , n, la variable aléatoire ξki est distribuée selon mik = Qk (ξk−1
i , ·),

et où les poids positifs (wn1 , · · · , wnN ) sont définis par


i )
g0:n (ξ0:n
wni = pour tout i = 1, · · · , N .

N
j
g0:n (ξ0:n )
j=1
10.1. ÉCHANTILLONNAGE PONDÉRÉ (SIS) 135

Compte tenu de la relation µn = µ0:n ◦ π −1 , on a également l’approximation


N
−1
µn ≈ µN
n = µ0:n ◦ π
N
= wni δ .
ξni
i=1

La simulation des trajectoires et le calcul des poids peuvent être décrits de la façon récursive
suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée


selon la distribution de probabilité η0 , et on pose

g0 (ξ0i )
w0i = ,

N
g0 (ξ0j )
j=1

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξki


i
est simulée selon la distribution de probabilité Qk (ξk−1 , dx′ ), et on pose

i
wk−1 i
gk (ξk−1 , ξki )
wki = .

N
j j
wk−1 gk (ξk−1 , ξkj )
j=1

Les performances de cet algorithme, en termes de variance asymptotique de l’erreur d’approxi-


mation, quand le nombre N de particules tend vers l’infini, sont présentées au Théorème 12.1.

Exemple 10.1 Dans le cas particulier du système non–linéaire à bruits non–gaussiens décrit
par (5.1) et (5.2), simuler une variable aléatoire X selon la distribution de probabilité Qk (x, dx′ )
signifie simplement simuler une variable aléatoire W selon la distribution de probabilité pW k (dw),
et poser X = fk (x, W ), et évaluer la fonction de vraisemblance gk (x′ ) signifie simplement évaluer
qkV (Yk − hk (x′ )), d’où l’algorithme suivant

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée


selon la distribution de probabilité η0 , et on pose

q0V (Y0 − h0 (ξ0i ))


w0i = .

N
j
q0 (Y0 − h0 (ξ0 ))
V

j=1

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

– la variable aléatoire Wki est simulée selon la distribution de probabilité pW


k (dw),
i
– on pose ξki = fk (ξk−1 , Wki ),
136 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

et on pose
i
wk−1 qkV (Yk − hk (ξki ))
wki = .

N
j
wk−1 qkV (Yk − hk (ξkj ))
j=1

On remarque que les poids dépendent des trajectoires simulées, et sont en effet d’autant
plus élevés pour les trajectoires en adéquation avec les observations, mais en revanche ces poids
ne sont pas utilisés pour simuler les trajectoires : en poussant les choses à l’extrême, on peut
donc dire que les trajectoires sont simulées en aveugle, et l’algorithme se contente de pondérer
différemment les différentes trajectoires.
Comme ces différentes trajectoires sont en nombre fini, il est de moins en moins raisonnable,
au fur et à mesure que le temps passe, d’espérer qu’un nombre suffisant d’entre ces trajectoires
puisse être assez proche de la vraie trajectoire. Comme les poids s’accumulent au cours du temps
le long de chaque trajectoire, la situation typique est de voir une seule trajectoire recueillir un
poids beaucoup plus fort que toutes les autres, et ceci juste parce qu’au cours de son histoire
passée elle s’est trouvée plus souvent proche de la vraie trajectoire, quand bien même elle s’en
trouverait très éloignée à l’instant présent.
Ces phénomènes de dégénerescence des poids et d’importance excessive du passé sont bien
connus, et diverses solutions ont été proposées pour y remédier

• simuler les trajectoires selon un mécanisme qui prenne mieux en compte les observations,
au lieu de simuler les trajectoires en aveugle,

• multiplier les trajectoires de poids le plus fort, et éliminer les trajectoires de poids le plus
faible, en introduisant une étape de ré–échantillonage,

et il est également possible de combiner ces solutions, ce qui fait l’objet des algorithmes présentés
ci–dessous.

10.2 Échantillonnage / ré–échantillonnage (SIR)

Il est plus facile ici de considérer d’abord le modèle (8.1) apparamment plus simple, où chaque
fonction de sélection dépend seulement de l’état courant (c’est–à–dire de l’état d’arrivée de la
transition courante) de la chaı̂ne de Markov, et de considérer ensuite comme un cas particulier le
modèle (8.22) apparamment plus général, où chaque fonction de sélection dépend de la transition
courante de la chaı̂ne de Markov, ce qui est possible pourvu qu’on change de point de vue et
qu’on adopte le modèle (8.27) à valeurs transitions.
Au lieu de simuler d’abord N trajectoires indépendantes de la chaı̂ne de Markov et d’évaluer
séparément les poids associés à chaque trajectoire simulée, le principe consiste à rechercher une
approximation

1 ∑ ∑ ∑
N N N
ηk ≈ ηkN = δ i et µk ≈ µN
k = wki δ avec wki = 1 , (10.1)
N ξk ξki
i=1 i=1 i=1
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 137

des distributions normalisées, sous la forme de distributions de probabilité empiriques pondérées


associées à un système de particules caractérisé par les positions (ξki , i = 1, · · · , N ) et par les
poids positifs (wki , i = 1, · · · , N ). En toute généralité, le nombre de particules pourrait être
aléatoire ou varier d’une génération à l’autre, mais on se limite ici au cas simple où le nombre
N de particules est constant à chaque génération. Les poids et les positions des particules sont
choisis de telle sorte que l’évolution de la suite approchée reproduise aussi fidèlement que possible
l’évolution de la distribution normalisée décrite par le diagramme suivant

mutation pondération
µk−1 −−−−−−−−−−→ ηk = µk−1 Qk −−−−−−−−−−−−→ µk = gk · ηk , (10.2)

avec la condition initiale µ0 = g0 · η0 , où la notation · désigne le produit projectif.


On introduit d’abord l’approximation

1 ∑
N
η0N = S N (η0 ) = δ i ,
N ξ0
i=1

où indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est distribuée selon η0 .
Pour tout k = 0, 1, · · · , n, il est immédiat à partir de la définition (10.1) que


N
gk (ξki ) ∑ N
µN
k = gk · ηkN = δ i = wki δ i ,
i=1

N
j
ξk
i=1
ξk
gk (ξk )
j=1

possède automatiquement la forme recherchée, avec les poids définis par

gk (ξki )
wki = pour tout i = 1, · · · , N , (10.3)

N
gk (ξkj )
j=1

et
1 ∑
N
⟨ηkN , gk ⟩ = gk (ξki ) ,
N
i=1

fournit l’approximation correspondante pour la constante de normalisation ⟨ηk , gk ⟩.


Pour tout k = 1, · · · , n, il est immédiat à partir de la définition (10.1) que


N
µN
k−1 Qk = i
wk−1 mik où mik (dx′ ) = Qk (ξk−1
i
, dx′ ) ,
i=1

pour tout i = 1, · · · , N , et il s’agit donc d’approcher une distribution de probabilité définie


comme un mélange fini, selon l’une ou l’autre des approches proposées à la Section 9.3. La
définition précise de l’approximation ηkN dépend de l’implémentation choisie.
138 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

▶ Ré–échantillonnage multinomial Dans cette implémentation, à chaque génération k =


1, · · · , n, on simule un N –échantillon distribué selon le mélange fini µN
k−1 Qk , d’où l’approxima-
tion
∑N
1 ∑
N
µN Q
k−1 k = w i
k−1 m i
k ≈ ηk
N
= S N
(µN
Q
k−1 k ) = δ i ,
N ξk
i=1 i=1

sous la forme désirée, et où indépendamment pour tout i = 1, · · · , N la variable aléatoire ξki
est distribuée selon le mélange fini µNk−1 Qk . On en déduit l’expression suivante pour l’erreur
d’approximation
1 ∑
N
⟨ηk − µk−1 Qk , ϕ⟩ =
N N
[ ϕ(ξki ) − ⟨µN
k−1 Qk , ϕ⟩ ] ,
N
i=1

et il résulte du Théorème 9.14 et de la Remarque 9.15 que


1
E[ |⟨ηkN − µN
k−1 Qk , ϕ⟩| | Fk−1 ] =
2 N
var(ϕ, µN
k−1 Qk ) ,
N
et pour tout réel p ≥ 2
cp
{ E[ |⟨ηkN − µN
k−1 Qk , ϕ⟩| | Fk−1 ] }
p N 1/p
≤ √ osc(ϕ) , (10.4)
N

pour toute fonction mesurable bornée ϕ, où Fk−1 N désigne la tribu engendrée par le système de
particules jusqu’à la (k − 1)–ème génération.

▶ Stratification et ré–échantillonnage résiduel multinomial Dans cette implémentation,


à chaque génération k = 1, · · · , n, chaque composante i = 1, · · · , N du mélange fini µN k−1 Qk
reçoit dans une première allocation un nombre de représentants égal au nombre de fois que le
poids 1/N est contenu dans le poids wk−1 i de la composante (le poids 1/N est celui qui sera
affecté à chaque particule dans l’approximation ηkN ). Il reste ensuite à compléter la popula-
tion de particules de manière à assurer un effectif de taille N , en simulant un échantillon selon
la distribution résiduelle des poids non encore affectés. Concrètement, pour toute composante
i = 1, · · · , N le nombre de représentants affectés à l’issue de la première passe est Nki = ⌊N wki ⌋,
c’est–à–dire que
N wki = Nki + qki avec 0 ≤ qki < 1 .
Compte tenu des identités


N ∑
N ∑
N ∑
N
i
N= N wk−1 = (Nki + qki ) = Nki + Nk0 avec Nk0 = qki ,
i=1 i=1 i=1 i=1

et

N ∑
N
Ni ∑
N
qi ∑
N
Ni Nk0 0
µN
k−1 Qk =
i
wk−1 mik = k
mik + k
mik = k
mik + mk ,
N N N N
i=1 i=1 i=1 i=1
avec
∑N
qki
m0k = i
0 mk ,
i=1
N k
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 139

on déduit que (N − Nk0 ) descendants ont déjà été affectés à l’issue de cette première passe, et
il reste donc Nk0 descendants à affecter de manière à approcher la distribution de probabilité
résiduelle convenablement renormalisée m0k . L’approche proposée consiste
0,Nk0
• à simuler un Nk0 –échantillon (ξk0,1 , · · · , ξk ) distribué selon le mélange fini m0k ,
i,Nki
• à simuler indépendamment pour tout i = 1, · · · , N un Nki –échantillon (ξki,1 , · · · , ξk )
distribué selon mik ,

toutes les variables aléatoires étant simulées de manière indépendantes, d’où l’approximation
i 0
∑ N Nk Nk
1 ∑∑ 1 ∑ 1 ∑
N N
µN
k−1 Qk =
i
wk−1 mik ≈ ηkN = δ i,j + δ 0,j = δ i , (10.5)
N ξk N ξk N ξk
i=1 i=1 j=1 j=1 i=1

sous la forme désirée, c’est–à–dire que


i 0
N Nk Nk
1 ∑∑ i,j 1 ∑
⟨ηkN , ϕ⟩ = ϕ(ξk ) + ϕ(ξk0,j ) ,
N N
i=1 j=1 j=1

et par différence
i 0
N Nk Nk
1 ∑∑ 1 ∑
⟨ηkN − µN
k−1 Qk , ϕ⟩ = [ϕ(ξki,j ) − ⟨mik , ϕ⟩] + [ϕ(ξk0,j ) − ⟨m0k , ϕ⟩] ,
N N
i=1 j=1 j=1

pour toute fonction mesurable bornée ϕ. Il résulte du Théorème 9.20 et de la Remarque 9.21
que
1 ∑ Nki
N
N0
E[ | ⟨ηk − µk−1 Qk , ϕ⟩ | | Fk−1 ] =
N N 2 N
[ var(ϕ, mik ) + k var(ϕ, m0k ) ] ,
N N N
i=1
et pour tout réel p ≥ 2
cp
{ E[ | ⟨ηkN − µN
k−1 Qk , ϕ⟩| | Fk−1 ] }
p N 1/p
≤ √ osc(ϕ) , (10.6)
N
pour toute fonction mesurable bornée ϕ, où Fk−1 N désigne la tribu engendrée par le système de
particules jusqu’à la (k − 1)–ème génération.

Résumé Dans toute cette classe d’algorithmes d’approximation particulaire, et quelle que soit
l’implémentation retenue pour mette en œuvre l’étape de sélection, l’évolution de la population
de particules et la mise–à–jour des poids sont ici couplées et peuvent être décrites de la façon
récursive suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée


selon la distribution de probabilité η0 , et on pose
g0 (ξ0i )
w0i = .

N
j
g0 (ξ0 )
j=1
140 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

– un individu ξbk−1
i 1 , · · · , ξN )
est sélectionné au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−1 , · · · , wk−1 ) et à l’aide de l’un des mécanismes de sélection
1 N

proposés,
– la variable aléatoire ξ i est simulée selon la distribution de probabilité Qk (ξbi , dx′ ),
k k−1

et on pose
gk (ξki )
wki = .

N
gk (ξkj )
j=1

Les performances de ces algorithmes, en termes de variance asymptotique de l’erreur d’approxi-


mation, quand le nombre N de particules tend vers l’infini, sont présentées au Théorème 12.2.
1 , · · · , ξN )
En résumé, les particules (ξk−1 k−1

• sont sélectionnées selon leurs poids respectifs (wk−1


1 , · · · , w N ) (étape de sélection),
k−1

• évoluent selon le noyau de Markov Qk (étape de mutation),

• et sont pondérées en évaluant la fonction de fitness gk (étape de pondération).

Au lieu de s’accumuler le long de chaque trajectoire comme dans le cas de l’algorithme SIS,
les poids sont ici utilisés pour redistribuer les particules, c’est–à–dire multiplier les particules de
plus fort poids et éliminer les particules de plus faible poids. Le gain escompté en ne conservant à
chaque pas de temps que les particules les plus pertinentes, est de concentrer ainsi les particules,
c’est–à–dire la puissance de calcul disponible, dans les régions d’intérêt de l’ensemble E.

Exemple 10.2 Dans le cas particulier du système non–linéaire à bruits non–gaussiens décrit
par (5.1) et (5.2), simuler une variable aléatoire X selon la distribution de probabilité Qk (x, dx′ )
signifie simplement simuler une variable aléatoire W selon la distribution de probabilité pWk (dw),

et poser X = fk (x, W ), et évaluer la fonction de vraisemblance gk (x ) signifie simplement évaluer
qkV (Yk − hk (x′ )), d’où l’algorithme suivant

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée


selon la distribution de probabilité η0 , et on pose

q0V (Y0 − h0 (ξ0i ))


w0i = .

N
j
q0 (Y0 − h0 (ξ0 ))
V

j=1

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

– un individu ξbk−1
i 1 , · · · , ξN )
est sélectionné au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−11 , · · · , w N ) et à l’aide de l’un des mécanismes de sélection
k−1
proposés,
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 141

– la variable aléatoire Wki est simulée selon la distribution de probabilité pW


k (dw),

– on pose ξki = fk (ξbk−1


i , W i ),
k

et on pose
qkV (Yk − hk (ξki ))
wki = .

N
qkV (Yk − hk (ξkj ))
j=1

Dans le cas plus général du modèle (8.8) et pour une décomposition d’importance (8.11)
donnée, avec la représentation probabiliste (8.12) associée, ou bien pour le modèle (8.22) où la
décomposition d’importance est donnée de manière explicite dans la représentation probabiliste,
chaque fonction de sélection dépend de la transition courante de la chaı̂ne de Markov, mais il
suffit de changer de point de vue et d’adopter le modèle (8.27) à valeurs transitions, où chaque
fonction de sélection dépend seulement de l’état courant, puis de ré–exprimer dans ce cadre les
algorithmes proposés ci–dessus pour le modèle (8.1) apparamment plus simple.
Le principe consiste donc à rechercher une approximation

1 ∑ ∑
N N
ηktr ≈ ηkN,tr = δ i,1 i,2 et N,tr
k ≈ µk
µtr = wki δ , (10.7)
N (ξk , ξk ) (ξki,1 , ξki,2 )
i=1 i=1

des distributions normalisées, sous la forme de distributions de probabilité empiriques pondérées


associées à un système de particules à valeurs transitions caractérisé par les positions–transitions
((ξki,1 , ξki,2 ) , i = 1, · · · , N ) et par les poids positifs normalisés (wki , i = 1, · · · , N ). Les poids et les
positions des particules sont choisis de telle sorte que l’évolution de la suite approchée reproduise
aussi fidèlement que possible l’évolution de la distribution normalisée décrite par le diagramme
suivant
mutation pondération
k−1 −
µtr −−−−−−−−−→ ηktr = µtr k−1 Qk − −−−−−−−−−−−→ µtr k = g k · ηk ,
tr tr
(10.8)
avec la condition initiale µtr0 = g0 · η0 , où la notation · désigne le produit projectif. Ici, les noyaux
markoviens Qtr (x, dx ′ ) sont définis en (8.26).
k

On introduit d’abord l’approximation

1 ∑
N
η0N N
= S (η0 ) = δ i ,
N ξ0
i=1

où indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est distribuée selon η0 .
Pour tout k = 0, 1, · · · , n, il est immédiat à partir de la définition (10.1) que


N
gk (ξki,1 , ξki,2 ) ∑
N
µN,tr = gk · ηkN,tr = δ = wki δ ,
k

N (ξki,1 , ξki,2 ) (ξki,1 , ξki,2 )
i=1 i=1
gk (ξkj,1 , ξkj,2 )
j=1
142 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

possède automatiquement la forme recherchée, avec les poids définis par

gk (ξki,1 , ξki,2 )
wki = pour tout i = 1, · · · , N , (10.9)

N
gk (ξkj,1 , ξkj,2 )
j=1

et
1 ∑
N
⟨ηkN,tr , gk ⟩ = gk (ξki,1 , ξki,2 ) ,
N
i=1

fournit l’approximation correspondante pour la constante de normalisation ⟨ηktr , gk ⟩.


Pour tout k = 1, · · · , n, il est immédiat à partir de la définition (10.1) également que


N
µN,tr
k−1 Qtr
k = i
wk−1 mik où mik (dx′1 , dx′2 ) = δ i,2 (dx′1 ) Qk (x′1 , dx′2 ) ,
ξk−1
i=1

pour tout i = 1, · · · , N , et il s’agit donc d’approcher une distribution de probabilité définie


comme un mélange fini, selon l’une ou l’autre des approches proposées à la Section 9.3. La
définition précise de l’approximation ηkN,tr dépend de l’implémentation choisie.
Quelle que soit l’implémentation choisie, pour simuler une variable aléatoire à valeur tran-
sition (X1′ , X2′ ) selon mik , il suffit de poser X1′ = ξk−1i,2
et de simuler X2′ selon Qk (ξk−1 i,2
, dx′ ),
c’est–à–dire que l’état de départ de la nouvelle transition coı̈ncide avec l’état d’arrivée de la
transition précédente et l’état d’arrivée de la nouvelle transition est distribué à partir de l’état
de départ selon le noyau de transition du modèle (8.22). En revanche, l’état de départ de la
transition précédente n’est pas utilisé.
L’évolution de la population de particules–transitions et la mise–à–jour des poids peuvent
être décrites de la façon récursive suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i,2 est simulée


selon la distribution de probabilité η0 , et on pose

g0 (ξ0i,2 )
w0i = .

N
j,2
g0 (ξ0 )
j=1

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

– un individu (ξbk−1i,1 bi,2


, ξk−1 ) est sélectionné au sein de la population de particules–transitions
1,1 1,2 N,1 N,2
((ξk−1 , ξk−1 ), · · · , (ξk−1 , ξk−1 )) en fonction des poids (wk−11 , · · · , w N ) et à l’aide de
k−1
l’un des mécanismes de sélection proposés,
– la variable aléatoire à valeur transition (ξki,1 , ξki,2 ) est simulée selon la distribution de
probabilité Qtr bi,1 bi,2 ′ ′ i,1 bi,2
k (ξk−1 , ξk−1 , dx1 , dx2 ), c’est–à–dire que ξk = ξk−1 et que la variable
aléatoire ξki,2 est simulée selon la distribution de probabilité Qk (ξbk−1 i,2
, dx′2 ),
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 143

et on pose

gk (ξki,1 , ξki,2 ) gk (ξbk−1


i,2
, ξki,2 )
wki = c’est–à–dire wki = .

N ∑
N
gk (ξkj,1 , ξkj,2 ) gk (ξbk−1
j,2
, ξkj,2 )
j=1 j=1

Finalement, l’approximation particulaire pour le modèle (8.22) est donnée sous la forme


N
µk ≈ µN N,tr
k = µk ◦ π −1 = wki δ i,2 ,
ξk
i=1

−1
k ◦ π . On remarque aussitôt que toutes les étapes de cette
compte tenu de la relation µk = µtr
classe d’algorithmes d’approximation particulaire peuvent s’exprimer en terme de l’état d’arrivée
seulement des particules–transitions, ce qui donne


N
µk ≈ µN = wki δ ,
k ξki
i=1

où l’évolution de la population de particules et la mise–à–jour des poids peuvent être décrites
de la façon récursive suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée


selon la distribution de probabilité η0 , et on pose

g0 (ξ0i )
w0i = .

N
g0 (ξ0j )
j=1

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

– un individu ξbk−1
i 1 , · · · , ξN )
est sélectionné au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−1 , · · · , wk−1 ) et à l’aide de l’un des mécanismes de sélection
1 N

proposés,
– la variable aléatoire ξ i est simulée selon la distribution de probabilité Qk (ξbk−1 , dx′ ),
k

et on pose
gk (ξbk−1
i , ξ i)
k
wki = .

N
gk (ξbk−1
j
, ξkj )
j=1

1 , · · · , ξN )
En résumé, les particules (ξk−1 k−1

1 , · · · , w N ) (étape de sélection),
• sont sélectionnées selon leurs poids respectifs (wk−1 k−1
144 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

• évoluent selon le noyau de Markov Qk (étape de mutation),

• et sont pondérées en évaluant la fonction de fitness gk (étape de pondération).

Remarque 10.3 Dans le cas où les fonctions de sélection gk (x, x′ ) = gk (x′ ) ne dépendent que
de l’état d’arrivée de la transition, pour tout k = 0, 1, · · · , n, on retrouve évidemment comme
cas particulier le schéma d’approximation déjà décrit plus haut.

Dans le cas de la décomposition d’importance optimale (8.13) et (8.14) où la fonction de


sélection g0 (x) = cste est constante et où les fonctions de sélection gk (x, x′ ) = gbk (x) ne dépendent
au contraire que de l’état de départ de la transition pour tout k = 1, · · · , n, on obtient en principe
comme cas particulier un schéma d’approximation où l’évolution de la population de particules
et la mise–à–jour des poids peuvent être décrites de la façon récursive suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée


selon la distribution de probabilité ηb0 , et on pose

w0i = 1/N .

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

– un individu ξbk−1
i 1 , · · · , ξN )
est sélectionné au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−1 , · · · , wk−1 ) et à l’aide de l’un des mécanismes de sélection
1 N

proposés,
– la variable aléatoire ξ i est simulée selon la distribution de probabilité Qb k (ξbi , dx′ ),
k k−1

et on pose
gbk (ξbk−1
i )
wki = .

N
gbk (ξbk−1
j
)
j=1

On constate néanmoins que les poids (wk1 , · · · , wkN ) qui servent à sélectionner les individus au sein
de la nouvelle population (ξk1 , · · · , ξkN ) ne dépendent en fait que de la population (ξbk−1
1 , · · · , ξbN )
k−1
et sont donc disponibles avant même que la nouvelle population ne soit générée. Il est plus efficace
dans ce cas d’effectuer la sélection plus tôt, et il suffit ici d’adopter le modèle (8.18).
Le principe consiste donc à rechercher une approximation

1 ∑ ∑ ∑
N N N
ηkopt ≈ ηkN,opt = δ i et µopt N,opt
k ≈ µk = wki δ avec wki = 1 ,
N ξk ξki
i=1 i=1 i=1

pour tout k = 0, 1, · · · , (n − 1), et

1 ∑
N
ηnopt ≈ ηnN,opt = δ i ,
N ξn
i=1
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 145

pour k = n, sous la forme de distributions de probabilité empiriques pondérées associées à un


système de particules caractérisé par les positions (ξki , i = 1, · · · , N ) et par les poids positifs
normalisés (wki , i = 1, · · · , N ). Les poids et les positions des particules sont choisis de telle sorte
que l’évolution de la suite approchée reproduise aussi fidèlement que possible l’évolution de la
distribution normalisée décrite par le diagramme suivant

mutation pondération
µopt −−−−−−−−−→ ηkopt = µopt
k−1 −
opt
k−1 Qk − −−−−−−−−−−−→ µopt opt opt
k = gk · ηk , (10.10)

avec la condition initiale µopt 0 = g0opt · η0opt , où la notation · désigne le produit projectif. Ici,
la distribution initiale η0 (dx) est définie en (8.15), les noyaux markoviens Qopt
opt ′
k (x, dx ) sont
définis en (8.16) pour k = 1, · · · , n, et les fonctions de sélection gkopt (x′ ) sont définis en (8.17)
pour k = 0, · · · , (n − 1).
L’évolution de la population de particules et la mise–à–jour des poids peuvent être décrites
de la façon récursive suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée


selon la distribution de probabilité η0opt , et on pose

g0opt (ξ0i )
w0i = .

N
g0opt (ξ0j )
j=1

• pour tout k = 1, · · · , (n − 1), indépendamment pour tout i = 1, · · · , N

– un individu ξbk−1
i 1 , · · · , ξN )
est sélectionné au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−1 , · · · , wk−1 ) et à l’aide de l’un des mécanismes de sélection
1 N

proposés,
– la variable aléatoire ξ i est simulée selon la distribution de probabilité Qopt (ξbi , dx′ ),
k k k−1

et on pose
gkopt (ξki )
wki = .

N
gkopt (ξkj )
j=1

• pour k = n, indépendamment pour tout i = 1, · · · , N

– un individu ξbn−1
i 1 , · · · , ξN )
est sélectionné au sein de la population de particules (ξn−1 n−1
en fonction des poids (wn−1 1 , · · · , w N ) et à l’aide de l’un des mécanismes de sélection
n−1
proposés,
– la variable aléatoire ξ i est simulée selon la distribution de probabilité Qopt bi , dx′ ).
n (ξ
n n−1

En ré–organisant différemment les calculs, et en utilisant les définitions (8.15), (8.16) et (8.17),
on voit que l’évolution de la population de particules et la mise–à–jour des poids peuvent être
aussi décrites de la façon récursive suivante
146 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée


selon la distribution de probabilité ηb0 .
• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N
– on pose
i gbk (ξk−1
i )
wk−1 = ,

N
j
gbk (ξk−1 )
j=1

– un individu ξbk−1
i 1 , · · · , ξN )
est sélectionné au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−1 1 , · · · , w N ) et à l’aide de l’un des mécanismes de sélection
k−1
proposés,
– la variable aléatoire ξki est simulée selon la distribution de probabilité Q b k (ξbi , dx′ ).
k−1

Exemple 10.4 Dans le cas particulier du système non–linéaire avec des bruits gaussiens additifs
et une fonction d’observation linéaire décrit par (7.4), on obtient l’algorithme suivant

• pour k = 0, indépendamment pour tout i = 1, · · · , N


i
– on simule deux vecteurs aléatoires gaussiens indépendants ξ0|−1 et V0i , de moyenne
X̄0 et 0 et de matrice de covariance QX V
0 et Q0 respectivement,
– on pose
∗ ∗ V −1
ξ0i = ξ0|−1
i
+ QX X
0 H0 [H0 Q0 H0 + Q0 ] (Y0 − (H0 ξ0|−1
i
+ h0 + V0i )) ,

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N


– on pose

i q(Yk − Hk fk (ξk−1
i ) − hk , Hk Σk (ξk−1
i ) Hk∗ + QVk )
wk−1 = ,

N
j
q(Yk − Hk fk (ξk−1 j
) − hk , Hk Σk (ξk−1 ) Hk∗ + QVk )
j=1


où par définition Σk (x) = σk (x) QW k σk (x) pour tout x ∈ E,
– on sélectionne un individu ξbk−1
i 1 , · · · , ξN )
au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−1 , · · · , wk−1 ) et à l’aide de l’un des mécanismes de sélection
1 N

proposés,
– on simule deux vecteurs aléatoires gaussiens indépendants Wki et Vki , centrés et de
matrice de covariance QW V
k et Qk respectivement,
– on pose
i
ξk|k−1 = fk (ξbk−1
i
) + Wki ,
et
ξki = ξk|k−1
i
+ Σk (ξbk−1
i
) Hk∗ [Hk Σk (ξbk−1
i
) Hk∗ + QVk ]−1 (Yk − (Hk ξk|k−1
i
+ hk + Vki )) .
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 147

▶ Ré–échantillonnage adaptatif L’algorithme adaptatif suivant combine les propriétés de


l’algorithme SIS, sans ré–échantillonnage, et celles de l’algorithme SIR, avec ré–échantillonnage
à chaque pas de temps.
L’évolution de la population de particules et la mise–à–jour des poids sont ici couplées et
peuvent être décrites de la façon récursive suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée


selon la distribution de probabilité η0 , et on pose

g0 (ξ0i )
w0i = .

N
g0 (ξ0j )
j=1

• pour tout k = 1, · · · , n, on évalue la taille effective


N
i
Neff = 1 / [ (wk−1 )2 ] ,
i=1

si Neff ≤ cred N , alors indépendamment pour tout i = 1, · · · , N

– on sélectionne un individu ξbk−1


i 1 , · · · , ξN )
au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−1 , · · · , wk−1 ) et à l’aide de l’un des mécanismes de sélection
1 N

proposés,
– la variable aléatoire ξ i est simulée selon la distribution de probabilité Qk (ξbi , dx′ ),
k k−1

et on pose
gk (ξbk−1
i , ξi )
k
wki = ,

N
gk (ξbk−1
j
, ξkj )
j=1

sinon, si Neff > cred N , alors indépendamment pour tout i = 1, · · · , N , la variable aléatoire
ξki est simulée selon la distribution de probabilité Qk (ξk−1
i , dx′ ), et on pose
i
wk−1 i
gk (ξk−1 , ξki )
wki = .

N
j j
wk−1 gk (ξk−1 , ξkj )
j=1
148 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

Algorithm 10.1.1 Algorithme SIS (modèle général)


required distribution de probabilité initiale η0 (dx)
required probabilités de transition Qk (x, dx′ ) pour k = 1 · · · n
required fonction de sélection gk (x, x′ ) pour k = 0, 1 · · · n
k = 0 [initialisation]
[simulation]
for i = 1 · · · N (indépendemment) do
ξ0i ∼ η0 (dx)
end for
[calcul des poids normalisés]
for i = 1 · · · N do
w0i ∝ g0 (ξ0i )
end for
loop
k ← k + 1 [itération]
[propagation]
for i = 1 · · · N (indépendemment) do
ξki ∼ Qk (ξk−1
i , dx′ )
end for
[mise–à-jour des poids normalisés]
for i = 1 · · · N do
wki ∝ wk−1
i i
gk (ξk−1 , ξki )
end for
end loop
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 149

Algorithm 10.2.1 Algorithme SIR (modèle de base (8.1))


required distribution de probabilité initiale η0 (dx)
required probabilités de transition Qk (x, dx′ ) pour k = 1 · · · n
required fonction de sélection gk (x′ ) pour k = 0, 1 · · · n
k = 0 [initialisation]
[simulation]
for i = 1 · · · N (indépendemment) do
ξ0i ∼ η0 (dx)
end for
[calcul des poids normalisés]
for i = 1 · · · N do
w0i ∝ g0 (ξ0i )
end for
loop
k ← k + 1 [itération]
[sélection]
for i = 1 · · · N (indépendemment) do
choisir ξbk−1
i 1 , · · · , ξ N ) en fonction des poids respectifs
au sein de la population (ξk−1 k−1
1 , · · · , wN )
(wk−1 k−1
end for
[propagation]
for i = 1 · · · N (indépendemment) do
ξki ∼ Qk (ξbk−1
i , dx′ )

end for
[calcul des poids normalisés]
for i = 1 · · · N do
wki ∝ gk (ξki )
end for
end loop
150 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

Algorithm 10.2.2 Algorithme SIR (modèle général)


required distribution de probabilité initiale η0 (dx)
required probabilités de transition Qk (x, dx′ ) pour k = 1 · · · n
required fonction de sélection gk (x, x′ ) pour k = 0, 1 · · · n
k = 0 [initialisation]
[simulation]
for i = 1 · · · N (indépendemment) do
ξ0i ∼ η0 (dx)
end for
[calcul des poids normalisés]
for i = 1 · · · N do
w0i ∝ g0 (ξ0i )
end for
loop
k ← k + 1 [itération]
[sélection]
for i = 1 · · · N (indépendemment) do
choisir ξbk−1
i 1 , · · · , ξ N ) en fonction des poids respectifs
au sein de la population (ξk−1 k−1
1 , · · · , wN )
(wk−1 k−1
end for
[propagation]
for i = 1 · · · N (indépendemment) do
ξki ∼ Qk (ξbk−1
i , dx′ )

end for
[calcul des poids normalisés]
for i = 1 · · · N do
wki ∝ gk (ξbk−1
i , ξi )
k
end for
end loop
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 151

Algorithm 10.2.3 Algorithme SIR (modèle optimal (8.18))


required distribution de probabilité initiale ηb0 (dx)
required probabilités de transition Q b k (x, dx′ ) pour k = 1 · · · n
required fonction de sélection gbk (x) pour k = 1 · · · n
k = 0 [initialisation]
[simulation]
for i = 1 · · · N (indépendemment) do
ξ0i ∼ ηb0 (dx)
end for
loop
k ← k + 1 [itération]
[calcul des poids normalisés]
for i = 1 · · · N do
i
wk−1 ∝ gbk (ξk−1i )

end for
[sélection]
for i = 1 · · · N (indépendemment) do
choisir ξbk−1i au sein de la population (ξk−11 , · · · , ξ N ) en fonction des poids respectifs
k−1
(wk−11 , · · · , wN )
k−1
end for
[propagation]
for i = 1 · · · N (indépendemment) do
ξki ∼ Qb k (ξbi , dx′ )
k−1
end for
end loop
152 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES
Chapitre 11

Estimation d’erreur

On rappelle que la distribution non–normalisée vérifie la relation de récurrence linéaire

γk = gk (γk−1 Qk ) = gk ηk ⟨γk−1 , 1⟩ et γ0 = g 0 η 0 , (8.2)

en posant ηk = µk−1 Qk , ou de manière équivalente γk = γk−1 Rk où le noyau positif (non


normalisé) Rk est défini par Rk (x, dx′ ) = Qk (x, dx′ ) gk (x′ ), et la constante de normalisation
vérifie la relation de récurrence

⟨γk , 1⟩ = ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩ et ⟨γ0 , 1⟩ = ⟨η0 , g0 ⟩ . (8.3)

En partant de la relation de récurrence linéaire (8.2) et en introduisant l’approximation parti-


culaire
γkN = gk ηkN ⟨γk−1
N
, 1⟩ et γ0N = g0 η0N ,
pour la distribution non–normalisée, où la définition précise de l’approximation ηkN dépend de
l’implémentation choisie, on voit aisément que

⟨γkN , 1⟩ = ⟨ηkN , gk ⟩ ⟨γk−1


N
, 1⟩ et ⟨γ0N , 1⟩ = ⟨η0N , g0 ⟩ , (11.1)

de sorte que
γkN γ0N
= gk · ηkN = µN
k et = g0 · η0N = µN
0 .
⟨γkN , 1⟩ ⟨γ0N , 1⟩
Pour k = 0, on a par différence

γ0N − γ0 = g0 (η0N − η0 ) ,

de sorte que
⟨γ0N − γ0 , ϕ⟩ = ⟨η0N − η0 , g0 ϕ⟩ , (11.2)
pour toute fonction ϕ mesurable bornée. Pour tout k = 1, · · · , n, on a par différence

γkN − γk = gk ηkN ⟨γk−1


N
, 1⟩ − gk (γk−1 Qk )
N
= gk (γk−1 Qk − γk−1 Qk ) + gk (ηkN − µN
k−1 Qk ) ⟨γk−1 , 1⟩ ,
N

153
154 CHAPITRE 11. ESTIMATION D’ERREUR

de sorte que

⟨γkN − γk , ϕ⟩ = ⟨γk−1
N
− γk−1 , Qk (gk ϕ)⟩ + ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ ,
N
(11.3)

pour toute fonction ϕ mesurable bornée. On constate que l’erreur d’approximation au rang k
évaluée pour la fonction ϕ, peut s’exprimer à l’aide

• de l’erreur d’approximation au rang (k − 1) évaluée pour la fonction Rk ϕ = Qk (gk ϕ),

• et de l’erreur locale d’approximation Monte Carlo évaluée pour la fonction gk ϕ.

La décomposition (11.3) est à la base des démonstrations par récurrence de la convergence dans
Lp et de la normalité asymptotique des approximations particulaires.
Au vu de la relation de récurrence (8.3), l’hypothèse minimale ⟨γn , 1⟩ > 0 est équivalente
à supposer que ⟨ηk , gk ⟩ > 0 pour tout k = 0, 1, · · · , n. Cette condition est trivialement vérifiée
si les fonctions gk sont strictement positives et ne s’annulent donc en aucun point, pour tout
k = 0, 1, · · · , n. En revanche, si la fonction gk peut s’annuler en certains points, et même si
⟨ηk , gk ⟩ > 0, il peut quand même arriver que gk (ξki ) = 0 pour tout i = 1, · · · , N , c’est–à–dire
que toutes les particules sont affectées d’un poids nul, auquel cas ⟨ηkN , gk ⟩ = 0 et ⟨γkN , 1⟩ = 0,
de sorte que l’approximation µN k n’est pas définie. Soit τ
N le temps d’extinction du système de

particules, c’est–à–dire le premier instant

τ N = inf{k ≥ 1 : ⟨γkN , 1⟩ = 0}

1 ∑
N
= inf{k ≥ 1 : ⟨ηkN , gk ⟩ = gk (ξki ) = 0}
N
i=1

= inf{k ≥ 1 : gk (ξki ) = 0 pour tout i = 1, · · · , N } ,

auquel toutes les particules sont affectées d’un poids nul.


Pour k = 0, les distributions η0N = S N (η0 ) et γ0N = g0 η0N sont bien définies, mais rien
n’empêche que la constante de normalisation ⟨η0N , g0 ⟩ soit nulle, de sorte que la distribution
0 = g0 · η0 n’est pas nécessairement définie. Sur l’ensemble {τ
µN N N > 0} en revanche, la cons-

tante de normalisation ⟨η0 , g0 ⟩ est strictement positive, et la distribution µN


N
0 = g0 · η0 est bien
N

définie. Pour tout k = 1, · · · , n, sur l’ensemble {τ N > k − 1}, les distributions γk−1N et µNk−1
sont bien définies, donc les distributions ηk = S (µk−1 Qk ) et γk = gk ηk ⟨γk−1 , 1⟩ aussi sont
N N N N N N

bien définies, mais rien n’empêche que la constante de normalisation ⟨ηkN , gk ⟩ soit nulle, de sorte
que la distribution µN k = gk · ηk n’est pas nécessairement définie. Sur l’ensemble {τ
N N > k}

en revanche, la constante de normalisation ⟨ηkN , gk ⟩ est strictement positive, et la distribution


k = gk · ηk est bien définie.
µN N

Le temps d’extinction est bien sûr infini dans le cas où les fonctions gk sont strictement
positives et ne s’annulent en aucun point, pour tout k = 0, 1, · · · , n.
Les résultats suivants seront démontrés dans ce chapitre et dans le chapitre suivant : une
borne non–asymptotique
cn,p
sup {E| ⟨µN
n − µn , ϕ⟩ | }
p 1/p
≤√ ,
ϕ : ∥ϕ∥=1 N
11.1. PROBABILITÉ D’EXTINCTION 155

dans le cas où le temps d’extinction est infini, et


cn,p
sup {E[ 1 N | ⟨µN
n − µn , ϕ⟩ |p ]}1/p ≤ √ ,
ϕ : ∥ϕ∥=1 (τ > n) N
dans le cas général, et un théorème central limite

N ⟨µN
n − µn , ϕ⟩ =⇒ N(0, vn (ϕ)) ,

dans le cas où le temps d’extinction est infini, et



N1 N ⟨µN − µn , ϕ⟩ =⇒ N(0, vn (ϕ)) ,
(τ > n) n
dans le cas général, en distribution quand N ↑ ∞, avec une expression explicite pour la variance
asymptotique vn (ϕ), pour toute fonction mesurable bornée ϕ.

11.1 Probabilité d’extinction

On donne d’abord une majoration exponentielle de la probabilité d’extinction P[τ N ≤ n]. Cette
partie peut donc être sautée dans le cas où les fonctions gk sont strictement positives et ne
s’annulent en aucun point, pour tout k = 0, 1, · · · , n, puisque le temps d’extinction est infini
dans ce cas.

Proposition 11.1 Il existe des constantes positives an > 0 et bn > 0 telles que

P[τ N ≤ n] ≤ an exp{−bn N } ,

pour tout entier N .

Preuve. Pour k = 0, on pose


⟨γ0N − γ0 , ϕ⟩ ⟨γ0N − γ0 , 1⟩
E0N (c) = sup P[ | | > c] et F0N = P[ | |> 1
],
ϕ≥0 : ∥ϕ∥=1 ⟨γ0 , 1⟩ ⟨γ0 , 1⟩ 2

et pour tout k = 1, · · · , n, on pose


⟨γkN − γk , ϕ⟩
EkN (c) = sup P[ | | > c et τ N > k−1 ] ,
ϕ≥0 : ∥ϕ∥=1 ⟨γk , 1⟩

et
⟨γkN − γk , 1⟩
FkN = P[ | |> 1
et τ N > k−1 ] .
⟨γk , 1⟩ 2

Clairement, pour tout k = 0, 1, · · · , n, l’application c 7→ EkN (c) est décroissante et FkN ≤ EkN ( 12 ).

⟨γ0N − γ0 , 1⟩
Pour k = 0, si ⟨γ0N , 1⟩ = 0 alors nécessairement | | > 12 , de sorte que
⟨γ0 , 1⟩

⟨γ0N − γ0 , 1⟩
P[τ N = 0] = P[ ⟨γ0N , 1⟩ = 0 ] ≤ P[ | |> 1
] = F0N .
⟨γ0 , 1⟩ 2
156 CHAPITRE 11. ESTIMATION D’ERREUR

Pour tout k = 1, · · · , n, les bons ensembles {τ N > k} ⊆ {τ N > k − 1} sont emboı̂tés, et sur
⟨γ N − γk , 1⟩
l’ensemble {τ N > k−1}, si ⟨γkN , 1⟩ = 0 alors nécessairement | k | > 12 , de sorte que
⟨γk , 1⟩

⟨γkN − γk , 1⟩
P[τ N = k] = P[ ⟨γkN , 1⟩ = 0 et τ N > k−1 ] ≤ P[ | |> 1
et τ N > k−1 ] = FkN .
⟨γk , 1⟩ 2

On en déduit que

n ∑
n
P[τ N
≤ n] = P[τ N
= k] ≤ FkN .
k=0 k=0

Pour k = 0, on rappelle l’expression

⟨γ0N − γ0 , ϕ⟩ = ⟨η0N − η0 , g0 ϕ⟩ , (11.2)

pour toute fonction ϕ mesurable bornée, et on en déduit que

⟨γ0N − γ0 , ϕ⟩
P[ | | > c ] = P[ |⟨η0N − η0 , g0 ϕ⟩| > c ⟨η0 , g0 ⟩ ] .
⟨γ0 , 1⟩

Pour toute fonction mesurable positive ϕ telle que ∥ϕ∥ = 1, on définit

0 ≤ Xi = g0 (ξ0i ) ϕ(ξ0i ) ≤ sup g0 (x) pour tout i = 1, · · · , N


x∈E

où les v.a. (ξ0i , · · · , ξ0N ) sont indépendantes de distribution commune η0 , et on vérifie que

E(Xi ) = E[g0 (ξ0i ) ϕ(ξ0i )] = ⟨η0 , g0 ϕ⟩ ,

et

1 ∑ 1 ∑
N N
⟨η0N − η0 , g0 ϕ⟩ = [g0 (ξ0i ) ϕ(ξ0i ) − ⟨η0 , g0 ϕ⟩] = (Xi − E(Xi )) .
N N
i=1 i=1

D’après l’inégalité de Hoeffding


c ⟨η0 , g0 ⟩ 2
P[ |⟨η0N − η0 , g0 ϕ⟩ | > c ⟨η0 , g0 ⟩ ] ≤ 2 exp{− 2 ( ) N}
sup g0 (x)
x∈E

2 c2
≤ 2 exp{− N} .
r02

Il en résulte que
⟨γ0N − γ0 , ϕ⟩ 2 c2
P[ | | > c ] ≤ 2 exp{− 2 N } ,
⟨γ0 , 1⟩ r0
et en prenant le supremum par rapport aux fonctions mesurables positives ϕ telles que ∥ϕ∥ = 1,
on obtient
2 c2
E0N (c) ≤ 2 exp{− 2 N } .
r0
11.1. PROBABILITÉ D’EXTINCTION 157

Pour tout k = 1, · · · , n, on rappelle la décomposition

⟨γkN − γk , ϕ⟩ = ⟨γk−1
N
− γk−1 , Qk (gk ϕ)⟩ + ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ ,
N
(11.3)

valide sur l’ensemble {τ N > k−1} pour toute fonction ϕ mesurable bornée, et on en déduit que

⟨γkN − γk , ϕ⟩ ⟨γ N − γk−1 , Qk (gk ϕ)⟩ ⟨η N − µN


k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩
N
| | ≤ | k−1 |+| k |
⟨γk , 1⟩ ⟨γk−1 , 1⟩ ⟨ηk , gk ⟩ ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ ⟨η N − µN
k−1 Qk , gk ϕ⟩ ⟨γ N − γk−1 , 1⟩
≤ | |+| k | ( 1 + | k−1 |) .
⟨γk−1 , 1⟩ ⟨ηk , gk ⟩ ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩

Si sur l’ensemble {τ N > k−1} (et a fortiori sur l’ensemble {τ N > k})

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ ⟨γk−1
N −γ
k−1 , 1⟩
| |≤ 1
c ⟨ηk , gk ⟩ et | |≤ 1
,
⟨γk−1 , 1⟩ 2 ⟨γk−1 , 1⟩ 2

et
| ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | ≤
1
3 c ⟨ηk , gk ⟩ ,

alors nécessairement sur l’ensemble {τ N > k}

⟨γkN − γk , ϕ⟩
| |≤c.
⟨γk , 1⟩

On en déduit que

⟨γkN − γk , ϕ⟩
EkN (c) = sup P[ | | > c et τ N > k ]
ϕ≥0 : ∥ϕ∥=1 ⟨γk , 1⟩

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩
≤ sup P[ | |> 1
c ⟨ηk , gk ⟩ et τ N > k−1 ]
ϕ≥0 : ∥ϕ∥=1 ⟨γk−1 , 1⟩ 2
(11.6)
⟨γk−1
N −γ
k−1 ,1⟩
+ P[ | ⟨γk−1 ,1⟩ |> 1
2 et τ N > k−1 ]

+ sup P[ | ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | >
1
3 c ⟨ηk , gk ⟩ et τ N > k−1 ] .
ϕ≥0 : ∥ϕ∥=1

N ,
Dans le second membre de (11.6), le deuxième terme s’interprète immédiatement comme Fk−1
et on se propose d’étudier successivement le premier et le troisième terme.

Pour toute fonction mesurable positive ϕ telle que ∥ϕ∥ = 1, on a



0 ≤ Qk (gk ϕ)(x) = Qk (x, dx′ ) gk (x′ ) ϕ(x′ ) ≤ sup gk (x) ,
E x∈E
158 CHAPITRE 11. ESTIMATION D’ERREUR

pour tout x ∈ E, et on en déduit que sup Qk (gk ϕ)(x) ≤ sup gk (x) et


x∈E x∈E

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩
P[ | |> 1
c ⟨ηk , gk ⟩ et τ N > k−1 ]
⟨γk−1 , 1⟩ 2

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ ⟨ηk , gk ⟩
= P[ | |> 1
c et τ N > k−1 ]
⟨γk−1 , 1⟩ sup Qk (gk ϕ)(x) 2 sup Qk (gk ϕ)(x)
x∈E x∈E

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ ⟨ηk , gk ⟩
≤ P[ | |> 1
c et τ N > k−1 ]
⟨γk−1 , 1⟩ sup Qk (gk ϕ)(x) 2 sup gk (x)
x∈E x∈E

⟨γk−1
N − γk−1 , ϕ⟩ c c
≤ sup P[ | |> 1
et τ N > k−1 ] = Ek−1
N
( 12 ) ,
ϕ≥0 : ∥ϕ∥=1 ⟨γk−1 , 1⟩ 2 rk rk

de sorte que

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ c
sup P[ | |> 1
c ⟨ηk , gk ⟩ et τ N > k−1 ] ≤ Ek−1
N
( 12 ),
ϕ≥0 : ∥ϕ∥=1 ⟨γk−1 , 1⟩ 2 rk

ce qui fournit une majoration du premier terme figurant dans le second membre de (11.6).
Pour toute fonction mesurable positive ϕ telle que ∥ϕ∥ = 1, on définit

0 ≤ Xi = gk (ξki ) ϕ(ξki ) ≤ sup gk (x) pour tout i = 1, · · · , N


x∈E

où conditionnellement par rapport à Fk−1


N les v.a. (ξ i , · · · , ξ N ) sont indépendantes de distribution
k k
commune µk−1 Qk , et on vérifie que sur l’ensemble {τ N > k−1}
N

E(Xi | Fk−1
N
) = ⟨µN
k−1 Qk , gk ϕ⟩ ,

et

1 ∑
N
⟨ηkN − µN
k−1 Qk , gk ϕ⟩ = [ gk (ξki ) ϕ(ξki ) − ⟨µN
k−1 Qk , gk ϕ⟩ ]
N
i=1

1 ∑
N
= (Xi − E(Xi | Fk−1
N
)) .
N
i=1

D’après l’inégalité de Hoeffding, sur l’ensemble {τ N > k−1}


1
c ⟨ηk , gk ⟩ 2
P[ |⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | >
1
3 c ⟨ηk , gk ⟩ | Fk−1
N
] ≤ 2 exp{− 2 ( 3 ) N}
sup gk (x)
x∈E

c2
≤ 2 exp{− 2
9 N} .
rk2
11.1. PROBABILITÉ D’EXTINCTION 159

On en déduit que
P[ |⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | >
1
3 c ⟨ηk , gk ⟩ et τ N > k−1 | Fk−1
N
]

=1 P[ |⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | >
1
c ⟨ηk , gk ⟩ | Fk−1
N
]
(τ N > k−1) 3

c2
≤ 2 exp{− 2
9 N} ,
rk2
de sorte que, en prenant l’espérance
c2
P[ |⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | >
1
3 c ⟨ηk , gk ⟩ et τ N > k−1 ] ≤ 2 exp{− 2
9 N} ,
rk2
et finalement, en prenant le supremum par rapport aux fonctions mesurables positives ϕ telles
que ∥ϕ∥ = 1, on obtient
c2
sup P[ |⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | >
1
3 c ⟨ηk , gk ⟩ et τ N > k−1 ] ≤ 2 exp{− 2
9 N} ,
ϕ≥0 : ∥ϕ∥=1 rk2

ce qui fournit une majoration du troisième terme figurant dans le second membre de (11.6).
En reportant ces majorations dans le second membre de (11.6), on obtient
c c2
EkN (c) ≤ Ek−1
N
( 12 N
) + Fk−1 + 2 exp{− 2
9 N} ,
rk rk2
pour tout k = 1, · · · , n, avec la condition initiale
2 c2
E0N (c) ≤ 2 exp{− N} .
r02
On peut montrer par récurrence que
EkN (c) ≤ ek max(exp{−dk c2 N }, exp{−fk N }) = ek exp{− min(dk c2 , fk ) N }) ,
où ek > 0, dk > 0 et fk > 0 sont des réels positifs. En particulier pour c = 12 , on a

FkN ≤ EkN ( 21 ) ≤ ek exp{− min( 14 dk , fk ) N } ,


pour tout k = 0, 1, · · · , n, de sorte que

n ∑
n
P[τ N ≤ n] ≤ FkN ≤ ek exp{− min( 14 dk , fk ) N }
k=0 k=0


n
≤ ( ek ) exp{− min min( 41 dk , fk ) N } ,
k=0,1,··· ,n
k=0

c’est–à–dire que la majoration annoncée est vérifiée avec



n
an = ek et bn = min min( 14 dk , fk ) . 2
k=0,1,··· ,n
k=0
160 CHAPITRE 11. ESTIMATION D’ERREUR

11.2 Estimation d’erreur dans Lp

On remarque que le rapport


sup gk (x)
x∈E
rk =
⟨ηk , gk ⟩
toujours supérieur à 1, peut s’interpréter comme un indicateur de la difficulté d’un problème
donné : en effet, une grande valeur numérique de rk indique que les régions où la fonction de
sélection gk prend une valeur numérique significative ont en fait une faible probabilité sous ηk .
Pour l’algorithme SIR avec ré–échantillonnage multinomial et pour l’algorithme SIR avec
stratification et ré–échantillonnage résiduel multinomial, on a les estimations suivantes pour
l’approximation de la distribution normalisée et pour l’approximation de la constante de nor-
malisation.

Théorème 11.2 Pour tout réel p ≥ 2, on a

⟨γnN , 1⟩
{ E[ 1 N | − 1 |p ] }1/p ≤ znN,p , (11.7)
(τ > n) ⟨γn , 1⟩

et
sup { E[ 1 | ⟨µN
n − µn , ϕ⟩ | ] }
p 1/p
≤ 2 znN,p , (11.8)
ϕ : ∥ϕ∥=1 (τ N > n)

où la suite {zkN,p , k = 0, 1, · · · , n} vérifie la relation de récurrence linéaire

2 cp N,p 2 cp 2 cp
zkN,p ≤ rk (1 + √ ) zk−1 +√ et z0N,p ≤ √ . (11.9)
N N N

Remarque 11.3 Sur le bon ensemble {τ N > n}

⟨γnN , ϕ⟩ ⟨γn , ϕ⟩ ⟨γnN − γn , ϕ⟩ ⟨γnN , 1⟩


⟨µN
n − µn , ϕ⟩ = − = − ⟨µ N
, ϕ⟩ [ − 1] ,
⟨γnN , 1⟩ ⟨γn , 1⟩ ⟨γn , 1⟩ n
⟨γn , 1⟩

de sorte que

⟨γnN − γn , ϕ⟩ ⟨γ N , 1⟩
1 N | ⟨µN
n − µn , ϕ⟩ | ≤ 1(τ N > n) [ | | + ∥ϕ∥ | n − 1|] ,
(τ > n) ⟨γn , 1⟩ ⟨γn , 1⟩

pour toute fonction ϕ mesurable bornée. Clairement

⟨γnN , 1⟩ ⟨γ N − γn , ϕ⟩ p 1/p
{ E[ 1 N | − 1 |p ] }1/p ≤ sup { E[ 1 N | n | ]} ,
(τ > n) ⟨γn , 1⟩ ϕ : ∥ϕ∥=1 (τ > n) ⟨γn , 1⟩

et

⟨γnN − γn , ϕ⟩ p 1/p
sup { E[ 1 N | ⟨µN
n − µn , ϕ⟩ | ] }
p 1/p
≤2 sup { E[ 1 N | | ]} ,
ϕ : ∥ϕ∥=1 (τ > n) ϕ : ∥ϕ∥=1 (τ > n) ⟨γn , 1⟩
11.2. ESTIMATION D’ERREUR DANS LP 161

d’après l’inégalité (triangulaire) de Minkovski. Pour démonter le Théorème 11.2 il suffit donc de
prouver que la suite définie par

⟨γkN − γk , ϕ⟩ p 1/p
zkN,p = sup { E[ 1 | | ]} avec k = {τ
AN N
> k} ,
ϕ : ∥ϕ∥=1 AN
k ⟨γk , 1⟩

pour tout k = 0, 1, · · · , n vérifie la relation de récurrence linéaire (11.9).

Preuve du Théorème 11.2. Pour k = 0, on rappelle l’expression

⟨γ0N − γ0 , ϕ⟩ = ⟨η0N − η0 , g0 ϕ⟩ , (11.2)

pour toute fonction ϕ mesurable bornée. On en déduit que


2 cp
{ E[ 1 | ⟨γ0N − γ0 , ϕ⟩ |p ]}1/p ≤ { E| ⟨η0N − η0 , g0 ϕ⟩ |p }1/p ≤ √ sup g0 (x) ∥ϕ∥ ,
AN
0 N x∈E
pour toute fonction ϕ mesurable bornée, en utilisant la majoration (9.2), et en divisant par
⟨γ0 , 1⟩ = ⟨η0 , g0 ⟩, on obtient
sup g0 (x)
⟨γ N − γ0 , ϕ⟩ p 1/p 2 cp x∈E
sup { E[ 1 | 0 | ]} ≤ √ ,
ϕ : ∥ϕ∥=1 AN
0 ⟨γ0 , 1⟩ N ⟨η0 , g0 ⟩

de sorte que
2 cp
z0N,p ≤ √ r0 .
N
Pour tout k = 1, · · · , n, on rappelle la décomposition

⟨γkN − γk , ϕ⟩ = ⟨γk−1
N
− γk−1 , Qk (gk ϕ)⟩ + ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ ,
N
(11.3)

pour toute fonction ϕ mesurable bornée. On en déduit que

⟨γkN − γk , ϕ⟩ p 1/p
sup { E[1 | | ]}
ϕ : ∥ϕ∥=1 AN
k ⟨γk , 1⟩

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ p
≤ sup { E[1 | | ] }1/p
ϕ : ∥ϕ∥=1 AN
k−1 ⟨γk , 1⟩

k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ p
⟨ηkN − µN N
+ sup { E[ 1 | | ] }1/p ,
ϕ : ∥ϕ∥=1 AN
k−1 ⟨γk , 1⟩

d’après l’inégalité (triangulaire) de Minkowski. On remarque que

{ E[ 1 | ⟨γk−1
N
− γk−1 , Qk (gk ϕ)⟩ |p ] }1/p
AN
k−1

≤ sup |Qk (gk ϕ)(x)| sup { E[ 1 | ⟨γk−1


N
− γk−1 , ϕ⟩ |p ] }1/p
x∈E ϕ : ∥ϕ∥=1 AN
k−1

≤ sup gk (x) ∥ϕ∥ sup { E[ 1 | ⟨γk−1


N
− γk−1 , ϕ⟩ |p ] }1/p ,
x∈E ϕ : ∥ϕ∥=1 AN
k−1
162 CHAPITRE 11. ESTIMATION D’ERREUR

compte tenu que



|Qk (gk ϕ)(x)| ≤ Qk (x, dx′ ) gk (x′ ) |ϕ(x′ )| ≤ sup gk (x) ∥ϕ∥ ,
E x∈E

pour tout x ∈ E et pour toute fonction mesurable bornée ϕ, et en divisant par ⟨γk , 1⟩ =
⟨ηk , gk ⟩ ⟨γk−1 , 1⟩ on obtient

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ p
sup { E[ 1 | | ] }1/p
ϕ : ∥ϕ∥=1 AN
k−1 ⟨γk , 1⟩
sup gk (x)
x∈E ⟨γk−1
N −γ
k−1 , ϕ⟩ p
≤ sup { E[ 1 | | ] }1/p .
⟨ηk , gk ⟩ ϕ : ∥ϕ∥=1 AN
k−1 ⟨γk−1 , 1⟩

D’autre part
2 cp
{ E[ | ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | | Fk−1 ] }
p N 1/p
≤ √ sup gk (x) ∥ϕ∥ ,
N x∈E

en utilisant la majoration (10.4) ou (10.6) selon l’implémentation choisie, et où Fk−1


N désigne la
tribu engendrée par le système de particules jusqu’à la (k − 1)–ème génération, de sorte que

{ E[ 1 | ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ | ] }
N p 1/p
AN
k−1

2 cp
≤ √ sup gk (x) ∥ϕ∥ { E[ 1 N ⟨γk−1
N
, 1⟩p ] }1/p ,
N x∈E Ak−1

pour toute fonction mesurable bornée ϕ, et en divisant par ⟨γk , 1⟩ = ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩ on obtient

⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ p
N
sup { E[ 1 | | ] }1/p
ϕ : ∥ϕ∥=1 AN
k−1 ⟨γk , 1⟩
sup gk (x)
2 cp x∈E ⟨γk−1
N , 1⟩
≤√ { E[ 1 | |p ] }1/p ,
N ⟨ηk , gk ⟩ AN
k−1 ⟨γk−1 , 1⟩
et on remarque que

⟨γk−1
N , 1⟩ ⟨γ N − γk−1 , 1⟩ p 1/p
{ E[ 1 | |p ] }1/p ≤ 1 + { E[ 1 N | k−1 | ]}
AN
k−1 ⟨γk−1 , 1⟩ Ak−1 ⟨γk−1 , 1⟩
N −γ
⟨γk−1 k−1 , ϕ⟩ p
≤ 1+ sup { E[ 1 | | ] }1/p ,
ϕ : ∥ϕ∥=1 AN
k−1 ⟨γk−1 , 1⟩

d’après l’inégalité (triangulaire) de Minkowski. Finalement


2 cp 2 cp N 2 cp
N
zk,p ≤ rk zk−1,p
N
+ √ rk (1 + zk−1,p
N
) ≤ rk (1 + √ ) zk−1,p + √ rk ,
N N N
en combinant les estimations obtenues ci–dessus. 2
Chapitre 12

TCL pour les approximations


particulaires

12.1 Échantillonnage pondéré (SIS)

Pour analyser les performances de l’algorithme en termes de variance asymptotique de l’er-


reur d’approximation quand le nombre N de trajectoires simulées tend vers l’infini, on peut
se placer dans le cadre statique étudié au Chapitre 9. Si on introduit la variable aléatoire
X0:n = (X0 , X1 , · · · , Xn ) à valeurs trajectorielles, dont la distribution de probabilité est

η0:n (dx0:n ) = P[X0:n ∈ dx0:n ] = η0 (dx0 ) Q1 (x0 , dx1 ) · · · Qn (xn−1 , dxn ) ,

et la fonction de poids

n
g0:n (x0:n ) = gk (xk−1 , xk ) ,
k=0

et si on définit
∫ ∫
⟨η0:n , g0:n f ⟩ = E[f (X0:n ) g0:n (X0:n ) ] = ··· f (x0:n ) g0:n (x0:n ) η0:n (dx0:n ) ,
E E

pour toute fonction mesurable bornée f définie sur l’espace produit E × · · · × E = E n+1 , alors
on peut réécrire le flot linéaire comme une intégrale et appliquer la méthode d’échantillonnage
pondéré vu à la Section 9.2. En effet, dans le cas particulier f = ϕ ◦ π où la fonction f ne dépend
que de la dernière variable, c’est–à–dire prend la forme suivante

f (x0:n ) = f (x0 , x1 , · · · , xn ) = ϕ(xn ) , (12.1)

on a

n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ] = E[ϕ ◦ π(X0:n ) g0:n (X0:n )] = ⟨η0:n , g0:n ϕ ◦ π⟩ ,
k=0

163
164 CHAPITRE 12. TCL POUR LES APPROXIMATIONS PARTICULAIRES

où π : (x0 , x1 , · · · , xn ) ∈ E n+1 7→ xn ∈ E désigne la projection sur la dernière composante de


l’espace produit E n+1 , de sorte que
⟨η0:n , g0:n ϕ ◦ π⟩ ⟨γn , ϕ⟩
⟨µ0:n , ϕ ◦ π⟩ = = = ⟨µn , ϕ⟩ ,
⟨η0:n , g0:n ⟩ ⟨γn , 1⟩
et on remarque que l’approximation introduite à la Section 10.1 vérifie

1 ∑
N
⟨γnN , ϕ⟩ = ⟨S (η0:n ), g0:n ϕ ◦ π⟩ =
N i
g0:n (ξ0:n ) ϕ ◦ π(ξ0:n
i
),
N
i=1

de sorte que
⟨γnN − γn , ϕ⟩ ⟨S N (η0:n ) − η0:n , g0:n ϕ ◦ π⟩
= ,
⟨γn , 1⟩ ⟨η0:n , g0:n ⟩
pour toute fonction mesurable bornée ϕ définie sur E, et il suffit d’appliquer le Théorème 9.11.

Théorème 12.1
√ ⟨γ N , 1⟩ √
N[ n − 1 ] =⇒ N(0, Vn ) et N ⟨µN
n − µn , ϕ⟩ =⇒ N(0, vn (ϕ)) ,
⟨γn , 1⟩
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique
⟨η0:n , g0:n
2 ⟩ ⟨η0:n , g0:n
2 |ϕ ◦ π − ⟨µ , ϕ⟩ |2 ⟩
n
Vn = −1 et vn (ϕ) = ,
⟨η0:n , g0:n ⟩2 ⟨η0:n , g0:n ⟩2
respectivement.

12.2 Échantillonnage / ré–échantillonnage (SIR)

Si en s’inspirant de (8.2), on définit récursivement l’approximation particulaire

k−1 Qk ) ⟨γk−1 , 1⟩ = gk ηk ⟨γk−1 , 1⟩


γkN = gk S N (µN N N N

(12.2)
et γ0N = g0 S N (η 0) = g0 η0N ,
pour la distribution non–normalisée, alors il est facile de voir que

⟨γkN , 1⟩ = ⟨ηkN , gk ⟩ ⟨γk−1


N
, 1⟩ et ⟨γ0N , 1⟩ = ⟨η0N , g0 ⟩ , (12.3)

de sorte que
γkN γ0N
= gk · ηkN = µN
k et = g0 · η0N = µN
0 ,
⟨γkN , 1⟩ ⟨γ0N , 1⟩
c’est–à–dire que (12.2) correspond exactement à l’algorithme SIR avec ré–échantillonnage mul-
tinomial, et en itérant (12.3)

n
⟨γn , 1⟩ =
N
⟨ηkN , gk ⟩ .
k=0
12.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 165

Théorème 12.2 Pour l’approximation particulaire du modèle (8.1), avec redistribution multi-
nomiale
√ ⟨γ N , 1⟩ √
N[ n − 1 ] =⇒ N(0, Vn ) et N ⟨µN
n − µn , ϕ⟩ =⇒ N(0, vn (ϕ)) ,
⟨γn , 1⟩
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique

n
⟨ηk , (gk Rk+1:n 1)2 ⟩ ∑
n
⟨ηk , |gk Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩
Vn = [ − 1] et vn (ϕ) = ,
⟨ηk , gk Rk+1:n 1⟩2 ⟨ηk , gk Rk+1:n 1⟩2
k=0 k=0

respectivement, où

n
Rk+1:n ϕ(x) = Rk+1 · · · Rn ϕ(x) = E[ϕ(Xn ) gp (Xp ) | Xk = x] ,
p=k+1

pour tout k = 0, 1, · · · , n, avec la convention Rn+1:n ϕ(x) = ϕ(x).

Corollaire 12.3 Pour l’approximation particulaire du modèle (8.1), avec redistribution multi-
nomiale √
N ⟨ηnN − ηn , ϕ⟩ =⇒ N(0, vn− (ϕ)) ,
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique

n −
⟨ηk , |Rk+1:n (ϕ − ⟨ηn , ϕ⟩) |2 ⟩
vn− (ϕ) = − ,
k=0
⟨ηk , Rk+1:n 1⟩2

respectivement, où


n−1
− −
Rk+1:n ϕ(x) = Rk+1 · · · Rn− ϕ(x) = E[ϕ(Xn ) gp (Xp ) | Xk = x] ,
p=k


pour tout k = 0, 1, · · · , n, avec la convention Rn+1:n ϕ(x) = ϕ(x).

Preuve du Corollaire 12.3. On remarque que


√ √ √ ′′ ′
N ⟨ηnN − ηn , ϕ⟩ = N ⟨µN
n−1 − µn−1 , Qn ϕ⟩ + N ⟨ηn − µn−1 Qn , ϕ⟩ = ZN + ZN ,
N N

pour toute fonction ϕ mesurable bornée. On vérifie que la v.a. ZN ′′ est mesurable par rapport

à la tribu Fn−1 engendrée par le système de particules jusqu’à la (n − 1)–ème génération, et


N

d’après le Théorème 12.2


′′
ZN =⇒ N(0, vn−1 (Qn ϕ)) ,
en distribution quand N ↑ ∞. En suivant les lignes de la preuve du Théorème 12.2, on vérifie
que

E[exp{j u ZN } | Fn−1
N
] −→ exp{− 12 u2 var(ϕ, ηn )} ,
166 CHAPITRE 12. TCL POUR LES APPROXIMATIONS PARTICULAIRES

en probabilité quand N ↑ ∞. Il résulte du Lemme C.10 que



N ⟨ηnN − ηn , ϕ⟩ =⇒ N(0, vn− (ϕ)) ,

en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique

vn− (ϕ) = vn−1 (Qn ϕ) + var(ϕ, ηn ) .

Il résulte de l’expression de la variance asymptotique donnée au Théorème 12.2, et des iden-


tités (8.5) et (8.6), que


n−1
⟨ηk , |gk Rk+1:n−1 (Qn ϕ − ⟨µn−1 , Qn ϕ⟩) |2 ⟩
vn−1 (Qn ϕ) =
⟨ηk , gk Rk+1:n−1 1⟩2
k=0


n−1 −
⟨ηk , |Rk+1:n (ϕ − ⟨ηn , ϕ⟩) |2 ⟩
= − ,
k=0
⟨ηk , Rk+1:n 1⟩2

et

vn− (ϕ) = vn−1 (Qn ϕ) + var(ϕ, ηn )


n−1 −
⟨ηk , |Rk+1:n (ϕ − ⟨ηn , ϕ⟩) |2 ⟩
= − + ⟨ηn , |ϕ − ⟨ηn , ϕ⟩ |2 ⟩
k=0
⟨ηk , Rk+1:n 1⟩2


n −
⟨ηk , |Rk+1:n (ϕ − ⟨ηn , ϕ⟩) |2 ⟩
= − . 2
k=0
⟨ηk , Rk+1:n 1⟩2

Remarque 12.4 Pour démontrer le Théorème 12.2, il suffit de démontrer que


√ ⟨γnN − γn , ϕ⟩
N =⇒ N(0, Vn (ϕ)) , (12.4)
⟨γn , 1⟩
pour toute fonction mesurable bornée ϕ, avec l’expression suivante pour la variance asymptotique

n
var(gk Rk+1:n ϕ, ηk )
Vn (ϕ) = , (12.5)
⟨ηk , gk Rk+1:n 1⟩2
k=0

pour tout k = 1, · · · , n. Clairement, le Théorème 12.2 pour la constante de normalisation découle


de (12.4) avec

n
var(gk Rk+1:n 1, ηk ) ∑
n
⟨ηk , (gk Rk+1:n 1)2 ⟩
Vn = Vn (1) = = [ − 1] .
⟨ηk , gk Rk+1:n 1⟩2 ⟨ηk , gk Rk+1:n 1⟩2
k=0 k=0

On remarque aussi que

⟨γnN , ϕ − ⟨µn , ϕ⟩ ⟩ ⟨γn , 1⟩ ⟨γnN − γn , ϕ − ⟨µn , ϕ⟩ ⟩


⟨µN
n − µn , ϕ⟩ = = ,
⟨γnN , 1⟩ ⟨γnN , 1⟩ ⟨γn , 1⟩
12.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 167

pour toute fonction mesurable bornée ϕ, et compte tenu que ⟨γnN , 1⟩ −→ ⟨γn , 1⟩ en probabilité
quand N ↑ ∞, le Théorème 12.2 pour la distribution normalisée découle de (12.4) et du lemme
de Slutsky, avec


n
var(gk Rk+1:n (ϕ − ⟨µn , ϕ⟩), ηk )
vn (ϕ) = Vn (ϕ − ⟨µn , ϕ⟩) = ,
⟨ηk , gk Rk+1:n 1⟩2
k=0

et on vérifie que

⟨ηk , gk Rk+1:n (ϕ − ⟨µn , ϕ⟩) ⟩ = ⟨ηk , gk ⟩ ⟨µk Rk+1:n , ϕ − ⟨µn , ϕ⟩ ⟩

⟨γk Rk+1:n , ϕ − ⟨µn , ϕ⟩ ⟩


= ⟨ηk , gk ⟩
⟨γk , 1⟩
⟨γn , ϕ − ⟨µn , ϕ⟩ ⟩
= ⟨ηk , gk ⟩
⟨γk , 1⟩
⟨γn , 1⟩
= ⟨ηk , gk ⟩ ⟨µn , ϕ − ⟨µn , ϕ⟩ ⟩ = 0 ,
⟨γk , 1⟩

de sorte que

var(gk Rk+1:n (ϕ − ⟨µn , ϕ⟩), ηk ) = ⟨ηk , |gk Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩ ,

pour tout k = 0, 1, · · · , n.

Remarque 12.5 On remarque que

⟨γp Rp+1:k , 1⟩ ⟨γk , 1⟩


⟨ηp , gp Rp+1:k 1⟩ = ⟨ηp , gp ⟩ ⟨µp Rp+1:k , 1⟩ = ⟨ηp , gp ⟩ = ⟨ηp , gp ⟩ ,
⟨γp , 1⟩ ⟨γp , 1⟩

pour tout p = 0, 1 · · · (k − 1), de sorte que le rapport

⟨ηp , gp Rp+1:k 1⟩ ⟨γk , 1⟩


= = ⟨ηk , gk ⟩ ,
⟨ηp , gp Rp+1:k−1 1⟩ ⟨γk−1 , 1⟩

ne dépend pas de p = 0, 1 · · · (k − 1), et


k
var(gp Rp+1:k ϕ, ηp ) ∑
k−1
var(gp Rp+1:k−1 Rk ϕ, ηp ) var(gk ϕ, ηk )
Vk (ϕ) = = + ,
⟨ηp , gp Rp+1:k 1⟩2 ⟨ηp , gp Rp+1:k−1 1⟩ ⟨ηk , gk ⟩
2 2 ⟨ηk , gk ⟩2
p=0 p=0

d’où la relation de récurrence


Vk−1 (Rk ϕ) var(gk ϕ, ηk )
Vk (ϕ) = + , (12.6)
⟨ηk , gk ⟩2 ⟨ηk , gk ⟩2

pour tout k = 1, · · · , n.
168 CHAPITRE 12. TCL POUR LES APPROXIMATIONS PARTICULAIRES

Remarque 12.6 Si la propriété (12.4) est vérifié, alors le vecteur aléatoire


√ ⟨γ N , 1⟩ √ √
( N[ n − 1 ], N ⟨µN
n − µn , ϕ1 ⟩, · · · , N ⟨µn − µn , ϕd ⟩) ,
N
⟨γn , 1⟩
converge conjointement en distribution quand N ↑ ∞ vers une limite gaussienne, pour toutes
fonctions mesurables bornées ϕ1 , · · · , ϕd , en utilisant le procédé de Cramér–Wold.

Preuve du Théorème 12.2 (par récurrence). Pour k = 0, on rappelle l’expression


⟨γ0N − γ0 , ϕ⟩ = ⟨η0N − η0 , g0 ϕ⟩ , (11.2)
pour toute fonction ϕ mesurable bornée. On remarque que
√ 1 ∑
N
N ⟨η0 − η0 , g0 ϕ⟩ =
N
√ [g0 (ξ0i ) ϕ(ξ0i ) − ⟨η0 , g0 ϕ⟩ ] ,
N i=1
où ξ01 , · · · , ξ0N sont des variables aléatoires i.i.d. de distribution de probabilité commune η0 . On
en déduit que √
N ⟨η0N − η0 , g0 ϕ⟩ =⇒ N(0, var(g0 ϕ, η0 )) ,
en distribution quand N ↑ ∞, et en divisant par ⟨γ0 , 1⟩ = ⟨η0 , g0 ⟩ on obtient
√ ⟨γ0N − γ0 , ϕ⟩ var(g0 ϕ, η0 )
N =⇒ N(0, ),
⟨γ0 , 1⟩ ⟨η0 , g0 ⟩2
en distribution quand N ↑ ∞, c’est–à–dire que l’hypothèse de récurrence (12.6) est vérifiée pour
k = 0, avec
var(g0 ϕ, η0 )
V0 (ϕ) = .
⟨η0 , g0 ⟩2
Pour tout k = 1, · · · , n, on rappelle la décomposition
⟨γkN − γk , ϕ⟩ = ⟨γk−1
N
− γk−1 , Rk ϕ⟩ + ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ ,
N
(11.3)
pour toute fonction ϕ mesurable bornée. D’après l’hypothèse de récurrence
√ ⟨γk−1
N −γ
k−1 , Rk ϕ⟩
N =⇒ N(0, Vk−1 (Rk ϕ)) ,
⟨γk−1 , 1⟩
en distribution quand N ↑ ∞, et en divisant par ⟨ηk , gk ⟩ on obtient

′′
√ ⟨γk−1
N −γ
k−1 , Rk ϕ⟩ Vk−1 (Rk ϕ)
ZN = N =⇒ N(0, ),
⟨γk , 1⟩ ⟨ηk , gk ⟩2
en distribution quand N ↑ ∞, compte tenu que ⟨γk , 1⟩ = ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩. D’autre part, on
remarque que


√ ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩
N
ZN = N
⟨γk , 1⟩

√ ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩
N
= N
⟨ηk , gk ⟩ ⟨γk−1 , 1⟩

1 ∑ gk (ξki ) ϕ(ξki ) − ⟨µN


N
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩
N
= √ ,
N i=1 ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩
12.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 169

où conditionnellement par rapport à la tribu Fk−1 N engendrée par le système de particules jus-
qu’à la (k − 1)–ème génération, les variables aléatoires ξk1 , · · · , ξkN sont i.i.d. de distribution de
probabilité commune µN k−1 Qk . On vérifie que la variable aléatoire

gk (ξki ) ϕ(ξki ) − ⟨µN k−1 Qk , gk ϕ⟩


Xi,N = ,
⟨ηk , gk ⟩

est centrée, de variance

var(gk ϕ, µNk−1 Qk )
s2i,N = E[ |Xi,N |2 | Fk−1
N
]= ,
⟨ηk , gk ⟩2

et bornée
sup gk (x)
x∈E
|Xi,N | ≤ 2 ∥ϕ∥ ,
⟨ηk , gk ⟩
pour tout i = 1, · · · , N . Clairement

1 ∑ 2
N
var(gk ϕ, µNk−1 Qk ) var(gk ϕ, ηk ) ⟨γk−1
N , 1⟩
s2N = si,N = −→ et θN = −→ 1 ,
N ⟨ηk , gk ⟩2 ⟨ηk , gk ⟩2 ⟨γk−1 , 1⟩
i=1

en probabilité quand N ↑ ∞, et il résulte du Théorème C.7 et de la Remarque C.8 que

′ var(gk ϕ, ηk )
E[exp{j u ZN } | Fk−1
N
] −→ exp{− 12 u2 },
⟨ηk , gk ⟩2

en probabilité quand N ↑ ∞. Finalement, il résulte du Lemme C.10 et de la décomposition (11.3)


que
′ ′′
√ ⟨γ N − γk , ϕ⟩
ZN + ZN = N k =⇒ N(0, Vk (ϕ)) ,
⟨γk , 1⟩
en distribution quand N ↑ ∞, avec

Vk−1 (Rk ϕ) var(gk ϕ, ηk )


Vk (ϕ) = + ,
⟨ηk , gk ⟩2 ⟨ηk , gk ⟩2

c’est–à–dire que l’hypothèse de récurrence (12.6) est vérifiée. 2

Théorème 12.7 Pour l’approximation particulaire du modèle (8.1), utilisant la distribution


d’importance optimale et avec redistribution multinomiale
√ ⟨γ N , 1⟩ opt

N[ n − 1 ] =⇒ N(0, Vn−1 ) et N ⟨µN
n − µn , ϕ⟩ =⇒ N(0, vn
opt−
(ϕ)) ,
⟨γn , 1⟩

en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique

opt

n
⟨µk , (Rk+1:n 1)2 ⟩
Vn−1 = [ − 1] ,
⟨µk , Rk+1:n 1⟩2
k=0
170 CHAPITRE 12. TCL POUR LES APPROXIMATIONS PARTICULAIRES

et

n
⟨µk , |Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩
vnopt− (ϕ) = ,
⟨µk , Rk+1:n 1⟩2
k=0
respectivement, où

n
Rk+1:n ϕ(x) = Rk+1 · · · Rn ϕ(x) = E[ϕ(Xn ) gp (Xp ) | Xk = x] ,
p=k+1

pour tout k = 0, 1 · · · n, avec la convention Rn+1:n ϕ(x) = ϕ(x).

Preuve. On rappelle que l’approximation particulaire des distributions γn et µn utilisant la


distribution d’importance optimale définie par (8.13) et (8.14), coı̈ncide avec l’approximation
particulaire des distributions γnopt− et ηnopt pour le modèle dit optimal (8.18). En particulier, l’ap-
proximation particulaire de la constante de normalisation ⟨γn , 1⟩ coı̈ncide avec l’approximation
particulaire de la constante de normalisation ⟨γnopt− , 1⟩ = ⟨γn−1
opt
, 1⟩. Il résulte immédiatement du
Théorème 12.2 et du Corollaire 12.3 que
√ ⟨γnN , 1⟩ √ opt,N
⟨γn−1 , 1⟩ opt
N[ − 1] = N [ − 1 ] =⇒ N(0, Vn−1 )
⟨γn , 1⟩ opt
⟨γn−1 , 1⟩
et √ √
N ⟨µN
n − µn , ϕ⟩ = N ⟨ηnopt,N − ηnopt , ϕ⟩ =⇒ N(0, vnopt− (ϕ))
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique

opt

n−1
⟨ηkopt , (gkopt Rk+1:n−1
opt
1)2 ⟩ ∑
n
⟨µk , (Rk+1:n 1)2 ⟩
Vn−1 = [ − 1] = [ − 1] ,
⟨ηkopt , gkopt Rk+1:n−1
opt
, 1⟩2 ⟨µk , Rk+1:n 1⟩2
k=0 k=0

et

n
⟨ηkopt , |Rk+1:n
opt−
(ϕ − ⟨ηnopt , ϕ⟩) |2 ⟩ ∑
n
⟨µk , |Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩
vnopt− (ϕ) = = ,
⟨ηkopt , Rk+1:n
opt−
1⟩2 ⟨µk , Rk+1:n 1⟩2
k=0 k=0

d’après (8.21) et (8.20), respectivement. 2

Remarque 12.8 La comparaison des variances asymptotiques donne

opt

n
⟨µk , (Rk+1:n 1)2 ⟩ ∑
n
⟨ηk , gk ⟩ ⟨ηk , gk (Rk+1:n 1)2 ⟩
Vn−1 = [ − 1 ] = [ − 1] ,
⟨µk , Rk+1:n 1⟩2 ⟨ηk , gk Rk+1:n 1⟩2
k=0 k=0

à comparer avec

n
⟨ηk , (gk Rk+1:n 1)2 ⟩
Vn = [ − 1] ,
⟨ηk , gk Rk+1:n 1⟩2
k=0
pour les constantes de normalisation, et

n
⟨µk , |Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩ ∑
n
⟨ηk , gk ⟩ ⟨ηk , gk |Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩
vnopt− (ϕ) = = ,
⟨µk , Rk+1:n 1⟩2 ⟨ηk , gk Rk+1:n 1⟩2
k=0 k=0
12.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 171

à comparer avec

n
⟨ηk , |gk Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩
vn (ϕ) = ,
⟨ηk , gk Rk+1:n 1⟩2
k=0
pour les distributions normalisées.

Dans le cas plus général du modèle (8.8) et pour une décomposition d’importance (8.11)
donnée, avec la représentation probabiliste (8.12) associée, ou bien pour le modèle (8.22) où la
décomposition d’importance est donnée de manière explicite dans la représentation probabiliste,
chaque fonction de sélection dépend de la transition courante de la chaı̂ne de Markov, mais il
suffit de changer de point de vue et d’adopter le modèle (8.27) à valeurs transitions, où chaque
fonction de sélection dépend seulement de l’état courant, puis de ré–exprimer dans ce cadre
le Théorème 12.2 établi ci–dessus pour le modèle (8.1) apparamment plus simple. On obtient
ainsi un premier résultat intermédiaire, qu’il suffit ensuite de ré–interpréter en terme de la
décomposition d’importance donnée. On introduit le noyau positif

Rk□ (x, dx′ ) = Qk (x, dx′ ) |gk (x, x′ )|2 ,

pour tout k = 1, · · · , n.

Théorème 12.9 Pour l’approximation particulaire du modèle (8.22), avec redistribution mul-
tinomiale
√ ⟨γ N , 1⟩ √
N[ n − 1 ] =⇒ N(0, Vn ) et N ⟨µN
n − µn , ϕ⟩ =⇒ N(0, vn (ϕ)) ,
⟨γn , 1⟩
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique

n
⟨µk−1 Rk□ , | Rk+1:n 1 |2 ⟩ ∑
n
⟨µk−1 R□ , | Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩
Vn = [ − 1] et vn (ϕ) = k
,
⟨µk−1 Rk , Rk+1:n 1⟩2 ⟨µk−1 Rk , Rk+1:n 1⟩2
k=0 k=0

respectivement, où

n
Rk+1:n ϕ(x) = Rk+1 · · · Rn ϕ(x) = E[ϕ(Xn ) gp (Xp−1 , Xp ) | Xk = x] ,
p=k+1

pour tout k = 0, 1, · · · , n, avec la convention Rn+1:n ϕ(x) = ϕ(x).

Preuve. En particulier pour l’approximation particulaire du modèle (8.27) à valeurs transi-


tions, avec redistribution multinomiale, il résulte du Théorème 12.2 que
√ ⟨γnN,tr , 1⟩ √
N[ − 1 ] =⇒ N(0, Vntr ) et N ⟨µN,tr − µtr
n , F ⟩ =⇒ N(0, vn (F )) ,
tr
⟨γntr , 1⟩ n

en distribution quand N ↑ ∞, pour toute fonction mesurable bornée F définie sur l’ensemble
produit E × E, avec l’expression suivante pour la variance asymptotique

n
⟨η tr , (gk Rk+1:n
tr 1)2 ⟩ ∑
n
⟨ηktr , |gk Rk+1:n
tr
n , F ⟩) | ⟩
(F − ⟨µtr 2
Vntr = [ ktr − 1] et vntr (F ) = ,
⟨ηk , gk Rk+1:n
tr 1⟩2 ⟨ηktr , gk Rk+1:n
tr 1⟩2
k=0 k=0
172 CHAPITRE 12. TCL POUR LES APPROXIMATIONS PARTICULAIRES

respectivement, où


n
tr
Rk+1:n F (x1 , x2 ) = E[F (Xntr ) gp (Xptr ) | Xktr = (x1 , x2 )] ,
p=k+1

pour tout k = 0, 1, · · · , n, avec la convention Rn+1:n


tr F (x1 , x2 ) = F (x1 , x2 ). Il suffit ensuite de
ré–interpréter ce résultat en terme du modèle (8.22), avec une fonction de la forme F = ϕ ◦ π,
où π : (x, x′ ) ∈ E × E 7→ x′ ∈ E désigne la projection sur la dernière composante de l’espace
produit E × E.

Par définition ηktr = µtr tr tr


k−1 Qk , où le noyau markovien Qk est défini en (8.26), de sorte que

∫ ∫ ∫ ∫
⟨ηktr , F ⟩ = F (x′1 , x′2 ) µtr tr ′ ′
k−1 (dx1 , dx2 ) Qk (x1 , x2 , dx1 , dx2 )
E E E E
∫ ∫ ∫ ∫
= F (x′1 , x′2 ) µtr ′ ′ ′
k−1 (dx1 , dx2 ) δx2 (dx1 ) Qk (x1 , dx2 )
E E E E
∫ ∫ ∫
′ ′
= µtr
k−1 (dx1 , dx2 ) F (x2 , x2 ) Qk (x2 , dx2 )
E E E
∫ ∫
′ ′
= µtr
k−1 (E, dx2 ) F (x2 , x2 ) Qk (x2 , dx2 )
E E
∫ ∫
= µk−1 (dx2 ) F (x2 , x′2 ) Qk (x2 , dx′2 ) ,
E E

toute pour toute fonction mesurable bornée F définie sur l’ensemble produit E × E, et compte
tenu que µtr
k−1 (E, dx2 ) = µk−1 (dx2 ), c’est–à–dire que

ηktr = µk−1 ⊗ Qk .

D’après la propriété de Markov


n
tr
Rk+1:n (ϕ ◦ π)(x1 , x2 ) = E[ϕ(Xn ) gp (Xp−1 , Xp ) | Xk−1 = x1 , Xk = x2 ]
p=k+1


n
= E[ϕ(Xn ) gp (Xp−1 , Xp ) | Xk = x2 ]
p=k+1

= Rk+1:n ϕ(x2 ) ,

pour toute fonction de la forme F = ϕ ◦ π, de sorte que

tr
Rk+1:n (ϕ ◦ π) = (Rk+1:n ϕ) ◦ π ,
12.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 173

−1 = µ , de sorte que
n ◦π
compte tenu que le résultat ne dépend que de x2 . On rappelle que µtr n
⟨µtr
n , ϕ ◦ π⟩ = ⟨µn , ϕ⟩ pour toute fonction de la forme F = ϕ ◦ π. On en déduit alors que

⟨ηktr , |gk Rk+1:n


tr
(ϕ ◦ π − ⟨µtr
n , ϕ ◦ π⟩) | ⟩ =
2

∫ ∫
= µk−1 (dx) Qk (x, dx′ ) |gk (x, x′ )|2 | Rk+1:n ϕ(x′ ) − Rk+1:n 1(x′ ) ⟨µn , ϕ⟩)) |2
E E
∫ ∫
= µk−1 (dx) Rk□ (x, dx′ ) | Rk+1:n ϕ(x′ ) − Rk+1:n 1(x′ ) ⟨µn , ϕ⟩)) |2
E E

= ⟨µk−1 Rk□ , | Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩ ,

et
∫ ∫
⟨ηktr , (gk Rk+1:n
tr
1)2 ⟩ = µk−1 (dx) Qk (x, dx′ ) |gk (x, x′ )|2 | Rk+1:n 1(x′ ) |2
E E
∫ ∫
= µk−1 (dx) Rk□ (x, dx′ ) | Rk+1:n 1(x′ ) |2
E E

= ⟨µk−1 Rk□ , | Rk+1:n 1 |2 ⟩ ,

et finalement
∫ ∫
⟨ηktr , gk Rk+1:n
tr
1⟩ = µk−1 (dx) Qk (x, dx′ ) gk (x, x′ ) Rk+1:n 1(x′ )
E E
∫ ∫
= µk−1 (dx) Rk (x, dx′ ) Rk+1:n 1(x′ )
E E

= ⟨µk−1 Rk , Rk+1:n 1⟩ ,

et il suffit d’utiliser ces identités dans l’expression des variances asymptotiques. 2


174 CHAPITRE 12. TCL POUR LES APPROXIMATIONS PARTICULAIRES
Annexe A

Inversion matricielle

Lemme A.1 Soit Q et R deux matrices symétriques définies positives, de dimension m et d


respectivement, et soit H une matrice d × m. Alors

(H ∗ R−1 H + Q−1 )−1 = Q − Q H ∗ (H Q H ∗ + R)−1 H Q ,

où toutes les matrices inverses sont bien définies, et de plus

(H ∗ R−1 H + Q−1 )−1 H ∗ = Q H ∗ (H Q H ∗ + R)−1 R .

Preuve. On remarque d’abord que

H Q H∗ + R ≥ R et H ∗ R−1 H + Q−1 ≥ Q−1

au sens des matrices symétriques, ce qui prouve que les matrices

H Q H∗ + R et H ∗ R−1 H + Q−1

sont inversibles. En développant, on vérifie que

[ Q − Q H ∗ (H Q H ∗ + R)−1 H Q ] [H ∗ R−1 H + Q−1 ]

= Q H ∗ R−1 H + I − Q H ∗ (H Q H ∗ + R)−1 (H Q H ∗ + R − R) R−1 H

− Q H ∗ (H Q H ∗ + R)−1 H

=I ,

et d’autre part, en multipliant à droite par H ∗ , on obtient

(H ∗ R−1 H + Q−1 )−1 H ∗ = Q H ∗ − Q H ∗ (H Q H ∗ + R)−1 (H Q H ∗ + R − R)

= Q H ∗ (H Q H ∗ + R)−1 R . 2

175
176 ANNEXE A. INVERSION MATRICIELLE

Remarque A.2 Cette formule permet de remplacer l’inversion de la matrice (H ∗ R−1 H +Q−1 )
de dimension m, par l’inversion de la matrice (H Q H ∗ + R) de dimension d, avec d ≤ m en
général. En particulier, dans le cas où d = 1, la matrice H = h∗ est un vecteur ligne, la matrice
R = r est un scalaire, et la formule devient
h h∗ Q h h∗ Q
( + Q−1 )−1 = Q − .
r r + h∗ Q h

Lemme A.3 Si la matrice D est inversible, alors


       
A B I B D−1 ∆ 0 I 0
M=   =       ,
C D 0 I 0 D D−1 C I
où la matrice ∆ = A − B D−1 C est appelée complément de Schur de la matrice D dans la
matrice–bloc M . En particulier, det M = det ∆ · det D de sorte que la matrice M est inversible
si et seulement si la matrice ∆ est inversible, et
 −1 
∆ ⋆
M −1 =   .
⋆ ⋆
Si la matrice M est symétrique, ce qui implique en particulier que A = A∗ , C = B ∗ et D = D∗ ,
alors le complément de Schur ∆ = A − B D−1 B ∗ est également symétrique, et si en outre
la matrice M est semi–définie positive, respectivement définie positive, alors la matrice ∆ est
également semi–définie positive, respectivement définie positive.

Remarque A.4 Si la matrice A est inversible, alors la matrice ∆ = D − C A−1 B est appelée
complément de Schur de la matrice A dans la matrice–bloc M , la matrice M est inversible si et
seulement si la matrice ∆ est inversible, et
 
⋆ ⋆
M −1 =   .
⋆ ∆ −1

Preuve. En développant, on vérifie que


         
I B D−1 ∆ 0 I 0 ∆ B I 0
      =    
0 I 0 D D−1 C I 0 D D−1 C I
 
∆ + B D−1 C B
=  =M ,
C D
ce qui montre l’identité annoncée. On en déduit que det M = det ∆·det D de sorte que la matrice
M est inversible si et seulement si la matrice ∆ est inversible, et
   −1   
I 0 ∆ 0 I −B D−1
M −1 =       ,
−1
−D C I 0 D −1 0 I
177

et on remarque que
   −1         
I 0 ∆ 0 I ⋆ ∆−1 0 I ⋆ ∆−1 ⋆
     =   =  .
⋆ I 0 ⋆ 0 I ⋆ ⋆ 0 I ⋆ ⋆

Si la matrice M est symétrique, on remarque que


( )    ( ) 
I −B D−1 A B I A − B D−1 B ∗ 0 I
   =  =∆,
B∗ D −D−1 B ∗ −D−1 B ∗

de sorte que ( )   
u∗ −u∗ B D−1 A B u
    = u∗ ∆ u ,
B∗ D −D−1 B ∗ u
pour tout vecteur u, ce qui permet de conclure. 2
178 ANNEXE A. INVERSION MATRICIELLE
Annexe B

Inégalités

On regroupe dans cette annexe plusieurs résultats non–asymptotiques sur les sommes de va-
riables aléatoires indépendantes mais pas nécessairement identiquement distribuées : inégalité
de Khintchine, inégalité de Marcinkiewicz–Zygmund pour les moments d’ordre p ≥ 1, inégalité
exponentielle de Hoeffding pour les probabilités de déviation.
On appelle suite de Rademacher une suite de variables aléatoires indépendantes prenant les
valeurs −1 ou +1 avec probabilité 12 .

Proposition B.1 (Inégalité de Khintchine) Pour tout réel p ≥ 0, il existe une constante
positive Ap > 0 telle que

N ∑N
E| εi ci | ≤ Ap (
p
c2i )p/2 ,
i=1 i=1
pour toute suite (c1 , · · · , cN ) de réels et pour toute suite de Rademacher (ε1 , · · · , εN ).


N
Par homogénéité, on peut supposer que c2i = 1 sans perte de généralité.
i=1
Si l’inégalité est vraie pour un entier p ≥ 0, alors pour tout réel 0 ≤ q ≤ p


N ∑
N
E| εi ci | ≤ {E|
q
εi ci |p }q/p ≤ Aq/p
p ,
i=1 i=1

d’après l’inégalité de Jensen, compte tenu que l’application x 7→ |x|q/p est concave, et il suffit de
montrer l’inégalité pour tout entier p ≥ 1, le cas p = 0 étant trivial.
Preuve. On remarque que
1
ex ≥ e|x| 1(x ≥ 0) ≥ |x|p 1(x ≥ 0) ,
p!
pour tout entier p ≥ 1, de sorte que
1 1 1
|x|p = |x|p 1(x ≥ 0) + |x|p 1(x ≤ 0) ≤ ex + e−x ,
p! p! p!

179
180 ANNEXE B. INÉGALITÉS

pour tout réel x. Il en résulte que

1 ∑
N ∑N ∑
N ∑N
E| εi ci |p ≤ E exp{ εi ci } + E exp{− εi ci } = 2 E exp{ εi ci } .
p!
i=1 i=1 i=1 i=1

Finalement

N ∏
N ∑
N

E exp{ εi ci } = ( 12 eci + 12 e−ci ) ≤ exp{ 12 c2i } = e,
i=1 i=1 i=1
1
compte tenu de l’inégalité 12 (ex +e−x ) ≤ e 2
x2
, valide pour tout réel x, et l’inégalité de Khintchine

est démontrée avec Ap = 2 e p!. 2

Proposition B.2 (Inégalité de Marcinkiewicz–Zygmund) Pour tout réel p ≥ 1, il existe


une constante positive Bp > 0 telle que


N ∑N
E| Xi | ≤ Bp E(
p
Xi2 )p/2 ,
i=1 i=1

pour toute suite (X1 , · · · , XN ) de variables aléatoires indépendantes centrées et de puissance


p–ème intégrable.

Remarque B.3 En divisant par N p , on obtient

1 ∑ 1 ∑ 2 p/2
N N
Bp
E| Xi |p ≤ p/2 E( Xi ) ,
N N N
i=1 i=1

et pour tout réel p ≥ 2, il résulte de l’inégalité de Jensen que

1 ∑ 2 p/2 1 ∑
N N
( Xi ) ≤ |Xi |p ,
N N
i=1 i=1

compte tenu que l’application x 7→ |x|p/2 est convexe, de sorte que

1 ∑ Bp 1 ∑
N N
E| Xi |p ≤ p/2 ( E|Xi |p ) . (B.1)
N N N
i=1 i=1

Remarque B.4 Plus généralement, pour tout vecteur de probabilité (w1 , · · · , wN ), et quitte à
remplacer Xi par wi Xi pour tout i = 1, · · · , N , on obtient

N ∑N ∑N ∑
N
E| wi Xi | ≤ Bp E(
p 2 2 p/2
wi X i ) = B p ( wi ) E(
2 p/2
wi□ Xi2 )p/2 ,
i=1 i=1 i=1 i=1

en introduisant le vecteur de probabilité (w1□ , · · · , wN


□ ) défini par

wi2
wi□ = ,

N
wj2
j=1
181

pour tout i = 1, · · · , N , et pour tout réel p ≥ 2, il résulte de l’inégalité de Jensen que


∑N ∑
N
( wi□ Xi2 )p/2 ≤ wi□ |Xi |p ,
i=1 i=1

compte tenu que l’application x 7→ |x|p/2 est convexe, de sorte que



N ∑N ∑
N
E| wi Xi |p ≤ Bp ( wi2 )p/2 ( wi□ E|Xi |p ) . (B.2)
i=1 i=1 i=1

Preuve de la Proposition B.2. On pose



N ∑
N
SN = Xi et RN = ε i Xi ,
i=1 i=1

et on considère les versions symétrisées



N ∑
N
sym
SN = (Xi − Xi′ ) et sym
RN = εi (Xi − Xi′ ) ,
i=1 i=1

où (ε1 , · · · , εN ) est une suite de Rademacher, où la suite (X1′ , · · · , XN ′ ) a la même distribution

que la suite (X1 , · · · , XN ), et où les suites (X1 , · · · , XN ), (X1 , · · · , XN′ ) et (ε , · · · , ε ) sont
1 N
mutuellement indépendantes. Pour tout i = 1, · · · , N et compte tenu que les variables aléatoires
(Xi − Xi′ ) et (Xi′ − Xi ) ont la même distribution, on vérifie que
E[ϕ(εi (Xi − Xi′ ))] = E( E[ϕ(εi (Xi − Xi′ )) | Xi , Xi′ ] )

= E[ 12 ϕ(Xi − Xi′ ) + 12 ϕ(Xi′ − Xi )] = E[ϕ(Xi − Xi′ )] ,


pour toute fonction test ϕ, de sorte que les variables aléatoires εi (Xi − Xi′ ) et (Xi − Xi′ ) ont
sym sym
la même distribution, et il en résulte que les variables aléatoires SN et RN ont la même
distribution. On remarque que
sym
E[SN | X1 , · · · , XN ] = SN ,
et il résulte de l’inégalité de Jensen que
sym sym
Φ(SN ) = Φ(E[SN | X1 , · · · , XN ]) ≤ E[Φ(SN ) | X1 , · · · , XN ] ,
pour toute fonction convexe Φ, de sorte que
sym
E[Φ(SN )] ≤ E[Φ(SN )] .
On remarque aussi que

N ∑
N
sym p
E|RN | = E| ε i Xi − εi Xi′ |p
i=1 i=1


N ∑
N ∑
N
≤ 2p−1 ( E| εi Xi |p + E| εi Xi′ |p ) = 2p E| εi Xi |p ,
i=1 i=1 i=1
182 ANNEXE B. INÉGALITÉS

et

N ∑
N ∑N
E| εi Xi | = E( E[ |
p
εi Xi | | X1 , · · · , XN ] ) ≤ Ap E(
p
Xi2 )p/2 ,
i=1 i=1 i=1

d’après l’inégalité de Khintchine. Finalement, pour tout réel p ≥ 1


N
sym p sym p
∑N
E| Xi | = E|SN | ≤
p p
E|SN | = E|RN | = 2 Ap E(
p
Xi2 )p/2 ,
i=1 i=1

compte tenu que l’application x 7→ |x|p est convexe, et l’inégalité de Marcinkiewicz–Zygmund



est démontrée avec Bp = 2p Ap = 2p+1 e p!. 2

Lemme B.5 Soit X une variable aléatoire réelle, de moyenne nulle et à valeurs bornées, c’est–
à–dire que a ≤ X ≤ b. Alors

E[exp{s X}] ≤ exp{ 81 s2 (b − a)2 } ,

pour tout réel s.

Preuve. Nécessairement a ≤ 0 ≤ b, et il résulte de l’identité

x−a b−x
x= b+ a,
b−a b−a
et de la convexité de la fonction exponentielle que

x−a b−x
exp{s x} ≤ exp{s b} + exp{s a} ,
b−a b−a
pour tout a ≤ x ≤ b, de sorte que

−a b
E[exp{s X}] ≤ exp{s b} + exp{s a} ,
b−a b−a
compte tenu que E(X) = 0. On pose

−a b
p= de sorte que 1−p= ,
b−a b−a
et il vient

s a = −s p (b − a) = −p u et s b = s (1 − p) (b − a) = (1 − p) u ,

avec u = s (b − a). On en déduit que

E[exp{s X}] ≤ p exp{(1 − p) u} + (1 − p) exp{−p u} = exp{ϕ(u)} ,

ce qui définit
ϕ(u) = −p u + log(p exp{u} + 1 − p) .
183

On calcule facilement l’expression des dérivées


p exp{u}
ϕ′ (u) = −p + ,
p exp{u} + 1 − p
et
p exp{u} p exp{u} p (1 − p) exp{u}
ϕ′′ (u) = −( )2 = ,
p exp{u} + 1 − p p exp{u} + 1 − p (p exp{u} + 1 − p)2
et on vérifie que ϕ(0) = ϕ′ (0) = 0 et que ϕ′′ (u) ≤ 14 , de sorte que
ϕ(u) = ϕ(0) + ϕ′ (0) u + 12 ϕ′′ (θ) u2 ≤ 1
8 u2 = 1
8 s2 (b − a)2 . 2

Proposition B.6 (Inégalité exponentielle de Hoeffding) Soit (X1 , · · · , XN ) des variables


aléatoires réelles indépendantes (mais pas nécessairement identiquement distribuées, ni centrées)
et à valeurs bornées, c’est–à–dire que ai ≤ Xi ≤ bi , pour tout i = 1, · · · , N . Alors

N
2 c2
P[ | (Xi − E(Xi ))| ≥ c ] ≤ 2 exp{− },
i=1

N
(bi − ai )2
i=1

pour tout réel positif c ≥ 0.

Remarque B.7 En utilisant c N en lieu et place de c, on obtient

1 ∑
N
2 N c2
P[ | (Xi − E(Xi ))| ≥ c ] ≤ 2 exp{− },
1 ∑
N N
i=1
(bi − ai )2
N
i=1

pour tout réel positif c ≥ 0.

Preuve. On utilise la méthode de majoration de Chernoff : pour tout réel positif λ > 0, il
résulte de l’inégalité de Markov, de l’indépendance des variables aléatoires (X1 , · · · , XN ) et du
Lemme B.5, que

N ∑
N
P[ (Xi − E(Xi )) ≥ c ] = P[ exp{λ (Xi − E(Xi ))} ≥ exp{λ c} ]
i=1 i=1


N
≤ exp{−λ c} E[exp{λ (Xi − E(Xi ))}]
i=1


N
≤ exp{−λ c} E[exp{λ (Xi − E(Xi ))}]
i=1


N
≤ exp{−λ c} exp{ 81 λ2 (bi − ai )2 }
i=1


N
≤ exp{−λ c + 81 λ2 (bi − ai )2 } ,
i=1
184 ANNEXE B. INÉGALITÉS

compte tenu que


ai − E(Xi ) ≤ Xi − E(Xi ) ≤ bi − E(Xi ) ,
pour tout i = 1, · · · , N (de sorte que l’oscillation est invariante par translation). Comme λ > 0
est arbitraire, la majoration reste encore valide avec la borne minimale, c’est–à–dire


N ∑
N
2 c2
P[ (Xi − E(Xi )) ≥ c ] ≤ min exp{−λ c + 8 λ
1 2
(bi − ai )2 } = exp{− },
i=1
λ>0
i=1

N
(bi − ai ) 2

i=1

4c
obtenue pour la valeur λ = . En posant Xi′ = −Xi et compte tenu que

N
(bi − ai )2
i=1

−bi + E(Xi ) ≤ Xi′ − E(Xi′ ) = −(Xi − E(Xi )) ≤ −ai + E(Xi ) ,

pour tout i = 1, · · · , N (de sorte que l’oscillation est invariante par changement de signe), il
vient

N ∑
N
2 c2
P[ (Xi − E(Xi )) ≤ −c ] = P[ (Xi′ − E(Xi′ )) ≥ c ] ≤ exp{− },
i=1 i=1

N
(bi − ai )2
i=1

et en combinant les deux majorations, on obtient


N ∑
N ∑
N
P[ | (Xi − E(Xi ))| ≥ c ] = P[ (Xi − E(Xi )) ≥ c ou (Xi − E(Xi )) ≤ −c ]
i=1 i=1 i=1


N ∑
N
= P[ (Xi − E(Xi )) ≥ c ] + P[ (Xi − E(Xi )) ≤ −c ]
i=1 i=1

2 c2
≤ 2 exp{− }. 2

N
(bi − ai )2
i=1
Annexe C

Théorème central limite conditionnel

On regroupe dans cette annexe quelques généralisations du théorème central limite, dont la
version la plus classique concerne la somme de variables aléatoires i.i.d. (indépendantes et iden-
tiquement distribuées). On commence par rappeler des majorations bien connues.

Lemme C.1 On a

(i) pour tout réel positif x ≥ 0


0 ≤ e−x − (1 − x) ≤ 1
2 x2 ,

(ii) pour tous réels x, x′



|ej x − ej x | ≤ |x − x′ | ,

(iii) pour tous réels positifs x, x′ ≥ 0



|e−x − e−x | ≤ |x − x′ | .

Preuve. On définit
G1 (x) = e−x − (1 − x) ,
pour tout x ≥ 0, et on vérifie que

G′1 (x) = −e−x + 1 ≥ 0 ,

pour tout x ≥ 0, de sorte que la fonction G1 est croissante sur [0, ∞) et G1 (x) ≥ G1 (0) = 0, ce
qui prouve la minoration. On définit ensuite

G2 (x) = e−x − (1 − x) − 21 x2 ,

pour tout x ≥ 0, et on vérifie que

G′2 (x) = −e−x + 1 − x = −G1 (x) ≤ 0 ,

pour tout x ≥ 0, de sorte que la fonction G2 est décroissante sur [0, ∞) et G2 (x) ≤ G2 (0) = 0,
ce qui prouve la majoration.

185
186 ANNEXE C. THÉORÈME CENTRAL LIMITE CONDITIONNEL

On définit

F (λ) = ej (λ x+(1−λ) x ) ,
pour tout 0 ≤ λ ≤ 1, où x et x′ sont fixés. On vérifie que

F ′ (λ) = j (x − x′ ) ej (λ x+(1−λ) x ) ,

et on en déduit que
∫ 1 ∫ 1
j x′ ′ ′ ′
e jx
−e = F (1) − F (0) = F (λ) dλ = j (x − x ) ej (λ x +(1−λ) x) dλ ,
0 0

de sorte que ∫ 1
j x′ ′ ′
|e jx
−e | = |x − x | | ej (λ x +(1−λ) x) dλ| ≤ |x − x′ | .
0

On définit de même

F (λ) = e−(λ x+(1−λ) x ) ,
pour tout 0 ≤ λ ≤ 1, où x, x′ ≥ 0 sont fixés. On vérifie que λ x + (1 − λ) x′ ≥ 0 et

F ′ (λ) = −(x − x′ ) e−(λ x+(1−λ) x ) ,

et on en déduit que
∫ 1 ∫ 1
′ ′
e−x − e−x = F (1) − F (0) = F ′ (λ) dλ = −(x − x′ ) e−(λ x+(1−λ) x ) dλ ,
0 0

de sorte que
∫ 1
−x −x′ ′ ′
|e −e | = |x − x | | e−(λ x+(1−λ) x ) dλ| ≤ |x − x′ | . 2
0

Lemme C.2 Soit X une variable aléatoire centrée, de variance s2 .


1
R(u) = |E[ exp{j u X}] − (1 − 12 u2 s2 )| −→ 0 ,
u2
quand u → 0.

Preuve. D’après la formule de Taylor avec reste intégral


∫ 1 ∫ 1
ej x = 1 + j x − (1 − λ) x2 ej λ x dλ = 1 + j x − 21 x2 − (1 − λ) x2 [ej λ x − 1] dλ ,
0 0

il vient
∫ 1
E[ exp{j u X}] = 1 − u s − u 1
2
2 2 2
(1 − λ) E[ |X|2 [exp{j λ u X} − 1] ] dλ ,
0

de sorte que
∫ 1
1
|E[ exp{j u X}] − (1 − 12 u2 s2 )| ≤ E[ |X|2 | exp{j λ u X} − 1| ] dλ .
u2 0
187

On définit
Z(u) = |X|2 | exp{j λ u X} − 1| ≤ 2 |X|2 ,
pour tout réel u, de sorte que la famille (Z(u) , u ∈ R) est uniformément intégrable, et on vérifie
que Z(u) converge vers 0 presque sûrement quand u → 0. Il suffit alors d’appliquer le théorème
de convergence dominée de Lebesgue pour conclure. 2

Lemme C.3 Soit X une variable aléatoire centrée, de variance s2 . Pour tout réel positif c > 0
et pour tout réel u

|E[ exp{j u X}] − (1 − 21 u2 s2 )| ≤ E[ |X|2 min( 61 |u X|, 1) ] u2

≤ 1
6 c s2 |u|3 + E[ 1(|X| > c) |X|2 ] u2 .

Preuve. D’après la majoration classique rappelée dans le Lemme C.1-(ii) on a


∫ 1 ∫ 1
(1 − λ) |ej λ x − 1| dλ ≤ |x| (1 − λ) λ dλ = 1
6 |x| ,
0 0

et on a aussi l’estimation grossière


∫ 1 ∫ 1
(1 − λ) |e j λx
− 1| dλ ≤ 2 (1 − λ) dλ = 1 ,
0 0

de sorte que
∫ 1
(1 − λ) |ej λ x − 1| dλ = min( 61 |x|, 1) .
0

D’après la formule de Taylor avec reste intégral


∫ 1 ∫ 1
e jx
=1+jx− (1 − λ) x e 2 j λx
dλ = 1 + j x − x − 1
2
2
(1 − λ) x2 [ej λ x − 1] dλ ,
0 0

il vient
∫ 1
E[ exp{j u X}] = 1 − u s − u 1
2
2 2 2
(1 − λ) E[ |X|2 [exp{j λ u X} − 1] ] dλ ,
0

de sorte que
∫ 1
|E[ exp{j u X}] − (1 − u s )| ≤ u 1
2
2 2 2
(1 − λ) E[ |X|2 | exp{j λ u X} − 1| ] dλ
0
∫ 1
= u E[ |X|
2 2
(1 − λ) | exp{j λ u X} − 1| dλ ]
0

≤ u2 E[ |X|2 min( 61 |u X|, 1) ] . 2


188 ANNEXE C. THÉORÈME CENTRAL LIMITE CONDITIONNEL

Remarque C.4 La majoration

1
|E[ exp{j u X}] − (1 − 12 u2 s2 )| ≤ E[ |X|2 min( 16 |u X|, 1) ] ,
u2
fournit une autre preuve du Lemme C.2. On définit

Z(u) = |X|2 min( 16 |u X|, 1) ≤ |X|2 ,

pour tout réel u, de sorte que la famille (Z(u) , u ∈ R) est uniformément intégrable, et on vérifie
que Z(u) converge vers 0 presque sûrement quand u → 0. Il suffit alors d’appliquer le théorème
de convergence dominée de Lebesgue pour conclure.

C.1 TCL pour des variables aléatoires i.i.d.

Théorème C.5 Soit (X1 , · · · , XN ) des variables aléatoires i.i.d. centrées et de variance s2 .
Alors
1 ∑
N
√ Xi =⇒ N(0, s2 ) ,
N i=1

en distribution, quand N ↑ ∞.

Preuve. D’après l’hypothèse d’indépendance, on a


N ∏
N
E[exp{j u Xi }] = E[exp{j u Xi } = ( E[exp{j u X}] )N ,
i=1 i=1

où la variable aléatoire X est distribuée comme chacune des variables aléatoires (X1 , · · · , XN ).
D’après les majorations classiques rappelées dans les Lemmes C.2 et C.1-(i), on a

| E[exp{j u X}] − (1 − 12 u2 s2 ) | ≤ R(u) u2 ,

et
| exp{− 21 u2 s2 } − (1 − 21 u2 s2 ) | ≤ 1
8 u4 s4 ,

et d’après l’inégalité triangulaire, on a

| E[exp{j u X}] − exp{− 12 u2 s2 } | ≤ R(u) u2 + 1


8 s4 u4 .

En utilisant la majoration
|aN − bN | ≤ N |a − b| ,

valide pour tous nombres complexes a et b de module inférieur ou égal à 1, et en particulier


valide pour
a = E[exp{j u X}] et b = exp{− 12 u2 s2 } ,
C.2. TCL POUR DES VARIABLES ALÉATOIRES INDÉPENDANTES 189

on obtient


N
| E[exp{j u Xi }] − exp{− 12 N u2 s2 } | = | ( E[exp{j u X} )N − ( exp{− 12 u2 s2 } )N |
i=1
≤ N | E[exp{j u X}] − exp{− 12 u2 s2 } |

≤ N R(u) u2 + 81 N s4 u4 ,

v
et en posant u = √ on obtient
N

v ∑
N
v s4 v 4
| E[exp{j √ Xi }] − exp{− 12 s2 v 2 } | ≤ R( √ ) v 2 + 1
8 .
N i=1 N N

En utilisant le résultat du Lemme C.2, on en déduit que

v ∑
N
E[exp{j √ Xi }] −→ exp{− 12 s2 v 2 } ,
N i=1

quand N ↑ ∞. 2

C.2 TCL pour des variables aléatoires indépendantes

Théorème C.6 Soit (X1,N , · · · , XN,N ) des variables aléatoires indépendantes et centrées. On
pose

s2i,N = E|Xi,N |2 et pour tout c > 0 Fi,N (c) = E[ 1(|X > c) |Xi,N | ] ,
2
i,N |

pour tout i = 1, · · · , N . Si
1 ∑ 2
N
s2N = si,N −→ s2 ,
N
i=1

et si pour tout ε > 0

1 ∑ √ ∑
N N
Xi,N
FN (ε) = Fi,N (ε N )) = E[ 1 Xi,N | √ |2 ] −→ 0 , (C.1)
N (| √ | > ε) N
i=1 i=1
N

quand N ↑ ∞, alors
1 ∑
N
√ Xi,N =⇒ N(0, s2 ) ,
N i=1

en distribution, quand N ↑ ∞.
190 ANNEXE C. THÉORÈME CENTRAL LIMITE CONDITIONNEL

Preuve. D’après l’hypothèse d’indépendance, on a



N ∏
N
E[exp{j u Xi,N }] = E[exp{j u Xi,N }] .
i=1 i=1

D’après les majorations classiques rappelées dans les Lemmes C.3 et C.1-(i), on a

| E[exp{j u Xi,N }] − (1 − 12 u2 s2i,N ) | ≤ 1


c s2i,N |u|3 + E[ 1(|X > c) |Xi,N | ] u ,
2 2
6 i,N |

et
| exp{− 12 u2 s2i,N } − (1 − 12 u2 s2i,N ) | ≤ 1
8 u4 s4i,N ,
et d’après l’inégalité triangulaire, on a

| E[exp{j u Xi,N }] − exp{− 21 u2 s2i,N } | ≤ 1


6 c s2i,N |u|3 + Fi,N (c) u2 + 1
8 s4i,N u4 .

En utilisant la majoration

N ∑
N
|a1 · · · an − b1 · · · bN | = | a1 · · · ai−1 (ai − bi ) bi+1 · · · bN | ≤ |ai − bi | ,
i=1 i=1

valide pour tous nombres complexes a1 , · · · , aN et b1 , · · · , bN de module inférieur ou égal à 1,


et en particulier valide pour

ai = E[exp{j u Xi,N }] et bi = exp{− 21 u2 s2i,N } ,

pour tout i = 1, · · · , N , on obtient



N
| E[exp{j u Xi,N }] − exp{− 12 N u2 s2N } |
i=1


N ∏
N
=| E[exp{j u Xi,N }] − exp{− 12 u2 s2i,N } |
i=1 i=1


N
≤ | E[exp{j u Xi,N }] − exp{− 12 u2 s2i,N } |
i=1


N ∑
N ∑
N
≤ 1
6 c s2i,N |u|3 + Fi,N (c) u2 + 1
8 s4i,N u4 .
i=1 i=1 i=1

On remarque que

N
s2i,N = E[ 1(|X |Xi,N |2 ] + E[ 1(|X | > c) |Xi,N |2 ] ≤ c2 + Fi,N (c) ≤ c2 + Fi,N (c) ,
i,N | ≤ c) i,N
i=1

pour tout i = 1, · · · , N , et on en déduit que



N ∑
N ∑
N
s4i,N ≤ (c2 + Fi,N (c)) s2i,N .
i=1 i=1 i=1
C.2. TCL POUR DES VARIABLES ALÉATOIRES INDÉPENDANTES 191

On obtient ainsi

N
| E[exp{j u Xi,N }] − exp{− 12 N u2 s2N } |
i=1


N ∑
N
≤ 1
6 c N s2N |u|3 + Fi,N (c) u2 + 1
8 (c2 + Fi,N (c)) N s2N u4 ,
i=1 i=1

v √
et en posant u = √ et c = ε N on obtient
N

v ∑
N
| E[exp{j √ Xi,N }] − exp{− 12 v 2 s2N } |
N i=1 (C.2)

≤ 1
6 ε s2N |v|3 + FN (ε) v 2 + 1
8 (ε2 + FN (ε)) s2N v 4 4 ,

D’après la majoration classique rappelée dans le Lemme C.1-(iii), on a

| exp{− 12 v 2 s2N } − exp{− 12 v 2 s2 } | ≤ 1


2 v 2 | s2N − s2 | ,

et d’après l’inégalité triangulaire, on a

v ∑
N
| E[exp{j √ Xi,N }] − exp{− 12 v 2 s2 } |
N i=1

≤ 1
6 ε s2N |v|3 + FN (ε) v 2 + 1
8 (ε2 + FN (ε)) s2N v 4 + 21 v 2 | s2N − s2 | .

Il résulte des hypothèses, et en particulier de l’hypothèse de Lindeberg (C.1), que

v ∑
N
lim sup | E[exp{j √ Xi,N }] − exp{− 12 v 2 s2 } | ≤ 1
6 ε s2 |v|3 + 1
8 ε2 s 2 v 4 ,
N ↑∞ N i=1

et comme ε > 0 peut être choisi arbitrairement petit, on en déduit que

v ∑
N
E[exp{j √ Xi,N }] −→ exp{− 21 v 2 s2 } ,
N i=1

quand N ↑ ∞. 2

Théorème C.7 On suppose que conditionnellement par rapport à FN , les variables aléatoires
(X1,N , · · · , XN,N ) sont indépendantes et centrées, et on pose

s2i,N = E[ |Xi,N |2 | FN ] et pour tout c > 0 Fi,N (c) = E[ 1(|X > c) |Xi,N | | FN ] ,
2
i,N |

pour tout i = 1, · · · , N . Soit θN une variable aléatoire mesurable par rapport à FN . Si

1 ∑ 2
N
s2N = si,N −→ s2 et θN −→ 1 ,
N
i=1
192 ANNEXE C. THÉORÈME CENTRAL LIMITE CONDITIONNEL

en probabilité quand N ↑ ∞, et si pour tout ε > 0

1 ∑ √ ∑
N N
Xi,N
FN (ε) = Fi,N (ε N )) = E[ 1 Xi,N | √ |2 | FN ] −→ 0 , (C.3)
N (| √ | > ε) N
i=1 i=1
N
en probabilité quand N ↑ ∞, alors pour tout réel v

v θN ∑
N
E[exp{j √ Xi,N } | FN ] −→ exp{− 12 v 2 s2 } , (C.4)
N i=1

en probabilité quand N ↑ ∞.

Preuve. D’après l’hypothèse d’indépendance conditionnelle, on a


N ∏
N
E[exp{j u Xi,N } | FN ] = E[exp{j u Xi,N } | FN ] .
i=1 i=1

En suivant les étapes de la preuve du Théorème C.6, et en utilisant la majoration (C.2), on


obtient

v θN ∑
N
| E[exp{j √ Xi,N } | FN ] − exp{− 12 v 2 θN s }|
2 2
N i=1

≤ 1
6 ε s2N θN
3
|v|3 + FN (ε) θN
2 2
v + 1
8 (ε2 + FN (ε)) s2N θN
4 4
v .

D’après la majoration classique rappelée dans le Lemme C.1-(iii), on a

| exp{− 12 v 2 θN sN } − exp{− 12 v 2 s2 } | ≤
2 2 1
2 v 2 | θN sN − s2 | ,
2 2

et d’après l’inégalité triangulaire, on a

v θN ∑
N
| E[exp{j √ Xi,N } | FN ] − exp{− 12 v 2 s2 } |
N i=1

≤ 1
6 ε s2N θN
3
|v|3 + FN (ε) θN
2 2
v + 1
8 (ε2 + FN (ε)) s2N θN v + 21 v 2 | θN
4 4
sN − s2 | .
2 2

Il résulte des hypothèses, et en particulier de l’hypothèse de Lindeberg conditionnelle (C.3), que


pour tout ε > 0

∆N (ε) = 1
6 ε s2N θN
3
|v|3 + FN (ε) θN
2 2
v + 1
8 (ε2 + FN (ε)) s2N θN v + 12 v 2 | θN
4 4
sN − s2 |
2 2

−→ ∆(ε) = 1
6 ε s2 |v|3 + 1
8 ε2 s2 v 4 ,

en probabilité quand N ↑ ∞. Soit η > 0 fixé. On rappelle que le réel v est aussi fixé. Il existe
alors ε = ε(η) > 0 tel que
∆(ε) = 61 ε |v|3 + 18 ε2 v 4 < 12 η .
C.2. TCL POUR DES VARIABLES ALÉATOIRES INDÉPENDANTES 193

Avec ce choix pour ε > 0, on a

v θN ∑
N
| E[exp{j √ Xi,N } | FN ] − exp{− 12 v 2 s2 } |
N i=1

≤ ∆N (ε) ≤ ∆(ε) + |∆N (ε) − ∆(ε)| ≤ 1


2 η + |∆N (ε) − ∆(ε)| .

On en déduit que

v θN ∑
N
P[ | E[exp{j √ Xi,N } | FN ] − exp{− 12 v 2 s2 } | > η] ≤ P[ |∆N (ε) − ∆(ε)| > 1
2 η] ,
N i=1

de sorte que
v θN ∑
N
E[exp{j √ Xi,N } | FN ] −→ exp{− 21 v 2 s2 } ,
N i=1
en probabilité quand N ↑ ∞. 2

Remarque C.8 Si les variables aléatoires (X1,N , · · · , XN,N ) sont bornées, i.e. si |Xi,N | ≤ K
pour tout i = 1, · · · , N , alors


N
Xi,N K2 ∑
N
Xi,N
FN (ε) = E[ 1 Xi,N | √ |2 | FN ] ≤ P[ | √ | > ε | FN ] ,
(| √ | > ε) N N N
i=1 i=1
N
et on remarque que
Xi,N √
P[ | √ | > ε | FN ] ≤ 1 ,
N (K > ε N )
pour tout i = 1, · · · , N , de sorte que

FN (ε) ≤ K 2 1 √ −→ 0 ,
(K > ε N )

quand N ↑ ∞, c’est–à–dire que la condition de Lindeberg conditionnelle (C.3) est vérifiée. On


peut alors appliquer le Théorème C.7, même si dans ce cas particulier il est facile de démontrer
directement le résultat (C.4), sans devoir passer par l’intermédiaire du Théorème C.7.

Remarque C.9 Si les variables aléatoires (X1,N , · · · , XN,N ) vérifient la condition de Lyapunov
conditionnelle : pour un certain δ > 0


N
Xi,N
E[ | √ |2+δ | FN ] −→ 0 , (C.5)
i=1
N

en probabilité quand N ↑ ∞, et compte tenu que

|x|2+δ ≥ |x|2+δ 1(|x| > ε) ≥ εδ |x|2 1(|x| > ε) ,


194 ANNEXE C. THÉORÈME CENTRAL LIMITE CONDITIONNEL

pour tout réel x et pour tout ε > 0, alors



N
Xi,N 2 1 ∑
N
Xi,N
FN (ε) = E[ 1 Xi,N | √ | | FN ] ≤ δ E[ | √ |2+δ | FN ] −→ 0 ,
(| √ | > ε) N ε N
i=1 i=1
N
en probabilité quand N ↑ ∞, c’est–à–dire que la condition de Lindeberg conditionnelle (C.3) est
vérifiée. On peut alors appliquer le Théorème C.7, et dans le cas particulier où la condition de
Lyapunov conditionnelle (C.5) est vérifiée pour δ = 1, c’est–à–dire où

N
Xi,N
E[ | √ |3 | FN ] −→ 0 ,
i=1
N

en probabilité quand N ↑ ∞, il est facile de montrer directement le résultat (C.4), sans devoir
passer par l’intermédiaire du Théorème C.7.

C.3 TCL conditionnel

La première généralisation concerne un théorème central limite conditionnel pour une somme
de variables aléatoires i.i.d., et son application à la convergence en distribution de la somme de
deux variables aléatoires

• une somme de variables aléatoires indépendantes mesurables par rapport à une sous–tribu,
• et une somme de variables aléatoires conditionnellement indépendantes par rapport à la
sous–tribu.

Lemme C.10 Si conditionnellement par rapport à FN , la variable aléatoire ZN ′ converge en

distribution vers une variable aléatoire gaussienne centrée, de variance V ′ , au sens où pour tout
u fixé

E[exp{j u ZN } | FN ] −→ exp{− 21 u2 V ′ } ,
en probabilité (et dans L1 , par le théorème de convergence dominée de Lebesgue) quand N ↑ ∞,
et si la variable aléatoire ZN′′ est mesurable par rapport à F , et converge en distribution vers
N
une variable aléatoire gaussienne centrée, de variance V ′′ , i.e. si pour tout u fixé
′′
E[exp{j u ZN }] −→ exp{− 12 u2 V ′′ } ,
quand N ↑ ∞, alors la variable aléatoire ZN = ZN ′ + Z ′′ converge en distribution vers une
N
variable aléatoire gaussienne centrée, de variance V = V ′ + V ′′ , quand N ↑ ∞.

Preuve. Il suffit d’exploiter la décomposition suivante


E[exp{j u ZN }] − exp{− 21 u2 V }
′ ′′
= E[ E[exp{j u ZN } | FN ] exp{j u ZN }] − exp{− 12 u2 V ′ − 21 u2 V ′′ }

= E[ [ E[exp{j u ZN } | FN ] − exp{− 12 u2 V ′ }] exp{j u ZN
′′
}]

+ exp{− 21 u2 V ′ } [ E[ exp{j u ZN
′′
}] − exp{− 21 u2 V ′′ }] ,
C.3. TCL CONDITIONNEL 195

et l’inégalité triangulaire entraı̂ne aussitôt que

| E[exp{j u ZN }] − exp{− 12 u2 V } |

≤ E| E[exp{j u ZN } | FN ] − exp{− 21 u2 V ′ } |
′′
+ | E[exp{j u ZN }] − exp{− 12 u2 V ′′ } | ,

qui converge vers zéro quand N ↑ ∞ 2


196 ANNEXE C. THÉORÈME CENTRAL LIMITE CONDITIONNEL
Bibliographie

[1] Brian D. O. Anderson and John B. Moore. Optimal filtering. Prentice–Hall Information
and System Sciences Series. Prentice–Hall, Englewood Cliffs, NJ, 1979.

[2] M. Sanjeev Arulampalam, Simon Maskell, Neil J. Gordon, and Tim Clapp. A tutorial on
particle filters for online nonlinear / non–Gaussian Bayesian tracking. IEEE Transactions
on Signal Processing, SP–50(2 (Special issue on Monte Carlo Methods for Statistical Signal
Processing)) :174–188, February 2002.

[3] Nathalie Bartoli and Pierre Del Moral. Simulation et algorithmes stochastiques. Cépaduès,
Toulouse, 2001.

[4] Niclas Bergman. Posterior Cramér–Rao bounds for sequential estimation. In Arnaud Dou-
cet, Nando de Freitas, and Neil Gordon, editors, Sequential Monte Carlo methods in practice,
Statistics for Engineering and Information Science, chapter 15, pages 321–338. Springer–
Verlag, New York, 2001.

[5] Olivier Cappé, Simon J. Godsill, and Éric Moulines. An overview of existing methods and
recent advances in sequential Monte Carlo. Proceedings of the IEEE, 95(5 (Special issue on
Large–Scale Dynamic Systems)) :899–924, May 2007.

[6] Olivier Cappé, Éric Moulines, and Tobias Rydén. Inference in hidden Markov models.
Springer Series in Statistics. Springer–Verlag, New York, 2005.

[7] Dan Crişan and Arnaud Doucet. A survey of convergence results on particle filtering
methods for practitioners. IEEE Transactions on Signal Processing, 50(3) :736–746, March
2002.

[8] Pierre Del Moral. Feynman–Kac formulae. Genealogical and interacting particle systems
with applications. Probability and its Applications. Springer–Verlag, New York, 2004.

[9] Luc Devroye. Non–uniform random variate generation. Springer–Verlag, New York, 1986.

[10] Randal Douc, Olivier Cappé, and Éric Moulines. Comparison of resampling schemes for
particle filtering. In Proceedings of the 4th Symposium on Image and Signal Processing and
Analysis, Zagreb 2005, pages 64–69. IEEE–SPS, September 2005.

[11] Randal Douc and Éric Moulines. Limit theorems for weighted samples with applications
to sequential Monte Carlo methods. The Annals of Statistics, 36(5) :2344–2376, October
2008.

197
198 BIBLIOGRAPHIE

[12] Randal Douc, Éric Moulines, and David S. Stoffer. Nonlinear time series : Theory, methods
and applications with R examples. Texts in Statistical Science. Chapman & Hall / CRC
Press, Boca Raton, 2014.

[13] Arnaud Doucet and Christophe Andrieu. Particle filters for partially observed Gaussian
state space models. Journal of the Royal Statistical Society, Series B, 64(4) :827–836,
December 2002.

[14] Arnaud Doucet, Nando de Freitas, and Neil Gordon, editors. Sequential Monte Carlo
methods in practice. Statistics for Engineering and Information Science. Springer–Verlag,
New York, 2001.

[15] Arnaud Doucet, Simon J. Godsill, and Christophe Andrieu. On sequential Monte Carlo
sampling methods for Bayesian filtering. Statistics and Computing, 10(3) :197–208, July
2000.

[16] Fredrik Gustafsson, Fredrik Gunnarsson, Niclas Bergman, Urban Forssell, Jonas Jansson,
Rickard Karlsson, and Per-Johan Nordlund. Particle filters for positioning, navigation, and
tracking. IEEE Transactions on Signal Processing, SP–50(2 (Special issue on Monte Carlo
Methods for Statistical Signal Processing)) :425–437, February 2002.

[17] Allan Gut. Probability : A graduate course. Springer Texts in Statistics. Springer–Verlag,
New York, 2005.

[18] Hans R. Künsch. Recursive Monte Carlo filters : Algorithms and theoretical analysis. The
Annals of Statistics, 33(5) :1983–2021, October 2005.

[19] Jun S. Liu. Monte Carlo strategies in scientific computing. Springer Series in Statistics.
Springer–Verlag, New York, 2001.

[20] Patrick Pérez, Carine Hue, Jaco Vermaak, and Michel Gangnet. Color–based probabilistic
tracking. In Anders Heyden, Gunnar Sparr, Mads Nielsen, and Peter Johansen, editors,
Proceedings of the 7th European Conference on Computer Vision (ECCV’02), Copenhagen
2002, volume 2350 of Lecture Notes in Computer Science, pages 661–675. Springer–Verlag,
Berlin, June 2002.

[21] Dinh-Tuan Pham. Stochastic methods for sequential data assimilation in strongly nonlinear
systems. Monthly Weather Review, 129(5) :1194–1207, May 2001.

[22] Branko Ristić, M. Sanjeev Arulampalam, and Neil J. Gordon. Beyond the Kalman filter :
Particle filters for tracking applications. Artech House, Boston, 2004.

[23] Christian P. Robert and George Casella. Monte Carlo statistical methods. Springer Texts
in Statistics. Springer–Verlag, New York, 2nd edition, 2004.

[24] Thomas Schön, Fredrik Gustafsson, and Per-Johan Nordlund. Marginalized particle filters
for mixed linear / nonlinear state–space models. IEEE Transactions on Signal Processing,
SP–53(7) :2279–2289, July 2005.

[25] Sebastian Thrun, Wolfram Burgard, and Dieter Fox. Probabilistic robotics. Intelligent
Robotics and Autonomous Agents. The MIT Press, Cambridge, MA, 2005.
BIBLIOGRAPHIE 199

[26] Petr Tichavský, Carlos H. Muravchik, and Arye Nehorai. Posterior Cramér–Rao bounds for
discrete–time nonlinear filtering. IEEE Transactions on Signal Processing, SP–46(5) :1386–
1396, May 1998.

[27] Miroslav Šimandl, Jakub Královec, and Petr Tichavský. Filtering, predictive and smoo-
thing Cramér–Rao bounds for discrete–time nonlinear dynamic systems. Automatica,
37(11) :1703–1716, November 2001.

Vous aimerez peut-être aussi