0% ont trouvé ce document utile (0 vote)

26 vues205 pages

Cours

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

26 vues205 pages

Cours

Transféré par

ossebiandouando7777

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

École Nationale Supérieure de Techniques Avancées

Domaine : Mathématiques et leurs Applications

cours SOD333
Filtrage Bayésien
et Approximation Particulaire

version du 3 octobre 2018

François Le Gland
INRIA Rennes et IRMAR
http://www.irisa.fr/aspi/legland/ensta/
i

Objectif du cours

Le filtrage consiste à estimer de façon récursive un état caché au vu d’observations. Le do-

maine d’application principal est la localisation, la navigation et la poursuite de mobiles, dans
le domaine militaire, mais aussi en robotique mobile, en vision par ordinateur, où il s’agit de
combiner : un modèle a priori de déplacement du mobile, des mesures issues de capteurs, et
éventuellemnent une base de mesures de références, disponibles par exemples sous la forme
d’une carte numérique (modèle numérique de terrain, carte de couverture, etc.).
Le problème de filtrage possède une solution explicite, appelée filtre de Kalman, dans le cas
particulier des systèmes linéaires gaussiens. Dans le cas plus général des modèles de Markov
cachés, des méthodes de simulations eﬃcaces sont apparues récemment, sous le nom de filtrage
particulaire. L’objectif de ce cours est de présenter diﬀérents algorithmes de filtrage particulaire,
de les mettre en œuvre dans le cadre de travaux pratiques, et de démontrer quelques résultats de
convergence en utilisant le cadre très général de l’approximation particulaire des distributions
de Feynman–Kac.
ii
Table des matières

1 Introduction 1
1.1 Importance de l’information a priori . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Estimation bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Cadre gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Exemples 15
2.1 Recalage altimétrique de navigation inertielle . . . . . . . . . . . . . . . . . . . . 15
2.2 Suivi visuel par histogramme de couleur . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Poursuite d’une cible furtive (track–before-detect) . . . . . . . . . . . . . . . . . 22
2.4 Navigation en environnement intérieur . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Filtrage de Kalman 29
3.1 Systèmes linéaires gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Lisseur de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4 Extensions aux systèmes non–linéaires 45

4.1 Filtre de Kalman linéarisé, filtre de Kalman étendu . . . . . . . . . . . . . . . . . 46
4.2 Filtre de Kalman unscented . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5 Au–delà des systèmes linéaires gaussiens 55

5.1 Systèmes non–linéaires à bruits non–gaussiens . . . . . . . . . . . . . . . . . . . . 55
5.2 Modèles de Markov cachés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3 Chaı̂nes de Markov à paramètres markoviens . . . . . . . . . . . . . . . . . . . . 60
5.4 Chaı̂nes de Markov partiellement observées . . . . . . . . . . . . . . . . . . . . . 62

6 Borne de Cramér–Rao a posteriori 67

iii
iv TABLE DES MATIÈRES

7 Filtrage bayésien 73
7.1 Modèles de Markov cachés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.2 Chaı̂nes de Markov partiellement observées . . . . . . . . . . . . . . . . . . . . . 78

8 Généralisation : distributions de Feynman–Kac 85

8.1 Modèle de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
8.2 Modèle (apparamment) plus général . . . . . . . . . . . . . . . . . . . . . . . . . 88
8.3 Modèle à valeurs transitions ou trajectoires . . . . . . . . . . . . . . . . . . . . . 93

9 Méthodes de Monte Carlo 101

9.1 Échantillonnage pondéré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
9.2 Simulation selon une distribution de Gibbs–Boltzmann . . . . . . . . . . . . . . . 106
9.3 Échantillonnage et approximation d’un mélange fini . . . . . . . . . . . . . . . . 118
9.4 Échantillonnage selon une distribution à support fini . . . . . . . . . . . . . . . . 127

10 Approximations particulaires 133

10.1 Échantillonnage pondéré (SIS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
10.2 Échantillonnage / ré–échantillonnage (SIR) . . . . . . . . . . . . . . . . . . . . . 136

11 Estimation d’erreur 153

11.1 Probabilité d’extinction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
11.2 Estimation d’erreur dans Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

12 TCL pour les approximations particulaires 163

12.1 Échantillonnage pondéré (SIS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
12.2 Échantillonnage / ré–échantillonnage (SIR) . . . . . . . . . . . . . . . . . . . . . 164

A Inversion matricielle 175

B Inégalités 179

C Théorème central limite conditionnel 185

C.1 TCL pour des variables aléatoires i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . 188
C.2 TCL pour des variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . 189
C.3 TCL conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
Chapitre 1

Introduction

En toute généralité, le filtrage consiste à estimer l’état d’un système dynamique, c’est–à–dire
évoluant au cours du temps, à partir d’observations partielles, généralement bruitées.
Typiquement, on dispose d’une suite Y0 , Y1 , · · · , Yn d’observations, par exemple obtenues
après traitement préalable du signal recueilli au niveau des capteurs. Chaque observation Yn est
reliée à l’état inconnu Xn par une relation du type

Yn = hn (Xn ) + Vn , (1.1)

où Vn est un bruit, qui modélise l’erreur d’observation. On précisera plus loin dans ce cours la
notion de bruit, en terme de variables alátoires le plus souvent centrées (de moyenne nulle).

1.1 Importance de l’information a priori

Une hypothèse assez commune est de supposer que les variables aléatoires V0 , V1 , · · · , Vn sont
indépendantes entre elles. A cause de cette hypothèse d’indépendance mutuelle des bruits d’ob-
servation, et a fortiori en absence de bruit, seule l’observation Yn participe à l’estimation de
l’état caché Xn , c’est–à–dire qu’on se trouve confronté à une succession de problèmes d’estima-
tion découplés : dans la relation (1.1), l’observation Yn est disponible (par définition) tandis que
ni l’état caché Xn ni le bruit Vn ne sont disponibles, et il faut arriver à retrouver (estimer) l’état
caché Xn au vu de l’observation Yn et malgré la présence du bruit Vn .
Tel qu’il est formulé, le problème de l’estimation de l’état caché Xn à partir des observations
Y0 , Y1 , · · · , Yn est en général mal–posé :

• en général, la dimension m de la variable cachée est plus grande que la dimension d de

l’observation : même en absence de bruit, on ne peut pas inverser la relation (1.1) qui
possède plus d’inconnues que d’équations,

• dans le cas favorable où m = d, et même en absence de bruit, il n’est pas toujours possible
d’inverser la relation (1.1) qui peut très bien posséder plusieurs solutions distinctes,

1
2 CHAPITRE 1. INTRODUCTION

• la situation est évidemment encore plus compliquée en présence de bruit : à cause du

phénomène de découplage cité plus haut, la suite X0 , X1 , · · · , Xn reconstituée peut ne pas
être pertinente en tant que trajectoire, même si chacune des estimations est pertinente
séparément.

Pour lever l’indétermination, c’est–à–dire pour garantir l’existence d’une solution unique, et
pour résoudre le problème de cohérence temporelle, la solution classique consiste à utiliser des
informations supplémentaires sur la suite cachée, par exemple sous la forme de fonctions de
coût portant sur l’état initial ou sur les transitions entre deux états successifs. Par exemple, on
cherchera à minimiser le critère
∑
n ∑
n
J(x0:n ) = c0 (x0 ) + ck (xk−1 , xk ) + dk (xk ) ,
k=1 k=0

par rapport à la suite x0:n = (x0 , x1 , · · · , xn ), qui combine des fonctions de coût représentant
l’information a priori sur la solution avec des fonctions de coût d’une autre nature, qui peuvent
représenter par exemple un terme d’attache aux données, de la forme

hk (x) = 1
2 |Yk − hk (x)|2 ou bien hk (x) = 1
2 (Yk − hk (x))∗ Ik (Yk − hk (x)) ,

pour tout k = 0, 1, · · · , n, avec l’intreprétation que la suite recherchée doit également vérifier à
chaque instant l’équation d’observation en un sens approché. Plus généralement, ces fonctions de
coût peuvent juste représenter une contrainte (ou une propriété) que la suite recherchée devrait
vérifier (ou posséder). En absence d’information a priori , le critère se réduit simplement à

∑
n ∑
n
J(x0:n ) = 1
2 |Yk − hk (xk )| 2
ou bien J(x0:n ) = 1
2 (Yk − hk (xk ))∗ Ik (Yk − hk (xk )) ,
k=0 k=0

ce qui revient en absence de couplage à minimiser séparément le critère

1
2 |Yk − hk (xk )|2 ou bien 1
2 (Yk − hk (xk ))∗ Rk−1 (Yk − hk (xk )) ,

par rapport à l’état xk , pour tout k = 0, 1, · · · , n, avec les conséquences déjà évoquées en terme
d’indétermination et de possible incohérence temporelle. Un exemple classique de fonctions de
coût représentant l’information a priori est

c0 (x) = 1
2 |x − µ|2 ou bien c0 (x) = 1
2 (x − µ)∗ Σ−1
0 (x − µ) ,

avec l’interprétation que l’état initial x0 recherché doit être proche de µ, et

ck (x, x′ ) = 1
2 |x′ − fk (x)|2 ou bien ck (x, x′ ) = 1
2 (x′ − fk (x))∗ Q−1 ′
k (x − fk (x)) ,

avec l’interprétation que l’état xk recherché doit être proche de fk (xk−1 ), ou de manière équiva-
lente que la transition (xk−1 , xk ) recherchée doit vérifier l’équation xk = fk (xk−1 ) dans un sens
approché, pour tout k = 1, · · · , n. On remarque que ces fonctions de coût sont (à une constante
additive près) de la forme

c0 (x) = − log p0 (x) et ck (x, x′ ) = − log pk (x′ | x) , (1.2)

1.1. IMPORTANCE DE L’INFORMATION A PRIORI 3

pour tout k = 1, · · · , n, où p0 (x) est la densité de probabilité initiale, et où pk (x′ | x) est la
densité de probabilité de transition, dans le modèle non–linéaire suivant avec bruits gaussiens
additifs
Xk = fk (Xk−1 ) + Wk avec Wk ∼ N(0, Qk ) ,
et avec condition initiale X0 ∼ N(µ, Σ). En eﬀet (à une constante mutiplicative de normalisation
près)
P[X0 ∈ dx] ∝ exp{− 21 (x − µ)∗ Σ−10 (x − µ)} dx ∝ p0 (x) dx ,

P[Xk ∈ dx′ | Xk−1 = x] ∝ exp{− 21 (x′ − fk (x))∗ Q−1 ′ ′ ′ ′

k (x − fk (x))} dx ∝ pk (x | x) dx ,

pour tout k = 1, · · · , n. En toute généralité, si les relations (1.2) sont vérifiées pour une densité
de probabilité p0 (x) et pour des densités de probabilité de transition pk (x′ | x), pour tout
k = 1, · · · , n, alors le critère à minimiser peut s’écrire

∑
n ∑
n
J(x0:n ) = − log p0 (x0 ) − log pk (xk | xk−1 ) + dk (xk ) ,
k=1 k=0

ce qui revient à maximiser

∏
n ∑
n
exp{−J(x0:n )} = p0 (x0 ) pk (xk | xk−1 ) exp{− dk (xk )} ,
k=1 k=0
| {z }
p0:n (x0:n )

par rapport à la suite x0:n = (x0 , x1 , · · · , xn ). On remarque que p0:n (x0:n ) représente la densité
de probabilité conjointe des états successifs (X0 , X1 , · · · , Xn ) de la chaı̂ne de Markov caractérisée
par

• la densité de probabilité initiale p0 (x0 ),

• et les densités de probabilité de transition pk (x′ | x), pour tout k = 1, · · · , n.

Comme alternative au point de vue de l’optimisation déterministe développé jusqu’ici, on adop-

tera dans ce cours un point de vue d’estimation bayésienne, c’est–à–dire qu’on remplacera le
problème de minimisation déterministe, avec prise en compte de l’information a priori en terme
de fonctions de coût, par le problème du calcul de la distribution de Gibbs–Boltzmann définie
(à une constante multiplicative près) sur l’espace des trajectoires En = E × · · · × E par

∏
n ∑
n
exp{−J(x0:n )} dx0:n = p0 (x0 ) pk (xk | xk−1 ) exp{− dk (xk )} dx0:n . (1.3)
k=1 k=0
| {z }
p0:n (x0:n )

En d’autres termes, on remplacera le problème de calculer le mode, c’est–à–dire la trajectoire

x0:n = (x0 , x1 , · · · , xn ) de plus forte densité, par le problème de calculer des espérances (ou des
4 CHAPITRE 1. INTRODUCTION

intégrales) du type
∫ ∫ ∫ ∫ ∑
n
··· f (x0:n ) exp{−J(x0:n )} dx0:n = ··· f (x0:n ) exp{− dk (xk )} p0:n (x0:n ) dx0:n
E E E E k=0

∑
n
= E[f (X0:n ) exp{− dk (Xk )} ] ,
k=0

pour des fonctions–test f définies sur l’espace des trajectoires En = E ×· · ·×E. Dans la pratique,
on verra comment résoudre ce problème de manière approchée, en simulant des échantillons de
variables aléatoires distribuées (approximativement) selon la distribution de Gibbs–Boltzmann
trajectorielle définie (à une constante multiplicative près) par (1.3).

1.2 Estimation bayésienne

Dans de nombreux cas, la prise en compte de l’information a priori peut se ramener au problème
statique suivant : étant donnés deux vecteurs aléatoires X et Y , qu’apporte le fait d’observer la
réalisation Y = y sur la connaissance que l’on a de X ?
Soit X et Y deux variables aléatoires à valeurs dans E et dans F respectivement, et soit
ϕ une application mesurable définie sur E à valeurs dans Rp . Par définition, un estimateur de
ϕ(X) à partir de l’observation de Y est un vecteur aléatoire ψ(Y ), où ψ est une application
mesurable définie sur F à valeurs dans Rp (par abus de notation, la variable aléatoire ψ(Y ) sera
également notée ψ).

▶ Estimateur MMSE Soit ψ un estimateur de ϕ(X) sachant Y . Naturellement ψ = ψ(Y )

n’est pas égal à ϕ(X) : une mesure de l’écart entre l’estimateur et la vraie valeur est fournie par
la matrice (de dimension p × p) de corrélation d’erreur

E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] , (1.4)

dont la trace

trace E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] = E |ψ(Y ) − ϕ(X)|2 ,

est l’erreur quadratique moyenne. L’estimateur du minimum d’erreur quadratique moyenne

(MMSE, pour minimum mean–square error) de ϕ(X) sachant Y est un estimateur ϕb tel que
b ) − ϕ(X)) (ϕ(Y
E[ (ϕ(Y b ) − ϕ(X))∗ ] ≤ E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] ,

au sens des matrices symétriques, pour tout autre estimateur ψ.

La Proposition 1.1 ci–dessous montre que cet estimateur est obtenu à l’aide de la distribution
de probabilité conditionnelle de X sachant Y = y, définie à partir de la distribution de probabilité
jointe de (X, Y ) par la décomposition

P[X ∈ dx, Y ∈ dy] = P[X ∈ dx | Y = y] P[Y ∈ dy] . (1.5)

1.2. ESTIMATION BAYÉSIENNE 5

Proposition 1.1 Soit X et Y deux variables aléatoires à valeurs dans E et F respectivement,

et soit ϕ une application mesurable définie sur E à valeurs dans Rp . L’estimateur MMSE de
ϕ(X) sachant Y est la moyenne conditionnelle de ϕ(X) sachant Y , i.e.
∫
b
ϕ(y) = E[ϕ(X) | Y = y] = ϕ(x) P[X ∈ dx | Y = y] .
E

Preuve. Pour tout estimateur ψ, la décomposition

b ) − ϕ(X) + ψ(Y ) − ϕ(Y

ψ(Y ) − ϕ(X) = ϕ(Y b ),

entraı̂ne

E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] =

b ) − ϕ(X)) (ϕ(Y
= E[ (ϕ(Y b ) − ϕ(X))∗ ] + E[ (ψ(Y ) − ϕ(Y
b )) (ψ(Y ) − ϕ(Y
b ))∗ ]

b )) (ϕ(Y
+ E[ (ψ(Y ) − ϕ(Y b ) − ϕ(X))∗ ] + E[ (ϕ(Y
b ) − ϕ(X)) (ψ(Y ) − ϕ(Y
b ))∗ ] ,

et on remarque que

b )) (ϕ(Y
E[ (ψ(Y ) − ϕ(Y b ) − ϕ(X))∗ ] =

∫ ∫
= b
(ψ(y) − ϕ(y)) b − ϕ(x))∗ P[X ∈ dx, Y ∈ dy]
(ϕ(y)
E F
∫ ∫
= b
(ψ(y) − ϕ(y)) b − ϕ(x))∗ P[X ∈ dx | Y = y] P[Y ∈ dy]
(ϕ(y)
E F
∫ ∫
{ }
= b
(ψ(y) − ϕ(y)) ∗ b − ϕ(x)) P[X ∈ dx | Y = y]
(ϕ(y) P[Y ∈ dy] = 0 ,
F E

b
par définition de ϕ(y). On a donc

E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] =

b ) − ϕ(X)) (ϕ(Y
= E[ (ϕ(Y b ) − ϕ(X))∗ ] + E[ (ψ(Y ) − ϕ(Y
b )) (ψ(Y ) − ϕ(Y
b ))∗ ]

b ) − ϕ(X)) (ϕ(Y
≥ E[ (ϕ(Y b ) − ϕ(X))∗ ] ,

b
au sens des matrices symétriques, avec égalité pour ψ = ϕ. 2

Remarque 1.2 Compte tenu que le vecteur aléatoire (ϕ(Y b ) − ϕ(X)) est centré, la matrice
de corrélation d’erreur est aussi la matrice de covariance d’erreur, dans le cas particulier de
b
l’estimateur ϕ.
6 CHAPITRE 1. INTRODUCTION

▶ Borne de Cramér–Rao a posteriori On suppose à présent que E = Rm , c’est–à–dire

que X et Y sont des variables aléatoires à valeurs dans Rm et F respectivement, et soit ϕ une
application mesurable définie sur Rm à valeurs dans Rp . Le biais de l’estimateur ψ de ϕ(X)
sachant Y est défini par
b(ψ, x) = E[ψ(Y ) | X = x] − ϕ(x) .

On suppose que la distribution de probabilité jointe des vecteurs aléatoires X et Y possède une
densité
P[X ∈ dx, Y ∈ dy] = p(x, y) dx λ(dy) ,

sur Rm ×F , suﬃsamment régulière par rapport à la variable x ∈ Rm , avec les deux factorisations
alternatives
p(x, y) = p(x | y) p(y) = p(y | x) p(x) ,

en termes de distributions de probabilités conditionnelles et marginales, et en particulier

∫
P[X ∈ dx] = p(x) dx avec p(x) = p(x, y) λ(dy) .
F

On suppose que
∫ ∫ ∫ ∫ ∫
∂2 { ∂2 }
p(x, y) λ(dy) dx = p(x, y) λ(dy) dx = p′′ (x) dx = 0 .
Rm F ∂x2 Rm ∂x2 F Rm

Proposition 1.3 Si la matrice d’information de Fisher (de dimension m × m) définie par

∂2
J = −E[ log p(X, Y ) ] ,
∂x2

est inversible, alors la matrice de corrélation de l’erreur d’estimation est minorée (au sens des
matrices symétriques) par la relation suivante

C = E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] ≥ M J −1 M ∗ .

avec la matrice de sensibilité (de dimension p × m) définie par

M = E[ϕ′ (X)] ,

pour tout estimateur ψ de ϕ(X) sachant Y tel que

∫
(b(ψ, x) p(x))′ dx = 0 . (1.6)
Rm

Remarque 1.4 La matrice d’information de Fisher J et la matrice de sensibilité M qui inter-

viennent dans l’expression de la borne ne dépendent pas de l’estimateur ψ.
1.2. ESTIMATION BAYÉSIENNE 7

Preuve. Par définition

∫ ∫
b(ψ, x) p(x) = (ψ(y) − ϕ(x)) p(y | x) p(x) λ(dy) = (ψ(y) − ϕ(x)) p(x, y) λ(dy) ,
F F

et la matrice jacobienne (de dimension p × m) associée vérifie

∫ ∫
′ ′ ∂
(b(ψ, x) p(x)) = −ϕ (x) p(x, y) λ(dy) + (ψ(y) − ϕ(x)) p(x, y) λ(dy)
F F ∂x
∫
′ ∂
= −ϕ (x) p(x) + (ψ(y) − ϕ(x)) log p(x, y) p(x, y) λ(dy) .
F ∂x
En intégrant par rapport à la variable x ∈ Rm , il vient
∫
(b(ψ, x) p(x))′ dx
Rm
∫ ∫ ∫
′ ∂
=− ϕ (x) p(x) dx + (ψ(y) − ϕ(x)) log p(x, y) p(x, y) λ(dy) dx
Rm Rm F ∂x
∂
= −E[ϕ′ (X)] + E[ (ψ(Y ) − ϕ(X)) log p(X, Y ) ] ,
∂x
et si la condition (1.6) est vérifiée, alors
∂
E[ (ψ(Y ) − ϕ(X)) log p(X, Y ) ] = M ,
∂x
où la matrice de sensibilité M ne dépend pas de ψ. D’autre part, il résulte de l’identité
∂2 1 ∂2 ∂ ∂
2
log p(x, y) = 2
p(x, y) − ( log p(x, y))∗ log p(x, y) ,
∂x p(x, y) ∂x ∂x ∂x
entre matrices de dimension m × m, que
∫ ∫
∂ ∂ ∂2 ∂2
E[ ( log p(X, Y ))∗ log p(X, Y ) ] = p(x, y) λ(dy) dx − E[ log p(X, Y ) ] ,
∂x ∂x Rm F ∂x2 ∂x2
et par hypothèse on a donc
∂ ∂
E[ ( log p(X, Y ))∗ log p(X, Y ) ] = J .
∂x ∂x
On introduit ensuite le vecteur aléatoire
 
 
 ψ(Y ) − ϕ(X)  C M
    .
  et sa matrice de covariance
 ∂ 
∗ M∗ J
( log p(X, Y ))
∂x
Compte tenu que cette matrice symétrique est semi–définie positive, il résulte du Lemme A.3
d’inversion matricielle que le complément de Schur ∆ = C − M J −1 M ∗ est également une
matrice semi–définie positive, c’est–à–dire que

C ≥ M J −1 M ∗ . 2
8 CHAPITRE 1. INTRODUCTION

Remarque 1.5 Par définition de l’estimateur MMSE, on a nécessairement

b ) − ϕ(X)) (ϕ(Y
E[ (ψ(Y ) − ϕ(X)) (ψ(Y ) − ϕ(X))∗ ] ≥ E[ (ϕ(Y b ) − ϕ(X))∗ ] ≥ M J −1 M ∗ ,

pour tout estimateur ψ, et la borne la plus à gauche est atteinte pour ψ = ϕ. b La borne donnée
par l’estimateur MMSE est donc plus fine que la borne de Cramér–Rao a posteriori, mais aussi
plus diﬃcile à calculer : le plus souvent en eﬀet on ne dispose pas de l’expression de l’estimateur
MMSE, mais l’expression des matrices J et M est assez facile à obtenir. La borne de Cramér–
Rao a posteriori peut même être assez grossière et atteinte par aucun estimateur, et on déduit
de l’encadrement ci–dessus que si la borne de Cramér–Rao a posteriori est atteinte, alors elle
est nécessairement atteinte pour l’estimateur MMSE ψ = ϕ. b

Exemple 1.6 Soit X et V deux vecteurs aléatoires gaussiens indépendants, de moyenne X̄ et

0, et de matrice de covariance QX et QV , respectivement, et on pose Y = h(X) + V . Si les
matrices de covariance QX et QV sont inversibles, alors on a

p(y | x) ∝ exp{− 21 (y − h(x))∗ Q−1

V (y − h(x)) } ,

et
p(x) ∝ exp{− 21 (x − X̄)∗ Q−1
X (x − X̄) } ,

de sorte que

− log p(x, y) = − log p(y | x) − log p(x)

= 1
2 (y − h(x))∗ Q−1 1 ∗ −1
V (y − h(x)) + 2 (x − X̄) QX (x − X̄) + cste ,

et
∂2
− log p(x, y) = (h′ (x))∗ Q−1 ′ ∗ −1 ′′ −1
V h (x) − (y − h(x)) QV h (x) + QX ,
∂x2
d’où l’expression de la matrice d’information de Fisher

∂2
J = −E[ log p(X, Y )] = E[(h′ (X))∗ Q−1 ′ ∗ −1 ′′ −1
V h (X)] − E[V QV h (X)] + QX
∂x2

= E[(h′ (X))∗ Q−1 ′ −1

V h (X)] + QX ,

compte tenu que

E[V ∗ Q−1 ′′
V h (X)] = 0 .

Dans le cas particulier où l’application h(x) = H x est linéaire, on obtient

J = H ∗ Q−1 −1
V H + QX et J −1 = QX − QX H ∗ (H QX H ∗ + QV )−1 H QX ,

d’après le Lemme A.1 d’inversion matricielle.

1.3. CADRE GAUSSIEN 9

1.3 Cadre gaussien

Dans le cas particulier des vecteurs aléatoires gaussiens, le résultat général obtenu ci–dessus
peut être précisé de la façon suivante.

Proposition 1.7 Soit Z = (X, Y ) un vecteur aléatoire gaussien de dimension m + d, de

moyenne et de matrice de covariance
   
X̄ QX QXY
Z̄ =   et QZ =   ,
Ȳ QY X QY

respectivement. Si la matrice QY est inversible, alors la distribution de probabilité conditionnelle

du vecteur aléatoire X sachant Y = y, est une distribution de probabilité gaussienne de moyenne
b = X̄ + QXY Q−1
X(y) Y (y − Ȳ ) ,

et de matrice de covariance
R = QX − QXY Q−1
Y QY X ,
complément de Schur de la matrice QY dans la matrice–bloc QZ .

Remarque 1.8 Pour simuler un vecteur aléatoire gaussien de dimension m, de moyenne X(y) b
′ ′ ′
et de matrice de covariance R, il suffit de simuler un vecteur aléatoire gaussien Z = (X , Y ) de
dimension m + d, de même moyenne et de même matrice de covariance que Z = (X, Y ), et de
poser
ξ(y) = X ′ + QXY Q−1 ′
Y (y − Y ) .
On vérifie en effet que le vecteur aléatoire ξ(y) ainsi défini est gaussien, comme transformation
affine du vecteur aléatoire gaussien Z ′ , de moyenne

E[ξ(y)] = E[X ′ ] + QXY Q−1 ′ −1 b

Y (y − E[Y ]) = X̄ + QXY QY (y − Ȳ ) = X(y) ,

et de matrice de covariance
b
E[ (ξ(y) − X(y)) b
(ξ(y) − X(y)) ∗
]

−1
= E[ ((X ′ − X̄) − QXY Q−1 ′ ′ ′ ∗
Y (Y − Ȳ )) ((X − X̄) − QXY QY (Y − Ȳ )) ]

= E[ (X ′ − X̄) (X ′ − X̄)∗ ] − E[ (X ′ − X̄) (Y ′ − Ȳ ))∗ ] Q−1

Y QY X

− QXY Q−1 ′ ′ ∗ −1 ′ ′ ∗ −1
Y E[ (Y − Ȳ ) (X − X̄) ] + QXY QY E[ (Y − Ȳ ) (Y − Ȳ ) ] QY QY X

= QX − QXY Q−1 −1 −1 −1
Y QY X − QXY QY QY X + QXY QY QY QY QY X

= QX − QXY Q−1
Y QY X = R ,
10 CHAPITRE 1. INTRODUCTION

compte tenu que

b
ξ(y) − X(y) = X ′ + QXY Q−1 ′ −1
Y (y − Y ) − (X̄ + QXY QY (y − Ȳ ))

= (X ′ − X̄) − QXY Q−1 ′

Y (Y − Ȳ ) ,

par diﬀérence.

Remarque 1.9 On vérifie aisément que

0 ≤ R ≤ QX ,

au sens des matrices symétriques (la majoration est immédiate et la minoration résulte du
Lemme A.3), c’est–à–dire que l’utilisation de l’information supplémentaire Y = y, ne peut que
réduire l’incertitude que l’on a sur le vecteur aléatoire X. En outre, la matrice R ne dépend pas
de y, et peut donc être calculée avant même de disposer de la valeur prise par l’observation Y .

b = X(Y
Remarque 1.10 Soit X b ) l’estimateur du minimum de variance de X sachant Y .
Compte tenu que
b = X̄ + QXY Q−1 (Y − Ȳ ) ,
X Y

b Y ) est un vecteur aléatoire

dépend de façon aﬃne du vecteur aléatoire Y , on en déduit que (X, X,
gaussien, comme transformation aﬃne du vecteur aléatoire gaussien Z = (X, Y ).

Remarque 1.11 Si Y = (Y ′ , Y ′′ ) où les composantes Y ′ et Y ′′ sont indépendantes, alors

   
X̄ QX QXY ′ QXY ′′
   
 ′  
Z̄ =  Ȳ 

 et QZ = 
 QY ′ X QY ′ 0  ,

   
Ȳ ′′ QY ′′ X 0 QY ′′

et si les matrices QY ′ et QY ′′ sont inversibles, alors la distribution de probabilité conditionnelle

du vecteur aléatoire X sachant Y = y, avec y = (y ′ , y ′′ ), est une distribution de probabilité
gaussienne de moyenne

b = X̄ + QXY Q−1
X(y) Y (y − Ȳ )

( ) −1  
QXY ′ QXY ′′ QY ′ 0 y ′ − Ȳ ′
= X̄ +    
0 QY ′′ y ′′ − Ȳ ′′

= X̄ + QXY ′ Q−1 ′ ′ −1 ′′ ′′
Y ′ (y − Ȳ ) + QXY QY ′′ (y − Ȳ ) ,
′′
1.3. CADRE GAUSSIEN 11

et de matrice de covariance

R = QX − QXY Q−1
Y QY X

( ) −1  
QXY ′ QXY ′′ QY ′ 0 QY ′ X
= QX −    
0 QY ′′ QY ′′ X

= QX − QXY ′ Q−1 ′ ′′
−1
Y ′ QY X − QXY QY ′′ QY X .
′′

Exemple 1.12 Soit X et V deux vecteurs aléatoires gaussiens indépendants, de moyenne X̄ et

0, et de matrice de covariance QX et QV , respectivement, et on pose Y = H X + V . Le vecteur
aléatoire Z = (X, Y ) est alors gaussien, de moyenne et de matrice de covariance
   
X̄ QX QX H ∗
Z̄ =   et QZ =   ,
H X̄ H QX H QX H∗ + QV

respectivement. Si la matrice QV est inversible, alors a fortiori la matrice QY = H QX H ∗ + QV

est inversible, et il découle de la Proposition 1.7 que la distribution de probabilité conditionnelle
du vecteur aléatoire X sachant Y , est une distribution de probabilité gaussienne de moyenne

b ) = X̄ + QX H ∗ (H QX H ∗ + QV )−1 (Y − H X̄) ,
X(Y

et de matrice de covariance déterministe

R = QX − QX H ∗ (H QX H ∗ + QV )−1 H QX ,

complément de Schur de la matrice QY = H QX H ∗ +QV dans la matrice–bloc QZ . Pour simuler

un vecteur aléatoire gaussien de dimension m, de moyenne X(Y b ) et de matrice de covariance R, il
découle de la Remarque 1.8 qu’il suﬃt de simuler deux vecteurs aléatoires gaussiens indépendants
X ′ et V ′ , de moyenne X̄ et 0, et de matrice de covariance QX et QV , respectivement, c’est–à–dire
de même moyenne et de même matrice de covariance que X et V respectivement, et de poser

ξ(Y ) = X ′ + QX H ∗ (H QX H ∗ + QV )−1 (Y − (H X ′ + V ′ )) .

Si en outre la matrice QX est inversible, alors il découle du Lemme A.1 d’inversion matricielle
que la matrice R est inversible, et

R−1 = H ∗ Q−1 −1
V H + QX = J ,

d’après l’expression obtenue dans l’Exemple 1.6 pour la matrice d’information de Fisher. Dans
ce cas particulier, la borne de Cramér–Rao a posteriori est donc atteinte, puisque

b ) − X) (X(Y
E[ (X(Y b ) − X)∗ ] = R = J −1 .
12 CHAPITRE 1. INTRODUCTION

Pour finir, on peut montrer directement la relation J = R−1 sans utiliser l’expression obtenue
dans l’Exemple 1.6. En eﬀet, si la matrice R est inversible, ce qui est garanti dès que les matrices
QX et QV sont inversibles, alors on a

b
p(x | y) ∝ exp{− 12 (x − X(y))∗ −1 b
R (x − X(y))} ,

de sorte que
− log p(x | y) = 1 b
(x − X(y))∗ −1 b
R (x − X(y)) + cste ,
2

et
∂2
− log p(x | y) = R−1 ,
∂x2
et on retrouve bien l’expression de la matrice d’information de Fisher

∂2
J = −E[ log p(X | Y )] = R−1 .
∂x2

Preuve de la Proposition 1.7. On pose Ξ = X − QXY Q−1 Y Y , et on vérifie que le vecteur

aléatoire (Ξ, Y ) est gaussien, comme transformation aﬃne du vecteur aléatoire gaussien Z =
(X, Y ). On calcule facilement la moyenne

Ξ̄ = E[Ξ] = X̄ − QXY Q−1

Y Ȳ ,

la matrice de covariance

QΞ = E[(Ξ − Ξ̄) (Ξ − Ξ̄)∗ ]

= E[((X − X̄) − QXY Q−1 −1 ∗

Y (Y − Ȳ )) ((X − X̄) − QXY QY (Y − Ȳ )) ]

= E[(X − X̄) (X − X̄)∗ ] − E[(X − X̄) (Y − Ȳ )∗ ] Q−1

Y QY X

− QXY Q−1 ∗ −1 ∗ −1
Y E[(Y − Ȳ ) (X − X̄) ] + QXY QY E[(Y − Ȳ ) (Y − Ȳ ) ] QY QY X

= QX − QXY Q−1
Y QY X = R ,

et la matrice de corrélation

QΞ Y = E[(Ξ − Ξ̄) (Y − Ȳ )∗ ]

= E[((X − X̄) − QXY Q−1 ∗

Y (Y − Ȳ )) (Y − Ȳ ) ]

= E[(X − X̄) (Y − Ȳ )∗ ] − QXY Q−1 ∗

Y E[(Y − Ȳ ) (Y − Ȳ ) ] = 0 ,

compte tenu que

Ξ − Ξ̄ = (X − X̄) − QXY Q−1
Y (Y − Ȳ ) ,
1.3. CADRE GAUSSIEN 13

par diﬀérence. En particulier, les vecteurs aléatoires gaussiens Ξ et Y sont décorrélés, donc
indépendants. Il suﬃt alors d’exprimer la fonction caractéristique de la distribution de probabi-
lité conditionnelle du vecteur aléatoire X = Ξ + QXY Q−1Y Y sachant Y

E[ exp{i u∗ X} | Y ] = E[ exp{i u∗ (Ξ + QXY Q−1

Y Y )} | Y ]

= exp{i u∗ QXY Q−1 ∗

Y Y } E[ exp{i u Ξ} ]

= exp{i u∗ QXY Q−1 ∗ −1 1 ∗

Y Y } exp{i u (X̄ − QXY QY Ȳ ) − 2 u R u}

b ) − 1 u∗ R u} .
= exp{i u∗ X(Y 2

b ) et de
On reconnait la fonction caractéristique d’un vecteur aléatoire gaussien de moyenne X(Y
matrice de covariance R. 2

Conclusion On voit qu’il est important de disposer d’une information a priori sur l’état
inconnu Xn , par exemple de disposer d’une équation d’état décrivant l’évolution de Xn quand
n varie. On peut considérer deux types de modèles :

• les systèmes linéaires gaussiens,

• les chaı̂nes de Markov à espace d’état fini,

et dans chacun de ces deux cas, il est possible de résoudre exactement le problème de filtrage
de façon optimale, par la mise en œuvre :

• du filtre de Kalman, dans le cas des systèmes linéaires gaussiens,

• des équations forward–backward de Baum, ou de l’algorithme de Viterbi, dans le cas des

chaı̂nes de Markov à état fini.

Ces deux cas peuvent être vus comme des cas particuliers de modèles beaucoup plus généraux :

• les chaı̂nes de Markov à espace d’état quelconque (fini, dénombrable, continu, hybride,
etc.),

et dans ce cas il ne sera pas possible de résoudre exactement le problème de filtrage de façon
optimale, qui s’exprime pourtant très simplement en termes de distributions de Feynman–Kac, et
il faudra avoir recours à la mise en œuvre de méthodes de résolution approchées, en l’occurrence :

• de filtres particulaires, c’est–à–dire de méthodes de Monte Carlo avec interaction.

14 CHAPITRE 1. INTRODUCTION
Chapitre 2

Exemples

2.1 Recalage altimétrique de navigation inertielle

Un avion survole une zone dont le relief est connu : la hauteur h(r) du relief en chaque point de
coordonnée horizontale r est connue, et enregistrée dans une carte numérique.
Dans la suite, la position horizontale de l’avion est notée r, la position verticale, ou altitude,
est notée z, et la vitesse horizontale est notée v. A l’instant 0, la position horizontale initiale
de l’avion est r0 , son altitude initiale est z0 et sa vitesse horizontale initiale est v0 . En réalité,
l’avion se déplace à l’altitude z = z0 constante et à la vitesse horizontale constante v = v0 .

Figure 2.1 – Modèle numérique de terrain, et trajectoire réelle

Pour eﬀectuer la navigation, c’est–à–dire pour permettre à l’avion d’estimer sa propre po-
sition horizontale rk et sa propre vitesse horizontale vk à chaque instant tk , on recueille (au

15
16 CHAPITRE 2. EXEMPLES

moyen d’accéléromètres et de gyroscopes installés à bord) avec un pas de temps ∆ = tk − tk−1 et

jusqu’à l’instant final T , l’accélération horizontale de l’avion avec une erreur additive modélisée
par un bruit blanc gaussien centré de matrice de covariance σINS 2 I2 (on dénote par I2 la matrice
identité de dimension 2 × 2). L’écart–type σINS est une caractéristique supposée connue de la
centrale de navigation inertielle utilisée.
En respectant les caractéristiques statistiques données ci–dessus, la suite aINS
k d’accélérations
bruitées vérifie
aINS
k = ak + wkINS ,
où ak dénote l’accélération réelle de l’avion, ici ak ≡ 0 compte que l’avion se déplace en réalité à
vitesse constante, et où la suite wkINS est un bruit blanc gaussien centré de matrice de covariance
2
σINS I2 .
L’estimation rkINS de la position horizontale exacte rk est obtenue simplement en intégrant
les mesures d’accélération horizontale, à l’aide du modèle d’état suivant
( INS ) ( ) ( INS ) ( ) ( INS ) ( )
rk I2 ∆ I2 rk−1 0 r0 r0
= +∆ avec = .
INS
vkINS 0 I2 vk−1 aINS
k v0INS v0

Si on représente sur le même graphique la position horizontale exacte rk de l’avion et l’esti-

mation inertielle rkINS , pour chaque instant entre 0 et T , on remarque que la trajectoire estimée
s’écarte de la trajectoire réelle, juste parce que les erreurs sur l’estimation de l’accélération
s’accumulent au cours du temps.

Figure 2.2 – Modèle numérique de terrain, trajectoire réelle et trajectoire inertielle

On introduit comme nouvelles variables d’état les erreurs d’estimation inertielle en position
horizontale δrk = rkINS − rk et en vitesse horizontale δvk = vkINS − vk , et le modèle d’état
2.1. RECALAGE ALTIMÉTRIQUE DE NAVIGATION INERTIELLE 17

correspondant est donc donné par

( ) ( ) ( ) ( ) ( ) ( )
δrk I2 ∆ I2 δrk−1 0 δr0 0
= +∆ avec = ,
δvk 0 I2 δvk−1 wkINS δv0 0
où la suite wkINS est un bruit blanc gaussien centré de matrice de covariance σINS
2 I2 .
On se propose dans la suite d’estimer ces nouvelles variables d’état, en exploitant d’autres
mesures, de manière à corriger les estimations inertielles obtenues lors de cette première phase.
Pour corriger la dérive de l’estimation inertielle en position horizontale rkINS par rapport à
la position horizontale exacte rk , on recueille séparément (au moyen d’un radar altimétrique, ou
radio–altimètre, installé à bord) avec le même pas de temps ∆ une mesure dALT
k de la hauteur de
l’avion au–dessus du relief situé à la verticale, avec une erreur additive modélisée par un bruit
blanc gaussien centré de variance σALT 2 . L’écart–type σALT est une caractéristique supposée
connue du radio–altimètre utilisé.
On recueille également (au moyen d’un baromètre altimétrique, ou baro–altimètre, installé
à bord) avec le même pas de temps ∆ une mesure zkBAR de l’altitude de l’avion, avec une erreur
2
additive modélisée par un bruit blanc gaussien centré de variance σBAR . L’écart–type σBAR est
une caractéristique supposée connue du baro–altimètre utilisé.

1
0
11
0
0
1
0
1
0
1
1
00
1
1
00
1
0
1
01
0
1
01
0
1
0
11
0
0
1
0
1
0
1
1
00
1
0
1
01
0
1
0
11
0 hauteur au−dessus du terrain
0
1
0
1
0
1
1
00
1
1
00
1
0
1
0
11
0
0
11
0
0
position verticale 1
0
1
0
1
1
00
1
1
00
1
0
1
0
11
0
0
1
0
1
0
1
1
00
1
0
1
0
11
0
0
1
0
1
0
1
01
0
1
1
00
1
0 terrain
1
0
11
0
0
1
01
0
1
01
0 altitude du terrain
1
01
0
01
10
niveau zéro

Figure 2.3 – Principe du recalage altimétrique

A chaque instant tk , le radio–altimètre fournit une mesure bruitée dALT

k de la distance entre
l’avion et le relief, c’est–à–dire
dALT
k = (zk − h(rk )) + wkALT ,
où rk dénote la position horizontale réelle de l’avion, où zk dénote l’altitude réelle de l’avion, où
h(rk ) dénote la hauteur du relief au point de coordonnée horizontale rk , et où la suite wkALT est
18 CHAPITRE 2. EXEMPLES

2
un bruit blanc gaussien centré de variance σALT . Au même instant tk , le baro–altimètre fournit
BAR
une mesure bruitée zk de l’altitude de l’avion, c’est–à–dire
zkBAR = zk + wkBAR ,
où zk dénote l’altitude réelle de l’avion, et où la suite wkBAR est un bruit blanc gaussien centré de
2
variance σBAR . La hauteur du relief survolé à l’instant tk déduite à partir des mesures fournies
par le radio–altimètre et par le baro–altimètre est donc
hALT
k = zkBAR − dALT
k = h(rk ) + wkBAR − wkALT ,
et peut être reliée à l’erreur de position inertielle horizontale δrk par
hALT
k = h(rkINS − δrk ) + wkBAR − wkALT .

6600

6500

6400

6300

6200

6100

6000

5900

5800

5700

5600
0 10 20 30 40 50 60 70 80 90 100

Figure 2.4 – Profil réel du terrain survolé et mesures altimétriques

En résumé, le modèle d’état utilisé pour le recalage altimétrique de navigation inertielle com-
prend :

• l’équation d’état
( ) ( ) ( ) ( )
δrk I2 ∆ I2 δrk−1 0
= +∆ ,
δvk 0 I2 δvk−1 wkINS
2
où la suite wkINS est un bruit blanc gaussien centré de variance σINS I2 ,
• la condition initiale
( ) ( )
δr0 σr20 I2 0
gaussienne, centrée, de matrice de covariance ,
δv0 0 σv20 I2
2.2. SUIVI VISUEL PAR HISTOGRAMME DE COULEUR 19

• et l’équation d’observation

hALT
k = h(rkINS − δrk ) + wkBAR − wkALT .

où la suite wkALT est un bruit blanc gaussien centré de variance σALT
2 , et où la suite wkBAR
2
est un bruit blanc gaussien centré de variance σBAR .

L’estimation inertielle horizontale rkINS fournie par la centrale inertielle, et la mesure hALT
k de
la hauteur du relief fournie par le radio–altimètre et par le baro–altimètre sont disponibles. La
fonction r 7→ h(r) n’est pas connue de façon analytique, mais définie point–par–point en allant
lire la carte numérique.

2.2 Suivi visuel par histogramme de couleur

On souhaite réaliser un algorithme de suivi dans une séquence d’images numériques couleur. A
la lecture de la première image de la séquence, l’utilisateur sélectionne une zone de l’image, et
le suivi s’eﬀectue de façon séquentielle sur l’ensemble de la séquence, voir Figure 2.5.

...
initialisation image 2 image 3 image 10

Figure 2.5 – Suivi d’un visage dans une séquence de 10 images

La méthode est construite sur l’algorithme SIR (souvent appelé algorithme condensation,
pour conditional density propagation, en vision par ordinateur). Elle repose sur l’hypothèse que
l’histogramme de couleur de la zone à suivre est constant le long de la séquence. Pour avoir plus
d’informations sur cette méthode de suivi visuel, on pourra lire [20].

Introduction aux images numériques

On désigne sous le terme d’image numérique toute image (dessin, icône, photographie, etc.)
acquise, créée, traitée ou stockée sous forme binaire. On distingue généralement deux grandes
catégories d’images :

• les images vectorielles, dont la description informatique est composée d’objets géométriques
individuels (segments de droite, polygones, arcs de cercle, etc.), chacun définis par divers
attributs de forme, de position, de couleur, etc.

• les images matricielles, représentées par un tableau à deux dimensions dont chaque case
est un pixel (mot dérivé de l’anglais picture element, élément d’image). A chaque pixel
est associée une ou plusieurs valeurs décrivant son niveau de gris ou sa couleur.
20 CHAPITRE 2. EXEMPLES

Les images vectorielles sont utilisées essentiellement pour du graphisme ou en CAO. Lorsque
l’on s’interesse au traitement d’images et à la vision par ordinateur, la représentation utilisé est
la forme matricielle. Il existe plusieurs standards de codage de la couleur :

bitmap noir et blanc : en stockant un bit dans chaque case, il est possible de définir deux
couleurs (noir ou blanc).

bitmap 256 niveaux de gris : en stockant un octet dans chaque case, il est possible de définir
256 dégradés de gris allant du noir au blanc

palette de couleurs (colormap) : grâce à cette méthode, il est possible de définir une palette,
ou table des couleurs, contenant l’ensemble des couleurs pouvant être contenues dans
l’image, à chacune desquelles est associé un indice. Le nombre de bits réservé au codage
de chaque indice de la palette détermine le nombre de couleurs pouvant être utilisées. On
appelle ainsi image en couleurs indexées une image dont les couleurs sont codées selon
cette technique.

couleurs vraies (true color) : le codage de la couleur est réalisé sur trois octets, chaque
octet représentant la valeur d’une composante couleur par un entier de 0 à 255. Ces trois
valeurs codent généralement la couleur dans l’espace RVB (rouge, vert, bleu), mais d’autres
espaces de couleurs peuvent être utilisé. Le nombre de couleurs diﬀérentes pouvant être
ainsi représentées est de 256 x 256 x 256 possibilités, soit près de 16 millions de couleurs.

Une image numérique est avant tout un signal 2D. D’un point de vue mathématique, on considère
l’image comme une fonction de R × R dans Ω où le couplet d’entrée est une position spatiale
sur la grille des pixels, et où Ω est l’espace des valeurs de codage de la couleur (ou du niveau
de gris). Par extension, on parlera d’images en dimension 2D+t (t pour le temps) pour désigner
une séquence d’images numériques (ou vidéo numérique).

Remarque 2.1 Etant donné que l’écran eﬀectue un balayage de gauche à droite et de haut en
bas, on désigne généralement par les coordonnées (0, 0) le pixel situé en haut à gauche de l’image,
ce qui signifie que les axes de l’image sont orientés de la façcon suivante : l’axe X est orienté de
gauche à droite, l’axe Y est orienté de haut en bas, contrairement aux notation conventionnelles
en mathématiques, où l’axe Y est orienté vers le haut.

Principe de l’algorithme de suivi visuel

Le but de cet algorithme est de suivre une région d’intérêt dans une séquence d’images. Cette
région est initialisée par l’utilisateur et sa forme est fixée a priori. On considèrera ici un rectangle,
paramétré par la position, en pixel, du centre du rectangle d = (x, y) et un paramètre d’échelle
s. Au pas de temps k (i.e. à l’image k), l’état du système à estimer sera donc Xk = (dk , sk ). Le
paramètre d’échelle permet de suivre un objet même si celui-ci avance ou s’éloigne dans l’axe
de la caméra (eﬀet de zoom). A l’initialisation, l’utilisateur clique 4 points dans l’image, qui
vont définir le rectangle initial. Celui-ci est décrit par les coordonnées du point haut/gauche,
une largeur et une hauteur.
2.2. SUIVI VISUEL PAR HISTOGRAMME DE COULEUR 21

Équation d’état On s’intéresse à la situation où aucune information a priori n’est disponible
sur la nature de l’objet suivi. Dans ce cas, l’équation dynamique du système doit être peu
informative. On supposera donc un modèle à position constante

Xk = Xk−1 + Wk ,

où Wk est un bruit blanc gaussien, centré en 0 et de matrice de covariance C, matrice 3 × 3

diagonale. Les valeurs sur la diagonale sont c1 , c2 et c3 . Notons que si la nature de l’objet suivi
est connu, il est plus intéressant d’utiliser un modèle dynamique approprié. Par exemple, on
pourrait imaginer utiliser un modèle à vitesse constante pour le suivi d’une voiture dans une
vidéo acquise par une caméra sur autoroute.

Modèle de couleur La zone initiale à suivre est caractérisée par un histogramme de couleur.
Cet histogramme de référence est construit sur les N b couleurs les plus représentatives de cette
zone, comme montré sur la Figure 2.6. Cet histogramme de référence est noté q ∗ = {q ∗ (n) , n =
1, · · · , N b}, où q ∗ (n) représente le nombre normalisé de pixels de la zone initiale dont la couleur
∑
Nb
la plus proche est la couleur n. On a q ∗ (n) = 1. Pour plus d’informations sur les diﬀérents
n=1
espaces de couleur, on pourra se reporter à la page color space sous Wikipedia.

Figure 2.6 – Zone de l’image à suivre et histogramme de couleur associé pour N b = 64

Comme décrit précédement, le but est de suivre une zone de l’image le long de la séquence,
sous l’hypothèse que son histogramme de couleur est invariant dans le temps. Au temps k,
l’histogramme de couleur qk (x) d’un état hypothèse x sera comparé au modèle de couleur de
référence q ∗ , et on définit la mesure de distance D entre ces deux histogrammes de couleur
normalisés
∑
Nb √
D(q ∗ , qk (x)) = ( 1 − q ∗ (n) qk (x, n) )1/2 ,
n=1

Pour favoriser les états hypothèses dont l’histogramme de couleur associé est proche de l’histo-
gramme de référence, on introduit la fonction de pondération

gk (x) ∝ exp{−λ D2 (q ∗ , qk (x))} .

22 CHAPITRE 2. EXEMPLES

2.3 Poursuite d’une cible furtive (track–before-detect)

Une image radar est constituée par un tableau rectangulaire de p × p pixels, où l’intensité de
l’écho recueilli en un point est codée par un niveau de gris allant du plus foncé (écho de faible in-
tensité) au plus clair (écho de forte intensité). La même situation se rencontre avec un dispositive
opto–électronique, comme une caméra matricielle, où chaque pixel reçoit et affiche une intensité
lumineuse différente. En principe, si une cible est présente dans la scène 3D visée, elle apparaı̂tra
dans le plan–image sous la forme d’un pixel plus clair (ou d’un groupe de pixels adjacents plus
clairs) que les autres pixels de l’image, lesquels correspondent à l’écho d’objets secondaires de
moindre intensité et/ou à un bruit spatial, indépendant ou bien spatialement corrélé d’un pixel
à l’autre. Pour détecter (et localiser) la cible, il suffit en principe de rechercher dans l’image le
pixel (ou le groupe de pixels adjacents) le plus clair, c’est–à–dire de plus forte intensité. Au lieu
d’une recherche exhaustive, on utilise souvent une méthode de seuillage : rechercher les pixels
d’intensité supérieure à un seuil bien choisi, permet souvent d’obtenir directement le pixel de
plus forte intensité. En répétant cette opération pour chaque image successivement on peut ainsi
détecter d’abord, puis suivre, la cible dans une séquence d’images.

observation, frame #7 avec la position réelle

100 100

50 50

0 0

−50 −50

−100 −100
−100 −50 0 50 100 −100 −50 0 50 100

histogramme des intensités détection, seuil = 2 sigma

80 100

60 50

40 0

20 −50

0 −100
−1 0 1 2 −100 −50 0 50 100

Figure 2.7 – Image observée, position réelle, histogramme, détection (cible visible)

On s’intéresse ici au cas d’une cible furtive, caractérisée par un écho de très faible intensité,
c’est–à–dire d’une intensité du même ordre de grandeur que l’intensité caractéristique du bruit
présent dans l’image, voire même d’un ordre de grandeur inférieur. Dans ce cas, une méthode de
seuillage est ineﬃcace : quel que soit le seuil choisi, rechercher les pixels d’intensité supérieure au
seuil ne permet plus d’isoler la cible au milieu du bruit. Même un opérateur humain est incapable,
sur une image isolée, de détecter la présence et la position de la cible. En revanche, un opérateur
2.3. POURSUITE D’UNE CIBLE FURTIVE (TRACK–BEFORE-DETECT) 23

humain est capable dans certains cas de suivre la cible dans une séquence d’images, comme une
succession de pixels (un dans chaque image de la séquence) animés d’un mouvement cohérent
au milieu de l’agitation incoordonnée des autres pixels. En quelque sorte, l’œil humain suit la
cible sans jamais la détecter vraiment : c’est ce genre de performance qu’il s’agit de reproduire
ici de manière algorithmique, connue sous le terme de track–before–detect, en s’appuyant sur un
modèle a priori pour le déplacement de la cible, qui favorise le mouvement cohérent de pixels
entre des images successives.

observation, frame #3 avec la position réelle

100 100

50 50

0 0

−50 −50

−100 −100
−100 −50 0 50 100 −100 −50 0 50 100

histogramme des intensités détection, seuil = 2 sigma

40 100

30 50

20 0

10 −50

0 −100
−2 −1 0 1 2 −100 −50 0 50 100

Figure 2.8 – Image observée, position réelle, histogramme, détection (cible furtive)

Chaque image peut se représenter comme un champ aléatoire (Yk (s) , s ∈ S) où l’indice s ∈ S
désigne le pixel ou de manière équivalente le site d’un réseau bi–dimensionnel. Par hypothèse,
l’intensité observée au pixel s ∈ S se décompose comme

Yk (s) = I(rk , s) + Bk (s) ,

c’est–à–dire comme la somme de l’intensité due à la présence de la cible à la position (inconnue)

rk et de l’intensité due au bruit seulement. L’intensité au point s ∈ S due à la présence de
la cible à la position r est modélisée par une fonction d’étalement ponctuelle (ou point spread
function, PSF)
δ2 |r(s) − r|2
I(r, s) = I0 2 exp{− 2 } 1(s ∈ C(r)) ,
2 π σPSF 2 σPSF
où r(s) désigne la position dans l’espace physique du centre du pixel s, où δ > 0 désigne la
taille du pixel dans l’espace physique, et où l’ensemble C(r) désigne le voisinage à 9 points
dans l’espace–image autour du pixel contenant le point de position r dans l’espace physique.
24 CHAPITRE 2. EXEMPLES

L’intensité due au bruit seulement est modélisée comme un champ aléatoire gaussien (Bk (s) , s ∈
S) centré, de variance σB2 en tout pixel s ∈ S et décorrélé spatialement, c’est–à–dire

E[Bk (s)] = 0 et E[Bk (s) Bk (s′ )] = σB

2
1(s = s′ ) .

On définit le rapport signal à bruit (ou signal to noise ratio, SNR) en decibel, comme
I0
SNR = 20 log10 .
σB
On pose ici (par convention) I0 = 1 de sorte qu’un rapport signal à bruit de 20 dB correspond
à σB = 0.1 tandis qu’un rapport signal à bruit de 0 dB correspond à σB = 1.
La fonction de vraisemblance est donnée à une constante multiplicative près par l’expression,
en fonction de la variable r, de la densité du champ aléatoire observé (Yk (s) , s ∈ S) quand la
cible occupe la position r dans l’espace physique. On a donc par définition
1 ∑
gk (r) = exp{− 2 |Yk (s) − I(r, s)|2 } ,
2 σB
s∈S

et on remarque que
1 ∑ 1 ∑
gk (r) = exp{ 2 I(r, s) Yk (s) − 2 |I(r, s)|2 } ,
σB 2 σB
s∈C(r) s∈C(r)

à une constante multiplicative près, de sorte que le calcul porte seulement sur les 9 pixels du
voisinage C(r), et pas sur l’ensemble S de tous les pixels.
Le modèle a priori pour l’évolution de la cible est donné par le modèle d’état suivant
( ) ( ) ( ) ( )
rk I2 ∆ I2 rk−1 √ 0
= + σ ∆ ,
vk 0 I2 vk−1 wk

où wk est un vecteur aléatoire gaussien centré de matrice de covariance I2 , où la position initiale
r0 est distribuée uniformément dans l’espace physique défini ci–dessus, et où la vitesse initiale
v0 est distribuée uniformément dans le domaine délimité en module par vmin ≤ |v0 | ≤ vmax et
en orientation par [0, 2 π).
Sur chaque image, on peut rechercher le pixel de plus forte intensité observée, ou bien mettre
en œuvre une méthode de seuillage pour détecter les pixels d’intensité supérieure au seuil choisi.
On peut aussi extraire l’histogramme des intensités observées aux différents pixels de l’image.
Si le rapport signal à bruit est trop faible, alors une simple détection image par image s’avère
inefficace. On peut en revanche considérer les images successives comme des observations (ma-
tricielles), et mettre en œuvre un algorithme de filtrage pour effectuer directement le suivi.

2.4 Navigation en environnement intérieur

Un utilisateur se déplace à l’intérieur d’un bâtiment dont le plan est disponible sous la forme
d’une carte numérique. L’utilisateur est caractérisé à l’instant tk
2.4. NAVIGATION EN ENVIRONNEMENT INTÉRIEUR 25

• par sa position rk (un point du plan hors des zones noires),

• par son orientation θk (un vecteur unitaire, ou un angle) par rapport à la direction de
référence correspondant au vecteur unitaire u = (1, 0), dirigé vers la droite sur la carte.

Un exemple de trajectoire admissible, c’est–à–dire ne rencontrant pas les obstacles (représentés

par les zones noires), est représenté sur la Figure 2.9.

100
0 25 50 75 100 125 150

Figure 2.9 – Exemple de trajectoire admissible

Le segment numéro k, joignant les positions rk et rk+1 occupées par l’utilisateur aux instants
tk et tk+1 respectivement, peut être caractérisé de la manière équivalente

• par son origine rk , qui s’interprète comme la position de l’utilisateur à l’instant tk ,

• par sa longueur dk = |rk+1 − rk |, qui peut s’interpréter comme la distance parcourue par
l’utilisateur entre les instants tk et tk+1 ,

• et par son orientation θk (déja mentionnée), qui peut être définie de manière équivalente
par le vecteur unitaire uk = (rk+1 − rk )/dk ,

et on dénote par αk = θk − θk−1 le changement d’orientation entre le segment numéro (k − 1)

et le segment numéro k, qui peut s’interpréter comme une rotation eﬀectuée par l’utilisateur à
l’instant tk .
Pour eﬀectuer la navigation, c’est–à–dire pour permettre à l’utilisateur d’estimer sa propre
position à chaque instant, celui–ci est équipé d’un module de navigation à l’estime (ou module
PNS, pour pedestrian navigation system), qui fournit
26 CHAPITRE 2. EXEMPLES

• une mesure α bk de la rotation eﬀectuée par l’utilisateur à l’instant tk , avec une incertitude
caractérisée par un bruit gaussien additif de moyenne nulle et de variance σturn 2 ,

• et une mesure dbk de la distance parcourue par l’utilisateur entre les instants tk et tk+1 , avec
une incertitude caractérisée par un bruit gaussien additif de moyenne nulle et de variance
2
σwalk .

En d’autres termes

bk = αk + wkturn
α (modulo 2π) et dbk = dk + wkwalk , (2.1)

où wkwalk et wkturn sont deux variables aléatoires gaussiennes indépendantes, de moyenne nulle et
2
de variance σwalk 2 , respectivement.
et σturn
Les mesures bruitées db1 , · · · , dbnmax−1 et α
b1 , α
b2 , · · · , α
bnmax−1 (avec la convention α
b1 = 0) sont
recueillies par l’utilisateur le long de la trajectoire. À partir de ces mesures PNS incrémentales
bruitées, et à partir d’estimations de la position initiale r1 et de l’orientation initiale θ1 inconnues,
on peut essayer de reconstruire la position et l’orientation de l’utilisateur à chaque instant, par
intégration

θkPNS = θk−1
PNS
bk
+α (modulo 2π) et PNS
rk+1 = rkPNS + dbk u(θkPNS ) ,

où u(θ) = (cos θ, sin θ) désigne le vecteur unitaire associé à l’angle θ. La trajectoire estimée à
partir des mesures PNS seulement est représentée sur la Figure 2.10.

100
0 25 50 75 100 125 150

Figure 2.10 – Trajectoire estimée à partir des mesures PNS seulement

On remarque que la trajectoire estimée s’écarte de la trajectoire réelle, juste parce que les
erreurs sur les mesures PNS incrémentales s’accumulent au cours du temps.
2.4. NAVIGATION EN ENVIRONNEMENT INTÉRIEUR 27

Pour corriger la dérive de la trajectoire estimée à partir des mesures PNS seulement, l’idée
consiste à recueillir séparément des mesures fournies par d’autres capteurs. Dans la solution
proposée ici, à l’intérieur du bâtiment sont disposées des balises de ranging identiques, dont les
positions sont connues. Chaque balise est caractérisée par sa portée R, de sorte que

• tout utilisateur se trouvant à une distance inférieure à R par rapport à une balise est
détecté par cette balise,

• et symétriquement, tout utilisateur se trouvant à une distance supérieure à R par rapport

à une balise n’est pas détecté par cette balise.

100
0 25 50 75 100 125 150

Figure 2.11 – Balises de ranging à portée limitée

En outre, si une balise détecte un utilisateur alors une mesure de la distance entre l’utilisateur
et cette balise est également disponible, avec une incertitude caractérisée par un bruit gaussien
2
additif de moyenne nulle et de variance σrange . Les éventuelles détections et mesures de distance
bruitées sont recueillies par l’utilisateur le long de la trajectoire, et sont disponibles pour le
reclalage de navigation.
28 CHAPITRE 2. EXEMPLES

Figure 2.12 – Détection par une balise de ranging

Pour réaliser le recalage de navigation, on dispose des informations suivantes

• un modèle a priori pour l’évolution de la position et de l’orientation de l’utilisateur, uti-

lisant les mesures PNS incrémentales bruitées définies en (2.1),

• une fonction de vraisemblance associée à chaque balise active, c’est–à–dire à chaque balise
déclenchée par l’utilisateur,

et on peut également prendre en compte

• la détection (ou la non–détection) de l’utilisateur par une balise,

• et les contraintes sur l’évolution de l’utilisateur dues à la présence d’obstacles, typiquement

les murs et cloisons intérieures du bâtiment, information disponible à partir de la carte
numérique.
Chapitre 3

Filtrage de Kalman

Le problème de filtrage (en temps discret) se présente en général de la manière suivante : on

considère {Xk }, un processus (dont les caractéristiques statistiques sont connues) représentant
l’état d’un système non observé. A l’instant k, on recueille une observation Yk qui est formée
d’un signal (i.e. une fonction h(Xk ) de l’état Xk ) et d’un bruit additif
Yk = h(Xk ) + Vk .
Les caractéristiques statistiques du bruit de mesure {Vk } sont également supposées connues.
A l’instant k, on dispose de l’information Y0:k = (Y0 , · · · , Yk ) et le but est d’obtenir le plus
d’information possible sur l’état du système Xk (on veut, par exemple, pouvoir calculer un
estimateur Xbk de Xk ). On a vu à la Section 1.2 que la solution consiste à calculer la distribution
de probabilité conditionnelle de la variable aléatoire Xk sachant Y0:k .
Dans le cas des systèmes décrits à la Section 3.1, le cadre est gaussien et l’évolution de
cette distribution de probabilité conditionnelle (déterminée par sa moyenne et sa matrice de
covariance) est régie par les équations du filtre de Kalman, présentées à la Section 3.2 et très
simples à mettre en œuvre. Dans tous les autres cas, par exemple dans le cas des systèmes
non–linéaires avec des bruits non gaussiens, ou dans le cas de modèles encore plus généraux qui
seront introduits au Chapitre 5, l’évolution de cette distribution de probabilité conditionnelle
est determinée par un tout autre type d’équations, qui seront décrites au Chapitre 7 et dont
la mise–en–oeuvre pratique sera présentée au Chapitre 10. Les techniques développées dans le
cas linéaire peuvent parfois s’étendre au cas non linéaire par des méthodes de linéarisation,
présentées à la Section 4.1. Les filtres ainsi obtenus sont très souvent utilisés en pratique mais
ont parfois des performances peu satisfaisantes.

3.1 Systèmes linéaires gaussiens

On considère une suite d’états cachés {Xk } à valeurs dans Rm , vérifiant

Xk = Fk Xk−1 + fk + Wk , (3.1)
et une suite d’observations {Yk } à valeurs dans Rd , vérifiant
Yk = Hk Xk + hk + Vk , (3.2)

29
30 CHAPITRE 3. FILTRAGE DE KALMAN

et on suppose que

• la condition initiale X0 est gaussienne, de moyenne X̄0 et de matrice de covariance QX

0 ,

• la suite {Wk } est un bruit blanc gaussien, de matrice de covariance QW

k ,

• la suite {Vk } est un bruit blanc gaussien, de matrice de covariance QVk ,

• les suites {Wk } et {Vk } et la condition initiale X0 sont mutuellement indépendants.

La signification du modèle (3.1) est la suivante

• même si l’état Xk−1 = x est connu exactement à l’instant (k − 1), on peut seulement dire
que l’état Xk à l’instant k est incertain, et distribué comme un vecteur aléatoire gaussien,
de moyenne Fk x + fk et de matrice de covariance QW k ,

• si l’état Xk−1 est incertain à l’instant (k − 1), et distribué comme un vecteur aléatoire
gaussien, de moyenne X̄k−1 et de matrice de covariance QX k−1 , alors cette incertitude se
propage à l’instant k : même en absence de bruit, c’est–à–dire même si Gk = 0, l’état Xk
à l’instant k est incertain, et distribué comme un vecteur aléatoire gaussien, de moyenne
Fk X̄k−1 + fk et de matrice de covariance Fk QX ∗
k−1 Fk .

Proposition 3.1 La suite {Zk = (Xk , Yk )} est une suite gaussienne à valeurs dans Rm+d .

Preuve. Comme sortie d’un système linéaire à entrées gaussiennes, la suite {Zk } est un proces-
sus aléatoire gaussien. En effet, pour tout instant n, le vecteur aléatoire (Z0 , Z1 , · · · , Zn ) peut
s’exprimer comme transformation affine du vecteur aléatoire (X0 , W1 , · · · , Wn , V0 , V1 , · · · , Vn )
qui par hypothèse est un vecteur aléatoire gaussien, donc le vecteur aléatoire (Z0 , Z1 , · · · , Zn )
est gaussien, comme transformation affine d’un vecteur aléatoire gaussien. 2

Remarque 3.2 Si les coeﬃcients dépendent des observations passées, on parle de système
conditionnellement linéaire gaussien : on considère ainsi une suite d’états cachés {Xk } à va-
leurs dans Rm , vérifiant

Xk = Fk (Y0:k−1 ) Xk−1 + fk (Y0:k−1 ) + Gk (Y0:k−1 ) Wk ,

où la suite {Wk } prend ses valeurs dans Rp , et une suite d’observations {Yk } à valeurs dans Rd ,
vérifiant
Yk = Hk (Y0:k−1 ) Xk + hk (Y0:k−1 ) + Vk ,
et on suppose que

• la condition initiale X0 est gaussienne, de moyenne X̄0 et de matrice de covariance QX

0 ,

• la suite {Wk } est un bruit blanc gaussien, de matrice de covariance identité,

• la suite {Vk } est un bruit blanc gaussien, de matrice de covariance QVk ,

3.2. FILTRE DE KALMAN 31

• les suites {Wk } et {Vk } et la condition initiale X0 sont mutuellement indépendants.

Dans ce cas, la suite {Zk = (Xk , Yk )} n’est en général pas une suite gaussienne, mais on peut
vérifier que conditionnellement à Y0:k−1

• le vecteur aléatoire WkCLG = Gk (Y0:k−1 ) Wk est gaussien centré, de matrice de covariance

conditionnelle QW ∗
k (Y0:k−1 ) = Gk (Y0:k−1 ) Gk (Y0:k−1 ),

• le couple (Xk , Yk ) forme conjointement un vecteur aléatoire gaussien.

3.2 Filtre de Kalman

On considère un système linéaire du type (3.1) (3.2), c’est–à–dire

Xk = Fk Xk−1 + fk + Wk , (3.3)

Yk = Hk Xk + hk + Vk , (3.4)

avec les hypothèses faites à la Section 3.1. A l’instant k, on dispose de l’information

Y0:k = (Y0 , Y1 , · · · , Yk ) .

L’objectif est d’estimer de façon optimale et récursive le vecteur aléatoire Xk à partir de Y0:k .
Si on adopte le critère du minimum de variance, il s’agit d’après la Section 1.2 de calculer la
distribution de probabilité conditionnelle du vecteur aléatoire Xk sachant Y0:k . Comme le cadre
est gaussien, il suﬃt de calculer la moyenne et la matrice de covariance

bk = E[Xk | Y0:k ]
X et bk ) (Xk − X
Pk = E[(Xk − X bk )∗ | Y0:k ] .

On définit également les quantités suivantes

b − = E[Xk | Y0:k−1 ]
X et b − ) (Xk − X
Pk− = E[(Xk − X b − )∗ | Y0:k−1 ] .
k k k

D’après la Remarque 1.9, les matrices de covariances conditionnelles Pk et Pk− ne dépendent pas
des observations, c’est–à–dire que

bk ) (Xk − X
Pk = E[(Xk − X bk )∗ ] et b − ) (Xk − X
Pk− = E[(Xk − X b − )∗ ] .
k k

Supposons connue la distribution de probabilité conditionnelle du vecteur aléatoire Xk−1

sachant Y0:k−1 . Pour calculer la distribution de probabilité conditionnelle du vecteur aléatoire
Xk sachant Y0:k , on procède en deux étapes :

• dans l’étape de prédiction, on calcule la distribution de probabilité conditionnelle du

vecteur aléatoire Xk sachant les observations passées Y0:k−1 , ce qui est facile à partir
de (3.3),
32 CHAPITRE 3. FILTRAGE DE KALMAN

• dans l’étape de correction, on utilise la nouvelle observation Yk , et en particulier, on

considère la composante de l’observation Yk qui apporte une information nouvelle par
rapport aux observations passées Y0:k−1 , c’est–à–dire

Ik = Yk − E[Yk | Y0:k−1 ] ,

et d’après (3.4), on a
b − + hk ) ,
Ik = Yk − (Hk E[Xk | Y0:k−1 ] + hk + E[Vk | Y0:k−1 ]) = Yk − (Hk X k

compte tenu que Vk et Y0:k−1 sont indépendants.

Remarque 3.3 Par définition, toute fonction des variables (Y0 , · · · , Yk−1 , Yk ) peut s’exprimer
en fonction des variables (Y0 , · · · , Yk−1 , Ik ), et réciproquement. On en déduit que (Y0:k−1 , Ik )
contient exactement la même information que Y0:k .

Lemme 3.4 Le processus {Ik } est un processus gaussien à valeurs dans Rd , appelé processus
d’innovation. En particulier, le vecteur aléatoire Ik est gaussien, de moyenne nulle et de matrice
de covariance
QIk = Hk Pk− Hk∗ + QVk ,
b − , Ik ) est gaussien, de
et indépendant de Y0:k−1 . Plus généralement, le vecteur aléatoire (Xk − X k
moyenne nulle et de matrice de covariance
 
Pk− Pk− Hk∗
  ,
− − ∗ V
Hk Pk Hk Pk Hk + Qk

et indépendant de Y0:k−1 .

Preuve. D’après la Remarque 1.10, l’observation prédite E[Yk | Y0:k−1 ] dépend de façon af-
fine des observations passées (Y0 , Y1 , · · · , Yk−1 ), de sorte que l’innovation Ik dépend de façon
affine des observations (Y0 , Y1 , · · · , Yk ). On en déduit que le vecteur aléatoire (I0 , I1 , · · · , Ik ) est
gaussien, comme transformation affine d’un vecteur aléatoire gaussien.
Toujours d’après la Remarque 1.10, l’état prédit X b − = E[Xk | Y0:k−1 ] dépend de façon affine
k
des observations passées (Y0 , · · · , Yk−1 ), de sorte que le vecteur aléatoire (Y0 , · · · , Yk−1 , Xk −
Xb − , Ik ) dépend de façon affine du vecteur (Y0 , Y1 , · · · , Yk , Xk ) formé de l’état courant Xk et
k
des observations (Y0 , Y1 , · · · , Yk ). On en déduit que le vecteur aléatoire (Y0 , · · · , Yk−1 , Xk −
Xb − , Ik ) est gaussien, et donc a fortiori le vecteur aléatoire (Xk − X b − , Ik ) est gaussien, comme
k k
transformation affine d’un vecteur aléatoire gaussien. Compte tenu que
b − | Y0:k−1 ] = 0
E[Xk − X et E[Ik | Y0:k−1 ] = 0 ,
k

b − , Ik ) est indépendant de Y0:k−1 .

par définition, on en déduit que le vecteur aléatoire (Xk − X k
D’après l’équation (3.4), on a
b − + hk ) = Hk (Xk − X
Ik = Yk − (Hk X b − ) + Vk , (3.5)
k k
3.2. FILTRE DE KALMAN 33

et on en déduit que
QIk = E[Ik Ik∗ ]

b − ) + Vk ) (Hk (Xk − X
= E[(Hk (Xk − X b − ) + Vk )∗ ]
k k

b − ) (Xk − X
= Hk E[(Xk − X b − )∗ ] H ∗ + E[Vk V ∗ ]
k k k k

b − )∗ ] H ∗ + Hk E[(Xk − X
+ E[Vk (Xk − X b −) V ∗]
k k k k

= Hk Pk− Hk∗ + QVk .

b − ) est indépendant de Vk , donc
Dans cette dernière égalité, on a utilisé le fait que (Xk − Xk
b ) V ∗ ] = 0. On déduit également de (3.5) que
E[(Xk − X −
k k
b − ) I ∗ ] = E[(Xk − X
E[(Xk − X b − ) (Hk (Xk − X
b − ) + Vk )∗ ]
k k k k

b − ) (Xk − X
= E[(Xk − X b − )∗ ] H ∗ + E[(Xk − X
b −) V ∗]
k k k k k

= Pk− Hk∗ .
b − ) est indépendant de
Dans cette dernière égalité, on a de nouveau utilisé le fait que (Xk − Xk
Vk , donc E[(Xk − Xb − ) V ∗ ] = 0. 2
k k

Remarque 3.5 Si la matrice de covariance QVk est inversible, alors a fortiori la matrice de
covariance QIk = Hk Pk− Hk∗ + QVk est inversible, pour tout instant k.

Remarque 3.6 Compte tenu que la distribution de probabilité conditionnelle du vecteur aléa-
toire Yk sachant Y0:k−1 est gaussienne, de moyenne Hk X b − + hk et de matrice de covariance QI ,
k k
et pourvu que la matrice QIk soit inversible, on obtient l’expression suivante
∏
n
Ln = b − + hk ))∗ (QI )−1 (Yk − (Hk X
exp{− 12 (Yk − (Hk X b − + hk )) }
k k k
k=0

∏
n
= exp{− 21 Ik∗ (QIk )−1 Ik } ,
k=0

pour la vraisemblance du modèle, à une constante multiplicative près.

Théorème 3.7 (Filtre de Kalman) On suppose que la matrice de covariance QVk est inver-
bk } et {Pk } vérifient les équations récurrentes
sible, pour tout instant k. Alors les suites {X
suivantes
b − = Fk X
X bk−1 + fk ,
k

Pk− = Fk Pk−1 Fk∗ + QW

k ,
34 CHAPITRE 3. FILTRAGE DE KALMAN

et
X b − + Kk (Yk − (Hk X
bk = X b − + hk )) ,
k k

Pk = (I − Kk Hk ) Pk− ,
où la matrice
Kk = Pk− Hk∗ [Hk Pk− Hk∗ + QVk ]−1 ,
est appelée gain de Kalman, et avec les initialisations
b − = X̄0 = E[X0 ]
X et P0− = QX
0 = cov(X0 ) .
0

Remarque 3.8 Au vu de l’expression développée

Pk = Pk− − Pk− Hk∗ [Hk Pk− Hk∗ + QVk ]−1 Hk Pk− ,
on vérifie aisément que Pk ≤ Pk− , c’est–à–dire que la matrice de covariance de l’erreur de filtrage
est plus petite (au sens des matrices symétriques) que la matrice de covariance de l’erreur de
prédiction, pour tout instant k.

Remarque 3.9 On vérifie que la suite {Pk } ne dépend pas des observations : elle peut donc être
pré–calculée, en particulier dans le cas simple où les coeﬃcients Fk = F , Hk = H, QWk = QW
et QVk = QV sont constants.

Remarque 3.10 Si les coeﬃcients Fk , fk et QW k , et les coeﬃcients Hk et hk dépendent des

observations passées Y0:k−1 , on a indiqué à la Remarque 3.2 que conditionnellement à Y0:k−1
le couple (Xk , Yk ) forme conjointement un vecteur aléatoire gaussien, et on peut vérifier que la
distribution de probabilité conditionnelle du vecteur aléatoire Xk sachant Y0:k est gaussienne,
de moyenne X bk et de matrice de covariance Pk données par les équations du Théorème 3.7 avec
des coeﬃcients dépendant des observations.

Preuve. On procède en plusieurs étapes. Le point central est la Proposition 1.7 qui sera
constamment utilisée.

b0 et P0 en fonction de X
Expression de X b − et P − :
0 0
Le vecteur aléatoire (X0 , Y0 ) est gaussien, de moyenne et de matrice de covariance données
par    
b−
X P0− P0− H0∗
0
  et   ,
b−
H0 X 0 + h0 H0 P0− H0 P0− H0∗ + QV0
respectivement. D’après la Proposition 1.7, la distribution de probabilité conditionnelle du vec-
teur aléatoire X0 sachant Y0 est gaussienne, de moyenne
b0 = X
X b − + P − H0∗ [H0 P − H0∗ + QV0 ]−1 (Y0 − (H0 X
b − + h0 )) ,
0 0 0 0

et de matrice de covariance
P0 = P0− − P0− H0∗ [H0 P0− H0∗ + QV0 ]−1 H0 P0− .
3.2. FILTRE DE KALMAN 35

b − et P − en fonction de X
Expression de X bk−1 et Pk−1 :
k k

Le vecteur aléatoire (Xk , Y0 , · · · , Yk−1 ) est gaussien, et d’après la Proposition 1.7, la distri-
bution de probabilité conditionnelle du vecteur aléatoire Xk sachant Y0:k−1 est gaussienne, de
moyenne Xb − et de matrice de covariance P − . D’après l’équation (3.3), c’est–à–dire
k k

Xk = Fk Xk−1 + fk + Wk ,

on a

b − = E[Xk | Y0:k−1 ] = Fk E[Xk−1 | Y0:k−1 ] + fk + E[Wk | Y0:k−1 ] = Fk X

X bk−1 + fk ,
k

compte tenu que Wk et Yk−1 sont indépendants. Par diﬀérence

b − = Fk (Xk−1 − X
Xk − X bk−1 ) + Wk ,
k

de sorte que

b − ) (Xk − X
Pk− = E[(Xk − X b − )∗ ]
k k

bk−1 ) + Wk ) (Fk (Xk−1 − X

= E[(Fk (Xk−1 − X bk−1 ) + Wk )∗ ]

bk−1 ) (Xk−1 − X
= Fk E[(Xk−1 − X bk−1 )∗ ] F ∗ + E[Wk W ∗ ]
k k

bk−1 )∗ ] F ∗ + Fk E[(Xk−1 − X
+ E[Wk (Xk−1 − X bk−1 ) W ∗ ]
k k

= Fk Pk−1 Fk∗ + QW
k .

bk−1 ) est indépendant de Wk , donc

Dans cette dernière égalité, on a utilisé le fait que (Xk−1 − X
E[(Xk−1 − Xbk−1 ) W ] = 0.
∗
k

bk et Pk en fonction de X
Expression de X b − et P − :
k k

Le vecteur aléatoire (Xk , Y0 , · · · , Yk ) est gaussien, et d’après la Proposition 1.7, la distribution

de probabilité conditionnelle du vecteur aléatoire Xk sachant Y0:k est gaussienne, de moyenne
bk et de matrice de covariance déterministe Pk . D’après la Remarque 3.3, on a
X

bk = E[Xk | Y0:k ]
X

b − + E[Xk − X
= X b − | Y0:k ]
k k

b − + E[Xk − X
= X b − | Y0:k−1 , Ik ]
k k

b − + E[Xk − X
= X b − | Ik ] ,
k k
36 CHAPITRE 3. FILTRAGE DE KALMAN

b − ) et Ik sont indépendants de Y0:k−1 , d’après le

compte tenu que les vecteurs aléatoires (Xk − X k
Lemme 3.4. Par diﬀérence
bk = (Xk − X
Xk − X b − ) − (X
bk − X
b − ) = (Xk − X
b − ) − E[Xk − X
b − | Ik ] ,
k k k k

de sorte que
bk ) (Xk − X
Pk = E[ (Xk − X bk )∗ ]

b − ) − E[Xk − X
= E[ ((Xk − X b − | Ik ]) ((Xk − X
b − ) − E[Xk − X
b − | Ik ])∗ ] .
k k k k

Pour calculer la moyenne conditionnelle et la matrice de covariance conditionnelle du vecteur

aléatoire Xk sachant Y0:k , il suﬃt donc de calculer la moyenne conditionnelle et la matrice de
covariance conditionnelle du vecteur aléatoire (Xk − X b − ) sachant Ik . En d’autres termes, pour
k
estimer l’état caché Xk au vu des observations Y0:k il suﬃt d’estimer de quelle quantité, exprimée
en fonction de l’écart Ik constaté entre la nouvelle observation et l’observation prédite, corriger
l’estimation prédite X b − . C’est de cette propriété que découle la forme récursive du filtre de
k
Kalman. D’après le Lemme 3.4, le vecteur aléatoire (Xk − X b − , Ik ) est gaussien, de moyenne
k
nulle et de matrice de covariance
 
Pk− Pk− Hk∗
  .
− − ∗ V
Hk Pk Hk Pk Hk + Qk
Si la matrice QVk est inversible, alors a fortiori la matrice QIk = Hk Pk− Hk∗ + QVk est inversible,
et d’après la Proposition 1.7 on a immédiatement
bk = X
X b − + P − H ∗ [Hk P − H ∗ + QV ]−1 Ik ,
k k k k k k

et
Pk = Pk− − Pk− Hk∗ [Hk Pk− Hk∗ + QVk ]−1 Hk Pk− ,
ce qui termine la démonstration. 2

3.3 Lisseur de Kalman

On dispose désormais de l’information

Y0:n = (Y0 , Y1 , · · · , Yn ) ,
et l’objectif est d’estimer de façon optimale le vecteur aléatoire Xk à partir de Y0:n , pour un
instant k intermédiaire entre l’instant initial 0 et l’instant final n. Si on adopte le critère du
minimum de variance, il s’agit d’après la Section 1.2 de calculer la distribution de probabilité
conditionnelle du vecteur aléatoire Xk sachant Y0:n . Comme le cadre est gaussien, il suﬃt de
calculer la moyenne et la matrice de covariance
b n = E[Xk | Y0:n ]
X et b n ) (Xk − X
Pkn = E[(Xk − X b n )∗ | Y0:n ] ,
k k k
bnn = X
et clairement, X bn et Pnn = Pn pour k = n. D’après la Remarque 1.9, la matrice de
covariance conditionnelle Pkn ne dépend pas des observations, c’est–à–dire que
b n ) (Xk − X
Pkn = E[(Xk − X b n )∗ ] .
k k
3.3. LISSEUR DE KALMAN 37

Théorème 3.11 (Lisseur de Kalman (formulation de Rauch–Tung–Striebel)) On sup-

pose que les matrices de covariance QW V
k et Qk sont inversibles, pour tout instant k. Alors les
b } et {P } vérifient les équations récurrentes rétrogrades suivantes
suites {X n n
k k

bn = X
X bk−1 + Lk (X
bn − X
b −) ,
k−1 k k

n
Pk−1 = Pk−1 + Lk (Pkn − Pk− ) L∗k ,

avec la matrice de gain

Lk = Pk−1 Fk∗ (Pk− )−1 ,
et avec les initialisations
bnn = X
X bn et Pnn = Pn .

Remarque 3.12 Au vu de l’expression développée

Pk−1 − Lk Pk− L∗k = Pk−1 − Pk−1 Fk∗ [Fk Pk−1 Fk∗ + QW

k ]
−1
Fk Pk−1 ,

on vérifie que la matrice Pk−1 − Lk Pk− L∗k est semi–définie positive, pour tout instant k. On en
déduit par récurrence arrière que la matrice Pkn (telle qu’elle est définie par l’équation rétrograde
de l’énoncé) est semi–définie positive, pour tout instant k. Par définition, Pnn = Pn , c’est–à–dire
que la relation est vraie au rank k = n. Si la relation est vraie au rang k, c’est–à–dire si la
matrice Pkn est semi–définie positive, alors nécessairement la matrice
n
Pk−1 = Pk−1 + Lk (Pkn − Pk− ) L∗k = (Pk−1 − Lk Pk− L∗k ) + Lk Pkn L∗k ,

aussi est semi–définie positive, c’est–à–dire que la relation est vraie au rang (k − 1).

Remarque 3.13 On vérifie par récurrence arrière que Pkn ≤ Pk , c’est–à–dire que la matrice de
covariance de l’erreur de lissage est plus petite (au sens des matrices symétriques) que la matrice
de covariance de l’erreur de filtrage, pour tout instant k. Par définition Pnn = Pn , c’est–à–dire
que la relation est vraie au rank k = n. Si la relation est vraie au rang k, c’est–à–dire si Pkn ≤ Pk ,
alors nécessairement Pkn ≤ Pk− compte tenu que Pk ≤ Pk− d’après la Remarque 3.8. En d’autres
termes, la diﬀérence (Pkn − Pk− ) est semi–définie négative, de sorte que la diﬀérence
n
Pk−1 − Pk−1 = Lk (Pkn − Pk− ) L∗k ,
n
aussi est semi–définie négative. En d’autres termes, Pk−1 ≤ Pk−1 , c’est–à–dire que la relation
est vraie au rang (k − 1).

Preuve. On remarque que le vecteur aléatoire Yk peut s’exprimer comme transformation affine
du vecteur aléatoire (Xk , Vk ), et donc a fortiori comme transformation affine du vecteur aléatoire
b − , Vk ). De même, le vecteur aléatoire Yk+p peut s’exprimer comme transformation
(Y0:k−1 , Xk − Xk
affine du vecteur aléatoire (Xk+p , Vk+p ), et par transitivité comme transformation affine du
vecteur aléatoire (Xk , Wk+1 , · · · , Wk+p , Vk+p ), et donc a fortiori comme transformation affine
du vecteur aléatoire (Y0:k−1 , Xk − X b − , Wk+1 , · · · , Wk+p , Vk+p ). On en déduit que le vecteur
k
aléatoire Y0:n = (Y0:k−1 , Yk , · · · , Yn ) peut s’exprimer comme transformation affine du vecteur
38 CHAPITRE 3. FILTRAGE DE KALMAN

b − , Zk+1:n ) où Zk+1:n = (Wk+1 , · · · , Wn , Vk , Vk+1 , · · · , Vn ) par définition.

aléatoire (Y0:k−1 , Xk − X k
Les vecteurs aléatoires Y0:k−1 , Xk − X b − et Zk+1:n sont mutuellement indépendants, et il résulte
k
de la Remarque 1.11 que

n
Uk−1 b − , Zk+1:n ]
= E[Xk−1 | Y0:k−1 , Xk − X k

bk−1 + E[Xk−1 − X
= X bk−1 | Y0:k−1 , Xk − X
b − , Zk+1:n ]
k

bk−1 + E[Xk−1 − X
= X bk−1 | Y0:k−1 ] + E[Xk−1 − X
bk−1 | Xk − X
b −]
k

bk−1 | Zk+1:n ]
+ E[Xk−1 − X

bk−1 + E[Xk−1 − X
= X bk−1 | Xk − X
b −] ,
k

compte tenu que E[Xk−1 − X bk−1 | Y0:k−1 ] = 0 par définition, et où on a utilisé dans la dernière
b
égalité le fait que (Xk−1 − Xk−1 ) est indépendant de Zk+1:n , donc E[Xk−1 − X bk−1 | Zk+1:n ] = 0.
Par diﬀérence

Xk−1 − Uk−1
n bk−1 ) − (U n − X
= (Xk−1 − X bk−1 )
k−1

bk−1 ) − E[Xk−1 − X
= (Xk−1 − X bk−1 | Xk − X
b −] ,
k

de sorte que

E[(Xk−1 − Uk−1
n
) (Xk−1 − Uk−1
n
)∗ ]

bk−1 ) − E[Xk−1 − X
= E[ ((Xk−1 − X bk−1 | Xk − X
b − ])
k

bk−1 ) − E[Xk−1 − X
((Xk−1 − X bk−1 | Xk − X
b − ])∗ ] .
k

Pour calculer la moyenne conditionnelle et la matrice de covariance conditionnelle du vecteur

aléatoire Xk−1 sachant (Y0:k−1 , Xk − X b − , Zk+1:n ), il suffit donc de calculer la moyenne condi-
k
tionnelle et la matrice de covariance conditionnelle du vecteur aléatoire (Xk−1 − X bk−1 ) sachant
b − b
(Xk − Xk ). D’après la Remarque 1.10, l’état estimé Xk−1 = E[Xk−1 | Y0:k−1 ] et l’état prédit
Xb − = E[Xk | Y0:k−1 ] dépendent de façon affine des observations passées (Y0 , · · · , Yk−1 ), de sorte
k
que le vecteur aléatoire (Xk−1 − X bk−1 , Xk − Xb − ) dépend de façon affine du vecteur aléatoire
k
(Y0 , · · · , Yk−1 , Xk−1 , Xk ). On en déduit que le vecteur aléatoire (Xk−1 − X bk−1 , Xk − X b − ) est
k
gaussien, comme transformation affine d’un vecteur aléatoire gaussien. Par différence

b − = Fk (Xk−1 − X
Xk − X bk−1 ) + Wk ,
k
3.3. LISSEUR DE KALMAN 39

de sorte que
bk−1 ) (Xk − X
E[(Xk−1 − X b − )∗ ]
k

bk−1 ) (Fk (Xk−1 − X

= E[(Xk−1 − X bk−1 ) + Wk )∗ ]

bk−1 ) (Xk−1 − X
= E[(Xk−1 − X bk−1 )∗ ] F ∗ + E[(Xk−1 − X
bk−1 ) W ∗ ]
k k

= Pk−1 Fk∗ .

Dans cette dernière égalité, on a utilisé le fait que (Xk−1 − Xbk−1 ) et Wk sont indépendants, donc
b ∗
E[(Xk−1 − Xk−1 ) Wk ] = 0. On en déduit que le vecteur aléatoire gaussien (Xk−1 − X bk−1 , Xk − X
b −)
k
est de moyenne nulle et de matrice de covariance
 
Pk−1 Pk−1 Fk∗
  .
−
Fk Pk−1 Pk

Par hypothèse la matrice Pk− est inversible, et d’après la Proposition 1.7 on a immédiatement
n
Uk−1 bk−1 + Pk−1 F ∗ (P − )−1 (Xk − X
=X b −) = X
bk−1 + Lk (Xk − X
b −) ,
k k k k

E[(Xk−1 − Uk−1
n
) (Xk−1 − Uk−1
n
)∗ ] = Pk−1 − Pk−1 Fk∗ (Pk− )−1 Fk Pk−1 = Pk−1 − Lk Pk− L∗k .

b − , Zk+1:n ) contient davantage d’information que Y0:n , de sorte

On rappelle que (Y0:k−1 , Xk − X k
que
b n = E[Xk−1 | Y0:n ] = E[U n | Y0:n ] = X
X bk−1 + Lk (Xbn − Xb −) .
k−1 k−1 k k
Par diﬀérence
b n = (Xk−1 − U n ) + (U n − X
Xk−1 − X bn ) et n
Uk−1 b n = Lk (Xk − X
−X b n) ,
k−1 k−1 k−1 k−1 k−1 k

de sorte que
n
Pk−1 b n ) (Xk−1 − X
= E[ (Xk−1 − X b n )∗ ]
k−1 k−1

= E[ ((Xk−1 − Uk−1
n n
) + (Uk−1 b n )) ((Xk−1 − U n ) + (U n − X
−X b n ))∗ ]
k−1 k−1 k−1 k−1

= E[ (Xk−1 − Uk−1
n
) (Xk−1 − Uk−1
n
)∗ ] + E[ (Uk−1
n b n ) (U n − X
−X b n )∗ ]
k−1 k−1 k−1

+ E[ (Uk−1
n b n ) (Xk−1 − U n )∗ ] + E[ (Xk−1 − U n ) (U n − X
−X b n )∗ ]
k−1 k−1 k−1 k−1 k−1

= (Pk−1 − Lk Pk− L∗k ) + Lk Pkn L∗k .

Dans cette dernière égalité, on a utilisé le fait que

40 CHAPITRE 3. FILTRAGE DE KALMAN

• (Uk−1
n b n ) dépend de (Y0:k−1 , Xk − X
−X b − , Zk+1:n ),
k−1 k

• et E[Xk−1 − Uk−1
n b − , Zk+1:n ] = 0 par définition,
| Y0:k−1 , Xk − X k

donc E[ (Xk−1 − Uk−1 bn ∗

k−1 − Xk−1 ) ] = 0. 2
n ) (U n

b n ) et
Proposition 3.14 La matrice de corrélation Ckn entre les erreurs de lissage (Xk−1 − Xk−1
b n ) à deux instants successifs vérifie la relation suivante
(Xk − X k

b n ) (Xk − X
Ckn = E[ (Xk−1 − X b n )∗ ] = Lk P n .
k−1 k k

Preuve. On rappelle que

b n = (Xk−1 − U n ) + Lk (Xk − X
Xk−1 − X b n) ,
k−1 k−1 k

de sorte que
b n ) (Xk − X
Ckn = E[ (Xk−1 − X b n )∗ ]
k−1 k

= E[ (Xk−1 − Uk−1
n b n )∗ ] + Lk E[ (Xk − X
) (Xk − X b n ) (Xk − X
b n )∗ ]
k k k

= Lk Pkn .

Dans cette dernière égalité, on a utilisé le fait que

b n ) = (Xk − X
• (Xk − X b − ) + (X
b− − X
b n ) dépend de (Y0:k−1 , Xk − X
b − , Zk+1:n ),
k k k k−1 k

• et E[Xk−1 − Uk−1
n b − , Zk+1:n ] = 0 par définition,
| Y0:k−1 , Xk − X k

donc E[ (Xk−1 − Uk−1 b n )∗ ] = 0.

n ) (X − X
k 2
k

Il existe plusieurs formulations équivalentes pour le lissage de Kalman, et on présente ci–

dessous une formulation alternative, qui ne fait pas l’hypothèse que la matrice de covariance
−
QWk est inversible, et qui n’utilise pas l’inverse de la matrice de covariance Pk .
Pour tout k = 1, · · · , n, on introduit les variables
bn − X
rk−1 = Fk∗ (Pk− )−1 (X b −) et Πk−1 = −Fk∗ (Pk− )−1 (Pkn − Pk− ) (Pk− )−1 Fk ,
k k

et on pose rn = 0 et Πn = 0 par convention. On rappelle que la diﬀérence (Pkn − Pk− ) est

semi–définie négative, de sorte que la matrice Πk−1 est semi–définie positive. Clairement
bn = X
X bk + Lk+1 (X
bn − Xb− )
k k+1 k+1

bk + Pk F ∗ (P − )−1 (X
= X bn − Xb− )
k+1 k+1 k+1 k+1

bk + Pk rk ,
= X
3.3. LISSEUR DE KALMAN 41

et de même
−
Pkn = Pk + Lk+1 (Pk+1
n
− Pk+1 ) L∗k+1

∗ − − −
= Pk + Pk Fk+1 (Pk+1 )−1 (Pk+1
n
− Pk+1 ) (Pk+1 )−1 Fk+1 Pk

= Pk − Pk Πk Pk ,

de sorte que le lisseur de Kalman X b n et la matrice de covariance d’erreur de lissage P n s’ex-

k k
priment comme
bn = X
X bk + Pk rk et Pkn = Pk − Pk Πk Pk , (3.6)
k

en fonction du filtre de Kalman X bk , de la matrice de covariance d’erreur de filtrage Pk , et des

variables rk et Πk , respectivement. On pose

Ξk = [Hk Pk− Hk∗ + QVk ]−1 de sorte que Kk = Pk− Hk∗ Ξk ,

pour tout k = 0, 1, · · · , n.

Théorème 3.15 (Lisseur de Kalman (formulation de Fraser–Potter)) On suppose que

b n } et {P n }
la matrice de covariance QVk est inversible, pour tout instant k. Alors les suites {X k k
sont données par les expressions suivantes
bn = X
X bk + Pk rk et Pkn = Pk − Pk Πk Pk ,
k

où les suites {rk } et {Πk } vérifient les équations récurrentes rétrogrades suivantes
b − + hk )) ,
rk− = (I − Kk Hk )∗ rk + Hk∗ Ξk (Yk − (Hk X k

Π− ∗ ∗
k = (I − Kk Hk ) Πk (I − Kk Hk ) + Hk Ξk Hk ,

et
rk−1 = Fk∗ rk− et Πnk−1 = Fk∗ Π−
k Fk ,

avec les initialisations

rn = 0 et Πn = 0 .

Preuve. On rappelle que

Pk = (I − Kk Hk ) Pk− = Pk− (I − Kk Hk )∗ ,

de sorte que

Pk (Pk− )−1 = I − Kk Hk et (Pk− )−1 Pk = (I − Kk Hk )∗ , (3.7)

et par définition
Kk = Pk− Hk∗ Ξk ,
42 CHAPITRE 3. FILTRAGE DE KALMAN

de sorte que
(Pk− )−1 Kk = Hk∗ Ξk . (3.8)
D’après l’étape de correction du filtre de Kalman, on a
bk = X
X b − + Kk (Yk − (Hk X
b − + hk )) ,
k k

de sorte que
bn − X
X b− = X
bk − X
b − + Pk rk = Kk (Yk − (Hk X
b − + hk )) + Pk rk ,
k k k k

et en reportant cette expression dans la définition de la variable rk−1 , on obtient

bn − X
rk−1 = Fk∗ (Pk− )−1 (X b −)
k k

b − + hk )) ]
= Fk∗ (Pk− )−1 [ Pk rk + Kk (Yk − (Hk Xk

b − + hk )) ] ,
= Fk∗ [ (I − Kk Hk )∗ rk + Hk∗ Ξk (Yk − (Hk Xk

compte tenu des identités (3.7) et (3.8). D’après l’étape de correction du filtre de Kalman, on a

Pk = Pk− − Pk− Hk∗ Ξk Hk Pk− ,

de sorte que

Pkn − Pk− = Pk − Pk− − Pk Πk Pk = −Pk− Hk∗ Ξk Hk Pk− − Pk Πk Pk ,

et en reportant cette expression dans la définition de la variable Πk−1 , on obtient

Πk−1 = −Fk∗ (Pk− )−1 (Pkn − Pk− ) (Pk− )−1 Fk

= Fk∗ (Pk− )−1 [ Pk Πk Pk + Pk− Hk∗ Ξk Hk Pk− ] (Pk− )−1 Fk

= Fk∗ [ (I − Kk Hk )∗ Πk (I − Kk Hk ) + Hk∗ Ξk Hk ] Fk ,

compte tenu de l’identité (3.8). 2

Les deux formulations partagent la même phase aller, qui comprend le calcul du filtre de
Kalman X bk et de la matrice de covariance d’erreur de filtrage Pk . Une condition nécessaire
pour cette phase aller est l’inversibilité de la matrice de covariance QIk = Hk Pk− Hk∗ + QVk de
dimension d × d, et une condition suﬃsante est l’inversibilité de la matrice de covariance QVk ,
une donnée du problème. Le calcul de la matrice inverse n’est pas nécessaire, mais la résolution
de systèmes linéaires de dimension d de la forme QIk y = b est requise, et passe par exemple par
la décomposition de Cholesky de la matrice QIk .
Dans la formulation de Rauch–Tung–Striebel, qui fait l’objet du Théorème 3.11, une condition
nécessaire pour la phase retour est l’inversibilité de la matrice de covariance Pk− = Fk Pk−1 Fk∗ +
QWk de dimension m×m, et une condition suﬃsante est l’inversibilité de la matrice de covariance
QWk , une donnée du problème. Le calcul de la matrice inverse n’est pas nécessaire, mais la
3.3. LISSEUR DE KALMAN 43

résolution de systèmes linéaires de dimension m de la forme Pk− x = b est requise, et passe par
exemple par la décomposition de Cholesky de la matrice Pk− . L’équation récurrente rétrograde
pour le calcul du lisseur X b n utilise les valeurs numériques du filtre X bk−1 et de la matrice de
k−1
covariance d’erreur de filtrage Pk−1 (à partir desquelles il est facile de reconstruire les valeurs
numériques du prédicteur X b − et de la matrice de covariance d’erreur de prédiction P − ). Ces
k k
valeurs numériques sont calculées dans la phase aller, et doivent donc être conservées en mémoire
pour être utilisées dans la phase retour. En revanche, cette équation récurrente rétrograde pour le
calcul du lisseur X b n n’utilise ni la valeur numérique de l’observation Yk ni celle de l’innovation
k−1
Ik = Yk − (Hk X b − + hk ).
k

Dans la formulation de Fraser–Potter, qui fait l’objet du Théorème 3.15, il n’y a pas de condition
nécessaire d’inversibilité pour la phase retour qui ne soit pas déjà nécessaire pour la phase aller.
Les expressions (3.6) pour le lisseur X b n et pour la matrice de covariance d’erreur de lissage P n
k k
utilisent les valeurs numériques du filtre X bk et de la matrice de covariance d’erreur de filtrage
Pk . Ces valeurs numériques sont calculées dans la phase aller, et doivent donc être conservées en
mémoire pour être utilisées dans la phase retour. L’équation récurrente rétrograde pour le calcul
de la variable rk utilise la valeur numérique de l’observation Yk ou de manière équivalente celle
de l’innovation Ik = Yk − (Hk X b − + hk ). Ces valeurs numériques sont calculées dans la phase
k
aller, et doivent donc être conservées en mémoire pour être utilisées dans la phase retour.
En conclusion :

• les deux formulations requièrent dans la phase aller une même condition d’inversibilité et
l’inversion de systèmes linéaires de dimension d,

• la formulation de Rauch–Tung–Striebel requiert dans la phase retour une condition d’in-

versibilité supplémentaire et l’inversion de systèmes linéaires de dimension m, tandis que la
formulation de Fraser–Potter ne requiert aucune condition d’inversibilité supplémentaire,

• les deux formulations utilisent dans la phase retour les valeurs numériques du filtre et de
la matrice de covariance d’erreur de filtrage — ces valeurs numériques sont calculées dans
la phase aller, et doivent donc être conservées en mémoire pour être utilisées dans la phase
retour,

• la formulation de Fraser–Potter utilise dans la phase retour la valeur numérique de l’ob-

servation ou de manière équivalente celle de l’innovation, tandis que la formulation de
Rauch–Tung–Striebel n’utilise aucune de ces valeurs numériques — ces valeurs numériques
sont calculées dans la phase aller, et doivent donc être conservées en mémoire pour être
utilisées dans la phase retour.

Remarque 3.16 Il est également possible d’obtenir une équation récurrente pour le lisseur,
dans le sens direct (et pas dans le sens rétrograde) et autonome (ne faisant pas intervenir ni le
filtre ni la matrice de covariance de l’erreur de filtrage). Par diﬀérence, on obtient

b n − Fk X
X bn = Xbk + Pk rk − Fk (X
bk−1 + Pk−1 rk−1 )
k k−1

bk − Fk X
= (X bk−1 ) + (Pk rk − Fk Pk−1 rk−1 ) .
44 CHAPITRE 3. FILTRAGE DE KALMAN

D’après l’étape de correction du filtre de Kalman, on a

b k − Fk X
X bk−1 = X
bk − X
b − = Kk (Yk − (Hk X
b − + hk )) ,
k k

et on remarque que
b − + hk )) ]
Pk− rk− = Pk− [ (I − Kk Hk )∗ rk + Hk∗ Ξk (Yk − (Hk X k

b − + hk )) ,
= Pk rk + Kk (Yk − (Hk X k

compte tenu des identités

Pk− (I − Kk Hk )∗ = Pk et Pk− Hk∗ Ξk = Kk ,

de sorte que
bk − Fk X
(X bk−1 ) + (Pk rk − P − r− ) = 0 .
k k

D’autre part

Pk rk − Fk Pk−1 rk−1 = Pk rk − Fk Pk−1 Fk∗ rk−

= Pk rk − (Pk− − QW −
k ) rk

= (Pk rk − Pk− rk− ) + QW −

k rk .

On en déduit que

X b n + (X
b n = Fk X bk−1 ) + (Pk rk − Fk Pk−1 rk−1 )
bk − Fk X
k k−1

b n + (X
= Fk X bk − Fk X
bk−1 ) + (Pk rk − P − r− ) + QW r−
k−1 k k k k

b n + QW r− ,
= Fk X k−1 k k

c’est–à–dire qu’on obtient une équation récurrente, dans le sens direct, et faisant seulement
intervenir la variable rk− .
Chapitre 4

Extensions aux systèmes

non–linéaires

On considère une suite d’états cachés {Xk } à valeurs dans Rm , vérifiant

Xk = bk (Xk−1 ) + σk (Xk−1 ) Wk , (4.1)

où {Wk } prend ses valeurs dans Rp , et une suite d’observations {Yk } à valeurs dans Rd , vérifiant

Yk = hk (Xk ) + Vk , (4.2)

et on suppose que

• la condition initiale X0 est gaussienne, de moyenne X̄0 et de matrice de covariance QX

0 ,

• la suite {Wk } est un bruit blanc gaussien, de matrice de covariance identité,

• la suite {Vk } est un bruit blanc gaussien, de matrice de covariance QVk inversible,

• les suites {Wk } et {Vk } et la condition initiale X0 sont mutuellement indépendants.

La signification du modèle (4.1) est la suivante

La plupart des propriétés obtenues à la Section 3.1 ne sont pas vraies pour le système décrit
par les équations (4.1) et (4.2). En particulier, le processus {Zk = (Xk , Yk )} n’est pas gaussien (ni
même conditionnellement gaussien), et les moments conditionnels de Xk sachant Y0:k ne peuvent
pas être calculés de manière simple. Deux approches pragmatiques sont présentées dans ce cha-
pitre, qui permettent d’obtenir des estimateurs sous–optimaux, c’est–à–dire qui n’atteignent
pas nécessairement le minimum de l’erreur quadratique moyenne, mais qui sont néanmoins très
largement utilisés en pratique. La première approche présentée à la Section 4.1 repose sur des

45
46 CHAPITRE 4. EXTENSIONS AUX SYSTÈMES NON–LINÉAIRES

techniques de linéarisation, et donne lieu au filtre de Kalman linéarisé et au filtre de Kalman

étendu. La deuxième approche présentée à la Section 4.2 repose sur des techniques d’approxi-
mation gaussienne et de quadrature numérique, et donne lieu au filtre de Kalman dit unscented .
Dans les chapitres suivants, on abandonnera ce point de vue de lineéarisation ou d’approximation
gaussienne, et on s’attachera d’abord à caractériser la distribution de probabilité conditionnelle
de l’état caché sachant les observations, soit par une représentation probabiliste, soit par une
équation récurrente dans l’espace des distributions de probabilité, et on proposera ensuite des
approximations numériques reposant sur méthodes de simulation de type Monte Carlo.

4.1 Filtre de Kalman linéarisé, filtre de Kalman étendu

On considère le système non linéaire

Xk = bk (Xk−1 ) + σk (Xk−1 ) Wk ,
(4.3)
Yk = hk (Xk ) + Vk ,

et on suppose que les fonctions bk et hk sont dérivables. En linéarisant le système (4.3) autour
d’une suite déterministe donnée, ou bien autour de l’estimateur courant, on peut obtenir des
algorithmes sous–optimaux, qui sont décrits ci–dessous.

Filtre de Kalman linéarisé

On se donne une suite (déterministe) {x̄k } à valeurs dans Rm , appelée trajectoire nominale (on
peut prendre par exemple x̄k comme une approximation de la moyenne de Xk ). La méthode
consiste à linéariser les fonctions bk et σk autour de x̄k−1 , c’est–à–dire

bk (x) ≃ bk (x̄k−1 ) + b′k (x̄k−1 ) (x − x̄k−1 ) et σk (x) ≃ σk (x̄k−1 ) ,

et la fonction hk autour de x̄k , c’est–à–dire

hk (x) ≃ hk (x̄k ) + h′k (x̄k ) (x − x̄k ) .

Le système non–linéaire (4.3) est alors remplacé par le système linéaire gaussien

Xk = FkL Xk−1 + fkL + WkL ,

Yk = HkL Xk + hLk + Vk ,

avec
FkL = b′k (x̄k−1 ) et fkL = −b′k (x̄k−1 ) x̄k−1 + bk (x̄k−1 ) ,

et avec
HkL = h′k (x̄k ) et hLk = −h′k (x̄k ) x̄k + hk (x̄k ) .
4.1. FILTRE DE KALMAN LINÉARISÉ, FILTRE DE KALMAN ÉTENDU 47

Ici, le vecteur aléatoire WkL = σk (x̄k−1 ) Wk est gaussien, centré et de matrice de covariance
QLk = σk (x̄k−1 ) σk∗ (x̄k−1 ). On applique alors exactement le filtre de Kalman à ce nouveau système,
et on obtient l’algorithme sous–optimal suivant
b − = bk (x̄k−1 ) + b′ (x̄k−1 ) (X
X bk−1 − x̄k−1 ) ,
k k

Pk− = b′k (x̄k−1 ) Pk−1 (b′k (x̄k−1 ))∗ + σk (x̄k−1 ) σk∗ (x̄k−1 ) ,

et
bk = X
X b − + Kk (Yk − (hk (x̄k ) + h′ (x̄k ) (X
b − − x̄k ))) ,
k k k

Pk = (I − Kk h′k (x̄k )) Pk− ,

avec la matrice de gain

Kk = Pk− (h′k (x̄k ))∗ [ h′k (x̄k ) Pk− (h′k (x̄k ))∗ + QVk ]−1 .

A la place de la première et la troisième de ces équations, on peut utiliser

b − = bk (X
X bk−1 ) ,
k

bk = X
X b − + Kk (Yk − hk (X
b − )) .
k k

b − et P − de telle sorte que N(X

On choisit l’initialisation X b − , P − ) soit une bonne approximation
0 0 0 0
de la distribution de probabilité du vecteur aléatoire X0 .

Filtre de Kalman étendu

Au lieu de linéariser autour d’une trajectoire nominale déterministe {x̄k }, on peut utiliser l’es-
bk−1 , c’est–
timateur courant. La méthode consiste à linéariser les fonctions bk et σk autour de X
à–dire
bk−1 ) + b′ (X
bk (x) ≃ bk (X bk−1 ) (x − X
bk−1 ) et bk−1 ) ,
σk (x) ≃ σk (X
k

b − , c’est–à–dire
et à linéariser la fonction hk autour de X k

b − ) + h′ (X
hk (x) ≃ hk (X b − ) (x − X
b −) .
k k k k

Le système non–linéaire (4.3) est alors remplacé par le système conditionnellement linéaire
gaussien

Xk = FkL Xk−1 + fkL + WkL ,

Yk = HkL Xk + hLk + Vk ,

avec
bk−1 )
FkL = b′k (X et bk−1 ) X
fkL = −b′k (X bk−1 + bk (X
bk−1 ) ,
48 CHAPITRE 4. EXTENSIONS AUX SYSTÈMES NON–LINÉAIRES

et avec
b −)
HkL = h′k (X et b −) X
hLk = −h′k (X b − + hk (X
b −) ,
k k k k

et on remarque que
bk−1 + f L = bk (X
FkL X bk−1 ) et b − + hL = hk (X
HkL X b −) .
k k k k

Conditionnellement à Y0:k−1 , le vecteur aléatoire WkL = σk (X bk−1 ) Wk est gaussien, centré et de

matrice de covariance conditionnelle QLk = σk (X bk−1 ). On remarque que les coeﬃcients
bk−1 ) σ ∗ (X
k
L L L L L
Fk , fk et Qk , et les coeﬃcients Hk et hk dépendent des observations passées Y0:k−1 . On applique
alors exactement le filtre de Kalman à ce nouveau système, et au vu de la Remarque 3.10 on
obtient l’algorithme sous–optimal suivant
b − = bk (X
X bk−1 ) ,
k

bk−1 ) Pk−1 (b′ (X

Pk− = b′k (X bk−1 ))∗ + σk (X
bk−1 ) σ ∗ (X
bk−1 ) ,
k k

et
bk = X
X b − + Kk (Yk − hk (X
b − )) ,
k k

b − )) P − ,
Pk = (I − Kk h′k (X k k

avec la matrice de gain

b − ))∗ [h′ (X
Kk = Pk− (h′k (X b − ) P − (h′ (X
b − ))∗ + QV ]−1 .
k k k k k k k

b − et P − de telle sorte que N(X

On choisit l’initialisation X b − , P − ) soit une bonne approximation
0 0 0 0
de la distribution de probabilité du vecteur aléatoire X0 .

Remarque 4.1 Dans cet algorithme, la suite {Pk } dépend des observations, et ne peut donc
pas être pré–calculée.

4.2 Filtre de Kalman unscented

On considère à nouveau le système non linéaire (4.3), c’est–à–dire

Xk = bk (Xk−1 ) + σk (Xk−1 ) Wk ,

Yk = hk (Xk ) + Vk ,

et on ne suppose plus que les fonctions bk et hk sont dérivables, mais on suppose que les fonctions
bk , hk et σk et certaines fonctions associées, peuvent être intégrées par rapport à certaines
distributions de probabilité gaussiennes.
Au lieu de s’appuyer sur une linéarisation des fonctions autour de l’estimateur courant, on
se propose ici
4.2. FILTRE DE KALMAN UNSCENTED 49

• de remplacer les diﬀérentes distributions de probabilité conditionnelles par des distribu-

tions de probabilité gaussiennes ayant même moyenne et même matrice de covariance,
• d’utiliser des formules de quadrature, développées initialement pour le calcul numérique
d’intégrales, pour approcher ces moyennes et ces matrices de covariance conditionnelles.

Le premier point peut s’interpréter comme une projection, au sens de la distance de Kullback–
Leibler, sur la famille des distributions de probabilité gaussiennes.
▶ Le calcul des deux premiers moments (moyenne et matrice de covariance) de la distribution
de probabilité conditionnelle µ− k (dx) = P[Xk ∈ dx | Y0:k−1 ], c’est–à–dire le calcul de la moyenne
conditionnelle et de la matrice de covariance conditionnelle du vecteur aléatoire Xk sachant
Y0:k−1 , est facile. Par définition
b − = E[Xk | Y0:k−1 ]
X k

= E[bk (Xk−1 ) | Y0:k−1 ] + E[σk (Xk−1 ) Wk | Y0:k−1 ]

∫
= bk (x) µk−1 (dx) ,
Rm
compte tenu que
E[σk (Xk−1 ) Wk | Y0:k−1 ] = E[ E[σk (Xk−1 ) Wk | Xk−1 , Y0:k−1 ] | Y0:k−1 ]

= E[σk (Xk−1 ) E[Wk | Xk−1 , Y0:k−1 ] | Y0:k−1 ] = 0 ,

où on a utilisé dans la dernière égalité l’indépendance de (Y0 , · · · , Yk−1 , Xk−1 ) et de Wk , donc
E[Wk | Xk−1 , Y0:k−1 ] = 0. Par diﬀérence
b − = (bk (Xk−1 ) − X
Xk − X b − ) + σk (Xk−1 ) Wk ,
k k

de sorte que
b − ) (Xk − X
Pk− = E[ (Xk − X b − )∗ | Y0:k−1 ]
k k

b − ) + σk (Xk−1 ) Wk ) ((bk (Xk−1 ) − X

= E[ ((bk (Xk−1 ) − X b − ) + σk (Xk−1 ) Wk )∗ | Y0:k−1 ]
k k

b − ) (bk (Xk−1 ) − X
= E[ (bk (Xk−1 ) − X b − )∗ | Y0:k−1 ]
k k

b − )∗ | Y0:k−1 ]
+ E[σk (Xk−1 ) Wk (bk (Xk−1 ) − X k

b − ) W ∗ σ ∗ (Xk−1 ) | Y0:k−1 ]
+ E[ (bk (Xk−1 ) − X k k k

+ E[σk (Xk−1 ) Wk Wk∗ σk∗ (Xk−1 ) | Y0:k−1 ]

∫ ∫
= b − ) (bk (x) − X
(bk (x) − X b − )∗ µk−1 (dx) + σk (x) σk∗ (x) µk−1 (dx) ,
k k
Rm Rm
50 CHAPITRE 4. EXTENSIONS AUX SYSTÈMES NON–LINÉAIRES

compte tenu que

E[σk (Xk−1 ) Wk Wk∗ σk∗ (Xk−1 ) | Y0:k−1 ]

= E[ E[σk (Xk−1 ) Wk Wk∗ σk∗ (Xk−1 ) | Xk−1 , Y0:k−1 ] | Y0:k−1 ]

= E[ σk (Xk−1 ) E[Wk Wk∗ | Xk−1 , Y0:k−1 ] σk∗ (Xk−1 ) | Y0:k−1 ]

= E[ σk (Xk−1 ) σk∗ (Xk−1 ) | Y0:k−1 ] ,

où on a utilisé dans la dernière égalité l’indépendance de (Y0 , · · · , Yk−1 , Xk−1 ) et de Wk , donc
E[Wk Wk∗ | Xk−1 , Y0:k−1 ] = I, et compte tenu que
b − )∗ | Y0:k−1 ]
E[σk (Xk−1 ) Wk (bk (Xk−1 ) − Xk

b − )∗ | Xk−1 , Y0:k−1 ] | Y0:k−1 ]

= E[ E[σk (Xk−1 ) Wk (bk (Xk−1 ) − X k

b − )∗ | Y0:k−1 ] = 0 ,
= E[σk (Xk−1 ) E[Wk | Xk−1 , Y0:k−1 ] (bk (Xk−1 ) − X k

où on a encore utilisé dans la dernière égalité l’indépendance de (Y0 , · · · , Yk−1 , Xk−1 ) et de Wk ,
donc E[Wk | Xk−1 , Y0:k−1 ] = 0.
▶ En revanche, le calcul des deux premiers moments (moyenne et matrice de covariance) de
la distribution de probabilité conditionnelle µk (dx) = P[Xk ∈ dx | Y0:k ], c’est–à–dire le calcul
de la moyenne conditionnelle et de la matrice de covariance conditionnelle du vecteur aléatoire
Xk sachant Y0:k , n’est pas immédiat, et on commence par le calcul des deux premiers moments
(moyenne et matrice de covariance) de la distribution de probabilité conditionnelle jointe du
vecteur aléatoire (Xk , Yk ) sachant Y0:k−1 , qui est plus facile. On rappelle que
∫
b −
Xk = bk (x) µk−1 (dx) ,
Rm

a déjà été obtenu plus haut, et par définition

Ybk− = E[Yk | Y0:k−1 ]

= E[hk (Xk ) | Y0:k−1 ] + E[Vk | Y0:k−1 ]

∫
= hk (x) µ−
k (dx) .
Rm

On rappelle que
∫ ∫
Pk− = b − ) (bk (x) − X
(bk (x) − X b − )∗ µk−1 (dx) + σk (x) σk∗ (x) µk−1 (dx) ,
k k
Rm

a déjà été obtenu plus haut, et par diﬀérence

Yk − Ybk− = (hk (Xk ) − Ybk− ) + Vk ,
4.2. FILTRE DE KALMAN UNSCENTED 51

de sorte que

Ξk = E[ (Yk − Ybk− ) (Yk − Ybk− )∗ | Y0:k−1 ]

= E[ ((hk (Xk ) − Ybk− ) + Vk ) ((hk (Xk ) − Ybk− ) + Vk )∗ | Y0:k−1 ]

= E[ (hk (Xk ) − Ybk− ) (hk (Xk ) − Ybk− )∗ | Y0:k−1 ] + E[Vk Vk∗ | Y0:k−1 ]

+ E[ (hk (Xk ) − Ybk− ) Vk∗ | Y0:k−1 ]

+ E[Vk (hk (Xk ) − Ybk− )∗ | Y0:k−1 ]

∫
= (hk (x) − Ybk− ) (hk (x) − Ybk− )∗ µ− V
k (dx) + Qk ,
Rm

compte tenu que

E[Vk (hk (Xk ) − Ybk− )∗ | Y0:k−1 ]

= E[ E[Vk (hk (Xk ) − Ybk− )∗ | Xk , Y0:k−1 ] | Y0:k−1 ]

= E[ E[Vk | Xk , Y0:k−1 ] (hk (Xk ) − Ybk− )∗ | Y0:k−1 ] = 0 .

où on a utilisé dans la dernière égalité l’indépendance de (Y0 , · · · , Yk−1 , Xk ) et de Vk , donc

E[Vk | Xk , Y0:k−1 ] = 0, et

b − ) (Yk − Yb − )∗ | Y0:k−1 ]
Ck = E[ (Xk − Xk k

b − ) (hk (Xk ) − Yb − )∗ | Y0:k−1 ] + E[ (Xk − X

= E[ (Xk − X b − ) V ∗ | Y0:k−1 ]
k k k k

∫
= b − ) (hk (x) − Yb − )∗ µ− (dx) .
(x − X k k k
Rm

On remplace la distribution de probabilité conditionnelle jointe du vecteur aléatoire (Xk , Yk )

sachant Y0:k−1 par la distribution de probabilité gaussienne de moyenne et de matrice de cova-
riance  −  − 
Xb P k Ck
k
  et   ,
b
Yk − C ∗
k Ξk

respectivement. Si la matrice QVk est inversible, alors a fortiori la matrice Ξk est inversible, et
d’après la Proposition 1.7 on obtient immédiatement les approximations suivantes

bk = X
X b − + Ck Ξ−1 (Yk − Yb − ) et Pk = Pk− − Ck Ξ−1 ∗
k k k k Ck ,
52 CHAPITRE 4. EXTENSIONS AUX SYSTÈMES NON–LINÉAIRES

pour les deux premiers moments de la distribution de probabilité conditionnelle µk , c’est–à–dire

pour la moyenne conditionnelle et de la matrice de covariance conditionnelle du vecteur aléatoire
Xk sachant Y0:k .
Ces équations ne sont pas fermées, c’est–à–dire que les moments X b − et P − ne s’expriment
k k
pas en fonction des moments X bk−1 et Pk−1 seulement, mais en fonction de toute la distribution
de probabilité conditionnelle µk−1 , et de même, les moments X bk et Pk ne s’expriment pas
en fonction des moments X b et P seulement, mais en fonction de toute la distribution de
− −
k k
probabilité conditionnelle µ−
k . Pour fermer ces équations, on adopte le principe de projection
énoncé plus haut.
▶ On remplace la distribution de probabilité conditionnelle µk−1 par la distribution de
probabilité gaussienne de moyenne Xbk−1 et de matrice de covariance Pk−1 = Sk−1 S ∗ , et en
k−1
eﬀectuant le changement de variable x = Xbk−1 + Sk−1 u, on obtient les approximations
∫
du
Xk ≈ bbk (u) exp{− 12 |u|2 }
b −
,
(2π)m/2
et
∫
du
Pk− ≈ (bbk (u) − X
b − ) (bbk (u) − X
k
b − )∗ exp{− 1 |u|2 }
k 2
(2π)m/2
∫
du
+ σ bk∗ (u) exp{− 12 |u|2 }
bk (u) σ
(2π)m/2

où par définition

bbk (u) = bk (X
bk−1 + Sk−1 u) et bk−1 + Sk−1 u) .
bk (u) = σk (X
σ

▶ De même, on remplace la distribution de probabilité conditionnelle µ− k par la distribution

b − −
de probabilité gaussienne de moyenne Xk et de matrice de covariance Pk = Sk− (Sk− )∗ , et en
eﬀectuant le changement de variable x = X b − + S − u, on obtient les approximations
k k
∫
b du
Ybk− ≈ hk (u) exp{− 21 |u|2 } ,
Rm (2π)m/2
et ∫
du
Ξk ≈ (b
hk (u) − Ybk− ) (b
hk (u) − Ybk− )∗ exp{− 12 |u|2 } m/2
+ QVk ,
Rm (2π)
et ∫
du
Ck ≈ Sk− u (b
hk (u) − Ybk− )∗ exp{− 21 |u|2 } ,
Rm (2π)m/2
où par définition
b b − + S − u) .
hk (u) = hk (X k k

Il reste donc à calculer les intégrales des fonctions non–linéaires

bbk (u), bbk (u) bb∗ (u), σ bk∗ (u), b

bk (u) σ h∗k (u) et b
hk (u), u b hk (u) b
h∗k (u) ,
k
4.2. FILTRE DE KALMAN UNSCENTED 53

par rapport à la densité gaussienne réduite centrée.

Remarque 4.2 Si on suppose que les fonctions bk et hk sont dérivables, et qu’on utilise un
développement limité au premier ordre au voisinage de u = 0 dans les intégrales ci–dessus, on
retrouve les équations du filtre de Kalman étendu. L’idée ici est de ne pas linéariser , et de
calculer les intégrales en utilisant des formules de quadrature numérique.

On introduit les formules de quadrature suivantes, reposant sur la notion de σ–points. En

dimension m, la densité de probabilité gaussienne centrée réduite (de matrice de covariance
identité) est représentée par 2m + 1 points de quadrature (u−m , · · · , um ) appelés σ–points, et
définis par √
u0 = 0 , u i = ei m + κ et u−i = −ui ,
où ei désigne le i–ème vecteur de base, aﬀectés des poids
κ 1
w0 = et w−i = wi = , (4.4)
m+κ 2 (m + κ)
pour tout i = 1, · · · , m (d’autres choix de σ–points sont possibles). On vérifie que
∑
+m ∑
+m ∑
+m ∑
m
wi = 1 , wi u i = 0 et wi ui u∗i = ei e∗i = I ,
i=−m i=−m i=−m i=1

c’est–à–dire que les deux premiers moments sont pris en compte exactement. Plus généralement
∫ ∑
+m
du
ϕ(u) exp{− 12 |u|2 } ≈ wi ϕ(ui ) ,
Rm (2π)m/2 i=−m

et un changement de variable évident donne aussitôt

∫ ∑
+m
du
ϕ(µ + Σ1/2 u) exp{− 12 |u|2 } m/2
≈ wi ϕ(µ + Σ1/2 ui ) ,
R m (2π) i=−m

pour toute fonction ϕ définie sur Rm , c’est–à–dire que les σ–points (x−m , · · · , xm ) associés à la
distribution de probabilité gaussienne de vecteur moyenne µ et de matrice de covariance Σ, sont
définis par la relation xi = µ + Σ1/2 ui , soit
√ √
x0 = µ , xi = µ + Σ1/2 ei m + κ et x−i = µ − Σ1/2 ei m + κ ,
pour tout i = 1, · · · , m. On vérifie que
∑
+m ∑
+m ∑
m
∗
wi x i = µ et wi (xi − µ) (xi − µ) = Σ1/2 ei (Σ1/2 ei )∗ = Σ ,
i=−m i=−m i=1

c’est–à–dire que les deux premiers moments sont pris en compte exactement. Plus généralement
encore, soit X un vecteur aléatoire gaussien de vecteur moyenne µ et de matrice de covariance
Σ, et soit T une transformation non–linéaire définie sur Rm . Clairement
∫ ∑
+m
du
ϕ(T (µ + Σ1/2 u)) exp{− 21 |u|2 } ≈ wi ϕ(T (xi )) ,
(2π)m/2 i=−m
54 CHAPITRE 4. EXTENSIONS AUX SYSTÈMES NON–LINÉAIRES

pour toute fonction ϕ définie sur Rm , c’est–à–dire que les σ–points (x′−m , · · · , x′m ) associés au
vecteur aléatoire transformé X ′ = T (X), sont simplement obtenus par la relation x′i = T (xi ) à
partir des σ–points (x−m , · · · , xm ) associés au vecteur aléatoire X, soit
√ √
x′0 = T (µ) , x′i = T (µ + Σ1/2 ei m + κ) et x′−i = T (µ − Σ1/2 ei m + κ) ,

pour tout i = 1, · · · , m.
Avec ces formules de quadrature, on obtient l’algorithme de filtrage sous–optimal suivant.

b − et P − en fonction de X
Expression de X bk−1 et Pk−1 = Sk−1 S ∗ :
k k k−1
On introduit les σ–points
√ √
bk−1 ,
x0 = X bk−1 + Sk−1 ei
xi = X m+κ et bk−1 − Sk−1 ei
x−i = X m+κ ,

aﬀectés des poids (4.4) pour tout i = 1, · · · , m, et on définit le vecteur moyenne

∑
+m
b− =
X wi bk (xi ) ,
k
i=−m

et la matrice de covariance
∑
+m ∑
+m
Pk− = b − ) (bk (xi ) − X
wi (bk (xi ) − X b − )∗ + wi σk (xi ) σk∗ (xi ) = Sk− (Sk− )∗ .
k k
i=−m i=−m

bk et Pk en fonction de X
Expression de X b − et P − = S − (S − )∗ :
k k k k
On introduit les σ–points
√ √
b− ,
x0 = X b − + S − ei
xi = X m+κ et b − − S − ei
x−i = X m+κ ,
k k k k k

aﬀectés des poids (4.4) pour tout i = 1, · · · , m, on définit le vecteur moyenne

∑
+m
Ybk− = wi hk (xi ) ,
i=−m

la matrice de covariance
∑
+m
Ξk = wi (hk (xi ) − Ybk− ) (hk (xi ) − Ybk− )∗ + QVk ,
i=−m

et la matrice de corrélation
∑
+m
Ck = b − ) (hk (xi ) − Yb − )∗ ,
wi (xi − X k k
i=−m

et on pose
bk = X
X b − + Ck Ξ−1 (Yk − Yb − ) et Pk = Pk− − Ck Ξ−1 ∗ ∗
k k k k Ck = Sk Sk .
Chapitre 5

Au–delà des systèmes linéaires

gaussiens

5.1 Systèmes non–linéaires à bruits non–gaussiens

Il s’agit de la classe la plus générale de modèles d’état, et c’est aussi un cas particulier de la
classe plus générale des modèles de Markov cachés (pour lesquels l’espace d’état peut être très
général). On considère donc une suite d’états cachés {Xk } à valeurs dans Rm , vérifiant

Xk = fk (Xk−1 , Wk ) avec W k ∼ pW
k (dw) , (5.1)

avec des entrées bruitées {Wk } à valeurs dans Rp , pas nécessairement gaussiennes, et une condi-
tion initiale X0 ∼ η0 (dx) pas nécessairement gaussienne, et une suite d’observations {Yk } à
valeurs dans Rd , vérifiant

Yk = hk (Xk ) + Vk avec Vk ∼ qkV (v) dv , (5.2)

avec des bruits d’observation {Vk } additifs, à valeurs dans Rd , pas nécessairement gaussiens,
mais de distribution de probabilité qkV (v) dv absolument continue par rapport à la mesure de
Lebesgue dv. Les bruits blancs {Wk } et {Vk } sont indépendants entre eux et indépendants de
la condition initiale X0 . On ne suppose pas que les fonctions fk et hk sont dérivables. Pour la
suite, il sera suﬃsant de faire l’hypothèse suivante : pour tout instant k

• il est facile de simuler un vecteur aléatoire selon la distribution de probabilité pW

k (dw) du
vecteur aléatoire Wk ,

• la distribution de probabilité du vecteur aléatoire Vk admet une densité qkV (v) qu’il est
facile d’évaluer pour tout v ∈ Rd .

Proposition 5.1 La suite {Xk } est une chaı̂ne de Markov à valeurs dans Rm , c’est–à–dire que
la distribution de probabilité conditionnelle par rapport au passé

P[Xk ∈ dx′ | X0:k−1 ] = P[Xk ∈ dx′ | Xk−1 ] ,

55
56 CHAPITRE 5. AU–DELÀ DES SYSTÈMES LINÉAIRES GAUSSIENS

ne dépend que du passé immédiat, avec les probabilités de transition

P[Xk ∈ dx′ | Xk−1 = x] = Qk (x, dx′ ) ,

défini par ∫
Qk ϕ(x) = E[ ϕ(Xk ) | Xk−1 = x] = ϕ(fk (x, w)) pW
k (dw) ,
Rp
pour toute fonction test ϕ mesurable bornée, définie sur Rm .

Preuve. Compte tenu que Wk est indépendant de X0:k−1 , on a

E[ ϕ(Xk ) | X0:k−1 ] = E[ ϕ(fk (Xk−1 , Wk )) | X0:k−1 ]

∫
= ϕ(fk (Xk−1 , w)) pW
k (dw) ,
Rp

pour toute fonction ϕ mesurable bornée définie sur Rm . Clairement, le résultat ne dépend que
de Xk−1 , c’est–à–dire que

E[ ϕ(Xk ) | X0:k−1 ] = E[ ϕ(Xk ) | Xk−1 ] ,

et ∫
E[ ϕ(Xk ) | Xk−1 = x] = ϕ(fk (x, w)) pW
k (dw) . 2
Rp

Remarque 5.2 Si fk (x, w) = bk (x)+w, et si la distribution de probabilité pWk (dw) de la variable

aléatoire Wk admet une densité encore notée pk (w), c’est–à–dire si pk (dw) = pW
W W
k (w) dw, alors

Qk (x, dx′ ) = pW ′ ′
k (x − bk (x)) dx ,

c’est–à–dire que le noyau Qk (x, dx′ ) admet une densité. En eﬀet, le changement de variable
x′ = bk (x) + w donne immédiatement
∫ ∫
Qk ϕ(x) = W
ϕ(bk (x) + w) pk (w) dw = ϕ(x′ ) pW ′ ′
k (x − bk (x)) dx ,
Rm Rm

pour toute fonction test ϕ mesurable bornée, définie sur Rm .

Remarque 5.3 En général, le noyau Qk (x, dx′ ) n’admet pas de densité par rapport à la mesure
de Lebesgue sur Rm . En eﬀet, conditionnellement à Xk−1 = x, le vecteur aléatoire Xk appartient
nécessairement au sous–ensemble

M(x) = {x′ ∈ Rm : il existe w ∈ Rp tel que x′ = fk (x, w)} ,

et dans le cas où p < m ce sous–ensemble M(x) est généralement, sous certaines hypothèses de
régularité, une sous–variété diﬀérentielle de dimension p dans l’espace Rm , c’est–à–dire un sous–
ensemble de mesure de Lebesgue nulle. La distribution de probabilité conditionnelle du vecteur
aléatoire Xk sachant Xk−1 = x ne peut donc pas avoir de densité par rapport à la mesure de
Lebesgue sur Rm .
5.1. SYSTÈMES NON–LINÉAIRES À BRUITS NON–GAUSSIENS 57

Proposition 5.4 La suite {Yk } vérifie l’hypothèse de canal sans mémoire, c’est–à–dire que pour
tout instant n

• conditionnellement aux états cachés X0:n les observations Y0:n sont mutuellement indépen-
dantes, ce qui se traduit par

∏
n
P[Y0:n ∈ dy0:n | X0:n ] = P[Yk ∈ dyk | X0:n ] ,
k=0

• pour tout k = 0, · · · , n, la distribution de probabilité conditionnelle de la variable aléatoire

Yk sachant X0:n ne dépend que de Xk , ce qui se traduit par

P[Yk ∈ dyk | X0:n ] = P[Yk ∈ dyk | Xk ] ,

avec les probabilités d’émission

P[Yk ∈ dy | Xk = x] = qkV (y − hk (x)) dy ,

et on définit la fonction de vraisemblance

gk (x) = qkV (Yk − hk (x)) ,

qui mesure l’adéquation d’un état quelconque x ∈ Rm avec l’observation Yk .

En d’autres termes, la distribution de probabilité conditionnelle jointe des observations Y0:n

sachant les états cachés X0:n vérifie
∏
n
P[Y0:n ∈ dy0:n | X0:n = x0:n ] = qkV (yk − hk (xk )) dy0 · · · dyn .
k=0

Exemple 5.5 Dans le cas particulier où le bruit additif Vk est un vecteur aléatoire gaussien
centré et de matrice de covariance identité, alors la probabilité d’émission
1
P[Yk ∈ dy | Xk = x] = exp{− 21 |y − hk (x)|2 } dy ,
(2 π)d/2

est absolument continue, et la fonction de vraisemblance, définie à une constante multiplicative

près, est donnée par
gk (x) = exp{− 12 |Yk − hk (x)|2 } .
58 CHAPITRE 5. AU–DELÀ DES SYSTÈMES LINÉAIRES GAUSSIENS

Preuve. Pour toute famille ϕ0 , · · · , ϕn de fonctions mesurables bornées définies sur Rd , et

compte tenu que les vecteurs aléatoires V0 , · · · , Vn sont mutuellement indépendants et indépen-
dants du vecteur aléatoire X0:n , on a
E[ϕ0 (Y0 ) · · · ϕn (Yn ) | X0:n ]

= E[ϕ0 (h0 (X0 ) + V0 ) · · · ϕn (hn (Xn ) + Vn ) | X0:n ]

∫ ∫
= ··· ϕ0 (h0 (X0 ) + v0 ) · · · ϕn (hn (Xn ) + vn ) P[V0:n ∈ dv0:n ]
Rd Rd
n ∫
∏
= ϕk (hk (Xk ) + vk ) P[Vk ∈ dvk ]
k=0 R
d

n ∫
∏
= ϕk (hk (Xk ) + vk ) qkV (vk ) dvk
k=0 Rd

n ∫
∏ ∏
n
= ϕk (yk ) qkV (yk − hk (Xk )) dyk = E[ϕk (Yk ) | Xk ] . 2
k=0 Rd | {z } k=0
P[Yk ∈ dyk | Xk ]

On voudrait également pouvoir prendre en compte un certain nombre de systèmes plus

généraux, qui correspondent à des situations d’intérêt pratique, par exemple les systèmes hy-
brides à saut markovien
Xk = fk (rk−1 , Xk−1 , Wk ) ,

Yk = hk (rk , Xk ) + Vk ,
où la suite {rk } forme une chaı̂ne de Markov à valeurs dans un espace fini, correspondant à
diﬀérents régimes ou modes de fonctionnement.

5.2 Modèles de Markov cachés

Plus généralement, on peut aussi considérer un modèle de Markov caché où les états cachés
{Xk } forment une chaı̂ne de Markov à valeurs dans un espace E qui peut être très général, par
exemple un espace hybride continu / discret, un sous–ensemble défini par des contraintes, une
variété diﬀérentielle, un graphe, etc., de noyaux de transition
P[Xk ∈ dx′ | Xk−1 = x] = Qk (x, dx′ ) ,
et de distribution de probabilité initiale
P[X0 ∈ dx] = η0 (dx) ,
et où les observations {Yk } vérifient l’hypothèse de canal sans mémoire, c’est–à–dire que pour
tout instant n
5.2. MODÈLES DE MARKOV CACHÉS 59

• conditionnellement aux états cachés X0:n les observations Y0:n sont mutuellement indépen-
dantes, ce qui se traduit par

∏
n
P[Y0:n ∈ dy0:n | X0:n ] = P[Yk ∈ dyk | X0:n ] ,
k=0

• pour tout k = 0, · · · , n, la distribution de probabilité conditionnelle de la variable aléatoire

Yk sachant X0:n ne dépend que de Xk , ce qui se traduit par

P[Yk ∈ dy | X0:n ] = P[Yk ∈ dy | Xk ] ,

avec la probabilité d’émission

P[Yk ∈ dy | Xk = x] = gk (x, y) λFk (dy) ,

où la mesure positive λFk (dy) définie sur F ne dépend pas de l’état caché x ∈ E, et par
abus de notation on définit la fonction de vraisemblance

gk (x) = gk (x, Yk ) ,

qui mesure l’adéquation d’un état quelconque x ∈ E avec l’observation Yk .

La situation est complètement décrite par le diagramme suivant

- Xk−1 - Xk - Xk+1 -

? ? ?
Yk−1 Yk Yk+1

où les flèches représentent la dépendance entre variables aléatoires. En d’autres termes, la dis-
tribution de probabilité conditionnelle jointe des observations Y0:n sachant les états cachés X0:n
vérifie
∏
n
P[Y0:n ∈ dy0:n | X0:n = x0:n ] = gk (xk , yk ) λF0 (dy0 ) · · · λFn (dyn ) .
k=0

Ce modèle peut paraı̂tre très abstrait à première vue, mais pour la suite il suﬃra que l’hypothèse
suivante soit vérifiée : pour tout instant k = 1, · · · , n

• il est facile de simuler pour tout x ∈ E, un vecteur aléatoire selon la distribution de

probabilité Qk (x, dx′ ),

• il est facile d’évaluer pour tout x′ ∈ E, la fonction de vraisemblance gk (x′ ).

Malgré leur grande généralité, les modèles de Markov cachés ne permettent pas de prendre en
compte un certain nombre de systèmes non–linéaires à bruits non–gaussiens, qui correspondent
60 CHAPITRE 5. AU–DELÀ DES SYSTÈMES LINÉAIRES GAUSSIENS

à des situations d’intérêt pratique, par exemple les cas où les observations dépendent de la
transition de la chaı̂ne de Markov cachée
Xk = fk (Xk−1 , Wk ) ,

Yk = hk (Xk−1 , Xk ) + Vk ,
les modèles de Markov à variables latentes
Xk = fk (Xk−1 , Wk ) ,

Yk = hk (Yk−1 , Xk ) + Vk ,
où conditionnellement aux états cachés, les observations forment une chaı̂ne de Markov, ou bien
les systèmes d’état à bruits corrélés
Xk = fk (Xk−1 , Vk−1 , Wk ) ,

Yk = hk (Xk ) + Vk ,
où clairement le bruit Uk−1 = (Vk−1 , Wk ) dans l’équation d’état est corrélé au bruit d’observation
Vk−1 . Dans ce dernier exemple, une solution pragmatique consiste à reporter dans l’équation
d’état l’expression pour Vk−1 tirée de l’équation d’observation, de sorte que
Xk = fk (Xk−1 , Yk−1 − hk−1 (Xk−1 ), Wk ) ,

Yk = hk (Xk ) + Vk .
Les classes de modèles de plus en plus généraux présentés dans les deux prochaines sections,
permettent de prendre en compte ces situations.

5.3 Chaı̂nes de Markov à paramètres markoviens

Certains problèmes sont décrits par une chaı̂ne de Markov {Yk }, et pour disposer d’une plus
grande possibilité de modélisation on propose de faire dépendre les noyaux de transitions d’une
suite de variables aléatoires latentes {Xk }, formant elle–même une chaı̂ne de Markov. Cette
situation se rencontre par exemple dans les modèles à volatilité stochastique, et à la diﬀérence
de la situation précédente, l’estimation de la suite latente n’est pas un objectif en soi.
Dans ces modèles, les états cachés {Xk } forment une chaı̂ne de Markov à valeurs dans un
espace E, de noyaux de transition
P[Xk ∈ dx′ | Xk−1 = x] = Qk (x, dx′ ) ,
et de distribution de probabilité initiale
P[X0 ∈ dx] = η0 (dx) ,
et conditionnellement aux états cachés, les observations {Yk } forment une chaı̂ne de Markov à
valeurs dans F , c’est–à–dire que pour tout instant n
5.3. CHAÎNES DE MARKOV À PARAMÈTRES MARKOVIENS 61

• conditionnellement aux états cachés X0:n les observations Y0:n forment une chaı̂ne de
Markov, ce qui se traduit pour tout k = 1, · · · , n, par

P[Yk ∈ dy | Y0:k−1 , X0:n ] = P[Yk ∈ dy | Yk−1 , X0:n ] ,

• pour k = 0, la distribution de probabilité conditionnelle de la variable aléatoire Y0 sachant

X0:n ne dépend que de X0 , ce qui se traduit par

P[Y0 ∈ dy | X0:n ] = P[Y0 ∈ dy | X0 ] ,

avec la probabilité initiale

P[Y0 ∈ dy | X0 = x] = g0 (x, y) λF0 (dy) ,

où la mesure positive λF0 (dy) définie sur F ne dépend pas de l’état caché x ∈ E, et par
abus de notation on définit la fonction de vraisemblance

g0 (x) = g0 (x, Y0 ) ,

qui mesure l’adéquation d’un état quelconque x′ ∈ E avec l’observation initiale Y0 ,

• pour tout k = 1, · · · , n, la distribution de probabilité conditionnelle de la variable aléatoire

Yk sachant Yk−1 et X0:n ne dépend que de Yk−1 et de Xk , ce qui se traduit par

P[Yk ∈ dyk | Yk−1 , X0:n ] = P[Yk ∈ dyk | Yk−1 , Xk ] ,

avec la probabilité d’émission

P[Yk ∈ dy ′ | Yk−1 = y, Xk = x′ ] = gk (x′ , y, y ′ ) λFk (y, dy ′ ) ,

où la mesure positive λFk (y, dy ′ ) définie sur F ne dépend pas de l’état caché x′ ∈ E, et par
abus de notation on définit la fonction de vraisemblance

gk (x′ ) = gk (x′ , Yk−1 , Yk ) ,

qui mesure l’adéquation d’un état quelconque x′ ∈ E avec les observations successives Yk−1
et Yk .

La situation est complètement décrite par le diagramme suivant

- Xk−1 - Xk - Xk+1 -

? ? ?
- Yk−1 - Yk - Yk+1 -
62 CHAPITRE 5. AU–DELÀ DES SYSTÈMES LINÉAIRES GAUSSIENS

P[Y0:n ∈ dy0:n | X0:n = x0:n ]

∏
n
= g0 (x0 , y0 ) λF0 (dy0 ) gk (xk , yk−1 , yk ) λFk (yk−1 , dyk )
k=1

∏
n ∏
n
= [ g0 (x0 , y0 ) gk (xk , yk−1 , yk ) ] λF0 (dy0 ) λFk (yk−1 , dyk ) .
k=1 k=1

5.4 Chaı̂nes de Markov partiellement observées

Encore plus généralement, on peut considérer un modèle où les états cachés {Xk } ne forment
plus nécessairement une chaı̂ne de Markov, mais où conjointement états cachés et observations
{Zk } avec Zk = (Xk , Yk ) pour tout instant k = 0, 1, · · · , n, forment une chaı̂ne de Markov à
valeurs dans E × F , de distribution de probabilité initiale

P[X0 ∈ dx, Y0 ∈ dy] = γ0 (y, dx) λF0 (dy) , (5.3)

où la mesure positive λF0 (dy) définie sur F , ne dépend pas de l’état caché x ∈ E, et de probabilités
de transition

P[Xk ∈ dx′ , Yk ∈ dy ′ | Xk−1 = x, Yk−1 = y] = Rk (y, y ′ , x, dx′ ) λFk (y, dy ′ ) , (5.4)

où la mesure positive λFk (y, dy ′ ) définie sur F , dépend de l’observation précédente y ∈ F mais ne
dépend pas de la transition cachée (x, x′ ) ∈ E. En d’autres termes, la distribution de probabilité
jointe des états cachés X0:n et des observations Y0:n vérifie

P[X0:n ∈ dx0:n , Y0:n ∈ dy0:n ]

∏
n
= γ0 (y0 , dx0 ) λF0 (dy0 ) Rk (yk−1 , yk , xk−1 , dxk ) λFk (yk−1 , dyk )
k=1

∏
n ∏
n
= [ γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) ] λF0 (dy0 ) λFk (yk−1 , dyk ) .
k=1 k=1

Ce modèle général inclut comme cas particulier

• les modèles de Markov cachés, avec

γ0 (y, dx) = η0 (dx) g0 (x, y) et Rk (y ′ , x, dx′ ) = Qk (x, dx′ ) gk (x′ , y ′ ) ,

• les modèles auto–régressifs à paramètres markoviens, avec

γ0 (y, dx) = η0 (dx) g0 (x, y) et Rk (y, y ′ , x, dx′ ) = Qk (x, dx′ ) gk (x′ , y, y ′ ) .

5.4. CHAÎNES DE MARKOV PARTIELLEMENT OBSERVÉES 63

En toute généralité, les mesures positives γ0 (y, dx) et les noyaux positifs Rk (y, y ′ , x, dx′ ) peuvent
être factorisés comme

γ0 (y, dx) = g0imp (y, x) η0imp (y, dx) et Rk (y, y ′ , x, dx′ ) = gkimp (y, y ′ , x, x′ ) Qimp ′ ′
k (y, y , x, dx ) ,

respectivement, c’est–à–dire comme le produit

• d’une fonction de pondération positive g0imp (y, x) ou gkimp (y, y ′ , x, x′ ),

• et d’une distribution de probabilité η0imp (y, dx) ou d’un noyau markovien Qimp ′ ′
k (y, y , x, dx ).

Une telle factorisation n’est évidemment pas unique, mais il existe toujours au moins la factori-
sation donnée par
γ0 (y, dx)
γ0 (y, dx) = γ0 (y, E) ,
γ (y, E)
| {z } | 0 {z }
gb0 (y) ηb0 (y, dx)
et
Rk (y, y ′ , x, dx′ )
Rk (y, y ′ , x, dx′ ) = Rk (y, y ′ , x, E) ,
Rk (y, y ′ , x, E)
| {z } | {z }
gbk (x, y, y ′ ) b ′
Qk (y, y , x, dx )′

avec l’interprétation suivante : en intégrant (5.3) par rapport à x ∈ E, on obtient

P[Y0 ∈ dy] = gb0 (y) λF0 (dy) ,

d’où on déduit que

P[X0 ∈ dx | Y0 = y] = ηb0 (y, dx) ,
et en intégrant (5.4) par rapport à x′ ∈ E, on obtient

P[Yk ∈ dy ′ | Xk−1 = x, Yk−1 = y] = gbk (x, y, y ′ ) λFk (y, dy ′ ) ,

d’où on déduit que

b k (y, y ′ , x, dx′ ) .
P[Xk ∈ dx′ | Xk−1 = x, Yk−1 = y, Yk = y ′ ] = Q

Dans le cas particulier des modèles de Markov cachés, cette décomposition fait intervenir

• la probabilité d’émission

P[Yk ∈ dy ′ | Xk−1 = x] = gbk (x, y ′ ) λFk (dy ′ ) ,

où la fonction positive ∫

′
gbk (x, y ) = Qk (x, dx′ ) gk (x′ , y ′ ) ,
E
peut être interprétée pour tout état x ∈ E et pour toute observation y ′ ∈ F comme une
mesure quantitative du recouvrement entre l’application x′ 7→ gk (x′ , y ′ ) et la distribution
de probabilité Qk (x, dx′ ),
64 CHAPITRE 5. AU–DELÀ DES SYSTÈMES LINÉAIRES GAUSSIENS

• et la transition de probabilité

b k (y ′ , x, dx′ ) ,
P[Xk ∈ dx′ | Xk−1 = x, Yk = y ′ ] = Q

b k (y ′ , x, dx′ ) dépend de l’observation y ′ ∈ F ,

où le noyau markovien Q

et la situation est complètement décrite par le diagramme suivant

- Xk−1 - Xk - Xk+1 -
6 6 6

R R R R
Yk−1 Yk Yk+1

où les flèches représentent la dépendance entre variables aléatoires.

Exemple 5.6 On considère un système non–linéaire avec des bruits gaussiens additifs et une
fonction d’observation linéaire

Xk = fk (Xk−1 ) + σk (Xk−1 ) Wk ,

Yk = Hk Xk + hk + Vk ,

où la condition initiale X0 est un vecteur aléatoire gaussien de moyenne X̄0 et de matrice de
covariance QX 0 , et où les suites {Wk } et {Vk } sont des bruits blancs gaussiens indépendants,
indépendants de la condition initiale X0 , de matrices de covariance identité et QVk respective-
ment, avec QVk inversible. Il résulte de la Proposition 1.7 que

• conditionnellement à Y0 = y, le vecteur aléatoire X0 est gaussien, de moyenne

∗ ∗ V −1
m0 (y) = X̄0 + QX X
0 H0 [H0 Q0 H0 + Q0 ] (y − (H0 X̄0 + h0 )) ,

et de matrice de covariance (pas nécessairement inversible)

∗ ∗ V −1
0 − Q0 H0 [H0 Q0 H0 + Q0 ]
P0 = QX X X
H0 QX
0 ,

et il est facile de simuler un vecteur aléatoire X ′ selon la distribution de probabilité gaussi-

enne
ηb0 (y, dx) = Γ(dx, m0 (y), P0 ) ,
de moyenne m0 (y) et de matrice de covariance P0 pour tout y ∈ F : il suﬃt en eﬀet,
d’après la Remarque 1.8, de simuler deux vecteurs aléatoires gaussiens indépendants X et
V , de moyenne X̄0 et 0 et de matrice de covariance QX V
0 et Q0 respectivement, et de poser

X ′ = X + QX ∗ X ∗ V −1
0 H0 [H0 Q0 H0 + Q0 ] (Y0 − (H0 X + h0 + V )) .
5.4. CHAÎNES DE MARKOV PARTIELLEMENT OBSERVÉES 65

Grâce à la linéarité de la fonction d’observation, on a

Xk = fk (Xk−1 ) + σk (Xk−1 ) Wk ,

Yk = Hk fk (Xk−1 ) + hk + Hk σk (Xk−1 ) Wk + Vk ,

d’où on déduit que conditionnellement à Xk−1 = x, le vecteur aléatoire (Xk , Yk ) est gaussien,
de moyenne et de matrice de covariance
   
fk (x) Σk (x) Σk (x) Hk∗
  et   ,
Hk fk (x) + hk ∗
Hk Σk (x) Hk Σk (x) Hk + Qk V

respectivement, avec Σk (x) = σk (x) σk∗ (x). Compte tenu que la matrice QVk est inversible, la
matrice Hk Σk (x) Hk∗ + QVk est inversible a fortiori, et il résulte de la Proposition 1.7 que

• conditionnellement à Xk−1 = x, le vecteur aléatoire Yk est gaussien, de moyenne Hk fk (x)+

hk et de matrice de covariance inversible Hk Σk (x) Hk∗ + QVk , et il est facile d’évaluer la
densité de probabilité gaussienne

gbk (x, y ′ ) = q(y ′ − (Hk fk (x) + hk ), Hk Σk (x) Hk∗ + QVk ) ,

de moyenne Hk fk (x) + hk et de matrice de covariance inversible Hk Σk (x) Hk∗ + QVk , pour

tout x ∈ E et tout y ′ ∈ F ,

• conditionnellement à (Xk−1 = x, Yk = y ′ ) le vecteur aléatoire Xk est gaussien, de moyenne

mk (y ′ , x) = fk (x) + Σk (x) Hk∗ [Hk Σk (x) Hk∗ + QVk ]−1 (y ′ − (Hk fk (x) + hk )) ,

et de matrice de covariance (pas nécessairement inversible)

Pk (x) = Σk (x) − Σk (x) Hk∗ [Hk Σk (x) Hk∗ + QVk ]−1 Hk Σk (x) ,

et il est facile de simuler un vecteur aléatoire X ′ selon la distribution de probabilité gaussi-

enne
b k (y ′ , x, dx′ ) = Γ(dx′ , mk (y ′ , x), Pk (x)) ,
Q
de moyenne mk (y ′ , x) et de matrice de covariance Pk (x) pour tout x ∈ E et tout y ′ ∈ F :
il suﬃt en eﬀet, d’après la Remarque 1.8, de simuler deux vecteurs aléatoires gaussiens
indépendants W et V , centrés et de matrice de covariance identité et QVk respectivement,
et de poser
X = fk (x) + σk (x) W ,
et
X ′ = X + Σk (x) Hk∗ [Hk Σk (x) Hk∗ + QVk ]−1 (y ′ − (Hk X + hk + V )) .
66 CHAPITRE 5. AU–DELÀ DES SYSTÈMES LINÉAIRES GAUSSIENS
Chapitre 6

Borne de Cramér–Rao a posteriori

Pour évaluer la performance des algorithmes numériques de filtrage non–linéaire, y compris les
nombreuses variantes du filtrage particulaire, il est utile de disposer d’une borne inférieure sur
l’erreur commise par un estimateur quelconque de l’état caché. S’il s’agit d’estimer un paramètre
fixe, il est bien connu que la matrice d’information de Fisher associée au modèle statistique
permet d’obtenir une telle borne inférieure, sous le nom de borne de Cramér–Rao. Dans le cas
du filtrage bayésien, il s’agit d’estimer un paramètre aléatoire (et dynamique), à savoir la suite
des états cachés, pour lequel on dispose d’un modèle a priori : dans ce cadre bayésien, on peut
utiliser la notion de borne de Cramér–Rao a posteriori, pour laquelle des algorithmes de calcul
récursifs eﬃcaces ont été obtenus.
On considère le modèle général d’une chaı̂ne de Markov partiellement observée, et on suppose
qu’il existe

• pour k = 0, une densité jointe initiale

P[X0 ∈ dx, Y0 ∈ dy] = r0 (x, y) dx λF0 (dy) ,

• pour tout k = 1, · · · , n, des densités de transition

P[Xk ∈ dx′ , Yk ∈ dy ′ | Xk−1 = x, Yk−1 = y] = rk (y, y ′ , x, x′ ) dx′ λFk (y, dy ′ ) ,

On peut poser dans ce cas

X0:n = (X0 , · · · , Xn ) et Y0:n = (Y0 , · · · , Yn ) ,

et se ramener au problème statique considéré dans la Proposition 1.3 ci–dessus pour l’estimation
du vecteur aléatoire
ϕ(X0:n ) = Xn ,
sachant Y0:n .

Théorème 6.1 Sous les hypothèses de la Proposition 1.3, la matrice de corrélation de l’erreur
d’estimation (ψ(Y0:n ) − Xn ) est minorée par la relation suivante

E[ (ψ(Y0:n ) − Xn ) (ψ(Y0:n ) − Xn )∗ ] ≥ Jn−1 ,

67
68 CHAPITRE 6. BORNE DE CRAMÉR–RAO A POSTERIORI

et la matrice d’information de Fisher Jn peut se calculer de la façon récursive suivante

Jk = Dk+ − Dk∗ (Jk−1 + Dk− )−1 Dk ,

avec
∂2
Dk− = −E[ log rk (Yk−1 , Yk , Xk−1 , Xk ) ] ,
∂x2k−1

∂2
Dk = −E[ log rk (Yk−1 , Yk , Xk−1 , Xk ) ] ,
∂xk−1 ∂xk

∂2
Dk+ = −E[ log rk (Yk−1 , Yk , Xk−1 , Xk ) ] .
∂x2k

Preuve. La densité jointe des vecteurs aléatoires X0:n et Y0:n est donnée par

∏
n
p0:n (x0:n , y0:n ) = r0 (x0 , y0 ) rk (yk−1 , yk , xk−1 , xk ) ,
k=1

d’où la log–densité

∑
n
log p0:n (x0:n , y0:n ) = log r0 (x0 , y0 ) + log rk (yk−1 , yk , xk−1 , xk )
k=1

= log p0:n−1 (x0:n−1 , y0:n−1 ) + log rn (yn−1 , yn , xn−1 , xn ) .

On en déduit que

 
∂2 ∂2
 ∂x2 ∂x0:n−1 ∂xn 
∂2  0:n−1 
log p0:n (x0:n , y0:n ) = 

 log p0:n (x0:n , y0:n )

∂x20:n  2 
∂
⋆
∂x2n
 
∂2 ∂2 ∂2
 ∂x2 ∂x0:n−2 ∂xn 
 0:n−2 ∂x0:n−2 ∂xn−1 
 
 
  [ log p0:n−1 (x0:n−1 , y0:n−1 )
 ∂2 ∂ 2

= ⋆ 
 ∂x2n−1 ∂xn−1 ∂xn 
  + log rn (yn−1 , yn , xn−1 , xn ) ]
 
 
 ∂2 
⋆ ⋆
∂x2n
 
∂2 ∂2
 ∂x2 0
 0:n−2 ∂x0:n−2 ∂xn−1 
 
 
 
= ∂2  log p0:n−1 (x0:n−1 , y0:n−1 )
 ⋆ 0
 ∂x2n−1 
 
 
0 0 0
 
0 0 0
 
 
 ∂2 ∂2 
0 
+ ∂x2n−1 ∂xn−1 ∂xn  log rn (yn−1 , yn , xn−1 , xn )

 
 
 ∂2 
0 ⋆
∂x2n

de sorte que si on pose

 
An Bn
∂2
J0:n = −E[ log p0:n (X0:n , Y0:n ) ] =   , (6.1)
∂x20:n
⋆ Cn

alors on a également la décomposition par bloc alternative

     
An−1 Bn−1 0 0 0 0 An−1 Bn−1 0
     
     
J0:n =
 ⋆ Cn−1 0 
+0 Dn− Dn  
= ⋆ Cn−1 + Dn− Dn 
 , (6.2)
     
0 0 0 0 ⋆ +
Dn 0 ⋆ +
Dn
70 CHAPITRE 6. BORNE DE CRAMÉR–RAO A POSTERIORI

avec
∂2
Dn− = −E[ log rn (Yn−1 , Yn , Xn−1 , Xn ) ] ,
∂x2n−1

∂2
Dn = −E[ log rn (Yn−1 , Yn , Xn−1 , Xn ) ] ,
∂xn−1 ∂xn

∂2
Dn+ = −E[ log rn (Yn−1 , Yn , Xn−1 , Xn ) ] .
∂x2n
On remarque que ϕ′ (x0:n ) = (0 I) = Mn ne dépend pas de x0:n , et il résulte de la Proposi-
tion 1.3 que
−1
E[ (ψ(Y0:n ) − Xn ) (ψ(Y0:n ) − Xn )∗ ] ≥ Mn J0:n Mn∗ ,
et d’après le Lemme A.3 d’inversion matricielle et la Remarque A.4, on a
 −1      
( ) An Bn 0 ( ) ⋆ ⋆ 0
−1 ∗
Mn J0:n Mn = 0 I     = 0 I     = Jn−1 ,
Bn∗ Cn I ⋆ Jn−1 I

où la matrice Jn = Cn − Bn∗ A−1n Bn est le complément de Schur de la matrice An dans la

matrice–bloc J0:n . Par comparaison des deux décompositions par bloc (6.1) et (6.2), on a les
identifications suivantes
   
An−1 Bn−1 0
An =   , Bn =   et Cn = Dn+ ,
⋆ Cn−1 + Dn− Dn

et d’après le Lemme A.3 d’inversion matricielle et la Remarque A.4, on a

 −1  
( ) An−1 Bn−1 0
Jn = Dn+ − 0 Dn∗    
∗
Bn−1 Cn−1 + Dn − Dn
   
( ) ⋆ ⋆ 0
= Dn+ − 0 Dn∗    
−1
⋆ ∆n−1 Dn

= Dn+ − Dn∗ ∆−1

n−1 Dn ,

∗
où la matrice ∆n−1 = Cn−1 + Dn− − Bn−1 A−1 −
n−1 Bn−1 = Jn−1 + Dn est le complément de Schur
de la matrice An−1 dans la matrice–bloc An , de sorte que

Jn = Dn+ − Dn∗ (Jn−1 + Dn− )−1 Dn . 2

Soit un modèle de Markov caché dans lequel il existe

• pour k = 0, une densité initiale

P[X0 ∈ dx] = p0 (x) dx ,

• pour tout k = 1, · · · , n, des densités de transition

P[Xk ∈ dx′ | Xk−1 = x] = pk (x′ | x) dx′ ,

• et pour tout k = 0, 1, · · · , n, des densités d’émission

P[Yk ∈ dy | Xk = x] = qk (y | x) λFk (dy) .

Ce modèle est un cas particulier du modèle précédent, avec

r0 (y, x) = p0 (x) q0 (y | x) ,

et
rk (y, y ′ , x, x′ ) = pk (x′ | x) qk (y ′ | x′ ) ,
et dans ce cas
∂2
Dk− = −E[ log pk (Xk | Xk−1 ) ] ,
∂x2k−1

∂2
Dk = −E[ log pk (Xk | Xk−1 ) ] ,
∂xk−1 ∂xk

∂2 ∂2
Dk+ = −E[ log p k (X k | X k−1 ) ] − E[ log qk (Yk | Xk ) ] .
∂x2k ∂x2k

Exemple 6.2 Dans le cas particulier d’un système avec bruits gaussiens additifs, où

Xk = fk (Xk−1 ) + Wk avec Wk ∼ N(0, QW

k ) ,

et où
Yk = hk (Xk ) + Vk avec Vk ∼ N(0, QVk ) ,
avec des matrices de covariance QW V
k et Qk inversibles, on obtient

Dk− = E[ [fk′ (Xk−1 )]∗ (QW

k )
−1 ′
fk (Xk−1 ) ] ,

Dk = −E[ [fk′ (Xk−1 )]∗ ] (QW

k )
−1
,

−1
Dk+ = (QW
k ) + E[ [h′k (Xk )]∗ (QVk )−1 h′k (Xk ) ] .
72 CHAPITRE 6. BORNE DE CRAMÉR–RAO A POSTERIORI
Chapitre 7

Filtrage bayésien

L’objectif de ce chapitre est d’établir les équations du filtre non–linéaire, pour les systèmes
non–linéaires et non–gaussiens, ou plus généralement les équations du filtre bayésien, pour les
modèles de Markov cachés et les chaı̂nes de Markov partiellement observées. Il s’agit donc de
calculer la distribution de probabilité conditionnelle de la variable aléatoire Xk sachant Y0:k , et
la distribution de probabilité conditionnelle de la variable aléatoire Xk sachant Y0:k−1 , définies
par
µk (dx) = P[Xk ∈ dx | Y0:k ] et µ−
k (dx) = P[Xk ∈ dx | Y0:k−1 ] ,

respectivement.

7.1 Modèles de Markov cachés

D’après la formule de Bayes, et d’après la propriété de canal sans mémoire, la distribution de

probabilité jointe des états cachés X0:n et des observations Y0:n vérifie

P[X0:n ∈ dx0:n , Y0:n ∈ dy0:n ] = P[Y0:n ∈ dy0:n | X0:n = x0:n ] P[X0:n ∈ dx0:n ]

∏
n
= P[X0:n ∈ dx0:n ] gk (xk , yk ) λF0 (dy0 ) · · · λFn (dyn ) .
k=0

En intégrant par rapport aux variables x0:n , on obtient la distribution de probabilité jointe des
observations Y0:n , c’est–à–dire
∫ ∫ ∏
n
P[Y0:n ∈ dy0:n ] = ··· gk (xk , yk ) P[X0:n ∈ dx0:n ] λF0 (dy0 ) · · · λFn (dyn )
E E k=0

∏
n
= E[ gk (Xk , yk ) ] λF0 (dy0 ) · · · λFn (dyn ) .
k=0

73
74 CHAPITRE 7. FILTRAGE BAYÉSIEN

D’après la formule de Bayes, il vient

P[X0:n ∈ dx0:n , Y0:n ∈ dy0:n ]

∏
n
= P[X0:n ∈ dx0:n ] gk (xk , yk ) λF0 (dy0 ) · · · λFn (dyn )
k=0

= P[X0:n ∈ dx0:n | Y0:n = y0:n ] P[Y0:n ∈ dy0:n ]

∏
n
= P[X0:n ∈ dx0:n | Y0:n = y0:n ] E[ gk (Xk , yk ) ] λF0 (dy0 ) · · · λFn (dyn ) ,
k=0

et on obtient
∏
n
gk (xk , yk ) P[X0:n ∈ dx0:n ]
k=0
P[X0:n ∈ dx0:n | Y0:n = y0:n ] = ,
∏
n
E[ gk (Xk , yk ) ]
k=0

pour toute suite y0:n d’observations. Pour toute fonction test f définie sur l’espace produit
E n+1 = E × · · · × E, on a
∫ ∫ ∏
n
··· f (x0:n ) gk (xk , yk ) P[X0:n ∈ dx0:n ]
E E k=0
E[f (X0:n ) | Y0:n = y0:n ] =
∏
n
E[ gk (Xk , yk ) ]
k=0

∏
n
E[ f (X0:n ) gk (Xk , yk ) ]
k=0
= ,
∏
n
E[ gk (Xk , yk ) ]
k=0

et on rappelle que
∏
n
P[Y0:n ∈ dy0:n ] = E[ gk (Xk , yk ) ] λF0 (dy0 ) · · · λFn (dyn ) ,
k=0

et comme ces identités sont vérifiées pour toute suite y0:n d’observations, on en déduit que la
distribution de probabilité conditionnelle jointe des états cachés X0:n sachant Y0:n est donnée
par
∏
n
E[f (X0:n ) gk (Xk ) ]
k=0
E[f (X0:n ) | Y0:n ] = , (7.1)
∏
n
E[ gk (Xk ) ]
k=0
7.1. MODÈLES DE MARKOV CACHÉS 75

et la fonction de vraisemblance du modèle est donnée par

∏
n
Ln = E[ gk (Xk ) ] ,
k=0

où l’espérance porte seulement sur la suite des états cachés X0:n : les fonctions de vraisemblance
g0 (x), · · · , gn (x) sont définies par abus de notation comme

gk (x) = gk (x, Yk ) ,

pour tout k = 0, 1, · · · , n, et dépendent implicitement des observations Y0:n , mais celles–ci

sont considérées comme fixées dans les expressions ci–dessus. En particulier, la distribution de
probabilité conditionnelle de l’état caché Xn sachant Y0:n est donnée par
∏
n
E[ϕ(Xn ) gk (Xk ) ]
k=0 ⟨γn , ϕ⟩
⟨µn , ϕ⟩ = E[ϕ(Xn ) | Y0:n ] = = ,
∏
n
⟨γn , 1⟩
E[ gk (Xk ) ]
k=0

où la mesure positive (non–normalisée) γn (dx) est définie par

∏
n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ] ,
k=0

et pour ϕ ≡ 1, on a
∏
n
⟨γn , 1⟩ = E[ gk (Xk ) ] = Ln .
k=0
De la même manière, la distribution de probabilité conditionnelle de l’état caché Xn sachant
Y0:n−1 est donnée par
∏
n−1
E[ϕ(Xn ) gk (Xk ) ]
⟨γn− , ϕ⟩
⟨µ−
n , ϕ⟩ = E[ϕ(Xn ) | Y0:n−1 ] = k=0
= ,
∏
n−1 ⟨γn− , 1⟩
E[ gk (Xk ) ]
k=0

où la mesure positive (non–normalisée) γn− (dx) est définie par

∏
n−1
⟨γn− , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ] ,
k=0

et pour ϕ ≡ 1, on a
∏
n−1
⟨γn− , 1⟩ = E[ gk (Xk ) ] = ⟨γn−1 , 1⟩ .
k=0

Pour obtenir une équation récurrente permettant d’exprimer µk en fonction de µk−1 , il suﬃt
donc d’une équation récurrente permettant d’exprimer γk en fonction de γk−1 , puis de normaliser.
76 CHAPITRE 7. FILTRAGE BAYÉSIEN

Théorème 7.1 (Filtre bayésien) La suite {µk } vérifie l’équation récurrente suivante
prédiction correction
µk−1 −−−−−−−−−−→ µ−k = µ k−1 Qk −
− −−−−−−−−→ µk = gk · µ−
k ,

et la suite {Lk } vérifie l’équation récurrente suivante

∏
n
Lk = ⟨µ−
k , gk ⟩ Lk−1 soit en itérant Ln = ⟨µ−
k , gk ⟩ ⟨η0 , g0 ⟩ .
k=1

Remarque 7.2 Dans l’énoncé du théorème, la notation

∫
′
µk−1 Qk (dx ) = µk−1 (dx) Qk (x, dx′ )
E

désigne l’action du noyau markovien Qk (x, dx′ ) sur la distribution de probabilité µk−1 (dx), et
la notation
gk µ−
gk · µ− = k
,
k
⟨µ−
k , g k⟩

désigne le produit projectif de la distribution de probabilité a priori µ− ′

k (dx ) et de la fonction
′
de vraisemblance gk (x ). De manière équivalente
∫
⟨µk−1 Qk , ϕ⟩ = ⟨µk−1 , Qk ϕ⟩ = µk−1 (dx) E[ϕ(Xk ) | Xk−1 = x] ,
E
et ∫
ϕ(x) gk (x) µ−
k (dx)
⟨µ−
k , gk ϕ⟩
⟨gk · µ− , ϕ⟩ = = E∫
,
k
⟨µ−
k , gk ⟩ −
gk (x) µk (dx)
E
pour toute fonction mesurable bornée ϕ.

Remarque 7.3 De manière équivalente

µk−1 Rk
µk = ,
⟨µk−1 Rk , 1⟩
en une seule étape, avec le noyau positif (non–normalisé) Rk (x, dx′ ) = Qk (x, dx′ ) gk (x′ ). En eﬀet,
pour toute fonction mesurable bornée ϕ
∫
⟨µk−1 Rk , ϕ⟩ = µk−1 Rk (dx′ ) ϕ(x′ )
E
∫ ∫
= [ µk−1 (dx) Rk (x, dx′ ) ] ϕ(x′ )
E E
∫ ∫
= µk−1 (dx) Qk (x, dx′ ) gk (x′ ) ϕ(x′ )
E E
∫ ∫
= [ µk−1 (dx) Qk (x, dx′ ) ] gk (x′ ) ϕ(x′ )
E E
∫
= µ− ′ ′ ′ −
k (dx ) gk (x ) ϕ(x ) = ⟨µk , gk ϕ⟩ ,
E
7.1. MODÈLES DE MARKOV CACHÉS 77

et en particulier pour ϕ ≡ 1
⟨µk−1 Rk , 1⟩ = ⟨µ−
k , gk ⟩ ,
et en normalisant, on vérifie que
⟨µk−1 Rk , ϕ⟩ ⟨µ− , gk ϕ⟩
= k− = ⟨µk , ϕ⟩ .
⟨µk−1 Rk , 1⟩ ⟨µk , gk ⟩

Preuve du Théorème 7.1. On procède en deux étapes, correspondant respectivement aux

étapes de prédiction et de correction, et en raisonnant d’abord sur les versions non normalisées.

Expression de µ−
n en fonction de µn−1 :
On remarque immédiatement que
∏
n−1
⟨γn− , 1⟩ = E[ gk (Xk ) ] = ⟨γn−1 , 1⟩ ,
k=0

c’est–à–dire que la constante de normalisation est conservée. En utilisant la propriété de Markov,

on a
∏
n−1
⟨γn− , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ]
k=0

∏
n−1
= E[ E[ϕ(Xn ) | X0:n−1 ] gk (Xk ) ]
k=0

∏
n−1
= E[ E[ϕ(Xn ) | Xn−1 ] gk (Xk ) ]
k=0

∏
n−1
= E[Qn ϕ(Xn−1 ) gk (Xk )] = ⟨γn−1 , Qn ϕ⟩ = ⟨γn−1 Qn , ϕ⟩ ,
k=0

pour toute fonction test ϕ définie sur E, où la dernière égalité exprime simplement que
∫
⟨γn−1 , Qn ϕ⟩ = γn−1 (dx) Qn ϕ(x)
E
∫ ∫ ∫ ∫
′ ′
= γn−1 (dx) [ Qn (x, dx ) ϕ(x ) ] = [ γn−1 (dx) Qn (x, dx′ ) ] ϕ(x′ )
E E E E
∫
= γn−1 Qn (dx′ ) ϕ(x′ ) = ⟨γn−1 Qn , ϕ⟩ .
E
Comme la fonction test ϕ est quelconque, on en déduit que
γn− = γn−1 Qn ,
et en normalisant, on obtient
γn− γn−1 Qn
µ−
n = − = = µn−1 Qn .
⟨γn , 1⟩ ⟨γ n−1 , 1⟩
78 CHAPITRE 7. FILTRAGE BAYÉSIEN

Expression de µn en fonction de µ−
n :

On a simplement

∏
n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ]
k=0

∏
n−1
= E[ϕ(Xn ) gn (Xn ) gk (Xk ) ] = ⟨γn− , gn ϕ⟩ = ⟨gn γn− , ϕ⟩ ,
k=0

pour toute fonction test ϕ définie sur E, où la dernière égalité exprime simplement que
∫ ∫
⟨γn− , gn ϕ⟩ = [gn (x) ϕ(x)] γn− (dx) = ϕ(x) [gn (x) γn− (dx)] = ⟨gn γn− , ϕ⟩ .
E E

Comme la fonction test ϕ est quelconque, on en déduit que

γn = gn γn− ,

et en normalisant, on obtient

γn gn γ − gn µ−
µn = = − n = − n ,
⟨γn , 1⟩ ⟨γn , gn ⟩ ⟨µn , gn ⟩

où la dernière égalité est obtenue en divisant numérateur et dénominateur par la constante de
normalisation ⟨γn− , 1⟩. 2

7.2 Chaı̂nes de Markov partiellement observées

D’après la propriété de Markov, la distribution de probabilité jointe des états cachés X0:n et des
observations Y0:n vérifie

P[X0:n ∈ dx0:n , Y0:n ∈ dy0:n ]

∏
n ∏
n
= [ γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) ] λF0 (dy0 ) λFk (yk−1 , dyk ) .
k=1 k=1

En intégrant par rapport aux variables x0:n , on obtient la distribution de probabilité jointe des
observations Y0:n , c’est–à–dire

P[Y0:n ∈ dy0:n ]

∫ ∫ ∏
n ∏
n
=[ ··· γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) ] λF0 (dy0 ) λFk (yk−1 , dyk ) .
E E k=1 k=1
7.2. CHAÎNES DE MARKOV PARTIELLEMENT OBSERVÉES 79

D’après la formule de Bayes, il vient

P[X0:n ∈ dx0:n , Y0:n ∈ dy0:n ]

∏
n ∏
n
= [ γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) ] λF0 (dy0 ) λFk (yk−1 , dyk )
k=1 k=1

= P[X0:n ∈ dx0:n | Y0:n = y0:n ] P[Y0:n ∈ dy0:n ]

= P[X0:n ∈ dx0:n | Y0:n = y0:n ]

∫ ∫ ∏
n ∏
n
[ ··· γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) ] λF0 (dy0 ) λFk (yk−1 , dyk ) ,
E E k=1 k=1

et on obtient
∏
n
γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk )
k=1
P[X0:n ∈ dx0:n | Y0:n = y0:n ] = ∫ ∫ ,
∏
n
··· γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk )
E E k=1

pour toute suite y0:n d’observations. Pour toute fonction test f définie sur l’espace produit
E n+1 = E × · · · × E, on a
∫ ∫ ∏
n
··· γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) f (x0:n )
E E k=1
E[f (X0:n ) | Y0:n = y0:n ] = ∫ ∫ ,
∏
n
··· γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk )
E E k=1

et on rappelle que

P[Y0:n ∈ dy0:n ]

∫ ∫ ∏
n ∏
n
=[ ··· γ0 (y0 , dx0 ) Rk (yk−1 , yk , xk−1 , dxk ) ] λF0 (dy0 ) λFk (yk−1 , dyk ) .
E E k=1 k=1

et comme ces identités sont vérifiées pour toute suite y0:n d’observations, on en déduit que la
distribution de probabilité conditionnelle jointe des états cachés X0:n sachant Y0:n est donnée
par
∫ ∫ ∏
n
··· γ0 (dx0 ) Rk (xk−1 , dxk ) f (x0:n )
E E k=1
E[f (X0:n ) | Y0:n ] = ∫ ∫ , (7.2)
∏
n
··· γ0 (dx0 ) Rk (xk−1 , dxk )
E E k=1
80 CHAPITRE 7. FILTRAGE BAYÉSIEN

et la fonction de vraisemblance du modèle est donnée par

∫ ∫ ∏
n
Ln = ··· γ0 (dx0 ) Rk (xk−1 , dxk ) ,
E E k=1

où la mesure positive γ0 (dx) et les noyaux positifs (non–normalisés) Rk (x, dx′ ) sont définis par
abus de notation comme

γ0 (dx) = γ0 (Y0 , dx) et Rk (x, dx′ ) = Rk (Yk−1 , Yk , x, dx′ ) ,

pour tout k = 1, · · · , n, et dépendent implicitement des observations Y0:n , mais celles–ci sont
considérées comme fixées dans les expressions ci–dessus. En particulier, la distribution de pro-
babilité conditionnelle de l’état caché Xn sachant Y0:n est donnée par
∫ ∫ ∏
n
··· γ0 (dx0 ) Rk (xk−1 , dxk ) ϕ(xn )
E E k=1 ⟨γn , ϕ⟩
⟨µn , ϕ⟩ = E[ϕ(Xn ) | Y0:n ] = ∫ ∫ = ,
∏
n
⟨γn , 1⟩
··· γ0 (dx0 ) Rk (xk−1 , dxk )
E E k=1

où la mesure positive (non–normalisée) γn (dx) est définie par

∫ ∫ ∏
n
⟨γn , ϕ⟩ = ··· γ0 (dx0 ) Rk (xk−1 , dxk ) ϕ(xn ) ,
E E k=1

et pour ϕ ≡ 1, on a
∫ ∫ ∏
n
⟨γn , 1⟩ = ··· γ0 (dx0 ) Rk (xk−1 , dxk ) = Ln .
E E k=1

Théorème 7.4 (Filtre bayésien) La suite {µk } vérifie l’équation récurrente suivante

µk−1 Rk
µk = ,
⟨µk−1 Rk , 1⟩

et la suite {Lk } vérifie l’équation récurrente suivante

∏
n
Lk = ⟨µk−1 Rk , 1⟩ Lk−1 soit en itérant Ln = ⟨µk−1 Rk , 1⟩ ⟨γ0 , 1⟩ .
k=1
7.2. CHAÎNES DE MARKOV PARTIELLEMENT OBSERVÉES 81

Preuve. On a
∫ ∫ ∏
n
⟨γn , ϕ⟩ = ··· γ0 (dx0 ) Rk (xk−1 , dxk ) ϕ(xn )
E E k=1
∫ ∫ ∏
n−1 ∫
= ··· γ0 (dx0 ) Rk (xk−1 , dxk ) Rn (xn−1 , dxn ) ϕ(xn )
E E k=1 E

∫ ∫ ∏
n−1
= ··· γ0 (dx0 ) Rk (xk−1 , dxk ) Rn ϕ(xn−1 )
E E k=1

= ⟨γn−1 , Rn ϕ⟩ = ⟨γn−1 Rn , ϕ⟩ .

Comme la fonction test ϕ est quelconque, on en déduit que

γn = γn−1 Rn ,

et en normalisant, on obtient

γn γn−1 Rn µn−1 Rn
µn = = = ,
⟨γn , 1⟩ ⟨γn−1 Rn , 1⟩ ⟨µn−1 Rn , 1⟩

où la dernière égalité est obtenue en divisant numérateur et dénominateur par la constante de
normalisation ⟨γn−1 , 1⟩. 2
On a déjà vu à la Section 5.4 que les mesures positives γ0 (y, dx) et les noyaux positifs
Rk (y, y ′ , x, dx′ ) peuvent être factorisés comme

γ0 (y, dx) = g0imp (y, x) η0imp (y, dx) et Rk (y, y ′ , x, dx′ ) = gkimp (y, y ′ , x, x′ ) Qimp ′ ′
k (y, y , x, dx ) ,

respectivement, c’est–à–dire comme le produit

• d’une fonction de pondération positive g0imp (y, x) ou gkimp (y, y ′ , x, x′ ),

• et d’une distribution de probabilité η0imp (y, dx) ou d’un noyau markovien Qimp ′ ′
k (y, y , x, dx ),

et avec les abus de notation habituels, une telle décomposition implique que la mesure positive
γ0 (dx) et le noyau positif Rk (x, dx′ ) peuvent être factorisés comme

γ0 (dx) = g0imp (x) η0imp (dx) et Rk (x, dx′ ) = gkimp (x, x′ ) Qimp ′
k (x, dx ) , (7.3)

respectivement, c’est–à–dire comme le produit

• d’une fonction de pondération positive, éventuellement aléatoire, g0imp (x) = g0imp (Y0 , x) ou
gkimp (x, x′ ) = gkimp (Yk−1 , Yk , x, x′ ),

• et d’une distribution de probabilité, éventuellement aléatoire, η0imp (dx) = η0imp (Y0 , dx) ou
d’un noyau markovien, éventuellement aléatoire, Qimp ′ imp ′
k (x, dx ) = Qk (Yk−1 , Yk , x, dx ).
82 CHAPITRE 7. FILTRAGE BAYÉSIEN

Cette décomposition est évidemment non unique : dans le cas particulier des modèles de Markov
cachés, le premier exemple d’une telle décomposition est donné naturellement par la définition

γ0 (dx) = g0 (x) η0 (dx) et Rk (x, dx′ ) = Qk (x, dx′ ) gk (x′ ) ,

avec le même abus de notation, et un autre exemple de décomposition est

γ0 (dx) Rk (x, dx′ )

γ0 (dx) = γ0 (E) et Rk (x, dx′ ) = Rk (x, E) ,
γ (E) R (x, E)
| 0{z } | {z } | k {z }
ηb0 (dx) gbk (x) Qb k (x, dx′ )

où la fonction de pondération

∫
gbk (x) = Rk (x, E) = Qk (x, dx′ ) gk (x′ ) ,
E

peut être interprétée pour tout état x ∈ E comme une mesure quantitative du recouvrement
entre l’application x′ 7→ gk (x′ ) et la distribution de probabilité Qk (x, dx′ ). En pratique, la
décomposition d’importance doit être telle que

• il est facile de simuler une variable aléatoire selon la distribution de probabilité η0imp (dx),

• il est facile d’évaluer pour tout x ∈ E la fonction d’importance g0imp (x),

et pour tout instant k = 1, · · · , n

• il est facile de simuler pour tout x ∈ E une variable aléatoire selon la distribution de
probabilité Qimp ′
k (x, dx ),

• il est facile d’évaluer pour tout x, x′ ∈ E la fonction d’importance gkimp (x, x′ ),

quand bien même l’expression analytique du noyau positif Rk (x, dx′ ) serait inconnue, ou telle-
ment compliquée qu’il serait impossible en pratique de calculer des intégrales telles que
∫ ∫
′ ′ ′
Rk ϕ(x) = Rk (x, dx ) ϕ(x ) ou µ Rk (dx ) = µ(dx) Rk (x, dx′ ) .
E E

Exemple 7.5 Cette situation favorable se rencontre par exemple pour le système non–linéaire,
présenté dans l’Exemple 5.6, avec des bruits gaussiens additifs et une fonction d’observation
linéaire
Xk = fk (Xk−1 ) + σk (Xk−1 ) Wk ,
(7.4)
Yk = Hk Xk + hk + Vk ,
où les suites {Wk } et {Vk } sont des bruits blancs gaussiens indépendants, indépendants de
la condition initiale X0 , de matrices de covariance identité et QVk respectivement (avec QVk
inversible) à l’instant k. Dans ce cas en eﬀet
7.2. CHAÎNES DE MARKOV PARTIELLEMENT OBSERVÉES 83

• il est facile de simuler un vecteur aléatoire X ′ selon la distribution de probabilité ηb0 (dx) :
il suﬃt de simuler deux vecteurs aléatoires gaussiens indépendants X et V , de moyenne
X̄0 et 0 et de matrice de covariance QX V
0 et Q0 respectivement, et de poser

X ′ = X + QX ∗ X ∗ V −1
0 H0 [H0 Q0 H0 + Q0 ] (Y0 − (H0 X + h0 + V )) ,

et pour tout instant k = 1, · · · , n

• il est facile d’évaluer pour tout x ∈ E la densité de probabilité gaussienne

gbk (x) = q(Yk − (Hk fk (x) + hk ), Hk Σk (x) Hk∗ + QVk ) ,

de moyenne Hk fk (x) + hk et de matrice de covariance inversible Hk Σk (x) Hk∗ + QVk avec

Σk (x) = σk (x) σk∗ (x),

• et il est facile de simuler pour tout x ∈ E un vecteur aléatoire X ′ selon la distribution de

probabilité Qb k (x, dx′ ) : il suﬃt de simuler deux vecteurs aléatoires gaussiens indépendants
W et V , centrés et de matrice de covariance identité et QVk respectivement, et de poser

X = fk (x) + σk (x) W ,

et
X ′ = X + Σk (x) Hk∗ [Hk Σk (x) Hk∗ + QVk ]−1 (Yk − (Hk X + hk + V )) .

L’équation du filtre bayésien a été obtenue très simplement, mais il est en général impossible
de la résoudre, sauf dans le cas particulier des systèmes linéaires gaussiens, où elle se ramène aux
équations du filtre de Kalman, présentées au Chapitre 3. Il faut donc avoir recours à une approxi-
mation numérique, et on présente ci–dessous une approximation de type Monte Carlo, appelée
filtre particulaire, qui a connu un développement spectaculaire au cours des dernières années,
et qui est maintenant largement répendu, en particulier dans les applications en localisation,
navigation ou poursuite de mobiles, aussi bien dans le domaine militaire (aéronef, sous–marin,
bâtiment de surface, missile, drone, etc.), que dans le domaine civil, avec des applications en
robotique mobile ou en communications sans–fil.
84 CHAPITRE 7. FILTRAGE BAYÉSIEN
Chapitre 8

Généralisation : distributions de
Feynman–Kac

8.1 Modèle de base

Plus généralement, on peut s’intéresser aux distributions non–normalisées et aux distributions

normalisées associées, définies par
∏
n
⟨γn , ϕ⟩
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ] et ⟨µn , ϕ⟩ = , (8.1)
⟨γn , 1⟩
k=0
et par
∏
n−1
⟨γn− , ϕ⟩
⟨γn− , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ] et ⟨µ−
n , ϕ⟩ = ,
k=0
⟨γn− , 1⟩
pour toute fonction mesurable bornée ϕ, où {Xk , k = 0, 1, · · · , n} est une chaı̂ne de Markov
caractérisée par

• la distribution de probabilité initiale η0 (dx),

• et les noyaux de probabilités de transition Qk (x, dx′ ), pour tout k = 1, · · · , n,

et où gk (x) sont des fonctions mesurables bornées (strictement positives) données, appelées
fonctions de sélection ou fonctions de fitness, pour tout k = 0, 1, · · · , n. L’hypothèse minimale,
faute de quoi le problème n’est pas bien posé, est que ⟨γn , 1⟩ > 0, ce qui est assuré par exemple
si les fonctions de sélection sont strictement positives.

▶ Équation récurrente En procédant comme dans la preuve du Théorème 7.1, on obtient

∏
k
⟨γk , ϕ⟩ = E[ϕ(Xk ) gp (Xp ) ]
p=0

∏
k−1
= E[ϕ(Xk ) gk (Xk ) gp (Xp ) ] = ⟨γk− , gk ϕ⟩ = ⟨gk γk− , ϕ⟩ ,
p=0

85
86 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

et en utilisant la propriété de Markov, on obtient

∏
k−1
⟨γk− , ϕ⟩ = E[ϕ(Xk ) gp (Xp ) ]
p=0

∏
k−1
= E[ E[ϕ(Xk ) | X0:k−1 ] gp (Xp ) ]
p=0

∏
k−1
= E[ E[ϕ(Xk ) | Xk−1 ] gp (Xp ) ]
p=0

∏
k−1
= E[ Qk ϕ(Xk−1 ) gp (Xp ) ] = ⟨γk−1 , Qk ϕ⟩ = ⟨γk−1 Qk , ϕ⟩ ,
p=0

pour toute fonction mesurable bornée ϕ, de sorte que la distribution non–normalisée vérifie la
relation de récurrence linéaire

γk = gk (γk−1 Qk ) = gk ηk ⟨γk−1 , 1⟩ et γ0 = g 0 η 0 , (8.2)

en posant ηk = µk−1 Qk , ou de manière équivalente γk = γk−1 Rk où le noyau positif (non

normalisé) Rk est défini par Rk (x, dx′ ) = Qk (x, dx′ ) gk (x′ ). La constante de normalisation vérifie
la relation de récurrence

⟨γk , 1⟩ = ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩ et ⟨γ0 , 1⟩ = ⟨η0 , g0 ⟩ , (8.3)

de sorte que la distribution normalisée vérifie la relation de récurrence non–linéaire décrite par
le schéma suivant

mutation pondération
µk−1 −−−−−−−−−−→ ηk = µk−1 Qk −−−−−−−−−−−−→ µk = gk · ηk ,

avec la condition initiale µ0 = g0 · η0 , où la notation · désigne le produit projectif. Il résulte de

la relation de récurrence (8.3) et de la définition (8.1) que

∏
n ∏
n
⟨γn , 1⟩ = E[ gk (Xk ) ] = ⟨ηk , gk ⟩ ,
k=0 k=0

c’est–à–dire que l’espérance d’un produit est remplacée par un produit d’espérances.
On remarque que la distribution non–normalisée vérifie aussi la relation de récurrence linéaire

γk− = (gk−1 γk−1

−
) Qk et γ0− = η0 , (8.4)

ou de manière équivalente γk− = γk−1 −

Rk− où le noyau positif (non normalisé) Rk− est défini
par Rk− (x, dx′ ) = gk−1 (x) Qk (x, dx′ ). On montre par récurrence arrière l’identité suivante entre
noyaux positifs (non–normalisés)
−
gk (Rk+1:n−1 Qn ) = Rk+1:n , (8.5)
8.1. MODÈLE DE BASE 87

valide pour tout k = (n − 1), · · · , 1, 0. Par définition, on a immédiatement

gn−1 (x) Qn (x, dx′ ) = Rn− (x, dx′ ) ,

c’est–à–dire que l’identité (8.5) est vérifiée pour k = (n − 1). D’autre part, si l’identité (8.5) est
vérifiée à l’étape k, alors

gk−1 (x) (Rk:n−1 Qn )(x, dx′ ) = gk−1 (x) (Rk (Rk+1:n−1 Qn ))(x, dx′ )
∫
= gk−1 (x) Rk (x, dx′′ ) (Rk+1:n−1 Qn )(x′′ , dx′ )
E
∫
= gk−1 (x) Qk (x, dx′′ ) gk (x′′ ) (Rk+1:n−1 Qn )(x′′ , dx′ )
E
∫
−
= gk−1 (x) Qk (x, dx′′ ) Rk+1:n (x′′ , dx′ )
E
∫
= Rk− (x, dx′′ ) Rk+1:n
−
(x′′ , dx′ )
E

−
= Rk:n (x, dx′ ) ,

c’est–à–dire que l’identité (8.5) est vérifiée à l’étape (k − 1). En particulier, il résulte de (8.5)
que
−
gk Rk+1:n−1 1 = gk Rk+1:n−1 Qn 1 = Rk+1:n 1, (8.6)
pour tout k = 0, 1, · · · , (n − 1).

▶ Changement de modèle Si la distribution de probabilité initiale η0 (dx) est absolument

continue par rapport à une autre distribution de probabilité η00 (dx), avec la densité r0 (x), et
si le noyau de transition Qk (x, dx′ ) est absolument continu par rapport à un autre noyau de
transition Q0k (x, dx′ ), avec la densité rk (x, x′ ), c’est–à–dire que

η0 (dx) = r0 (x) η00 (dx) et Qk (x, dx′ ) = rk (x, x′ ) Q0k (x, dx′ ) , (8.7)

pour tout k = 1, · · · , n, alors

∏
n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ]
k=0
∫ ∫ ∏
n ∏
n
= ··· ϕ(xn ) gk (xk ) η0 (dx0 ) Qk (xk−1 , dxk )
E E k=0 k=1
∫ ∫ ∏
n ∏
n ∏
n
= ··· ϕ(xn ) gk (xk ) r0 (x0 ) rk (xk−1 , dxk ) η00 (dx0 ) Q0k (xk−1 , dxk )
E E k=0 k=1 k=1

∏
n
= E[ϕ(Xn0 ) gk0 (Xk−1
0
, Xk0 ) ] ,
k=0
88 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

pour toute fonction mesurable bornée ϕ, où la suite {Xk0 , k = 0, 1, · · · , n} est une chaı̂ne de
Markov, caractérisée par

• la distribution de probabilité initiale η00 (dx) ,

• et les noyaux de probabilités de transition Q0k (x, dx′ ), pour tout k = 1, · · · , n,

et où les fonctions de sélection sont définies par

g00 (x, x′ ) = g0 (x′ ) r0 (x′ ) et gk0 (x, x′ ) = gk (x′ ) rk (x, x′ ) ,
pour tout k = 1, · · · , n.
A première vue, cette expression paraı̂t plus générale compte tenu que chaque fonction de
sélection dépend maintenant de la transition courante (et plus seulement de l’état courant) de
la chaı̂ne de Markov.

8.2 Modèle (apparamment) plus général

Plus généralement encore, on peut aussi s’intéresser à la distribution non–normalisée et à la

distribution normalisée associée, définies par
∫ ∫ ∏
n
⟨γn , ϕ⟩
⟨γn , ϕ⟩ = ··· γ0 (dx0 ) Rk (xk−1 , dxk ) ϕ(xn ) et ⟨µn , ϕ⟩ = , (8.8)
E E ⟨γn , 1⟩
k=1

pour toute fonction mesurable bornée ϕ, où γ0 est une mesure positive donnée et où {Rk , k =
1, · · · , n} sont des noyaux positifs (non–normalisés) donnés. Ce modèle général inclut comme
cas particulier le modèle (8.1), avec
γ0 (dx) = η0 (dx) g0 (x) et Rk (x, dx′ ) = Qk (x, dx′ ) gk (x′ ) .

▶ Équation récurrente En procédant comme dans la preuve du Théorème 7.4, on obtient

∫ ∫ ∏
k
⟨γk , ϕ⟩ = ··· γ0 (dx0 ) Rp (xp−1 , dxp ) ϕ(xk )
E E p=1

∫ ∫ ∏
k−1 ∫
= ··· γ0 (dx0 ) Rp (xp−1 , dxp ) Rk (xk−1 , dxk ) ϕ(xk )
E E p=1 E

∫ ∫ ∏
k−1
= ··· γ0 (dx0 ) Rp (xp−1 , dxp ) Rk ϕ(xk−1 )
E E p=1

= ⟨γk−1 , Rk ϕ⟩ = ⟨γk−1 Rk , ϕ⟩ ,
pour toute fonction mesurable bornée ϕ, de sorte que la distribution non–normalisée vérifie la
relation de récurrence linéaire
γk = γk−1 Rk = µk−1 Rk ⟨γk−1 , 1⟩ . (8.9)
8.2. MODÈLE (APPARAMMENT) PLUS GÉNÉRAL 89

La constante de normalisation vérifie la relation de récurrence

⟨γk , 1⟩ = ⟨γk−1 Rk , 1⟩ = ⟨µk−1 Rk , 1⟩ ⟨γk−1 , 1⟩ . (8.10)

de sorte que la distribution normalisée vérifie la relation de récurrence non–linéaire décrite par
le schéma suivant
µk−1 Rk
µk−1 −−−−−−−−−→ µk = ,
⟨µk−1 Rk , 1⟩

avec la condition initiale µ0 = γ0 /⟨γ0 , 1⟩. Il résulte de la relation de récurrence (8.10) et de la

définition (8.8) que
∫ ∫ ∏
n ∏
n
⟨γn , 1⟩ = ··· γ0 (dx0 ) Rk (xk−1 , dxk ) = ⟨γ0 , 1⟩ ⟨µk−1 Rk , 1⟩ ,
E E k=1 k=1

c’est–à–dire qu’une intégrale multiple est remplacée par un produit d’intégrales doubles.

▶ Décomposition d’importance En toute généralité, les mesures positives γ0 (dx) et les

noyaux positifs Rk (x, dx′ ) peuvent être factorisés comme

γ0 (dx) = g0imp (x) η0imp (dx) et Rk (x, dx′ ) = gkimp (x, x′ ) Qimp ′
k (x, dx ) , (8.11)

respectivement, c’est–à–dire comme le produit

• d’une fonction de pondération positive g0imp (x) ou gkimp (x, x′ ),

• et d’une distribution de probabilité η0imp (dx) ou d’un noyau de probabilités de transition

Qimp ′
k (x, dx ),

pour tout k = 1, · · · , n, d’où on déduit l’expresssion équivalente suivante

∫ ∫ ∏
n ∏
n
⟨γn , ϕ⟩ = ··· η0imp (dx0 ) Qimp imp
k (xk−1 , dxk ) g0 (x0 ) gkimp (xk−1 , xk ) ϕ(xn ) ,
E E k=1 k=1

et la représentation probabiliste

∏
n
⟨γn , ϕ⟩ = E[ϕ(Xnimp ) gkimp (Xk−1
imp
, Xkimp ) ] , (8.12)
k=0

pour toute fonction mesurable bornée ϕ, où la suite {Xkimp , k = 0, 1, · · · , n} est une chaı̂ne de
Markov caractérisée par

• la distribution de probabilité initiale η0imp (dx),

• et les noyaux de probabilités de transition Qimp ′

k (x, dx ), pour tout k = 1, · · · , n,
90 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

avec la convention g0imp (x, x′ ) = g0imp (x′ ) pour k = 0. On remarque que chaque fonction de
sélection dépend de la transition courante (et pas seulement de l’état courant) de la chaı̂ne de
Markov.
La décomposition (8.11) est évidemment non unique : dans le cas particulier du modèle
considéré à la Section 8.1, le premier exemple d’une telle décomposition est donné naturellement
par la définition

γ0 (dx) = g0 (x) η0 (dx) et Rk (x, dx′ ) = Qk (x, dx′ ) gk (x′ ) ,

où la fonction de sélection dépend seulement de l’état d’arrivée de la transition courante, et un

autre exemple de décomposition est
γ0 (dx) Rk (x, dx′ )
γ0 (dx) = γ0 (E) et Rk (x, dx′ ) = Rk (x, E) ,
γ (E) Rk (x, E)
| 0{z } | {z } | {z }
ηb0 (dx) gbk (x) Qb k (x, dx′ )

où la fonction de sélection ∫

γ0 (E) = g0 (x) η0 (dx) ,
E
est juste une constante, et où la fonction de sélection
∫
gbk (x) = Rk (x, E) = Qk (x, dx′ ) gk (x′ ) ,
E

dépend seulement de l’état de départ de la transition courante, et peut être interprétée pour tout
état x ∈ E comme une mesure quantitative du recouvrement entre l’application x′ 7→ gk (x′ ) et
la distribution de probabilité Qk (x, dx′ ), pour tout k = 1, · · · , n, et plus généralement, il existe
une décomposition

γ0 (dx) = g0 (x) r0 (x) η00 (dx) et Rk (x, dx′ ) = gk (x′ ) rk (x, x′ ) Q0k (x, dx′ ) ,
| {z } | {z }
′
g00 (x) 0
gk (x, x )

pour chaque changement de modèle du type considéré en (8.7).

Autant que possible, une distinction claire devra être faite entre les résultats et les estima-
tions qui dépendent seulement du noyau positif Rk (x, dx′ ), et les résultats et les estimations
qui dépendent spécifiquement de la décomposition d’importance (8.11) utilisée, c’est–à–dire qui
dépendent explicitement du noyau markovien Qimp ′ imp ′
k (x, dx ) et de la fonction positive gk (x, x ).
En pratique, la décomposition d’importance doit être telle que

• il est facile de simuler une variable aléatoire selon la distribution de probabilité η0imp (dx),

• il est facile d’évaluer pour tout x ∈ E la fonction d’importance g0imp (x),

et pour tout instant k = 1, · · · , n

• il est facile de simuler pour tout x ∈ E une variable aléatoire selon la distribution de
probabilité Qimp ′
k (x, dx ),
8.2. MODÈLE (APPARAMMENT) PLUS GÉNÉRAL 91

• il est facile d’évaluer pour tout x, x′ ∈ E la fonction d’importance gkimp (x, x′ ),

quand bien même l’expression analytique du noyau positif Rk (x, dx′ ) serait inconnue, ou telle-
ment compliquée qu’il serait impossible en pratique de calculer des intégrales telles que
∫ ∫
Rk ϕ(x) = Rk (x, dx′ ) ϕ(x′ ) où µ Rk (dx′ ) = µ(dx) Rk (x, dx′ ) .
E E

▶ Décomposition d’importance dite optimale En exploitant la décomposition

g0 (x) η0 (dx) = ⟨η0 , g0 ⟩ ηb0 (dx) , (8.13)
et ∫
′ ′ gk (x, x′ ) Qk (x, dx′ )
gk (x, x ) Qk (x, dx ) = gk (x, x′′ ) Qk (x, dx′′ ) ∫ , (8.14)
E gk (x, x′′ ) Qk (x, dx′′ )
| {z } |E {z }
gbk (x) b
Qk (x, dx )′

pour tout k = 1, · · · , n, décomposition qui devient triviale dans le cas particulier où la fonction
de sélection g0 (x) = cste est constante, et où la fonction de sélection gk (x, x′ ) = gk (x) ne
dépend que de l’état de départ de la transition courante, pour tout k = 1, · · · , n, on obtient la
représentation probabiliste équivalente
∏
n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk−1 , Xk ) ]
k=0
∫ ∫ ∏
n ∏
n
= ··· g0 (x0 ) η0 (dx0 ) gk (xk−1 , xk ) Qk (xk−1 , dxk ) ϕ(xn )
E E k=1 k=1
∫ ∫ ∏
n ∏
n
= ⟨η0 , g0 ⟩ ··· ηb0 (dx0 ) gbk (xk−1 ) b k (xk−1 , dxk ) ϕ(xn )
Q
E E k=1 k=1
∫ ∫ ∏
n−1 ∏
n
= ⟨η0 , g0 ⟩ ··· ηb0 (dx0 ) gbk+1 (xk ) b k (xk−1 , dxk ) ϕ(xn )
Q
E E k=0 k=1
∫ ∫ ∏
n−1 ∏
n
= ⟨η0 , g0 ⟩ ··· η0opt (dx0 ) gkopt (xk ) Qopt
k (xk−1 , dxk ) ϕ(xn )
E E k=0 k=1

∏
n−1
= ⟨η0 , g0 ⟩ E[ϕ(Xnopt ) gkopt (Xkopt ) ]
k=0

= ⟨η0 , g0 ⟩ ⟨γnopt− , ϕ⟩ ,
où la suite {Xkopt , k = 0, 1, · · · , n} est une chaı̂ne de Markov, caractérisée par

• la distribution de probabilité η0opt (dx) définie par (8.13), c’est–à–dire

g0 (x) η0 (dx)
η0opt (dx) = ηb0 (dx) = ∫ , (8.15)
g0 (dx′ ) η0 (dx′ )
E
92 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

• et les noyaux de probabilités de transition Qopt ′

k (x, dx ) définis par (8.14), c’est–à–dire

′ b ′ gk (x, x′ ) Qk (x, dx′ )

Qopt
k (x, dx ) = Qk (x, dx ) =
∫ , (8.16)
′′ ′′
gk (x, x ) Qk (x, dx )
E

pour tout k = 1, · · · , n,

et où les fonctions de sélection gkopt (x′ ) sont définies par (8.14), c’est–à–dire
∫
opt ′ ′
gk (x ) = gbk+1 (x ) = gk+1 (x′ , x′′ ) Qk+1 (x′ , dx′′ ) , (8.17)
E

pour tout k = 0, 1, · · · , (n − 1). En pratique, cette décomposition n’est vraiment utile que si

• il est facile de simuler une variable aléatoire selon la distribution de probabilité ηb0 (dx),

• il est facile d’évaluer la constante ⟨η0 , g0 ⟩,

et pour tout instant k = 1, · · · , n

• il est facile de simuler pour tout x ∈ E une variable aléatoire selon la distribution de
probabilité Qb k (x, dx′ ),

• il est facile d’évaluer pour tout x ∈ E la fonction d’importance gbk (x).

On introduit les distributions non–normalisées et les distributions normalisées associées, définies

par
∏n
⟨γnopt , ϕ⟩
⟨γnopt , ϕ⟩ = E[ϕ(Xnopt ) gkopt (Xkopt ) ] et ⟨µopt
n , ϕ⟩ = opt , (8.18)
k=0
⟨γ n , 1⟩
et
∏
n−1
⟨γnopt− , ϕ⟩
⟨γnopt− , ϕ⟩ = E[ϕ(Xnopt ) gkopt (Xkopt ) ] et ⟨ηnopt , ϕ⟩ = ,
k=0
⟨γnopt− , 1⟩
pour toute fonction mesurable bornée ϕ, et on remarque que

⟨γn , ϕ⟩ ⟨γnopt− , ϕ⟩
⟨µn , ϕ⟩ = = opt− = ⟨ηnopt , ϕ⟩ ,
⟨γn , 1⟩ ⟨γn , 1⟩

c’est–à–dire que la distribution normalisée µn (c’est–à–dire le filtre, dans le contexte du filtrage

bayésien) pour le modèle d’origine peut s’interpréter comme la distribution normalisée ηnopt
(c’est–à–dire le prédicteur, dans le contexte du filtrage bayésien) pour le modèle dit optimal, et
opt
⟨γn , 1⟩ = ⟨η0 , g0 ⟩ ⟨γnopt− , 1⟩ = ⟨η0 , g0 ⟩ ⟨γn−1 , 1⟩ ,

c’est–à–dire que la constante de normalisation ⟨γn , 1⟩ pour le modèle d’origine peut s’interpréter
opt
en terme de la constante de normalisation ⟨γn−1 , 1⟩ à l’instant précédent pour le modèle dit
8.3. MODÈLE À VALEURS TRANSITIONS OU TRAJECTOIRES 93

optimal. On déduit de (8.4) que la distribution non–normalisée vérifie la relation de récurrence

linéaire
γkopt− = (gk−1
opt opt−
γk−1 ) Qopt opt− opt−
k = γk−1 Rk ,

ou de manière équivalente γkopt− = γk−1

opt− opt−
Rk où le noyau positif (non–normalisé) Rkopt− est
défini par

Rkopt− (x, dx′ ) = gk−1

opt
(x) Qopt ′ b k (x, dx′ ) = Rk (x, dx′ ) ,
bk (x) Q
k (x, dx ) = g (8.19)

pour tout k = 1, · · · , n, et on déduit de (8.5) l’identité suivante entre noyaux positifs (non–
normalisés)
gkopt (Rk+1:n−1
opt
Qopt opt−
n ) = Rk+1:n = Rk+1:n , (8.20)
valide pour tout k = (n − 1), · · · , 1, 0.

Remarque 8.1 A titre de vérification, et sans repasser par l’identité (8.5), on peut montrer de
manière directe l’identité (8.20) par récurrence arrière. D’après (8.19) on a immédiatement
opt ′ ′
gn−1 (x) Qopt
n (x, dx ) = Rn (x, dx ) ,

c’est–à–dire que l’identité (8.20) est vérifiée pour k = (n − 1). D’autre part, si l’identité (8.20)
est vérifiée à l’étape k, alors d’après (8.19) on a
opt opt ′ opt opt opt ′
gk−1 (x) (Rk:n−1 Qopt opt
n )(x, dx ) = gk−1 (x) (Rk (Rk+1:n−1 Qn ))(x, dx )

∫
opt
= gk−1 (x) Rkopt (x, dx′′ ) (Rk+1:n−1
opt
Qopt ′′ ′
n )(x , dx )
E
∫
opt ′′ opt ′′ ′′ ′
= gk−1 (x) Qopt opt opt
k (x, dx ) gk (x ) (Rk+1:n−1 Qn )(x , dx )
E
∫
opt ′′ ′′ ′
= gk−1 (x) Qopt
k (x, dx ) Rk+1:n (x , dx )
E
∫
= Rk (x, dx′′ ) Rk+1:n (x′′ , dx′ )
E

= Rk:n (x, dx′ ) ,

c’est–à–dire que l’identité (8.20) est vérifiée à l’étape (k − 1). En particulier, il résulte de (8.20)
que
gkopt Rk+1:n−1
opt
1 = gkopt Rk+1:n−1
opt
Qopt
n 1 = Rk+1:n 1 , (8.21)
pour tout k = (n − 1), · · · , 1, 0.

8.3 Modèle à valeurs transitions ou trajectoires

94 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

Tous les modèles présentés jusqu’ici semblent pouvoir être vus comme des cas particuliers du
modèle
∏ n
⟨γn , ϕ⟩
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk−1 , Xk ) ] et ⟨µn , ϕ⟩ = , (8.22)
⟨γn , 1⟩
k=0

pour toute fonction mesurable bornée ϕ, où {Xk , k = 0, 1, · · · , n} est une chaı̂ne de Markov
caractérisée par

• la distribution de probabilité initiale η0 (dx),

• les noyaux de probabilités de transition Qk (x, dx′ ), pour tout k = 1, · · · , n,

et où gk (x, x′ ) sont des fonctions mesurables bornées (strictement positives) données, appelées
fonctions de sélection ou fonctions de fitness, pour tout k = 0, 1, · · · , n, avec la convention
g0 (x, x′ ) = g0 (x′ ) pour k = 0.
On remarque que chaque fonction de sélection dépend de la transition courante de la chaı̂ne
de Markov, ce qui inclus comme cas particuliers le cas où chaque fonction de sélection dépend
seulement de l’état d’arrivée de la transition courante, comme dans le modèle (8.1), et le cas où
chaque fonction de sélection dépend seulement de l’état de départ de la transition courante.
Le modèle (8.22) peut être vu comme un cas particulier du modèle (8.8), avec

γ0 (dx) = g0 (x) η0 (dx) et Rk (x, dx′ ) = gk (x, x′ ) Qk (x, dx′ ) ,

pour tout k = 1, · · · , n. En eﬀet

∏
n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk−1 , Xk ) ]
k=0
∫ ∫ ∏
n ∏
n
= ··· ϕ(xn ) gk (xk−1 , xk ) η0 (dx0 ) Qk (xk−1 , dxk )
E E k=0 k=1
∫ ∫ ∏
n
= ··· ϕ(xn ) γ0 (dx0 ) Rk (xk−1 , dxk ) ,
E E k=1

pour toute fonction mesurable bornée ϕ, et on déduit de (8.9) que la distribution non–normalisée
vérifie la relation de récurrence linéaire

γk = γk−1 Rk = µk−1 Rk ⟨γk−1 , 1⟩ . (8.23)

▶ Équation récurrente On remarque que

∫ ∫
µ Rk (dx′ ) = µ(dx) Rk (x, dx′ ) = gk (x, x′ ) µ(dx) Qk (x, dx′ ) ,
E E
8.3. MODÈLE À VALEURS TRANSITIONS OU TRAJECTOIRES 95

de sorte que
∫ ∫
⟨µ Rk , ϕ⟩ = [ gk (x, x′ ) µ(dx) Qk (x, dx′ ) ] ϕ(x′ )
E E
∫ ∫
= ϕ(x′ ) gk (x, x′ ) µ(dx) Qk (x, dx′ )
E E

= ⟨µ ⊗ Qk , gk ϕ ◦ π⟩ ,

pour toute fonction mesurable bornée ϕ, et en particulier pour ϕ ≡ 1

∫ ∫
⟨µ Rk , 1⟩ = gk (x, x′ ) µ(dx) Qk (x, dx′ ) = ⟨µ ⊗ Qk , gk ⟩ ,
E E

où π : (x, x′ ) ∈ E × E 7→ x′ ∈ E désigne la projection sur la deuxième composante de l’espace

produit E × E, c’est–à–dire que l’application π pointe sur l’état final de la transition, et où
µ ⊗ Qk désigne la distribution de probabilité jointe

(µ ⊗ Qk )(dx, dx′ ) = µ(dx) Qk (x, dx′ ) ,

sur l’espace produit E × E, c’est–à–dire que

µ Rk = (gk (µ ⊗ Qk )) ◦ π −1 .

En utilisant cette expression dans (8.23), on obtient

γk = (gk (γk−1 ⊗ Qk )) ◦ π −1 et γ0 = g0 η0 , (8.24)

et la constante de normalisation vérifie

⟨γk , 1⟩ = ⟨µk−1 ⊗ Qk , gk ⟩ ⟨γk−1 , 1⟩ et ⟨γ0 , 1⟩ = ⟨η0 , g0 ⟩ . (8.25)

Il résulte de la relation de récurrence (8.25) et de la définition (8.22) que

∏
n ∏
n
⟨γn , 1⟩ = E[ gk (Xk−1 , Xk ) ] = ⟨η0 , g0 ⟩ ⟨µk−1 ⊗ Qk , gk ⟩ ,
k=0 k=1

c’est–à–dire que l’espérance d’un produit est remplacée par un produit d’espérances.

Remarque 8.2 Pour générer une variable aléatoire (X, X ′ ) distribuée selon (µ ⊗ Qk )(dx, dx′ ),
il suﬃt de générer d’abord une variable aléatoire X distribuée selon µ(dx), et de générer ensuite
une variable aléatoire X ′ distribuée selon Qk (X, dx′ ).
96 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

▶ Représentation intégrale et distribution de Gibbs–Boltzmann trajectorielle On

remarque que
∏
n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk−1 , Xk ) ]
k=0
∫ ∫ ∏
n ∏
n
= ··· ϕ(xn ) gk (xk−1 , xk ) η0 (dx0 ) Qk (xk−1 , dxk )
E E k=0 k=1
∫ ∫
= ··· ϕ ◦ π(x0:n ) g0:n (x0:n ) η0:n (dx0:n )
E E

= ⟨η0:n , g0:n ϕ ◦ π⟩

= E[ϕ ◦ π(X0:n ) g0:n (X0:n )] ,

pour toute fonction mesurable bornée ϕ, où π : (x0 , · · · , xn ) ∈ E × · · · × E 7→ xn ∈ E désigne

la projection sur la dernière composante de l’espace produit E n+1 = E × · · · × E, c’est–à–dire
que l’application π pointe sur l’état final de la trajectoire, où
∏
n
η0:n (dx0:n ) = η0 (dx0 ) Qk (xk−1 , dxk ) = P[X0:n ∈ dx0:n ] ,
k=1

dénote la distribution de probabilité conjointe des états successifs de la chaı̂ne de Markov, ou de

manière équivalente la distribution de probabilité de la trajectoire X0:n = (X0 , · · · , Xn ), et où
∏
n
g0:n (x0:n ) = gk (xk−1 , xk ) .
k=0

On remarque que
⟨γn , ϕ⟩ ⟨η0:n , g0:n ϕ ◦ π⟩
⟨µn , ϕ⟩ = = ,
⟨γn , 1⟩ ⟨η0:n , g0:n ⟩
pour toute fonction mesurable bornée ϕ, de sorte que la distribution normalisée µn s’exprime en
terme de la distribution de Gibbs–Boltzmann
g0:n η0:n
µ0:n = g0:n · η0:n = ,
⟨η0:n , g0:n ⟩
définie sur l’espace trajectoriel E n+1 = E × · · · × E, comme µn = µ0:n ◦ π −1 .

▶ Chaı̂ne de Markov à valeurs transitions En fait, contrairement aux apparences, le

modèle (8.22) où chaque fonction de sélection dépend de la transition courante de la chaı̂ne
de Markov, n’est pas plus général que le modèle (8.1) où chaque fonction de sélection dépend
seulement de l’état courant de la chaı̂ne de Markov, pourvu qu’on change de point de vue,
comme le montre le raisonnement suivant. On définit la variable aléatoire Xktr = (Xk−1 , Xk ) à
valeurs dans l’ensemble produit E tr = E × E, pour tout k = 1, · · · , n et la variable aléatoire
X0tr = X0 à valeurs dans E, pour k = 0. Clairement, la suite {Xktr , k = 0, 1, · · · , n} est une
chaı̂ne de Markov, caractérisée par
8.3. MODÈLE À VALEURS TRANSITIONS OU TRAJECTOIRES 97

• la distribution de probabilité initiale η0tr (dx) = η0 (dx),

• et les noyaux de probabilités de transition Qtr ′ ′

k (x1 , x2 , dx1 , dx2 ) définis par
′ ′ ′ ′ ′
Qtr
k (x1 , x2 , dx1 , dx2 ) = δx2 (dx1 ) Qk (x1 , dx2 ) , (8.26)

pour tout k = 1, · · · , n,

c’est–à–dire que l’état de départ de la nouvelle transition coı̈ncide avec l’état d’arrivée de la
transition précédente et l’état d’arrivée de la nouvelle transition est distribué à partir de l’état
de départ selon le noyau de transition du modèle (8.22), et on considère la distribution non–
normalisée et la distribution normalisée associée, définies par
∏
n
⟨γntr , f ⟩
⟨γntr , f ⟩ = E[f (Xntr ) gk (Xktr ) ] et ⟨µtr
n , f⟩ = , (8.27)
⟨γntr , 1⟩
k=0

pour toute fonction mesurable bornée f définie sur l’ensemble produit E tr = E × E. On vérifie
que
∏
n ∏
n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk−1 , Xk ) ] = E[ϕ ◦ π(Xntr ) gk (Xktr ) ] = ⟨γntr , ϕ ◦ π⟩ ,
k=0 k=0

pour toute fonction mesurable bornée ϕ, où π : (x, x′ ) ∈ E × E 7→ x′ ∈ E désigne la projection

sur la dernière composante de l’espace produit E × E, c’est–à–dire que l’application π pointe
sur l’état d’arrivée de la transition, de sorte que γn = γntr ◦ π −1 . En d’autres termes, la distri-
bution non–normalisée pour le modèle apparamment plus général (8.22) où chaque fonction de
sélection dépend de la transition courante de la chaı̂ne de Markov, s’exprime aussi en terme de
la distribution non–normalisée pour le modèle plus simple (8.27) où chaque fonction de sélection
dépend seulement de l’état courant de la chaı̂ne de Markov, pourvu qu’on change de point de
vue.
On en déduit en particulier que la distribution non–normalisée vérifie la relation de récurrence
linéaire
γktr = gk (γk−1 k ) = gk ηk ⟨γk−1 , 1⟩
tr
Qtr tr tr
et γ0tr = g0 η0 , (8.28)
en posant ηktr = µtr tr
k−1 Qk , et la constante de normalisation vérifie la relation de récurrence

⟨γktr , 1⟩ = ⟨ηktr , gk ⟩ ⟨γk−1

tr
, 1⟩ et ⟨γ0tr , 1⟩ = ⟨η0 , g0 ⟩ . (8.29)

Il résulte de la relation de récurrence (8.29) et de la définition (8.27) que

∏
n ∏
n
⟨γn , 1⟩ = ⟨γntr , 1⟩ = E[ gk (Xktr ) ] = ⟨ηktr , gk ⟩ ,
k=0 k=0

c’est–à–dire que l’espérance d’un produit est remplacée par un produit d’éspérances.

Remarque 8.3 A titre de vérification et sans repasser par les représentations probabilistes as-
sociées (8.22) et (8.27), on peut montrer de manière directe la consistance des deux suites définies
par les relations de récurrence (8.24) et (8.28) respectivement, c’est–à–dire vérifier par récurrence
98 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC

que γktr ◦ π −1 = γk , pour tout k = 1, · · · , n. On suppose que l’hypothèse de récurrence est vraie
au rang (k − 1), c’est–à–dire que la distribution marginale (non–normalisée) de γk−1 tr coincide
tr
avec la distribution non–normalisée γk−1 , ou en d’autres termes γk−1 (E, dx2 ) = γk−1 (dx2 ), et
en utilisant la relation de récurrence (8.28) on remarque que

⟨γktr , ϕ ◦ π⟩ = ⟨γk−1
tr
k , ϕ ◦ π gk ⟩
Qtr
∫ ∫ ∫ ∫
= tr
γk−1 (dx1 , dx2 ) δx2 (dx′1 ) Qk (x′1 , dx′2 ) ϕ(x′2 ) gk (x′1 , x′2 )
E E E E
∫ ∫ ∫
= tr
γk−1 (dx1 , dx2 ) Qk (x2 , dx′2 ) ϕ(x′2 ) gk (x2 , x′2 )
E E E
∫ ∫
= tr
γk−1 (E, dx2 ) Qk (x2 , dx′2 ) ϕ(x′2 ) gk (x2 , x′2 )
E E
∫ ∫
= γk−1 (dx2 ) Qk (x2 , dx′2 ) ϕ(x′2 ) gk (x2 , x′2 )
E E
∫ ∫
= γk−1 (dx2 ) Qk (x2 , dx′2 ) ϕ(x′2 ) gk (x2 , x′2 )
E E
∫ ∫
= (γk−1 ⊗ Qk )(dx2 , dx′2 ) ϕ(x′2 ) gk (x2 , x′2 )
E E

= ⟨γk−1 ⊗ Qk , gk ϕ ◦ π⟩

pour toute fonction mesurable bornée ϕ, de sorte que

γktr ◦ π −1 = (gk (γk−1 ⊗ Qk )) ◦ π −1 = γk ,

en utilisant la relation de récurrence (8.24), c’est–à–dire que l’hypothèse de récurrence est vraie
au rang k.

▶ Chaı̂ne de Markov à valeurs trajectoires Plus généralement encore, tous les modèles
présentés jusqu’ici peuvent être vus comme des cas particuliers du modèle trajectoriel suivant.
On définit la variable aléatoire Xk• = X0:k = (X0 , · · · , Xk ) à valeurs dans l’espace produit
E k+1 = E ×· · ·×E dépendant du temps, pour tout k = 0, 1, · · · , n. Clairement la suite {Xk• , k =
0, 1, · · · , n} est une chaı̂ne de Markov, caractérisée par

• la distribution de probabilité intitiale η0• (dx0:0 ) = η0 (dx0 ),

• et les noyaux de probabilités de transition Q•k (x0:k−1 , dx′0:k ) définis par

Q•k (x0 , · · · , xk−1 , dx′0 , · · · , dx′k ) = δx0 (dx′0 ) · · · δxk−1 (dx′k−1 ) Qk (xk−1 , dx′k ) ,

pour tout k = 1, · · · , n,
8.3. MODÈLE À VALEURS TRANSITIONS OU TRAJECTOIRES 99

et on considère la distribution non–normalisée et à la distribution normalisée associée, définies

par
∏
n
⟨γ • , f ⟩
• •
⟨γn , f ⟩ = E[f (Xn ) gk• (Xk• ) ] et ⟨µ•n , f ⟩ = n• , (8.30)
⟨γn , 1⟩
k=0

pour toute fonction mesurable bornée f définie sur l’ensemble produit E n+1 = E × · · · × E, où
les fonctions de sélection gk• (x0:k ) sont définies par

gk• (x0 , · · · , xk ) = gk (xk−1 , xk ) ,

pour tout k = 0, 1, · · · , n, avec la convention g0 (x, x′ ) = g0 (x′ ) pour k = 0. On vérifie que

∏
n ∏
n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk−1 , Xk ) ] = E[ϕ ◦ π(Xn• ) gk• (Xk• ) ] = ⟨γn• , ϕ ◦ π⟩ ,
k=0 k=0

pour toute fonction mesurable bornée ϕ, où π : (x0 , · · · , xn ) ∈ E × · · · × E 7→ xn ∈ E désigne la

projection sur la dernière composante de l’espace produit E n+1 = E × · · · × E, c’est–à–dire que
l’application π pointe sur l’état final de la trajectoire, de sorte que γn = γn• ◦ π −1 . En d’autres
termes, la distribution non–normalisée pour le modèle apparamment plus général (8.22) où
chaque fonction de sélection dépend de la transition courante de la chaı̂ne de Markov, s’exprime
aussi en terme de la distribution non–normalisée pour le modèle plus simple (8.30) où chaque
fonction de sélection dépend seulement de l’état courant de la chaı̂ne de Markov, pourvu qu’on
adopte un point de vue trajectoriel.
100 CHAPITRE 8. GÉNÉRALISATION : DISTRIBUTIONS DE FEYNMAN–KAC
Chapitre 9

Méthodes de Monte Carlo

Pour une distribution de probabilité µ donnée, il s’agit d’approcher numériquement, par des
méthodes de Monte Carlo, l’intégrale ou de manière équivalente l’espérance mathématique
∫
⟨µ, ϕ⟩ = ϕ(x) µ(dx) = E[ϕ(X)] , (9.1)
E

où la variable aléatoire X a pour distribution de probabilité µ, pour toute fonction mesurable
bornée ϕ. Dans toute la suite, la notation S N (µ) désigne la distribution de probabilité empirique

1 ∑
N
S N (µ) = δ i
N ξ
i=1

associée à un N –échantillon (ξ 1 , · · · , ξ N ) de variables aléatoires i.i.d., de distribution de proba-

bilité commune µ, c’est–à–dire que

1 ∑
N
⟨S N (µ), ϕ⟩ = ϕ(ξ i ) ,
N
i=1

pour toute fonction mesurable bornée ϕ.

Dans les situations où il est facile de simuler des variables aléatoires de distribution de
probabilité µ, il est naturel d’introduire l’approximation suivante

1 ∑
N
⟨µ, ϕ⟩ ≈ ⟨S (µ), ϕ⟩ =
N
ϕ(ξ i ) ,
N
i=1

pour toute fonction mesurable bornée ϕ, c’est–à–dire que

1 ∑
N
µ ≈ S (µ) =
N
δ i ,
N ξ
i=1

où les variables aléatoires (ξ 1 , · · · , ξ N ) sont i.i.d., de distribution de probabilité commune µ. On

définit par
var(ϕ, µ) = ⟨µ, |ϕ − ⟨µ, ϕ⟩|2 ⟩ = ⟨µ, |ϕ|2 ⟩ − |⟨µ, ϕ⟩|2 ≤ ∥ϕ∥2 ,
la variance de la fonction mesurable bornée ϕ par rapport à la distribution de probabilité µ.

101
102 CHAPITRE 9. MÉTHODES DE MONTE CARLO

Théorème 9.1 La variable aléatoire ⟨S N (µ), ϕ⟩ est un estimateur non–biaisé de ⟨µ, ϕ⟩, et les
moments de l’erreur d’estimation vérifient
1
E| ⟨S N (µ) − µ, ϕ⟩ |2 = var(ϕ, µ) ,
N
et pour tout réel p ≥ 2, il existe une constante positive cp > 0 telle que
cp
{ E| ⟨S N (µ) − µ, ϕ⟩ |p }1/p ≤ √ ⟨µ, |ϕ − ⟨µ, ϕ⟩|p ⟩1/p ,
N
pour toute fonction mesurable bornée ϕ.

Remarque 9.2 Compte tenu que

|ϕ(x) − ⟨µ, ϕ⟩| ≤ osc(ϕ) = sup ϕ(x) − inf ϕ(x) ,
x∈E x∈E

pour tout x ∈ E, on a également la majoration plus grossière suivante

cp
{ E| ⟨S N (µ) − µ, ϕ⟩|p }1/p ≤ √ osc(ϕ) , (9.2)
N
pour toute fonction mesurable bornée ϕ.

Preuve. En exploitant l’indépendance des diﬀérentes variables aléatoires, on remarque que

1 ∑
N
E| ⟨S (µ) − µ, ϕ⟩ | = E|
N 2
[ϕ(ξ i ) − ⟨µ, ϕ⟩ ] |2
N
i=1

1 ∑
N
1
= 2
E|ϕ(ξ i ) − ⟨µ, ϕ⟩|2 = ⟨µ, |ϕ − ⟨µ, ϕ⟩|2 ⟩ ,
N N
i=1

pour toute fonction mesurable bornée ϕ. Plus généralement, pour tout réel p ≥ 2

1 ∑
N
E| ⟨S N (µ) − µ, ϕ⟩ |p = E| [ϕ(ξ i ) − ⟨µ, ϕ⟩ ] |p
N
i=1

Bp 1 ∑
N
Bp
≤ p/2 E|ϕ(ξ i ) − ⟨µ, ϕ⟩|p = p/2 ⟨µ, |ϕ − ⟨µ, ϕ⟩|p ⟩ ,
N N N
i=1

d’après l’inégalité de Marcinkiewicz–Zygmund, c’est–à–dire que

1/p
Bp
{ E| ⟨S (µ) − µ, ϕ⟩ | }
N p 1/p
≤ √ ⟨µ, |ϕ − ⟨µ, ϕ⟩|p ⟩1/p ,
N
pour toute fonction mesurable bornée ϕ. 2
Le théorème central limite (dans sa version classique, pour des variables indépendantes iden-
tiquement distribuées) donne
√ 1 ∑
N
N ⟨S (µ) − µ, ϕ⟩ = √
N
[ϕ(ξ i ) − ⟨µ, ϕ⟩ ] =⇒ N(0, var(ϕ, µ)) ,
N i=1
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ.
9.1. ÉCHANTILLONNAGE PONDÉRÉ 103

9.1 Échantillonnage pondéré

Une approche traditionnelle pour calculer l’intégrale (9.1) est l’échantillonnage pondéré, ou
importance sampling, dans laquelle une nouvelle distribution de probabilité ν ≫ µ est utilisée,
qui domine la distribution de probabilité µ, c’est–à–dire qu’il existe une densité (ou dérivée de
Radon–Nikodym) dµ/dν telle que
∫ ∫
dµ dµ dµ
⟨µ, ϕ⟩ = ϕ(x) µ(dx) = ϕ(x) (x) ν(dx) = ⟨ν, ϕ ⟩ = E[ϕ(Ξ) (Ξ)] ,
E E dν dν dν

où la variable aléatoire Ξ a pour distribution de probabilité ν, pour toute fonction mesurable
bornée ϕ. S’il est facile

• d’évaluer la fonction positive dµ/dν,

• et de simuler une variable aléatoire de distribution de probabilité ν,

alors il est facile

• d’approcher la distribution de probabilité µ par la distribution de probabilité empirique

pondérée associée à un échantillon de variables aléatoires i.i.d., de distribution de proba-
bilité commune ν et pondéré par la fonction positive dµ/dν.

On peut en eﬀet introduire l’approximation suivante

1 ∑
N
dµ dµ dµ
⟨µ, ϕ⟩ = ⟨ν, ϕ ⟩ ≈ ⟨S (ν), ϕ
N
⟩= ϕ(xi ) (xi ) ,
dν dν N dν
i=1

où les variables aléatoires (x1 , · · · , xN ) sont i.i.d., de distribution de probabilité commune ν,
c’est–à–dire que
1 ∑ dµ
N
dµ dµ N
µ= ν ≈ µN = S (ν) = (xi ) δxi .
dν dν N dν
i=1

En particulier pour ϕ ≡ 1, la masse totale

1 ∑ dµ
N
⟨µN , 1⟩ = (xi ) ,
N dν
i=1

n’est pas nécessairement égale à 1, de sorte que l’approximation µN n’est pas nécessairement
normalisée. En revanche, il résulte immédiatement du Théorème 9.1 que la variable aléatoire
dµ dµ
⟨µN , ϕ⟩ = ⟨S N (ν), ϕ ⟩ est un estimateur non–biaisé de ⟨ν, ϕ ⟩ = ⟨µ, ϕ⟩, et la variance (non–
dν dν
asymptotique) de cet estimateur est

dµ 2 1 dµ
E|⟨µN − µ, ϕ⟩|2 = E⟨S N (ν) − ν, ϕ ⟩ = var(ϕ , ν) .
dν N dν
104 CHAPITRE 9. MÉTHODES DE MONTE CARLO

Remarque 9.3 Alternativement, on peut considérer l’approximation auto–normalisée

∑
N
dµ
dµ ϕ(xi ) (xi )
µN ∑N (xi ) dν
µ′N = = dν δxi c’est–à–dire que ⟨µ′N , ϕ⟩ = i=1
,
⟨µN , 1⟩ ∑
N
dµ ∑
N
dµ
i=1
(xj ) (xi )
dν dν
j=1 i=1

pour toute fonction mesurable bornée ϕ, où les variables aléatoires (x1 , · · · , xN ) sont i.i.d., de
distribution de probabilité commune ν. Il résulte de la décomposition suivante
µN
µ′N − µ = − µ = (µN − µ) − ⟨µN − µ, 1⟩ µ′N ,
⟨µN , 1⟩
que
⟨µ′N − µ, ϕ⟩ = ⟨µN − µ, ϕ⟩ − ⟨µN − µ, 1⟩ ⟨µ′N , ϕ⟩ ,
de sorte que

{ E|⟨µ′N − µ, ϕ⟩|2 }1/2 ≤ { E|⟨µN − µ, ϕ⟩|2 }1/2 + { E|⟨µN − µ, 1⟩|2 }1/2 ∥ϕ∥ ,

d’après l’inégalité (triangulaire) de Minkowski, pour toute fonction mesurable bornée ϕ. Ce type
d’approximation sera étudié en détail à la Section 9.2.

On remarque que
∫ ∫
dµ dµ dµ
var(ϕ , ν) = (ϕ(x) (x)) ν(dx) − (
2
ϕ(x) (x) ν(dx) )2
dν E dν E dν
∫
dµ
= (ϕ(x) (x))2 ν(dx) − ⟨µ, ϕ⟩2 ,
E dν
et ∫ ∫
dµ dµ
(ϕ(x) (x)) ν(dx) ≥ (
2
|ϕ(x)| (x) ν(dx) )2 = ⟨µ, |ϕ|⟩2 ,
E dν E dν
d’après l’inégalité de Jensen, d’où la borne inférieure suivante
dµ
var(ϕ , ν) ≥ ⟨µ, |ϕ|⟩2 − ⟨µ, ϕ⟩2 ≥ 0 ,
dν
indépendante du choix de la distribution de probabilité d’importance ν. On remarque que si la
fonction ϕ garde un signe constant, alors la borne inférieure est nulle.
Parmi tous les choix possibles pour la distribution de probabilité d’importance ν, il existe
un choix qui minimise la variance, c’est–à–dire que la borne inférieure est atteinte, même si ce
choix est en pratique inaccessible car il nécessite de connaı̂tre la constante de normalisation
∫
⟨µ, |ϕ|⟩ = |ϕ(x)| µ(dx) = E|ϕ(X)| ,
E

dont le calcul présente le même degré de diﬃculté que le calcul de l’intégrale (9.1) elle–même !
En eﬀet, si on introduit
|ϕ| µ
ν∗ = |ϕ| · µ = ,
⟨µ, |ϕ|⟩
9.1. ÉCHANTILLONNAGE PONDÉRÉ 105

c’est–à–dire que la distribution de probabilité µ domine la distribution de probabilité ν∗ mais la

réciproque n’est pas nécessairement vraie, par exemple dans le cas où la fonction ϕ peut s’annuler,
mais en revanche la distribution de probabilité ν∗ domine la distribution de probabilité µ sur le
support de la fonction ϕ, avec
dµ
|ϕ| = ⟨µ, |ϕ|⟩ ,
dν∗
alors on vérifie que ∫
dµ
(ϕ(x) (x))2 ν∗ (dx) = ⟨µ, |ϕ|⟩2 ,
E dν ∗
de sorte que
∫
dµ dµ
var(ϕ , ν∗ ) = (ϕ(x) (x))2 ν∗ (dx) − ⟨µ, ϕ⟩2 = ⟨µ, |ϕ|⟩2 − ⟨µ, ϕ⟩2 ,
dν∗ E dν ∗

et la borne inférieure est atteinte.

Remarque 9.4 La distribution de probabilité d’importance optimale ν∗ et la fonction d’impor-

tance optimale dµ/dν∗ associée dépendent de la fonction ϕ dont on veut calculer l’intégrale, et
ne sont donc pas universelles.

Remarque 9.5 Il est certainement possible de simuler une variable aléatoire distribuée selon
ν∗ , même si la constante de normalisation ⟨µ, |ϕ|⟩ est inconnue, en utilisant l’une ou l’autre des
méthodes proposées à la Section 9.2, mais la connaissance explicite de la constante de norma-
lisation est absolument nécessaire pour évaluer la fonction d’importance optimale dµ/dν∗ . En
pratique, le choix optimal n’est donc simplement pas utilisable. Cependant, on peut espérer que
des algorithmes adaptatifs, qui apprennent (de manière approchée) la distribution de probabilité
d’importance optimale ν∗ , produiront des estimateurs dont la variance approchera la variance
minimale.

Pour tout autre choix (non–optimal) de la distribution de probabilité d’importance ν et de

la fonction d’importance dµ/dν, on a
∫
dµ dµ dµ
var(ϕ , ν) − var(ϕ , ν∗ ) = (ϕ(x) (x))2 ν(dx) − ⟨µ, |ϕ|⟩2
dν dν∗ E dν
∫
dµ dν∗
= (ϕ(x) (x) (x))2 ν(dx) − ⟨µ, |ϕ|⟩2
E dν ∗ dν
∫
dν∗
= ⟨µ, |ϕ|⟩2 ( (x))2 ν(dx) − ⟨µ, |ϕ|⟩2
E dν
∫
dν∗
= ⟨µ, |ϕ|⟩2 (( (x))2 − 1) ν(dx)
E dν

= ⟨µ, |ϕ|⟩2 χ2 (ν∗ , ν) .

en terme de la divergence du χ2 entre les distributions de probabilité ν∗ et ν, définie par
∫ ∫
dν∗ dν∗
χ2 (ν∗ , ν) = ( (x) − 1)2 ν(dx) = (( (x))2 − 1) ν(dx) .
E dν E dν
106 CHAPITRE 9. MÉTHODES DE MONTE CARLO

pourvu que la distribution de probabilité d’importance ν domine la distribution de probabilité

d’importance optimale ν∗ . Si λ est une mesure positive, pas nécessairement normalisée, qui
domine à la fois ν∗ et ν, avec les densités
dν∗ dν
q∗ = et q= ,
dλ dλ
respectivement, alors on a les expressions équivalentes suivantes
∫ ∫ 2
(q∗ (x) − q(x))2 q∗ (x)
2
χ (ν∗ , ν) = λ(dx) = λ(dx) − 1 .
E q(x) E q(x)

En conclusion, si au lieu de la distribution de probabilité d’importance optimale ν∗ on utilise

une distribution de probabilité d’importance ν M

• qui domine la distribution de probabilité µ, et qui domine donc a fortiori la distribution

de probabilité d’importance optimale ν∗ , de sorte que la divergence χ2 (ν∗ , ν M ) est bien
définie,
• et qui approche la distribution de probabilité d’importance optimale ν∗ , c’est–à–dire que
χ2 (ν∗ , ν M ) tend vers zero, quand M ↑ ∞,

et si on construit l’estimateur suivant

1 ∑
N
dµ
⟨µM
N , ϕ⟩ = ϕ(xi ) M (xi ) ,
N dν
i=1

où les variables aléatoires (x1 , · · · , xN ) sont i.i.d. de distribution de probabilité commune ν M ,
alors la variance de cet estimateur est
1 dµ 1 dµ
E|⟨µM
N − µ, ϕ⟩| =
2
var(ϕ M , ν M ) = [var(ϕ , ν∗ ) + ⟨µ, |ϕ|2 ⟩ χ2 (ν∗ , ν M )] ,
N dν N dν∗
et si la fonction ϕ garde un signe constant, alors
1 2
E|⟨µM
N − µ, ϕ⟩| =
2
χ (ν∗ , ν M ) ⟨µ, |ϕ|2 ⟩ ,
N
dµ
compte tenu que la variance minimale var(ϕ , ν∗ ) est nulle dans ce cas, c’est–à–dire que
dν∗
l’erreur d’échantillonnage Monte Carlo et l’erreur d’approximation due à l’apprentissage de la
distribution de probabilité d’importance optimale ν∗ se multiplient au lieu de s’additionner !

9.2 Simulation selon une distribution de Gibbs–Boltzmann

Il peut arriver que la distribution de probabilité d’importance soit seulement connue à une
constante multiplicative près, par exemple dans la situation suivante. Si la distribution de pro-
babilité µ est de la forme
gη ⟨η, g ϕ⟩
µ=g·η = c’est–à–dire ⟨µ, ϕ⟩ = ,
⟨η, g⟩ ⟨η, g⟩
9.2. SIMULATION SELON UNE DISTRIBUTION DE GIBBS–BOLTZMANN 107

ou de manière équivalente
⟨γ, ϕ⟩
⟨γ, ϕ⟩ = ⟨η, g ϕ⟩ = E[g(Ξ) ϕ(Ξ)] et ⟨µ, ϕ⟩ = , (9.3)
⟨γ, 1⟩
où la variable aléatoire Ξ a pour distribution de probabilité η, pour toute fonction mesurable
bornée ϕ, et s’il est facile

• d’évaluer la fonction positive g,

• et de simuler une variable aléatoire de distribution de probabilité η,

alors il est possible

• de simuler une variable aléatoire de distribution de probabilité µ, avec une méthode

d’acceptation / rejet,

• ou bien d’approcher la distribution de probabilité µ par la distribution de probabilité

empirique pondérée associée à un échantillon de variables aléatoires i.i.d., de distribu-
tion de probabilité commune η et pondéré par la fonction positive g, avec une méthode
d’échantillonnage pondéré,

même si la constante de normalisation ⟨η, g⟩ n’est pas connue explicitement.

▶ Acceptation / rejet La constante de normalisation ⟨η, g⟩ n’est pas nécessairement connue,

et on suppose seulement que sup g(x) ≤ M < ∞.
x∈E
On simule indépendamment une variable aléatoire Ξ selon la distribution de probabilité η
et une variable aléatoire U uniforme sur [0, 1] : si g(Ξ) ≥ M U alors on pose X = Ξ, et sinon
on recommence. La variable aléatoire X simulée selon cet algorithme a pour distribution de
probabilité µ = g · η. En eﬀet
E[ϕ(Ξ) 1(g(Ξ) ≥ M U ) ]
E[ϕ(X)] = E[ϕ(Ξ) | g(Ξ) ≥ M U ] = ,
P[g(Ξ) ≥ M U ]
et
∫ ∫ 1
E[ϕ(Ξ) 1(g(Ξ) ≥ M U ) ] = ϕ(x) 1(g(x) ≥ M u) du η(dx)
E 0
∫
g(x) ⟨η, g ϕ⟩
= ϕ(x) η(dx) = ,
E M M
pour toute fonction mesurable bornée ϕ, et en particulier
⟨η, g⟩
P[g(Ξ) ≥ M U ] = ,
M
pour ϕ ≡ 1, de sorte que
⟨η, g ϕ⟩
E[ϕ(X)] = = ⟨µ, ϕ⟩ .
⟨η, g⟩
108 CHAPITRE 9. MÉTHODES DE MONTE CARLO

Soit (Uk , k ≥ 1) et (Ξk , k ≥ 1) deux suites indépendantes, de variables aléatoires i.i.d.

uniformes sur [0, 1] et de variables aléatoires i.i.d. de distribution de probabilité commune η
respectivement, et on définit le nombre aléatoire

T = inf{k ≥ 1 : g(Ξk ) ≥ M Uk } ,

qui représente le nombre d’itérations de l’algorithme d’acceptation / rejet nécessaires pour pro-
duire une variable aléatoire de distribution de probabilité µ = g · η.

Proposition 9.6 Les variables aléatoires X = ΞT et T sont indépendantes

• de distribution de probabilité µ = g · η,
⟨η, g⟩
• et de loi géométrique de paramètre ,
M

respectivement.

Preuve. Par indépendance

∏
n−1
E[ϕ(X) 1(T = n) ] = E[ϕ(Ξn ) 1(g(Ξ ) ≥ M U ) 1(g(Ξ ) < M U ) ]
n n k k
k=1

∏
n−1
= E[ϕ(Ξn ) 1(g(Ξ ) ≥ M U ) ] P[g(Ξk ) < M Uk ]
n n
k=1

⟨η, g ϕ⟩ ⟨η, g⟩ n−1

= (1 − )
M M
⟨η, g⟩ ⟨η, g⟩ n−1
= ⟨µ, ϕ⟩ (1 − ) ,
M M
pour tout entier n et pour toute fonction mesurable bornée ϕ, et en particulier pour ϕ ≡ 1

⟨η, g⟩ ⟨η, g⟩ n−1

P[T = n] = (1 − ) ,
M M
de sorte que

⟨η, g⟩ ⟨η, g⟩ n−1

E[ϕ(X) 1(T = n) ] = ⟨µ, ϕ⟩ (1 − ) = E[ϕ(X)] P[T = n] ,
M M
ce qui montre l’indépendance des variables aléatoires T et X = ΞT . 2
Soit (ξ 1 , · · · , ξ N ) un N –échantillon de distribution de probabilité commune µ = g · η ob-
tenu par l’algorithme d’acceptation / rejet présenté ci–dessus, et soit (T 1 , · · · , T N ) les nombres
d’itérations nécessaires pour produire respectivement les variables aléatoires (ξ 1 , · · · , ξ N ). Pour
énoncer un théorème central limite, et utiliser la variance asymptotique comme moyen de com-
parer les algorithmes entre eux, il est plus raisonnable d’utiliser comme normalisation le nombre
9.2. SIMULATION SELON UNE DISTRIBUTION DE GIBBS–BOLTZMANN 109

total d’itérations, c’est–à–dire le nombre total de variables aléaoires simulées, qui est une me-
sure quantitative du temps de calcul de l’algorithme d’acceptation / rejet pour générer un
N –échantillon. D’après la loi des grands nombres

1 ∑ i
N
M
T −→ E[T ] = ,
N ⟨η, g⟩
i=1

en probabilité quand N ↑ ∞, et d’après le lemme de Slutsky

∑N
M
( T i )1/2 ⟨S N (µ) − µ, ϕ⟩ =⇒ N(0, var(ϕ, µ)) ,
⟨η, g⟩
i=1

en distribution quand N ↑ ∞.

Remarque 9.7 La variance asymptotique est d’autant plus petite que le rapport

sup g(x)
M M x∈E
= ,
⟨η, g⟩ sup g(x) ⟨η, g⟩
x∈E

est petit (proche de 1). Le premier facteur est d’autant plus petit (proche de 1) que la borne M est
proche du supremum, c’est donc une caractéristique de la méthode, tandis que le second facteur
est d’autant plus petit (proche de 1) que le recouvrement entre la distribution de probabilité η
et la fonction g est grand, c’est–à–dire que la distribution de probabilité η est concentrée autour
des points où la fonction g prend ses plus grandes valeurs, c’est donc une caractéristique du
modèle lui–même.

▶ Échantillonnage pondéré Le principe consiste à approximer numérateur et dénominateur

dans (9.3) à l’aide d’un unique échantillon : on introduit les approximations suivantes

1 ∑
N
⟨γ, ϕ⟩ = ⟨η, g ϕ⟩ ≈ ⟨S (η), g ϕ⟩ =
N
g(ξ i ) ϕ(ξ i ) ,
N
i=1

et
∑
N
g(ξ i ) ϕ(ξ i )
1 ∑
N
i=1
⟨µ, ϕ⟩ = ⟨g · η, ϕ⟩ ≈ ⟨g · S N (η), ϕ⟩ = pourvu que g(ξ i ) > 0 ,
∑
N N
i=1
g(ξ i )
i=1

pour toute fonction mesurable bornée ϕ, c’est–à–dire que

1 ∑
N
γ ≈ γ N = g S N (η) = g(ξ i ) δ i
N ξ
i=1
110 CHAPITRE 9. MÉTHODES DE MONTE CARLO

∑
N
g(ξ i ) ∑
N
1 ∑
N
µ ≈ µN = g · S N (η) = δ i = wi δ i pourvu que g(ξ i ) > 0 ,
i=1
∑
N ξ
i=1
ξ N
i=1
g(ξ j )
j=1

où les variables aléatoires (ξ 1 , · · · , ξ N ) sont i.i.d., de distribution de probabilité commune η, et

où les poids positifs (w1 , · · · , wN ) sont définis par

g(ξ i )
wi = pour tout i = 1, · · · , N .
∑
N
g(ξ j )
j=1

Il résulte du Théorème 9.1 que la variable aléatoire ⟨γ N , ϕ⟩ = ⟨S N (η), g ϕ⟩ est un estimateur

non–biaisé de ⟨γ, ϕ⟩ = ⟨η, g ϕ⟩, pour toute fonction mesurable bornée ϕ, et en particulier pour
ϕ ≡ 1, la variable aléatoire ⟨γ N , 1⟩ = ⟨S N (η), g⟩ est un estimateur non–biaisé de ⟨γ, 1⟩ = ⟨η, g⟩.
En revanche, en tant que rapport de deux estimateurs non–biaisés, la variable aléatoire ⟨µN , ϕ⟩ =
⟨γ N , ϕ⟩/⟨γ N , 1⟩ est un estimateur biaisé de ⟨µ, ϕ⟩ = ⟨γ, ϕ⟩/⟨γ, 1⟩.

Théorème 9.8 La variable aléatoire ⟨γ N , ϕ⟩ est un estimateur non–biaisé de ⟨γ, ϕ⟩, et les mo-
ments de l’erreur d’estimation vérifient

⟨γ N − γ, ϕ⟩ 2 1/2 1 ⟨η, |g ϕ − ⟨η, g ϕ⟩ |2 ⟩ 1/2

{ E| | } =√ ( ) , (9.4)
⟨γ, 1⟩ N ⟨η, g⟩2

et pour tout réel p ≥ 2

⟨γ N − γ, ϕ⟩ p 1/p cp ⟨η, |g ϕ − ⟨η, g ϕ⟩ |p ⟩ 1/p

{ E| | } ≤√ ( ) , (9.5)
⟨γ, 1⟩ N ⟨η, g⟩p

pour toute fonction ϕ mesurable bornée.

Preuve. On remarque que

⟨γ N − γ, ϕ⟩ ⟨S N (η) − η, g ϕ⟩
= ,
⟨γ, 1⟩ ⟨η, g⟩

et il résulte du Théorème 9.1 que

⟨S N (η) − η, g ϕ⟩ 2 1/2 1 ⟨η, |g ϕ − ⟨η, g ϕ⟩ |2 ⟩ 1/2

{ E| | } =√ ( ) ,
⟨η, g⟩ N ⟨η, g⟩2
et
⟨S N (η) − η, g ϕ⟩ p 1/p cp ⟨η, |g ϕ − ⟨η, g ϕ⟩ |p ⟩ 1/p
{ E| | } ≤√ ( ) ,
⟨η, g⟩ N ⟨η, g⟩p
pour tout réel p ≥ 2. 2
9.2. SIMULATION SELON UNE DISTRIBUTION DE GIBBS–BOLTZMANN 111

Remarque 9.9 En particulier pour ϕ ≡ 1, la variable aléatoire ⟨γ N , 1⟩ est un estimateur non–

biaisé de la constante de normalisation ⟨γ, 1⟩, et les moments de l’erreur relative d’estimation
vérifient
⟨γ N , 1⟩ 1 ⟨η, |g − ⟨η, g⟩ |2 ⟩ 1/2
{ E| − 1 |2 }1/2 = √ ( ) , (9.6)
⟨γ, 1⟩ N ⟨η, g⟩2
et
⟨γ N , 1⟩ cp ⟨η, |g − ⟨η, g⟩ |p ⟩ 1/p
{ E| − 1 |p }1/p ≤ √ ( ) , (9.7)
⟨γ, 1⟩ N ⟨η, g⟩p
pour tout réel p ≥ 2. On remarque aussi que
g (ϕ − ⟨µ, ϕ⟩) − ⟨η, g (ϕ − ⟨µ, ϕ⟩)⟩ = g (ϕ − ⟨µ, ϕ⟩) ,
compte tenu que
⟨η, g (ϕ − ⟨µ, ϕ⟩)⟩ = ⟨η, g⟩ ⟨µ, ϕ − ⟨µ, ϕ⟩⟩ = 0 ,
de sorte que
⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ 2 1/2 1 ⟨η, g 2 |ϕ − ⟨µ, ϕ⟩|2 ⟩ 1/2
{ E| | } =√ ( ) , (9.8)
⟨γ, 1⟩ N ⟨η, g⟩2
et
⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ p 1/p cp ⟨η, g p |ϕ − ⟨µ, ϕ⟩|p ⟩ 1/p
{ E| | } ≤√ ( ) , (9.9)
⟨γ, 1⟩ N ⟨η, g⟩p
pour tout réel p ≥ 2.

Théorème 9.10 La variable aléatoire ⟨µN , ϕ⟩ est un estimateur biaisé de ⟨µ, ϕ⟩, avec
E[ ⟨µN , ϕ⟩ ] = ⟨µ, ϕ⟩ + O(1/N ) , (9.10)
et les moments de l’erreur d’estimation vérifient
1 ⟨η, g 2 |ϕ − ⟨µ, ϕ⟩ |2 ⟩ 1/2
{ E| ⟨µN − µ, ϕ⟩ |2 }1/2 = √ ( ) + O(1/N ) , (9.11)
N ⟨η, g⟩2
et pour tout réel p ≥ 2
cp ⟨η, g p |ϕ − ⟨µ, ϕ⟩ |p ⟩ 1/p
{ E| ⟨µN − µ, ϕ⟩ |p }1/p ≤ √ ( ) + O(1/N ) ,
N ⟨η, g⟩p
pour toute fonction mesurable bornée ϕ.

Preuve. On rappelle la majoration grossière

| ⟨µN − µ, ϕ⟩ | = | ⟨µN , ϕ − ⟨µ, ϕ⟩⟩ | ≤ osc(ϕ) , (9.12)
valable pour toute fonction ϕ mesurable bornée. On remarque aussi que
⟨γ N − γ, ϕ⟩ ⟨γ N − γ, 1⟩
⟨µN − µ, ϕ⟩ = − ⟨µN , ϕ⟩
⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N − γ, ϕ⟩ ⟨γ N − γ, 1⟩ ⟨γ N − γ, 1⟩
= − ⟨µ, ϕ⟩ − ⟨µN − µ, ϕ⟩
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩
= − ⟨µN − µ, ϕ⟩ ( − 1) ,
⟨γ, 1⟩ ⟨γ, 1⟩
112 CHAPITRE 9. MÉTHODES DE MONTE CARLO

et en itérant cette relation, on obtient

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩
⟨µN − µ, ϕ⟩ =
⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩ ⟨γ N , 1⟩
−[ − ⟨µN − µ, ϕ⟩ ( − 1) ] ( − 1)
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩

= − ( − 1)
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N , 1⟩
+ ⟨µN − µ, ϕ⟩ ( − 1)2 .
⟨γ, 1⟩

Pour l’étude du biais, on remarque que

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩
E =0,
⟨γ, 1⟩

de sorte que

E[⟨µN , ϕ⟩] − ⟨µ, ϕ⟩ = E⟨µN − µ, ϕ⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩ ⟨γ N , 1⟩
= − E[ ( − 1)] + E[⟨µN − µ, ϕ⟩ ( − 1)2 ] ,
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩

et en utilisant l’inégalité triangulaire, puis l’inégalité de Hölder et la majoration grossière (9.12),

on obtient
⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩ ⟨γ N , 1⟩
| E[⟨µN , ϕ⟩] − ⟨µ, ϕ⟩ | ≤ E| ( − 1) | + E[ |⟨µN − µ, ϕ⟩| ( − 1)2 ]
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ 2 1/2 ⟨γ N , 1⟩

≤ {E| | } {E| − 1|2 }1/2
⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N , 1⟩
+ osc(ϕ) E| − 1|2 ,
⟨γ, 1⟩

où les deux termes dans la majoration sont d’ordre 1/N d’après (9.6) et (9.8).
9.2. SIMULATION SELON UNE DISTRIBUTION DE GIBBS–BOLTZMANN 113

Pour l’étude du moment d’ordre 2, en utilisant l’identité (9.8) et l’inégalité triangulaire, puis
l’inégalité de Hölder et la majoration grossière (9.12), on obtient
1 ⟨η, g 2 |ϕ − ⟨µ, ϕ⟩ |2 ⟩ 1/2
| {E|⟨µN − µ, ϕ⟩|2 }1/2 − √ ( ) |
N ⟨η, g⟩2

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ 2 1/2

= | {E|⟨µN − µ, ϕ⟩|2 }1/2 − {E| | } |
⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ 2 1/2

≤ {E|⟨µN − µ, ϕ⟩ − | }
⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩ ⟨γ N , 1⟩
≤ {E| ( − 1) |2 }1/2 + {E|⟨µN − µ, ϕ⟩ ( − 1)2 |2 }1/2
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ 4 1/4 ⟨γ N , 1⟩ ⟨γ N , 1⟩

≤ {E| | } {E| − 1|4 }1/4 + osc(ϕ) {E| − 1|4 }1/2 ,
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨γ, 1⟩
où les deux termes dans la majoration sont d’ordre 1/N d’après (9.7) et (9.9).
Pour l’étude du moment d’ordre p, en utilisant l’inégalité triangulaire et la majoration (9.9),
puis l’inégalité de Hölder et la majoration grossière (9.12), on obtient
⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ p 1/p
{E|⟨µN − µ, ϕ⟩|p }1/p ≤ {E| | } |
⟨γ, 1⟩

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ N , 1⟩
+ {E| ( − 1) |p }1/p
⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N , 1⟩
+ {E|⟨µN − µ, ϕ⟩ ( − 1)2 |p }1/p
⟨γ, 1⟩
cp ⟨η, g p |ϕ − ⟨µ, ϕ⟩|p ⟩ 1/p
≤ √ ( )
N ⟨η, g⟩p

⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ 2p 1/2p ⟨γ N , 1⟩

+ {E| | } {E| − 1 |2p }1/2p
⟨γ, 1⟩ ⟨γ, 1⟩

⟨γ N , 1⟩
+ osc(ϕ) {E| − 1|2p }1/p ,
⟨γ, 1⟩
où les deux derniers termes dans la majoration sont d’ordre 1/N d’après (9.7) et (9.9). 2

Théorème 9.11
√ ⟨γ N , 1⟩ √
N[ − 1] =⇒ N(0, V ) et N ⟨µN − µ, ϕ⟩ =⇒ N(0, v(ϕ)) ,
⟨γ, 1⟩
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique
⟨η, g 2 ⟩ ⟨η, g 2 |ϕ − ⟨µ, ϕ⟩|2 ⟩
V = −1 et v(ϕ) = ,
⟨η, g⟩2 ⟨η, g⟩2
114 CHAPITRE 9. MÉTHODES DE MONTE CARLO

respectivement.

Remarque 9.12 On vérifie que la variance asymptotique V coı̈ncide avec la variance non–
asymptotique donnée en (9.6), et que la variance asymptotique v(ϕ) coı̈ncide avec le terme
dominant de l’erreur quadratique moyenne non–asymptotique donnée en (9.11) ou de manière
équivalente avec le terme dominant de la variance non–asymptotique, compte tenu que le biais
donné en (9.10) est asymptotiquement négligeable.

Preuve. Il résulte du théorème central limite (dans sa version classique, pour des variables
indépendantes identiquement distribuées), que
√ ⟨γ N − γ, ϕ⟩ √ ⟨S N (η) − η, g ϕ⟩ var(g ϕ, η)
N = N =⇒ N(0, ),
⟨γ, 1⟩ ⟨η, g⟩ ⟨η, g⟩2
en distribution quand N ↑ ∞, et en particulier pour ϕ ≡ 1
√ ⟨γ N , 1⟩ √ ⟨γ N − γ, 1⟩ var(g, η)
N[ − 1] = N =⇒ N(0, ),
⟨γ, 1⟩ ⟨γ, 1⟩ ⟨η, g⟩2
en distribution quand N ↑ ∞. On remarque aussi que

⟨γ N − γ, ϕ⟩ ⟨γ N − γ, 1⟩ ⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ ⟨γ, 1⟩

⟨µN − µ, ϕ⟩ = − ⟨µ, ϕ⟩ = .
⟨γ N , 1⟩ ⟨γ N , 1⟩ ⟨γ, 1⟩ ⟨γ N , 1⟩
D’après la loi des grands nombres

1 ∑
N
⟨γ N , 1⟩ = g(ξ i ) −→ ⟨η, g⟩ = ⟨γ, 1⟩ ,
N
i=1

en probabilité quand N ↑ ∞, et d’après le lemme de Slutsky

√ ⟨γ, 1⟩ √ ⟨γ N − γ, ϕ − ⟨µ, ϕ⟩⟩ var(g (ϕ − ⟨µ, ϕ⟩), η)
N ⟨µN − µ, ϕ⟩ = N N =⇒ N(0, ),
⟨γ , 1⟩ ⟨γ, 1⟩ ⟨η, g⟩2
en distribution quand N ↑ ∞. On remarque que

⟨η, g (ϕ − ⟨µ, ϕ⟩) ⟩ = ⟨η, g⟩ ⟨µ, ϕ − ⟨µ, ϕ⟩⟩ = 0 ,

de sorte que
var(g (ϕ − ⟨µ, ϕ⟩), η) = ⟨η, g 2 |ϕ − ⟨µ, ϕ⟩|2 ⟩ . 2

Remarque 9.13 Le principe de l’échantillonnage pondéré est illustré sur la Figure 9.2. On
constate en particulier que l’approximation sera d’autant meilleure que la distribution d’impor-
tance η (densité a priori) et la fonction d’importance g (vraisemblance) se recouvrent mutuelle-
ment, de telle sorte que la fonction d’importance prend des valeurs significatives sur l’échantillon
généré. La décomposition d’importance sera au contraire mal–posée si les valeurs significatives
de la fonction d’importance sont obtenues dans les queues de la distribution d’importance, au-
quel cas la fonction d’importance prend des valeurs négligeables sur l’échantillon généré. Un
9.2. SIMULATION SELON UNE DISTRIBUTION DE GIBBS–BOLTZMANN 115

critère quantitatif pour mesurer le recouvrement mutuel entre la distribution d’importance η

et la fonction d’importance g est donné par l’intégrale normalisée (compte tenu que la fonction
d’importance est définie à une constante multiplicative près)

∫ sup g(x)
g(x′ )
η(dx′ )
x∈E
ou par le rapport inverse r= .
E sup g(x) ⟨η, g⟩
x∈E
116 CHAPITRE 9. MÉTHODES DE MONTE CARLO

prior distribution (sample view)

1.4
prior

1.2

0.8

0.6

0.4

0.2

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

prior distribution (histogram view)

1.4
prior

1.2

0.8

0.6

0.4

0.2

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Figure 9.1 – Densité a priori, échantillon (en haut) et histogramme associé à l’échantillon (en
bas)
9.2. SIMULATION SELON UNE DISTRIBUTION DE GIBBS–BOLTZMANN 117

prior distribution, likelihood function

and posterior distribution (weighted sample view)
1.4
prior
likelihood
posterior
1.2

0.8

0.6

0.4

0.2

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

prior distribution, likelihood function

and posterior distribution (histogram view)
1.4
prior
likelihood
posterior
1.2

0.8

0.6

0.4

0.2

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Figure 9.2 – Densité a priori, fonction de vraisemblance, densité a posteriori, échantillon

pondéré (en haut) et histogramme associé à l’échantillon pondéré (en bas)
118 CHAPITRE 9. MÉTHODES DE MONTE CARLO

Pour une décomposition µ = g · η donnée, la variance asymptotique de l’algorithme d’échan-

tillonnage pondéré est inférieure à la variance asymptotique, convenablement normalisée par le
nombre total de variable aléatoires simulées, de l’algorithme d’acceptation / rejet. En eﬀet

⟨η, g 2 |ϕ − ⟨µ, ϕ⟩|2 ⟩ M ⟨η, g |ϕ − ⟨µ, ϕ⟩|2 ⟩ M

≤ = var(ϕ, µ) ,
⟨η, g⟩ 2 ⟨η, g⟩ ⟨η, g⟩ ⟨η, g⟩

où on suppose que sup g(x) ≤ M < ∞.

x∈E

Aucun de ces deux algorithmes ne nécessite la connaissance de la constante de normalisa-

tion ⟨η, g⟩, mais l’algorithme d’acceptation / rejet utilise quand même de façon explicite une
borne supérieure M de la fonction positive g, alors que l’algorithme d’échantillonnage pondéré
ne nécessite pas la connaissance d’une telle borne. En revanche, l’algorithme d’acceptation /
rejet produit un échantillon de distribution de probabilité µ exactement, alors que l’algorithme
d’échantillonnage pondéré produit seulement un échantillon de distribution de probabilité η,
pondéré par la fonction positive g et normalisé.

9.3 Échantillonnage et approximation d’un mélange fini

Si la distribution de probabilité η est définie comme un mélange fini de distributions de proba-

bilité (m1 , · · · , mM ) avec les poids positifs (w1 , · · · , wM ), c’est–à–dire si

∑
M ∑
M
η= wi m i avec wi = 1 ,
i=1 i=1

et s’il est facile

• de simuler pour tout i = 1, · · · , M une variable aléatoire distribuée selon mi ,

alors il est facile, en principe, de simuler une variable aléatoire selon la distribution de proba-
bilité η. Il suﬃt en eﬀet de simuler d’abord une variable aléatoire I à valeurs dans l’ensemble
fini {1, · · · , M } et distribuée selon les poids (w1 , · · · , wM ), c’est–à–dire P[I = i] = wi pour
tout i = 1, · · · , M , puis de générer une variable aléatoire distribuée selon mI . La probabilité
de sélectionner une composante du mélange sera d’autant plus grande que le poids de cette
composante est grand. La question qui reste, et qui sera traitée à la Section 9.4, est donc de
savoir simuler une variable aléatoire à valeurs dans l’ensemble fini {1, · · · , M }.

▶ Échantillonnage multinomial S’il s’agit d’approcher la distribution de probabilité η par

un mélange fini de masses de Dirac, ou particules, plusieurs approches sont possibles. On peut
simuler un N –échantillon (ξ1 , · · · , ξN ) distribué selon η, où N n’est pas nécessairement égal au
nombre M de composantes du mélange, et

1 ∑
N
S N (η) = δξi . (9.13)
N
i=1
9.3. ÉCHANTILLONNAGE ET APPROXIMATION D’UN MÉLANGE FINI 119

Les poids sont ici exploités pour sélectionner (avec remise) les composantes du mélange les mieux
loties, avec l’eﬀet attendu que les composantes de plus forts poids seront sélectionnées plusieurs
fois, tandis que les composantes de moins forts poids pourront même être éliminées et ne plus
être représentées du tout dans l’approximation. Le nombre de fois que la i–ème composante
du mélange est sélectionée, ou de manière équivalente son nombre Ni de représentants dans
l’approximation, sera d’autant grand que le poids wi de cette composante est grand, et on peut
montrer que le vecteur aléatoire (N1 , · · · , NM ) suit une loi multinomiale. La question qui reste,
et qui sera traitée à la Section 9.4, est donc de savoir simuler un N –échantillon à valeurs dans
l’ensemble fini {1, · · · , M }, plus eﬃcacement qu’en répétant N fois la simulation d’une seule
variable aléatoire.
Intuitivement, si tous les poids sont égaux à (ou proches de) 1/M , c’est–à–dire si la répartition
des poids de mélange est proche de l’équidistribution, alors il est inutile voire même contre–
productif de sélectionner les composantes du mélange, avec le risque de favoriser certaines com-
posantes au détriment des autres composantes, alors qu’en principe toutes les composantes ont
la même importance.

Théorème 9.14 La variable aléatoire ⟨S N (η), ϕ⟩ est un estimateur non–biaisé de ⟨η, ϕ⟩, et les
moments de l’erreur d’estimation vérifient
1
E| ⟨S N (η) − η, ϕ⟩ |2 = var(ϕ, η)
N
et pour tout réel p ≥ 2, il existe une constante positive cp > 0 telle que
cp
{ E| ⟨S N (η) − η, ϕ⟩|p }1/p ≤ √ ⟨η, |ϕ − ⟨η, ϕ⟩|p ⟩1/p ,
N
pour toute fonction mesurable bornée ϕ.

Remarque 9.15 Compte tenu que

|ϕ(x) − ⟨η, ϕ⟩| ≤ osc(ϕ) ,
pour tout x ∈ E, on a également la majoration plus grossière suivante
cp
{ E| ⟨S N (η) − η, ϕ⟩|p }1/p ≤ √ osc(ϕ) ,
N
pour toute fonction mesurable bornée ϕ.

Remarque 9.16 On remarque que

∑
M ∑
M
var(ϕ, η) = wi ⟨mi , |ϕ|2 ⟩ − | wi ⟨mi , ϕ⟩|2
i=1 i=1

∑
M ∑
M ∑
M
= wi var(ϕ, mi ) + [ wi |⟨mi , ϕ⟩| − |
2
wi ⟨mi , ϕ⟩ |2 ] ,
i=1
| i=1 {z i=1 }
WM
où le terme WM représente la variance des moyennes intra–composantes aﬀectées du poids de
chaque composante.
120 CHAPITRE 9. MÉTHODES DE MONTE CARLO

▶ Conservation des poids A l’opposé, on peut décider de conserver les poids et de simuler
un représentant pour chaque composante du mélange (ce qui impose que N est nécessairement
égal au nombre M de composantes du mélange initial), et poser

∑
M
ηM = wi δ ξ , (9.14)
i
i=1

où indépendamment pour tout i = 1, · · · , M la variable aléatoire ξi est distribuée selon mi .

Intuitivement, cette seconde approche est certainement pertinente dans le cas où la répartition
des poids de mélange est proche de l’équidistribution, mais en revanche peu appropriée dans le
cas extrême où presque tous les poids sont nuls sauf quelques uns, c’est–à–dire dans le cas où
quelques composantes seulement, voire même une seule composante, sont eﬀectivement présentes
dans le mélange.

Théorème 9.17 La variable aléatoire ⟨ηM , ϕ⟩ est un estimateur non–biaisé de ⟨η, ϕ⟩, et les
moments de l’erreur d’estimation vérifient

∑
M ∑
M
E| ⟨ηM − η, ϕ⟩ | = (
2
wi2 ) [ wi□ var(ϕ, mi ) ] ,
i=1 i=1

et pour tout réel p ≥ 2, il existe une constante positive cp > 0 telle que

∑M ∑
M
{ E| ⟨ηM − η, ϕ⟩|p }1/p ≤ cp ( wi2 )1/2 { wi□ ⟨mi , |ϕ − ⟨mi , ϕ⟩|p ⟩ }1/p ,
i=1 i=1

pour toute fonction mesurable bornée ϕ, où le vecteur de probabilité (w1□ , · · · , wM

□ ) est défini par

∑
M
wi□ = wi2 / [ wj2 ] pour tout i = 1, · · · , M .
j=1

Remarque 9.18 Compte tenu que

|ϕ(x) − ⟨mi , ϕ⟩| ≤ osc(ϕ) ,

pour tout x ∈ E et pour tout i = 0, 1, · · · , M , on a également la majoration plus grossière

suivante
∑M
{ E| ⟨ηM − η, ϕ⟩|p }1/p ≤ cp ( wi2 )1/2 osc(ϕ) ,
i=1

pour toute fonction mesurable bornée ϕ.

9.3. ÉCHANTILLONNAGE ET APPROXIMATION D’UN MÉLANGE FINI 121

Preuve. En exploitant l’indépendance des diﬀérentes variables aléatoires, on remarque que

∑
M
E| ⟨ηM − η, ϕ⟩ |2 = E| wi [ϕ(ξ i ) − ⟨mi , ϕ⟩ ] |2
i=1

∑
M
= wi2 E|ϕ(ξ i ) − ⟨mi , ϕ⟩|2
i=1

∑M ∑
M
= ( wi2 ) [ wi□ var(ϕ, mi ) ] ,
i=1 i=1

pour toute fonction mesurable bornée ϕ. Plus généralement, pour tout réel p ≥ 2, il résulte de
l’inégalité de Marcinkiewicz–Zygmund (B.2) que

∑
M
E| ⟨ηM − η, ϕ⟩ |p = E| wi [ϕ(ξ i ) − ⟨mi , ϕ⟩] |p
i=1

∑M ∑
M
≤ Bp ( 2 p/2
wi ) [ wi□ E| ϕ(ξ i ) − ⟨mi , ϕ⟩|p ]
i=1 i=1

∑M ∑
M
= Bp ( wi2 )p/2 [ wi□ ⟨mi , |ϕ − ⟨mi , ϕ⟩|p ⟩ ] ,
i=1 i=1

pour toute fonction mesurable bornée ϕ. 2

Remarque 9.19 La variance de l’estimateur (9.13) vérifie

1 ∑ ∑ 1 ∑
M M M
Vred = [ wi ⟨mi , |ϕ|2 ⟩ − | wi ⟨mi , ϕ⟩|2 ] ≥ wi var(ϕ, mi ) ,
N N
i=1 i=1 i=1

compte tenu que

∑
M ∑
M
| wi ⟨mi , ϕ⟩|2 ≤ wi |⟨mi , ϕ⟩|2 ,
i=1 i=1

d’après l’inégalité de Jensen, à comparer avec la variance

∑
M
Vnored = wi2 var(ϕ, mi ) ,
i=1

de l’estimateur (9.14). A l’équidistribution, c’est–à–dire si tous les poids sont égaux entre eux
(et égaux à 1/M ), alors
1 ∑
M
Vred ≥ 2 var(ϕ, mi ) = Vnored ,
M
i=1
122 CHAPITRE 9. MÉTHODES DE MONTE CARLO

ce qui confirme l’intuition que redistribuer est contre–productif dans ce cas extrême. A l’inverse,
si la distribution des poids est complètement dégénérée, c’est–à–dire si tous les poids sont nuls
sauf le poids wa = 1 pour la composante a du mélange, alors
1 1
Vred = [ ⟨ma , |ϕ|2 ⟩ − |⟨ma , ϕ⟩|2 ] = var(ϕ, ma ) ≤ var(ϕ, ma ) = Vnored ,
N N
ce qui confirme l’intuition que redistribuer est certainement pertinent dans cet autre cas extrême.

▶ Stratification et échantillonnage résiduel multinomial Sélectionner les composantes

du mélange en échantillonnant selon les poids respectifs n’est donc approprié que dans les cas
où la répartition des poids de mélange est éloigné de l’équidistribution, mais introduit de toute
manière un aléa supplémentaire. Pour limiter cette source d’aléa, on peut par exemple affecter
de manière déterministe à chaque composante du mélange un nombre de représentants égal au
nombre de fois que le poids 1/N est contenu dans le poids wi de la composante (le poids 1/N est
celui qui sera affecté à chaque particule dans l’approximation finale). Il reste ensuite à compléter
la population de particules de manière à assurer un effectif de taille N , par exemple en simulant
un échantillon selon la distribution résiduelle des poids non encore affectés. Concrètement, pour
toute composante i = 1, · · · , M le nombre de représentants affectés à l’issue de la première passe
est Ni = ⌊N wi ⌋, c’est–à–dire que

N w i = N i + qi avec 0 ≤ qi < 1 .

Compte tenu des identités

∑
M ∑
M ∑
M ∑
M
N= N wi = (Ni + qi ) = Ni + N0 avec N0 = qi ,
i=1 i=1 i=1 i=1

et
∑
M ∑
M
Ni ∑
M
qi ∑
M
Ni N0
η= wi m i = mi + mi = mi + m0 ,
N N N N
i=1 i=1 i=1 i=1
avec
∑
M
qi
m0 = mi ,
N0
i=1

on déduit que (N − N0 ) représentants ont déjà été aﬀectés à l’issue de cette première passe, et
il reste donc N0 représentants à aﬀecter de manière à approcher la distribution de probabilité
résiduelle convenablement renormalisée m0 . L’approximation proposée consiste

• à simuler indépendamment pour tout i = 1, · · · , M un Ni –échantillon (ξ i,1 , · · · , ξ i,Ni )

distribué selon mi ,

• à simuler un N0 –échantillon (ξ 0,1 , · · · , ξ 0,N0 ) distribué selon le mélange fini m0 ,

toutes les variables aléatoires étant simulées de manière indépendantes, et à poser

1 ∑∑ 1 ∑
M Ni N0
ηN = δ i,j + δ 0,j , (9.15)
N ξ N ξ
i=1 j=1 j=1
9.3. ÉCHANTILLONNAGE ET APPROXIMATION D’UN MÉLANGE FINI 123

c’est–à–dire que
1 ∑∑ 1 ∑
M Ni N0
⟨ηN , ϕ⟩ = i,j
ϕ(ξ ) + ϕ(ξ 0,j ) ,
N N
i=1 j=1 j=1

et par diﬀérence

1 ∑∑ 1 ∑
M Ni N0
⟨ηN − η, ϕ⟩ = [ϕ(ξ ) − ⟨mi , ϕ⟩] +
i,j
[ϕ(ξ 0,j ) − ⟨m0 , ϕ⟩] ,
N N
i=1 j=1 j=1

pour toute fonction mesurable bornée ϕ.

Théorème 9.20 La variable aléatoire ⟨ηN , ϕ⟩ est un estimateur non–biaisé de ⟨η, ϕ⟩, et les
moments de l’erreur d’estimation vérifient

1 ∑ Ni
M
N0
E| ⟨ηN − η, ϕ⟩ |2 = [ var(ϕ, mi ) + var(ϕ, m0 ) ] ,
N N N
i=1

et pour tout réel p ≥ 2, il existe une constante positive cp > 0 telle que

c p ∑ Ni
M
N0
{ E| ⟨ηN − η, ϕ⟩|p }1/p ≤ √ [ ⟨mi , |ϕ − ⟨mi , ϕ⟩|p ⟩ + ⟨m0 , |ϕ − ⟨m0 , ϕ⟩|p ⟩ ]1/p ,
N i=1 N N

pour toute fonction mesurable bornée ϕ.

Remarque 9.21 Compte tenu que

|ϕ(x) − ⟨mi , ϕ⟩| ≤ osc(ϕ) ,

pour tout x ∈ E et pour tout i = 0, 1, · · · , M , on a également la majoration plus grossière

suivante
cp ∑ Ni N0 1/p
M
cp
{ E| ⟨ηN − η, ϕ⟩|p }1/p ≤ √ [ + ] osc(ϕ) ≤ √ osc(ϕ) ,
N i=1 N N N

pour toute fonction mesurable bornée ϕ.

Remarque 9.22 On remarque que

∑
M
qi ∑
M
qi
var(ϕ, m0 ) = ⟨mi , |ϕ|2 ⟩ − | ⟨mi , ϕ⟩ |2 ,
N0 N0
i=1 i=1
124 CHAPITRE 9. MÉTHODES DE MONTE CARLO

et on rappelle que Ni = N wi − qi pour tout i = 1, · · · , M , de sorte que

∑
M
Ni N0
var(ϕ, mi ) + var(ϕ, m0 ) =
N N
i=1

∑
M
N0 ∑ qi
M
= wi var(ϕ, mi ) − [⟨mi , |ϕ|2 ⟩ − |⟨mi , ϕ⟩ |2 ]
N N0
i=1 i=1

N0 ∑ qi ∑
M M
qi
+ [ ⟨mi , |ϕ|2 ⟩ − | ⟨mi , ϕ⟩ |2 ]
N N0 N0
i=1 i=1

∑
M
N0 ∑ qi
M ∑
M
qi
= wi var(ϕ, mi ) + [ |⟨mi , ϕ⟩|2 − | ⟨mi , ϕ⟩ |2 ] ,
N N0 N0
i=1
| i=1 {z i=1 }
WM
où le terme WM représente la variance des moyennes intra–composantes aﬀectées du poids rési-
duel de chaque composante.

Remarque 9.23 En regroupant les termes diﬀéremment, et compte tenu que Ni + qi = N wi

pour tout i = 1, · · · , N , il vient
∑
M
Ni N0
var(ϕ, mi ) + var(ϕ, m0 )
N N
i=1

∑
M
Ni ∑
M
Ni
= ⟨mi , |ϕ| ⟩ −
2
|⟨mi , ϕ⟩ |2
N N
i=1 i=1

N 0 ∑ qi N 0 ∑ qi
M M
+ ⟨mi , |ϕ|2 ⟩ − | ⟨mi , ϕ⟩ |2
N N0 N N0
i=1 i=1

∑
M ∑
M
Ni N 0 ∑ qi
M
= wi ⟨mi , |ϕ| ⟩ − [
2
|⟨mi , ϕ⟩ | + 2
| ⟨mi , ϕ⟩ |2 ] ,
N N N0
i=1 i=1 i=1

tandis que
∑
M ∑
M
var(ϕ, η) = wi ⟨mi , |ϕ| ⟩ − |
2
wi ⟨mi , ϕ⟩ |2
i=1 i=1

∑
M ∑
M
Ni N 0 ∑ qi
M
= wi ⟨mi , |ϕ|2 ⟩ − | ⟨mi , ϕ⟩ + ⟨mi , ϕ⟩ |2 .
N N N0
i=1 i=1 i=1

D’après l’inégalité de Jensen, on a

∑
M
Ni N 0 ∑ qi
M ∑
M
Ni N 0 ∑ qi
M
| ⟨mi , ϕ⟩ + ⟨mi , ϕ⟩ |2 ≤ | ⟨mi , ϕ⟩ |2 + | ⟨mi , ϕ⟩ |2 ,
N N N0 N N N0
i=1 i=1 i=1 i=1
9.3. ÉCHANTILLONNAGE ET APPROXIMATION D’UN MÉLANGE FINI 125

d’où on déduit que

∑
M
Ni N0
var(ϕ, η) ≥ var(ϕ, mi ) + var(ϕ, m0 ) ,
N N
i=1

c’est–à–dire que la variance de l’estimateur (9.15) est inférieure à la variance de l’estima-

teur (9.13). En d’autres termes, la variance de l’erreur d’estimation pour l’algorithme d’échan-
tillonnage résiduel multinomial est inférieure à la variance de l’erreur d’estimation pour l’algo-
rithme d’échantillonnage multinomial.

Preuve du Théorème 9.20. En exploitant l’indépendance des diﬀérentes variables aléatoires,

on remarque que

1 ∑∑ 1 ∑
M Ni N0
E| ⟨ηN − η, ϕ⟩ |2 = E| [ϕ(ξ i,j ) − ⟨mi , ϕ⟩] + [ϕ(ξ 0,j ) − ⟨m0 , ϕ⟩] |2
N N
i=1 j=1 j=1

1 ∑∑ 1 ∑
M Ni N0
= E|ϕ(ξ i,j
) − ⟨m i , ϕ⟩|2
+ E|ϕ(ξ 0,j ) − ⟨m0 , ϕ⟩|2
N2 N2
i=1 j=1 j=1

1 ∑ Ni
M
N0
= [ var(ϕ, mi ) + var(ϕ, m0 ) ] ,
N N N
i=1

pour toute fonction mesurable bornée ϕ. Plus généralement, pour tout réel p ≥ 2, il résulte de
l’inégalité Marcinkiewicz–Zygmund (B.1) que

1 ∑∑ 1 ∑
M Ni N0
E| ⟨ηN − η, ϕ⟩ | = E|
p
[ϕ(ξ ) − ⟨mi , ϕ⟩] +
i,j
[ϕ(ξ 0,j ) − ⟨m0 , ϕ⟩] |p
N N
i=1 j=1 j=1

Bp 1 ∑ ∑ ∑
M Ni N0
≤ p/2 [ E| ϕ(ξ i,j ) − ⟨mi , ϕ⟩|p + E| ϕ(ξ 0,j ) − ⟨m0 , ϕ⟩|p ]
N N
i=1 j=1 j=1

Bp ∑ Ni
M
N0
= p/2
[ ⟨mi , |ϕ − ⟨mi , ϕ⟩|p ⟩ + ⟨m0 , |ϕ − ⟨m0 , ϕ⟩|p ⟩ ] ,
N N N
i=1

pour toute fonction mesurable bornée ϕ. 2

▶ Échantillonnage adaptatif Étant donné la distribution de probabilité η définie comme

un mélange fini
∑
M ∑M
η= wi m i avec wi = 1 ,
i=1 i=1

il n’est véritablement intéressant de sélectionner les composantes du mélange que si les poids
(w1 , · · · , wM ) sont très déséquilibrés. Plusieurs critères ont été proposés pour mesurer l’écart
à l’équidistribution, et pour décider de conserver les poids ou de les utiliser pour échantilloner
selon l’une ou l’autre des implémentations proposées ci–dessus, par exemple la distance du
126 CHAPITRE 9. MÉTHODES DE MONTE CARLO

χ2 ou la distance de Kullback–Leibler entre deux vecteurs de probabilité p = (p1 , · · · , pM ) et

q = (q1 , · · · , qM ), définies par

∑
M
pi ∑
M
pi
2
χ (p, q) = qi ( − 1)2 et K(p, q) = pi log ,
qi qi
i=1 i=1

respectivement.

Distance du χ2 et taille eﬀective de l’échantillon Un premier critère pour mesurer l’écart

entre les poids (w1 , · · · , wM ) et la distribution uniforme, est la distance du χ2

1 ∑ 1 ∑ ∑
M M M
M
0≤ (M wi − 1) =
2
(M wi ) − 1 = M
2
wi2 − 1 = −1 ,
M M Meﬀ
i=1 i=1 i=1

où Meﬀ est la taille eﬀective de l’échantillon, définie par

∑
M
1 ≤ Meﬀ = 1 / [ wi2 ] ≤ M ,
i=1

et où l’égalité est atteinte à l’équidistribution, ce qui suggère de redistribuer si

M
− 1 ≥ χ2red > 0 c’est–à–dire si Meﬀ ≤ cred M ,
Meﬀ
où le seuil cred = 1/(1 + χ2red ) < 1 reste à déterminer.

Distance de Kullback–Leibler et entropie de l’échantillon Un second critère pour mesu-

rer l’écart entre les poids (w1 , · · · , wM ) et la distribution uniforme, est la distance de Kullback–
Leibler
∑M ∑M
0≤ wi log(M wi ) = wi log wi + log M = −Ent + log M ,
i=1 i=1
où Ent est l’entropie de l’échantillon, définie par

∑
M
Ent = − wi log wi ≤ log M ,
i=1

et où l’égalité est atteinte à l’équidistribution, ce qui suggère de redistribuer si

−Ent + log M ≥ cred ,

où le seuil cred > 0 reste à déterminer.

Remarque 9.24 Les résultats obtenus au Théorème 9.17 pour l’estimateur (9.14) peuvent être
ré–interprétés en terme de la taille eﬀective de l’échantillon. En eﬀet

1 ∑ □
M
E| ⟨ηM − η, ϕ⟩ |2 = wi var(ϕ, mi ) ,
Meﬀ
i=1
9.4. ÉCHANTILLONNAGE SELON UNE DISTRIBUTION À SUPPORT FINI 127

et pour tout réel p ≥ 2, il existe une constante positive cp > 0 telle que

cp ∑ M
{ E| ⟨ηM − η, ϕ⟩|p }1/p ≤ √ { w□ ⟨mi , |ϕ − ⟨mi , ϕ⟩|p ⟩ }1/p ,
Meﬀ i=1 i

pour toute fonction mesurable bornée ϕ.

Remarque 9.25 On peut aussi introduire l’approximation particulaire adaptative définie par
 M
 ∑

 avec ξi ∼ mi pour tout i = 1 · · · M

 wi δ ξ


i

 i=1

 si Meff > cred M ,
ηM =



 1 ∑
M

 avec ξi ∼ η pour tout i = 1 · · · M


δξ

 M i
 i=1
si Meff ≤ cred M ,
avec l’expression suivante pour la variance de l’erreur d’estimation

1 ∑ □
M



 wi var(ϕ, mi ) si Meff > cred M ,
 Meff
E| ⟨ηM − η, ϕ⟩ |2 = i=1




 1 var(ϕ, η) si Meff ≤ cred M .
M

9.4 Échantillonnage selon une distribution à support fini

La question qui reste est donc de savoir simuler une variable aléatoire I à valeurs dans l’en-
semble fini {1, · · · , M }, ou bien de savoir simuler un N –échantillon à valeurs dans l’ensemble
fini {1, · · · , M }, et on commence par introduire un découpage de l’intervalle [0, 1] en M seg-
ments adjacents de longueurs respectives w1 , · · · , wM . Ces M segments sont délimités par les
probabilités cumulées
s0 = 0 et si = w1 + · · · + wi ,
pour tout i = 1, · · · , M et on vérifie que sM = 1.
La méthode la plus directe est la méthode d’inversion, qui consiste à générer une variable
aléatoire U uniforme sur [0, 1] : si U appartient au j–ème segment, i.e. si
sj−1 < U ≤ sj ,
alors on pose I = j. Une recherche binaire en O(log2 M ) opérations permet d’obtenir ce résultat,
et il suﬃt donc de N O(log2 M ) opérations pour générer un N –échantillon à valeurs dans l’en-
semble fini {1, · · · , M } et distribué selon les poids (w1 , · · · , wM ).
Au lieu de répéter N fois l’opération de
128 CHAPITRE 9. MÉTHODES DE MONTE CARLO

• générer une variable aléatoire uniforme sur [0, 1],

• puis eﬀectuer une recherche binaire,

on peut penser à générer un N –échantillon (U1 , · · · , UN ) de variables aléatoires uniformes sur

[0, 1], puis à ordonner cet échantillon, ce qui nécessite O(N log2 N ) opérations. On peut alors
appliquer la méthode d’inversion à l’échantillon ré–ordonné U(1) ≤ · · · ≤ U(N ) : si U(i) appartient
au j–ème segment, i.e. si
sj−1 < U(i) ≤ sj ,
alors on pose Ii = j. L’avantage de travailler avec un échantillon ordonné est que pour générer
Ii+1 il suffit de tester l’appartenance de U(i+1) aux segments situés au–delà du j–ème segment,
et il suffit donc de M + N comparaisons au plus pour affecter les N variables ré–ordonnées aux
M différents segments, c’est–à–dire pour interclasser les deux suites ordonnées

0 ≤ U(1) ≤ · · · ≤ U(N ) ≤ 1 et 0 = s0 ≤ s1 ≤ · · · ≤ sM = 1 .

? ? ? ? ? ? ?

Avec cette méthode, il suffit donc de O(N log2 N )+O(M +N ) opérations pour générer un N –
échantillon à valeurs dans l’ensemble fini {1, · · · , M } et distribué selon les poids (w1 , · · · , wM ).
Une méthode plus efficace, qui évite l’étape préalable de ré–ordonner les variables aléatoires
uniformes, consiste à générer directement une N –statistique d’ordre uniforme, c’est–à–dire un
vecteur aléatoire (V1 , · · · , VN ) distribué comme le vecteur aléatoire (U(1) , · · · , U(N ) ) obtenu en
ré–ordonnant un N –échantillon (U1 , · · · , UN ) de variables aléatoires uniformes sur [0, 1]. L’un ou
l’autre des deux résultats suivants permet d’effectuer cette tâche en O(N ) opérations, et il suffit
donc de O(N ) + O(M + N ) opérations pour générer un N –échantillon à valeurs dans l’ensemble
fini {1, · · · , M } et distribué selon les poids (w1 , · · · , wM ).

Proposition 9.26 Soit (U1 , · · · , UN ) un N –échantillon de variables aléatoires uniformes sur

[0, 1]. On définit
1/N 1/i
V i = UN · · · Ui pour tout i = N, · · · , 1,
1/N
ou bien par récurrence : VN = UN et

1/i
Vi = Vi+1 Ui pour tout i = N − 1, · · · , 1.

Le vecteur aléatoire (V1 , · · · , VN ) est distribué comme le vecteur aléatoire (U(1) , · · · , U(N ) ) obtenu
en ré–ordonnant (U1 , · · · , UN ).
9.4. ÉCHANTILLONNAGE SELON UNE DISTRIBUTION À SUPPORT FINI 129

Preuve. Clairement, Vi ≤ Vi+1 pour tout i = 1, · · · , N − 1, c’est–à–dire que la suite

V1 ≤ · · · ≤ Vi ≤ Vi+1 ≤ · · · ≤ VN ,

est croissante. On remarque que

∫ 1 ∫ 1
ϕ(v) N v N −1 dv ,
1/N
E[ϕ(VN )] = E[ϕ(UN )] = ϕ(x1/N ) dx =
0 0

pour toute fonction mesurable bornée ϕ définie sur l’intervalle [0, 1], de sorte que

P[VN ∈ dv] = 1(0 ≤ v ≤ 1) N v N −1 dv .

Compte tenu que la variable aléatoire uniforme Ui est indépendante de (Vi+1 , · · · , VN ), on a

1/i
E[ϕ(Vi ) | Vi+1 , · · · , VN ] = E[ϕ(Vi+1 Ui ) | Vi+1 , · · · , VN ]

∫ 1
= ϕ(Vi+1 x1/i ) P[Ui ∈ dx | Vi+1 , · · · , VN ]
0
∫ 1
= ϕ(Vi+1 x1/i ) dx
0
∫ 1
i v i−1
= ϕ(v) 1(0 ≤ v ≤ V ) i dv ,
0 i+1 V
i+1

pour toute fonction mesurable bornée ϕ définie sur l’intervalle [0, 1], de sorte que

i v i−1
P[Vi ∈ dv | Vi+1 , · · · , VN ] = 1(0 ≤ v ≤ V ) i dv ,
i+1 V
i+1

pour tout i = N − 1, · · · , 1. On en déduit que

∏
N −1
P[V1 ∈ dv1 , · · · , VN ∈ dvN ] = P[VN ∈ dvN ] P[Vi ∈ dvi | Vi+1 = vi+1 , · · · , VN = vN ]
i=1

∏
N −1
N −1 i v i−1
= 1(0 ≤ v ≤ 1) N vN dvN 1(0 ≤ v ≤ v ) ii dvi
N
i=1
i i+1 vi+1

= N ! 1(0 ≤ v ≤ · · · ≤ v ≤ 1) dv1 · · · dvN . 2

1 N

Proposition 9.27 Soit (E1 , · · · , EN +1 ) un (N +1)–échantillon de variables aléatoires exponen-

tielles de paramètre 1 sur [0, ∞). On définit SN +1 = E1 + · · · + EN +1 et

Si
Si = E1 + · · · + Ei et Vi = pour tout i = 1, · · · , N ,
SN +1
130 CHAPITRE 9. MÉTHODES DE MONTE CARLO

E1
ou bien par récurrence : V1 = et
SN +1

Ei
Vi = Vi−1 + pour tout i = 2, · · · , N .
SN +1

Le vecteur aléatoire (V1 , · · · , VN ) est distribué comme le vecteur aléatoire (U(1) , · · · , U(N ) ) obtenu
en ré–ordonnant un N –échantillon (U1 , · · · , UN ) de variables aléatoires uniformes sur [0, 1].

Preuve. Clairement, Vi ≥ Vi−1 pour tout i = 2, · · · , N , c’est–à–dire que la suite

V1 ≤ · · · ≤ Vi ≤ Vi+1 ≤ · · · ≤ VN ,

est croissante. On remarque que S1 = E1 , de sorte que

P[S1 ∈ ds] = 1(s ≥ 0) e−s ds .

Compte tenu que (S1 , · · · , Si ) contient exactement la même information que (E1 , · · · , Ei ), et
que la variable aléatoire Ei+1 est indépendante de (E1 , · · · , Ei ), on a

E[ϕ(Si+1 ) | S1 , · · · , Si ] = E[ϕ(Si + Ei+1 ) | E1 , · · · , Ei ]

∫ ∞
= ϕ(Si + x) P[Ei+1 ∈ dx | E1 , · · · , Ei ]
0
∫ ∞
= ϕ(Si + x) e−x dx
0
∫ ∞
= ϕ(s) 1(s ≥ S ) e−(s−Si ) ds ,
0 i

pour toute fonction ϕ mesurable bornée définie sur l’intervalle [0, ∞), de sorte que

P[Si+1 ∈ ds | S1 , · · · , Si ] = 1(s ≥ S ) e−(s−Si ) ds ,

pour tout i = 1, · · · , N . On en déduit que

∏
N
P[S1 ∈ ds1 , · · · , SN +1 ∈ dsN +1 ] = P[S1 ∈ ds1 ] P[Si+1 ∈ dsi | S1 = s1 , · · · , Si = si ]
i=1

∏
N
= 1(s ≥ 0) e−s1 ds1 1(s e−(si+1 −si ) dsi
i+1 ≥ si )
i=1

= 1(0 ≤ s ≤ · · · ≤ s e−sN +1 ds1 · · · dsN +1 ,

1 N +1 )
9.4. ÉCHANTILLONNAGE SELON UNE DISTRIBUTION À SUPPORT FINI 131

et
S1 SN
E[f (V1 , · · · , VN )] = E[f ( ,··· , )]
SN +1 SN +1
∫ ∞ ∫ ∞
s1 sN
= ··· f( ,··· , ) P[S1 ∈ ds1 , · · · , SN +1 ∈ dsN +1 ]
0 0 sN +1 sN +1
∫ ∞ ∫ ∞
s1 sN
= ··· f( ,··· , ) 1(0 ≤ s ≤ · · · ≤ s ≤ s e−sN +1 ds1 · · · dsN dsN +1
0 0 sN +1 sN +1 1 N N +1 )
∫ ∞ ∫ ∞
−sN +1
= ··· f (v1 , · · · , vN ) 1(0 ≤ v ≤ · · · ≤ v ≤ 1) sN
N +1 e dv1 · · · dvN dsN +1
0 0 1 N
∫ ∞ ∫ ∞ ∫ ∞
−sN +1
= ··· f (v1 , · · · , vN ) 1(0 ≤ v ≤ · · · ≤ v ≤ 1) dv1 · · · dvN sN
N +1 e dsN +1
0 0 1 N 0
∫ ∞ ∫ ∞
= ··· f (v1 , · · · , vN ) N ! 1(0 ≤ v ≤ · · · ≤ v ≤ 1) dv1 · · · dvN ,
0 0 1 N

pour toute fonction f mesurable bornée définie sur l’ensemble produit [0, ∞)N , compte tenu que
∫ ∞
sN e−s ds = N ! .
0

On en déduit que

P[V1 ∈ dv1 , · · · , VN ∈ dvN ] = N ! 1(0 ≤ v ≤ · · · ≤ v ) dv1 · · · dvN . 2

1 N
132 CHAPITRE 9. MÉTHODES DE MONTE CARLO
Chapitre 10

Approximations particulaires

On se place dans le cadre général décrit au Chapitre 8, où différents modèles ont été considérés,
avec différents points de vue. Il ressort de la discussion que le modèle (8.22), où chaque fonction
de sélection dépend de la transition courante de la chaı̂ne de Markov, semble suffisamment
général pour inclure comme cas particuliers la plupart des modèles présentés jusqu’ici, mais il
ressort aussi de la discussion que le modèle (8.1) apparamment plus simple, où chaque fonction
de sélection dépend seulement de l’état courant (c’est–à–dire de l’état d’arrivée de la transition
courante) de la chaı̂ne de Markov, contient en fait le modèle (8.22) comme cas particulier,
pourvu qu’on change de point de vue et qu’on adopte le modèle (8.27) à valeurs transitions.
Cette remarque sera abondamment exploitée dans ce chapitre et dans les chapitres suivants, et
on considérera indifférement ces deux modèles et les différents points de vue associés.
Il s’agit ici d’approcher numériquement, par des méthodes de Monte Carlo, la distribution
non–normalisée et la distribution normalisée associée, définis

• soit par une représentation probabiliste comme (8.1), (8.22) ou (8.27),

• soit par une relation de récurrence comme (8.2), (8.24) ou (8.28),

respectivement, selon le modèle utilisé. Le premier point de vue conduit aux algorithmes d’é-
chantillonnage pondéré (SIS, pour sequential importance sampling) qui sont des algorithmes de
Monte Carlo classiques (sans interaction), assez ineﬃcaces, et le second point de vue conduit
aux algorithmes d’échantillonnage / ré–échantillonnage (SIR, pour sampling with importance
resampling) qui sont des algorithmes de Monte Carlo avec interaction, beaucoup plus eﬃcaces.

10.1 Échantillonnage pondéré (SIS)

Il n’y a aucune diﬃculté particulière à considérer directement le modèle (8.22) apparamment

plus général, où chaque fonction de sélection dépend de la transition courante de la chaı̂ne de
Markov, et à considérer ensuite comme un cas particulier le modèle (8.1) apparamment plus
simple, où chaque fonction de sélection dépend seulement de l’état courant (c’est–à–dire de
l’état d’arrivée de la transition courante) de la chaı̂ne de Markov.

133
134 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

Si on introduit la variable aléatoire X0:n = (X0 , X1 , · · · , Xn ) à valeurs trajectorielles, dont

la distribution de probabilité est

η0:n (dx0:n ) = P[X0:n ∈ dx0:n ] = η0 (dx0 ) Q1 (x0 , dx1 ) · · · Qn (xn−1 , dxn ) ,

et la fonction de poids
∏
n
g0:n (x0:n ) = gk (xk−1 , xk ) ,
k=0
et si on définit
∫ ∫
⟨η0:n , g0:n f ⟩ = E[f (X0:n ) g0:n (X0:n ) ] = ··· f (x0:n ) g0:n (x0:n ) η0:n (dx0:n ) ,
E E

pour toute fonction mesurable bornée f définie sur l’espace produit E × · · · × E = E n+1 , alors
on a
∏
n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ] = E[ϕ ◦ π(X0:n ) g0:n (X0:n )] = ⟨η0:n , g0:n ϕ ◦ π⟩ ,
k=0

où π : (x0 , x1 , · · · , xn ) ∈ E × · · · × E 7→ xn ∈ E désigne la projection sur la dernière composante

de l’espace produit E n+1 = E × · · · × E, c’est–à–dire que l’application π pointe sur l’état final
de la trajectoire, de sorte que
⟨γn , ϕ⟩ ⟨η0:n , g0:n ϕ ◦ π⟩
⟨µn , ϕ⟩ = = ,
⟨γn , 1⟩ ⟨η0:n , g0:n ⟩
et la distribution normalisée µn s’exprime en terme de la distribution de Gibbs–Boltzmann
trajectorielle
g0:n η0:n
µ0:n = g0:n · η0:n = ,
⟨η0:n , g0:n ⟩
comme µn = µ0:n ◦ π −1 . On se retrouve donc dans le cas statique considéré au Chapitre 9, et on
peut appliquer la méthode d’échantillonnage pondéré décrite à la Section 9.2, d’où l’approxima-
tion
∑
N
µ0:n ≈ µ0:n = g0:n · S (η0:n ) =
N N
wni δ i ,
ξ0:n
i=1

où les variables aléatoires 1 ,···

(ξ0:n N )
, ξ0:n
à valeurs trajectorielles sont i.i.d. de distribution de
probabilité commune η0:n , c’est–à–dire que indépendamment pour tout i = 1, · · · , N , la trajec-
i
toire ξ0:n i = (ξ i , ξ i , · · · , ξ i ) où
s’exprime comme ξ0:n 0 1 n

• la variable aléatoire ξ0i est distribuée selon η0 ,

• pour tout k = 1, · · · , n, la variable aléatoire ξki est distribuée selon mik = Qk (ξk−1
i , ·),

et où les poids positifs (wn1 , · · · , wnN ) sont définis par

i )
g0:n (ξ0:n
wni = pour tout i = 1, · · · , N .
∑
N
j
g0:n (ξ0:n )
j=1
10.1. ÉCHANTILLONNAGE PONDÉRÉ (SIS) 135

Compte tenu de la relation µn = µ0:n ◦ π −1 , on a également l’approximation

∑
N
−1
µn ≈ µN
n = µ0:n ◦ π
N
= wni δ .
ξni
i=1

La simulation des trajectoires et le calcul des poids peuvent être décrits de la façon récursive
suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée

selon la distribution de probabilité η0 , et on pose

g0 (ξ0i )
w0i = ,
∑
N
g0 (ξ0j )
j=1

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξki

i
est simulée selon la distribution de probabilité Qk (ξk−1 , dx′ ), et on pose

i
wk−1 i
gk (ξk−1 , ξki )
wki = .
∑
N
j j
wk−1 gk (ξk−1 , ξkj )
j=1

Les performances de cet algorithme, en termes de variance asymptotique de l’erreur d’approxi-

mation, quand le nombre N de particules tend vers l’infini, sont présentées au Théorème 12.1.

Exemple 10.1 Dans le cas particulier du système non–linéaire à bruits non–gaussiens décrit
par (5.1) et (5.2), simuler une variable aléatoire X selon la distribution de probabilité Qk (x, dx′ )
signifie simplement simuler une variable aléatoire W selon la distribution de probabilité pW k (dw),
et poser X = fk (x, W ), et évaluer la fonction de vraisemblance gk (x′ ) signifie simplement évaluer
qkV (Yk − hk (x′ )), d’où l’algorithme suivant

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée

selon la distribution de probabilité η0 , et on pose

q0V (Y0 − h0 (ξ0i ))

w0i = .
∑
N
j
q0 (Y0 − h0 (ξ0 ))
V

j=1

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

– la variable aléatoire Wki est simulée selon la distribution de probabilité pW

k (dw),
i
– on pose ξki = fk (ξk−1 , Wki ),
136 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

et on pose
i
wk−1 qkV (Yk − hk (ξki ))
wki = .
∑
N
j
wk−1 qkV (Yk − hk (ξkj ))
j=1

On remarque que les poids dépendent des trajectoires simulées, et sont en effet d’autant
plus élevés pour les trajectoires en adéquation avec les observations, mais en revanche ces poids
ne sont pas utilisés pour simuler les trajectoires : en poussant les choses à l’extrême, on peut
donc dire que les trajectoires sont simulées en aveugle, et l’algorithme se contente de pondérer
différemment les différentes trajectoires.
Comme ces différentes trajectoires sont en nombre fini, il est de moins en moins raisonnable,
au fur et à mesure que le temps passe, d’espérer qu’un nombre suffisant d’entre ces trajectoires
puisse être assez proche de la vraie trajectoire. Comme les poids s’accumulent au cours du temps
le long de chaque trajectoire, la situation typique est de voir une seule trajectoire recueillir un
poids beaucoup plus fort que toutes les autres, et ceci juste parce qu’au cours de son histoire
passée elle s’est trouvée plus souvent proche de la vraie trajectoire, quand bien même elle s’en
trouverait très éloignée à l’instant présent.
Ces phénomènes de dégénerescence des poids et d’importance excessive du passé sont bien
connus, et diverses solutions ont été proposées pour y remédier

• simuler les trajectoires selon un mécanisme qui prenne mieux en compte les observations,
au lieu de simuler les trajectoires en aveugle,

• multiplier les trajectoires de poids le plus fort, et éliminer les trajectoires de poids le plus
faible, en introduisant une étape de ré–échantillonage,

et il est également possible de combiner ces solutions, ce qui fait l’objet des algorithmes présentés
ci–dessous.

10.2 Échantillonnage / ré–échantillonnage (SIR)

Il est plus facile ici de considérer d’abord le modèle (8.1) apparamment plus simple, où chaque
fonction de sélection dépend seulement de l’état courant (c’est–à–dire de l’état d’arrivée de la
transition courante) de la chaı̂ne de Markov, et de considérer ensuite comme un cas particulier le
modèle (8.22) apparamment plus général, où chaque fonction de sélection dépend de la transition
courante de la chaı̂ne de Markov, ce qui est possible pourvu qu’on change de point de vue et
qu’on adopte le modèle (8.27) à valeurs transitions.
Au lieu de simuler d’abord N trajectoires indépendantes de la chaı̂ne de Markov et d’évaluer
séparément les poids associés à chaque trajectoire simulée, le principe consiste à rechercher une
approximation

1 ∑ ∑ ∑
N N N
ηk ≈ ηkN = δ i et µk ≈ µN
k = wki δ avec wki = 1 , (10.1)
N ξk ξki
i=1 i=1 i=1
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 137

des distributions normalisées, sous la forme de distributions de probabilité empiriques pondérées

associées à un système de particules caractérisé par les positions (ξki , i = 1, · · · , N ) et par les
poids positifs (wki , i = 1, · · · , N ). En toute généralité, le nombre de particules pourrait être
aléatoire ou varier d’une génération à l’autre, mais on se limite ici au cas simple où le nombre
N de particules est constant à chaque génération. Les poids et les positions des particules sont
choisis de telle sorte que l’évolution de la suite approchée reproduise aussi fidèlement que possible
l’évolution de la distribution normalisée décrite par le diagramme suivant

mutation pondération
µk−1 −−−−−−−−−−→ ηk = µk−1 Qk −−−−−−−−−−−−→ µk = gk · ηk , (10.2)

avec la condition initiale µ0 = g0 · η0 , où la notation · désigne le produit projectif.

On introduit d’abord l’approximation

1 ∑
N
η0N = S N (η0 ) = δ i ,
N ξ0
i=1

où indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est distribuée selon η0 .
Pour tout k = 0, 1, · · · , n, il est immédiat à partir de la définition (10.1) que

∑
N
gk (ξki ) ∑ N
µN
k = gk · ηkN = δ i = wki δ i ,
i=1
∑
N
j
ξk
i=1
ξk
gk (ξk )
j=1

possède automatiquement la forme recherchée, avec les poids définis par

gk (ξki )
wki = pour tout i = 1, · · · , N , (10.3)
∑
N
gk (ξkj )
j=1

et
1 ∑
N
⟨ηkN , gk ⟩ = gk (ξki ) ,
N
i=1

fournit l’approximation correspondante pour la constante de normalisation ⟨ηk , gk ⟩.

Pour tout k = 1, · · · , n, il est immédiat à partir de la définition (10.1) que

∑
N
µN
k−1 Qk = i
wk−1 mik où mik (dx′ ) = Qk (ξk−1
i
, dx′ ) ,
i=1

pour tout i = 1, · · · , N , et il s’agit donc d’approcher une distribution de probabilité définie

comme un mélange fini, selon l’une ou l’autre des approches proposées à la Section 9.3. La
définition précise de l’approximation ηkN dépend de l’implémentation choisie.
138 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

▶ Ré–échantillonnage multinomial Dans cette implémentation, à chaque génération k =

1, · · · , n, on simule un N –échantillon distribué selon le mélange fini µN
k−1 Qk , d’où l’approxima-
tion
∑N
1 ∑
N
µN Q
k−1 k = w i
k−1 m i
k ≈ ηk
N
= S N
(µN
Q
k−1 k ) = δ i ,
N ξk
i=1 i=1

sous la forme désirée, et où indépendamment pour tout i = 1, · · · , N la variable aléatoire ξki
est distribuée selon le mélange fini µNk−1 Qk . On en déduit l’expression suivante pour l’erreur
d’approximation
1 ∑
N
⟨ηk − µk−1 Qk , ϕ⟩ =
N N
[ ϕ(ξki ) − ⟨µN
k−1 Qk , ϕ⟩ ] ,
N
i=1

et il résulte du Théorème 9.14 et de la Remarque 9.15 que

1
E[ |⟨ηkN − µN
k−1 Qk , ϕ⟩| | Fk−1 ] =
2 N
var(ϕ, µN
k−1 Qk ) ,
N
et pour tout réel p ≥ 2
cp
{ E[ |⟨ηkN − µN
k−1 Qk , ϕ⟩| | Fk−1 ] }
p N 1/p
≤ √ osc(ϕ) , (10.4)
N

pour toute fonction mesurable bornée ϕ, où Fk−1 N désigne la tribu engendrée par le système de
particules jusqu’à la (k − 1)–ème génération.

▶ Stratification et ré–échantillonnage résiduel multinomial Dans cette implémentation,

à chaque génération k = 1, · · · , n, chaque composante i = 1, · · · , N du mélange fini µN k−1 Qk
reçoit dans une première allocation un nombre de représentants égal au nombre de fois que le
poids 1/N est contenu dans le poids wk−1 i de la composante (le poids 1/N est celui qui sera
affecté à chaque particule dans l’approximation ηkN ). Il reste ensuite à compléter la popula-
tion de particules de manière à assurer un effectif de taille N , en simulant un échantillon selon
la distribution résiduelle des poids non encore affectés. Concrètement, pour toute composante
i = 1, · · · , N le nombre de représentants affectés à l’issue de la première passe est Nki = ⌊N wki ⌋,
c’est–à–dire que
N wki = Nki + qki avec 0 ≤ qki < 1 .
Compte tenu des identités

∑
N ∑
N ∑
N ∑
N
i
N= N wk−1 = (Nki + qki ) = Nki + Nk0 avec Nk0 = qki ,
i=1 i=1 i=1 i=1

et
∑
N ∑
N
Ni ∑
N
qi ∑
N
Ni Nk0 0
µN
k−1 Qk =
i
wk−1 mik = k
mik + k
mik = k
mik + mk ,
N N N N
i=1 i=1 i=1 i=1
avec
∑N
qki
m0k = i
0 mk ,
i=1
N k
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 139

on déduit que (N − Nk0 ) descendants ont déjà été aﬀectés à l’issue de cette première passe, et
il reste donc Nk0 descendants à aﬀecter de manière à approcher la distribution de probabilité
résiduelle convenablement renormalisée m0k . L’approche proposée consiste
0,Nk0
• à simuler un Nk0 –échantillon (ξk0,1 , · · · , ξk ) distribué selon le mélange fini m0k ,
i,Nki
• à simuler indépendamment pour tout i = 1, · · · , N un Nki –échantillon (ξki,1 , · · · , ξk )
distribué selon mik ,

toutes les variables aléatoires étant simulées de manière indépendantes, d’où l’approximation
i 0
∑ N Nk Nk
1 ∑∑ 1 ∑ 1 ∑
N N
µN
k−1 Qk =
i
wk−1 mik ≈ ηkN = δ i,j + δ 0,j = δ i , (10.5)
N ξk N ξk N ξk
i=1 i=1 j=1 j=1 i=1

sous la forme désirée, c’est–à–dire que

i 0
N Nk Nk
1 ∑∑ i,j 1 ∑
⟨ηkN , ϕ⟩ = ϕ(ξk ) + ϕ(ξk0,j ) ,
N N
i=1 j=1 j=1

et par diﬀérence
i 0
N Nk Nk
1 ∑∑ 1 ∑
⟨ηkN − µN
k−1 Qk , ϕ⟩ = [ϕ(ξki,j ) − ⟨mik , ϕ⟩] + [ϕ(ξk0,j ) − ⟨m0k , ϕ⟩] ,
N N
i=1 j=1 j=1

pour toute fonction mesurable bornée ϕ. Il résulte du Théorème 9.20 et de la Remarque 9.21
que
1 ∑ Nki
N
N0
E[ | ⟨ηk − µk−1 Qk , ϕ⟩ | | Fk−1 ] =
N N 2 N
[ var(ϕ, mik ) + k var(ϕ, m0k ) ] ,
N N N
i=1
et pour tout réel p ≥ 2
cp
{ E[ | ⟨ηkN − µN
k−1 Qk , ϕ⟩| | Fk−1 ] }
p N 1/p
≤ √ osc(ϕ) , (10.6)
N
pour toute fonction mesurable bornée ϕ, où Fk−1 N désigne la tribu engendrée par le système de
particules jusqu’à la (k − 1)–ème génération.

Résumé Dans toute cette classe d’algorithmes d’approximation particulaire, et quelle que soit
l’implémentation retenue pour mette en œuvre l’étape de sélection, l’évolution de la population
de particules et la mise–à–jour des poids sont ici couplées et peuvent être décrites de la façon
récursive suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée

selon la distribution de probabilité η0 , et on pose
g0 (ξ0i )
w0i = .
∑
N
j
g0 (ξ0 )
j=1
140 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

– un individu ξbk−1
i 1 , · · · , ξN )
est sélectionné au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−1 , · · · , wk−1 ) et à l’aide de l’un des mécanismes de sélection
1 N

proposés,
– la variable aléatoire ξ i est simulée selon la distribution de probabilité Qk (ξbi , dx′ ),
k k−1

et on pose
gk (ξki )
wki = .
∑
N
gk (ξkj )
j=1

Les performances de ces algorithmes, en termes de variance asymptotique de l’erreur d’approxi-

mation, quand le nombre N de particules tend vers l’infini, sont présentées au Théorème 12.2.
1 , · · · , ξN )
En résumé, les particules (ξk−1 k−1

• sont sélectionnées selon leurs poids respectifs (wk−1

1 , · · · , w N ) (étape de sélection),
k−1

• évoluent selon le noyau de Markov Qk (étape de mutation),

• et sont pondérées en évaluant la fonction de fitness gk (étape de pondération).

Au lieu de s’accumuler le long de chaque trajectoire comme dans le cas de l’algorithme SIS,
les poids sont ici utilisés pour redistribuer les particules, c’est–à–dire multiplier les particules de
plus fort poids et éliminer les particules de plus faible poids. Le gain escompté en ne conservant à
chaque pas de temps que les particules les plus pertinentes, est de concentrer ainsi les particules,
c’est–à–dire la puissance de calcul disponible, dans les régions d’intérêt de l’ensemble E.

Exemple 10.2 Dans le cas particulier du système non–linéaire à bruits non–gaussiens décrit
par (5.1) et (5.2), simuler une variable aléatoire X selon la distribution de probabilité Qk (x, dx′ )
signifie simplement simuler une variable aléatoire W selon la distribution de probabilité pWk (dw),
′
et poser X = fk (x, W ), et évaluer la fonction de vraisemblance gk (x ) signifie simplement évaluer
qkV (Yk − hk (x′ )), d’où l’algorithme suivant

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée

selon la distribution de probabilité η0 , et on pose

q0V (Y0 − h0 (ξ0i ))

w0i = .
∑
N
j
q0 (Y0 − h0 (ξ0 ))
V

j=1

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

– un individu ξbk−1
i 1 , · · · , ξN )
est sélectionné au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−11 , · · · , w N ) et à l’aide de l’un des mécanismes de sélection
k−1
proposés,
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 141

– la variable aléatoire Wki est simulée selon la distribution de probabilité pW

k (dw),

– on pose ξki = fk (ξbk−1

i , W i ),
k

et on pose
qkV (Yk − hk (ξki ))
wki = .
∑
N
qkV (Yk − hk (ξkj ))
j=1

Dans le cas plus général du modèle (8.8) et pour une décomposition d’importance (8.11)
donnée, avec la représentation probabiliste (8.12) associée, ou bien pour le modèle (8.22) où la
décomposition d’importance est donnée de manière explicite dans la représentation probabiliste,
chaque fonction de sélection dépend de la transition courante de la chaı̂ne de Markov, mais il
suﬃt de changer de point de vue et d’adopter le modèle (8.27) à valeurs transitions, où chaque
fonction de sélection dépend seulement de l’état courant, puis de ré–exprimer dans ce cadre les
algorithmes proposés ci–dessus pour le modèle (8.1) apparamment plus simple.
Le principe consiste donc à rechercher une approximation

1 ∑ ∑
N N
ηktr ≈ ηkN,tr = δ i,1 i,2 et N,tr
k ≈ µk
µtr = wki δ , (10.7)
N (ξk , ξk ) (ξki,1 , ξki,2 )
i=1 i=1

des distributions normalisées, sous la forme de distributions de probabilité empiriques pondérées

associées à un système de particules à valeurs transitions caractérisé par les positions–transitions
((ξki,1 , ξki,2 ) , i = 1, · · · , N ) et par les poids positifs normalisés (wki , i = 1, · · · , N ). Les poids et les
positions des particules sont choisis de telle sorte que l’évolution de la suite approchée reproduise
aussi fidèlement que possible l’évolution de la distribution normalisée décrite par le diagramme
suivant
mutation pondération
k−1 −
µtr −−−−−−−−−→ ηktr = µtr k−1 Qk − −−−−−−−−−−−→ µtr k = g k · ηk ,
tr tr
(10.8)
avec la condition initiale µtr0 = g0 · η0 , où la notation · désigne le produit projectif. Ici, les noyaux
markoviens Qtr (x, dx ′ ) sont définis en (8.26).
k

On introduit d’abord l’approximation

1 ∑
N
η0N N
= S (η0 ) = δ i ,
N ξ0
i=1

∑
N
gk (ξki,1 , ξki,2 ) ∑
N
µN,tr = gk · ηkN,tr = δ = wki δ ,
k
∑
N (ξki,1 , ξki,2 ) (ξki,1 , ξki,2 )
i=1 i=1
gk (ξkj,1 , ξkj,2 )
j=1
142 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

possède automatiquement la forme recherchée, avec les poids définis par

gk (ξki,1 , ξki,2 )
wki = pour tout i = 1, · · · , N , (10.9)
∑
N
gk (ξkj,1 , ξkj,2 )
j=1

et
1 ∑
N
⟨ηkN,tr , gk ⟩ = gk (ξki,1 , ξki,2 ) ,
N
i=1

fournit l’approximation correspondante pour la constante de normalisation ⟨ηktr , gk ⟩.

Pour tout k = 1, · · · , n, il est immédiat à partir de la définition (10.1) également que

∑
N
µN,tr
k−1 Qtr
k = i
wk−1 mik où mik (dx′1 , dx′2 ) = δ i,2 (dx′1 ) Qk (x′1 , dx′2 ) ,
ξk−1
i=1

pour tout i = 1, · · · , N , et il s’agit donc d’approcher une distribution de probabilité définie

comme un mélange fini, selon l’une ou l’autre des approches proposées à la Section 9.3. La
définition précise de l’approximation ηkN,tr dépend de l’implémentation choisie.
Quelle que soit l’implémentation choisie, pour simuler une variable aléatoire à valeur tran-
sition (X1′ , X2′ ) selon mik , il suﬃt de poser X1′ = ξk−1i,2
et de simuler X2′ selon Qk (ξk−1 i,2
, dx′ ),
c’est–à–dire que l’état de départ de la nouvelle transition coı̈ncide avec l’état d’arrivée de la
transition précédente et l’état d’arrivée de la nouvelle transition est distribué à partir de l’état
de départ selon le noyau de transition du modèle (8.22). En revanche, l’état de départ de la
transition précédente n’est pas utilisé.
L’évolution de la population de particules–transitions et la mise–à–jour des poids peuvent
être décrites de la façon récursive suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i,2 est simulée

selon la distribution de probabilité η0 , et on pose

g0 (ξ0i,2 )
w0i = .
∑
N
j,2
g0 (ξ0 )
j=1

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

– un individu (ξbk−1i,1 bi,2

, ξk−1 ) est sélectionné au sein de la population de particules–transitions
1,1 1,2 N,1 N,2
((ξk−1 , ξk−1 ), · · · , (ξk−1 , ξk−1 )) en fonction des poids (wk−11 , · · · , w N ) et à l’aide de
k−1
l’un des mécanismes de sélection proposés,
– la variable aléatoire à valeur transition (ξki,1 , ξki,2 ) est simulée selon la distribution de
probabilité Qtr bi,1 bi,2 ′ ′ i,1 bi,2
k (ξk−1 , ξk−1 , dx1 , dx2 ), c’est–à–dire que ξk = ξk−1 et que la variable
aléatoire ξki,2 est simulée selon la distribution de probabilité Qk (ξbk−1 i,2
, dx′2 ),
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 143

et on pose

gk (ξki,1 , ξki,2 ) gk (ξbk−1

i,2
, ξki,2 )
wki = c’est–à–dire wki = .
∑
N ∑
N
gk (ξkj,1 , ξkj,2 ) gk (ξbk−1
j,2
, ξkj,2 )
j=1 j=1

Finalement, l’approximation particulaire pour le modèle (8.22) est donnée sous la forme

∑
N
µk ≈ µN N,tr
k = µk ◦ π −1 = wki δ i,2 ,
ξk
i=1

−1
k ◦ π . On remarque aussitôt que toutes les étapes de cette
compte tenu de la relation µk = µtr
classe d’algorithmes d’approximation particulaire peuvent s’exprimer en terme de l’état d’arrivée
seulement des particules–transitions, ce qui donne

∑
N
µk ≈ µN = wki δ ,
k ξki
i=1

où l’évolution de la population de particules et la mise–à–jour des poids peuvent être décrites
de la façon récursive suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée

selon la distribution de probabilité η0 , et on pose

g0 (ξ0i )
w0i = .
∑
N
g0 (ξ0j )
j=1

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

proposés,
– la variable aléatoire ξ i est simulée selon la distribution de probabilité Qk (ξbk−1 , dx′ ),
k

et on pose
gk (ξbk−1
i , ξ i)
k
wki = .
∑
N
gk (ξbk−1
j
, ξkj )
j=1

1 , · · · , ξN )
En résumé, les particules (ξk−1 k−1

1 , · · · , w N ) (étape de sélection),
• sont sélectionnées selon leurs poids respectifs (wk−1 k−1
144 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

• évoluent selon le noyau de Markov Qk (étape de mutation),

• et sont pondérées en évaluant la fonction de fitness gk (étape de pondération).

Remarque 10.3 Dans le cas où les fonctions de sélection gk (x, x′ ) = gk (x′ ) ne dépendent que
de l’état d’arrivée de la transition, pour tout k = 0, 1, · · · , n, on retrouve évidemment comme
cas particulier le schéma d’approximation déjà décrit plus haut.

Dans le cas de la décomposition d’importance optimale (8.13) et (8.14) où la fonction de

sélection g0 (x) = cste est constante et où les fonctions de sélection gk (x, x′ ) = gbk (x) ne dépendent
au contraire que de l’état de départ de la transition pour tout k = 1, · · · , n, on obtient en principe
comme cas particulier un schéma d’approximation où l’évolution de la population de particules
et la mise–à–jour des poids peuvent être décrites de la façon récursive suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée

selon la distribution de probabilité ηb0 , et on pose

w0i = 1/N .

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

proposés,
– la variable aléatoire ξ i est simulée selon la distribution de probabilité Qb k (ξbi , dx′ ),
k k−1

et on pose
gbk (ξbk−1
i )
wki = .
∑
N
gbk (ξbk−1
j
)
j=1

On constate néanmoins que les poids (wk1 , · · · , wkN ) qui servent à sélectionner les individus au sein
de la nouvelle population (ξk1 , · · · , ξkN ) ne dépendent en fait que de la population (ξbk−1
1 , · · · , ξbN )
k−1
et sont donc disponibles avant même que la nouvelle population ne soit générée. Il est plus efficace
dans ce cas d’effectuer la sélection plus tôt, et il suffit ici d’adopter le modèle (8.18).
Le principe consiste donc à rechercher une approximation

1 ∑ ∑ ∑
N N N
ηkopt ≈ ηkN,opt = δ i et µopt N,opt
k ≈ µk = wki δ avec wki = 1 ,
N ξk ξki
i=1 i=1 i=1

pour tout k = 0, 1, · · · , (n − 1), et

1 ∑
N
ηnopt ≈ ηnN,opt = δ i ,
N ξn
i=1
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 145

pour k = n, sous la forme de distributions de probabilité empiriques pondérées associées à un

système de particules caractérisé par les positions (ξki , i = 1, · · · , N ) et par les poids positifs
normalisés (wki , i = 1, · · · , N ). Les poids et les positions des particules sont choisis de telle sorte
que l’évolution de la suite approchée reproduise aussi fidèlement que possible l’évolution de la
distribution normalisée décrite par le diagramme suivant

mutation pondération
µopt −−−−−−−−−→ ηkopt = µopt
k−1 −
opt
k−1 Qk − −−−−−−−−−−−→ µopt opt opt
k = gk · ηk , (10.10)

avec la condition initiale µopt 0 = g0opt · η0opt , où la notation · désigne le produit projectif. Ici,
la distribution initiale η0 (dx) est définie en (8.15), les noyaux markoviens Qopt
opt ′
k (x, dx ) sont
définis en (8.16) pour k = 1, · · · , n, et les fonctions de sélection gkopt (x′ ) sont définis en (8.17)
pour k = 0, · · · , (n − 1).
L’évolution de la population de particules et la mise–à–jour des poids peuvent être décrites
de la façon récursive suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée

selon la distribution de probabilité η0opt , et on pose

g0opt (ξ0i )
w0i = .
∑
N
g0opt (ξ0j )
j=1

• pour tout k = 1, · · · , (n − 1), indépendamment pour tout i = 1, · · · , N

proposés,
– la variable aléatoire ξ i est simulée selon la distribution de probabilité Qopt (ξbi , dx′ ),
k k k−1

et on pose
gkopt (ξki )
wki = .
∑
N
gkopt (ξkj )
j=1

• pour k = n, indépendamment pour tout i = 1, · · · , N

– un individu ξbn−1
i 1 , · · · , ξN )
est sélectionné au sein de la population de particules (ξn−1 n−1
en fonction des poids (wn−1 1 , · · · , w N ) et à l’aide de l’un des mécanismes de sélection
n−1
proposés,
– la variable aléatoire ξ i est simulée selon la distribution de probabilité Qopt bi , dx′ ).
n (ξ
n n−1

En ré–organisant diﬀéremment les calculs, et en utilisant les définitions (8.15), (8.16) et (8.17),
on voit que l’évolution de la population de particules et la mise–à–jour des poids peuvent être
aussi décrites de la façon récursive suivante
146 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée

selon la distribution de probabilité ηb0 .
• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N
– on pose
i gbk (ξk−1
i )
wk−1 = ,
∑
N
j
gbk (ξk−1 )
j=1

– un individu ξbk−1
i 1 , · · · , ξN )
est sélectionné au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−1 1 , · · · , w N ) et à l’aide de l’un des mécanismes de sélection
k−1
proposés,
– la variable aléatoire ξki est simulée selon la distribution de probabilité Q b k (ξbi , dx′ ).
k−1

Exemple 10.4 Dans le cas particulier du système non–linéaire avec des bruits gaussiens additifs
et une fonction d’observation linéaire décrit par (7.4), on obtient l’algorithme suivant

• pour k = 0, indépendamment pour tout i = 1, · · · , N

i
– on simule deux vecteurs aléatoires gaussiens indépendants ξ0|−1 et V0i , de moyenne
X̄0 et 0 et de matrice de covariance QX V
0 et Q0 respectivement,
– on pose
∗ ∗ V −1
ξ0i = ξ0|−1
i
+ QX X
0 H0 [H0 Q0 H0 + Q0 ] (Y0 − (H0 ξ0|−1
i
+ h0 + V0i )) ,

• pour tout k = 1, · · · , n, indépendamment pour tout i = 1, · · · , N

– on pose

i q(Yk − Hk fk (ξk−1
i ) − hk , Hk Σk (ξk−1
i ) Hk∗ + QVk )
wk−1 = ,
∑
N
j
q(Yk − Hk fk (ξk−1 j
) − hk , Hk Σk (ξk−1 ) Hk∗ + QVk )
j=1

∗
où par définition Σk (x) = σk (x) QW k σk (x) pour tout x ∈ E,
– on sélectionne un individu ξbk−1
i 1 , · · · , ξN )
au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−1 , · · · , wk−1 ) et à l’aide de l’un des mécanismes de sélection
1 N

proposés,
– on simule deux vecteurs aléatoires gaussiens indépendants Wki et Vki , centrés et de
matrice de covariance QW V
k et Qk respectivement,
– on pose
i
ξk|k−1 = fk (ξbk−1
i
) + Wki ,
et
ξki = ξk|k−1
i
+ Σk (ξbk−1
i
) Hk∗ [Hk Σk (ξbk−1
i
) Hk∗ + QVk ]−1 (Yk − (Hk ξk|k−1
i
+ hk + Vki )) .
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 147

▶ Ré–échantillonnage adaptatif L’algorithme adaptatif suivant combine les propriétés de

l’algorithme SIS, sans ré–échantillonnage, et celles de l’algorithme SIR, avec ré–échantillonnage
à chaque pas de temps.
L’évolution de la population de particules et la mise–à–jour des poids sont ici couplées et
peuvent être décrites de la façon récursive suivante

• pour k = 0, indépendamment pour tout i = 1, · · · , N , la variable aléatoire ξ0i est simulée

selon la distribution de probabilité η0 , et on pose

g0 (ξ0i )
w0i = .
∑
N
g0 (ξ0j )
j=1

• pour tout k = 1, · · · , n, on évalue la taille eﬀective

∑
N
i
Neﬀ = 1 / [ (wk−1 )2 ] ,
i=1

si Neﬀ ≤ cred N , alors indépendamment pour tout i = 1, · · · , N

– on sélectionne un individu ξbk−1

i 1 , · · · , ξN )
au sein de la population de particules (ξk−1 k−1
en fonction des poids (wk−1 , · · · , wk−1 ) et à l’aide de l’un des mécanismes de sélection
1 N

proposés,
– la variable aléatoire ξ i est simulée selon la distribution de probabilité Qk (ξbi , dx′ ),
k k−1

et on pose
gk (ξbk−1
i , ξi )
k
wki = ,
∑
N
gk (ξbk−1
j
, ξkj )
j=1

sinon, si Neﬀ > cred N , alors indépendamment pour tout i = 1, · · · , N , la variable aléatoire
ξki est simulée selon la distribution de probabilité Qk (ξk−1
i , dx′ ), et on pose
i
wk−1 i
gk (ξk−1 , ξki )
wki = .
∑
N
j j
wk−1 gk (ξk−1 , ξkj )
j=1
148 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

Algorithm 10.1.1 Algorithme SIS (modèle général)

required distribution de probabilité initiale η0 (dx)
required probabilités de transition Qk (x, dx′ ) pour k = 1 · · · n
required fonction de sélection gk (x, x′ ) pour k = 0, 1 · · · n
k = 0 [initialisation]
[simulation]
for i = 1 · · · N (indépendemment) do
ξ0i ∼ η0 (dx)
end for
[calcul des poids normalisés]
for i = 1 · · · N do
w0i ∝ g0 (ξ0i )
end for
loop
k ← k + 1 [itération]
[propagation]
for i = 1 · · · N (indépendemment) do
ξki ∼ Qk (ξk−1
i , dx′ )
end for
[mise–à-jour des poids normalisés]
for i = 1 · · · N do
wki ∝ wk−1
i i
gk (ξk−1 , ξki )
end for
end loop
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 149

Algorithm 10.2.1 Algorithme SIR (modèle de base (8.1))

required distribution de probabilité initiale η0 (dx)
required probabilités de transition Qk (x, dx′ ) pour k = 1 · · · n
required fonction de sélection gk (x′ ) pour k = 0, 1 · · · n
k = 0 [initialisation]
[simulation]
for i = 1 · · · N (indépendemment) do
ξ0i ∼ η0 (dx)
end for
[calcul des poids normalisés]
for i = 1 · · · N do
w0i ∝ g0 (ξ0i )
end for
loop
k ← k + 1 [itération]
[sélection]
for i = 1 · · · N (indépendemment) do
choisir ξbk−1
i 1 , · · · , ξ N ) en fonction des poids respectifs
au sein de la population (ξk−1 k−1
1 , · · · , wN )
(wk−1 k−1
end for
[propagation]
for i = 1 · · · N (indépendemment) do
ξki ∼ Qk (ξbk−1
i , dx′ )

end for
[calcul des poids normalisés]
for i = 1 · · · N do
wki ∝ gk (ξki )
end for
end loop
150 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES

Algorithm 10.2.2 Algorithme SIR (modèle général)

required distribution de probabilité initiale η0 (dx)
required probabilités de transition Qk (x, dx′ ) pour k = 1 · · · n
required fonction de sélection gk (x, x′ ) pour k = 0, 1 · · · n
k = 0 [initialisation]
[simulation]
for i = 1 · · · N (indépendemment) do
ξ0i ∼ η0 (dx)
end for
[calcul des poids normalisés]
for i = 1 · · · N do
w0i ∝ g0 (ξ0i )
end for
loop
k ← k + 1 [itération]
[sélection]
for i = 1 · · · N (indépendemment) do
choisir ξbk−1
i 1 , · · · , ξ N ) en fonction des poids respectifs
au sein de la population (ξk−1 k−1
1 , · · · , wN )
(wk−1 k−1
end for
[propagation]
for i = 1 · · · N (indépendemment) do
ξki ∼ Qk (ξbk−1
i , dx′ )

end for
[calcul des poids normalisés]
for i = 1 · · · N do
wki ∝ gk (ξbk−1
i , ξi )
k
end for
end loop
10.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 151

Algorithm 10.2.3 Algorithme SIR (modèle optimal (8.18))

required distribution de probabilité initiale ηb0 (dx)
required probabilités de transition Q b k (x, dx′ ) pour k = 1 · · · n
required fonction de sélection gbk (x) pour k = 1 · · · n
k = 0 [initialisation]
[simulation]
for i = 1 · · · N (indépendemment) do
ξ0i ∼ ηb0 (dx)
end for
loop
k ← k + 1 [itération]
[calcul des poids normalisés]
for i = 1 · · · N do
i
wk−1 ∝ gbk (ξk−1i )

end for
[sélection]
for i = 1 · · · N (indépendemment) do
choisir ξbk−1i au sein de la population (ξk−11 , · · · , ξ N ) en fonction des poids respectifs
k−1
(wk−11 , · · · , wN )
k−1
end for
[propagation]
for i = 1 · · · N (indépendemment) do
ξki ∼ Qb k (ξbi , dx′ )
k−1
end for
end loop
152 CHAPITRE 10. APPROXIMATIONS PARTICULAIRES
Chapitre 11

Estimation d’erreur

On rappelle que la distribution non–normalisée vérifie la relation de récurrence linéaire

γk = gk (γk−1 Qk ) = gk ηk ⟨γk−1 , 1⟩ et γ0 = g 0 η 0 , (8.2)

en posant ηk = µk−1 Qk , ou de manière équivalente γk = γk−1 Rk où le noyau positif (non

normalisé) Rk est défini par Rk (x, dx′ ) = Qk (x, dx′ ) gk (x′ ), et la constante de normalisation
vérifie la relation de récurrence

⟨γk , 1⟩ = ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩ et ⟨γ0 , 1⟩ = ⟨η0 , g0 ⟩ . (8.3)

En partant de la relation de récurrence linéaire (8.2) et en introduisant l’approximation parti-

culaire
γkN = gk ηkN ⟨γk−1
N
, 1⟩ et γ0N = g0 η0N ,
pour la distribution non–normalisée, où la définition précise de l’approximation ηkN dépend de
l’implémentation choisie, on voit aisément que

⟨γkN , 1⟩ = ⟨ηkN , gk ⟩ ⟨γk−1

N
, 1⟩ et ⟨γ0N , 1⟩ = ⟨η0N , g0 ⟩ , (11.1)

de sorte que
γkN γ0N
= gk · ηkN = µN
k et = g0 · η0N = µN
0 .
⟨γkN , 1⟩ ⟨γ0N , 1⟩
Pour k = 0, on a par diﬀérence

γ0N − γ0 = g0 (η0N − η0 ) ,

de sorte que
⟨γ0N − γ0 , ϕ⟩ = ⟨η0N − η0 , g0 ϕ⟩ , (11.2)
pour toute fonction ϕ mesurable bornée. Pour tout k = 1, · · · , n, on a par diﬀérence

γkN − γk = gk ηkN ⟨γk−1

N
, 1⟩ − gk (γk−1 Qk )
N
= gk (γk−1 Qk − γk−1 Qk ) + gk (ηkN − µN
k−1 Qk ) ⟨γk−1 , 1⟩ ,
N

153
154 CHAPITRE 11. ESTIMATION D’ERREUR

de sorte que

⟨γkN − γk , ϕ⟩ = ⟨γk−1
N
− γk−1 , Qk (gk ϕ)⟩ + ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ ,
N
(11.3)

pour toute fonction ϕ mesurable bornée. On constate que l’erreur d’approximation au rang k
évaluée pour la fonction ϕ, peut s’exprimer à l’aide

• de l’erreur d’approximation au rang (k − 1) évaluée pour la fonction Rk ϕ = Qk (gk ϕ),

• et de l’erreur locale d’approximation Monte Carlo évaluée pour la fonction gk ϕ.

La décomposition (11.3) est à la base des démonstrations par récurrence de la convergence dans
Lp et de la normalité asymptotique des approximations particulaires.
Au vu de la relation de récurrence (8.3), l’hypothèse minimale ⟨γn , 1⟩ > 0 est équivalente
à supposer que ⟨ηk , gk ⟩ > 0 pour tout k = 0, 1, · · · , n. Cette condition est trivialement vérifiée
si les fonctions gk sont strictement positives et ne s’annulent donc en aucun point, pour tout
k = 0, 1, · · · , n. En revanche, si la fonction gk peut s’annuler en certains points, et même si
⟨ηk , gk ⟩ > 0, il peut quand même arriver que gk (ξki ) = 0 pour tout i = 1, · · · , N , c’est–à–dire
que toutes les particules sont aﬀectées d’un poids nul, auquel cas ⟨ηkN , gk ⟩ = 0 et ⟨γkN , 1⟩ = 0,
de sorte que l’approximation µN k n’est pas définie. Soit τ
N le temps d’extinction du système de

particules, c’est–à–dire le premier instant

τ N = inf{k ≥ 1 : ⟨γkN , 1⟩ = 0}

1 ∑
N
= inf{k ≥ 1 : ⟨ηkN , gk ⟩ = gk (ξki ) = 0}
N
i=1

= inf{k ≥ 1 : gk (ξki ) = 0 pour tout i = 1, · · · , N } ,

auquel toutes les particules sont aﬀectées d’un poids nul.

Pour k = 0, les distributions η0N = S N (η0 ) et γ0N = g0 η0N sont bien définies, mais rien
n’empêche que la constante de normalisation ⟨η0N , g0 ⟩ soit nulle, de sorte que la distribution
0 = g0 · η0 n’est pas nécessairement définie. Sur l’ensemble {τ
µN N N > 0} en revanche, la cons-

tante de normalisation ⟨η0 , g0 ⟩ est strictement positive, et la distribution µN

N
0 = g0 · η0 est bien
N

définie. Pour tout k = 1, · · · , n, sur l’ensemble {τ N > k − 1}, les distributions γk−1N et µNk−1
sont bien définies, donc les distributions ηk = S (µk−1 Qk ) et γk = gk ηk ⟨γk−1 , 1⟩ aussi sont
N N N N N N

bien définies, mais rien n’empêche que la constante de normalisation ⟨ηkN , gk ⟩ soit nulle, de sorte
que la distribution µN k = gk · ηk n’est pas nécessairement définie. Sur l’ensemble {τ
N N > k}

en revanche, la constante de normalisation ⟨ηkN , gk ⟩ est strictement positive, et la distribution

k = gk · ηk est bien définie.
µN N

Le temps d’extinction est bien sûr infini dans le cas où les fonctions gk sont strictement
positives et ne s’annulent en aucun point, pour tout k = 0, 1, · · · , n.
Les résultats suivants seront démontrés dans ce chapitre et dans le chapitre suivant : une
borne non–asymptotique
cn,p
sup {E| ⟨µN
n − µn , ϕ⟩ | }
p 1/p
≤√ ,
ϕ : ∥ϕ∥=1 N
11.1. PROBABILITÉ D’EXTINCTION 155

dans le cas où le temps d’extinction est infini, et

cn,p
sup {E[ 1 N | ⟨µN
n − µn , ϕ⟩ |p ]}1/p ≤ √ ,
ϕ : ∥ϕ∥=1 (τ > n) N
dans le cas général, et un théorème central limite
√
N ⟨µN
n − µn , ϕ⟩ =⇒ N(0, vn (ϕ)) ,

dans le cas où le temps d’extinction est infini, et

√
N1 N ⟨µN − µn , ϕ⟩ =⇒ N(0, vn (ϕ)) ,
(τ > n) n
dans le cas général, en distribution quand N ↑ ∞, avec une expression explicite pour la variance
asymptotique vn (ϕ), pour toute fonction mesurable bornée ϕ.

11.1 Probabilité d’extinction

On donne d’abord une majoration exponentielle de la probabilité d’extinction P[τ N ≤ n]. Cette
partie peut donc être sautée dans le cas où les fonctions gk sont strictement positives et ne
s’annulent en aucun point, pour tout k = 0, 1, · · · , n, puisque le temps d’extinction est infini
dans ce cas.

Proposition 11.1 Il existe des constantes positives an > 0 et bn > 0 telles que

P[τ N ≤ n] ≤ an exp{−bn N } ,

pour tout entier N .

Preuve. Pour k = 0, on pose

⟨γ0N − γ0 , ϕ⟩ ⟨γ0N − γ0 , 1⟩
E0N (c) = sup P[ | | > c] et F0N = P[ | |> 1
],
ϕ≥0 : ∥ϕ∥=1 ⟨γ0 , 1⟩ ⟨γ0 , 1⟩ 2

et pour tout k = 1, · · · , n, on pose

⟨γkN − γk , ϕ⟩
EkN (c) = sup P[ | | > c et τ N > k−1 ] ,
ϕ≥0 : ∥ϕ∥=1 ⟨γk , 1⟩

et
⟨γkN − γk , 1⟩
FkN = P[ | |> 1
et τ N > k−1 ] .
⟨γk , 1⟩ 2

Clairement, pour tout k = 0, 1, · · · , n, l’application c 7→ EkN (c) est décroissante et FkN ≤ EkN ( 12 ).

⟨γ0N − γ0 , 1⟩
Pour k = 0, si ⟨γ0N , 1⟩ = 0 alors nécessairement | | > 12 , de sorte que
⟨γ0 , 1⟩

⟨γ0N − γ0 , 1⟩
P[τ N = 0] = P[ ⟨γ0N , 1⟩ = 0 ] ≤ P[ | |> 1
] = F0N .
⟨γ0 , 1⟩ 2
156 CHAPITRE 11. ESTIMATION D’ERREUR

Pour tout k = 1, · · · , n, les bons ensembles {τ N > k} ⊆ {τ N > k − 1} sont emboı̂tés, et sur
⟨γ N − γk , 1⟩
l’ensemble {τ N > k−1}, si ⟨γkN , 1⟩ = 0 alors nécessairement | k | > 12 , de sorte que
⟨γk , 1⟩

⟨γkN − γk , 1⟩
P[τ N = k] = P[ ⟨γkN , 1⟩ = 0 et τ N > k−1 ] ≤ P[ | |> 1
et τ N > k−1 ] = FkN .
⟨γk , 1⟩ 2

On en déduit que
∑
n ∑
n
P[τ N
≤ n] = P[τ N
= k] ≤ FkN .
k=0 k=0

Pour k = 0, on rappelle l’expression

⟨γ0N − γ0 , ϕ⟩ = ⟨η0N − η0 , g0 ϕ⟩ , (11.2)

pour toute fonction ϕ mesurable bornée, et on en déduit que

⟨γ0N − γ0 , ϕ⟩
P[ | | > c ] = P[ |⟨η0N − η0 , g0 ϕ⟩| > c ⟨η0 , g0 ⟩ ] .
⟨γ0 , 1⟩

Pour toute fonction mesurable positive ϕ telle que ∥ϕ∥ = 1, on définit

0 ≤ Xi = g0 (ξ0i ) ϕ(ξ0i ) ≤ sup g0 (x) pour tout i = 1, · · · , N

x∈E

où les v.a. (ξ0i , · · · , ξ0N ) sont indépendantes de distribution commune η0 , et on vérifie que

E(Xi ) = E[g0 (ξ0i ) ϕ(ξ0i )] = ⟨η0 , g0 ϕ⟩ ,

1 ∑ 1 ∑
N N
⟨η0N − η0 , g0 ϕ⟩ = [g0 (ξ0i ) ϕ(ξ0i ) − ⟨η0 , g0 ϕ⟩] = (Xi − E(Xi )) .
N N
i=1 i=1

D’après l’inégalité de Hoeﬀding

c ⟨η0 , g0 ⟩ 2
P[ |⟨η0N − η0 , g0 ϕ⟩ | > c ⟨η0 , g0 ⟩ ] ≤ 2 exp{− 2 ( ) N}
sup g0 (x)
x∈E

2 c2
≤ 2 exp{− N} .
r02

Il en résulte que
⟨γ0N − γ0 , ϕ⟩ 2 c2
P[ | | > c ] ≤ 2 exp{− 2 N } ,
⟨γ0 , 1⟩ r0
et en prenant le supremum par rapport aux fonctions mesurables positives ϕ telles que ∥ϕ∥ = 1,
on obtient
2 c2
E0N (c) ≤ 2 exp{− 2 N } .
r0
11.1. PROBABILITÉ D’EXTINCTION 157

Pour tout k = 1, · · · , n, on rappelle la décomposition

⟨γkN − γk , ϕ⟩ = ⟨γk−1
N
− γk−1 , Qk (gk ϕ)⟩ + ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ ,
N
(11.3)

valide sur l’ensemble {τ N > k−1} pour toute fonction ϕ mesurable bornée, et on en déduit que

⟨γkN − γk , ϕ⟩ ⟨γ N − γk−1 , Qk (gk ϕ)⟩ ⟨η N − µN

k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩
N
| | ≤ | k−1 |+| k |
⟨γk , 1⟩ ⟨γk−1 , 1⟩ ⟨ηk , gk ⟩ ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ ⟨η N − µN
k−1 Qk , gk ϕ⟩ ⟨γ N − γk−1 , 1⟩
≤ | |+| k | ( 1 + | k−1 |) .
⟨γk−1 , 1⟩ ⟨ηk , gk ⟩ ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩

Si sur l’ensemble {τ N > k−1} (et a fortiori sur l’ensemble {τ N > k})

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ ⟨γk−1
N −γ
k−1 , 1⟩
| |≤ 1
c ⟨ηk , gk ⟩ et | |≤ 1
,
⟨γk−1 , 1⟩ 2 ⟨γk−1 , 1⟩ 2

et
| ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | ≤
1
3 c ⟨ηk , gk ⟩ ,

alors nécessairement sur l’ensemble {τ N > k}

⟨γkN − γk , ϕ⟩
| |≤c.
⟨γk , 1⟩

On en déduit que

⟨γkN − γk , ϕ⟩
EkN (c) = sup P[ | | > c et τ N > k ]
ϕ≥0 : ∥ϕ∥=1 ⟨γk , 1⟩

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩
≤ sup P[ | |> 1
c ⟨ηk , gk ⟩ et τ N > k−1 ]
ϕ≥0 : ∥ϕ∥=1 ⟨γk−1 , 1⟩ 2
(11.6)
⟨γk−1
N −γ
k−1 ,1⟩
+ P[ | ⟨γk−1 ,1⟩ |> 1
2 et τ N > k−1 ]

+ sup P[ | ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | >
1
3 c ⟨ηk , gk ⟩ et τ N > k−1 ] .
ϕ≥0 : ∥ϕ∥=1

N ,
Dans le second membre de (11.6), le deuxième terme s’interprète immédiatement comme Fk−1
et on se propose d’étudier successivement le premier et le troisième terme.

Pour toute fonction mesurable positive ϕ telle que ∥ϕ∥ = 1, on a

∫
0 ≤ Qk (gk ϕ)(x) = Qk (x, dx′ ) gk (x′ ) ϕ(x′ ) ≤ sup gk (x) ,
E x∈E
158 CHAPITRE 11. ESTIMATION D’ERREUR

pour tout x ∈ E, et on en déduit que sup Qk (gk ϕ)(x) ≤ sup gk (x) et

x∈E x∈E

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩
P[ | |> 1
c ⟨ηk , gk ⟩ et τ N > k−1 ]
⟨γk−1 , 1⟩ 2

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ ⟨ηk , gk ⟩
= P[ | |> 1
c et τ N > k−1 ]
⟨γk−1 , 1⟩ sup Qk (gk ϕ)(x) 2 sup Qk (gk ϕ)(x)
x∈E x∈E

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ ⟨ηk , gk ⟩
≤ P[ | |> 1
c et τ N > k−1 ]
⟨γk−1 , 1⟩ sup Qk (gk ϕ)(x) 2 sup gk (x)
x∈E x∈E

⟨γk−1
N − γk−1 , ϕ⟩ c c
≤ sup P[ | |> 1
et τ N > k−1 ] = Ek−1
N
( 12 ) ,
ϕ≥0 : ∥ϕ∥=1 ⟨γk−1 , 1⟩ 2 rk rk

de sorte que

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ c
sup P[ | |> 1
c ⟨ηk , gk ⟩ et τ N > k−1 ] ≤ Ek−1
N
( 12 ),
ϕ≥0 : ∥ϕ∥=1 ⟨γk−1 , 1⟩ 2 rk

ce qui fournit une majoration du premier terme figurant dans le second membre de (11.6).
Pour toute fonction mesurable positive ϕ telle que ∥ϕ∥ = 1, on définit

0 ≤ Xi = gk (ξki ) ϕ(ξki ) ≤ sup gk (x) pour tout i = 1, · · · , N

x∈E

où conditionnellement par rapport à Fk−1

N les v.a. (ξ i , · · · , ξ N ) sont indépendantes de distribution
k k
commune µk−1 Qk , et on vérifie que sur l’ensemble {τ N > k−1}
N

E(Xi | Fk−1
N
) = ⟨µN
k−1 Qk , gk ϕ⟩ ,

1 ∑
N
⟨ηkN − µN
k−1 Qk , gk ϕ⟩ = [ gk (ξki ) ϕ(ξki ) − ⟨µN
k−1 Qk , gk ϕ⟩ ]
N
i=1

1 ∑
N
= (Xi − E(Xi | Fk−1
N
)) .
N
i=1

D’après l’inégalité de Hoeﬀding, sur l’ensemble {τ N > k−1}

1
c ⟨ηk , gk ⟩ 2
P[ |⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | >
1
3 c ⟨ηk , gk ⟩ | Fk−1
N
] ≤ 2 exp{− 2 ( 3 ) N}
sup gk (x)
x∈E

c2
≤ 2 exp{− 2
9 N} .
rk2
11.1. PROBABILITÉ D’EXTINCTION 159

On en déduit que
P[ |⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | >
1
3 c ⟨ηk , gk ⟩ et τ N > k−1 | Fk−1
N
]

=1 P[ |⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | >
1
c ⟨ηk , gk ⟩ | Fk−1
N
]
(τ N > k−1) 3

c2
≤ 2 exp{− 2
9 N} ,
rk2
de sorte que, en prenant l’espérance
c2
P[ |⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | >
1
3 c ⟨ηk , gk ⟩ et τ N > k−1 ] ≤ 2 exp{− 2
9 N} ,
rk2
et finalement, en prenant le supremum par rapport aux fonctions mesurables positives ϕ telles
que ∥ϕ∥ = 1, on obtient
c2
sup P[ |⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | >
1
3 c ⟨ηk , gk ⟩ et τ N > k−1 ] ≤ 2 exp{− 2
9 N} ,
ϕ≥0 : ∥ϕ∥=1 rk2

ce qui fournit une majoration du troisième terme figurant dans le second membre de (11.6).
En reportant ces majorations dans le second membre de (11.6), on obtient
c c2
EkN (c) ≤ Ek−1
N
( 12 N
) + Fk−1 + 2 exp{− 2
9 N} ,
rk rk2
pour tout k = 1, · · · , n, avec la condition initiale
2 c2
E0N (c) ≤ 2 exp{− N} .
r02
On peut montrer par récurrence que
EkN (c) ≤ ek max(exp{−dk c2 N }, exp{−fk N }) = ek exp{− min(dk c2 , fk ) N }) ,
où ek > 0, dk > 0 et fk > 0 sont des réels positifs. En particulier pour c = 12 , on a

FkN ≤ EkN ( 21 ) ≤ ek exp{− min( 14 dk , fk ) N } ,

pour tout k = 0, 1, · · · , n, de sorte que
∑
n ∑
n
P[τ N ≤ n] ≤ FkN ≤ ek exp{− min( 14 dk , fk ) N }
k=0 k=0

∑
n
≤ ( ek ) exp{− min min( 41 dk , fk ) N } ,
k=0,1,··· ,n
k=0

c’est–à–dire que la majoration annoncée est vérifiée avec

∑
n
an = ek et bn = min min( 14 dk , fk ) . 2
k=0,1,··· ,n
k=0
160 CHAPITRE 11. ESTIMATION D’ERREUR

11.2 Estimation d’erreur dans Lp

On remarque que le rapport

sup gk (x)
x∈E
rk =
⟨ηk , gk ⟩
toujours supérieur à 1, peut s’interpréter comme un indicateur de la diﬃculté d’un problème
donné : en eﬀet, une grande valeur numérique de rk indique que les régions où la fonction de
sélection gk prend une valeur numérique significative ont en fait une faible probabilité sous ηk .
Pour l’algorithme SIR avec ré–échantillonnage multinomial et pour l’algorithme SIR avec
stratification et ré–échantillonnage résiduel multinomial, on a les estimations suivantes pour
l’approximation de la distribution normalisée et pour l’approximation de la constante de nor-
malisation.

Théorème 11.2 Pour tout réel p ≥ 2, on a

⟨γnN , 1⟩
{ E[ 1 N | − 1 |p ] }1/p ≤ znN,p , (11.7)
(τ > n) ⟨γn , 1⟩

et
sup { E[ 1 | ⟨µN
n − µn , ϕ⟩ | ] }
p 1/p
≤ 2 znN,p , (11.8)
ϕ : ∥ϕ∥=1 (τ N > n)

où la suite {zkN,p , k = 0, 1, · · · , n} vérifie la relation de récurrence linéaire

2 cp N,p 2 cp 2 cp
zkN,p ≤ rk (1 + √ ) zk−1 +√ et z0N,p ≤ √ . (11.9)
N N N

Remarque 11.3 Sur le bon ensemble {τ N > n}

⟨γnN , ϕ⟩ ⟨γn , ϕ⟩ ⟨γnN − γn , ϕ⟩ ⟨γnN , 1⟩

⟨µN
n − µn , ϕ⟩ = − = − ⟨µ N
, ϕ⟩ [ − 1] ,
⟨γnN , 1⟩ ⟨γn , 1⟩ ⟨γn , 1⟩ n
⟨γn , 1⟩

de sorte que

⟨γnN − γn , ϕ⟩ ⟨γ N , 1⟩
1 N | ⟨µN
n − µn , ϕ⟩ | ≤ 1(τ N > n) [ | | + ∥ϕ∥ | n − 1|] ,
(τ > n) ⟨γn , 1⟩ ⟨γn , 1⟩

pour toute fonction ϕ mesurable bornée. Clairement

⟨γnN , 1⟩ ⟨γ N − γn , ϕ⟩ p 1/p
{ E[ 1 N | − 1 |p ] }1/p ≤ sup { E[ 1 N | n | ]} ,
(τ > n) ⟨γn , 1⟩ ϕ : ∥ϕ∥=1 (τ > n) ⟨γn , 1⟩

⟨γnN − γn , ϕ⟩ p 1/p
sup { E[ 1 N | ⟨µN
n − µn , ϕ⟩ | ] }
p 1/p
≤2 sup { E[ 1 N | | ]} ,
ϕ : ∥ϕ∥=1 (τ > n) ϕ : ∥ϕ∥=1 (τ > n) ⟨γn , 1⟩
11.2. ESTIMATION D’ERREUR DANS LP 161

d’après l’inégalité (triangulaire) de Minkovski. Pour démonter le Théorème 11.2 il suﬃt donc de
prouver que la suite définie par

⟨γkN − γk , ϕ⟩ p 1/p
zkN,p = sup { E[ 1 | | ]} avec k = {τ
AN N
> k} ,
ϕ : ∥ϕ∥=1 AN
k ⟨γk , 1⟩

pour tout k = 0, 1, · · · , n vérifie la relation de récurrence linéaire (11.9).

Preuve du Théorème 11.2. Pour k = 0, on rappelle l’expression

⟨γ0N − γ0 , ϕ⟩ = ⟨η0N − η0 , g0 ϕ⟩ , (11.2)

pour toute fonction ϕ mesurable bornée. On en déduit que

2 cp
{ E[ 1 | ⟨γ0N − γ0 , ϕ⟩ |p ]}1/p ≤ { E| ⟨η0N − η0 , g0 ϕ⟩ |p }1/p ≤ √ sup g0 (x) ∥ϕ∥ ,
AN
0 N x∈E
pour toute fonction ϕ mesurable bornée, en utilisant la majoration (9.2), et en divisant par
⟨γ0 , 1⟩ = ⟨η0 , g0 ⟩, on obtient
sup g0 (x)
⟨γ N − γ0 , ϕ⟩ p 1/p 2 cp x∈E
sup { E[ 1 | 0 | ]} ≤ √ ,
ϕ : ∥ϕ∥=1 AN
0 ⟨γ0 , 1⟩ N ⟨η0 , g0 ⟩

de sorte que
2 cp
z0N,p ≤ √ r0 .
N
Pour tout k = 1, · · · , n, on rappelle la décomposition

⟨γkN − γk , ϕ⟩ = ⟨γk−1
N
− γk−1 , Qk (gk ϕ)⟩ + ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ ,
N
(11.3)

pour toute fonction ϕ mesurable bornée. On en déduit que

⟨γkN − γk , ϕ⟩ p 1/p
sup { E[1 | | ]}
ϕ : ∥ϕ∥=1 AN
k ⟨γk , 1⟩

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ p
≤ sup { E[1 | | ] }1/p
ϕ : ∥ϕ∥=1 AN
k−1 ⟨γk , 1⟩

k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ p
⟨ηkN − µN N
+ sup { E[ 1 | | ] }1/p ,
ϕ : ∥ϕ∥=1 AN
k−1 ⟨γk , 1⟩

d’après l’inégalité (triangulaire) de Minkowski. On remarque que

{ E[ 1 | ⟨γk−1
N
− γk−1 , Qk (gk ϕ)⟩ |p ] }1/p
AN
k−1

≤ sup |Qk (gk ϕ)(x)| sup { E[ 1 | ⟨γk−1

N
− γk−1 , ϕ⟩ |p ] }1/p
x∈E ϕ : ∥ϕ∥=1 AN
k−1

≤ sup gk (x) ∥ϕ∥ sup { E[ 1 | ⟨γk−1

N
− γk−1 , ϕ⟩ |p ] }1/p ,
x∈E ϕ : ∥ϕ∥=1 AN
k−1
162 CHAPITRE 11. ESTIMATION D’ERREUR

compte tenu que

∫
|Qk (gk ϕ)(x)| ≤ Qk (x, dx′ ) gk (x′ ) |ϕ(x′ )| ≤ sup gk (x) ∥ϕ∥ ,
E x∈E

pour tout x ∈ E et pour toute fonction mesurable bornée ϕ, et en divisant par ⟨γk , 1⟩ =
⟨ηk , gk ⟩ ⟨γk−1 , 1⟩ on obtient

⟨γk−1
N −γ
k−1 , Qk (gk ϕ)⟩ p
sup { E[ 1 | | ] }1/p
ϕ : ∥ϕ∥=1 AN
k−1 ⟨γk , 1⟩
sup gk (x)
x∈E ⟨γk−1
N −γ
k−1 , ϕ⟩ p
≤ sup { E[ 1 | | ] }1/p .
⟨ηk , gk ⟩ ϕ : ∥ϕ∥=1 AN
k−1 ⟨γk−1 , 1⟩

D’autre part
2 cp
{ E[ | ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ | | Fk−1 ] }
p N 1/p
≤ √ sup gk (x) ∥ϕ∥ ,
N x∈E

en utilisant la majoration (10.4) ou (10.6) selon l’implémentation choisie, et où Fk−1

N désigne la
tribu engendrée par le système de particules jusqu’à la (k − 1)–ème génération, de sorte que

{ E[ 1 | ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ | ] }
N p 1/p
AN
k−1

2 cp
≤ √ sup gk (x) ∥ϕ∥ { E[ 1 N ⟨γk−1
N
, 1⟩p ] }1/p ,
N x∈E Ak−1

pour toute fonction mesurable bornée ϕ, et en divisant par ⟨γk , 1⟩ = ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩ on obtient

⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ p
N
sup { E[ 1 | | ] }1/p
ϕ : ∥ϕ∥=1 AN
k−1 ⟨γk , 1⟩
sup gk (x)
2 cp x∈E ⟨γk−1
N , 1⟩
≤√ { E[ 1 | |p ] }1/p ,
N ⟨ηk , gk ⟩ AN
k−1 ⟨γk−1 , 1⟩
et on remarque que

⟨γk−1
N , 1⟩ ⟨γ N − γk−1 , 1⟩ p 1/p
{ E[ 1 | |p ] }1/p ≤ 1 + { E[ 1 N | k−1 | ]}
AN
k−1 ⟨γk−1 , 1⟩ Ak−1 ⟨γk−1 , 1⟩
N −γ
⟨γk−1 k−1 , ϕ⟩ p
≤ 1+ sup { E[ 1 | | ] }1/p ,
ϕ : ∥ϕ∥=1 AN
k−1 ⟨γk−1 , 1⟩

d’après l’inégalité (triangulaire) de Minkowski. Finalement

2 cp 2 cp N 2 cp
N
zk,p ≤ rk zk−1,p
N
+ √ rk (1 + zk−1,p
N
) ≤ rk (1 + √ ) zk−1,p + √ rk ,
N N N
en combinant les estimations obtenues ci–dessus. 2
Chapitre 12

TCL pour les approximations

particulaires

12.1 Échantillonnage pondéré (SIS)

Pour analyser les performances de l’algorithme en termes de variance asymptotique de l’er-

reur d’approximation quand le nombre N de trajectoires simulées tend vers l’infini, on peut
se placer dans le cadre statique étudié au Chapitre 9. Si on introduit la variable aléatoire
X0:n = (X0 , X1 , · · · , Xn ) à valeurs trajectorielles, dont la distribution de probabilité est

η0:n (dx0:n ) = P[X0:n ∈ dx0:n ] = η0 (dx0 ) Q1 (x0 , dx1 ) · · · Qn (xn−1 , dxn ) ,

et la fonction de poids
∏
n
g0:n (x0:n ) = gk (xk−1 , xk ) ,
k=0

et si on définit
∫ ∫
⟨η0:n , g0:n f ⟩ = E[f (X0:n ) g0:n (X0:n ) ] = ··· f (x0:n ) g0:n (x0:n ) η0:n (dx0:n ) ,
E E

pour toute fonction mesurable bornée f définie sur l’espace produit E × · · · × E = E n+1 , alors
on peut réécrire le flot linéaire comme une intégrale et appliquer la méthode d’échantillonnage
pondéré vu à la Section 9.2. En eﬀet, dans le cas particulier f = ϕ ◦ π où la fonction f ne dépend
que de la dernière variable, c’est–à–dire prend la forme suivante

f (x0:n ) = f (x0 , x1 , · · · , xn ) = ϕ(xn ) , (12.1)

on a
∏
n
⟨γn , ϕ⟩ = E[ϕ(Xn ) gk (Xk ) ] = E[ϕ ◦ π(X0:n ) g0:n (X0:n )] = ⟨η0:n , g0:n ϕ ◦ π⟩ ,
k=0

163
164 CHAPITRE 12. TCL POUR LES APPROXIMATIONS PARTICULAIRES

où π : (x0 , x1 , · · · , xn ) ∈ E n+1 7→ xn ∈ E désigne la projection sur la dernière composante de

l’espace produit E n+1 , de sorte que
⟨η0:n , g0:n ϕ ◦ π⟩ ⟨γn , ϕ⟩
⟨µ0:n , ϕ ◦ π⟩ = = = ⟨µn , ϕ⟩ ,
⟨η0:n , g0:n ⟩ ⟨γn , 1⟩
et on remarque que l’approximation introduite à la Section 10.1 vérifie

1 ∑
N
⟨γnN , ϕ⟩ = ⟨S (η0:n ), g0:n ϕ ◦ π⟩ =
N i
g0:n (ξ0:n ) ϕ ◦ π(ξ0:n
i
),
N
i=1

de sorte que
⟨γnN − γn , ϕ⟩ ⟨S N (η0:n ) − η0:n , g0:n ϕ ◦ π⟩
= ,
⟨γn , 1⟩ ⟨η0:n , g0:n ⟩
pour toute fonction mesurable bornée ϕ définie sur E, et il suﬃt d’appliquer le Théorème 9.11.

Théorème 12.1
√ ⟨γ N , 1⟩ √
N[ n − 1 ] =⇒ N(0, Vn ) et N ⟨µN
n − µn , ϕ⟩ =⇒ N(0, vn (ϕ)) ,
⟨γn , 1⟩
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique
⟨η0:n , g0:n
2 ⟩ ⟨η0:n , g0:n
2 |ϕ ◦ π − ⟨µ , ϕ⟩ |2 ⟩
n
Vn = −1 et vn (ϕ) = ,
⟨η0:n , g0:n ⟩2 ⟨η0:n , g0:n ⟩2
respectivement.

12.2 Échantillonnage / ré–échantillonnage (SIR)

Si en s’inspirant de (8.2), on définit récursivement l’approximation particulaire

k−1 Qk ) ⟨γk−1 , 1⟩ = gk ηk ⟨γk−1 , 1⟩

γkN = gk S N (µN N N N

(12.2)
et γ0N = g0 S N (η 0) = g0 η0N ,
pour la distribution non–normalisée, alors il est facile de voir que

⟨γkN , 1⟩ = ⟨ηkN , gk ⟩ ⟨γk−1

N
, 1⟩ et ⟨γ0N , 1⟩ = ⟨η0N , g0 ⟩ , (12.3)

de sorte que
γkN γ0N
= gk · ηkN = µN
k et = g0 · η0N = µN
0 ,
⟨γkN , 1⟩ ⟨γ0N , 1⟩
c’est–à–dire que (12.2) correspond exactement à l’algorithme SIR avec ré–échantillonnage mul-
tinomial, et en itérant (12.3)
∏
n
⟨γn , 1⟩ =
N
⟨ηkN , gk ⟩ .
k=0
12.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 165

Théorème 12.2 Pour l’approximation particulaire du modèle (8.1), avec redistribution multi-
nomiale
√ ⟨γ N , 1⟩ √
N[ n − 1 ] =⇒ N(0, Vn ) et N ⟨µN
n − µn , ϕ⟩ =⇒ N(0, vn (ϕ)) ,
⟨γn , 1⟩
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique
∑
n
⟨ηk , (gk Rk+1:n 1)2 ⟩ ∑
n
⟨ηk , |gk Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩
Vn = [ − 1] et vn (ϕ) = ,
⟨ηk , gk Rk+1:n 1⟩2 ⟨ηk , gk Rk+1:n 1⟩2
k=0 k=0

respectivement, où
∏
n
Rk+1:n ϕ(x) = Rk+1 · · · Rn ϕ(x) = E[ϕ(Xn ) gp (Xp ) | Xk = x] ,
p=k+1

pour tout k = 0, 1, · · · , n, avec la convention Rn+1:n ϕ(x) = ϕ(x).

Corollaire 12.3 Pour l’approximation particulaire du modèle (8.1), avec redistribution multi-
nomiale √
N ⟨ηnN − ηn , ϕ⟩ =⇒ N(0, vn− (ϕ)) ,
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique
∑
n −
⟨ηk , |Rk+1:n (ϕ − ⟨ηn , ϕ⟩) |2 ⟩
vn− (ϕ) = − ,
k=0
⟨ηk , Rk+1:n 1⟩2

respectivement, où

∏
n−1
− −
Rk+1:n ϕ(x) = Rk+1 · · · Rn− ϕ(x) = E[ϕ(Xn ) gp (Xp ) | Xk = x] ,
p=k

−
pour tout k = 0, 1, · · · , n, avec la convention Rn+1:n ϕ(x) = ϕ(x).

Preuve du Corollaire 12.3. On remarque que

√ √ √ ′′ ′
N ⟨ηnN − ηn , ϕ⟩ = N ⟨µN
n−1 − µn−1 , Qn ϕ⟩ + N ⟨ηn − µn−1 Qn , ϕ⟩ = ZN + ZN ,
N N

pour toute fonction ϕ mesurable bornée. On vérifie que la v.a. ZN ′′ est mesurable par rapport

à la tribu Fn−1 engendrée par le système de particules jusqu’à la (n − 1)–ème génération, et

d’après le Théorème 12.2

′′
ZN =⇒ N(0, vn−1 (Qn ϕ)) ,
en distribution quand N ↑ ∞. En suivant les lignes de la preuve du Théorème 12.2, on vérifie
que
′
E[exp{j u ZN } | Fn−1
N
] −→ exp{− 12 u2 var(ϕ, ηn )} ,
166 CHAPITRE 12. TCL POUR LES APPROXIMATIONS PARTICULAIRES

en probabilité quand N ↑ ∞. Il résulte du Lemme C.10 que

√
N ⟨ηnN − ηn , ϕ⟩ =⇒ N(0, vn− (ϕ)) ,

en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique

vn− (ϕ) = vn−1 (Qn ϕ) + var(ϕ, ηn ) .

Il résulte de l’expression de la variance asymptotique donnée au Théorème 12.2, et des iden-

tités (8.5) et (8.6), que

∑
n−1
⟨ηk , |gk Rk+1:n−1 (Qn ϕ − ⟨µn−1 , Qn ϕ⟩) |2 ⟩
vn−1 (Qn ϕ) =
⟨ηk , gk Rk+1:n−1 1⟩2
k=0

∑
n−1 −
⟨ηk , |Rk+1:n (ϕ − ⟨ηn , ϕ⟩) |2 ⟩
= − ,
k=0
⟨ηk , Rk+1:n 1⟩2

vn− (ϕ) = vn−1 (Qn ϕ) + var(ϕ, ηn )

∑
n−1 −
⟨ηk , |Rk+1:n (ϕ − ⟨ηn , ϕ⟩) |2 ⟩
= − + ⟨ηn , |ϕ − ⟨ηn , ϕ⟩ |2 ⟩
k=0
⟨ηk , Rk+1:n 1⟩2

∑
n −
⟨ηk , |Rk+1:n (ϕ − ⟨ηn , ϕ⟩) |2 ⟩
= − . 2
k=0
⟨ηk , Rk+1:n 1⟩2

Remarque 12.4 Pour démontrer le Théorème 12.2, il suﬃt de démontrer que

√ ⟨γnN − γn , ϕ⟩
N =⇒ N(0, Vn (ϕ)) , (12.4)
⟨γn , 1⟩
pour toute fonction mesurable bornée ϕ, avec l’expression suivante pour la variance asymptotique
∑
n
var(gk Rk+1:n ϕ, ηk )
Vn (ϕ) = , (12.5)
⟨ηk , gk Rk+1:n 1⟩2
k=0

pour tout k = 1, · · · , n. Clairement, le Théorème 12.2 pour la constante de normalisation découle

de (12.4) avec
∑
n
var(gk Rk+1:n 1, ηk ) ∑
n
⟨ηk , (gk Rk+1:n 1)2 ⟩
Vn = Vn (1) = = [ − 1] .
⟨ηk , gk Rk+1:n 1⟩2 ⟨ηk , gk Rk+1:n 1⟩2
k=0 k=0

On remarque aussi que

⟨γnN , ϕ − ⟨µn , ϕ⟩ ⟩ ⟨γn , 1⟩ ⟨γnN − γn , ϕ − ⟨µn , ϕ⟩ ⟩

⟨µN
n − µn , ϕ⟩ = = ,
⟨γnN , 1⟩ ⟨γnN , 1⟩ ⟨γn , 1⟩
12.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 167

pour toute fonction mesurable bornée ϕ, et compte tenu que ⟨γnN , 1⟩ −→ ⟨γn , 1⟩ en probabilité
quand N ↑ ∞, le Théorème 12.2 pour la distribution normalisée découle de (12.4) et du lemme
de Slutsky, avec

∑
n
var(gk Rk+1:n (ϕ − ⟨µn , ϕ⟩), ηk )
vn (ϕ) = Vn (ϕ − ⟨µn , ϕ⟩) = ,
⟨ηk , gk Rk+1:n 1⟩2
k=0

et on vérifie que

⟨ηk , gk Rk+1:n (ϕ − ⟨µn , ϕ⟩) ⟩ = ⟨ηk , gk ⟩ ⟨µk Rk+1:n , ϕ − ⟨µn , ϕ⟩ ⟩

⟨γk Rk+1:n , ϕ − ⟨µn , ϕ⟩ ⟩

= ⟨ηk , gk ⟩
⟨γk , 1⟩
⟨γn , ϕ − ⟨µn , ϕ⟩ ⟩
= ⟨ηk , gk ⟩
⟨γk , 1⟩
⟨γn , 1⟩
= ⟨ηk , gk ⟩ ⟨µn , ϕ − ⟨µn , ϕ⟩ ⟩ = 0 ,
⟨γk , 1⟩

de sorte que

var(gk Rk+1:n (ϕ − ⟨µn , ϕ⟩), ηk ) = ⟨ηk , |gk Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩ ,

pour tout k = 0, 1, · · · , n.

Remarque 12.5 On remarque que

⟨γp Rp+1:k , 1⟩ ⟨γk , 1⟩

⟨ηp , gp Rp+1:k 1⟩ = ⟨ηp , gp ⟩ ⟨µp Rp+1:k , 1⟩ = ⟨ηp , gp ⟩ = ⟨ηp , gp ⟩ ,
⟨γp , 1⟩ ⟨γp , 1⟩

pour tout p = 0, 1 · · · (k − 1), de sorte que le rapport

⟨ηp , gp Rp+1:k 1⟩ ⟨γk , 1⟩

= = ⟨ηk , gk ⟩ ,
⟨ηp , gp Rp+1:k−1 1⟩ ⟨γk−1 , 1⟩

ne dépend pas de p = 0, 1 · · · (k − 1), et

∑
k
var(gp Rp+1:k ϕ, ηp ) ∑
k−1
var(gp Rp+1:k−1 Rk ϕ, ηp ) var(gk ϕ, ηk )
Vk (ϕ) = = + ,
⟨ηp , gp Rp+1:k 1⟩2 ⟨ηp , gp Rp+1:k−1 1⟩ ⟨ηk , gk ⟩
2 2 ⟨ηk , gk ⟩2
p=0 p=0

d’où la relation de récurrence

Vk−1 (Rk ϕ) var(gk ϕ, ηk )
Vk (ϕ) = + , (12.6)
⟨ηk , gk ⟩2 ⟨ηk , gk ⟩2

pour tout k = 1, · · · , n.
168 CHAPITRE 12. TCL POUR LES APPROXIMATIONS PARTICULAIRES

Remarque 12.6 Si la propriété (12.4) est vérifié, alors le vecteur aléatoire

√ ⟨γ N , 1⟩ √ √
( N[ n − 1 ], N ⟨µN
n − µn , ϕ1 ⟩, · · · , N ⟨µn − µn , ϕd ⟩) ,
N
⟨γn , 1⟩
converge conjointement en distribution quand N ↑ ∞ vers une limite gaussienne, pour toutes
fonctions mesurables bornées ϕ1 , · · · , ϕd , en utilisant le procédé de Cramér–Wold.

Preuve du Théorème 12.2 (par récurrence). Pour k = 0, on rappelle l’expression

⟨γ0N − γ0 , ϕ⟩ = ⟨η0N − η0 , g0 ϕ⟩ , (11.2)
pour toute fonction ϕ mesurable bornée. On remarque que
√ 1 ∑
N
N ⟨η0 − η0 , g0 ϕ⟩ =
N
√ [g0 (ξ0i ) ϕ(ξ0i ) − ⟨η0 , g0 ϕ⟩ ] ,
N i=1
où ξ01 , · · · , ξ0N sont des variables aléatoires i.i.d. de distribution de probabilité commune η0 . On
en déduit que √
N ⟨η0N − η0 , g0 ϕ⟩ =⇒ N(0, var(g0 ϕ, η0 )) ,
en distribution quand N ↑ ∞, et en divisant par ⟨γ0 , 1⟩ = ⟨η0 , g0 ⟩ on obtient
√ ⟨γ0N − γ0 , ϕ⟩ var(g0 ϕ, η0 )
N =⇒ N(0, ),
⟨γ0 , 1⟩ ⟨η0 , g0 ⟩2
en distribution quand N ↑ ∞, c’est–à–dire que l’hypothèse de récurrence (12.6) est vérifiée pour
k = 0, avec
var(g0 ϕ, η0 )
V0 (ϕ) = .
⟨η0 , g0 ⟩2
Pour tout k = 1, · · · , n, on rappelle la décomposition
⟨γkN − γk , ϕ⟩ = ⟨γk−1
N
− γk−1 , Rk ϕ⟩ + ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩ ,
N
(11.3)
pour toute fonction ϕ mesurable bornée. D’après l’hypothèse de récurrence
√ ⟨γk−1
N −γ
k−1 , Rk ϕ⟩
N =⇒ N(0, Vk−1 (Rk ϕ)) ,
⟨γk−1 , 1⟩
en distribution quand N ↑ ∞, et en divisant par ⟨ηk , gk ⟩ on obtient

′′
√ ⟨γk−1
N −γ
k−1 , Rk ϕ⟩ Vk−1 (Rk ϕ)
ZN = N =⇒ N(0, ),
⟨γk , 1⟩ ⟨ηk , gk ⟩2
en distribution quand N ↑ ∞, compte tenu que ⟨γk , 1⟩ = ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩. D’autre part, on
remarque que

′
√ ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩
N
ZN = N
⟨γk , 1⟩

√ ⟨ηkN − µN
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩
N
= N
⟨ηk , gk ⟩ ⟨γk−1 , 1⟩

1 ∑ gk (ξki ) ϕ(ξki ) − ⟨µN

N
k−1 Qk , gk ϕ⟩ ⟨γk−1 , 1⟩
N
= √ ,
N i=1 ⟨ηk , gk ⟩ ⟨γk−1 , 1⟩
12.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 169

où conditionnellement par rapport à la tribu Fk−1 N engendrée par le système de particules jus-
qu’à la (k − 1)–ème génération, les variables aléatoires ξk1 , · · · , ξkN sont i.i.d. de distribution de
probabilité commune µN k−1 Qk . On vérifie que la variable aléatoire

gk (ξki ) ϕ(ξki ) − ⟨µN k−1 Qk , gk ϕ⟩

Xi,N = ,
⟨ηk , gk ⟩

est centrée, de variance

var(gk ϕ, µNk−1 Qk )
s2i,N = E[ |Xi,N |2 | Fk−1
N
]= ,
⟨ηk , gk ⟩2

et bornée
sup gk (x)
x∈E
|Xi,N | ≤ 2 ∥ϕ∥ ,
⟨ηk , gk ⟩
pour tout i = 1, · · · , N . Clairement

1 ∑ 2
N
var(gk ϕ, µNk−1 Qk ) var(gk ϕ, ηk ) ⟨γk−1
N , 1⟩
s2N = si,N = −→ et θN = −→ 1 ,
N ⟨ηk , gk ⟩2 ⟨ηk , gk ⟩2 ⟨γk−1 , 1⟩
i=1

en probabilité quand N ↑ ∞, et il résulte du Théorème C.7 et de la Remarque C.8 que

′ var(gk ϕ, ηk )
E[exp{j u ZN } | Fk−1
N
] −→ exp{− 12 u2 },
⟨ηk , gk ⟩2

en probabilité quand N ↑ ∞. Finalement, il résulte du Lemme C.10 et de la décomposition (11.3)

que
′ ′′
√ ⟨γ N − γk , ϕ⟩
ZN + ZN = N k =⇒ N(0, Vk (ϕ)) ,
⟨γk , 1⟩
en distribution quand N ↑ ∞, avec

Vk−1 (Rk ϕ) var(gk ϕ, ηk )

Vk (ϕ) = + ,
⟨ηk , gk ⟩2 ⟨ηk , gk ⟩2

c’est–à–dire que l’hypothèse de récurrence (12.6) est vérifiée. 2

Théorème 12.7 Pour l’approximation particulaire du modèle (8.1), utilisant la distribution

d’importance optimale et avec redistribution multinomiale
√ ⟨γ N , 1⟩ opt
√
N[ n − 1 ] =⇒ N(0, Vn−1 ) et N ⟨µN
n − µn , ϕ⟩ =⇒ N(0, vn
opt−
(ϕ)) ,
⟨γn , 1⟩

en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique

opt
∑
n
⟨µk , (Rk+1:n 1)2 ⟩
Vn−1 = [ − 1] ,
⟨µk , Rk+1:n 1⟩2
k=0
170 CHAPITRE 12. TCL POUR LES APPROXIMATIONS PARTICULAIRES

et
∑
n
⟨µk , |Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩
vnopt− (ϕ) = ,
⟨µk , Rk+1:n 1⟩2
k=0
respectivement, où
∏
n
Rk+1:n ϕ(x) = Rk+1 · · · Rn ϕ(x) = E[ϕ(Xn ) gp (Xp ) | Xk = x] ,
p=k+1

pour tout k = 0, 1 · · · n, avec la convention Rn+1:n ϕ(x) = ϕ(x).

Preuve. On rappelle que l’approximation particulaire des distributions γn et µn utilisant la

distribution d’importance optimale définie par (8.13) et (8.14), coı̈ncide avec l’approximation
particulaire des distributions γnopt− et ηnopt pour le modèle dit optimal (8.18). En particulier, l’ap-
proximation particulaire de la constante de normalisation ⟨γn , 1⟩ coı̈ncide avec l’approximation
particulaire de la constante de normalisation ⟨γnopt− , 1⟩ = ⟨γn−1
opt
, 1⟩. Il résulte immédiatement du
Théorème 12.2 et du Corollaire 12.3 que
√ ⟨γnN , 1⟩ √ opt,N
⟨γn−1 , 1⟩ opt
N[ − 1] = N [ − 1 ] =⇒ N(0, Vn−1 )
⟨γn , 1⟩ opt
⟨γn−1 , 1⟩
et √ √
N ⟨µN
n − µn , ϕ⟩ = N ⟨ηnopt,N − ηnopt , ϕ⟩ =⇒ N(0, vnopt− (ϕ))
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique

opt
∑
n−1
⟨ηkopt , (gkopt Rk+1:n−1
opt
1)2 ⟩ ∑
n
⟨µk , (Rk+1:n 1)2 ⟩
Vn−1 = [ − 1] = [ − 1] ,
⟨ηkopt , gkopt Rk+1:n−1
opt
, 1⟩2 ⟨µk , Rk+1:n 1⟩2
k=0 k=0

et
∑
n
⟨ηkopt , |Rk+1:n
opt−
(ϕ − ⟨ηnopt , ϕ⟩) |2 ⟩ ∑
n
⟨µk , |Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩
vnopt− (ϕ) = = ,
⟨ηkopt , Rk+1:n
opt−
1⟩2 ⟨µk , Rk+1:n 1⟩2
k=0 k=0

d’après (8.21) et (8.20), respectivement. 2

Remarque 12.8 La comparaison des variances asymptotiques donne

opt
∑
n
⟨µk , (Rk+1:n 1)2 ⟩ ∑
n
⟨ηk , gk ⟩ ⟨ηk , gk (Rk+1:n 1)2 ⟩
Vn−1 = [ − 1 ] = [ − 1] ,
⟨µk , Rk+1:n 1⟩2 ⟨ηk , gk Rk+1:n 1⟩2
k=0 k=0

à comparer avec
∑
n
⟨ηk , (gk Rk+1:n 1)2 ⟩
Vn = [ − 1] ,
⟨ηk , gk Rk+1:n 1⟩2
k=0
pour les constantes de normalisation, et
∑
n
⟨µk , |Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩ ∑
n
⟨ηk , gk ⟩ ⟨ηk , gk |Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩
vnopt− (ϕ) = = ,
⟨µk , Rk+1:n 1⟩2 ⟨ηk , gk Rk+1:n 1⟩2
k=0 k=0
12.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 171

à comparer avec
∑
n
⟨ηk , |gk Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩
vn (ϕ) = ,
⟨ηk , gk Rk+1:n 1⟩2
k=0
pour les distributions normalisées.

Dans le cas plus général du modèle (8.8) et pour une décomposition d’importance (8.11)
donnée, avec la représentation probabiliste (8.12) associée, ou bien pour le modèle (8.22) où la
décomposition d’importance est donnée de manière explicite dans la représentation probabiliste,
chaque fonction de sélection dépend de la transition courante de la chaı̂ne de Markov, mais il
suﬃt de changer de point de vue et d’adopter le modèle (8.27) à valeurs transitions, où chaque
fonction de sélection dépend seulement de l’état courant, puis de ré–exprimer dans ce cadre
le Théorème 12.2 établi ci–dessus pour le modèle (8.1) apparamment plus simple. On obtient
ainsi un premier résultat intermédiaire, qu’il suﬃt ensuite de ré–interpréter en terme de la
décomposition d’importance donnée. On introduit le noyau positif

Rk□ (x, dx′ ) = Qk (x, dx′ ) |gk (x, x′ )|2 ,

pour tout k = 1, · · · , n.

Théorème 12.9 Pour l’approximation particulaire du modèle (8.22), avec redistribution mul-
tinomiale
√ ⟨γ N , 1⟩ √
N[ n − 1 ] =⇒ N(0, Vn ) et N ⟨µN
n − µn , ϕ⟩ =⇒ N(0, vn (ϕ)) ,
⟨γn , 1⟩
en distribution quand N ↑ ∞, pour toute fonction mesurable bornée ϕ, avec l’expression suivante
pour la variance asymptotique
∑
n
⟨µk−1 Rk□ , | Rk+1:n 1 |2 ⟩ ∑
n
⟨µk−1 R□ , | Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩
Vn = [ − 1] et vn (ϕ) = k
,
⟨µk−1 Rk , Rk+1:n 1⟩2 ⟨µk−1 Rk , Rk+1:n 1⟩2
k=0 k=0

respectivement, où
∏
n
Rk+1:n ϕ(x) = Rk+1 · · · Rn ϕ(x) = E[ϕ(Xn ) gp (Xp−1 , Xp ) | Xk = x] ,
p=k+1

pour tout k = 0, 1, · · · , n, avec la convention Rn+1:n ϕ(x) = ϕ(x).

Preuve. En particulier pour l’approximation particulaire du modèle (8.27) à valeurs transi-

tions, avec redistribution multinomiale, il résulte du Théorème 12.2 que
√ ⟨γnN,tr , 1⟩ √
N[ − 1 ] =⇒ N(0, Vntr ) et N ⟨µN,tr − µtr
n , F ⟩ =⇒ N(0, vn (F )) ,
tr
⟨γntr , 1⟩ n

en distribution quand N ↑ ∞, pour toute fonction mesurable bornée F définie sur l’ensemble
produit E × E, avec l’expression suivante pour la variance asymptotique
∑
n
⟨η tr , (gk Rk+1:n
tr 1)2 ⟩ ∑
n
⟨ηktr , |gk Rk+1:n
tr
n , F ⟩) | ⟩
(F − ⟨µtr 2
Vntr = [ ktr − 1] et vntr (F ) = ,
⟨ηk , gk Rk+1:n
tr 1⟩2 ⟨ηktr , gk Rk+1:n
tr 1⟩2
k=0 k=0
172 CHAPITRE 12. TCL POUR LES APPROXIMATIONS PARTICULAIRES

respectivement, où

∏
n
tr
Rk+1:n F (x1 , x2 ) = E[F (Xntr ) gp (Xptr ) | Xktr = (x1 , x2 )] ,
p=k+1

pour tout k = 0, 1, · · · , n, avec la convention Rn+1:n

tr F (x1 , x2 ) = F (x1 , x2 ). Il suﬃt ensuite de
ré–interpréter ce résultat en terme du modèle (8.22), avec une fonction de la forme F = ϕ ◦ π,
où π : (x, x′ ) ∈ E × E 7→ x′ ∈ E désigne la projection sur la dernière composante de l’espace
produit E × E.

Par définition ηktr = µtr tr tr

k−1 Qk , où le noyau markovien Qk est défini en (8.26), de sorte que

∫ ∫ ∫ ∫
⟨ηktr , F ⟩ = F (x′1 , x′2 ) µtr tr ′ ′
k−1 (dx1 , dx2 ) Qk (x1 , x2 , dx1 , dx2 )
E E E E
∫ ∫ ∫ ∫
= F (x′1 , x′2 ) µtr ′ ′ ′
k−1 (dx1 , dx2 ) δx2 (dx1 ) Qk (x1 , dx2 )
E E E E
∫ ∫ ∫
′ ′
= µtr
k−1 (dx1 , dx2 ) F (x2 , x2 ) Qk (x2 , dx2 )
E E E
∫ ∫
′ ′
= µtr
k−1 (E, dx2 ) F (x2 , x2 ) Qk (x2 , dx2 )
E E
∫ ∫
= µk−1 (dx2 ) F (x2 , x′2 ) Qk (x2 , dx′2 ) ,
E E

toute pour toute fonction mesurable bornée F définie sur l’ensemble produit E × E, et compte
tenu que µtr
k−1 (E, dx2 ) = µk−1 (dx2 ), c’est–à–dire que

ηktr = µk−1 ⊗ Qk .

D’après la propriété de Markov

∏
n
tr
Rk+1:n (ϕ ◦ π)(x1 , x2 ) = E[ϕ(Xn ) gp (Xp−1 , Xp ) | Xk−1 = x1 , Xk = x2 ]
p=k+1

∏
n
= E[ϕ(Xn ) gp (Xp−1 , Xp ) | Xk = x2 ]
p=k+1

= Rk+1:n ϕ(x2 ) ,

pour toute fonction de la forme F = ϕ ◦ π, de sorte que

tr
Rk+1:n (ϕ ◦ π) = (Rk+1:n ϕ) ◦ π ,
12.2. ÉCHANTILLONNAGE / RÉ–ÉCHANTILLONNAGE (SIR) 173

−1 = µ , de sorte que
n ◦π
compte tenu que le résultat ne dépend que de x2 . On rappelle que µtr n
⟨µtr
n , ϕ ◦ π⟩ = ⟨µn , ϕ⟩ pour toute fonction de la forme F = ϕ ◦ π. On en déduit alors que

⟨ηktr , |gk Rk+1:n

tr
(ϕ ◦ π − ⟨µtr
n , ϕ ◦ π⟩) | ⟩ =
2

∫ ∫
= µk−1 (dx) Qk (x, dx′ ) |gk (x, x′ )|2 | Rk+1:n ϕ(x′ ) − Rk+1:n 1(x′ ) ⟨µn , ϕ⟩)) |2
E E
∫ ∫
= µk−1 (dx) Rk□ (x, dx′ ) | Rk+1:n ϕ(x′ ) − Rk+1:n 1(x′ ) ⟨µn , ϕ⟩)) |2
E E

= ⟨µk−1 Rk□ , | Rk+1:n (ϕ − ⟨µn , ϕ⟩) |2 ⟩ ,

et
∫ ∫
⟨ηktr , (gk Rk+1:n
tr
1)2 ⟩ = µk−1 (dx) Qk (x, dx′ ) |gk (x, x′ )|2 | Rk+1:n 1(x′ ) |2
E E
∫ ∫
= µk−1 (dx) Rk□ (x, dx′ ) | Rk+1:n 1(x′ ) |2
E E

= ⟨µk−1 Rk□ , | Rk+1:n 1 |2 ⟩ ,

et finalement
∫ ∫
⟨ηktr , gk Rk+1:n
tr
1⟩ = µk−1 (dx) Qk (x, dx′ ) gk (x, x′ ) Rk+1:n 1(x′ )
E E
∫ ∫
= µk−1 (dx) Rk (x, dx′ ) Rk+1:n 1(x′ )
E E

= ⟨µk−1 Rk , Rk+1:n 1⟩ ,

et il suﬃt d’utiliser ces identités dans l’expression des variances asymptotiques. 2

174 CHAPITRE 12. TCL POUR LES APPROXIMATIONS PARTICULAIRES
Annexe A

Inversion matricielle

Lemme A.1 Soit Q et R deux matrices symétriques définies positives, de dimension m et d

respectivement, et soit H une matrice d × m. Alors

(H ∗ R−1 H + Q−1 )−1 = Q − Q H ∗ (H Q H ∗ + R)−1 H Q ,

où toutes les matrices inverses sont bien définies, et de plus

(H ∗ R−1 H + Q−1 )−1 H ∗ = Q H ∗ (H Q H ∗ + R)−1 R .

Preuve. On remarque d’abord que

H Q H∗ + R ≥ R et H ∗ R−1 H + Q−1 ≥ Q−1

au sens des matrices symétriques, ce qui prouve que les matrices

H Q H∗ + R et H ∗ R−1 H + Q−1

sont inversibles. En développant, on vérifie que

[ Q − Q H ∗ (H Q H ∗ + R)−1 H Q ] [H ∗ R−1 H + Q−1 ]

= Q H ∗ R−1 H + I − Q H ∗ (H Q H ∗ + R)−1 (H Q H ∗ + R − R) R−1 H

− Q H ∗ (H Q H ∗ + R)−1 H

=I ,

et d’autre part, en multipliant à droite par H ∗ , on obtient

(H ∗ R−1 H + Q−1 )−1 H ∗ = Q H ∗ − Q H ∗ (H Q H ∗ + R)−1 (H Q H ∗ + R − R)

= Q H ∗ (H Q H ∗ + R)−1 R . 2

175
176 ANNEXE A. INVERSION MATRICIELLE

Remarque A.2 Cette formule permet de remplacer l’inversion de la matrice (H ∗ R−1 H +Q−1 )
de dimension m, par l’inversion de la matrice (H Q H ∗ + R) de dimension d, avec d ≤ m en
général. En particulier, dans le cas où d = 1, la matrice H = h∗ est un vecteur ligne, la matrice
R = r est un scalaire, et la formule devient
h h∗ Q h h∗ Q
( + Q−1 )−1 = Q − .
r r + h∗ Q h

Lemme A.3 Si la matrice D est inversible, alors

       
A B I B D−1 ∆ 0 I 0
M=   =       ,
C D 0 I 0 D D−1 C I
où la matrice ∆ = A − B D−1 C est appelée complément de Schur de la matrice D dans la
matrice–bloc M . En particulier, det M = det ∆ · det D de sorte que la matrice M est inversible
si et seulement si la matrice ∆ est inversible, et
 −1 
∆ ⋆
M −1 =   .
⋆ ⋆
Si la matrice M est symétrique, ce qui implique en particulier que A = A∗ , C = B ∗ et D = D∗ ,
alors le complément de Schur ∆ = A − B D−1 B ∗ est également symétrique, et si en outre
la matrice M est semi–définie positive, respectivement définie positive, alors la matrice ∆ est
également semi–définie positive, respectivement définie positive.

Remarque A.4 Si la matrice A est inversible, alors la matrice ∆ = D − C A−1 B est appelée
complément de Schur de la matrice A dans la matrice–bloc M , la matrice M est inversible si et
seulement si la matrice ∆ est inversible, et
 
⋆ ⋆
M −1 =   .
⋆ ∆ −1

Preuve. En développant, on vérifie que

         
I B D−1 ∆ 0 I 0 ∆ B I 0
      =    
0 I 0 D D−1 C I 0 D D−1 C I
 
∆ + B D−1 C B
=  =M ,
C D
ce qui montre l’identité annoncée. On en déduit que det M = det ∆·det D de sorte que la matrice
M est inversible si et seulement si la matrice ∆ est inversible, et
   −1   
I 0 ∆ 0 I −B D−1
M −1 =       ,
−1
−D C I 0 D −1 0 I
177

et on remarque que
   −1         
I 0 ∆ 0 I ⋆ ∆−1 0 I ⋆ ∆−1 ⋆
     =   =  .
⋆ I 0 ⋆ 0 I ⋆ ⋆ 0 I ⋆ ⋆

Si la matrice M est symétrique, on remarque que

( )    ( ) 
I −B D−1 A B I A − B D−1 B ∗ 0 I
   =  =∆,
B∗ D −D−1 B ∗ −D−1 B ∗

de sorte que ( )   
u∗ −u∗ B D−1 A B u
    = u∗ ∆ u ,
B∗ D −D−1 B ∗ u
pour tout vecteur u, ce qui permet de conclure. 2
178 ANNEXE A. INVERSION MATRICIELLE
Annexe B

Inégalités

On regroupe dans cette annexe plusieurs résultats non–asymptotiques sur les sommes de va-
riables aléatoires indépendantes mais pas nécessairement identiquement distribuées : inégalité
de Khintchine, inégalité de Marcinkiewicz–Zygmund pour les moments d’ordre p ≥ 1, inégalité
exponentielle de Hoeﬀding pour les probabilités de déviation.
On appelle suite de Rademacher une suite de variables aléatoires indépendantes prenant les
valeurs −1 ou +1 avec probabilité 12 .

Proposition B.1 (Inégalité de Khintchine) Pour tout réel p ≥ 0, il existe une constante
positive Ap > 0 telle que
∑
N ∑N
E| εi ci | ≤ Ap (
p
c2i )p/2 ,
i=1 i=1
pour toute suite (c1 , · · · , cN ) de réels et pour toute suite de Rademacher (ε1 , · · · , εN ).

∑
N
Par homogénéité, on peut supposer que c2i = 1 sans perte de généralité.
i=1
Si l’inégalité est vraie pour un entier p ≥ 0, alors pour tout réel 0 ≤ q ≤ p

∑
N ∑
N
E| εi ci | ≤ {E|
q
εi ci |p }q/p ≤ Aq/p
p ,
i=1 i=1

d’après l’inégalité de Jensen, compte tenu que l’application x 7→ |x|q/p est concave, et il suﬃt de
montrer l’inégalité pour tout entier p ≥ 1, le cas p = 0 étant trivial.
Preuve. On remarque que
1
ex ≥ e|x| 1(x ≥ 0) ≥ |x|p 1(x ≥ 0) ,
p!
pour tout entier p ≥ 1, de sorte que
1 1 1
|x|p = |x|p 1(x ≥ 0) + |x|p 1(x ≤ 0) ≤ ex + e−x ,
p! p! p!

179
180 ANNEXE B. INÉGALITÉS

pour tout réel x. Il en résulte que

1 ∑
N ∑N ∑
N ∑N
E| εi ci |p ≤ E exp{ εi ci } + E exp{− εi ci } = 2 E exp{ εi ci } .
p!
i=1 i=1 i=1 i=1

Finalement
∑
N ∏
N ∑
N
√
E exp{ εi ci } = ( 12 eci + 12 e−ci ) ≤ exp{ 12 c2i } = e,
i=1 i=1 i=1
1
compte tenu de l’inégalité 12 (ex +e−x ) ≤ e 2
x2
, valide pour tout réel x, et l’inégalité de Khintchine
√
est démontrée avec Ap = 2 e p!. 2

Proposition B.2 (Inégalité de Marcinkiewicz–Zygmund) Pour tout réel p ≥ 1, il existe

une constante positive Bp > 0 telle que

∑
N ∑N
E| Xi | ≤ Bp E(
p
Xi2 )p/2 ,
i=1 i=1

pour toute suite (X1 , · · · , XN ) de variables aléatoires indépendantes centrées et de puissance

p–ème intégrable.

Remarque B.3 En divisant par N p , on obtient

1 ∑ 1 ∑ 2 p/2
N N
Bp
E| Xi |p ≤ p/2 E( Xi ) ,
N N N
i=1 i=1

et pour tout réel p ≥ 2, il résulte de l’inégalité de Jensen que

1 ∑ 2 p/2 1 ∑
N N
( Xi ) ≤ |Xi |p ,
N N
i=1 i=1

compte tenu que l’application x 7→ |x|p/2 est convexe, de sorte que

1 ∑ Bp 1 ∑
N N
E| Xi |p ≤ p/2 ( E|Xi |p ) . (B.1)
N N N
i=1 i=1

Remarque B.4 Plus généralement, pour tout vecteur de probabilité (w1 , · · · , wN ), et quitte à
remplacer Xi par wi Xi pour tout i = 1, · · · , N , on obtient
∑
N ∑N ∑N ∑
N
E| wi Xi | ≤ Bp E(
p 2 2 p/2
wi X i ) = B p ( wi ) E(
2 p/2
wi□ Xi2 )p/2 ,
i=1 i=1 i=1 i=1

en introduisant le vecteur de probabilité (w1□ , · · · , wN

□ ) défini par

wi2
wi□ = ,
∑
N
wj2
j=1
181

pour tout i = 1, · · · , N , et pour tout réel p ≥ 2, il résulte de l’inégalité de Jensen que

∑N ∑
N
( wi□ Xi2 )p/2 ≤ wi□ |Xi |p ,
i=1 i=1

compte tenu que l’application x 7→ |x|p/2 est convexe, de sorte que

∑
N ∑N ∑
N
E| wi Xi |p ≤ Bp ( wi2 )p/2 ( wi□ E|Xi |p ) . (B.2)
i=1 i=1 i=1

Preuve de la Proposition B.2. On pose

∑
N ∑
N
SN = Xi et RN = ε i Xi ,
i=1 i=1

et on considère les versions symétrisées

∑
N ∑
N
sym
SN = (Xi − Xi′ ) et sym
RN = εi (Xi − Xi′ ) ,
i=1 i=1

où (ε1 , · · · , εN ) est une suite de Rademacher, où la suite (X1′ , · · · , XN ′ ) a la même distribution
′
que la suite (X1 , · · · , XN ), et où les suites (X1 , · · · , XN ), (X1 , · · · , XN′ ) et (ε , · · · , ε ) sont
1 N
mutuellement indépendantes. Pour tout i = 1, · · · , N et compte tenu que les variables aléatoires
(Xi − Xi′ ) et (Xi′ − Xi ) ont la même distribution, on vérifie que
E[ϕ(εi (Xi − Xi′ ))] = E( E[ϕ(εi (Xi − Xi′ )) | Xi , Xi′ ] )

= E[ 12 ϕ(Xi − Xi′ ) + 12 ϕ(Xi′ − Xi )] = E[ϕ(Xi − Xi′ )] ,

pour toute fonction test ϕ, de sorte que les variables aléatoires εi (Xi − Xi′ ) et (Xi − Xi′ ) ont
sym sym
la même distribution, et il en résulte que les variables aléatoires SN et RN ont la même
distribution. On remarque que
sym
E[SN | X1 , · · · , XN ] = SN ,
et il résulte de l’inégalité de Jensen que
sym sym
Φ(SN ) = Φ(E[SN | X1 , · · · , XN ]) ≤ E[Φ(SN ) | X1 , · · · , XN ] ,
pour toute fonction convexe Φ, de sorte que
sym
E[Φ(SN )] ≤ E[Φ(SN )] .
On remarque aussi que
∑
N ∑
N
sym p
E|RN | = E| ε i Xi − εi Xi′ |p
i=1 i=1

d’après l’inégalité de Khintchine. Finalement, pour tout réel p ≥ 1

∑
N
sym p sym p
∑N
E| Xi | = E|SN | ≤
p p
E|SN | = E|RN | = 2 Ap E(
p
Xi2 )p/2 ,
i=1 i=1

compte tenu que l’application x 7→ |x|p est convexe, et l’inégalité de Marcinkiewicz–Zygmund

√
est démontrée avec Bp = 2p Ap = 2p+1 e p!. 2

Lemme B.5 Soit X une variable aléatoire réelle, de moyenne nulle et à valeurs bornées, c’est–
à–dire que a ≤ X ≤ b. Alors

E[exp{s X}] ≤ exp{ 81 s2 (b − a)2 } ,

pour tout réel s.

Preuve. Nécessairement a ≤ 0 ≤ b, et il résulte de l’identité

x−a b−x
x= b+ a,
b−a b−a
et de la convexité de la fonction exponentielle que

x−a b−x
exp{s x} ≤ exp{s b} + exp{s a} ,
b−a b−a
pour tout a ≤ x ≤ b, de sorte que

−a b
E[exp{s X}] ≤ exp{s b} + exp{s a} ,
b−a b−a
compte tenu que E(X) = 0. On pose

−a b
p= de sorte que 1−p= ,
b−a b−a
et il vient

s a = −s p (b − a) = −p u et s b = s (1 − p) (b − a) = (1 − p) u ,

avec u = s (b − a). On en déduit que

E[exp{s X}] ≤ p exp{(1 − p) u} + (1 − p) exp{−p u} = exp{ϕ(u)} ,

ce qui définit
ϕ(u) = −p u + log(p exp{u} + 1 − p) .
183

On calcule facilement l’expression des dérivées

p exp{u}
ϕ′ (u) = −p + ,
p exp{u} + 1 − p
et
p exp{u} p exp{u} p (1 − p) exp{u}
ϕ′′ (u) = −( )2 = ,
p exp{u} + 1 − p p exp{u} + 1 − p (p exp{u} + 1 − p)2
et on vérifie que ϕ(0) = ϕ′ (0) = 0 et que ϕ′′ (u) ≤ 14 , de sorte que
ϕ(u) = ϕ(0) + ϕ′ (0) u + 12 ϕ′′ (θ) u2 ≤ 1
8 u2 = 1
8 s2 (b − a)2 . 2

Proposition B.6 (Inégalité exponentielle de Hoeﬀding) Soit (X1 , · · · , XN ) des variables

aléatoires réelles indépendantes (mais pas nécessairement identiquement distribuées, ni centrées)
et à valeurs bornées, c’est–à–dire que ai ≤ Xi ≤ bi , pour tout i = 1, · · · , N . Alors
∑
N
2 c2
P[ | (Xi − E(Xi ))| ≥ c ] ≤ 2 exp{− },
i=1
∑
N
(bi − ai )2
i=1

pour tout réel positif c ≥ 0.

Remarque B.7 En utilisant c N en lieu et place de c, on obtient

1 ∑
N
2 N c2
P[ | (Xi − E(Xi ))| ≥ c ] ≤ 2 exp{− },
1 ∑
N N
i=1
(bi − ai )2
N
i=1

pour tout réel positif c ≥ 0.

Preuve. On utilise la méthode de majoration de Chernoﬀ : pour tout réel positif λ > 0, il
résulte de l’inégalité de Markov, de l’indépendance des variables aléatoires (X1 , · · · , XN ) et du
Lemme B.5, que
∑
N ∑
N
P[ (Xi − E(Xi )) ≥ c ] = P[ exp{λ (Xi − E(Xi ))} ≥ exp{λ c} ]
i=1 i=1

∑
N
≤ exp{−λ c} E[exp{λ (Xi − E(Xi ))}]
i=1

∏
N
≤ exp{−λ c} E[exp{λ (Xi − E(Xi ))}]
i=1

∏
N
≤ exp{−λ c} exp{ 81 λ2 (bi − ai )2 }
i=1

∑
N
≤ exp{−λ c + 81 λ2 (bi − ai )2 } ,
i=1
184 ANNEXE B. INÉGALITÉS

compte tenu que

ai − E(Xi ) ≤ Xi − E(Xi ) ≤ bi − E(Xi ) ,
pour tout i = 1, · · · , N (de sorte que l’oscillation est invariante par translation). Comme λ > 0
est arbitraire, la majoration reste encore valide avec la borne minimale, c’est–à–dire

∑
N ∑
N
2 c2
P[ (Xi − E(Xi )) ≥ c ] ≤ min exp{−λ c + 8 λ
1 2
(bi − ai )2 } = exp{− },
i=1
λ>0
i=1
∑
N
(bi − ai ) 2

i=1

4c
obtenue pour la valeur λ = . En posant Xi′ = −Xi et compte tenu que
∑
N
(bi − ai )2
i=1

−bi + E(Xi ) ≤ Xi′ − E(Xi′ ) = −(Xi − E(Xi )) ≤ −ai + E(Xi ) ,

pour tout i = 1, · · · , N (de sorte que l’oscillation est invariante par changement de signe), il
vient
∑
N ∑
N
2 c2
P[ (Xi − E(Xi )) ≤ −c ] = P[ (Xi′ − E(Xi′ )) ≥ c ] ≤ exp{− },
i=1 i=1
∑
N
(bi − ai )2
i=1

et en combinant les deux majorations, on obtient

∑
N ∑
N ∑
N
P[ | (Xi − E(Xi ))| ≥ c ] = P[ (Xi − E(Xi )) ≥ c ou (Xi − E(Xi )) ≤ −c ]
i=1 i=1 i=1

∑
N ∑
N
= P[ (Xi − E(Xi )) ≥ c ] + P[ (Xi − E(Xi )) ≤ −c ]
i=1 i=1

2 c2
≤ 2 exp{− }. 2
∑
N
(bi − ai )2
i=1
Annexe C

Théorème central limite conditionnel

On regroupe dans cette annexe quelques généralisations du théorème central limite, dont la
version la plus classique concerne la somme de variables aléatoires i.i.d. (indépendantes et iden-
tiquement distribuées). On commence par rappeler des majorations bien connues.

Lemme C.1 On a

(i) pour tout réel positif x ≥ 0

0 ≤ e−x − (1 − x) ≤ 1
2 x2 ,

(ii) pour tous réels x, x′

′
|ej x − ej x | ≤ |x − x′ | ,

(iii) pour tous réels positifs x, x′ ≥ 0

′
|e−x − e−x | ≤ |x − x′ | .

Preuve. On définit
G1 (x) = e−x − (1 − x) ,
pour tout x ≥ 0, et on vérifie que

G′1 (x) = −e−x + 1 ≥ 0 ,

pour tout x ≥ 0, de sorte que la fonction G1 est croissante sur [0, ∞) et G1 (x) ≥ G1 (0) = 0, ce
qui prouve la minoration. On définit ensuite

G2 (x) = e−x − (1 − x) − 21 x2 ,

pour tout x ≥ 0, et on vérifie que

G′2 (x) = −e−x + 1 − x = −G1 (x) ≤ 0 ,

pour tout x ≥ 0, de sorte que la fonction G2 est décroissante sur [0, ∞) et G2 (x) ≤ G2 (0) = 0,
ce qui prouve la majoration.

185
186 ANNEXE C. THÉORÈME CENTRAL LIMITE CONDITIONNEL

On définit
′
F (λ) = ej (λ x+(1−λ) x ) ,
pour tout 0 ≤ λ ≤ 1, où x et x′ sont fixés. On vérifie que
′
F ′ (λ) = j (x − x′ ) ej (λ x+(1−λ) x ) ,

et on en déduit que
∫ 1 ∫ 1
j x′ ′ ′ ′
e jx
−e = F (1) − F (0) = F (λ) dλ = j (x − x ) ej (λ x +(1−λ) x) dλ ,
0 0

de sorte que ∫ 1
j x′ ′ ′
|e jx
−e | = |x − x | | ej (λ x +(1−λ) x) dλ| ≤ |x − x′ | .
0

On définit de même
′
F (λ) = e−(λ x+(1−λ) x ) ,
pour tout 0 ≤ λ ≤ 1, où x, x′ ≥ 0 sont fixés. On vérifie que λ x + (1 − λ) x′ ≥ 0 et
′
F ′ (λ) = −(x − x′ ) e−(λ x+(1−λ) x ) ,

et on en déduit que
∫ 1 ∫ 1
′ ′
e−x − e−x = F (1) − F (0) = F ′ (λ) dλ = −(x − x′ ) e−(λ x+(1−λ) x ) dλ ,
0 0

de sorte que
∫ 1
−x −x′ ′ ′
|e −e | = |x − x | | e−(λ x+(1−λ) x ) dλ| ≤ |x − x′ | . 2
0

Lemme C.2 Soit X une variable aléatoire centrée, de variance s2 .

1
R(u) = |E[ exp{j u X}] − (1 − 12 u2 s2 )| −→ 0 ,
u2
quand u → 0.

Preuve. D’après la formule de Taylor avec reste intégral

∫ 1 ∫ 1
ej x = 1 + j x − (1 − λ) x2 ej λ x dλ = 1 + j x − 21 x2 − (1 − λ) x2 [ej λ x − 1] dλ ,
0 0

il vient
∫ 1
E[ exp{j u X}] = 1 − u s − u 1
2
2 2 2
(1 − λ) E[ |X|2 [exp{j λ u X} − 1] ] dλ ,
0

de sorte que
∫ 1
1
|E[ exp{j u X}] − (1 − 12 u2 s2 )| ≤ E[ |X|2 | exp{j λ u X} − 1| ] dλ .
u2 0
187

On définit
Z(u) = |X|2 | exp{j λ u X} − 1| ≤ 2 |X|2 ,
pour tout réel u, de sorte que la famille (Z(u) , u ∈ R) est uniformément intégrable, et on vérifie
que Z(u) converge vers 0 presque sûrement quand u → 0. Il suﬃt alors d’appliquer le théorème
de convergence dominée de Lebesgue pour conclure. 2

Lemme C.3 Soit X une variable aléatoire centrée, de variance s2 . Pour tout réel positif c > 0
et pour tout réel u

|E[ exp{j u X}] − (1 − 21 u2 s2 )| ≤ E[ |X|2 min( 61 |u X|, 1) ] u2

≤ 1
6 c s2 |u|3 + E[ 1(|X| > c) |X|2 ] u2 .

Preuve. D’après la majoration classique rappelée dans le Lemme C.1-(ii) on a

∫ 1 ∫ 1
(1 − λ) |ej λ x − 1| dλ ≤ |x| (1 − λ) λ dλ = 1
6 |x| ,
0 0

et on a aussi l’estimation grossière

∫ 1 ∫ 1
(1 − λ) |e j λx
− 1| dλ ≤ 2 (1 − λ) dλ = 1 ,
0 0

de sorte que
∫ 1
(1 − λ) |ej λ x − 1| dλ = min( 61 |x|, 1) .
0

D’après la formule de Taylor avec reste intégral

∫ 1 ∫ 1
e jx
=1+jx− (1 − λ) x e 2 j λx
dλ = 1 + j x − x − 1
2
2
(1 − λ) x2 [ej λ x − 1] dλ ,
0 0

il vient
∫ 1
E[ exp{j u X}] = 1 − u s − u 1
2
2 2 2
(1 − λ) E[ |X|2 [exp{j λ u X} − 1] ] dλ ,
0

de sorte que
∫ 1
|E[ exp{j u X}] − (1 − u s )| ≤ u 1
2
2 2 2
(1 − λ) E[ |X|2 | exp{j λ u X} − 1| ] dλ
0
∫ 1
= u E[ |X|
2 2
(1 − λ) | exp{j λ u X} − 1| dλ ]
0

≤ u2 E[ |X|2 min( 61 |u X|, 1) ] . 2

188 ANNEXE C. THÉORÈME CENTRAL LIMITE CONDITIONNEL

Remarque C.4 La majoration

1
|E[ exp{j u X}] − (1 − 12 u2 s2 )| ≤ E[ |X|2 min( 16 |u X|, 1) ] ,
u2
fournit une autre preuve du Lemme C.2. On définit

Z(u) = |X|2 min( 16 |u X|, 1) ≤ |X|2 ,

pour tout réel u, de sorte que la famille (Z(u) , u ∈ R) est uniformément intégrable, et on vérifie
que Z(u) converge vers 0 presque sûrement quand u → 0. Il suﬃt alors d’appliquer le théorème
de convergence dominée de Lebesgue pour conclure.

C.1 TCL pour des variables aléatoires i.i.d.

Théorème C.5 Soit (X1 , · · · , XN ) des variables aléatoires i.i.d. centrées et de variance s2 .
Alors
1 ∑
N
√ Xi =⇒ N(0, s2 ) ,
N i=1

en distribution, quand N ↑ ∞.

Preuve. D’après l’hypothèse d’indépendance, on a

∑
N ∏
N
E[exp{j u Xi }] = E[exp{j u Xi } = ( E[exp{j u X}] )N ,
i=1 i=1

où la variable aléatoire X est distribuée comme chacune des variables aléatoires (X1 , · · · , XN ).
D’après les majorations classiques rappelées dans les Lemmes C.2 et C.1-(i), on a

| E[exp{j u X}] − (1 − 12 u2 s2 ) | ≤ R(u) u2 ,

et
| exp{− 21 u2 s2 } − (1 − 21 u2 s2 ) | ≤ 1
8 u4 s4 ,

et d’après l’inégalité triangulaire, on a

| E[exp{j u X}] − exp{− 12 u2 s2 } | ≤ R(u) u2 + 1

8 s4 u4 .

En utilisant la majoration
|aN − bN | ≤ N |a − b| ,

valide pour tous nombres complexes a et b de module inférieur ou égal à 1, et en particulier

valide pour
a = E[exp{j u X}] et b = exp{− 12 u2 s2 } ,
C.2. TCL POUR DES VARIABLES ALÉATOIRES INDÉPENDANTES 189

on obtient

∑
N
| E[exp{j u Xi }] − exp{− 12 N u2 s2 } | = | ( E[exp{j u X} )N − ( exp{− 12 u2 s2 } )N |
i=1
≤ N | E[exp{j u X}] − exp{− 12 u2 s2 } |

≤ N R(u) u2 + 81 N s4 u4 ,

v
et en posant u = √ on obtient
N

v ∑
N
v s4 v 4
| E[exp{j √ Xi }] − exp{− 12 s2 v 2 } | ≤ R( √ ) v 2 + 1
8 .
N i=1 N N

En utilisant le résultat du Lemme C.2, on en déduit que

v ∑
N
E[exp{j √ Xi }] −→ exp{− 12 s2 v 2 } ,
N i=1

quand N ↑ ∞. 2

C.2 TCL pour des variables aléatoires indépendantes

Théorème C.6 Soit (X1,N , · · · , XN,N ) des variables aléatoires indépendantes et centrées. On
pose

s2i,N = E|Xi,N |2 et pour tout c > 0 Fi,N (c) = E[ 1(|X > c) |Xi,N | ] ,
2
i,N |

pour tout i = 1, · · · , N . Si
1 ∑ 2
N
s2N = si,N −→ s2 ,
N
i=1

et si pour tout ε > 0

1 ∑ √ ∑
N N
Xi,N
FN (ε) = Fi,N (ε N )) = E[ 1 Xi,N | √ |2 ] −→ 0 , (C.1)
N (| √ | > ε) N
i=1 i=1
N

quand N ↑ ∞, alors
1 ∑
N
√ Xi,N =⇒ N(0, s2 ) ,
N i=1

en distribution, quand N ↑ ∞.
190 ANNEXE C. THÉORÈME CENTRAL LIMITE CONDITIONNEL

Preuve. D’après l’hypothèse d’indépendance, on a

∑
N ∏
N
E[exp{j u Xi,N }] = E[exp{j u Xi,N }] .
i=1 i=1

D’après les majorations classiques rappelées dans les Lemmes C.3 et C.1-(i), on a

| E[exp{j u Xi,N }] − (1 − 12 u2 s2i,N ) | ≤ 1

c s2i,N |u|3 + E[ 1(|X > c) |Xi,N | ] u ,
2 2
6 i,N |

et
| exp{− 12 u2 s2i,N } − (1 − 12 u2 s2i,N ) | ≤ 1
8 u4 s4i,N ,
et d’après l’inégalité triangulaire, on a

| E[exp{j u Xi,N }] − exp{− 21 u2 s2i,N } | ≤ 1

6 c s2i,N |u|3 + Fi,N (c) u2 + 1
8 s4i,N u4 .

En utilisant la majoration
∑
N ∑
N
|a1 · · · an − b1 · · · bN | = | a1 · · · ai−1 (ai − bi ) bi+1 · · · bN | ≤ |ai − bi | ,
i=1 i=1

valide pour tous nombres complexes a1 , · · · , aN et b1 , · · · , bN de module inférieur ou égal à 1,

et en particulier valide pour

ai = E[exp{j u Xi,N }] et bi = exp{− 21 u2 s2i,N } ,

pour tout i = 1, · · · , N , on obtient

∑
N
| E[exp{j u Xi,N }] − exp{− 12 N u2 s2N } |
i=1

∏
N ∏
N
=| E[exp{j u Xi,N }] − exp{− 12 u2 s2i,N } |
i=1 i=1

∑
N
≤ | E[exp{j u Xi,N }] − exp{− 12 u2 s2i,N } |
i=1

∑
N ∑
N ∑
N
≤ 1
6 c s2i,N |u|3 + Fi,N (c) u2 + 1
8 s4i,N u4 .
i=1 i=1 i=1

On remarque que
∑
N
s2i,N = E[ 1(|X |Xi,N |2 ] + E[ 1(|X | > c) |Xi,N |2 ] ≤ c2 + Fi,N (c) ≤ c2 + Fi,N (c) ,
i,N | ≤ c) i,N
i=1

pour tout i = 1, · · · , N , et on en déduit que

∑
N ∑
N ∑
N
s4i,N ≤ (c2 + Fi,N (c)) s2i,N .
i=1 i=1 i=1
C.2. TCL POUR DES VARIABLES ALÉATOIRES INDÉPENDANTES 191

On obtient ainsi
∑
N
| E[exp{j u Xi,N }] − exp{− 12 N u2 s2N } |
i=1

∑
N ∑
N
≤ 1
6 c N s2N |u|3 + Fi,N (c) u2 + 1
8 (c2 + Fi,N (c)) N s2N u4 ,
i=1 i=1

v √
et en posant u = √ et c = ε N on obtient
N

v ∑
N
| E[exp{j √ Xi,N }] − exp{− 12 v 2 s2N } |
N i=1 (C.2)

≤ 1
6 ε s2N |v|3 + FN (ε) v 2 + 1
8 (ε2 + FN (ε)) s2N v 4 4 ,

D’après la majoration classique rappelée dans le Lemme C.1-(iii), on a

| exp{− 12 v 2 s2N } − exp{− 12 v 2 s2 } | ≤ 1

2 v 2 | s2N − s2 | ,

et d’après l’inégalité triangulaire, on a

v ∑
N
| E[exp{j √ Xi,N }] − exp{− 12 v 2 s2 } |
N i=1

≤ 1
6 ε s2N |v|3 + FN (ε) v 2 + 1
8 (ε2 + FN (ε)) s2N v 4 + 21 v 2 | s2N − s2 | .

Il résulte des hypothèses, et en particulier de l’hypothèse de Lindeberg (C.1), que

v ∑
N
lim sup | E[exp{j √ Xi,N }] − exp{− 12 v 2 s2 } | ≤ 1
6 ε s2 |v|3 + 1
8 ε2 s 2 v 4 ,
N ↑∞ N i=1

et comme ε > 0 peut être choisi arbitrairement petit, on en déduit que

v ∑
N
E[exp{j √ Xi,N }] −→ exp{− 21 v 2 s2 } ,
N i=1

quand N ↑ ∞. 2

Théorème C.7 On suppose que conditionnellement par rapport à FN , les variables aléatoires
(X1,N , · · · , XN,N ) sont indépendantes et centrées, et on pose

s2i,N = E[ |Xi,N |2 | FN ] et pour tout c > 0 Fi,N (c) = E[ 1(|X > c) |Xi,N | | FN ] ,
2
i,N |

pour tout i = 1, · · · , N . Soit θN une variable aléatoire mesurable par rapport à FN . Si

1 ∑ 2
N
s2N = si,N −→ s2 et θN −→ 1 ,
N
i=1
192 ANNEXE C. THÉORÈME CENTRAL LIMITE CONDITIONNEL

en probabilité quand N ↑ ∞, et si pour tout ε > 0

1 ∑ √ ∑
N N
Xi,N
FN (ε) = Fi,N (ε N )) = E[ 1 Xi,N | √ |2 | FN ] −→ 0 , (C.3)
N (| √ | > ε) N
i=1 i=1
N
en probabilité quand N ↑ ∞, alors pour tout réel v

v θN ∑
N
E[exp{j √ Xi,N } | FN ] −→ exp{− 12 v 2 s2 } , (C.4)
N i=1

en probabilité quand N ↑ ∞.

Preuve. D’après l’hypothèse d’indépendance conditionnelle, on a

∑
N ∏
N
E[exp{j u Xi,N } | FN ] = E[exp{j u Xi,N } | FN ] .
i=1 i=1

En suivant les étapes de la preuve du Théorème C.6, et en utilisant la majoration (C.2), on

obtient

v θN ∑
N
| E[exp{j √ Xi,N } | FN ] − exp{− 12 v 2 θN s }|
2 2
N i=1

≤ 1
6 ε s2N θN
3
|v|3 + FN (ε) θN
2 2
v + 1
8 (ε2 + FN (ε)) s2N θN
4 4
v .

D’après la majoration classique rappelée dans le Lemme C.1-(iii), on a

| exp{− 12 v 2 θN sN } − exp{− 12 v 2 s2 } | ≤
2 2 1
2 v 2 | θN sN − s2 | ,
2 2

et d’après l’inégalité triangulaire, on a

v θN ∑
N
| E[exp{j √ Xi,N } | FN ] − exp{− 12 v 2 s2 } |
N i=1

≤ 1
6 ε s2N θN
3
|v|3 + FN (ε) θN
2 2
v + 1
8 (ε2 + FN (ε)) s2N θN v + 21 v 2 | θN
4 4
sN − s2 | .
2 2

Il résulte des hypothèses, et en particulier de l’hypothèse de Lindeberg conditionnelle (C.3), que

pour tout ε > 0

∆N (ε) = 1
6 ε s2N θN
3
|v|3 + FN (ε) θN
2 2
v + 1
8 (ε2 + FN (ε)) s2N θN v + 12 v 2 | θN
4 4
sN − s2 |
2 2

−→ ∆(ε) = 1
6 ε s2 |v|3 + 1
8 ε2 s2 v 4 ,

en probabilité quand N ↑ ∞. Soit η > 0 fixé. On rappelle que le réel v est aussi fixé. Il existe
alors ε = ε(η) > 0 tel que
∆(ε) = 61 ε |v|3 + 18 ε2 v 4 < 12 η .
C.2. TCL POUR DES VARIABLES ALÉATOIRES INDÉPENDANTES 193

Avec ce choix pour ε > 0, on a

v θN ∑
N
| E[exp{j √ Xi,N } | FN ] − exp{− 12 v 2 s2 } |
N i=1

≤ ∆N (ε) ≤ ∆(ε) + |∆N (ε) − ∆(ε)| ≤ 1

2 η + |∆N (ε) − ∆(ε)| .

On en déduit que

v θN ∑
N
P[ | E[exp{j √ Xi,N } | FN ] − exp{− 12 v 2 s2 } | > η] ≤ P[ |∆N (ε) − ∆(ε)| > 1
2 η] ,
N i=1

de sorte que
v θN ∑
N
E[exp{j √ Xi,N } | FN ] −→ exp{− 21 v 2 s2 } ,
N i=1
en probabilité quand N ↑ ∞. 2

Remarque C.8 Si les variables aléatoires (X1,N , · · · , XN,N ) sont bornées, i.e. si |Xi,N | ≤ K
pour tout i = 1, · · · , N , alors

∑
N
Xi,N K2 ∑
N
Xi,N
FN (ε) = E[ 1 Xi,N | √ |2 | FN ] ≤ P[ | √ | > ε | FN ] ,
(| √ | > ε) N N N
i=1 i=1
N
et on remarque que
Xi,N √
P[ | √ | > ε | FN ] ≤ 1 ,
N (K > ε N )
pour tout i = 1, · · · , N , de sorte que

FN (ε) ≤ K 2 1 √ −→ 0 ,
(K > ε N )

quand N ↑ ∞, c’est–à–dire que la condition de Lindeberg conditionnelle (C.3) est vérifiée. On

peut alors appliquer le Théorème C.7, même si dans ce cas particulier il est facile de démontrer
directement le résultat (C.4), sans devoir passer par l’intermédiaire du Théorème C.7.

Remarque C.9 Si les variables aléatoires (X1,N , · · · , XN,N ) vérifient la condition de Lyapunov
conditionnelle : pour un certain δ > 0

∑
N
Xi,N
E[ | √ |2+δ | FN ] −→ 0 , (C.5)
i=1
N

en probabilité quand N ↑ ∞, et compte tenu que

|x|2+δ ≥ |x|2+δ 1(|x| > ε) ≥ εδ |x|2 1(|x| > ε) ,

194 ANNEXE C. THÉORÈME CENTRAL LIMITE CONDITIONNEL

pour tout réel x et pour tout ε > 0, alors

∑
N
Xi,N 2 1 ∑
N
Xi,N
FN (ε) = E[ 1 Xi,N | √ | | FN ] ≤ δ E[ | √ |2+δ | FN ] −→ 0 ,
(| √ | > ε) N ε N
i=1 i=1
N
en probabilité quand N ↑ ∞, c’est–à–dire que la condition de Lindeberg conditionnelle (C.3) est
vérifiée. On peut alors appliquer le Théorème C.7, et dans le cas particulier où la condition de
Lyapunov conditionnelle (C.5) est vérifiée pour δ = 1, c’est–à–dire où
∑
N
Xi,N
E[ | √ |3 | FN ] −→ 0 ,
i=1
N

en probabilité quand N ↑ ∞, il est facile de montrer directement le résultat (C.4), sans devoir
passer par l’intermédiaire du Théorème C.7.

C.3 TCL conditionnel

La première généralisation concerne un théorème central limite conditionnel pour une somme
de variables aléatoires i.i.d., et son application à la convergence en distribution de la somme de
deux variables aléatoires

• une somme de variables aléatoires indépendantes mesurables par rapport à une sous–tribu,
• et une somme de variables aléatoires conditionnellement indépendantes par rapport à la
sous–tribu.

Lemme C.10 Si conditionnellement par rapport à FN , la variable aléatoire ZN ′ converge en

distribution vers une variable aléatoire gaussienne centrée, de variance V ′ , au sens où pour tout
u fixé
′
E[exp{j u ZN } | FN ] −→ exp{− 21 u2 V ′ } ,
en probabilité (et dans L1 , par le théorème de convergence dominée de Lebesgue) quand N ↑ ∞,
et si la variable aléatoire ZN′′ est mesurable par rapport à F , et converge en distribution vers
N
une variable aléatoire gaussienne centrée, de variance V ′′ , i.e. si pour tout u fixé
′′
E[exp{j u ZN }] −→ exp{− 12 u2 V ′′ } ,
quand N ↑ ∞, alors la variable aléatoire ZN = ZN ′ + Z ′′ converge en distribution vers une
N
variable aléatoire gaussienne centrée, de variance V = V ′ + V ′′ , quand N ↑ ∞.

Preuve. Il suﬃt d’exploiter la décomposition suivante

E[exp{j u ZN }] − exp{− 21 u2 V }
′ ′′
= E[ E[exp{j u ZN } | FN ] exp{j u ZN }] − exp{− 12 u2 V ′ − 21 u2 V ′′ }
′
= E[ [ E[exp{j u ZN } | FN ] − exp{− 12 u2 V ′ }] exp{j u ZN
′′
}]

+ exp{− 21 u2 V ′ } [ E[ exp{j u ZN
′′
}] − exp{− 21 u2 V ′′ }] ,
C.3. TCL CONDITIONNEL 195

et l’inégalité triangulaire entraı̂ne aussitôt que

| E[exp{j u ZN }] − exp{− 12 u2 V } |
′
≤ E| E[exp{j u ZN } | FN ] − exp{− 21 u2 V ′ } |
′′
+ | E[exp{j u ZN }] − exp{− 12 u2 V ′′ } | ,

qui converge vers zéro quand N ↑ ∞ 2

196 ANNEXE C. THÉORÈME CENTRAL LIMITE CONDITIONNEL
Bibliographie

[1] Brian D. O. Anderson and John B. Moore. Optimal filtering. Prentice–Hall Information
and System Sciences Series. Prentice–Hall, Englewood Cliﬀs, NJ, 1979.

[2] M. Sanjeev Arulampalam, Simon Maskell, Neil J. Gordon, and Tim Clapp. A tutorial on
particle filters for online nonlinear / non–Gaussian Bayesian tracking. IEEE Transactions
on Signal Processing, SP–50(2 (Special issue on Monte Carlo Methods for Statistical Signal
Processing)) :174–188, February 2002.

[3] Nathalie Bartoli and Pierre Del Moral. Simulation et algorithmes stochastiques. Cépaduès,
Toulouse, 2001.

[4] Niclas Bergman. Posterior Cramér–Rao bounds for sequential estimation. In Arnaud Dou-
cet, Nando de Freitas, and Neil Gordon, editors, Sequential Monte Carlo methods in practice,
Statistics for Engineering and Information Science, chapter 15, pages 321–338. Springer–
Verlag, New York, 2001.

[5] Olivier Cappé, Simon J. Godsill, and Éric Moulines. An overview of existing methods and
recent advances in sequential Monte Carlo. Proceedings of the IEEE, 95(5 (Special issue on
Large–Scale Dynamic Systems)) :899–924, May 2007.

[6] Olivier Cappé, Éric Moulines, and Tobias Rydén. Inference in hidden Markov models.
Springer Series in Statistics. Springer–Verlag, New York, 2005.

[7] Dan Crişan and Arnaud Doucet. A survey of convergence results on particle filtering
methods for practitioners. IEEE Transactions on Signal Processing, 50(3) :736–746, March
2002.

[8] Pierre Del Moral. Feynman–Kac formulae. Genealogical and interacting particle systems
with applications. Probability and its Applications. Springer–Verlag, New York, 2004.

[9] Luc Devroye. Non–uniform random variate generation. Springer–Verlag, New York, 1986.

[10] Randal Douc, Olivier Cappé, and Éric Moulines. Comparison of resampling schemes for
particle filtering. In Proceedings of the 4th Symposium on Image and Signal Processing and
Analysis, Zagreb 2005, pages 64–69. IEEE–SPS, September 2005.

[11] Randal Douc and Éric Moulines. Limit theorems for weighted samples with applications
to sequential Monte Carlo methods. The Annals of Statistics, 36(5) :2344–2376, October
2008.

197
198 BIBLIOGRAPHIE

[12] Randal Douc, Éric Moulines, and David S. Stoﬀer. Nonlinear time series : Theory, methods
and applications with R examples. Texts in Statistical Science. Chapman & Hall / CRC
Press, Boca Raton, 2014.

[13] Arnaud Doucet and Christophe Andrieu. Particle filters for partially observed Gaussian
state space models. Journal of the Royal Statistical Society, Series B, 64(4) :827–836,
December 2002.

[14] Arnaud Doucet, Nando de Freitas, and Neil Gordon, editors. Sequential Monte Carlo
methods in practice. Statistics for Engineering and Information Science. Springer–Verlag,
New York, 2001.

[15] Arnaud Doucet, Simon J. Godsill, and Christophe Andrieu. On sequential Monte Carlo
sampling methods for Bayesian filtering. Statistics and Computing, 10(3) :197–208, July
2000.

[16] Fredrik Gustafsson, Fredrik Gunnarsson, Niclas Bergman, Urban Forssell, Jonas Jansson,
Rickard Karlsson, and Per-Johan Nordlund. Particle filters for positioning, navigation, and
tracking. IEEE Transactions on Signal Processing, SP–50(2 (Special issue on Monte Carlo
Methods for Statistical Signal Processing)) :425–437, February 2002.

[17] Allan Gut. Probability : A graduate course. Springer Texts in Statistics. Springer–Verlag,
New York, 2005.

[18] Hans R. Künsch. Recursive Monte Carlo filters : Algorithms and theoretical analysis. The
Annals of Statistics, 33(5) :1983–2021, October 2005.

[19] Jun S. Liu. Monte Carlo strategies in scientific computing. Springer Series in Statistics.
Springer–Verlag, New York, 2001.

[20] Patrick Pérez, Carine Hue, Jaco Vermaak, and Michel Gangnet. Color–based probabilistic
tracking. In Anders Heyden, Gunnar Sparr, Mads Nielsen, and Peter Johansen, editors,
Proceedings of the 7th European Conference on Computer Vision (ECCV’02), Copenhagen
2002, volume 2350 of Lecture Notes in Computer Science, pages 661–675. Springer–Verlag,
Berlin, June 2002.

[21] Dinh-Tuan Pham. Stochastic methods for sequential data assimilation in strongly nonlinear
systems. Monthly Weather Review, 129(5) :1194–1207, May 2001.

[22] Branko Ristić, M. Sanjeev Arulampalam, and Neil J. Gordon. Beyond the Kalman filter :
Particle filters for tracking applications. Artech House, Boston, 2004.

[23] Christian P. Robert and George Casella. Monte Carlo statistical methods. Springer Texts
in Statistics. Springer–Verlag, New York, 2nd edition, 2004.

[24] Thomas Schön, Fredrik Gustafsson, and Per-Johan Nordlund. Marginalized particle filters
for mixed linear / nonlinear state–space models. IEEE Transactions on Signal Processing,
SP–53(7) :2279–2289, July 2005.

[25] Sebastian Thrun, Wolfram Burgard, and Dieter Fox. Probabilistic robotics. Intelligent
Robotics and Autonomous Agents. The MIT Press, Cambridge, MA, 2005.
BIBLIOGRAPHIE 199

[26] Petr Tichavský, Carlos H. Muravchik, and Arye Nehorai. Posterior Cramér–Rao bounds for
discrete–time nonlinear filtering. IEEE Transactions on Signal Processing, SP–46(5) :1386–
1396, May 1998.

[27] Miroslav Šimandl, Jakub Královec, and Petr Tichavský. Filtering, predictive and smoo-
thing Cramér–Rao bounds for discrete–time nonlinear dynamic systems. Automatica,
37(11) :1703–1716, November 2001.

Vous aimerez peut-être aussi

Filtrage Bayésien et Approximation Particulaire
Pas encore d'évaluation
Filtrage Bayésien et Approximation Particulaire
94 pages
These Tran
Pas encore d'évaluation
These Tran
171 pages
Cours Filtage Lineaire Optimal 2018
Pas encore d'évaluation
Cours Filtage Lineaire Optimal 2018
66 pages
Tssi0 Dvi
Pas encore d'évaluation
Tssi0 Dvi
125 pages
Master 1 MMD - Séries Temporelles (Paris-Dauphine)
Pas encore d'évaluation
Master 1 MMD - Séries Temporelles (Paris-Dauphine)
196 pages
Detection Estimation Information PDF
Pas encore d'évaluation
Detection Estimation Information PDF
119 pages
coursINTRODUCTION AU FILTRAGE ADAPTATIF ET A L'EGALISATION - Fa - T
Pas encore d'évaluation
coursINTRODUCTION AU FILTRAGE ADAPTATIF ET A L'EGALISATION - Fa - T
101 pages
Kalman Book Alazard
Pas encore d'évaluation
Kalman Book Alazard
74 pages
Introduction au Filtre de Kalman
Pas encore d'évaluation
Introduction au Filtre de Kalman
74 pages
Ep Uns Elec3 Processus Stochastiques Cours
Pas encore d'évaluation
Ep Uns Elec3 Processus Stochastiques Cours
40 pages
Traitement Numerique Du Signal Premiere
Pas encore d'évaluation
Traitement Numerique Du Signal Premiere
91 pages
Processus Aléatoires en Électronique
Pas encore d'évaluation
Processus Aléatoires en Électronique
99 pages
Ptin
Pas encore d'évaluation
Ptin
158 pages
Classes d'équivalence de Markov
Pas encore d'évaluation
Classes d'équivalence de Markov
64 pages
Cours Kalman
Pas encore d'évaluation
Cours Kalman
70 pages
Polycopie Partie 2
Pas encore d'évaluation
Polycopie Partie 2
95 pages
Ecoleete
Pas encore d'évaluation
Ecoleete
97 pages
Champ de Gibbs-Markov Sur Réseau
Pas encore d'évaluation
Champ de Gibbs-Markov Sur Réseau
4 pages
Kalman Article
Pas encore d'évaluation
Kalman Article
13 pages
ARMA
Pas encore d'évaluation
ARMA
141 pages
Théorie des graphes en recherche opérationnelle
100% (2)
Théorie des graphes en recherche opérationnelle
127 pages
Ptin
Pas encore d'évaluation
Ptin
188 pages
Traitement Numerique Du Signal
100% (1)
Traitement Numerique Du Signal
0 page
ISTA Traitement Analogique Numerique Statistique Du Signal VF
100% (1)
ISTA Traitement Analogique Numerique Statistique Du Signal VF
242 pages
Modélisation Et Analyse Des Systèmes: Notes de Cours
Pas encore d'évaluation
Modélisation Et Analyse Des Systèmes: Notes de Cours
167 pages
StatM1 Poly P Doukhan
Pas encore d'évaluation
StatM1 Poly P Doukhan
111 pages
PolyTS 2022
Pas encore d'évaluation
PolyTS 2022
53 pages
CMD Numerique 1
Pas encore d'évaluation
CMD Numerique 1
79 pages
Introduction au Traitement du Signal
Pas encore d'évaluation
Introduction au Traitement du Signal
92 pages
Commande optimale en systèmes dynamiques
Pas encore d'évaluation
Commande optimale en systèmes dynamiques
72 pages
Poly Copie Partie 2
Pas encore d'évaluation
Poly Copie Partie 2
78 pages
Traitement Du Signal
0% (1)
Traitement Du Signal
120 pages
Cours-System Lineaire Identification
Pas encore d'évaluation
Cours-System Lineaire Identification
78 pages
Cours Identification
Pas encore d'évaluation
Cours Identification
78 pages
Outils Mathématiques pour Ingénieurs
100% (1)
Outils Mathématiques pour Ingénieurs
100 pages
Param
Pas encore d'évaluation
Param
145 pages
Cours Optimisation Lafitte
Pas encore d'évaluation
Cours Optimisation Lafitte
129 pages
Cours Syst Multi
Pas encore d'évaluation
Cours Syst Multi
62 pages
Optimisation Stochastique en Ingénierie
Pas encore d'évaluation
Optimisation Stochastique en Ingénierie
32 pages
E. Pardoux 493
Pas encore d'évaluation
E. Pardoux 493
334 pages
Sigaux Aleatoire
Pas encore d'évaluation
Sigaux Aleatoire
94 pages
Cours d'Analyse Numérique - Licence Maths
Pas encore d'évaluation
Cours d'Analyse Numérique - Licence Maths
249 pages
Techniques Protéiques pour M1 Biochimie
Pas encore d'évaluation
Techniques Protéiques pour M1 Biochimie
37 pages
Étude du Magnétisme et Applications Physiques
Pas encore d'évaluation
Étude du Magnétisme et Applications Physiques
6 pages
Dérivabilité - Wikipédia
Pas encore d'évaluation
Dérivabilité - Wikipédia
27 pages
Les Phénomènes D'instabilité Élastique
Pas encore d'évaluation
Les Phénomènes D'instabilité Élastique
41 pages
Chap2 Diodes
Pas encore d'évaluation
Chap2 Diodes
14 pages
Bio Méta
Pas encore d'évaluation
Bio Méta
2 pages
Diva11d Sfere FR
Pas encore d'évaluation
Diva11d Sfere FR
50 pages
Déverrouiller un RAR avec cRARk
Pas encore d'évaluation
Déverrouiller un RAR avec cRARk
1 page
Cours de Trigonometry Plane et Applications
Pas encore d'évaluation
Cours de Trigonometry Plane et Applications
193 pages
Isoméries : Types et Représentations
Pas encore d'évaluation
Isoméries : Types et Représentations
11 pages
Section Efficace Et Loi D'atténuation - VF
Pas encore d'évaluation
Section Efficace Et Loi D'atténuation - VF
40 pages
TD1 Effets de La Précontrainte Sur Une Structure
Pas encore d'évaluation
TD1 Effets de La Précontrainte Sur Une Structure
2 pages
Ait Chekdhidh Nacer
Pas encore d'évaluation
Ait Chekdhidh Nacer
150 pages
Cours Energie Et Rendement 3eme
Pas encore d'évaluation
Cours Energie Et Rendement 3eme
3 pages
TP1 Ajustage
Pas encore d'évaluation
TP1 Ajustage
28 pages
Concours Mathématiques II PSI 2005 Maroc
Pas encore d'évaluation
Concours Mathématiques II PSI 2005 Maroc
4 pages
Moteurs Le Guide Du Hors Bord
100% (1)
Moteurs Le Guide Du Hors Bord
12 pages
Ennajih Zahira
Pas encore d'évaluation
Ennajih Zahira
11 pages
Genie Logiciel
Pas encore d'évaluation
Genie Logiciel
22 pages
Topographie Et Cartog
Pas encore d'évaluation
Topographie Et Cartog
14 pages
Corrigé Sujet 3
Pas encore d'évaluation
Corrigé Sujet 3
2 pages
Calculs de puissance triphasée 400V
Pas encore d'évaluation
Calculs de puissance triphasée 400V
33 pages
5 Iemee
Pas encore d'évaluation
5 Iemee
2 pages
TD Biochimie Des Macromolecules - 2023-2024
Pas encore d'évaluation
TD Biochimie Des Macromolecules - 2023-2024
10 pages
Épreuve Mathématique 1ère C
Pas encore d'évaluation
Épreuve Mathématique 1ère C
2 pages
Exo7 - Cours Et Exercices de Mathématiques - Première Année
Pas encore d'évaluation
Exo7 - Cours Et Exercices de Mathématiques - Première Année
5 pages
Un Corrigé Des Exercices D'entraînement
Pas encore d'évaluation
Un Corrigé Des Exercices D'entraînement
4 pages
Nombres Complexes et Suites
Pas encore d'évaluation
Nombres Complexes et Suites
9 pages
Exercice Regression Multiple
Pas encore d'évaluation
Exercice Regression Multiple
1 page
Contrôle Continu Technologie Brasserie Bloc Froid
Pas encore d'évaluation
Contrôle Continu Technologie Brasserie Bloc Froid
13 pages