0% ont trouvé ce document utile (0 vote)
53 vues95 pages

Polycopie Partie 2

Le document présente un cours de Master 1 en Mathématiques et Applications, axé sur les statistiques bayésiennes. Il couvre des sujets tels que les outils de probabilité, les approches statistiques, et la simulation de lois a posteriori. Le contenu est structuré en chapitres détaillant les concepts fondamentaux et les méthodes statistiques associées.

Transféré par

Yavo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
53 vues95 pages

Polycopie Partie 2

Le document présente un cours de Master 1 en Mathématiques et Applications, axé sur les statistiques bayésiennes. Il couvre des sujets tels que les outils de probabilité, les approches statistiques, et la simulation de lois a posteriori. Le contenu est structuré en chapitres détaillant les concepts fondamentaux et les méthodes statistiques associées.

Transféré par

Yavo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Master 1 Mathématiques et Applications

Sorbonne Université
2024-2025

Statistiques bayésiennes

Anna Ben-Hamou
Table des matières

CHAPITRE 0. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1. Outils de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1. Espace probabilisé, variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Lois à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Lois produits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5. Lois Beta, Gamma, Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6. Inégalités classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.7. Convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Outils de statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1. Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Estimateur, consistance, normalité asymptotique . . . . . . . . . . . . . . . . . . . 13
2.3. Le risque quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4. Intervalles et régions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5. Vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3. Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1. Le cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2. Le cas à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3. Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4. Approches statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1. Approche fréquentiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2. Approche bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
CHAPITRE 1. L’approche bayésienne . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 27
1. Le cadre bayésien . . . . . . . . . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 27
2. Aspects de la loi a posteriori . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 32
3. Le choix de la loi a priori . . . . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 33
3.1. Principes généraux . . . . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 33
3.2. Conjugaison . . . . . . . . . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 34
4. Régions de crédibilité . . . . . . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 38
4.1. Construction via des quantiles a posteriori . . . . . . . . . . . . . . . . . . . . . . . 38
4.2. Régions de plus haute densité . . ........ . . . . . . . . . . . . . . . . . . . . . . . 39
CHAPITRE 2. Simulation de la loi a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1. Simulation de lois gentilles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.1. Méthode de la transformée inverse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.2. Méthode de rejet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2. Méthodes de Monte-Carlo pour le calcul d’intégrales . . . . . . . . . . . . . . . . . . . . 45
2.1. Monte-Carlo standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1
2 Table des matières

2.2. Monte-Carlo par Importance Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . 46


2.3. Application : estimation de la moyenne a posteriori . . . . . . . . . . . . . . . . . 48
CHAPITRE 3. Bayésien et théorie de la décision . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1. Risque ponctuel, risque bayésien, risque maximal . . . . . . . . . . . . . . . . . . . . . . . 49
1.1. Fonction de risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.2. Risque bayésien et estimateurs de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.3. Risque maximal et estimateurs minimax . . . . . . . . . . . . . . . . . . . . . . . . . 52
2. Construction d’estimateurs de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.1. Bayes et fonction de perte quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.2. Bayes et fonction de perte en valeur absolue . . . . . . . . . . . . . . . . . . . . . . 56
3. Relation entre critères de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.1. Une inégalité très simple et très utile . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2. Minimaxité : conditions suffisantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4. Minorations du risque minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.1. La borne de Le Cam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2. Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
CHAPITRE 4. Les tests bayésiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1. Tests de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2. Tests bayésiens et apprentissage statistique (∗) . . . . . . . . . . . . . . . . . . . . . . . . 69
CHAPITRE 5. Convergence de lois a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1. Consistance de lois a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
1.1. Consistance dans le modèle gaussien avec a priori gaussien . . . . . . . . . . . . 76
1.2. Consistance dans le cadre où Θ est fini . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2. Vitesses de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3. Forme limite et théorème de Bernstein–von Mises . . . . . . . . . . . . . . . . . . . . . . 79
4. Confiance asymptotique des régions de crédibilité . . . . . . . . . . . . . . . . . . . . . . 82
5. Analyse asymptotique des tests bayésiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
CHAPITRE 6. Simulation de la loi a posteriori (bis) : les méthodes MCMC . . . . . . . 85
1. Un bref aperçu sur les chaı̂nes de Markov . . . . . ................ . . . . . . . 85
2. Algorithmes MCMC . . . . . . . . . . . . . . . . . . . . ................ . . . . . . . 90
2.1. L’algorithme de Metropolis-Hastings . . . . . ................ . . . . . . . 90
2.2. L’algorithme de Gibbs . . . . . . . . . . . . . . ................ . . . . . . . 92
2.2.1. Gibbs avec balayage aléatoire . . . . ................ . . . . . . . 92
2.2.2. Gibbs avec balayage déterministe . ................ . . . . . . . 92
Chapitre 0

Introduction

Dans ce chapitre, nous introduisons les notions de base de probabilités et de


statistique utiles pour la suite, parmi lesquelles les notions d’espace probabilisé,
de variable aléatoire, de convergences de variables aléatoires, d’expérience
statistique, de modèle, d’estimateur et de régions de confiance. Enfin nous
définissons la notion de loi conditionnelle qui joue un rôle central dans la suite.

1. Outils de probabilité
1.1. Espace probabilisé, variable aléatoire.

Définition 0.1. Soit Ω un ensemble. Une tribu F sur Ω est un ensemble de parties de Ω tel
que
— F est non-vide ;
— F est stable par complémentaire ;
— F est stable par union dénombrable.
Le couple (Ω, F) est appelé espace mesurable.

Définition 0.2. Soit (Ω, F) un espace mesurable. Une mesure sur Ω est une application
µ : F → [0, +∞] telle que
— µ(∅) = 0 ;
— si (En )n≥1 est une suite de parties disjointes de Ω appartenant à F, alors
 
[ X
µ En  = µ(En ) .
n≥1 n≥1

Cette propriété s’appelle la σ-additivité.


Si de plus µ(Ω) = 1, on dit que µ est une mesure de probabilité.

Si µ est une mesure sur (Ω, F), le triplet (Ω, F, µ) est alors appelé espace mesuré. Si P est
une mesure de probabilité, le triplet (Ω, F, P) est appelé espace probabilisé ou encore espace
de probabilité.

Définition 0.3. Soit (Ω, F, P) un espace probabilisé et (E, E) un espace mesurable. Une
variable aléatoire X est une fonction mesurable de Ω dans E, i.e.
∀A ∈ E, X −1 (A) = {X ∈ A} = {ω ∈ Ω, X(ω) ∈ A} ∈ F.
3
4 0. INTRODUCTION

Définition 0.4. Si X est une variable aléatoire de (Ω, F, P) dans (E, E), on dit que X est
de loi Q, et l’on note X ∼ Q, si pour tout A ∈ E,
P(X ∈ A) = P(X −1 (A)) = Q(A).
Autrement dit, Q est la mesure image de P par X. De manière équivalente, cela signifie que
pour toute fonction ϕ intégrable par rapport à Q, soit ϕ ∈ L1 (Q),
Z Z
ϕ (X(ω)) dP(ω) = ϕ(x)dQ(x) = E[ϕ(X)].
Ω E

1.2. Lois à densité.

Définition 0.5. Soit (E, E, µ) un espace mesuré. La mesure µ est dite σ-finie s’il existe une
suite (En )n≥1 d’éléments de E de mesure finie (i.e. pour tout n ≥ 1, µ(En ) < ∞) telle que
[
E= En .
n≥1

Exercice 0.1. Montrer que la mesure de Lebesgue sur (R, B(R)) et la mesure de comptage
sur (N, P(N)) sont toutes les deux des mesures σ-finies.

Définition 0.6. Soient P et µ deux mesures σ-finies sur un espace mesurable (E, E). On
dit que P est absolument continue par rapport à µ, et l’on note P  µ, si
∀A ∈ E, µ(A) = 0 ⇒ P (A) = 0.

Proposition 0.1 (Théorème de Radon-Nikodym). Soient P et µ deux mesures σ-finies


sur un espace mesurable (E, E). Si P  µ, alors P a une densité par rapport à µ, c’est-à-dire
qu’il existe une fonction mesurable positive p telle que pour tout A ∈ E,
Z
P (A) = p(x)dµ(x).
A
dP
La fonction p est appelée dérivée de Radon-Nikodym de P par rapport à µ, et est notée p = dµ .
Cette notation se comprend bien :
Z Z Z
dP (x)
P (A) = dP (x) = dµ(x) = p(x)dµ(x).
A A dµ(x) A

Exemple 0.1. On rappelle que δx , la masse de Dirac en x, est la mesure positive définie,
pour tout A mesurable, par δx (A) = 1x∈A .
• Sur E = {0, 1}, la loi de Bernoulli Pθ = B(θ) admet une densité par rapport à la
mesure µ = δ0 + δ1 . En effet, pour tout A ⊂ {0, 1}, on peut écrire,
Pθ (A) = (1 − θ)δ0 (A) + θδ1 (A)
Z Z
= (1 − θ) δ0 (dx) + θ δ1 (dx)
A A
Z
= {(1 − θ)1x=0 + θ1x=1 } [δ0 + δ1 ](dx) .
A
1. OUTILS DE PROBABILITÉ 5

• Sur E = {0, P
1, . . . , n}, la loi binomiale Pθ = B(n, θ) admet une densité par rapport à la
mesure µ = ni=0 δi donnée par
k 7→ θk (1 − θ)n−k .
• Sur E = N∗ , la loi géométrique Pθ = G(θ) admet une densité par rapport à la mesure
de comptage sur N∗ , i≥1 δi , donnée par
P

k 7→ (1 − p)k−1 p .
• La loi normale N (µ, σ 2 ) admet une densité par rapport à la mesure de Lebesgue sur R,
donnée par
(x − µ)2
 
1
x 7→ √ exp − .
2πσ 2 2σ 2
• Sur E = R, la loi exponentielle Pθ = E(θ), θ > 0, admet une densité par rapport à la
mesure de Lebesgue sur R, donnée par
x 7→ θ e−θx 1x≥0 .

1.3. Lois produits. Soit P une mesure de probabilité sur (E, E) et Q une mesure de
probabilité sur (F, F). Alors la loi produit P ⊗ Q est la loi sur l’espace produit E × F muni
de la tribu produit qui vérifie
(P ⊗ Q)(A × B) = P (A) × Q(B),
pour tout A ∈ E et B ∈ F. Si P a une densité p par rapport à une mesure µ sur E et Q une
densité q par rapport à une mesure ν sur F , alors P ⊗ Q a pour densité p × q par rapport à
µ⊗ν
d(P ⊗ Q) = pqd(µ ⊗ ν) = pqdµdν.
Deux variables aléatoires X et Y sont indépendantes si et seulement si la loi du couple
(X, Y ) est le produit de la loi de X et de la loi de Y .

Exemple 0.2. La loi sur R2 dont la densité par rapport à la mesure produit Leb(R) ⊗ Leb(R)
est
1 − 1 (x2 +y2 )
e 2

est une loi produit. En effet, on reconnaı̂t le produit des densités de deux lois normales standards
N (0, 1). Donc cette loi est N (0, 1) ⊗ N (0, 1).

Plus généralement, on peut faire des produits de plusieurs lois, ou de n fois la même loi.
Ainsi, Q = P ⊗n est une mesure de probabilité sur l’espace produit E n . Si P a une densité p
par rapport à une mesure dominante µ sur E,Q soit dP = pdµ, alors P ⊗n a une densité sur
E n par rapport à µ⊗n , égale à q(x1 , . . . , xn ) = ni=1 p(xi ).

1.4. Vecteurs gaussiens.

Définition 0.7. Soit d ≥ 1 un entier. Un vecteur aléatoire X de Rd est dit gaussien si toute
combinaison linéaire de ses coordonnées est une variable gaussienne réelle. Un vecteur gaussien
est caractérisé par son vecteur d’espérances µ ∈ Rd et sa matrice de covariance Σ ∈ Md (R),
6 0. INTRODUCTION

symétrique et semi-définie positive. On note alors X ∼ N (µ, Σ). Si Σ est définie positive, alors
X possède une densité par rapport à la mesure de Lebesgue sur Rd donnée par
 
1 1t −1
x 7→ p exp − (x − µ)Σ (x − µ) .
(2π)d det(Σ) 2

Notons en particulier que si Σ est une matrice diagonale (et donc également Σ−1 ), la
densité de la loi N (µ, Σ) s’exprime comme un produit de densités coordonnée par coordonnée.
D’après ce qui précède, cela signifie que les coordonnées Xi de X sont indépendantes. Si en
revanche Σ n’est pas diagonale, Σ−1 non plus et la densité ne s’écrit pas comme un produit :
les coordonnées Xi sont corrélées. Si X = (X1 , . . . , Xd ) ∼ N (µ, Σ), on a Σi,j = Cov(Xi , Xj ).

1.5. Lois Beta, Gamma, Dirichlet.

Définition 0.8. Pour p > 0 et λ > 0, la loi Gamma Γ(p, λ) est la loi dont la densité par
rapport à la mesure de Lebesgue sur R est donnée par
λp p−1 −λx
x 7→ x e 1[0,+∞[ (x),
Γ(p)
où Z +∞
Γ(p) = z p−1 e−z dz .
0

Notons que la loi Γ(1, λ) correspond à la loi exponentielle Exp(λ).

Exercice 0.2. Soit Z ∼ Γ(p, λ). Montrer que


p p
EZ = et Var(Z) = ·
λ λ2

Définition 0.9. Pour a > 0 et b > 0, la loi Beta(a, b) est la loi dont la densité par rapport à
la mesure de Lebesgue sur R est donnée par
1
x 7→ xa−1 (1 − x)b−1 1[0,1] (x),
B(a, b)
où
Z 1
Γ(a)Γ(b)
B(a, b) = z a−1 (1 − z)b−1 dz = ·
0 Γ(a + b)

Notons que la loi Beta(1, 1) correspond à la loi uniforme sur [0, 1].

Exercice 0.3. Soit X ∼ Beta(a, b). Montrer que


a ab
EX = et Var(X) = ·
a+b (a + b)2 (a + b + 1)

Proposition 0.2 (Propriétés des lois Gamma et Beta).


1. OUTILS DE PROBABILITÉ 7

— Si Y ∼ Γ(p, λ) et Z ∼ Γ(q, λ) sont indépendantes, alors


Y + Z ∼ Γ(p + q, λ).
En particulier, si E1 , . . . , En sont des variables i.i.d. de loi Exp(λ), alors
n
X
Ei ∼ Γ(n, λ).
i=1
— Si Y ∼ Γ(p, λ) alors, pour t > 0,
 
λ
tY ∼ Γ p, .
t
— Si X ∼ Γ(a, λ) et Y ∼ Γ(b, λ) sont indépendantes, alors
X
∼ Beta(a, b).
X +Y
E1
Exercice 0.4. Montrer que si E1 ∼ Exp(λ) et E2 ∼ Exp(λ), alors la variable E1 +E2 est
uniformément distribuée sur [0, 1].

Définition 0.10. Soit K ≥ 2 un entier, et SK−1 le simplexe de dimension K − 1, i.e.


K−1
( )
X
SK−1 = z = (z1 , . . . , zK−1 ) ∈ RK−1 , z1 , . . . , zK−1 > 0, zi ≤ 1 .
i=1
Soient α1 , . . . αK > 0. La loi de Dirichlet de paramètre (α1 , . . . , αK ), notée Dir(α1 , . . . , αK ),
est la loi dont la densité par rapport à la mesure de Lebesgue sur RK−1 est donnée par
P 
K K
Γ α
i=1 i Y α −1
x = (x1 , . . . , xK−1 ) 7→ QK xi i 1{x∈SK−1 } ,
i=1 Γ(αi ) i=1
où xK = 1 − x1 − · · · − xK−1 .

Remarque 0.3. En fait, on dira souvent que c’est le vecteur X = (X1 , . . . , XK ), où XK =
1 − X1 − · · · − XK−1 , qui suit la loi Dir(α1 , . . . , αK ), mais il faut bien comprendre qu’il n’y a
que K − 1 degrés de liberté (pour la loi à K paramètres).

La loi de Dirichlet peut être vue comme une généralisation de la loi Beta au cas multi-
dimensionnel. On observe en particulier que pour K = 2, Dir(a, b) = Beta(a, b). La loi de
Dirichlet a pour support l’ensemble des vecteurs de taille K qui définissent une loi de probabilité
sur un ensemble à K éléments.

Proposition 0.3 (Propriétés de la loi de Dirichlet).

— Les lois marginales d’une loi de Dirichlet sont des lois Beta. Plus précisément, si
X = (X1 , . . . , XK ) ∼ Dir(α1 , . . . , αK ), alors pour i ∈ {1, . . . , K},
K
!
X
Xi ∼ Beta αi , αk − αi .
k=1
8 0. INTRODUCTION

En particulier,
αi
EXi = PK
k=1 αk
— Si Z1 ∼ Γ(α1 , λ), . . . , ZK ∼ Γ(αK , λ) sont indépendantes, alors, en notant Z =
Z1 + · · · + ZK , on a
 
Z1 ZK
,..., ∼ Dir(α1 , . . . , αK ).
Z Z

1.6. Inégalités classiques. On sera souvent amené à contrôler la probabilité qu’une


variable aléatoire soit plus grande qu’un certain seuil, ou bien qu’elle s’écarte de son espérance
de plus d’un certain seuil. Pour cela, deux inégalités seront utiles.

Proposition 0.4 (Inégalité de Markov). Soit X une variable aléatoire réelle positive et
a ∈ R∗+ . On a
EX
P(X ≥ a) ≤ .
a

En particulier, pour X une variable aléatoire réelle et p ∈ N∗ , comme la fonction x 7→ xp


est croissante sur R+ , on obtient
P(|X| ≥ a) = P(|X|p ≥ ap ) ≤ a−p E[|X|p ].
Un corollaire immédiat de l’inégalité de Markov est l’inégalité de Bienaymé-Tchebychev.

Proposition 0.5 (Inégalité de Bienaymé-Tchebychev). Soit X une variable aléatoire


réelle et a ∈ R∗+ . On a
Var(X)
P (|X − EX| ≥ a) ≤ ,
a2
où Var(X) = E[(X − EX)2 ].

Exemple 0.4.
P Soient X1 , . . . , Xn des variables aléatoires i.i.d. de loi de Bernoulli B(p) et
n
soit X n = n1 i=1 Xi . Comme EX n = p, on a, par l’inégalité de Bienaymé-Tchebychev, pour
tout ε > 0,
n
 Var(X n ) 1 X p(1 − p)
P Xn − p > ε ≤ 2
= 2 2 Var(Xi ) = ·
ε n ε nε2
i=1

Pour ε > 0 et p ∈ [0, 1] fixés, on obtient donc une probabilité qui décroı̂t en 1/n. On peut
obtenir une décroissance bien meilleure via l’inégalité ci-dessous.

Proposition 0.6 (Inégalité de Hoeffding). Soient X1 , . . . , Xn des variables aléatoires


indépendantes et bornées au sens où pour tout i = 1, . . . , n, il existe des réels ai ≤ bi tels que
ai ≤ Xi ≤ bi p.s. Alors, pour tout ε ≥ 0,
2ε2 n2
 

P X n − EX n ≥ ε ≤ exp − Pn 2
.
i=1 (bi − ai )
1. OUTILS DE PROBABILITÉ 9

Exemple 0.5. En reprenant l’exemple précédent, on peut prendre ai = 0 et bi = 1, et l’on


obtient par l’inégalité de Hoeffding
P X n − p > ε ≤ 2 exp −2ε2 n .
 

Pour ε > 0 et p ∈ [0, 1] fixés, on obtient donc une probabilité qui décroı̂t exponentiellement vite
en n, ce qui est bien plus rapide que la décroissance en 1/n obtenue via Bienaymé-Tchebychev.
P 1/2
d
1.7. Convergences. Pour x ∈ Rd , d ≥ 1, on note kxk = 2
i=1 xi la norme eucli-
dienne.

Définition 0.11. Soit X1 , . . . , Xn , . . . et X des variables aléatoires à valeurs dans Rd , d ≥ 1,


définies sur un même espace de probabilité (Ω, F, P). La suite (Xn ) converge en probabilité
P
vers X, ce que l’on note Xn −→ X, si
∀ ε > 0, P (kXn − Xk > ε) −→ 0.
n→∞

Définition 0.12. Soit X1 , . . . , Xn , . . . et X des variables aléatoires à valeurs dans Rd , d ≥ 1,


définies sur un même espace de probabilité (Ω, F, P). La suite (Xn ) converge dans L2 vers X,
L2
ce que l’on note Xn −→ X, si
E kXn − Xk2 −→ 0.
 
n→∞

Définition 0.13. Soit X1 , . . . , Xn , . . . et X des variables aléatoires à valeurs dans Rd , d ≥ 1,


définies sur un même espace de probabilité (Ω, F, P). La suite (Xn ) converge presque sûrement
p.s.
vers X, ce que l’on note Xn −→ X, si
n o
P ω ∈ Ω, Xn (ω) −→ X(ω) = 1.
n→∞

Proposition 0.7. On a
p.s. P
Xn −→ X ⇒ Xn −→ X,
et
L2 P
Xn −→ X ⇒ Xn −→ X,

Exercice 0.5. Démontrer la Proposition 0.7 (pour la deuxième implication, on pourra utiliser
l’inégalité de Bienaymé-Tchebychev).

Proposition 0.8 (Loi forte des grands nombres). Soit (Xn )n≥1 une suite de variables
i.i.d. à valeurs dans Rd , d ≥ 1, avec E[kX1 k] < ∞. Alors
n
1X p.s.
Xn = Xi −→ EX1 .
n
i=1

Définition 0.14. Soit (Xn )n≥1 et X des variables aléatoires quelconques à valeurs dans Rd .
L
On dit que Xn converge en loi vers X, ce que l’on note Xn −→ X, si pour toute fonction
10 0. INTRODUCTION

f : Rd → R continue bornée,
E[f (Xn )] −→ E[f (X)].
n→∞

De même, on dira que (Xn ) converge en loi vers une loi P si E[f (Xn )] −→ E[f (X)] pour
n→∞
X ∼ P , pour toute fonction f continue bornée.

On rappelle que pour A ⊂ Rd , la frontière de A est ∂A = A \ A.

L
Proposition 0.9. Xn −→ X dans Rd si et seulement si pour tout borélien A de Rd pour
lequel P(X ∈ ∂A) = 0, on a
P(Xn ∈ A) −→ P(X ∈ A).
n→∞

Remarque 0.6. Si la loi de X est à densité par rapport à la mesure de Lebesgue sur Rd ,
alors la condition P(X ∈ ∂A) = 0 est vérifiée pour tous les boréliens A de Rd . Par exemple, si
L
Zn −→ N (0, 1), alors pour tout intervalle I de R,

P(Zn ∈ I) −→ P(N (0, 1) ∈ I).


n→∞

Notons aussi que si les variable Xn et X sont à valeurs dans R, de fonctions de répartition
respectives Fn et F , alors la convergence en loi est équivalente à la convergence simple des
L
fonctions de répartitions en tout point de continuité de F : Xn −→ X si et seulement si pour
tout x ∈ R tel que F est continue en x, on a

Fn (x) −→ F (x).
n→∞

Proposition 0.10 (TCL dans Rd ). Soit (Xn )une suite de variables aléatoires i.i.d. dans
d 2 T

R , avec E[kX1 k ] < ∞. Soit µ = EX1 et Σ = E (X1 − E[X1 ])(X1 − E[X1 ]) . Alors
√ L
n(X n − µ) −→ N (0, Σ),

où la N (0, Σ) est la loi gaussienne centrée sur Rd de matrice de covariance Σ.

Proposition 0.11 (Théorème de l’image continue). Soient Xn , X des variables aléatoires


L
à valeurs dans Rd . Soit g : Rd → Rk une fonction continue. Alors Xn −→ X implique
L P P p.s.
g(Xn ) −→ g(X). De même, Xn −→ X implique g(Xn ) −→ g(X) et Xn −→ X implique
p.s.
g(Xn ) −→ g(X).

Proposition 0.12 (Lemme de Slutsky). Soient Xn , Yn des suites de variables aléatoires


L P
réelles, X une variable aléatoire réelle, et a ∈ R. Si Xn −→ X et Yn −→ a, alors
L
(Xn , Yn ) −→ (X, a).

L P
Remarque 0.7. Pour a constante, Zn −→ a si et seulement si Zn −→ a.
2. OUTILS DE STATISTIQUES 11

2. Outils de statistiques
L’objet de départ en statistique est une suite d’observations, appelée données, typiquement
sous la forme d’une suite numérique x1 , . . . , xn . La modélisation statistique consiste à écrire
xi = Xi (ω) : les données sont vues comme des réalisations de variables aléatoires X1 , . . . , Xn ,
dont la loi est inconnue.

2.1. Modèles statistiques.

Définition 0.15. Une expérience statistique est la donnée de


— une variable aléatoire X définie sur un espace probabilisé (Ω, F, P), à valeurs dans un
espace mesurable (E, E).
— une famille de mesures de probabilité sur (E, E) appelée modèle
P = {Pθ , θ ∈ Θ},
où Θ est un ensemble appelé espace des paramètres.

Dans l’approche fréquentiste, on suppose que la loi de X appartient au modèle, c’est-à-dire


qu’il existe θ ∈ Θ tel que X est de loi Pθ . L’inférence statistique consiste à chercher à estimer
θ à partir d’une réalisation de la variable aléatoire X. Souvent, X consiste en un n-uplet
X = (X1 , . . . , Xn ). Dans ce cas, l’espace (E, E) et le modèle P dépendent de n (attention,
cette dépendance en n ne sera pas toujours explicitée dans les notations).

Modèle du n-échantillon. Lorsque X = (X1 , . . . , Xn ), on prendra souvent un modèle de la


forme
Pn = Pθ⊗n , θ ∈ Θ ,


où Pθ⊗n = Pθ ⊗ · · · ⊗ Pθ . Autrement dit, les variables X1 , . . . , Xn sont indépendantes et


identiquement distribuées (en abrégé i.i.d.) selon la loi Pθ .

Si X ∼ Pθ⊗n , on notera parfois (de manière abusive) Pθ (X ∈ A) au lieu de P(X ∈ A),


pour bien mettre en valeur le fait qu’il s’agit de la probabilité de l’événement {X ∈ A} quand
X ∼ Pθ⊗n . De même, pour ϕ : E → R mesurable, on notera Eθ ϕ(X) au lieu de Eϕ(X).

Définition 0.16. Un modèle statistique P = {Pθ , θ ∈ Θ} est identifiable si pour tous


θ, θ0 ∈ Θ,
Pθ = Pθ 0 ⇒ θ = θ0 .
Autrement dit, la fonction θ 7→ Pθ est injective.

L’identifiabilité d’un modèle implique que pour une loi donnée Q dans P, il y a un unique
paramètre θ tel que Q = Pθ . C’est une propriété très importante, qui assure que le modèle est
bien paramétré.

Définition 0.17. Un modèle statistique P = {Pθ , θ ∈ Θ} est dominé s’il existe une mesure
σ-finie µ sur E telle que, pour tout θ ∈ Θ, Pθ  µ. Toutes les lois Pθ admettent alors une
densité pθ par rapport à µ, soit
dPθ (x) = pθ (x)dµ(x).
12 0. INTRODUCTION

Dans la suite, nous travaillerons toujours avec des modèles dominés, et paramétriques au
sens où Θ ⊂ Rd .

Exemples de modèles

Voici quelques modèles statistiques classiques, décrits par les lois Pθ correspondantes.
• Le modèle des lois de Bernoulli (tirage à pile ou face) :
P = {B(θ), θ ∈ [0, 1]} ,
où B(θ) est la loi de Bernoulli de paramètre θ. C’est la loi discrète définie par :
P(X = 1) = θ, P(X = 0) = 1 − θ,
ce que l’on note aussi B(θ) = (1 − θ)δ0 + θδ1 , où δa est la mesure de Dirac en a ∈ R.
C’est un modèle dominé par µ = δ0 + δ1 , de densité pθ (x) = (1 − θ)1x=0 + θ1x=1 . Le
modèle est identifiable. Une façon de le voir est de remarquer que si Pθ = Pθ0 , alors
Eθ X = Eθ0 X (si deux lois sont égales, tous leurs moments sont égaux). Or Eθ = θ.
Donc θ = θ0 .
• Le modèle gaussien :
P = {N (θ, 1), θ ∈ R} .
C’est un modèle dominé par µ la mesure de Lebesgue sur R : dPθ (x) = pθ (x)dx avec
1 (x−θ)2
pθ (x) = √ e− 2 .

Il s’agit aussi d’un modèle identifiable. En effet, par le même argument que pour le
modèle des lois de Bernoulli, on peut remarquer que si Pθ = Pθ0 , alors Eθ X = θ =
Eθ0 X = θ0 . On peut aussi utiliser le fait que si deux lois à densité par rapport à µ
sont égales, alors leurs densités sont égales µ-presque partout. Or θ 6= θ0 implique que
pθ (x) 6= pθ0 (x) pour tout x ∈ R. Ainsi Pθ 6= Pθ0 , donc le modèle est identifiable.
• Le modèle gaussien avec moyenne et variance inconnues :
P = N (µ, σ 2 ), (µ, σ 2 ) ∈ R × R∗+ .


Le paramètre du modèle est θ = (µ, σ 2 ) et l’espace des paramètres est Θ = R × R∗+ .


(Montrer qu’il s’agit d’un modèle identifiable.)
• Le modèle gaussien en dimension d ≥ 1. Il s’agit de l’ensemble des lois N (µ, Σ) avec
µ ∈ Rd réels et Σ une matrice d × d symétrique semi-définie positive.
• Les modèles de translation et changement d’échelle. Il s’agit de la famille de lois de
X = σY + µ, avec σ > 0, µ ∈ R,
pour Y une variable aléatoire réelle de densité f fixée connue. (Montrer que la densité
d’une telle variable X est σ −1 f ( ·−µ
σ ).)
• Le modèle des lois gamma Γ(p, λ) avec p > 0 fixé :
P = Γ(p, λ), λ ∈ R∗+ .


• Le modèle des lois de Poisson :


P = {P(θ), θ > 0} ,
2. OUTILS DE STATISTIQUES 13

où P(θ) est la loi de Poisson de paramètre θ, définie par

e−θ θk
∀k ∈ N, P(X = k) = ·
k!
• Le modèle  non-lisse  des lois uniformes est

P = Unif[0, θ], θ ∈ R∗+




avec pour densité fθ (x) = θ−1 1[0,θ] (x) par rapport à la mesure de Lebesgue sur R.

2.2. Estimateur, consistance, normalité asymptotique.

Définition 0.18. Dans une expérience statistique (X, P), où X est à valeurs dans (E, E),
et P = {Pθ , θ ∈ Θ} est une famille de lois sur E, un estimateur θb = θ(X)b est une fonction
mesurable de X, à valeurs dans l’espace des paramètres Θ (plus précisément, la fonction θb est
mesurable de (E, E) dans (Θ, B(Θ)) où B(Θ) est la tribu des boréliens).

En pratique, nous disposerons d’une suite d’expériences statistiques X(n) , Pn , indicée



par n la taille de l’échantillon. Cela nous conduira donc à construire des suites d’estimateurs
θbn . Lorsqu’il n’y aura pas d’ambiguı̈té, cette dépendance en n sera cependant souvent omise
des notations.

Exemple 0.8. Dans le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R}, si l’on dispose d’observa-
1 Pn
tions X = (X1 , . . . , Xn ), alors θbn (X) = X n = n i=1 Xi et θen (X) = 1 sont tous les deux des
estimateurs de θ.

Définition 0.19. Dans une suite d’expériences statistiques (X(n) , Pn ) avec Pn = {Pθ⊗n , θ ∈
Θ}, la suite d’estimateurs θbn est dite consistante si, pour tout θ ∈ Θ, quand X(n) ∼ Pθ⊗n ,

θbn (X(n) ) −→ θ.
P

Définition 0.20. Dans une suite d’expériences statistiques (X(n) , Pn ) avec Pn = {Pθ⊗n , θ ∈
Θ}, la suite d’estimateurs θbn est dite asymptotiquement normale si pour tout θ ∈ Θ, il existe
une matrice Σθ symétrique définie positive, telle que, quand X(n) ∼ Pθ⊗n ,
√  
L
n θbn (X(n) ) − θ −→ N (0, Σθ ).

Par abus de langage, on dira souvent que l’estimateur θbn est consistant ou asymptotiquement
normal pour dire que la suite d’estimateurs est consistante ou asymptotiquement normale.

Exercice 0.6. Montrer que si θbn est asymptotiquement normal, alors θbn est consistant.

2.3. Le risque quadratique. Nous introduisons maintenant une notion de risque qui
sera précisée dans la suite du cours.
14 0. INTRODUCTION

Définition 0.21. Le risque quadratique d’un estimateur θb est la fonction θ 7→ R(θ, θ)


b définie
sur Θ par
h i Z
2 b − θk2 dPθ (x).
R(θ, θ) = Eθ kθ(X) − θk =
b b kθ(x)
E
Lorsque Θ ⊂ R, le risque quadratique s’écrit
 2  Z
R(θ, θ) = Eθ θ(X) − θ
b b b − θ)2 dPθ (x).
= (θ(x)
E

Typiquement, un  bon  estimateur est un estimateur qui a un petit risque quadratique. Il


ne faut cependant pas oublier que le risque quadratique est une fonction définie sur l’ensemble
Θ : le risque quadratique peut être petit pour certaines valeurs de θ, grand pour d’autres.

Exemple 0.9. Considérons l’expérience (X, P) avec P = {B(θ)⊗n , θ ∈ [0, 1]}, i.e. X =
(X1 , . . . , Xn ) est une suite i.i.d. de variables de Bernoulli de paramètre θ. Un estimateur
naturel est la moyenne empirique
n
1X
θbn (X) = X n = Xi .
n
i=1

Notons d’abord que cet estimateur est consistant (loi des grands nombres), et asymptotiquement
normal (TCL). Cherchons à calculer son risque quadratique. Soit θ ∈ [0, 1] et X ∼ Pθ⊗n . En
remarquant que Eθbn (X) = θ, on a
h i   θ(1 − θ)
R(θ, θbn ) = E (θbn (X) − θ)2 = Var θbn (X) = ·
n
On remarque ainsi que le risque est minimal pour θ = 0 et θ = 1. Cela est naturel puisque dans
ces deux cas, il n’y a pas d’aléatoire : presque sûrement, on n’observe soit que des piles, soit
que des faces et l’estimateur θbn (X) ne peut pas se tromper. Le risque quadratique est maximal
en θ = 1/2. On s’intéresse bien sûr aussi à la manière dont le risque dépend de n, la taille de
l’échantillon. Ici, on voit que, pour tout θ ∈ Θ, le risque R(θ, θbn ) décroı̂t en 1/n.

Contrôler le risque quadratique permet notamment de contrôler la probabilité que l’esti-


mateur θ(X)
b soit  loin  de θ. En effet, par l’inégalité de Markov, on a, pour tout ε > 0,
  E [(θ(X)
θ
b − θ)2 ] R(θ, θ)
b
Pθ |θ(X)
b − θ| ≥ ε ≤ = .
ε2 ε2
Ainsi, un risque quadratique petit implique qu’avec grande probabilité, |θb − θ| est  petit .

Proposition 0.13 (Décomposition biais-variance). Soit (X, P) une expérience statistique


avec P = {Pθ , θ ∈ Θ} et soit θ(X)
b un estimateur. Alors, pour tout θ ∈ Θ, si X ∼ Pθ ,
 i 2
h 2
R(θ, θ) = E θ(X) − E θ(X)
b b b + Eθ(X)
b −θ .

La fonction θ 7→ Eθ(X)
b − θ s’appelle le biais de θ.
b
2. OUTILS DE STATISTIQUES 15

A noter que lorsque Θ ⊂ R, le risque quadratique s’écrit comme la somme de la variance


et du biais au carré, i.e.
   2
R(θ, θ)
b = Varθ θ(X)
b + Eθ(X)
b −θ .

Démonstration. Soit θ ∈ Θ et X ∼ Pθ . On peut toujours décomposer


θ(X)
b − θ = θ(X)
b − Eθ(X)
b + Eθ(X)
b − θ.
En prenant la norme au carré puis l’espérance, et en utilisant la linéarité de l’espérance, on
obtient
   
2 2 2 hD Ei
E θ(X)
b −θ = E θ(X)
b − Eθ(X)
b + Eθ(X)
b − θ + 2E θ(X) b − Eθ(X),
b Eθ(X)
b −θ
 
2 2
= E θ(X) − Eθ(X)
b b + Eθ(X)
b −θ .

En effet, l’espérance du produit scalaire est nulle car le terme de biais Eθ(X)−θ
b est déterministe
et par linéarité
hD Ei D h i E
E θ(X)b − Eθ(X),
b Eθ(X)
b − θ = E θ(X) b − Eθ(X)
b , Eθ(X)
b − θ = 0.


Exemple 0.10. Soient X1 , . . . , Xn i.i.d. N (θ, 1), pour θ ∈ R.


• Considérons l’estimateur constant θen = θ0 pour un certain θ0 ∈ R fixé. On a

R(θ, θen ) = E(θ − θ0 )2 = (θ − θ0 )2 .


Le risque est imbattable si θ = θ0 puisqu’il est nul, mais dès que θ 6= θ0 il est
strictement positif et ne décroı̂t pas avec la taille de l’échantillon (pire, il explose
pour θ → ±∞).
• Considérons maintenant l’estimateur θbn (X) = X n = n1 ni=1 Xi . On remarque d’abord
P

que cet estimateur est sans biais : pour tout θ ∈ R, si X ∼ N (θ, 1)⊗n , alors EX n = θ.
Ainsi
n n
1 X  1 X 1 1
R(θ, θn ) = Var(θn (X)) = 2 Var
b b Xi = 2 Var(Xi ) = Var(X1 ) = ,
n n n n
i=1 i=1
en utilisant que pour des variables indépendantes, la variance de la somme est la
somme des variances. Le risque de θbn ne dépend par de θ et tend vers 0 à vitesse 1/n
quand n → ∞.

Exercice 0.7. Soit X ∼ B(n, θ), la loi binomiale de paramètres n ∈ N∗ , P


et θ ∈ [0, 1] (on
n
suppose n connu, seul θ est inconnu). On rappelle que X a la même loi que i=1 εi où les εi
sont i.i.d. de loi de Bernoulli B(θ). Pour θb = X/n,
(1) écrire la décomposition biais-variance.
(2) montrer que pour tout θ ∈ [0, 1], R(θ, θ)b ≤ 1/(4n).
16 0. INTRODUCTION

2.4. Intervalles et régions de confiance.

Définition 0.22. Soit α ∈]0, 1[.


— Cas Θ ⊂ R. Un intervalle de confiance de niveau (au moins) 1 − α est un intervalle
aléatoire I(X) = [a(X), b(X)] où a(X), b(X) sont des statistiques à valeurs dans R
vérifiant
∀ θ ∈ Θ, Pθ (θ ∈ I(X)) ≥ 1 − α.
— Cas Θ ⊂ Rd . Une région de confiance de niveau (au moins) 1 − α est un sous-ensemble
aléatoire R(X) ⊂ Θ vérifiant
∀ θ ∈ Θ, Pθ (θ ∈ R(X)) ≥ 1 − α.

On remarquera que Θ lui-même est toujours une région de confiance, de niveau de confiance
égal à 1. Cependant, on souhaite en général trouver une région la plus petite possible telle que
le niveau de confiance reste au moins de 1 − α.

Pour construire un intervalle de confiance à partir d’un estimateur θ(X),


b on peut chercher
à contrôler la probabilité de déviation de θ(X) par rapport à θ. Comme vu précédemment,
b
par l’inégalité de Markov, on a, pour tout ε > 0,
  R(θ, b θ)
Pθ |θ(X)
b − θ| > ε ≤ .
ε2

Exemple 0.11. Modèle de Bernoulli : on observe X = (X1 , . . . , Xn ) i.i.d. de loi B(θ),


θ ∈ [0, 1]. On pose θ(X)
b b θ) ≤ 1 , donc pour tout
= X n . D’après l’exercice ci-dessus, R(θ, 4n
ε > 0,
  1
Pθ |θ(X)
b − θ| > ε ≤
4nε2
soit aussi, en prenant l’événement complémentaire,
  1
Pθ θ ∈ [θ(X)
b − ε, θ(X)
b + ε] ≥ 1 − ·
4nε2
Pour obtenir un intervalle √ de confiance de niveau 1 − α, il suffit de choisir ε de sorte que
α = 1/(4nε2 ), soit ε = 1/ 4nα. On a donc obtenu que
   
1 1 1
I(X) = θ(X) − √
b , θ(X) + √
b = θ(X) ± √
b
4nα 4nα 4nα
est un intervalle de confiance de niveau au moins 1 − α.

L’intervalle I(X) ne peut bien sûr pas dépendre de θ que l’on ne connaı̂t pas. Il ne doit
dépendre que de quantités connues. Par exemple de α, la probabilité d’erreur recherchée, ou
de n, la taille de l’échantillon, ou bien sûr de X, les données observées. Or en général, le risque
R(θ,b θ) dépend de θ et ne permet donc pas toujours de construire directement un intervalle
de confiance. Par exemple dans le modèle de Bernoulli ci-dessus, il vaut θ(1 − θ)/n. C’est
pourquoi on a dû le majorer pour obtenir une quantité indépendante de θ.

On peut aussi utiliser d’autres inégalités plus fines que celle de Markov, comme par exemple
l’inégalité de Hoeffding (voir TDs). On peut parfois aussi utiliser directement la loi de θb si elle
2. OUTILS DE STATISTIQUES 17

est connue (modulo bien sûr la connaissance de θ). Ceci n’est pas très fréquent, mais un cas
particulier est le modèle gaussien.

Exemple 0.12. Modèle gaussien : on observe X = (X1 , . . . , Xn ) i.i.d. de loi N (θ, 1), θ ∈ R.

On pose θ(X)
b = X n . On sait que X n ∼ N (θ, n1 ), soit n(X n − θ) ∼ N (0, 1). Ainsi, en notant
Φ la fonction de répartition d’une variable N (0, 1) et en utilisant la symétrie de la loi normale,
on a √ 
Pθ n|θ(X)
b − θ| > Φ−1 (1 − α/2) = α .
On a donc obtenu que
Φ−1 (1 − α/2)
 
I(X) = θ(X)
b ± √
n
est un intervalle de confiance de niveau (exactement) 1 − α.

Parfois, on ne connaı̂t pas la loi de θbn pour n fixé mais on connaı̂t sa loi limite quand
n → ∞. Cela permet de construire des intervalles de confiance dits asymptotiques.

Définition 0.23. Soit α > 0.


— Cas Θ ⊂ R. Un intervalle de confiance asymptotique de niveau (au moins) 1 − α est
un intervalle aléatoire I(X(n) ) vérifiant
 
∀ θ ∈ Θ, lim inf Pθ θ ∈ I(X(n) ) ≥ 1 − α.
n→∞

— Cas Θ ⊂ Rd . Une région de confiance asymptotique de niveau (au moins) 1 − α est un


sous-ensemble aléatoire R(X(n) ) ⊂ Θ vérifiant
 
∀ θ ∈ Θ, lim inf Pθ θ ∈ R(X(n) ) ≥ 1 − α.
n→∞

Exemple 0.13. Revenons à l’exemple du modèle de Bernoulli : X = (X1 , . . . , Xn ) i.i.d. de


loi B(θ), θ ∈ [0, 1] et θbn (X) = X n . D’après le TCL, on sait que
√ L
n(X n − θ) −→ N (0, θ(1 − θ)),
soit
√ b
n(θ − θ) L
p n −→ N (0, 1).
θ(1 − θ)
P
D’autre part, on sait par la loi des grands nombres que l’estimateur θbn est consistant : θbn −→ θ,
et par le théorème de l’image continue,
s
θ(1 − θ) P
−→ 1.
θn (1 − θn )
b b

Ainsi, par le lemme de Slutsky,


√ b s √ b
n(θn − θ) θ(1 − θ) n(θ − θ) L
q = p n −→ N (0, 1).
θbn (1 − θbn ) θn (1 − θn )
b b θ(1 − θ)
18 0. INTRODUCTION

On a donc, en notant qα = Φ−1 (1 − α/2),


√ 
n θbn − θ
Pθ  q ≤ qα  −→ 1 − α.
n→∞
θn (1 − θn )
b b

L’intervalle  q 
qα θbn (1 − θbn )
I(X) = θbn ± √ 
n
est donc un intervalle de confiance asymptotique de niveau 1 − α.

De façon plus générale, on a le résultat suivant.

Proposition 0.14. Supposons Θ ⊂ R et soit θbn = θbn (X) un estimateur asymptotiquement


normal, i.e.
√ L
n(θbn − θ) −→ N (0, σ 2 (θ)),
Supposons de plus que la fonction θ 7→ σ 2 (θ) est continue et notons qα = Φ−1 (1 − α/2) pour
α ∈]0, 1[. Alors
" #
q α σ( θ
bn (X)) q α σ(θbn (X))
I(X) = θbn (X) − √ , θbn (X) + √
n n
est un intervalle de confiance asymptotique de niveau exactement 1−α, c’est-à-dire un intervalle
tel que
lim inf Pθ (θ ∈ I(X)) = 1 − α.
n→∞

Démonstration. On constate que


√ b √
n(θn − θ) σ(θ) n(θbn − θ)
= .
σ(θbn ) σ(θbn ) σ(θ)

Comme θbn est asymptotiquement normal, il est consistant (voir exercice en Section 1), donc
P P
θbn −→ θ. Par image continue (Proposition 0.11), on en déduit que σ(θbn ) −→ σ(θ). Par
ailleurs, on sait que
√ b
n(θn − θ) L
−→ N (0, 1).
σ(θ)
Grâce au lemme de Slutsky (Proposition 0.12), on en déduit
√ b
n(θn − θ) L
−→ N (0, 1).
σ(θbn )
La proposition 0.9 permet d’en déduire
√ b !
n(θn − θ)
Pθ −qα ≤ ≤ qα −→ P (|N (0, 1)| ≤ qα ) = 1 − α,
σ(θbn ) n→∞

soit Pθ (θ ∈ I(X)) −→ 1 − α, ce qu’il fallait démontrer. 


n→∞
3. LOIS CONDITIONNELLES 19

2.5. Vraisemblance. Supposons le modèle dominé par rapport à une mesure dominante
µ, i.e. dPθ = pθ dµ, et soit X = (X1 , . . . , Xn ) ∼ Pθ⊗n . La densité du n-uplet X par rapport à
µ⊗n est donc pθ (x1 ) . . . pθ (xn ). Cette densité, vue comme une fonction de θ, et évaluée aux
points d’observation X1 , . . . , Xn , s’appelle vraisemblance.

Définition 0.24. Soit X = (X1 , . . . , Xn ) ∼ Pθ⊗n , avec θ ∈ Θ. La vraisemblance en X est la


fonction de Θ dans [0, 1] définie par
n
Y
θ 7→ Lθ (X) = pθ (Xi ).
i=1

On manipule généralement plus facilement la log-vraisemblance, définie par


n
X
θ 7→ `θ (X) = log(pθ (Xi )).
i=1

Définition 0.25. Dans un modèle dominé, un estimateur du maximum de vraisemblance


(EMV) est, sous réserve d’existence, un élément θ(X)
b de Θ qui vérifie

θ(X)
b ∈ arg max Lθ (X) ,
θ∈Θ

ou de manière équivalente
θ(X)
b ∈ arg max `θ (X) .
θ∈Θ

Exercice 0.8. Montrer que, dans le modèle de Bernoulli P = {B(θ)⊗n , θ ∈ [0, 1]}, l’EMV
est unique et est donné par θ(X)
b = X n.

3. Lois conditionnelles
On commence par rappeler que, pour A, B des événements avec P(B) > 0, la probabilité
de l’événement A sachant que l’événement B est réalisé est définie par

P(A ∩ B)
P[A B] = ·
P(B)

3.1. Le cas discret. Soient E et F deux ensembles dénombrables (on peut penser à
N pour fixer les idées), et soient X et Y deux variables aléatoires à valeurs dans E et F
respectivement.
On souhaite définir la loi conditionnelle de Y sachant X. Notons que, s’agissant de variables
discrètes, les lois de X et Y sont complètement définies par les données de P(X = e) et P(Y = f )
pour tous les éléments possibles e ∈ E et f ∈ F . Si, pour x ∈ E, Qx est la loi L(Y X = x)
que l’on cherche à définir, il suffit donc aussi de se donner Qx ({y}) pour tout y ∈ F . On définit
tout simplement ces quantités à l’aide de la formule ci-dessus pour la probabilité conditionnelle
d’un événement sachant un autre événement.
20 0. INTRODUCTION

Définition 0.26. Soit x ∈ E tel que P(X = x) > 0. La loi conditionnelle de Y sachant
{X = x}, i.e. P(Y ∈ · X = x), parfois notée L(Y X = x), est définie, pour tout y ∈ F , par
P(Y = y, X = x)
P(Y = y X = x) = ·
P(X = x)

Exemple 0.14. Soient Y, Z deux variables aléatoires indépendantes de lois Y ∼ B(1/2) et


Z ∼ B(1/2). On pose X = Y + Z. Quelle est la loi conditionnelle L(Y X = 1) ?
Notons déjà que X = 1 si et seulement Y = 1 et Z = 0, ou bien Y = 0 et Z = 1. En
utilisant la définition de la loi conditionnelle ainsi que l’indépendance de Y et Z,
P(X = 1, Y = 1) P(Z = 0, Y = 1)
P(Y = 1 X = 1) = =
P(X = 1) P(Y = 1, Z = 0) + P(Y = 0, Z = 1)
1 1
2 × 2 1
= 1 1 1 1 = .
2 × 2 + 2 × 2
2
Par ailleurs, comme Y ne prend que les valeurs 0 ou 1, on en déduit que P(Y = 0 X = 1) =
1 − P(Y = 1 X = 1) = 12 . Ainsi
1 1 1
L(Y X = 1) = B = δ0 + δ1 .
2 2 2

Exercice 0.9. En procédant de la même manière, montrer que


L(Y X = 0) = δ0 et L(Y X = 2) = δ1 .

Par extension, on définit la loi conditionnelle de Y sachant X, i.e. P(Y ∈ · X), parfois
notée L(Y X), comme la loi égale à L(Y X = x) si X = x. Dans l’exemple ci-dessus,

 δ0  si X = 0

L(Y X) = B 21 si X = 1


δ1 si X = 2,
ce qu’on peut aussi écrire de manière un peu plus compacte comme
 
X X
L(Y X) = 1 − δ0 + δ1 .
2 2
3.2. Le cas à densité. On se donne
— un espace E muni d’une tribu E et un espace F muni d’une tribu F ;
— une mesure α positive σ-finie sur (E, E) et une mesure β positive σ-finie sur (F, F) ;
— une variable aléatoire X sur E et une variable aléatoire Y sur F .
On suppose que le couple (X, Y ) admet une densité notée h(x, y) par rapport à α ⊗ β, ce que
l’on écrit aussi, si P désigne la loi du couple,
dP (x, y) = h(x, y)dα(x)dβ(y).

Proposition 0.15. Dans le cadre ci-dessus, la loi de X seule, appelée loi marginale de X,
est la loi de densité f donnée par
Z
f (x) = h(x, y)dβ(y).
F
3. LOIS CONDITIONNELLES 21

Démonstration. Pour toute fonction ϕ mesurable bornée, en utilisant le théorème de


Fubini,
Z
E[ϕ(X)] = ϕ(x)dP (x, y)
E×F
Z
= ϕ(x)h(x, y)d(α ⊗ β)(x, y)
E×F
Z Z  Z
= ϕ(x) h(x, y)dβ(y) dα(x) = ϕ(x)f (x)dα(x).
E F E

De même, R la loi marginale de Y est la loi dont la densité sur F par rapport à β est donnée
par g(y) = E h(x, y)dα(x). À partir de la loi du couple (X, Y ), on peut donc facilement
déduire les lois individuelles de X et Y . En revanche, la donnée des deux lois marginales ne
permet absolument pas de déterminer la loi du couple.

Dans le cas général de variables à densité, l’événement {X = x}, pour x ∈ E, peut être de
probabilité nulle. Par exemple, si X admet une densité f par rapport à la mesure de Lebesgue
sur E = R, alors P(X = x) = 0 pour tout x ∈ R. On ne peut donc pas conditionner par
rapport à cette événement. Cependant, si f (x) > 0, on peut définir ce qu’on appelle la densité
conditionnelle de Y sachant X = x.

Définition 0.27. Soit x ∈ E tel que f (x) > 0. La loi conditionnelle de Y sachant X = x,
notée L(Y X = x), est la loi dont la densité sur F par rapport à β est donnée par

h(x, y) h(x, y)
y 7→ gx (y) = =R ·
f (x) F h(x, y)dβ(y)

On notera parfois g(y x) au lieu deR gx (y). Notons que par définition, la fonction y 7→ g(y x)
est une densité par rapport à β, soit F g(y x)dβ(y) = 1.

Pour avoir une quantité définie pour tous les x de E, on peut étendre la définition de gx (y)
au cas où f (x) = 0 en posant le quotient ci-dessus égal à une valeur quelconque (par exemple
0) lorsque f (x) = 0. Ces points x n’auront typiquement pas d’incidence dans les calculs car
l’ensemble des x tels que f (x) = 0 est un ensemble de mesure nulle sous L(X) puisque
Z
1f (x)=0 f (x)dα(x) = 0 .
E

Exercice 0.10. Vérifier que le cas discret est un cas particulier de la formule ci-dessus,
pour lequel E et F P
sont dénombrables,
P et α, β sont les mesures de comptage sur E et F
respectivement, α = e∈E δe et β = f ∈F δf .

Comme dans le cas discret, on définit par extension la loi de Y sachant X comme la loi
égale à L(Y X = x) quand X = x. La densité conditionnelle de Y sachant X est définie
22 0. INTRODUCTION

comme la densité sur F par rapport à β donnée par


(
h(X,y)
f (X) si f (X) > 0,
gX (y) = g(y X) =
0 si f (X) = 0.

En fait, on écrira simplement gX (y) = h(X,y)


f (X) puisque f (X) > 0 presque sûrement. À partir
de la densité conditionnelle de Y X et de la densité marginale de X, on retrouve la densité
jointe du couple (X, Y ), puisque par définition h(x, y) = gx (y)f (x).

Exemple 0.15. Soit un couple (X, Y ) de variables aléatoires sur R+ × R+ de densité


h(x, y) = x e−x(y+1)
par rapport à la mesure de Lebesgue restreinte à R+ × R+ . Déterminons la loi conditionnelle
de Y sachant X. Il suffit de diviser la densité jointe h(x, y) par la densité marginale
Z ∞
f (x) = x e−x(y+1) dy = e−x .
0
Ainsi
x e−x(y+1)
gx (y) = = x e−xy
e−x
On reconnaı̂t la densité d’une loi exponentielle de paramètre x. Ainsi, L(Y X = x) = E(x) et
L(Y X) = E(X). Notons que la loi marginale de X a pour densité e−x , ainsi L(X) = E(1).

Exercice 0.11. Déterminer la densité de la loi marginale de Y et montrer que la loi condi-
tionnelle de X Y est une loi Gamma Γ(2, Y + 1).

Utilisation du symbole ∝=  proportionnel à . Une autre façon de faire pour déterminer


la densité conditionnelle y 7→ gx (y) est de remarquer qu’il s’agit de reconnaı̂tre dans l’ex-
pression h(x, y)/f (x) une densité en y. En ce sens f (x) est simplement une constante de
normalisation. De même, tout facteur ne dépendant pas de y dans h(x, y) peut se mettre en
facteur et intervient seulement dans la normalisation. On écrit ceci à l’aide du symbole ∝, qui
se lit  proportionnel à . En reprenant l’exemple précédent, on peut écrire
h(x, y)
gx (y) = ∝ h(x, y),
f (x)
et
h(x, y) = x e−x e−xy ∝ e−xy .
La densité de Y sachant X = x est donc proportionnelle à e−xy . Or la loi dont la densité
en y est proportionnelle à e−xy est bien la loi E(x), de densité y 7→ xe−xy . Cette méthode
évite de devoir calculer la densité marginale f (x). Dans cet exemple, ce calcul était facile
mais ce n’est pas toujours le cas, nous verrons d’autres exemples au prochain chapitre. Il faut
cependant faire attention quand on utilise ce symbole. En effet, nous aurons parfois affaire
à des fonctions dépendant de nombreuses variables, et il faut bien savoir quelles variables
on considère comme étant des constantes par rapport à la variable d’intérêt. C’est pourquoi
nous préciserons parfois la notation en écrivant gx (y) ∝y ϕ(x, y) (pour une certaine fonction
ϕ) pour bien signifier que l’on considère les fonctions y 7→ gx (y) et y 7→ ϕ(x, y), et que c’est
3. LOIS CONDITIONNELLES 23

tout ce qui ne dépend pas de y qui est considéré comme constant. Cela signifie que pour tout
x ∈ E, il existe c(x) tel que pour tout y ∈ F ,
gx (y) = c(x)ϕ(x, y).
Notons que comme la fonction y 7→ gx (y) est une densité sur F par rapport à β, la constante
c(x) est simple à retrouver après coup : on a nécessairement
1
c(x) = R ·
F ϕ(x, y)dβ(y)

3.3. Espérance conditionnelle. On rappelle l’abréviation g(y x) pour la densité de Y


sachant X = x.

Définition 0.28. Soit ϕ : F → R une fonction mesurable telle que Eϕ(Y ) < ∞. On définit
Z
E[ϕ(Y ) X] = ϕ(y)g(y X)dβ(y).
F

Proposition 0.16. Pour toute fonction ψ : E × F → R mesurable, telle que ψ(X, Y ) est
intégrable, on a
 
E[ψ(X, Y )] = E E[ψ(X, Y ) X]
Z Z
= ψ(x, y)g(y x)dβ(y)f (x)dα(x) .
E F

En particulier, si ψ(X, Y ) = ψ1 (X)ψ2 (Y ), avec ψ1 , ψ2 mesurables et telles que ψ1 (X),


ψ2 (Y ) et ψ1 (X)ψ2 (Y ) sont intégrables, on a
 
E [ψ1 (X)ψ2 (Y )] = E E[ψ2 (Y ) X]ψ1 (X) .

Démonstration. Par le théorème de Fubini, on a


Z
E[ψ(X, Y )] = ψ(x, y)h(x, y)d(α ⊗ β)(x, y)
E×F
Z Z
h(x, y)
= ψ(x, y) dβ(y)f (x)dα(x)
E F f (x)
Z Z 
= ψ(x, y)g(y x)dβ(y) f (x)dα(x)
E F
  
= E E ψ(X, Y ) X


Proposition 0.17. Dans le cadre précédent, soit (X, Y ) un couple de variables aléatoires à
valeurs dans E × F avec F = R, de densité h(x, y) par rapport à α ⊗ β. Supposons Y de carré
intégrable : E[Y 2 ] < ∞. Alors
E (Y − ϕ(X))2 = E (Y − E[Y X])2 .
   
inf
ϕ:E→R
E[ϕ(X)2 ]<∞
24 0. INTRODUCTION

Démonstration. On note que pour toute fonction ϕ : E → R telle que E[ϕ(X)2 ] < ∞,
E (Y − ϕ(X))2 = E (Y − E[Y X])2 + E (E[Y X] − ϕ(X))2 .
     

En effet, le double produit est nul puisque


     
E (Y − E[Y X])(E[Y X] − ϕ(X)) = E E Y − E[Y X] X (E[Y X] − ϕ(X)) = 0.
2 ] < ∞, on a E (Y − ϕ(X))2 ≥ E (Y − E[Y X])2 .
   
Ainsi, pour toute fonction ϕ telle que E[ϕ(X)
Pour conclure il suffit de montrer que E E[Y X]2 < ∞. Or, par l’inégalité de Jensen condi-
 
tionnelle,
E E[Y X]2 ≤ E E[Y 2 X] = E[Y 2 ] < ∞.
   


Énonçons enfin le résultat suivant, qui nous servira souvent.

Proposition 0.18. Soit (X, Y ) un couple de variables aléatoires à valeurs dans E × F , de


densité h(x, y) par rapport à α ⊗ β. Si la loi conditionnelle de Y sachant X ne dépend pas de
X (on notera cette loi Q), alors Y est de loi Q et les variables X et Y sont indépendantes.

Démonstration. Soit Z une variable de loi Q. Pour toute fonction ϕ : F → R mesurable


bornée, on a
  
E [ϕ(Y )] = E E ϕ(Y ) X = E [E [ϕ(Z)]] = E [ϕ(Z)] .
Ainsi Y est bien de loi Q. De plus, pour ψ : E → R une autre fonction mesurable bornée, on a
  
E [ψ(X)ϕ(Y )] = E ψ(X)E ϕ(Y ) X = E [ψ(X)E [ϕ(Z)]] = E [ψ(X)] E [ϕ(Y )] .
Les variables X et Y sont donc indépendantes. 

4. Approches statistiques
Nous introduisons les deux points de vue principaux, l’approche fréquentiste et l’approche
bayésienne. Ces deux approches ont le même point de départ : l’expérience statistique définie
plus haut, et en particulier le modèle P. La principale différence réside dans l’hypothèse que
l’on fait sur la loi suivie par les données X.

4.1. Approche fréquentiste. Dans l’approche fréquentiste, on suppose

∃ θ0 ∈ Θ, X ∼ P θ0
Typiquement, θ0 est inconnu et l’on cherche à l’estimer à l’aide des données X. Par
exemple, dans le modèle gaussien, X = (X1 , . . . , Xn ) et P = {N (θ, 1)⊗n , θ ∈ R}. L’approche
fréquentiste consiste à supposer qu’il existe θ0 ∈ R tel que
(X1 , . . . , Xn ) ∼ N (θ0 , 1)⊗n ,
c’est-à-dire que les données sont i.i.d. de loi commune N (θ0 , 1). On peut alors estimer θ0 par
la moyenne empirique X n . Ce choix se justifie par exemple par la loi des grands nombres qui
P
assure que X n −→ θ0 .
Les grandes questions dans le cadre fréquentiste sont celles abordées dans la Section 2 :
4. APPROCHES STATISTIQUES 25

(1) Estimation. Il s’agit de construire un estimateur θ(X)


b qui soit proche de la vraie
valeur θ0 du paramètre θ. Typiquement, on souhaite souvent qu’un estimateur soit
consistant, asymptotiquement normal, et que son risque quadratique tende vers 0
assez vite.
(2) Intervalles/régions de confiance. On cherche à construire un sous-ensemble
aléatoire R(X) de Θ tel que θ0 ∈ R(X) avec grande probabilité (sous Pθ0 ).
(3) Tests. On veut répondre par  vrai  ou  faux  à une propriété donnée de θ0 en
construisant un test ϕ(X) à valeurs dans {0, 1}.
Comme nous le verrons dans ce cours, ces questions peuvent aussi être posées dans le cadre
bayésien.

4.2. Approche bayésienne. Thomas Bayes (1702-1761) et Laplace (1749-1827) ont été
des pionniers de la méthodologie bayésienne. Dans cette approche, on modélise toutes les
quantités inconnues par des variables aléatoires.

Une intuition possible derrière cette approche est que plutôt que de modéliser des quantités
par des nombres, il peut être intéressant de les modéliser plutôt par des lois de probabilité.
Avant d’observer l’échantillon, nous avons une certaine connaissance a priori, ou une certaine
croyance, sur le paramètre (par exemple on sait qu’il est positif, ou bien on se doute qu’il est
proche de 0, ou bien on sait qu’il est contenu dans un certain intervalle). Cette connaissance
a priori est modélisée par une loi, la loi a priori, appelée aussi le prior. L’observation de
l’échantillon nous permet ensuite de mettre à jour cette loi en formant ce qu’on appelle la loi a
posteriori. L’objet central de l’approche bayésienne est ainsi une loi qui évolue avec la taille de
l’échantillon : on part d’une loi a priori, et la prise en compte de chaque nouvelle observation
fait évoluer cette loi : même si l’on part d’une certaine croyance a priori, l’observation du réel
nous amène à modifier nos croyances.

Par exemple, imaginons que l’on cherche à savoir quelle est la probabilité θ ∈ [0, 1] qu’une
certaine pièce de monnaie tombe sur pile. L’approche fréquentiste va essentiellement faire
appel à la loi des grands nombres et au théorème central limite : si on lance la pièce un grand
nombre n de fois, et que l’on observe une certaine fréquence X n de lancers donnant pile, alors
on peut raisonnablement penser que la valeur X n devient de plus en plus proche (quand n
grandit) de la vraie valeur de θ (loi des grands nombres), et qu’avec grande probabilité, la
vraie valeur de θ se trouve dans un certain intervalle centré en X n dont la taille est donnée par
des fluctuations gaussiennes (théorème central limite). L’approche bayésienne serait plutôt la
suivante : a priori, si l’on n’a effectué aucun lancer, on ne sait pas grand chose du paramètre,
mais l’on sait cependant qu’il appartient à l’intervalle [0, 1]. Si c’est là notre seule information
a priori sur θ, on peut commencer par dire que θ est distribué selon une loi uniforme sur [0, 1].
C’est notre loi a priori. Choisir une loi uniforme revient à ne privilégier aucune valeur de [0, 1]
par rapport aux autres (si l’on pense que la pièce n’est sûrement pas trop biaisée, on aurait
pu plutôt choisir une loi qui met plus de poids autour de 1/2). Ensuite on commence à lancer
la pièce. Les résultats des lancers vont permettre de mettre à jour la loi initiale. Par exemple,
si l’on observe bien plus de piles que de faces, on ne maintiendra pas notre a priori uniforme,
mais on mettra à jour notre connaissance en formant une loi a posteriori qui mettra plus de
poids au-dessus de 1/2 qu’en dessous.
26 0. INTRODUCTION

Dans l’approche bayésienne, on suppose donc que le paramètre inconnu θ du modèle est
lui-même aléatoire, de loi donnée par la loi a priori. Cette loi reflète notre connaissance préalable
(éventuelle) du paramètre. Ensuite, une fois des données X1 , . . . , Xn observées, on va mettre à
jour la loi a priori en utilisant l’information contenue dans les données. Formellement, cette
mise à jour se fait par une opération de conditionnement, ce que nous verrons au Chapitre 1.
On obtient alors une nouvelle loi, la loi a posteriori. Notons déjà que si l’on choisit comme
loi a priori une mesure de Dirac en un point, alors l’observation des données ne changera
rien. La loi a posteriori restera toujours cette même mesure de Dirac. Dans ce cas, on a une
connaissance certaine de la vraie valeur du paramètre et aucune donnée ne la modifiera. Ce
cas extrême n’a donc pas beaucoup d’intérêt d’un point de vue statistique : si l’on est sûr de
quelque chose, les statistiques ne servent à rien.

Figure 1. Densités a priori et a posteriori

Illustrons les idées ci-dessus dans le cadre du modèle gaussien {N (θ, 1)⊗n , θ ∈ R}, avec
pour loi a priori sur θ la loi N (0, 1). Nous verronsau Chapitre1 qu’après avoir observé n
n 1
données X1 , . . . , Xn , la loi a posteriori est Πn = N n+1 X n , n+1 . La Figure 1 représente la
densité de la loi a priori, et de la loi a posteriori Π3 , obtenue après observation des données
X1 , X2 , X3 .
Notons l’effet de la mise à jour sur l’espérance de la loi a posteriori : au départ, on avait
une loi a priori dont l’espérance était nulle. Puis l’observation des données a fait évoluer cette
1 n
espérance : au temps n, l’espérance de la loi a posteriori est n+1 × 0 + n+1 X n . Plus n grandit,
plus l’espérance se rapproche de X n . Mais il reste toujours un effet marginal de l’a priori :
l’espérance a posteriori s’écrit comme une moyenne pondérée entre l’espérance de la loi a
1
priori 0 (avec une pondération n+1 ) et la moyenne empirique de l’échantillon X n (avec une
n
pondération n+1 ). La connaissance a priori  s’efface  donc de plus en plus, au profit de ce
qui est observé. La mise à jour a aussi un effet sur la variance de la loi a posteriori qui ici
1
décroı̂t en n+1 : la loi a posteriori devient de plus en plus concentrée.
Chapitre 1

L’approche bayésienne

Nous définissons le cadre bayésien, avec les notions de lois a priori et a


posteriori. Nous expliquons comment calculer les densités a posteriori grâce
à la formule de Bayes. Puis nous traitons du problème du choix de la loi a
priori. Enfin, nous définissons certains aspects importants de la loi a posteriori
(moyenne, médiane, variance a posteriori), ainsi que la notion de régions de
crédibilité.

1. Le cadre bayésien
Le point de départ est toujours une expérience statistique : on se donne X un objet
aléatoire et P = {Pθ , θ ∈ Θ} un modèle statistique. On supposera ici Θ ⊂ Rd , pour d ≥ 1 fixé.

Le cadre bayésien consiste dans un premier temps à munir l’espace des paramètres Θ d’une
mesure de probabilité Π, appelée loi a priori. Ainsi le paramètre est une variable aléatoire θ,
de loi Π.

Remarque 1.1. Il ne faut pas confondre la variable aléatoire θ et les éléments θ ∈ Θ. Au


tableau, ce sera difficile de différencier ces deux notations mais dans ce polycopié, nous nous
efforcerons de bien utiliser la notation θ (en gras) lorsqu’il s’agit de la variable aléatoire.

On suppose toujours dans la suite que


→ les lois Pθ ont toutes une densité pθ par rapport à une même mesure σ-finie µ sur E
dPθ = pθ dµ
→ la loi Π a une densité π par rapport à une mesure positive σ-finie ν sur Θ
dΠ = πdν
L’étape suivante consiste à dire comment intervient X. Plus précisément, nous allons
spécifier la loi du couple (X, θ). Pour que les quantités qui suivent soient bien définies, nous
supposerons que l’application
E × Θ → R+
(1.1)
(x, θ) 7→ pθ (x)
est mesurable, où E × Θ est muni de la tribu produit E × B(Θ).

Proposition 1.1. Supposons l’application (1.1) mesurable. Alors la fonction


(θ, x) 7→ π(θ)pθ (x)
27
28 1. L’APPROCHE BAYÉSIENNE

est une densité de probabilité par rapport à ν ⊗ µ.

Démonstration. Grâce à (1.1), l’application (θ, x) 7→ π(θ)pθ (x) est mesurable comme
produit de fonctions mesurables, et positive par définition. Le théorème de Fubini donne alors
que
Z Z Z  Z
π(θ)pθ (x)d(ν ⊗ µ)(θ, x) = pθ (x)dµ(x) π(θ)dν(θ) = π(θ)dν(θ) = 1.
Θ×E Θ E Θ


Définition 1.1. Dans le cadre bayésien, on suppose l’application (1.1) mesurable et l’on
définit la loi L(θ, X) du couple (θ, X) comme la loi de densité (θ, x) 7→ π(θ)pθ (x) par rapport
à ν ⊗ µ. Autrement dit, la loi de θ et la loi conditionnelle L(X θ) sont données par
θ∼Π
(1.2)
X θ ∼ Pθ .

Vérifions que les lois de θ et de X θ sont bien celles données dans la définition. La densité
de θ s’obtient en intégrant la densité jointe
Z
∀θ ∈ Θ , π(θ)pθ (x)dµ(x) = π(θ),
E

donc θ ∼ Π. La densité de X θ s’obtient par la formule de la densité conditionnelle


π(θ)pθ (x)
∀x ∈ E , R = pθ (x),
E π(θ)pθ (x)dµ(x)

donc L(X θ) = Pθ comme annoncé.


La loi marginale de X s’obtient également par intégration de la densité jointe. C’est la loi
de densité f par rapport à µ donnée par
Z
f : x 7→ pθ (x)π(θ)dν(θ) .
Θ

Remarque 1.2. Attention ! Dans le cadre bayésien, la loi de X n’est donc pas Pθ , qui est la
loi de X sachant θ = θ.

Une fois défini le cadre, la façon bayésienne de construire un estimateur est de conditionner
l’information de départ, contenue dans la loi a priori, par l’observation, c’est-à-dire X. On
obtient ainsi la définition suivante.

Définition 1.2. La loi a posteriori est la loi conditionnelle L(θ X). C’est une loi sur Θ,
qui est notée Π[ · X].

Notons que sous l’hypothèse (1.1) que nous supposerons vérifiée dans la suite, il est
équivalent de se donner la loi jointe de (θ, X) ou les deux lois de θ et de X θ suivant (1.2).
Nous ferons donc simplement référence à (1.2) quand nous parlerons de formalisme ou de
cadre bayésien.
1. LE CADRE BAYÉSIEN 29

Theorème 1.2 (Formule de Bayes). La loi a posteriori L(θ X) a une densité par rapport
à ν donnée par
Z
pθ (X)π(θ)
∀θ ∈ Θ , π(θ X) = , où f (X) = π(θ)pθ (X)dν(θ) .
f (X) Θ

Démonstration. Il suffit de combiner la définition 1.1 et la formule de la densité condi-


tionnelle de la définition 0.27. 

Cas du modèle d’échantillonnage. Soit une expérience statistique d’échantillonnage où


X = (X1 , . . . , Xn ) et P = {Pθ⊗n , θ ∈ Θ}. Le formalisme bayésien s’écrit
θ∼Π
X1 , . . . , Xn θ ∼ Pθ⊗n .
La densité jointe de (θ, X) par rapport à ν ⊗ µ⊗n est donc la fonction
n
Y
(θ, x1 , . . . , xn ) 7→ π(θ) × pθ (x1 ) × · · · × pθ (xn ) = π(θ) pθ (xi ) .
i=1

La loi marginale de X = (X1 , . . . , Xn ) a elle pour densité


Z n
Y
f : (x1 , . . . , xn ) 7→ π(θ) pθ (xi )dν(θ).
Θ i=1

La formule de Bayes donne donc pour densité conditionnelle de θ sachant X


Qn
pθ (Xi )π(θ)
∀θ ∈ Θ , π(θ X) = π(θ X1 , . . . , Xn ) = i=1 ,
f (X1 , . . . , Xn )
où f (X1 , . . . , Xn ) = Θ π(θ) ni=1 pθ (Xi )dν(θ).
R Q
Interprétation. La densité a posteriori en tant que fonction de θ est proportionnelle à
" n #
Y
pθ (Xi ) π(θ).
i=1

Cette quantité est le produit de la vraisemblance (cf. Chapitre 0) et de la densité a priori. La


loi a posteriori peut donc s’interpréter comme une mise à jour de la loi a priori à l’aide des
données. C’est l’opération de conditionnement qui permet cette mise à jour.

Exemple 1.3 (L’exemple historique de Bayes). Thomas Bayes (dans son célèbre Essay
Towards Solving a Problem in the Doctrine of Chances publié de manière posthume en 1763)
considère le problème suivant. Une boule de billard roule sur une ligne de longueur 1, avec une
probabilité uniforme de s’arrêter en un point. Supposons qu’elle s’arrête en p. Une deuxième
boule roule n fois dans les mêmes conditions, et on note X le nombre de fois où elle s’est
arrêtée avant la première boule. Bayes se demande : connaissant X, quelle inférence peut-on
mener sur p ?

Exercice 1.1. Dans cette expérience, quel est l’ensemble Θ ? La loi a priori ? La famille de
lois (Pθ )θ∈Θ ? Répondre à la question de Bayes en calculant la densité a posteriori.
30 1. L’APPROCHE BAYÉSIENNE

Exemple 1.4 (Le modèle gaussien P = {N (θ, 1), θ ∈ R}).

a) Cas d’une observation X = X1 . Le cadre bayésien s’écrit


X θ ∼ N (θ, 1)
θ ∼ Π
Choisissons comme loi a priori Π = N (0, 1). Les mesures µ et ν sont toutes les deux la mesure
de Lebesgue sur R. On a
1 (x−θ)2
dPθ (x) = pθ (x)dx, pθ (x) = √ e− 2

1 − θ2
dΠ(θ) = π(θ)dθ, π(θ) = √ e 2

La loi a posteriori Π[· X] est une loi sur Θ = R, de densité par rapport à la mesure de
Lebesgue donnée par
θ 2 (X−θ)2
√1 e− 2 √1 e− 2
Z
(X−θ)2
2π 2π 1 θ2 1
π(θ X) = , où f (X) = √ e− 2 √ e− 2 dθ .
f (X) R 2π 2π
Il s’agit maintenant de déterminer la loi dont la densité en θ est donnée par cette expression.

Méthode 1 – ‘on écrit tout’


2
2 +θX− X 2 X 2
− X4 X 2
e−θ 2 e−(θ− 2 ) e−(θ− 2 )
π(θ X) = Z 2
=Z 2 2
=Z 2
.
−θ2 +θX− X2 −(θ− X
2 )
− X4 −(θ− X
2 )
e dθ e dθ e dθ
R R R
R −u2 du, √
L’intégrale au dénominateur est égale à Re qui vaut π. Ainsi
1 X 2
π(θ X) = √ e−(θ− 2 ) .
π
On reconnaı̂t la densité d’une loi N X2 , 12 .


Méthode 2 – ‘proportionnel à’. On constate qu’il n’est pas utile de garder l’intégrale f (X) au
dénominateur dans les calculs, puisque c’est une expression qui dépend de X seulement et pas
de θ, et intervient donc seulement en termes de constante de normalisation. Le symbole ∝
ci-dessous signifie ‘à constante de proportionnalité près’, où cette constante peut dépendre de
tout sauf de θ.
2 +θX X 2
π(θ X) ∝ π(θ)pθ (X) ∝ e−θ ∝ e−(θ− 2 ) .
X 1

L’unique loi dont la densité est proportionnelle à cette expression est la loi N 2,2 .

b) Cas de n observations X1 , . . . , Xn . Le cadre bayésien s’écrit


X = (X1 , . . . , Xn ) θ ∼ N (θ, 1)⊗n
θ ∼ Π = N (0, 1)
1. LE CADRE BAYÉSIEN 31

La loi a posteriori Π[ · X] est une loi sur Θ = R, de densité par rapport à la mesure de
Lebesgue donnée par
( n )
1 − θ2 Y 1 − (Xi −θ)2
√ e 2 √ e 2
2π 2π
π(θ X1 , . . . , Xn ) = Z (i=1
n
) .
1 −θ 2 Y 1 − (Xi −θ)2
√ e 2 √ e 2 dθ
R 2π i=1

Déterminons la densité à constante multiplicative près :
n
!
X 1 θ 2
π(θ X1 , . . . , Xn ) ∝ exp − (Xi − θ)2 −
2 2
i=1
 
n+1 2
∝ exp − θ + nX n θ
2
 2 !
n+1 nX n
∝ exp − θ− .
2 n+1
On en conclut  
nX n 1
Π[· X1 , . . . , Xn ] = N , .
n+1 n+1

La figure 1 trace la loi a priori, les données, et les lois a posteriori correspondant à
n = 3, 5, 10 observations dans le cadre du modèle gaussien. On constate que la loi a posteriori
se concentre près de X n et que l’ √
incertitude, que l’on peut décrire comme l’écart-type de la
loi a posteriori, décroı̂t comme 1/ n quand n augmente.

Figure 1. Densités a priori et a posteriori

Cherchons à déterminer la loi marginale du vecteur X = (X1 , . . . , Xn ) dans ce modèle.


Remarquons que le modèle peut se ré-écrire
θ ∼ Π = N (0, 1)
X − θ 1 θ ∼ N (0, 1)⊗n ,
où 1 correspond au vecteur colonne de Rn dont toutes les entrées sont égales à 1. En
particulier, la loi conditionnelle de X−θ 1 sachant θ ne dépend pas de θ, et cela implique, par la
32 1. L’APPROCHE BAYÉSIENNE

Proposition 0.18, que X−θ 1 et θ sont indépendantes, et que la loi (non-conditionnée) de X−θ 1
est la loi N (0, 1)⊗n . Ainsi X ∼ θ 1 + Z, avec θ ∼ N (0, 1) et Z = (Z1 , . . . , Zn ) ∼ N (0, 1)⊗n ,
indépendant de θ. La loi de X est donc celle d’un vecteur gaussien, et il suffit de déterminer
son espérance et sa matrice de covariance. Pour l’espérance, on a
E[X] = E[θ]1 + E[Z] = 0 ,
où 0 est le vecteur nul de Rn .
De plus, par indépendance, on a Var(Xi ) = Var(θ) + Var(Zi ) = 2,
et, pour i 6= j,
Cov(Xi , Xj ) = Cov(θ + Zi , θ + Zj ) = Var(θ) = 1 .
Ainsi X ∼ N (0, Σ), où Σ est la matrice dont les entrées sont égales à 2 sur la diagonale, et à 1
hors de la diagonale.

Exercice 1.2. Dans le modèle gaussien avec n observations, si la loi a priori Π sur θ est
une N (µ, σ 2 ), montrer que
 −2 
µσ + nX n 1
Π[· X1 , . . . , Xn ] = N , −2 .
σ −2 + n σ +n
Vérifier que la moyenne de la loi a posteriori est une moyenne pondérée de la moyenne de la
loi a priori et de la moyenne des données, en précisant les poids alloués à chacune des deux
moyennes.

2. Aspects de la loi a posteriori


Dans l’exemple du modèle gaussien ci-dessus, nous constatons que la moyenne de la loi a
posteriori (sachant X) vaut
Z    
nX n 1 nX n
θdΠ(θ X) = E N , X = .
Θ n+1 n+1 n+1
Typiquement, plusieurs aspects de la loi a posteriori pourront nous intéresser.

Définition 1.3. Soit une expérience statistique X, P = {Pθ , θ ∈ Θ}, soit Π une loi a priori
sur θ, et Π[· X] l’a posteriori correspondant. On définit, si ces quantités existent,
— la moyenne a posteriori, notée mX :
Z
mX = E[θ X] = θdΠ(θ X).
Θ
— le mode a posteriori : c’est un point où le maximum de la densité a posteriori θ 7→
π(θ X) est atteint. On le note
mode(θ X) ∈ arg max π(θ X).
θ∈Θ
— la variance a posteriori (pour Θ ⊂ R), notée vX : c’est la variance de la loi a posteriori,
soit
Z
vX = Var(θ X) = E (θ − E[θ X]) X = (θ − mX )2 dΠ(θ X).
2
 
Θ
Si Θ ⊂ Rd , d ≥ 2, on peut définir la matrice de variance-covariance a posteriori :
Z
ΣX = (θ − E[θ X])(θ − E[θ X])T dΠ(θ X).
Θ
3. LE CHOIX DE LA LOI A PRIORI 33

On note que ces quantités peuvent parfois ne pas être définies, par exemple si la loi a
posteriori n’a pas d’espérance ou de moment d’ordre 2, ou si elle n’a pas de mode.

Définition 1.4. Dans le cadre précédent, si Θ ⊂ R, soit FX la fonction de répartition de la


−1
loi a posteriori Π[ · X]. On note FX l’inverse généralisée de FX , définie pour tout u ∈ [0, 1]
par
−1
FX (u) = inf {θ ∈ Θ, FX (θ) ≥ u} .
−1
Pour p ∈ [0, 1], on définit alors le quantile a posteriori d’ordre p comme FX (p). Le quantile a
posteriori d’ordre 1/2 s’appelle la médiane a posteriori.

Si la fonction FX est continue strictement croissante, ce qui est le cas en particulier si la


loi a posteriori a une densité strictement positive par rapport à la mesure de Lebesgue, alors
−1
FX est simplement la réciproque de FX .
Dans l’exemple du modèle gaussien avec a priori N (0, 1) sur θ, on a
−1 nX n 1
E[θ X] = mode(θ X) = FX (1/2) = et Var(θ X) = .
n+1 n+1
−1
Notons que les statistiques E[θ X], mode(θ X) et FX (1/2) sont des estimateurs ponctuels
au sens usuel du terme. Dans l’exemple du modèle gaussien, ils sont même très proches de X n .
Nous en dirons plus sur ce sujet aux Chapitres 3 et 5.

3. Le choix de la loi a priori


3.1. Principes généraux. Il existe plusieurs critères possibles de choix de lois a priori.
En premier lieu, la loi a priori est censée incorporer les informations sur le paramètre dont
dispose le statisticien avant l’expérience. D’autres critères sont dictés par des impératifs
pratiques : pour un modèle donné, certaines lois a priori induisent des lois a posteriori plus
simples à calculer que d’autres. Nous verrons en particulier le cas des familles conjuguées.
Dans de nombreux cas, le statisticien dispose d’abord d’éléments (plus ou moins précis)
sur le paramètre à estimer. Ces éléments peuvent être qualitatifs : on peut savoir à l’avance,
par exemple, que le paramètre à estimer est positif. C’est le cas pour un certain nombre de
grandeurs physiques (poids, taille). Il est alors naturel de prendre une loi a priori sur R+
plutôt que sur R tout entier. Parfois, des contraintes de formes sont connues à l’avance, comme
la monotonicité ou la convexité de densités de lois apparaissant dans le modèle. Ou bien
quantitatifs : on peut parfois savoir qu’il est beaucoup plus probable (parce que, par exemple,
on a observé de nombreuses expériences similaires) que le paramètre soit dans une certaine
région de l’espace plutôt qu’une autre. L’exemple suivant sera vu en TD : on soupçonne un
lancer de pièce d’être biaisé avec probabilité 2/3 de donner ‘pile’. On est dans un modèle de
Bernoulli {B(θ), θ ∈ [0, 1]}. Une possibilité dans ce cas est de prendre une loi a priori mélange
sur θ, de type aδ2/3 + (1 − a)δ1/2 , pour prendre en compte le fait que, grossièrement, soit le
tirage est biaisé avec θ = 2/3, soit il est non-biaisé. Un choix plus réaliste consiste à prendre
une loi mélange a Beta(4, 2) + (1 − a) Beta(3, 3) comme a priori sur θ. Dans ce cas, les deux
lois Beta sont d’espérance 2/3 et 1/2 mais mettent aussi un peu de masse a priori autour de
ces deux quantités.
Pour certains des critères ci-dessus, on parle parfois d’information subjective. À ceux-ci
s’ajoutent aussi souvent des critères pratiques, liés à la simulation de lois a posteriori et au
temps de calcul correspondant. En effet, en dehors de cas simples comme celui de lois a priori
34 1. L’APPROCHE BAYÉSIENNE

conjuguées, la simulation d’échantillons distribués suivant la loi a posteriori (ou le calcul


d’aspects comme la moyenne ou la médiane) peut être plus ou moins coûteuse suivant les lois
a priori considérées. Cette question cruciale fera l’objet des Chapitres 2 et 6.

3.2. Conjugaison.

Définition 1.5. Une famille F de lois a priori est dite conjuguée par rapport au modèle
P = {Pθ , θ ∈ Θ} si, pour toute loi Π ∈ F, si Π est prise comme loi a priori dans le cadre
bayésien de ce modèle, alors la loi a posteriori Π[ · X] associée appartient aussi à F.

Exemples de familles de lois a priori conjuguées

I la famille des lois gaussiennes F = {N (µ, σ 2 ), µ ∈ R, σ 2 > 0} est conjuguée par


rapport au modèle gaussien P = {N (θ, v), θ ∈ R} (pour tout v > 0 fixé).
I la famille des lois Beta F = {Beta(a, b), a > 0, b > 0} est conjuguée pour le modèle
des lois de Bernoulli. Pour a > 0 et b > 0 fixés, on considère
X = (X1 , . . . , Xn ) θ ∼ B(θ)⊗n
θ ∼ Beta(a, b)
On obtient comme densité a posteriori (détails en TDs)
n
π(θ X) ∝ θa−1 (1 − θ)b−1 1[0,1] (θ).
Y
θXi (1 − θ)n−Xi


i=1

∝ θa+nX n −1 (1 − θ)b+n−nX n −1 1[0,1] (θ).


La loi dont la densité est proportionnelle à cette expression est la loi Beta(a + nX n , b +
n − nX n ). Ainsi
Π[· X] = Beta(a + nX n , b + n − nX n ) ∈ F.
I la famille des lois de Dirichlet est conjuguée pour le modèle multinomial, voir TDs.
I la famille des lois Gamma F = {Γ(p, λ), p > 0, λ > 0} est conjuguée pour le modèle
des lois de Poisson. Pour p > 0 et λ > 0 fixés, on considère
X = (X1 , . . . , Xn ) θ ∼ P(θ)⊗n
θ ∼ Γ(p, λ)
On obtient (détails en TDs)
n  
1θ≥0 ∝ θp+nX n −1 e−(λ+n)θ 1θ≥0 .
Y
π(θ X) ∝ θp−1 e−λθ e−θ θXi
i=1

La loi dont la densité est proportionnelle à cette expression est la loi Γ(p+nX n , λ+n).
Ainsi
Π[· X] = Γ(p + nX n , λ + n) ∈ F.
I la famille des lois Gamma F = {Γ(p, λ), p > 0, λ > 0} est conjuguée pour le modèle
des lois Gamma(k, θ) (pour tout k > 0 fixé).
3. LE CHOIX DE LA LOI A PRIORI 35

I la famille des lois de Pareto F = {P(α, r), α > 0, r > 0} est conjuguée pour le
modèle des lois uniformes. Pour α > 0 et r > 0 fixés, on considère
X = (X1 , . . . , Xn ) θ ∼ Unif[0, θ]⊗n
θ ∼ P(α, r)

On rappelle que la densité de la loi P(α, r) par rapport à la mesure de Lebesgue est
donnée par z 7→ αrα z −(α+1) 1[r,+∞[ (z). On obtient
n
1 Y
π(θ X) ∝ θ−(α+1) 1θ≥r 10≤Xi ≤θ
θn
i=1
∝θ −(α+n+1)
1θ≥max{r,X1 ,...,Xn } .
La loi dont la densité est proportionnelle à cette expression est la loi P (α + n, rX ),
où rX = max{r, X1 , . . . , Xn }. Ainsi
Π[· X] = P (α + n, rX ) ∈ F.

Disposer d’une famille de lois conjuguée rend typiquement les calculs assez simples lorsque
les paramètres a posteriori s’expriment explicitement à l’aide de ceux a priori et des données.
De plus, si l’on sait simuler suivant les lois de la famille considérée, la simulation suivant la loi
a posteriori est un cas particulier, donc le temps ou la complexité de calcul sont réduits dans
ce cas ce qui est souvent avantageux (voir chapitre Simulation).

La plupart des cas de lois conjuguées citées ci-dessus correspondent à un seul paramètre
inconnu (à l’exception du modèle multinomial). Lorsque plusieurs paramètres sont inconnus, ce
qui revient typiquement à dire que le paramètre est dans un sous-ensemble de Rd , d > 1, trouver
une loi conjuguée peut être plus délicat. Nous voyons deux exemples classiques ci-dessous.

Le modèle N (µ, σ 2 ), moyenne et variance inconnues

Lemme 1.3. Soit Y ∼ Gamma(a, b), de densité fY (y) = ba a−1 −by


Γ(a) y e 1
R∗+ (y). Alors Z = Y −1
a pour densité
ba −a−1 − b
fZ (z) = z e z 1R∗+ (z).
Γ(a)
La loi de Z s’appelle loi inverse-gamma IG(a, b).

Démonstration. Le lemme s’obtient en calculant E[φ(Z)] = E[φ(Y −1 )] pour toute


fonction φ mesurable bornée : en effectuant le changement de variable z = y −1 ,
Z ∞
ba a−1 −by
E[φ(Z)] = E[φ(Y −1 )] = φ(y −1 ) y e dy
0 Γ(a)
Z ∞
ba 1−a − b 1
= φ(z) z e z 2 dz
0 Γ(a) z
et le résultat s’en déduit. 
36 1. L’APPROCHE BAYÉSIENNE

Dans le cas où µ est connu et vaut 0, la famille des lois inverse-gamma est conjuguée pour
le modèle {N (0, σ 2 ), σ 2 > 0} (le paramètre étant θ = σ 2 ). En effet, si σ 2 ∼ IG(a, b) = Π et
X σ 2 ∼ N (0, σ 2 ), la densité a posteriori est donnée par
X2 b
π(σ 2 X) ∝ σ −1 e− 2σ2 (σ 2 )−a−1 e− σ2
3 1 X2
∝ (σ 2 )−a− 2 e− σ2 (b+ 2
)

 2

On obtient L(σ 2 X) = IG a + 21 , b + X2 .

Exercice 1.3. Vérifier la propriété de conjugaison dans le cas de n observations.

Dans le cas où à la fois µ et σ 2 sont inconnus, on peut déjà essayer d’utiliser une loi
inverse-gamma sur σ 2 . En revanche, l’idée qui consiste à proposer une loi produit comme loi a
priori sur le couple (µ, σ 2 ), donc de densité du type g(µ)h(σ 2 ) ne va pas fonctionner ; en effet,
la vraisemblance s’écrit, déjà dans le cas d’une observation, Cσ −1 exp{− 2σ1 2 (X − µ)2 }, qui est
une expression qui mélange µ et σ 2 .

Définition 1.6. On appelle loi NIG(a, b, c, d), loi normale inverse-gamma la loi sur R × R∗+
définie par le schéma

σ2
µ σ 2 ∼ N (a, )
b
σ 2 ∼ IG(c, d).

La densité d’une loi NIG(a, b, c, d) est


r
dc b 2 −c− 3 − d2 − b(µ−a) 2
(µ, σ 2 ) 7→ (σ ) 2e σ e 2σ 2 .
Γ(c) 2π

Theorème 1.4. Soit X = (X1 , . . . , Xn ) et considérons le cadre bayésien


X µ, σ 2 ∼ N (µ, σ 2 )⊗n
(µ, σ 2 ) ∼ NIG(a, b, c, d) = Π.

La famille de toutes les lois NIG normales inverse-gamma est conjuguée pour ce modèle et

Π[ · X] = NIG (aX , bX , cX , dX ) ,
n n
1X 2 2 1X
avec, si l’on pose sX = Xi − X n = (Xi − X n )2 ,
n n
i=1 i=1

nX n + ab
aX = , bX = b + n
n+b
n nsX nb
cX = c + , dX = d + + (X n − a)2
2 2 2(n + b)
3. LE CHOIX DE LA LOI A PRIORI 37

Démonstration. La vraisemblance s’écrit


n
( )
1 X
fµ,σ2 (X) = (2πσ 2 )−n/2 exp − 2 (Xi − µ)2

i=1
n n n o
= (2πσ 2 )−n/2 exp − 2 (µ − X n )2 − 2 sX .
2σ 2σ
La formule de Bayes donne donc pour la densité a posteriori
b(µ − a)2
 
2
 2 −n −c− 23 n 2 n d
π (µ, σ ) X ∝ (σ ) 2 exp − 2 (µ − X n ) − 2 sX − − 2 .
2σ 2σ 2σ 2 σ
Il suffit maintenant de regrouper les termes en µ en un seul trinôme,
2
(nX n + ab)2

2 2 nX n + ab 2
n(µ − X n ) + b(µ − a) = (n + b) µ − + nX n + a2 b −
n+b n+b
 2
nX n + ab nb
= (n + b) µ − + (X n − a)2 .
n+b n+b
On en déduit la formule annoncée. 
Dans la pratique, un a priori souvent utilisé est
1
dΠ∗ (µ, σ 2 ) = 2 dµdσ 2 .
σ
dΠ∗ (µ, σ 2 ) = +∞ et chaque intégrale simple
RR
Il s’agit d’un a priori (doublement) impropre :
vaut déjà +∞. Cet a priori rend les formules nettement plus simples et l’on peut vérifier (voir
TDs) que la loi a posteriori est
 
∗ n − 1 nsX
Π [· X] ∼ NIG X n , n, , .
2 2
Le modèle N (µ, Σ) en dimension d ≥ 1, Σ connue

Un autre cas important est celui de lois gaussiennes multidimensionnelles, où chaque
observation est dans Rd , d ≥ 1. Nous traitons le cadre où la matrice de variance-covariance Σ
est connue. Il est possible de l’étendre au cas où Σ est inconnue en suivant des idées similaires
à celles vues à la section précédente pour le cas uni-dimensionnel.

Theorème 1.5. Soit X = (X1 , . . . , Xn ) avec Xi ∈ Rd , d ≥ 1. Soit µ0 ∈ Rd fixé et Σ, Σ0 deux


matrices symétriques définies positives fixées. Considérons le cadre bayésien
X µ ∼ N (µ, Σ)⊗n
µ ∼ N (µ0 , Σ0 ) = Π.
La famille {N (µ0 , Σ0 ), µ0 ∈ Rd , Σ0 symétrique définie positive} est conjuguée et
Π[ · X] = N (µX , ΣX ),
avec
ΣX = (Σ−1 −1 −1
0 + nΣ )
µX = ΣX (Σ−1 −1
0 µ0 + nΣ X n ).
38 1. L’APPROCHE BAYÉSIENNE

Démonstration. Voir TDs. 

Remarque 1.5. Le Théorème 1.5 peut se voir comme un résultat de conditionnement sur
les vecteurs gaussiens. Les lois de X µ et de µ sont gaussiennes, donc la loi jointe de (X, µ)
aussi, ainsi que la loi conditionnelle de µ X.

4. Régions de crédibilité
Faisons un premier bilan rapide de ce que nous avons obtenu jusqu’ici. Partant d’une
expérience statistique (X, P) avec X = (X1 , . . . , Xn ) et P = {Pθ⊗n , θ ∈ Θ}, et d’une loi a
priori Π sur Θ, nous avons construit une mesure de probabilité, la loi a posteriori Π · X ,
qui dépend des données.
Par rapport à l’approche fréquentiste où l’on considère typiquement un estimateur θ(X) b
à valeurs dans Θ, on obtient ici une loi de probabilité aléatoire, Π · X , à valeurs dans
l’ensemble des mesures de probabilité sur Θ.
Nous avons vu à la Définition 1.3 que l’on pouvait à partir de la loi a posteriori construire
des estimateurs ponctuels comme la moyenne, la médiane, ou le mode a posteriori. Mais
peut-être pourrait-on également tirer profit du fait que la loi a posteriori donne non seulement
une information sur une localisation, via par exemple la moyenne a posteriori, mais aussi
une information sur la dispersion, par exemple via la variance a posteriori et les quantiles a
posteriori. Ainsi, une loi a posteriori dont la variance est très petite sera très concentrée autour
de sa moyenne et on peut penser qu’elle donnera plus d’informations sur le paramètre
 θ qu’une
loi a posteriori à variance plus grande. Ne pourrait-on pas utiliser Π · X pour obtenir des
intervalles ou des régions de confiance ? Cette question motive la définition suivante.

Définition 1.7. Une région de crédibilité A ⊂ Θ de niveau (au moins) 1 − α pour Π · X
est un ensemble p.s. mesurable 1 A = A(X) tel que

Π A X ≥ 1 − α.

Si l’on ne fait pas d’hypothèse spécifique, il n’y a aucune raison pour qu’une région de
crédibilité soit une région de confiance. Cela n’a en principe même pas de sens de parler de
région de confiance dans un cadre bayésien où il n’y a pas de  vrai  θ comme dans le cadre
fréquentiste. Nous verrons cependant au Chapitre 5 qu’il est possible de faire une analyse
fréquentiste des lois a posteriori, et que sous certaines conditions une région de crédibilité peut
être une région de confiance, éventuellement asymptotiquement.
Il y a en général de nombreux choix possibles pour construire une région de crédibilité.
Par exemple, Θ est toujours une région de crédibilité 1. Bien sûr, en pratique on cherchera
à construire une région la plus petite possible. Ci-dessous nous voyons en détails deux
constructions classiques.

4.1. Construction via des quantiles a posteriori. On suppose ici que Θ ⊂ R et que
la fonction de répartition a posteriori

t 7→ FX (t) = Π ] − ∞, t] X

1. Au sens où P ({ω ∈ Ω, A(X(ω)) est un borélien}) = 1.


4. RÉGIONS DE CRÉDIBILITÉ 39

−1
est continue sur R. Son inverse généralisée FX vérifie donc
−1
∀u ∈]0, 1] , FX ◦ FX (u) = u .
Dans ce cadre, en posant
−1 −1
a(X) = FX (α/2) et b(X) = FX (1 − α/2) ,
on a
     
Π ]an (X), bn (X)] X = Π ] − ∞, bn (X)] X − Π ] − ∞, an (X)] X
−1 −1
= FX ◦ FX (1 − α/2) − FX ◦ FX (α/2)
= 1 − α/2 − α/2 = 1 − α.
Sous les hypothèses précédentes, nous avons donc construit un intervalle de crédibilité de
niveau (exactement) 1 − α. Ce choix est bilatère, dans le sens où on prend des quantiles à
gauche et à droite. On pourrait aussi - mais ce choix est moins courant - prendre un quantile
−1
unilatère et poser J(X) =] − ∞, cn (X)] avec cn (X) = FX (1 − α).
4.2. Régions de plus haute densité. Soit Q une loi de probabilité sur Θ de densité q
par rapport à une mesure ν. On commence par définir les ensembles de niveau pour Q. Pour
tout y ≥ 0, on définit
L(y) = {θ ∈ Θ, q(θ) ≥ y}.
La région L(y) consiste en l’ensemble des paramètres pour lesquels la densité q en ce paramètre
dépasse le niveau y.

Définition 1.8. Soit α ∈]0, 1[. La région de plus haute densité (PHD) au niveau 1 − α pour
une loi Q de densité q est la région H ⊂ Θ donnée par
H = L(yα ),
avec
yα = sup {y ∈ R+ , Q (L(y)) ≥ 1 − α} .

Notons que comme α < 1, on a yα < +∞.

Lemme 1.6. Soit H une région PHD au niveau 1 − α pour une loi Q sur Θ de densité q.
Alors
Q (H) ≥ 1 − α.

Démonstration. Notons
Eα = {y ∈ R+ , Q (L(y)) ≥ 1 − α} .
Ainsi yα = sup(Eα ) et H = L(yα ). Soit (yn ) est une suite croissante d’éléments de Eα qui
converge vers yα (on peut en trouver une par définition de la borne supérieure d’un ensemble).
Par définition de Eα , on a, pour tout n ≥ 1,
(1.3) Q (L(yn )) ≥ 1 − α.
Par croissance de (yn ) et par définition des ensembles de niveau, les ensembles L(yn ) sont
emboı̂tés, i.e.
L(y1 ) ⊃ L(y2 ) ⊃ . . .
40 1. L’APPROCHE BAYÉSIENNE

Le théorème de la limite monotone donne alors


 
\
Q (L(yn )) −→ Q  L(yn ) .
n→∞
n≥1
T
Montrons que n≥1 L(yn ) = L(yα ). Soit x ∈ L(yα ). Alors q(x) ≥ yα , et comme yα = supn≥1 yn ,
T T
on a, pour tout n ≥ 1, q(x) ≥ yn , i.e. x ∈ n≥1 L(yn ). Inversement, si x ∈ n≥1 L(yn ), alors
q(x) ≥ yn pour tout n ≥ 1, et en passant à la limite dans l’inégalité, on obtient q(x) ≥ yα , i.e.
x ∈ L(yα ). Le passage à la limite dans (1.3) donne donc Q (L(yα )) ≥ 1 − α. 

La région de plus haute densité est donc par construction le plus petit parmi les ensembles
de niveau L(y) qui ont une probabilité au moins 1 − α sous Q. La figure 2 illustre la définition
précédente.

Figure 2. La réunion des deux intervalles en bleu sur l’axe des abscisses est
la région PHD au niveau 1 − α pour la densité g dessinée. La région hachurée
en vert a une aire égale à (1 − α).

DansR l’énoncé ci-dessous, le volume d’un ensemble mesurable A est un synonyme pour
ν(A) = A dν(θ) (si ν est la mesure de Lebesgue, alors ν(A) est le volume usuel dans Rd ).

Theorème 1.7. Dans le cadre de la Définition 1.8, la région PHD au niveau 1 − α est de
volume minimal parmi les régions de même probabilité sous Q.

Démonstration. Soit H une région PHD de niveau 1 − α. Par définition, H est de la


forme
H = {θ ∈ Θ, q(θ) ≥ yα } = L(yα ).
4. RÉGIONS DE CRÉDIBILITÉ 41

Il suffit de montrer que si une région A ⊂ Θ a une probabilité au moins aussi grande que H,
soit Q(A) ≥ Q(H), alors ν(A) ≥ ν(H). Notons que
Q(A) = Q(A ∩ H) + Q(A ∩ Hc )
Q(H) = Q(A ∩ H) + Q(H ∩ Ac ).
Si Q(A) ≥ Q(H), on a donc Q(A ∩ Hc ) ≥ Q(H ∩ Ac ). D’autre part, on a
Z Z
c q(θ)
ν(H ∩ A ) = dν(θ) ≤ dν(θ) ,
H∩Ac H∩Ac yα
puisque si θ ∈ H, alors q(θ) ≥ yα . On obtient donc
Q(H ∩ Ac ) Q(Hc ∩ A)
Z
c q(θ)
ν(H ∩ A ) ≤ ≤ = dν(θ) .
yα yα Hc ∩A yα
Et comme, si θ ∈ Hc , alors q(θ) ≤ yα , on a
Z Z
q(θ)
dν(θ) ≤ dν(θ) = ν(Hc ∩ A) .
c
H ∩A y α c
H ∩A
Ainsi ν(H ∩ Ac ) ≤ ν(Hc ∩ A) et
ν(H) = ν(H ∩ A) + ν(H ∩ Ac ) ≤ ν(cH ∩ A) + ν(A ∩ Hc ) = ν(A) ,
ce qu’il fallait démontrer. 

Remarque 1.6. Attention ! La région PHD au niveau 1 − α n’est pas nécessairement de


volume minimal parmi les régions de masse 1 − α. Par exemple, si Q est la loi uniforme sur
[0, 1], alors la région PHD au niveau 1 − α correspond à tout l’intervalle [0, 1].

Définition 1.9. Dans une expérience statistique (X, P) avec une loi a priori Π sur Θ ⊂ Rd ,
 PHD a posteriori au niveau 1 − α est la région
soit Π · X la loi a posteriori. La région
PHD au niveau 1 − α pour la loi Π · X .

En général, les deux constructions 4.1 et 4.2 (par les quantiles et par les régions PHD)
donnent des régions différentes. Un exemple est donné par la figure 2, où la région HPD est
une union de deux intervalles disjoints, donc est nécessairement différente d’une région obtenue
par quantiles qui correspond à un seul intervalle. En revanche, les constructions coı̈ncident si
la densité a posteriori est continue, unimodale et symétrique sur R, voir TDs. Du point de
vue pratique, la méthode par les quantiles est souvent plus facile a mettre en œuvre, car elle
nécessite seulement de connaı̂tre deux des quantiles a posteriori, tandis que la construction de
régions PHD nécessite de travailler avec les ensembles de niveau de la densité a posteriori.
Chapitre 2

Simulation de la loi a posteriori

En pratique, la loi a posteriori est très souvent un objet extrêmement compliqué


qui nécessite de savoir calculer des intégrales difficiles. Si l’on n’a pas d’accès
direct à cette loi dont la densité n’a pas de forme explicite, on peut néanmoins
chercher à la simuler, c’est-à-dire à échantillonner des valeurs selon cette loi.

Sauf dans certains cas particuliers (famille de lois conjuguée...), il peut être difficile de
déterminer explicitement la loi a posteriori. Il peut alors s’avérer compliqué d’évaluer des
quantités comme la moyenne, la médiane ou les quantiles a posteriori. Par exemple, la moyenne
a posteriori s’écrit comme une intégrale contre la loi a posteriori :
Z
θdΠ(θ X).
Θ
Comment évaluer ce genre d’intégrales si l’on ne connaı̂t pas précisément la loi a posteriori ?
Dans un premier temps, nous verrons comment, à partir d’un générateur de la loi uniforme,
on peut simuler de nombreuses lois, pourvu qu’elles ne soient pas trop méchantes (nous verrons
au Chapitre 6 comment affronter des lois plus méchantes). Puis on verra R que si l’on sait
simuler selon une loi P , alors on peut approcher des intégrales de la forme φ(x)dP (x). Pour
ceux qui souhaitent en savoir plus sur la simulation de variables aléatoires et les méthodes
de Monte-Carlo, une référence classique est l’ouvrage de Luc Devroye, Non-uniform random
variate generation, disponible là : http://luc.devroye.org/rnbookindex.html.

1. Simulation de lois gentilles


Dans toute méthode de simulation de variables aléatoires, on suppose toujours que l’on dis-
pose d’un ingrédient de base : un générateur de la loi uniforme sur [0, 1] auquel on peut faire ap-
pel pour obtenir des réalisations indépendantes. Tout ordinateur est équipé d’un tel générateur.
Certes en réalité, il ne s’agit jamais de réalisations vraiment aléatoires, on parle de nombres
pseudo-aléatoires. Dans le cadre de ce cours cependant, on supposera que l’on peut vraiment
simuler des variables aléatoires uniformes. Pour plus de détails sur les générateurs de nombres
aléatoires, la page wikipedia https://fr.wikipedia.org/wiki/Générateur de nombres pseudo-
aléatoires présente bien les grandes méthodes.
1.1. Méthode de la transformée inverse. La première grande méthode de simulation
est la méthode de la transformée inverse. On souhaite simuler une variable aléatoire réelle X,
de loi de fonction de répartition F . Soit F −1 l’inverse généralisée de F , i.e.
∀u ∈ [0, 1] , F −1 (u) = inf {x ∈ R, F (x) ≥ u} ,
avec les conventions inf R = −∞ et inf ∅ = +∞. Remarquons que, même si l’on n’a pas en
général l’équivalence F −1 (u) = x ⇔ F (x) = u, on a néanmoins toujours F −1 (u) ≤ x ⇔ u ≤
42
1. SIMULATION DE LOIS GENTILLES 43

F (x). En effet, si F (x) ≥ u, alors par définition de F −1 , F −1 (u) ≤ x. Et si F (x) < u, comme
F est continue à droite, il existe ε > 0 tel que F (x + ε) < u. Mais alors F −1 (u) ≥ x + ε > x.
Soit maintenant U ∼ Unif[0, 1]. Pour tout x ∈ R, on a
P F −1 (U ) ≤ x = P (U ≤ F (x)) = F (x) .


Autrement dit, F −1 (U ) ∼ X. Ainsi, si l’on sait calculer F −1 , on sait simuler une variable
aléatoire de loi F .
Cette méthode simple n’est pas toujours réalisable en pratique. En effet, elle nécessite de
savoir inverser la fonction de répartition, ce qui n’est pas toujours possible. Il y a aussi des cas
où la fonction de répartition elle-même n’est pas accessible autrement que sous forme d’une
intégrale de la densité, l’exemple typique étant la loi normale. La méthode de rejet permet,
dans certaines situations, de simuler des variables aléatoires dont on ne connaı̂t explicitement
que la densité, voire la densité à une constante multiplicative près.
1.2. Méthode de rejet. On souhaite simuler une variable aléatoire à valeurs dans un
espace mesuré (E, E, µ), de densité f par rapport à µ. On suppose que l’on sait simuler selon
une autre densité g (par rapport à µ aussi) et que cette densité est telle qu’il existe une
constante m ≥ 1 telle que pour tout y ∈ E, f (y) ≤ mg(y). Pour tout y ∈ E tel que g(y) > 0,
on note (
f (y)
si g(y) > 0,
r(y) = mg(y)
0 sinon.
Soient (Ui )i≥1 une suite i.i.d. de loi Unif([0, 1]) et (Yi )i≥1 une suite i.i.d. de loi de densité
g, indépendante de (Ui )i≥1 . On définit
τ = inf{i ∈ N∗ , r(Yi ) ≥ Ui } .
Algorithme de rejet
(1) Générer Y ∼ g et U ∼ Unif([0, 1]), Y ⊥
⊥ U.
(2) Si r(Y ) ≥ U , retourner Y . Sinon, revenir à l’étape 1.

Proposition 2.1. La variable X = Yτ est de densité f . Par ailleurs, τ est de loi géométrique
de paramètre 1/m et est indépendante de X.

Démonstration. Soit A un élément de la tribu E et n ∈ N∗ . On a, par indépendance


des tirages,
P (Yτ ∈ A, τ = n) = P (r(Y1 ) < U1 , . . . , r(Yn−1 ) < Un−1 , r(Yn ) ≥ Un , Yn ∈ A)
= P(r(Y ) < U )n−1 P(r(Y ) ≥ U, Y ∈ A) ,
où Y est de densité g et U uniforme sur [0, 1], indépendante de Y . Par le théorème de Fubini
et le fait que g et f sont des densités, on a
Z Z 1 Z Z
f (y) 1
P(r(Y ) < U ) = 1{r(y)<u} g(y)dudµ(y) = (1 − r(y)) g(y)dµ(y) = 1 − dy = 1 − ·
E 0 E E m m
De même
Z Z 1 Z Z
1
P(r(Y ) ≥ U, Y ∈ A) = 1{r(y)≥u} 1{y∈A} g(y)dudµ(y) = r(y)g(y)dµ(y) = f (y)dµ(y) ·
E 0 A m A
44 2. SIMULATION DE LA LOI A POSTERIORI

Ainsi
1 n−1 1
  Z
P (Yτ ∈ A, τ = n) = 1 − f (y)dµ(y) .
m m A
Pour A = E, on a donc
1 n−1 1
 
P (τ = n) = P (Yτ ∈ E, τ = n) = 1 − ·
m m
La variable τ est donc géométrique de paramètre 1/m. En particulier, τ < +∞ p.s. et en
sommant sur n ∈ N∗ , on obtient
Z
P (Yτ ∈ A) = f (y)dµ(y) .
A
Autrement dit, la variable Yτ est bien de densité f , et comme P (Yτ ∈ A, τ = n) = P(Yτ ∈
A)P(τ = n), les variables τ et Yτ sont bien indépendantes. 

Remarque 2.1. L’espérance de τ étant égale à m, il faut en moyenne attendre m essais


avant d’obtenir une simulation de X. Pour limiter le nombre moyen de rejets, il est donc
important de faire en sorte que m soit aussi petit possible, i.e. de choisir g aussi proche que
possible de f .

Exemple 2.2 (Simulation d’une variable uniforme sur un sous-ensemble du cube). Soit
A un ensemble borélien du cube [0, 1]d . S’il est très facile de simuler une variable uniforme
sur [0, 1]d (c’est un vecteur de d variables uniformes indépendantes sur [0, 1]), il peut être
bien plus complexe de simuler directement une variable uniforme sur A. Supposons cependant
que l’on sache dire, pour tout élément du cube, s’il est dans A ou non. L’algorithme de rejet
consiste alors à tirer des variables Y1 , Y2 , . . . indépendantes uniformes sur [0, 1]d , jusqu’au
premier temps τ où Yτ ∈ A. La variable Yτ est alors uniformément distribuée sur A. En effet,
en notant λ(A) le volume de A (sa mesure de Lebesgue), on a
1 1
∀y ∈ Rd , f (y) = 1 ≤ 1 d .
λ(A) {y∈A} λ(A) {y∈[0,1] }
Ainsi, on peut prendre m = λ(A) 1
et le rapport r s’écrit alors simplement r(y) = 1{y∈A} . Il
n’y a donc pas besoin de tirer les variables (Ui ) puisque l’on sait que le premier succès est
précisément le premier temps où l’on tombe dans A. Notons qu’il n’y a pas non plus besoin de
connaı̂tre λ(A) pour implémenter l’algorithme. Remarquons cependant que si λ(A) est très
petit, cette méthode n’est pas satisfaisante puisque très coûteuse en temps de calcul (il faut
attendre très longtemps avant de tomber dans A).

Exemple 2.3 (Loi gamma). La loi Γ(p, λ), avec p, λ > 0, est typiquement un exemple
de loi dont la densité est relativement simple mais dont la fonction de répartition n’a pas
d’expression explicite, donc la méthode de la transformée inverse ne convient pas. Quand p > 1,
on peut utiliser l’algorithme de rejet avec comme densité auxiliaire la densité d’une variable
exponentielle de paramètre µ, soit g(y) = µe−µy 1y≥0 (qui se simule bien par la méthode de la
transformée inverse). Notons
λp y p−1 e−λy
mµ = sup −µy
·
y∈R+ Γ(p)µe
2. MÉTHODES DE MONTE-CARLO POUR LE CALCUL D’INTÉGRALES 45

p−1
Un peu de calcul montre que, si µ < λ, alors le supremum est atteint en y = λ−µ et vaut
λp (p − 1)p−1 e1−p
mµ = ,
Γ(p)µ(λ − µ)p−1
et encore un peu de calcul montre que la constante mµ est minimale pour µ∗ = λp , et que
pp e1−p
mµ∗ = ·
Γ(p)

e p
Notons que par la formule de Stirling, mµ∗ ∼p→+∞ √ .

Donc plus p est grand, moins cette
méthode est performante.

2. Méthodes de Monte-Carlo pour le calcul d’intégrales


Soit P une loi sur (E, E) et soit φ : E → R une fonction mesurable P -intégrable connue
(i.e. il est facile d’avoir accès aux valeurs φ(x) pour tout x ∈ E). On souhaite calculer
Z
I= φ(x)dP (x) .
E
Supposons par exemple que E = [0, 1]d
et que P admet une densité f par rapport à la mesure
de Lebesgue sur [0, 1]d . Alors si f est connue, une façon simple d’approcher l’intégrale I est de
découper le cube [0, 1]d en N d sous-cubes plus petits et d’approcher sur chaque sous-cube la
fonction φ × f par une fonction plus simple, par exemple une constante, ou une fonction affine.
Si l’on prend le cas où l’on approche la fonction par une constante, on retrouve les sommes de
Riemann, pour lesquelles on approche I par
1 X
(φ × f ) (xi ) ,
Nd di∈J1,N K
1
avec par exemple xi = N (i1 , . . . , id ).
Une difficulté avec ce type de méthode est que si l’on se
place en dimension d, si l’on a besoin de N points pour atteindre une précision ε donnée en
dimension 1, alors le nombre de points nécessaires pour obtenir la même précision en dimension
d est typiquement de l’ordre de N d . Lorsque la dimension d vaut au moins 3, on se retrouve
rapidement confrontés à un très grand nombre de calculs. De façon surprenante au premier
abord, l’utilisation d’une méthode introduisant de l’aléatoire va permettre de s’affranchir de la
dépendance en la dimension. C’est le principe des méthodes de Monte-Carlo.
2.1. Monte-Carlo standard. Au lieu de prendre des points fixés xi à la base de notre
approximation, on peut les tirer au hasard. Soit X1 , . . . , XN des variables aléatoires i.i.d. de
loi P . Alors par la loi des grands nombres,
N Z
1 X p.s.
(2.1) IN = φ(Xi ) −→ φ(x)dP (x) = I .
N
i=1
De plus, si φ2 dP < ∞, on a aussi par le théorème central limite, quand N → ∞,
R
√ L
N (IN − I) −→ N (0, Var(φ(X))),
où Var(φ(X))) = (φ(x) − I)2 dP (x). Un grand avantage de cette approche par rapport aux
R
méthodes déterministes citées plus haut est que la vitesse de convergence dans le résultat
limite ci-dessus est N −1/2 , indépendamment de la dimension d du problème. De plus, cette
46 2. SIMULATION DE LA LOI A POSTERIORI

méthode ne suppose pas de connaı̂tre la densité f explicitement, mais simplement de savoir


simuler des variables de loi P .

Dans certains cas, cette approche peut cependant s’avérer problématique. D’une part, on ne
sait pas forcément simuler des variables selon P . D’autre part, le nombre de tirages nécessaires
avant d’avoir une bonne précision peut être extrêmement grand. Par exemple, supposons que
P est une loi N (0, 1) et que φ(x) = 1x>3 . Ainsi, I = P(X > 3) où X ∼ N (0, 1). Si l’on tire
X1 , . . . , XN i.i.d. de loi N (0, 1), il faut prendre N extrêmement grand avant d’obtenir une
observation qui soit plus grande que 3. Dans le cas où l’intégrale à approcher correspond à
un événement rare (comme l’événement qu’une variable gaussienne N (0, 1) soit supérieure à
3), on a plutôt intérêt à simuler des variables selon une autre loi pour laquelle l’événement
en question est  moins rare , et à évaluer, pour chaque observation, une fonction modifiée
qui prenne en compte ce changement de mesure. Cette approche s’appelle l’échantillonnage
d’importance (importance sampling en anglais), ou échantillonnage préférentiel.

2.2.
R Monte-Carlo par Importance Sampling. On cherche toujours à apprecher l’intégrale
I = φdP . On suppose que P possède une densité p par rapport à une mesure σ-finie µ sur
E. Soit Q une autre loi sur E, de densité q par rapport à µ, selon laquelle on sait simuler
efficacement, et qui vérifie :
(2.2) ∀x ∈ E , q(x) = 0 ⇒ φ(x)p(x) = 0 .
Notons que si Y ∼ Q, alors, sous la condition de P -intégrabilité de φ, on a
  Z Z
p(Y ) p(y)
E φ(Y ) = φ(y) q(y)dµ(y) = φ(x)p(x)dµ(x) = I .
q(Y ) E q(y) E
Soit Y1 , . . . , YN un tirage i.i.d. suivant la loi Q. On pose
N
1 X p(Yi )
JN = φ(Yi ) .
N q(Yi )
i=1
La loi des grands nombres donne alors
p.s.
JN −→ I.
On note que l’on ne doit plus simuler suivant la loi P mais suivant la loi Q, que l’on choisit.
Si l’on veut avoir un théorème central limite, il faut pouvoir vérifier la condition de moment
d’ordre 2, c’est-à-dire
"  # Z
p(Y ) 2 φ(y)2 p(y)2
E φ(Y ) = dµ(y) < ∞.
q(Y ) E q(y)
Reprenons l’exemple de l’approximation de I = P(X > 3) où X ∼ N (0, 1). Si l’on utilise
la méthode de Monte-Carlo simple, on pose tout simplement
N
1 X
IN = 1Xi >3 ,
N
i=1

où les variables Xi sont i.i.d. P = N (0, 1). Dans ce cas, on a


√ L 2

N (IN − I) −→ N 0, σMC ,
2. MÉTHODES DE MONTE-CARLO POUR LE CALCUL D’INTÉGRALES 47

avec σMC2 = I(1 − I) ≈ P(N (0, 1) > 3). En utilisant la méthode de Monte-Carlo par
échantillonnage d’importance avec Q = N (3, 1), on pose
N
1 X p(Yi )
JN = 1Y >3 ,
N q(Yi ) i
i=1

où Y1 , . . . , YN sont i.i.d. de loi Q. On a alors


√ L 2

N (JN − I) −→ N 0, σIS ,
avec
2 (y−3)2 1 2 +9 y2
∞ ∞ ∞ ∞
p(y)2 e−y + 2 e− 2 (y+3) e− 2
Z Z Z Z
2
σIS ≤ dy = √ dy = √ dy = e9 √ dy .
3 q(y) 3 2π 3 2π 6 2π
On peut constater numériquement que la variance obtenue par échantillonnage d’importance
est bien plus petite. On a en effet
2
σMC = I(1 − I) ≈ 10−3  σIS
2
≈ e9 P(N (0, 1) > 6) ≈ 10−6 .
Une question naturelle est celle du choix optimal de la loi Q. La proposition suivante a un
intérêt surtout théorique car ce choix optimal dépend d’une intégrale similaire à la quantité
qu’on cherche à obtenir. En revanche elle est utile pour suggérer des formes de densités.
Dans l’exemple précédent par exemple, elle donne une densité optimale qui est la loi normale
conditionnée à être supérieure à 3.

Proposition 2.2. Le choix optimal théorique de la densité q pour la méthode d’échantillonnage


d’importance est donné par
|φ(y)|p(y)
∀y ∈ E , q ? (y) = R .
E |φ(x)|p(x)dµ(x)

Démonstration. Pour un choix de loi Q vérifiant l’hypothèse (2.2), la variance s’écrit


"  #
p(Y ) 2
E φ(Y ) − I2 ,
q(Y )

où Y ∼ Q. Le terme I2 ne dépendant pas de Q, il suffit de minimiser le premier terme. Or,


par l’inégalité de Jensen,
"  #
p(Y ) 2 p(Y ) 2
 
E φ(Y ) ≥ E φ(Y ) = E [|φ(X)|]2 ,
q(Y ) q(Y )
|φ(x)|
où X ∼ P . Définissons la loi Q? de densité q ? (x) = E[|φ(X)|] p(x). C’est bien une loi de
probabilité, elle satisfait la condition (2.2), et elle atteint la borne ci-dessus car, pour Y ∼ Q? ,
on a
"  # Z
p(Y ) 2 2 Z
2 p(y)
E φ(Y ) ? = φ(y) ? dµ(y) = E [|φ(X)|] |φ(y)|p(y)dµ(y) = E [|φ(X)|]2 .
q (Y ) E q (y) E


48 2. SIMULATION DE LA LOI A POSTERIORI

φ(x)
Remarque 2.4. Si φ ≥ 0, alors dQ? (x) = E[φ(X)] dP (x)
et la variance est nulle. Dans ce cas
un seul tirage suffit : J1 = I. Mais c’est complètement irréaliste de supposer que l’on puisse
simuler selon Q∗ puisque c’est précisément E [φ(X)] que l’on souhaite estimer.

2.3. Application : estimation de la moyenne a posteriori. Sauf dans quelques cas


particuliers, la loi a posteriori Π[· X], avec X = (X1 , . . . , Xn ), est un objet extrêmement
complexe. Rappelons que l’on a
π(θ) ni=1 pθ (Xi )
Q
∀θ ∈ Θ , π(θ X) = R Qn ·
Θ π(θ) i=1 pθ (Xi )dν(θ)
Simuler selon la loi a posteriori peut être très compliqué. Mais si l’on cherche non pas à simuler
selon Π[· X] mais à approcher une intégrale contre cette loi, alors le problème se simplifie, et
l’on peut remarquer qu’il suffit en fait de savoir simuler selon R la loi a priori Π. En effet, soit
φ : Θ → R et supposons que l’on veuille évaluer l’intégrale Θ φ(θ)dΠ(θ X) (parQexemple la
moyenne a posteriori pour φ = id). En notant pour alléger les notations pθ (X) = ni=1 pθ (Xi ),
on a R
φ(θ)pθ (X)π(θ)dν(θ)
Z
φ(θ)dΠ(θ X) = ΘR ·
Θ Θ pθ (X)π(θ)dν(θ)
Maintenant si l’on sait générer des variables i.i.d. θ 1 , . . . , θ m de loi Π, on a, par la loi des
grands nombres, quand m → +∞,
m Z
1 X p.s.
φ(θ j )pθj (X) −→ φ(θ)pθ (X)π(θ)dν(θ) ,
m m→+∞ Θ
j=1
et
m Z
1 X p.s.
pθj (X) −→ pθ (X)π(θ)dν(θ) .
m m→+∞ Θ
j=1
Ainsi, par continuité l’estimateur
Pm
j=1 φ(θ j )pθ j (X)
φb(m)
n = Pm
j=1 pθ j (X)
(m) p.s. R
est fortement consistant : φbn −→ Θ φ(θ)dΠ(θ X). Attention, dans cette convergence, n
m→+∞
est fixé et c’est m qui tend vers +∞. En utilisant une méthode Delta en dimension 2, on peut
(m)
aussi montrer que φbn est asymptotiquement normal.
Chapitre 3

Bayésien et théorie de la décision

Dans ce chapitre, nous examinons des critères de choix d’estimateurs. Ceci


exige au préalable de définir une notion de risque et de fonction de perte. Nous
étudions deux critères classiques : le risque de Bayes et le risque minimax, ainsi
que certaines relations entre ces critères. Enfin, nous introduisons quelques
outils pour minorer le risque minimax.

Dans une expérience statistique, à une loi a priori donnée correspond une loi a posteriori
et de celle-ci on peut déduire plusieurs estimateurs tels que la moyenne, la médiane, le mode
etc. Lequel choisir en pratique ? Quels critères de choix énoncer ? Plus généralement, y a-t-il
des estimateurs  optimaux  parmi tous les estimateurs ?

1. Risque ponctuel, risque bayésien, risque maximal


On se place dans le cadre d’une expérience (X, P) avec P = {Pθ , θ ∈ Θ}, le modèle étant
dominé par une mesure µ sur E (dPθ = pθ dµ), et l’on suppose que l’application (θ, x) 7→ pθ (x)
est mesurable.

Définition 3.1. Une fonction de perte ` est une fonction ` : Θ × Θ → R+ mesurable avec
∀ θ, θ0 ∈ Θ, `(θ, θ0 ) = 0 ⇔ θ = θ0 .

Exemple 3.1.

I Si Θ ⊂ R, la fonction `(θ, θ0 ) = (θ − θ0 )2 s’appelle la perte quadratique.


I Plus généralement, la perte quadratique dans Θ ⊂ Rd est donnée par
d
X
`(θ, θ0 ) = kθ − θ0 k2 = (θi − θi0 )2 .
i=1

I Si Θ ⊂ R, la fonction `(θ, θ0 ) = |θ − θ0 | s’appelle la perte en valeur absolue.

1.1. Fonction de risque. On rappelle qu’un estimateur T est une fonction mesurable
T : E → Θ.

Définition 3.2. La fonction de risque (ou simplement le risque) d’un estimateur T pour la
fonction de perte ` est l’application
R(·, T ) : Θ → R+ R
θ 7→ R(θ, T ) = Eθ [ `(θ, T (X)) ] = E `(θ, T (x))dPθ (x).
49
50 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION

Le risque au point θ de l’estimateur T est donc la perte moyenne de T en θ (on parle de risque
ponctuel).

La fonction de perte, et le risque en résultant, peuvent être vus comme des coûts associés
aux estimateurs, et vont nous permettre de comparer ceux-ci entre eux. Cependant, définir
une notion de meilleur estimateur possible est quelque chose de délicat, qui a mis longtemps à
émerger historiquement.
On peut se convaincre de la difficulté intrinsèque du problème de définition de meilleur
estimateur possible en reprenant l’exemple du modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R} pour la
perte quadratique : l’estimateur constant égal à θ0 ∈ R a un risque nul en θ0 donc est meilleur
que n’importe quel autre estimateur en ce point, mais pour tous les θ tels que (θ − θ0 )2 > 1/n,
on préfère l’estimateur X n qui a un risque constant sur R égal à 1/n.
Dans la suite, on fixe une fonction de perte. Les définitions et résultats qui suivent
s’entendent donc à fonction de perte fixée, même si, pour alléger les notations, on ne rappellera
pas tout le temps cette dépendance.
Intuition. La notion de risque bayésien définie ci-dessous va nous donner une réponse possible
à la question de trouver un estimateur de risque optimal. Cependant, cette notion dépendra
de l’a priori choisi, ce qui n’en fait pas une réponse  universelle . Le risque minimax défini
ensuite est lui plus universel au sens où il ne dépend pas d’un prior particulier, mais correspond
à une vision un peu pessimiste (on cherche un estimateur T qui minimise le pire risque possible,
soit supθ∈Θ R(θ, T )).

1.2. Risque bayésien et estimateurs de Bayes. Soit Π une loi a priori donnée sur
Θ, de densité π par rapport à ν. Rappelons que nous travaillons également à fonction de perte
` donnée. Ainsi les définitions ci-dessous dépendent implicitement de `.

Définition 3.3. On appelle risque de Bayes ou parfois risque bayésien pour l’estimateur T
et la loi a priori Π la quantité
RB (Π, T ) = E [`(θ, T (X))]
Z Z
= `(θ, T (x))dPθ (x)dΠ(θ)
Θ E
Z
= R(θ, T )dΠ(θ)
Θ
= E [R(θ, T )] ,
où la deuxième égalité vient du théorème de Fubini. En effet, en se rappelant que le couple
(X, θ) a pour densité (x, θ) 7→ pθ (x)π(θ) par rapport à µ ⊗ ν et en utilisant le théorème de
Fubini, on a
Z
E [`(θ, T (X))] = `(θ, T (x))pθ (x)π(θ)d(µ ⊗ ν)(x, θ)
E×Θ
Z  Z 
= `(θ, T (x))pθ (x)dµ(x) π(θ)dν(θ)
Θ E
Z Z 
= `(θ, T (x))dPθ (x) dΠ(θ) .
Θ E
1. RISQUE PONCTUEL, RISQUE BAYÉSIEN, RISQUE MAXIMAL 51
 
Une autre façon de le voir est par conditionnement : en remarquant que R(θ, T ) = E `(θ, T (X) θ ,
on a

  
E [`(θ, T (X))] = E E `(θ, T (X)) θ = E [R(θ, T )] .

Définition 3.4. Un estimateur T ? est dit de Bayes pour la loi a priori Π si

RB (Π, T ? ) = inf RB (Π, T ),


T

où l’infimum porte sur tous les estimateurs T possibles. On note alors

RB (Π) = inf RB (Π, T )


T

qui s’appelle risque de Bayes pour la loi a priori Π.

Un estimateur de Bayes pour Π a donc un risque qui minimise le risque bayésien pour Π,
qui est une moyenne des risques ponctuels en θ contre la loi a priori Π sur Θ. Un tel estimateur
minimise donc un risque  en moyenne selon Π .

Exemple 3.2. Dans le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R}, considérons la loi a priori
Π = N (0, 1) et la fonction de perte quadratique `(θ, θ0 ) = (θ − θ0 )2 . Calculons le risque de
Bayes pour Π des estimateurs suivants

n
T1 (X) = 0, T2 (X) = X n , T3 (X) = X n.
n+1

Pour l’estimateur constant T1 , on a

Z
RB (Π, T1 ) = R(θ, T1 )dΠ(θ)
Θ
Z Z
= (θ − T1 (x))2 dPθ (x)dΠ(θ)
Θ E
Z Z Z
2
= θ dPθ (x)dΠ(θ) = θ2 dΠ(θ) = 1.
Θ E Θ

Pour T2 , rappelons d’abord que sous la loi Pθ , la variable X n − θ suit la loi N (0, 1/n). Ainsi,
comme nous l’avons déjà vu, pour tout θ ∈ Θ, R(θ, T2 ) = Eθ [(X n − θ)2 ] = 1/n, et

Z
1 1
RB (Π, T2 ) = dΠ(θ) = .
Θ n n
52 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION

Pour T3 , nous calculons d’abord, pour θ ∈ Θ,


" 2 #
n
R(θ, T3 ) = Eθ Xn − θ
n+1
" 2 #
n θ
= Eθ (X n − θ) −
n+1 n+1
 2  2
n  2
 θ
= Eθ (X n − θ) + car Eθ [X n − θ] = 0
n+1 n+1
n θ2
= + ,
(n + 1)2 (n + 1)2
où la dernière égalité vient du fait que Eθ (X n − θ)2 = 1/n. On obtient
 
Z
n 1
RB (Π, T3 ) = + θ2 dΠ(θ)
(n + 1)2 (n + 1)2 Θ
n 1 1
= 2
+ 2
= ·
(n + 1) (n + 1) n+1
On constate que pour tout n ≥ 2, RB (Π, T3 ) < RB (Π, T2 ) < RB (Π, T1 ). Nous verrons par la
suite que T3 est en fait un estimateur de Bayes pour Π et la fonction de perte quadratique.

1.3. Risque maximal et estimateurs minimax.

Définition 3.5. Le risque maximal d’un estimateur T est


Rmax (T ) = sup R(θ, T ).
θ∈Θ

De même que pour le risque de Bayes, il est alors naturel de chercher un estimateur qui
est le meilleur du point de vue du risque maximal, ce qui amène à la définition suivante.

Définition 3.6. Le risque minimax RM est défini comme


RM = inf Rmax (T ) = inf sup R(θ, T ),
T T θ∈Θ

où l’infimum porte sur tous les estimateurs possibles T . Un estimateur T ? est minimax si
Rmax (T ? ) = RM .

Puisque Rmax (T ) peut être vu comme le  pire risque  pour T sur l’ensemble des points
θ ∈ Θ, un estimateur minimax s’interprète comme un estimateur optimal dans le pire des cas
alors qu’un estimateur de Bayes est optimal en moyenne. En ce sens, le critère minimax est
plus pessimiste que le critère de Bayes, mais il a l’avantage d’être plus universel en ce qu’il ne
dépend pas de la loi a priori Π.

Exemple 3.3. Reprenons l’exemple précédent du modèle gaussien avec les estimateurs T1 , T2
et T3 et calculons le risque maximal de chacun.
2. CONSTRUCTION D’ESTIMATEURS DE BAYES 53

Rmax (T1 ) = sup Eθ [(0 − θ)2 ] = sup θ2 = +∞


θ∈R θ∈R
 1
Rmax (T2 ) = sup Eθ (X n − θ)2 =

θ∈R n
θ2
 
n
Rmax (T3 ) = sup 2
+ = +∞.
θ∈R (n + 1) (n + 1)2
Le fait que Θ = R soit ici non borné fait que le risque maximal puisse être infini, ce qui advient
même pour un estimateur  raisonnable  comme T3 . On peut en fait montrer que T2 est un
estimateur minimax dans ce cadre.

Les notions de risque de Bayes et de risque minimax peuvent être reliées entre elles sous
certaines hypothèses, comme nous le verrons dans la suite.

2. Construction d’estimateurs de Bayes


Nous allons maintenant voir qu’il est souvent possible de proposer une construction
spécifique d’un estimateur de Bayes pour une fonction de perte ` et un a Rpriori Π donnés.
Rappelons qu’un tel estimateur minimise en T le risque bayésien RB (Π, T ) = Θ R(θ, T )dΠ(θ).

Définition 3.7. Soient ` une fonction de perte, Π une loi a priori et T un estimateur. Le
risque a posteriori ρ(Π, T X) est défini par
Z
 
ρ(Π, T X) = E `(θ, T (X)) X = `(θ, T (X))dΠ(θ X).
Θ

Au lieu de prendre la moyenne de la fonction de perte par rapport à la loi de (θ, X) comme
pour le risque bayésien de la Définition 3.4, le risque a posteriori s’obtient conditionnellement
à X en prenant la moyenne de la fonction de perte par rapport à la loi a posteriori Π[ · X].
Le risque a posteriori ρ(Π, T X) est donc une variable aléatoire qui dépend de X.

Exercice 3.1. Dans le modèle gaussien avec a priori Π = N (0, 1), calculer les risques a
posteriori pour les estimateurs T1 , T2 , T3 de l’exemple 3.2 et la perte quadratique.

Theorème 3.1. Une fonction de perte ` et une loi a priori Π étant données, un élément
T ? (X) ∈ arg min ρ(Π, T X),
T
s’il existe, est un estimateur de Bayes pour Π.

On peut légitimement se demander en quoi le résultat du Théorème 3.1 est une simplification
par rapport à la définition d’un estimateur de Bayes, qui introduit aussi un minimum. À
supposer que l’on ait pu déterminer la loi a posteriori, le problème de minimisation du
Théorème 3.1 est généralement plus simple à résoudre explicitement, en ce qu’il ne fait
intervenir qu’une seule intégrale et non deux :
Z
ρ(Π, T X) = `(θ, T (X))dΠ(θ X) ,
Θ
54 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION

alors que
Z Z
RB (Π, T ) = `(θ, T (x))dPθ (x)dΠ(θ) .
Θ E

Démonstration du Théorème 3.1. On peut supposer qu’il existe un estimateur T tel


que RB (Π, T ) soit fini. Si ce n’est pas le cas, alors tout estimateur a un risque de Bayes pour
Π infini, donc tout estimateur est de Bayes. Pour tout T tel que RB (Π, T ) est fini, on a
RB (Π, T ) = E [`(θ, T (X))]
  
= E E `(θ, T (X)) X
 
= E ρ(Π, T X) .
Par définition, ρ(Π, T X) ≥ ρ(Π, T ? X). On en déduit que
RB (Π, T ) ≥ E ρ(Π, T ? X) = RB (Π, T ? ) .
 

Ainsi, T ? est de Bayes, ce qu’il fallait démontrer. 

Examinons maintenant les conséquences du Théorème 3.1 dans le cas de plusieurs fonctions
de perte classiques.

2.1. Bayes et fonction de perte quadratique. Considérons, pour Θ ⊂ R, la fonction


de perte quadratique
`(θ, θ0 ) = (θ − θ0 )2 , θ, θ0 ∈ R.

Proposition 3.2. Soit ` la perte quadratique et soit Π une loi a priori sur Θ ⊂ R. On
suppose E[θ 2 X] < ∞ p.s. Un estimateur de Bayes pour ` et la loi Π est donné par
Z
?
T (X) = E[θ X] = θdΠ(θ X),
Θ
la moyenne a posteriori pour la loi a priori Π.

Remarque 3.4. On suppose dans la proposition que E[θ2 X] < ∞ p.s. On peut montrer
que si E[θ 2 X] = +∞ avec probabilité strictement positive, alors le risque a posteriori de tout
estimateur T (X) est infini avec probabilité strictement positive, et donc le risque de Bayes de
tout estimateur est infini. Tout estimateur est donc de Bayes.

Démonstration de la Proposition 3.2. D’après le Théorème 3.1, il suffit de chercher


un estimateur de Bayes sous la forme
Z
T ? (X) = arg min (T (X) − θ)2 dΠ(θ X).
T Θ

Pour une variable aléatoire Z de carré intégrable, la fonction ψ : a 7→ E[(Z − a)2 ] est minimale
pour a = E[Z] car
ψ(a) = E[(Z − EZ)2 ] + (E[Z] − a)2 ≥ ψ(E[Z]).
Il suffit d’appliquer cette remarque à Z de loi L(θ X) pour conclure, en notant que E[θ 2 X] <
∞ par hypothèse, et que E[Z] est alors E[θ X], la moyenne a posteriori. 
2. CONSTRUCTION D’ESTIMATEURS DE BAYES 55

Remarque 3.5. Pour calculer le risque de Bayes RB (Π) (pour la perte quadratique), il y a
deux manières de procéder. Généralement, le plus simple est de calculer la fonction de risque
de l’estimateur de Bayes T ? : h i
θ 7→ Eθ (T ? (X) − θ)2 ,
puis de l’intégrer contre Π. Mais dans certains cas, il peut être plus judicieux de remarquer
que, pour la perte quadratique, le risque de Bayes est l’espérance de la variance a posteriori
RB (Π) = E[vX ] ,
h 2 i
où vX = E θ − E[θ X] X . En effet,
h 2 i h h 2 ii
RB (Π) = RB (Π, E[θ X]) = E θ − E[θ X] = E E θ − E[θ X] X ,

Calculer E[vX ] est souvent difficile car il faut déterminer la loi marginale de X. Mais dans
certains cas, c’est très simple, notamment lorsque vX ne dépend pas de X, comme c’est le cas
dans le modèle gaussien ci-dessous.

Exemple 3.6.

I Dans le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R} avec Π = N (0, 1), nous avons vu au
Chapitre 1 que
 
nX n 1
Π[· X] = N , .
n+1 n+1
On en déduit avec la Proposition 3.2 qu’un estimateur de Bayes pour Π et la perte
quadratique est donné par E[θ X] = nX
n+1 , comme annoncé plus haut. Et par la remarque
n

1
ci-dessus, on a alors RB (Π) = E[vX ] = n+1 .
⊗n
I Dans le modèle de Bernoulli P = {B(θ) , θ ∈ [0, 1]} avec Π = Unif([0, 1]) = Beta(1, 1),
nous avons vu que
Π[· X] = Beta(nX n + 1, n − nX n + 1).
La moyenne a posteriori est
nX n + 1 nX n + 1
E[θ X] = = ·
nX n + 1 + n − nX n + 1 n+2
Par la Proposition 3.2, c’est un estimateur de Bayes pour Π et la perte quadratique.
Calculons le risque quadratique de cet estimateur. Pour tout θ ∈ [0, 1],
  " 2 #
nX n + 1 nX n + 1
R θ, = Eθ −θ
n+2 n+2
1 h 2 i
= Eθ n(X n − θ) + 1 − 2θ
(n + 2)2
1
Var(nX n ) + (1 − 2θ)2

= 2
(n + 2)
nθ(1 − θ) + (1 − 2θ)2
= ·
(n + 2)2
56 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION

Le risque de Bayes pour Π = Unif[0, 1] est donc


 Z 1
nθ(1 − θ) + (1 − 2θ)2

nX n + 1
RB (Π) = RB Π, = dθ.
n+2 0 (n + 2)2
Après quelques calculs, on trouve
1
RB (Π) = ·
6(n + 2)

2.2. Bayes et fonction de perte en valeur absolue. Considérons, pour Θ ⊂ R, la


fonction de perte en valeur absolue
`(θ, θ0 ) = |θ − θ0 |, θ, θ0 ∈ R.

Proposition 3.3. Soit ` la perte en valeur absolue et soit Π une loi a priori sur Θ ⊂ R. On
suppose E[|θ| X] < ∞. Un estimateur de Bayes pour ` et la loi Π est donné par
−1
T ? (X) = FX (1/2),
la médiane a posteriori pour la loi a priori Π.

Démonstration de la Proposition 3.3. D’après le Théorème 3.1, il suffit de chercher


un minimiseur de la fonction
 
T (X) 7→ E |θ − T (X)| X .
Montrons que pour une variable aléatoire réelle Z intégrable de fonction de répartition F et
de médiane m = F −1 (1/2), on a
(3.1) m ∈ arg min E [|Z − a|] .
a∈R
Pour tout a ∈ R, on a
Z +∞
E [|Z − a|] = P(|Z − a| > t)dt
0
Z +∞ Z +∞
= P(Z > a + t)dt + P(Z < a − t)dt
0 0
Z +∞ Z a
= P(Z > t)dt + P(Z < t)dt .
a −∞
Ainsi, si a < m, on a
Z m
E [|Z − a|] − E [|Z − m|] = {P(Z > t) − P(Z < t)}dt .
a
Or pour t < m, on a P(Z > t) = 1 − P(Z ≤ t) > 1/2, donc l’intégrale ci-dessus est positive. Et
si a > m, on a
Z a
E [|Z − a|] − E [|Z − m|] = {P(Z < t) − P(Z > t)}dt .
m
Or pour t > m, on a P(Z < t) ≥ P(Z ≤ m) ≥ 1/2, donc dans ce cas aussi, l’intégrale est
positive, ce qui établit (3.1). En appliquant ce résultat à la loi a posteriori, on obtient bien
−1
 
FX (1/2) ∈ arg min E |θ − T (X)| X .
T
3. RELATION ENTRE CRITÈRES DE DÉCISION 57

3. Relation entre critères de décision


3.1. Une inégalité très simple et très utile.

Theorème 3.4. Pour toute loi a priori Π sur Θ et toute fonction de perte, le risque bayésien
minore toujours le risque minimax :
RB (Π) ≤ RM .
R
Démonstration. Par définition RB (Π) = inf T R(θ, T )dΠ(θ). Or comme Π(Θ) = 1,
Z Z
R(θ, T )dΠ(θ) ≤ sup R(θ, T ) dΠ(θ) = sup R(θ, T ).
Θ θ∈Θ Θ θ∈Θ
En prenant l’infimum en T de part et d’autre, il vient RB (Π) ≤ RM . 
De nombreuses minorations de risques minimax reposent sur cette inégalité. Souvent, le
risque minimax sur un modèle donné peut être obtenu en construisant une loi a priori  la plus
défavorable , i.e. pour laquelle RB (Π) est le plus grand possible. Nous verrons un exemple
ci-dessous.
3.2. Minimaxité : conditions suffisantes.

Theorème 3.5. Soit T un estimateur de Bayes pour une loi a priori Π. Si T est de risque
constant, alors T est minimax.

Démonstration. Soit T 0 un estimateur. Comme T est de Bayes pour Π, on a


Rmax (T 0 ) ≥ RB (Π, T 0 ) ≥ RB (Π, T ) .
Mais comme T est de risque constant, RB (Π, T ) = Rmax (T ). Ainsi pour tout estimateur T 0 ,
on Rmax (T 0 ) ≥ Rmax (T ), donc T est minimax. 
Application. Dans le modèle binomial Pθ = B(n, θ), avec θ ∈ [0, 1], un estimateur minimax
pour le risque quadratique peut s’obtenir comme suit. Soit Πa,b une loi a priori Beta(a, b) (voir
TDs) sur θ. Pour tous a, b > 0, on peut calculer explicitement la moyenne a posteriori E[θ X]
pour l’a priori Πa,b . L’un de ces estimateurs a un risque quadratique constant (voir TDs pour
les calculs), il est donc minimax.

Theorème 3.6. Si un estimateur T est tel qu’on puisse trouver une suite (Πk )k≥1 de lois a
priori avec
Rmax (T ) = lim RB (Πk ),
k→∞
alors T est minimax.

Démonstration. Tout risque bayésien est inférieur ou égal au risque minimax RM , qui
est lui-même inférieur ou égal à Rmax (T ). Donc on a
Rmax (T ) = lim RB (Πk ) ≤ RM ≤ Rmax (T )
k→∞
On en conclut Rmax (T ) = RM donc T est minimax. 
58 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION

Application. Dans le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R}, l’estimateur X n est minimax
pour la perte quadratique. Pour la loi a priori Πσ2 = N (0, σ 2 ), le risque bayésien RB (Πσ2 )
s’obtient en calculant le risque de Bayes de la moyenne a posteriori, puisqu’il s’agit d’un
estimateur de Bayes pour la perte quadratique. On obtient RB (Πσ2 ) = n+σ1 −2 . Or
1 1
lim −2
= = Rmax (X n ),
σ 2 →∞ n+σ n
ce qui montre que X n est minimax.

4. Minorations du risque minimax


Sauf dans certains cas particuliers, montrer qu’un estimateur est minimax s’avère être une
tâche difficile. Généralement, on dispose d’un estimateur dont on sait calculer, ou au moins
majorer, le risque. Mais rien ne nous dit que cet estimateur est minimax, c’est-à-dire que
l’on ne pourrait pas trouver un autre estimateur qui  ferait mieux dans le pire des cas . Il
est donc important de savoir minorer le risque minimax, pour pouvoir affirmer que le risque
maximal de tout estimateur doit nécessairement être plus grand qu’une certaine valeur.
Dans cette section, nous allons présenter une méthode, la méthode de Le Cam, qui permet
en fait d’obtenir une minoration non seulement du risque minimax, mais même d’une quantité
plus petite que l’on appelera le risque minimax binaire.

Définition 3.8. Soient θ0 , θ1 ∈ Θ. On appelle risque minimax binaire en θ0 , θ1 la quantité


RθM0 ,θ1 = inf max {R(θ0 , T ), R(θ1 , T )} ,
T

où l’infimum porte sur tous les estimateurs possibles.

Le risque minimax binaire correspond au risque minimax sur l’ensemble à deux éléments
{θ0 , θ1 }. Notons que si l’on se restreint à un ensemble à un seul élément {θ0 }, alors le risque
minimax est nul puisque l’estimateur constant égal à θ0 a un risque nul en θ0 . La question
se complexifie déjà grandement si l’on considère deux points distincts θ0 et θ1 , d’où l’intérêt
d’étudier le risque minimax binaire.
Notons aussi que si l’on sait minorer le risque minimax binaire pour deux éléments
θ0 , θ1 ∈ Θ quelconques, alors on obtient immédiatement une borne inférieure sur le risque
minimax puisque
RM ≥ sup RθM0 ,θ1 .
θ0 ,θ1

4.1. La borne de Le Cam. De nombreux résultats de minoration du risque minimax,


comme la borne inférieure de Le Cam présentée dans cette section, reposent sur l’argument
bayésien suivant. On remarque que pour ` une fonction de perte donnée, pour tous points
θ0 , θ1 de Θ, et pour tout estimateur T ,
1
max {R(θ0 , T ), R(θ1 , T )} ≥ (R(θ0 , T ) + R(θ1 , T )) .
2
Cela revient à utiliser l’inégalité R(Π, T ) ≤ Rmax (T ) pour Θ = {θ0 , θ1 } et l’a priori
1 1
Π = δθ0 + δθ1 .
2 2
4. MINORATIONS DU RISQUE MINIMAX 59

En prenant l’infimum en T , on obtient


1
(3.2) RθM0 ,θ1 ≥ inf(R(θ0 , T ) + R(θ1 , T )) .
T 2
L’inégalité (3.2) constitue la première étape de minoration . Ensuite, on aimerait minorer
R(θ0 , T ) + R(θ1 , T ) par un terme qui ne dépende plus de T . Pour cela nous allons avoir besoin
de l’hypothèse suivante (vérifiée pour toutes les fonctions de perte considérées dans ce cours).

Hypothèse. On suppose que la fonction de perte ` s’écrit


(3.3) `(·, ·) = d(·, ·)p ,
où d(·, ·) est une distance et p ≥ 1 un réel.

Lemme 3.7. Si l’hypothèse (3.3) est vérifiée, alors, pour tous t, θ0 ,θ1 ∈ Θ,
1 1
(`(θ0 , t) + `(θ1 , t)) ≥ p `(θ0 , θ1 )·
2 2

Démonstration. Supposons que `(·, ·) = d(·, ·)p , avec p ≥ 1 et d une distance. Par
l’inégalité triangulaire on a
`(θ0 , θ1 ) ≤ (d(θ0 , t) + d(θ1 , t))p .
Comme p ≥ 1, la fonction x 7→ xp est convexe sur R+ , et, par l’inégalité de Jensen,
d(θ0 , t) + d(θ1 , t) p
 
(d(θ0 , t) + d(θ1 , t))p = 2p ≤ 2p−1 (d(θ0 , t)p + d(θ1 , t)p ) .
2
Ainsi,
`(θ0 , θ1 )
`(θ0 , t) + `(θ1 , t) ≥ ·
2p−1

Le Lemme 3.7 ne permet pas immédiatement de minorer la quantité R(θ0 , T ) + R(θ1 , T )
par une quantité ne dépendant plus de T . En effet, l’intégration de la fonction de perte dans
R(θ0 , T ) et dans R(θ1 , T ) se fait contre des mesures différentes, Pθ0 et Pθ1 . La notion d’affinité
présentée ci-dessous va nous permettre de résoudre ce problème.

Définition 3.9. Soient P, Q deux mesures de probabilité sur (E, E) avec dP = pdµ et
dQ = qdµ. La distance en variation totale entre P et Q est définie par
dvt (P, Q) = sup {P (A) − Q(A)} .
A∈E
Notons p ∧ q la fonction x 7→ (p ∧ q)(x) = min{p(x), q(x)}. On appelle affinité (en variation
totale) entre P et Q la quantité
Z
A(P, Q) = (p ∧ q)(x)dµ(x).
E

Proposition 3.8. Soient P, Q deux mesures de probabilité avec dP = pdµ et dQ = qdµ. On


a Z Z
1
dvt (P, Q) = |p(x) − q(x)|dµ(x) = (p(x) − q(x))+ dµ(x),
2 E E
60 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION

et
A(P, Q) = 1 − dvt (P, Q).

Démonstration. Commençons par montrer que le supremum dans la définition de dvt


est atteint par
Λ = {x ∈ E, p(x) > q(x)} .
En effet, soit A un sous-ensemble quelconque de E. On a
P (A) − Q(A) ≤ P (A ∩ Λ) − Q(A ∩ Λ) ≤ P (Λ) − Q(Λ) .
Ainsi Z
dvt (P, Q) = P (Λ) − Q(Λ) = (p(x) − q(x))+ dµ(x) ,
E
et comme P (Λ) − Q(Λ) = Q(Λc ) − P (Λc ), on a aussi
Z
1 c c 1
dvt (P, Q) = (P (Λ) − Q(Λ) + Q(Λ ) − P (Λ )) = |p(x) − q(x)|dµ(x).
2 2 E
Pour la dernière égalité de l’énoncé, on note que pour tout x ∈ E,
1
(p ∧ q)(x) = (p(x) + q(x) − |p(x) − q(x)|) .
2
Il suffit ensuite d’intégrer par rapport à µ en utilisant que p et q sont des densités par rapport
à µ. 

Theorème 3.9. Si (3.3) est vérifiée avec `(·, ·) = d(·, ·)p , alors, pour tous θ0 , θ1 ∈ Θ,
1 d(θ0 , θ1 )p
inf (R(θ0 , T ) + R(θ1 , T )) ≥ A(Pθ0 , Pθ1 ).
T 2 2p

Démonstration. Soit T un estimateur. En utilisant le Lemme 3.7 avec t = T (x),


Z Z 
1 1
(R(θ0 , T ) + R(θ1 , T )) = `(θ0 , T (x))pθ0 (x)dµ(x) + `(θ1 , T (x))pθ1 (x)dµ(x)
2 2
Z En E
1 o
≥ `(θ0 , T (x)) + `(θ1 , T (x)) (pθ0 ∧ pθ1 )(x)dµ(x)
2 E
Z
`(θ0 , θ1 ) `(θ0 , θ1 )
≥ p
(pθ0 ∧ pθ1 )(x)dµ(x) = A(Pθ0 , Pθ1 ).
2 E 2p
Cette inégalité étant valable pour tout estimateur T , on a
1 `(θ0 , θ1 )
inf (R(θ0 , T ) + R(θ1 , T )) ≥ A(Pθ0 , Pθ1 )
T 2 2p

Autrement dit, si (3.3) est vérifiée,
1 d(θ0 , θ1 )p
(3.4) inf (R(θ0 , T ) + R(θ1 , T )) ≥ (1 − dvt (Pθ0 , Pθ1 )) .
T 2 2p
L’objectif dans la suite de cette section va être, entre autres, de démontrer que la  meilleure
vitesse possible  au sens du risque minimax local pour la perte quadratique dans les modèles
paramétriques réguliers est de l’ordre de 1/n. De tels modèles sont de la forme P = {Pθ⊗n , θ ∈
Θ}, avec Θ ⊂ Rd et d ≥ 1 fixé (par exemple, le modèle gaussien avec n observations). Pour
4. MINORATIONS DU RISQUE MINIMAX 61

cela, d’après (3.4), il suffit de majorer dvt (Pθ⊗n


0
, Pθ⊗n
1
), pour des points θ0 , θ1 bien choisis dans
Θ.

Définition 3.10. Soient P, Q deux mesures de probabilité sur (E, E) avec dP = pdµ et
dQ = qdµ. La distance de Hellinger entre P et Q est définie par
Z 1/2
p p 2
h(P, Q) = ( p(x) − q(x)) dµ(x) .
E
On définit l’affinité de Hellinger entre P et Q par
Z p
ρ(P, Q) = p(x)q(x)dµ(x).
E

On peut vérifier que les définitions ci-dessus sont indépendantes du choix de la mesure
dominante µ.

Proposition 3.10. Les quantités ρ et h ont les propriétés suivantes :


(1) h(P, Q)2 = 2 − 2ρ(P, Q).

(2) 0 ≤ h(P, Q) ≤ 2.
(3) dvt (P, Q) ≤ h(P, Q).
(4) Soient deux mesures produit P, Q données par
P = ⊗ni=1 Pi , Q = ⊗ni=1 Qi ,
où l’on suppose que dPi = pi dµ et dQi = qi dµ, pour tout i ∈ J1, nK. Alors
n
Y
ρ(P, Q) = ρ(Pi , Qi ).
i=1

Démonstration. (1) Par définition, et comme p et q sont des densités,


√ √
Z Z  p 
h(P, Q)2 = ( p − q)2 dµ = p(x) + q(x) − 2 p(x)q(x) dµ(x) = 2 − 2ρ(P, Q).
E E
(2) Clairement h(P, Q) ≥ 0 et h(P, Q)2 = 2 − 2ρ(P, Q) ≤ 2.
(3) En utilisant l’inégalité de Cauchy-Schwarz,
Z
1
dvt (P, Q) = |p(x) − q(x)|dµ(x)
2 E
Z p
1 p p p
= | p(x) − q(x)|| p(x) + q(x)|dµ
2
Z 1
1 p p 2
2
≤ h(P, Q) ( p(x) + q(x)) dµ(x) .
2 E

En utilisant l’inégalité (a + b)2 ≤ 2(a2 + b2 ) et le fait que p et q sont des densités, on obtient
bien l’inégalité voulue.
(4) En effet, par définition de P ,
dP (x1 , . . . , xn ) = p1 (x1 ) · · · pn (xn )dµ(x1 ) · · · dµ(xn ),
62 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION

donc P a pour densité p1 (x1 ) · · · pn (xn ) par rapport à µ⊗n . Via le théorème de Fubini,
v v
Z Z u n u n
uY uY
ρ(P, Q) = · · · t pi (xi )t qi (xi ) dµ(x1 ) · · · dµ(xn )
i=1 i=1
n Z
Y p p
= pi (xi ) qi (xi )dµ(xi )
i=1
n
Y
= ρ(Pi , Qi ).
i=1

Proposition 3.11. Soient P, Q deux mesures de probabilité sur (E, E) avec dP = pdµ et
dQ = qdµ. On a

dvt (P ⊗n , Q⊗n ) ≤ nh(P, Q) .

Démonstration. Par la propriété (3) de la Proposition 3.10, on a


√ p
dvt (P ⊗n , Q⊗n ) ≤ h(P ⊗n , Q⊗n ) = 2 1 − ρ(P ⊗n , Q⊗n ) .

Or, par la propriété (4),


n
h2 (P, Q)

⊗n ⊗n n
ρ(P ,Q ) = ρ(P, Q) = 1 − .
2

En utilisant l’inégalité (1 − x)n ≥ 1 − nx pour x ∈ [0, 1], on en déduit

nh2 (P, Q)
ρ(P ⊗n , Q⊗n ) ≥ 1 − ,
2
puis que
r
√ nh2 (P, Q) √
dvt (P ⊗n , Q⊗n ) ≤ 2 = nh(P, Q) .
2


En combinant l’inégalité 3.4 et la Proposition 3.11, on en déduit le résultat suivant, appélé


Théorème de Le Cam.

Theorème 3.12 (Borne de Le Cam). Soit P = {Pθ⊗n , θ ∈ Θ} un modèle quelconque et `


une fonction de perte donnée par
`(·, ·) = d(·, ·)p
pour p ≥ 1 et d une distance sur Θ. Alors pour tous θ0 , θ1 ∈ Θ,
d(θ0 , θ1 )p √
RM ≥ RθM0 ,θ1 ≥

1 − nh(θ 0 , θ1 ) .
2p
4. MINORATIONS DU RISQUE MINIMAX 63

4.2. Applications. Si l’on s’intéresse au risque quadratique `(θ, θ0 ) = kθ − θ0 k2 (i.e. d


est la distance euclidienne et p = 2), le théorème de Le Cam donne, pour tous θ0 , θ1 ∈ Θ,
kθ0 − θ1 k2 √
RθM0 ,θ1 ≥

1 − nh(θ0 , θ1 ) .
4
Pour θ0 ∈ Θ fixé, on peut se demander quel θ1 va rendre RθM0 ,θ1 le plus grand possible, i.e.
quel θ1 sera le plus difficile à distinguer de θ0 , pour tout estimateur. La lecture du membre de
droite dans l’inégalité ci-dessus nous indique deux choses : il faut prendre θ1 assez éloigné de θ0
en distance euclidienne, car si θ1 et θ0 sont trop proches, bien estimer θ1 revient à bien estimer
θ0 . Mais il faut aussi choisir θ1 de sorte que la loi Pθ1 soit proche en distance de Hellinger
de la loi Pθ0 , car si les deux lois sont trop différentes, alors on saura facilement savoir si un
échantillon est issu de Pθ0 ou de Pθ1 .
En pratique,
√ on procède généralement de la façon suivante : on cherche θ1 de telle sorte
que 1 − nh(θ0 , θ1 ) soit plus grand qu’une constante strictement positive. Cette constante
étant nécessairement inférieure à 1, on peut par exemple viser 1/2 (on peut aussi chercher
à optimiser la constante, comme cela est fait plus bas). L’ordre de grandeur obtenu pour la
borne inférieure sera alors donnée par kθ0 − θ1 k2 . √
En particulier, on voit que si l’on peut trouver θ0 , θ1 à distance de l’ordre de 1/ n à la
fois pour la distance euclidienne et pour la distance de Hellinger, alors on obtient une borne
inférieure en 1/n pour le risque minimax binaire, et donc pour le risque minimax.

Exemple 3.7. Dans le modèle gaussien Pθ = N (θ, 1), on peut vérifier par le calcul (voir
TD) que
 
(θ −θ )2
2 − 0 81
h (θ0 , θ1 ) = 2 1 − e .

Pour tout θ0 ∈ R, si l’on prend θ1 = θ0 + 1/ n, en utilisant 1 − e−x ≤ x, on a
 1
 1
h2 (θ0 , θ1 ) = 2 1 − e− 8n ≤ ,
4n
et ainsi, par le Théorème 3.12, le risque minimax binaire peut être minoré par

 
1 1 1
RθM0 ,θ1 ≥ 1− n· √ = ·
4n 2 n 8n
1
En particulier, RM ≥ 8n . C’est le bon ordre de grandeur puisque
1
RM ≤ Rmax (X n ) = ·
n

Exemple 3.8. Dans le modèle Bernoulli Pθ = B(θ), on vérifie que pour tous θ1 , θ1 ∈ [0, 1],
on a
 p p 
h2 (θ0 , θ1 ) = 2 1 − θ0 θ1 − (1 − θ0 )(1 − θ1 ) .

Pour tout θ0 ∈]0, 1[ fixé, si l’on prend θ1 = θ0 + ε, on a


 r r 
2 ε ε
h (θ0 , θ1 ) = 2 1 − θ0 1 + − (1 − θ0 ) 1 − .
θ0 1 − θ0
64 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION
√ √
En effectuant les développements limités à l’ordre 2 de 1 + x et 1 − x, on obtient, quand
ε → 0,
ε2
h2 (θ0 , θ0 + ε) ∼
4θ0 (1 − θ0 )

q
On voit donc qu’en prenant ε = θ0 (1−θ n
0)
, on a 1 − nh(θ0 , θ0 + ε) = 12 + o(1). Ainsi, pour
ce choix de ε, la borne de Le Cam donne
θ0 (1 − θ0 )
RθM0 ,θ0 +ε ≥ (1 + o(1)) .
8n
Là encore c’est le bon ordre de grandeur, non seulement pour le risque minimax (obtenu en
prenant θ0 = 1/2), mais aussi pour le risque minimax binaire. En effet, en considérant la
moyenne empirique, on sait que
θ0 (1 − θ0 )
RθM0 ,θ0 +ε ≤ max R(θ0 , X n ) , R(θ0 + ε, X n ) ∼

·
ε→0 n

Modèles paramétriques réguliers. Les deux exemples précédents (modèle gaussien et


modèle Bernoulli) sont une manifestation d’un phénomène plus général dans les modèles
paramétriques réguliers. Dans un modèle régulier, si Θ ⊂ R, si θ0 ∈ Θ est un point dans
l’intérieur de Θ et si l’on suppose que l’information de Fisher en θ0 , notée I(θ0 ), est strictement
positive, on peut montrer (admis) que
p
I(θ0 )ε
h(θ0 , θ0 + ε) ∼ .
ε→0+ 2
En prenant ε = √ c pour c > 0, on a donc
I(θ0 )n
c
h(θ0 , θ0 + ε) ∼ √ .
n→+∞ 2 n
D’après le Théorème 3.12, pour θ1 = θ0 + ε, on a
c
θ0 ,θ0 + √ c2  c 
I(θ0 )n
RM ≥ 1 − + o(1) .
4I(θ0 )n 2
En optimisant sur c > 0, on obtient, pour c = 34 ,
4
θ0 ,θ0 + √ 4
3 I(θ0 )n
RM ≥
(1 + o(1)).
27I(θ0 )n
Dans les modèles réguliers, pour tout θ0 ∈ Θ, lorsque l’on choisit θ1 à distance de l’ordre
de √ 1 de θ0 , le théorème de Le Cam donne une borne inférieure sur le risque minimax
I(θ0 )n
binaire (pour la perte quadratique) de l’ordre de I(θ10 )n . C’est typiquement l’ordre du risque
minimax binaire atteint par l’EMV dans ces modèles.
Chapitre 4

Les tests bayésiens

Dans le cadre d’un modèle P = (Pθ )θ∈Θ , avec dPθ = pθ dµ et Θ ⊂ Rd , d ≥ 1, l’objectif va


maintenant être de tester une propriété du paramètre θ, c’est-à-dire que l’on voudrait savoir,
à partir des données, si θ appartient à une région Θ0 ⊂ Θ ou à une autre région Θ1 ⊂ Θ,
avec Θ0 ∩ Θ1 = ∅. Contrairement à l’approche fréquentiste, on ne supposera pas toujours que
Θ0 ∪ Θ1 = Θ. En revanche, Θ0 ∪ Θ1 correspondra toujours au support de la loi a priori Π.
L’hypothèse que θ appartient à Θ0 s’appelle hypothèse nulle, l’hypothèse que θ appartient
à Θ1 s’appelle hypothèse alternative. Une hypothèse réduite à un singleton, par exemple
Θ0 = {θ0 }, est dite hypothèse simple. Sinon, on parle d’hypothèse composite.

Définition 4.1. Un test est une fonction mesurable ϕ(X1 , . . . , Xn ) des observations, à valeurs
dans {0, 1}.

Commençons par quelques rappels sur l’approche fréquentiste des tests.

Soit ϕ un test de H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 . Il y a deux types d’erreurs possibles :


(1) Rejeter H0 alors que θ ∈ Θ0 : dans ce cas ϕ(X) = 1 alors que les données X =
(X1 , . . . , Xn ) ont été générées de façon i.i.d. selon une loi Pθ avec θ ∈ Θ0 . On appelle
erreur de première espèce la fonction
Θ0 → [0, 1]
θ 7→ Pθ (ϕ(X) = 1).

(2) Accepter H0 alors que θ ∈ Θ1 : dans ce cas ϕ(X) = 0 alors que les données
X = (X1 , . . . , Xn ) ont été générées de façon i.i.d. selon une loi Pθ avec θ ∈ Θ1 .
On appelle erreur de deuxième espèce la fonction
Θ1 → [0, 1]
θ 7→ Pθ (ϕ(X) = 0).

Remarquons que du point de vue pratique, les deux types d’hypothèses H0 et H1 ne sont
en général pas symétriques. Souvent, H0 correspond à l’hypothèse de base, celle que l’on
maintient à moins d’avoir assez d’éléments pour la rejeter (penser à la présomption d’innocence
dans un procès), tandis que H1 est celle qui ne sera retenue que si les données fournissent
assez d’éléments dans son sens (dans l’analogie juridique, la culpabilité).

Définition 4.2. On appelle taille d’un test ϕ la quantité


sup Eθ ϕ(X) = sup Pθ (ϕ(X) = 1).
θ∈Θ0 θ∈Θ0

65
66 4. LES TESTS BAYÉSIENS

On dit qu’un test ϕ est de niveau α si sa taille est majorée par α. La fonction de Θ → [0, 1]
définie par
π : θ 7→ Eθ [ϕ(X)]
s’appelle fonction puissance.

L’approche fréquentiste des tests consiste, pour un α donné, à chercher un test ϕ dont
le niveau est au plus α et ensuite, parmi ces tests (de niveau α), à en chercher un dont la
puissance est la plus proche de 1 sur Θ1 .

Exemple 4.1. Soit P = {N (θ, 1)⊗n , θ ∈ R}, et posons Θ0 = R− et Θ1 = R∗+ . Le test


ϕ(X) = 1{√nX n >q1−α } ,
avec q1−α le quantile d’ordre 1 − α de la loi N (0, 1), est un test de niveau α. On peut montrer
que ce test est uniformément plus puissant parmi les tests de niveau α, c’est-à-dire que pour
tout test ϕe de niveau α, on a
∀θ ∈ Θ1 , π(θ) ≥ π e(θ),
où π est la fonction puissance de ϕ et π
e celle de ϕ.e

L’approche bayésienne des tests consiste à choisir une loi a priori Π à support Θ0 ∪ Θ1 , et
donc en particulier Π(Θ0 ∪ Θ1 ) = 1. Notons qu’avec cette supposition, Π n’est pas forcément
défini sur Θ tout entier.

1. Tests de Bayes
On étend légèrement la définition vue au Chapitre 3 pour tenir compte du fait que nous
travaillons avec des tests. Ici une fonction de perte L sera une application
L : Θ × {0, 1} → R+
(θ, ϕ) 7→ L(θ, ϕ).

Définition 4.3. Dans le cadre des tests, on considère des fonctions de tests de la forme

a0
 si θ ∈ Θ0 , ϕ = 1,
L(θ, ϕ) = a1 si θ ∈ Θ1 , ϕ = 0,

0 sinon,

avec a0 , a1 ∈ R+ . Quand a0 et a1 sont quelconques (positifs), on parlera de fonction de perte


pondérée. Quand a0 = a1 = 1, on parlera de fonction de perte équilibrée.

Choisir a1 = a0 = 1 revient à accorder la même importance aux deux types d’erreurs.


Choisir a0 > a1 (respectivement a1 > a0 ) correspond à pénaliser plus fortement l’erreur de
première espèce (respectivement de seconde espèce).
La fonction de risque d’un test ϕ est alors définie de la même façon que celle d’un
estimateur : pour tout θ ∈ Θ,
R(θ, ϕ) = Eθ [La0 ,a1 (θ, ϕ(X))]
= Eθ a0 1ϕ(X)=1 1θ∈Θ0 + a1 1ϕ(X)=0 1θ∈Θ1 .
 

= a0 Pθ (ϕ(X) = 1)1θ∈Θ0 + a1 Pθ (ϕ(X) = 0)1θ∈Θ1 .


1. TESTS DE BAYES 67

De même, le risque de Bayes de ϕ pour la loi a priori Π est donné par


RB (Π, ϕ) = E [R(θ, ϕ)] = E [La0 ,a1 (θ, ϕ(X))]
= a0 P(θ = 0, ϕ(X) = 1) + a1 P(θ = 1, ϕ(X) = 0)
Z Z
= a0 Pθ (ϕ(X) = 1)dΠ(θ) + a1 Pθ (ϕ(X) = 0)dΠ(θ) .
Θ0 Θ1

Les erreurs de première et de deuxième espèces sont ainsi moyennées par rapport à la loi a priori,
et les constantes a0 , a1 introduisent une pondération éventuelle supplémentaire. Remarquons
que si a0 = a1 = 1 (perte équilibrée), alors le risque de Bayes correspond simplement à la
probabilité (sur la loi jointe de (θ, X)) que le test se trompe, dans un sens où dans l’autre.
En effet, en notant t(θ) l’indice du sous-ensemble auquel θ appartient (i.e. t(θ) = 1θ∈Θ1 ),
l’événement  se tromper  correspond à l’événement ϕ(X) 6= t(θ). Pour la perte équilibrée,
on a
P (ϕ(X) 6= t(θ)) = P(θ = 0, ϕ(X) = 1) + P(θ = 1, ϕ(X) = 0) = RB (Π, ϕ) .
On dit qu’un test ϕ? est de Bayes pour Π s’il minimise le risque de Bayes parmi tous les
test, i.e. si
RB (Π, ϕ? ) = inf RB (Π, ϕ) .
ϕ

On note alors RB (Π) = inf ϕ RB (Π, ϕ), le risque de Bayes pour Π.

Proposition 4.1. Un test de Bayes pour la fonction de perte pondérée par a0 , a1 ≥ 0 est
ϕ? (X) = 1a0 Π(Θ0 |X)≤a1 Π(Θ1 |X) = 1Π(Θ0 |X)≤ a1 .
a0 +a1

Démonstration. Le risque a posteriori d’un test ϕ s’écrit


ρ(Π, ϕ X) = E a0 1θ∈Θ0 ,ϕ(X)=1 + a1 1θ∈Θ1 ,ϕ(X)=0 X
 

= a0 Π(Θ0 X)1ϕ(X)=1 + a1 Π(Θ1 X)1ϕ(X)=0 .

Cette fonction est minimale pour ϕ? (X) = 1a0 Π(Θ0 |X)≤a1 Π(Θ1 |X) . Ainsi pour tout test ϕ, on a

RB (Π, ϕ) = E ρ(Π, ϕ X) ≥ E ρ(Π, ϕ? X) = RB (Π, ϕ? ) .


   

Le test ϕ? est donc bien de Bayes pour Π (on a vérifié l’équivalent du Théorème 3.1 pour les
test, i.e. qu’un test qui minimise le risque a posteriori est de Bayes).
De plus, comme Π(Θ0 ∪ Θ1 X) = 1, le test ϕ? se réécrit ϕ? (X) = 1Π(Θ0 |X)≤ a1 . 
a0 +a1

Cas de deux hypothèses simples de même poids. Supposons que Θ0 = {θ0 } et Θ1 =


{θ1 }, et notons P0 = Pθ0 et P1 = Pθ1 , de densités respectives p0 et p1 . Prenons comme loi a
priori Π = 12 δθ0 + 12 δθ1 . Le test de Bayes s’écrit alors
ϕ? (X) = 1p0 (X)≤p1 (X) .
De plus le risque de Bayes, c’est-à-dire le risque de Bayes de ϕ est égal à
1 
RB (Π) = 1 − dvt (P0 , P1 ) .
2
68 4. LES TESTS BAYÉSIENS

En effet,
RB (Π) = E [L(θ, ϕ? (X))]
1 1
= P0 (p0 (X) ≤ p1 (X)) + P1 (p0 (X) > p1 (X))
2 2
1 
= 1 − P0 (p0 (X) > p1 (X)) − P1 (p0 (X) > p1 (X))
2 Z
1 
= 1− 1{p0 (x)>p1 (x)} (p0 (x) − p1 (x)) dµ(x)
2 E
1 
= 1 − dvt (P0 , P1 ) .
2

Exemple 4.2. Considérons le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R}.


(1) Cas de deux hypothèses simples : on veut tester
H0 : {θ = 0} contre H1 : {θ = 1}
Tout d’abord, il s’agit de se donner une loi a priori Π sur l’ensemble Θ0 ∪ Θ1 soit ici
{0, 1}. L’a priori Π est donc de la forme
Π = π0 δ0 + π1 δ1 ,
avec π0 + π1 = 1. On calcule alors
1 2
π0 ni=1 e− 2 (Xi −0)
Q
π0
Π({0} X) = Qn − 1 (Xi −0)2 Qn − 1 (Xi −1)2 = ,
π0 i=1 e 2 + π1 i=1 e 2 π0 + π1 enX n −n/2
et Π({1} X) = 1 − Π({0} X). On en déduit que le test bayésien pour la fonction de
perte pondérée s’écrit
ϕ? (X) = 1na nX n − n
o = 1nX 1 1

a0 π0
o .
0 π0 ≤a1 π1 e 2 n≥ 2 + n log a1 π1

On remarque que le test se met sous la forme {X n ≥ tn } et que si la fonction de


perte est celle du 0-1 et que l’a priori est symétrique, soit π0 = π1 = 1/2, le test est
ϕ? (X) = 1X n ≥1/2 . Dans ce dernier cas, les hypothèses H0 et H1 jouent des rôles
symétriques.
(2) Cas de deux hypothèses composites : on veut tester
H0 : {θ ≤ 0} contre H1 : {θ > 0}
On doit d’abord choisir une loi a priori sur R. Choisissons par exemple Π = N (µ, 1).
La loi a posteriori est dans ce cas
 
1 µ + nX n
Π[ · X] = N mX , , avec mX = ·
n+1 n+1
Le test
ϕ? (X) = 1{a0 Π(Θ0 |X)≤a1 Π(Θ1 |X)}
est un test de Bayes pour la fonction de perte pondérée, et on a

 
1 
Π(Θ0 X) = P mX + √ N (0, 1) ≤ 0 X = Φ − n + 1 mX ,
n+1
où Φ est la fonction de répartition d’une loi normale standard.
2. TESTS BAYÉSIENS ET APPRENTISSAGE STATISTIQUE (∗) 69

(3) Cas d’une hypothèse simple et une hypothèse composite : on veut tester
H0 : {θ = 0} contre H1 : {θ 6= 0}.
Comme {0} ∪ R∗ = R, un choix qui pourrait sembler à première vue naturel serait
celui d’une loi Π à densité par rapport à la mesure de Lebesgue sur R. Cependant,
dans ce cas on aurait Π({0}) = 0 et donc on rejetterait toujours H0 . D’un point de vue
bayésien, si l’hypothèse nulle correspond à un singleton {θ0 }, c’est que l’on suppose
que θ peut valoir exactement θ0 , donc il est naturel d’intégrer cette information à la
loi a priori. Par exemple, une loi a priori raisonnable est
Π = π0 δ0 + π1 N (0, 1) ,
avec π0 + π1 = 1. La formule de Bayes donne, pour q la densité d’une N (0, 1),
π0 p0 (X)
Π({0} X) = R .
π0 p0 (X) + π1 pθ (X)q(θ)dθ
On a
1 Pn Xi2
p0 (X) = √ e− i=1 2 ,
( 2π)n
et
n
!
Z
1
Z
1X θ 2
pθ (X)q(θ)dθ = √ exp − (Xi − θ)2 − dθ
( 2π)n+1 2 2
i=1
exp − 12 Xi2
P Z  
n+1 2
= √ exp − θ + nX n θ dθ
( 2π)n+1 2
 2

p0 (X) exp (nX n)
2(n+1)
Z
n+1

nX n
2 !
= √ exp − θ− dθ
2π 2 n+1
 2

p0 (X) exp (nX n)
2(n+1)
= √ ·
n+1
Ainsi le test de Bayes pour la fonction de perte pondérée consiste à rejeter H0 si
 2

exp (nX n)
2(n+1)
a0 π0 ≤ a1 π1 √ ,
n+1
c’est-à-dire si s  
|nX | a0 π 0
√ n ≥ ln(n + 1) + 2 ln .
n+1 a1 π 1

2. Tests bayésiens et apprentissage statistique (∗)


Sortons quelques instants du cadre bayésien et considérons le problème de classification
suivant : soit (X, Y ) une variable aléatoire à valeurs dans E × {0, 1}. La variable X est souvent
appelée variable explicative, et Y le label. Le problème de classification consiste à prédire
le label Y à partir de X. Par exemple, si X est un vecteur contenant le nombre de fois où
apparaissent certains mots dans un mail, on peut vouloir chercher à prédire si ce mail est un
spam ou non.
70 4. LES TESTS BAYÉSIENS

Un classifieur est une fonction mesurable f : E → {0, 1}. On espère que la prédiction f (X)
sera proche du label Y . On définit le risque de classification d’un classifieur f par
R(f ) = P(Y 6= f (X)) .
Ce risque n’est en fait rien d’autre que le risque bayésien de f dans le problème de test bayésien
suivant : la loi du couple (X, Y ) peut être décrite par
Y ∼Π
X Y ∼ PY .
où Π est une loi sur {0, 1} (en termes bayésiens, on interprète la loi marginale de Y comme la
loi a priori). En considérant la fonction de perte du 0 − 1, donnée par L(y, f (x)) = 1y6=f (x) , le
risque bayésien d’un test f (pour la loi a priori Π) s’écrit
E [L(Y, f (X))] = P(Y 6= f (X)) = R(f ) .
On appelle alors classifieur de Bayes le test de Bayes pour ce problème de test, i.e. le classifieur
f ? qui minimise le risque a posteriori P(Y 6= f (X) X). Si l’on pose
η(X) = P(Y = 1 X) ,
alors P(Y 6= f (X) X) = 1f (X)=0 η(X) + 1f (X)=1 (1 − η(X)) et f ? est donné par
f ? (X) = 1{η(X)≥1−η(X)} = 1{η(X)≥ 1 } .
2

Proposition 4.2. Soit f ? le classifieur de Bayes donné par f ? (X) = 1{η(X)≥ 1 } . Alors
2

1
R(f ? ) = E [min {η(X), 1 − η(X)}] ≤ ·
2
De plus, pour tout classifieur f , on a
R(f ) − R(f ? ) = E |2η(X) − 1| 1{f (X)6=f ? (X)} .
 

Démonstration. Pour tout classifieur f , on a


 
R(f ) = E P(Y 6= f (X) X)
= E 1f (X)=0 η(X) + 1f (X)=1 (1 − η(X))
 

≥ E [min {η(X), 1 − η(X)}] ,


avec égalité pour f = f ? . De plus, en remarquant que
R(f ) = E[η(X)] + E [(1 − 2η(X))f (X)] ,
on a
R(f ) − R(f ? ) = E [(1 − 2η(X))(f (X) − f ? (X))]
= E |2η(X) − 1| 1{f (X)6=f ? (X)} .
 


On voit donc que si la loi du couple (X, Y ) est connue, le problème de classification revient
à un simple problème de test bayésien, pour lequel un test optimal (du point de vue du risque
2. TESTS BAYÉSIENS ET APPRENTISSAGE STATISTIQUE (∗) 71

de classification) est donné par le test de Bayes. En pratique cependant, la loi du couple est
inconnue et il faut apprendre à classifier à partir d’observations. On dispose d’un échantillon
Dn = {(X1 , Y1 ), . . . , (Xn , Yn )} ,
où les (Xi , Yi ) sont i.i.d. selon la loi (inconnue) de (X, Y ). Le but est alors de construire, à
partir de Dn , un classifieur fbn dont le risque R(fbn ) soit aussi proche que possible du risque
de Bayes R? = R(f ? ). Plus précisément, on souhaite construire à l’aide de Dn une fonction
fbn qui soit telle que, si l’on observe une nouvelle variable explicative distribuée selon X, la
probabilité que fbn (X) prédise mal Y , conditionnellement à Dn , soit la plus petite possible.
Le risque R(fbn ) est donc en fait une quantité aléatoire puisque la fonction fbn elle-même est
aléatoire (elle dépend de Dn ). On a
 
R(fbn ) = P Y 6= fbn (X) Dn .

Exemple 4.3. Dans le cas où l’ensemble E est un ensemble discret, un classifieur naturel,
appelé classifieur par majorité, est construit de la façon suivante : pour tout x ∈ E, on calcule
N0 (x) = |{i ∈ J1, nK, Xi = x, Yi = 0}| ,
et
N1 (x) = |{i ∈ J1, nK, Xi = x, Yi = 1}| ,
et on pose
(
1 si N1 (x) ≥ N0 (x),
fbnmaj (x) =
0 si N0 (x) > N1 (x).
Autrement dit, on attribue à x le label majoritaire parmi les observations de Dn pour lesquelles
Xi = x.

Définition 4.4. La suite de classifieurs (fbn )n≥1 est dite consistante si, quelle que soit la loi
du couple (X, Y ), on a
R(fbn ) −→ R? .
P

Cette notion de consistance peut être vue comme une convergence ponctuelle sur l’ensemble
des lois de probabilité sur E × {0, 1}. On peut vouloir être plus exigeant et demander une
convergence uniforme sur l’ensemble de ces lois. Dans la définition ci-dessous, on note RP
pour souligner qu’il s’agit du risque de classification lorsque la loi de (X, Y ) est P .

Définition 4.5. La suite de classifieurs (fbn )n≥1 est dite uniformément consistante si
h i
sup EDn ∼P ⊗n RP (fbn ) − R?P −→ 0 ,
P n→∞

où le supremum est pris sur toutes les lois de probabilités sur E × {0, 1}.

En fait, dans la plupart des cas (plus précisément dès que E est un ensemble infini), la
consistance uniforme est impossible à obtenir. Nous allons cependant voir que si E est fini,
alors on peut construire un classifieur uniformément consistant.
72 4. LES TESTS BAYÉSIENS

Une méthode souvent utilisée pour construire un classifieur fbn est la méthode de minimi-
sation du risque empirique. L’idée est d’approcher le risque R(f ) d’un classifieur f par son
équivalent empirique
n
1X
Rn (f ) = 1{Yi 6=f (Xi )} .
n
i=1
P
Par la loi des grands nombres, Rn (f ) −→ R(f ). Étant donné un ensemble F de classifieurs,
souvent appelé dictionnaire, la méthode de minimisation du risque empirique consiste à choisir

fbn ∈ arg min Rn (f ) .


f ∈F

Remarque 4.4. Le choix de F est crucial. Prendre F égal à l’ensemble de tous les classifieurs
est souvent un très mauvais choix et conduit au sur-apprentissage. En effet, si E est assez
grand pour que, presque sûrement, toutes les observations Xi soient distinctes, alors le risque
empirique est minimisé par le classifieur qui s’ajuste parfaitement aux données, i.e.
n
1x=Xi Yi .
X
fbn (x) =
i=1

Autrement dit, si x = Xi , le classifieur répond Yi et si x 6∈ {X1 , . . . , Xn }, il répond, de façon


arbitraire, 0. On a alors Rn (fbn ) = 0 mais R(fbn ) peut être grand (plus F est grand, plus
supf ∈F |Rn (f )−R(f )| est grand). En fait, il faut choisir F assez grand pour pouvoir approcher
le classifieur de Bayes par des éléments de F mais assez petit pour que Rn (f ) reste une bonne
approximation de R(f ), uniformément sur F. Ce compromis se lit bien sur la décomposition
de l’excès de risque :

R(fbn ) − R? = R(fbn ) − inf R(f ) + inf R(f ) − R? .


f ∈F f ∈F

Le premier terme R(fbn ) − inf f ∈F R(f ) s’appelle l’erreur stochastique. Le second inf f ∈F R(f ) −
R? l’erreur d’approximation.

Pour fbn ∈ arg minf ∈F Rn (f ) un minimiseur sur F du risque empirique, et pour f  ∈


arg minf ∈F R(f ) (on suppose pour simplifier que l’infimum inf f ∈F R(f ) est atteint sur F), on
a
(4.1) R(fbn ) − R(f  ) ≤ 2 sup |Rn (f ) − R(f )| .
f ∈F

En effet,

R(fbn ) ≤ Rn (fbn ) + supf ∈F |Rn (f ) − R(f )| puisque fbn ∈ F par construction,


≤ Rn (f  ) + supf ∈F |Rn (f ) − R(f )| puisque fbn minimise Rn sur F,
≤ R(f  ) + 2 supf ∈F |Rn (f ) − R(f )| puisque f  ∈ F par construction.

La quantité supf ∈F |Rn (f ) − R(f )| est en général difficile à contrôler. Mais si l’on se
restreint à des dictionnaires F finis, alors on peut facilement obtenir des bornes.
2. TESTS BAYÉSIENS ET APPRENTISSAGE STATISTIQUE (∗) 73

Proposition 4.3. Soit F = {f1 , . . . , fp } un dictionnaire fini et soit fbn ∈ arg minf ∈F Rn (f )
un minimiseur sur F du risque empirique. Alors, pour tout δ ∈]0, 1[, avec probabilité au moins
1 − δ,
v  
u
u 2 log 2p
t δ
R(fbn ) ≤ min R(f ) + .
f ∈F n
En particulier,
r
h i 2 log(2p)
E R(fbn ) − min R(f ) ≤ 2 .
f ∈F n

Démonstration. Par l’inégalité (4.1), une borne union, et l’inégalité de Hoeffding, on a,


pour tout t > 0,
  !
t
P R(fbn ) − min R(f ) > t ≤ P sup |Rn (f ) − R(f )| >
f ∈F f ∈F 2
p  
X t
≤ P |Rn (fj ) − R(fj )| >
2
j=1
 2 
t n
≤ 2p exp − .
2
q
2 log( 2p
δ )
En prenant t = n , on obtient le premier résultat. Pour la deuxième inégalité,
  Z +∞  
E R(fbn ) − min R(f ) = P R(fbn ) − min R(f ) > t dt
f ∈F 0 f ∈F
Z +∞
t2 n
≤ 2pe− 2 ∧ 1dt
r0 Z +∞
2 log(2p) t2 n
≤ + 2p q e− 2 dt
n 2 log(2p)
n
r Z +∞
2 log(2p) 2p t2 n
= +q q te− 2 dt
n 2 log(2p) 2 log(2p)
n
n
r r
2 log(2p) 1 2 log(2p)
≤ +p ≤ 2 ,
n 2n log(2p) n
car 2 log(2p) ≥ 1 pour tout p ≥ 1. 

Proposition 4.4. Si E est un ensemble fini, le classifieur par majorité fbnmaj défini à
l’exemple 4.3 satisfait
r
h
maj ?
i 2(|E| + 1) log(2)
sup EDn ∼P ⊗n RP (fn ) − RP ≤ 2
b .
P n

En particulier, (fbnmaj ) est uniformément consistant.


74 4. LES TESTS BAYÉSIENS

Démonstration. Comme E est fini, l’ensemble F de tous les classifieurs sur E est lui
aussi fini avec |F| = 2|E| . On a alors, pour toute loi P sur E × {0, 1}, minf ∈F RP (f ) = R?P . Il
suffit alors de remarquer que fbnmaj est un minimiseur du risque empirique et d’appliquer la
Proposition 4.3. 
Chapitre 5

Convergence de lois a posteriori

Nous voyons dans ce chapitre qu’il est possible d’étudier les lois a posteriori
bayésiennes d’un point de vue fréquentiste. Nous définissons les notions de
consistance et de convergence de ces lois dans un cadre asymptotique où le
nombre d’observations tend vers l’infini. Ensuite, nous considérons la question
de la forme limite des lois a posteriori et énonçons le théorème de Bernstein–
von Mises. Nous en voyons des conséquences importantes, notamment pour la
construction de régions de confiance.

Le tableau suivant présente certains modèles rencontrés précédemment avec lois a priori Π,
et les expressions explicites de la loi a posteriori Π[ · X] et de la moyenne a posteriori E[θ X].

Modèle P A priori Π A posteriori Π[ · X] E[θ X] EMV

N (θ, 1)⊗n , θ ∈ R N (a, 1) N ( a+nX 1


n+1 , n+1 )
n a+nX n
n+1 Xn
B(θ)⊗n , θ ∈ (0, 1) Beta(a, b) Beta(a + nX n , b + n − nX n ) a+nX n
a+b+n Xn
Poisson(θ)⊗n , θ > 0 Gamma(a, b) Gamma(a + nX n , n + b) a+nX n
n+b Xn
E(θ)⊗n , θ > 0 Gamma(a, b) Gamma(n + a, b + nX n ) n+a
b+nX n
1
Xn

La lecture des deux dernières colonnes du tableau suggère une proximité frappante entre
la moyenne a posteriori et l’estimateur du maximum de vraisemblance lorsque n → +∞.
Dans ce chapitre, nous allons chercher à étudier le comportement asymptotique de la loi
a posteriori Π( · X) = Π( · X1 , . . . , Xn ) quand n → +∞. Pour cela, nous nous placerons
conditionnellement à l’événement θ = θ0 ∈ Θ, l’espoir étant qu’alors la loi a posteriori se
concentre autour de θ0 . Notons que conditionnellement à θ = θ0 , les variables X1 , . . . , Xn sont
i.i.d. de loi Pθ0 .
On verra qu’il est alors possible d’utiliser la loi a posteriori Π[ · X] ou un de ses aspects
comme estimateur de θ0 . Ainsi dans les exemples ci-dessus (avec 1/X n pour le modèle
exponentiel), comme X n → θ0 en probabilité sous Pθ0 , on a

0

E[θ X] −→ θ0 .
n→+∞

De plus, on peut également vérifier dans chaque exemple que la variance a posteriori tend vers
0 en probabilité (le faire en exercice). Cela devrait signifier que, sous Pθ0 , la masse a posteriori
se concentre autour de θ0 . Nous allons voir que dans certains cas, on peut décrire de façon
très précise la forme limite de la loi a posteriori : ce sera le théorème de Bernstein von Mises.
75
76 5. CONVERGENCE DE LOIS A POSTERIORI
R Qn
Remarque 5.1. Dans le cadre bayésien, si l’on note f (X) = i=1 pθ (Xi )dΠ(θ) la densité
marginale de X évaluée en X, on a vu que
Z
P (f (X) = 0) = E[1f (X)=0 ] = 1f (x)=0 f (x)dµ(x) = 0.
E
Ceci montre que le dénominateur de la formule de Bayes est non nul, presque sûrement sous
la loi marginale de X. En revanche, rien n’interdit qu’il soit nul avec probabilité non nulle
sous Pθ0 . Cependant, l’égalité Pθ0 (f (X) = 0) est bien vérifiée pour Π-presque tout θ0 ∈ Θ. En
effet, le fonction θ 7→ Pθ (f (X) = 0) est positive et d’intégrale nulle :
Z
Pθ (f (X) = 0)dΠ(θ) = P(f (X) = 0) = 0 .
Θ

1. Consistance de lois a posteriori


Cadre. Dans toute la suite de ce chapitre, on considère le cadre d’un modèle P = {Pθ⊗n , θ ∈
Θ} avec Θ ⊂ Rd , d ≥ 1. On munit Θ d’une loi a priori Π et, pour former la loi a posteriori
Π[ · X], on considère le modèle bayésien
θ∼Π
X = (X1 , . . . , Xn ) θ ∼ Pθ⊗n .
Une fois Π[ · X] formée, on l’étudie conditionnellement à θ = θ0 , i.e. sous l’hypothèse
X = (X1 , . . . , Xn ) ∼ Pθ⊗n
0
.
Comme nous nous limiterons ici au cas i.i.d., nous écrirons simplement pour simplifier dans la
suite  sous Pθ0  au lieu de  sous Pθ⊗n
0
.

Définition 5.1. On dit que Π[ · X] = Π[ · X1 , . . . , Xn ] est consistante au point θ0 ∈ Θ si,


pour tout ε > 0,
   Pθ0
P kθ − θ0 k > ε X = Π {θ ∈ Θ, kθ − θ0 k > ε} X −→ 0.
n→+∞

Si Π[ · X] est consistante en Π-presque tout point θ0 ∈ Θ, on dira simplement qu’elle est


consistante.

Remarque 5.2. Pour Zn une variable aléatoire telle que 0 ≤ Zn ≤ 1, on a


P
Zn −→ 0 ⇔ E[Zn ] → 0 (n → ∞),
P
et de même Zn −→ 1 ssi E[Zn ] → 1 (exercice). En particulier, pour montrer que l’a posteriori
est consistant, il suffit de montrer que
 
Eθ0 P kθ − θ0 k > ε X −→ 0 .
n→∞

1.1. Consistance dans le modèle gaussien avec a priori gaussien.

Proposition 5.1. Dans le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R} avec une loi a priori
Π = N (a, σ 2 ), la loi a posteriori Π[ · X] est consistante en tout point θ0 ∈ R.
1. CONSISTANCE DE LOIS A POSTERIORI 77

Démonstration. La loi a posteriori est donnée par


 −2 
aσ + nX n 1
Π[ · X] = N , .
n + σ −2 n + σ −2
aσ −2 +nX n
Notons mX = E[θ X] = n+σ −2
. Pour tout θ0 réel et ε > 0, on a
 
P |θ − θ0 | > ε X ≤ P |θ − mX | + |mX − θ0 | > ε X
 ε 
≤ P |θ − mX | > X + 1|mX −θ0 |> 2ε ,
2
où l’on a utilisé l’inégalité triangulaire puis le fait que si |θ − mX | + |mX − θ0 | > ε, alors au
0

moins l’un des deux termes est strictement supérieur à ε/2. Comme X n −→ θ0 par la loi des
0

grands nombres, on a mX −→ θ0 . Ainsi
 ε
Eθ0 1|mX −θ0 |> 2ε = Pθ0 |mX − θ0 | > −→ 0 .
2 n→∞
D’autre part, d’après l’expression explicite de la loi a posteriori,
   
 ε  1 ε
P |θ − mX | > X = P N mX , − m X > X
2 n + σ −2 2
   
1 ε
= P N 0, −2
>
n+σ 2
 εp 
= P |N (0, 1)| > n + σ −2
2
−→ 0 ,
n→∞

P
puisque le lemme de Slutsky donne √ 1 |N (0, 1)| −→ 0. Donc l’a posteriori est consistant
n+σ −2
en θ0 . 

1.2. Consistance dans le cadre où Θ est fini. Soit Θ = {1, . . . , k}. On considère le
modèle
(5.1) P = {P1 , . . . , Pk } = {Pθ , θ ∈ Θ},
où Pj sont des mesures de probabilité sur E. Remarquons que dans le cas fini, le modèle est
automatiquement dominé, par exemple par µ = P1 + · · · + Pk . On note pj la densité de Pj par
rapport à µ : dPj = pj dµ. Soit Π une loi a priori sur Θ. Celle-ci est définie par la donnée de
Π({j}) = P(θ = j) = πj , j = 1, . . . , k.

Proposition 5.2. Dans le cadre du modèle discret (5.1), supposons le modèle identifiable et
soit Π une loi a priori sur Θ telle que πj > 0 pour tout j = 1, . . . , k. Alors la loi a posteriori
Π[ · X] est consistante en tout point θ0 ∈ {1, . . . , k}.

Démonstration. Soit θ0 ∈ {1, . . . , k}. Il suffit de démontrer que


0

Π[{θ0 } X1 , . . . , Xn ] −→ 1.
78 5. CONVERGENCE DE LOIS A POSTERIORI
Qn
Notons `j (X) = i=1 pj (Xi ). La formule de Bayes donne
πθ `θ (X)
Π[{θ0 } X] = Pk 0 0 .
j=1 πj `j (X)
P
6 θ0 , on a `j (X) ≤ maxi6=θ0 `i (X). Comme i6=θ0 πi = 1 − πθ0 , on en déduit
Pour tout j =
πθ0 `θ0 (X) 1
(5.2) Π[{θ0 } X] ≥ = 1−πθ0 maxj6=θ0 `j (X)
·
πθ0 `θ0 (X) + (1 − πθ0 ) maxj6=θ0 `j (X) 1+ πθ0 `θ0 (X)

Soit ε > 0. On a
  X
Pθ0 max `j (X) ≥ ε`θ0 (X) ≤ Pθ0 (`j (X) ≥ ε`θ0 (X)) .
j6=θ0
j6=θ0

Pour j ∈ J1, kK \ {θ0 }, l’inégalité de Markov appliquée avec la fonction x 7→ x donne
"s #
1 `j (X)
Pθ0 (`j (X) ≥ ε`θ0 (X)) ≤ √ Eθ0 .
ε `θ0 (X)
Or l’espérance dans cette dernière expression s’écrit
"s # Z Q n
n
p (x ) 1/2 Y

`j (X)
Eθ0 = Qni=1 j i pθ0 (xi )dµ(xi )
`θ0 (X) i=1 pθ0 (xi ) i=1
v
Z u n n n
uY Y Y
= t pj (xi ) pθ0 (xi ) dµ(xi )
i=1 i=1 i=1

= ρ(Pj⊗n , Pθ⊗n
0
) = ρ(Pj , Pθ0 )n ,
où l’on a utilisé la propriété de l’affinité de Hellinger ρ vue au Chapitre 3. Le modèle étant
identifiable, on a ρ(Pj , Pθ0 ) < 1 pour tout j 6= θ0 (sinon la distance de Hellinger entre les
mesures serait nulle et elles seraient égales), donc ρ(Pj , Pθ0 )n −→ 0.
n→∞
Ainsi, pour tout ε > 0,
 
1 X
Pθ0 max `j (X) ≥ ε`θ0 (X) ≤ √ ρ(Pj , Pθ0 )n −→ 0 ,
j6=θ0 ε n→∞
j6=θ0

puisque la somme porte sur un nombre fini de terme (k − 1). Autrement dit,
maxj6=θ0 `j (X) Pθ0
−→ 0 .
`θ0 (X)
et donc la terme de droite dans (5.2) tend vers 1 en probabilité. Comme Π[{θ0 } X] ≤ 1, on
0

obtient bien Π[{θ0 } X] −→ 1. 

2. Vitesses de convergence
On peut étendre naturellement la notion de consistance en permettant à ε dans la Définition
5.1 de varier, et typiquement de tendre vers 0 avec n.
3. FORME LIMITE ET THÉORÈME DE BERNSTEIN–VON MISES 79

Définition 5.2. On dit que l’a posteriori Π[ · X] = Π[ · X1 , . . . , Xn ] converge à vitesse (au


moins) εn au point θ0 ∈ Θ si
  Pθ0
Π {θ : kθ − θ0 k ≤ εn } X −→ 1.

Dans le cadre des modèles√paramétriques réguliers, on arrivera typiquement à montrer


une convergence à vitesse Mn / n, pour toute suite (Mn ) tendant vers l’infini arbitrairement
lentement.
Dans certains cas, on peut montrer qu’une vitesse n’est pas améliorable en ordre de
grandeur en établissant une borne inférieure à peu près du même ordre. On dira que ζn est
une borne inférieure pour la vitesse de convergence de Π[ · X] au point θ0 ∈ Θ si
  Pθ0
Π {θ : kθ − θ0 k ≤ ζn } X −→ 0.

Proposition 5.3. Dans le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R} avec une loi a priori
gaussienne Π = N (a, σ 2 ) sur θ, la loi a posteriori Π[ · X] converge en tout point θ0 ∈ R, à

vitesse de l’ordre de 1/ n. Plus précisément, pour tout θ0 ∈ R, et pour (mn ) et (Mn ) deux
suites telles que mn → 0 et Mn → +∞, on a
  
mn Mn Pθ0
Π θ : √ ≤ kθ − θ0 k ≤ √ X −→ 1.
n n

Démonstration. Voir TD. 



Dans les modèles paramétriques réguliers, la vitesse de convergence sera toujours 1/ n.
Cela résulte du théorème de Bernstein-von Mises.

3. Forme limite et théorème de Bernstein–von Mises


Nous allons énoncer un résultat de forme limite pour la loi a posteriori. Ce résultat peut
être vu comme une sorte de théorème central limite, pour des objets beaucoup plus généraux
qu’une moyenne empirique. Asymptotiquement, les lois a posteriori ressemblent typiquement
à des lois gaussiennes, centrées en un estimateur  optimal , et de variance une constante
divisée par n. Pour montrer un tel résultat, il est d’abord utile de rappeler une notion de
proximité pour deux lois, déjà vue au Chapitre 3, la distance en variation totale.
On rappelle la propriété suivante de la distance en variation totale, vue en Proposition 3.8.
Soient P, Q deux mesures de probabilité avec dP = pdµ et dQ = qdµ. La distance en variation
totale entre P et Q vérifie
Z
1
dvt (P, Q) = |p(x) − q(x)|dµ(x) .
2

Exemple 5.3. Soit Pn = Unif[0, 1 + n1 ] et P = Unif[0, 1]. On calcule


1
Z 1 Z 1+ n
1 1 2
2dvt (Pn , P ) = 1 − 1 du + 1 du = .
0 1+ n 1 1+ n
n+1

Ainsi dvt (Pn , P ) → 0 quand n → ∞.


80 5. CONVERGENCE DE LOIS A POSTERIORI

Laplace, au début des années 1800, a remarqué et démontré que dans le modèle binomial
{B(n, θ), θ ∈ (0, 1)}, avec une loi a priori uniforme sur θ (i.e. le modèle considéré par Bayes),
la loi a posteriori est une loi Beta(1 + X, 1 + n − X), et que cette loi ressemble étrangement à
θ0 (1−θ0 )
une loi N ( X
n, n ) si X suit en réalité une loi B(n, θ0 ). On notera que X/n se trouve être
l’estimateur du maximum de vraisemblance dans ce modèle. Depuis, de nombreux statisticiens
se sont intéressés à ce phénomène, parmi lesquels Bernstein, von Mises, Le Cam.
Avant d’énoncer le théorème, on donne une version forte de la notion de modèle régulier.

Définition 5.3. Soit P = {Pθ , θ ∈ Θ}, avec Θ ⊂ R ouvert, un modèle dominé avec
dPθ = pθ dµ. On dira que P est régulier au
p sens fort si1 :
— pour tout x ∈ E, la fonction θ 7→ pθ (x) est C sur Θ ;
— pour tout θ ∈ Θ, il existe ε > 0 tel que
" #
Eθ sup `0η (X)2 < ∞ .
η∈[θ−ε,θ+ε]

— la fonction θ 7→ Eθ `0θ (X)2 est continue sur Θ.


 

On peut vérifier que ces conditions impliquent la notion de régularité donnée dans la
première partie du cours (Définition 26). En particulier, elles
 garantissent l’existence et la
continuité de l’information de Fisher θ 7→ I(θ) = Eθ `0θ (X)2 .


Theorème 5.4 (Théorème de Bernstein-von Mises (BvM)). Soit P = {Pθ , θ ∈ Θ}, avec
Θ ⊂ R ouvert, un modèle régulier au sens fort. Soit θ0 ∈ Θ. On suppose que I(θ0 ) > 0 et que
la loi a priori Π sur Θ vérifie
— Π a une densité π par rapport à la mesure de Lebesgue sur R.
— π(θ0 ) > 0 et π est continue au point θ0 .
On suppose de plus que pour tout ε > 0, il existe une suite de tests (ϕn ) telle que
(5.3) Pθ0 (ϕn (X) = 1) −→ 0 et sup Pθ (ϕn (X) = 0) −→ 0 .
n→∞ θ, |θ−θ0 |≥ε n→∞

S’il existe un estimateur du maximum de vraisemblance θbn (X), défini avec probabilité qui tend
vers 1 et consistant, alors
−1
  
I(θ 0 ) Pθ0
dvt Π[ · X] , N θbn (X), −→ 0.
n n→+∞

Ce résultat implique une proximité remarquable entre lois limites fréquentistes et lois
limites bayésiennes. En effet, le théorème BvM donne
I(θ0 )−1
 
L(θ − θn (X) X) ≈ N 0,
b .
n
Par ailleurs, un des résultats fondamentaux sur le maximum de vraisemblance dans les modèles
réguliers est que
I(θ0 )−1
 
L(θn (X) − θ0 ) ≈ N 0,
b .
n
3. FORME LIMITE ET THÉORÈME DE BERNSTEIN–VON MISES 81

On note qu’il s’agit de la même loi limite. Ceci a des conséquences spectaculaires en termes de
régions de crédibilité, voir plus loin.

Démonstration du Théorème 5.4. Nous faisons la preuve dans le modèle gaussien


pour une loi a priori gaussienne. Pour une preuve générale, voir le livre Asymptotic Statistics de
van der Vaart, Chapitre 10 (plutôt niveau M2/thèse). On pose donc P = {N (θ, 1)⊗n , θ ∈ R}
et Π = N (a, σ 2 ) pour a ∈ R fixé. Au vu de l’expression explicite de la loi a posteriori et de
l’EMV, et du fait que I(θ) = 1 pour tout θ dans le modèle gaussien, il s’agit de montrer que
    
1 1 Pθ0
dvt N mX , −2
, N X n, −→ 0,
n+σ n
−2
avec mX = aσn+σ +nX n
−2 . Il y a plusieurs preuves possibles. Celle ci-dessous repose sur une
comparaison de distances et un calcul explicite. En utilisant le fait que dvt (P, Q) ≤ h(P, Q),
où h est la distance de Hellinger (cf. Chapitre 3, Proposition 3.10), puis l’inégalité triangulaire,
on a
         
1 1 1 1
dvt N mX , , N X n, ≤ h N mX , , N X n,
n + σ −2 n n + σ −2 n
    
1 1
≤ h N mX , , N mX ,
n + σ −2 n
    
1 1
+ h N mX , , N X n, .
n n
Pour chacun des deux termes ci-dessus, on utilise le Lemme 5.5 ci-dessous pour montrer que
l’affinté de Hellinger tend en probabilité vers 1, et donc la distance de Hellinger vers 0. Pour
le premier terme, on a, par le Lemme 5.5,
v
u √ 1
 
1
 
1
 u 2 n(n+σ−2 )
ρ N mX , , N mX , = −→ 1 .
t
n+σ −2 n 1 1
n + n+σ −2
n→∞

Pour le deuxième terme, on a, toujours par le Lemme 5.5,


    
1 1 n(mX −X n )2
ρ N mX , , N X n, = e− 8 .
n n
Or,
2
σ −2 (a − X n )

2 Pθ
0
n(mX − X n ) = n −→ 0,
n + σ −2

0
par le lemme de Slutsky et le fait que X n −→ θ0 . Ainsi, sous Pθ0 , la somme des deux distances
converge en probabilité vers 0, ce qu’il fallait démontrer. 

Lemme 5.5. Soit ρ l’affinité de Hellinger. Pour tout a, b ∈ R et σ, η > 0,


(a−b)2
ρ N (a, σ 2 ), N (b, σ 2 ) = e− 8σ2 ,

r
2 2
 2ση
ρ N (a, σ ), N (a, η ) = .
σ + η2
2
82 5. CONVERGENCE DE LOIS A POSTERIORI

Démonstration. Preuve laissée en exercice. 

4. Confiance asymptotique des régions de crédibilité


On se place en dimension 1, soit Θ ⊂ R. On suppose que l’on a construit une loi a posteriori
Π[ · X] dans le modèle P à partir d’une loi a priori Π et d’observations X. On suppose que la
fonction de répartition a posteriori FX est continue et l’on considère la région de crédibilité
]an (X), bn (X)] de niveau 1 − α formée par les quantiles de la loi a posteriori
  α
(5.4) Π ] − ∞, an (X)] X = ,
  α 2
(5.5) Π ]bn (X), +∞[ X = .
2
Dans la suite, on note oP (1) toute quantité qui tend vers 0 en probabilité sous Pθ⊗n
0
.

Theorème 5.6. Soit 0 < α < 1 et zα le quantile de niveau 1 − α2 d’une loi normale standard.
Supposons le théorème BvM vérifié. Alors, pour an (X), bn (X) définis par (5.4)-(5.5), et θbn
l’EMV,
" #
z α z α
[an (X), bn (X)] = θbn (X) − p (1 + oP (1)) , θbn (X) + p (1 + oP (1)) .
nI(θ0 ) nI(θ0 )

Ce résultat donne un développement asymptotique à l’ordre 1 des bornes de l’intervalle de


crédibilité [an (X), bn (X)] défini à partir des quantiles de la loi a posteriori. Notons que cet
intervalle coı̈ncide asymptotiquement avec l’intervalle de confiance  idéal  que l’on voudrait
pouvoir construire à partir de l’estimateur du maximum de vraisemblance θbn (X). En effet, si
l’on suppose les conditions réunies pour que θbn (X) soit asymptotiquement efficace au sens où
√ L
n(θbn (X) − θ0 ) −→ N (0, I(θ0 )−1 ),
alors l’intervalle " #

I ∗ (X) = θbn (X) ± p
nI(θ0 )
a un niveau de confiance asymptotique 1 − α, puisque
p 
P θ0 nI(θ0 ) θbn (X) − θ0 ≤ zα −→ P (|N (0, 1)| ≤ zα ) = 1 − α.
n→∞

En général cependant, l’EMV peut être difficile à déterminer. De plus, l’information de Fisher
I(θ0 ) est généralement inconnue puisqu’elle dépend de θ0 . Une solution standard consiste à
remplacer I(θ0 ) par un estimateur, par exemple I(θbn (X)) (sous les conditions de régularité
habituelles, θ 7→ I(θ) est continue, donc la convergence en probabilité de θbn (X) vers θ0 implique
celle de I(θbn (X)) vers I(θ0 ) et l’on peut appliquer le lemme de Slutsky).
Un des intérêts de l’approche bayésienne est que l’obtention de la région de crédibilité est
 automatique  (sous réserve de savoir calculer les quantiles a posteriori, ce qui n’est pas

toujours évident). De plus, nous allons voir ci-dessous que l’on peut l’utiliser comme région de
confiance.
4. CONFIANCE ASYMPTOTIQUE DES RÉGIONS DE CRÉDIBILITÉ 83

Démonstration du Théorème 5.6. Soient A et B les ensembles mesurables définis par


A =] − ∞, an (X)], B =]bn (X), +∞[.
Par définition de an (X) et bn (X), on a
α
Π(A X) = Π(B X) = .
2
Le théorème BvM est vérifié par hypothèse et d’après la définition de la distance en variation
totale, on a donc, en notant B(Θ) la tribu borélienne sur Θ,
I(θ0 )−1
 
sup Π[Λ X] − N θn (X), b (Λ) = oP (1).
Λ∈B(Θ) n

En particulier, en appliquant ceci à Λ = A, on en déduit que


I(θ0 )−1
 
α
N θn (X),
b (A) = + oP (1).
n 2
En notant Φ la fonction de répartition d’une N (0, 1), cela peut se réécrire
p  α
Φ nI(θ0 )(an (X) − θbn (X)) = + oP (1),
2
soit encore α 
nI(θ0 )(an (X) − θbn (X)) = Φ−1
p
+ oP (1) .
2
−1
Or Φ est continue, donc par théorème de l’image continue on en déduit que l’expression
précédente converge en probabilité vers Φ−1 (α/2) = −zα . On obtient

an (X) = θbn (X) − p (1 + oP (1)),
nI(θ0 )
et le résultat pour bn (X) s’obtient de la même façon. 

Theorème 5.7 (Confiance asymptotique des régions de crédibilité). Supposons le


théorème BvM vérifié. Alors l’intervalle de crédibilité I(X) = [an (X), bn (X)] défini par
(5.4)-(5.5) est un intervalle de confiance asymptotique au niveau 1 − α, c’est-à-dire
Pθ0 ( θ0 ∈ [an (X), bn (X)] ) −→ 1 − α.
n→∞

Démonstration. Il suffit de montrer que Pθ0 (θ0 < an (X)) → α/2 et que Pθ0 (θ0 > bn (X)) →
α/2. Pour cela, on utilise les développements asymptotiques obtenus au Theorème 5.6.
!
z α
Pθ0 (θ0 < an (X)) = Pθ0 θ0 < θbn (X) − p (1 + oP (1))
nI(θ0 )
p 
= Pθ0 nI(θ0 )(θbn (X) − θ0 ) − oP (1) > zα .

Comme la quantité à gauche du signe > de l’expression ci-dessus converge en loi vers une
variable N (0, 1), on en déduit que l’expression converge vers α/2. On fait de même pour
Pθ0 (θ0 > bn (X)), ce qui conclut la démonstration. 
84 5. CONVERGENCE DE LOIS A POSTERIORI

5. Analyse asymptotique des tests bayésiens


Définition 5.4. Un test ϕ(X) est dit consistant si, pour Π-presque tout θ ∈ Θ, on a
(
0 si θ ∈ Θ0 ,
Eθ ϕ(X) −→
n→∞ 1 si θ ∈ Θ1 .

On dit que les sous-ensembles Θ0 et Θ1 sont séparés si pour tous θ0 ∈ Θ0 et θ1 ∈ Θ1 , il


existe ε > 0 tel que
{θ ∈ Θ, kθ − θ0 k ≤ ε} ∩ Θ1 = ∅ et {θ ∈ Θ, kθ − θ1 k ≤ ε} ∩ Θ0 = ∅ .
Notons que s’il existe ρ > 0 tel que pour tout θ0 ∈ Θ0 et pour tout θ1 ∈ Θ1 , on a
|θ1 − θ0 | ≥ ρ, alors Θ0 et Θ1 sont séparés (par exemple Θ0 =] − ∞, −1] et Θ1 = [1, +∞[).
Notons aussi que l’hypothèse de séparation est vérifiée si Θ0 et Θ1 sont tous les deux ouverts
(par exemple Θ0 =] − ∞, 0[ et Θ1 =]0, +∞[).

Proposition 5.8. Si Θ0 et Θ1 sont séparés, alors, si la loi a posteriori est consistante, le


test de Bayes pour la perte pondérée avec a0 , a1 > 0 est consistant.

Démonstration. Supposons que Θ0 et Θ1 sont séparés et que la loi a posteriori consis-


tante. Soit θ0 ∈ Θ0 . Par l’hypothèse de consistance de Π[ · X], on a pour tout ε > 0,
  Pθ0
Π {θ : kθ − θ0 k > ε} X −→ 0.
Or, par l’hypothèse de séparation, il existe ε > 0 tel que
Θ1 ⊂ {θ, kθ − θ0 k > ε}.

0. Pour le test de Bayes ϕ? (X) = 1Π(Θ0 |X)≤ a1 , on a donc


0

On a donc Π(Θ1 X) −→
a0 +a1
 
a0
Eθ0 ϕ? (X) = Pθ0 Π(Θ1 X) > −→ 0.
a0 + a1 n→∞
Un raisonnement similaire montre que si θ1 ∈ Θ1 , alors Eθ1 ϕ? (X) −→ 1. 
n→∞
Si l’hypothèse de séparation n’est pas vérifée, la théorie est un peu plus délicate. Dans
le cadre de l’exemple du test de H0 : {θ = 0} contre H1 : {θ 6= 0} dans le modèle gaussien
(Chapitre 4), l’hypothèse n’est clairement pas vérifiée. On peut néanmoins montrer que, pour
Π = (1 − π0 )N (0, 1) + π0 δ0 , on a
P
Π({0} X) −→ 1 sous Pθ , pour θ = 0
P
Π({0} X) −→ 0 sous Pθ , pour θ 6= 0,
ce qui implique que le test est consistant.
Chapitre 6

Simulation de la loi a posteriori (bis) : les méthodes MCMC

Dans ce dernier chapitre, nous faisons un bref tour d’horizon de méthodes


MCMC. Nous présentons notamment l’algorithme de Metropolis-Hastings et
l’échantillonnage de Gibbs.

L’abréviation MCMC signifie Markov Chain Monte-Carlo. Il s’agit typiquement d’approcher


une loi ou une intégrale à l’aide d’une chaı̂ne de Markov.

1. Un bref aperçu sur les chaı̂nes de Markov


Une chaı̂ne de Markov homogène (Xt )t∈N à espace d’états mesurable (Ω, F) est un processus
aléatoire à valeurs dans Ω dont les transitions se font de la façon suivante : si la chaı̂ne est
en x ∈ Ω, alors, quelle que soit la trajectoire passée, l’état suivant est choisi selon une loi de
probabilité fixée P (x, ·) sur Ω, qui ne dépend que de x. Autrement dit, pour tout A ∈ F et
pour tout t ≥ 0, on a
P(Xt+1 ∈ A X0 . . . , Xt ) = P (Xt , A) .
La loi de la chaı̂ne est ainsi complètement caractérisée par la loi de X0 et par la collection de
lois (P (x, ·))x∈Ω .
L’application
P : Ω × F → [0, 1]
(x, A) 7→ P (x, A)
s’appelle un noyau de transition. On a en particulier
∀x ∈ Ω , P (x, Ω) = 1 .
On suppose de plus que pour tout A ∈ F, l’application x 7→ P (x, A) est mesurable.
Si Ω est un ensemble fini, on verra P comme une matrice stochastique (tous les coefficients
sont positifs et, sur chaque ligne, la somme des coefficients vaut 1), de taille |Ω| × |Ω|, l’entrée
P (x, y) correspondant à la probabilité, partant de x d’arrivée en y en un pas.

Remarque 6.1 (Récurrence aléatoire). Pour qu’un processus (Xt )t∈N soit une chaı̂ne de
Markov, il faut et il suffit que ce processus vérifie la relation de récurrence :
∀t ∈ N , Xt+1 = ψ(Xt , Wt+1 ) ,
où (Wt )+∞
t=1 est une suite i.i.d. à valeurs dans un espace mesurable W, indépendante de X0 , et
où ψ est une application mesurable de Ω × W dans Ω.

85
86 6. SIMULATION DE LA LOI A POSTERIORI (BIS) : LES MÉTHODES MCMC

Exemple 6.2 (Marche aléatoire sur R). Soit X0 ∼ N (0, 1) et soit (ξi )i≥1 une suite i.i.d.
de variables de loi N (0, 1), indépendante de X0 . Le processus donné par, pour n ≥ 0,
Xn+1 = Xn + ξn+1 ,
est une chaı̂ne de Markov à valeurs dans Ω = R avec noyau de transition P (x, ·) = N (x, 1). Il
s’agit d’une marche aléatoire avec sauts gaussiens.

Exemple 6.3 (Marche aléatoire sur un graphe fini). Une marche aléatoire sur un graphe
G = (V, E) fini est un processus sur V qui se déplace en sautant, à chaque temps, sur un
voisin choisi uniformément au hasard. Il s’agit d’une chaı̂ne de Markov sur Ω = V , dont la
matrice de transition P est donnée par
(
1
si {u, v} ∈ E,
P (u, v) = deg(u)
0 sinon,
où deg(u) (le degré de u) correspond au nombre de voisins de u dans G. Voici par exemple un
graphe à 5 sommets et la matrice de transition correspondante :

1 1 1 1
 
2 3 0 4 4 4 4
5 1 0 1
0 0
 21 1
2
1

P =
 31 3 0 3 0
1

2 0 2 0 0
1 4 1 0 0 0 0

Si ν0 est la loi initiale de X0 , alors la loi de X1 est donnée par


Z
∀A ∈ F , ν1 (A) = ν0 P (A) = P (x, A)ν0 (dx) .

Pour t ≥ 1, la loi de Xt peut être définie par récurrence :
Z
∀A ∈ F , νt (A) = νt−1 P (A) = P (x, A)νt−1 (dx) .

On définit ainsi P t , le tième itéré de P comme νt P pour ν0 = δx :


Z
t
P (x, A) = P t−1 (z, A)P (x, dz) .

On a alors P t (x, A) = P(Xt ∈ A X0 = x), et, pour ν0 quelconque,


Z
∀A ∈ F , νt (A) = P t (x, A)ν0 (dx) .

Dans le cas discret fini, Pt


est simplement la matrice P à la puissance t. Si l’on considère la
loi initiale ν0 comme un vecteur ligne avec, pour x ∈ Ω, ν0 (x) = P(X0 = x), alors la loi de la
chaı̂ne au temps t est donnée par le vecteur ligne νt = ν0 P t :
X X
∀y ∈ Ω , νt (y) = P(Xt = y) = ν0 (x)P(Xt = y X0 = x) = ν0 (x)P t (x, y) = ν0 P t (y) .
x∈Ω x∈Ω
1. UN BREF APERÇU SUR LES CHAÎNES DE MARKOV 87

Définition 6.1. On dit que π est une loi stationnaire (ou invariante) pour la chaı̂ne de
Markov (Xt )t∈N si πP = π, i.e. si pour tout A ∈ F,
Z
P (x, A)π(dx) = π(A) .

P
Dans le cas discret fini, cela revient à dire que pour tout y ∈ Ω, x∈Ω π(x)P (x, y) = π(y).

Autrement dit, si la loi de X0 est de loi π et que l’on applique une transition de la chaı̂ne,
alors la loi de X1 est toujours π, et il en est de même de la loi de Xt , pour tout t ≥ 1.

Remarque 6.4. Une loi stationnaire n’existe pas toujours. Ainsi par exemple, la marche
aléatoire simple sur Z (si l’état courant est x ∈ Z, alors l’état suivant est x + 1 ou x − 1
avec probabilité 1/2) n’admet pas de probabilité stationnaire. Elle a un comportement  trop
diffusif .

Dans ce qui suit, nous nous restreignons à des espaces d’états finis. On peut étendre
la plupart des résultats ci-dessous à des espaces plus généraux, mais cela dépasserait assez
largement le cadre de ce cours.

Définition 6.2. Soit Ω un ensemble fini. Un noyau de transition P sur Ω est dit irréductible
si pour tous x, y ∈ Ω, il existe t ∈ N tel que P t (x, y) > 0.

Theorème 6.1. Soit Ω un ensemble fini et P est un noyau de transition sur Ω. Alors P
admet une probabilité stationnaire π, et, si P est irréductible, cette probabilité est unique et
charge tous les états.

Démonstration. Soit ν0 la mesure initiale de la chaı̂ne, et pour s ≥ 1, soit νs = ν0 P s ,


la loi de la chaı̂ne au temps s. Définissons la mesure
t−1
1X
πt = νs .
t
s=0
Par compacité de l’espace des mesures de probabilité sur Ω, il existe une sous-suite de (πt ) qui
converge, notons π la limite de cette sous-suite. Alors π est stationnaire. En effet,
νt − ν0
πt P − πt = −→ 0 .
t t→+∞
Supposons maintenant que P est irréductible et montrons que π charge tous les états. Comme
π est une mesure de probabilité, il existe x ∈ Ω tel que π(x) > 0. Soit y un état quelconque.
Par irréductibilité, il existe t ≥ 0 tel que P t (x, y) > 0. Donc
X
π(y) = π(z)P t (z, y) ≥ π(x)P t (x, y) > 0 .
z∈Ω

Montrons maintenant que π est unique. En passant à la transposée, on a t P t π = t π. Ainsi,


pour montrer que π est unique, il suffit de montrer que le noyau de t P − I est de dimension 1
(puisqu’alors au plus un élément de ce noyau correspond à un vecteur de probabilité), ou
encore que le noyau de P − I est de dimension 1. Soit h ∈ Ker(P − I), soit P h = h. Nous
allons montrer que h est forcément constante, ce qui montrera que Ker(P − I) = Vect(1, . . . , 1).
88 6. SIMULATION DE LA LOI A POSTERIORI (BIS) : LES MÉTHODES MCMC

Comme Ω est fini, il existe x0 tel que h(x0 ) = M = maxx∈Ω h(x). Supposons qu’il existe z ∈ Ω
avec P (x0 , z) > 0 et h(z) < M . Alors
X X
h(x0 ) = P (x0 , y)h(y) = P (x0 , z)h(z) + P (x0 , y)h(y) < M ,
y∈Ω y6=z

ce qui est absurde. Donc pour tout z tel que P (x0 , z) > 0, on a h(z) = M . Par irréductibilité,
pour tout y ∈ Ω, il existe un chemin x0 , . . . , xn = y avec P (xi , xi+1 ) > 0 pour tout i ∈ J0, n−1K.
En répétant l’argument ci-dessus, on obtient h(x0 ) = h(x1 ) = · · · = h(y) = M , donc h est
constante. 
Une façon simple de trouver une probabilité stationnaire est souvent de chercher une
probabilité qui satisfait la condition dite d’équilibre détaillé.

Proposition 6.2. Soit P un noyau de transition sur Ω fini. Si π est une probabilité sur Ω
qui vérifie la condition d’équilibre détaillé
∀x, y ∈ Ω , π(x)P (x, y) = π(y)P (y, x) ,
(on dit que P est réversible par rapport à π), alors π est stationnaire.

Démonstration. En sommant la condition d’équilibre détaillé sur y, on obtient


X X X
π(y)P (y, x) = π(x)P (x, y) = π(x) P (x, y) = π(x).
y∈Ω y∈Ω y∈Ω

La probabilité π donc bien stationnaire. 


On a vu que si le noyau P est irréductible, alors il existe donc une unique probabilité
stationnaire π qui peut être vue comme un point fixe pour l’action de P . On peut alors montrer
que la moyenne de n’importe quelle fonction le long de la trajectoire de la chaı̂ne, converge
presque sûrement, quelle que soit la loi initiale, vers l’espérance de cette fonction sous la loi π.
C’est le théorème ergodique, qui correspond à un équivalent de la loi forte des grands nombres
pour les chaı̂nes de Markov.

Theorème 6.3 (Théorème ergodique). Soit P est un noyau ergodique sur Ω fini et π sa
probabilité stationnaire. Soit f : Ω → R. Alors, pour toute mesure initiale ν sur Ω,
t−1
1X p.s. X
f (Xs ) −−−−→ Eπ f = f (x)π(x) .
t t→+∞
s=0 x∈Ω

Une conséquence importante du théorème ergodique est que si l’on souhaite approcher
l’intégrale Eπ f , il n’est pas nécessaire de savoir simuler selon π. Il suffit de trouver une chaı̂ne
de Markov dont π est la mesure stationnaire.
Sous des hypothèses additionnelles, on peut montrer que la loi stationnaire π est la loi
limite de la chaı̂ne de Markov : asymptotiquement, la chaı̂ne est distribuée selon π, on dit
qu’elle mélange. On a alors un moyen de simuler approximativement selon π : on lance la
chaı̂ne de Markov, on la laisse évoluer pendant un temps assez long, la loi de Xt sera alors
proche de π. Pour garantir cette convergence, l’irréductibilité ne suffit pas. Il faut une propriété
plus forte : l’ergodicité.
1. UN BREF APERÇU SUR LES CHAÎNES DE MARKOV 89

Définition 6.3. Soit Ω un ensemble fini. Le noyau P est dit ergodique si


∃t ∈ N , ∀x, y ∈ Ω , P t (x, y) > 0 .

Pour quantifier l’écart entre la loi de la chaı̂ne à un certain temps t et la loi stationnaire π,
il nous faut une distance entre lois de probabilité. Pour x ∈ Ω, notons Dx (t) la distance en
variation totale entre la loi de la chaı̂ne au temps t partie de x et la loi stationnaire, i.e.
 X t
Dx (t) = dvt P t (x, ·) , π = max P t (x, A) − π(A) =
 
P (x, y) − π(y) + ,
A⊂Ω
y∈Ω

et
D(t) = max Dx (t) .
x∈Ω

Theorème 6.4. Si P est un noyau ergodique sur Ω fini, alors


D(t) −→ 0 .
t→∞

Démonstration. Notons
D(t) = max dvt P t (x, ·) , P t (y, ·) .

x,y∈Ω

On a D(t) ≤ D(t). En effet, par définition de π et l’inégalité triangulaire, on a, pour tout


x ∈ Ω,
 
X X
Dx (t) = P t (x, z) − π(y)P t (y, z)
z∈Ω y∈Ω
+
X X
t t

≤ π(y) P (x, z) − P (y, z) +
y∈Ω z∈Ω

≤ max dvt P (x, ·) , P t (y, ·) .


t

y∈Ω

En prenant le maximum sur x ∈ Ω, on obtient l’inégalité voulue. On va montrer que D(t) → 0.


Remarquons que D(·) est sous-multiplicative : D(t + s) ≤ D(t)D(s). En effet, soit A ⊂ Ω et
soit B = {z ∈ Ω, P t (x, z) ≥ P t (y, z)}. En décomposant selon que la chaı̂ne est en B ou en B c
au temps t, on a
X X
P t+s (x, A) − P t+s (y, A) = P t (x, z) − P t (y, z) P s (z, A) − P t (y, z) − P t (x, z) P s (z, A)
 

z∈B z∈B c
≤ dvt P (x, ·) , P (y, ·) max (P (u, A) − P s (v, A)) ,
t t s

u,v∈V

où l’on a utilisé le fait que dvt P t (x, ·) − P t (y, ·) = P t (x, B) − P t (y, B). En prenant le

maximum sur A ⊂ Ω, on obtient
dvt P t+s (x, ·) , P t+s (y, ·) ≤ dvt P t (x, ·) , P t (y, ·) D(s) ,
 

et en prenant le maximum sur x, y ∈ Ω, on a bien D(t + s) ≤ D(t)D(s). Par l’hypothèse


d’ergodicité, on peut trouver t? tel que tous les coefficients de la matrice P t? soient strictement
90 6. SIMULATION DE LA LOI A POSTERIORI (BIS) : LES MÉTHODES MCMC

positifs. Ainsi, en utilisant la Proposition 3.8,


( )
X
t? t?
D(t? ) = max 1 − P (x, z) ∧ P (y, z) < 1 ,
x,y
z∈Ω

et D(kt? ) ≤ D(t? )k → 0. Donc D(t) → 0 et il en est de même de D(t). 


k→∞

2. Algorithmes MCMC
Le cadre est le suivant. Supposons que l’on veuille soit simuler (disons approximative-
ment)R suivant une loi de densité π, ou bien que l’on veuille évaluer une intégrale du type
I = φ(x)π(x)dµ(x) (avec µ typiquement la mesure de Lebesgue ou la mesure de comptage),
comme c’est le cas en statistiques bayésiennes pour π la densité a posteriori et I la moyenne a
posteriori par exemple. On aimerait construire une chaı̂ne de Markov (Xt ) de densité station-
naire π, car alors, d’après les deux faits ci-dessus, la loi de Xt avec t grand sera proche d’une
loi de densité π, tandis que la moyenne 1t t−1
P
i=0 φ(X i ) approchera l’intégrale cherchée, par le
théorème ergodique.

2.1. L’algorithme de Metropolis-Hastings. Soit π la loi cible et soit Q un noyau


dont on sait simuler rapidement les transitions. Par exemple, si Q(x, ·) correspond à une
loi N (x, 1), alors on sait bien simuler selon cette loi (c’est ce qu’on appelle Random walk
Metropolis-Hastings).
Pour simplifier les choses, on va supposer que π possède une densité (notée abusivement
π aussi) par rapport à une mesure σ-finie µ sur Ω, et qu’il en est de même de toutes les lois
Q(x, ·) :
∀x ∈ Ω , dQ(x, ·) = q(x, ·)dµ .
On suppose de plus que
∀x, y ∈ Ω , q(x, y) > 0 ⇔ q(y, x) > 0 .
Enfin, on note Ω∗ = {x ∈ Ω, π(x) > 0}.
On va définir, à partir de Q, un noyau P admettant π pour loi stationnaire. Pour cela, on
définit, pour tout x ∈ Ω∗ et pour tout y ∈ Ω, le rapport
π(y)q(y, x)
r(x, y) = ∧ 1,
π(x)q(x, y)
avec la convention r(x, y) = 1 si q(x, y) = 0. La nouvelle chaı̂ne de Markov est alors définie de
la façon suivante : si l’état courant est x ∈ Ω∗ , on génère y ∈ Ω selon Q(x, ·), et l’on accepte
cette transition en y avec probabilité r(x, y). Sinon, avec probabilité 1 − r(x, y), on reste en x.
Notons Z
r(x) = 1 − 1y6=x q(x, y)r(x, y)dµ(y) ,

c’est la probabilité de rester en x. Le noyau P de la nouvelle chaı̂ne est alors donné par
Z
P (x, A) = 1y6=x q(x, y)r(x, y)dµ(y) + r(x)δx (A) .
A
Remarquons que si l’on est en x ∈ Ω∗ et que l’on génère y tel que π(y) = 0, alors r(x, y) = 0 et
la transition est refusée. Ainsi, si la chaı̂ne commence dans Ω∗ , elle y reste presque sûrement.
2. ALGORITHMES MCMC 91

Theorème 6.5. Le noyau P admet π pour loi stationnaire.

Démonstration. Remarquons que pour tous x, y ∈ Ω∗ , on a

(6.1) π(x)q(x, y)r(x, y) = π(y)q(y, x)r(y, x) .

En effet, par symétrie, on peut toujours supposer π(y)q(y, x) ≤ π(x)q(x, y), quitte à échanger
les rôles de x et y. Dans ce cas, on a

π(y)q(y, x)
r(x, y) = et r(y, x) = 1 ,
π(x)q(x, y)

ce qui donne bien l’égalité (6.1) (si q(x, y) = 0, alors q(y, x) = 0 aussi, et les deux termes
de (6.1) sont nuls). On a donc
Z Z Z Z
P (x, A)dπ(x) = 1y6=x q(x, y)r(x, y)dµ(y)π(x)dµ(x) + r(x)δx (A)dπ(x)
Ω Ω∗ A Ω∗
Z Z Z
= 1y6=x π(y)q(y, x)r(y, x)dµ(x)dµ(y) + r(x)π(x)dµ(x)
Ω∗
ZA Z A

= π(y)(1 − r(y))dµ(y) + r(x)π(x)dµ(x)


A A
= π(A) .

Ainsi π est stationnaire pour P . 

Exemple 6.5. Soit Q la matrice de transition de la marche aléatoire simple sur un graphe
fini connexe G = (V, E). La distribution stationnaire de cette chaı̂ne est deg(·) 2|E| . On souhaite
obtenir un échantillon issu de la loi uniforme sur V , π = Unif(V ). L’algorithme de Metropolis-
Hastings consiste alors à définir la chaı̂ne de noyau P donnée par : si l’état courant est x, on
choisit uniformément un voisin y de x et l’on accepte la transition de x à y avec probabilité

deg(x)
r(x, y) = ∧ 1.
deg(y)

La loi stationnaire de P est la loi uniforme sur V .

Application aux statistiques bayésiennes. Dans un cadre bayésien, on Rcherche typique-


ment à simuler suivant la loi a posteriori, ou à calculer des intégrales de type φ(θ)dΠ(θ X).
La loi cible est donc généralement Π[ · X]. Pour utiliser l’algorithme de Metropolis-Hastings,
il faut savoir simuler suivant Q(x, ·) pour tout x. Comme on a le choix du noyau Q, on peut
choisir un noyau selon lequel on peut simuler. Mais il faut aussi pouvoir calculer le quotient
dans la probabilité d’acceptation r(x, y). C’est en principe un problème, car π(θ X) est
typiquement
R difficile à évaluer, notamment parce que son expression contient le dénominateur
pθ (X)π(θ)dθ. Le point remarquable ici est que cette quantité se simplifie et que l’on a
92 6. SIMULATION DE LA LOI A POSTERIORI (BIS) : LES MÉTHODES MCMC

seulement besoin de connaı̂tre la loi a posteriori à constante près. En effet, ici


π(y X)Q(y, x)
r(x, y) = ∧1
π(x X)Q(x, y)
R py (X))π(y)
pθ (X)π(θ)dθ Q(y, x)
= ∧1
R px (X)π(x) Q(x, y)
pθ (X)π(θ)dθ
py (X)π(y) Q(y, x)
= ∧ 1.
px (X)π(x) Q(x, y)
Cette expression se calcule directement, du moins si l’expression de la densité a priori π n’est
pas trop complexe. On remarque également qu’à nouveau ici, π n’a besoin d’être connue qu’à
constante multiplicative près.

2.2. L’algorithme de Gibbs. On souhaite simuler suivant la loi d’un vecteur de Ωd , de


densité π : Ωd → R+ . Pour x ∈ Ωd et ` ∈ J1, dK, on note

x(`) = (x1 , . . . , x`−1 , x`+1 , . . . , xd ) ∈ Ωd−1 .

On suppose que l’on sait facilement simuler suivant les densités conditionnelles π(· x(`) ),
pour tout ` ∈ J1, dK. L’idéee de l’algorithme de Gibbs est de rejouer une par une les co-
ordonnée du vecteur, selon la loi conditionnelle sachant toutes les autres. On présente ici
deux versions de l’algorithme, qui diffèrent en la façon de choisir les coordonnées que l’on rejoue.

2.2.1. Gibbs avec balayage aléatoire. Pour t ∈ N, partant de Xt = x ∈ Ωd , on génère Xt+1


de la façon suivante :
— on tire une coordonnée ` ∈ J1, dK uniformément au hasard ;
— on génère y` selon la densité π(· x(`) ) ;
— on pose Xt+1 = (x1 , . . . , x`−1 , y` , x`+1 , . . . , xd ).

Proposition 6.6. La chaı̂ne (Xt )t∈N est réversible pour π.

Démonstration. Soient x, y ∈ Ωd . Si y diffère de x plus de deux coordonnées, alors


P (x, y) = P (y, x) = 0. Sinon, il existe ` et y` ∈ Ω, tel que y = (x1 , . . . , x`−1 , y` , x`+1 , . . . , xd ).
Dans ce cas, on a
1 1 π(y)
P (x, y) = π(y` x(`) ) = ·
d d π(x(`) )
π(x)
De même, P (y, x) = d1 π(x d
(`) ) . Ainsi pour tous x, y ∈ Ω , on a π(x)P (x, y) = π(y)P (y, x) et la

chaı̂ne est bien réversible pour π. 

2.2.2. Gibbs avec balayage déterministe. Pour t ∈ N, partant de Xt = x ∈ Ωd , on génère


Xt+1 de la façon suivante :
— pour ` = 1, . . . , d, on génère y` selon la densité π(· y1 , . . . , y`−1 , x`+1 , . . . , xd ) ;
— on pose Xt+1 = (y1 , . . . , yd ).

Proposition 6.7. La mesure π est stationnaire pour la chaı̂ne (Xt )t∈N .


2. ALGORITHMES MCMC 93

Démonstration. Notons que le noyau P peut s’écrire P = Q1 . . . Qd , où Q` correspond


au changement de la `ième coordonnée. Pour tout ` ∈ J1, dK, et pour tout y ∈ Ωd , on a
X
πQ` (y) = π(x)Q` (x, y)
x∈Ωd
X
= π(y (`) x` )Q` (y (`) x` , y)
x` ∈Ω
X
= π(y (`) x` )π(y` y (`) )
x` ∈Ω
X π(y)
= π(y (`) )π(x` y (`) )
x` ∈Ω
π(y (`) )
X
= π(y) π(x` y (`) ) = π(y) .
x` ∈Ω

Ainsi π est stationnaire pour chacun des noyau Q` , donc pour P . 

Exemple 6.6. Soit (X, Y ) un couple de variables aléatoires de densité sur R2 donnée par
 2
x2 (1 + y + y 2 )

y
h(x, y) = C exp − − .
2 2
La loi conditionnelle de X sachant Y = y a pour densité
 2
x (1 + y + y 2 )

f (x y) ∝ exp − .
2
 
Ainsi, L(X Y ) = N 0, 1+Y1+Y 2 . De même, la densité de Y sachant X = x est
2 !
1 + x2 2y 2 2
   
x 1 + x x
g(y x) ∝ exp − y2 + ∝ exp − y+ .
2 1 + x2 2 2(1 + x2 )
 
X2 1
Ainsi, L(Y X) = N − 2(1+X 2 ) 1+X 2 . Pour simuler selon la loi de (X, Y ), l’algorithme de
,
Gibbs (balayage déterministe) consiste à considérer la chaı̂ne de Markov suivante : on part de
(x0 , y0 ) = (0, 0), puis à chaque temps t ≥ 0, conditionnellement à (Xt , Yt ) = (xt , yt ), on génère
(Xt+1 , Yt+1 ) selon: 
— Xt+1 ∼ N 0, 1+y1+y2 ;
t t
x2t+1
 
— Yt+1 ∼ N − 2(1+x2 ) , 1+x12 .
t+1 t+1

Application aux statistiques bayésiennes. L’algorithme de Gibbs est particulièrement


utile dans les modèles où le paramètre θ vit dans un espace de grande dimension. Considérons le
modèle suivant, connu sous le nom de Stochastic Block Model. Soit Θ = {0, 1}n et θ ∼ B(1/2)⊗n .
Cela peut modéliser une population de n individus qui peuvent être chacun de deux types
différents (fille ou garçon, à droite ou à gauche, littéraire ou scientifique...). Conditionnellement
aux types θ = (θ1 , . . . , θn ), on forme alors un graphe aléatoire à n sommets de la façon suivante :
deux individus sont reliés par une arête avec probabilité p s’ils sont de même type, q s’ils sont
94 6. SIMULATION DE LA LOI A POSTERIORI (BIS) : LES MÉTHODES MCMC

de types différents, de façon indépendante. Autrement dit, si l’on note X = (Xi,j )1≤i<j≤n avec
(
1 si i et j sont reliés par une arête,
Xi,j =
0 sinon,
alors la loi conditionnelle de X sachant θ = θ est donnée par
B p1θi =θj + q 1θi 6=θj .
O 
X θ=θ∼
1≤i<j≤n
Si l’on observe le graphe sans les types, quelle inférence peut-on mener sur θ ? La loi a posteriori
de θ sachant X est donnée par
Y  1 1
Xi,j 
1 1
1−Xi,j
∀θ ∈ {0, 1}n , π(θ X) ∝ p θi =θj q θi 6=θj (1 − p) θi =θj (1 − q) θi 6=θj .
1≤i<j≤n
Simuler directement selon cette loi est typiquement hors d’atteinte pour n grand : le dénominateur
consiste en une somme sur 2n termes. On peut alors utiliser l’algorithme de Gibbs (présenté
ici avec balayage aléatoire) pour simuler selon Π[ · X]. Pour cela, on construit une chaı̂ne
de Markov (θ (t) )t∈N sur {0, 1}n , dont les transitions se font de la façon suivante : partant de
θ (t) = σ ∈ {0, 1}n ,
— on tire i ∈K1, nK uniformément au hasard ;
— on génère σi0 selon la loi conditionnelle de θ i sachant (θ j )j6=i = (σj )j6=i et X, i.e. selon
une loi de Bernoulli de paramètre
σj 1−σj Xi,j (1 − p)σj (1 − q)1−σj 1−Xi,j
Q  
j6=i p q
·
σj 1−σj )Xi,j ((1 − p)σj (1 − q)1−σj )1−Xi,j + 1−σj q σj )Xi,j ((1 − p)1−σj (1 − q)σj )1−Xi,j
Q Q
j6=i (p q j6=i (p

— on pose θ (t+1) = (σ1 , . . . , σi−1 , σi0 , σi+1 , . . . , σn ).


En laissant cette chaı̂ne évoluer assez longtemps, on obtient une réalisation approximativement
distribuée selon Π[ · X]. Et en les points d’arrivée de m chaı̂nes indépendantes de cette même
loi, on forme un échantillon indépendant de taille m qui peut être utilisé pour estimer θ.

Vous aimerez peut-être aussi