Polycopie Partie 2
Polycopie Partie 2
Sorbonne Université
2024-2025
Statistiques bayésiennes
Anna Ben-Hamou
Table des matières
CHAPITRE 0. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1. Outils de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1. Espace probabilisé, variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Lois à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Lois produits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5. Lois Beta, Gamma, Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6. Inégalités classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.7. Convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Outils de statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1. Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Estimateur, consistance, normalité asymptotique . . . . . . . . . . . . . . . . . . . 13
2.3. Le risque quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4. Intervalles et régions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5. Vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3. Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1. Le cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2. Le cas à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3. Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4. Approches statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1. Approche fréquentiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2. Approche bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
CHAPITRE 1. L’approche bayésienne . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 27
1. Le cadre bayésien . . . . . . . . . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 27
2. Aspects de la loi a posteriori . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 32
3. Le choix de la loi a priori . . . . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 33
3.1. Principes généraux . . . . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 33
3.2. Conjugaison . . . . . . . . . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 34
4. Régions de crédibilité . . . . . . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . . 38
4.1. Construction via des quantiles a posteriori . . . . . . . . . . . . . . . . . . . . . . . 38
4.2. Régions de plus haute densité . . ........ . . . . . . . . . . . . . . . . . . . . . . . 39
CHAPITRE 2. Simulation de la loi a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1. Simulation de lois gentilles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.1. Méthode de la transformée inverse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.2. Méthode de rejet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2. Méthodes de Monte-Carlo pour le calcul d’intégrales . . . . . . . . . . . . . . . . . . . . 45
2.1. Monte-Carlo standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1
2 Table des matières
Introduction
1. Outils de probabilité
1.1. Espace probabilisé, variable aléatoire.
Définition 0.1. Soit Ω un ensemble. Une tribu F sur Ω est un ensemble de parties de Ω tel
que
— F est non-vide ;
— F est stable par complémentaire ;
— F est stable par union dénombrable.
Le couple (Ω, F) est appelé espace mesurable.
Définition 0.2. Soit (Ω, F) un espace mesurable. Une mesure sur Ω est une application
µ : F → [0, +∞] telle que
— µ(∅) = 0 ;
— si (En )n≥1 est une suite de parties disjointes de Ω appartenant à F, alors
[ X
µ En = µ(En ) .
n≥1 n≥1
Si µ est une mesure sur (Ω, F), le triplet (Ω, F, µ) est alors appelé espace mesuré. Si P est
une mesure de probabilité, le triplet (Ω, F, P) est appelé espace probabilisé ou encore espace
de probabilité.
Définition 0.3. Soit (Ω, F, P) un espace probabilisé et (E, E) un espace mesurable. Une
variable aléatoire X est une fonction mesurable de Ω dans E, i.e.
∀A ∈ E, X −1 (A) = {X ∈ A} = {ω ∈ Ω, X(ω) ∈ A} ∈ F.
3
4 0. INTRODUCTION
Définition 0.4. Si X est une variable aléatoire de (Ω, F, P) dans (E, E), on dit que X est
de loi Q, et l’on note X ∼ Q, si pour tout A ∈ E,
P(X ∈ A) = P(X −1 (A)) = Q(A).
Autrement dit, Q est la mesure image de P par X. De manière équivalente, cela signifie que
pour toute fonction ϕ intégrable par rapport à Q, soit ϕ ∈ L1 (Q),
Z Z
ϕ (X(ω)) dP(ω) = ϕ(x)dQ(x) = E[ϕ(X)].
Ω E
Définition 0.5. Soit (E, E, µ) un espace mesuré. La mesure µ est dite σ-finie s’il existe une
suite (En )n≥1 d’éléments de E de mesure finie (i.e. pour tout n ≥ 1, µ(En ) < ∞) telle que
[
E= En .
n≥1
Exercice 0.1. Montrer que la mesure de Lebesgue sur (R, B(R)) et la mesure de comptage
sur (N, P(N)) sont toutes les deux des mesures σ-finies.
Définition 0.6. Soient P et µ deux mesures σ-finies sur un espace mesurable (E, E). On
dit que P est absolument continue par rapport à µ, et l’on note P µ, si
∀A ∈ E, µ(A) = 0 ⇒ P (A) = 0.
Exemple 0.1. On rappelle que δx , la masse de Dirac en x, est la mesure positive définie,
pour tout A mesurable, par δx (A) = 1x∈A .
• Sur E = {0, 1}, la loi de Bernoulli Pθ = B(θ) admet une densité par rapport à la
mesure µ = δ0 + δ1 . En effet, pour tout A ⊂ {0, 1}, on peut écrire,
Pθ (A) = (1 − θ)δ0 (A) + θδ1 (A)
Z Z
= (1 − θ) δ0 (dx) + θ δ1 (dx)
A A
Z
= {(1 − θ)1x=0 + θ1x=1 } [δ0 + δ1 ](dx) .
A
1. OUTILS DE PROBABILITÉ 5
• Sur E = {0, P
1, . . . , n}, la loi binomiale Pθ = B(n, θ) admet une densité par rapport à la
mesure µ = ni=0 δi donnée par
k 7→ θk (1 − θ)n−k .
• Sur E = N∗ , la loi géométrique Pθ = G(θ) admet une densité par rapport à la mesure
de comptage sur N∗ , i≥1 δi , donnée par
P
k 7→ (1 − p)k−1 p .
• La loi normale N (µ, σ 2 ) admet une densité par rapport à la mesure de Lebesgue sur R,
donnée par
(x − µ)2
1
x 7→ √ exp − .
2πσ 2 2σ 2
• Sur E = R, la loi exponentielle Pθ = E(θ), θ > 0, admet une densité par rapport à la
mesure de Lebesgue sur R, donnée par
x 7→ θ e−θx 1x≥0 .
1.3. Lois produits. Soit P une mesure de probabilité sur (E, E) et Q une mesure de
probabilité sur (F, F). Alors la loi produit P ⊗ Q est la loi sur l’espace produit E × F muni
de la tribu produit qui vérifie
(P ⊗ Q)(A × B) = P (A) × Q(B),
pour tout A ∈ E et B ∈ F. Si P a une densité p par rapport à une mesure µ sur E et Q une
densité q par rapport à une mesure ν sur F , alors P ⊗ Q a pour densité p × q par rapport à
µ⊗ν
d(P ⊗ Q) = pqd(µ ⊗ ν) = pqdµdν.
Deux variables aléatoires X et Y sont indépendantes si et seulement si la loi du couple
(X, Y ) est le produit de la loi de X et de la loi de Y .
Exemple 0.2. La loi sur R2 dont la densité par rapport à la mesure produit Leb(R) ⊗ Leb(R)
est
1 − 1 (x2 +y2 )
e 2
2π
est une loi produit. En effet, on reconnaı̂t le produit des densités de deux lois normales standards
N (0, 1). Donc cette loi est N (0, 1) ⊗ N (0, 1).
Plus généralement, on peut faire des produits de plusieurs lois, ou de n fois la même loi.
Ainsi, Q = P ⊗n est une mesure de probabilité sur l’espace produit E n . Si P a une densité p
par rapport à une mesure dominante µ sur E,Q soit dP = pdµ, alors P ⊗n a une densité sur
E n par rapport à µ⊗n , égale à q(x1 , . . . , xn ) = ni=1 p(xi ).
Définition 0.7. Soit d ≥ 1 un entier. Un vecteur aléatoire X de Rd est dit gaussien si toute
combinaison linéaire de ses coordonnées est une variable gaussienne réelle. Un vecteur gaussien
est caractérisé par son vecteur d’espérances µ ∈ Rd et sa matrice de covariance Σ ∈ Md (R),
6 0. INTRODUCTION
symétrique et semi-définie positive. On note alors X ∼ N (µ, Σ). Si Σ est définie positive, alors
X possède une densité par rapport à la mesure de Lebesgue sur Rd donnée par
1 1t −1
x 7→ p exp − (x − µ)Σ (x − µ) .
(2π)d det(Σ) 2
Notons en particulier que si Σ est une matrice diagonale (et donc également Σ−1 ), la
densité de la loi N (µ, Σ) s’exprime comme un produit de densités coordonnée par coordonnée.
D’après ce qui précède, cela signifie que les coordonnées Xi de X sont indépendantes. Si en
revanche Σ n’est pas diagonale, Σ−1 non plus et la densité ne s’écrit pas comme un produit :
les coordonnées Xi sont corrélées. Si X = (X1 , . . . , Xd ) ∼ N (µ, Σ), on a Σi,j = Cov(Xi , Xj ).
Définition 0.8. Pour p > 0 et λ > 0, la loi Gamma Γ(p, λ) est la loi dont la densité par
rapport à la mesure de Lebesgue sur R est donnée par
λp p−1 −λx
x 7→ x e 1[0,+∞[ (x),
Γ(p)
où Z +∞
Γ(p) = z p−1 e−z dz .
0
Définition 0.9. Pour a > 0 et b > 0, la loi Beta(a, b) est la loi dont la densité par rapport à
la mesure de Lebesgue sur R est donnée par
1
x 7→ xa−1 (1 − x)b−1 1[0,1] (x),
B(a, b)
où
Z 1
Γ(a)Γ(b)
B(a, b) = z a−1 (1 − z)b−1 dz = ·
0 Γ(a + b)
Notons que la loi Beta(1, 1) correspond à la loi uniforme sur [0, 1].
Remarque 0.3. En fait, on dira souvent que c’est le vecteur X = (X1 , . . . , XK ), où XK =
1 − X1 − · · · − XK−1 , qui suit la loi Dir(α1 , . . . , αK ), mais il faut bien comprendre qu’il n’y a
que K − 1 degrés de liberté (pour la loi à K paramètres).
La loi de Dirichlet peut être vue comme une généralisation de la loi Beta au cas multi-
dimensionnel. On observe en particulier que pour K = 2, Dir(a, b) = Beta(a, b). La loi de
Dirichlet a pour support l’ensemble des vecteurs de taille K qui définissent une loi de probabilité
sur un ensemble à K éléments.
— Les lois marginales d’une loi de Dirichlet sont des lois Beta. Plus précisément, si
X = (X1 , . . . , XK ) ∼ Dir(α1 , . . . , αK ), alors pour i ∈ {1, . . . , K},
K
!
X
Xi ∼ Beta αi , αk − αi .
k=1
8 0. INTRODUCTION
En particulier,
αi
EXi = PK
k=1 αk
— Si Z1 ∼ Γ(α1 , λ), . . . , ZK ∼ Γ(αK , λ) sont indépendantes, alors, en notant Z =
Z1 + · · · + ZK , on a
Z1 ZK
,..., ∼ Dir(α1 , . . . , αK ).
Z Z
Proposition 0.4 (Inégalité de Markov). Soit X une variable aléatoire réelle positive et
a ∈ R∗+ . On a
EX
P(X ≥ a) ≤ .
a
Exemple 0.4.
P Soient X1 , . . . , Xn des variables aléatoires i.i.d. de loi de Bernoulli B(p) et
n
soit X n = n1 i=1 Xi . Comme EX n = p, on a, par l’inégalité de Bienaymé-Tchebychev, pour
tout ε > 0,
n
Var(X n ) 1 X p(1 − p)
P Xn − p > ε ≤ 2
= 2 2 Var(Xi ) = ·
ε n ε nε2
i=1
Pour ε > 0 et p ∈ [0, 1] fixés, on obtient donc une probabilité qui décroı̂t en 1/n. On peut
obtenir une décroissance bien meilleure via l’inégalité ci-dessous.
Pour ε > 0 et p ∈ [0, 1] fixés, on obtient donc une probabilité qui décroı̂t exponentiellement vite
en n, ce qui est bien plus rapide que la décroissance en 1/n obtenue via Bienaymé-Tchebychev.
P 1/2
d
1.7. Convergences. Pour x ∈ Rd , d ≥ 1, on note kxk = 2
i=1 xi la norme eucli-
dienne.
Proposition 0.7. On a
p.s. P
Xn −→ X ⇒ Xn −→ X,
et
L2 P
Xn −→ X ⇒ Xn −→ X,
Exercice 0.5. Démontrer la Proposition 0.7 (pour la deuxième implication, on pourra utiliser
l’inégalité de Bienaymé-Tchebychev).
Proposition 0.8 (Loi forte des grands nombres). Soit (Xn )n≥1 une suite de variables
i.i.d. à valeurs dans Rd , d ≥ 1, avec E[kX1 k] < ∞. Alors
n
1X p.s.
Xn = Xi −→ EX1 .
n
i=1
Définition 0.14. Soit (Xn )n≥1 et X des variables aléatoires quelconques à valeurs dans Rd .
L
On dit que Xn converge en loi vers X, ce que l’on note Xn −→ X, si pour toute fonction
10 0. INTRODUCTION
f : Rd → R continue bornée,
E[f (Xn )] −→ E[f (X)].
n→∞
De même, on dira que (Xn ) converge en loi vers une loi P si E[f (Xn )] −→ E[f (X)] pour
n→∞
X ∼ P , pour toute fonction f continue bornée.
◦
On rappelle que pour A ⊂ Rd , la frontière de A est ∂A = A \ A.
L
Proposition 0.9. Xn −→ X dans Rd si et seulement si pour tout borélien A de Rd pour
lequel P(X ∈ ∂A) = 0, on a
P(Xn ∈ A) −→ P(X ∈ A).
n→∞
Remarque 0.6. Si la loi de X est à densité par rapport à la mesure de Lebesgue sur Rd ,
alors la condition P(X ∈ ∂A) = 0 est vérifiée pour tous les boréliens A de Rd . Par exemple, si
L
Zn −→ N (0, 1), alors pour tout intervalle I de R,
Notons aussi que si les variable Xn et X sont à valeurs dans R, de fonctions de répartition
respectives Fn et F , alors la convergence en loi est équivalente à la convergence simple des
L
fonctions de répartitions en tout point de continuité de F : Xn −→ X si et seulement si pour
tout x ∈ R tel que F est continue en x, on a
Fn (x) −→ F (x).
n→∞
Proposition 0.10 (TCL dans Rd ). Soit (Xn )une suite de variables aléatoires i.i.d. dans
d 2 T
R , avec E[kX1 k ] < ∞. Soit µ = EX1 et Σ = E (X1 − E[X1 ])(X1 − E[X1 ]) . Alors
√ L
n(X n − µ) −→ N (0, Σ),
L P
Remarque 0.7. Pour a constante, Zn −→ a si et seulement si Zn −→ a.
2. OUTILS DE STATISTIQUES 11
2. Outils de statistiques
L’objet de départ en statistique est une suite d’observations, appelée données, typiquement
sous la forme d’une suite numérique x1 , . . . , xn . La modélisation statistique consiste à écrire
xi = Xi (ω) : les données sont vues comme des réalisations de variables aléatoires X1 , . . . , Xn ,
dont la loi est inconnue.
L’identifiabilité d’un modèle implique que pour une loi donnée Q dans P, il y a un unique
paramètre θ tel que Q = Pθ . C’est une propriété très importante, qui assure que le modèle est
bien paramétré.
Définition 0.17. Un modèle statistique P = {Pθ , θ ∈ Θ} est dominé s’il existe une mesure
σ-finie µ sur E telle que, pour tout θ ∈ Θ, Pθ µ. Toutes les lois Pθ admettent alors une
densité pθ par rapport à µ, soit
dPθ (x) = pθ (x)dµ(x).
12 0. INTRODUCTION
Dans la suite, nous travaillerons toujours avec des modèles dominés, et paramétriques au
sens où Θ ⊂ Rd .
Exemples de modèles
Voici quelques modèles statistiques classiques, décrits par les lois Pθ correspondantes.
• Le modèle des lois de Bernoulli (tirage à pile ou face) :
P = {B(θ), θ ∈ [0, 1]} ,
où B(θ) est la loi de Bernoulli de paramètre θ. C’est la loi discrète définie par :
P(X = 1) = θ, P(X = 0) = 1 − θ,
ce que l’on note aussi B(θ) = (1 − θ)δ0 + θδ1 , où δa est la mesure de Dirac en a ∈ R.
C’est un modèle dominé par µ = δ0 + δ1 , de densité pθ (x) = (1 − θ)1x=0 + θ1x=1 . Le
modèle est identifiable. Une façon de le voir est de remarquer que si Pθ = Pθ0 , alors
Eθ X = Eθ0 X (si deux lois sont égales, tous leurs moments sont égaux). Or Eθ = θ.
Donc θ = θ0 .
• Le modèle gaussien :
P = {N (θ, 1), θ ∈ R} .
C’est un modèle dominé par µ la mesure de Lebesgue sur R : dPθ (x) = pθ (x)dx avec
1 (x−θ)2
pθ (x) = √ e− 2 .
2π
Il s’agit aussi d’un modèle identifiable. En effet, par le même argument que pour le
modèle des lois de Bernoulli, on peut remarquer que si Pθ = Pθ0 , alors Eθ X = θ =
Eθ0 X = θ0 . On peut aussi utiliser le fait que si deux lois à densité par rapport à µ
sont égales, alors leurs densités sont égales µ-presque partout. Or θ 6= θ0 implique que
pθ (x) 6= pθ0 (x) pour tout x ∈ R. Ainsi Pθ 6= Pθ0 , donc le modèle est identifiable.
• Le modèle gaussien avec moyenne et variance inconnues :
P = N (µ, σ 2 ), (µ, σ 2 ) ∈ R × R∗+ .
e−θ θk
∀k ∈ N, P(X = k) = ·
k!
• Le modèle non-lisse des lois uniformes est
avec pour densité fθ (x) = θ−1 1[0,θ] (x) par rapport à la mesure de Lebesgue sur R.
Définition 0.18. Dans une expérience statistique (X, P), où X est à valeurs dans (E, E),
et P = {Pθ , θ ∈ Θ} est une famille de lois sur E, un estimateur θb = θ(X)b est une fonction
mesurable de X, à valeurs dans l’espace des paramètres Θ (plus précisément, la fonction θb est
mesurable de (E, E) dans (Θ, B(Θ)) où B(Θ) est la tribu des boréliens).
Exemple 0.8. Dans le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R}, si l’on dispose d’observa-
1 Pn
tions X = (X1 , . . . , Xn ), alors θbn (X) = X n = n i=1 Xi et θen (X) = 1 sont tous les deux des
estimateurs de θ.
Définition 0.19. Dans une suite d’expériences statistiques (X(n) , Pn ) avec Pn = {Pθ⊗n , θ ∈
Θ}, la suite d’estimateurs θbn est dite consistante si, pour tout θ ∈ Θ, quand X(n) ∼ Pθ⊗n ,
θbn (X(n) ) −→ θ.
P
Définition 0.20. Dans une suite d’expériences statistiques (X(n) , Pn ) avec Pn = {Pθ⊗n , θ ∈
Θ}, la suite d’estimateurs θbn est dite asymptotiquement normale si pour tout θ ∈ Θ, il existe
une matrice Σθ symétrique définie positive, telle que, quand X(n) ∼ Pθ⊗n ,
√
L
n θbn (X(n) ) − θ −→ N (0, Σθ ).
Par abus de langage, on dira souvent que l’estimateur θbn est consistant ou asymptotiquement
normal pour dire que la suite d’estimateurs est consistante ou asymptotiquement normale.
Exercice 0.6. Montrer que si θbn est asymptotiquement normal, alors θbn est consistant.
2.3. Le risque quadratique. Nous introduisons maintenant une notion de risque qui
sera précisée dans la suite du cours.
14 0. INTRODUCTION
Exemple 0.9. Considérons l’expérience (X, P) avec P = {B(θ)⊗n , θ ∈ [0, 1]}, i.e. X =
(X1 , . . . , Xn ) est une suite i.i.d. de variables de Bernoulli de paramètre θ. Un estimateur
naturel est la moyenne empirique
n
1X
θbn (X) = X n = Xi .
n
i=1
Notons d’abord que cet estimateur est consistant (loi des grands nombres), et asymptotiquement
normal (TCL). Cherchons à calculer son risque quadratique. Soit θ ∈ [0, 1] et X ∼ Pθ⊗n . En
remarquant que Eθbn (X) = θ, on a
h i θ(1 − θ)
R(θ, θbn ) = E (θbn (X) − θ)2 = Var θbn (X) = ·
n
On remarque ainsi que le risque est minimal pour θ = 0 et θ = 1. Cela est naturel puisque dans
ces deux cas, il n’y a pas d’aléatoire : presque sûrement, on n’observe soit que des piles, soit
que des faces et l’estimateur θbn (X) ne peut pas se tromper. Le risque quadratique est maximal
en θ = 1/2. On s’intéresse bien sûr aussi à la manière dont le risque dépend de n, la taille de
l’échantillon. Ici, on voit que, pour tout θ ∈ Θ, le risque R(θ, θbn ) décroı̂t en 1/n.
La fonction θ 7→ Eθ(X)
b − θ s’appelle le biais de θ.
b
2. OUTILS DE STATISTIQUES 15
En effet, l’espérance du produit scalaire est nulle car le terme de biais Eθ(X)−θ
b est déterministe
et par linéarité
hD Ei D h i E
E θ(X)b − Eθ(X),
b Eθ(X)
b − θ = E θ(X) b − Eθ(X)
b , Eθ(X)
b − θ = 0.
que cet estimateur est sans biais : pour tout θ ∈ R, si X ∼ N (θ, 1)⊗n , alors EX n = θ.
Ainsi
n n
1 X 1 X 1 1
R(θ, θn ) = Var(θn (X)) = 2 Var
b b Xi = 2 Var(Xi ) = Var(X1 ) = ,
n n n n
i=1 i=1
en utilisant que pour des variables indépendantes, la variance de la somme est la
somme des variances. Le risque de θbn ne dépend par de θ et tend vers 0 à vitesse 1/n
quand n → ∞.
On remarquera que Θ lui-même est toujours une région de confiance, de niveau de confiance
égal à 1. Cependant, on souhaite en général trouver une région la plus petite possible telle que
le niveau de confiance reste au moins de 1 − α.
L’intervalle I(X) ne peut bien sûr pas dépendre de θ que l’on ne connaı̂t pas. Il ne doit
dépendre que de quantités connues. Par exemple de α, la probabilité d’erreur recherchée, ou
de n, la taille de l’échantillon, ou bien sûr de X, les données observées. Or en général, le risque
R(θ,b θ) dépend de θ et ne permet donc pas toujours de construire directement un intervalle
de confiance. Par exemple dans le modèle de Bernoulli ci-dessus, il vaut θ(1 − θ)/n. C’est
pourquoi on a dû le majorer pour obtenir une quantité indépendante de θ.
On peut aussi utiliser d’autres inégalités plus fines que celle de Markov, comme par exemple
l’inégalité de Hoeffding (voir TDs). On peut parfois aussi utiliser directement la loi de θb si elle
2. OUTILS DE STATISTIQUES 17
est connue (modulo bien sûr la connaissance de θ). Ceci n’est pas très fréquent, mais un cas
particulier est le modèle gaussien.
Exemple 0.12. Modèle gaussien : on observe X = (X1 , . . . , Xn ) i.i.d. de loi N (θ, 1), θ ∈ R.
√
On pose θ(X)
b = X n . On sait que X n ∼ N (θ, n1 ), soit n(X n − θ) ∼ N (0, 1). Ainsi, en notant
Φ la fonction de répartition d’une variable N (0, 1) et en utilisant la symétrie de la loi normale,
on a √
Pθ n|θ(X)
b − θ| > Φ−1 (1 − α/2) = α .
On a donc obtenu que
Φ−1 (1 − α/2)
I(X) = θ(X)
b ± √
n
est un intervalle de confiance de niveau (exactement) 1 − α.
Parfois, on ne connaı̂t pas la loi de θbn pour n fixé mais on connaı̂t sa loi limite quand
n → ∞. Cela permet de construire des intervalles de confiance dits asymptotiques.
L’intervalle q
qα θbn (1 − θbn )
I(X) = θbn ± √
n
est donc un intervalle de confiance asymptotique de niveau 1 − α.
Comme θbn est asymptotiquement normal, il est consistant (voir exercice en Section 1), donc
P P
θbn −→ θ. Par image continue (Proposition 0.11), on en déduit que σ(θbn ) −→ σ(θ). Par
ailleurs, on sait que
√ b
n(θn − θ) L
−→ N (0, 1).
σ(θ)
Grâce au lemme de Slutsky (Proposition 0.12), on en déduit
√ b
n(θn − θ) L
−→ N (0, 1).
σ(θbn )
La proposition 0.9 permet d’en déduire
√ b !
n(θn − θ)
Pθ −qα ≤ ≤ qα −→ P (|N (0, 1)| ≤ qα ) = 1 − α,
σ(θbn ) n→∞
2.5. Vraisemblance. Supposons le modèle dominé par rapport à une mesure dominante
µ, i.e. dPθ = pθ dµ, et soit X = (X1 , . . . , Xn ) ∼ Pθ⊗n . La densité du n-uplet X par rapport à
µ⊗n est donc pθ (x1 ) . . . pθ (xn ). Cette densité, vue comme une fonction de θ, et évaluée aux
points d’observation X1 , . . . , Xn , s’appelle vraisemblance.
θ(X)
b ∈ arg max Lθ (X) ,
θ∈Θ
ou de manière équivalente
θ(X)
b ∈ arg max `θ (X) .
θ∈Θ
Exercice 0.8. Montrer que, dans le modèle de Bernoulli P = {B(θ)⊗n , θ ∈ [0, 1]}, l’EMV
est unique et est donné par θ(X)
b = X n.
3. Lois conditionnelles
On commence par rappeler que, pour A, B des événements avec P(B) > 0, la probabilité
de l’événement A sachant que l’événement B est réalisé est définie par
P(A ∩ B)
P[A B] = ·
P(B)
3.1. Le cas discret. Soient E et F deux ensembles dénombrables (on peut penser à
N pour fixer les idées), et soient X et Y deux variables aléatoires à valeurs dans E et F
respectivement.
On souhaite définir la loi conditionnelle de Y sachant X. Notons que, s’agissant de variables
discrètes, les lois de X et Y sont complètement définies par les données de P(X = e) et P(Y = f )
pour tous les éléments possibles e ∈ E et f ∈ F . Si, pour x ∈ E, Qx est la loi L(Y X = x)
que l’on cherche à définir, il suffit donc aussi de se donner Qx ({y}) pour tout y ∈ F . On définit
tout simplement ces quantités à l’aide de la formule ci-dessus pour la probabilité conditionnelle
d’un événement sachant un autre événement.
20 0. INTRODUCTION
Définition 0.26. Soit x ∈ E tel que P(X = x) > 0. La loi conditionnelle de Y sachant
{X = x}, i.e. P(Y ∈ · X = x), parfois notée L(Y X = x), est définie, pour tout y ∈ F , par
P(Y = y, X = x)
P(Y = y X = x) = ·
P(X = x)
Par extension, on définit la loi conditionnelle de Y sachant X, i.e. P(Y ∈ · X), parfois
notée L(Y X), comme la loi égale à L(Y X = x) si X = x. Dans l’exemple ci-dessus,
δ0 si X = 0
L(Y X) = B 21 si X = 1
δ1 si X = 2,
ce qu’on peut aussi écrire de manière un peu plus compacte comme
X X
L(Y X) = 1 − δ0 + δ1 .
2 2
3.2. Le cas à densité. On se donne
— un espace E muni d’une tribu E et un espace F muni d’une tribu F ;
— une mesure α positive σ-finie sur (E, E) et une mesure β positive σ-finie sur (F, F) ;
— une variable aléatoire X sur E et une variable aléatoire Y sur F .
On suppose que le couple (X, Y ) admet une densité notée h(x, y) par rapport à α ⊗ β, ce que
l’on écrit aussi, si P désigne la loi du couple,
dP (x, y) = h(x, y)dα(x)dβ(y).
Proposition 0.15. Dans le cadre ci-dessus, la loi de X seule, appelée loi marginale de X,
est la loi de densité f donnée par
Z
f (x) = h(x, y)dβ(y).
F
3. LOIS CONDITIONNELLES 21
De même, R la loi marginale de Y est la loi dont la densité sur F par rapport à β est donnée
par g(y) = E h(x, y)dα(x). À partir de la loi du couple (X, Y ), on peut donc facilement
déduire les lois individuelles de X et Y . En revanche, la donnée des deux lois marginales ne
permet absolument pas de déterminer la loi du couple.
Dans le cas général de variables à densité, l’événement {X = x}, pour x ∈ E, peut être de
probabilité nulle. Par exemple, si X admet une densité f par rapport à la mesure de Lebesgue
sur E = R, alors P(X = x) = 0 pour tout x ∈ R. On ne peut donc pas conditionner par
rapport à cette événement. Cependant, si f (x) > 0, on peut définir ce qu’on appelle la densité
conditionnelle de Y sachant X = x.
Définition 0.27. Soit x ∈ E tel que f (x) > 0. La loi conditionnelle de Y sachant X = x,
notée L(Y X = x), est la loi dont la densité sur F par rapport à β est donnée par
h(x, y) h(x, y)
y 7→ gx (y) = =R ·
f (x) F h(x, y)dβ(y)
On notera parfois g(y x) au lieu deR gx (y). Notons que par définition, la fonction y 7→ g(y x)
est une densité par rapport à β, soit F g(y x)dβ(y) = 1.
Pour avoir une quantité définie pour tous les x de E, on peut étendre la définition de gx (y)
au cas où f (x) = 0 en posant le quotient ci-dessus égal à une valeur quelconque (par exemple
0) lorsque f (x) = 0. Ces points x n’auront typiquement pas d’incidence dans les calculs car
l’ensemble des x tels que f (x) = 0 est un ensemble de mesure nulle sous L(X) puisque
Z
1f (x)=0 f (x)dα(x) = 0 .
E
Exercice 0.10. Vérifier que le cas discret est un cas particulier de la formule ci-dessus,
pour lequel E et F P
sont dénombrables,
P et α, β sont les mesures de comptage sur E et F
respectivement, α = e∈E δe et β = f ∈F δf .
Comme dans le cas discret, on définit par extension la loi de Y sachant X comme la loi
égale à L(Y X = x) quand X = x. La densité conditionnelle de Y sachant X est définie
22 0. INTRODUCTION
Exercice 0.11. Déterminer la densité de la loi marginale de Y et montrer que la loi condi-
tionnelle de X Y est une loi Gamma Γ(2, Y + 1).
tout ce qui ne dépend pas de y qui est considéré comme constant. Cela signifie que pour tout
x ∈ E, il existe c(x) tel que pour tout y ∈ F ,
gx (y) = c(x)ϕ(x, y).
Notons que comme la fonction y 7→ gx (y) est une densité sur F par rapport à β, la constante
c(x) est simple à retrouver après coup : on a nécessairement
1
c(x) = R ·
F ϕ(x, y)dβ(y)
Définition 0.28. Soit ϕ : F → R une fonction mesurable telle que Eϕ(Y ) < ∞. On définit
Z
E[ϕ(Y ) X] = ϕ(y)g(y X)dβ(y).
F
Proposition 0.16. Pour toute fonction ψ : E × F → R mesurable, telle que ψ(X, Y ) est
intégrable, on a
E[ψ(X, Y )] = E E[ψ(X, Y ) X]
Z Z
= ψ(x, y)g(y x)dβ(y)f (x)dα(x) .
E F
Proposition 0.17. Dans le cadre précédent, soit (X, Y ) un couple de variables aléatoires à
valeurs dans E × F avec F = R, de densité h(x, y) par rapport à α ⊗ β. Supposons Y de carré
intégrable : E[Y 2 ] < ∞. Alors
E (Y − ϕ(X))2 = E (Y − E[Y X])2 .
inf
ϕ:E→R
E[ϕ(X)2 ]<∞
24 0. INTRODUCTION
Démonstration. On note que pour toute fonction ϕ : E → R telle que E[ϕ(X)2 ] < ∞,
E (Y − ϕ(X))2 = E (Y − E[Y X])2 + E (E[Y X] − ϕ(X))2 .
Énonçons enfin le résultat suivant, qui nous servira souvent.
4. Approches statistiques
Nous introduisons les deux points de vue principaux, l’approche fréquentiste et l’approche
bayésienne. Ces deux approches ont le même point de départ : l’expérience statistique définie
plus haut, et en particulier le modèle P. La principale différence réside dans l’hypothèse que
l’on fait sur la loi suivie par les données X.
∃ θ0 ∈ Θ, X ∼ P θ0
Typiquement, θ0 est inconnu et l’on cherche à l’estimer à l’aide des données X. Par
exemple, dans le modèle gaussien, X = (X1 , . . . , Xn ) et P = {N (θ, 1)⊗n , θ ∈ R}. L’approche
fréquentiste consiste à supposer qu’il existe θ0 ∈ R tel que
(X1 , . . . , Xn ) ∼ N (θ0 , 1)⊗n ,
c’est-à-dire que les données sont i.i.d. de loi commune N (θ0 , 1). On peut alors estimer θ0 par
la moyenne empirique X n . Ce choix se justifie par exemple par la loi des grands nombres qui
P
assure que X n −→ θ0 .
Les grandes questions dans le cadre fréquentiste sont celles abordées dans la Section 2 :
4. APPROCHES STATISTIQUES 25
4.2. Approche bayésienne. Thomas Bayes (1702-1761) et Laplace (1749-1827) ont été
des pionniers de la méthodologie bayésienne. Dans cette approche, on modélise toutes les
quantités inconnues par des variables aléatoires.
Une intuition possible derrière cette approche est que plutôt que de modéliser des quantités
par des nombres, il peut être intéressant de les modéliser plutôt par des lois de probabilité.
Avant d’observer l’échantillon, nous avons une certaine connaissance a priori, ou une certaine
croyance, sur le paramètre (par exemple on sait qu’il est positif, ou bien on se doute qu’il est
proche de 0, ou bien on sait qu’il est contenu dans un certain intervalle). Cette connaissance
a priori est modélisée par une loi, la loi a priori, appelée aussi le prior. L’observation de
l’échantillon nous permet ensuite de mettre à jour cette loi en formant ce qu’on appelle la loi a
posteriori. L’objet central de l’approche bayésienne est ainsi une loi qui évolue avec la taille de
l’échantillon : on part d’une loi a priori, et la prise en compte de chaque nouvelle observation
fait évoluer cette loi : même si l’on part d’une certaine croyance a priori, l’observation du réel
nous amène à modifier nos croyances.
Par exemple, imaginons que l’on cherche à savoir quelle est la probabilité θ ∈ [0, 1] qu’une
certaine pièce de monnaie tombe sur pile. L’approche fréquentiste va essentiellement faire
appel à la loi des grands nombres et au théorème central limite : si on lance la pièce un grand
nombre n de fois, et que l’on observe une certaine fréquence X n de lancers donnant pile, alors
on peut raisonnablement penser que la valeur X n devient de plus en plus proche (quand n
grandit) de la vraie valeur de θ (loi des grands nombres), et qu’avec grande probabilité, la
vraie valeur de θ se trouve dans un certain intervalle centré en X n dont la taille est donnée par
des fluctuations gaussiennes (théorème central limite). L’approche bayésienne serait plutôt la
suivante : a priori, si l’on n’a effectué aucun lancer, on ne sait pas grand chose du paramètre,
mais l’on sait cependant qu’il appartient à l’intervalle [0, 1]. Si c’est là notre seule information
a priori sur θ, on peut commencer par dire que θ est distribué selon une loi uniforme sur [0, 1].
C’est notre loi a priori. Choisir une loi uniforme revient à ne privilégier aucune valeur de [0, 1]
par rapport aux autres (si l’on pense que la pièce n’est sûrement pas trop biaisée, on aurait
pu plutôt choisir une loi qui met plus de poids autour de 1/2). Ensuite on commence à lancer
la pièce. Les résultats des lancers vont permettre de mettre à jour la loi initiale. Par exemple,
si l’on observe bien plus de piles que de faces, on ne maintiendra pas notre a priori uniforme,
mais on mettra à jour notre connaissance en formant une loi a posteriori qui mettra plus de
poids au-dessus de 1/2 qu’en dessous.
26 0. INTRODUCTION
Dans l’approche bayésienne, on suppose donc que le paramètre inconnu θ du modèle est
lui-même aléatoire, de loi donnée par la loi a priori. Cette loi reflète notre connaissance préalable
(éventuelle) du paramètre. Ensuite, une fois des données X1 , . . . , Xn observées, on va mettre à
jour la loi a priori en utilisant l’information contenue dans les données. Formellement, cette
mise à jour se fait par une opération de conditionnement, ce que nous verrons au Chapitre 1.
On obtient alors une nouvelle loi, la loi a posteriori. Notons déjà que si l’on choisit comme
loi a priori une mesure de Dirac en un point, alors l’observation des données ne changera
rien. La loi a posteriori restera toujours cette même mesure de Dirac. Dans ce cas, on a une
connaissance certaine de la vraie valeur du paramètre et aucune donnée ne la modifiera. Ce
cas extrême n’a donc pas beaucoup d’intérêt d’un point de vue statistique : si l’on est sûr de
quelque chose, les statistiques ne servent à rien.
Illustrons les idées ci-dessus dans le cadre du modèle gaussien {N (θ, 1)⊗n , θ ∈ R}, avec
pour loi a priori sur θ la loi N (0, 1). Nous verronsau Chapitre1 qu’après avoir observé n
n 1
données X1 , . . . , Xn , la loi a posteriori est Πn = N n+1 X n , n+1 . La Figure 1 représente la
densité de la loi a priori, et de la loi a posteriori Π3 , obtenue après observation des données
X1 , X2 , X3 .
Notons l’effet de la mise à jour sur l’espérance de la loi a posteriori : au départ, on avait
une loi a priori dont l’espérance était nulle. Puis l’observation des données a fait évoluer cette
1 n
espérance : au temps n, l’espérance de la loi a posteriori est n+1 × 0 + n+1 X n . Plus n grandit,
plus l’espérance se rapproche de X n . Mais il reste toujours un effet marginal de l’a priori :
l’espérance a posteriori s’écrit comme une moyenne pondérée entre l’espérance de la loi a
1
priori 0 (avec une pondération n+1 ) et la moyenne empirique de l’échantillon X n (avec une
n
pondération n+1 ). La connaissance a priori s’efface donc de plus en plus, au profit de ce
qui est observé. La mise à jour a aussi un effet sur la variance de la loi a posteriori qui ici
1
décroı̂t en n+1 : la loi a posteriori devient de plus en plus concentrée.
Chapitre 1
L’approche bayésienne
1. Le cadre bayésien
Le point de départ est toujours une expérience statistique : on se donne X un objet
aléatoire et P = {Pθ , θ ∈ Θ} un modèle statistique. On supposera ici Θ ⊂ Rd , pour d ≥ 1 fixé.
Le cadre bayésien consiste dans un premier temps à munir l’espace des paramètres Θ d’une
mesure de probabilité Π, appelée loi a priori. Ainsi le paramètre est une variable aléatoire θ,
de loi Π.
Démonstration. Grâce à (1.1), l’application (θ, x) 7→ π(θ)pθ (x) est mesurable comme
produit de fonctions mesurables, et positive par définition. Le théorème de Fubini donne alors
que
Z Z Z Z
π(θ)pθ (x)d(ν ⊗ µ)(θ, x) = pθ (x)dµ(x) π(θ)dν(θ) = π(θ)dν(θ) = 1.
Θ×E Θ E Θ
Définition 1.1. Dans le cadre bayésien, on suppose l’application (1.1) mesurable et l’on
définit la loi L(θ, X) du couple (θ, X) comme la loi de densité (θ, x) 7→ π(θ)pθ (x) par rapport
à ν ⊗ µ. Autrement dit, la loi de θ et la loi conditionnelle L(X θ) sont données par
θ∼Π
(1.2)
X θ ∼ Pθ .
Vérifions que les lois de θ et de X θ sont bien celles données dans la définition. La densité
de θ s’obtient en intégrant la densité jointe
Z
∀θ ∈ Θ , π(θ)pθ (x)dµ(x) = π(θ),
E
Remarque 1.2. Attention ! Dans le cadre bayésien, la loi de X n’est donc pas Pθ , qui est la
loi de X sachant θ = θ.
Une fois défini le cadre, la façon bayésienne de construire un estimateur est de conditionner
l’information de départ, contenue dans la loi a priori, par l’observation, c’est-à-dire X. On
obtient ainsi la définition suivante.
Définition 1.2. La loi a posteriori est la loi conditionnelle L(θ X). C’est une loi sur Θ,
qui est notée Π[ · X].
Notons que sous l’hypothèse (1.1) que nous supposerons vérifiée dans la suite, il est
équivalent de se donner la loi jointe de (θ, X) ou les deux lois de θ et de X θ suivant (1.2).
Nous ferons donc simplement référence à (1.2) quand nous parlerons de formalisme ou de
cadre bayésien.
1. LE CADRE BAYÉSIEN 29
Theorème 1.2 (Formule de Bayes). La loi a posteriori L(θ X) a une densité par rapport
à ν donnée par
Z
pθ (X)π(θ)
∀θ ∈ Θ , π(θ X) = , où f (X) = π(θ)pθ (X)dν(θ) .
f (X) Θ
Exemple 1.3 (L’exemple historique de Bayes). Thomas Bayes (dans son célèbre Essay
Towards Solving a Problem in the Doctrine of Chances publié de manière posthume en 1763)
considère le problème suivant. Une boule de billard roule sur une ligne de longueur 1, avec une
probabilité uniforme de s’arrêter en un point. Supposons qu’elle s’arrête en p. Une deuxième
boule roule n fois dans les mêmes conditions, et on note X le nombre de fois où elle s’est
arrêtée avant la première boule. Bayes se demande : connaissant X, quelle inférence peut-on
mener sur p ?
Exercice 1.1. Dans cette expérience, quel est l’ensemble Θ ? La loi a priori ? La famille de
lois (Pθ )θ∈Θ ? Répondre à la question de Bayes en calculant la densité a posteriori.
30 1. L’APPROCHE BAYÉSIENNE
Méthode 2 – ‘proportionnel à’. On constate qu’il n’est pas utile de garder l’intégrale f (X) au
dénominateur dans les calculs, puisque c’est une expression qui dépend de X seulement et pas
de θ, et intervient donc seulement en termes de constante de normalisation. Le symbole ∝
ci-dessous signifie ‘à constante de proportionnalité près’, où cette constante peut dépendre de
tout sauf de θ.
2 +θX X 2
π(θ X) ∝ π(θ)pθ (X) ∝ e−θ ∝ e−(θ− 2 ) .
X 1
L’unique loi dont la densité est proportionnelle à cette expression est la loi N 2,2 .
La loi a posteriori Π[ · X] est une loi sur Θ = R, de densité par rapport à la mesure de
Lebesgue donnée par
( n )
1 − θ2 Y 1 − (Xi −θ)2
√ e 2 √ e 2
2π 2π
π(θ X1 , . . . , Xn ) = Z (i=1
n
) .
1 −θ 2 Y 1 − (Xi −θ)2
√ e 2 √ e 2 dθ
R 2π i=1
2π
Déterminons la densité à constante multiplicative près :
n
!
X 1 θ 2
π(θ X1 , . . . , Xn ) ∝ exp − (Xi − θ)2 −
2 2
i=1
n+1 2
∝ exp − θ + nX n θ
2
2 !
n+1 nX n
∝ exp − θ− .
2 n+1
On en conclut
nX n 1
Π[· X1 , . . . , Xn ] = N , .
n+1 n+1
La figure 1 trace la loi a priori, les données, et les lois a posteriori correspondant à
n = 3, 5, 10 observations dans le cadre du modèle gaussien. On constate que la loi a posteriori
se concentre près de X n et que l’ √
incertitude, que l’on peut décrire comme l’écart-type de la
loi a posteriori, décroı̂t comme 1/ n quand n augmente.
Proposition 0.18, que X−θ 1 et θ sont indépendantes, et que la loi (non-conditionnée) de X−θ 1
est la loi N (0, 1)⊗n . Ainsi X ∼ θ 1 + Z, avec θ ∼ N (0, 1) et Z = (Z1 , . . . , Zn ) ∼ N (0, 1)⊗n ,
indépendant de θ. La loi de X est donc celle d’un vecteur gaussien, et il suffit de déterminer
son espérance et sa matrice de covariance. Pour l’espérance, on a
E[X] = E[θ]1 + E[Z] = 0 ,
où 0 est le vecteur nul de Rn .
De plus, par indépendance, on a Var(Xi ) = Var(θ) + Var(Zi ) = 2,
et, pour i 6= j,
Cov(Xi , Xj ) = Cov(θ + Zi , θ + Zj ) = Var(θ) = 1 .
Ainsi X ∼ N (0, Σ), où Σ est la matrice dont les entrées sont égales à 2 sur la diagonale, et à 1
hors de la diagonale.
Exercice 1.2. Dans le modèle gaussien avec n observations, si la loi a priori Π sur θ est
une N (µ, σ 2 ), montrer que
−2
µσ + nX n 1
Π[· X1 , . . . , Xn ] = N , −2 .
σ −2 + n σ +n
Vérifier que la moyenne de la loi a posteriori est une moyenne pondérée de la moyenne de la
loi a priori et de la moyenne des données, en précisant les poids alloués à chacune des deux
moyennes.
Définition 1.3. Soit une expérience statistique X, P = {Pθ , θ ∈ Θ}, soit Π une loi a priori
sur θ, et Π[· X] l’a posteriori correspondant. On définit, si ces quantités existent,
— la moyenne a posteriori, notée mX :
Z
mX = E[θ X] = θdΠ(θ X).
Θ
— le mode a posteriori : c’est un point où le maximum de la densité a posteriori θ 7→
π(θ X) est atteint. On le note
mode(θ X) ∈ arg max π(θ X).
θ∈Θ
— la variance a posteriori (pour Θ ⊂ R), notée vX : c’est la variance de la loi a posteriori,
soit
Z
vX = Var(θ X) = E (θ − E[θ X]) X = (θ − mX )2 dΠ(θ X).
2
Θ
Si Θ ⊂ Rd , d ≥ 2, on peut définir la matrice de variance-covariance a posteriori :
Z
ΣX = (θ − E[θ X])(θ − E[θ X])T dΠ(θ X).
Θ
3. LE CHOIX DE LA LOI A PRIORI 33
On note que ces quantités peuvent parfois ne pas être définies, par exemple si la loi a
posteriori n’a pas d’espérance ou de moment d’ordre 2, ou si elle n’a pas de mode.
3.2. Conjugaison.
Définition 1.5. Une famille F de lois a priori est dite conjuguée par rapport au modèle
P = {Pθ , θ ∈ Θ} si, pour toute loi Π ∈ F, si Π est prise comme loi a priori dans le cadre
bayésien de ce modèle, alors la loi a posteriori Π[ · X] associée appartient aussi à F.
i=1
La loi dont la densité est proportionnelle à cette expression est la loi Γ(p+nX n , λ+n).
Ainsi
Π[· X] = Γ(p + nX n , λ + n) ∈ F.
I la famille des lois Gamma F = {Γ(p, λ), p > 0, λ > 0} est conjuguée pour le modèle
des lois Gamma(k, θ) (pour tout k > 0 fixé).
3. LE CHOIX DE LA LOI A PRIORI 35
I la famille des lois de Pareto F = {P(α, r), α > 0, r > 0} est conjuguée pour le
modèle des lois uniformes. Pour α > 0 et r > 0 fixés, on considère
X = (X1 , . . . , Xn ) θ ∼ Unif[0, θ]⊗n
θ ∼ P(α, r)
On rappelle que la densité de la loi P(α, r) par rapport à la mesure de Lebesgue est
donnée par z 7→ αrα z −(α+1) 1[r,+∞[ (z). On obtient
n
1 Y
π(θ X) ∝ θ−(α+1) 1θ≥r 10≤Xi ≤θ
θn
i=1
∝θ −(α+n+1)
1θ≥max{r,X1 ,...,Xn } .
La loi dont la densité est proportionnelle à cette expression est la loi P (α + n, rX ),
où rX = max{r, X1 , . . . , Xn }. Ainsi
Π[· X] = P (α + n, rX ) ∈ F.
Disposer d’une famille de lois conjuguée rend typiquement les calculs assez simples lorsque
les paramètres a posteriori s’expriment explicitement à l’aide de ceux a priori et des données.
De plus, si l’on sait simuler suivant les lois de la famille considérée, la simulation suivant la loi
a posteriori est un cas particulier, donc le temps ou la complexité de calcul sont réduits dans
ce cas ce qui est souvent avantageux (voir chapitre Simulation).
La plupart des cas de lois conjuguées citées ci-dessus correspondent à un seul paramètre
inconnu (à l’exception du modèle multinomial). Lorsque plusieurs paramètres sont inconnus, ce
qui revient typiquement à dire que le paramètre est dans un sous-ensemble de Rd , d > 1, trouver
une loi conjuguée peut être plus délicat. Nous voyons deux exemples classiques ci-dessous.
Dans le cas où µ est connu et vaut 0, la famille des lois inverse-gamma est conjuguée pour
le modèle {N (0, σ 2 ), σ 2 > 0} (le paramètre étant θ = σ 2 ). En effet, si σ 2 ∼ IG(a, b) = Π et
X σ 2 ∼ N (0, σ 2 ), la densité a posteriori est donnée par
X2 b
π(σ 2 X) ∝ σ −1 e− 2σ2 (σ 2 )−a−1 e− σ2
3 1 X2
∝ (σ 2 )−a− 2 e− σ2 (b+ 2
)
2
On obtient L(σ 2 X) = IG a + 21 , b + X2 .
Dans le cas où à la fois µ et σ 2 sont inconnus, on peut déjà essayer d’utiliser une loi
inverse-gamma sur σ 2 . En revanche, l’idée qui consiste à proposer une loi produit comme loi a
priori sur le couple (µ, σ 2 ), donc de densité du type g(µ)h(σ 2 ) ne va pas fonctionner ; en effet,
la vraisemblance s’écrit, déjà dans le cas d’une observation, Cσ −1 exp{− 2σ1 2 (X − µ)2 }, qui est
une expression qui mélange µ et σ 2 .
Définition 1.6. On appelle loi NIG(a, b, c, d), loi normale inverse-gamma la loi sur R × R∗+
définie par le schéma
σ2
µ σ 2 ∼ N (a, )
b
σ 2 ∼ IG(c, d).
La famille de toutes les lois NIG normales inverse-gamma est conjuguée pour ce modèle et
Π[ · X] = NIG (aX , bX , cX , dX ) ,
n n
1X 2 2 1X
avec, si l’on pose sX = Xi − X n = (Xi − X n )2 ,
n n
i=1 i=1
nX n + ab
aX = , bX = b + n
n+b
n nsX nb
cX = c + , dX = d + + (X n − a)2
2 2 2(n + b)
3. LE CHOIX DE LA LOI A PRIORI 37
Un autre cas important est celui de lois gaussiennes multidimensionnelles, où chaque
observation est dans Rd , d ≥ 1. Nous traitons le cadre où la matrice de variance-covariance Σ
est connue. Il est possible de l’étendre au cas où Σ est inconnue en suivant des idées similaires
à celles vues à la section précédente pour le cas uni-dimensionnel.
Remarque 1.5. Le Théorème 1.5 peut se voir comme un résultat de conditionnement sur
les vecteurs gaussiens. Les lois de X µ et de µ sont gaussiennes, donc la loi jointe de (X, µ)
aussi, ainsi que la loi conditionnelle de µ X.
4. Régions de crédibilité
Faisons un premier bilan rapide de ce que nous avons obtenu jusqu’ici. Partant d’une
expérience statistique (X, P) avec X = (X1 , . . . , Xn ) et P = {Pθ⊗n , θ ∈ Θ}, et d’une loi a
priori Π sur Θ, nous avons construit une mesure de probabilité, la loi a posteriori Π · X ,
qui dépend des données.
Par rapport à l’approche fréquentiste où l’on considère typiquement un estimateur θ(X) b
à valeurs dans Θ, on obtient ici une loi de probabilité aléatoire, Π · X , à valeurs dans
l’ensemble des mesures de probabilité sur Θ.
Nous avons vu à la Définition 1.3 que l’on pouvait à partir de la loi a posteriori construire
des estimateurs ponctuels comme la moyenne, la médiane, ou le mode a posteriori. Mais
peut-être pourrait-on également tirer profit du fait que la loi a posteriori donne non seulement
une information sur une localisation, via par exemple la moyenne a posteriori, mais aussi
une information sur la dispersion, par exemple via la variance a posteriori et les quantiles a
posteriori. Ainsi, une loi a posteriori dont la variance est très petite sera très concentrée autour
de sa moyenne et on peut penser qu’elle donnera plus d’informations sur le paramètre
θ qu’une
loi a posteriori à variance plus grande. Ne pourrait-on pas utiliser Π · X pour obtenir des
intervalles ou des régions de confiance ? Cette question motive la définition suivante.
Définition 1.7. Une région de crédibilité A ⊂ Θ de niveau (au moins) 1 − α pour Π · X
est un ensemble p.s. mesurable 1 A = A(X) tel que
Π A X ≥ 1 − α.
Si l’on ne fait pas d’hypothèse spécifique, il n’y a aucune raison pour qu’une région de
crédibilité soit une région de confiance. Cela n’a en principe même pas de sens de parler de
région de confiance dans un cadre bayésien où il n’y a pas de vrai θ comme dans le cadre
fréquentiste. Nous verrons cependant au Chapitre 5 qu’il est possible de faire une analyse
fréquentiste des lois a posteriori, et que sous certaines conditions une région de crédibilité peut
être une région de confiance, éventuellement asymptotiquement.
Il y a en général de nombreux choix possibles pour construire une région de crédibilité.
Par exemple, Θ est toujours une région de crédibilité 1. Bien sûr, en pratique on cherchera
à construire une région la plus petite possible. Ci-dessous nous voyons en détails deux
constructions classiques.
4.1. Construction via des quantiles a posteriori. On suppose ici que Θ ⊂ R et que
la fonction de répartition a posteriori
t 7→ FX (t) = Π ] − ∞, t] X
−1
est continue sur R. Son inverse généralisée FX vérifie donc
−1
∀u ∈]0, 1] , FX ◦ FX (u) = u .
Dans ce cadre, en posant
−1 −1
a(X) = FX (α/2) et b(X) = FX (1 − α/2) ,
on a
Π ]an (X), bn (X)] X = Π ] − ∞, bn (X)] X − Π ] − ∞, an (X)] X
−1 −1
= FX ◦ FX (1 − α/2) − FX ◦ FX (α/2)
= 1 − α/2 − α/2 = 1 − α.
Sous les hypothèses précédentes, nous avons donc construit un intervalle de crédibilité de
niveau (exactement) 1 − α. Ce choix est bilatère, dans le sens où on prend des quantiles à
gauche et à droite. On pourrait aussi - mais ce choix est moins courant - prendre un quantile
−1
unilatère et poser J(X) =] − ∞, cn (X)] avec cn (X) = FX (1 − α).
4.2. Régions de plus haute densité. Soit Q une loi de probabilité sur Θ de densité q
par rapport à une mesure ν. On commence par définir les ensembles de niveau pour Q. Pour
tout y ≥ 0, on définit
L(y) = {θ ∈ Θ, q(θ) ≥ y}.
La région L(y) consiste en l’ensemble des paramètres pour lesquels la densité q en ce paramètre
dépasse le niveau y.
Définition 1.8. Soit α ∈]0, 1[. La région de plus haute densité (PHD) au niveau 1 − α pour
une loi Q de densité q est la région H ⊂ Θ donnée par
H = L(yα ),
avec
yα = sup {y ∈ R+ , Q (L(y)) ≥ 1 − α} .
Lemme 1.6. Soit H une région PHD au niveau 1 − α pour une loi Q sur Θ de densité q.
Alors
Q (H) ≥ 1 − α.
Démonstration. Notons
Eα = {y ∈ R+ , Q (L(y)) ≥ 1 − α} .
Ainsi yα = sup(Eα ) et H = L(yα ). Soit (yn ) est une suite croissante d’éléments de Eα qui
converge vers yα (on peut en trouver une par définition de la borne supérieure d’un ensemble).
Par définition de Eα , on a, pour tout n ≥ 1,
(1.3) Q (L(yn )) ≥ 1 − α.
Par croissance de (yn ) et par définition des ensembles de niveau, les ensembles L(yn ) sont
emboı̂tés, i.e.
L(y1 ) ⊃ L(y2 ) ⊃ . . .
40 1. L’APPROCHE BAYÉSIENNE
La région de plus haute densité est donc par construction le plus petit parmi les ensembles
de niveau L(y) qui ont une probabilité au moins 1 − α sous Q. La figure 2 illustre la définition
précédente.
Figure 2. La réunion des deux intervalles en bleu sur l’axe des abscisses est
la région PHD au niveau 1 − α pour la densité g dessinée. La région hachurée
en vert a une aire égale à (1 − α).
DansR l’énoncé ci-dessous, le volume d’un ensemble mesurable A est un synonyme pour
ν(A) = A dν(θ) (si ν est la mesure de Lebesgue, alors ν(A) est le volume usuel dans Rd ).
Theorème 1.7. Dans le cadre de la Définition 1.8, la région PHD au niveau 1 − α est de
volume minimal parmi les régions de même probabilité sous Q.
Il suffit de montrer que si une région A ⊂ Θ a une probabilité au moins aussi grande que H,
soit Q(A) ≥ Q(H), alors ν(A) ≥ ν(H). Notons que
Q(A) = Q(A ∩ H) + Q(A ∩ Hc )
Q(H) = Q(A ∩ H) + Q(H ∩ Ac ).
Si Q(A) ≥ Q(H), on a donc Q(A ∩ Hc ) ≥ Q(H ∩ Ac ). D’autre part, on a
Z Z
c q(θ)
ν(H ∩ A ) = dν(θ) ≤ dν(θ) ,
H∩Ac H∩Ac yα
puisque si θ ∈ H, alors q(θ) ≥ yα . On obtient donc
Q(H ∩ Ac ) Q(Hc ∩ A)
Z
c q(θ)
ν(H ∩ A ) ≤ ≤ = dν(θ) .
yα yα Hc ∩A yα
Et comme, si θ ∈ Hc , alors q(θ) ≤ yα , on a
Z Z
q(θ)
dν(θ) ≤ dν(θ) = ν(Hc ∩ A) .
c
H ∩A y α c
H ∩A
Ainsi ν(H ∩ Ac ) ≤ ν(Hc ∩ A) et
ν(H) = ν(H ∩ A) + ν(H ∩ Ac ) ≤ ν(cH ∩ A) + ν(A ∩ Hc ) = ν(A) ,
ce qu’il fallait démontrer.
Définition 1.9. Dans une expérience statistique (X, P) avec une loi a priori Π sur Θ ⊂ Rd ,
PHD a posteriori au niveau 1 − α est la région
soit Π · X la loi a posteriori. La région
PHD au niveau 1 − α pour la loi Π · X .
En général, les deux constructions 4.1 et 4.2 (par les quantiles et par les régions PHD)
donnent des régions différentes. Un exemple est donné par la figure 2, où la région HPD est
une union de deux intervalles disjoints, donc est nécessairement différente d’une région obtenue
par quantiles qui correspond à un seul intervalle. En revanche, les constructions coı̈ncident si
la densité a posteriori est continue, unimodale et symétrique sur R, voir TDs. Du point de
vue pratique, la méthode par les quantiles est souvent plus facile a mettre en œuvre, car elle
nécessite seulement de connaı̂tre deux des quantiles a posteriori, tandis que la construction de
régions PHD nécessite de travailler avec les ensembles de niveau de la densité a posteriori.
Chapitre 2
Sauf dans certains cas particuliers (famille de lois conjuguée...), il peut être difficile de
déterminer explicitement la loi a posteriori. Il peut alors s’avérer compliqué d’évaluer des
quantités comme la moyenne, la médiane ou les quantiles a posteriori. Par exemple, la moyenne
a posteriori s’écrit comme une intégrale contre la loi a posteriori :
Z
θdΠ(θ X).
Θ
Comment évaluer ce genre d’intégrales si l’on ne connaı̂t pas précisément la loi a posteriori ?
Dans un premier temps, nous verrons comment, à partir d’un générateur de la loi uniforme,
on peut simuler de nombreuses lois, pourvu qu’elles ne soient pas trop méchantes (nous verrons
au Chapitre 6 comment affronter des lois plus méchantes). Puis on verra R que si l’on sait
simuler selon une loi P , alors on peut approcher des intégrales de la forme φ(x)dP (x). Pour
ceux qui souhaitent en savoir plus sur la simulation de variables aléatoires et les méthodes
de Monte-Carlo, une référence classique est l’ouvrage de Luc Devroye, Non-uniform random
variate generation, disponible là : http://luc.devroye.org/rnbookindex.html.
F (x). En effet, si F (x) ≥ u, alors par définition de F −1 , F −1 (u) ≤ x. Et si F (x) < u, comme
F est continue à droite, il existe ε > 0 tel que F (x + ε) < u. Mais alors F −1 (u) ≥ x + ε > x.
Soit maintenant U ∼ Unif[0, 1]. Pour tout x ∈ R, on a
P F −1 (U ) ≤ x = P (U ≤ F (x)) = F (x) .
Autrement dit, F −1 (U ) ∼ X. Ainsi, si l’on sait calculer F −1 , on sait simuler une variable
aléatoire de loi F .
Cette méthode simple n’est pas toujours réalisable en pratique. En effet, elle nécessite de
savoir inverser la fonction de répartition, ce qui n’est pas toujours possible. Il y a aussi des cas
où la fonction de répartition elle-même n’est pas accessible autrement que sous forme d’une
intégrale de la densité, l’exemple typique étant la loi normale. La méthode de rejet permet,
dans certaines situations, de simuler des variables aléatoires dont on ne connaı̂t explicitement
que la densité, voire la densité à une constante multiplicative près.
1.2. Méthode de rejet. On souhaite simuler une variable aléatoire à valeurs dans un
espace mesuré (E, E, µ), de densité f par rapport à µ. On suppose que l’on sait simuler selon
une autre densité g (par rapport à µ aussi) et que cette densité est telle qu’il existe une
constante m ≥ 1 telle que pour tout y ∈ E, f (y) ≤ mg(y). Pour tout y ∈ E tel que g(y) > 0,
on note (
f (y)
si g(y) > 0,
r(y) = mg(y)
0 sinon.
Soient (Ui )i≥1 une suite i.i.d. de loi Unif([0, 1]) et (Yi )i≥1 une suite i.i.d. de loi de densité
g, indépendante de (Ui )i≥1 . On définit
τ = inf{i ∈ N∗ , r(Yi ) ≥ Ui } .
Algorithme de rejet
(1) Générer Y ∼ g et U ∼ Unif([0, 1]), Y ⊥
⊥ U.
(2) Si r(Y ) ≥ U , retourner Y . Sinon, revenir à l’étape 1.
Proposition 2.1. La variable X = Yτ est de densité f . Par ailleurs, τ est de loi géométrique
de paramètre 1/m et est indépendante de X.
Ainsi
1 n−1 1
Z
P (Yτ ∈ A, τ = n) = 1 − f (y)dµ(y) .
m m A
Pour A = E, on a donc
1 n−1 1
P (τ = n) = P (Yτ ∈ E, τ = n) = 1 − ·
m m
La variable τ est donc géométrique de paramètre 1/m. En particulier, τ < +∞ p.s. et en
sommant sur n ∈ N∗ , on obtient
Z
P (Yτ ∈ A) = f (y)dµ(y) .
A
Autrement dit, la variable Yτ est bien de densité f , et comme P (Yτ ∈ A, τ = n) = P(Yτ ∈
A)P(τ = n), les variables τ et Yτ sont bien indépendantes.
Exemple 2.2 (Simulation d’une variable uniforme sur un sous-ensemble du cube). Soit
A un ensemble borélien du cube [0, 1]d . S’il est très facile de simuler une variable uniforme
sur [0, 1]d (c’est un vecteur de d variables uniformes indépendantes sur [0, 1]), il peut être
bien plus complexe de simuler directement une variable uniforme sur A. Supposons cependant
que l’on sache dire, pour tout élément du cube, s’il est dans A ou non. L’algorithme de rejet
consiste alors à tirer des variables Y1 , Y2 , . . . indépendantes uniformes sur [0, 1]d , jusqu’au
premier temps τ où Yτ ∈ A. La variable Yτ est alors uniformément distribuée sur A. En effet,
en notant λ(A) le volume de A (sa mesure de Lebesgue), on a
1 1
∀y ∈ Rd , f (y) = 1 ≤ 1 d .
λ(A) {y∈A} λ(A) {y∈[0,1] }
Ainsi, on peut prendre m = λ(A) 1
et le rapport r s’écrit alors simplement r(y) = 1{y∈A} . Il
n’y a donc pas besoin de tirer les variables (Ui ) puisque l’on sait que le premier succès est
précisément le premier temps où l’on tombe dans A. Notons qu’il n’y a pas non plus besoin de
connaı̂tre λ(A) pour implémenter l’algorithme. Remarquons cependant que si λ(A) est très
petit, cette méthode n’est pas satisfaisante puisque très coûteuse en temps de calcul (il faut
attendre très longtemps avant de tomber dans A).
Exemple 2.3 (Loi gamma). La loi Γ(p, λ), avec p, λ > 0, est typiquement un exemple
de loi dont la densité est relativement simple mais dont la fonction de répartition n’a pas
d’expression explicite, donc la méthode de la transformée inverse ne convient pas. Quand p > 1,
on peut utiliser l’algorithme de rejet avec comme densité auxiliaire la densité d’une variable
exponentielle de paramètre µ, soit g(y) = µe−µy 1y≥0 (qui se simule bien par la méthode de la
transformée inverse). Notons
λp y p−1 e−λy
mµ = sup −µy
·
y∈R+ Γ(p)µe
2. MÉTHODES DE MONTE-CARLO POUR LE CALCUL D’INTÉGRALES 45
p−1
Un peu de calcul montre que, si µ < λ, alors le supremum est atteint en y = λ−µ et vaut
λp (p − 1)p−1 e1−p
mµ = ,
Γ(p)µ(λ − µ)p−1
et encore un peu de calcul montre que la constante mµ est minimale pour µ∗ = λp , et que
pp e1−p
mµ∗ = ·
Γ(p)
√
e p
Notons que par la formule de Stirling, mµ∗ ∼p→+∞ √ .
2π
Donc plus p est grand, moins cette
méthode est performante.
Dans certains cas, cette approche peut cependant s’avérer problématique. D’une part, on ne
sait pas forcément simuler des variables selon P . D’autre part, le nombre de tirages nécessaires
avant d’avoir une bonne précision peut être extrêmement grand. Par exemple, supposons que
P est une loi N (0, 1) et que φ(x) = 1x>3 . Ainsi, I = P(X > 3) où X ∼ N (0, 1). Si l’on tire
X1 , . . . , XN i.i.d. de loi N (0, 1), il faut prendre N extrêmement grand avant d’obtenir une
observation qui soit plus grande que 3. Dans le cas où l’intégrale à approcher correspond à
un événement rare (comme l’événement qu’une variable gaussienne N (0, 1) soit supérieure à
3), on a plutôt intérêt à simuler des variables selon une autre loi pour laquelle l’événement
en question est moins rare , et à évaluer, pour chaque observation, une fonction modifiée
qui prenne en compte ce changement de mesure. Cette approche s’appelle l’échantillonnage
d’importance (importance sampling en anglais), ou échantillonnage préférentiel.
2.2.
R Monte-Carlo par Importance Sampling. On cherche toujours à apprecher l’intégrale
I = φdP . On suppose que P possède une densité p par rapport à une mesure σ-finie µ sur
E. Soit Q une autre loi sur E, de densité q par rapport à µ, selon laquelle on sait simuler
efficacement, et qui vérifie :
(2.2) ∀x ∈ E , q(x) = 0 ⇒ φ(x)p(x) = 0 .
Notons que si Y ∼ Q, alors, sous la condition de P -intégrabilité de φ, on a
Z Z
p(Y ) p(y)
E φ(Y ) = φ(y) q(y)dµ(y) = φ(x)p(x)dµ(x) = I .
q(Y ) E q(y) E
Soit Y1 , . . . , YN un tirage i.i.d. suivant la loi Q. On pose
N
1 X p(Yi )
JN = φ(Yi ) .
N q(Yi )
i=1
La loi des grands nombres donne alors
p.s.
JN −→ I.
On note que l’on ne doit plus simuler suivant la loi P mais suivant la loi Q, que l’on choisit.
Si l’on veut avoir un théorème central limite, il faut pouvoir vérifier la condition de moment
d’ordre 2, c’est-à-dire
" # Z
p(Y ) 2 φ(y)2 p(y)2
E φ(Y ) = dµ(y) < ∞.
q(Y ) E q(y)
Reprenons l’exemple de l’approximation de I = P(X > 3) où X ∼ N (0, 1). Si l’on utilise
la méthode de Monte-Carlo simple, on pose tout simplement
N
1 X
IN = 1Xi >3 ,
N
i=1
avec σMC2 = I(1 − I) ≈ P(N (0, 1) > 3). En utilisant la méthode de Monte-Carlo par
échantillonnage d’importance avec Q = N (3, 1), on pose
N
1 X p(Yi )
JN = 1Y >3 ,
N q(Yi ) i
i=1
48 2. SIMULATION DE LA LOI A POSTERIORI
φ(x)
Remarque 2.4. Si φ ≥ 0, alors dQ? (x) = E[φ(X)] dP (x)
et la variance est nulle. Dans ce cas
un seul tirage suffit : J1 = I. Mais c’est complètement irréaliste de supposer que l’on puisse
simuler selon Q∗ puisque c’est précisément E [φ(X)] que l’on souhaite estimer.
Dans une expérience statistique, à une loi a priori donnée correspond une loi a posteriori
et de celle-ci on peut déduire plusieurs estimateurs tels que la moyenne, la médiane, le mode
etc. Lequel choisir en pratique ? Quels critères de choix énoncer ? Plus généralement, y a-t-il
des estimateurs optimaux parmi tous les estimateurs ?
Définition 3.1. Une fonction de perte ` est une fonction ` : Θ × Θ → R+ mesurable avec
∀ θ, θ0 ∈ Θ, `(θ, θ0 ) = 0 ⇔ θ = θ0 .
Exemple 3.1.
1.1. Fonction de risque. On rappelle qu’un estimateur T est une fonction mesurable
T : E → Θ.
Définition 3.2. La fonction de risque (ou simplement le risque) d’un estimateur T pour la
fonction de perte ` est l’application
R(·, T ) : Θ → R+ R
θ 7→ R(θ, T ) = Eθ [ `(θ, T (X)) ] = E `(θ, T (x))dPθ (x).
49
50 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION
Le risque au point θ de l’estimateur T est donc la perte moyenne de T en θ (on parle de risque
ponctuel).
La fonction de perte, et le risque en résultant, peuvent être vus comme des coûts associés
aux estimateurs, et vont nous permettre de comparer ceux-ci entre eux. Cependant, définir
une notion de meilleur estimateur possible est quelque chose de délicat, qui a mis longtemps à
émerger historiquement.
On peut se convaincre de la difficulté intrinsèque du problème de définition de meilleur
estimateur possible en reprenant l’exemple du modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R} pour la
perte quadratique : l’estimateur constant égal à θ0 ∈ R a un risque nul en θ0 donc est meilleur
que n’importe quel autre estimateur en ce point, mais pour tous les θ tels que (θ − θ0 )2 > 1/n,
on préfère l’estimateur X n qui a un risque constant sur R égal à 1/n.
Dans la suite, on fixe une fonction de perte. Les définitions et résultats qui suivent
s’entendent donc à fonction de perte fixée, même si, pour alléger les notations, on ne rappellera
pas tout le temps cette dépendance.
Intuition. La notion de risque bayésien définie ci-dessous va nous donner une réponse possible
à la question de trouver un estimateur de risque optimal. Cependant, cette notion dépendra
de l’a priori choisi, ce qui n’en fait pas une réponse universelle . Le risque minimax défini
ensuite est lui plus universel au sens où il ne dépend pas d’un prior particulier, mais correspond
à une vision un peu pessimiste (on cherche un estimateur T qui minimise le pire risque possible,
soit supθ∈Θ R(θ, T )).
1.2. Risque bayésien et estimateurs de Bayes. Soit Π une loi a priori donnée sur
Θ, de densité π par rapport à ν. Rappelons que nous travaillons également à fonction de perte
` donnée. Ainsi les définitions ci-dessous dépendent implicitement de `.
Définition 3.3. On appelle risque de Bayes ou parfois risque bayésien pour l’estimateur T
et la loi a priori Π la quantité
RB (Π, T ) = E [`(θ, T (X))]
Z Z
= `(θ, T (x))dPθ (x)dΠ(θ)
Θ E
Z
= R(θ, T )dΠ(θ)
Θ
= E [R(θ, T )] ,
où la deuxième égalité vient du théorème de Fubini. En effet, en se rappelant que le couple
(X, θ) a pour densité (x, θ) 7→ pθ (x)π(θ) par rapport à µ ⊗ ν et en utilisant le théorème de
Fubini, on a
Z
E [`(θ, T (X))] = `(θ, T (x))pθ (x)π(θ)d(µ ⊗ ν)(x, θ)
E×Θ
Z Z
= `(θ, T (x))pθ (x)dµ(x) π(θ)dν(θ)
Θ E
Z Z
= `(θ, T (x))dPθ (x) dΠ(θ) .
Θ E
1. RISQUE PONCTUEL, RISQUE BAYÉSIEN, RISQUE MAXIMAL 51
Une autre façon de le voir est par conditionnement : en remarquant que R(θ, T ) = E `(θ, T (X) θ ,
on a
E [`(θ, T (X))] = E E `(θ, T (X)) θ = E [R(θ, T )] .
où l’infimum porte sur tous les estimateurs T possibles. On note alors
Un estimateur de Bayes pour Π a donc un risque qui minimise le risque bayésien pour Π,
qui est une moyenne des risques ponctuels en θ contre la loi a priori Π sur Θ. Un tel estimateur
minimise donc un risque en moyenne selon Π .
Exemple 3.2. Dans le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R}, considérons la loi a priori
Π = N (0, 1) et la fonction de perte quadratique `(θ, θ0 ) = (θ − θ0 )2 . Calculons le risque de
Bayes pour Π des estimateurs suivants
n
T1 (X) = 0, T2 (X) = X n , T3 (X) = X n.
n+1
Z
RB (Π, T1 ) = R(θ, T1 )dΠ(θ)
Θ
Z Z
= (θ − T1 (x))2 dPθ (x)dΠ(θ)
Θ E
Z Z Z
2
= θ dPθ (x)dΠ(θ) = θ2 dΠ(θ) = 1.
Θ E Θ
Pour T2 , rappelons d’abord que sous la loi Pθ , la variable X n − θ suit la loi N (0, 1/n). Ainsi,
comme nous l’avons déjà vu, pour tout θ ∈ Θ, R(θ, T2 ) = Eθ [(X n − θ)2 ] = 1/n, et
Z
1 1
RB (Π, T2 ) = dΠ(θ) = .
Θ n n
52 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION
De même que pour le risque de Bayes, il est alors naturel de chercher un estimateur qui
est le meilleur du point de vue du risque maximal, ce qui amène à la définition suivante.
où l’infimum porte sur tous les estimateurs possibles T . Un estimateur T ? est minimax si
Rmax (T ? ) = RM .
Puisque Rmax (T ) peut être vu comme le pire risque pour T sur l’ensemble des points
θ ∈ Θ, un estimateur minimax s’interprète comme un estimateur optimal dans le pire des cas
alors qu’un estimateur de Bayes est optimal en moyenne. En ce sens, le critère minimax est
plus pessimiste que le critère de Bayes, mais il a l’avantage d’être plus universel en ce qu’il ne
dépend pas de la loi a priori Π.
Exemple 3.3. Reprenons l’exemple précédent du modèle gaussien avec les estimateurs T1 , T2
et T3 et calculons le risque maximal de chacun.
2. CONSTRUCTION D’ESTIMATEURS DE BAYES 53
Les notions de risque de Bayes et de risque minimax peuvent être reliées entre elles sous
certaines hypothèses, comme nous le verrons dans la suite.
Définition 3.7. Soient ` une fonction de perte, Π une loi a priori et T un estimateur. Le
risque a posteriori ρ(Π, T X) est défini par
Z
ρ(Π, T X) = E `(θ, T (X)) X = `(θ, T (X))dΠ(θ X).
Θ
Au lieu de prendre la moyenne de la fonction de perte par rapport à la loi de (θ, X) comme
pour le risque bayésien de la Définition 3.4, le risque a posteriori s’obtient conditionnellement
à X en prenant la moyenne de la fonction de perte par rapport à la loi a posteriori Π[ · X].
Le risque a posteriori ρ(Π, T X) est donc une variable aléatoire qui dépend de X.
Exercice 3.1. Dans le modèle gaussien avec a priori Π = N (0, 1), calculer les risques a
posteriori pour les estimateurs T1 , T2 , T3 de l’exemple 3.2 et la perte quadratique.
Theorème 3.1. Une fonction de perte ` et une loi a priori Π étant données, un élément
T ? (X) ∈ arg min ρ(Π, T X),
T
s’il existe, est un estimateur de Bayes pour Π.
On peut légitimement se demander en quoi le résultat du Théorème 3.1 est une simplification
par rapport à la définition d’un estimateur de Bayes, qui introduit aussi un minimum. À
supposer que l’on ait pu déterminer la loi a posteriori, le problème de minimisation du
Théorème 3.1 est généralement plus simple à résoudre explicitement, en ce qu’il ne fait
intervenir qu’une seule intégrale et non deux :
Z
ρ(Π, T X) = `(θ, T (X))dΠ(θ X) ,
Θ
54 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION
alors que
Z Z
RB (Π, T ) = `(θ, T (x))dPθ (x)dΠ(θ) .
Θ E
Examinons maintenant les conséquences du Théorème 3.1 dans le cas de plusieurs fonctions
de perte classiques.
Proposition 3.2. Soit ` la perte quadratique et soit Π une loi a priori sur Θ ⊂ R. On
suppose E[θ 2 X] < ∞ p.s. Un estimateur de Bayes pour ` et la loi Π est donné par
Z
?
T (X) = E[θ X] = θdΠ(θ X),
Θ
la moyenne a posteriori pour la loi a priori Π.
Remarque 3.4. On suppose dans la proposition que E[θ2 X] < ∞ p.s. On peut montrer
que si E[θ 2 X] = +∞ avec probabilité strictement positive, alors le risque a posteriori de tout
estimateur T (X) est infini avec probabilité strictement positive, et donc le risque de Bayes de
tout estimateur est infini. Tout estimateur est donc de Bayes.
Pour une variable aléatoire Z de carré intégrable, la fonction ψ : a 7→ E[(Z − a)2 ] est minimale
pour a = E[Z] car
ψ(a) = E[(Z − EZ)2 ] + (E[Z] − a)2 ≥ ψ(E[Z]).
Il suffit d’appliquer cette remarque à Z de loi L(θ X) pour conclure, en notant que E[θ 2 X] <
∞ par hypothèse, et que E[Z] est alors E[θ X], la moyenne a posteriori.
2. CONSTRUCTION D’ESTIMATEURS DE BAYES 55
Remarque 3.5. Pour calculer le risque de Bayes RB (Π) (pour la perte quadratique), il y a
deux manières de procéder. Généralement, le plus simple est de calculer la fonction de risque
de l’estimateur de Bayes T ? : h i
θ 7→ Eθ (T ? (X) − θ)2 ,
puis de l’intégrer contre Π. Mais dans certains cas, il peut être plus judicieux de remarquer
que, pour la perte quadratique, le risque de Bayes est l’espérance de la variance a posteriori
RB (Π) = E[vX ] ,
h 2 i
où vX = E θ − E[θ X] X . En effet,
h 2 i h h 2 ii
RB (Π) = RB (Π, E[θ X]) = E θ − E[θ X] = E E θ − E[θ X] X ,
Calculer E[vX ] est souvent difficile car il faut déterminer la loi marginale de X. Mais dans
certains cas, c’est très simple, notamment lorsque vX ne dépend pas de X, comme c’est le cas
dans le modèle gaussien ci-dessous.
Exemple 3.6.
I Dans le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R} avec Π = N (0, 1), nous avons vu au
Chapitre 1 que
nX n 1
Π[· X] = N , .
n+1 n+1
On en déduit avec la Proposition 3.2 qu’un estimateur de Bayes pour Π et la perte
quadratique est donné par E[θ X] = nX
n+1 , comme annoncé plus haut. Et par la remarque
n
1
ci-dessus, on a alors RB (Π) = E[vX ] = n+1 .
⊗n
I Dans le modèle de Bernoulli P = {B(θ) , θ ∈ [0, 1]} avec Π = Unif([0, 1]) = Beta(1, 1),
nous avons vu que
Π[· X] = Beta(nX n + 1, n − nX n + 1).
La moyenne a posteriori est
nX n + 1 nX n + 1
E[θ X] = = ·
nX n + 1 + n − nX n + 1 n+2
Par la Proposition 3.2, c’est un estimateur de Bayes pour Π et la perte quadratique.
Calculons le risque quadratique de cet estimateur. Pour tout θ ∈ [0, 1],
" 2 #
nX n + 1 nX n + 1
R θ, = Eθ −θ
n+2 n+2
1 h 2 i
= Eθ n(X n − θ) + 1 − 2θ
(n + 2)2
1
Var(nX n ) + (1 − 2θ)2
= 2
(n + 2)
nθ(1 − θ) + (1 − 2θ)2
= ·
(n + 2)2
56 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION
Proposition 3.3. Soit ` la perte en valeur absolue et soit Π une loi a priori sur Θ ⊂ R. On
suppose E[|θ| X] < ∞. Un estimateur de Bayes pour ` et la loi Π est donné par
−1
T ? (X) = FX (1/2),
la médiane a posteriori pour la loi a priori Π.
Theorème 3.4. Pour toute loi a priori Π sur Θ et toute fonction de perte, le risque bayésien
minore toujours le risque minimax :
RB (Π) ≤ RM .
R
Démonstration. Par définition RB (Π) = inf T R(θ, T )dΠ(θ). Or comme Π(Θ) = 1,
Z Z
R(θ, T )dΠ(θ) ≤ sup R(θ, T ) dΠ(θ) = sup R(θ, T ).
Θ θ∈Θ Θ θ∈Θ
En prenant l’infimum en T de part et d’autre, il vient RB (Π) ≤ RM .
De nombreuses minorations de risques minimax reposent sur cette inégalité. Souvent, le
risque minimax sur un modèle donné peut être obtenu en construisant une loi a priori la plus
défavorable , i.e. pour laquelle RB (Π) est le plus grand possible. Nous verrons un exemple
ci-dessous.
3.2. Minimaxité : conditions suffisantes.
Theorème 3.5. Soit T un estimateur de Bayes pour une loi a priori Π. Si T est de risque
constant, alors T est minimax.
Theorème 3.6. Si un estimateur T est tel qu’on puisse trouver une suite (Πk )k≥1 de lois a
priori avec
Rmax (T ) = lim RB (Πk ),
k→∞
alors T est minimax.
Démonstration. Tout risque bayésien est inférieur ou égal au risque minimax RM , qui
est lui-même inférieur ou égal à Rmax (T ). Donc on a
Rmax (T ) = lim RB (Πk ) ≤ RM ≤ Rmax (T )
k→∞
On en conclut Rmax (T ) = RM donc T est minimax.
58 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION
Application. Dans le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R}, l’estimateur X n est minimax
pour la perte quadratique. Pour la loi a priori Πσ2 = N (0, σ 2 ), le risque bayésien RB (Πσ2 )
s’obtient en calculant le risque de Bayes de la moyenne a posteriori, puisqu’il s’agit d’un
estimateur de Bayes pour la perte quadratique. On obtient RB (Πσ2 ) = n+σ1 −2 . Or
1 1
lim −2
= = Rmax (X n ),
σ 2 →∞ n+σ n
ce qui montre que X n est minimax.
Le risque minimax binaire correspond au risque minimax sur l’ensemble à deux éléments
{θ0 , θ1 }. Notons que si l’on se restreint à un ensemble à un seul élément {θ0 }, alors le risque
minimax est nul puisque l’estimateur constant égal à θ0 a un risque nul en θ0 . La question
se complexifie déjà grandement si l’on considère deux points distincts θ0 et θ1 , d’où l’intérêt
d’étudier le risque minimax binaire.
Notons aussi que si l’on sait minorer le risque minimax binaire pour deux éléments
θ0 , θ1 ∈ Θ quelconques, alors on obtient immédiatement une borne inférieure sur le risque
minimax puisque
RM ≥ sup RθM0 ,θ1 .
θ0 ,θ1
Lemme 3.7. Si l’hypothèse (3.3) est vérifiée, alors, pour tous t, θ0 ,θ1 ∈ Θ,
1 1
(`(θ0 , t) + `(θ1 , t)) ≥ p `(θ0 , θ1 )·
2 2
Démonstration. Supposons que `(·, ·) = d(·, ·)p , avec p ≥ 1 et d une distance. Par
l’inégalité triangulaire on a
`(θ0 , θ1 ) ≤ (d(θ0 , t) + d(θ1 , t))p .
Comme p ≥ 1, la fonction x 7→ xp est convexe sur R+ , et, par l’inégalité de Jensen,
d(θ0 , t) + d(θ1 , t) p
(d(θ0 , t) + d(θ1 , t))p = 2p ≤ 2p−1 (d(θ0 , t)p + d(θ1 , t)p ) .
2
Ainsi,
`(θ0 , θ1 )
`(θ0 , t) + `(θ1 , t) ≥ ·
2p−1
Le Lemme 3.7 ne permet pas immédiatement de minorer la quantité R(θ0 , T ) + R(θ1 , T )
par une quantité ne dépendant plus de T . En effet, l’intégration de la fonction de perte dans
R(θ0 , T ) et dans R(θ1 , T ) se fait contre des mesures différentes, Pθ0 et Pθ1 . La notion d’affinité
présentée ci-dessous va nous permettre de résoudre ce problème.
Définition 3.9. Soient P, Q deux mesures de probabilité sur (E, E) avec dP = pdµ et
dQ = qdµ. La distance en variation totale entre P et Q est définie par
dvt (P, Q) = sup {P (A) − Q(A)} .
A∈E
Notons p ∧ q la fonction x 7→ (p ∧ q)(x) = min{p(x), q(x)}. On appelle affinité (en variation
totale) entre P et Q la quantité
Z
A(P, Q) = (p ∧ q)(x)dµ(x).
E
et
A(P, Q) = 1 − dvt (P, Q).
Theorème 3.9. Si (3.3) est vérifiée avec `(·, ·) = d(·, ·)p , alors, pour tous θ0 , θ1 ∈ Θ,
1 d(θ0 , θ1 )p
inf (R(θ0 , T ) + R(θ1 , T )) ≥ A(Pθ0 , Pθ1 ).
T 2 2p
Définition 3.10. Soient P, Q deux mesures de probabilité sur (E, E) avec dP = pdµ et
dQ = qdµ. La distance de Hellinger entre P et Q est définie par
Z 1/2
p p 2
h(P, Q) = ( p(x) − q(x)) dµ(x) .
E
On définit l’affinité de Hellinger entre P et Q par
Z p
ρ(P, Q) = p(x)q(x)dµ(x).
E
On peut vérifier que les définitions ci-dessus sont indépendantes du choix de la mesure
dominante µ.
En utilisant l’inégalité (a + b)2 ≤ 2(a2 + b2 ) et le fait que p et q sont des densités, on obtient
bien l’inégalité voulue.
(4) En effet, par définition de P ,
dP (x1 , . . . , xn ) = p1 (x1 ) · · · pn (xn )dµ(x1 ) · · · dµ(xn ),
62 3. BAYÉSIEN ET THÉORIE DE LA DÉCISION
donc P a pour densité p1 (x1 ) · · · pn (xn ) par rapport à µ⊗n . Via le théorème de Fubini,
v v
Z Z u n u n
uY uY
ρ(P, Q) = · · · t pi (xi )t qi (xi ) dµ(x1 ) · · · dµ(xn )
i=1 i=1
n Z
Y p p
= pi (xi ) qi (xi )dµ(xi )
i=1
n
Y
= ρ(Pi , Qi ).
i=1
Proposition 3.11. Soient P, Q deux mesures de probabilité sur (E, E) avec dP = pdµ et
dQ = qdµ. On a
√
dvt (P ⊗n , Q⊗n ) ≤ nh(P, Q) .
nh2 (P, Q)
ρ(P ⊗n , Q⊗n ) ≥ 1 − ,
2
puis que
r
√ nh2 (P, Q) √
dvt (P ⊗n , Q⊗n ) ≤ 2 = nh(P, Q) .
2
Exemple 3.7. Dans le modèle gaussien Pθ = N (θ, 1), on peut vérifier par le calcul (voir
TD) que
(θ −θ )2
2 − 0 81
h (θ0 , θ1 ) = 2 1 − e .
√
Pour tout θ0 ∈ R, si l’on prend θ1 = θ0 + 1/ n, en utilisant 1 − e−x ≤ x, on a
1
1
h2 (θ0 , θ1 ) = 2 1 − e− 8n ≤ ,
4n
et ainsi, par le Théorème 3.12, le risque minimax binaire peut être minoré par
√
1 1 1
RθM0 ,θ1 ≥ 1− n· √ = ·
4n 2 n 8n
1
En particulier, RM ≥ 8n . C’est le bon ordre de grandeur puisque
1
RM ≤ Rmax (X n ) = ·
n
Exemple 3.8. Dans le modèle Bernoulli Pθ = B(θ), on vérifie que pour tous θ1 , θ1 ∈ [0, 1],
on a
p p
h2 (θ0 , θ1 ) = 2 1 − θ0 θ1 − (1 − θ0 )(1 − θ1 ) .
Définition 4.1. Un test est une fonction mesurable ϕ(X1 , . . . , Xn ) des observations, à valeurs
dans {0, 1}.
(2) Accepter H0 alors que θ ∈ Θ1 : dans ce cas ϕ(X) = 0 alors que les données
X = (X1 , . . . , Xn ) ont été générées de façon i.i.d. selon une loi Pθ avec θ ∈ Θ1 .
On appelle erreur de deuxième espèce la fonction
Θ1 → [0, 1]
θ 7→ Pθ (ϕ(X) = 0).
Remarquons que du point de vue pratique, les deux types d’hypothèses H0 et H1 ne sont
en général pas symétriques. Souvent, H0 correspond à l’hypothèse de base, celle que l’on
maintient à moins d’avoir assez d’éléments pour la rejeter (penser à la présomption d’innocence
dans un procès), tandis que H1 est celle qui ne sera retenue que si les données fournissent
assez d’éléments dans son sens (dans l’analogie juridique, la culpabilité).
65
66 4. LES TESTS BAYÉSIENS
On dit qu’un test ϕ est de niveau α si sa taille est majorée par α. La fonction de Θ → [0, 1]
définie par
π : θ 7→ Eθ [ϕ(X)]
s’appelle fonction puissance.
L’approche fréquentiste des tests consiste, pour un α donné, à chercher un test ϕ dont
le niveau est au plus α et ensuite, parmi ces tests (de niveau α), à en chercher un dont la
puissance est la plus proche de 1 sur Θ1 .
L’approche bayésienne des tests consiste à choisir une loi a priori Π à support Θ0 ∪ Θ1 , et
donc en particulier Π(Θ0 ∪ Θ1 ) = 1. Notons qu’avec cette supposition, Π n’est pas forcément
défini sur Θ tout entier.
1. Tests de Bayes
On étend légèrement la définition vue au Chapitre 3 pour tenir compte du fait que nous
travaillons avec des tests. Ici une fonction de perte L sera une application
L : Θ × {0, 1} → R+
(θ, ϕ) 7→ L(θ, ϕ).
Définition 4.3. Dans le cadre des tests, on considère des fonctions de tests de la forme
a0
si θ ∈ Θ0 , ϕ = 1,
L(θ, ϕ) = a1 si θ ∈ Θ1 , ϕ = 0,
0 sinon,
Les erreurs de première et de deuxième espèces sont ainsi moyennées par rapport à la loi a priori,
et les constantes a0 , a1 introduisent une pondération éventuelle supplémentaire. Remarquons
que si a0 = a1 = 1 (perte équilibrée), alors le risque de Bayes correspond simplement à la
probabilité (sur la loi jointe de (θ, X)) que le test se trompe, dans un sens où dans l’autre.
En effet, en notant t(θ) l’indice du sous-ensemble auquel θ appartient (i.e. t(θ) = 1θ∈Θ1 ),
l’événement se tromper correspond à l’événement ϕ(X) 6= t(θ). Pour la perte équilibrée,
on a
P (ϕ(X) 6= t(θ)) = P(θ = 0, ϕ(X) = 1) + P(θ = 1, ϕ(X) = 0) = RB (Π, ϕ) .
On dit qu’un test ϕ? est de Bayes pour Π s’il minimise le risque de Bayes parmi tous les
test, i.e. si
RB (Π, ϕ? ) = inf RB (Π, ϕ) .
ϕ
Proposition 4.1. Un test de Bayes pour la fonction de perte pondérée par a0 , a1 ≥ 0 est
ϕ? (X) = 1a0 Π(Θ0 |X)≤a1 Π(Θ1 |X) = 1Π(Θ0 |X)≤ a1 .
a0 +a1
Cette fonction est minimale pour ϕ? (X) = 1a0 Π(Θ0 |X)≤a1 Π(Θ1 |X) . Ainsi pour tout test ϕ, on a
Le test ϕ? est donc bien de Bayes pour Π (on a vérifié l’équivalent du Théorème 3.1 pour les
test, i.e. qu’un test qui minimise le risque a posteriori est de Bayes).
De plus, comme Π(Θ0 ∪ Θ1 X) = 1, le test ϕ? se réécrit ϕ? (X) = 1Π(Θ0 |X)≤ a1 .
a0 +a1
En effet,
RB (Π) = E [L(θ, ϕ? (X))]
1 1
= P0 (p0 (X) ≤ p1 (X)) + P1 (p0 (X) > p1 (X))
2 2
1
= 1 − P0 (p0 (X) > p1 (X)) − P1 (p0 (X) > p1 (X))
2 Z
1
= 1− 1{p0 (x)>p1 (x)} (p0 (x) − p1 (x)) dµ(x)
2 E
1
= 1 − dvt (P0 , P1 ) .
2
(3) Cas d’une hypothèse simple et une hypothèse composite : on veut tester
H0 : {θ = 0} contre H1 : {θ 6= 0}.
Comme {0} ∪ R∗ = R, un choix qui pourrait sembler à première vue naturel serait
celui d’une loi Π à densité par rapport à la mesure de Lebesgue sur R. Cependant,
dans ce cas on aurait Π({0}) = 0 et donc on rejetterait toujours H0 . D’un point de vue
bayésien, si l’hypothèse nulle correspond à un singleton {θ0 }, c’est que l’on suppose
que θ peut valoir exactement θ0 , donc il est naturel d’intégrer cette information à la
loi a priori. Par exemple, une loi a priori raisonnable est
Π = π0 δ0 + π1 N (0, 1) ,
avec π0 + π1 = 1. La formule de Bayes donne, pour q la densité d’une N (0, 1),
π0 p0 (X)
Π({0} X) = R .
π0 p0 (X) + π1 pθ (X)q(θ)dθ
On a
1 Pn Xi2
p0 (X) = √ e− i=1 2 ,
( 2π)n
et
n
!
Z
1
Z
1X θ 2
pθ (X)q(θ)dθ = √ exp − (Xi − θ)2 − dθ
( 2π)n+1 2 2
i=1
exp − 12 Xi2
P Z
n+1 2
= √ exp − θ + nX n θ dθ
( 2π)n+1 2
2
p0 (X) exp (nX n)
2(n+1)
Z
n+1
nX n
2 !
= √ exp − θ− dθ
2π 2 n+1
2
p0 (X) exp (nX n)
2(n+1)
= √ ·
n+1
Ainsi le test de Bayes pour la fonction de perte pondérée consiste à rejeter H0 si
2
exp (nX n)
2(n+1)
a0 π0 ≤ a1 π1 √ ,
n+1
c’est-à-dire si s
|nX | a0 π 0
√ n ≥ ln(n + 1) + 2 ln .
n+1 a1 π 1
Un classifieur est une fonction mesurable f : E → {0, 1}. On espère que la prédiction f (X)
sera proche du label Y . On définit le risque de classification d’un classifieur f par
R(f ) = P(Y 6= f (X)) .
Ce risque n’est en fait rien d’autre que le risque bayésien de f dans le problème de test bayésien
suivant : la loi du couple (X, Y ) peut être décrite par
Y ∼Π
X Y ∼ PY .
où Π est une loi sur {0, 1} (en termes bayésiens, on interprète la loi marginale de Y comme la
loi a priori). En considérant la fonction de perte du 0 − 1, donnée par L(y, f (x)) = 1y6=f (x) , le
risque bayésien d’un test f (pour la loi a priori Π) s’écrit
E [L(Y, f (X))] = P(Y 6= f (X)) = R(f ) .
On appelle alors classifieur de Bayes le test de Bayes pour ce problème de test, i.e. le classifieur
f ? qui minimise le risque a posteriori P(Y 6= f (X) X). Si l’on pose
η(X) = P(Y = 1 X) ,
alors P(Y 6= f (X) X) = 1f (X)=0 η(X) + 1f (X)=1 (1 − η(X)) et f ? est donné par
f ? (X) = 1{η(X)≥1−η(X)} = 1{η(X)≥ 1 } .
2
Proposition 4.2. Soit f ? le classifieur de Bayes donné par f ? (X) = 1{η(X)≥ 1 } . Alors
2
1
R(f ? ) = E [min {η(X), 1 − η(X)}] ≤ ·
2
De plus, pour tout classifieur f , on a
R(f ) − R(f ? ) = E |2η(X) − 1| 1{f (X)6=f ? (X)} .
On voit donc que si la loi du couple (X, Y ) est connue, le problème de classification revient
à un simple problème de test bayésien, pour lequel un test optimal (du point de vue du risque
2. TESTS BAYÉSIENS ET APPRENTISSAGE STATISTIQUE (∗) 71
de classification) est donné par le test de Bayes. En pratique cependant, la loi du couple est
inconnue et il faut apprendre à classifier à partir d’observations. On dispose d’un échantillon
Dn = {(X1 , Y1 ), . . . , (Xn , Yn )} ,
où les (Xi , Yi ) sont i.i.d. selon la loi (inconnue) de (X, Y ). Le but est alors de construire, à
partir de Dn , un classifieur fbn dont le risque R(fbn ) soit aussi proche que possible du risque
de Bayes R? = R(f ? ). Plus précisément, on souhaite construire à l’aide de Dn une fonction
fbn qui soit telle que, si l’on observe une nouvelle variable explicative distribuée selon X, la
probabilité que fbn (X) prédise mal Y , conditionnellement à Dn , soit la plus petite possible.
Le risque R(fbn ) est donc en fait une quantité aléatoire puisque la fonction fbn elle-même est
aléatoire (elle dépend de Dn ). On a
R(fbn ) = P Y 6= fbn (X) Dn .
Exemple 4.3. Dans le cas où l’ensemble E est un ensemble discret, un classifieur naturel,
appelé classifieur par majorité, est construit de la façon suivante : pour tout x ∈ E, on calcule
N0 (x) = |{i ∈ J1, nK, Xi = x, Yi = 0}| ,
et
N1 (x) = |{i ∈ J1, nK, Xi = x, Yi = 1}| ,
et on pose
(
1 si N1 (x) ≥ N0 (x),
fbnmaj (x) =
0 si N0 (x) > N1 (x).
Autrement dit, on attribue à x le label majoritaire parmi les observations de Dn pour lesquelles
Xi = x.
Définition 4.4. La suite de classifieurs (fbn )n≥1 est dite consistante si, quelle que soit la loi
du couple (X, Y ), on a
R(fbn ) −→ R? .
P
Cette notion de consistance peut être vue comme une convergence ponctuelle sur l’ensemble
des lois de probabilité sur E × {0, 1}. On peut vouloir être plus exigeant et demander une
convergence uniforme sur l’ensemble de ces lois. Dans la définition ci-dessous, on note RP
pour souligner qu’il s’agit du risque de classification lorsque la loi de (X, Y ) est P .
Définition 4.5. La suite de classifieurs (fbn )n≥1 est dite uniformément consistante si
h i
sup EDn ∼P ⊗n RP (fbn ) − R?P −→ 0 ,
P n→∞
où le supremum est pris sur toutes les lois de probabilités sur E × {0, 1}.
En fait, dans la plupart des cas (plus précisément dès que E est un ensemble infini), la
consistance uniforme est impossible à obtenir. Nous allons cependant voir que si E est fini,
alors on peut construire un classifieur uniformément consistant.
72 4. LES TESTS BAYÉSIENS
Une méthode souvent utilisée pour construire un classifieur fbn est la méthode de minimi-
sation du risque empirique. L’idée est d’approcher le risque R(f ) d’un classifieur f par son
équivalent empirique
n
1X
Rn (f ) = 1{Yi 6=f (Xi )} .
n
i=1
P
Par la loi des grands nombres, Rn (f ) −→ R(f ). Étant donné un ensemble F de classifieurs,
souvent appelé dictionnaire, la méthode de minimisation du risque empirique consiste à choisir
Remarque 4.4. Le choix de F est crucial. Prendre F égal à l’ensemble de tous les classifieurs
est souvent un très mauvais choix et conduit au sur-apprentissage. En effet, si E est assez
grand pour que, presque sûrement, toutes les observations Xi soient distinctes, alors le risque
empirique est minimisé par le classifieur qui s’ajuste parfaitement aux données, i.e.
n
1x=Xi Yi .
X
fbn (x) =
i=1
Le premier terme R(fbn ) − inf f ∈F R(f ) s’appelle l’erreur stochastique. Le second inf f ∈F R(f ) −
R? l’erreur d’approximation.
En effet,
La quantité supf ∈F |Rn (f ) − R(f )| est en général difficile à contrôler. Mais si l’on se
restreint à des dictionnaires F finis, alors on peut facilement obtenir des bornes.
2. TESTS BAYÉSIENS ET APPRENTISSAGE STATISTIQUE (∗) 73
Proposition 4.3. Soit F = {f1 , . . . , fp } un dictionnaire fini et soit fbn ∈ arg minf ∈F Rn (f )
un minimiseur sur F du risque empirique. Alors, pour tout δ ∈]0, 1[, avec probabilité au moins
1 − δ,
v
u
u 2 log 2p
t δ
R(fbn ) ≤ min R(f ) + .
f ∈F n
En particulier,
r
h i 2 log(2p)
E R(fbn ) − min R(f ) ≤ 2 .
f ∈F n
Proposition 4.4. Si E est un ensemble fini, le classifieur par majorité fbnmaj défini à
l’exemple 4.3 satisfait
r
h
maj ?
i 2(|E| + 1) log(2)
sup EDn ∼P ⊗n RP (fn ) − RP ≤ 2
b .
P n
Démonstration. Comme E est fini, l’ensemble F de tous les classifieurs sur E est lui
aussi fini avec |F| = 2|E| . On a alors, pour toute loi P sur E × {0, 1}, minf ∈F RP (f ) = R?P . Il
suffit alors de remarquer que fbnmaj est un minimiseur du risque empirique et d’appliquer la
Proposition 4.3.
Chapitre 5
Nous voyons dans ce chapitre qu’il est possible d’étudier les lois a posteriori
bayésiennes d’un point de vue fréquentiste. Nous définissons les notions de
consistance et de convergence de ces lois dans un cadre asymptotique où le
nombre d’observations tend vers l’infini. Ensuite, nous considérons la question
de la forme limite des lois a posteriori et énonçons le théorème de Bernstein–
von Mises. Nous en voyons des conséquences importantes, notamment pour la
construction de régions de confiance.
Le tableau suivant présente certains modèles rencontrés précédemment avec lois a priori Π,
et les expressions explicites de la loi a posteriori Π[ · X] et de la moyenne a posteriori E[θ X].
La lecture des deux dernières colonnes du tableau suggère une proximité frappante entre
la moyenne a posteriori et l’estimateur du maximum de vraisemblance lorsque n → +∞.
Dans ce chapitre, nous allons chercher à étudier le comportement asymptotique de la loi
a posteriori Π( · X) = Π( · X1 , . . . , Xn ) quand n → +∞. Pour cela, nous nous placerons
conditionnellement à l’événement θ = θ0 ∈ Θ, l’espoir étant qu’alors la loi a posteriori se
concentre autour de θ0 . Notons que conditionnellement à θ = θ0 , les variables X1 , . . . , Xn sont
i.i.d. de loi Pθ0 .
On verra qu’il est alors possible d’utiliser la loi a posteriori Π[ · X] ou un de ses aspects
comme estimateur de θ0 . Ainsi dans les exemples ci-dessus (avec 1/X n pour le modèle
exponentiel), comme X n → θ0 en probabilité sous Pθ0 , on a
0
Pθ
E[θ X] −→ θ0 .
n→+∞
De plus, on peut également vérifier dans chaque exemple que la variance a posteriori tend vers
0 en probabilité (le faire en exercice). Cela devrait signifier que, sous Pθ0 , la masse a posteriori
se concentre autour de θ0 . Nous allons voir que dans certains cas, on peut décrire de façon
très précise la forme limite de la loi a posteriori : ce sera le théorème de Bernstein von Mises.
75
76 5. CONVERGENCE DE LOIS A POSTERIORI
R Qn
Remarque 5.1. Dans le cadre bayésien, si l’on note f (X) = i=1 pθ (Xi )dΠ(θ) la densité
marginale de X évaluée en X, on a vu que
Z
P (f (X) = 0) = E[1f (X)=0 ] = 1f (x)=0 f (x)dµ(x) = 0.
E
Ceci montre que le dénominateur de la formule de Bayes est non nul, presque sûrement sous
la loi marginale de X. En revanche, rien n’interdit qu’il soit nul avec probabilité non nulle
sous Pθ0 . Cependant, l’égalité Pθ0 (f (X) = 0) est bien vérifiée pour Π-presque tout θ0 ∈ Θ. En
effet, le fonction θ 7→ Pθ (f (X) = 0) est positive et d’intégrale nulle :
Z
Pθ (f (X) = 0)dΠ(θ) = P(f (X) = 0) = 0 .
Θ
Proposition 5.1. Dans le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R} avec une loi a priori
Π = N (a, σ 2 ), la loi a posteriori Π[ · X] est consistante en tout point θ0 ∈ R.
1. CONSISTANCE DE LOIS A POSTERIORI 77
P
puisque le lemme de Slutsky donne √ 1 |N (0, 1)| −→ 0. Donc l’a posteriori est consistant
n+σ −2
en θ0 .
1.2. Consistance dans le cadre où Θ est fini. Soit Θ = {1, . . . , k}. On considère le
modèle
(5.1) P = {P1 , . . . , Pk } = {Pθ , θ ∈ Θ},
où Pj sont des mesures de probabilité sur E. Remarquons que dans le cas fini, le modèle est
automatiquement dominé, par exemple par µ = P1 + · · · + Pk . On note pj la densité de Pj par
rapport à µ : dPj = pj dµ. Soit Π une loi a priori sur Θ. Celle-ci est définie par la donnée de
Π({j}) = P(θ = j) = πj , j = 1, . . . , k.
Proposition 5.2. Dans le cadre du modèle discret (5.1), supposons le modèle identifiable et
soit Π une loi a priori sur Θ telle que πj > 0 pour tout j = 1, . . . , k. Alors la loi a posteriori
Π[ · X] est consistante en tout point θ0 ∈ {1, . . . , k}.
Soit ε > 0. On a
X
Pθ0 max `j (X) ≥ ε`θ0 (X) ≤ Pθ0 (`j (X) ≥ ε`θ0 (X)) .
j6=θ0
j6=θ0
√
Pour j ∈ J1, kK \ {θ0 }, l’inégalité de Markov appliquée avec la fonction x 7→ x donne
"s #
1 `j (X)
Pθ0 (`j (X) ≥ ε`θ0 (X)) ≤ √ Eθ0 .
ε `θ0 (X)
Or l’espérance dans cette dernière expression s’écrit
"s # Z Q n
n
p (x ) 1/2 Y
`j (X)
Eθ0 = Qni=1 j i pθ0 (xi )dµ(xi )
`θ0 (X) i=1 pθ0 (xi ) i=1
v
Z u n n n
uY Y Y
= t pj (xi ) pθ0 (xi ) dµ(xi )
i=1 i=1 i=1
= ρ(Pj⊗n , Pθ⊗n
0
) = ρ(Pj , Pθ0 )n ,
où l’on a utilisé la propriété de l’affinité de Hellinger ρ vue au Chapitre 3. Le modèle étant
identifiable, on a ρ(Pj , Pθ0 ) < 1 pour tout j 6= θ0 (sinon la distance de Hellinger entre les
mesures serait nulle et elles seraient égales), donc ρ(Pj , Pθ0 )n −→ 0.
n→∞
Ainsi, pour tout ε > 0,
1 X
Pθ0 max `j (X) ≥ ε`θ0 (X) ≤ √ ρ(Pj , Pθ0 )n −→ 0 ,
j6=θ0 ε n→∞
j6=θ0
puisque la somme porte sur un nombre fini de terme (k − 1). Autrement dit,
maxj6=θ0 `j (X) Pθ0
−→ 0 .
`θ0 (X)
et donc la terme de droite dans (5.2) tend vers 1 en probabilité. Comme Π[{θ0 } X] ≤ 1, on
0
Pθ
obtient bien Π[{θ0 } X] −→ 1.
2. Vitesses de convergence
On peut étendre naturellement la notion de consistance en permettant à ε dans la Définition
5.1 de varier, et typiquement de tendre vers 0 avec n.
3. FORME LIMITE ET THÉORÈME DE BERNSTEIN–VON MISES 79
Proposition 5.3. Dans le modèle gaussien P = {N (θ, 1)⊗n , θ ∈ R} avec une loi a priori
gaussienne Π = N (a, σ 2 ) sur θ, la loi a posteriori Π[ · X] converge en tout point θ0 ∈ R, à
√
vitesse de l’ordre de 1/ n. Plus précisément, pour tout θ0 ∈ R, et pour (mn ) et (Mn ) deux
suites telles que mn → 0 et Mn → +∞, on a
mn Mn Pθ0
Π θ : √ ≤ kθ − θ0 k ≤ √ X −→ 1.
n n
Laplace, au début des années 1800, a remarqué et démontré que dans le modèle binomial
{B(n, θ), θ ∈ (0, 1)}, avec une loi a priori uniforme sur θ (i.e. le modèle considéré par Bayes),
la loi a posteriori est une loi Beta(1 + X, 1 + n − X), et que cette loi ressemble étrangement à
θ0 (1−θ0 )
une loi N ( X
n, n ) si X suit en réalité une loi B(n, θ0 ). On notera que X/n se trouve être
l’estimateur du maximum de vraisemblance dans ce modèle. Depuis, de nombreux statisticiens
se sont intéressés à ce phénomène, parmi lesquels Bernstein, von Mises, Le Cam.
Avant d’énoncer le théorème, on donne une version forte de la notion de modèle régulier.
Définition 5.3. Soit P = {Pθ , θ ∈ Θ}, avec Θ ⊂ R ouvert, un modèle dominé avec
dPθ = pθ dµ. On dira que P est régulier au
p sens fort si1 :
— pour tout x ∈ E, la fonction θ 7→ pθ (x) est C sur Θ ;
— pour tout θ ∈ Θ, il existe ε > 0 tel que
" #
Eθ sup `0η (X)2 < ∞ .
η∈[θ−ε,θ+ε]
On peut vérifier que ces conditions impliquent la notion de régularité donnée dans la
première partie du cours (Définition 26). En particulier, elles
garantissent l’existence et la
continuité de l’information de Fisher θ 7→ I(θ) = Eθ `0θ (X)2 .
Theorème 5.4 (Théorème de Bernstein-von Mises (BvM)). Soit P = {Pθ , θ ∈ Θ}, avec
Θ ⊂ R ouvert, un modèle régulier au sens fort. Soit θ0 ∈ Θ. On suppose que I(θ0 ) > 0 et que
la loi a priori Π sur Θ vérifie
— Π a une densité π par rapport à la mesure de Lebesgue sur R.
— π(θ0 ) > 0 et π est continue au point θ0 .
On suppose de plus que pour tout ε > 0, il existe une suite de tests (ϕn ) telle que
(5.3) Pθ0 (ϕn (X) = 1) −→ 0 et sup Pθ (ϕn (X) = 0) −→ 0 .
n→∞ θ, |θ−θ0 |≥ε n→∞
S’il existe un estimateur du maximum de vraisemblance θbn (X), défini avec probabilité qui tend
vers 1 et consistant, alors
−1
I(θ 0 ) Pθ0
dvt Π[ · X] , N θbn (X), −→ 0.
n n→+∞
Ce résultat implique une proximité remarquable entre lois limites fréquentistes et lois
limites bayésiennes. En effet, le théorème BvM donne
I(θ0 )−1
L(θ − θn (X) X) ≈ N 0,
b .
n
Par ailleurs, un des résultats fondamentaux sur le maximum de vraisemblance dans les modèles
réguliers est que
I(θ0 )−1
L(θn (X) − θ0 ) ≈ N 0,
b .
n
3. FORME LIMITE ET THÉORÈME DE BERNSTEIN–VON MISES 81
On note qu’il s’agit de la même loi limite. Ceci a des conséquences spectaculaires en termes de
régions de crédibilité, voir plus loin.
Theorème 5.6. Soit 0 < α < 1 et zα le quantile de niveau 1 − α2 d’une loi normale standard.
Supposons le théorème BvM vérifié. Alors, pour an (X), bn (X) définis par (5.4)-(5.5), et θbn
l’EMV,
" #
z α z α
[an (X), bn (X)] = θbn (X) − p (1 + oP (1)) , θbn (X) + p (1 + oP (1)) .
nI(θ0 ) nI(θ0 )
En général cependant, l’EMV peut être difficile à déterminer. De plus, l’information de Fisher
I(θ0 ) est généralement inconnue puisqu’elle dépend de θ0 . Une solution standard consiste à
remplacer I(θ0 ) par un estimateur, par exemple I(θbn (X)) (sous les conditions de régularité
habituelles, θ 7→ I(θ) est continue, donc la convergence en probabilité de θbn (X) vers θ0 implique
celle de I(θbn (X)) vers I(θ0 ) et l’on peut appliquer le lemme de Slutsky).
Un des intérêts de l’approche bayésienne est que l’obtention de la région de crédibilité est
automatique (sous réserve de savoir calculer les quantiles a posteriori, ce qui n’est pas
toujours évident). De plus, nous allons voir ci-dessous que l’on peut l’utiliser comme région de
confiance.
4. CONFIANCE ASYMPTOTIQUE DES RÉGIONS DE CRÉDIBILITÉ 83
Démonstration. Il suffit de montrer que Pθ0 (θ0 < an (X)) → α/2 et que Pθ0 (θ0 > bn (X)) →
α/2. Pour cela, on utilise les développements asymptotiques obtenus au Theorème 5.6.
!
z α
Pθ0 (θ0 < an (X)) = Pθ0 θ0 < θbn (X) − p (1 + oP (1))
nI(θ0 )
p
= Pθ0 nI(θ0 )(θbn (X) − θ0 ) − oP (1) > zα .
Comme la quantité à gauche du signe > de l’expression ci-dessus converge en loi vers une
variable N (0, 1), on en déduit que l’expression converge vers α/2. On fait de même pour
Pθ0 (θ0 > bn (X)), ce qui conclut la démonstration.
84 5. CONVERGENCE DE LOIS A POSTERIORI
Remarque 6.1 (Récurrence aléatoire). Pour qu’un processus (Xt )t∈N soit une chaı̂ne de
Markov, il faut et il suffit que ce processus vérifie la relation de récurrence :
∀t ∈ N , Xt+1 = ψ(Xt , Wt+1 ) ,
où (Wt )+∞
t=1 est une suite i.i.d. à valeurs dans un espace mesurable W, indépendante de X0 , et
où ψ est une application mesurable de Ω × W dans Ω.
85
86 6. SIMULATION DE LA LOI A POSTERIORI (BIS) : LES MÉTHODES MCMC
Exemple 6.2 (Marche aléatoire sur R). Soit X0 ∼ N (0, 1) et soit (ξi )i≥1 une suite i.i.d.
de variables de loi N (0, 1), indépendante de X0 . Le processus donné par, pour n ≥ 0,
Xn+1 = Xn + ξn+1 ,
est une chaı̂ne de Markov à valeurs dans Ω = R avec noyau de transition P (x, ·) = N (x, 1). Il
s’agit d’une marche aléatoire avec sauts gaussiens.
Exemple 6.3 (Marche aléatoire sur un graphe fini). Une marche aléatoire sur un graphe
G = (V, E) fini est un processus sur V qui se déplace en sautant, à chaque temps, sur un
voisin choisi uniformément au hasard. Il s’agit d’une chaı̂ne de Markov sur Ω = V , dont la
matrice de transition P est donnée par
(
1
si {u, v} ∈ E,
P (u, v) = deg(u)
0 sinon,
où deg(u) (le degré de u) correspond au nombre de voisins de u dans G. Voici par exemple un
graphe à 5 sommets et la matrice de transition correspondante :
1 1 1 1
2 3 0 4 4 4 4
5 1 0 1
0 0
21 1
2
1
P =
31 3 0 3 0
1
2 0 2 0 0
1 4 1 0 0 0 0
Définition 6.1. On dit que π est une loi stationnaire (ou invariante) pour la chaı̂ne de
Markov (Xt )t∈N si πP = π, i.e. si pour tout A ∈ F,
Z
P (x, A)π(dx) = π(A) .
Ω
P
Dans le cas discret fini, cela revient à dire que pour tout y ∈ Ω, x∈Ω π(x)P (x, y) = π(y).
Autrement dit, si la loi de X0 est de loi π et que l’on applique une transition de la chaı̂ne,
alors la loi de X1 est toujours π, et il en est de même de la loi de Xt , pour tout t ≥ 1.
Remarque 6.4. Une loi stationnaire n’existe pas toujours. Ainsi par exemple, la marche
aléatoire simple sur Z (si l’état courant est x ∈ Z, alors l’état suivant est x + 1 ou x − 1
avec probabilité 1/2) n’admet pas de probabilité stationnaire. Elle a un comportement trop
diffusif .
Dans ce qui suit, nous nous restreignons à des espaces d’états finis. On peut étendre
la plupart des résultats ci-dessous à des espaces plus généraux, mais cela dépasserait assez
largement le cadre de ce cours.
Définition 6.2. Soit Ω un ensemble fini. Un noyau de transition P sur Ω est dit irréductible
si pour tous x, y ∈ Ω, il existe t ∈ N tel que P t (x, y) > 0.
Theorème 6.1. Soit Ω un ensemble fini et P est un noyau de transition sur Ω. Alors P
admet une probabilité stationnaire π, et, si P est irréductible, cette probabilité est unique et
charge tous les états.
Comme Ω est fini, il existe x0 tel que h(x0 ) = M = maxx∈Ω h(x). Supposons qu’il existe z ∈ Ω
avec P (x0 , z) > 0 et h(z) < M . Alors
X X
h(x0 ) = P (x0 , y)h(y) = P (x0 , z)h(z) + P (x0 , y)h(y) < M ,
y∈Ω y6=z
ce qui est absurde. Donc pour tout z tel que P (x0 , z) > 0, on a h(z) = M . Par irréductibilité,
pour tout y ∈ Ω, il existe un chemin x0 , . . . , xn = y avec P (xi , xi+1 ) > 0 pour tout i ∈ J0, n−1K.
En répétant l’argument ci-dessus, on obtient h(x0 ) = h(x1 ) = · · · = h(y) = M , donc h est
constante.
Une façon simple de trouver une probabilité stationnaire est souvent de chercher une
probabilité qui satisfait la condition dite d’équilibre détaillé.
Proposition 6.2. Soit P un noyau de transition sur Ω fini. Si π est une probabilité sur Ω
qui vérifie la condition d’équilibre détaillé
∀x, y ∈ Ω , π(x)P (x, y) = π(y)P (y, x) ,
(on dit que P est réversible par rapport à π), alors π est stationnaire.
Theorème 6.3 (Théorème ergodique). Soit P est un noyau ergodique sur Ω fini et π sa
probabilité stationnaire. Soit f : Ω → R. Alors, pour toute mesure initiale ν sur Ω,
t−1
1X p.s. X
f (Xs ) −−−−→ Eπ f = f (x)π(x) .
t t→+∞
s=0 x∈Ω
Une conséquence importante du théorème ergodique est que si l’on souhaite approcher
l’intégrale Eπ f , il n’est pas nécessaire de savoir simuler selon π. Il suffit de trouver une chaı̂ne
de Markov dont π est la mesure stationnaire.
Sous des hypothèses additionnelles, on peut montrer que la loi stationnaire π est la loi
limite de la chaı̂ne de Markov : asymptotiquement, la chaı̂ne est distribuée selon π, on dit
qu’elle mélange. On a alors un moyen de simuler approximativement selon π : on lance la
chaı̂ne de Markov, on la laisse évoluer pendant un temps assez long, la loi de Xt sera alors
proche de π. Pour garantir cette convergence, l’irréductibilité ne suffit pas. Il faut une propriété
plus forte : l’ergodicité.
1. UN BREF APERÇU SUR LES CHAÎNES DE MARKOV 89
Pour quantifier l’écart entre la loi de la chaı̂ne à un certain temps t et la loi stationnaire π,
il nous faut une distance entre lois de probabilité. Pour x ∈ Ω, notons Dx (t) la distance en
variation totale entre la loi de la chaı̂ne au temps t partie de x et la loi stationnaire, i.e.
X t
Dx (t) = dvt P t (x, ·) , π = max P t (x, A) − π(A) =
P (x, y) − π(y) + ,
A⊂Ω
y∈Ω
et
D(t) = max Dx (t) .
x∈Ω
Démonstration. Notons
D(t) = max dvt P t (x, ·) , P t (y, ·) .
x,y∈Ω
z∈B z∈B c
≤ dvt P (x, ·) , P (y, ·) max (P (u, A) − P s (v, A)) ,
t t s
u,v∈V
où l’on a utilisé le fait que dvt P t (x, ·) − P t (y, ·) = P t (x, B) − P t (y, B). En prenant le
maximum sur A ⊂ Ω, on obtient
dvt P t+s (x, ·) , P t+s (y, ·) ≤ dvt P t (x, ·) , P t (y, ·) D(s) ,
2. Algorithmes MCMC
Le cadre est le suivant. Supposons que l’on veuille soit simuler (disons approximative-
ment)R suivant une loi de densité π, ou bien que l’on veuille évaluer une intégrale du type
I = φ(x)π(x)dµ(x) (avec µ typiquement la mesure de Lebesgue ou la mesure de comptage),
comme c’est le cas en statistiques bayésiennes pour π la densité a posteriori et I la moyenne a
posteriori par exemple. On aimerait construire une chaı̂ne de Markov (Xt ) de densité station-
naire π, car alors, d’après les deux faits ci-dessus, la loi de Xt avec t grand sera proche d’une
loi de densité π, tandis que la moyenne 1t t−1
P
i=0 φ(X i ) approchera l’intégrale cherchée, par le
théorème ergodique.
En effet, par symétrie, on peut toujours supposer π(y)q(y, x) ≤ π(x)q(x, y), quitte à échanger
les rôles de x et y. Dans ce cas, on a
π(y)q(y, x)
r(x, y) = et r(y, x) = 1 ,
π(x)q(x, y)
ce qui donne bien l’égalité (6.1) (si q(x, y) = 0, alors q(y, x) = 0 aussi, et les deux termes
de (6.1) sont nuls). On a donc
Z Z Z Z
P (x, A)dπ(x) = 1y6=x q(x, y)r(x, y)dµ(y)π(x)dµ(x) + r(x)δx (A)dπ(x)
Ω Ω∗ A Ω∗
Z Z Z
= 1y6=x π(y)q(y, x)r(y, x)dµ(x)dµ(y) + r(x)π(x)dµ(x)
Ω∗
ZA Z A
Exemple 6.5. Soit Q la matrice de transition de la marche aléatoire simple sur un graphe
fini connexe G = (V, E). La distribution stationnaire de cette chaı̂ne est deg(·) 2|E| . On souhaite
obtenir un échantillon issu de la loi uniforme sur V , π = Unif(V ). L’algorithme de Metropolis-
Hastings consiste alors à définir la chaı̂ne de noyau P donnée par : si l’état courant est x, on
choisit uniformément un voisin y de x et l’on accepte la transition de x à y avec probabilité
deg(x)
r(x, y) = ∧ 1.
deg(y)
On suppose que l’on sait facilement simuler suivant les densités conditionnelles π(· x(`) ),
pour tout ` ∈ J1, dK. L’idéee de l’algorithme de Gibbs est de rejouer une par une les co-
ordonnée du vecteur, selon la loi conditionnelle sachant toutes les autres. On présente ici
deux versions de l’algorithme, qui diffèrent en la façon de choisir les coordonnées que l’on rejoue.
Exemple 6.6. Soit (X, Y ) un couple de variables aléatoires de densité sur R2 donnée par
2
x2 (1 + y + y 2 )
y
h(x, y) = C exp − − .
2 2
La loi conditionnelle de X sachant Y = y a pour densité
2
x (1 + y + y 2 )
f (x y) ∝ exp − .
2
Ainsi, L(X Y ) = N 0, 1+Y1+Y 2 . De même, la densité de Y sachant X = x est
2 !
1 + x2 2y 2 2
x 1 + x x
g(y x) ∝ exp − y2 + ∝ exp − y+ .
2 1 + x2 2 2(1 + x2 )
X2 1
Ainsi, L(Y X) = N − 2(1+X 2 ) 1+X 2 . Pour simuler selon la loi de (X, Y ), l’algorithme de
,
Gibbs (balayage déterministe) consiste à considérer la chaı̂ne de Markov suivante : on part de
(x0 , y0 ) = (0, 0), puis à chaque temps t ≥ 0, conditionnellement à (Xt , Yt ) = (xt , yt ), on génère
(Xt+1 , Yt+1 ) selon:
— Xt+1 ∼ N 0, 1+y1+y2 ;
t t
x2t+1
— Yt+1 ∼ N − 2(1+x2 ) , 1+x12 .
t+1 t+1
de types différents, de façon indépendante. Autrement dit, si l’on note X = (Xi,j )1≤i<j≤n avec
(
1 si i et j sont reliés par une arête,
Xi,j =
0 sinon,
alors la loi conditionnelle de X sachant θ = θ est donnée par
B p1θi =θj + q 1θi 6=θj .
O
X θ=θ∼
1≤i<j≤n
Si l’on observe le graphe sans les types, quelle inférence peut-on mener sur θ ? La loi a posteriori
de θ sachant X est donnée par
Y 1 1
Xi,j
1 1
1−Xi,j
∀θ ∈ {0, 1}n , π(θ X) ∝ p θi =θj q θi 6=θj (1 − p) θi =θj (1 − q) θi 6=θj .
1≤i<j≤n
Simuler directement selon cette loi est typiquement hors d’atteinte pour n grand : le dénominateur
consiste en une somme sur 2n termes. On peut alors utiliser l’algorithme de Gibbs (présenté
ici avec balayage aléatoire) pour simuler selon Π[ · X]. Pour cela, on construit une chaı̂ne
de Markov (θ (t) )t∈N sur {0, 1}n , dont les transitions se font de la façon suivante : partant de
θ (t) = σ ∈ {0, 1}n ,
— on tire i ∈K1, nK uniformément au hasard ;
— on génère σi0 selon la loi conditionnelle de θ i sachant (θ j )j6=i = (σj )j6=i et X, i.e. selon
une loi de Bernoulli de paramètre
σj 1−σj Xi,j (1 − p)σj (1 − q)1−σj 1−Xi,j
Q
j6=i p q
·
σj 1−σj )Xi,j ((1 − p)σj (1 − q)1−σj )1−Xi,j + 1−σj q σj )Xi,j ((1 − p)1−σj (1 − q)σj )1−Xi,j
Q Q
j6=i (p q j6=i (p