0% ont trouvé ce document utile (0 vote)
111 vues72 pages

Cours 4

Transféré par

vcklthgcghjlc
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
111 vues72 pages

Cours 4

Transféré par

vcklthgcghjlc
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistique et apprentissage

Arthur Tenenhaus† , Julien Bect & Laurent Le Brusquet


([email protected])

Enseignement : CentraleSupélec / Département de Mathématiques


Recherche : Laboratoire des signaux & systèmes (L2S)

: Coordinateur du cours

1/37
Cours 4/10
Estimation bayésienne

Objectifs du cours 4
◮ Introduire la notion d’information a priori.
◮ Se familiariser avec les approches bayésiennes.
◮ Construire de nouveaux estimateurs intégrant un a priori.

2/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement

3/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Rappel : comparaison d’estimateurs

Risque quadratique : Rθ (η̂) = Eθ kη̂ − g (θ)k2 .

Définitions
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),

Remarques
◮ La relation « préférable à » est un ordre partiel sur les risques.
◮ Il n’existe pas en général un estimateur optimal, càd un
estimateur préférable à tous les autres (sauf à restreindre la
classe d’estimateurs considérés).
4/37
Rappel : comparaison d’estimateurs

Risque quadratique : Rθ (η̂) = Eθ kη̂ − g (θ)k2 .

Définitions
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),

Remarques
◮ La relation « préférable à » est un ordre partiel sur les risques.
◮ Il n’existe pas en général un estimateur optimal, càd un
estimateur préférable à tous les autres (sauf à restreindre la
classe d’estimateurs considérés).
4/37
Comparer (tous) les estimateurs : deux approches
Deux approches permettent d’affiner la comparaison
dans les cas où les fonctions Rθ ne sont pas comparables :

1 approche minimax (ou « pire cas ») :


 
Rmax η̂ = sup Rθ η̂ ,
θ∈Θ

➠ ne sera pas discutée cette année ;

2 approche bayésienne (ou « en moyenne ») :


Z
 
RBayes,π η̂ = Rθ η̂ π(dθ),
Θ

où π est une mesure de probabilité sur Θ, à choisir.


➠ c’est le sujet de ce cours.
5/37
Comparer (tous) les estimateurs : deux approches
Deux approches permettent d’affiner la comparaison
dans les cas où les fonctions Rθ ne sont pas comparables :

1 approche minimax (ou « pire cas ») :


 
Rmax η̂ = sup Rθ η̂ ,
θ∈Θ

➠ ne sera pas discutée cette année ;

2 approche bayésienne (ou « en moyenne ») :


Z
 
RBayes,π η̂ = Rθ η̂ π(dθ),
Θ

où π est une mesure de probabilité sur Θ, à choisir.


➠ c’est le sujet de ce cours.
5/37
Comparer (tous) les estimateurs : deux approches
Deux approches permettent d’affiner la comparaison
dans les cas où les fonctions Rθ ne sont pas comparables :

1 approche minimax (ou « pire cas ») :


 
Rmax η̂ = sup Rθ η̂ ,
θ∈Θ

➠ ne sera pas discutée cette année ;

2 approche bayésienne (ou « en moyenne ») :


Z
 
RBayes,π η̂ = Rθ η̂ π(dθ),
Θ

où π est une mesure de probabilité sur Θ, à choisir.


➠ c’est le sujet de ce cours.
5/37
Exemple : boules blanches / boules rouges (voir cours n°1)

2
ddp U [0,1] 6 ddp β(1, 6)
1.5 5

1
3

2
0.5
1

0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
θ θ
Mesure π : uniforme sur [0, 1] Mesure π : β (1, 6)
Pn Pn
i=1 Xi +1 i=1 Xi +1
θ̂a = θ̂b =
n+2 n+7
n+2
Observation : θ̂b = n+7 θ̂a ,
➠ le deuxième estimateur fournit des réponses plus petites.
6/37
Exemple : boules blanches / boules rouges (voir cours n°1)

2
ddp U [0,1] 6 ddp β(1, 6)
1.5 5

1
3

2
0.5
1

0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
θ θ
Mesure π : uniforme sur [0, 1] Mesure π : β (1, 6)
Pn Pn
i=1 Xi +1 i=1 Xi +1
θ̂a = θ̂b =
n+2 n+7
n+2
Observation : θ̂b = n+7 θ̂a ,
➠ le deuxième estimateur fournit des réponses plus petites.
6/37
Exemple : boules blanches / boules rouges (avec n = 10)

0.1 θ̂ = X̄
 

θ̂ = θ̂a
Rθ θ̂

0.05
θ̂ = θ̂b

0
0 0.2 0.4 0.6 0.8 1
θ
θ̂ = X̄ θ̂ = θ̂a θ̂ = θ̂b
≈ 0.1246
  0.025 ≈ 0.0208 36
Rmax θ̂ 1 1
(n + 7)2
4n 4(n + 2)
(valable pour n ≤ 77)
 
RBayes,π θ̂ ≈ 0.0167 ≈ 0.0162 ≈ 0.0456
1 n+4 n + 69
avec π ∼ 
U [0,1]
 6n 6(n + 2)2 6(n + 7)2

RBayes,π θ̂ ≈ 0.0107 ≈ 0.0129 ≈ 0.0089


3 3n + 22 3n + 42
avec π ∼ β(1, 6) 28n 28(n + 2)2 28(n + 7)2

7/37
Exercice : montrer les expressions de Rmax et RBayes,π pour θ̂ = X̄ .
La famille des lois beta
2
Soit X ∼ β(a, b) avec (a, b) = θ ∈ (R+
⋆ ) . Sa densité est :

Γ(a + b) a−1
fθ (x) = x (1 − x)b−1 1]0,1[ (x).
Γ(a)Γ(b)

Moments Cas particulier


◮ moyenne : Eθ (X ) = a
a+b ◮ U[0,1] = β(1, 1)
◮ variance : varθ (X ) = ab
(a+b)2 (a+b+1)

Propriétés
1

◮ Si X ∼ β(a, 1), alors − log(X ) ∼ E a .
◮ Si X ∼ Γ(a, λ), Y ∼ Γ(b, λ), et X ⊥ X
⊥ Y , alors X +Y ∼ β(a, b).
Paramètre inconnu → variable aléatoire

On supposera à partir de maintenant un modèle dominé : ddp fθ (x).

Considérons le risque bayésien (quadratique dans ce cas)


Z
 
RBayes,π η̂ = Rθ η̂ π(dθ)


= Eθ kη̂ − g (θ)k2 π(dθ).
Θ

On peut le ré-écrire sous la forme :


ZZ

RBayes,π η̂ = kη̂(x) − g (θ)k2 fθ (x) ν(dx) π(dθ) .
X ×Θ | {z }
Mesure de proba sur X × Θ

8/37
Paramètre inconnu → variable aléatoire

On supposera à partir de maintenant un modèle dominé : ddp fθ (x).

Considérons le risque bayésien (quadratique dans ce cas)


Z
 
RBayes,π η̂ = Rθ η̂ π(dθ)


= Eθ kη̂ − g (θ)k2 π(dθ).
Θ

On peut le ré-écrire sous la forme :


ZZ

RBayes,π η̂ = kη̂(x) − g (θ)k2 fθ (x) ν(dx) π(dθ) .
X ×Θ | {z }
Mesure de proba sur X × Θ

8/37
Paramètre inconnu → variable aléatoire (suite)
Introduisons une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Alors le risque bayésien se ré-écrit plus simplement :



RBayes,π = E kη̂ − g (ϑ)k2 ,

l’espérance portant cette fois sur X et sur ϑ.

Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.

(Remarque technique : l’introduction d’une nouvelle VA ϑ telle que (⋆) soit vraie est toujours possible,
e = Ω × Θ, à condition que Θ soit muni d’une tribu FΘ
quitte à remplacer l’espace Ω sous-jacent par Ω
telle que θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F .)
9/37
Paramètre inconnu → variable aléatoire (suite)
Introduisons une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Alors le risque bayésien se ré-écrit plus simplement :



RBayes,π = E kη̂ − g (ϑ)k2 ,

l’espérance portant cette fois sur X et sur ϑ.

Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.

(Remarque technique : l’introduction d’une nouvelle VA ϑ telle que (⋆) soit vraie est toujours possible,
e = Ω × Θ, à condition que Θ soit muni d’une tribu FΘ
quitte à remplacer l’espace Ω sous-jacent par Ω
telle que θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F .)
9/37
Paramètre inconnu → variable aléatoire (suite)
Introduisons une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Alors le risque bayésien se ré-écrit plus simplement :



RBayes,π = E kη̂ − g (ϑ)k2 ,

l’espérance portant cette fois sur X et sur ϑ.

Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.

(Remarque technique : l’introduction d’une nouvelle VA ϑ telle que (⋆) soit vraie est toujours possible,
e = Ω × Θ, à condition que Θ soit muni d’une tribu FΘ
quitte à remplacer l’espace Ω sous-jacent par Ω
telle que θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F .)
9/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Modèle statistique bayésien
Hypothèses techniques : on suppose à partir de maintenant que
◮ Θ est muni d’une tribu FΘ . Par ex. : si Θ ⊂ Rp , FΘ = B (Θ) ;
◮ θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F (tribu sur Ω sous-jacent).

Définition
On appelle modèle statistique bayésien la donnée
◮ d’un modèle statistique tel que défini précédemment :
 n o
X
X , A , Pθ , θ ∈ Θ ,

◮ d’une mesure de probabilité π, dite loi a priori, sur (Θ, FΘ ).

Modèle supposé dominé → permet de définir une vraisemblance.


10/37
Modèle statistique bayésien
Hypothèses techniques : on suppose à partir de maintenant que
◮ Θ est muni d’une tribu FΘ . Par ex. : si Θ ⊂ Rp , FΘ = B (Θ) ;
◮ θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F (tribu sur Ω sous-jacent).

Définition
On appelle modèle statistique bayésien la donnée
◮ d’un modèle statistique tel que défini précédemment :
 n o
X
X , A , Pθ , θ ∈ Θ ,

◮ d’une mesure de probabilité π, dite loi a priori, sur (Θ, FΘ ).

Modèle supposé dominé → permet de définir une vraisemblance.


10/37
Lois jointe, a priori et a posteriori
Rappel : on introduit une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Vocabulaire bayésien
On appelle :
◮ loi jointe la loi de X et ϑ, c’est-à-dire (⋆),
◮ loi a priori la loi marginale Pϑ de ϑ, c’est-à-dire π,
◮ loi a posteriori la loi Pϑ|X de ϑ sachant les observations.

Interprétation (« bayésienne subjective »)


◮ loi a priori → connaissance de θ avant acquisition des données
◮ loi a posteriori → . . . après acquisition des données
11/37
Lois jointe, a priori et a posteriori
Rappel : on introduit une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Vocabulaire bayésien
On appelle :
◮ loi jointe la loi de X et ϑ, c’est-à-dire (⋆),
◮ loi a priori la loi marginale Pϑ de ϑ, c’est-à-dire π,
◮ loi a posteriori la loi Pϑ|X de ϑ sachant les observations.

Interprétation (« bayésienne subjective »)


◮ loi a priori → connaissance de θ avant acquisition des données
◮ loi a posteriori → . . . après acquisition des données
11/37
Lois jointe, a priori et a posteriori
Rappel : on introduit une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Vocabulaire bayésien
On appelle :
◮ loi jointe la loi de X et ϑ, c’est-à-dire (⋆),
◮ loi a priori la loi marginale Pϑ de ϑ, c’est-à-dire π,
◮ loi a posteriori la loi Pϑ|X de ϑ sachant les observations.

Interprétation (« bayésienne subjective »)


◮ loi a priori → connaissance de θ avant acquisition des données
◮ loi a posteriori → . . . après acquisition des données
11/37
A propos. . . qu’est-ce que la loi conditionnelle Pϑ|X ?
Définition générale : hors programme !
(⇒ utilise la notion de noyau)

Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,


pour une certaine mesure νΘ sur (Θ, FΘ ).

On définira Pϑ|X =x comme la mesure admettant la densité


f ϑ,X (θ, x)
f ϑ|X (θ | x) =
f X (x)

par rapport à νΘ , pour tout x tel que f X (x) > 0.

On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,


Z
p.s.
E (ϕ(ϑ, X ) | X ) = ϕ(θ, X ) f ϑ|X (θ | X ) νΘ (dθ).
Θ
12/37
A propos. . . qu’est-ce que la loi conditionnelle Pϑ|X ?
Définition générale : hors programme !
(⇒ utilise la notion de noyau)

Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,


pour une certaine mesure νΘ sur (Θ, FΘ ).

On définira Pϑ|X =x comme la mesure admettant la densité


f ϑ,X (θ, x)
f ϑ|X (θ | x) =
f X (x)

par rapport à νΘ , pour tout x tel que f X (x) > 0.

On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,


Z
p.s.
E (ϕ(ϑ, X ) | X ) = ϕ(θ, X ) f ϑ|X (θ | X ) νΘ (dθ).
Θ
12/37
A propos. . . qu’est-ce que la loi conditionnelle Pϑ|X ?
Définition générale : hors programme !
(⇒ utilise la notion de noyau)

Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,


pour une certaine mesure νΘ sur (Θ, FΘ ).

On définira Pϑ|X =x comme la mesure admettant la densité


f ϑ,X (θ, x)
f ϑ|X (θ | x) =
f X (x)

par rapport à νΘ , pour tout x tel que f X (x) > 0.

On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,


Z
p.s.
E (ϕ(ϑ, X ) | X ) = ϕ(θ, X ) f ϑ|X (θ | X ) νΘ (dθ).
Θ
12/37
Densité jointe et densités marginales
On supposera à partir de maintenant† que π admet une densité
◮ par rapport à une mesure νΘ sur (Θ, FΘ ), par ex. Lebesgue,
◮ on notera (abusivement) : π(dθ) = π(θ) dθ.

Proposition
La loi jointe admet la densité jointe

f (X ,ϑ) (x, θ) = fθ (x) π(θ),

et les densité marginales associées sont

f ϑ (θ) = π(θ),
Z
X
f (x) = fθ (x) π(θ) dθ.


: Ce n’est pas vraiment une hypothèse, on peut toujours prendre νΘ = π (avec la ddp égale à 1).
13/37
Densité jointe et densités marginales
On supposera à partir de maintenant† que π admet une densité
◮ par rapport à une mesure νΘ sur (Θ, FΘ ), par ex. Lebesgue,
◮ on notera (abusivement) : π(dθ) = π(θ) dθ.

Proposition
La loi jointe admet la densité jointe

f (X ,ϑ) (x, θ) = fθ (x) π(θ),

et les densité marginales associées sont

f ϑ (θ) = π(θ),
Z
X
f (x) = fθ (x) π(θ) dθ.


: Ce n’est pas vraiment une hypothèse, on peut toujours prendre νΘ = π (avec la ddp égale à 1).
13/37
Démonstration

Densité jointe (démonstration informelle) :

P(X ,ϑ) (dx, dθ) = fθ (x) ν(dx) π(θ) dθ


= fθ (x) π(θ) ν(dx) dθ
| {z }
ddp jointe

Densités marginales → il suffit d’intégrer :


Z
f ϑ (θ) = fθ (x) π(θ) ν(dx) = π(θ),
Z
f X (x) = fθ (x) π(θ) dθ.

14/37
Démonstration

Densité jointe (démonstration informelle) :

P(X ,ϑ) (dx, dθ) = fθ (x) ν(dx) π(θ) dθ


= fθ (x) π(θ) ν(dx) dθ
| {z }
ddp jointe

Densités marginales → il suffit d’intégrer :


Z
f ϑ (θ) = fθ (x) π(θ) ν(dx) = π(θ),
Z
f X (x) = fθ (x) π(θ) dθ.

14/37
Vraisemblance et formule de Bayes
Rappel de la densité conditionnelle :

f (Y ,Z ) (y , z)
f Y |Z (y | z) = , ∀z t.q. f Z (z) 6= 0. (⋆)
f Z (z)

Proposition
i) La loi conditionnelle de X sachant ϑ admet la ddp

f X |ϑ (x | θ) = fθ (x) (« vraisemblance »).

ii) La loi a posteriori (ϑ sachant X ) admet la densité :

fθ (x) π(θ)
f ϑ|X (θ | x) = (formule de Bayes).
f X (x)

Démonstration. Il suffit d’appliquer (⋆) à la densité jointe.


15/37
Vraisemblance et formule de Bayes
Rappel de la densité conditionnelle :

f (Y ,Z ) (y , z)
f Y |Z (y | z) = , ∀z t.q. f Z (z) 6= 0. (⋆)
f Z (z)

Proposition
i) La loi conditionnelle de X sachant ϑ admet la ddp

f X |ϑ (x | θ) = fθ (x) (« vraisemblance »).

ii) La loi a posteriori (ϑ sachant X ) admet la densité :

fθ (x) π(θ)
f ϑ|X (θ | x) = (formule de Bayes).
f X (x)

Démonstration. Il suffit d’appliquer (⋆) à la densité jointe.


15/37
Remarque : proportionnalité
1
Le terme f X (x)
joue le rôle d’une constante de normalisation :

fθ (x) π(θ)
f ϑ|X (θ | x) = .
f X (x)

Notation. Le symbole « ∝ » indique la proportionnalité. Ainsi,

f ϑ|X (θ | x) ∝ fθ (x) π(θ),

soit encore, de façon informelle,

ddp a posteriori ∝ vraisemblance × ddp a priori.

La « constante » f X (x) est souvent difficile à calculer, mais dans certaines situations (estimateur MAP,
méthodes numériques MCMC. . . ) on peut s’en affranchir.

16/37
Remarque : proportionnalité
1
Le terme f X (x)
joue le rôle d’une constante de normalisation :

fθ (x) π(θ)
f ϑ|X (θ | x) = .
f X (x)

Notation. Le symbole « ∝ » indique la proportionnalité. Ainsi,

f ϑ|X (θ | x) ∝ fθ (x) π(θ),

soit encore, de façon informelle,

ddp a posteriori ∝ vraisemblance × ddp a priori.

La « constante » f X (x) est souvent difficile à calculer, mais dans certaines situations (estimateur MAP,
méthodes numériques MCMC. . . ) on peut s’en affranchir.

16/37
Exemple : boules blanches / boules rouges (suite)

B iid
Rappel : on veut estimer θ = R+B à partir de X1 , . . . , Xn ∼ Ber(θ).

Densité des observations :

fθ (x) = Πni=1 θxi (1 − θ)1−xi = θN(x) (1 − θ)n−N(x) .


Pn
avec N(x) = i=1 xi .

On se donne un a priori β(a0 , b0 ) :

π(θ) ∝ θa0 −1 (1 − θ)b0 −1 .

(La question du choix de l’a priori sera discutée plus loin.)

17/37
Exemple : boules blanches / boules rouges (suite)

B iid
Rappel : on veut estimer θ = R+B à partir de X1 , . . . , Xn ∼ Ber(θ).

Densité des observations :

fθ (x) = Πni=1 θxi (1 − θ)1−xi = θN(x) (1 − θ)n−N(x) .


Pn
avec N(x) = i=1 xi .

On se donne un a priori β(a0 , b0 ) :

π(θ) ∝ θa0 −1 (1 − θ)b0 −1 .

(La question du choix de l’a priori sera discutée plus loin.)

17/37
Exemple : boules blanches / boules rouges (suite)

Alors on a :

f ϑ|X (θ | x) ∝ fθ (x) π(θ)


∝ θN(x) (1 − θ)n−N(x) · θa0 −1 (1 − θ)b0 −1
= θa0 +N(x)−1 (1 − θ)b0 +n−N(x)−1 .

On reconnaît (à une cst près) la densité de la loi β(an , bn ), avec


(
an = a0 + N,
bn = b0 + n − N.

Conclusion. Loi a posteriori : ϑ | X ∼ β(an , bn ).

18/37
Exemple : boules blanches / boules rouges (suite)

Alors on a :

f ϑ|X (θ | x) ∝ fθ (x) π(θ)


∝ θN(x) (1 − θ)n−N(x) · θa0 −1 (1 − θ)b0 −1
= θa0 +N(x)−1 (1 − θ)b0 +n−N(x)−1 .

On reconnaît (à une cst près) la densité de la loi β(an , bn ), avec


(
an = a0 + N,
bn = b0 + n − N.

Conclusion. Loi a posteriori : ϑ | X ∼ β(an , bn ).

18/37
Exemple : boules blanches / boules rouges (suite)
a priori U[0,1] , n = 5 a priori β(1, 6), n = 5
2.5 6
ddp a priori
2 ddp a posteriori
replacements1.5 4

1
2
0.5

0 0
0 θ x̄ 1 0 θ x̄ 1

a priori U[0,1] , n = 20 a priori β(1, 6), n = 20


4 6

3
4

2
1

0 0
0 θ x̄ 1 0 θ x̄ 1

θ(1−θ)
Remarque : pour n → ∞, on a E(ϑ | X n ) = X̄n + O( 1n ) avec var(ϑ | X n ) ≃ n
.
19/37
Exemple : fiabilité composant
iid
Rappel : X1 , . . . , Xn ∼ E(θ) = E( η1 ), d’où la vraisemblance :

n  
Y 1 1
L(η, x n ) = f (x n | η) = exp − xi
η η
i=1
n
!
−n 1X
= η exp − xi .
η
i=1

(Ici on choisit de tout paramétrer directement en η.)

On choisit (voir plus loin) un a priori N (η0 , σ02 ) tronqué pour η :


 
(η − η0 )2
π(η) ∝ exp − 1η≥0 .
2σ02

20/37
Exemple : fiabilité composant
iid
Rappel : X1 , . . . , Xn ∼ E(θ) = E( η1 ), d’où la vraisemblance :

n  
Y 1 1
L(η, x n ) = f (x n | η) = exp − xi
η η
i=1
n
!
−n 1X
= η exp − xi .
η
i=1

(Ici on choisit de tout paramétrer directement en η.)

On choisit (voir plus loin) un a priori N (η0 , σ02 ) tronqué pour η :


 
(η − η0 )2
π(η) ∝ exp − 1η≥0 .
2σ02

20/37
Exemple : fiabilité composant (suite)
Loi a posteriori de η. Par la formule de Bayes, on obtient :
n
!  
−n 1X (η − η0 )2
p(η | x n ) ∝ η exp − xi · exp − .
η 2σ02
| {z i=1 } | {z }
vraisemblance ddp a priori


! Cette fois-ci on ne reconnaît pas une densité « connue »
➠ évaluation numérique des intégrales
Z Pn (η−η0 )2
− η1 −
f (x n ) = η −n
e i=1 xi e 2σ 2
0 dη
Z Pn (η−η0 )2
1 −n − η1 i=1 xi
− 2
2σ0
E (η | X n = x n ) = η ·η e e dη
f (x n )

21/37
Exemple : fiabilité composant (suite)
Loi a posteriori de η. Par la formule de Bayes, on obtient :
n
!  
−n 1X (η − η0 )2
p(η | x n ) ∝ η exp − xi · exp − .
η 2σ02
| {z i=1 } | {z }
vraisemblance ddp a priori


! Cette fois-ci on ne reconnaît pas une densité « connue »
➠ évaluation numérique des intégrales
Z Pn (η−η0 )2
− η1 −
f (x n ) = η −n
e i=1 xi e 2σ 2
0 dη
Z Pn (η−η0 )2
1 −n − η1 i=1 xi
− 2
2σ0
E (η | X n = x n ) = η ·η e e dη
f (x n )

21/37
Exemple : fiabilité composant (suite)
Application numérique. η0 = 14.0, σ0 = 1.0 et valeur vraie : η∗ = 11.4.

4
π(η)
3.5
p(η | x 10 )
3 p(η | x 100 )
p(η | x 1000 )
2.5
p(η | x 10000 )
2

1.5

0.5

0
10 *
=11.4 0
=14.0 17

Figure – Densité a priori de η et densités a posteriori pour 4 valeurs de n.

22/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Plusieurs approches

Deux types de sources d’information a priori :


◮ données « historiques »,
◮ experts : connaissances subjectives, expertise métier, etc.

Sujets plus avancés (pas traités dans ce cours) :


◮ fusions de plusieurs sources d’information a priori,
◮ loi a priori « peu informatives » ou « objectives »,
◮ loi a priori la plus défavorable (cf. minimax),
◮ ...

23/37
Exemple : boules blanches / boules rouges (suite)

On dispose de données issues d’une première expérience :


◮ échantillon de n0 = 20 observations,
◮ N0 = 15 boules blanches tirées.

Choix d’un a priori


On peut décider, par exemple, de choisir une loi β(a0 , b0 ),
avec a0 = N0 = 15 et b0 = n0 − N0 = 5.

Arguments en faveur de ce choix :


◮ la forme de la loi facilite les calculs (voir plus loin) ;
◮ espérance : a0 N0
a0 +b0 = p0 , avec p0 = n0 ;
a 0 b0 p0 (1−p0 )
◮ variance : (a0 +b0 )2 (a0 +b0 +1) ≈ n0 ➠ variance de X̄n0 .

24/37
Exemple : boules blanches / boules rouges (suite)

On dispose de données issues d’une première expérience :


◮ échantillon de n0 = 20 observations,
◮ N0 = 15 boules blanches tirées.

Choix d’un a priori


On peut décider, par exemple, de choisir une loi β(a0 , b0 ),
avec a0 = N0 = 15 et b0 = n0 − N0 = 5.

Arguments en faveur de ce choix :


◮ la forme de la loi facilite les calculs (voir plus loin) ;
◮ espérance : a0 N0
a0 +b0 = p0 , avec p0 = n0 ;
a 0 b0 p0 (1−p0 )
◮ variance : (a0 +b0 )2 (a0 +b0 +1) ≈ n0 ➠ variance de X̄n0 .

24/37
Exemple : boules blanches / boules rouges (suite)
4.5

3.5

2.5

1.5

0.5

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
θ
25/37
Exemple : fiabilité composant
On dispose des informations suivantes :
◮ Le constructeur indique que la durée de vie des composantes
est de l’ordre de η0 = 6 mois.
◮ Un expert du domaine estime à ε0 = 10% la précision de
l’information fournie par le constructeur.

Choix d’un a priori (élicitation)


On peut décider, par exemple, de choisir une loi N (η0 , σ0 ),
tronquée à [0, +∞[, avec σ0 = ε0 η0 /1.96.

Arguments en faveur de ce choix :


◮ L’a priori est (approx.) centré sur la valeur constructeur η0 .
◮ ≈ 95% de la proba a priori est portée par l’intervalle [0.9η0 , 1.1η0 ].
◮ La forme choisie (gaussienne) et la valeur 95% sont arbitraires.
26/37
Exemple : fiabilité composant
On dispose des informations suivantes :
◮ Le constructeur indique que la durée de vie des composantes
est de l’ordre de η0 = 6 mois.
◮ Un expert du domaine estime à ε0 = 10% la précision de
l’information fournie par le constructeur.

Choix d’un a priori (élicitation)


On peut décider, par exemple, de choisir une loi N (η0 , σ0 ),
tronquée à [0, +∞[, avec σ0 = ε0 η0 /1.96.

Arguments en faveur de ce choix :


◮ L’a priori est (approx.) centré sur la valeur constructeur η0 .
◮ ≈ 95% de la proba a priori est portée par l’intervalle [0.9η0 , 1.1η0 ].
◮ La forme choisie (gaussienne) et la valeur 95% sont arbitraires.
26/37
A priori conjugués ➠ facilitent les calculs !

Familles de lois a priori conjuguées


Une famille de lois (densités) est dite conjuguée pour un certain
modèle statistique si, pour toute loi a priori π dans cette famille, la
loi a posteriori f ϑ|X est encore dedans.

Exemples.
◮ échantillon Ber(θ) + a priori β,
◮ échantillon N (µ, σ 2 ) avec σ 2 connu + a priori N sur µ,
◮ échantillon N (µ, σ 2 ) avec µ connu + a priori IG † sur σ 2 ,
◮ échantillon E(θ) + a priori gamma,
◮ ...


: inverse gamma. Z ∼ IG si 1/Z suit une loi gamma.
27/37
A priori conjugués ➠ facilitent les calculs !

Familles de lois a priori conjuguées


Une famille de lois (densités) est dite conjuguée pour un certain
modèle statistique si, pour toute loi a priori π dans cette famille, la
loi a posteriori f ϑ|X est encore dedans.

Exemples.
◮ échantillon Ber(θ) + a priori β,
◮ échantillon N (µ, σ 2 ) avec σ 2 connu + a priori N sur µ,
◮ échantillon N (µ, σ 2 ) avec µ connu + a priori IG † sur σ 2 ,
◮ échantillon E(θ) + a priori gamma,
◮ ...


: inverse gamma. Z ∼ IG si 1/Z suit une loi gamma.
27/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Estimateurs bayésiens

Objectif
Construire des estimateurs de η = g (θ) prenant en compte
◮ les données x,
◮ et la loi a priori π.

28/37
Estimateurs bayésiens
On se donne une fonction de perte L : N × N → R.
◮ rappel : L(η, η̃) est la perte si l’on estime η̃ alors que la vraie valeur est η.

Définition : estimateur bayésien


Il minimise l’espérance a posteriori de la perte :

η̂ = arg minη̃∈N J(η̃, X )


avec
 
J(η̃, x) = E L g (ϑ), η̃ X = x
Z

= L g (θ), η̃ f ϑ|X (θ | x) dθ.
Θ

(☞ J est bien définie pour PX -presque tout x.)

Remarque : un tel estimateur minimise le risque bayésien Rπ .


29/37
Estimateurs bayésiens
On se donne une fonction de perte L : N × N → R.
◮ rappel : L(η, η̃) est la perte si l’on estime η̃ alors que la vraie valeur est η.

Définition : estimateur bayésien


Il minimise l’espérance a posteriori de la perte :

η̂ = arg minη̃∈N J(η̃, X )


avec
 
J(η̃, x) = E L g (ϑ), η̃ X = x
Z

= L g (θ), η̃ f ϑ|X (θ | x) dθ.
Θ

(☞ J est bien définie pour PX -presque tout x.)

Remarque : un tel estimateur minimise le risque bayésien Rπ .


29/37
Perte quadratique
Considérons le cas de la perte quadratique L(η, η̃) = kη − η̃k2 :
Z
J(η̃, x) = kg (θ) − η̃k2 f ϑ|X (θ | x) dθ.
Θ

Proposition
Dans ce cas, l’estimateur bayésien est
Z
η̂ = E (g (ϑ) | X ) = g (θ) f ϑ|X (θ | X ) dθ.
Θ

➠ η̂ est la moyenne a posteriori de ϑ.

Remarque : on peut aussi l’écrire


R R
g (θ) fθ (x) π(θ) dθ g (θ) fθ (x) π(θ) dθ
η̂(x) = Θ X
= ΘR
.
f (x) f (x) π(θ) dθ
Θ θ
30/37
Perte quadratique
Considérons le cas de la perte quadratique L(η, η̃) = kη − η̃k2 :
Z
J(η̃, x) = kg (θ) − η̃k2 f ϑ|X (θ | x) dθ.
Θ

Proposition
Dans ce cas, l’estimateur bayésien est
Z
η̂ = E (g (ϑ) | X ) = g (θ) f ϑ|X (θ | X ) dθ.
Θ

➠ η̂ est la moyenne a posteriori de ϑ.

Remarque : on peut aussi l’écrire


R R
g (θ) fθ (x) π(θ) dθ g (θ) fθ (x) π(θ) dθ
η̂(x) = Θ X
= ΘR
.
f (x) f (x) π(θ) dθ
Θ θ
30/37
Exemple : boules blanches / boules rouges (suite)

Avec un a priori ϑ ∼ β(a0 , b0 ), on a vu que :

ϑ|X ∼ β (N + a0 , n − N + b0 )
Pn
avec N = i=1 Xi .

a
L’espérance d’une loi β(a, b) étant a+b , il vient :

N + a0
θ̂ = E (ϑ | X ) = .
n + a0 + b 0

Remarque : on retrouve les expressions de θ̂a et θ̂b .

31/37
Exemple : boules blanches / boules rouges (suite)

Avec un a priori ϑ ∼ β(a0 , b0 ), on a vu que :

ϑ|X ∼ β (N + a0 , n − N + b0 )
Pn
avec N = i=1 Xi .

a
L’espérance d’une loi β(a, b) étant a+b , il vient :

N + a0
θ̂ = E (ϑ | X ) = .
n + a0 + b 0

Remarque : on retrouve les expressions de θ̂a et θ̂b .

31/37
Autre exemple : n-échantillon gaussien (σ 2 connu)
iid
On montre (cf. TD 4) que si X1 , . . . , Xn ∼ N (θ, σ02 )
◮ avec θ ∈ R (inconnu), σ0 > 0 (connu),
◮ et ϑ ∼ N (µθ , σθ2 ),
alors  Pn 
σθ2 i=1 Xi + σ02 µθ σθ2 σ02
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02

D’où l’estimateur bayésien (pour la perte quadratique) :

nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02

Interprétation.
◮ quand n → ∞, θ̂ ≈ X̄ (l’a priori n’a plus d’influence)
σ
◮ à n fini, quand 0 ≫ 1, θ̂ ≈ µθ (données presque inutiles).
σθ
32/37
Autre exemple : n-échantillon gaussien (σ 2 connu)
iid
On montre (cf. TD 4) que si X1 , . . . , Xn ∼ N (θ, σ02 )
◮ avec θ ∈ R (inconnu), σ0 > 0 (connu),
◮ et ϑ ∼ N (µθ , σθ2 ),
alors  Pn 
σθ2 i=1 Xi + σ02 µθ σθ2 σ02
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02

D’où l’estimateur bayésien (pour la perte quadratique) :

nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02

Interprétation.
◮ quand n → ∞, θ̂ ≈ X̄ (l’a priori n’a plus d’influence)
σ
◮ à n fini, quand 0 ≫ 1, θ̂ ≈ µθ (données presque inutiles).
σθ
32/37
Autre exemple : n-échantillon gaussien (σ 2 connu)
iid
On montre (cf. TD 4) que si X1 , . . . , Xn ∼ N (θ, σ02 )
◮ avec θ ∈ R (inconnu), σ0 > 0 (connu),
◮ et ϑ ∼ N (µθ , σθ2 ),
alors  Pn 
σθ2 i=1 Xi + σ02 µθ σθ2 σ02
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02

D’où l’estimateur bayésien (pour la perte quadratique) :

nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02

Interprétation.
◮ quand n → ∞, θ̂ ≈ X̄ (l’a priori n’a plus d’influence)
σ
◮ à n fini, quand 0 ≫ 1, θ̂ ≈ µθ (données presque inutiles).
σθ
32/37
Perte L1
Supposons pour simplifier que η = θ ∈ R.

Considérons la fonction de perte L(θ, θ̃) = θ − θ̃ :
Z

J(θ̃, x) = θ − θ̃ f ϑ|X (θ | x) dθ.
Θ

Proposition
Dans ce cas, l’estimateur bayésien θ̂ est tel que
Z θ̂ Z ∞
ϑ|X 1
f (θ | X ) dθ = f ϑ|X (θ | X ) dθ = PX -p.s..
−∞ θ̂ 2

➠ θ̂ est une médiane de la densité a posteriori de ϑ.

Remarque : lorsque ϑ a une densité a posteriori symétrique, les deux


estimateurs bayésiens (perte L1 et perte L2 ) coïncident.
Exemple : moyenne d’un n-échantillon gaussien, avec a priori gaussien.
33/37
Perte L1
Supposons pour simplifier que η = θ ∈ R.

Considérons la fonction de perte L(θ, θ̃) = θ − θ̃ :
Z

J(θ̃, x) = θ − θ̃ f ϑ|X (θ | x) dθ.
Θ

Proposition
Dans ce cas, l’estimateur bayésien θ̂ est tel que
Z θ̂ Z ∞
ϑ|X 1
f (θ | X ) dθ = f ϑ|X (θ | X ) dθ = PX -p.s..
−∞ θ̂ 2

➠ θ̂ est une médiane de la densité a posteriori de ϑ.

Remarque : lorsque ϑ a une densité a posteriori symétrique, les deux


estimateurs bayésiens (perte L1 et perte L2 ) coïncident.
Exemple : moyenne d’un n-échantillon gaussien, avec a priori gaussien.
33/37
Exemple : boules blanches / boules rouges (suite)

Echantillon observé (n = 5) : x = (B, R, R, B, R).


A priori sur θ : ϑ ∼ β(1, 6), avec θ = P(X1 = B).

6
ddp a priori : β(1, 6)
5 ddp a posteriori : β(3, 9)
4
Application numérique
3 θ̂(L1 ) ≈ 0.2359
2 θ̂(L2 ) = 0.25

0
0 θ̂(L1 ) θ̂(L2 ) 1

34/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Exercice (loi exponentielle + a prior gamma)

iid
Soient X1 , . . . , Xn ∼ E(θ) avec θ ∈ Θ = ]0, +∞[.
On munit θ d’un a priori Gamma (α0 , β0 ).

Questions
i Montrer que l’a priori gamma est conjugué, et déterminer les
paramètres αn et βn de la loi a posteriori.
ii Expliciter l’estimateur bayésien de θ, pour la perte quadratique.
iii Montrer que cet estimateur tend vers l’EMV si les paramètres
α0 et β0 tendent vers une limite à préciser.

35/37
Corrigé de l’exercice 1
Remarque préliminaire : dans ce corrigé on s’autorise, comme c’est souvent le
cas en pratique, à noter de la même manière le paramètre « déterministe » θ et
la variable aléatoire associée, notée ϑ dans le cours.

i) On écrit la vraisemblance :
n
Y Pn
L (θ; x) = f (x | θ) = θe −θxi = θn e −θ i=1 xi ,
i=1

et la densité a priori :

β0α0 α0 −1 −β0 θ
π(θ) = θ e ∝ θα0 −1 e −β0 θ .
Γ(α0 )

On en déduit la densité a posteriori par la formule de Bayes :


Pn
f (θ | x) ∝ L (θ; x) π(θ) ∝ θα0 +n e −θ(β0 + i=1 xi )
36/37
Corrigé de l’exercice 1 (suite)

La loi de θ sachant X , ou loi a posteriori, est donc une loi gamma


de paramètres
◮ αn = α0 + n,
P
◮ βn = β0 + ni=1 Xi .

ii) L’estimateur bayésien pour la perte quadratique est donné


l’espérance a posteriori de θ sachant les observations :
αn α0 + n
E (θ | X ) = = P .
βn β0 + ni=1 Xi

iii) Cet estimateur tend vers l’EMV 1/X̄n lorsque les paramètres α0
et β0 tendent vers zéro.
37/37

Vous aimerez peut-être aussi