0% ont trouvé ce document utile (0 vote)

111 vues72 pages

Cours 4

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

111 vues72 pages

Cours 4

Transféré par

vcklthgcghjlc

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistique et apprentissage

Arthur Tenenhaus† , Julien Bect & Laurent Le Brusquet

([email protected])

Enseignement : CentraleSupélec / Département de Mathématiques

Recherche : Laboratoire des signaux & systèmes (L2S)
†
: Coordinateur du cours

1/37
Cours 4/10
Estimation bayésienne

Objectifs du cours 4
◮ Introduire la notion d’information a priori.
◮ Se familiariser avec les approches bayésiennes.
◮ Construire de nouveaux estimateurs intégrant un a priori.

2/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement

3/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Rappel : comparaison d’estimateurs

Risque quadratique : Rθ (η̂) = Eθ kη̂ − g (θ)k2 .

Définitions
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),

Remarques
◮ La relation « préférable à » est un ordre partiel sur les risques.
◮ Il n’existe pas en général un estimateur optimal, càd un
estimateur préférable à tous les autres (sauf à restreindre la
classe d’estimateurs considérés).
4/37
Rappel : comparaison d’estimateurs

Risque quadratique : Rθ (η̂) = Eθ kη̂ − g (θ)k2 .

Remarques
◮ La relation « préférable à » est un ordre partiel sur les risques.
◮ Il n’existe pas en général un estimateur optimal, càd un
estimateur préférable à tous les autres (sauf à restreindre la
classe d’estimateurs considérés).
4/37
Comparer (tous) les estimateurs : deux approches
Deux approches permettent d’affiner la comparaison
dans les cas où les fonctions Rθ ne sont pas comparables :

1 approche minimax (ou « pire cas ») :

Rmax η̂ = sup Rθ η̂ ,
θ∈Θ

➠ ne sera pas discutée cette année ;

2 approche bayésienne (ou « en moyenne ») :

Z

RBayes,π η̂ = Rθ η̂ π(dθ),
Θ

où π est une mesure de probabilité sur Θ, à choisir.

➠ c’est le sujet de ce cours.
5/37
Comparer (tous) les estimateurs : deux approches
Deux approches permettent d’affiner la comparaison
dans les cas où les fonctions Rθ ne sont pas comparables :

1 approche minimax (ou « pire cas ») :

Rmax η̂ = sup Rθ η̂ ,
θ∈Θ

➠ ne sera pas discutée cette année ;

2 approche bayésienne (ou « en moyenne ») :

Z

RBayes,π η̂ = Rθ η̂ π(dθ),
Θ

où π est une mesure de probabilité sur Θ, à choisir.

1 approche minimax (ou « pire cas ») :

Rmax η̂ = sup Rθ η̂ ,
θ∈Θ

➠ ne sera pas discutée cette année ;

2 approche bayésienne (ou « en moyenne ») :

Z

RBayes,π η̂ = Rθ η̂ π(dθ),
Θ

où π est une mesure de probabilité sur Θ, à choisir.

➠ c’est le sujet de ce cours.
5/37
Exemple : boules blanches / boules rouges (voir cours n°1)

2
ddp U [0,1] 6 ddp β(1, 6)
1.5 5

1
3

2
0.5
1

0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
θ θ
Mesure π : uniforme sur [0, 1] Mesure π : β (1, 6)
Pn Pn
i=1 Xi +1 i=1 Xi +1
θ̂a = θ̂b =
n+2 n+7
n+2
Observation : θ̂b = n+7 θ̂a ,
➠ le deuxième estimateur fournit des réponses plus petites.
6/37
Exemple : boules blanches / boules rouges (voir cours n°1)

2
ddp U [0,1] 6 ddp β(1, 6)
1.5 5

1
3

2
0.5
1

0.1 θ̂ = X̄

θ̂ = θ̂a
Rθ θ̂

0.05
θ̂ = θ̂b

0
0 0.2 0.4 0.6 0.8 1
θ
θ̂ = X̄ θ̂ = θ̂a θ̂ = θ̂b
≈ 0.1246
0.025 ≈ 0.0208 36
Rmax θ̂ 1 1
(n + 7)2
4n 4(n + 2)
(valable pour n ≤ 77)

RBayes,π θ̂ ≈ 0.0167 ≈ 0.0162 ≈ 0.0456
1 n+4 n + 69
avec π ∼
U [0,1]
6n 6(n + 2)2 6(n + 7)2

RBayes,π θ̂ ≈ 0.0107 ≈ 0.0129 ≈ 0.0089

3 3n + 22 3n + 42
avec π ∼ β(1, 6) 28n 28(n + 2)2 28(n + 7)2

7/37
Exercice : montrer les expressions de Rmax et RBayes,π pour θ̂ = X̄ .
La famille des lois beta
2
Soit X ∼ β(a, b) avec (a, b) = θ ∈ (R+
⋆ ) . Sa densité est :

Γ(a + b) a−1
fθ (x) = x (1 − x)b−1 1]0,1[ (x).
Γ(a)Γ(b)

Moments Cas particulier

◮ moyenne : Eθ (X ) = a
a+b ◮ U[0,1] = β(1, 1)
◮ variance : varθ (X ) = ab
(a+b)2 (a+b+1)

Propriétés
1

◮ Si X ∼ β(a, 1), alors − log(X ) ∼ E a .
◮ Si X ∼ Γ(a, λ), Y ∼ Γ(b, λ), et X ⊥ X
⊥ Y , alors X +Y ∼ β(a, b).
Paramètre inconnu → variable aléatoire

On supposera à partir de maintenant un modèle dominé : ddp fθ (x).

Considérons le risque bayésien (quadratique dans ce cas)

Z

RBayes,π η̂ = Rθ η̂ π(dθ)
ZΘ

= Eθ kη̂ − g (θ)k2 π(dθ).
Θ

On peut le ré-écrire sous la forme :

ZZ

RBayes,π η̂ = kη̂(x) − g (θ)k2 fθ (x) ν(dx) π(dθ) .
X ×Θ | {z }
Mesure de proba sur X × Θ

8/37
Paramètre inconnu → variable aléatoire

On supposera à partir de maintenant un modèle dominé : ddp fθ (x).

Considérons le risque bayésien (quadratique dans ce cas)

Z

RBayes,π η̂ = Rθ η̂ π(dθ)
ZΘ

= Eθ kη̂ − g (θ)k2 π(dθ).
Θ

On peut le ré-écrire sous la forme :

ZZ

RBayes,π η̂ = kη̂(x) − g (θ)k2 fθ (x) ν(dx) π(dθ) .
X ×Θ | {z }
Mesure de proba sur X × Θ

8/37
Paramètre inconnu → variable aléatoire (suite)
Introduisons une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Alors le risque bayésien se ré-écrit plus simplement :

RBayes,π = E kη̂ − g (ϑ)k2 ,

l’espérance portant cette fois sur X et sur ϑ.

Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.

(Remarque technique : l’introduction d’une nouvelle VA ϑ telle que (⋆) soit vraie est toujours possible,
e = Ω × Θ, à condition que Θ soit muni d’une tribu FΘ
quitte à remplacer l’espace Ω sous-jacent par Ω
telle que θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F .)
9/37
Paramètre inconnu → variable aléatoire (suite)
Introduisons une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Alors le risque bayésien se ré-écrit plus simplement :

RBayes,π = E kη̂ − g (ϑ)k2 ,

l’espérance portant cette fois sur X et sur ϑ.

Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Alors le risque bayésien se ré-écrit plus simplement :

RBayes,π = E kη̂ − g (ϑ)k2 ,

l’espérance portant cette fois sur X et sur ϑ.

Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Modèle statistique bayésien
Hypothèses techniques : on suppose à partir de maintenant que
◮ Θ est muni d’une tribu FΘ . Par ex. : si Θ ⊂ Rp , FΘ = B (Θ) ;
◮ θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F (tribu sur Ω sous-jacent).

Définition
On appelle modèle statistique bayésien la donnée
◮ d’un modèle statistique tel que défini précédemment :
n o
X
X , A , Pθ , θ ∈ Θ ,

◮ d’une mesure de probabilité π, dite loi a priori, sur (Θ, FΘ ).

Modèle supposé dominé → permet de définir une vraisemblance.

10/37
Modèle statistique bayésien
Hypothèses techniques : on suppose à partir de maintenant que
◮ Θ est muni d’une tribu FΘ . Par ex. : si Θ ⊂ Rp , FΘ = B (Θ) ;
◮ θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F (tribu sur Ω sous-jacent).

Définition
On appelle modèle statistique bayésien la donnée
◮ d’un modèle statistique tel que défini précédemment :
n o
X
X , A , Pθ , θ ∈ Θ ,

◮ d’une mesure de probabilité π, dite loi a priori, sur (Θ, FΘ ).

Modèle supposé dominé → permet de définir une vraisemblance.

10/37
Lois jointe, a priori et a posteriori
Rappel : on introduit une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Vocabulaire bayésien
On appelle :
◮ loi jointe la loi de X et ϑ, c’est-à-dire (⋆),
◮ loi a priori la loi marginale Pϑ de ϑ, c’est-à-dire π,
◮ loi a posteriori la loi Pϑ|X de ϑ sachant les observations.

Interprétation (« bayésienne subjective »)

◮ loi a priori → connaissance de θ avant acquisition des données
◮ loi a posteriori → . . . après acquisition des données
11/37
Lois jointe, a priori et a posteriori
Rappel : on introduit une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Interprétation (« bayésienne subjective »)

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Interprétation (« bayésienne subjective »)

◮ loi a priori → connaissance de θ avant acquisition des données
◮ loi a posteriori → . . . après acquisition des données
11/37
A propos. . . qu’est-ce que la loi conditionnelle Pϑ|X ?
Définition générale : hors programme !
(⇒ utilise la notion de noyau)

Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,

pour une certaine mesure νΘ sur (Θ, FΘ ).

On définira Pϑ|X =x comme la mesure admettant la densité

f ϑ,X (θ, x)
f ϑ|X (θ | x) =
f X (x)

par rapport à νΘ , pour tout x tel que f X (x) > 0.

On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,

Z
p.s.
E (ϕ(ϑ, X ) | X ) = ϕ(θ, X ) f ϑ|X (θ | X ) νΘ (dθ).
Θ
12/37
A propos. . . qu’est-ce que la loi conditionnelle Pϑ|X ?
Définition générale : hors programme !
(⇒ utilise la notion de noyau)

Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,

pour une certaine mesure νΘ sur (Θ, FΘ ).

On définira Pϑ|X =x comme la mesure admettant la densité

f ϑ,X (θ, x)
f ϑ|X (θ | x) =
f X (x)

par rapport à νΘ , pour tout x tel que f X (x) > 0.

On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,

Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,

pour une certaine mesure νΘ sur (Θ, FΘ ).

On définira Pϑ|X =x comme la mesure admettant la densité

f ϑ,X (θ, x)
f ϑ|X (θ | x) =
f X (x)

par rapport à νΘ , pour tout x tel que f X (x) > 0.

On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,

Z
p.s.
E (ϕ(ϑ, X ) | X ) = ϕ(θ, X ) f ϑ|X (θ | X ) νΘ (dθ).
Θ
12/37
Densité jointe et densités marginales
On supposera à partir de maintenant† que π admet une densité
◮ par rapport à une mesure νΘ sur (Θ, FΘ ), par ex. Lebesgue,
◮ on notera (abusivement) : π(dθ) = π(θ) dθ.

Proposition
La loi jointe admet la densité jointe

f (X ,ϑ) (x, θ) = fθ (x) π(θ),

et les densité marginales associées sont

f ϑ (θ) = π(θ),
Z
X
f (x) = fθ (x) π(θ) dθ.

†
: Ce n’est pas vraiment une hypothèse, on peut toujours prendre νΘ = π (avec la ddp égale à 1).
13/37
Densité jointe et densités marginales
On supposera à partir de maintenant† que π admet une densité
◮ par rapport à une mesure νΘ sur (Θ, FΘ ), par ex. Lebesgue,
◮ on notera (abusivement) : π(dθ) = π(θ) dθ.

Proposition
La loi jointe admet la densité jointe

f (X ,ϑ) (x, θ) = fθ (x) π(θ),

et les densité marginales associées sont

f ϑ (θ) = π(θ),
Z
X
f (x) = fθ (x) π(θ) dθ.

†
: Ce n’est pas vraiment une hypothèse, on peut toujours prendre νΘ = π (avec la ddp égale à 1).
13/37
Démonstration

Densité jointe (démonstration informelle) :

P(X ,ϑ) (dx, dθ) = fθ (x) ν(dx) π(θ) dθ

= fθ (x) π(θ) ν(dx) dθ
| {z }
ddp jointe

Densités marginales → il suffit d’intégrer :

Z
f ϑ (θ) = fθ (x) π(θ) ν(dx) = π(θ),
Z
f X (x) = fθ (x) π(θ) dθ.

14/37
Démonstration

Densité jointe (démonstration informelle) :

P(X ,ϑ) (dx, dθ) = fθ (x) ν(dx) π(θ) dθ

= fθ (x) π(θ) ν(dx) dθ
| {z }
ddp jointe

Densités marginales → il suffit d’intégrer :

Z
f ϑ (θ) = fθ (x) π(θ) ν(dx) = π(θ),
Z
f X (x) = fθ (x) π(θ) dθ.

14/37
Vraisemblance et formule de Bayes
Rappel de la densité conditionnelle :

f (Y ,Z ) (y , z)
f Y |Z (y | z) = , ∀z t.q. f Z (z) 6= 0. (⋆)
f Z (z)

Proposition
i) La loi conditionnelle de X sachant ϑ admet la ddp

f X |ϑ (x | θ) = fθ (x) (« vraisemblance »).

ii) La loi a posteriori (ϑ sachant X ) admet la densité :

fθ (x) π(θ)
f ϑ|X (θ | x) = (formule de Bayes).
f X (x)

Démonstration. Il suffit d’appliquer (⋆) à la densité jointe.

15/37
Vraisemblance et formule de Bayes
Rappel de la densité conditionnelle :

f (Y ,Z ) (y , z)
f Y |Z (y | z) = , ∀z t.q. f Z (z) 6= 0. (⋆)
f Z (z)

Proposition
i) La loi conditionnelle de X sachant ϑ admet la ddp

f X |ϑ (x | θ) = fθ (x) (« vraisemblance »).

ii) La loi a posteriori (ϑ sachant X ) admet la densité :

fθ (x) π(θ)
f ϑ|X (θ | x) = (formule de Bayes).
f X (x)

Démonstration. Il suffit d’appliquer (⋆) à la densité jointe.

15/37
Remarque : proportionnalité
1
Le terme f X (x)
joue le rôle d’une constante de normalisation :

fθ (x) π(θ)
f ϑ|X (θ | x) = .
f X (x)

Notation. Le symbole « ∝ » indique la proportionnalité. Ainsi,

f ϑ|X (θ | x) ∝ fθ (x) π(θ),

soit encore, de façon informelle,

ddp a posteriori ∝ vraisemblance × ddp a priori.

La « constante » f X (x) est souvent difficile à calculer, mais dans certaines situations (estimateur MAP,
méthodes numériques MCMC. . . ) on peut s’en affranchir.

16/37
Remarque : proportionnalité
1
Le terme f X (x)
joue le rôle d’une constante de normalisation :

fθ (x) π(θ)
f ϑ|X (θ | x) = .
f X (x)

Notation. Le symbole « ∝ » indique la proportionnalité. Ainsi,

f ϑ|X (θ | x) ∝ fθ (x) π(θ),

soit encore, de façon informelle,

ddp a posteriori ∝ vraisemblance × ddp a priori.

La « constante » f X (x) est souvent difficile à calculer, mais dans certaines situations (estimateur MAP,
méthodes numériques MCMC. . . ) on peut s’en affranchir.

16/37
Exemple : boules blanches / boules rouges (suite)

B iid
Rappel : on veut estimer θ = R+B à partir de X1 , . . . , Xn ∼ Ber(θ).

Densité des observations :

fθ (x) = Πni=1 θxi (1 − θ)1−xi = θN(x) (1 − θ)n−N(x) .

Pn
avec N(x) = i=1 xi .

On se donne un a priori β(a0 , b0 ) :

π(θ) ∝ θa0 −1 (1 − θ)b0 −1 .

(La question du choix de l’a priori sera discutée plus loin.)

17/37
Exemple : boules blanches / boules rouges (suite)

B iid
Rappel : on veut estimer θ = R+B à partir de X1 , . . . , Xn ∼ Ber(θ).

Densité des observations :

fθ (x) = Πni=1 θxi (1 − θ)1−xi = θN(x) (1 − θ)n−N(x) .

Pn
avec N(x) = i=1 xi .

On se donne un a priori β(a0 , b0 ) :

π(θ) ∝ θa0 −1 (1 − θ)b0 −1 .

(La question du choix de l’a priori sera discutée plus loin.)

17/37
Exemple : boules blanches / boules rouges (suite)

Alors on a :

f ϑ|X (θ | x) ∝ fθ (x) π(θ)

∝ θN(x) (1 − θ)n−N(x) · θa0 −1 (1 − θ)b0 −1
= θa0 +N(x)−1 (1 − θ)b0 +n−N(x)−1 .

On reconnaît (à une cst près) la densité de la loi β(an , bn ), avec

(
an = a0 + N,
bn = b0 + n − N.

Conclusion. Loi a posteriori : ϑ | X ∼ β(an , bn ).

18/37
Exemple : boules blanches / boules rouges (suite)

Alors on a :

f ϑ|X (θ | x) ∝ fθ (x) π(θ)

∝ θN(x) (1 − θ)n−N(x) · θa0 −1 (1 − θ)b0 −1
= θa0 +N(x)−1 (1 − θ)b0 +n−N(x)−1 .

On reconnaît (à une cst près) la densité de la loi β(an , bn ), avec

(
an = a0 + N,
bn = b0 + n − N.

Conclusion. Loi a posteriori : ϑ | X ∼ β(an , bn ).

18/37
Exemple : boules blanches / boules rouges (suite)
a priori U[0,1] , n = 5 a priori β(1, 6), n = 5
2.5 6
ddp a priori
2 ddp a posteriori
replacements1.5 4

1
2
0.5

0 0
0 θ x̄ 1 0 θ x̄ 1

a priori U[0,1] , n = 20 a priori β(1, 6), n = 20

4 6

3
4

2
1

0 0
0 θ x̄ 1 0 θ x̄ 1

θ(1−θ)
Remarque : pour n → ∞, on a E(ϑ | X n ) = X̄n + O( 1n ) avec var(ϑ | X n ) ≃ n
.
19/37
Exemple : fiabilité composant
iid
Rappel : X1 , . . . , Xn ∼ E(θ) = E( η1 ), d’où la vraisemblance :

n
Y 1 1
L(η, x n ) = f (x n | η) = exp − xi
η η
i=1
n
!
−n 1X
= η exp − xi .
η
i=1

(Ici on choisit de tout paramétrer directement en η.)

On choisit (voir plus loin) un a priori N (η0 , σ02 ) tronqué pour η :

(η − η0 )2
π(η) ∝ exp − 1η≥0 .
2σ02

20/37
Exemple : fiabilité composant
iid
Rappel : X1 , . . . , Xn ∼ E(θ) = E( η1 ), d’où la vraisemblance :

n
Y 1 1
L(η, x n ) = f (x n | η) = exp − xi
η η
i=1
n
!
−n 1X
= η exp − xi .
η
i=1

(Ici on choisit de tout paramétrer directement en η.)

On choisit (voir plus loin) un a priori N (η0 , σ02 ) tronqué pour η :

(η − η0 )2
π(η) ∝ exp − 1η≥0 .
2σ02

20/37
Exemple : fiabilité composant (suite)
Loi a posteriori de η. Par la formule de Bayes, on obtient :
n
!
−n 1X (η − η0 )2
p(η | x n ) ∝ η exp − xi · exp − .
η 2σ02
| {z i=1 } | {z }
vraisemblance ddp a priori

△
! Cette fois-ci on ne reconnaît pas une densité « connue »
➠ évaluation numérique des intégrales
Z Pn (η−η0 )2
− η1 −
f (x n ) = η −n
e i=1 xi e 2σ 2
0 dη
Z Pn (η−η0 )2
1 −n − η1 i=1 xi
− 2
2σ0
E (η | X n = x n ) = η ·η e e dη
f (x n )

21/37
Exemple : fiabilité composant (suite)
Loi a posteriori de η. Par la formule de Bayes, on obtient :
n
!
−n 1X (η − η0 )2
p(η | x n ) ∝ η exp − xi · exp − .
η 2σ02
| {z i=1 } | {z }
vraisemblance ddp a priori

21/37
Exemple : fiabilité composant (suite)
Application numérique. η0 = 14.0, σ0 = 1.0 et valeur vraie : η∗ = 11.4.

4
π(η)
3.5
p(η | x 10 )
3 p(η | x 100 )
p(η | x 1000 )
2.5
p(η | x 10000 )
2

1.5

0.5

0
10 *
=11.4 0
=14.0 17

Figure – Densité a priori de η et densités a posteriori pour 4 valeurs de n.

22/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Plusieurs approches

Deux types de sources d’information a priori :

◮ données « historiques »,
◮ experts : connaissances subjectives, expertise métier, etc.

Sujets plus avancés (pas traités dans ce cours) :

◮ fusions de plusieurs sources d’information a priori,
◮ loi a priori « peu informatives » ou « objectives »,
◮ loi a priori la plus défavorable (cf. minimax),
◮ ...

23/37
Exemple : boules blanches / boules rouges (suite)

On dispose de données issues d’une première expérience :

◮ échantillon de n0 = 20 observations,
◮ N0 = 15 boules blanches tirées.

Choix d’un a priori

On peut décider, par exemple, de choisir une loi β(a0 , b0 ),
avec a0 = N0 = 15 et b0 = n0 − N0 = 5.

Arguments en faveur de ce choix :

◮ la forme de la loi facilite les calculs (voir plus loin) ;
◮ espérance : a0 N0
a0 +b0 = p0 , avec p0 = n0 ;
a 0 b0 p0 (1−p0 )
◮ variance : (a0 +b0 )2 (a0 +b0 +1) ≈ n0 ➠ variance de X̄n0 .

24/37
Exemple : boules blanches / boules rouges (suite)

On dispose de données issues d’une première expérience :

◮ échantillon de n0 = 20 observations,
◮ N0 = 15 boules blanches tirées.

Choix d’un a priori

On peut décider, par exemple, de choisir une loi β(a0 , b0 ),
avec a0 = N0 = 15 et b0 = n0 − N0 = 5.

Arguments en faveur de ce choix :

24/37
Exemple : boules blanches / boules rouges (suite)
4.5

3.5

2.5

1.5

0.5

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
θ
25/37
Exemple : fiabilité composant
On dispose des informations suivantes :
◮ Le constructeur indique que la durée de vie des composantes
est de l’ordre de η0 = 6 mois.
◮ Un expert du domaine estime à ε0 = 10% la précision de
l’information fournie par le constructeur.

Choix d’un a priori (élicitation)

On peut décider, par exemple, de choisir une loi N (η0 , σ0 ),
tronquée à [0, +∞[, avec σ0 = ε0 η0 /1.96.

Arguments en faveur de ce choix :

◮ L’a priori est (approx.) centré sur la valeur constructeur η0 .
◮ ≈ 95% de la proba a priori est portée par l’intervalle [0.9η0 , 1.1η0 ].
◮ La forme choisie (gaussienne) et la valeur 95% sont arbitraires.
26/37
Exemple : fiabilité composant
On dispose des informations suivantes :
◮ Le constructeur indique que la durée de vie des composantes
est de l’ordre de η0 = 6 mois.
◮ Un expert du domaine estime à ε0 = 10% la précision de
l’information fournie par le constructeur.

Choix d’un a priori (élicitation)

On peut décider, par exemple, de choisir une loi N (η0 , σ0 ),
tronquée à [0, +∞[, avec σ0 = ε0 η0 /1.96.

Arguments en faveur de ce choix :

Familles de lois a priori conjuguées

Une famille de lois (densités) est dite conjuguée pour un certain
modèle statistique si, pour toute loi a priori π dans cette famille, la
loi a posteriori f ϑ|X est encore dedans.

Exemples.
◮ échantillon Ber(θ) + a priori β,
◮ échantillon N (µ, σ 2 ) avec σ 2 connu + a priori N sur µ,
◮ échantillon N (µ, σ 2 ) avec µ connu + a priori IG † sur σ 2 ,
◮ échantillon E(θ) + a priori gamma,
◮ ...

†
: inverse gamma. Z ∼ IG si 1/Z suit une loi gamma.
27/37
A priori conjugués ➠ facilitent les calculs !

Familles de lois a priori conjuguées

Une famille de lois (densités) est dite conjuguée pour un certain
modèle statistique si, pour toute loi a priori π dans cette famille, la
loi a posteriori f ϑ|X est encore dedans.

†
: inverse gamma. Z ∼ IG si 1/Z suit une loi gamma.
27/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Estimateurs bayésiens

Objectif
Construire des estimateurs de η = g (θ) prenant en compte
◮ les données x,
◮ et la loi a priori π.

28/37
Estimateurs bayésiens
On se donne une fonction de perte L : N × N → R.
◮ rappel : L(η, η̃) est la perte si l’on estime η̃ alors que la vraie valeur est η.

Définition : estimateur bayésien

Il minimise l’espérance a posteriori de la perte :

η̂ = arg minη̃∈N J(η̃, X )

avec

J(η̃, x) = E L g (ϑ), η̃ X = x
Z

= L g (θ), η̃ f ϑ|X (θ | x) dθ.
Θ

(☞ J est bien définie pour PX -presque tout x.)

Remarque : un tel estimateur minimise le risque bayésien Rπ .

29/37
Estimateurs bayésiens
On se donne une fonction de perte L : N × N → R.
◮ rappel : L(η, η̃) est la perte si l’on estime η̃ alors que la vraie valeur est η.

Définition : estimateur bayésien

Il minimise l’espérance a posteriori de la perte :

η̂ = arg minη̃∈N J(η̃, X )

avec

J(η̃, x) = E L g (ϑ), η̃ X = x
Z

= L g (θ), η̃ f ϑ|X (θ | x) dθ.
Θ

(☞ J est bien définie pour PX -presque tout x.)

Remarque : un tel estimateur minimise le risque bayésien Rπ .

29/37
Perte quadratique
Considérons le cas de la perte quadratique L(η, η̃) = kη − η̃k2 :
Z
J(η̃, x) = kg (θ) − η̃k2 f ϑ|X (θ | x) dθ.
Θ

Proposition
Dans ce cas, l’estimateur bayésien est
Z
η̂ = E (g (ϑ) | X ) = g (θ) f ϑ|X (θ | X ) dθ.
Θ

➠ η̂ est la moyenne a posteriori de ϑ.

Remarque : on peut aussi l’écrire

R R
g (θ) fθ (x) π(θ) dθ g (θ) fθ (x) π(θ) dθ
η̂(x) = Θ X
= ΘR
.
f (x) f (x) π(θ) dθ
Θ θ
30/37
Perte quadratique
Considérons le cas de la perte quadratique L(η, η̃) = kη − η̃k2 :
Z
J(η̃, x) = kg (θ) − η̃k2 f ϑ|X (θ | x) dθ.
Θ

Proposition
Dans ce cas, l’estimateur bayésien est
Z
η̂ = E (g (ϑ) | X ) = g (θ) f ϑ|X (θ | X ) dθ.
Θ

➠ η̂ est la moyenne a posteriori de ϑ.

Remarque : on peut aussi l’écrire

R R
g (θ) fθ (x) π(θ) dθ g (θ) fθ (x) π(θ) dθ
η̂(x) = Θ X
= ΘR
.
f (x) f (x) π(θ) dθ
Θ θ
30/37
Exemple : boules blanches / boules rouges (suite)

Avec un a priori ϑ ∼ β(a0 , b0 ), on a vu que :

ϑ|X ∼ β (N + a0 , n − N + b0 )
Pn
avec N = i=1 Xi .

a
L’espérance d’une loi β(a, b) étant a+b , il vient :

N + a0
θ̂ = E (ϑ | X ) = .
n + a0 + b 0

Remarque : on retrouve les expressions de θ̂a et θ̂b .

31/37
Exemple : boules blanches / boules rouges (suite)

Avec un a priori ϑ ∼ β(a0 , b0 ), on a vu que :

ϑ|X ∼ β (N + a0 , n − N + b0 )
Pn
avec N = i=1 Xi .

a
L’espérance d’une loi β(a, b) étant a+b , il vient :

N + a0
θ̂ = E (ϑ | X ) = .
n + a0 + b 0

Remarque : on retrouve les expressions de θ̂a et θ̂b .

31/37
Autre exemple : n-échantillon gaussien (σ 2 connu)
iid
On montre (cf. TD 4) que si X1 , . . . , Xn ∼ N (θ, σ02 )
◮ avec θ ∈ R (inconnu), σ0 > 0 (connu),
◮ et ϑ ∼ N (µθ , σθ2 ),
alors Pn
σθ2 i=1 Xi + σ02 µθ σθ2 σ02
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02

D’où l’estimateur bayésien (pour la perte quadratique) :

nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02

Interprétation.
◮ quand n → ∞, θ̂ ≈ X̄ (l’a priori n’a plus d’influence)
σ
◮ à n fini, quand 0 ≫ 1, θ̂ ≈ µθ (données presque inutiles).
σθ
32/37
Autre exemple : n-échantillon gaussien (σ 2 connu)
iid
On montre (cf. TD 4) que si X1 , . . . , Xn ∼ N (θ, σ02 )
◮ avec θ ∈ R (inconnu), σ0 > 0 (connu),
◮ et ϑ ∼ N (µθ , σθ2 ),
alors Pn
σθ2 i=1 Xi + σ02 µθ σθ2 σ02
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02

D’où l’estimateur bayésien (pour la perte quadratique) :

nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02

D’où l’estimateur bayésien (pour la perte quadratique) :

nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02

Interprétation.
◮ quand n → ∞, θ̂ ≈ X̄ (l’a priori n’a plus d’influence)
σ
◮ à n fini, quand 0 ≫ 1, θ̂ ≈ µθ (données presque inutiles).
σθ
32/37
Perte L1
Supposons pour simplifier que η = θ ∈ R.

Considérons la fonction de perte L(θ, θ̃) = θ − θ̃ :
Z

J(θ̃, x) = θ − θ̃ f ϑ|X (θ | x) dθ.
Θ

Proposition
Dans ce cas, l’estimateur bayésien θ̂ est tel que
Z θ̂ Z ∞
ϑ|X 1
f (θ | X ) dθ = f ϑ|X (θ | X ) dθ = PX -p.s..
−∞ θ̂ 2

➠ θ̂ est une médiane de la densité a posteriori de ϑ.

Remarque : lorsque ϑ a une densité a posteriori symétrique, les deux

estimateurs bayésiens (perte L1 et perte L2 ) coïncident.
Exemple : moyenne d’un n-échantillon gaussien, avec a priori gaussien.
33/37
Perte L1
Supposons pour simplifier que η = θ ∈ R.

Considérons la fonction de perte L(θ, θ̃) = θ − θ̃ :
Z

J(θ̃, x) = θ − θ̃ f ϑ|X (θ | x) dθ.
Θ

Proposition
Dans ce cas, l’estimateur bayésien θ̂ est tel que
Z θ̂ Z ∞
ϑ|X 1
f (θ | X ) dθ = f ϑ|X (θ | X ) dθ = PX -p.s..
−∞ θ̂ 2

➠ θ̂ est une médiane de la densité a posteriori de ϑ.

Remarque : lorsque ϑ a une densité a posteriori symétrique, les deux

estimateurs bayésiens (perte L1 et perte L2 ) coïncident.
Exemple : moyenne d’un n-échantillon gaussien, avec a priori gaussien.
33/37
Exemple : boules blanches / boules rouges (suite)

Echantillon observé (n = 5) : x = (B, R, R, B, R).

A priori sur θ : ϑ ∼ β(1, 6), avec θ = P(X1 = B).

6
ddp a priori : β(1, 6)
5 ddp a posteriori : β(3, 9)
4
Application numérique
3 θ̂(L1 ) ≈ 0.2359
2 θ̂(L2 ) = 0.25

0
0 θ̂(L1 ) θ̂(L2 ) 1

34/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Exercice (loi exponentielle + a prior gamma)

iid
Soient X1 , . . . , Xn ∼ E(θ) avec θ ∈ Θ = ]0, +∞[.
On munit θ d’un a priori Gamma (α0 , β0 ).

Questions
i Montrer que l’a priori gamma est conjugué, et déterminer les
paramètres αn et βn de la loi a posteriori.
ii Expliciter l’estimateur bayésien de θ, pour la perte quadratique.
iii Montrer que cet estimateur tend vers l’EMV si les paramètres
α0 et β0 tendent vers une limite à préciser.

35/37
Corrigé de l’exercice 1
Remarque préliminaire : dans ce corrigé on s’autorise, comme c’est souvent le
cas en pratique, à noter de la même manière le paramètre « déterministe » θ et
la variable aléatoire associée, notée ϑ dans le cours.

i) On écrit la vraisemblance :
n
Y Pn
L (θ; x) = f (x | θ) = θe −θxi = θn e −θ i=1 xi ,
i=1

et la densité a priori :

β0α0 α0 −1 −β0 θ
π(θ) = θ e ∝ θα0 −1 e −β0 θ .
Γ(α0 )

On en déduit la densité a posteriori par la formule de Bayes :

Pn
f (θ | x) ∝ L (θ; x) π(θ) ∝ θα0 +n e −θ(β0 + i=1 xi )
36/37
Corrigé de l’exercice 1 (suite)

La loi de θ sachant X , ou loi a posteriori, est donc une loi gamma

de paramètres
◮ αn = α0 + n,
P
◮ βn = β0 + ni=1 Xi .

ii) L’estimateur bayésien pour la perte quadratique est donné

l’espérance a posteriori de θ sachant les observations :
αn α0 + n
E (θ | X ) = = P .
βn β0 + ni=1 Xi

iii) Cet estimateur tend vers l’EMV 1/X̄n lorsque les paramètres α0
et β0 tendent vers zéro.
37/37

Vous aimerez peut-être aussi

Notes de cours sur la statistique bayésienne
100% (2)
Notes de cours sur la statistique bayésienne
54 pages
Introduction à la Statistique Bayésienne
Pas encore d'évaluation
Introduction à la Statistique Bayésienne
63 pages
Cours Bayesien
Pas encore d'évaluation
Cours Bayesien
32 pages
Introduction à la Statistique Bayésienne
Pas encore d'évaluation
Introduction à la Statistique Bayésienne
81 pages
Statistique Bayésienne et MCMC
100% (1)
Statistique Bayésienne et MCMC
16 pages
Estimation et Risque en Statistique
Pas encore d'évaluation
Estimation et Risque en Statistique
104 pages
Cours Complet 2020 PDF
100% (1)
Cours Complet 2020 PDF
505 pages
Bayesstat
Pas encore d'évaluation
Bayesstat
16 pages
Statbayesiennes v4
Pas encore d'évaluation
Statbayesiennes v4
29 pages
Statistique Bayésienne Avancée
Pas encore d'évaluation
Statistique Bayésienne Avancée
40 pages
Estimation Bayésienne et Fonction de Perte Quadratique
100% (1)
Estimation Bayésienne et Fonction de Perte Quadratique
10 pages
Statistique Bayésienne pour Masters
Pas encore d'évaluation
Statistique Bayésienne pour Masters
45 pages
Chapitre1 Lapproche Bayesienne
Pas encore d'évaluation
Chapitre1 Lapproche Bayesienne
6 pages
Mat Sta 04-21
Pas encore d'évaluation
Mat Sta 04-21
47 pages
Memoire Bouhali Keltoum
Pas encore d'évaluation
Memoire Bouhali Keltoum
69 pages
Introduction à la Statistique Inférentielle
Pas encore d'évaluation
Introduction à la Statistique Inférentielle
26 pages
Correction 9
Pas encore d'évaluation
Correction 9
9 pages
Bayesdec Beamer2x2
Pas encore d'évaluation
Bayesdec Beamer2x2
8 pages
Introduction aux Statistiques Bayésiennes
Pas encore d'évaluation
Introduction aux Statistiques Bayésiennes
19 pages
Cours
Pas encore d'évaluation
Cours
26 pages
Resume Stat
Pas encore d'évaluation
Resume Stat
67 pages
Ensta Sta201 2024
Pas encore d'évaluation
Ensta Sta201 2024
109 pages
MemoireJean Philippe (Turcotte)
Pas encore d'évaluation
MemoireJean Philippe (Turcotte)
110 pages
Introduction à la statistique et modèles
Pas encore d'évaluation
Introduction à la statistique et modèles
63 pages
Faculté Des Sciences Département de Mathématiques
Pas encore d'évaluation
Faculté Des Sciences Département de Mathématiques
56 pages
θ > X f x θ θ x x x ,: Université de Pau et des Pays de l'Adour Semestre printemps 2023-2024
Pas encore d'évaluation
θ > X f x θ θ x x x ,: Université de Pau et des Pays de l'Adour Semestre printemps 2023-2024
5 pages
Exercices sur le classifieur bayesien naïf
Pas encore d'évaluation
Exercices sur le classifieur bayesien naïf
8 pages
Ouvrir Bayes 10 8
Pas encore d'évaluation
Ouvrir Bayes 10 8
24 pages
Plan
Pas encore d'évaluation
Plan
2 pages
Estimation para Met Rique
Pas encore d'évaluation
Estimation para Met Rique
13 pages
Statistique Mathématique et Modélisation
Pas encore d'évaluation
Statistique Mathématique et Modélisation
56 pages
Estimation Bayésienne de Paramètres
Pas encore d'évaluation
Estimation Bayésienne de Paramètres
7 pages
Statistique Deux Removed
Pas encore d'évaluation
Statistique Deux Removed
91 pages
Anne Philippe Stat Bayes 2017
Pas encore d'évaluation
Anne Philippe Stat Bayes 2017
41 pages
Bon Cour
Pas encore d'évaluation
Bon Cour
51 pages
Introduction aux Statistiques Bayésiennes
Pas encore d'évaluation
Introduction aux Statistiques Bayésiennes
19 pages
TD3 Stat Inf
Pas encore d'évaluation
TD3 Stat Inf
4 pages
Statistiques Inférentielles: Introduction
Pas encore d'évaluation
Statistiques Inférentielles: Introduction
9 pages
Statistique Inductif
Pas encore d'évaluation
Statistique Inductif
8 pages
14-Estimation Part
Pas encore d'évaluation
14-Estimation Part
13 pages
Chapitre 3 Estimation 1-60
Pas encore d'évaluation
Chapitre 3 Estimation 1-60
80 pages
MR 081
Pas encore d'évaluation
MR 081
25 pages
Estimation Ponctuelle et Échantillonnage
Pas encore d'évaluation
Estimation Ponctuelle et Échantillonnage
16 pages
Série N°2
Pas encore d'évaluation
Série N°2
4 pages
Inégalités et Estimation en Probabilités
100% (1)
Inégalités et Estimation en Probabilités
4 pages
Stat Proba 2
Pas encore d'évaluation
Stat Proba 2
20 pages
TEI Chap2 Estimation Ponctuelle 22 23 Cours
Pas encore d'évaluation
TEI Chap2 Estimation Ponctuelle 22 23 Cours
16 pages
Introduction à la modélisation bayésienne
Pas encore d'évaluation
Introduction à la modélisation bayésienne
19 pages
Chap Stat 1
Pas encore d'évaluation
Chap Stat 1
49 pages
Classe D'estimateurs Dominant L'estimateur Standard de La Moyenne - Cas Gaussien
Pas encore d'évaluation
Classe D'estimateurs Dominant L'estimateur Standard de La Moyenne - Cas Gaussien
10 pages
TD 7: Méthodes de Classification
100% (1)
TD 7: Méthodes de Classification
5 pages
Introduction à la statistique et échantillonnage
Pas encore d'évaluation
Introduction à la statistique et échantillonnage
38 pages
Exo Bayes
Pas encore d'évaluation
Exo Bayes
10 pages
Cours 02
Pas encore d'évaluation
Cours 02
68 pages
TD 9
100% (1)
TD 9
2 pages
Exercices de Statistique Avancée
Pas encore d'évaluation
Exercices de Statistique Avancée
11 pages
Estimation
Pas encore d'évaluation
Estimation
8 pages
Estimation
Pas encore d'évaluation
Estimation
6 pages
TD Proba3 LimeLise 22-23
Pas encore d'évaluation
TD Proba3 LimeLise 22-23
6 pages
Probabilité en Poche
Pas encore d'évaluation
Probabilité en Poche
4 pages
Concours CPGE Marrakech 2023/2024
Pas encore d'évaluation
Concours CPGE Marrakech 2023/2024
1 page
Série5 Probabilités Et Statistiques
Pas encore d'évaluation
Série5 Probabilités Et Statistiques
1 page
Exercices de Probabilités et Statistiques
100% (1)
Exercices de Probabilités et Statistiques
3 pages
Ahmed Hamimes Rachid Benamirouche: Auteur Correspondant
Pas encore d'évaluation
Ahmed Hamimes Rachid Benamirouche: Auteur Correspondant
16 pages
Estimation de la loi de Khi-deux
Pas encore d'évaluation
Estimation de la loi de Khi-deux
9 pages
Solu Non Param
Pas encore d'évaluation
Solu Non Param
9 pages
Examens Corrigsde Probabilits SMAS3
Pas encore d'évaluation
Examens Corrigsde Probabilits SMAS3
52 pages
Probabilites Et Simulation Aleatoire
Pas encore d'évaluation
Probabilites Et Simulation Aleatoire
173 pages
Modele de Merton 1976
Pas encore d'évaluation
Modele de Merton 1976
5 pages
Cours Probabilités MR - abbaSSI
Pas encore d'évaluation
Cours Probabilités MR - abbaSSI
22 pages
Notes Sur Le Calcul de La Rentabilité Espéré
Pas encore d'évaluation
Notes Sur Le Calcul de La Rentabilité Espéré
2 pages
Changement de variable en intégration
Pas encore d'évaluation
Changement de variable en intégration
3 pages
TP Statistiques
Pas encore d'évaluation
TP Statistiques
5 pages
Chap5-Elements de Geostat Mines 2012
Pas encore d'évaluation
Chap5-Elements de Geostat Mines 2012
70 pages
Poly Cours Series Temp m1 Im PDF
Pas encore d'évaluation
Poly Cours Series Temp m1 Im PDF
95 pages
Théorème de Moivre-Laplace détaillé
Pas encore d'évaluation
Théorème de Moivre-Laplace détaillé
12 pages
TD Tle D Math 13 SPT2023 - 1
Pas encore d'évaluation
TD Tle D Math 13 SPT2023 - 1
5 pages
Le Coefficient de Variation - Google Search
Pas encore d'évaluation
Le Coefficient de Variation - Google Search
1 page
Examen Maths Blanc 2 Bac
Pas encore d'évaluation
Examen Maths Blanc 2 Bac
3 pages
Exercices de Probabilités en ECO-GESTION
Pas encore d'évaluation
Exercices de Probabilités en ECO-GESTION
2 pages
L2 Stats Correction TD1 2023-24
Pas encore d'évaluation
L2 Stats Correction TD1 2023-24
8 pages
Expose Proba Final
Pas encore d'évaluation
Expose Proba Final
23 pages
M2 - Yves AHOULE - Incertitudes - Loi de Distribution
Pas encore d'évaluation
M2 - Yves AHOULE - Incertitudes - Loi de Distribution
14 pages
Mémoire Fin D'etudes
Pas encore d'évaluation
Mémoire Fin D'etudes
84 pages
Cours2 Probabilite
Pas encore d'évaluation
Cours2 Probabilite
15 pages
Rapport TP Simulation
Pas encore d'évaluation
Rapport TP Simulation
14 pages
TD 06 07
Pas encore d'évaluation
TD 06 07
11 pages
TD Probabilite Tle C, D, E, F
Pas encore d'évaluation
TD Probabilite Tle C, D, E, F
10 pages
Lois Usuelles de Probabilité
Pas encore d'évaluation
Lois Usuelles de Probabilité
18 pages