Anne Philippe Stat Bayes 2017
Anne Philippe Stat Bayes 2017
net/publication/323996031
CITATIONS READS
0 1,944
1 author:
Anne Philippe
University of Nantes
152 PUBLICATIONS 1,891 CITATIONS
SEE PROFILE
All content following this page was uploaded by Anne Philippe on 25 March 2018.
Classification Classification
bayésienne bayésienne
[email protected] Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Motivations to Computational Implementation (2001) Facteur de Bayes FB et choix de la loi a priori Facteur de Bayes
Springer-Verlag, New York FB et choix de la loi a priori
FB et Test FB et choix de la loi a priori
FB et Test FB et Test
5. C.P. Robert et G. Casella Monte Carlo Statistical Methods Classification Classification bayésienne Classification
bayésienne bayésienne
(1999) Springer-Verlag, New York. Modèle de mélange
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters Nombre de clusters
Modèle Bayésien Statistique Statistique
Inférence Bayésienne Approche bayésienne Bayésienne
I
Modèle hierarchique Modèle hierarchique
Modèles Hiérarchiques Approche non informative On interprète la loi des observations f✓ comme la loi Approche non informative
Paramètres multi-variés et données historiques. Modèles conditionnelle des observations sachant ✓ Modèles
E↵et individuel Hiérarchiques Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
Statistique Statistique
Inférence Bayésienne Bayésienne Les lois qui interviennent ... Bayésienne
Inférence Inférence
I la loi jointe de (✓, x),
loi a priori Observations
Estimateurs de Bayes
Régions de crédibilité
Estimateurs de Bayes
Régions de crédibilité
Classification Classification
appelée loi a posteriori bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
évolution séquentielle de la loi a posteriori Bayésienne Modèle binomial : Pièces conformes Bayésienne
Modèles Modèles
Mise à jour : on observe xn+1 Hiérarchiques I La loi a priori : la loi uniforme ⇡(p) = I[0,1] (p) Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
données historiques.
I Observation X : X ⇠ B(n, p) : données historiques.
E↵et individuel E↵et individuel
Statistique Statistique
a ab
Loi Beta x ⇠ Be(a, b), E(x) = a+b et Var(x) = (a+b)2 (a+b+1)
Bayésienne Bayésienne
0 5 10 15
Inférence Inférence
deta dist
deta dist
deta dist
deta dist
Estimateurs de Bayes
Régions de crédibilité
la moyenne de p vaut 12 Estimateurs de Bayes
Régions de crédibilité
0.0 0.8 0.0 0.8 0.0 0.8 0.0 0.8
1 1 1 1
Prévision des futures
observations 2. On observe x le nombre de pièces défectueuses Prévision des futures
observations
0.5 1 3 15
Lois a priori Lois a priori
0.6 0.8 1.0 1.2 1.4
5 10 15
1 2 3 4 5
deta dist
deta dist
deta dist
0 1 2 3 4 5
0 2 4 6 8
deta dist
deta dist
deta dist
x +1 1 n x
0.0 0.8 0.0 0.8 0.0 0.8 0.0 0.8
Choix de modèles
et BMA
E(p|x) = = + Choix de modèles
et BMA
Sélection de modèle
n+2 2 2(n + 1) n + 2 Sélection de modèle
15 15 15 15
0.5 1 3 15
Bayesian Model Averaging Bayesian Model Averaging
5 10 15
0 1 2 3 4 5
0 1 2 3 4
0 5 10 15
deta dist
deta dist
deta dist
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
la loi a priori uniforme suite des lois a posteriori quand le nb Bayésienne Modification de la loi a priori Bayésienne
Inférence Inférence
On envisage deux situations : une loi a priori sur p
1.4
0 2 4 6 8 10 12
8
Estimateurs de Bayes Estimateurs de Bayes
1.2
6
Régions de crédibilité Régions de crédibilité
(p + 1)/(p + 1)
4
observations observations
0.8
2
Lois a priori I favorisant p > 1/2 Lois a priori
0.6
0
0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.4 0.8
Approche subjective Approche subjective
p
300 400
p
500
p
Modèle hierarchique On suppose que p suit a priori une loi beta Modèle hierarchique
Approche non informative Approche non informative
15
15
Hiérarchiques Hiérarchiques
10
10
10
Paramètres multi-variés et
données historiques.
I loi a posteriori sur p ⇠ Be(a + x, b + n x) Paramètres multi-variés et
données historiques.
5
5
E↵et individuel E↵et individuel
Choix de (a, b) :
0
0
0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.4 0.8
Choix de modèles Choix de modèles
p p p
et BMA et BMA
600 700 800
Sélection de modèle I a << b favorise les valeurs de p < 1/2 Sélection de modèle
20
10 15 20
a >> b favorise les valeurs de p > 1/2
15
15
10
5
Classification Classification
0
p p p
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
loi a priori favorisant p < 1/2 ou p > 1/2 Bayésienne Comportement asymptotique de la loi a Bayésienne
a priori 5 10
Anne Philippe
posteriori Anne Philippe
0.0 0.5 1.0 1.5 2.0 2.5
Inférence Inférence
dbeta(p, 2, 5)
Modèles Modèles
et positive en ✓0 , k0 2 N . Soit U un voisinage de ✓0 .
2
Hiérarchiques Hiérarchiques
2
1
p
0.8 0.0 0.4
p
0.8 0.0 0.4
p
0.8
Choix de modèles
Z Choix de modèles
30 35 40 et BMA
⇡(✓|X1:n ) d✓ ! 1. et BMA
5
U
5
4
3
quand n ! +1,
3
2
FB et Test FB et Test
1
1
0
0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.4 0.8 Classification Classification
p p p bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Théorème de Bernstein-von Mises Bayésienne Loi a priori impropre Bayésienne
de vraisemblance et notons
Prévision des futures
observations ⇡(✓) d✓ = +1. Prévision des futures
observations
Classification Classification
vraie valeur du paramètre. bayésienne C’est bien une loi de probabilité bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Modèles Hiérarchiques
Modèle hierarchique
I sa constante de normalisation Modèle hierarchique
Approche non informative Approche non informative
I
FB et Test FB et Test
A partir de l’échantillon simulé, on estime observations Elle repose sur la notion de risque observations
✓1 , . . . , ✓ m Modèles
R(✓, ) = E✓ ((✓ 2
(x)) ) = (✓ 2
(x)) f (x|✓)dx Modèles
Hiérarchiques Hiérarchiques
I la fonction de répartition par le processus empirique Paramètres multi-variés et X Paramètres multi-variés et
données historiques. données historiques.
E↵et individuel I errreur absolue E↵et individuel
m Z
1 X Choix de modèles Choix de modèles
Fm (✓|x) = I] 1,✓] (✓i ) et BMA R(✓, ) = E✓ (|✓ (x)|) = |✓ (x)|f (x|✓)dx et BMA
m Sélection de modèle
X Sélection de modèle
i=1 Bayesian Model Averaging Bayesian Model Averaging
l’échantillon ⇡
r (⇡, ) = E [R(✓, )] =
FB et Test FB et Test
Classification
R(✓, )⇡(✓)d✓ Classification
bayésienne ⇥ bayésienne
Qm (↵|x) = Fm (↵|x) = inf{t : Fm (t|x) ↵} Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Construction de l’estimateur de Bayes Bayésienne Approximation des estimateurs par Monte Carlo Bayésienne
Inférence
✓1 , . . . , ✓m Inférence
étant donné : Estimateurs de Bayes Estimateurs de Bayes
Régions de crédibilité
Prévision des futures
I On approche E(h(✓)|x) par Régions de crédibilité
Prévision des futures
I la loi des observations x ⇠ f (x|✓), observations observations
m
X
I
Lois a priori 1 m!1 Lois a priori
la loi a priori ⇡ Approche subjective Im = h(✓i ) ! E(h(✓)|x) Approche subjective
Modèle hierarchique m Modèle hierarchique
⇡ i=1
On cherche l’estimateur qui minimise le risque bayésien Approche non informative
| {z } Approche non informative
Classification Classification
bayésienne Pour le risque absolu on approche l’estimateur par bayésienne
Modèle de mélange
Nombre de clusters
Qm (1/2|x) Modèle de mélange
Nombre de clusters
Statistique Statistique
Famille exponentielle Bayésienne Propriété asymptotique de l’estimateur de Bayes Bayésienne
La densité est de la forme : f (x|✓) = h(x) exp{✓ · x (✓)} Anne Philippe Anne Philippe
Cette famille de lois contient les lois gaussiennes, , Modèle Bayésien Modèle Bayésien
binomiales, Poisson.... Inférence Inférence
Choix d’une loi a priori Estimateurs de Bayes Théorème Estimateurs de Bayes
Régions de crédibilité Régions de crédibilité
✓.µ (✓)
Prévision des futures
observations Sous les hypothèses du théorème de Théorème de Prévision des futures
observations
⇡(✓|µ, ) = K (µ, ) e Lois a priori Bernstein-von Mises. Lois a priori
Approche subjective Approche subjective
A priori (µ, ) A posteriori (µ + x, + 1) Modèle hierarchique De plus on suppose que Modèle hierarchique
Approche non informative
Z Approche non informative
Modèles Modèles
On estime la moyenne de la loi E✓ (X1 ) = (✓) Hiérarchiques ✓⇡(✓) d✓ < 1 Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
1. a priori données historiques. ⇥ données historiques.
E↵et individuel E↵et individuel
2. a posteriori
et BMA
Sélection de modèle
n(E(✓|x1 , ..xn ) ✓bn ) ! 0 et BMA
Sélection de modèle
Bayesian Model Averaging Bayesian Model Averaging
P presque sûrement
µ + xi Facteur de Bayes Facteur de Bayes
E( (✓)|x1 , ...xn ) = FB et choix de la loi a priori FB et choix de la loi a priori
n+ FB et Test FB et Test
Classification Classification
3. quand n tend vers l’infini, E(⇠(✓)|x1 , ...xn ) est bayésienne
Modèle de mélange
bayésienne
Modèle de mélange
Statistique Statistique
Estimation d’un support de loi Bayésienne L’estimateur du maximum a posteriori (MAP) Bayésienne
On veut estimer ✓. Inférence S’il existe l’estimateur MAP est la valeur de ✓ qui maximise Inférence
Choix de modèles I Si la loi a priori est la loi uniforme (ou loi impropre I⇥ ) Choix de modèles
L’estimateur de Bayes n’est donc pas un estimateur et BMA et BMA
Sélection de modèle alors on retrouve l’EMV Sélection de modèle
consistant Bayesian Model Averaging Bayesian Model Averaging
I Pour un modèle régulier, si EMV est consistant alors le
I Si P✓ (X1 > ) > 0 alors l’estimateur de Bayes et Facteur de Bayes Facteur de Bayes
FB et choix de la loi a priori MAP est aussi consistant. FB et choix de la loi a priori
Z b(x)
Prévision des futures Prévision des futures
observations
1 ↵ observations
⇡(✓|x)
Modèles Modèles
bilatéraux symétriques de niveau 1 ↵. Ils sont de la forme Hiérarchiques
Paramètres multi-variés et
Hiérarchiques
Paramètres multi-variés et
h i données historiques.
E↵et individuel
données historiques.
E↵et individuel
où q↵⇡ (x) est le quantile d’ordre ↵ de la loi a posteriori. Bayesian Model Averaging Bayesian Model Averaging
⇡(✓|x) d✓ = ↵.
1
Classification
bayésienne
q ⇡↵ (x) q1⇡ ↵ (x) Classification
bayésienne
2 2
Modèle de mélange ✓ Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Optimisation des intervalles de crédibilité Bayésienne Approximation de Monte Carlo Bayésienne
⇥ ⇤
✓ 2 q (x) ;⇡
q1⇡ ↵+ (x)
Modèles
Hiérarchiques
empiriques de l’échantillon Qm ( ) pour tout 2 [0, ↵] Modèles
Hiérarchiques
Paramètres multi-variés et
données historiques. 2. on cherche la valeur de ⇤ qui minimise Paramètres multi-variés et
données historiques.
⇤ ⇤
Facteur de Bayes ✓ 2 [Qm ( ), Qm (1 ↵+ )] Facteur de Bayes
q1⇡ ↵+ (x) q ⇡ (x) FB et choix de la loi a priori FB et choix de la loi a priori
FB et Test FB et Test
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Région HPD 1
Statistique Statistique
Bayésienne Illustration Bayésienne
où k1⇡ ↵ (x) vérifie la relation Approche non informative Approche non informative
⇡(✓|x)
Modèles Modèles
Z Hiérarchiques Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
⇡(✓|x) d✓ = 1 ↵. données historiques. données historiques.
Classification Classification
bayésienne bayésienne
Modèle de mélange ✓ Modèle de mélange
Nombre de clusters Nombre de clusters
1. highest posterior density
Statistique Statistique
Approximation de Monte Carlo Bayésienne Couverture fréquentiste d’une région de Bayésienne
Anne Philippe
crédibilité Anne Philippe
Modèles Modèles
est l’estimateur de Monte Carlo de la densité. Hiérarchiques {x: T (x,✓)2I } Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
2. On calcule K le quantile empirique d’ordre ↵ de données historiques.
I La région de confiance {✓ : T (x, ✓) 2 I } données historiques.
E↵et individuel E↵et individuel
l’échantillon ⌘j , j = 1, ..., m. Choix de modèles Choix de modèles
et BMA et BMA
3. On prend comme région HPD, la région qui recouvre Sélection de modèle I Soit Rx une région de crédibilité bayésienne de niveau Sélection de modèle
La probabilité de couverture fréquentiste (n, ✓) Inférence I On suppose que les observations x1 , ..., xn sont iid Inférence
Estimateurs de Bayes Estimateurs de Bayes
di↵ère en général de 1 ↵ Régions de crédibilité suivant la loi de Poisson de paramètre ✓ Régions de crédibilité
Prévision des futures Prévision des futures
I
observations observations
On veut estimer le paramètre ✓
Lois a priori Lois a priori
Théorème Approche subjective Approche subjective
Modèle hierarchique Modèle hierarchique
Sous des hypothèses générales de régularité, on montre que Approche non informative
I On suppose que la loi a priori est la loi Gamma de Approche non informative
quand le nombre n d’observations tend vers +1. Facteur de Bayes I On teste plusieurs choix de a. La loi se concentre autour Facteur de Bayes
FB et choix de la loi a priori
FB et Test
de 1 quand a augmente FB et choix de la loi a priori
FB et Test
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Représentation de la loi a priori pour di↵érents Bayésienne Les régions de crédibilité [ q2.5% (x); q97.5% (x) ] Bayésienne
a=b= 0.01
Lois a priori Lois a priori
a=b= 0.1 Approche subjective a 0.010 0.100 1 10 100Approche subjective
a=b= 1 Modèle hierarchique
q2.5% (x) 1.021 1.021 1.018 0.998 0.945
Modèle hierarchique
4
a=b= 100 Modèles q97.5% (x) 1.657 1.656 1.646 1.567 1.281
Modèles
Hiérarchiques Hiérarchiques
q97.5% (x) q2.5% (x) 0.636 0.635 0.628 0.569 0.337
3
et BMA et BMA
Sélection de modèle
Bayesian Model Averaging
a 0.010 0.100 1 10 100Sélection de modèle
Bayesian Model Averaging
Classification Classification
bayésienne bayésienne
0.0 0.5 1.0 1.5 2.0 Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
f
Statistique Statistique
Les régions de crédibilité [ q2.5% (x); q97.5% (x) ] Bayésienne Evaluation des probabilités de couverture Bayésienne
Anne Philippe
fréquentiste Anne Philippe
q2.5% (x) 2.760 2.757 2.724 2.454 1.542 Modèles I on estime (n, ✓0 ) par la proportion d’intervalles qui Modèles
Hiérarchiques Hiérarchiques
q97.5% (x) 3.757 3.752 3.705 3.311 1.964 Paramètres multi-variés et
données historiques.
contiennent la valeur ✓0 Paramètres multi-variés et
données historiques.
q97.5% (x) 3.011 3.011 3.011 3.007 2.972 Facteur de Bayes n = 10 0.953 0.952 0.960 0.994 1.000 Facteur de Bayes
FB et choix de la loi a priori
FB et Test
n = 50 0.941 0.944 0.945 0.969 1.000 FB et choix de la loi a priori
FB et Test
Statistique Statistique
[suite] Bayésienne Modèle Gaussien Bayésienne
Modèle Bayésien
On dispose de n observations X1 , ..., Xn iid suivant une loi Modèle Bayésien
Inférence
gaussienne N (✓, 1). Inférence
Estimateurs de Bayes Estimateurs de Bayes
Régions de crédibilité I On choisit comme loi a priori sur ✓ la loi gaussienne Régions de crédibilité
Facteur de Bayes 1 + ⌧ /n n + ⌧ 1 + ⌧ /n
2 n + ⌧2 Facteur de Bayes
FB et choix de la loi a priori FB et choix de la loi a priori
FB et Test
où u↵ est le quantile d’ordre ↵ de la loi gaussienne FB et Test
Classification Classification
bayésienne standard. bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Modèle Gaussien (suite) Bayésienne Prédicteur ponctuel optimal Bayésienne
Inférence Inférence
I Couverture fréquentiste de la région HPD Estimateurs de Bayes
Le modèle : : Estimateurs de Bayes
Régions de crédibilité Régions de crédibilité
HPD
Prévision des futures
observations
I observations : (x1 , ..., xn ) ⇠ f (n) (x|✓) Prévision des futures
observations
P✓ (✓ 2 I (⌧, X̄n )) =
r ! r !Lois a priori I ⇡ : la loi a priori Lois a priori
Approche subjective Approche subjective
✓⌧ 2 n + ⌧2 ✓⌧ 2 n+ ⌧2 Modèle hierarchique
I la loi a posteriori Modèle hierarchique
F p + u1 ↵/2 F p u1 ↵/2 Approche non informative Approche non informative
n n n n Modèles Modèles
Hiérarchiques
Paramètres multi-variés et
⇡(✓|x1 , ..., xn ) / ⇡(✓)f (n) (x|✓) Hiérarchiques
Paramètres multi-variés et
où F est la fonction de répartition de la loi gaussienne données historiques. données historiques.
E↵et individuel E↵et individuel
standard. Choix de modèles
Objectif : : Choix de modèles
I Comportement asymptotique : et BMA
I On veut prévoir xn+1 à partir des observations passées et BMA
Sélection de modèle Sélection de modèle
I cette probabilité tend vers 1 ↵ quand n ! 1. Bayesian Model Averaging
(x1 , ..., xn ). Bayesian Model Averaging
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Prédicteur en loi Bayésienne Prédicteur ponctuel bayésien Bayésienne
Z Régions de crédibilité xn+1 à partir d’une fonction de (x1 , ..., xn ) est l’espérance Régions de crédibilité
Prévision des futures Prévision des futures
P(Xn+1 2 [an+1 , bn+1 ]|x1 , .., xn ) = 1 ↵ Bayesian Model Averaging = ⇡(✓|x1 , ..., xn ) xn+1 f (xn+1 |✓, x1 , ..., xn ) dxn+1 d✓ Bayesian Model Averaging
I Le meilleur prédicteur (au sens de l’erreur quadratique) Prévision des futures x̂n+1 (✓) = xn+1 f (xn+1 |✓, x1 , ..., xn ) dxn+1 Prévision des futures
observations observations
Z Modèles
f
x̂n+1 ˆ
(✓) Modèles
Hiérarchiques Hiérarchiques
= xn+1 f (xn+1 |✓, x1 , ..., xn ) dxn+1 Paramètres multi-variés et Paramètres multi-variés et
données historiques. données historiques.
E↵et individuel 3. Le prédicteur bayésien s’écrit E↵et individuel
I f
le prédicteur retenu est x̂n+1 ˆ
(✓). FB et Test FB et Test
Classification
par la densité a posteriori Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Approximation de Monte Carlo Bayésienne Un problème classique : la régression Bayésienne
xn+1 (i) ⇠ f (xn+1 |✓i , x1 , ..., xn ), pour tout i = 1, ..., m Modèles Modèles
Hiérarchiques Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
I ✓ = (a, b, 2)
2. On approche leP predicteur ponctuel par la moyenne de données historiques.
E↵et individuel
données historiques.
E↵et individuel
l’estimateur à noyau sur l’échantillon Bayesian Model Averaging Bayesian Model Averaging
La loi a priori est impropre mais la loi a posteriori est bien Estimateurs de Bayes
Régions de crédibilité
Voici le code R Estimateurs de Bayes
Régions de crédibilité
(Intercept) -0.7262 0.38441 0.0038441 0.0035905 Bayesian Model Averaging Bayesian Model Averaging
-0.7297 1.6024
log(speed) 1.6010 0.14294 0.0014294 0.0013524 Facteur de Bayes Facteur de Bayes
sigma2 0.1719 0.03700 0.0003700 0.0004516 FB et choix de la loi a priori
FB et Test
FB et choix de la loi a priori
FB et Test
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Modèles Modèles
Hiérarchiques E↵et individuel Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
20
données historiques.
E↵et individuel
Choix de modèles et BMA données historiques.
E↵et individuel
Choix de modèles
Sélection de modèle Choix de modèles
10
log(vitesse)
Facteur de Bayes FB et choix de la loi a priori Facteur de Bayes
FB et choix de la loi a priori
FB et Test
FB et Test FB et choix de la loi a priori
FB et Test
Inférence Inférence
Estimateurs de Bayes Estimateurs de Bayes
On dispose d’informations sur ✓ Régions de crédibilité Régions de crédibilité
Prévision des futures Prévision des futures
observations observations
Question Lois a priori On utilise de l’information provenant Lois a priori
I
Approche subjective Approche subjective
Comment traduire cette information en loi a priori ? Modèle hierarchique de la connaissance des experts Modèle hierarchique
Approche non informative Approche non informative
I d’autres études statistiques menées dans un contexte
Modèles Modèles
Question Hiérarchiques similaire. Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
I
données historiques. données historiques.
Comment traduire la qualité de cette information ? E↵et individuel de données historiques non utilisées dans l’étude. E↵et individuel
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Utilisation de plusieurs échantillons historiques Bayésienne Utilisation d’un historique long Bayésienne
Modèle Bayésien
On veut estimer ✓ à partir d’un petit échantillon x ⇠ f (x|✓) Modèle Bayésien
On dispose d’un long échantillon historique x H ⇠ f (x H |✓)
On veut estimer ✓ à partir d’un petit échantillon x 2 f (x|✓) Inférence Inférence
Estimateurs de Bayes On suppose que les deux échantillons ont la même loi Estimateurs de Bayes
I On suppose que ✓ˆ1 , ..., ✓ˆK sont iid suivant la loi a priori.
Approche non informative Approche non informative
✓ˆ1 , ..., ✓ˆK par un estimateur paramétrique (EMV..) Facteur de Bayes Facteur de Bayes
FB et choix de la loi a priori
I On prend une loi paramétrée dont le paramètre est fixé FB et choix de la loi a priori
FB et Test
à partir de x H . Par exemple la loi a priori est de FB et Test
Classification Classification
bayésienne moyenne l’estimation de ✓ à partir de l’échantillon x H . bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Hospital A : y = 1 and E= 66. Statistique
Estimating a Heart Transplant Mortality Rate Bayésienne
Standard estimate of mortality rate 1/66
Bayésienne
Density
Lois a priori Lois a priori
Approche subjective Approche subjective
0
Modèles Modèles
is the mortality rate per unit. Hiérarchiques 0.0005 0.0010 0.0015 0.0020 0.0025 Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
données historiques. lambdaA données historiques.
Prior distribution on : Gamma distribution E↵et individuel E↵et individuel
We fix the parameter from the observed data in 10 hospitals Choix de modèles HOSPITAL B Choix de modèles
P et BMA et BMA
I a= yi = 16 (number of deaths ) Sélection de modèle
prior
Sélection de modèle
500 1000
I b = ei = 15174 (number of patients)
Density
Facteur de Bayes Facteur de Bayes
FB et choix de la loi a priori FB et choix de la loi a priori
1
⇡( ) = ba e b a 1 E( ) = a/b Var( ) = a/b 2
FB et Test FB et Test
0
bayésienne bayésienne
0.0005 0.0010 0.0015 0.0020 0.0025
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
lambdaB
Statistique Statistique
Proportion of heavy sleepers Bayésienne Discrete prior Bayésienne
Probability
0.0
Paramètres multi-variés et prior Paramètres multi-variés et
données historiques. données historiques.
E↵et individuel E↵et individuel
L(p) = p s (1 p)f Choix de modèles
0.4
Choix de modèles
0.3
et BMA et BMA
I Choice of the prior for p from expert information : Sélection de modèle 0.2 Sélection de modèle
Bayesian Model Averaging Bayesian Model Averaging
0.1
Anne Philippe
Initial beliefs : Anne Philippe
The prior beliefs : the range of p is divided into intervals and Modèle Bayésien I the median is around 0.3 Modèle Bayésien
observations observations
with parameter
1.0
Lois a priori Lois a priori
0.25
0.8
Modèle hierarchique
a = 3.4 and b = 7.4. Modèle hierarchique
0.20
Posterior density
Approche non informative Approche non informative
Prior density
0.6
0.15
Modèles Modèles
Hiérarchiques Hiérarchiques
0.4
0.10
5
données historiques. données historiques.
0.2
0.05
4
Prior
Choix de modèles Likelihood Choix de modèles
0.00
0.0 Posterior
et BMA et BMA
3
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Sélection de modèle Sélection de modèle
Density
x x Bayesian Model Averaging Bayesian Model Averaging
2
Facteur de Bayes Facteur de Bayes
FB et choix de la loi a priori FB et choix de la loi a priori
PRIOR POSTERIOR
1
FB et Test FB et Test
Classification Classification
bayésienne bayésienne
0
Modèle de mélange 0.0 0.2 0.4 0.6 0.8 1.0 Modèle de mélange
Nombre de clusters p Nombre de clusters
Statistique Statistique
predictive distributions Bayésienne Comparison of predictive distributions Bayésienne
0.20
discrete distribution Estimateurs de Bayes
Régions de crédibilité
discrete Prior
beta Prior
Estimateurs de Bayes
Régions de crédibilité
I Goal : The distribution the number of heavy sleepers Y Prévision des futures
observations
Prévision des futures
observations
0.15
Approche subjective Approche subjective
I The observations : (s, f ) = (11, 16) Modèle hierarchique Modèle hierarchique
Approche non informative Approche non informative
pred1
The predictive distribution is of the form, for all
0.10
Modèles Modèles
Hiérarchiques Hiérarchiques
y = 0, . . . , m Paramètres multi-variés et
données historiques.
Paramètres multi-variés et
données historiques.
0.05
Z Choix de modèles Choix de modèles
et BMA et BMA
P(Y = y |(f , s)) = f (y |p)⇡(p|(f , s)) dp Sélection de modèle Sélection de modèle
0.00
Inférence Inférence
⇡ 2 {⇡ , 2 ⇤} Estimateurs de Bayes
Régions de crédibilité
F une famille de lois sur ⇥ Estimateurs de Bayes
Régions de crédibilité
Prévision des futures Prévision des futures
observations
Définition observations
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
modèle de Poisson Bayésienne modèle uniforme Bayésienne
I x = (x1 , ..., xn ) iid suivant la loi de Poisson Modèle Bayésien I Soit X1 , . . . , Xn des variables aléatoires iid suivant la loi Modèle Bayésien
P
Inférence uniforme sur [0, ✓]. Inférence
I On reconnait la densité d’une loi gamma Choix de modèles avec ↵ > 1 et >0 Choix de modèles
et BMA et BMA
Sélection de modèle Sélection de modèle
Bayesian Model Averaging
I évolution des paramètres : Bayesian Model Averaging
a priori a posteriori
P Facteur de Bayes a priori a posteriori Facteur de Bayes
a a + xi FB et choix de la loi a priori FB et choix de la loi a priori
FB et Test ↵ ↵+n FB et Test
b b+n Classification max( , X1 , . . . , Xn ) Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
modèle gaussien Bayésienne modèle gaussien ( suite ) Bayésienne
I x = (x1 , ..., xn ) iid suivant une loi gaussienne de Modèle hierarchique Modèle hierarchique
Approche non informative soit ( , ⌧, a, b) 2 R ⇥ R⇤3
+. La loi est définie par Approche non informative
2 2
1
2 Sn
1 Paramètres multi-variés et
données historiques. I la loi conditionnelle de ✓1 sachant ✓2 est la loi
Paramètres multi-variés et
données historiques.
⇡( |x) / ⇡( )e 2 n E↵et individuel E↵et individuel
Choix de modèles
gaussienne de moyenne et de variance ✓2 /⌧ Choix de modèles
2 suit une loi inverse gamma et BMA et BMA
Sélection de modèle
I la loi de ✓2 est la loi inverse Gamma de paramètres Sélection de modèle
Bayesian Model Averaging
(a, b). Bayesian Model Averaging
1 Classification Classification
f (x) = ba e b/x
x a 1
IR⇤+ (x) bayésienne bayésienne
(a) Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Mélange de loi Bayésienne Application du mélange d’avis d’experts Bayésienne
La loi ⇡j traduit l’information fournit par l’expert j et Inférence I info a priori : p est proche de .3 (expert 1) et p est Inférence
P E↵et individuel
beta qui favorise les
E↵et individuel
avec qi = 1, qi représente le poids du i ème expert c’est Choix de modèles Choix de modèles
à dire la confiance accordée à son avis. et BMA valeurs de p autour de .3 et BMA
Sélection de modèle Sélection de modèle
La loi a posteriori s’écrit comme un mélange des lois ⇡i (✓|x) Bayesian Model Averaging I g2 est la densité d’une loi Bayesian Model Averaging
Facteur de Bayes
beta qui favorise les Facteur de Bayes
K R FB et choix de la loi a priori FB et choix de la loi a priori
X qi
⇡i (✓)f (x|✓) d✓ FB et Test valeurs de p autour de .7 FB et Test
Inférence Inférence
Estimateurs de Bayes Estimateurs de Bayes
Modèles Modèles
Hiérarchiques Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
Prior Prior
4
4
Posterior E↵et individuel Posterior E↵et individuel
3
DENSITY
3
et BMA et BMA
Sélection de modèle Sélection de modèle
2
2
Bayesian Model Averaging Bayesian Model Averaging
1
FB et choix de la loi a priori FB et choix de la loi a priori
FB et Test FB et Test
0
0
0.0 0.2 0.4 0.6 0.8 1.0 Classification 0.0 0.2 0.4 0.6 0.8 1.0 Classification
bayésienne bayésienne
P Modèle de mélange
P Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Alternative : Structure hiérarchique Bayésienne Modèle hierarchique suite Bayésienne
Choix de modèles I Une loi a priori hiérarchique conduit à des estimateurs Choix de modèles
et BMA et BMA
Sélection de modèle plus robustes, au sens où l’inférence est moins sensible Sélection de modèle
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Exemple : Xi i = 1...n iid Xi ⇠ Pois(⌧ ) Bayésienne Calcul des lois a posteriori Bayésienne
⌧ ⇠ Exponential(a) ⌧ ⇠ Exponential(a)
1.0
Régions de crédibilité Régions de crédibilité
Modèle 1 E (⌧ ) = 1
expo
hierar
Prévision des futures Prévision des futures
0.8
a fixé (par ex a=1) a ⇠ Exponential(1) observations observations
Modèle 2 E (⌧ ) = 1 car
0.6
Lois a priori Lois a priori
prior
0.4
1
Approche subjective
⇡(⌧ ) = (1+⌧ )2
Approche subjective
0.2
Modèle hierarchique Modèle hierarchique
Approche non informative Approche non informative
a ⇠ expo(1)
0.0
0 2 4 6 8 10
Modèles Modèles
tau
Hiérarchiques Hiérarchiques
⌧ ⇠ expo(1) Paramètres multi-variés et A posteriori Paramètres multi-variés et
données historiques. données historiques.
E↵et individuel E↵et individuel
⌧ ⇠ expo(a) Modèle 1 La
Ploi a posteriori est la loi gamma de paramètres
Choix de modèles Choix de modèles
et BMA ( ni=1 Xi + 1, n + a) et BMA
X1 , ...Xn iid Pois(⌧ ) Sélection de modèle Sélection de modèle
Bayesian Model Averaging Modèle 2 On ne retrouve pas une loi classique Bayesian Model Averaging
Statistique Statistique
Lois non informatives Bayésienne Loi a priori de Laplace Bayésienne
Comment choisir la loi a priori lorsque l’on ne dispose pas Lois a priori
Approche subjective I une loi impropre.
Lois a priori
Approche subjective
2. maximisation d’un critère d’information (loi de Je↵reys) Choix de modèles I la loi n’est pas invariante par reparamétrisation Choix de modèles
et BMA et BMA
3. argument fréquentiste (loi de concordance) Sélection de modèle
Reparamétrisation : ⌘ = g (✓) avec (g une bijection) Sélection de modèle
Bayesian Model Averaging Bayesian Model Averaging
Classification Classification
bayésienne
Modèle de mélange
Le choix de loi a priori sur ⌘ n’est donc plus (en bayésienne
Modèle de mélange
Nombre de clusters général) la loi de Laplace Nombre de clusters
Statistique Statistique
Loi de Je↵reys Bayésienne Expression de la loi de Je↵reys Bayésienne
Statistique Statistique
Exemples Bayésienne Loi de Référence Bayésienne
1. modèle binomial : x ⇠ B(n, p) Modèle Bayésien I Les coordonnées sont regroupées par blocs. Modèle Bayésien
I L’information de Fisher s’écrit Inférence I La loi a priori de référence est construite de façon Inférence
Estimateurs de Bayes Estimateurs de Bayes
2. modèle gaussien : x ⇠ N (µ, 2) La loi de Je↵rey est Approche non informative I ✓1 est le paramètre d’intérêt Approche non informative
Modèles Modèles
I ⇡(µ) / 1 si la variance est connue Hiérarchiques I ✓2 est le paramètre de nuisance, Hiérarchiques
I 1
⇡( ) / si la moyenne est connue Paramètres multi-variés et
données historiques.
Paramètres multi-variés et
données historiques.
I ⇡(µ, ) / 2
si les deux sont inconnues E↵et individuel alors la loi a priori de référence est calculée à partir de E↵et individuel
I Pour les trois modèles : la loi a priori est impropre mais Choix de modèles
1. ⇡(✓2 |✓1 ) la loi de Je↵reys associée à f (x|✓) Choix de modèles
et BMA et BMA
la loi a posteriori est bien définie. Sélection de modèle
conditionnellement à ✓1 , Sélection de modèle
Classification e
f (x|✓1 ) = f (x|✓1 , ✓2 )⇡(✓2 |✓1 ) d✓2 . Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
lois de concordance Bayésienne ✓ unidimensionnel Bayésienne
Argument fréquentiste sur les régions de crédibilité Anne Philippe Anne Philippe
Inférence Inférence
{x| ⇡ (x)}
✓q↵ Lois a priori concordance (matching prior) si et seulement si Lois a priori
Approche subjective Approche subjective
pour tout ↵ 2 (0, 1). [q↵⇡ (x) quantile de la loi a posteriori] Modèle hierarchique
Approche non informative d n 1
o Modèle hierarchique
Approche non informative
⇡(✓)I (✓) 2 = 0.
L’objectif est de trouver des lois avec une meilleur Modèles
Hiérarchiques
d✓ Modèles
Hiérarchiques
vitesse de convergence Paramètres multi-variés et Paramètres multi-variés et
données historiques.
E↵et individuel
où I est l’information de Fisher. données historiques.
E↵et individuel
I
Sélection de modèle Sélection de modèle
On cherche ⇡ telle que Bayesian Model Averaging la loi de Je↵rey est une loi de concordance Bayesian Model Averaging
Classification Classification
bayésienne bayésienne
pour tout ↵ 2 (0, 1). Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Modèle hierarchique
observations
Dans de nombreux modèles multi-variés, les paramètres observations
Choix de modèles et BMA données historiques. la loi a priori doit refléter la dépendance entre les données historiques.
E↵et individuel E↵et individuel
xH
Modèle hierarchique Modèle hierarchique
Contexte on dispose d’un échantillon historique pour Approche non informative Approche non informative
construire la loi a priori Modèles La loi a priori ⇡ est une loi gaussienne multivariée Modèles
Hiérarchiques Hiérarchiques
Démarche Paramètres multi-variés et Paramètres multi-variés et
I
données historiques.
µ = KE (✓|x H ) = K µH où K est une matrice diagonale données historiques.
On suppose que la loi a priori de ✓ est une loi E↵et individuel E↵et individuel
même famille de lois avec des paramètres similaires Facteur de Bayes Facteur de Bayes
FB et choix de la loi a priori 1. la loi a priori sur ✓ a la même matrice de corrélation que FB et choix de la loi a priori
(mais pas nécessairement égaux) FB et Test FB et Test
la loi a posteriori calculée sur les données historiques.
Classification Classification
bayésienne 2. K mesure la similarité entre les deux échantillons. bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters 3. K , l sont des hyper-paramètres Nombre de clusters
Statistique Statistique
loi des hyperparamètres Bayésienne Application à la régression polynomiale Bayésienne
moyenne 1 (car les paramètres des deux modèles sont Lois a priori Lois a priori
supposés proches) Approche subjective où Approche subjective
Modèle hierarchique Modèle hierarchique
Modèles Modèles
Hiérarchiques I x1 , . . . , xn sont régulièrement espacés sur [-1,1] Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
données historiques. Description des données simulées : données historiques.
Inférence Inférence
Estimateurs de Bayes Estimateurs de Bayes
20
10
10
observations estimated A estimated A observations
true A true A
true B true B
Lois a priori Lois a priori
8
10
Error on coefficients
6
Modèle hierarchique Modèle hierarchique
Approche non informative Approche non informative
P(t)
P(t)
4
4
Modèles Modèles
0
Hiérarchiques Hiérarchiques
2
Paramètres multi-variés et Paramètres multi-variés et
données historiques. données historiques.
0
E↵et individuel E↵et individuel
−10
−2
−2
Choix de modèles Choix de modèles
et BMA et BMA
−1.0 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0
Sélection de modèle Sélection de modèle
t t
Bayesian Model Averaging Bayesian Model Averaging
0 MLE 1 MLE 2 MLE 3 MLE 4 MLE 0 NI 1 NI 2 NI 3 NI 4 NI 0I 1I 2I 3I 4I
Facteur de Bayes Facteur de Bayes
Order
FB et choix de la loi a priori FB et choix de la loi a priori
FB et Test Polynomes estimés : comparaison de l’approche FB et Test
loi non-informative (NI) and loi informative (I) Nombre de clusters Nombre de clusters
Statistique Statistique
Modèle Bayésienne Les lois du modèle Bayésienne
Modèles Modèles
Hiérarchiques La loi a posteriori est Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
données historiques. données historiques.
E↵et individuel
⇡(✓1 , ..., ✓n , ↵|x1 , ..., xn ) / E↵et individuel
Facteur de Bayes
et Facteur de Bayes
FB et choix de la loi a priori FB et choix de la loi a priori
FB et Test ⇡(✓1 , ..., ✓n |x1 , ..., xn ) / FB et Test
Classification Z Classification
bayésienne bayésienne
Modèle de mélange
f (x1 , ..., xn |✓1 , ..., ✓n )⇡(✓1 , ..., ✓n |↵)⇡(↵) d↵ Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Echangeabilité Bayésienne Forme des lois échangeables Bayésienne
Anne Philippe La forme la plus simple d’une distribution échangeable est de Anne Philippe
Si aucune information n’est disponible pour distinguer les ✓j Inférence identiquement distribuées suivant une loi paramétrée par ↵ Inférence
Estimateurs de Bayes Estimateurs de Bayes
les uns des autres. Régions de crédibilité
n
Y
Régions de crédibilité
Prévision des futures Prévision des futures
permutation des indices (1, ..., n). Facteur de Bayes p(✓1 , ..., ✓n ) = p(✓i |↵)⇡(↵) d↵ Facteur de Bayes
FB et choix de la loi a priori A i=1 FB et choix de la loi a priori
FB et Test FB et Test
Statistique Statistique
Echangeabilité et informations supplémentaires Bayésienne Echangeabilité et covariables Bayésienne
I Si les observations peuvent être regroupées, on construit Modèle Bayésien Modèle Bayésien
un modèle hiérarchique où chaque groupe a son propre Inférence La façon habituelle de modéliser l’échangeabilité avec les Inférence
sous-modèle.
Estimateurs de Bayes
Régions de crédibilité
covariables z1 , ..., zn est de supposer l’indépendance Estimateurs de Bayes
Régions de crédibilité
Modèles p(✓1 , ..., ✓n , ↵|z1 , ..., zn ) = p(✓i |↵, zi )p(↵|z1 , ..., zn ) Modèles
Hiérarchiques Hiérarchiques
Paramètres multi-variés et
i=1 Paramètres multi-variés et
données historiques. données historiques.
E↵et individuel
et E↵et individuel
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Prévision dans un modèle hierarchique Bayésienne Modèle hiérarchique Normal-Normal Bayésienne
A partir d’un échantillon (↵1 , ..., ↵M ) simulé suivant la loi a Choix de modèles
µi = µ + "˜i Choix de modèles
et BMA et BMA
posteriori de ↵, Sélection de modèle Sélection de modèle
Bayesian Model Averaging Bayesian Model Averaging
1. On simule ✓n+1 (i) suivant p(✓n+1 |↵i ) pour tout Facteur de Bayes I mesure la dispersion des µi autour de µ Facteur de Bayes
i = 1, ..., M FB et choix de la loi a priori I les "˜i sont iid N(0, 1). FB et choix de la loi a priori
FB et Test FB et Test
I Loi échangeable sur µ1 , .., µn car conditionnellement à
2. On simule xn+1 (i) suivant f (xn+1 |✓n+1 (i)) pour tout Classification Classification
bayésienne (µ, 2 ), µ1 , .., µn sont iid suivant la loi N(µ, 2 ) bayésienne
i = 1, ..., M Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Loi a priori sur les hyper paramètres Bayésienne Alternative pour la loi sur la variance Bayésienne
s2
Approche non informative Approche non informative
µi 2
⇠ loi gamma(⌫, ) Modèles p( 2 ) = 2 0 2 2 . Modèles
si2 Hiérarchiques
(s0 + ) Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
données historiques. données historiques.
µ ⇠ N(mµ , Vµ ) E↵et individuel E↵et individuel
yi
Choix de s0
Choix de modèles Choix de modèles
et BMA Si les si2 sont connus on prend et BMA
i = 1 to n Sélection de modèle Sélection de modèle
Bayesian Model Averaging Bayesian Model Averaging
n
Facteur de Bayes 1 1X 1 Facteur de Bayes
Remarque = .
s02 si2
FB et choix de la loi a priori FB et choix de la loi a priori
FB et Test n FB et Test
2 i=1
Attention si on prend une loi impropre pour (par exemple Classification Classification
1
2 ) la loi a posteriori n’est pas toujours définie. bayésienne
Modèle de mélange
bayésienne
Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Extension : vers un modèle robuste Bayésienne Illustration : Bayésienne
Pour obtenir un modèle robuste, on ajoute un e↵et individuel Anne Philippe Anne Philippe
Lois a priori
1. Pour illustrer la robustesse on simule un échantillon de Lois a priori
Approche subjective taille 100 et on remplace une proportion q des valeurs Approche subjective
Modèle hierarchique Modèle hierarchique
Approche non informative par des outliers. Approche non informative
2 Modèles Modèles
i Hiérarchiques 2. On répète 500 fois l’expérience Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
données historiques. 3. On représente l”évolution des estimateurs de Bayes de données historiques.
E↵et individuel E↵et individuel
µi Choix de modèles
µ, i en fonction de q. Choix de modèles
si2 et BMA
Sélection de modèle
et BMA
Sélection de modèle
Bayesian Model Averaging Bayesian Model Averaging
uniforme.
Inférence Inférence
variance Estimateurs de Bayes
Lois a priori Estimateurs de Bayes
Régions de crédibilité Régions de crédibilité
Prévision des futures Approche subjective Prévision des futures
observations observations
Modèle hierarchique
Lois a priori Lois a priori
Approche subjective Approche non informative Approche subjective
Modèle hierarchique Modèle hierarchique
Approche non informative
Modèles Hiérarchiques Approche non informative
Choix de modèles
Sélection de modèle Choix de modèles
et BMA Bayesian Model Averaging et BMA
Sélection de modèle Sélection de modèle
Bayesian Model Averaging Facteur de Bayes Bayesian Model Averaging
Inférence
partir des observations x ✓ˆk l’estimateur du Inférence
Estimateurs de Bayes Maximum de Vraisemblance Estimateurs de Bayes
I A partir des observations x = (x1 , ..., xn ) : on veut Lois a priori I On utilise un critère de sélection de modèle : Lois a priori
choisir le meilleur modèle Approche subjective
Modèle hierarchique 1. AIC = 2 ln(L(✓ˆk )) + 2k
Approche subjective
Modèle hierarchique
Modèles
n k 1 Modèles
Hiérarchiques 3. BIC = 2 ln(L(✓ˆk )) + ln(n)k Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
Facteur de Bayes
Décision Facteur de Bayes
FB et choix de la loi a priori FB et choix de la loi a priori
FB et Test I On estime ✓ par ✓ˆk ⇤ FB et Test
Classification Classification
bayésienne I On prévoit en utilisant le modèle Mk ⇤ bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Version Bayésienne Bayésienne Règle de décision Bayésienne
Inférence Inférence
I On calcule les probabilités a posteriori des K modèles
I Soit Mk k = 1, ...K une collection de modèles. Estimateurs de Bayes Estimateurs de Bayes
Régions de crédibilité
Prévision des futures
R Régions de crédibilité
Prévision des futures
observations P(Mi ) fi (x|✓i )⇡i (✓i ) d✓i observations
⇡(Mi |x) = Pk R
I pour i = 1, ..., K on note Lois a priori Lois a priori
Approche subjective j=1 P(Mj ) fj (x|✓j )⇡j (✓j ) d✓j Approche subjective
l’indice du modèle devient aussi un paramètre du modèle Choix de modèles Choix de modèles
et BMA ou et BMA
I soit
P P(Mk ) les probabilités a priori des K modèles. Sélection de modèle
Bayesian Model Averaging
On construit un modèle moyenné avec des Sélection de modèle
Bayesian Model Averaging
P(Mk ) = 1 poids (BMA)
Facteur de Bayes Facteur de Bayes
FB et choix de la loi a priori FB et choix de la loi a priori
FB et Test FB et Test
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Bayesian Model Averaging Bayésienne La prévision par mélange Bayésienne
Pour chaque modèle de la collection on note Estimateurs de Bayes Ayant observé x1 , . . . , xn , Estimateurs de Bayes
Régions de crédibilité Régions de crédibilité
I x ⇠ fk (x|✓k )
Prévision des futures
observations
I la densité prédictive de xn+1 est Prévision des futures
observations
I ✓k 2 ⇥ k
Lois a priori X Lois a priori
Approche subjective
Modèle hierarchique
f (y |x1 , . . . , xn ) = ⇡(Mk |x1 , . . . , xn )fk (y |x1 , . . . , xn ) Approche subjective
Modèle hierarchique
I ✓k ⇠ ⇡k (✓k ) Approche non informative Approche non informative
k
Modèles Modèles
Idée Hiérarchiques Hiérarchiques
où fk (y |x1 , . . . , xn ) est la densité de la loi prédictive
I
Paramètres multi-variés et Paramètres multi-variés et
On estime et prévoit à partir d’un modèle moyenné données historiques. données historiques.
E↵et individuel dans le modèle Mk E↵et individuel
I Tous les modèles n’ont pas la même contribution Choix de modèles Z Choix de modèles
et BMA et BMA
I Les poids des modèles individuels sont les probabilités a Sélection de modèle fk (y |x1 , . . . , xn ) = fk (y |x1 , . . . , xn , ✓k )⇡k (✓k |x1 , . . . , xn ) d✓k Sélection de modèle
Bayesian Model Averaging Bayesian Model Averaging
posteriori des modèles, c’est à dire
Facteur de Bayes Facteur de Bayes
R FB et choix de la loi a priori FB et choix de la loi a priori
Statistique Statistique
Intervalle de prévision et prévision ponctuelle Bayésienne Estimation et BMA Bayésienne
prédictive Modèle Bayésien Pour chaque modèle de la collection on note Modèle Bayésien
P I x ⇠ fk (x|✓k )
f (y |x1 , . . . , xn ) = k ⇡(Mk |x1 , . . . , xn )fk (y |x1 , . . . , xn ) Inférence Inférence
Estimateurs de Bayes
I ✓k 2 ⇥ k Estimateurs de Bayes
x̂n+1 = ⇡(Mk |x1 , . . . , xn )x̂n+1 (k) Lois a priori On veut estimer un paramètre d’intérêt ✓˜ (commun à tous Lois a priori
Approche subjective Approche subjective
k Modèle hierarchique les modèles) Modèle hierarchique
Approche non informative
✓˜ 2 ⇥
˜ ⇢ ⇥i pour tout i Approche non informative
où x̂n+1 (k) est le predicteur ponctuel dans le modèle Mk Modèles Modèles
Z Hiérarchiques
Paramètres multi-variés et
Le modèle bayesien moyenné est défini par la loi a posteriori Hiérarchiques
Paramètres multi-variés et
données historiques. données historiques.
x̂n+1 (k) = y fk (y |x1 , . . . , xn ) dy E↵et individuel
K
X E↵et individuel
Choix de modèles
˜ =
⇡ BMA (✓|x) ˜ k , x)⇡(Mk |x)
⇡(✓|M Choix de modèles
et BMA et BMA
Sélection de modèle
k=1 Sélection de modèle
Remarque Bayesian Model Averaging Bayesian Model Averaging
I le modèle Mk
FB et choix de la loi a priori FB et choix de la loi a priori
Tous les modèles contribuent au calcul de la prévision FB et Test FB et Test
Inférence
Estimateurs de Bayes
yi = xi> + "i . Inférence
Estimateurs de Bayes
Régions de crédibilité Régions de crédibilité
Prévision des futures On suppose qu’il y a p variables explicatives donc 2p modèles Prévision des futures
Lois a priori I La loi a priori de Zellner’s g-prior est la loi multivariée Lois a priori
La prévision par mélange coincide avec la loi prédictive Approche subjective Approche subjective
construite à partir de la loi a posteriori ⇡ BMA (✓|x) Modèle hierarchique gaussienne Modèle hierarchique
Approche non informative Approche non informative
I 1
FB et Test
⇡( ) = FB et Test
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Regression (cont) Bayésienne Application sur données simulés (R : BMS) Bayésienne
I On choisit la loi uniforme sur les modèles. Modèle Bayésien Modèle Bayésien
Inférence Inférence
I La loi sur le nombre de variables incluses n’est pas I
Estimateurs de Bayes
4 variables explicatives. Estimateurs de Bayes
I
Régions de crédibilité
Prévision des futures
observations Données simulées avec 3 variables explicatives : Prévision des futures
observations
I Loi a posteriori BMA pour les coefficients de la Lois a priori y = 1 ⇤ x1 + 1.5 ⇤ x2 + .5 ⇤ x3 + " Lois a priori
régression Approche subjective
I
Approche subjective
Modèle hierarchique la variable 4 n’apparait pas dans le modèle Modèle hierarchique
Approche non informative Approche non informative
En grande dimension on ne peut pas estimer tous les Facteur de Bayes Facteur de Bayes
FB et choix de la loi a priori FB et choix de la loi a priori
modèles. On conserve que les modèles de plus forte FB et Test FB et Test
Inférence Inférence
Estimateurs de Bayes Estimateurs de Bayes
Régions de crédibilité Régions de crédibilité
Prévision des futures Prévision des futures
observations 0d 0e 0f 0c 07 05 06 04 03 08 09 observations
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Estimation des paramètres Bayésienne Prévision Bayésienne
Modèles Modèles
Hiérarchiques Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
données historiques. données historiques.
E↵et individuel E↵et individuel
Classification
bayésienne
Le trait jaune représente la réalisation Classification
bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Modèle Bayésien Statistique Statistique
Inférence Bayésienne Facteur de Bayes Bayésienne
Modèle hierarchique
observations
B0/1 = / observations
Paramètres multi-variés et données historiques. Modèles Le FB élimine bien l’influence des poids a priori des deux Modèles
E↵et individuel Hiérarchiques
modèles et se comporte comme un rapport de vraisemblance Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
Statistique Statistique
Table donnée par Kass et Raftery Bayésienne choix de modèles entre plusieurs lois a priori Bayésienne
log10 B0/1 confiance en faveur de M0 Lois a priori une équipe) Lois a priori
15
Approche subjective Approche subjective
0 - 0.5 faible I On dispose d’un
table(soccergoals)
Modèle hierarchique Modèle hierarchique
Approche non informative Approche non informative
0.5 - 1 substantielle échantillon de taille 35.
10
Modèles Modèles
1–2 forte Hiérarchiques I On modélise ces données Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
>2 décisive.
5
données historiques.
E↵et individuel
par une loi de Poisson de données historiques.
E↵et individuel
0
et BMA et BMA
Sélection de modèle I On compare quatre 0 1 2 3 4 5
Sélection de modèle
Bayesian Model Averaging soccergoals Bayesian Model Averaging
modèles qui
Facteur de Bayes Facteur de Bayes
FB et choix de la loi a priori correspondent à quatre FB et choix de la loi a priori
FB et Test FB et Test
choix de lois a priori
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Lois a priori Bayésienne calcul des facteur de Bayes Bayésienne
E ( ) = 3 et P( < 2.1) = Prévision des futures f (x|✓)⇡i (✓) d✓ mi (x) Prévision des futures
observations
Bi/j =R = observations
P( > 4.04) = .25. Lois a priori f (x|✓)⇡j (✓) d✓ mj (x) Lois a priori
Approche subjective Approche subjective
2. log ( ) suit une loi Modèle hierarchique où mi est la loi marginale de x. Modèle hierarchique
Approche non informative Approche non informative
N (1, 1/4) et P( < Résultats numériques
Modèles Modèles
1.94) = P( > 3.81) = .25. Hiérarchiques Hiérarchiques
Paramètres multi-variés et
modèles MAP SD a post log(m(x)) Paramètres multi-variés et
N (2, 1/4) et
E↵et individuel
1 0.5248047 0.1274414 -1.502977 E↵et individuel
4. log ( ) suit une loi N (1, 4) Facteur de Bayes 4 0.4899414 0.1320165 -2.137216 Facteur de Bayes
FB et choix de la loi a priori FB et choix de la loi a priori
et P( < 1.92) = P( > FB et Test FB et Test
Statistique Statistique
Facteur de Bayes Bayésienne Tests Bayésienne
Inférence Inférence
Estimateurs de Bayes Estimateurs de Bayes
Régions de crédibilité Régions de crédibilité
Prévision des futures Prévision des futures
observations
On veut tester si ✓ 2 ⇥0 contre ✓ 2 ⇥1 . observations
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Hypothèses classiques Bayésienne Comparaison avec Neyman Pearson Bayésienne
R
f (x|✓)g (✓) d✓
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Interprétation Bayésienne Remarque sur les lois a priori impropres Bayésienne
Modèle Bayésien Test sur la moyenne d’un échantillon gaussien Modèle Bayésien
I Le FB atteint son maximum en 0
Inférence Inférence
I
On teste pour un échantillon gaussien N (✓, 1) : ✓ = 0 contre
Le FB est supérieur à 1 (décision favorable à Estimateurs de Bayes Estimateurs de Bayes
Régions de crédibilité
✓ 6= 0 Régions de crédibilité
l’hypothèse nulle) si |x| < 1.62 Prévision des futures Prévision des futures
observations
Si on prend la loi de Je↵reys g (✓) = C IR , La constante C observations
Modèles
⇡( d✓) = p 0 ( d✓) + (1 p)C d✓ Modèles
Hiérarchiques Hiérarchiques
Paramètres multi-variés et
données historiques. le BF s’écrit Paramètres multi-variés et
données historiques.
E↵et individuel E↵et individuel
Classification Conclusion : lorsque l ’on calcule un FB, la loi a priori doit Classification
bayésienne bayésienne
Modèle de mélange être une probabilité. Modèle de mélange
Nombre de clusters Nombre de clusters
Modèle Bayésien Statistique Statistique
Inférence Bayésienne Modèlisation par mélanges Bayésienne
Approche subjective
Régions de crédibilité
Prévision des futures
1. Phénomènes complexes // Structures multimodales Régions de crédibilité
Prévision des futures
observations observations
Modèle hierarchique 2. Populations hétérogènes et classes homogènes
Lois a priori Lois a priori
Approche non informative Approche subjective
3. Discrimination/Classification Approche subjective
Modèle hierarchique Modèle hierarchique
Modèles Hiérarchiques Approche non informative Approche non informative
Statistique Statistique
Bayésienne Difficulté Bayésienne
Inférence Inférence
Estimateurs de Bayes Estimateurs de Bayes
Régions de crédibilité
Prévision des futures
évaluation de la vraisemblance [k n termes] Régions de crédibilité
Prévision des futures
observations observations
n k
!
Lois a priori
Approche subjective
Y X Lois a priori
Approche subjective
Modèle hierarchique L(✓, p|x) = pi f (xj |✓i ) , Modèle hierarchique
Approche non informative Approche non informative
j=1 i=1
Modèles Modèles
Hiérarchiques Hiérarchiques
I
Paramètres multi-variés et Paramètres multi-variés et
données historiques. L’estimateur du maximum de vraisemblance ne peut pas données historiques.
E↵et individuel E↵et individuel
Choix de modèles
être calculé facilement Choix de modèles
et BMA I la loi a posteriori est difficile à évaluer et BMA
Sélection de modèle Sélection de modèle
Bayesian Model Averaging Bayesian Model Averaging
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
variable latente Bayésienne Choix de la loi a priori Bayésienne
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Choix de la loi a priori [suite] Bayésienne Classification Bayésienne
Lorsque les composantes sont dans la famille exponentielle Anne Philippe Anne Philippe
on peut prendre pour chaque composante une loi a priori Régions de crédibilité d’origine de l’observation xi . Régions de crédibilité
Prévision des futures Prévision des futures
conjuguée observations Le critère est le suivant observations
(✓)
⇡(✓|y0 , ) / e ✓·y0 Lois a priori
Approche subjective
On décide que l’observation xi est issue de fJ(i) où Lois a priori
Approche subjective
Modèle hierarchique Modèle hierarchique
et Approche non informative
J(i) = argmax`=1,...k P(zi = `|x1 , .., xn )
Approche non informative
D
⇡ (p1 , . . . , pk ) / p1↵1 1 . . . pk↵k 1 I(p1 +...+pk =1) . Choix de modèles
et BMA Il suffit de calculer P(zi = 1|x1 , .., xn ).
Choix de modèles
et BMA
Sélection de modèle Sélection de modèle
Bayesian Model Averaging Si P(zi = 1|x1 , .., xn ) > 1/2 alors on décide que la Bayesian Model Averaging
Identifiabilité Facteur de Bayes composante xi est issue de la première composante. Facteur de Bayes
FB et choix de la loi a priori FB et choix de la loi a priori
Classification Classification
contrainte sur les paramètres. bayésienne bayésienne
On peut prendre par exemple ✓1 < ... < ✓p Modèle de mélange
Nombre de clusters
Modèle de mélange
Nombre de clusters
Statistique Statistique
Exemple du mélange de deux populations Bayésienne Bayésienne
I
Anne Philippe
Modèle Bayésien
On introduit des variables latentes Modèle Bayésien
Histogram of y (
Inférence 2) Inférence
1 si x ⇠ N ( 1,
7
Estimateurs de Bayes
Régions de crédibilité
z= 2)
Estimateurs de Bayes
Régions de crédibilité
6
observations observations
Frequency
Approche non informative Le choix des lois a priori sur i et sont les lois Approche non informative
1
Hiérarchiques Hiérarchiques
530 535 540 545 550 555
Paramètres multi-variés et [loi gaussienne sur i et loi inverse gamma sur 2 ] Paramètres multi-variés et
y données historiques. i données historiques.
E↵et individuel
I Pour les zi on prend E↵et individuel
Bowmaker et al (1985) analyse data on the peak sensitivity Choix de modèles Choix de modèles
et BMA et BMA
wavelengths for individual microspectrophotometric records Sélection de modèle
P(zi = 1|p) = p, i = 1, ..., n Sélection de modèle
on a small set of monkey’s eyes. (48 measurements). Bayesian Model Averaging Bayesian Model Averaging
2 2
pN ( 1, ) + (1 p)N ( 2, ) Classification
bayésienne
Classification
bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
densityplot : lois a posteriori marginales Bayésienne Estimation des variables cachées / manquantes Bayésienne
2 4 6 8 10 Régions de crédibilité
I Le graphique de droite représente les estimations des zi Régions de crédibilité
Prévision des futures Prévision des futures
lambda[2] observations observations
0.00.2
Modèles Modèles
Hiérarchiques Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
530 535 540 données historiques. données historiques.
Modèles Modèles
Hiérarchiques Hiérarchiques
Paramètres multi-variés et Paramètres multi-variés et
données historiques. données historiques.
E↵et individuel E↵et individuel
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Qualité de la classification Bayésienne Estimation du nombre de composantes Bayésienne
Les points jaunes représentent les variables mal-classées Modèle Bayésien Modèle Bayésien
Inférence Inférence
Estimateurs de Bayes
Régions de crédibilité
C’est un problème de sélection de modèles Estimateurs de Bayes
Régions de crédibilité
Prévision des futures Prévision des futures
observations
I On dispose d’une famille de modèles {Mk ; i 2 K } observations
Modèles
Hiérarchiques
paramétrique ✓(k) 2 ⇥k qui regroupe les paramètres des Modèles
Hiérarchiques
Paramètres multi-variés et
données historiques.
k composantes du mélange. Paramètres multi-variés et
données historiques.
E↵et individuel
I On suppose que le nombre de composante k est E↵et individuel
Classification Classification
bayésienne bayésienne
Modèle de mélange Modèle de mélange
Nombre de clusters Nombre de clusters
Statistique Statistique
Description du modèle bayésien Bayésienne Méthode de Monte Carlo Bayésienne
✓(k) est estimé par E(✓(k) |x, k) E↵et individuel E↵et individuel
K
X Z Bayesian Model Averaging Bayesian Model Averaging
Statistique Statistique
Sortie de ces algorithmes Bayésienne Exemple suite : estimation du nombre de clusters Bayésienne
M
X Lois a priori Lois a priori
1
Monte Carlo s’écrit M Ikt =k0 Approche subjective
Modèle hierarchique
Approche subjective
Modèle hierarchique