Correction 7
Correction 7
Correction du TD 7
On reconnaît la densité d’une loi N (0, 2), qui est donc la loi de Y .
(b) Par définition la densité conditionnelle de Y sachant X = x est, si h(x, y) est la densité du
couple (X, Y ) (ici par rapport à la mesure de Lebesgue sur R2 ),
1
h(x, y) h(x, y) 2π exp(−x2 + xy − y 2 /2)
gx (y) = R = = ,
√1 e−x /2
2
R h(x, y) dy f (x)
2π
Ainsi L(Y X = x) = N (x, 1). On aurait aussi pu obtenir ce résultat par la méthode du
‘proportionnel à’. Utilisons cette méthode pour déterminer l’autre densité conditionnelle, fy (x).
Comme on s’intéresse à une fonction de x, tout ce qui ne dépend pas de x peut aller dans la
constante :
2 +xy 2 +y 2 /4 2
fy (x) ∝x exp(−x2 + xy − y 2 /2) ∝x e−x ∝x e−(x−y/2) ∝x e−(x−y/2) .
1 1
car L(Y X) = N (X, 1). On trouve donc directement V = . On peut ensuite vérifier que la
1 2
densité jointe de l’énoncé est bien celle d’un vecteur gaussien centré de matrice de covariance V .
a+np
Ainsi Π[· X] = Gamma(a + np, b + nX n ). La moyenne a posteriori vaut b+nX n
(la moyenne d’une
Gamma(a, b) est a/b).
2. On procède de même. On part de Π = Beta(a, b). Dans le modèle P = {Geom(θ)⊗n , θ ∈]0, 1[}, la
loi a posteriori Π[· X] a pour densité
n
Y n
Y
π(θ X) ∝ π(θ) pθ (Xi ) ∝ θa−1 (1−θ)b−1 10<θ<1 θ(1−θ)Xi −1 ∝ θa+n−1 (1−θ)b+nX n −n−1 10<θ<1 .
i=1 i=1
a+n
Ainsi Π[· X] = Beta(a + n, b + nX n − n). La moyenne a posteriori vaut a+b+nX n
(la moyenne d’une
Beta(a, b) est a/(a + b)).
3. Soit Π = N (µ, σ 2 ). Il suffit de montrer que, si on prend Π comme loi a priori sur θ dans le modèle
{N (θ, v)⊗n , θ ∈ R}, la loi a posteriori Π[· X] est encore gaussienne. Ici X = (X1 , . . . , Xn ), et
X θ ∼ N (θ, v)⊗n . On a
1 1 2
dΠ(θ) = π(θ) dθ, π(θ) = √ e− 2σ2 (θ−µ) .
2πσ 2
1 1 2
dPθ (x) = pθ (x) dx, pθ (x) = √ e− 2v (x−θ) .
2πv
La densité a posteriori s’écrit
n n
( )
Y 1 1 X
π(θ X) ∝ π(θ) pθ (Xi ) ∝ exp − 2 (θ − µ)2 − (Xi − θ)2
2σ 2v
i=1 i=1
1 1
∝ exp − 2 (θ2 − 2µθ) − (nθ2 − 2nX n θ)
2σ 2v
−2 −1 µσ −2 + nv −1 X n
σ + nv 2
∝ exp − θ − 2θ
2 σ −2 + nv −1
( 2 )
σ −2 + nv −1 µσ −2 + nv −1 X n
∝ exp − θ− .
2 σ −2 + nv −1
Ainsi
µσ −2 + nv −1 X n
1
Π[· X] = N , −2 . (1)
σ −2 + nv −1 σ + nv −1
−2 −1
Donc la famille considérée est conjuguée. La moyenne a posteriori vaut E[θ X] = µσσ−2+nv Xn
+nv −1
. On
peut noter que cette moyenne a posteriori est une moyenne pondérée entre la moyenne µ de la loi a
priori et la moyenne empirique X n des observations :
σ −2 nv −1
E[θ X] = µ + X n.
σ −2 + nv −1 σ −2 + nv −1
En particulier, plus le nombre n d’observations est grand et moins la loi a priori affecte la loi a
posteriori.
Ainsi le dénominateur dans la formule de Bayes est fini et la loi a posteriori est bien définie. Pour
θ ∈ R, la densité a posteriori est donnée par
n
Y 1 (Xi −θ)2
√ e− 2
2π n 2
π(θ X1 , . . . , Xn ) = Z i=1
n ∝ e− 2 (θ−X n ) .
Y 1 (Xi −θ)2
√ e− 2 dθ
R i=1 2π
On en déduit Π[· X] = N X n , n1 .
2. (a) On prend Θ = N∗ l’ensemble des valeurs possibles pour le nombre total de tramways dans la
ville. Sachant qu’il y a N tramways dans la ville, le numéro du premier tramway observé est
supposé uniformément distribué entre 1 et N . Plus formellement
N ∼Π
X N ∼ Unif({1, . . . , N }),
Cet a priori est donc « trop impropre » : la loi a posteriori n’est pas définie.
(c) On considère maintenant, pour k ≥ 2 donné,
N ∼Π
X = (X1 , . . . , Xk ) N ∼ Unif({1, . . . , N })⊗k ,
Z ∞ Y
k ∞ (k) X −1
X 1 X 1 X 1
pn (X) dΠ(n) = 1Xi ∈{1,...,n} = = ζ(k) − ,
N∗ n nk nk
n=1 i=1 n=X(k) n=1
où X(k) = max(X1 , . . . , Xk ) et ζ est la fonction zêta de Riemann, définie sur ]1, ∞[. Dès que
k ≥ 2, cette somme est finie et la loi a posteriori est bien définie. On a alors, pour tout n ∈ N∗ ,
1
π(n X1 , . . . , Xk ) ∝ 1n≥X(k) .
nk
Pour essayer de répondre à la question du nombre total de tramways dans la ville, on peut par
exemple considérer la moyenne a posteriori E[N X] (nous verrons pourquoi dans la suite du
cours), qui existe dès que k ≥ 3 et vaut alors :
P∞ 1 PX(k) −1 1
n=X(k) nk−1 ζ(k − 1) − n=1 nk−1
E[N X] = P∞ 1 = PX(k) −1 1 .
n=X(k) nk ζ(k) − n=1 nk
πλ (θ X) ∝ θn e−(λ+nX n )θ 1θ≥0 .
Donc Πλ [· X] est une loi γ(n + 1, λ + nX n ). Ainsi, la pseudo-loi a posteriori est une loi
γ n + 1, (n + 1)X n .
On remarque que la pseudo-moyenne a posteriori est 1/X n . Elle coïncide donc ici avec l’esti-
mateur du maximum de vraisemblance pour θ dans ce modèle.
2. Modèle Poisson.
(a) La variable X1 est à valeurs dans N. Pour tout x ∈ N, sa densité en x par rapport à la mesure
de comptage est
Z +∞ x
λ +∞ x −(λ+1)θ
Z Z
θ −θ −λθ
fλ (x) = pθ (x) dΠλ (θ) = e λe dθ = θ e dθ,
Θ 0 x! x! 0
donc x
λ Γ(x + 1) λ 1 λ
fλ (x) = = = .
x! (λ + 1)x+1 (λ + 1)x+1 λ+1 λ+1
C’est bien une loi géométrique à valeurs dans N et de paramètre λ/(λ + 1).
(b) De même, la densité marginale de (X1 , . . . , Xn ) s’écrit, calculée aux points observés,
n
θnX n −nθ −λθ
Z Y Z Z
λ
pθ (Xi ) dΠλ (θ) = Qn e λe dθ = Qn θnX n e−(n+λ)θ dθ
i=1 i=1 Xi ! i=1 Xi !
λ Γ(nX n + 1)
= Qn .
X !
i=1 i (λ + n)
1+nX n
(c) Il suffit donc de trouver le point où le maximum de cette densité est atteint, ce qui revient à
déterminer le maximum de
On annule la dérivée et on trouve que, si X n ̸= 0, alors λ b = 1/X n , après avoir vérifié qu’il
s’agit bien d’un maximum (la dérivée est positive puis négative donc c’est bien le cas). La loi a
posteriori finale suggérée par la méthode est donc Πλb [· X]. On calcule la densité a posteriori
pour tout λ fixé
πλ (θ X) ∝ θnX n e−(n+λ)θ 1θ≥0 .
Donc Πλ [· X] est une loi Gamma(nX n + 1, n + λ). On en conclut
nX n + 1
Πλb [· X] = γ nX n + 1, .
Xn
On remarque que la pseudo-moyenne a posteriori est X n . Elle coïncide donc à nouveau avec
l’estimateur du maximum de vraisemblance pour θ dans ce modèle.
3. Modèle gaussien.
(a) Première méthode :
Pour calculer l’estimateur du maximum de vraisemblance marginale, on n’a pas besoin de
déterminer exactement la densité fµ (X) = fµ (X1 , . . . , Xn ), mais seulement à une constante
indépendante de µ près.
Z Y n Z
1 1 2 1 1 2 µ2 n 2 1 2
fµ (X) = √ e− 2 (Xi −θ) √ e− 2 (θ−µ) dθ ∝µ,θ e− 2 e− 2 θ +nX n θ− 2 θ +θµ dθ
i=1
2π 2π
2
(nX n +µ)2 2 (nX n +µ)2
Z
µ2 − n+1 θ− nX n +µ
− µ + 2(n+1) − n (µ−X n )2
∝µ,θ e− 2 e 2 n+1
e 2(n+1) dθ ∝µ e 2 ∝µ e 2(n+1) .
n n
(t 1Σ−1 1)µ2 − 2(t XΣ−1 1)µ = µ2 − 2 X n µ.
n+1 n+1
On obtient l’estimateur µb = X n.
à la loi apriori Πµ = N (µ, 1) est, par le calcul habituel
(b) La loi a posteriori correspondant
(voir l’équation (1)), une loi N nXn+1
n +µ 1
, n+1 , on obtient comme pseudo-loi a posteriori la loi
1
N X n , n+1 . On remarque que cette loi est centrée en le maximum de vraisemblance X n pour
ce modèle.
Il suffit de regrouper les termes en θ pour former une nouvelle forme quadratique dans l’exponentielle,
de la forme − 21 (θ − mX )′ Σ−1
X (θ − mX ). On cherche donc mX , ΣX tels que, en développant chaque
forme quadratique,
Prenons Π l’a priori de Jeffreys dans le modèle paramétré par θ, de densité π(θ) = Λ1 I(θ) avec
p
Λ donné dans l’énoncé. Cherchons la densité de Π ◦ φ−1 , la mesure image de Π par φ. Soit f une
fonction mesurable bornée. Par le théorème de transfert et la définition de Π, on a
Z Z Z
−1 1 p
f (η) dΠ ◦ φ (η) = f (φ(θ)) dΠ(θ) = f (φ(θ)) I(θ) dθ .
φ(Θ) Θ Λ Θ
où l’onpa utilisé l’expression de J(η) donnée plus haut. Ainsi la mesure image Π ◦ φ−1 a pour densité
1
η 7→ Λ J(η). C’est donc bien l’a priori de Jeffreys dans le modèle paramétré par η.
2. (a) L’information de Fisher est donnée par
1
∀θ ∈]0, 1[ , I(θ) = ·
θ(1 − θ)
Ainsi la loi a priori de Jeffreys est celle dont la densité π(θ) est proportionnelle à
1 1
I(θ) = θ− 2 (1 − θ)− 2 .
p
π(θ) ∝
L’a priori de Jeffreys est l’a priori impropre de densité θ 7→ θ−1/2 par rapport à la mesure de
Lebesgue sur R∗+ .
zj
et en effectuant, pour z1 fixé, le changement de variable uj = 1−z1 pour j = 2, . . . , K − 1 (de
jacobien (1 − z1 )K−2 ), on a
aK −1
Z K−1
Y K−1
X
ziai −1 1 − z1 − zj 1{PK−1 zi ≤1−z1 } dz2 . . . dzK−1
i=2
[0,1−z1 ]K−2 i=2 j=2
aK −1
PK
Z K−1
Y K−1
X
= (1 − z1 ) j=2 aj −1
uai i −1 1 − uj 1{PK−1 ui ≤1} du2 . . . duK−1 .
i=2
[0,1]K−2 i=2 j=2
on obtient
PK
Γ( 1
j=1 aj )
Z PK
E[φ(Z1 )] = φ(z1 )z1a1 −1 (1 − z1 ) j=2 aj −1
dz1 .
Γ(a1 )Γ( K
P
j=2 aj ) 0
ou encore
aK −1
K−1 K−1
f (z1 , . . . , zK−1 ) ∝ z1a1 −1 ziai −1 1 − z1 −
Y X
zj 1{z∈[0,1]K−1 , PK−1 zi ≤1−z1 } ,
i=2
i=2 j=2
la marginalisation donne, pour tout z1 ∈ [0, 1],
aK −1
Z K−1 K−1
f (z1 ) ∝ z1a1 −1 ziai −1 1 − z1 −
Y X
zj 1{PK−1 zi ≤1−z1 } dz2 . . . dzK−1
i=2
[0,1−z1 ]K−2 i=2 j=2
zj
En effectuant, pour z1 fixé, le changement de variable uj = 1−z1 pour j = 2, . . . , K − 1 (de
jacobien (1 − z1 )K−2 ), on en déduit
aK −1
PK
Z K−1 K−1
f (z1 ) ∝ z1a1 −1 (1−z1 ) aj −1
uai i −1 1 −
Y X
j=2 uj 1{PK−1 ui ≤1} du2 . . . duK−1
i=2
[0,1]K−2 i=2 j=2
k=1 k=1
K
pkak +Nk −1 1p∈SK ,
Y
∝
k=1
Ainsi Π[p N ] = Dir(a1 + N1 , . . . , aK + NK ). La famille des lois de Dirichlet est donc bien
conjuguée pour ce modèle.
Une autre preuve, analytique, est la suivante : on commence par montrer par récurrence que pour
tout n ∈ N⋆ :
∞
1 X n+j−1
= Xj,
(1 − X)n j
j=0
1 1
puis on développe de deux manières (1−X)n+1
× (1−X)m+1
.
3. Notons E l’événement « la (n + 1)ième boule tirée est rouge ». Par la formule des probabilités totales
appliquée, on a pour tout x ≤ N
N
X
P(E X = x) = π(r X = x)P(E X = x, R = r).
r=x
Or
r−x
P(E X = x, R = r) = ·
N −n
Ainsi
N r N −r
X x n−x r−x
P(E X = x) = N +1
·
N −n
r=x n+1
N
(x + 1) X r N −r
= N +1 n−x
(N − n) n+1 r=x
x+1
N +1
x+1 n+2
= · N +1
N −n
n+1
x+1
= ·
n+2
Exercice 9 (Identifiabilité)
1. Soit (εi )i≥1 une suite de variables aléatoires i.i.d. de loi de Bernoulli B(p). Alors la variable Y a la
même loi que
XX
εi .
i=1
P(Y = y et X = x)
P(Y = y X = x) =
P(X = x)
Px
P ( i=1 εi = y et X = x)
=
P(X = x)
x
Px !
P ( i=1 εi = y) P(X = x) X
= =P εi = y ,
P(X = x)
i=1
Px
où l’on a utilisé l’indépendance de X et des εi . Or i=1 εi suit une loi binomiale B(x, p), donc
la loi L(Y X = x) est une B(x, p), i.e.
x y
P(Y = y X = x) = P(B(x, p) = y) = p (1 − p)x−y .
y
(b) Le modèle statistique s’écrit P = {Pλ,p , (λ, p) ∈ R+
∗ ×]0, 1[}, où Pλ,p est la loi du couple (X, Y ).
Pour déterminer cette loi, il suffit de se donner P(X = x, Y = y) pour tous x, y ∈ N. On a
En écrivant ceci sous Pλ2 ,p2 et en utilisant le fait que les espérances sont égales on obtient
λ1 p1 = λ2 p2 . Donc p1 = p2 car λ1 = λ2 > 0. Le modèle est donc identifiable.
(c) Puisque Eλ,p [X] = λ et Eλ,p [Y ] = λp, la méthode des moments incite à proposer
n
bn = 1
X
λ Xi = X n
n
i=1
Yn
pbn = 1 .
X n X n >0
En effet la LFGN implique que λ bn converge p.s. vers Eλ,p [X] = λ > 0 et que Y n converge p.s.
vers Eλ,p [Y ] = λp. Ceci assure que pbn converge p.s. vers λp/λ = p.
Remarque : la méthode du maximum de vraisemblance mène aux mêmes estimateurs. En effet,
la vraisemblance de l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) en (λ, p) vaut
n
λXi
Y Xi Yi
Ln (λ, p) = p (1 − p)Xi −Yi e−λ = CpnY n (1 − p)n(X n −Y n ) e−nλ λnX n ,
Yi Xi !
i=1
Exercice 10 (Lois conditionnelles) Une solution consiste à passer par les fonctions caractéristiques.
Puisque X et Y sont indépendantes, on a en effet, pour tout réel u,
ΦS (u) = ΦX (u)ΦY (u).
Il “suffit” donc de connaître les fonctions caractéristiques des lois de X et de Y et de reconnaître celle
qui en découle pour S. Dans ce qui suit, nous faisons les calculs de deux manières : via les fonctions
caractéristiques d’une part, et d’autre part en calculant directement le produit de convolution des lois de
X et de Y .
1. Par les fonctions caractéristiques : pour tout réel u,
ΦS (u) = ΦX (u)ΦY (u) = exp(λ(eiu − 1)) exp(µ(eiu − 1)) = exp((λ + µ)(eiu − 1))
donc S ∼ P(λ + µ).
Produit de convolution : pour tout s ∈ N, on a
s
X
P(S = s) = P(X = k)P(Y = s − k)
k=0
s s
X e−(λ+µ) λk µs−k e−(λ+µ) X s k s−k e−(λ+µ) (λ + µ)s
= = λ µ = ·
k!(s − k)! s! k s!
k=0 k=0
car on a reconnu dans l’intégrale la densité non normalisée d’une loi Beta(r, t). Ainsi S ∼ γ(r + t, λ).
Déterminons maintenant la densité de S|X. Soit φ une fonction borélienne bornée. Pour tout x,
E φ(S) X = x = E φ(x + Y ) X = x
= E [φ(x + Y )]
Z
= φ(x + y)fY (y) dy
ZR
= φ(s)fY (s − x) ds
R
ce qui montre que la densité jointe du couple (X, S) est fX (x)fY (s − x).
À présent, pour s > 0, la densité conditionnelle f de X sachant S = s est donnée, pour x > 0,
X S=s
par :
x r−1 x t−1
f (x) ∝x fX (x)fY (s − x) ∝x xr−1 (s − x)t−1 10≤x≤s ∝x 1− 10≤ xs ≤1 .
X S=s s s
r
Cela correspond à la densité d’une variable s Beta(r, t). Ainsi X S ∼ S Beta(r, t) et E[X S] = r+t S.
3. Par les fonctions caractéristiques : si X ∼ B(n, p), alors ΦX (u) = ((1 − p) + peiu )n pour tout réel u,
d’où
ΦS (u) = ΦX (u)ΦY (u) = ((1 − p) + peiu )n ((1 − p) + peiu )m = ((1 − p) + peiu )n+m
donc S ∼ B(n + m, p).
Produit de convolution : pour tout s ∈ J0, n + mK, on a
s s
X X n m
P(S = s) = P(X = k)P(Y = s − k) = pk (1 − p)n−k ps−k (1 − p)m−s+k
k s−k
k=0 k=0
s
X n m s n+m−s n+m s
= p (1 − p) = p (1 − p)n+m−s
k s−k s
k=0
laquelle peut se déduire des deux façons d’obtenir le coefficient de X s dans le polynôme
S n m S−1 n+m−1
x n
X x S−x 1 X n−1 m S−1 n
E[X S] = n+m
= n+m
n = n+m
= S
S S
x S−x−1 S
n+m
x=0 x=0