0% ont trouvé ce document utile (0 vote)
51 vues16 pages

Correction 7

Le document présente des exercices de statistique avancée, notamment sur les lois conditionnelles, les lois conjuguées et les a priori impropres. Il aborde des concepts tels que les densités marginales et conditionnelles, ainsi que les distributions Gamma et Beta. Les exercices incluent des calculs détaillés et des démonstrations sur les propriétés des lois statistiques et leurs applications.

Transféré par

Yavo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
51 vues16 pages

Correction 7

Le document présente des exercices de statistique avancée, notamment sur les lois conditionnelles, les lois conjuguées et les a priori impropres. Il aborde des concepts tels que les densités marginales et conditionnelles, ainsi que les distributions Gamma et Beta. Les exercices incluent des calculs détaillés et des démonstrations sur les propriétés des lois statistiques et leurs applications.

Transféré par

Yavo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Sorbonne Université, Master 1 MU4MA015, Statistique, 2024-2025

Cours : A. Ben-Hamou TD : A. Godichon, A. Guyader et M. Sangnier

Correction du TD 7

Exercice 1 (Lois conditionnelles et vecteur gaussien)


1. (a) Par définition la densité marginale f de X s’obtient à partir de la densité jointe de (X, Y ) en
intégrant par rapport à y. Donc pour tout x ∈ R,
Z Z
1 2 2 −x2 1 −(y−x)2 /2+x2 /2
f (x) = exp(−x + xy − y /2) dy = e e dy
R 2π R 2π
Z
2 1 −(y−x)2 /2 2 1
= e−x /2 e dy = e−x /2 √ .
R 2π 2π
Ainsi L(X) = N (0, 1). De même, la densité g de Y est donnée par, pour tout y ∈ R,
2 2
e−y /2 e−y /4
Z Z Z
1 y 2
+y 2 /4 y 2
g(y) = exp(−x2 + xy − y 2 /2) dx = e−(x− 2 ) dx = e−(x− 2 ) dx
R 2π 2π 2π
2
e−y /4
= √ .
2 π

On reconnaît la densité d’une loi N (0, 2), qui est donc la loi de Y .
(b) Par définition la densité conditionnelle de Y sachant X = x est, si h(x, y) est la densité du
couple (X, Y ) (ici par rapport à la mesure de Lebesgue sur R2 ),
1
h(x, y) h(x, y) 2π exp(−x2 + xy − y 2 /2)
gx (y) = R = = ,
√1 e−x /2
2
R h(x, y) dy f (x)

d’après le calcul de f (x) ci-dessus. On simplifie et on obtient


1 2
gx (y) = √ e−(y−x) /2 .

Ainsi L(Y X = x) = N (x, 1). On aurait aussi pu obtenir ce résultat par la méthode du
‘proportionnel à’. Utilisons cette méthode pour déterminer l’autre densité conditionnelle, fy (x).
Comme on s’intéresse à une fonction de x, tout ce qui ne dépend pas de x peut aller dans la
constante :
2 +xy 2 +y 2 /4 2
fy (x) ∝x exp(−x2 + xy − y 2 /2) ∝x e−x ∝x e−(x−y/2) ∝x e−(x−y/2) .

Ainsi L(X Y = y) = N (y/2, 1/2).


2. On rappelle que la densité d’un vecteur gaussien N (µ, V ) dans Rd , avec µ ∈ Rd et V une matrice
symétrique définie positive de taille d × d est donnée par
 
1 1t −1
z 7→ p exp − (z − µ)V (z − µ) .
(2π)d det(V ) 2
Ici, on nous dit que Z = t [X, Y ] (avec t u la transposée de u) a pour loi N (µ, V ). Il suffit d’identifier
µ et V avec l’expression de h(x, y) donnée par l’énoncé. Remarquons déjà que d’après la question
précédente E(X) = E(Y ) = 0 ce qui suggère de  µ = 0. Pour déterminer V , on peut procéder
 poser
a b
par identification. Pour t z = t [x, y], et M = une matrice 2 × 2 symétrique définie positive,
b c
on a
1t
zM z = ax2 /2 + bxy + cy 2 /2.
2
En identifiant
  l’expression f (x, y) il vient a = 2, b = −1, c = 1. Ceci nous donne la matrice
avec
2 −1
V −1 = . La formule d’inversion (transposée de la co-matrice) donne alors
−1 1
 
1 1
V = .
1 2
   
0 1 1
On en conclut L(Z) = N , . Remarquons que l’on aurait aussi pu identifier V par
0 1 2
 
Var(X) Cov(X, Y )
V = .
Cov(X, Y ) Var(Y )

On sait que E[X] = E[Y ] = 0, Var(X) = 1 et Var(Y ) = 2. De plus, on a

Cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[XY ] = E XE[Y X] = E[X 2 ] = 1,


 

 
1 1
car L(Y X) = N (X, 1). On trouve donc directement V = . On peut ensuite vérifier que la
1 2
densité jointe de l’énoncé est bien celle d’un vecteur gaussien centré de matrice de covariance V .

Exercice 2 (Lois conjuguées)


1. On part de Π = Gamma(a, b). Dans le modèle P = {Gamma(p, λ)⊗n , λ > 0}, la loi a posteriori
Π[· X] a pour densité
n
Y n
Y
π(λ X) ∝ π(λ) pλ (Xi ) ∝ λa−1 e−bλ 1λ>0 λp e−λXi 1Xi >0 ∝ λnp+a−1 e−(b+nX n )λ 1λ>0 .
i=1 i=1

a+np
Ainsi Π[· X] = Gamma(a + np, b + nX n ). La moyenne a posteriori vaut b+nX n
(la moyenne d’une
Gamma(a, b) est a/b).
2. On procède de même. On part de Π = Beta(a, b). Dans le modèle P = {Geom(θ)⊗n , θ ∈]0, 1[}, la
loi a posteriori Π[· X] a pour densité
n
Y n
Y
π(θ X) ∝ π(θ) pθ (Xi ) ∝ θa−1 (1−θ)b−1 10<θ<1 θ(1−θ)Xi −1 ∝ θa+n−1 (1−θ)b+nX n −n−1 10<θ<1 .
i=1 i=1

a+n
Ainsi Π[· X] = Beta(a + n, b + nX n − n). La moyenne a posteriori vaut a+b+nX n
(la moyenne d’une
Beta(a, b) est a/(a + b)).
3. Soit Π = N (µ, σ 2 ). Il suffit de montrer que, si on prend Π comme loi a priori sur θ dans le modèle
{N (θ, v)⊗n , θ ∈ R}, la loi a posteriori Π[· X] est encore gaussienne. Ici X = (X1 , . . . , Xn ), et
X θ ∼ N (θ, v)⊗n . On a

1 1 2
dΠ(θ) = π(θ) dθ, π(θ) = √ e− 2σ2 (θ−µ) .
2πσ 2
1 1 2
dPθ (x) = pθ (x) dx, pθ (x) = √ e− 2v (x−θ) .
2πv
La densité a posteriori s’écrit
n n
( )
Y 1 1 X
π(θ X) ∝ π(θ) pθ (Xi ) ∝ exp − 2 (θ − µ)2 − (Xi − θ)2
2σ 2v
i=1 i=1
 
1 1
∝ exp − 2 (θ2 − 2µθ) − (nθ2 − 2nX n θ)
2σ 2v
 −2 −1 µσ −2 + nv −1 X n
 
σ + nv 2
∝ exp − θ − 2θ
2 σ −2 + nv −1
( 2 )
σ −2 + nv −1 µσ −2 + nv −1 X n

∝ exp − θ− .
2 σ −2 + nv −1

Ainsi
µσ −2 + nv −1 X n
 
1
Π[· X] = N , −2 . (1)
σ −2 + nv −1 σ + nv −1
−2 −1
Donc la famille considérée est conjuguée. La moyenne a posteriori vaut E[θ X] = µσσ−2+nv Xn
+nv −1
. On
peut noter que cette moyenne a posteriori est une moyenne pondérée entre la moyenne µ de la loi a
priori et la moyenne empirique X n des observations :

σ −2 nv −1
E[θ X] = µ + X n.
σ −2 + nv −1 σ −2 + nv −1
En particulier, plus le nombre n d’observations est grand et moins la loi a priori affecte la loi a
posteriori.

Exercice 3 (A priori impropre)


1. Notons que
n n  
1 − (Xi −θ)2 (X1 −θ)2
Z Y Z Y Z
1
pθ (Xi ) dθ = √ e 2 dθ ≤ √ e− 2 dθ = 1 < +∞.
R i=1 R i=1 2π R 2π

Ainsi le dénominateur dans la formule de Bayes est fini et la loi a posteriori est bien définie. Pour
θ ∈ R, la densité a posteriori est donnée par
n
Y 1 (Xi −θ)2
√ e− 2
2π n 2
π(θ X1 , . . . , Xn ) = Z i=1
n ∝ e− 2 (θ−X n ) .
Y 1 (Xi −θ)2
√ e− 2 dθ
R i=1 2π

On en déduit Π[· X] = N X n , n1 .

2. (a) On prend Θ = N∗ l’ensemble des valeurs possibles pour le nombre total de tramways dans la
ville. Sachant qu’il y a N tramways dans la ville, le numéro du premier tramway observé est
supposé uniformément distribué entre 1 et N . Plus formellement

N ∼Π
X N ∼ Unif({1, . . . , N }),

où Π est une loi a priori sur N∗ à choisir.


(b) Si l’onPne veut vraiment rien supposer a priori, on est tenté de prendre l’a priori impropre
Π = m≥1 δm , i.e. attribuer à chaque nombre de tramways possible le même poids 1. Le
problème avec ce choix est que, pour tout X ∈ N∗ , on a
Z ∞ ∞
X 1 X 1
pn (X) dΠ(n) = 1X∈{1,...,n} = = +∞ .
N∗ n n
n=1 n=X

Cet a priori est donc « trop impropre » : la loi a posteriori n’est pas définie.
(c) On considère maintenant, pour k ≥ 2 donné,

N ∼Π
X = (X1 , . . . , Xk ) N ∼ Unif({1, . . . , N })⊗k ,

On a alors, pour X = (X1 , . . . , Xk ) ∈ (N∗ )k ,


P
avec à nouveau Π = m≥1 δm .

Z ∞ Y
k   ∞ (k) X −1
X 1 X 1 X 1
pn (X) dΠ(n) = 1Xi ∈{1,...,n} = = ζ(k) − ,
N∗ n nk nk
n=1 i=1 n=X(k) n=1

où X(k) = max(X1 , . . . , Xk ) et ζ est la fonction zêta de Riemann, définie sur ]1, ∞[. Dès que
k ≥ 2, cette somme est finie et la loi a posteriori est bien définie. On a alors, pour tout n ∈ N∗ ,
1
π(n X1 , . . . , Xk ) ∝ 1n≥X(k) .
nk
Pour essayer de répondre à la question du nombre total de tramways dans la ville, on peut par
exemple considérer la moyenne a posteriori E[N X] (nous verrons pourquoi dans la suite du
cours), qui existe dès que k ≥ 3 et vaut alors :
P∞ 1 PX(k) −1 1
n=X(k) nk−1 ζ(k − 1) − n=1 nk−1
E[N X] = P∞ 1 = PX(k) −1 1 .
n=X(k) nk ζ(k) − n=1 nk

Par exemple, lorsque k = 3 et X(3) = 100, E[N X] ≈ 199.


Remarque : Si α > 1 et n0 > 1, l’encadrement série/intégrale (faire un dessin) donne
Z ∞ ∞ Z ∞
1 1 X 1 1 1
= dx ≤ ≤ dx = ,
(α − 1)n0α−1 n0 x α
n=n
n α
0
n0 −1 x
α (α − 1)(n0 − 1)α−1

d’où, si k ≥ 3 et X(k) > 1,


 k−2 P∞ 1  k−2
k−1 1 n=X(k) nk−1 k−1 1
1− (X(k) − 1) ≤ P∞ 1 ≤ 1+ X(k) .
k−2 X(k) n=X(k) nk k−2 X(k) + 1
Donc si X(k) ≫ 1, on obtient
P∞ 1
n=X(k) nk−1 k−1
E[N X] = P∞ ≈ X .
1
n=X(k) nk k − 2 (k)

En revenant à l’exemple numérique ci-dessus où k = 3 et X(3) = 100, on retrouve bien


E[N X] ≈ 200.

Exercice 4 (Bayésien empirique)


1. Modèle exponentiel.
(a) La loi marginale de X1 a pour densité
Z Z +∞ Z +∞
λ
fλ (x) = pθ (x) dΠλ (θ) = θe−θx 1x≥0 λe−λθ dθ = 1x≥0 θ(λ + x)e−(λ+x)θ dθ
Θ 0 λ+x 0
λ λ
= 1x≥0 E[E(λ + x)] = 1x≥0 .
λ+x (λ + x)2
(b) La densité marginale de (X1 , . . . , Xn ) s’écrit, calculée aux points observés,
Z Y n Z ∞ Z ∞
n −nX n θ −λθ λ
pθ (Xi ) dΠλ (θ) = θ e λe dθ = θn (λ + nX n )e−(λ+nX n )θ dθ
Θ i=1 0 λ + nX n 0
λ n!λ
= E[(E(λ + nX n ))n ] = .
λ + nX n (λ + nX n )n+1
Remarque : dans l’intégrale ci-dessus, pour laquelle on a utilisé le moment d’ordre n d’une loi
exponentielle, on peut aussi passer par la densité d’une loi γ(n + 1, λ + nX n ).
(c) Il suffit donc de trouver le point où le maximum de cette densité est atteint, ce qui revient à
déterminer le maximum de
ψ(λ) = log(n!) + log λ − (n + 1) log(λ + nX n ).
On annule la dérivée et on trouve que λb = X n , après avoir vérifié qu’il s’agit bien d’un maximum
(la dérivée est positive puis négative donc c’est bien le cas). La loi a posteriori finale suggérée
par la méthode est donc Πλb [· X]. On calcule la densité a posteriori pour tout λ fixé

πλ (θ X) ∝ θn e−(λ+nX n )θ 1θ≥0 .
Donc Πλ [· X] est une loi γ(n + 1, λ + nX n ). Ainsi, la pseudo-loi a posteriori est une loi

γ n + 1, (n + 1)X n .
On remarque que la pseudo-moyenne a posteriori est 1/X n . Elle coïncide donc ici avec l’esti-
mateur du maximum de vraisemblance pour θ dans ce modèle.
2. Modèle Poisson.
(a) La variable X1 est à valeurs dans N. Pour tout x ∈ N, sa densité en x par rapport à la mesure
de comptage est
Z +∞ x
λ +∞ x −(λ+1)θ
Z Z
θ −θ −λθ
fλ (x) = pθ (x) dΠλ (θ) = e λe dθ = θ e dθ,
Θ 0 x! x! 0
donc  x
λ Γ(x + 1) λ 1 λ
fλ (x) = = = .
x! (λ + 1)x+1 (λ + 1)x+1 λ+1 λ+1
C’est bien une loi géométrique à valeurs dans N et de paramètre λ/(λ + 1).
(b) De même, la densité marginale de (X1 , . . . , Xn ) s’écrit, calculée aux points observés,
n
θnX n −nθ −λθ
Z Y Z Z
λ
pθ (Xi ) dΠλ (θ) = Qn e λe dθ = Qn θnX n e−(n+λ)θ dθ
i=1 i=1 Xi ! i=1 Xi !

λ Γ(nX n + 1)
= Qn .
X !
i=1 i (λ + n)
1+nX n

(c) Il suffit donc de trouver le point où le maximum de cette densité est atteint, ce qui revient à
déterminer le maximum de

ψ(λ) = log λ − (1 + nX n ) log(λ + n).

On annule la dérivée et on trouve que, si X n ̸= 0, alors λ b = 1/X n , après avoir vérifié qu’il
s’agit bien d’un maximum (la dérivée est positive puis négative donc c’est bien le cas). La loi a
posteriori finale suggérée par la méthode est donc Πλb [· X]. On calcule la densité a posteriori
pour tout λ fixé
πλ (θ X) ∝ θnX n e−(n+λ)θ 1θ≥0 .
Donc Πλ [· X] est une loi Gamma(nX n + 1, n + λ). On en conclut
 
nX n + 1
Πλb [· X] = γ nX n + 1, .
Xn

On remarque que la pseudo-moyenne a posteriori est X n . Elle coïncide donc à nouveau avec
l’estimateur du maximum de vraisemblance pour θ dans ce modèle.
3. Modèle gaussien.
(a) Première méthode :
Pour calculer l’estimateur du maximum de vraisemblance marginale, on n’a pas besoin de
déterminer exactement la densité fµ (X) = fµ (X1 , . . . , Xn ), mais seulement à une constante
indépendante de µ près.
Z Y n   Z
1 1 2 1 1 2 µ2 n 2 1 2
fµ (X) = √ e− 2 (Xi −θ) √ e− 2 (θ−µ) dθ ∝µ,θ e− 2 e− 2 θ +nX n θ− 2 θ +θµ dθ
i=1
2π 2π
2
(nX n +µ)2 2 (nX n +µ)2
Z 
µ2 − n+1 θ− nX n +µ
− µ + 2(n+1) − n (µ−X n )2
∝µ,θ e− 2 e 2 n+1
e 2(n+1) dθ ∝µ e 2 ∝µ e 2(n+1) .

Le maximum en µ de la densité marginale de X est donc atteint pour µ = X n .


Deuxième méthode :
Soient θ ∼ N (µ, 1) et X|θ ∼ N (θ1, In ). Il apparaît que X − θ1 et θ sont indépendants puisque
L
par définition X − θ1|θ ∼ N (0, In ), loi qui ne dépend pas de θ. Ainsi X = θ1 + (X − θ1) =
θ1 + Z, où Z ∼ N (0, In ), θ1 ∼ N (µ1, Jn ), où Jn = 1t 1 est la matrice uniquement composée
de 1, et Z ⊥ ⊥ θ. Le vecteur X est donc gaussien de loi N (µ1, Σ) avec Σ = In + Jn . Puisque
Jn = nP , où P est la matrice de projection sur Vect(1), Jn admet n comme valeur propre
simple (associée au vecteur propre 1) et 0 comme valeur propre de multiplicité (n − 1), donc Σ
admet (n + 1) comme valeur propre simple (associée au vecteur propre 1) et 1 comme valeur
propre de multiplicité (n − 1). En particulier Σ est inversible et Σ−1 1 = n+1 1
1.
Remarque : On aurait aussi pu simplement affirmer qu’en prenant θ ∼ N (µ, 1) indépendant
des variables (Y1 , . . . , Yn ) elles-mêmes i.i.d. selon une loi N (0, 1), alors la construction bayésienne
de l’énoncé revient à dire qu’en loi, on a Xi = θ + Yi pour tout i. Les (n + 1) variables θ et
(Y1 , . . . , Yn ) étant gaussiennes indépendantes, le vecteur X est gaussien. Par contruction les Xi
sont de même loi et de moyenne µ. Par ailleurs, un calcul immédiat donne Var(Xi ) = 2 pour
tout i, et Cov(Xi , Xj ) = 1 pour tout i ̸= j, ce qui correspond bien à la matrice Σ.
Cherchons maintenant µ b, l’estimateur du maximum de vraisemblance marginal. Puisque Σ est
inversible, X a une densité fµ par rapport à la mesure de Lebesgue sur Rn , définie pour tout
x ∈ Rn par
1 t
− 12 (x−µ1)Σ−1 (x−µ1)
fµ (x) = n 1 e .
(2π) 2 |Σ| 2
Maximiser en µ la vraisemblance fµ (X) revient à minimiser
t
(X − µ1)Σ−1 (X − µ1),

ce qui équivaut à minimiser, en tenant compte du fait que Σ−1 1 = 1


n+1 1,

n n
(t 1Σ−1 1)µ2 − 2(t XΣ−1 1)µ = µ2 − 2 X n µ.
n+1 n+1

On obtient l’estimateur µb = X n.
 à la loi apriori Πµ = N (µ, 1) est, par le calcul habituel
(b) La loi a posteriori correspondant
(voir l’équation (1)), une loi N nXn+1
n +µ 1
, n+1 , on obtient comme pseudo-loi a posteriori la loi
 
1
N X n , n+1 . On remarque que cette loi est centrée en le maximum de vraisemblance X n pour
ce modèle.

Exercice 5 (Famille gaussienne conjuguée dans Rd )


1. Soit X θ ∼ N (θ, Σ)⊗n et θ ∼ Π = N (µ, Λ). La formule de Bayes donne
n
( )
1X 1
π(θ X) ∝ exp − (Xi − θ)′ Σ−1 (Xi − θ) − (θ − µ)′ Λ−1 (θ − µ) .
2 2
i=1

Il suffit de regrouper les termes en θ pour former une nouvelle forme quadratique dans l’exponentielle,
de la forme − 21 (θ − mX )′ Σ−1
X (θ − mX ). On cherche donc mX , ΣX tels que, en développant chaque
forme quadratique,

θ′ (nΣ−1 + Λ−1 )θ − 2(µ′ Λ−1 + (nX n )′ Σ−1 )θ = θ′ Σ−1 ′ −1


X θ − 2mX ΣX θ.

En identifiant, il suffit donc de poser

ΣX = (nΣ−1 + Λ−1 )−1

et de choisir mX tel que


m′X Σ−1 ′ −1
X =µΛ + (nX n )′ Σ−1 ,
ce qui donne mX = ΣX (Λ−1 µ + nΣ−1 X n ).
2. La famille {N (µ, Λ), µ ∈ Rd , Λ ∈ Sd++ (R)} est donc conjuguée pour le modèle {N (θ, Σ)θ∈Rd } pour
toute matrice Σ ∈ Sd++ (R) fixée.

Exercice 6 (A priori de Jeffreys)


1. Notons ψ = φ−1 et qη = pψ(η) , soit pθ = qφ(θ) . L’information de Fisher J(η) dans le modèle paramétré
par η s’exprime en fonction de celle I(θ) dans le modèle paramétré par θ. En effet, qη′ = ψ ′ (η)p′ψ(η) ,
donc Z ′ Z p′ (x)2
qη (x)2 ψ(η)
J(η) = dµ(x) = ψ ′ (η)2 dµ(x) = ψ ′ (η)2 I(ψ(η)) ·
E q η (x) p
E ψ(η) (x)

Prenons Π l’a priori de Jeffreys dans le modèle paramétré par θ, de densité π(θ) = Λ1 I(θ) avec
p

Λ donné dans l’énoncé. Cherchons la densité de Π ◦ φ−1 , la mesure image de Π par φ. Soit f une
fonction mesurable bornée. Par le théorème de transfert et la définition de Π, on a
Z Z Z
−1 1 p
f (η) dΠ ◦ φ (η) = f (φ(θ)) dΠ(θ) = f (φ(θ)) I(θ) dθ .
φ(Θ) Θ Λ Θ

En effectuant le changement de variable η = φ(θ), on obtient


Z Z
1 1
f (η) I (φ−1 (η)) (φ−1 )′ (η) dη
p p
f (φ(θ)) I(θ) dθ =
Λ Θ Λ φ(Θ)
Z
1 p
= f (η) J(η) dη ,
Λ φ(Θ)

où l’onpa utilisé l’expression de J(η) donnée plus haut. Ainsi la mesure image Π ◦ φ−1 a pour densité
1
η 7→ Λ J(η). C’est donc bien l’a priori de Jeffreys dans le modèle paramétré par η.
2. (a) L’information de Fisher est donnée par
1
∀θ ∈]0, 1[ , I(θ) = ·
θ(1 − θ)

Ainsi la loi a priori de Jeffreys est celle dont la densité π(θ) est proportionnelle à
1 1
I(θ) = θ− 2 (1 − θ)− 2 .
p
π(θ) ∝

On reconnaît la densité d’une loi Beta( 21 , 12 ).


(b) Ici I(θ) = 1 pour tout θ ∈ R. L’a priori de Jeffreys est donc la mesure de Lebesgue sur R. Il
s’agit d’un a priori impropre.
(c) Pour tout θ ∈ R∗+ , la log-vraisemblance est donnée par

ℓθ (X) = −θ + X ln(θ) − ln(X!) ,

et en dérivant par rapport à θ, on obtient le score


X
ℓ′θ (X) = −1 + ·
θ
Cette variable possède bien un moment d’ordre 2 et l’on a
1 1
I(θ) = Eθ ℓ′θ (X)2 = 2 Varθ (X) = .
 
θ θ

L’a priori de Jeffreys est l’a priori impropre de densité θ 7→ θ−1/2 par rapport à la mesure de
Lebesgue sur R∗+ .

Exercice 7 (⋆) (Famille de Dirichlet et modèle multinomial)


1. (a) Soit Z = (Z1 , . . . , ZK ) ∼ Dir(a), où a = (a1 , . . . , aK ).
Première méthode. Soit φ : R → R continue bornée. On commence par remarquer qu’intégrer
sur le simplexe SK , c’est en fait intégrer sur {z ∈ [0, 1]K−1 , K−1
P
i=1 z i ≤ 1} (et zK est alors donné
par 1 − z1 − · · · − zK−1 ) :
 aK −1
Z K−1 K−1
1 Y X
E[φ(Z1 )] = φ(z1 ) ziai −1 1 − zj  1{PK−1 zi ≤1} dz1 . . . dzK−1 .
B(a) [0,1]K−1 i=1 j=1
i=1

En intégrant d’abord sur z1 puis sur le reste, il vient


 aK −1
Z K−1
Y K−1
X
φ(z1 ) ziai −1 1 − zj  1{PK−1 zi ≤1} dz1 . . . dzK−1
i=1
[0,1]K−1 i=1 j=1
  aK −1 
Z 1 Z K−1
Y K−1
X
= φ(z1 )z1a1 −1  ziai −1 1 − z1 − zj  1{PK−1 zi ≤1−z1 } dz2 . . . dzK−1  dz1
 
i=2
0 [0,1−z1 ]K−2 i=2 j=2

zj
et en effectuant, pour z1 fixé, le changement de variable uj = 1−z1 pour j = 2, . . . , K − 1 (de
jacobien (1 − z1 )K−2 ), on a
 aK −1
Z K−1
Y K−1
X
ziai −1 1 − z1 − zj  1{PK−1 zi ≤1−z1 } dz2 . . . dzK−1
i=2
[0,1−z1 ]K−2 i=2 j=2
 aK −1
PK
Z K−1
Y K−1
X
= (1 − z1 ) j=2 aj −1
uai i −1 1 − uj  1{PK−1 ui ≤1} du2 . . . duK−1 .
i=2
[0,1]K−2 i=2 j=2

Enfin, en remarquant que


 aK −1
Z K−1
Y K−1
X
uiai −1 1 − uj  1{PK−1 ui ≤1} du2 . . . duK−1
i=2
[0,1]K−2 i=2 j=2
QK
j=2 Γ(aj )
= B(a2 , . . . , aK ) = PK ,
Γ( j=2 aj )

on obtient
PK
Γ( 1
j=1 aj )
Z PK
E[φ(Z1 )] = φ(z1 )z1a1 −1 (1 − z1 ) j=2 aj −1
dz1 .
Γ(a1 )Γ( K
P
j=2 aj ) 0

Autrement dit, Z1 ∼ Beta(a1 , K


P
j=2 aj ).
Seconde méthode. On note f (z1 ) la densité de Z1 et on utilise le symbole ∝, sous-entendu
∝z1 . Puisque la densité jointe de z = (z1 , . . . , zK−1 ) par rapport à la mesure de Lebesgue sur
RK−1 vaut
 aK −1
K−1 K−1
1
ziai −1 1 −
Y X
f (z1 , . . . , zK−1 ) = zj  1{z∈[0,1]K−1 , PK−1 zi ≤1} ,
B(a) i=1
i=1 j=1

ou encore
 aK −1
K−1 K−1
f (z1 , . . . , zK−1 ) ∝ z1a1 −1 ziai −1 1 − z1 −
Y X
zj  1{z∈[0,1]K−1 , PK−1 zi ≤1−z1 } ,
i=2
i=2 j=2
la marginalisation donne, pour tout z1 ∈ [0, 1],
 aK −1
Z K−1 K−1
f (z1 ) ∝ z1a1 −1 ziai −1 1 − z1 −
Y X
zj  1{PK−1 zi ≤1−z1 } dz2 . . . dzK−1
i=2
[0,1−z1 ]K−2 i=2 j=2

zj
En effectuant, pour z1 fixé, le changement de variable uj = 1−z1 pour j = 2, . . . , K − 1 (de
jacobien (1 − z1 )K−2 ), on en déduit
 aK −1
PK
Z K−1 K−1
f (z1 ) ∝ z1a1 −1 (1−z1 ) aj −1
uai i −1 1 −
Y X
j=2 uj  1{PK−1 ui ≤1} du2 . . . duK−1
i=2
[0,1]K−2 i=2 j=2

où le terme intégral a le bon goût de ne plus dépendre de z1 , donc


PK
f (z1 ) ∝ z1a1 −1 (1 − z1 ) j=2 aj −1

ce qui prouve que Z1 ∼ Beta(a1 , K


P
j=2 aj ).
(b) On se place dans le cadre bayésien :

p = (p1 , . . . , pK ) ∼ Π = Dir(a), avec a = (a1 , . . . , aK ) ∈ (R∗+ )K


K
!⊗n
X
X p∼ pk δ k .
k=1

Autrement dit, conditionnellement à p, les variables X1 , . . . , Xn sont i.i.d. à valeurs dans


{1, . . . , K}, de loi donnée par

∀k ∈ {1, . . . , K}, P(X1 = k p) = pk .

La loi a posteriori s’écrit


K n Y
K
1Xi =k
pakk −1 1p∈SK
Y Y
π(p X) ∝ pk
k=1 i=1 k=1
K
pkak +Nk −1 1p∈SK ,
Y

k=1
Pn
où l’on a noté Nk = i=1 1Xi =k le nombre d’observations égales à k dans l’échantillon. Ainsi
Π[p X] = Dir(a1 + N1 , . . . , aK + NK ). La famille des lois de Dirichlet est donc bien conjuguée
pour ce modèle.
2. (a) Pour tout j ∈ {1, . . . , K}, la variable Nj suit une loi binomiale B(n, pj ).
(b) Pour avoir Nj = nj pour tout j, il faut
i. choisir une partition de {1, . . . , n} en K sous-ensembles U1 ∪ · · · ∪ UK de tailles respectives
n

n1 , . . . , nK . Il y a, par définition, n1 ,...,nK façons de faire cela.
ii. pour une partition fixée, la probabilité que les observations (Xi )i∈Uk soient toutes égales à
k vaut pnk k , pour tout 1 ≤ k ≤ K.
On note enfin qu’il faut avoir K
P
j=1 nj = n, puisque
XX XX X
1Xi =j = 1Xi =j = 1 = n.
j i i j i
(c) Soit
p = (p1 , . . . , pK ) ∼ Π = Dir(a), avec a = (a1 , . . . , aK ) ∈ (R∗+ )K
N = (N1 , . . . , NK ) p ∼ Mult(n, p1 , . . . , pK ).
La loi a posteriori s’écrit
K K
pakk −1 1p∈SK
Y Y
π(p N ) ∝ pN
k
k

k=1 k=1
K
pkak +Nk −1 1p∈SK ,
Y

k=1

Ainsi Π[p N ] = Dir(a1 + N1 , . . . , aK + NK ). La famille des lois de Dirichlet est donc bien
conjuguée pour ce modèle.

Exercice 8 (Estimateur de Laplace-Bayes)


1. S’il y a r boules rouges dans l’urne, alors, pour x ∈ {0, . . . , r}, on a
r N −r
 
x n−x
Pr (X = x) = N
 .
n

En effet, le nombre total de tirages possibles est N



 −r n , et le nombre de tirages qui donnent x boules
rouges est xr N n−x (on choisit x boules parmi les r boules rouges et n − x parmi les N − r boules
noires). La loi conditionnelle de X sachant r, notée Pr , est la loi hypergéométrique de paramètre
(N, n, r).
2. La loi conditionnelle de r sachant X est donnée par
r N −r
1 (X )(n−X ) rN −r
  r
 N −r

N +1 (N )n X
n−X X n−X
π(r X) = k N −k = PN k
 N −k  = N +1
·
1 ( )(n−X )

PN X k=0 X n−X n+1
k=0 N +1 N
(n)
 PN +1 k−1 N +1−k
où l’on a utilisé la formule donnée en indication sous la forme : N +1
n+1 = k=1 X n−X . En
effet, si on considère N + 1 boules numérotées et on s’intéresse au nombre de façons de tirer (sans
prendre en compte l’ordre) n + 1 boules parmi ces N + 1 boules. On met les boules ainsi tirées dans
l’ordre et on regarde la X + 1-ème boules ainsi obtenue. Si celle-ci vaut k, cela veut dire qu’il y a
X boules prenant leurs valeurs dans {1, . . . , k − 1} (et donc k−1
X façons de les choisir) et N − X
N +1−k

boules prenant leurs valeurs dans {k + 1, . . . , N + 1 (et donc N −X façons de les choisir), ce qui
nous fait k−1
 N +1−k
X N −X tirages tels que la X + 1-ème plus grande boule vaille k. On obtient ainsi (en
sommant sur tous les k possibles)
  NX
+1   
N +1 k−1 N +1−k
= .
n+1 X n−X
k=1

Une autre preuve, analytique, est la suivante : on commence par montrer par récurrence que pour
tout n ∈ N⋆ :
∞  
1 X n+j−1
= Xj,
(1 − X)n j
j=0
1 1
puis on développe de deux manières (1−X)n+1
× (1−X)m+1
.
3. Notons E l’événement « la (n + 1)ième boule tirée est rouge ». Par la formule des probabilités totales
appliquée, on a pour tout x ≤ N
N
X
P(E X = x) = π(r X = x)P(E X = x, R = r).
r=x

Or
r−x
P(E X = x, R = r) = ·
N −n
Ainsi
N r N −r
 
X x n−x r−x
P(E X = x) = N +1
·
N −n

r=x n+1
N   
(x + 1) X r N −r
= N +1 n−x

(N − n) n+1 r=x
x+1
N +1

x+1 n+2
= · N +1
N −n

n+1
x+1
= ·
n+2

Puisque cette formule est valable pour tout x ≤ N , on a donc


X +1
P(E X) = ·
n+2

Exercice 9 (Identifiabilité)
1. Soit (εi )i≥1 une suite de variables aléatoires i.i.d. de loi de Bernoulli B(p). Alors la variable Y a la
même loi que
XX
εi .
i=1

On a que L(X) = P(λ) et X et les εi sont indépendantes.


(a) Les variables aléatoires X et Y sont à valeurs dans N, avec par construction Y ≤ X. De plus,
pour tous 0 ≤ y ≤ x,

P(Y = y et X = x)
P(Y = y X = x) =
P(X = x)
Px
P ( i=1 εi = y et X = x)
=
P(X = x)
x
Px !
P ( i=1 εi = y) P(X = x) X
= =P εi = y ,
P(X = x)
i=1
Px
où l’on a utilisé l’indépendance de X et des εi . Or i=1 εi suit une loi binomiale B(x, p), donc
la loi L(Y X = x) est une B(x, p), i.e.
 
x y
P(Y = y X = x) = P(B(x, p) = y) = p (1 − p)x−y .
y
(b) Le modèle statistique s’écrit P = {Pλ,p , (λ, p) ∈ R+
∗ ×]0, 1[}, où Pλ,p est la loi du couple (X, Y ).
Pour déterminer cette loi, il suffit de se donner P(X = x, Y = y) pour tous x, y ∈ N. On a

P(X = x, Y = y) = P(X = x)P(Y = y X = x)


= P(P(λ) = x)P(B(x, p) = y)
λx
 
x y
= p (1 − p)x−y e−λ .
y x!
On peut aussi noter que se donner la loi jointe de (X, Y ) est équivalent à se donner les lois
L(Y X) et L(X), ce qui revient à la première identité de la série d’égalités précédente.
Montrons que ce modèle est identifiable. Supposons Pλ1 ,p1 = Pλ2 ,p2 . Alors si X, Y suivent cette
même loi, on a Eλ1 ,p1 [X] = E[P(λ1 )] = λ1 et de même Eλ2 ,p2 [X] = E[P(λ2 )] = λ2 . Les deux
lois étant les mêmes, les espérances sont égales soit λ1 = λ2 . Puis notons que
 
Eλ1 ,p1 [Y ] = Eλ1 ,p1 Eλ1 ,p1 [Y X]
 
= Eλ1 ,p1 Eλ1 ,p1 [B(X, p1 ) X] = Eλ1 ,p1 [Xp1 ] = λ1 p1 .

En écrivant ceci sous Pλ2 ,p2 et en utilisant le fait que les espérances sont égales on obtient
λ1 p1 = λ2 p2 . Donc p1 = p2 car λ1 = λ2 > 0. Le modèle est donc identifiable.
(c) Puisque Eλ,p [X] = λ et Eλ,p [Y ] = λp, la méthode des moments incite à proposer
n
bn = 1
X
λ Xi = X n
n
i=1
Yn
pbn = 1 .
X n X n >0

En effet la LFGN implique que λ bn converge p.s. vers Eλ,p [X] = λ > 0 et que Y n converge p.s.
vers Eλ,p [Y ] = λp. Ceci assure que pbn converge p.s. vers λp/λ = p.
Remarque : la méthode du maximum de vraisemblance mène aux mêmes estimateurs. En effet,
la vraisemblance de l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) en (λ, p) vaut
n 
λXi

Y Xi Yi
Ln (λ, p) = p (1 − p)Xi −Yi e−λ = CpnY n (1 − p)n(X n −Y n ) e−nλ λnX n ,
Yi Xi !
i=1

où C ne dépend ni de λ ni de p. La log-vraisemblance s’en déduit :

ℓn (λ, p) = log C + nY n log p + n(X n − Y n ) log(1 − p) − nλ + nX n log λ,

de dérivées partielles respectives


 
∂ℓn Xn
(λ, p) = n −1 ,
∂λ λ
et
∂ℓn Y n − pX n
(λ, p) = n .
∂p p(1 − p)
On peut noter que si X n = 0, alors Y n = 0 (par construction du modèle, puisqu’on a toujours
0 ≤ Y n ≤ X n ), auquel cas la log-vraisemblance vaut log C − nλ, maximale en (λ bn , pbn ) = (0, p)
pour tout 0 < p < 1. Noter que, en toute rigueur, ce n’est pas un estimateur du maximum de
vraisemblance car 0 n’est pas une valeur possible de λ pour une loi de Poisson. Si X n > 0 (ce
qui arrive p.s. asymptotiquement par la LFGN), l’unique maximum est obtenu en annulant les
dérivées partielles ci-dessus, et l’on retrouve le couple (λ
bn , pbn ) de la méthode des moments.
2. (a) Pour tout y ∈ N, on a

X ∞
X
P(Y = y) = P(X = x , Y = y) = P(X = x)P(Y = y X = x)
x=y x=y
∞ 
λx

X x y
= p (1 − p)x−y e−λ
x=y
y x!

(λp)y X (1 − p)x−y λx−y
= e−λ
y! x=y (x − y)!

y X
−λ (λp) (1 − p)k λk
=e
y! k!
k=0
(λp)y λ(1−p) (λp)y
= e−λ e = e−λp = P(P(λp) = y).
y! y!
Ainsi la loi de Y est une loi de Poisson P(λp).
(b) Si le paramètre d’intérêt est toujours le couple (λ, p), le modèle statistique associé s’écrit P =
{Qλ,p , (λ, p) ∈ R+
∗ ×]0, 1[}, où Qλ,p est la loi de Y décrite ci-dessus, c’est-à-dire la loi de Poisson
de paramètre λp. Ce modèle n’est pas identifiable. En effet, il suffit de choisir λ1 , λ2 , p1 , p2 avec
λ1 ̸= λ2 mais λ1 p1 = λ2 p2 (par exemple λ1 = 2, p1 = 1/4 et λ2 = 1, p1 = 1/2), car alors la loi
de Y sous chacune de ces lois est toujours P(λ1 p1 ) = P(λ2 p2 ).

Exercice 10 (Lois conditionnelles) Une solution consiste à passer par les fonctions caractéristiques.
Puisque X et Y sont indépendantes, on a en effet, pour tout réel u,
ΦS (u) = ΦX (u)ΦY (u).
Il “suffit” donc de connaître les fonctions caractéristiques des lois de X et de Y et de reconnaître celle
qui en découle pour S. Dans ce qui suit, nous faisons les calculs de deux manières : via les fonctions
caractéristiques d’une part, et d’autre part en calculant directement le produit de convolution des lois de
X et de Y .
1. Par les fonctions caractéristiques : pour tout réel u,
ΦS (u) = ΦX (u)ΦY (u) = exp(λ(eiu − 1)) exp(µ(eiu − 1)) = exp((λ + µ)(eiu − 1))
donc S ∼ P(λ + µ).
Produit de convolution : pour tout s ∈ N, on a
s
X
P(S = s) = P(X = k)P(Y = s − k)
k=0
s s  
X e−(λ+µ) λk µs−k e−(λ+µ) X s k s−k e−(λ+µ) (λ + µ)s
= = λ µ = ·
k!(s − k)! s! k s!
k=0 k=0

Ainsi S ∼ P(λ + µ).


Pour x, s ∈ N, on a
P(X = x)P(S = s X = x) P(X = x)P(Y = s − x)
P(X = x S = s) = =
P(S = s) P(S = s)
  x s−x
s λ µ
= ·
x (λ + µ)s
 
λ λ
Ainsi L(X S) = B S, λ+µ et E[X S] = λ+µ S.
2. Par les fonctions caractéristiques : pour tout réel u

ΦS (u) = ΦX (u)ΦY (u) = (1 − iu/λ)−r (1 − iu/λ)−t = (1 − iu/λ)−(r+t)

donc S ∼ γ(r + t, λ).


Produit de convolution : notons respectivement fX , fY et fS les densités en jeu. Puisque S ≥ 0, le
produit de convolution des densités s’écrit, pour tout s ≥ 0,
Z s r r−1 −λx t
λ (s − x)t−1 e−λ(s−x)
Z s
λ x e
fS (s) = fX (x)fY (s − x) dx = dx
0 0 Γ(r) Γ(t)

donc, via le changement de variable u = x/s,

λr+t sr+t−1 e−λs 1


λr+t sr+t−1 e−λs
Z
fS (s) = ur−1 (1 − u)t−1 du =
Γ(r)Γ(t) 0 Γ(r + t)

car on a reconnu dans l’intégrale la densité non normalisée d’une loi Beta(r, t). Ainsi S ∼ γ(r + t, λ).
Déterminons maintenant la densité de S|X. Soit φ une fonction borélienne bornée. Pour tout x,
   
E φ(S) X = x = E φ(x + Y ) X = x
= E [φ(x + Y )]
Z
= φ(x + y)fY (y) dy
ZR

= φ(s)fY (s − x) ds
R

où l’on a utilisé l’indépendance de X et Y . Ainsi, S|X = x a pour densité s 7→ fY (s − x).


Autre méthode : pour déterminer la densité de S|X, on commence par celle du couple (X, S). Soit
φ une fonction borélienne bornée de R2 dans R, alors l’indépendance de X et Y permet d’écrire, via
un changement de variable,
ZZ
E [φ(X, S)] = E [φ(X, X + Y )] = φ(x, x + y)fX (x)fY (y)dxdy

et le changement de variable s = x + y donne


ZZ
E [φ(X, S)] = φ(x, s)fX (x)fY (s − x)dxds,

ce qui montre que la densité jointe du couple (X, S) est fX (x)fY (s − x).
À présent, pour s > 0, la densité conditionnelle f de X sachant S = s est donnée, pour x > 0,
X S=s
par :
 x r−1  x t−1
f (x) ∝x fX (x)fY (s − x) ∝x xr−1 (s − x)t−1 10≤x≤s ∝x 1− 10≤ xs ≤1 .
X S=s s s
r
Cela correspond à la densité d’une variable s Beta(r, t). Ainsi X S ∼ S Beta(r, t) et E[X S] = r+t S.
3. Par les fonctions caractéristiques : si X ∼ B(n, p), alors ΦX (u) = ((1 − p) + peiu )n pour tout réel u,
d’où
ΦS (u) = ΦX (u)ΦY (u) = ((1 − p) + peiu )n ((1 − p) + peiu )m = ((1 − p) + peiu )n+m
donc S ∼ B(n + m, p).
Produit de convolution : pour tout s ∈ J0, n + mK, on a
s s   
X X n m
P(S = s) = P(X = k)P(Y = s − k) = pk (1 − p)n−k ps−k (1 − p)m−s+k
k s−k
k=0 k=0
s     
X n m s n+m−s n+m s
= p (1 − p) = p (1 − p)n+m−s
k s−k s
k=0

où l’on a utilisé l’identité de Vandermonde, à savoir que


s     
X n m n+m
= ,
k s−k s
k=0

laquelle peut se déduire des deux façons d’obtenir le coefficient de X s dans le polynôme

(1 + X)n+m = (1 + X)n (1 + X)m .

Ainsi S ∼ B(n + m, p).


Pour arriver au même résultat, une méthode plus rapide consiste à considérer des variables (Bi )1≤i≤n+m
i.i.d. selon la loi de Bernoulli B(p) et à voirPque, en loi, on a X = B1 + · · · + Bn et Y =
n+m
Bn+1 + · · · + Bn+m , de sorte que S = X + Y = i=1 Bi ∼ B(n + m, p). Pour x, s ∈ J0, n + mK, on a
n
 m
P(X = x)P(Y = s − x)
P(X = x S = s) = = x n+m
s−x
 ·
P(S = s) s

On reconnaît la loi hypergéométrique de paramètres (N, p, n) = (n + m, n/(n + m), s). On a donc


n
par l’indication de l’énoncé : E[X S] = n+m S. Ce résultat peut se retrouver comme suit :

S n m S−1 n+m−1
  
x n
  
X x S−x 1 X n−1 m S−1 n
E[X S] = n+m
 = n+m
 n = n+m
 = S
S S
x S−x−1 S
n+m
x=0 x=0

où l’on a à nouveau appliqué l’identité de Vandermonde.

Vous aimerez peut-être aussi