Statistiques Avancées : Correction TD 4
Statistiques Avancées : Correction TD 4
Correction du TD 4
Exercice 1 Dans tout l’exercice, le modèle statistique considéré est P = {ft · λR , t ∈ R}, qui est dominé
par la mesure de Lebesgue sur R, notée λR , et chaque loi du modèle indicée par t a pour densité ft .
1. La log vraisemblance s’écrit
n
X
ℓn (t) = ln f (Xi − t)
i=1
n
X
= −(n/2) ln(2πσ 2 ) − 1/(2σ 2 ) (Xi − t)2 .
i=1
D’après l’exercice 1 du TD 3, cette fonction est maximale pour t = X n donc l’EMV est θbn = X n .
On peut également remarquer que cette fonction est strictement concave en t, elle admet donc un
unique maximum, en son unique point critique. On peut enfin effectuer tout bonnement l’étude de
la fonction t 7→ ℓn (t).
2. Cette fois, la log-vraisemblance s’écrit
n
X
ℓn (t) = −n ln(2) − |Xi − t|.
i=1
de sorte que : h i
— Si n est pair : la médiane empirique est x1/2 (n) = X( n2 ) et tout point de l’intervalle X( n2 ) , X( n2 +1)
est un EMV ;
— Si n est impair : la médiane empirique est X( n+1 ) et c’est l’unique EMV.
2
Dans tous les cas, la médiane empirique est un EMV mais ce n’est pas forcément le seul.
3. La vraisemblance Ln (t) s’écrit
n
n !
3 Y
2
Ln (t) = 1 − (Xi − t) 1[X(n) −1,X(1) +1] (t).
4
i=1
Elle est nulle en dehors de [X(n) −1, X(1) +1], continue sur ce segment, donc elle atteint son maximum
en au moins un point de cet intervalle et l’existence d’un EMV est assuré. De plus pour t ∈]X(n) −
1, X(1) + 1[,
n
X
ℓn (t) = n ln(3/4) + ln(1 − (Xi − t)2 ).
i=1
1. Noter que les Xi sont p.s. distincts puisque la loi de Laplace est à densité, donc sans atome.
La recherche de points critiques revient cependant à trouver les racines d’un polynôme de degré
(2n − 1). En effet, en annulant la dérivée par rapport à t, on obtient
n
X (Xi − t)
= 0,
1 − (Xi − t)2
i=1
Donc l’EMV n’est pas explicite. Nous pouvons cependant l’approcher numériquement.
Exercice 2
1. Comme E[X1 ] = 2θ/(1 − θ), on a θ = E[X1 ]/(2 + E[X1 ]). Ainsi, l’estimateur empirique associé est
Xn
θbn = .
2 + Xn
Notons que θbn < 1 mais on peut avoir θbn = 0 avec probabilité strictement positive, égale à (1 − θ)2n .
2. Ici, le modèle statistique considéré est P = {ft · νN , t ∈]0, 1[}, où pour tout x ∈ N,
Ce modèle est dominé par la mesure de comptage sur N, notée νN , et chaque loi du modèle indicée
par t a pour densité ft . Ainsi, nous avons pour tout t ∈]0, 1[
n
X n
X
ℓn (t) = ln ft (Xi ) = 2n ln(1 − t) + nX n ln(t) + ln(Xi + 1),
i=1 i=1
d’où
ℓ′n (t) = −2n(1 − t)−1 + nX n t−1 ,
qui est positive si et seulement si t ≤ θbn , où θbn est défini à la question précédente. Ainsi, si θbn > 0
(i.e. X n > 0), alors la fonction t 7→ Ln (t) atteint son maximum sur ]0, 1[ en θbn et l’EMV vaut
θen = θbn . Si θbn = 0 (i.e. X n = 0), alors la vraisemblance est strictement décroissante sur ]0, 1[ donc
dans le cas où X n = 0, l’EMV n’est pas défini. On peut cependant noter que
Pθ (X n = 0) = (1 − θ)2n
qui tend vers 0 à vitesse géométrique. Ainsi, on peut dire que l’EMV est défini avec une probabilité qui
tend vers 1, ce qui suffit lorsqu’on s’intéresse à ses propriétés lorsque n tend vers l’infini (consistance,
normalité asymptotique).
3. La LFGN appliquée aux Xi i.i.d. intégrables donne que X n converge p.s. vers E[X1 ], donc par le
théorème de continuité θbn converge p.s. vers θ. Ainsi, θbn est fortement consistant. Le TCL appliqué
aux Xi i.i.d. de carré intégrable donne
√ d
n(X n − 2θ/(1 − θ)) −−−→ N (0, 2θ/(1 − θ)2 ).
n→∞
La méthode delta appliquée avec la fonction g(x) = x/(2 + x) = 1 − 2/(2 + x), qui est dérivable en
x = 2θ/(1 − θ) > −2 de dérivée
2 2 (1 − θ)2
g ′ (x) = = = ,
(2 + x)2 (2 + 2θ/(1 − θ))2 2
donne √
d
n θbn − θ −−−→ N (0, 2θ/(1 − θ)2 × (1 − θ)4 /4) = N (0, θ(1 − θ)2 /2).
n→∞
Exercice 3
1. Ici, le modèle statistique considéré est P = {ft · λR , t ∈ R}, qui est dominé par la mesure de Lebesgue
sur R, notée λR , et chaque loi du modèle indicée par t a pour densité ft . Il s’agit d’un modèle de
translation, puisque X1 est de même loi que Y + θ, où Y est de loi exponentielle de paramètre 1 (de
densité f0 ). La vraisemblance d’un paramètre t au regard de l’échantillon X1 , . . . , Xn s’écrit
n
!
X
Ln (t) = exp − Xi + nt 1t≤X(1) .
i=1
La fonction de vraisemblance t 7→ Lt (X1 , . . . , Xn ) est nulle si t > X(1) et croissante pour t ≤ X(1) ,
donc elle atteint son maximum pour θbn = X(1) , qui est par conséquent l’estimateur du maximum de
vraisemblance de θ.
On pourrait aussi proposer un estimateur par la méthode des moments : comme EX1 = θ + EY =
θ + 1, ceci conduit à considérer l’estimateur X n − 1. Il est cependant moins bon que l’EMV car il
√
converge à vitesse 1/ n par le TCL, alors que θbn converge à vitesse 1/n, comme vont le montrer les
questions suivantes. On pourrait enfin proposer un estimateur basé sur la médiane empirique mais
√
il converge lui aussi à vitesse 1/ n (le vérifier).
2. Nous avons, pour tout x ≥ θ :
Pθ [θbn − c ≤ θ ≤ θbn ] = 1 − α.
est intervalle de confiance de niveau (1 − α) pour θ, et ce quel que soit dα ≥ 0. La raison conduit
à prendre l’intervalle de confiance le plus court, c’est-à-dire celui correspondant à dα = 0. Nous
retombons ainsi sur le même résultat que celui exhibé précédemment.
3. (a) On rejette H0 si I1−α ∩ R+ = ∅ : d’après le cours, ceci fournit un test de niveau α. La puissance
du test est donnée pour tout θ par
En particulier, on remarque que le test est de taille 0, il est donc bien de niveau α, mais cette
situation ne semble pas idéale : on s’attend plutôt à π(0) = 0.05 si le test était de taille 0.05.
C’est l’objet de la suite.
(b) A priori, un test logique consiste à rejeter H0 si θbn < cα tel que
car la fonction θ 7→ Pθ (E < n(cα − θ)) est décroissante. Dès lors, on choisit cα tel que
c’est-à-dire
ln(1 − α)
cα = −
n
et on vérifie que cα ≥ 0. Donc la région de rejet est {θbn < − ln(1 − α)/n}. Le test ainsi construit
est bien de taille α, c’est-à-dire
Notons que le test proposé précédemment (via le lien avec l’intervalle de confiance) était bien
de niveau α (et même de niveau 0), mais pas de taille α. Ceci est illustré Figure 1.
1.00
0.4
0.75
0.3
0.50 0.2
0.25 0.1
0.00 0.0
−0.50 −0.25 0.00 0.25 0.50 −0.050 −0.025 0.000 0.025 0.050
θ θ
Figure 1 – Puissances de tests pour n = 10 et α = 0.05 : via les intervalles de confiance (noir) ou par
méthode directe (bleu).
(d) La puissance du test est croissante en α pour tout θ. Ceci est le cas pour tout test correctement
calibré. Elle est décroissante en n pour θ ≥ 0, mais croissante en n pour θ < 0. On a en fait
π(θ) −−−→ 1θ<0 + α1θ=0 .
n→∞
4. La v.a. X1 suit une loi exponentielle si et seulement si θ = 0, donc on construit un test pour H0 :
“θ = 0” contre H1 : “θ ̸= 0”. Il s’agit d’un test d’adéquation, donc on obtient un test de niveau α en
considérant simplement le test suivant, basé sur l’intervalle de confiance I1−α :
(
rejette H0 si 0 ∈
/ I1−α
accepte H0 sinon.
Pour tout θ ∈ R, la puissance du test est donnée par
ln α
π(θ) = Pθ [0 ∈
/ I1−α ] = Pθ [θbn + > 0 ou 0 > θbn ]
n
ln α
= Pθ [θbn > − ] + Pθ [θbn < 0]
n
= αenθ 1nθ≤− ln α + 1nθ>− ln α + 1θ≤0 (1 − enθ ),
la dernière étape étant obtenue après quelques lignes de calculs.
Exercice 4
R
1. Comme fθ (x)dx = (1 − θ)/2 + (1 + θ)/2 = 1, il suffit de vérifier que fθ est une fonction positive.
C’est le cas si et seulement si θ ∈ Θ = [−1, 1].
2. Ici, le modèle statistique considéré est P = {ft · λR , t ∈ [−1, 1]}, qui est dominé par la mesure de
Lebesgue sur R, notée λR , et chaque loi du modèle indicée par t a pour densité ft . On cherche à
maximiser la vraisemblance sur [−1, 1]. En notant que
et en posant
n
X
Yn = 1Xi ∈]0,1/2] ,
i=1
Pour tout Yn ∈ {0, . . . , n}, la fonction t 7→ Ln (t) est continue sur le compact [−1, 1] donc son
maximum est atteint et il existe (au moins) un EMV. Pour t ∈] − 1, 1[, puisque Ln (t) > 0, on peut
passer au logarithme, ce qui donne
de dérivée
Yn n − Yn
ℓ′n (t) = −
1+t 1−t
donc ℓ′n (t) ≥ 0 si et seulement si t ≤ 2Yn /n − 1. Dès lors, si Yn /n ∈
/ {0, 1}, la fonction t 7→ Ln (t)
atteint donc son maximum sur ] − 1, 1[ en 2Yn /n − 1 . Comme on a dans ce cas
Ln (−1) = Ln (1) = 0,
la fonction t 7→ Ln (t) atteint son maximum sur [−1, 1] (fermé) en 2Yn /n − 1. Ainsi, lorsque Yn /n ∈
/
{0, 1}, l’EMV existe sur [−1, 1] et vaut
θbn = 2Yn /n − 1.
donc θbn est asymptotiquement normal. La variance asymptotique est strictement positive si et seule-
ment si |θ| < 1. Lorque θ = 1 ou −1, Yn est p.s. constante et θbn = θ p.s., ce qui explique que la
variance asymptotique est nulle.
Exercice 5
1. Pour déterminer la loi de Y1 , on calcule sa fonction de répartition. Dans un premier temps, nous
avons :
∀y < 0, P(Y1 ≤ y) = P(X1 ≤ y) = 0,
et
∀y ≥ 1, P(Y1 ≤ y) = 1.
Enfin
⋆
∀y ∈ [0, 1[, P(Y1 ≤ y) = P(X1 ≤ y) = 1 − e−θ y .
Pour conclure, la fonction de répartition Fθ⋆ de Y1 est
0 si y < 0
⋆
Fθ⋆ (y) = 1 − e−θ y si y ∈ [0, 1[
1 si y ≥ 1.
Notons que :
⋆
P(Y1 = 1) = P(X1 > 1) = 1 − P(X1 ≤ 1) = e−θ .
On sait que les valeurs prises par la fonction de répartition d’une loi discrète constituent un ensemble
⋆
au plus dénombrable, or l’image de la fonction de répartition considérée ici, [0, 1 − e−θ [ ∪{1}, n’est
pas dénombrable. Ceci assure que Y1 n’est donc pas discrète. On aurait aussi pu remarquer que sur
[0, 12 ], la fonction de répartition est continue et strictement croissante. En conséquence, elle n’est
pas purement discontinue et Y1 n’est donc pas discrète. Par ailleurs, Y1 n’est pas non plus à densité
puisque la fonction de répartition n’est pas continue en 1.
2. Soient λ[0,1[ la mesure de Lebesgue sur [0, 1[ et δ1 la mesure de Dirac en 1. Alors µ = λ[0,1[ + δ1
est une mesure dominante du modèle P. En effet, pour tout θ > 0 et tous 0 ≤ a ≤ b ≤ 1, si
µ(]a, b]) = λ[0,1[ (]a, b]) + δ1 (]a, b]) = 0, alors λ[0,1[ (]a, b]) = 0 et δ1 (]a, b]) = 0 (car les mesures sont
positives). Cela signifie que a = b et que 1 ∈]a, / b], autrement dit que b < 1. Ainsi, puisque
(
1 − (1 − e−θa ) = e−θa si b = 1
Pθ (]a, b]) = Fθ (b) − Fθ (a) =
e−θa − e−θb si b < 1,
il vient Pθ (]a, b]) = e−θa − e−θa = 0. Bilan : µ(]a, b]) = 0 implique, pour tout θ > 0, que Pθ (]a, b]) = 0.
Puisque les intervalles ]a, b] engendrent la tribu borélienne, ceci assure bien que µ est une mesure
dominante pour le modèle P.
Soit θ > 0. On cherche à calculer une densité fθ = dPθ /dµ. Sur [0, 1[, la mesure dominante de Pθ
est λ[0,1[ et Fθ est continue et dérivable. La densité fθ est donc égale à Fθ′ :
∀y ∈ [0, 1[, fθ (y) = θe−θy .
De plus,
fθ (1) = P(Y1 = 1) = e−θ
et fθ (y) = 0 pour tout y ∈/ [0, 1].
On vérifie alors aisément que pour tous 0 ≤ a ≤ b ≤ 1,
Z Z Z Z
fθ (u)µ( du) = fθ (u)λ[0,1[ ( du) + fθ (u)δ1 ( du) = fθ (u) du + e−θ 11∈]a,b] ,
]a,b] ]a,b] ]a,b] ]a,b]
c’est-à-dire Z
fθ (u)µ( du) = Fθ (b) − Fθ (a) = Pθ (]a, b]).
]a,b]
Remarque : Pθ⋆ n’est pas absolument continue par rapport à λ[0,1[ . En effet, si cela était le cas,
nous aurions :
⋆
e−θ = Pθ⋆ ({1}) = fθ⋆ (1)λ[0,1[ ({1}) = 0.
3. La log-vraisemblance ℓn de l’échantillon (Y1 , . . . , Yn ) est donnée, pour tout θ > 0, par :
n
X X X n
X
ℓn (θ) = ln(fθ (Yi )) = (ln(θ) − θYi ) + (−θ) = (n − Zn ) ln(θ) − θ Yi ,
i=1 1≤i≤n 1≤i≤n i=1
Yi <1 Yi =1
Pn
où Zn = i=1 1Yi =1 est le nombre d’observations égales à 1. ℓn est dérivable et nous avons :
n
n − Zn X n − Zn
ℓ′n (θ) = − Yi > 0 ⇐⇒ θ < Pn .
θ i=1 Yi
i=1
Puisque pour tout i ∈ {1, . . . , n}, Yi > 0 p.s., θbn est bien défini. Attention : nous avons P(θbn = 0) =
⋆
P(Y1 = · · · = Yn = 1) = e−nθ > 0. Dans ce cas, l’EMV n’existe pas. Dans le cas contraire, θbn est
l’EMV de θ⋆ .
4. On remarque tout d’abord que
n Z n
θbn = Pn 1− ,
i=1 Yi n
Pn
i Y
ce qui nous incite à appliquer la LGN à i=1 n . Pour ce faire, calculons l’espérance de Y1 :
Z 1
E[Y1 ] = yfθ⋆ (y) dy + P(Y1 = 1)
0
Z 1
⋆ ⋆
= yθ⋆ e−θ y dy + e−θ
0
Z 1
−θ⋆ y 1 ⋆ ⋆
= [−ye ]0 + e−θ y dy + e−θ
0
1 −θ⋆ y 1
−θ⋆ ⋆
= −e + − ⋆e + e−θ
θ 0
⋆
1 − e−θ
= .
θ⋆
Par la LFGN (Y1 , . . . , Yn i.i.d. et E[Y1 ] < ∞) et le théorème de continuité (x ∈ R∗+ 7→ 1/x continue
en E[Y1 ] ̸= 0),
n p.s. 1 θ⋆
Pn → = .
i=1 Yi E[Y1 ] 1 − e−θ⋆
De plus, Znn = n1 ni=1 1Yi =1 , où (1Y1 =1 , . . . , 1Yn =1 ) sont des variables i.i.d. de Bernoulli de paramètre
P
⋆
p = P(Y1 = 1) = e−θ . Ainsi, par la LFGN
Zn p.s. ⋆
→ E[1Y1 =1 ] = p = e−θ .
n
p.s. P
On en conclut que θbn → θ⋆ et a fortiori que θbn → θ⋆ (i.e. θbn est un estimateur consistant de θ⋆ ).
Remarque : Puisque Y1 ≥ 0, son espérance peut aussi se calculer par la formule (cf. Exercice 9)
∞ −θ⋆ y 1 ⋆
1
1 − e−θ
Z Z
e
E[Y1 ] = Pθ⋆ (Y1 > y)dy = (1 − Fθ⋆ (y))dy = − ⋆ = .
0 0 θ 0 θ⋆
1Yi =1
5. L’idée est évidemment d’appliquer le TCL et la méthode delta multivariés à Ui = , i ∈ J1, nK
Yi
(qui sont bien des vecteurs aléatoires i.i.d.) et de remarquer que θbn = φ(U n ), avec
1−x
φ : (x, y) ∈ R × R∗+ 7→ .
y
Montrons d’abord que U1 est de carré intégrable. Pour ce faire, il suffit de s’assurer que les deux lois
marginales le sont. Or, une double intégration par parties, nous assure que
⋆ ⋆
e−θ e−θ
2 1
E[Y1 ] = 2 − ⋆ − ⋆2 ,
θ⋆ 2 θ θ
d’où ⋆ ⋆
e−θ e−θ
1
Var(Y1 ) = ⋆ 2 − ⋆ +2 .
θ θ θ⋆
Nous avons de plus
⋆ ⋆
Var(1Y1 =1 ) = e−θ (1 − e−θ ).
Nous sommes donc en mesure d’appliquer le TCL multivarié. Il reste cependant à déterminer la
covariance entre les deux composantes :
⋆
1 − e−θ
−θ⋆
Cov(1Y1 =1 Y1 ) = E[1Y1 =1 Y1 ] − E[1Y1 =1 ]E[Y1 ] = e 1− .
θ⋆
Afin d’appliquer la méthode delta, nous remarquons que φ admet bien des dérivées partielles sur
R × R∗+ :
∂φ 1
(x, y) = − ,
∂x y
et
∂φ 1−x
(x, y) = − ,
∂y y
qui sont toutes deux continues. φ est donc bien différentiable (au sens de Fréchet). Par ailleurs,
⋆
∂φ −θ⋆ 1 − e−θ θ⋆
e , = − ̸= 0,
∂x θ⋆ 1 − e−θ⋆
et
−θ⋆ θ⋆ 2
∂φ −θ⋆ 1 − e
e , = − ̸= 0,
∂y θ⋆ 1 − e−θ⋆
donc ∇φ(E[U1 ]) ̸= 0. Ainsi, en notant σ 2 la variance asymptotique cherchée, il vient
1 − e−θ 1 − e−θ
h i1 Z 1 Z 1
2 −θy −θy −θy
I(θ) = y e +2 ye dy + e −2 ye−θy dy + = .
0 0 0 θ2 θ2
De plus, l’application θ 7→ I(θ) est continue sur R∗+ et le modèle est donc régulier. Puisque I(θ⋆ ) > 0
θ⋆2
et I(θ⋆ )−1 = 1−e −θ ⋆ , qui est la variance asymptotique de θn , on en déduit que cet estimateur est
b
asymptotiquement efficace.
Exercice 6
1. Dans cette expérience, on a accès à la réalisation x du nombre de poissons marqués parmi les n pêchés.
Une modélisation probabiliste consiste donc à voir x comme la réalisation de la variable aléatoire
X = ni=1 Yi , où Yi = 1 lorsque le ie poisson pêché est marqué et 0 sinon. Puisque les poissons sont
P
pêchés au hasard et avec remise, les variables aléatoires Y1 , . . . , Yn peuvent être considérées comme
indépendantes et identiquement distribuées de loi de Bernoulli B(p), avec p la probabilité de pêcher
un poisson marqué, qui vaut ici p = Nk .
Pn k
k
Ainsi, X = i=1 Yi ∼ B n, N . Soit donc le modèle statistique P = B(n, M ), M ∈ [k, +∞[ ,
qui est bien indicé par un intervalle. Il découle de ce choix qu’il sera aisé d’obtenir un estimateur
par maximum de vraisemblance de N mais en contrepartie que celui-ci ne sera pas entier (ce qui
compliquerait grandement l’analyse).
2. Le modèle P est dominé par la mesure de comptage sur J0, nK et chaque loi candidate de paramètre
k x k n−x
M ∈ [k, +∞[ possède une densité x ∈ J0, nK 7→ nx M
1− M . Ainsi, pour tout M ∈ [k, +∞[,
la vraisemblance de M vis-à-vis de X est :
X
k n−X
n k
L(M ) = 1− .
X M M
Sur l’événement {0 < X < n} : La vraisemblance est nulle en M = k et pour tout M ∈]k, +∞[,
on peut définir la log-vraisemblance par :
X !
k n−X
n k
ℓ(M ) = ln 1−
X M M
= C − X ln M + (n − X) ln (M − k) − (n − X) ln (M )
= C + (n − X) ln (M − k) − n ln (M ) ,
où C est une constante. Puisque limM →k+ ℓ(M ) = limM →+∞ ℓ(M ) = −∞ (car 0 < X < n) et ℓ est
deux fois dérivable, on vérifie aisément qu’elle atteint son maximum sur [k, +∞[ pour M = kn X ∈
]k, +∞[.
kn
Ainsi, l’EMV de N n’est pas défini si X = 0 mais on choisit comme estimateur N b =
X+1X=0 , qui
regroupe les deux derniers cas. N b est une variable aléatoire bien définie, y compris sur l’événement
X = 0.
kn k
Remarque : on pourrait tout aussi bien choisir comme estimateur X+1 = X+ 1 , l’important étant
n n
que le terme correctif, ici n1 , tende vers 0 en probabilité. De manière un peu plus légère et par
simplicité, on aurait aussi pu prendre kn
X , variable aléatoire mal définie avec probabilité P(X = 0) =
k n
1 − N , quantité qui est asymptotiquement nulle. Cela suffit pour continuer l’analyse et éviter
l’utilisation du lemme de Slutsky.
1 Pn k P
3. En notant Y n = n i=1 Yi , nous avons N
b= 1 . Par la loi faible des grands nombres, Y n −−−→
Y n + X=0
n n→∞
1X=0
−−−→ 0, il vient par continuité Y n + 1X=0
k P P
N et puisque n n −−−→ Nk . Enfin, par continuité de la
n→∞ n→∞
P
fonction φ : x 7→ xk en Nk > 0, k
1X=0 −−−→ N , résultat qui reste vrai pour N .
b
Y n+ n→∞ n
De même, en supposant k < N , le TCL indique que
√
k d k k
n Yn− −−−→ N 0, 1− .
N n→∞ N N
1√ P
Puisque X=0
−−−→
n n→∞
0, il vient alors par le lemme de Slutsky
√ √
1X=0 k k 1X=0 d k k
n Yn+ − = n Yn− + √ −−−→ N 0, 1− .
n N N n n→∞ N N
Enfin, par la méthode delta appliquée avec φ, dérivable en Nk et de dérivée non-nulle en ce point,
!
√
k d 2 N
n − N −−−→ N 0, N −1 ,
Y n + 1X=0
n
n→∞ k
Exercice 7
1. On sait que X 100 ∼ N (θ, 10−2 ), ce qui équivaut à dire que 10(X 100 − θ) ∼ N (0, 1) donc
ou encore, avec l’approximation Φ−1 (0.975) ≈ 2 et en notant Ib = [X 100 − 0.2 ; X 100 + 0.2], que
P(θ ∈ I)
b ≈ 0.95.
2. Si θ = 0, sachant X100 = 50, on peut écrire
99 99
!
1 X 1 1 X 1 99
X 100 = 50 + Xi = + Xi ∼ N , .
100 2 100 2 104
i=1 i=1
c’est-à-dire
P 0 ∈ Ib | X100 = 50 = P −0.2 ≤ X 100 ≤ 0.2 | X100 = 50 ,
et par ci-dessus
1 1
P 0 ∈ I | X100 = 50 = P −0.2 ≤ N
b , ≤ 0.2 ,
2 100
ou encore, en centrant et normalisant,
P 0 ∈ Ib | X100 = 50 = P (−7 ≤ N (0, 1) ≤ −3) = Φ(−3) − Φ(−7) ≈ 10−3 .
Conclusion : à cause d’une seule donnée aberrante, l’intervalle de confiance à 95% est devenu un
intervalle de confiance à 0,1% ! Ceci illustre la non-robustesse de l’EMV aux données aberrantes.
En revanche, il est clair que l’estimateur de la médiane empirique n’aurait pas été sensible à cette
donnée : il est plus robuste.
Exercice 8
Pn
1. Par définition, l’estimateur des moindres carrés est la valeur de t qui minimise la quantité i=1 (Xi −
t)2 . La minimisation de ce trinôme en t donne bien la moyenne empirique X n .
2. Si X n est l’EMV alors il maximise la log-vraisemblance
n
X
ℓn (t) = g(Xi − t).
i=1
Puisque celle-ci est C 1 sur R, c’est en particulier un point critique donc nécessairement
n
X
g ′ (Xi − X n ) = 0.
i=1
Or f > 0 sur R et les Xi sont i.i.d., donc la loi de l’échantillon (X1 , . . . , Xn ), de densité
par rapport à λRn , la mesure de Lebesgue sur Rn , est équivalente à celle-ci, c’est-à-dire qu’elles ont
les mêmes ensembles négligeables. En passant aux réalisations de l’échantillon (X1 , . . . , Xn ), ceci
signifie que pour presque tout n-uplet (x1 , . . . , xn ) de réels, la fonction g doit vérifier
n
X
g ′ (xi − xn ) = 0.
i=1
est continue donc la relation φ(x1 , . . . , xn ) = 0 vérifiée presque partout sur Rn est en fait vérifiée
partout : en effet, un ensemble négligeable pour la mesure de Lebesgue étant d’intérieur vide, on peut
approcher tout point (x∗1 , . . . , x∗n ) par une suite (xN N N N
1 , . . . , xn )N ∈N pour laquelle φ(x1 , . . . , xn ) = 0
et il suffit alors de passer à la limite en N .
3. En prenant x2 = · · · = xn = x1 − nt, cette relation devient
Or f est paire donc g ′ (−t) = −g(t) donc g ′ ((n − 1)t) = (n − 1)g ′ (t). Le réel t ̸= 0 et l’entier n > 1
′ (kt) ′
étant arbitraires, on a bien ∀t ∈ R⋆ , ∀k ∈ N⋆ , g kt = g t(t) .
′
4. Posons c = g ′ (1). La relation précédente implique que ∀k ∈ N⋆ , g k(k) = c. Soit x = p/q un rationnel
strictement positif, alors
g ′ (x) g ′ (qx) g ′ (p)
= = = c.
x qx p
′
La fonction φ(x) = g x(x) étant continue sur ]0, ∞[, la densité des rationnels dans ]0, ∞[ assure que
′
∀x > 0, g x(x) = c. Par imparité de g ′ , ceci est aussi vrai pour tout x < 0 et on peut donc prolonger
par continuité la fonction φ en 0 par la même valeur. On a ainsi établi qu’il existe une constante c
′
telle que, pour tout t ∈ R⋆ , g t(t) = c.
5. L’intégration de l’équation différentielle g ′ (t) = ct nous dit qu’il existe a ∈ R telle que g(t) =
2
a + ct2 /2 donc une constante b = ea > 0 telle que f (t) = bect /2 . Puisque f est une densité, elle est
intégrable donc il est clair que c < 0 et on peut ainsi écrire c sous√la forme c = −1/σ 2 de sorte que
2 2
f (t) = be−t /2σ . Comme de plus l’intégrale vaut 1, il vient b = 1/ 2πσ 2 et f est la densité d’une loi
normale centrée. La réciproque est claire : si les Xi sont i.i.d. de loi N (θ, σ 2 ), alors un calcul facile
montre que l’EMV est X n , qui est comme on l’a vu l’estimateur des moindres carrés.
Exercice 9
1. Ici, le modèle statistique considéré est P = {ft · λR , t ∈ R}, qui est dominé par la mesure de Lebesgue
sur R, notée λR , et chaque loi du modèle indicée par t a pour densité ft . La vraisemblance s’écrit
n
Y
Ln (t) = 1t≤Xi ≤t+1 = 1∀i,t≤Xi ≤t+1 = 1X(n) −1≤t≤X(1) ,
i=1
et il suffit de calculer L(nZ(1) ). On utilise pour cela la fonction de répartition, pour tout t ∈ [0, n],
= E[Y k /k].
6. Choisissons θb = X(1) comme EMV pour estimer θ. Nous avons vu que, pour tout t ∈ [0, n],
(t, ℓ) 7→ Pt,ℓ
est injective. Pour t = 1, on voit que Pt,ℓ est une loi uniforme, indépendamment de λ, donc le modèle
n’est pas identifiable. Si on exclut t = 1, montrons que le modèle est identifiable : soient (t, ℓ) et
(t′ , ℓ′ ) dans ]1, ∞[×[0, 1[ tels que Pt,ℓ = Pt′ ,ℓ′ , c’est-à-dire que pour tout borélien B on doit avoir
Pt,ℓ (B) = Pt′ ,ℓ′ (B), i.e. Z Z
ft,ℓ (x)µ(dx) = ft′ ,ℓ′ (x)µ(dx).
B B
En particulier, les deux lois ont même support donc nécessairement t = t′ . Puis, prenons par exemple
B = [0, 1] : l’égalité Pt,ℓ ([0, 1]) = Pt,ℓ′ ([0, 1]) donne
1−ℓ 1 − ℓ′
ℓ+ = ℓ′ + ⇐⇒ (t − 1)(ℓ − ℓ′ ) = 0 ⇐⇒ ℓ = ℓ′ ,
t t
car par hypothèse t > 1. Au final, le modèle
est identifiable.
2. Soit x ∈ R, alors
1 − λ 10≤x≤1 1 − λ 11<x≤θ
1−λ 1−λ
fθ,λ (x) = λ+ 10≤x≤1 + 11<x≤θ = λ + 10≤x≤θ .
θ θ θ θ
en utilisant le lemme de Slutsky, notamment en utilisant le fait que θ > 1. Lorsque θ = 1, les Xi
suivent la loi uniforme sur [0, 1] et on a
X(n) × N/n − 1 X(n) − 1
λ(
b θ)
b = = =1
X(n) − 1 X(n) − 1
On choisit donc c = (1 − α)1/n . Alors la puissance de ce test est donnée par la formule suivante :
pour tout θ ≥ 1, pour tout λ ∈ [0, 1[,
n
1/n 1/n
P(rejet de H0 ) = P(θ > (1 − α) ) = 1 − P(X1 ≤ (1 − α) )
b
n
1−λ 1/n
=1− λ+ (1 − α)
θ
1−λ n
= 1 − (1 − α) λ + .
θ
Pour tout θ > 1, pour tout λ ∈ [0, 1[, cette dernière quantité tend vers 1 lorsque n tend vers l’infini,
ce qui est attendu.
Exercice 11
1. Puisque
1 p √
h(f, g) = √ ∥ f − g∥2 ,
2
il est clair que h est une distance. La formule
Z p
2
h (f, g) = 1 − f (x)g(x) dx
R
découle du fait que f et g intègrent à 1. Une distance étant positive et le dernier terme étant positif,
on en déduit aussi que 0 ≤ h(f, g) ≤ 1.
q
2. Soit θ > 0 et fθ la densité de la loi uniforme sur [0, θ]. Le fait que h2 (fθ , fθ′ ) = 1 − θθ′ si θ ≤ θ′ est
une conséquence directe de la formule précédente.
3. Soit X1 , . . . , Xn i.i.d. de loi uniforme sur [0, θ] pour un θ > 0 inconnu. Ici, le modèle statistique
considéré est P = {U([0, t]), t > 0}, qui est dominé par la mesure de Lebesgue sur R, et chaque loi
du modèle indicée par t a pour densité ft . La vraisemblance associée à cet échantillon s’écrit
1
Ln (t) = 1t≥X(n) ,
tn
q √
qui est maximale pour t = θbn = X(n) . La variable θbn étant positive (et inférieure à θ), on peut
écrire que
q Z ∞ q Z √θ q
Eθ θbn = P θbn > x dx = P θbn > x dx,
0 0
d’où √ √ 2 n
q Z θ q Z θ
x
Eθ θbn = 1−P θbn ≤ x dx = 1− dx,
0 0 θ
ce qui donne finalement
√
q
1
Eθ θn = θ 1 −
b .
2n + 1
Puisque presque sûrement 0 < θbn ≤ θ, le calcul d’espérance par conditionnement et les résultats
précédents donnent
s
h i h h ii θbn 1
Eθ h2 (fθ , fθbn ) = Eθ Eθ h2 (fθ , fθbn ) θbn = Eθ 1 − = .
θ 2n + 1
4. Soit la densité
1 10
fn∗ (x) = 10 1 − 10≤x≤1/10 + 1 .
n n 9/10≤x≤1
(a) Pour toute fonction continue bornée φ, il est clair que
Z 1/10
10 1
Z Z 1/10
1
E[φ(Yn )] = 10 1 − φ(x)dx + φ(x)dx −−−→ 10 φ(x)dx,
n 0 n 9/10 n→∞ 0
ce qui montre que (Yn ) converge en loi vers une loi uniforme sur [0, 1/10].
(b) Un calcul immédiat donne
Z q r
1
h2 (fn∗ , f1/10 ) = 1 − fn∗ (x)f1/10 (x) dx = 1 − 1 − ,
R n
quantité qui tend bien vers 0 lorsque n tend vers l’infini.
5. Soit n > 1. Les variables X1 , . . . , Xn sont désormais i.i.d. de densité fn∗ , mais on les croit toujours
i.i.d. suivant une densité uniforme (fθ )θ>0 , avec θ inconnu. En particulier, l’estimateur θbn est le
même que celui défini ci-dessus.
(a) Chaque Xi tombe indépendamment dans les intervalles [0, 1/10] et [9/10, 1] avec les probabilités
respectives 1 − 1/n et 1/n. Puisque θbn = X(n) , la probabilité que θbn soit entre 9/10 et 1 est
donc la probabilité que l’un au moins des Xi y soit, i.e.
P 9/10 ≤ θbn ≤ 1 = 1 − P (0 ≤ X1 ≤ 1/10)n = 1 − (1 − 1/n)n .
(b) Sur l’événement {9/10 ≤ θbn ≤ 1}, puisque fθbn (x) = 1[0,θbn ] (x)/θbn , on obtient :
Z q s Z 1/10 r Z θbn !
10 1 1
h2 (fn∗ , fθbn ) = 1 − fn∗ (x)fθbn (x) dx = 1 − 1 − dx + √ dx ,
R θbn 0 n 9/10 n
ce qui donne
q
1 − n1
s r
2 ∗ 10 b 1 1 1
h (fn , fθbn ) = 1 − q − (θn − 9/10) ≥ 1 − 1− − √ ,
nθbn 3 n 3 n
10θbn
E∗n [h2 (fn∗ , fθbn )] ≥ E∗n [h2 (fn∗ , fθbn )|9/10 ≤ θbn ≤ 1]P(9/10 ≤ θbn ≤ 1),
θ 1−θ 1 1
fθ (x) ≤ + ≤ + ,
2 c(θ) 2 c(θ)
et la décroissance de la fonction c permet d’affirmer que, pour tout 0 ≤ θ ≤ α < 1 et tout réel x,
1 1
fθ (x) ≤ + ,
2 c(α)
d’où
1 1 1
sup ℓn (θ) ≤ log + < ∞. (1)
0≤θ≤α n 2 c(α)
3. Pour montrer que (Mn ) tend presque sûrement vers 1, le Lemme de Borel-Cantelli est tout indiqué.
Soit donc 0 < ε < 1, alors puisque Mn ≤ 1 on a
Pθ⋆ (|1 − Mn | ≥ ε) = Pθ⋆ (1 − Mn ≥ ε) = Pθ⋆ (Mn ≤ 1 − ε) = Pθ⋆ (X1 ≤ 1 − ε)n = Fθ⋆ (1 − ε)n ,
où Fθ⋆ désigne la fonction de répartition de X1 . Or, quels que soient θ⋆ ∈ [0, 1] et ε ∈]0, 1[, il est
clair que Fθ⋆ (1 − ε) < 1 donc on a affaire à une série géométrique et
∞
X
Pθ⋆ (|1 − Mn | ≥ ε) < ∞,
n=0
avec, si Xi ̸= Mn ,
Mn 1 − Mn |Xi − Mn | Mn
fMn (Xi ) = + 1− 1[Mn −c(Mn ),Mn +c(Mn )] (Xi ) ≥ ,
2 c(Mn ) c(Mn ) 2
et, si Xi = Mn ,
Mn 1 − Mn |Mn − Mn | 1 − Mn
fMn (Mn ) = + 1− 1[Mn −c(Mn ),Mn +c(Mn )] (Mn ) ≥ .
2 c(Mn ) c(Mn ) c(Mn )
La loi Pθ⋆ étant à densité par rapport à la mesure de Lebesgue, les Xi sont p.s. deux à deux distincts
et il existe un unique indice i tel que Xi = Mn . Il ne reste donc plus qu’à sommer les logarithmes
des inégalités obtenues pour aboutir à
1 n−1 Mn 1 1 − Mn
ℓn (θbn ) ≥ log + log .
n n 2 n c(Mn )
D’après la question précédente, l’événement
n o
Ω0 := ω ∈ Ω, Mn (ω) −−−→ 1
n→∞
est de probabilité 1. Il suffit alors de raisonner “ω par ω”. Pour tout ω ∈ Ω0 , il existe en effet
N = N (ω) tel que pour tout n ≥ N (ω) on ait 0 ≤ Mn (ω) ≤ 1, auquel cas l’inégalité précédente est
vérifiée, i.e.
1 ω b n−1 Mn (ω) 1 1 − Mn (ω)
ℓn (θn (ω)) ≥ log + log ,
n n 2 n c(Mn (ω))
avec la notation
n
X
ℓωn (θ) := log fθ (Xi (ω)).
i=1
(1 − x)2
P0 (X > x) = . (2)
2
Maintenant, si 0 < θ ≤ 1, on peut minorer la densité fθ par θf1 donc
Z 1
θ(1 − x)
Pθ (X > x) ≥ θ f1 (x)dx = ,
x 2
ce qui fait que si x ≥ xθ := 1 − θ ∈ [0, 1[, on a bien Pθ (X > x) ≥ P0 (X > x).
6. Soient 0 ≤ θ ≤ 1 et 0 < ε < 1 fixés. Remarquons simplement que
n
Pθ n1/4 (1 − Mn ) ≥ ε = 1 − Pθ X > 1 − εn−1/4
Si θ = 0, cette inégalité devient bien sûr une égalité, vérifiée pour tout n.
7. Pour tous ε ∈]0, 1[ et n ≥ 1, on a εn−1/4 ∈]0, 1[ donc
n
ε2
n
1/4 −1/4
P0 n (1 − Mn ) ≥ ε = 1 − P0 X > 1 − εn = 1− √ ,
2 n
la dernière égalité venant de (2). L’inégalité log(1 − u) ≤ −u, valide pour tout u < 1, conduit alors à
2
1 2√
n log 1− 2ε√n
P0 n 1/4
(1 − Mn ) ≥ ε = e ≤ e− 2 ε n
,
P0 n1/4 (1 − Mn ) ≥ ε = P0 n1/4 (1 − Mn ) ≥ ε .
1 2√
Puisque la série de terme général e− 2 ε n
est convergente, l’inégalité précédente et le Lemme de
Borel-Cantelli impliquent que, sous P0 ,
p.s.
n1/4 (1 − Mn ) −−−→ 0.
n→∞
Le résultat de la question 6 assure que c’est également vrai sous Pθ⋆ , et ce quelle que soit la valeur
du vrai paramètre θ⋆ derrière la variable Mn .
−4
8. Commençons par noter que la fonction c : [0, 1[→]0, 1] définie par c(θ) = (1 − θ)e1−(1−θ) satisfait
bien les conditions requises, à savoir qu’elle est continue décroissante, telle que c(0) = 1 et 0 < c(θ) ≤
1 − θ pour tout θ ∈]0, 1[. Ensuite, un savant calcul donne
1 1 − Mn 1 1
log = 4 − ,
n c(Mn ) n (1 − Mn ) n
Montrons que, pour tout θ⋆ ∈ [0, 1], l’EMV tend presque sûrement vers 1 : supposons en effet que
ce ne soit pas le cas et notons
n o n o
A := ω ∈ Ω, θbn (ω) ̸→ 1 = ω ∈ Ω, lim inf θbn (ω) < 1 .
n→∞
On aurait alors d’une part Pθ⋆ (A) > 0. D’autre part, en notant (Am )m≥1 la suite d’événements
définie par
1
Am := ω ∈ Ω, lim inf θn (ω) ≤ 1 −
b ,
n→∞ m
la continuité monotone croissante implique que Pθ⋆ (A) = limm→∞ Pθ⋆ (Am ), donc il existe m tel que
Pθ⋆ (Am ) > 0. Pour tout ω ∈ Am , il existe une suite strictement croissante d’indices (φn (ω))n telle
que
1
∀n ∈ N⋆ , θbφn (ω) (ω) ≤ α := 1 − .
2m
Notons enfin A′m := Am ∩ Ω1 où Ω1 est l’événement de probabilité 1 défini par
1 ω b
Ω1 := ω ∈ Ω, ℓn (θn (ω)) −−−→ ∞ .
n n→∞
On a bien entendu Pθ⋆ (A′m ) = Pθ⋆ (Am ) > 0. Par ailleurs, pour tout n, l’inégalité (1) impose
1 ω 1 1
ℓ (θ (ω)) ≤ log + < ∞,
φn (ω) φn (ω) φn (ω)
b
2 c(α)
et a fortiori
1 1 1
lim sup ℓωφn (ω) (θbφn (ω) (ω)) ≤ log + < ∞,
n→∞ φn (ω) 2 c(α)
ce qui est impossible puisque ω appartient à Ω1 . Il s’ensuit que, nécessairement, Pθ⋆ (A) = 0.
Bilan des courses : θ⋆ = 1 est la seule valeur pour laquelle l’EMV est consistant et dans ce cas il
l’est même fortement.
Interprétation. La raison pour laquelle l’EMV ne fonctionne pas lorsque θ⋆ < 1 est la suivante :
plus θ se rapproche de 1, plus la densité fθ peut prendre des valeurs élevées, et ce d’autant plus que
l’un des Xi est proche de 1. Or toute densité fθ⋆ met du poids autour de 1, donc quelle que soit
la vraie valeur θ⋆ du paramètre, le maximum Mn de l’échantillon tend vers 1, ce qui implique que
l’EMV se rapproche lui-même de 1. Ce phénomène ne pourrait se produire si les densités étaient par
exemple uniformément bornées.