0% ont trouvé ce document utile (0 vote)
83 vues23 pages

Statistiques Avancées : Correction TD 4

Transféré par

soniabouafia77
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
83 vues23 pages

Statistiques Avancées : Correction TD 4

Transféré par

soniabouafia77
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Sorbonne Université, Master 1 MU4MA015, Statistique, 2024-2025

Cours : A. Guyader TD : C. Dion-Blanc, A. Godichon, A. Guyader

Correction du TD 4

Exercice 1 Dans tout l’exercice, le modèle statistique considéré est P = {ft · λR , t ∈ R}, qui est dominé
par la mesure de Lebesgue sur R, notée λR , et chaque loi du modèle indicée par t a pour densité ft .
1. La log vraisemblance s’écrit
n
X
ℓn (t) = ln f (Xi − t)
i=1
n
X
= −(n/2) ln(2πσ 2 ) − 1/(2σ 2 ) (Xi − t)2 .
i=1

D’après l’exercice 1 du TD 3, cette fonction est maximale pour t = X n donc l’EMV est θbn = X n .
On peut également remarquer que cette fonction est strictement concave en t, elle admet donc un
unique maximum, en son unique point critique. On peut enfin effectuer tout bonnement l’étude de
la fonction t 7→ ℓn (t).
2. Cette fois, la log-vraisemblance s’écrit
n
X
ℓn (t) = −n ln(2) − |Xi − t|.
i=1

On peut faire le lien avec l’exercice 1 du TD 3, puisque 1


n
X n
X n
X
argmin 1/n |Xi − t| = argmin |Xi − t| = argmax − |Xi − t|,
t t t
i=1 i=1 i=1

de sorte que : h i
— Si n est pair : la médiane empirique est x1/2 (n) = X( n2 ) et tout point de l’intervalle X( n2 ) , X( n2 +1)
est un EMV ;
— Si n est impair : la médiane empirique est X( n+1 ) et c’est l’unique EMV.
2
Dans tous les cas, la médiane empirique est un EMV mais ce n’est pas forcément le seul.
3. La vraisemblance Ln (t) s’écrit
n
 n !
3 Y
2

Ln (t) = 1 − (Xi − t) 1[X(n) −1,X(1) +1] (t).
4
i=1

Elle est nulle en dehors de [X(n) −1, X(1) +1], continue sur ce segment, donc elle atteint son maximum
en au moins un point de cet intervalle et l’existence d’un EMV est assuré. De plus pour t ∈]X(n) −
1, X(1) + 1[,
n
X
ℓn (t) = n ln(3/4) + ln(1 − (Xi − t)2 ).
i=1

1. Noter que les Xi sont p.s. distincts puisque la loi de Laplace est à densité, donc sans atome.
La recherche de points critiques revient cependant à trouver les racines d’un polynôme de degré
(2n − 1). En effet, en annulant la dérivée par rapport à t, on obtient
n
X (Xi − t)
= 0,
1 − (Xi − t)2
i=1

qui, en réduisant au même dénominateur, donne


 
 n 
1 X Y
2 
 
(X − t) 1 − (X − t)  = 0.

Qn 2 i j
i=1 (1 − (Xi − t) ) 


 i=1 j̸=i 
| {z }
degré=2(n−1)

Donc l’EMV n’est pas explicite. Nous pouvons cependant l’approcher numériquement.

Exercice 2
1. Comme E[X1 ] = 2θ/(1 − θ), on a θ = E[X1 ]/(2 + E[X1 ]). Ainsi, l’estimateur empirique associé est

Xn
θbn = .
2 + Xn

Notons que θbn < 1 mais on peut avoir θbn = 0 avec probabilité strictement positive, égale à (1 − θ)2n .
2. Ici, le modèle statistique considéré est P = {ft · νN , t ∈]0, 1[}, où pour tout x ∈ N,

ft (x) = Pt (X = x) = (x + 1)(1 − t)2 tx .

Ce modèle est dominé par la mesure de comptage sur N, notée νN , et chaque loi du modèle indicée
par t a pour densité ft . Ainsi, nous avons pour tout t ∈]0, 1[
n
X n
X
ℓn (t) = ln ft (Xi ) = 2n ln(1 − t) + nX n ln(t) + ln(Xi + 1),
i=1 i=1

d’où
ℓ′n (t) = −2n(1 − t)−1 + nX n t−1 ,
qui est positive si et seulement si t ≤ θbn , où θbn est défini à la question précédente. Ainsi, si θbn > 0
(i.e. X n > 0), alors la fonction t 7→ Ln (t) atteint son maximum sur ]0, 1[ en θbn et l’EMV vaut
θen = θbn . Si θbn = 0 (i.e. X n = 0), alors la vraisemblance est strictement décroissante sur ]0, 1[ donc
dans le cas où X n = 0, l’EMV n’est pas défini. On peut cependant noter que

Pθ (X n = 0) = (1 − θ)2n

qui tend vers 0 à vitesse géométrique. Ainsi, on peut dire que l’EMV est défini avec une probabilité qui
tend vers 1, ce qui suffit lorsqu’on s’intéresse à ses propriétés lorsque n tend vers l’infini (consistance,
normalité asymptotique).
3. La LFGN appliquée aux Xi i.i.d. intégrables donne que X n converge p.s. vers E[X1 ], donc par le
théorème de continuité θbn converge p.s. vers θ. Ainsi, θbn est fortement consistant. Le TCL appliqué
aux Xi i.i.d. de carré intégrable donne
√ d
n(X n − 2θ/(1 − θ)) −−−→ N (0, 2θ/(1 − θ)2 ).
n→∞
La méthode delta appliquée avec la fonction g(x) = x/(2 + x) = 1 − 2/(2 + x), qui est dérivable en
x = 2θ/(1 − θ) > −2 de dérivée

2 2 (1 − θ)2
g ′ (x) = = = ,
(2 + x)2 (2 + 2θ/(1 − θ))2 2
donne √  
d
n θbn − θ −−−→ N (0, 2θ/(1 − θ)2 × (1 − θ)4 /4) = N (0, θ(1 − θ)2 /2).
n→∞

Exercice 3
1. Ici, le modèle statistique considéré est P = {ft · λR , t ∈ R}, qui est dominé par la mesure de Lebesgue
sur R, notée λR , et chaque loi du modèle indicée par t a pour densité ft . Il s’agit d’un modèle de
translation, puisque X1 est de même loi que Y + θ, où Y est de loi exponentielle de paramètre 1 (de
densité f0 ). La vraisemblance d’un paramètre t au regard de l’échantillon X1 , . . . , Xn s’écrit
n
!
X
Ln (t) = exp − Xi + nt 1t≤X(1) .
i=1

La fonction de vraisemblance t 7→ Lt (X1 , . . . , Xn ) est nulle si t > X(1) et croissante pour t ≤ X(1) ,
donc elle atteint son maximum pour θbn = X(1) , qui est par conséquent l’estimateur du maximum de
vraisemblance de θ.
On pourrait aussi proposer un estimateur par la méthode des moments : comme EX1 = θ + EY =
θ + 1, ceci conduit à considérer l’estimateur X n − 1. Il est cependant moins bon que l’EMV car il

converge à vitesse 1/ n par le TCL, alors que θbn converge à vitesse 1/n, comme vont le montrer les
questions suivantes. On pourrait enfin proposer un estimateur basé sur la médiane empirique mais

il converge lui aussi à vitesse 1/ n (le vérifier).
2. Nous avons, pour tout x ≥ θ :

Pθ [θbn ≤ x] = 1 − Pθ [X(1) > x] = 1 − Pθ [X1 − θ > x − θ]n = 1 − e−n(x−θ) ,


x
et 0 sinon. Ainsi, pour tout x ≥ 0, + θ ≥ θ et nous obtenons :
n
h x i
Pθ θbn ≤ + θ = 1 − e−x ,
n
h i h i
et 0 sinon. Puisque Pθ θbn ≤ nx + θ = Pθ n(θbn − θ) ≤ x , on constate que n(θbn − θ) suit une loi
exponentielle de paramètre 1.
On part de ce constat pour construire un intervalle de confiance. On commence par remarquer que
Xi ≥ θ, donc θbn ≥ θ. Si α ∈]0, 1[ est un niveau fixé, on cherche donc c > 0 tel que

Pθ [θbn − c ≤ θ ≤ θbn ] = 1 − α.

On a, d’après ce qui précède :

Pθ [θbn − c ≤ θ ≤ θbn ] = Pθ [θbn − c ≤ θ] = 1 − Pθ [n(θbn − θ) ≥ nc] = 1 − e−nc = 1 − α

si on choisit c = cα = −(ln α)/n. Donc


h ln α b i
I1−α = θbn + , θn
n
est un intervalle de confiance de niveau (1 − α).
Remarque
h : Oni aurait pu partir d’une forme a priori d’intervalle de confiance,
h par exemplei
θbn − cα , θbn + dα , avec cα ≥ 0 et dα ≥ 0. Un simple calcul montre alors que θbn + nα , θbn + dα
ln

est intervalle de confiance de niveau (1 − α) pour θ, et ce quel que soit dα ≥ 0. La raison conduit
à prendre l’intervalle de confiance le plus court, c’est-à-dire celui correspondant à dα = 0. Nous
retombons ainsi sur le même résultat que celui exhibé précédemment.
3. (a) On rejette H0 si I1−α ∩ R+ = ∅ : d’après le cours, ceci fournit un test de niveau α. La puissance
du test est donnée pour tout θ par

π(θ) = Pθ (on rejette H0 )


= Pθ (θbn < 0)
= Pθ (n(θbn − θ) < −nθ)
= P(E(1) < −nθ)
(
1 − enθ si θ ≤ 0
=
0 si θ ≥ 0.

En particulier, on remarque que le test est de taille 0, il est donc bien de niveau α, mais cette
situation ne semble pas idéale : on s’attend plutôt à π(0) = 0.05 si le test était de taille 0.05.
C’est l’objet de la suite.
(b) A priori, un test logique consiste à rejeter H0 si θbn < cα tel que

sup Pθ (θbn < cα ) = α.


θ≥0

On cherche donc à déterminer cα . Or, en se souvenant que la variable aléatoire E = n(θbn − θ)


suit une loi exponentielle de paramètre 1, on a

sup Pθ (θbn < cα ) = sup Pθ (n(θbn − θ) < n(cα − θ))


θ≥0 θ≥0
= sup P(E < n(cα − θ))
θ≥0
= P(E < ncα )

car la fonction θ 7→ Pθ (E < n(cα − θ)) est décroissante. Dès lors, on choisit cα tel que

Pθ (E < ncα ) = (1 − e−ncα )1cα ≥0 = α

c’est-à-dire
ln(1 − α)
cα = −
n
et on vérifie que cα ≥ 0. Donc la région de rejet est {θbn < − ln(1 − α)/n}. Le test ainsi construit
est bien de taille α, c’est-à-dire

sup Pθ (θbn < − ln(1 − α)/n) = α.


θ≥0

Notons que le test proposé précédemment (via le lien avec l’intervalle de confiance) était bien
de niveau α (et même de niveau 0), mais pas de taille α. Ceci est illustré Figure 1.
1.00
0.4

0.75
0.3

0.50 0.2

0.25 0.1

0.00 0.0
−0.50 −0.25 0.00 0.25 0.50 −0.050 −0.025 0.000 0.025 0.050
θ θ

Figure 1 – Puissances de tests pour n = 10 et α = 0.05 : via les intervalles de confiance (noir) ou par
méthode directe (bleu).

Remarque : On aurait i pu chercher


i un intervalle de confiance de sens opposé à Θ0 =
[0, ∞[, par exemple −∞, θn + dα , avec dα quelconque. Un simple calcul montre alors que
b
i i
−∞, θbn + ln(1−α)
n est intervalle de confiance de niveau (1 − α) pour θ. Le test qui en découle
est exactement celui obtenu plus haut.
(c) La puissance du test est donnée pour tout θ par
π(θ) = Pθ (on rejette H0 )
= Pθ (θbn < − ln(1 − α)/n)
= Pθ (n(θbn − θ) < − ln(1 − α) − nθ)
(
1 − (1 − α)enθ si θ ≤ − ln(1 − α)/n,
=
0 sinon

(d) La puissance du test est croissante en α pour tout θ. Ceci est le cas pour tout test correctement
calibré. Elle est décroissante en n pour θ ≥ 0, mais croissante en n pour θ < 0. On a en fait
π(θ) −−−→ 1θ<0 + α1θ=0 .
n→∞

4. La v.a. X1 suit une loi exponentielle si et seulement si θ = 0, donc on construit un test pour H0 :
“θ = 0” contre H1 : “θ ̸= 0”. Il s’agit d’un test d’adéquation, donc on obtient un test de niveau α en
considérant simplement le test suivant, basé sur l’intervalle de confiance I1−α :
(
rejette H0 si 0 ∈
/ I1−α
accepte H0 sinon.
Pour tout θ ∈ R, la puissance du test est donnée par
ln α
π(θ) = Pθ [0 ∈
/ I1−α ] = Pθ [θbn + > 0 ou 0 > θbn ]
n
ln α
= Pθ [θbn > − ] + Pθ [θbn < 0]
n
= αenθ 1nθ≤− ln α + 1nθ>− ln α + 1θ≤0 (1 − enθ ),
la dernière étape étant obtenue après quelques lignes de calculs.

Exercice 4
R
1. Comme fθ (x)dx = (1 − θ)/2 + (1 + θ)/2 = 1, il suffit de vérifier que fθ est une fonction positive.
C’est le cas si et seulement si θ ∈ Θ = [−1, 1].
2. Ici, le modèle statistique considéré est P = {ft · λR , t ∈ [−1, 1]}, qui est dominé par la mesure de
Lebesgue sur R, notée λR , et chaque loi du modèle indicée par t a pour densité ft . On cherche à
maximiser la vraisemblance sur [−1, 1]. En notant que

ft (x) = (1 − t)1x∈]−1/2,0] (1 + t)1x∈]0,1/2]

et en posant
n
X
Yn = 1Xi ∈]0,1/2] ,
i=1

nous avons pour tout t ∈ [−1, 1],


n
Y n
Y
(1 − t)1Xi ∈]−1/2,0] (1 + t)1Xi ∈]0,1/2] = (1 − t)n−Yn (1 + t)Yn .

Ln (t) = ft (Xi ) =
i=1 i=1

Pour tout Yn ∈ {0, . . . , n}, la fonction t 7→ Ln (t) est continue sur le compact [−1, 1] donc son
maximum est atteint et il existe (au moins) un EMV. Pour t ∈] − 1, 1[, puisque Ln (t) > 0, on peut
passer au logarithme, ce qui donne

ℓn (t) = (n − Yn ) ln(1 − t) + Yn ln(1 + t),

de dérivée
Yn n − Yn
ℓ′n (t) = −
1+t 1−t
donc ℓ′n (t) ≥ 0 si et seulement si t ≤ 2Yn /n − 1. Dès lors, si Yn /n ∈
/ {0, 1}, la fonction t 7→ Ln (t)
atteint donc son maximum sur ] − 1, 1[ en 2Yn /n − 1 . Comme on a dans ce cas

Ln (−1) = Ln (1) = 0,

la fonction t 7→ Ln (t) atteint son maximum sur [−1, 1] (fermé) en 2Yn /n − 1. Ainsi, lorsque Yn /n ∈
/
{0, 1}, l’EMV existe sur [−1, 1] et vaut

θbn = 2Yn /n − 1.

Dans le cas où Yn /n = 0 (resp. Yn /n = 1), la fonction t 7→ Ln (t) (monotone) est maximum en


θbn = −1 = 2Yn /n − 1 (resp. θbn = 1 = 2Yn /n − 1). Finalement, dans tous les cas, l’EMV existe, est
unique, et vaut
θbn = 2Yn /n − 1.
Il peut éventuellement valoir −1 ou 1, ce qui est autorisé car, encore une fois, l’espace des paramètres
est Θ = [−1, 1].
3. Comme
2
Eθ (θbn ) = Eθ (Yn ) − 1 = 2P(X1 ∈]0, 1/2]) − 1 = 2(1 + θ)/2 − 1 = θ,
n
l’estimateur θbn est sans biais. Notons que Yn /n = n−1 ni=1 1Xi ∈]0,1/2] donc s’écrit comme une
P
moyenne empirique, ce qui nous permet d’utiliser les théorèmes usuels (les Xi sont i.i.d. et admettent
des moments d’ordre 1 et d’ordre 2). Par la LFGN, Yn /n converge presque sûrement vers P(X1 ∈
]0, 1/2]) = (1 + θ)/2 donc θbn converge p.s. vers θ. Il est donc consistant. Le TCL donne
√ d
n(Yn /n − (1 + θ)/2) −−−→ N (0, (1 − θ)(1 + θ)/4) = N (0, (1 − θ2 )/4),
n→∞

d’où en multipliant par 2 (pas besoin de méthode Delta ici),


√ d
n(θbn − θ) −−−→ N (0, 1 − θ2 ),
n→∞

donc θbn est asymptotiquement normal. La variance asymptotique est strictement positive si et seule-
ment si |θ| < 1. Lorque θ = 1 ou −1, Yn est p.s. constante et θbn = θ p.s., ce qui explique que la
variance asymptotique est nulle.

Exercice 5
1. Pour déterminer la loi de Y1 , on calcule sa fonction de répartition. Dans un premier temps, nous
avons :
∀y < 0, P(Y1 ≤ y) = P(X1 ≤ y) = 0,
et
∀y ≥ 1, P(Y1 ≤ y) = 1.
Enfin

∀y ∈ [0, 1[, P(Y1 ≤ y) = P(X1 ≤ y) = 1 − e−θ y .
Pour conclure, la fonction de répartition Fθ⋆ de Y1 est

 0 si y < 0

Fθ⋆ (y) = 1 − e−θ y si y ∈ [0, 1[
1 si y ≥ 1.

Notons que :

P(Y1 = 1) = P(X1 > 1) = 1 − P(X1 ≤ 1) = e−θ .

On sait que les valeurs prises par la fonction de répartition d’une loi discrète constituent un ensemble

au plus dénombrable, or l’image de la fonction de répartition considérée ici, [0, 1 − e−θ [ ∪{1}, n’est
pas dénombrable. Ceci assure que Y1 n’est donc pas discrète. On aurait aussi pu remarquer que sur
[0, 12 ], la fonction de répartition est continue et strictement croissante. En conséquence, elle n’est
pas purement discontinue et Y1 n’est donc pas discrète. Par ailleurs, Y1 n’est pas non plus à densité
puisque la fonction de répartition n’est pas continue en 1.
2. Soient λ[0,1[ la mesure de Lebesgue sur [0, 1[ et δ1 la mesure de Dirac en 1. Alors µ = λ[0,1[ + δ1
est une mesure dominante du modèle P. En effet, pour tout θ > 0 et tous 0 ≤ a ≤ b ≤ 1, si
µ(]a, b]) = λ[0,1[ (]a, b]) + δ1 (]a, b]) = 0, alors λ[0,1[ (]a, b]) = 0 et δ1 (]a, b]) = 0 (car les mesures sont
positives). Cela signifie que a = b et que 1 ∈]a, / b], autrement dit que b < 1. Ainsi, puisque
(
1 − (1 − e−θa ) = e−θa si b = 1
Pθ (]a, b]) = Fθ (b) − Fθ (a) =
e−θa − e−θb si b < 1,

il vient Pθ (]a, b]) = e−θa − e−θa = 0. Bilan : µ(]a, b]) = 0 implique, pour tout θ > 0, que Pθ (]a, b]) = 0.
Puisque les intervalles ]a, b] engendrent la tribu borélienne, ceci assure bien que µ est une mesure
dominante pour le modèle P.
Soit θ > 0. On cherche à calculer une densité fθ = dPθ /dµ. Sur [0, 1[, la mesure dominante de Pθ
est λ[0,1[ et Fθ est continue et dérivable. La densité fθ est donc égale à Fθ′ :
∀y ∈ [0, 1[, fθ (y) = θe−θy .
De plus,
fθ (1) = P(Y1 = 1) = e−θ
et fθ (y) = 0 pour tout y ∈/ [0, 1].
On vérifie alors aisément que pour tous 0 ≤ a ≤ b ≤ 1,
Z Z Z Z
fθ (u)µ( du) = fθ (u)λ[0,1[ ( du) + fθ (u)δ1 ( du) = fθ (u) du + e−θ 11∈]a,b] ,
]a,b] ]a,b] ]a,b] ]a,b]

c’est-à-dire Z
fθ (u)µ( du) = Fθ (b) − Fθ (a) = Pθ (]a, b]).
]a,b]

Remarque : Pθ⋆ n’est pas absolument continue par rapport à λ[0,1[ . En effet, si cela était le cas,
nous aurions :

e−θ = Pθ⋆ ({1}) = fθ⋆ (1)λ[0,1[ ({1}) = 0.
3. La log-vraisemblance ℓn de l’échantillon (Y1 , . . . , Yn ) est donnée, pour tout θ > 0, par :
n
X X X n
X
ℓn (θ) = ln(fθ (Yi )) = (ln(θ) − θYi ) + (−θ) = (n − Zn ) ln(θ) − θ Yi ,
i=1 1≤i≤n 1≤i≤n i=1
Yi <1 Yi =1
Pn
où Zn = i=1 1Yi =1 est le nombre d’observations égales à 1. ℓn est dérivable et nous avons :
n
n − Zn X n − Zn
ℓ′n (θ) = − Yi > 0 ⇐⇒ θ < Pn .
θ i=1 Yi
i=1

Ceci assure que ℓn atteint son maximum en


n − Zn
θbn = Pn .
i=1 Yi

Puisque pour tout i ∈ {1, . . . , n}, Yi > 0 p.s., θbn est bien défini. Attention : nous avons P(θbn = 0) =

P(Y1 = · · · = Yn = 1) = e−nθ > 0. Dans ce cas, l’EMV n’existe pas. Dans le cas contraire, θbn est
l’EMV de θ⋆ .
4. On remarque tout d’abord que  
n Z n
θbn = Pn 1− ,
i=1 Yi n
Pn
i Y
ce qui nous incite à appliquer la LGN à i=1 n . Pour ce faire, calculons l’espérance de Y1 :
Z 1
E[Y1 ] = yfθ⋆ (y) dy + P(Y1 = 1)
0
Z 1
⋆ ⋆
= yθ⋆ e−θ y dy + e−θ
0
Z 1
−θ⋆ y 1 ⋆ ⋆
= [−ye ]0 + e−θ y dy + e−θ
0
1 −θ⋆ y 1
 
−θ⋆ ⋆
= −e + − ⋆e + e−θ
θ 0

1 − e−θ
= .
θ⋆
Par la LFGN (Y1 , . . . , Yn i.i.d. et E[Y1 ] < ∞) et le théorème de continuité (x ∈ R∗+ 7→ 1/x continue
en E[Y1 ] ̸= 0),
n p.s. 1 θ⋆
Pn → = .
i=1 Yi E[Y1 ] 1 − e−θ⋆
De plus, Znn = n1 ni=1 1Yi =1 , où (1Y1 =1 , . . . , 1Yn =1 ) sont des variables i.i.d. de Bernoulli de paramètre
P

p = P(Y1 = 1) = e−θ . Ainsi, par la LFGN

Zn p.s. ⋆
→ E[1Y1 =1 ] = p = e−θ .
n
p.s. P
On en conclut que θbn → θ⋆ et a fortiori que θbn → θ⋆ (i.e. θbn est un estimateur consistant de θ⋆ ).
Remarque : Puisque Y1 ≥ 0, son espérance peut aussi se calculer par la formule (cf. Exercice 9)
∞  −θ⋆ y 1 ⋆
1
1 − e−θ
Z Z
e
E[Y1 ] = Pθ⋆ (Y1 > y)dy = (1 − Fθ⋆ (y))dy = − ⋆ = .
0 0 θ 0 θ⋆

1Yi =1
5. L’idée est évidemment d’appliquer le TCL et la méthode delta multivariés à Ui = , i ∈ J1, nK
Yi
(qui sont bien des vecteurs aléatoires i.i.d.) et de remarquer que θbn = φ(U n ), avec
1−x
φ : (x, y) ∈ R × R∗+ 7→ .
y

Montrons d’abord que U1 est de carré intégrable. Pour ce faire, il suffit de s’assurer que les deux lois
marginales le sont. Or, une double intégration par parties, nous assure que
⋆ ⋆
e−θ e−θ

2 1
E[Y1 ] = 2 − ⋆ − ⋆2 ,
θ⋆ 2 θ θ
d’où ⋆ ⋆
e−θ e−θ
 
1
Var(Y1 ) = ⋆ 2 − ⋆ +2 .
θ θ θ⋆
Nous avons de plus
⋆ ⋆
Var(1Y1 =1 ) = e−θ (1 − e−θ ).
Nous sommes donc en mesure d’appliquer le TCL multivarié. Il reste cependant à déterminer la
covariance entre les deux composantes :
⋆
1 − e−θ

−θ⋆
Cov(1Y1 =1 Y1 ) = E[1Y1 =1 Y1 ] − E[1Y1 =1 ]E[Y1 ] = e 1− .
θ⋆

Afin d’appliquer la méthode delta, nous remarquons que φ admet bien des dérivées partielles sur
R × R∗+ :
∂φ 1
(x, y) = − ,
∂x y
et
∂φ 1−x
(x, y) = − ,
∂y y
qui sont toutes deux continues. φ est donc bien différentiable (au sens de Fréchet). Par ailleurs,
⋆
∂φ −θ⋆ 1 − e−θ θ⋆

e , = − ̸= 0,
∂x θ⋆ 1 − e−θ⋆
et
−θ⋆ θ⋆ 2
 
∂φ −θ⋆ 1 − e
e , = − ̸= 0,
∂y θ⋆ 1 − e−θ⋆
donc ∇φ(E[U1 ]) ̸= 0. Ainsi, en notant σ 2 la variance asymptotique cherchée, il vient

σ 2 = ∇φ(E[U1 ])⊤ Var(U1 )∇φ(E[U1 ])


∂φ ∂φ ∂φ ∂φ
= Var(Ux ) (E[U1 ])2 + Var(Uy ) (E[U1 ])2 + 2Cov(Ux , Uy ) (E[U1 ]) (E[U1 ]).
∂x ∂y ∂x ∂y
Calculons donc les trois termes :
−θ⋆ 2 θ⋆ 2 e−θ

 
∂φ −θ⋆ 1 − e
Var(1Y1 =1 ) e , = ,
∂x θ⋆ 1 − e−θ⋆
⋆ 2 ⋆ ⋆
1 − e−θ + e−θ θ⋆ 3 e−θ

∂φ −θ⋆ ⋆2 1
Var(Y1 ) e , =θ ⋆ − 2 ,
∂y θ⋆ 1 − e−θ (1 − e−θ⋆ )2
et
⋆ −θ⋆ ⋆ ⋆
1 − e−θ θ⋆ 3 e−θ θ⋆ 2 e−θ
   
∂φ −θ⋆ ∂φ −θ⋆ 1 − e
2Cov(1Y1 =1 Y1 ) e , e , =2 −2 .
∂x θ⋆ ∂y θ⋆ (1 − e−θ⋆ )2 1 − e−θ⋆

En sommant l’ensemble, on obtient


⋆ ⋆
2 θ⋆ 2 e−θ ⋆2 1 + e
−θ θ⋆ 2
σ =− ⋆ + θ ⋆ = .
1 − e−θ 1 − e−θ 1 − e−θ⋆
Par conséquent,
√  θ⋆ 2
  
⋆ d
n θn − θ −−−→ N 0,
b .
n→∞ 1 − e−θ⋆
6. Pour tout y ∈]0, 1[, la fonction θ 7−→ θe−θy est de classe C 1 et pour y = 1 la fonction θ 7−→ e−θ est
elle aussi de classe C 1 . Ainsi, pour µ presque tout y, la fonction θ 7−→ fθ (y) est de classe C 1 . De
plus, on a, en prenant Y de densité fθ ,
" 2 # " 2 #
d(log ◦fθ ) 1Y ̸=1
I(θ) = E (Y ) =E −Y
dθ θ
  2 1
= E Y 2 − E [Y 1Y ̸=1 ] + 2 E [1Y ̸=1 ]
θ θ
1 − e−θ
Z 1 Z 1
2 −θy −θ
= y θe dy + e − 2 ye−θy dy + .
0 0 θ2
A l’aide d’une intégration par parties, on obtient donc

1 − e−θ 1 − e−θ
h i1 Z 1 Z 1
2 −θy −θy −θy
I(θ) = y e +2 ye dy + e −2 ye−θy dy + = .
0 0 0 θ2 θ2

De plus, l’application θ 7→ I(θ) est continue sur R∗+ et le modèle est donc régulier. Puisque I(θ⋆ ) > 0
θ⋆2
et I(θ⋆ )−1 = 1−e −θ ⋆ , qui est la variance asymptotique de θn , on en déduit que cet estimateur est
b
asymptotiquement efficace.

Exercice 6
1. Dans cette expérience, on a accès à la réalisation x du nombre de poissons marqués parmi les n pêchés.
Une modélisation probabiliste consiste donc à voir x comme la réalisation de la variable aléatoire
X = ni=1 Yi , où Yi = 1 lorsque le ie poisson pêché est marqué et 0 sinon. Puisque les poissons sont
P
pêchés au hasard et avec remise, les variables aléatoires Y1 , . . . , Yn peuvent être considérées comme
indépendantes et identiquement distribuées de loi de Bernoulli B(p), avec p la probabilité de pêcher
un poisson marqué, qui vaut ici p = Nk .
Pn k
  k
Ainsi, X = i=1 Yi ∼ B n, N . Soit donc le modèle statistique P = B(n, M ), M ∈ [k, +∞[ ,
qui est bien indicé par un intervalle. Il découle de ce choix qu’il sera aisé d’obtenir un estimateur
par maximum de vraisemblance de N mais en contrepartie que celui-ci ne sera pas entier (ce qui
compliquerait grandement l’analyse).
2. Le modèle P est dominé par la mesure de comptage sur J0, nK et chaque loi candidate de paramètre
 k x k n−x
M ∈ [k, +∞[ possède une densité x ∈ J0, nK 7→ nx M

1− M . Ainsi, pour tout M ∈ [k, +∞[,
la vraisemblance de M vis-à-vis de X est :
   X 
k n−X

n k
L(M ) = 1− .
X M M

Sur l’événement {X = 0} Pour tout M ∈ [k, +∞[,


k n
 
L(M ) = 1 − .
M
L est une fonction croissante de M et n’atteint donc pas son maximum.

Sur l’événement {X = n} Pour tout M ∈ [k, +∞[,


 n
k
L(M ) = .
M
L est une fonction décroissante de M et atteint donc son maximum en M = k.

Sur l’événement {0 < X < n} : La vraisemblance est nulle en M = k et pour tout M ∈]k, +∞[,
on peut définir la log-vraisemblance par :
   X  !
k n−X

n k
ℓ(M ) = ln 1−
X M M
= C − X ln M + (n − X) ln (M − k) − (n − X) ln (M )
= C + (n − X) ln (M − k) − n ln (M ) ,

où C est une constante. Puisque limM →k+ ℓ(M ) = limM →+∞ ℓ(M ) = −∞ (car 0 < X < n) et ℓ est
deux fois dérivable, on vérifie aisément qu’elle atteint son maximum sur [k, +∞[ pour M = kn X ∈
]k, +∞[.
kn
Ainsi, l’EMV de N n’est pas défini si X = 0 mais on choisit comme estimateur N b =
X+1X=0 , qui
regroupe les deux derniers cas. N b est une variable aléatoire bien définie, y compris sur l’événement
X = 0.
kn k
Remarque : on pourrait tout aussi bien choisir comme estimateur X+1 = X+ 1 , l’important étant
n n
que le terme correctif, ici n1 , tende vers 0 en probabilité. De manière un peu plus légère et par
simplicité, on aurait aussi pu prendre kn
X , variable aléatoire mal définie avec probabilité P(X = 0) =
k n

1 − N , quantité qui est asymptotiquement nulle. Cela suffit pour continuer l’analyse et éviter
l’utilisation du lemme de Slutsky.
1 Pn k P
3. En notant Y n = n i=1 Yi , nous avons N
b= 1 . Par la loi faible des grands nombres, Y n −−−→
Y n + X=0
n n→∞
1X=0
−−−→ 0, il vient par continuité Y n + 1X=0
k P P
N et puisque n n −−−→ Nk . Enfin, par continuité de la
n→∞ n→∞
P
fonction φ : x 7→ xk en Nk > 0, k
1X=0 −−−→ N , résultat qui reste vrai pour N .
b
Y n+ n→∞ n
De même, en supposant k < N , le TCL indique que

    
k d k k
n Yn− −−−→ N 0, 1− .
N n→∞ N N

1√ P
Puisque X=0
−−−→
n n→∞
0, il vient alors par le lemme de Slutsky

√ √
      
1X=0 k k 1X=0 d k k
n Yn+ − = n Yn− + √ −−−→ N 0, 1− .
n N N n n→∞ N N

Enfin, par la méthode delta appliquée avec φ, dérivable en Nk et de dérivée non-nulle en ce point,
!

  
k d 2 N
n − N −−−→ N 0, N −1 ,
Y n + 1X=0
n
n→∞ k

résultat qui reste vrai pour N


b.
4. La variance asymptotique étant d’autant plus petite que k est grand, il faudrait prendre k aussi
grand que possible (il faut alors un grand chalut), c’est-à-dire k = N , ce qui nous assurerait un
estimateur avec une variance (asymptotique) nulle !

Exercice 7
1. On sait que X 100 ∼ N (θ, 10−2 ), ce qui équivaut à dire que 10(X 100 − θ) ∼ N (0, 1) donc

P −Φ−1 (0.975) ≤ 10(X 100 − θ) ≤ Φ−1 (0.975) = 0.95




ou encore, avec l’approximation Φ−1 (0.975) ≈ 2 et en notant Ib = [X 100 − 0.2 ; X 100 + 0.2], que
P(θ ∈ I)
b ≈ 0.95.
2. Si θ = 0, sachant X100 = 50, on peut écrire
99 99
!  
1 X 1 1 X 1 99
X 100 = 50 + Xi = + Xi ∼ N , .
100 2 100 2 104
i=1 i=1

Via l’approximation 99/104 ≈ 10−2 , on a donc L(X 100 | X100 = 50) = N 1 1



2 , 100 .
3. Par conséquent
  
P 0 ∈ Ib | X100 = 50 = P X 100 − 0.2 ≤ 0 ≤ X 100 + 0.2 | X100 = 50 ,

c’est-à-dire   
P 0 ∈ Ib | X100 = 50 = P −0.2 ≤ X 100 ≤ 0.2 | X100 = 50 ,

et par ci-dessus    
  1 1
P 0 ∈ I | X100 = 50 = P −0.2 ≤ N
b , ≤ 0.2 ,
2 100
ou encore, en centrant et normalisant,
 
P 0 ∈ Ib | X100 = 50 = P (−7 ≤ N (0, 1) ≤ −3) = Φ(−3) − Φ(−7) ≈ 10−3 .

Conclusion : à cause d’une seule donnée aberrante, l’intervalle de confiance à 95% est devenu un
intervalle de confiance à 0,1% ! Ceci illustre la non-robustesse de l’EMV aux données aberrantes.
En revanche, il est clair que l’estimateur de la médiane empirique n’aurait pas été sensible à cette
donnée : il est plus robuste.

Exercice 8
Pn
1. Par définition, l’estimateur des moindres carrés est la valeur de t qui minimise la quantité i=1 (Xi −
t)2 . La minimisation de ce trinôme en t donne bien la moyenne empirique X n .
2. Si X n est l’EMV alors il maximise la log-vraisemblance
n
X
ℓn (t) = g(Xi − t).
i=1

Puisque celle-ci est C 1 sur R, c’est en particulier un point critique donc nécessairement
n
X
g ′ (Xi − X n ) = 0.
i=1

Or f > 0 sur R et les Xi sont i.i.d., donc la loi de l’échantillon (X1 , . . . , Xn ), de densité

f (x1 , . . . , xn ) = f (x1 ) . . . f (xn )

par rapport à λRn , la mesure de Lebesgue sur Rn , est équivalente à celle-ci, c’est-à-dire qu’elles ont
les mêmes ensembles négligeables. En passant aux réalisations de l’échantillon (X1 , . . . , Xn ), ceci
signifie que pour presque tout n-uplet (x1 , . . . , xn ) de réels, la fonction g doit vérifier
n
X
g ′ (xi − xn ) = 0.
i=1

Mais g étant supposé de classe C 1 , la fonction φ : Rn → R définie par


n
X
φ(x1 , . . . , xn ) := g ′ (xi − xn )
i=1

est continue donc la relation φ(x1 , . . . , xn ) = 0 vérifiée presque partout sur Rn est en fait vérifiée
partout : en effet, un ensemble négligeable pour la mesure de Lebesgue étant d’intérieur vide, on peut
approcher tout point (x∗1 , . . . , x∗n ) par une suite (xN N N N
1 , . . . , xn )N ∈N pour laquelle φ(x1 , . . . , xn ) = 0
et il suffit alors de passer à la limite en N .
3. En prenant x2 = · · · = xn = x1 − nt, cette relation devient

g ′ ((n − 1)t) + (n − 1)g ′ (−t) = 0.

Or f est paire donc g ′ (−t) = −g(t) donc g ′ ((n − 1)t) = (n − 1)g ′ (t). Le réel t ̸= 0 et l’entier n > 1
′ (kt) ′
étant arbitraires, on a bien ∀t ∈ R⋆ , ∀k ∈ N⋆ , g kt = g t(t) .

4. Posons c = g ′ (1). La relation précédente implique que ∀k ∈ N⋆ , g k(k) = c. Soit x = p/q un rationnel
strictement positif, alors
g ′ (x) g ′ (qx) g ′ (p)
= = = c.
x qx p

La fonction φ(x) = g x(x) étant continue sur ]0, ∞[, la densité des rationnels dans ]0, ∞[ assure que

∀x > 0, g x(x) = c. Par imparité de g ′ , ceci est aussi vrai pour tout x < 0 et on peut donc prolonger
par continuité la fonction φ en 0 par la même valeur. On a ainsi établi qu’il existe une constante c

telle que, pour tout t ∈ R⋆ , g t(t) = c.
5. L’intégration de l’équation différentielle g ′ (t) = ct nous dit qu’il existe a ∈ R telle que g(t) =
2
a + ct2 /2 donc une constante b = ea > 0 telle que f (t) = bect /2 . Puisque f est une densité, elle est
intégrable donc il est clair que c < 0 et on peut ainsi écrire c sous√la forme c = −1/σ 2 de sorte que
2 2
f (t) = be−t /2σ . Comme de plus l’intégrale vaut 1, il vient b = 1/ 2πσ 2 et f est la densité d’une loi
normale centrée. La réciproque est claire : si les Xi sont i.i.d. de loi N (θ, σ 2 ), alors un calcul facile
montre que l’EMV est X n , qui est comme on l’a vu l’estimateur des moindres carrés.

Exercice 9
1. Ici, le modèle statistique considéré est P = {ft · λR , t ∈ R}, qui est dominé par la mesure de Lebesgue
sur R, notée λR , et chaque loi du modèle indicée par t a pour densité ft . La vraisemblance s’écrit
n
Y
Ln (t) = 1t≤Xi ≤t+1 = 1∀i,t≤Xi ≤t+1 = 1X(n) −1≤t≤X(1) ,
i=1

donc tout élément de l’intervalle [X(n) − 1, X(1) ] est un EMV.


2. Elégant mais subtil. Remarquons que le modèle est un modèle de translation issue d’une loi
uniforme sur [0, 1], ainsi Xi = θ + Zi , avec Z1 , . . . , Zn i.i.d. uniformes sur [0, 1]. En notant L(X) la
loi d’une variable aléatoire X, puisque L(Zi ) = L(1 − Zi ), on a L(Z(1) ) = L(1 − Z(n) ) d’où

L(n(X(1) − θ)) = L(nZ(1) ) = L(n(1 − Z(n) )) = L(n(θ + 1 − X(n) )),

et il suffit de calculer L(nZ(1) ). On utilise pour cela la fonction de répartition, pour tout t ∈ [0, n],

P(nZ(1) ≤ t) = 1 − P(Z(1) > t/n) = 1 − (1 − t/n)n ,

et la fonction de répartition vaut 0 pour t < 0 et 1 pour t > n. A la limite,

P(nZ(1) ≤ t) −→ (1 − e−t )1[0,+∞[ (t),

fonction de répartition d’une exponentielle E(1).


Version plus soft. On calcule la fonction de répartition de n(X(1) − θ) et on étudie sa convergence
simple. On trouve les mêmes résultats pour la fonction de répartition n(θ + 1 − X(n) ).
3. La formule résulte du Théorème de Fubini-Tonelli (tout est positif) :
R
Version Fubini-Tonelli entre et E : tout est positif donc on peut intervertir espérance et
intégrale :
Z ∞ Z ∞ Z ∞ 
k−1 k−1 k−1
k t P(Y > t)dt = k t E[1Y >t ]dt = kE t 1Y >t dt
0 0 0
Z Y 
= kE t dt = E[Y k ].
k−1
0
Version double intégrale :
Z ∞ Z ∞ Z ∞ Z
k−1 k−1 k−1
t P(Y > t)dt = t E[1Y >t ]dt = t 1Y >t (ω)dP(ω)dt
0 0 0 Ω
!
Z Z Y (ω) Z Y 
k−1 k−1
= t dt dP(ω) = E t dt
Ω 0 0

= E[Y k /k].

Ainsi, nous avons pour k = 1,


Z ∞ Z n
n
E(n(X(1) − θ)) = P(n(X(1) − θ) > t)dt = (1 − t/n)n dt = ,
0 0 n+1
et pour k = 2, en utilisant une intégration par partiess,
Z n
E(n2 (X(1) − θ)2 ) = 2 t(1 − t/n)n dt
0 n Z n
n n+1 n
=2 − (1 − t/n) t +2 (1 − t/n)n+1 dt
n+1 0 n + 1 0
2n2
= .
(n + 2)(n + 1)

4. On a vu que tout EMV θbn vérifie


X(n) − 1 ≤ θbn ≤ X(1) ,
d’où
X(n) − 1 − θ ≤ θbn − θ ≤ X(1) − θ.
Par conséquent,
(θbn − θ)2 ≤ (X(1) − θ)2 + (X(n) − 1 − θ)2 ,
donc les questions précédentes donnent
4
E((θbn − θ)2 ) ≤ 2E((X(1) − θ)2 ) = ,
(n + 2)(n + 1)
qui tend vers 0. Donc θbn converge en moyenne quadratique vers θ, donc aussi en probabilité. Fina-
lement, tout EMV est consistant.
5. La question précédente donne directement que, pour tout n,
4n2
n2 R(θbn , θ) ≤ ≤ 4.
(n + 2)(n + 1)

6. Choisissons θb = X(1) comme EMV pour estimer θ. Nous avons vu que, pour tout t ∈ [0, n],

P(θ ≤ θb ≤ θ + t/n) = 1 − (1 − t/n)n


⇐⇒ P(−θb ≤ −θ ≤ −θb + t/n) = 1 − (1 − t/n)n
b = 1 − (1 − t/n)n
⇐⇒ P(θb − t/n ≤ θ ≤ θ)

Donc en choisissant (1 − t/n)n = α, on en déduit t = n(1 − α1/n ), on obtient


P(θb − (1 − α1/n ) ≤ θ ≤ θ)
b = 1 − α,

ce qui fournit l’intervalle de confiance I = [θb − (1 − α1/n ), θ]


b pour θ de niveau (1 − α). Par exemple,
pour α = 0.05, θ(ω)
b = 3, on obtient pour n = 10, I ≃ [2.74, 3] et pour n = 100, I ≃ [2.97, 3].
Exercice 10
1. Notons Pθ,λ la loi de X1 . Ici, le modèle statistique considéré serait {Pt,ℓ , t ≥ 1, ℓ ∈ [0, 1[}, qui est
dominé par la mesure de Lebesgue µ sur R, et chaque loi du modèle indicée par (t, ℓ) a pour densité
ft,ℓ .
Le modèle ci-dessus est identifiable si et seulement si l’application

(t, ℓ) 7→ Pt,ℓ

est injective. Pour t = 1, on voit que Pt,ℓ est une loi uniforme, indépendamment de λ, donc le modèle
n’est pas identifiable. Si on exclut t = 1, montrons que le modèle est identifiable : soient (t, ℓ) et
(t′ , ℓ′ ) dans ]1, ∞[×[0, 1[ tels que Pt,ℓ = Pt′ ,ℓ′ , c’est-à-dire que pour tout borélien B on doit avoir
Pt,ℓ (B) = Pt′ ,ℓ′ (B), i.e. Z Z
ft,ℓ (x)µ(dx) = ft′ ,ℓ′ (x)µ(dx).
B B
En particulier, les deux lois ont même support donc nécessairement t = t′ . Puis, prenons par exemple
B = [0, 1] : l’égalité Pt,ℓ ([0, 1]) = Pt,ℓ′ ([0, 1]) donne

1−ℓ 1 − ℓ′
ℓ+ = ℓ′ + ⇐⇒ (t − 1)(ℓ − ℓ′ ) = 0 ⇐⇒ ℓ = ℓ′ ,
t t
car par hypothèse t > 1. Au final, le modèle

P = {Pt,ℓ , t > 1, ℓ ∈ [0, 1[}

est identifiable.
2. Soit x ∈ R, alors

1 − λ 10≤x≤1 1 − λ 11<x≤θ
       
1−λ 1−λ
fθ,λ (x) = λ+ 10≤x≤1 + 11<x≤θ = λ + 10≤x≤θ .
θ θ θ θ

3. Nous pouvons alors écrire la vraisemblance comme suit :


n 
1 − ℓ 10≤Xi ≤1 1 − ℓ 11<Xi ≤t
Y   
Ln (t, ℓ) = ℓ+ 10≤Xi ≤t
t t
i=1
 Pni=1 10≤X ≤1  Pni=1 11<X ≤t
1−ℓ i 1−ℓ i
= ℓ+ 10≤X(n) ≤t
t t
1 − ℓ N 1 − ℓ n−N
   
= ℓ+ 1X(n) ≤t ,
t t

car Xi ≥ 0 (p.s.) et en posant


n
X
N= 10≤Xi ≤1 .
i=1

Considérons maintenant la fonction g définie par


 N  n−N
1−ℓ 1−ℓ
g(t, ℓ) = ℓ+
t t
 N  n
ℓt 1−ℓ
= 1+ .
1−ℓ t
Lorsque θ est connu etλ est inconnu,
 on cherche à maximiser g(θ, ℓ) en ℓ. La dérivée de ln g(θ, ℓ) =
ℓθ
n ln((1 − ℓ)/θ) + N ln 1 + 1−ℓ en ℓ est :
 
1 Nθ
−n ,
1 − ℓ 1 + ℓ(θ − 1)
qui est positive si et seulement si ℓ ≤ θN/n−1
θ−1 . Or 0 ≤
θN/n−1
θ−1 < 1 si et seulement si n
θ ≤ N < n.
n
Ainsi, lorsque θ ≤ N < n, l’EMV en ℓ (et à θ connu) est
θN/n − 1
λ(θ)
b = .
θ−1
Si en revanche N < nθ , l’EMV est λ(θ)b = 0, et si N = n, l’EMV n’existe pas. L’EMV n’étant pas
toujours défini et par souci de simplicité, on choisit donc comme estimateur, appelé aussi abusivement
EMV,
θN/n − 1
λ(θ)
b = .
θ−1
Comme par la LFGN (les v.a. Xi sont i.i.d. donc les 10≤Xi ≤1 aussi, et elles sont intégrables car
bornées) N/n tend vers λ + (1 − λ)/θ, on a λ(θ) b qui tend p.s. vers λ, ce qui indique que l’EMV est
bien consistant.
A présent, si λ est connu et θ est inconnu, on remarque que la fonction g(t, λ) est décroissante en t,
ce qui donne directement que, lorsque X(n) > 1, la vraisemblance atteint son maximum sur ]1, +∞[
en
θb = X(n) .
Si X(n) ≤ 1, le maximum n’existe pas sur ]1, +∞[ (car 1 est exclu).
Pour déterminer maintenant l’EMV lorsque les deux paramètres λ et θ sont inconnus, on remarque
que, lorsque X(n) > 1, la vraisemblance est toujours plus petite que sa valeur en θ,
b c’est-à-dire g(ℓ, θ).
b
Comme θb ne dépend pas de ℓ, le même calcul que plus haut nous donne que la vraisemblance est
maximum en (λ( b θ),
b θ).
b Dans ce cas l’EMV (toujours avec un léger abus) pour (θ, λ) est donc
X(n) × N/n − 1
 
(λ(θ), θ) =
b b b , X(n) ,
X(n) − 1
X N/n−1
qui est bien défini sur l’événement où X(n) > 1 et (n)X(n) −1 ∈ [0, 1[. On voit que cet événement à
une probabilité qui tend vers 1, ce qui permet de faire les études asymptotiques qui vont suivre.
4. Nous obtenons facilement que, pour tout x ∈ R,


 0 si x ≤ 0
(λ + (1 − λ)/θ)x si 0 < x < 1

Pθ,λ (X1 ≤ x) =

 λ + x(1 − λ)/θ si 1 ≤ x ≤ θ
1 si x > θ

D’où, avec la méthode habituelle, on obtient pour tout t ≥ 0


  
b ≤ t) = 1 − exp n ln 1 − t(1 − λ)
Pθ,λ (n(θ − θ)
θn
 
t(1 − λ)
−−−→ 1 − exp − ,
n→∞ θ
ce qui donne
b −−d−→ E((1 − λ)/θ).
n(θ − θ)
n→∞

En particulier, θb est consistant.


5. Si θ est connu, on a déjà montré en question 3 que λ(θ)
b est consistant (converge en probabilité vers
λ). Lorsque θ est inconnu, l’EMV est
X(n) × N/n − 1 P θ(λ + (1 − λ)/θ) − 1

→ =λ
X(n) − 1 θ−1

en utilisant le lemme de Slutsky, notamment en utilisant le fait que θ > 1. Lorsque θ = 1, les Xi
suivent la loi uniforme sur [0, 1] et on a
X(n) × N/n − 1 X(n) − 1
λ(
b θ)
b = = =1
X(n) − 1 X(n) − 1

car N = n. Donc l’estimateur λ(b θ)


b ne converge plus vers λ. Ceci s’explique car le modèle n’est plus
identifiable en λ lorsque θ = 1.
6. On cherche c = cn (α) tel que Pθ=1,λ (θb > c) = α. On remarque que c est nécessairement plus petit
que 1. D’après la question 3, on sait que

Pθ=1,λ (θb > c) = 1 − Pθ=1,λ (θb ≤ c) = 1 − Pnθ=1,λ (X1 ≤ c) = 1 − cn = α.

On choisit donc c = (1 − α)1/n . Alors la puissance de ce test est donnée par la formule suivante :
pour tout θ ≥ 1, pour tout λ ∈ [0, 1[,
 n
1/n 1/n
P(rejet de H0 ) = P(θ > (1 − α) ) = 1 − P(X1 ≤ (1 − α) )
b
  n
1−λ 1/n
=1− λ+ (1 − α)
θ
1−λ n
 
= 1 − (1 − α) λ + .
θ
Pour tout θ > 1, pour tout λ ∈ [0, 1[, cette dernière quantité tend vers 1 lorsque n tend vers l’infini,
ce qui est attendu.

Exercice 11
1. Puisque
1 p √
h(f, g) = √ ∥ f − g∥2 ,
2
il est clair que h est une distance. La formule
Z p
2
h (f, g) = 1 − f (x)g(x) dx
R

découle du fait que f et g intègrent à 1. Une distance étant positive et le dernier terme étant positif,
on en déduit aussi que 0 ≤ h(f, g) ≤ 1.
q
2. Soit θ > 0 et fθ la densité de la loi uniforme sur [0, θ]. Le fait que h2 (fθ , fθ′ ) = 1 − θθ′ si θ ≤ θ′ est
une conséquence directe de la formule précédente.
3. Soit X1 , . . . , Xn i.i.d. de loi uniforme sur [0, θ] pour un θ > 0 inconnu. Ici, le modèle statistique
considéré est P = {U([0, t]), t > 0}, qui est dominé par la mesure de Lebesgue sur R, et chaque loi
du modèle indicée par t a pour densité ft . La vraisemblance associée à cet échantillon s’écrit
1
Ln (t) = 1t≥X(n) ,
tn
q √
qui est maximale pour t = θbn = X(n) . La variable θbn étant positive (et inférieure à θ), on peut
écrire que
q  Z ∞ q  Z √θ q 
Eθ θbn = P θbn > x dx = P θbn > x dx,
0 0
d’où √ √  2 n 
q  Z θ  q  Z θ 
x
Eθ θbn = 1−P θbn ≤ x dx = 1− dx,
0 0 θ
ce qui donne finalement

q   
1
Eθ θn = θ 1 −
b .
2n + 1
Puisque presque sûrement 0 < θbn ≤ θ, le calcul d’espérance par conditionnement et les résultats
précédents donnent
 s 
h i h h ii θbn  1
Eθ h2 (fθ , fθbn ) = Eθ Eθ h2 (fθ , fθbn ) θbn = Eθ 1 − = .
θ 2n + 1

4. Soit la densité  
1 10
fn∗ (x) = 10 1 − 10≤x≤1/10 + 1 .
n n 9/10≤x≤1
(a) Pour toute fonction continue bornée φ, il est clair que
 Z 1/10
10 1
 Z Z 1/10
1
E[φ(Yn )] = 10 1 − φ(x)dx + φ(x)dx −−−→ 10 φ(x)dx,
n 0 n 9/10 n→∞ 0

ce qui montre que (Yn ) converge en loi vers une loi uniforme sur [0, 1/10].
(b) Un calcul immédiat donne
Z q r
1
h2 (fn∗ , f1/10 ) = 1 − fn∗ (x)f1/10 (x) dx = 1 − 1 − ,
R n
quantité qui tend bien vers 0 lorsque n tend vers l’infini.
5. Soit n > 1. Les variables X1 , . . . , Xn sont désormais i.i.d. de densité fn∗ , mais on les croit toujours
i.i.d. suivant une densité uniforme (fθ )θ>0 , avec θ inconnu. En particulier, l’estimateur θbn est le
même que celui défini ci-dessus.
(a) Chaque Xi tombe indépendamment dans les intervalles [0, 1/10] et [9/10, 1] avec les probabilités
respectives 1 − 1/n et 1/n. Puisque θbn = X(n) , la probabilité que θbn soit entre 9/10 et 1 est
donc la probabilité que l’un au moins des Xi y soit, i.e.
 
P 9/10 ≤ θbn ≤ 1 = 1 − P (0 ≤ X1 ≤ 1/10)n = 1 − (1 − 1/n)n .

(b) Sur l’événement {9/10 ≤ θbn ≤ 1}, puisque fθbn (x) = 1[0,θbn ] (x)/θbn , on obtient :
Z q s Z 1/10 r Z θbn !
10 1 1
h2 (fn∗ , fθbn ) = 1 − fn∗ (x)fθbn (x) dx = 1 − 1 − dx + √ dx ,
R θbn 0 n 9/10 n
ce qui donne
q
1 − n1
s r
2 ∗ 10 b 1 1 1
h (fn , fθbn ) = 1 − q − (θn − 9/10) ≥ 1 − 1− − √ ,
nθbn 3 n 3 n
10θbn

la dernière inégalité découlant du fait que 9/10 ≤ θbn ≤ 1.


(c) En conditionnant par rapport à la valeur de θbn et en tenant compte du fait que la distance de
Hellinger est positive, il s’ensuit que

E∗n [h2 (fn∗ , fθbn )] ≥ E∗n [h2 (fn∗ , fθbn )|9/10 ≤ θbn ≤ 1]P(9/10 ≤ θbn ≤ 1),

d’où, par les calculs précédents,


r !
1 1 1
E∗n [h2 (fn∗ , fθbn )] ≥ un = 1− 1− − √ × (1 − (1 − 1/n)n ) ,
3 n 3 n

avec limn→∞ un = 2/3 × (1 − 1/e).


(d) Pour n grand, on a vu que la distance h(fn∗ , f1/10 ) est arbitrairement petite. La vraie densité
fn∗ n’appartient pas au modèle (fθ )θ>0 des densités uniformes : c’est un mélange de lois où,
en moyenne sur n données, une seule est aberrante. Un “bon” estimateur de θ devrait être
arbitrairement proche de 1/10. La question précédente montre que ça n’est pas le cas pour
l’estimateur du maximum de vraisemblance, qui n’est donc pas robuste. A contrario, sur cet
exemple, il est facile de vérifier qu’un estimateur basé sur la médiane est robuste.

Exercice 12 On a f1 (x) = 12 1[−1,1] (x) et pour tout 0 ≤ θ < 1,


 
1 |x − θ|
fθ (x) = θf1 (x) + (1 − θ) 1− 1[θ−c(θ),θ+c(θ)] (x).
c(θ) c(θ)
1. Le modèle P est bien dominé par la mesure de Lebesgue sur R et chaque loi du modèle indicée par
θ a pour densité fθ . Considérons les variables Xi tirées selon Pθ⋆ , alors p.s. la fonction θ 7→ ℓn (θ)
est continue sur le compact Θ = [0, 1] donc elle atteint son maximum en (au moins) un point, ce qui
permet de définir un EMV.
1
2. Le fait que 0 ≤ f1 (x) ≤ 2 donne, pour tout 0 ≤ θ < 1 et tout réel x,

θ 1−θ 1 1
fθ (x) ≤ + ≤ + ,
2 c(θ) 2 c(θ)
et la décroissance de la fonction c permet d’affirmer que, pour tout 0 ≤ θ ≤ α < 1 et tout réel x,
1 1
fθ (x) ≤ + ,
2 c(α)
d’où  
1 1 1
sup ℓn (θ) ≤ log + < ∞. (1)
0≤θ≤α n 2 c(α)
3. Pour montrer que (Mn ) tend presque sûrement vers 1, le Lemme de Borel-Cantelli est tout indiqué.
Soit donc 0 < ε < 1, alors puisque Mn ≤ 1 on a

Pθ⋆ (|1 − Mn | ≥ ε) = Pθ⋆ (1 − Mn ≥ ε) = Pθ⋆ (Mn ≤ 1 − ε) = Pθ⋆ (X1 ≤ 1 − ε)n = Fθ⋆ (1 − ε)n ,

où Fθ⋆ désigne la fonction de répartition de X1 . Or, quels que soient θ⋆ ∈ [0, 1] et ε ∈]0, 1[, il est
clair que Fθ⋆ (1 − ε) < 1 donc on a affaire à une série géométrique et

X
Pθ⋆ (|1 − Mn | ≥ ε) < ∞,
n=0

ce qui certifie que (Mn ) tend presque sûrement vers 1.


4. Si 0 ≤ Mn ≤ 1, on a par définition même de l’EMV
1 1 1
ℓn (θbn ) = sup ℓn (θ) ≥ ℓn (Mn ),
n 0≤θ≤1 n n

avec, si Xi ̸= Mn ,
 
Mn 1 − Mn |Xi − Mn | Mn
fMn (Xi ) = + 1− 1[Mn −c(Mn ),Mn +c(Mn )] (Xi ) ≥ ,
2 c(Mn ) c(Mn ) 2
et, si Xi = Mn ,
 
Mn 1 − Mn |Mn − Mn | 1 − Mn
fMn (Mn ) = + 1− 1[Mn −c(Mn ),Mn +c(Mn )] (Mn ) ≥ .
2 c(Mn ) c(Mn ) c(Mn )
La loi Pθ⋆ étant à densité par rapport à la mesure de Lebesgue, les Xi sont p.s. deux à deux distincts
et il existe un unique indice i tel que Xi = Mn . Il ne reste donc plus qu’à sommer les logarithmes
des inégalités obtenues pour aboutir à
1 n−1 Mn 1 1 − Mn
ℓn (θbn ) ≥ log + log .
n n 2 n c(Mn )
D’après la question précédente, l’événement
n o
Ω0 := ω ∈ Ω, Mn (ω) −−−→ 1
n→∞

est de probabilité 1. Il suffit alors de raisonner “ω par ω”. Pour tout ω ∈ Ω0 , il existe en effet
N = N (ω) tel que pour tout n ≥ N (ω) on ait 0 ≤ Mn (ω) ≤ 1, auquel cas l’inégalité précédente est
vérifiée, i.e.
1 ω b n−1 Mn (ω) 1 1 − Mn (ω)
ℓn (θn (ω)) ≥ log + log ,
n n 2 n c(Mn (ω))
avec la notation
n
X
ℓωn (θ) := log fθ (Xi (ω)).
i=1

Et comme pour tout ω ∈ Ω0 , Mn (ω) tend vers 1, on a aussi


1 ω b n−1 Mn (ω) 1 1 − Mn (ω) 1 1 1 − Mn (ω)
lim inf ℓ (θn (ω)) ≥ lim inf log + log = log + lim inf log
n→∞ n n n→∞ n 2 n c(Mn (ω)) 2 n→∞ n c(Mn (ω))
ce qui est exactement dire que, presque sûrement,
1 1 1 1 − Mn
lim inf ℓn (θbn ) ≥ log + lim inf log .
n→∞ n 2 n→∞ n c(Mn )

5. Le calcul de l’aire d’un triangle donne pour tout x ∈ [0, 1]

(1 − x)2
P0 (X > x) = . (2)
2
Maintenant, si 0 < θ ≤ 1, on peut minorer la densité fθ par θf1 donc
Z 1
θ(1 − x)
Pθ (X > x) ≥ θ f1 (x)dx = ,
x 2
ce qui fait que si x ≥ xθ := 1 − θ ∈ [0, 1[, on a bien Pθ (X > x) ≥ P0 (X > x).
6. Soient 0 ≤ θ ≤ 1 et 0 < ε < 1 fixés. Remarquons simplement que
    n
Pθ n1/4 (1 − Mn ) ≥ ε = 1 − Pθ X > 1 − εn−1/4

donc dès lors que 1 − εn−1/4 ≥ xθ , c’est-à-dire n ≥ (ε/θ)4 , on a bien


   
Pθ n1/4 (1 − Mn ) ≥ ε ≤ P0 n1/4 (1 − Mn ) ≥ ε .

Si θ = 0, cette inégalité devient bien sûr une égalité, vérifiée pour tout n.
7. Pour tous ε ∈]0, 1[ et n ≥ 1, on a εn−1/4 ∈]0, 1[ donc
n
ε2
    n 
1/4 −1/4
P0 n (1 − Mn ) ≥ ε = 1 − P0 X > 1 − εn = 1− √ ,
2 n

la dernière égalité venant de (2). L’inégalité log(1 − u) ≤ −u, valide pour tout u < 1, conduit alors à
2
1 2√
 
n log 1− 2ε√n
 
P0 n 1/4
(1 − Mn ) ≥ ε = e ≤ e− 2 ε n
,

ce qui donne finalement


∞ ∞
1 2√
X   X
P0 n1/4 (1 − Mn ) ≥ ε ≤ e− 2 ε n .
n=1 n=1

La suite de variables n1/4 (1 − Mn ) est positive donc pour tout ε ∈]0, 1[




   
P0 n1/4 (1 − Mn ) ≥ ε = P0 n1/4 (1 − Mn ) ≥ ε .

1 2√
Puisque la série de terme général e− 2 ε n
est convergente, l’inégalité précédente et le Lemme de
Borel-Cantelli impliquent que, sous P0 ,
p.s.
n1/4 (1 − Mn ) −−−→ 0.
n→∞

Le résultat de la question 6 assure que c’est également vrai sous Pθ⋆ , et ce quelle que soit la valeur
du vrai paramètre θ⋆ derrière la variable Mn .
−4
8. Commençons par noter que la fonction c : [0, 1[→]0, 1] définie par c(θ) = (1 − θ)e1−(1−θ) satisfait
bien les conditions requises, à savoir qu’elle est continue décroissante, telle que c(0) = 1 et 0 < c(θ) ≤
1 − θ pour tout θ ∈]0, 1[. Ensuite, un savant calcul donne
1 1 − Mn 1 1
log = 4 − ,
n c(Mn ) n (1 − Mn ) n

d’où par la question précédente, sous Pθ⋆ ,


1 1 − Mn p.s.
log −−−→ ∞.
n c(Mn ) n→∞

9. Puisqu’on a vu en question 4 que, presque sûrement sous Pθ⋆ ,


1 1 1 1 − Mn
lim inf ℓn (θbn ) ≥ log + lim inf log ,
n→∞ n 2 n→∞ n c(Mn )
il s’ensuit que
1
lim inf ℓn (θbn ) = ∞,
n→∞ n
c’est-à-dire
1 p.s.
ℓn (θbn ) −−−→ ∞.
n n→∞

Montrons que, pour tout θ⋆ ∈ [0, 1], l’EMV tend presque sûrement vers 1 : supposons en effet que
ce ne soit pas le cas et notons
n o n o
A := ω ∈ Ω, θbn (ω) ̸→ 1 = ω ∈ Ω, lim inf θbn (ω) < 1 .
n→∞

On aurait alors d’une part Pθ⋆ (A) > 0. D’autre part, en notant (Am )m≥1 la suite d’événements
définie par  
1
Am := ω ∈ Ω, lim inf θn (ω) ≤ 1 −
b ,
n→∞ m
la continuité monotone croissante implique que Pθ⋆ (A) = limm→∞ Pθ⋆ (Am ), donc il existe m tel que
Pθ⋆ (Am ) > 0. Pour tout ω ∈ Am , il existe une suite strictement croissante d’indices (φn (ω))n telle
que
1
∀n ∈ N⋆ , θbφn (ω) (ω) ≤ α := 1 − .
2m
Notons enfin A′m := Am ∩ Ω1 où Ω1 est l’événement de probabilité 1 défini par
 
1 ω b
Ω1 := ω ∈ Ω, ℓn (θn (ω)) −−−→ ∞ .
n n→∞

On a bien entendu Pθ⋆ (A′m ) = Pθ⋆ (Am ) > 0. Par ailleurs, pour tout n, l’inégalité (1) impose
 
1 ω 1 1
ℓ (θ (ω)) ≤ log + < ∞,
φn (ω) φn (ω) φn (ω)
b
2 c(α)

et a fortiori  
1 1 1
lim sup ℓωφn (ω) (θbφn (ω) (ω)) ≤ log + < ∞,
n→∞ φn (ω) 2 c(α)
ce qui est impossible puisque ω appartient à Ω1 . Il s’ensuit que, nécessairement, Pθ⋆ (A) = 0.
Bilan des courses : θ⋆ = 1 est la seule valeur pour laquelle l’EMV est consistant et dans ce cas il
l’est même fortement.
Interprétation. La raison pour laquelle l’EMV ne fonctionne pas lorsque θ⋆ < 1 est la suivante :
plus θ se rapproche de 1, plus la densité fθ peut prendre des valeurs élevées, et ce d’autant plus que
l’un des Xi est proche de 1. Or toute densité fθ⋆ met du poids autour de 1, donc quelle que soit
la vraie valeur θ⋆ du paramètre, le maximum Mn de l’échantillon tend vers 1, ce qui implique que
l’EMV se rapproche lui-même de 1. Ce phénomène ne pourrait se produire si les densités étaient par
exemple uniformément bornées.

Vous aimerez peut-être aussi