M1 Stat
M1 Stat
Elisabeth Gassiat
Table des matières
1 Introduction 5
1.1 Estimation et régions de confiance . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Construction d’estimateurs 13
2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Méthode des moments. Estimation empirique . . . . . . . . . . . . . . . . 14
2.3 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Construction de tests 25
4.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.2 Optimalité dans le cas de deux hypothèses simples . . . . . . . . . 26
4.2 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.3 Test du chi-deux d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4 Lien entre tests et régions de confiance . . . . . . . . . . . . . . . . . . . . 28
5 Vecteurs gaussiens 31
3
7.6 Estimation bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.6.1 Estimateurs admissibles et estimateurs bayésiens . . . . . . . . . . 54
7.6.2 Notion de loi conditionnelle . . . . . . . . . . . . . . . . . . . . . . 56
7.6.3 Calcul d’estimateurs bayésiens . . . . . . . . . . . . . . . . . . . . 58
5
1 Introduction
Rappels :
— LFGN On suppose que (Xk )k≥1 est une suite de variables aléatoires réelles indépendantes
P même loi P , telle que E(|X1 |) est finie. Alors la suite de variables aléatoires
et de
( n1 ni=1 Xi )n≥1 converge presque sûrement vers E(X1 ).
— LGN On suppose que (Xk )k≥1 est une suite de variables aléatoires réelles indépendantes
et Pde même loi, telle que E(|X1 |) est finie. Alors la suite de variables aléatoires
( n1 ni=1 Xi )n≥1 converge en probabilité vers E(X1 ).
Reprendre les définitions de convergence p.s. et en probabilité qui permettent de voir
que, en ce qui concerne la question de quantifier les probabilités des écarts, la LFGN est
seulement qualitative, et que ce qui nous intéresse est la LGN.
Il y a plusieurs choses à remarquer. D’abord, la loi P des Xi est inconnue. Elle dépend
de θ, on va donc la noter Pθ . Ensuite, l’intervalle de confiance est un intervalle aléatoire.
Si on renouvelle l’expérience, il change. Et ce que l’on veut contrôler, on souhaite que
cela soit valide bien que l’on ne connaisse pas la loi, puisque justement c’est l’objectif,
donc que ce soit vrai quel que soit θ.
Définition 1.1.1. Soit α ∈ [0, 1]. On dit que I est un intervalle de confiance pour
θ ∈ Θ de niveau de confiance 1 − α si et seulement si
— I est un intervalle aléatoire, dont les bornes sont des variables aléatoires fonction
de l’observation
—
∀θ ∈ Θ, Pθ (θ ∈ I) ≥ 1 − α.
Dans l’exemple, Θ = [0, 1]. Noter que dans l’événement ”θ ∈ I” c’est I qui est
aléatoire, pas θ qui est une quantité fixe (mais inconnue). Reprendre l’exemple pour
lire la définition.
6
1.1 Estimation et régions de confiance
Rappels :
— Inégalité de Markov Si Z est une variable aléatoire réelle positive ou nulle, alors
E(Z)
∀t > 0, P (|Z| ≥ t) ≤ .
t
(Ceci n’a un intérêt que si E(Z) est finie).
— Inégalité de BT Si Z est une variable aléatoire réelle admettant une espérance
et une variance, alors
V ar(Z)
∀t > 0, P (|Z − E(Z)| ≥ t) ≤ .
t2
Se rappeler les preuves.
Sur l’exemple : V ar(X n ) = θ(1−θ)n (bien détailler pourquoi), et donc ∀θ ∈ [0, 1],
θ(1−θ)
Pθ (|X n − θ| ≥ ) ≤ n2 . Par ailleurs, par l’étude de la fonction θ 7→ θ(1 − θ), on
voit que ∀θ ∈ [0, 1], θ(1 − θ) ≤ 1/4. On a donc
1
∀θ ∈ [0, 1], Pθ |X n − θ| ≥ ≤ .
4n2
ceci se réécrit en (détailler les étapes)
1
∀θ ∈ [0, 1], Pθ X n − < θ < X n + ≥ 1 − ,
4n2
Alors
∀ > 0, ∀λ > 0, P X n − E(X1 ) ≥ ≤ e−n(λ−ψ(λ)) .
7
1 Introduction
car les Xi sont indépendants. Puis comme ils ont même loi, pour tout i = 1, . . . , n,
λ
log E[e n (Xi −E(X1 )) ] = ψ( nλ ), donc pour tout λ > 0
λ
P X n − E(X1 ) ≥ ≤ e−λ+nψ( n )
Lemme 1.1.1 (Lemme de Hoeffding.). Soit Y une variable aléatoire réelle de loi P telle
que, pour des réels a et b, a ≤ Y ≤ b, et telle que E(Y ) = 0. Alors
h i λ2 (b − a)2
∀λ ∈ R, log E eλY ≤ .
8
Preuve :
On a
b−a a+b b−a
− ≤Y − ≤
2 2 2
donc
a + b 2 (b − a)2
Y − ≤ .
2 4
Du coup, si Q est une probabilité sur [a, b], on a (dire pourquoi !)
(b − a)2
V arQ (Y ) ≤ .
4
Prenons maintenant pour tout réel λ, dQλ (y) = eλy−φ(λ) dP (y), en posant φ(λ) =
log EP eλy (dire pourquoi ça existe). Maintenant, on obtient facilement que φ est deux
fois dérivable (dire pourquoi et faire les calculs !) et que pour tout λ,
Donc
(b − a)2
∀λ ∈ R, φ00 (λ) ≤ .
4
En intégrant entre 0 et λ,
λ(b − a)2
∀λ ∈ R, φ0 (λ) − φ0 (0) ≤ ,
4
8
1.1 Estimation et régions de confiance
λ(b − a)2
∀λ ∈ R, φ(λ) − φ(0) ≤ ,
4
et enfin φ(0) = 1.
Donc
λ2
Pθ X n − θ ≥ ≤ e−n supλ>0 (λ− 8 ) .
λ2
Mais supλ>0 (λ − 8 ) = 22 , donc
2
Pθ X n − θ ≥ ≤ e−2n .
et l’on termine par Pθ |X n − θ| ≥ = Pθ X n − θ ≥ + Pθ θ − X n ≥ .
On peut aussi penser, pour contrôler Pθ |X n − θ| ≥ à des résultats asymptotiques.
Rappel TLC : On suppose que (Xk )k≥1 est une suite de variables aléatoires réelles
indépendantes et de même loi, admettant une espérance et une variance. Alors la suite
!!
√ X n − E(X1 )
n p
V ar(X1 ) n≥1
9
1 Introduction
Retour à l’exemple : lorsque (Xk )k≥1 est une suite de variables aléatoires réelles
indépendantes et de même loi Pθ = B(θ), on a par le TLC
! Z +∞
√ Xn − θ 1 u2
∀θ ∈ [0, 1], ∀ > 0, lim Pθ n p ≥ =2 √ e− 2 du
n→+∞ θ(1 − θ) 2π
par parité de la densité de la loi N (0, 1), soit (écrire les détails)
p p !
θ(1 − θ) θ(1 − θ)
∀θ ∈ [0, 1], ∀ > 0, lim Pθ Xn − √ ≤ θ ≤ Xn + √ = 2F () − 1
n→+∞ n n
en notant F la fonction
p de répartition de la loi N (0, 1).
1
Comme pour tout θ, θ(1 − θ) ≤ 2 ,
p p !
θ(1 − θ) θ(1 − θ)
∀θ ∈ [0, 1], ∀ > 0, Pθ Xn − √ ≤ θ ≤ Xn + √
n n
≤ Pθ X n − √ ≤ θ ≤ X n + √
2 n 2 n
et on a
∀θ ∈ [0, 1], ∀ > 0, lim inf Pθ Xn − √ ≤ θ ≤ Xn + √ ≥ 2F () − 1.
n→+∞ 2 n 2 n
Définition 1.1.2. Soit α ∈ [0, 1]. Soit (Xk )k≥1 une suite de variables aléatoires réelles
indépendantes et de même loi Pθ . On dit que In est un intervalle de confiance pour
θ ∈ Θ asymptotiquement de niveau de confiance 1 − α si et seulement si
— In est un intervalle aléatoire, dont les bornes sont des variables aléatoires fonction
de l’observation X1 , . . . , Xn
—
∀θ ∈ Θ, lim inf Pθ (θ ∈ In ) ≥ 1 − α.
n→+∞
1.2 Tests
Imaginons que le sondage soit fait dans un contexte de contrôle de qualité, et que θ
soit la proportion de pièces défectueuses dans la production.
10
1.2 Tests
La question à laquelle le statisticien s’intéresse ici est de savoir si cette proportion est,
par exemple, bien inférieure à 5%. Autrement dit, étant donné une valeur θ0 fixée, il
s’agit de décider si θ ≤ θ0 au vu du résultat du sondage.
Une approche naı̈ve pourrait être de décider que oui, en effet, θ ≤ θ0 si l’observation
est telle que X n ≤ θ0 et non, ce n’est pas le cas, si l’observation est telle que X n > θ0 .
En réfléchissant un peu, on voit que ce n’est pas la bonne méthode, car alors, si en fait
θ = θ0 , et que l’on ”devrait” décider que oui, en effet, θ ≤ θ0 et bien la probabilité de se
tromper en décidant que ce n’est pas le cas, est proche de 1/2 pour n grand.
Par contre, il semble que décider que oui, en effet, θ ≤ θ0 si l’observation est telle
que X n ≤ t et non, ce n’est pas le cas, si l’observation est telle que X n > t soit une
bonne procédure. Toute la question est de choisir le seuil de décision t. Pour cela, on va
quantifier les erreurs de décision. Il y a deux erreurs de décision possible : décider que
θ ≤ θ0 alors qu’en fait θ > θ0 , et décider que θ > θ0 alors qu’en fait θ ≤ θ0 . Notons
α = sup Pθ X n > t .
θ≤θ0
Mais θ 7→ 1Ui ≤θ est une fonction croissante, donc θ 7→ P n1 ni=1 1Ui ≤θ > t est aussi
P
Comment choisir t ? Si l’on cherche à rendre α petit, il faut choisir t assez grand, mais
alors β = 1 − α ne sera pas petit.
Si l’on choisit t = θ0 , alors pour n grand α et β sont proches de 1/2, ce qui n’est pas
11
1 Introduction
Un test est une procédure de décision : si φ = 1, on décide H1 , on dit aussi que l’on
rejette H0 . Si φ = 0, on décide H0 , on dit aussi que l’on accepte H0 .
Reprenons l’exemple.
Allure de la fonction puissance, qui croit de 0 à 1 sur [0, 1].
De même que pour les intervalles de confiance, on peut parler de test asymptotique-
ment de niveau α si (φn ) est une suite de tests de H0 : “θ ∈ Θ000 contre H1 : “θ ∈ Θ001
tel que
∀θ ∈ Θ0 , lim sup Eθ φn ≤ α.
n→+∞
En utilisant le théorème de limite centrale, on voit que si l’on choisit comme seuil, dans
l’exemple, p
u1−α θ0 (1 − θ0 )
tn = θ 0 + √
n
alors le test φn = 1X n ≥tn est asymptotiquement de niveau α pour tester H0 : “θ ≤ θ000
contre H1 : “θ > θ000 . √
u1−α θ0 (1−θ0 )
Aussi, en prenant θ1 = θ0 + 2 √
n
, on obtient
∀θ ≥ θ1 , lim sup Eθ φn ≥ 1 − α,
n→+∞
soit
∀θ ≥ θ1 , lim sup Pθ X n ≤ tn ≤ α.
n→+∞
12
2 Construction d’estimateurs
2.1 Généralités
On considère le modèle statistique avec l’observation X, à valeurs dans X muni d’une
tribu A, et une famille de probabilités (Pθ )θ∈Θ sur (X , A).
Si Θ ⊂ Rk pour un entier k, on dit que le modèle est paramétrique.
Si Θ est une partie d’un espace de dimension infinie (par exemple : l’ensemble des
probabilités ayant une densité sur R), on dit que le modèle est non paramétrique.
Soit g une fonction de Θ dans un ensemble Y muni d’une tribu B. Un estimateur de
g(θ) est une variable aléatoire T (X), où T est une fonction mesurable de X dans Y.
On appelle biais la quantité g(θ) − Eθ [T (X)]. (Rappel : on note Eθ l’espérance prise
sour la probabilité Pθ , c’est à dire pour X de loi Pθ ). Noter que le biais est une fonction
de θ.
On dit que T (X) est un estimateur sans biais de g(θ) si et seulement si
∀θ ∈ Θ, Eθ [T (X)] = g(θ).
L : Y × Y → R+
θ 7→ Eθ [L(g(θ), T (X))] .
On cherche alors des estimateurs qui rendent ce risque petit. (C’est une fonction, donc
il faut choisir le sens de “petit”, on y reviendra !).
Exemples :
— Risque quadratique : lorsque Y = R, et L(y, y 0 ) = (y − y 0 )2 , le risque est
Eθ [(g(θ) − T (X))2 ].
On a la décomposition “biais-variance” : risque quadratique=carré du biais +
variance
Ecrire la preuve.
13
2 Construction d’estimateurs
Lorsque l’on considère une suite d’expériences statistiques, de sorte que pour tout
entier n, on dispose d’une observation (X1 , . . . , Xn ) et d’une famille de probabilités
(Pθ,n )θ∈Θ sur (X n , An ) (par exemple, à partir d’une suite de variables i.i.d., de sorte que
Pθ,n = Pθ⊗n ), si (Tn (X1 , . . . , Xn ))n≥1 est une suite d’estimateurs de g(θ), on dira que :
— Tn est un estimateur fortement consistant de g(θ) si et seulement si
autrement dit, si Y ⊂ Rm et si k·k est une norme (par exemple la norme euclidienne)
sur Rm ,
∀θ ∈ Θ, g(θ) = Eθ [φ(X)].
Plus généralement, on parle de méthode des moments lorsque l’on construit un esti-
mateur avec des moyennes empiriques.
14
2.3 Maximum de vraisemblance
Exemple du modèle gaussien : Soit (Xn )n≥1 une suite de variable aléatoires
indépendantes identiquement distribuées sur R, de loi N (m, σ 2 ).
Le modèle est alors, pour la loi de X1 , (Pθ )θ∈Θ avec θ = (m, σ 2 ) et Θ = R × R+,∗ . Un
estimateur de θ obtenu par la méthode des moments est θbn = (m c2 n ) avec
b n, σ
n n n
!2
1X c2 n = 1 X
2 1 X
m
bn = Xi , σ Xi − Xi .
n n n
i=1 i=1 i=1
En ce cas, pour tout θ ∈ Θ, il existe une fonction mesurable fθ de X dans R telle que
Pθ = fθ µ, c’est la densité de Pθ par rapport à µ.
On appelle alors vraisemblance la variable aléatoire fonction de θ :
L(θ) = fθ (X),
Pour estimer θ, on peut choisir la valeur de θ qui rend la densité maximale en la valeur de
l’observation, c’est ce que l’on appelle l’estimateur du maximum de vraisemblance :
15
2 Construction d’estimateurs
et la log-vraisemblance est :
n
X
`n (θ) = log fθ (Xi ).
i=1
Exemples
— Modèle de Bernoulli. Soit (X1 , . . . , Xn ) i.i.d. de loi de Bernoulli B(θ), θ ∈ [0, 1].
La loi de Bernoulli est absolument continue par rapport à µ = δ0 + δ1 . Une façon
X 1−X . On a alors en notant
Pnd’écrire la vraisemblance est L(θ) = θ (1 − θ)
pratique
Sn = i=1 Xi :
`n (θ) = Sn log θ + (n − Sn ) log(1 − θ).
Le maximum de vraisemblance est θbn = Sn /n. (Le démontrer).
— Modèle Gaussien. Soit (X1 , . . . , Xn ) i.i.d. de loi N (m, σ 2 ), m ∈ R, σ 2 ∈ R+,∗ .
La loi gaussienne N (m, σ 2 ) est absolument continue par rapport à Lebesgue, de
2 2
densité σ√12π e−(x−m) /2σ , donc
n
X (Xi − m)2 n
`n (m, σ 2 ) = − − log(2πσ 2 ).
2σ 2 2
i=1
(Le démontrer).
Il est clair que si l’on change de mesure dominante, la vraisemblance change (le voir
sur les deux exemples). Que se passe-t-il alors pour l’estimateur du maximum de vrai-
semblance ? On peut voir sur les deux exemples que, en changeant de mesure dominante,
on ne change pas l’estimateur du maximum de vraisemblance (Le faire ! Et voir ce qui
change et ce qui ne change pas !). En fait, c’est un résultat général, qui justifie la notion
(intrinsèque) d’estimateur du maximum de vraisemblance.
Proposition 2.3.1. Si un modèle (X , A, (Pθ )θ∈Θ ) est dominé, alors il existe une pro-
babilité Q qui domine le modèle et qui vérifie
∀A ∈ A, Q(A) = 0 ⇐⇒ ∀θ ∈ Θ, Pθ (A) = 0.
16
2.3 Maximum de vraisemblance
Preuve : Soit µ une mesure dominante. On commence par construire une probabilité
P équivalente à µ et qui domine le modèle. La mesure µ est sigma-finie, donc il existe
une collection au plus dénombrable d’ensembles mesurables An , n ∈ N , qui forme une
P de X et tels que pour tout n, µ(An ) < +∞. On choisit (λn )n∈N des réels tels
partition
que n∈N λn = 1 et tels que
ce qui montre que P est une probabilité absolument continue par rapport à µ, et que si
P (A) = 0, alors pour tout n ∈ N , µ(A ∩ An ) = 0, donc µ(A) = 0 et µ est absolument
continue par rapport à P . Du coup aussi, pour tout θ ∈ Θ, Pθ est absolument continue
par rapport à P .
Notons maintenant Fθ = dPθ /dP . L’ensemble Aθ = {Fθ > 0} est mesurable. Soit C la
collection des réunions au plus dénombrables d’ensembles Aθ , et posons
M = sup P (C).
C∈C
∀θ ∈ Θ, P (Aθ ) = P (Aθ ∩ C ? ).
17
2 Construction d’estimateurs
Donc Z Z
Pθ (A) = Pθ (A ∩ C ? ) = Fθ dP = Fθ dP.
A∩C ? A∩Aθ ∩C ?
On en déduit que
Z XZ XZ Fθ
Pθ (A) = Fθ dP ≤ Fθ dP = dPθj .
A∩Aθ ∩(∪j∈J Aθj ) A∩Aθ ∩Aθj A∩Aθ ∩Aθj Fθj
j∈J j∈J
Fθ
R
Mais comme Q(A) = 0, on a pour tout j ∈ J, Pθj (A) = 0, donc A∩Aθ ∩Aθj Fθj dPθj = 0,
et donc Pθ (A) = 0.
dQ
L(θ) = LQ (θ) (X).
dµ
Par ailleurs, dQ
dµ (X) > 0 Pθ -p.s. pour tout θ. Donc θ maximise L(θ) si et seulement si θ
maximise LQ (θ), qui est une quantité qui ne dépend pas de µ.
18
2.3 Maximum de vraisemblance
On a alors
Proposition 2.3.3. Si µ domine P et Q, alors la distance en variation totale entre P
et Q vérifie
1 dP dQ
d (P ; Q) = −
2 dµ dµ L1 (µ)
= P (A) − Q(A)
dQ
où A = {x : dP
dµ (x) ≥ dµ (x)}.
La distance en variation totale entre P et Q est alors notée kP − QkV T .
dP dQ
Remarque : au passage, on a montré que dµ − dµ L1 (µ) est une quantité qui ne
dépend pas de la mesure dominante choisie.
19
2 Construction d’estimateurs
donc Z
dP dQ dP dQ
− =2 − dµ.
dµ dµ L1 (µ) A dµ dµ
Puis on a par définition P (A) − Q(A) ≤ d (P ; Q). Maintenant, si B ∈ A,
et de la même manière
Z
dP dQ
P (B) − Q(B) ≥ − dµ = −[P (A) − Q(A)],
Ac dµ dµ
20
3 Fonction de répartition et théorème de
Glivenko-Cantelli
Soit X une variable aléatoire réelle.
lim FX (t) = 0
t→−∞
et
lim FX (t) = 1;
t→+∞
Proposition 3.0.1. Si F est une fonction de R dans [0, 1] qui est croissante, continue
à droite, telle que limt→−∞ F (t) = 0 et limt→+∞ F (t) = 1, alors il existe une variable
aléatoire réelle X telle que F est la fonction de répartition de X.
(Rappeler la preuve)
Définition 3.0.2. Toute fonction de répartition F admet une inverse généralisée (ou
pseudo-inverse) définie par :
On dit aussi que F − est la fonction quantile et que F − (u) est le quantile de u.
On a alors :
u ≤ F (x) ⇐⇒ F − (u) ≤ x.
21
3 Fonction de répartition et théorème de Glivenko-Cantelli
et
∀x ∈ R, si F (x) ∈]0, 1[, F − (F (x)) ≤ x.
Preuve :Commencer par regarder des exemples de cas F discontinue et F avec un
plateau.
Soit u ∈]0, 1[, on note I = {x ∈ R : F (x) ≥ u}. Comme u < 1, I est non vide. Sinon on
aurait pour tout réel x, P (X ≤ x) < u < 1).
Par ailleurs comme F est croissante, si x ∈ I et si y ≥ x, alors y ∈ I.
Donc I est un intervalle semi-infini à droite, notons x0 sa borne inférieure. I = (x0 , +∞[.
Montrons alors que x0 ∈ I. En effet, pour tout t > 0, x0 + t ∈ I, donc F (x0 + t) ≥ u
et comme F est continue à droite, F (x0 ) ≥ u. Donc I = [x0 , +∞[ et donc F − (u) = x0 .
L’équivalence de la proposition s’en déduit.
La croissance de F − en découle. Puis en prenant x = F − (u) on obtient la première
inégalité, et en prenant u = F (x) on obtient la deuxième inégalité.
P F − (U ) ≤ x = P (U ≤ F (x)) = F (x).
Soit maintenant (Xn )n≥1 une suite de variables aléatoires indépendantes de même
loi que X. On note Pn la mesure empirique et Fn la fonction de répartition empirique
donnée par :
n Z
1X
∀t ∈ R, Fn (t) = 1Xi ≤t = 1x≤t dPn (x).
n
i=1
On a alors :
Théorème 3.0.2 (Théorème de Glivenko-Cantelli). La fonction de répartition empi-
rique converge P-presque sûrement uniformément vers la fonction de répartition, i.e.
22
Donc
Par la loi forte des grands nombres, pour tout j, Fn (xj,N ) − F (xj,N ) tend vers 0 P -p.s.
et Fn (xj,N −) − F (xj,N −) tend vers 0 P -p.s. Si pour tout N on note AN l’événement
1
AN = lim sup sup |Fn (t) − F (t)| ≤
n→+∞ t∈R N
on a donc P (AN ) = 1 (préciser comment cela découle des LFGN citées précédemment).
Alors, P (∩N ≥1 AN ) = 1, et
\
AN ⊂ lim sup |Fn (t) − F (t)| = 0 .
n→+∞ t∈R
N ≥1
On a aussi :
Théorème 3.0.3. Si F est une fonction de répartition continue, si X1 , . . . , Xn sont n
variables aléatoires indépendantes de fonction de répartition F et si Fn est la fonction
de répartition empirique, alors la loi de
ne dépend pas de F .
23
3 Fonction de répartition et théorème de Glivenko-Cantelli
P Dn0 ≥ dn,1−α ≤ α,
∀F ∈ Fc , PF (kFn − F k∞ ≤ dn,1−α ) ≥ 1 − α
et l’ensemble des fonctions comprises, pour tout t, entre Fn (t) − dn,1−α et Fn (t) + dn,1−α
est une ”bande de confiance” pour F de niveau de confiance 1 − α.
24
4 Construction de tests
Se rappeler la notion de test, avec la définition 1.2.1.
La méthode indiquée par l’exemple du sondage est : choisir une statistique de test,
c’est-à-dire une variable aléatoire, dont la loi est différente selon que l’hypothèse nulle
H0 est vraie ou selon que c’est l’hypothèse alternative H1 qui est vraie, choisir une région
de rejet qui est conforme à ce changement qualitatif, et la calibrer en fonction du niveau
souhaité (revoir cela avec l’exemple du sondage).
supθ∈Θ1 L(θ)
T (X) = .
supθ∈Θ0 L(θ)
φ(X) = 1T >s
On a :
Proposition 4.1.1. Pour tout α ∈]0, 1[, si l’ensemble C > 0 : supθ∈Θ0 Pθ (T > C) ≤ α
est non vide, alors le test du rapport de vraisemblance 1T >Cα est de niveau α.
25
4 Construction de tests
Preuve : Soient s et α tels que Pθ0 (f1 (X) > sf0 (X)) = α. Posons φ(X) = 1f1 (X)>sf0 (X) .
Soit ψ un test de niveau α de ”θ = θ0 ” contre H1 : ”θ = θ1 ”. On a
Z
Eθ1 [φ − ψ] − sEθ0 [φ − ψ] = (f1 (x) − sf0 (x)) (φ(x) − ψ(x)) dµ(x)
≥ 0
car la fonction (f1 (x) − sf0 (x)) (φ(x) − ψ(x)) est toujours positive ou nulle (le voir en
distinguant les différents cas de signe possibles pour f1 (x) − sf0 (x)).
Donc
car φ est de taille α (donc Eθ0 [φ] = α) et ψ est de niveau α (donc Eθ0 [ψ] ≤ α).
Reprendre le cas du test de rapport de vraisemblance pour le modèle binomial.
26
4.2 Test de Kolmogorov-Smirnov
est de niveau α.
kFn − F0 k∞ ≥ kF − F0 k∞ − kFn − F k∞
On peut montrer que si F0 est continue, la loi de Dn+ lorsque F = F0 ne dépend pas de
F0 , et peut donc être tabulée. On peut donc choisir d+
n,1−α tel que le test 1Dn
+
≥d+ soit
n,1−α
de niveau α. (Démontrer tout cela, et comment calculer Dn+ avec la statistique de rang).
Noter que lorsque pour tout t, F (t) ≤ F0 (t), l’observation a tendance à être plus
grande sous PF que sous PF0 .
27
4 Construction de tests
Définition 4.3.1. Soit m un entier. La loi du Chi-deux à m degrés de liberté est la loi
de la somme des carrés de m variables aléatoires indépendantes de loi N (0, 1). On note
cette loi χ2 (m).
On a alors :
Théorème 4.3.1. Sous Pp0 , Zn converge en loi quand n tend vers +∞ vers une variable
aléatoire de loi χ2 (k − 1) (loi du Chi-deux à k − 1 degrés de liberté).
28
4.4 Lien entre tests et régions de confiance
Dire la définition d’une région de confiance R(X) pour θ, pas forcément un intervalle
de R.
Proposition 4.4.1. Soit R(X) une région de confiance pour θ de niveau de confiance
1 − α. Alors, pour tout θ0 ∈ Θ,
Preuve : Fixons θ0 ∈ Θ. On a alors Pθ0 (θ0 ∈ R(X)) ≥ 1 − α puisque R(X) une région
de confiance pour θ de niveau de confiance 1 − α, et donc
Proposition 4.4.2. On suppose que pour tout θ0 ∈ Θ, φθ0 (X) est un test de niveau α
de H0 : ”θ = θ0 ” contre H1 : ”θ 6= θ0 ”, et que la fonction de Θ × X dans R qui, à tout
(θ, X) associe φθ (X) est mesurable. Alors
R(X) = {θ ∈ Θ : φθ (X) = 0}
Preuve : Soit θ0 quelconque fixé dans Θ. Puisque φθ0 (X) est un test de niveau α de
H0 : ”θ = θ0 ” contre H1 : ”θ 6= θ0 ”, on a Eθ0 [φ(X)] ≤ α, soit Pθ0 (φθ0 (X) = 0) ≥ 1 − α.
Autrement dit,
Pθ0 (θ0 ∈ R(X)) ≥ 1 − α.
Ceci étant vrai pour tout θ0 ∈ Θ cela prouve que R(X) est une région de confiance pour
θ de niveau de confiance 1 − α.
Exemples :
— Modèle binomial : construire un test de H0 : ”θ = θ0 ” contre H1 : ”θ 6= θ0 ” à partir
de la région de confiance vue en introduction.
— Revisiter le test de Kolmogorov et la bande de confiance pour la fonction de
répartition.
— A partir du test du chi-deux d’ajustement, construire une région de confiance pour
la probabilité (p1 , . . . , pk ) dans le modèle multinomial.
29
5 Vecteurs gaussiens
Ce qui suit sont surtout des rappels !
(x − m)2
1
√ exp − .
σ 2π 2σ 2
Si X est un vecteur gaussien, on peut alors définir E(X) le vecteur des espérances des
coordonnées de X, et V ar(X) la matrice k ×k de variance de X. (Rappeler sa définition).
(Rappeler la preuve.)
En particulier, la loi d’un vecteur gaussien est complètement déterminée par son espérance
m ∈ Rk et sa matrice de variance Σ, on note alors la loi Nk (m; Σ). Si Σ est inversible,
la densité par rapport à Lebesgue sur Rk est
1 1 T −1
p exp − (x − m) Σ (x − m) .
(2π)k/2 det(Σ) 2
Proposition 5.0.1. Si X est un vecteur gaussien de loi Nk (m; Σ) et si A est une matrice
p × k, alors AX est un vecteur gaussien de loi Np (Am; AΣAT ).
(Rappeler la preuve.)
31
5 Vecteurs gaussiens
(Rappeler la preuve.)
Définition 5.0.2. Un n-échantillon gaussien est un vecteur gaussien de loi Nn (0; Id),
c’est-à-dire un vecteur dont les n composantes sont des variables aléatoires indépendantes
de loi gaussienne centrée réduite.
(Rappeler la preuve.)
Preuve : Soit (ei,j )1≤i≤p,1≤j≤ki la base orthonormée de Rn telle que, pour tout i =
1, . . . , p, (ei,j )1≤j≤ki est une base orthonormée de Ei . Soit A la matrice de changement
de base associée, de sorte que si Y = AX, Y1 , . . . , Yn sont les coordonnées de X dans la
nouvelle base. Par les deux propositions qui précèdent, Y est un n-échantillon gaussien.
Par ailleurs, pour tout i = 1, . . . , p, en notant k0 = 0 :
ki
X
Πi (X) = Yk1 +...+ki−1 +j ei,j .
j=1
Donc
ki
X
kΠi (X)k2 = Yk21 +...+ki−1 +j
j=1
et kΠi (X)k2 suit donc la loi χ2 (ki ). Par ailleurs, (Πi (X))1≤i≤p est un vecteur gaussien de
matrice de variance diagonale, donc les Πj (X), j = 1, . . . , p, sont des vecteurs gaussiens
indépendants
Théorème 5.0.2 (Théorème de limite centrale multidimensionnel). Soit (Xn )n≥1 une
suite de variables aléatoires à valeurs dans Rk , indépendantes et de même loi de variance
finie. Alors
n
!
√ 1X
n Xi − E(X1 )
n
i=1
32
(Rappeler la preuve à partir du TLC unidimensionnel.)
Preuve du Théorème 4.3.1 : On a X1 , . . . , Xn i.i.d. de loi Pp0 sur {1, . . . , k}. Pour
j = 1, . . . , k, on note
Xn
Nj = 1Xi =j
i=1
et
k
X (Nj − np0 (j))2
Zn = .
np0 (j)
j=1
33
6 Modèle linéaire gaussien
Y = m + ε, m ∈ V, ε ∼ Nn (0, σ 2 Id),
ou encore
Yi = mi + εi , i = 1, . . . , n,
εi , i = 1, . . . , n, i.i.d. de loi N (0, σ 2 ). Remarquer qu’ici, les εi ne sont pas observés, et
que les Yi n’ont pas même loi.
Dans ce modèle, il y a deux parties :
— La modélisation de la variance : ε ∼ Nn (0, σ 2 Id), les εi ont même variance, ils
sont indépendants, ils sont gaussiens.
— La modélisation de l’espérance : choix du sous-espace vectoriel V tel que m ∈ V
(modèle linéaire).
Une façon d’écrire la modélisation de l’espérance est d’écrire que V est l’image de X
pour une matrice X n × p, et donc qu’il existe β ∈ Rp tel que
m = Xβ.
Si X est injective, ou encore si V est de dimension p, alors ce β est unique et l’on écrit
le modèle
Y = Xβ + ε, β ∈ Rp , ε ∼ Nn (0, σ 2 Id).
Ici, X est connu (car V est connu), et l’on pose θ = (β, σ 2 ), Pθ = Nn (Xβ, σ 2 Id),
Θ = Rp × R∗+ .
Exemples : Pour chaque exemple, expliciter le modèle sous ses deux formes, avec V
et avec X.
1. Régression : On a des mesures Yi , on veut les expliquer par des variables connues.
Par exemple : par le temps, si les mesures sont faites à des temps ti , on peut chercher
à ajuster une parabole :
Yi = a + bti + ct2i + εi , i = 1, . . . , n.
35
6 Modèle linéaire gaussien
Yi,j = µi + εi,j , i = 1, . . . , p, j = 1, . . . , ni .
Etude statistique :
Ce que l’on va étudier :
Les questions statistiques concernent θ, c’est à dire m ou β et σ 2 . On va donc s’intéresser
à l’estimation des paramètres, et à des tests sur ces paramètres.
Ce que l’on ne va pas étudier :
En choisissant pour analyser le problème posé le modèle linéraire gaussien, il convient
de vérifier que l’on n’a pas eu tort de choisir ce modèle. Il s’agit de construire des tests
de validation du modèle, par exemple pour tester que :
— Les i ont même variance
— Les i sont indépendants
— Les i sont gaussiens.
Il faut noter que si le modèle est validé, cela ne signifie pas qu’il est vrai : un modèle
est toujours faux !, cela signifie que la variabilité de l’expérience est correctement prise
en compte.
En statistique, une question centrale est celle du choix de modèle : si on choisit un
modèle trop compliqué, on a beaucoup de paramètres à estimer, et on cumule beaucoup
d’erreurs d’estimation, si on choisit un modèle trop simple, on reflète mal l’expérience.
Le choix de modèle est un véritable sujet de mathématique !
36
6.2 Estimation des paramètres
6.2.2 Estimation de β et σ 2
Pour obtenir l’estimateur du maximum de vraisemblance, on cherche β ∈ Rp qui
minimise kY − Xβk2 . On peut faire le calcul par calcul différentiel, et obtenir (le faire)
qu’un tel β vérifie
(X T X)β = X T Y.
On a
βb = (X T X)−1 X T Y,
et
i p n
1 XX
c2 =
σ bi )2 .
(Yi,j − µ
n−p
i=1 j=1
Yi = a + bti + εi , i = 1, . . . , n.
Ecrire X et β, et calculer b
a et bb.
37
6 Modèle linéaire gaussien
H0 : ”m ∈ W ”
contre
H1 : ”m ∈ V \ W ”.
La statistique du test du rapport de vraisemblance est, si l’on note L(m, σ 2 ) la vraisem-
blance :
supm∈V \W,σ2 >0 L(m, σ 2 )
T =
supm∈W,σ2 >0 L(m, σ 2 )
Et l’on obtient (le calculer !) :
n
kY − ΠW (Y )k
T = .
kY − ΠV (Y )k
Pour cela, on utilise le fait que, comme W est un sous-espace de dimension q < p, pour
tout m ∈ V et σ 2 > 0,
P(m,σ2 ) (ΠV (Y ) ∈ W ) = 0.
(Le démontrer, en utilisant que sous P(m,σ2 ) , ΠV (Y ) suit la loi Nn (m, ΠV )).
Par Pythagore,
et donc n/2
kΠV (Y ) − ΠW (Y )k2
T = 1+ .
kY − ΠV (Y )k2
Le test du rapport de vraisemblance est donc celui qui décide H0 si kΠVkY(Y−Π
)−ΠW (Y )k
V (Y )k
est
plus grand qu’un seuil. Reste à fixer ce seuil pour avoir un test de niveau α.
38
6.4 Régions de confiance
Définition 6.3.1. Soit Z une variable aléatoire. On dit que Z suit la loi de Fisher à
m et l degrés de liberté si Z a même loi que
U1 /m
U2 /l
(Ecrire la preuve !)
Retour sur les exemples.
en notant
p i n
1 XX
Y = Yi,j .
n
i=1 j=1
(Le démontrer !)
39
6 Modèle linéaire gaussien
et donc par le théorème de Cochran, kΠV (Y ) − mk2 /σ 2 suit la loi χ2 (p). Si l’on connait
σ 2 , cela permet de construire une région de confiance pour m (le faire !). Que faire si on
ne connait pas σ 2 ? L’idée est de le remplacer par un estimateur, et de considérer
kΠV (Y ) − mk2
.
kY − ΠV (Y )k2 /(n − p)
On écrit
σ 2 kΠV Y −m
2
kΠV (Y ) − mk2 /p σ k /p
= 2 Y −m Y −m
,
kY − ΠV (Y )k2 /(n − p)
σ k σ − ΠV σ k2 /(n − p)
qui, en utilisant le théorème de Cochran, suit la loi F (p, n − p). (L’écrire !). On a donc
kΠV (Y ) − mk2 /p
2
∀m ∈ V, ∀σ > 0, P(m,σ2 ) ≤ fp,n−p,1−α ≥ 1 − α.
kY − ΠV (Y )k2 /(n − p)
Donc
m ∈ V : kΠV (Y ) − mk2 ≤ pfp,n−p,1−α kY − ΠV (Y )k2 /(n − p)
On a alors !
βb − β
(X T X)1/2 ∼ Np (0, Id) ,
σ
et donc
1 b T
T
b − β ∼ χ2 (p).
β − β (X X) β
σ2
Comme βb est indépendant de σ c2 , on a que
T b T b
β−β T X) β−β
βb − β (X T X) βb − β /p σ (X σ /p
= c2
c2
σ (n−p)σ
σ2
/(n − p)
suit la loi F (p, n − p). Donc, si fp,n−p,1−α est le quantile d’ordre 1 − α et F (p, n − p) :
T
βb − β (X T X) βb − β /p
∀β ∈ Rp , ∀σ 2 > 0, P(β,σ2 ) ≤ fp,n−p,1−α = 1 − α
σ
c 2
40
6.4 Régions de confiance
et donc T
β ∈ Rp , βb − β (X T X) βb − β ≤ pσ
c2 fp,n−p,1−α
b2
2 2 σ 2
∀m ∈ V, ∀σ > 0, P(m,σ2 ) χn−p,α/2 ≤ (n − p) 2 ≤ χn−p,1−α/2 ≥ 1 − α.
σ
Donc " #
(n − p)bσ 2 (n − p)b
σ2
;
χ2n−p,1−α/2 χ2n−p,α/2
41
7 Eléments de théorie de la décision
7.1 introduction
Soit (X , A, (Pθ )θ∈Θ ) un modèle statistique, et X l’observation.
Pour comparer des estimateurs, on va comparer les risques. On peut penser à deux façons
de faire :
— Comparer la valeur maximale du risque, c’est l’approche minimax
— Comparer une valeur moyenne du risque, ce sera l’approche bayésienne.
Dans l’approche minimax, on cherche un estimateur T (X) qui soit proche (voire réalise)
la valeur minimale, parmi tous les estimateurs possibles, du risque maximal. On appelle
risque minimax la quantité
inf sup R(θ, T ).
T θ∈Θ
π(P, Q) = 1 − kP − QkV T .
43
7 Eléments de théorie de la décision
Preuve :
On a
Z
π(P, Q) = 1 − (f − g) dµ
f ≥g
Z Z
= f dµ − (f − g) dµ
f ≥g
Z Z
= f dµ + gdµ
f <g f ≥g
Z
= (f ∧ g)dµ.
Sous l’hypothèse que la fonction de perte vérifie une inégalité de type triangulaire, on
va voir une minoration du risque minimax.
Théorème 7.2.1 (Théorème de Le Cam). On suppose qu’il existe C > 0 tel que, pour
tous u, v, w dans Rd ,
L(u, v) ≤ C [L(u, w) + L(v, w)] .
Alors pour tout estimateur T (X),
1
sup Eθ [L (g(θ), T (X))] ≥ sup [L (g(θ1 ), g(θ2 )) π (Pθ1 , Pθ2 )] .
θ∈Θ 2C (θ1 ,θ2 )∈Θ2
Preuve : Soient θ1 et θ2 de Θ. Posons µ = Pθ1 + Pθ2 , dPθ1 = fθ1 dµ et dPθ2 = fθ2 dµ.
On a par l’hypothèse sur L
L (g(θ1 ), g(θ2 )) ≤ C [L (g(θ1 ), T (X)) + L (g(θ2 ), T (X))]
et donc
Z
L (g(θ1 ), g(θ2 )) (fθ1 (x) ∧ fθ2 (x))dµ(x) ≤
Z
C [L (g(θ1 ), T (x)) + L (g(θ2 ), T (x))] (fθ1 (x) ∧ fθ2 (x))dµ(x).
Mais
Z Z
L (g(θ1 ), T (x)) (fθ1 (x) ∧ fθ2 (x))dµ(x) ≤ L (g(θ1 ), T (x)) fθ1 (x)dµ(x)
et Z Z
L (g(θ2 ), T (x)) (fθ1 (x) ∧ fθ2 (x))dµ(x) ≤ L (g(θ2 ), T (x)) fθ2 (x)dµ(x)
ce qui donne
Z
L (g(θ1 ), g(θ2 )) (fθ1 (x) ∧ fθ2 (x))dµ(x) ≤
Z Z
C L (g(θ1 ), T (x)) fθ1 (x)dµ(x) + L (g(θ2 ), T (x)) fθ2 (x)dµ(x) .
44
7.2 Affinité de test et minoration du risque maximum
L (g(θ1 ), g(θ2 )) π (Pθ1 , Pθ2 ) ≤ C {Eθ1 [L (g(θ1 ), T (X))] + Eθ2 [L (g(θ2 ), T (X))]} .
Proposition 7.2.2. Si d(·, ·) est une distance et si p ≥ 1, alors L(u, v) = (d(u, v))p
vérifie l’hypothèse du théorème de Le Cam avec C = 2p−1 .
et donc
p
d(u, w)p + d(v, w)p
d(u, w) + d(v, w)
(d(u, w) + d(v, w))p = 2p ≤ 2p = 2p−1 (d(u, w)+d(v, w)).
2 2
1
sup Eθ kg(θ) − T (X)k2 ≥ kg(θ1 ) − g(θ2 )k2 π (Pθ1 , Pθ2 ) .
sup
θ∈Θ 4 (θ1 ,θ2 )∈Θ2
1 h i
sup Eθ [L (g(θ), Tn (X1 , . . . , Xn ))] ≥ sup L (g(θ1 ), g(θ2 )) π Pθ⊗n , P ⊗n
θ2 .
θ∈Θ 2C (θ1 ,θ2 )∈Θ2
1
(7.1)
Il s’agit alors de comprendre comment évolue π Pθ⊗n
1
, Pθ⊗n
2
en fonction de n.
45
7 Eléments de théorie de la décision
Soient P et Q deux probabilités sur un espace probabilisable (Ω, A). Soit µ une mesure
sur Ω qui domine P et Q. On note f la densité de P par rapport à µ et g la densité de
Q par rapport à µ. Si maintenant on pose ν = P +Q 2 , p la densité de P par rapport à ν
et q la densité de Q par rapport à ν, on a
dµ dµ
p=f et q = g .
dν dν
On a donc
√ 2 √ √
Z p Z
f − g dµ = ( p − q)2 dν
√ 2
Z
2 1 p
h (P, Q) = f − g dµ.
2
√
Z p
ρ(P, Q) = f gdµ.
Il est clair que la distance de Hellinger est une distance. Par ailleurs,
√ 2 p √
Z p Z
f − g dµ = f + g − 2 f g dµ
√
Z p
= 2−2 f gdµ
et donc
h2 (P, Q) = 1 − ρ(P, Q).
Ceci a pour conséquence que
0 ≤ h2 (P, Q) ≤ 1 et 0 ≤ ρ(P, Q) ≤ 1.
46
7.3 Distance et affinité de Hellinger
Preuve : On a
Z
π(P, Q) = f ∧ g dµ
√ 2
Z p
= f ∧ g dµ
√ p √
Z p
≤ f∧ g f ∨ g dµ
√
Z p
= f g dµ = ρ(P, Q).
donc
(1 − π(P, Q))2 ≤ 1 − ρ2 (P, Q).
On déduit de cette proposition le fait que ces deux distances sont comparables, mais ne
sont pas équivalentes.
Théorème 7.3.1. Pour toutes probabilités P et Q,
√
kP − QkV T ≤ 2h(P, Q)
et
h2 (P, Q) ≤ kP − QkV T .
Preuve : La première inégalité découle du fait que
P ⊗n par rapport à µ est i=1 f (xi ), celle de Q est ni=1 g(xi ). On a par Fubini
⊗n n ⊗n
v v
Z u n u n n Z p
uY uY Y
t f (xi )t g(xi )dµ⊗n =
p
f (xi ) g(xi )dµ,
i=1 i=1 i=1
47
7 Eléments de théorie de la décision
et donc
ρ(P ⊗n , Q⊗n ) = (ρ(P, Q))n .
On en déduit
Proposition 7.3.2. Pour toutes probabilités P et Q,
Preuve : On a n
h2 (P ⊗n , Q⊗n ) = 1 − 1 − h2 (P, Q) .
Par ailleurs, pour tout entier n ≥ 1 et tout u ∈ [0, 1], par le théorème des accroissements
finis, il existe ũ ∈ [0, u] tel que 1 − (1 − u)n = n(1 − ũ)n−1 u, donc pour tout u ∈ [0, 1],
1 − (1 − u)n ≤ nu.
Mais pour tout u > 0, log(1 + u) ≤ u, donc exp[n log(1 − h2 (P, Q))] ≤ exp[−nh2 (P, Q))].
Montrons maintenant la minoration. On a
2
1 − π(P ⊗n , Q⊗n ) ≤ 1 − ρ2 (P ⊗n , Q⊗n ) = 1 − (ρ(P, Q))2n .
48
7.3 Distance et affinité de Hellinger
1 p
√
et l’on obtient le résultat avec γ(p) = 2p c (1 − 2c).
1 h √ i
sup Eθ [L (g(θ), Tn (X1 , . . . , Xn ))] ≥ sup L (g(θ1 ), g(θ2 )) 1 − 2nh(Pθ1 , Pθ2 ) .
θ∈Θ 2C (θ1 ,θ2 )∈Θ2
(7.2)
En particulier, le risque quadratique vérifie :
h i 1 h √ i
sup Eθ (Tn (X1 , . . . , Xn ) − θ)2 ≥ sup (θ1 − θ2 )2 1 − 2nh(Pθ1 , Pθ2 ) . (7.3)
θ∈Θ 4 (θ1 ,θ2 )∈Θ2
(θ1 − θ2 )2
ρ (Pθ1 , Pθ2 ) = exp − ,
8
(θ1 − θ2 )2
h2 (Pθ1 , Pθ2 ) ≤ .
8
L’inégalité (7.3) donne alors : pour tout estimateur Tn (X1 , . . . , Xn ),
√ |θ1 − θ2 |
h i 1
2 2
sup Eθ (Tn (X1 , . . . , Xn ) − θ) ≥ sup (θ1 − θ2 ) 1 − n .
θ∈R 4 (θ1 ,θ2 )∈R2 2
√
En prenant par exemple |θ1 −θ2 | = 1/ n on obtient : pour tout estimateur Tn (X1 , . . . , Xn ),
h i 1
sup Eθ (Tn (X1 , . . . , Xn ) − θ)2 ≥ .
θ∈R 8n
49
7 Eléments de théorie de la décision
1 Pn
Par ailleurs, l’estimateur Tn (X1 , . . . , Xn ) = n i=1 Xi = X vérifie que pour tout θ ∈ R,
Eθ [(X − θ)2 ] = 1/n, donc
!2
n
1X = 1.
sup Eθ Xi − θ
θ∈R n n
i=1
Exemple 2 : modèle uniforme. Θ = R∗+ , Pθ est la loi uniforme sur [0, θ]. On a (faire
le calcul !) :
|θ1 − θ2 | 1/2
ρ (Pθ1 , Pθ2 ) = 1 − .
θ1 ∨ θ 2
√
Si x ∈ [0, 1], 1 − x ≤ 1 − x, on a
|θ1 − θ2 |
h2 (Pθ1 , Pθ2 ) ≤ .
θ1 ∨ θ2
50
7.4 Vitesse de séparation pour le test de deux hypothèses simples
pour un seuil ncn à fixer en fonction du niveau souhaité. Evaluons maintenant les erreurs
de première et de deuxième espèce. On a pour tout λ > 0 (le démontrer)
f (X )
n
−λncn λ log f1 (X1 )
EP0 [φ] ≤ e EP0 e 0 1 .
ce qui donne
2 (P ,P ))
EP0 [φ] ≤ e−ncn /2 en log(1−h 0 1
,
et donc
2 (P
EP0 [φ] ≤ e−n[cn /2+h 0 ,P1 )]
.
Par ailleurs
n
!
X f1 (Xi )
EP1 [1 − φ] = P1 log ≤ ncn
f0 (Xi )
i=1
n
!
X f0 (Xi )
= P1 log ≥ −ncn
f1 (Xi )
i=1
51
7 Eléments de théorie de la décision
l’inégalité de Jensen,
Z
1 g Q({g > f > 0})
log dP ≤ log < +∞.
P ({g > f > 0}) g>f >0 f P ({g > f > 0})
On peut donc introduire la définition suivante.
Définition 7.5.1. On appelle divergence de Kullback entre P et Q la quantité
( R
dP dP
dQ log dQ dQ si P Q
K (P, Q) =
+∞ sinon.
Remarque : la divergence de Kullback n’est pas une distance car elle n’est pas
symétrique : en général, K(P, Q) 6= K(Q, P ). Par contre, elle est bien positive ou nulle,
et nulle si et seulement si les probabilités sont égales, c’est une conséquence de l’inégalité
qui suit.
Proposition 7.5.1. On a
K (P, Q) ≥ 2h2 (P, Q) .
Preuve : Supposons P Q, sinon l’inégalité est immédiate. On a
Z
f
K (P, Q) = log dP
f >0,g>0 g
Z r
g
= −2 log dP
f >0,g>0 f
Z r
g
≥ −2 − 1 dP
f >0,g>0 f
52
7.5 Divergence de Kullback
R pour tout x > −1, log(1 + x) ≤ x. Puis, comme µ-p.s., {f > 0} = {f > 0, g > 0}, on
car
a f >0,g>0 dP = 1, et donc
Z r Z
g p
− 1 dP = f gdµ − 1
f >0,g>0 f f >0,g>0
= ρ (P, Q) − 1
= −h2 (P, Q) .
Cette proposition permet un nouveau minorant dans le théorème de Le Cam : si la
fonction de perte vérifie les hypothèses du théorème de Le Cam, pour tout estimateur
T (X),
1
q
sup Eθ [L (g(θ), T (X))] ≥ sup L (g(θ1 ), g(θ2 )) 1 − K(Pθ1 , Pθ2 ) . (7.4)
θ∈Θ 2C (θ1 ,θ2 )∈Θ2
En particulier :
K P ⊗n , Q⊗n = nK (P, Q) .
Preuve : l’écrire !.
53
7 Eléments de théorie de la décision
et donc
v
u
2 n
h i 1 (β1 − β2 ) X
sup Eθ (T (Y ) − β)2 ≥ sup (β1 − β2 )2 1 − t
u
2
x2i .
2
θ∈R×{σ } 4 (θ1 ,θ2 ) 2σ
i=1
2cσ 2
(β1 − β2 )2 = Pn 2
i=1 xi
on obtient
h i σ 2 c(1 − √c)
2
sup Eθ (T (Y ) − β) ≥ .
2 ni=1 x2i
P
θ∈R×{σ 2 }
σ2
2
Eθ βb − β = Pn 2,
i=1 xi
∀θ ∈ Θ, R(θ, T ) ≤ R(θ, T 0 ).
On dit que T est meilleur que T 0 si T est aussi bon que T 0 et que en outre,
54
7.6 Estimation bayésienne
Preuve : Soit T un estimateur admissible et tel que pour une constante C, pour tout
θ ∈ Θ, R(θ, T ) = C. Alors supθ∈Θ R(θ, T ) = C. Si T 0 est un autre estimateur, il n’est
pas meilleur que T . Donc ou bien T est aussi bon que T 0 , auquel cas supθ∈Θ R(θ, T ) ≤
supθ∈Θ R(θ, T 0 ), ou bien il existe θ tel que R(θ, T 0 ) < R(θ, T ), mais alors il existe θ0 tel
que R(θ0 , T 0 ) > R(θ0 , T ) = C, auquel cas
Théorème 7.6.2. Soit T un estimateur bayésien. Supposons que l’une des conditions
suivantes est réalisée :
1. T est unique au sens suivant : si T 0 est un estimateur bayésien, alors pour tout
θ ∈ Θ, T = T 0 Pθ -p.s.
2. Θ est dénombrable et ν charge tous les points de Θ.
3. Θ est une partie de Rk , ν charge tous les ouverts de Θ, et si T 0 est tel que R(θ, T 0 )
est fini pour tout θ ∈ Θ, alors θ 7→ R(θ, T 0 ) est continue.
Alors T est admissible.
∀θ ∈ Θ, R(θ, T 0 ) ≤ R(θ, T )
et
∃θ0 ∈ Θ, R(θ0 , T 0 ) < R(θ, T ).
55
7 Eléments de théorie de la décision
θ∈Θ
R(θ0 , T ) − R(θ0 , T 0 ) ν({θ0 })
≥
> 0 : contradiction.
peut être lue en considérant que le couple (τ, X) (paramètre et observation) est une
variable aléatoire, de loi jointe dν(θ)dPθ (x). Le point de vue bayésien est de munir l’en-
semble des paramètres d’une loi a priori ν, et de considérer que, conditionnellement au
fait que le paramètre τ soit θ, l’observation est de loi Pθ . A condition que ce que l’on
vient de dire ait un sens, c’est à dire que l’on puisse effectivement parler de loi condi-
tionnelle. C’est ce que l’on va étudier ici.
Si (X, Y ) est un couple de variables aléatoires dans X × Y, de loi PX,Y , on sait que si
X et Y sont des variables indépendantes, on peut écrire, par Fubini : pour toute fonction
φ mesurable ≥ 0,
Z Z Z Z
E [φ(X, Y )] = φ(x, y)dPY (y) dPX (x) = φ(x, y)dPX (x) dPY (y).
X Y Y X
56
7.6 Estimation bayésienne
On souhaite écrire une formule analogue lorsque X et Y ne sont pas des variables
indépendantes, en faisant intervenir une loi conditionnelle :
Z Z
E [φ(X, Y )] = φ(x, y)dPY (y|X = x) dPX (x) (7.5)
X Y
On va montrer que c’est possible sous certaines conditions. On suppose ici que X ⊂ Rk
et Y ⊂ Rp .
Proposition 7.6.1. Soit µ (resp. ν) une mesure positive sur X (resp. Y). On suppose
que P(X,Y ) est absolument continue par rapport à µ ⊗ ν de densité f (x, y). Alors (7.5)
est vraie si l’on définit
avec
f (x, y)
f (y|X = x) = 1
g(x) g(x)>0
R
où g(x) est la densité par rapport à µ de la loi de X (g(x) = Y f (x, y)dν(y)).
Quelques rappels sur les espérances conditionnelles par rapport à une tribu ; par rap-
port à une variable aléatoire ; la notation espérance conditionnelle à X = x.
Proposition 7.6.2. Si (7.5) est vraie, alors pour toute fonction ψ ∈ L1 (PY ),
Z
E [ψ(Y )|X = x] = ψ(y)dPY (y|X = x).
Y
57
7 Eléments de théorie de la décision
Preuve : Notons Z
ρ(x) = ψ(y)dPY (y|X = x).
Y
car (7.5).
Autrement dit, si (τ, X) est une variable aléatoire sur Θ × X de loi de densité h(θ, x) =
fθ (x)ρ(θ) par rapport à π ⊗ µ, on a
Rν (T ) = E [L(g(τ ), T (X))] .
On peut donc appliquer les résultats précédents sur les lois conditionnelles, et l’on a
Z Z
Rν (T ) = L(g(θ), T (x))ρ(θ|X = x)dπ(θ) h(x)dµ(x),
X Θ
R
où h est la densité de la loi marginale de X, c’est-à-dire h(x) = Θ fθ (x)ρ(θ)dπ(θ), et où
ρ(θ|X = x) est la densité de la loi conditionnelle de τ sachant X = x, donnée par
fθ (x)ρ(θ)
ρ(θ|X = x) = 1h(x)>0 .
h(x)
58
7.6 Estimation bayésienne
a + ni=1 Xi
P
T (X1 , . . . , Xn ) = ,
a+b+n
n
!
σ2 X σ2
N Xi ; .
1 + nσ 2 1 + nσ 2
i=1
(Le démontrer).
L’espérance a posteriori est
n
σ2 X
T (X1 , . . . , Xn ) = Xi ,
1 + nσ 2
i=1
59
7 Eléments de théorie de la décision
On va voir qu’ un estimateur bayésien est la médiane a posteriori T (X) qui vérifie
1 1
ν (τ ≤ T (X)|X) ≥ et ν (τ ≥ T (X)|X) ≥ .
2 2
Pour cela, nous allons définir, pour α ∈]0, 1[, le quantile d’ordre α d’une loi de probabilité,
et appliquer cela au quantile d’ordre 1/2 appelé médiane. Soit Z une variable
aléatoire de loi P .
Preuve : Notons
h(u) = E [(Z − u)+ ] + (1 − α)E [(u − Z)] = E [(Z − u)− ] + αE [(Z − u)] .
h(v) − h(u) ≥ (v − u) [P (Z ≤ u) − α]
60
7.6 Estimation bayésienne
Exemple : dans le cas du modèle gaussien avec a priori gaussien, la médiane a pos-
teriori est égale à l’espérance a posteriori
61
8 Tests du rapport de vraisemblance et
théorie de Neyman-Pearson
On peut aussi considérer le test randomisé ψ(X, U ) = 1U ≤φ(X) , qui lui est à valeurs
dans {0, 1} et tel que φ(X) = E[ψ|X]. Le démontrer.
Démontrer que ces notions sont identiques si on les applique au test ou au test rando-
misé.
On va maintenant, comme pour les méthodes d’estimation, chercher des critères d’op-
timalité. De même qu’on a comparé les risques des estimateurs, on va comparer les
puissances des tests.
Définition 8.1.3. Le test φ est dit uniformément le plus puissant parmi les tests
de niveau α, soit UPP(α), si et seulement si φ est de niveau α et si pour tout test ψ
de niveau α, on a
∀θ ∈ Θ1 , Eθ ψ ≤ Eθ φ.
63
8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson
Lorsque le test est à valeurs dans {0, 1} cela suffit à le définir. Il vaut alors 0 sur
l’événement complémentaire.
On généralise la notion de test du rapport de vraisemblance en disant que c’est un test
tel que : il existe un réel sα tel que
— Le test vaut 1 sur l’événement ”supθ∈Θ1 fθ (X) > sα supθ∈Θ0 fθ (X),
— Le test vaut 0 sur l’événement ”supθ∈Θ1 fθ (X) < sα supθ∈Θ0 fθ (X),
— Et sur l’événement ”supθ∈Θ1 fθ (X) = sα supθ∈Θ0 fθ (X), le test vaut γ(X) ∈ [0, 1].
Proposition 8.2.1. Pour tout α ∈]0, 1[, il existe un test du rapport de vraisemblance
de taille α pour tester H0 :”θ = θ0 ” contre H1 :”θ = θ1 ” qui est
Preuve : On a Pθ0 (f1 (X) > Cα f0 (X)) ≤ α, et si C < Cα , Pθ0 (f1 (X) > Cf0 (X)) > α.
Donc en faisant tendre C vers Cα , on obtient
c’est à dire
Pθ0 (f1 (X) > Cα f0 (X)) + Pθ0 (f1 (X) = Cα f0 (X)) ≥ α,
ce qui prouve que γ ∈ [0, 1]. Puis
Eθ0 [φα ] = Pθ0 (f1 (X) > Cα f0 (X)) + γPθ0 (f1 (X) = Cα f0 (X))
= Pθ0 (f1 (X) > Cα f0 (X)) + α − Pθ0 (f1 (X) > Cα f0 (X)) = α.
64
8.2 Cas de deux hypothèses simples
Lemme 8.2.1 (Lemme de Neyman-Pearson). Soit α ∈]0, 1[. On suppose Pθ0 (f1 (X) >
0) > α. Alors φ est UPP(α) pour tester H0 :”θ = θ0 ” contre H1 :”θ = θ1 ” si et seulement
si φ est un test du rapport de vraisemblance de taille α. On dit alors que φ est NP(α).
Preuve : Soit ψ un test de niveau α. On a toujours (le vérifier région par région)
(ψ − φα ) (f1 − Cα f0 ) ≤ 0
donc en intégrant Z
(ψ − φα ) (f1 − Cα f0 ) dµ ≤ 0
soit
Eθ1 (ψ − φα ) ≤ Cα Eθ0 (ψ − φα ) ≤ 0
car Eθ0 ψ ≤ α et Eθ0 φα = α, et donc Eθ1 ψ ≤ Eθ1 φα , et donc φα est UPP(α).
Supposons maintenant que ψ est UPP(α). Alors Eθ1 ψ = Eθ1 φα , et donc
Cα Eθ0 (ψ − φα ) ≥ 0
et donc Cα Eθ0 (ψ − φα ) = 0 Comme Cα > 0 (puisque Pθ0 (f1 (X) > 0) > α) on obtient
Eθ0 ψ = Eθ0 φα = α. Du coup
Z Z
(ψ − 1) (f1 − Cα f0 ) dµ + (ψ) (f1 − Cα f0 ) dµ = 0,
f1 >Cα f0 f1 <Cα f0
ce qui montre que ψ = 1 sur l’événement ”f1 (X) > Cα f0 (X)” et ψ = 0 sur l’événement
”f1 (X) < Cα f0 (X)”, donc ψ est un test du rapport de vraisemblance de taille α.
1 Pn
en notant X = n i=1 Xi et avec u1−α le quantile d’ordre 1 − α de N (0, 1).
65
8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson
On se place dans le cadre où : Θ est un intervalle de R, le modèle est dominé par une
mesure µ, et on note, pour tout θ, fθ = dP
dµ .
θ
Définition 8.3.1. On dit que la famille {fθ , θ ∈ Θ} est une famille à rapport mono-
tone si et seulement si il existe une statistique T (X), c’est à dire T : X → R mesurable
telle que : pour tout (θ1 , θ0 ) ∈ Θ2 tel que θ1 > θ0 , il existe une fonction Ψθ1 ,θ0 croissante
de R dans R telle que pour tout x tel que fθ0 (x) > 0 ou fθ1 (x) > 0 :
fθ1
(x) = Ψθ1 ,θ0 (T (x)) .
fθ0
Théorème 8.3.1. Soit α ∈]0, 1[ et {fθ , θ ∈ Θ} une famille à rapport monotone. Soit
θ0 ∈ Θ et soit θ0 ∈ Θ tel que θ0 > θ0 . Alors
1. Le TRV(α) de H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 ” ne dépend pas de θ0 .On peut le
noter φθ0 ,α .
66
8.3 Tests d’hypothèses multiples
et on a ainsi montré 2.
Montrons enfin 3. Tout d’abord, pour tout θ ≤ θ0 , Eθ [φθ0 ,α (X)] ≤ Eθ0 [φθ0 ,α (X)] = α et
donc φθ0 ,α est un test de taille α pour tester H0 : ”θ ≤ θ0 ” contre H1 : ”θ > θ0 . Soit φ
un test de niveau α pour tester H0 : ”θ ≤ θ0 ” contre H1 : ”θ > θ0 . Alors, si θ0 > θ0 , φ
est un test de niveau α pour tester H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 . Mais φθ0 ,α est
UPP(α) pour tester H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 , donc Eθ0 [φ(X)] ≤ Eθ0 [φθ0 ,α (X)].
Ceci étant vrai pour tout θ0 > θ0 , on a montré que φθ0 ,α est UPP(α) pour tester H0 :
67
8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson
”θ ≤ θ0 ” contre H1 : ”θ > θ0 .
Les preuves de 1bis, 2bis, 3bis sont analogues.
Preuve : car il est plus puissant que le test constant égal à sa taille.
Définition 8.3.3. Le test φ est dit uniformément le plus puissant parmi les tests
sans biais de niveau α, soit UPPB(α), pour tester H0 contre H1 si et seulement si
φ est un test sans biais et de niveau α pour tester H0 contre H1 tel que, si ψ est un test
sans bais de niveau α pour tester H0 contre H1 , alors Eθ1 φ ≥ Eθ1 ψ.
68
8.3 Tests d’hypothèses multiples
Preuve :
Tout d’abord, quitte à considérer θ = µ − µ0 , on peut considérer que µ0 = 0 sans perte
de généralité.
Soit φ un test sans biais pour tester H0 : ”µ = 0” contre H1 : ”µ 6= 0”. On a alors
E0 [φ] ≤ α et ∀µ ∈ R, Eµ [φ] ≥ α.
R
Mais la fonction µ 7→ Eµ [φ(X)] est dérivable, de dérivée φ(x1 , . . . , xn )ṗµ (x1 , . . . , xn )dx1 · · · dxn ,
où l’on note pµ (x1 , . . . , xn ) la densité de N (µ, 1)⊗n par rapport à Lebesgue et ṗµ (x1 , . . . , xn )
sa dérivée par rapport à µ. (Démontrer cette affirmation). La fonction µ 7→ Eµ [φ(X)]
ayant un minimum en 0, sa dérivée s’y annule, et donc pour tout test φ sans biais de
H0 : ”µ = 0” contre H1 : ”µ 6= 0” on a
Z
φ(x1 , . . . , xn )ṗ0 (x1 , . . . , xn )dx1 · · · dxn = 0. (8.1)
On va maintenant montrer que pour tout réel µ, il existe des réels k1 > 0 et k2 > 0
tels que
On a √ n 2 √
f (x; k1 , k2 ) = exp nµx − µ − k1 + k2 nx,
2
dont la dérivée (en tant que fonction de x) est
√ √ n √
f 0 (x; k1 , k2 ) = nµ exp nµx − µ2 + k2 n.
2
On voit que si µ et k2 sont non nuls et de signe contraire, alors f est décroissante puis
croissante, et pour que (8.2) soit vérifié, il suffit que u et −u soient les deux zéros de f .
Autrement dit, il suffit de trouver k1 et k2 tels que f (u; k1 , k2 ) = 0 et f (−u; k1 , k2 ) = 0
et k2 de signe contraire de µ. Or, f (u; k1 , k2 ) = 0 et f (−u; k1 , k2 ) = 0 si et seulement si
√ √ n
k1 − k2 nu = exp nµu − µ2
2
69
8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson
et √ √ n
k1 + k2 nu = exp − nµu − µ2
2
qui a une solution unique (k1 , k2 ) qui vérifie bien le fait que k2 est de signe contraire de
µ. (Faire le calcul pour le vérifier). Par ailleurs, k1 > 0. (Faire le calcul pour le vérifier).
Maintenant, si φ est un test sans biais de H0 : ”µ = 0” contre H1 : ”µ 6= 0” on a dans
tous les cas
(hα − φ) (pµ − k1 p0 − k2 ṗ0 ) ≥ 0,
et donc en utilisant (8.1)
Eµ [hα − φ] ≥ k1 E0 [hα − φ] = 0,
70
9 Etude des estimateurs sans biais
Soit le modèle (X , A, (Pθ )θ∈Θ ), et X l’observation.
Soit g une fonction de Θ dans Rk .
On va s’intéresser aux estimateurs sans biais U (X) de g(θ), c’est-à-dire qui vérifient
∀θ ∈ Θ, Eθ [U (X)] = g(θ).
Ici, pour calculer V (X), on peut procéder à l’aide de la loi conditionnelle comme vu
au chapitre précédent (Rappeler pourquoi/comment). On a, pour tout (x1 , . . . , xn ) ∈ X ,
pour tout k ∈ {0, . . . , n} (Le démontrer) :
si Pni=1 xi 6= k
P
0
1 n
Pθ ((X1 , . . . , Xn ) = (x1 , . . . , xn )|T (X) = k) = si i=1 xi = k
n
k
71
9 Etude des estimateurs sans biais
V (X) est aussi bon que U (X), et meilleur que U (X) si U (X) n’est pas T (X)-mesurable
(Le démontrer).
9.1.2 Exhaustivité
On va maintenant construire un cadre qui généralise cette situation. On suppose main-
tenant que le modèle est dominé. Soit µ une mesure dominante.
Définition 9.1.1. Une statistique T (X) est dite statistique exhaustive si, pour tout
ensemble mesurable A, il existe une version de Eθ (1A (X)|T (X)) qui ne dépend pas de
θ.
Autrement dit, pour tout ensemble mesurable A, il existe une fonction φA telle que
Cette notion est intrinsèque au modèle et ne dépend pas de ce que l’on cherche à
estimer.
Si on peut définir une loi de X conditionnelle à T (X), et que cette loi conditionnelle ne
dépend pas de θ, alors T (X) est une statistique exhaustive.
Dans cette définition, il se pourrait que l’événement sur lequel l’égalité est vérifiée (et
qui est de mesure 1 pour Pθ ) dépende de θ. Mais on va montrer qu’il n’y a en fait aucune
dépendence en θ.
Pour cela, on considère une dominante privilégiée P comme on a construit au chapitre
2, c’est à dire une probabilité P qui s’écrit
X
P = αθ Pθ (9.1)
θ∈D
où D est une partie au plus dénombrable de Θ, et où les αθ sont > 0 et de somme
totale égale à 1, telle que P domine tous les Pθ et telle que pour tout événement A,
P (A) = 0 ⇐⇒ ∀θ ∈ Θ, Pθ (A) = 0.
Alors, ”pour tout θ, Pθ -p.s. équivaut à P -p.s.”.
72
9.1 Exhaustivité et estimateurs UVMB
Preuve :
Pour le point 1., on écrit EQ (Y ) = ydQ(y) = y dQ dQ
R R
dP (y)dP (y) = EP Y dP .
Montrons maintenant le point 2. Notons alors
EP Y dQdP |T
φ(T ) = 1E dQ |T >0 .
P ( dP )
dQ
EP dP |T
73
9 Etude des estimateurs sans biais
On va maintenant montrer que pour toute fonction mesurable bornée h, EQ (h(T )φ(T )) =
EQ (Y h(T ).
Soit donc h une fonction mesurable bornée quelqconque.
On a en utilisant le point 1
dQ
EQ (h(T )φ(T )) = EP h(T )φ(T ) .
dP
Puis
dQ
EQ (h(T )φ(T )) = EP EP h(T )φ(T ) |T
dP
EP Y dQ dP |T dQ
1E dQ |T >0
= EP EP h(T ) P ( dP ) dP |T
dQ
EP dP |T
EP Y dQdP |T
dQ
= EP h(T ) 1E dQ |T >0 EP |T
P ( dP )
dQ
EP dP |T dP
dQ
= EP h(T )EP Y |T 1EP ( dQ |T )>0
dP dP
dQ
= EP h(T )Y 1 dQ
dP EP ( dP |T )>0
h i
= EQ h(T )Y 1EP ( dQ |T )>0
dP
et donc
1EP ( dQ |T )>0 = 1 Q − p.s.
dP
On a donc h i
EQ h(T )Y 1EP ( dQ |T )>0 = EQ [h(T )Y ]
dP
74
9.1 Exhaustivité et estimateurs UVMB
— (iii) Il existe une fonction mesurable ` et pour tout θ, une fonction mesurable hθ
tel que
dPθ
∀θ ∈ Θ, (x) = hθ (T (x))`(x).
dµ
Preuve :
Montrons (ii) =⇒ (iii). La dominante privilégiée P vérifie P << µ, et donc
dPθ dPθ dP
= .
dµ dP dµ
Montrons maintenant (iii) =⇒ (i). Supposons donc qu’il existe une fonction mesurable
` et pour tout θ, une fonction mesurable hθ tel que
dPθ
∀θ ∈ Θ, (x) = hθ (T (x))`(x).
dµ
On commence par construire ν une probabilité telle que µ << ν. (Proposer une telle
˜ = `(x) dµ (x),
construction). On a alors, en notant `(x) dν
dPθ ˜
∀θ ∈ Θ, (x) = hθ (T (x))`(x).
dν
Soit A un ensemble mesurable quelconque. Par le lemme de changement de loi, on a
Eν dν 1A (X)|T (X)
dPθ
˜
Eν `(X) 1A (X)|T (X)
= 1hθ (T (X))Eν (`(X)|T
˜ (X))>0 .
˜
Eν `(X)|T (X)
Mais Z
dPθ dPθ
Pθ (hθ (T (X)) = 0) ≤ Pθ = 0 = dP dν = 0,
dν θ =0 dν
dν
et donc
˜
Eν `(X) 1A (X)|T (X)
Eθ (1A (X)|T (X)) = 1Eν (`(X)|T
˜ (X))>0 P − p.s.
˜
Eν `(X)|T (X)
75
9 Etude des estimateurs sans biais
Montrons enfin (i) =⇒ (ii). On suppose que T (X) est une statistique exhaustive. Soit A
un ensemble mesurable quelconque. On a
Mais Z
dPθ dPθ
Pθ (hθ (T (X)) = 0) ≤ Pθ = 0 = dP dP = 0,
dP θ =0 dP
dP
et donc
Eθ (U (X)|T (X)) = EP (U (X)|T (X)) P − p.s.
76
9.1 Exhaustivité et estimateurs UVMB
Théorème 9.1.2. On considère une fonction de perte L donnée par L(u, v) = ψ(u −
v) où ψ est une fonction convexe. Si T (X) est une statistique exhaustive et U (X) un
estimateur de g(θ), alors
∀θ ∈ Θ, Eθ (U ) = g(θ)
∀θ ∈ Θ, R(θ, U ) ≤ R(θ, V ).
Remarquons qu’il n’existe pas toujours d’estimateur sans biais. Par exemple, si Θ =
R∗+ et Pθ est la loi exponentielle de paramètre θ, dire que U est un estimateur sans biais
de θ signifie Z +∞
∀θ > 0, U (x)θe−θx dx = θ
0
soit Z +∞
∀θ > 0, U (x)e−θx dx = 1.
0
77
9 Etude des estimateurs sans biais
R +∞ R +∞
Si l’on pose pour θ > 0, h(θ) = 0 U (x)e−θx dx, on a |h(θ)| ≤ 0 |U (x)|e−θx dx. Par
Beppo-Levi, on a Z +∞
lim |U (x)|e−θx dx = 0,
θ→+∞ 0
Si U (X) est un estimateur sans biais de g(θ) et que T (X) est une statistique exhaus-
tive, alors Eθ (U |T ) (qui ne dépend pas de θ) est un estimateur sans biais de g(θ) aussi
bon que U (de risque quadratique majoré par celui de U ). Est-il UVMB ?
Définition 9.1.3. On suppose Θ ⊂ Rd , pas nécessairement avec d = 1.
Une statistique T (X) est une statistique complète si, pour toute fonction mesurable
φ à valeurs dans R telle que φ(T (x)) ∈ L1 (Pθ ) pour tout θ ∈ Θ, vérifiant
∀θ ∈ Θ, Eθ [φ(T (X))] = 0,
on a
∀θ ∈ Θ, φ(T (X)) = 0 Pθ − p.s.
Proposition 9.1.2. Si T (X) est une statistique exhaustive et complète, alors il existe
au plus un estimateur de g(θ) qui soit sans biais et fonction de T (X).
Preuve : Soient U1 et U2 des estimateurs sans biais de g(θ) qui sont fonction de T (X).
Alors U1 − U2 est fonction de T (X), donc il existe une fonction mesurable φ telle que
U1 − U2 = φ(T (X)). Mais
∀θ ∈ Θ, R(θ, U 0 ) ≥ R(θ, V ).
78
9.1 Exhaustivité et estimateurs UVMB
Quitte à poser dν = hdµ, on peut supposer sans perte de généralité que h(x) = 1,
autrement dit que
dPθ
(x) = exp {hQ(θ), T (x)i − ψ(θ)} (9.2)
dµ
et Z
∀θ ∈ Θ, ψ(θ) = log exp {hQ(θ), T (x)i} dµ(x) . (9.3)
On a
Théorème 9.1.4. Dans le modèle donné par (9.2), si Q(Θ) est d’intérieur non vide,
alors T (X) est une statistique exhaustive et complète.
Preuve : Tout d’abord, T (X) est une statistique exhaustive par le Théorème de
factorisation.
Puis, soit φ une fonction mesurable telle que pour tout θ ∈ Θ, φ(T (x)) ∈ L1 (Pθ ), et que
∀θ ∈ Θ, Eθ [φ(T (X))] = 0.
On a alors
Z Z
∀θ ∈ Θ, φ(T (x))+ exp {hQ(θ), T (x)i − ψ(θ)} dµ(x) = φ(T (x))− exp {hQ(θ), T (x)i − ψ(θ)} dµ(x)
X X
et donc
Z Z
∀θ ∈ Θ, φ(T (x))+ exp {hQ(θ), T (x)i} dµ(x) = φ(T (x))− exp {hQ(θ), T (x)i} dµ(x).
X X
On note µ+T la mesure positive de densité φ+ par rapport à la mesure image de µ par T ,
et µ−
T la mesure positive de densité φ− par rapport à la mesure image de µ par T . On a
alors Z Z
∀θ ∈ Θ, exp {hQ(θ), ti} dµ+T (t) = exp {hQ(θ), ti} dµ−
T (x).
Rk Rk
−
Par le lemme 9.1.3 qui suit, comme Q(Θ) est d’intérieur non vide, on obtient µ+T = µT ,
donc φ(T (x))+ = φ(T (x))− µ-p.p., soit φ(T (x)) = 0 µ-p.p., et donc φ(T (x)) = 0 Pθ -p.s.
pour tout θ ∈ Θ, et T (X) est une statistique exhaustive et complète.
79
9 Etude des estimateurs sans biais
Lemme 9.1.3. Soient µ et ν deux mesures positives sur Rk . On suppose qu’il existe un
ouvert A de Rk tel que
Z Z
∀s ∈ A, exp {hs, xi} dµ(x) = exp {hs, xi} dν(x).
Alors, µ = ν.
donc en notant P la probabilité de densité exp {hs0 , xi} /C0 par rapport à µ et Q la
probabilité de densité exp {hs0 , xi} /C0 par rapport à ν, on a pour tout u ∈ Rk tel que
kuk ≤ 2δ, Z Z
exp {hu, xi} dP (x) = exp {hu, xi} dQ(x).
Soit t ∈ RRk quelconque non nul. On note h la fonction de la variable complexe z définie
par z 7→ exp {zht, xi} dP (x). Alors la fonction h est holomorphe sur le domaine {z ∈
C : |Re(z)| ≤ δ/ktk} (Le démontrer
R !). De même, si g est la fonction de la variable
complexe z définie par z 7→ exp {zht, xi} dQ(x), la fonction g est holomorphe sur le
domaine {z ∈ C : |Re(z)| ≤ δ/ktk}. Par ailleurs, h et g coincident sur l’ensemble des z
réels dans ] − δ/ktk δ/ktk[. Donc h = g sur le domaine {z ∈ C : |Re(z)| < δ/ktk}, et donc
en particulier sur l’ensemble des imaginaires purs, et donc en particulier pour z = i, et
donc Z Z
exp {iht, xi} dP (x) = exp {iht, xi} dQ(x).
Ceci est vrai pour tout t ∈ Rk , donc P et Q ont même fonction caractéristique, donc
P = Q et donc µ = ν.
Exemples : dans chacun des cas suivant montrer qu’il s’agit d’un modèle exponentiel,
identifier θ, Q(θ), T (X), dire si il s’agit d’une statistique exhaustive complète.
— Modèle de Bernoulli
— Modèle de Poisson
— Modèle linéaire gaussien
9.2 Efficacité
9.2.1 Score et information de Fisher
Soit (X , A, (Pθ )θ∈Θ ), Θ ⊂ Rk , un modèle dominé et µ une mesure dominante. On note
fθ = dP
dµ . On suppose :
θ
80
9.2 Efficacité
Remarquons que le score ne dépend pas de la mesure dominante : si P est une domi-
nante privilégiée, P est absolument continue par rapport à µ, donc
dPθ dP
`θ = log + log
dP dµ
Par ailleurs, on a, en notant f˙θ le gradient (vecteur des dérivées partielles) de fθ par
rapport à la variable θ,
f˙θ
`˙θ = .
fθ
R
Comme la fonction θ 7→ fθ (x)dµ(x) est une fonction constante (égale à 1), on voit que si
on peut échanger dérivation et intégration (dériver sous le signe somme), Eθ [`˙θ (X)] = 0
(le score est centré).
Définition 9.2.1. On suppose (S), que Eθ [`˙θ (X)] = 0 et que Eθ [k`˙θ (X)k2 ] < ∞. Alors
la matrice de variance de `˙θ est appelée information de Fisher en θ et notée Iθ , on
a, comme le score est centré,
81
9 Etude des estimateurs sans biais
On peut montrer que l’on a obtenu la meilleur borne inférieure possible, c’est à dire
que le supremum en a de la borne inférieure est atteint en a = Iθ−1 ∇g(θ) en appliquant
le lemme suivant avec S = Iθ et v = ∇g(θ).
82
9.2 Efficacité
Preuve : On commence par montrer que a 7→ x = S 1/2 a est une bijection de Rk dans
Rk de sorte que l’on obtient
(v T a)2 xT Ax
sup T
= sup T
a∈Rk ,a6=0 a Sa x∈Rk ,x6=0 x x
avec A = S −1/2 vv T S −1/2 , de sorte que le supremum recherché est la plus grande valeur
propre de A. Mais en posant
S −1/2 v
w= ,
kS −1/2 vk
on voit que
A = kS −1/2 vk2 wwT .
wwT est la matrice de projection orthogonale sur la droite engendrée par w, donc de plus
grande valeur propre 1, donc la plus grande valeur propre de A est kS −1/2 vk2 = v T S −1 v.
1
V arθ (U (X1 , . . . , Xn )) ≥ ∇g(θ)T Iθ−1 ∇g(θ).
n
83
9 Etude des estimateurs sans biais
et ψ : Θ → R donnée par
Z
ψ(θ) = log exp{hθ, T (x)i}dµ(x).
On a
R
Proposition 9.2.1. La fonction θ 7→ log exp{hθ, T (x)i}dµ(x) est indéfiniment dérivable
sur l’intérieur de Θ et se dérive sous le signe somme.
Preuve : La faire.
On peut alors montrer que sur l’intérieur de Θ, ∇ψ(θ) = Eθ [T (X)], le score est
T − ∇ψ(θ) et est centré, l’information de Fisher est
Iθ = V arθ [T (X)] = D2 ψ(θ),
la matrice hessienne de ψ en θ. T (X) est une statistique exhaustive complète, qui estime
sans biais ∇ψ(θ), et en est un UVMB et un estimateur efficace si Θ ⊂ R. P
Donc dans le modèle avec n observations i.i.d. d’un modèle canonique, c’est n1 ni=1 T (Xi )
qui estime sans biais ∇ψ(θ), et en est un UVMB et un estimateur efficace si Θ ⊂ R.
(Démontrer toutes ces affirmations).
Si l’on reprend le modèle exponentiel sous sa forme générale (9.2) et Q deux fois
dérivable, calculer score, information de Fisher — dans le cas k = 1–, et montrer que,
1 Pn
0
si Q (θ) 6= 0, n i=1 T (Xi ) est un estimateur sans biais de ψ 0 (θ)/Q0 (θ), et en est un
UVMB et un estimateur efficace.
84
9.3 Limites des estimateurs sans biais et de l’efficacité
Il n’existe pas toujours d’estimateur efficace ou UVMB : par exemple, dans le modèle
N (m, σ 2 )⊗n , il n’existe pas d’estimateur efficace de σ 2 (voir T.D.).
2σ 4
R(σ 2 , σ
b2 ) := Eσ (b
2
σ − σ 2 )2 = .
n
Si l’on considère maintenant l’estimateur
σ2,
Tλ = λb
Enfin, sous des hypothèses faibles, si un modèle admet un estimateur efficace T de g(θ),
pour θ ∈ Θ, Θ intervalle de R, alors le modèle est un modèle exponentiel de statistique
exhaustive complète T , ce qui restreint l’existence d’estimateurs efficaces essentiellement
aux modèles exponentiels, et pour estimer l’espérance de la statistique exhaustive uni-
quement.
Montrons cela. On suppose donc que les hypothèses du Théorème de l’inégalité de
Cramer-Rao sont vérifiées pour le modèle et pour T , et que
g 0 (θ)2
∀θ ∈ Θ, Eθ (T ) = g(θ), V arθ (T ) = .
Iθ
Comme
g 0 (θ) = Eθ ((T − g(θ))`˙θ ),
on a 2
Covθ (T, `˙θ ) = V arθ (T )V arθ (`˙θ )
85
9 Etude des estimateurs sans biais
et donc, pour tout θ, ou bien T = Eθ (T ), ou bien il existe λθ tel que `˙θ = λθ (T −Eθ (T )).,
Pθ -p.s.
Si il existe θ0 tel que T = Eθ0 (T ) Pθ0 -p.s., alors T est constant µ-p.p., donc T = Eθ (T )
Pθ -p.s. pour tout θ, et g(θ) est constant, cas peu intéressant.
Sinon, pour tout θ ∈ Θ, il existe λθ tel que `˙θ = λθ (T − Eθ (T )), Pθ -p.s. On a donc, θ0
étant un point fixé de Θ
Z θ
∀θ ∈ Θ, log fθ = log fθ0 + λs (T − Es (T ))ds,
θ0
soit Z θ Z θ
fθ
∀θ ∈ Θ, log =T λs ds − λs Es (T )ds,
fθ0 θ0 θ0
c’est-à-dire
∀θ ∈ Θ, fθ = fθ0 exp[Q(θ)T − ψ(θ)]
avec Z θ Z θ
Q(θ) = λs ds, ψ(θ) = λs Es (T )ds.
θ0 θ0
86
10 Eléments de statistique asymptotique
La borne de Cramer-Rao nous dit que, si T (X) est un estimateur sans biais de g(θ),
0 (θ))2
alors pour tout θ, Eθ [(T (X) − g(θ)]2 ≥ (gI(θ) . Mais si T a un biais, que dit la borne de
Cramer-Rao ? Si on note b(θ) = Eθ (T (X)) − g(θ), comme T estime sans biais b(θ) + g(θ)
et que le risque quadratique est la somme de la variance et du carré du biais, on a
(b0 (θ) + g 0 (θ))2
Eθ [(T (X) − g(θ)]2 ≥ b2 (θ) +
.
I(θ)
Mais ceci n’est pas une borne intrinsèque puisqu’elle dépend de T (par l’intermédiaire
de b).
Par ailleurs, la notion d’efficacité stricte concerne exclusivement les modèles exponen-
tiels.
Ceci dit, on a vu que l’on pouvait obtenir des minorations intrinsèques, en considérant
non pas le risque ponctuel, mais le risque maximum (théorème de Le Cam).
87
10 Eléments de statistique asymptotique
√ 1
vérifie que n(θbn − θ) converge en loi sous Pθ vers N (0, I(θ) ). Revenons tout d’abord au
cadre du modèle exponentiel en dimension 1.
Soit Θ ouvert de R, µ une mesure sur R et (Pθ )θ∈Θ tel que dP dµ (x) = exp(θT (x)−ψ(θ)),
θ
Pθ la loiP d’une suite de variables aléatoires réelles i.i.d. de loi Pθ , g(θ) = ψ 0 (θ) = Eθ T (X).
Tn = n ni=1 T (Xi ) est un estimateur efficace de g(θ) et UVMB. Sa variance est V arθ (Tn ) =
1
(ψ 00 (θ)2 ψ 00 (θ) √
nI(θ) = n . Par le théorème de limite centrale, n(Tn − ψ 0 (θ)) converge en loi sous
00 2
Pθ vers N (0, (ψ (θ) ). Qu’en est-il pour l’estimateur du maximum de vraisemblance θbn ?
I(θ)
La log-vraisemblance est
ψ est strictement convexe, car ψ 00 > 0 (c’est la variance d’une variable aléatoire non
constante), donc `n est strictement concave et admet donc un unique maximum. ψ 0 est
strictement croissante, et si le maximum de `n est atteint à l’intérieur de Θ, il annule la
dérivée, donc Tn = ψ 0 (θbn ). Pour simplifier, on va supposer que ψ 0 (Θ) = R, et alors
Théorème 10.1.1. Soit (Tn )n≥1 une suite de variables aléatoires à valeur dans I in-
√
tervalle de R et telle que n(Tn − m) converge en loi vers N (0; σ 2 ). Soit g : I → R une
√
fonction dérivable. Alors n(g(Tn ) − g(m)) converge en loi vers N (0; g 0 (m)2 σ 2 ).
On applique le théorème 10.1.1 avec g(x) = (ψ 0 )−1 (x). g est dérivable de dérivée
= ψ00 ((ψ01)−1 (x)) . On a m = ψ 0 (θ), donc g(m) = θ.
g 0 (x)
2
(ψ 00 (θ))2
1 1 1
g 0 (m)2 = g 0 (m)2 ψ 00 (θ) = ψ 00 (θ) = = ,
I(θ) ψ 00 (θ) ψ 00 (θ) I(θ)
√ 1
donc n(θbn − θ) converge en loi sous Pθ vers N (0, I(θ) ). Et en appliquant une nouvelle
√
fois le théorème 10.1.1, si φ : Θ → R est dérivable, n(φ(θbn ) − φ(θ)) converge en loi sous
0 (θ))2
Pθ vers N (0, (φI(θ) ).
où α(·) est une fonction qui vérifie α(u) = o(1) au voisinage de 0. On a alors
√ √ √
n(g(Tn ) − g(m)) = n(Tn − m)g 0 (m) + n(Tn − m)α(Tn − m).
88
10.1 Etude asymptotique de l’estimateur du maximum de vraisemblance
2(1−F (M )) et ceci pour tout M , donc en faisant tendre M vers l’infini, limn→+∞ P(|Tn −
m| ≥ ) = 0. Ensuite, on en déduit que α(Tn − m) converge en probabilité vers 0 :
en effet, pour tout > 0 il existe δ > 0 tel que |u| < δ implique |α(u)| < , soit
|α(u)| ≥ implique |u| ≥ δ, donc P(|α(Tn − m)| ≥ ) ≤ P(|Tn − m| ≥ δ) et donc
√
limn→+∞ P(|α(Tn − m)| ≥ ) = 0. Puis n(Tn − m)α(Tn − m) converge en probabilité
√
vers 0 : en effet, pour tout > 0 et pour tout M , comme, si | n(Tn − m)α(Tn − m)| ≥
√
et | n(Tn − m)| < M alors M |α(Tn − m)| ≥ ,
√ √
P(| n(Tn − m)α(Tn − m)| ≥ ) ≤ P(| n(Tn − m)| ≥ M ) + P(|α(Tn − m)| ≥ ),
M
√ √
et donc lim supn→+∞ P(| n(Tn −m)α(Tn −m)| ≥ ) ≤ 2(1−F (M )), donc lim supn→+∞ P(| n(Tn −
√
m)α(Tn −m)| ≥ ) = 0 en faisant tendre M vers l’infini. Enfin, n(Tn −m)g 0 (m) converge
en loi vers N (0; g 0 (m)2 σ 2 ), et on termine par le lemme de Slutzky.
Théorème 10.1.2. On suppose (A1), (A2) et (A3). Soit θbn l’estimateur du maximum
de vraisemblance obtenu avec n observations X1 , . . . , Xn . On suppose :
— ∀θ ∈ Θ◦ , I(θ) > 0,
f 00
— ∀x ∈ X , θ 7→ fθ (x) est de classe C 2 sur Θ◦ et ∀θ ∈ Θ◦ , Eθ fθθ (X) = 0,
— ∀θ ∈ Θ◦ , il existe V , voisinage de θ et hθ ∈ L1 (Pθ ) tels que
∂2
∀s ∈ V, | (log fs )| ≤ hθ
∂θ2
89
10 Eléments de statistique asymptotique
Par ailleurs, le développement de Taylor s’écrit (en notant `00θ la dérivée seconde de log fθ )
pour tout x ∈ X et s ∈ Θ :
Z 1
`˙s (x) − `˙θ (x) = (s − θ) `00θ+t(s−θ) (x)dt.
0
avec
Z 1 n
1 X 00
Rn (s) = (`θ+t(s−θ) (Xi ) − `00θ (Xi ))dt.
0 n
i=1
Calcul et loi des grands nombres montrent que n1 ni=1 `00θ (Xi ) converge en Pθ -probabilité
P
vers −I(θ).
Par le théorème de limite centrale, sous Pθ , √1n ni=1 `˙θ (Xi ) converge en loi vers N (0, I(θ)).
P
Enfin, Rn (θbn ) converge en Pθ -probabilité vers 0. En effet, si l’on note r(, x) = sup |`00 (x)− |s−θ]≤ s
`00θ (x)|, pour suffisamment petit (tel que l’intervalle centré en θ et de largeur 2 soit
dans V ), on a 0 ≤ r(, x) ≤ hθ (x), et lim→0 r(, x) = 0, donc par convergence dominée
lim→0 Eθ r(, X) = 0. Puis pour tout δ > 0 et tout > 0,
n
1 X
Pθ (|Rn (θbn )| ≥ δ) ≤ Pθ (|θbn − θ| ≥ ) + Pθ ( r(, Xi ) ≥ δ)
n
i=1
Pn
1
Par l’inégalité de Markov, Pθ ( n1 ni=1 r(, Xi ) ≥
P
car sup|s−θ|≤ |Rn (s)| ≤ n i=1 r(, Xi ).
δ) ≤ Eθ r(,X)
δ , et donc lim supn→+∞ Pθ (|Rn (θbn )| ≥ δ) ≤ Eθ r(,X)
δ , et en prenant la limite
quand tend vers 0 on obtient limn→+∞ Pθ (|Rn (θn )| ≥ δ) = 0. Récapitulons :
b
h√ i h√ i
Zn n(θbn − θ) = Un 1An + Zn n(θbn − θ) (1 − 1An ),
avec Zn qui converge en Pθ -probabilité vers −I(θ) et Un qui converge en hloi sous Pθ vers
√ b i
N (0, I(θ)). Par ailleurs, 1An converge vers 1 en Pθ -probabilité, et donc Zn n(θn − θ) (1−
h√ i
1An ) converge vers 0 en Pθ -probabilité (car pour tout > 0, Pθ (|Zn n(θbn − θ) (1 −
1An )| ≥ ) ≤ Pθ (1An = 0) tend vers 0 quand n tend vers l’infini). On termine en utilisant
le lemme de Slutzky.
90
√
10.2 Amélioration d’un estimateur n-consistant
√
10.2 Amélioration d’un estimateur n-consistant
Comment calculer l’estimateur du maximum de vraisemblance ? Algorithme d’annu-
lation du gradient : et si beaucoup de maxima locaux, et donc beaucoup de zéros du
gradient ? Partir d’un bon point initial et faire ensuite l’algorithme de Newton ?
√
On dispose d’une suite d’estimateurs Tn tels que pour tout θ, n(Tn − θ) converge
1
en loi sous Pθ vers N (0, σ 2 (θ)), avec σ 2 (θ) > I(θ) . On se dit que Tn n’est pas loin de
Pn ˙
l’estimateur du maximum de vraisemblance qui annule la fonction s 7→ i=1 `s (Xi ).
On peut alors chercher à améliorer l’estimation en cherchant le zéro de la fonction par
l’algorithme de Newton partant de Tn . En faisant un pas de cet algorithme, c’est à dire
en se déplaçant sur la droite tangente en Tn au graphe de la fonction, jusqu’au point où
cette tangente traverse l’axe des abscisses (qui annule l’ordonnée) [voir sur un dessin],
on obtient un nouvel estimateur :
Pn ˙
`Tn (Xi )
θ̃n = Tn − Pi=1n 00 . (10.1)
i=1 `Tn (Xi )
On se place dans le même cadre que pour le Théorème 10.1.2. On obtient alors
Théorème 10.2.1. On suppose (A1), (A2) et (A3). On suppose aussi que pour tout
√ √
θ ∈ Θ◦ , n(Tn − θ) converge en loi sous Pθ . Alors, pour tout θ ∈ Θ◦ , n(θ̃n − θ)
1
converge en loi sous Pθ vers N (0, I(θ) ), avec θ̃n df́eini par (10.1).
Preuve du Théorème 10.2.1.
Soit θ dans Θ◦ . On a avec les notations de la preuve du Théorème 10.1.2
n
X n
X n
X
`˙Tn (Xi ) = `˙θ (Xi ) + (Tn − θ) `00θ (Xi ) + n(Tn − θ)Rn (Tn )
i=1 i=1 i=1
Xn
= `˙θ (Xi ) + n(Tn − θ)Wn
i=1
où Wn converge en PθP -probabilité vers −I(θ) (comme dans la preuve du Théorème
10.1.2). Aussi, Zn = n1 ni=1 `00Tn (Xi ) converge en probabilité vers −I(θ). En effet,
n n
1 X 00 1 X 00
Zn = `θ (Xi ) + (`Tn (Xi ) − `00θ (Xi )),
n n
i=1 i=1
et si |Tn − θ| ≤ , alors | n1 ni=1 (`00Tn (Xi ) − `00θ (Xi ))| ≤ n1 ni=1 r(, Xi ). Mais Tn − θ
P P
converge en Pθ -probabilité vers 0, donc pour tout > 0 et tout δ > 0,
n n
1 X 00 1X
Pθ (| (`Tn (Xi ) − `00θ (Xi ))| ≥ δ) ≤ Pθ (|Tn − θ| ≥ ) + Pθ ( r(, Xi ) ≥ δ)
n n
i=1 i=1
Eθ (r(, X1 ))
≤ Pθ (|Tn − θ| ≥ ) +
δ
91
10 Eléments de statistique asymptotique
par Markov, et donc en prenant laPlimite quand n tend vers l’infini, puis quand tend
vers 0, on obtient limn→+∞ Pθ (| n1 ni=1 (`00Tn (Xi ) − `00θ (Xi ))| ≥ δ) = 0. On a donc :
Pn ˙ √
√1 n(Tn − θ)Wn
√ √ n i=1 `θ (Xi ) +
n(θ̃n − θ) = n(Tn − θ) −
Zn
n
!
√
Wn 1 1 X˙
= n(Tn − θ) 1 − + √ `θ (Xi ) .
Zn Zn n
i=1
√
converge en Pθ -probabilité vers 0, et Z1n √1n ni=1 `˙θ (Xi )
Wn P
Par Slutzky, n(Tn −θ) 1 − Zn
1 √
converge en loi sous Pθ vers N (0, I(θ) ). Donc encore par Slutzky, n(θ̃n − θ) converge
1
en loi sous Pθ vers N (0, I(θ) ).
Si on note `n (θ) la log-vraisemblance, et si log fθ (x) ∈ L1 (Pθ ), alors par la loi des
grands nombres n1 `n (θ) converge en probabilité sous Pθ vers Eθ [log fθ (X1 )], et pour tout
s ∈ Θ, si log fs (x) ∈ L1 (Pθ ), n1 [`n (θ) − `n (s)] converge en probabilité sous Pθ vers
Z
fθ (x)
log dPθ (x) = K (Pθ , Ps ) .
fs (x)
Maximiser en s `n (s) c’est minimiser en s n1 [`n (θ) − `n (s)], et l’on souhaite que asymp-
totiquement le maximum soit en θ, donc que le minimum de s 7→ K (Pθ , Ps ) soit atteint
pour s = θ. Or K (Pθ , Ps ) est la divergence de Kullback entre Pθ et Ps , donc on sait que
pour tout s, K (Pθ , Ps ) ≥ 0 et que K (Pθ , Ps ) = 0 si et seulement si Ps = Pθ . On va donc
demander que cela implique s = θ, autrement dit que le modèle soit identifiable, c’est à
dire que la fonction θ 7→ Pθ soit injective.
Théorème 10.3.1. On suppose le modèle (Pθ )θ∈Θ dominé, et l’on note θbn l’estimateur
du maximum de vraisemblance obtenu avec X1 , . . . , Xn i.i.d. On suppose de plus que :
— le modèle est identifiable,
— Θ est un sous-ensemble compact de Rk ,
— pour tout x ∈ X , la fonction θ 7→ log fθ (x) est continue (fθ est la densité de Pθ
par rapport à la mesure dominante), et si l’on note h(x) = sups∈Θ | log fs (x)|, pour
tout θ ∈ Θ, h ∈ L1 (Pθ ).
Alors θbn est consistant, c’est à dire que pour tout θ ∈ Θ, θbn converge en probabilité sous
Pθ vers θ.
92
10.3 Consistance de l’estimateur du maximum de vraisemblance
Fixons θ ∈ Θ. On a alors g(α, x) ≤ 2h(x) et g(α, ·) ∈ L1 (Pθ ). De plus, θ 7→ log fθ (x) est
uniformément continue sur le compact Θ, donc pour tout x ∈ X , limα→0 g(α, x) = 0, et
par convergence dominée,
lim Eθ g(α, X1 ) = 0.
→0
Soit > 0 quelconque. L’ensemble A = {s ∈ Θ : ks − θk ≥ } est compact (fermé dans
un compact), donc pour tout α > 0, on peut le recouvrir par un nombre fini Nα de boules
de rayon α, centrées en θi , i = 1, . . . , Nα . Pour tout s ∈ A , il existe i ∈ {1, . . . , Nα } tel
que ks − θi k ≤ α, et | log fs (x) − log fθi (x)| ≤ g(α, x). On a alors
n
X
sup `n (s) ≤ max{`n (θi ), i = 1, . . . , Nα } + g(α, Xi ).
s∈A i=1
Donc
Pθ kθn − θk ≥
b ≤ Pθ sup `n (s) ≥ `n (θ)
s∈A
n
!
1 1X 1
≤ Pθ max{ `n (θi ), i = 1, . . . , Nα } + g(α, Xi ) ≥ `n (θ)
n n n
i=1
93
10 Eléments de statistique asymptotique
pour un seuil s à déterminer, de sorte que lim supn→+∞ Eθ0 φn ≤ α, niveau donné. Pour
fixer le seuil, il s’agit donc de déterminer la loi asymptotique de supθ∈Θ `n (θ) − `n (θ0 ).
rapport à θ en θ0 ).
— I(θ0 ) > 0,
— Il existe V , voisinage de θ0 et h ∈ L1 (Pθ0 ) tels que
∂2
∀θ ∈ V, | (log fθ )| ≤ h.
∂θ2
Alors 2[`n (θbn ) − `n (θ0 )] converge en loi sous Pθ0 vers χ2 (1) (loi du chi-deux à un degré
de liberté).
n
√ 1 1 X˙
n(θbn − θ0 ) = ·√ `θ0 (Xi ) + n (10.2)
I(θ0 ) n
i=1
∂ (θbn − θ0 )2 ∂ 2
`n (θbn ) = `n (θ0 ) + (θbn − θ0 ) `n (θ0 ) + `n (θn ) (10.3)
∂θ 2 ∂θ2
pour un θn ∈ (θ0 ; θbn ). Noter que θn est aléatoire. Comme dans la preuve du Théorème
10.1.2, on obtient que
1 ∂2
`n (θn ) = −I(θ0 ) + Un (10.4)
n ∂θ2
94
10.5 Généralisations multidimensionnelles
où Un tend en Pθ0 -probabilité vers 0. En reportant (10.2) et (10.4) dans (10.3), on obtient
n n
! !
1 1 X˙ 1 X˙
`n (θbn ) − `n (θ0 ) = √ `θ0 (Xi ) + n √ `θ0 (Xi )
I(θ0 ) n n
i=1 i=1
n
!2
1 1 X˙
+ √ `θ0 (Xi ) + n (−I(θ0 ) + Un )
2I(θ0 )2 n
i=1
n
!2 n
!
1 1 X˙ n (1 + Un − I(θ0 )) 1 X˙
= √ `θ0 (Xi ) + √ `θ0 (Xi )
2I(θ0 ) n I(θ0 ) n
i=1 i=1
2n
+ (−I(θ0 ) + Un ) .
2I(θ0 )
2
n −I(θ0 ))
Par Slutzky, n (1+U n
Pn ˙
√1
I(θ0 ) n i=1 `θ0 (Xi ) + 2I(θ 0)
(−I(θ0 ) + Un ) tend en Pθ0 -probabilité
vers 0. Par ailleurs,
n
!2 n
!2
1 1 X˙ 1 X `˙θ0 (Xi )
√ `θ0 (Xi ) = √ p ,
I(θ0 ) n n I(θ0 )
i=1 i=1
Pn `˙θ0 (Xi )
√1 √ converge en loi sous Pθ0 vers une gaussienne centrée réduite par le
n i=1 I(θ0 )
2
`˙θ0 (Xi )
théorème de limite centrale, donc par image continue, √1n ni=1 √
P
converge en
I(θ0 )
loi sous Pθ0 vers χ2 (1) et le théorème s’en suit par Slutzky.
On a alors, si u1−α/2 est le quantile d’ordre 1−α/2 de la loi gaussienne centrée réduite,
u21−α/2est le quantile d’ordre 1 − α/2 de la loi χ2 (1) (car P (U 2 ≥ u2 ) = P (|U | ≥ u)), et
donc le test
ϕn = 1supθ∈Θ `n (θ)−`n (θ0 )≥u2
1−α/2
95
10 Eléments de statistique asymptotique
D2 fθ0 ∇fθ0
— ∀x ∈ X , θ 7→ fθ (x) est de classe C 2 en θ0 , Eθ0 fθ0 (X) = 0, Eθ0 fθ0 (X) = 0 et
2
fθ0
Eθ0 fθ0 (X)
0
< +∞ (où l’on a noté ∇fθ0 (x) le gradient de fθ (x) par rapport à θ
en θ0 et D2 fθ0 (x) la matrice hessienne de fθ (x) par rapport à θ en θ0 ).
∇f
— I(θ0 ) est définie positive (I(θ0 ) est la matrice de variance de fθθ0 (X1 ) sous Pθ0 ,
0
— Il existe V , voisinage de θ0 et h ∈ L1 (Pθ0 ) tel que pour tous i, j = 1, . . . , k,
∂2
∀θ ∈ V, | (log fθ )| ≤ h.
∂θi ∂θi
Alors
n
√ 1 X ∇fθ0
nI(θ0 ) θbn − θ0 − √ (Xi )
n fθ0
i=1
converge en Pθ0 -probabilité vers 0,
√ b
n θn − θ0 converge en loi sous Pθ0 vers Nk (0, I(θ0 )−1 ), et
n n
" #
X X
2 log fθbn (Xi ) − log fθ0 (Xi )
i=1 i=1
converge en loi sous Pθ0 vers un χ2 (k) (loi du chi-deux à k degrés de liberté).
96
10.7 Retour sur le test du chi-deux d’ajustement
alors sous Pθ , Tn converge en loi quand n tend vers l’infini vers un χ2 (k − 1). On l’a
démontré en utilisant : le théorème de limite centrale et le théorème de Cochran.
Peut-on relier ce résultat au Théorème 10.4.1 ?
Proposition 10.7.1. On suppose que pour tout j = 1, . . . , k, θj > 0. Alors
h i
2 `n (θbn ) − `n (θ) = Tn + n
97
10 Eléments de statistique asymptotique
u2
en utilisant log(1 + u) = u − 2 + u2 ε(u), où ε(u) tend vers 0 quand u tend vers 0, et
avec !2
k Nj Nj
!
X
n − θj n − θj
Zn = 2 Nj ε .
θj θj
j=1
On a
k Nj k Nj k Nj
! ! !
X Nj n − θj X
n − θj X
n − θj
Tn = n −n θj = Nj ,
n θj θj θj
j=1 j=1 j=1
Pk Pk
car j=1 Nj = n et j=1 θj = 1, et
2
!2 Nj
k
X Nj
− θj
k
X Nj
n − θj
n
Nj =n = Tn + Un
θj nθj θj
j=1 j=1
avec
√n( Nj − θ ) 2
k j
X Nj n
Un = −1 .
nθj θj
j=1
On a alors h i
2 `n (θbn ) − `n (θ) = Tn + Zn − Un .
Mais par Slutzky, Un converge en Pθ -probabilité vers 0, et par Slutzky et image continue,
k Nj
!!2 Nj
!
√ − θj − θj
X Nj n n
Zn = 2 n ε .
n θj θj
j=1
On considère maintenant que l’on veut tester un sous-modèle décrit ainsi. Soit Θ ⊂ Rq ,
avec q < k − 1, et π : Θ → Rk−1 , π(θ) = (π1 (θ), . . . , πk−1 (θ) de sorte que Pθ (X = j) =
98
10.7 Retour sur le test du chi-deux d’ajustement
et Yn le vecteur de Rk de coordonnées
!
√ πj (θbn ) − πj (θ)
Yn,j = n p , j = 1, . . . , k.
πj (θ)
πj (θ)
Si on note Dn la matrice diagonale des , on a
πj (θbn )
99
10 Eléments de statistique asymptotique
pour i, m = 1, . . . , q
k
X 1 ∂πj (θ) ∂πj (θ)
I(θ)i,m = ,
πj (θ) ∂θi ∂θm
j=1
I(θ) = (dπ)T ∆−1 (dπ), et dire que I(θ) est inversible c’est dire que les q vecteur de Rk
∂πj (θ)
(√ 1 ∂θi )1≤j≤k , pour i = 1, . . . , q, sont linéairement indépendants. On a (généralisation
πj (θ)
multidimensionnelle de la preuve du Théorème 10.1.2) :
n
√ I(θ)−1 X ˙
n θbn − θ = √ `θ (Xi ) + n
n
i=1
N
= I(θ)−1 (dπ)T ∆−1 √ + n
n
√
N
= I(θ)−1 (dπ)T ∆−1 n − π + n
n
où n tend en Pθ -probabilité vers 0, et où l’on a noté N le vecteur de Rk de coordonnées
Nj .
Par la méthode delta, on obtient
√ √
n π(θbn ) − π(θ) = dπ n θbn − θ + ˜n
T −1 √
−1 N
= dπI(θ) (dπ) ∆ n − π + ¯n
n
où ˜n et ¯n tendent en Pθ -probabilité vers 0. En multipliant à gauche par ∆−1/2 on
obtient
Yn = ∆−1/2 dπI(θ)−1 (dπ)T ∆−1/2 Zn + Un
où Un tend en Pθ -probabilité vers 0. Donc Zn − Yn = (Ik − Q)Zn − Un avec Q =
√ √ T
∆−1/2 dπI(θ)−1 (dπ)T ∆−1/2 , et Zn converge en loi sous Pθ vers Nk (0, Ik − π π ). Donc
Zn − Yn converge en loi sous Pθ vers Nk (0, Σ) avec
√ √ T √ √ T
Σ = (Ik − Q) Ik − π π (Ik − Q)T = Ik − Q + π π
car Q est une matrice de projection orthogonale de rang q (le rang de dπ) (QT = Q, Q2 =
√ √ T √ √ T
Q) telle que Q π π = 0, et Q + π π est une matrice de projection orthogonale
sur un espace de dimension q + 1.
100