0% ont trouvé ce document utile (0 vote)
85 vues100 pages

M1 Stat

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
85 vues100 pages

M1 Stat

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistiques - Notes de cours - M1

Elisabeth Gassiat
Table des matières
1 Introduction 5
1.1 Estimation et régions de confiance . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Construction d’estimateurs 13
2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Méthode des moments. Estimation empirique . . . . . . . . . . . . . . . . 14
2.3 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3 Fonction de répartition et théorème de Glivenko-Cantelli 21

4 Construction de tests 25
4.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.2 Optimalité dans le cas de deux hypothèses simples . . . . . . . . . 26
4.2 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.3 Test du chi-deux d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4 Lien entre tests et régions de confiance . . . . . . . . . . . . . . . . . . . . 28

5 Vecteurs gaussiens 31

6 Modèle linéaire gaussien 35


6.1 Définition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.2.1 Estimation de m et σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.2.2 Estimation de β et σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.3 Tests d’hypothèses linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4 Régions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.1 Région de confiance pour m . . . . . . . . . . . . . . . . . . . . . . 39
6.4.2 Région de confiance pour β . . . . . . . . . . . . . . . . . . . . . . 40
6.4.3 Région de confiance pour σ 2 . . . . . . . . . . . . . . . . . . . . . . 41

7 Eléments de théorie de la décision 43


7.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.2 Affinité de test et minoration du risque maximum . . . . . . . . . . . . . . 43
7.3 Distance et affinité de Hellinger . . . . . . . . . . . . . . . . . . . . . . . . 46
7.4 Vitesse de séparation pour le test de deux hypothèses simples . . . . . . . 50
7.5 Divergence de Kullback . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3
7.6 Estimation bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.6.1 Estimateurs admissibles et estimateurs bayésiens . . . . . . . . . . 54
7.6.2 Notion de loi conditionnelle . . . . . . . . . . . . . . . . . . . . . . 56
7.6.3 Calcul d’estimateurs bayésiens . . . . . . . . . . . . . . . . . . . . 58

8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson 63


8.1 Extension de la notion de test . . . . . . . . . . . . . . . . . . . . . . . . . 63
8.2 Cas de deux hypothèses simples . . . . . . . . . . . . . . . . . . . . . . . . 64
8.3 Tests d’hypothèses multiples . . . . . . . . . . . . . . . . . . . . . . . . . . 66

9 Etude des estimateurs sans biais 71


9.1 Exhaustivité et estimateurs UVMB . . . . . . . . . . . . . . . . . . . . . . 71
9.1.1 Exemple du modèle de Bernoulli . . . . . . . . . . . . . . . . . . . 71
9.1.2 Exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
9.1.3 Estimateurs UVMB . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.1.4 Modèle exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
9.2 Efficacité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.2.1 Score et information de Fisher . . . . . . . . . . . . . . . . . . . . 80
9.2.2 Inégalité de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . 82
9.2.3 Cas des modèles produit . . . . . . . . . . . . . . . . . . . . . . . . 83
9.2.4 Modèles exponentiels . . . . . . . . . . . . . . . . . . . . . . . . . . 84
9.3 Limites des estimateurs sans biais et de l’efficacité . . . . . . . . . . . . . 84

10 Eléments de statistique asymptotique 87


10.1 Etude asymptotique de l’estimateur du maximum de vraisemblance . . . . 87

10.2 Amélioration d’un estimateur n-consistant . . . . . . . . . . . . . . . . . 91
10.3 Consistance de l’estimateur du maximum de vraisemblance . . . . . . . . 92
10.4 Asymptotique du test du rapport de vraisemblance . . . . . . . . . . . . . 94
10.5 Généralisations multidimensionnelles . . . . . . . . . . . . . . . . . . . . . 95
10.6 Constructions de régions de confiance asymptotiques . . . . . . . . . . . . 96
10.7 Retour sur le test du chi-deux d’ajustement . . . . . . . . . . . . . . . . . 97
1 Introduction
En probabilité, on étudie les propriétés de variables aléatoires connaissant leur loi.
En statistique, on cherche à trouver de l’information sur la loi connaissant les variables
aléatoires.

Voici une idée de la démarche sur un exemple simple, celui du sondage.


On souhaite avoir une idée de la proportion p de personnes qui préfèrent l’option A à
l’option B dans une population de N individus (deux options possibles). Pour cela, on
interroge n personnes. On se dit que considérer, parmi ces n personnes, la proportion pb
de personnes qui préfèrent l’option A à l’option B donne une idée de p.
Bon, mais si on refait un sondage, on ne va pas retrouver la même valeur pour pb : c’est
une variable aléatoire, l’aléa vient du choix des n parmi les N . Ah oui, mais si on choisit
ces n “au hasard”, on se dit qu’on va trouver une valeur proche. Mais alors : tout le
temps ? Non ce n’est pas possible, même au hasard, on peut tomber sur un ”mauvais”
échantillon. Et une valeur proche comment ? Cela dépend de si on veut que ce résultat
arrive ”souvent”.
Essayons de formaliser tout cela. On va noter Xi = 1 si la i-ème personne interrogée
répond A et Xi = 0 si la i-ème personne interrogée répond PnB. On note alors Zn le nombre
de personnes qui ont répondu A parmi les n, soit Zn = i=1 Xi . La proportion observée
est donc pb = n1 Zn . Dire que l’on choisit n personnes au hasard parmi N , c’est dire que le
tirage de l’ensemble de ces n personnes suit la loi uniforme sur tous les sous-ensembles à
n éléments parmi les N possibles, et Zn suit alors la loi hypergéométrique de paramètre
(n, p, N ). On sait que si N est très grand par rapport à n, cette loi est approximativement
la loi binomiale B(n; p), qui est celle que l’on obtient avec un tirage avec remise (les Xi
sont alors des variables aléatoires indépendantes de même loi de Bernoulli de paramètre
p). Du coup, le fait que pb soit proche de p, et avec quelle probabilité, va pouvoir être
quantifié.
Dans cette démarche, il y a une part de modélisation qui consiste à dire quelque chose
sur la loi possible de la variable aléatoire considérée. Ici, la modélisation porte sur la loi
de Zn par l’intermédiaire de ”au hasard” et l’approximation N >> n.

On a X variable aléatoire de loi P inconnue, et la modélisation fixe P, ensemble de


lois possibles pour P , autrement dit, on a une information a priori qui est : P ∈ P.

1.1 Estimation et régions de confiance


Reprenons la situation où l’on dispose de X1 , . .P
. , Xn indépendantes de loi de Ber-
noulli B(θ), et que l’on cherche à estimer θ par n1 ni=1 Xi . On dit que X1 , . . . , Xn est

5
1 Introduction

l’observation et que n1 ni=1 Xi est un estimateur de θ. Ce vocabulaire dit seulement


P
que c’est une quantité qui ne dépend que de l’observation. C’est une variable aléatoire.
Comment savoir si cette variable aléatoire est proche de θ ?

Rappels :
— LFGN On suppose que (Xk )k≥1 est une suite de variables aléatoires réelles indépendantes
P même loi P , telle que E(|X1 |) est finie. Alors la suite de variables aléatoires
et de
( n1 ni=1 Xi )n≥1 converge presque sûrement vers E(X1 ).
— LGN On suppose que (Xk )k≥1 est une suite de variables aléatoires réelles indépendantes
et Pde même loi, telle que E(|X1 |) est finie. Alors la suite de variables aléatoires
( n1 ni=1 Xi )n≥1 converge en probabilité vers E(X1 ).
Reprendre les définitions de convergence p.s. et en probabilité qui permettent de voir
que, en ce qui concerne la question de quantifier les probabilités des écarts, la LFGN est
seulement qualitative, et que ce qui nous intéresse est la LGN.

Souvent on note X n = n1 ni=1 Xi la moyenne empirique.


P
Dans notre exemple, on a E(X1 ) = θ, donc X n semble être un ”bon” estimateur de θ.
Pour évaluer ses performances, il faut noter qu’il y a deux types d’erreurs, si on utilise
X n : |X n − θ| (l’écart entre l’estimateur X n et la valeur cible θ), et, si l’on veut préciser
cette erreur pour avoir |X n − θ| ≤  la probabilité que cette affirmation soit fausse.
On voit que ces deux erreurs varient de manière inverse : si l’on augmente la précision
(si l’on diminue ), on diminue la probabilité que l’affirmation soit vraie. On va donc
construire des fourchettes que l’on associe à des niveaux de confiance, c’est ce que l’on
appelle un intervalle de confiance : on va chercher à évaluer P (|X n − θ| ≥ ), et si
c’est inférieur ou égal à α, on dira que [X n − , X n + ] est un intervalle de confiance
pour θ de niveau de confiance 1 − α.

Il y a plusieurs choses à remarquer. D’abord, la loi P des Xi est inconnue. Elle dépend
de θ, on va donc la noter Pθ . Ensuite, l’intervalle de confiance est un intervalle aléatoire.
Si on renouvelle l’expérience, il change. Et ce que l’on veut contrôler, on souhaite que
cela soit valide bien que l’on ne connaisse pas la loi, puisque justement c’est l’objectif,
donc que ce soit vrai quel que soit θ.

Définition 1.1.1. Soit α ∈ [0, 1]. On dit que I est un intervalle de confiance pour
θ ∈ Θ de niveau de confiance 1 − α si et seulement si
— I est un intervalle aléatoire, dont les bornes sont des variables aléatoires fonction
de l’observation

∀θ ∈ Θ, Pθ (θ ∈ I) ≥ 1 − α.
Dans l’exemple, Θ = [0, 1]. Noter que dans l’événement ”θ ∈ I” c’est I qui est
aléatoire, pas θ qui est une quantité fixe (mais inconnue). Reprendre l’exemple pour
lire la définition.

6
1.1 Estimation et régions de confiance

On veut donc évaluer P (|X n − θ| ≥ ). Outils ?

Rappels :
— Inégalité de Markov Si Z est une variable aléatoire réelle positive ou nulle, alors

E(Z)
∀t > 0, P (|Z| ≥ t) ≤ .
t
(Ceci n’a un intérêt que si E(Z) est finie).
— Inégalité de BT Si Z est une variable aléatoire réelle admettant une espérance
et une variance, alors

V ar(Z)
∀t > 0, P (|Z − E(Z)| ≥ t) ≤ .
t2
Se rappeler les preuves.
Sur l’exemple : V ar(X n ) = θ(1−θ)n (bien détailler pourquoi), et donc ∀θ ∈ [0, 1],
θ(1−θ)
Pθ (|X n − θ| ≥ ) ≤ n2 . Par ailleurs, par l’étude de la fonction θ 7→ θ(1 − θ), on
voit que ∀θ ∈ [0, 1], θ(1 − θ) ≤ 1/4. On a donc
 1
∀θ ∈ [0, 1], Pθ |X n − θ| ≥  ≤ .
4n2
ceci se réécrit en (détailler les étapes)
 1
∀θ ∈ [0, 1], Pθ X n −  < θ < X n +  ≥ 1 − ,
4n2

ce qui montre que l’intervalle I =]X n − ; X n + [ est un intervalle de confiance pour


1
θ ∈ Θ de niveau de confiance 1 − 4n 2 . Si l’on fixe α et que l’on veut un intervalle de

niveau de confiance 1 − α, il faut choisir  = 1/2 nα. En ce qui concerne n, on voit que
la probabilité d’erreur décroit en 1/n. Dans ce cas, on peut utiliser une inégalité plus
performante, qui donne une décroissance exponentielle en n.

Proposition 1.1.1 (Inégalité de Cramer-Chernoff.). Soient X1 , . . . , Xn des variables


aléatoires réelles indépendantes et de même loi P telle que pour tout λ > 0, ψ(λ) soit
fini en posant  
ψ(λ) = log E eλ(X1 −E(X1 )) .

Alors
∀ > 0, ∀λ > 0, P X n − E(X1 ) ≥  ≤ e−n(λ−ψ(λ)) .


Preuve : On a pour tout λ > 0

1X n −E(X1 )≥ = 1λ(X n −E(X1 ))≥λ


 
≤ exp λ(X n − E(X1 )) − λ

7
1 Introduction

donc en prenant l’espérance


   
P X n − E(X1 ) ≥  ≤ E exp λ(X n − E(X1 )) − λ
n
Y λ
= e−λ E[e n (Xi −E(X1 )) ]
i=1

car les Xi sont indépendants. Puis comme ils ont même loi, pour tout i = 1, . . . , n,
λ
log E[e n (Xi −E(X1 )) ] = ψ( nλ ), donc pour tout λ > 0
λ
P X n − E(X1 ) ≥  ≤ e−λ+nψ( n )


et l’on obtient la proposition en posant λ̃ = λ/n.

Lemme 1.1.1 (Lemme de Hoeffding.). Soit Y une variable aléatoire réelle de loi P telle
que, pour des réels a et b, a ≤ Y ≤ b, et telle que E(Y ) = 0. Alors
h i λ2 (b − a)2
∀λ ∈ R, log E eλY ≤ .
8
Preuve :
On a
b−a a+b b−a
− ≤Y − ≤
2 2 2
donc
a + b 2 (b − a)2
 
Y − ≤ .
2 4
Du coup, si Q est une probabilité sur [a, b], on a (dire pourquoi !)

(b − a)2
V arQ (Y ) ≤ .
4

Prenons maintenant pour tout réel λ, dQλ (y) = eλy−φ(λ) dP (y), en posant φ(λ) =
log EP eλy (dire pourquoi ça existe). Maintenant, on obtient facilement que φ est deux
fois dérivable (dire pourquoi et faire les calculs !) et que pour tout λ,

φ00 (λ) = V arQλ (Y ) .

Donc
(b − a)2
∀λ ∈ R, φ00 (λ) ≤ .
4
En intégrant entre 0 et λ,

λ(b − a)2
∀λ ∈ R, φ0 (λ) − φ0 (0) ≤ ,
4

8
1.1 Estimation et régions de confiance

mais φ0 (0) = EP (Y ), donc en intégrant de nouveau entre 0 et λ,

λ(b − a)2
∀λ ∈ R, φ(λ) − φ(0) ≤ ,
4
et enfin φ(0) = 1.

Conséquence pour notre exemple :

Proposition 1.1.2. Soient X1 , . . . , Xn des variables aléatoires réelles indépendantes et


de même loi Pθ = B(θ). Alors
2
∀ > 0, ∀θ ∈ [0, 1], Pθ |X n − θ| ≥  ≤ 2e−2n .


Preuve : On fixe  > 0 et θ ∈ [0, 1].


En appliquant le lemme de Hoeffding à chaque Xi (avec a = −θ et b = 1 − θ, donc
b − a = 1) puis l’inégalité de Cramer-Chernoff, on obtient pour tout λ > 0
λ2
Pθ X n − θ ≥  ≤ e−n(λ− 8 ) .


Donc
λ2
Pθ X n − θ ≥  ≤ e−n supλ>0 (λ− 8 ) .


λ2
Mais supλ>0 (λ − 8 ) = 22 , donc
2
Pθ X n − θ ≥  ≤ e−2n .


Par ailleurs, les θ − Xi , i = 1, . . . , n sont aussi des variables aléatoires indépendantes


centrées de même loi et telles que θ − 1 ≤ θ − Xi ≤ θ donc le même raisonnement donne
2
Pθ θ − X n ≥  ≤ e−2n


  
et l’on termine par Pθ |X n − θ| ≥  = Pθ X n − θ ≥  + Pθ θ − X n ≥  .

On peut aussi penser, pour contrôler Pθ |X n − θ| ≥  à des résultats asymptotiques.

Rappel TLC : On suppose que (Xk )k≥1 est une suite de variables aléatoires réelles
indépendantes et de même loi, admettant une espérance et une variance. Alors la suite
!!
√ X n − E(X1 )
n p
V ar(X1 ) n≥1

converge en loi vers U , variable aléatoire réelle de loi N (0, 1).


Se rappeler la définition de convergence en loi et les différents critères équivalents de
convergence en loi.

9
1 Introduction

Retour à l’exemple : lorsque (Xk )k≥1 est une suite de variables aléatoires réelles
indépendantes et de même loi Pθ = B(θ), on a par le TLC
! Z +∞
√ Xn − θ 1 u2
∀θ ∈ [0, 1], ∀ > 0, lim Pθ n p ≥ =2 √ e− 2 du
n→+∞ θ(1 − θ)  2π

par parité de la densité de la loi N (0, 1), soit (écrire les détails)
p p !
 θ(1 − θ)  θ(1 − θ)
∀θ ∈ [0, 1], ∀ > 0, lim Pθ Xn − √ ≤ θ ≤ Xn + √ = 2F () − 1
n→+∞ n n

en notant F la fonction
p de répartition de la loi N (0, 1).
1
Comme pour tout θ, θ(1 − θ) ≤ 2 ,
p p !
 θ(1 − θ)  θ(1 − θ)
∀θ ∈ [0, 1], ∀ > 0, Pθ Xn − √ ≤ θ ≤ Xn + √
n n
 
 
≤ Pθ X n − √ ≤ θ ≤ X n + √
2 n 2 n
et on a
 
 
∀θ ∈ [0, 1], ∀ > 0, lim inf Pθ Xn − √ ≤ θ ≤ Xn + √ ≥ 2F () − 1.
n→+∞ 2 n 2 n

On obtient ainsi que  


 
Xn − √ ; Xn + √
2 n 2 n
est un intervalle de confiance pour θ ∈ Θ asymptotiquement de niveau de confiance 1−α,
si l’on a choisi  de sorte que F () = 1 − α/2. On note u1−α/2 un tel .
Par exemple, pour α = 0.05, on obtient u1−α/2 ≈ 1.96, donc pour avoir une préxcision
de 0.01 (largeur de l’intervalle de confiance) il faut n ≈ 104 .

Définition 1.1.2. Soit α ∈ [0, 1]. Soit (Xk )k≥1 une suite de variables aléatoires réelles
indépendantes et de même loi Pθ . On dit que In est un intervalle de confiance pour
θ ∈ Θ asymptotiquement de niveau de confiance 1 − α si et seulement si
— In est un intervalle aléatoire, dont les bornes sont des variables aléatoires fonction
de l’observation X1 , . . . , Xn

∀θ ∈ Θ, lim inf Pθ (θ ∈ In ) ≥ 1 − α.
n→+∞

1.2 Tests
Imaginons que le sondage soit fait dans un contexte de contrôle de qualité, et que θ
soit la proportion de pièces défectueuses dans la production.

10
1.2 Tests

La question à laquelle le statisticien s’intéresse ici est de savoir si cette proportion est,
par exemple, bien inférieure à 5%. Autrement dit, étant donné une valeur θ0 fixée, il
s’agit de décider si θ ≤ θ0 au vu du résultat du sondage.
Une approche naı̈ve pourrait être de décider que oui, en effet, θ ≤ θ0 si l’observation
est telle que X n ≤ θ0 et non, ce n’est pas le cas, si l’observation est telle que X n > θ0 .
En réfléchissant un peu, on voit que ce n’est pas la bonne méthode, car alors, si en fait
θ = θ0 , et que l’on ”devrait” décider que oui, en effet, θ ≤ θ0 et bien la probabilité de se
tromper en décidant que ce n’est pas le cas, est proche de 1/2 pour n grand.
Par contre, il semble que décider que oui, en effet, θ ≤ θ0 si l’observation est telle
que X n ≤ t et non, ce n’est pas le cas, si l’observation est telle que X n > t soit une
bonne procédure. Toute la question est de choisir le seuil de décision t. Pour cela, on va
quantifier les erreurs de décision. Il y a deux erreurs de décision possible : décider que
θ ≤ θ0 alors qu’en fait θ > θ0 , et décider que θ > θ0 alors qu’en fait θ ≤ θ0 . Notons

α = sup Pθ X n > t .
θ≤θ0

α est appelée erreur de première espèce, elle quantifie la probabilité maximum de


l’erreur que l’on fait en décidant que θ > θ0 alors qu’en fait θ ≤ θ0 .
Si l’on note maintenant 
β = sup Pθ X n ≤ t ,
θ>θ0

β est appelée erreur de deuxième espèce, elle quantifie la probabilité maximum de


l’erreur que l’on fait en décidant que θ ≤ θ0 alors qu’en fait θ > θ0 .
On souhaite choisir le seuil t de sorte que ces deux erreurs soient petites.
Proposition 1.2.1. Soient X1 , . . . , Xn des variables aléatoires réelles indépendantes
 et
de même loi Pθ = B(θ). Alors, pour t fixé, la fonction θ 7→ Pθ X n > t est croissante,

et pour toute valeur θ0 , pour tout t, supθ≤θ0 Pθ X n > t + supθ>θ0 Pθ X n ≤ t = 1.
Preuve : Soient U1 , . . . , Un des variables aléatoires réelles indépendantes et de même
loi uniforme sur [0, 1]. Pour tout θ ∈ [0, 1], 1U1 ≤θ est de loi B(θ), et donc
n
!
 1X
Pθ X n > t = P 1Ui ≤θ > t .
n
i=1

Mais θ 7→ 1Ui ≤θ est une fonction croissante, donc θ 7→ P n1 ni=1 1Ui ≤θ > t est aussi
P 

une fonction croissante. Donc


P son maximum pour θ ∈ [0, θ0 ] est atteint en θ0 . De même,
Pθ X n ≤ t = 1 − P n1 ni=1 1Ui ≤θ > t est une fonction décroissante de θ, c’est une
fonction continue de θ (car polynomiale ; l’écrire
 !) donc son maximum
 pour θ ∈]θ0, 1]
est en θ0 . On a donc supθ≤θ0 Pθ X n > t + supθ>θ0 Pθ X n ≤ t = Pθ0 X n > t +

Pθ0 X n ≤ t = 1.

Comment choisir t ? Si l’on cherche à rendre α petit, il faut choisir t assez grand, mais
alors β = 1 − α ne sera pas petit.
Si l’on choisit t = θ0 , alors pour n grand α et β sont proches de 1/2, ce qui n’est pas

11
1 Introduction

satisfaisant dans un contexte de contrôle de qualité.


Ce que l’on peut faire, c’est choisir t de sorte que α soit petit, et que, lorsque θ1 > θ0 ,
pour θ1 pas trop proche de θ0 on ait supθ>θ1 Pθ X n ≤ t petit.

Introduisons maintenant la notion de test statistique.

Définition 1.2.1. Soient Θ0 et Θ1 deux sous-ensembles disjoints de Θ.


Un test statistique de l’hypothèse H0 : “θ ∈ Θ000 contre l’alternative H1 : “θ ∈ Θ001
est une variable aléatoire φ fonction mesurable de l’observation et à valeur dans {0, 1}.
On appelle région de rejet l’ensemble des valeurs de l’observation pour lesquelles φ = 1.
La taille du test est supθ∈Θ0 Eθ φ.
On appelle puissance du test la fonction θ 7→ Eθ φ.
On dit que le test est de niveau α si sa taille est majorée par α, ou autrement dit si la
fonction puissance, pour θ ∈ Θ0 , est majorée par α.

Un test est une procédure de décision : si φ = 1, on décide H1 , on dit aussi que l’on
rejette H0 . Si φ = 0, on décide H0 , on dit aussi que l’on accepte H0 .

Reprenons l’exemple.
Allure de la fonction puissance, qui croit de 0 à 1 sur [0, 1].

De même que pour les intervalles de confiance, on peut parler de test asymptotique-
ment de niveau α si (φn ) est une suite de tests de H0 : “θ ∈ Θ000 contre H1 : “θ ∈ Θ001
tel que
∀θ ∈ Θ0 , lim sup Eθ φn ≤ α.
n→+∞

En utilisant le théorème de limite centrale, on voit que si l’on choisit comme seuil, dans
l’exemple, p
u1−α θ0 (1 − θ0 )
tn = θ 0 + √
n
alors le test φn = 1X n ≥tn est asymptotiquement de niveau α pour tester H0 : “θ ≤ θ000
contre H1 : “θ > θ000 . √
u1−α θ0 (1−θ0 )
Aussi, en prenant θ1 = θ0 + 2 √
n
, on obtient

∀θ ≥ θ1 , lim sup Eθ φn ≥ 1 − α,
n→+∞

soit 
∀θ ≥ θ1 , lim sup Pθ X n ≤ tn ≤ α.
n→+∞

12
2 Construction d’estimateurs

2.1 Généralités
On considère le modèle statistique avec l’observation X, à valeurs dans X muni d’une
tribu A, et une famille de probabilités (Pθ )θ∈Θ sur (X , A).
Si Θ ⊂ Rk pour un entier k, on dit que le modèle est paramétrique.
Si Θ est une partie d’un espace de dimension infinie (par exemple : l’ensemble des
probabilités ayant une densité sur R), on dit que le modèle est non paramétrique.
Soit g une fonction de Θ dans un ensemble Y muni d’une tribu B. Un estimateur de
g(θ) est une variable aléatoire T (X), où T est une fonction mesurable de X dans Y.
On appelle biais la quantité g(θ) − Eθ [T (X)]. (Rappel : on note Eθ l’espérance prise
sour la probabilité Pθ , c’est à dire pour X de loi Pθ ). Noter que le biais est une fonction
de θ.
On dit que T (X) est un estimateur sans biais de g(θ) si et seulement si

∀θ ∈ Θ, Eθ [T (X)] = g(θ).

Pour évaluer la qualité d’un estimateur, on introduit une fonction de perte :

L : Y × Y → R+

vérifiant : ∀y ∈ Y, L(y, y) = 0, ∀(y, y 0 ) ∈ Y 2 , L(y, y 0 ) = L(y 0 , y) (L est symétrique), de


sorte que L(g(θ), T (X)) évalue un écart entre l’estimateur et la valeur cible.

On appelle risque de l’estimateur T (X) la fonction

θ 7→ Eθ [L(g(θ), T (X))] .

On cherche alors des estimateurs qui rendent ce risque petit. (C’est une fonction, donc
il faut choisir le sens de “petit”, on y reviendra !).
Exemples :
— Risque quadratique : lorsque Y = R, et L(y, y 0 ) = (y − y 0 )2 , le risque est
Eθ [(g(θ) − T (X))2 ].
On a la décomposition “biais-variance” : risque quadratique=carré du biais +
variance

Eθ [(g(θ) − T (X))2 ] = (g(θ) − Eθ [T (X)])2 + V arθ [T (X)].

Ecrire la preuve.

13
2 Construction d’estimateurs

— Risque de test/ de classification : lorque L(y, y 0 ) = 1y6=y0 , le risque est

Eθ [1T (X)6=g(θ) ] = Pθ (T (X) 6= g(θ)) .

Lorsque l’on considère une suite d’expériences statistiques, de sorte que pour tout
entier n, on dispose d’une observation (X1 , . . . , Xn ) et d’une famille de probabilités
(Pθ,n )θ∈Θ sur (X n , An ) (par exemple, à partir d’une suite de variables i.i.d., de sorte que
Pθ,n = Pθ⊗n ), si (Tn (X1 , . . . , Xn ))n≥1 est une suite d’estimateurs de g(θ), on dira que :
— Tn est un estimateur fortement consistant de g(θ) si et seulement si

∀θ ∈ Θ, lim Tn (X1 , . . . , Xn ) = g(θ) Pθ − p.s..


n→+∞

— Tn est un estimateur consistant de g(θ) si et seulement si

∀θ ∈ Θ, Tn (X1 , . . . , Xn ) →n→+∞ g(θ) en Pθ − probabilité,

autrement dit, si Y ⊂ Rm et si k·k est une norme (par exemple la norme euclidienne)
sur Rm ,

∀θ ∈ Θ, ∀ > 0, lim Pθ,n (kTn (X1 , . . . , Xn ) − g(θ)k ≥ ) = 0.


n→+∞

Remarque : par abus de notation, j’utiliserai Tn pour Tn (X1 , . . . , Xn ) (comme fait


ci-dessus).

2.2 Méthode des moments. Estimation empirique


On considère (Xn )n≥1 une suite de variable aléatoires indépendantes identiquement
distribuées sur X .
Soit φ : X → R une fonction telle que pour tout θ ∈ Θ, φ ∈ L1 (Pθ ).
Soit g : Θ → R donnée par

∀θ ∈ Θ, g(θ) = Eθ [φ(X)].

L’estimateur de g(θ) obtenu par la méthode des moments est


n
1X
Tn = φ(Xi ).
n
i=1

Alors, Tn est un estimateur sans biais et consistant de g(θ).

Exemple : le sondage vu au premier chapitre.

Plus généralement, on parle de méthode des moments lorsque l’on construit un esti-
mateur avec des moyennes empiriques.

14
2.3 Maximum de vraisemblance

Exemple du modèle gaussien : Soit (Xn )n≥1 une suite de variable aléatoires
indépendantes identiquement distribuées sur R, de loi N (m, σ 2 ).
Le modèle est alors, pour la loi de X1 , (Pθ )θ∈Θ avec θ = (m, σ 2 ) et Θ = R × R+,∗ . Un
estimateur de θ obtenu par la méthode des moments est θbn = (m c2 n ) avec
b n, σ
n n n
!2
1X c2 n = 1 X
2 1 X
m
bn = Xi , σ Xi − Xi .
n n n
i=1 i=1 i=1

Il est consistant (dire pourquoi). Est-il sans biais ? (calculer le biais).


La méthode des moments est une méthode qui utilise donc des moments calculés avec
la mesure empirique Pn , qui est une mesure de probabilité aléatoire qui met en chaque
Xi la masse 1/n :
n
1X
Pn = δXi .
n
i=1
Dans l’exemple précédent,
Z Z Z 2
2 2
b n = xdPn (x), σ n = x dPn (x) −
m c xdPn (x) .

Tous les moments empiriques sont des estimateurs consistants de l’espérance de la


fonction, la méthode fonctionne car Pn est un bon estimateur de Pθ . En quel sens ? Au
moins en ce qui concerne la fonction de répartition, c’est ce que l’on verra au prochain
chapitre (voir Théorème de Glivenko-Cantelli).

2.3 Maximum de vraisemblance


On dit que le modèle statistique est un modèle dominé si il existe une mesure posi-
tive µ su (X , A) telle que : pour tout θ ∈ Θ, Pθ est absolument continue par rapport à
µ.
Se rappeler la définition de “absolument continue”.

En ce cas, pour tout θ ∈ Θ, il existe une fonction mesurable fθ de X dans R telle que
Pθ = fθ µ, c’est la densité de Pθ par rapport à µ.
On appelle alors vraisemblance la variable aléatoire fonction de θ :

L(θ) = fθ (X),

et log-vraisemblance la variable aléatoire fonction de θ :

`(θ) = log fθ (X).

Pour estimer θ, on peut choisir la valeur de θ qui rend la densité maximale en la valeur de
l’observation, c’est ce que l’on appelle l’estimateur du maximum de vraisemblance :

θb = argmaxθ∈Θ L(θ) = argmaxθ∈Θ `(θ).

15
2 Construction d’estimateurs

Se posent alors les questions d’existence et d’unicité.

Lorsque le modèle statistique est celui de n variables aléatoires indépendantes X1 , . . . , Xn


de loi Pθ , θ ∈ Θ, si le modèle est dominé (par la mesure µ), alors le modèle (Pθ⊗n )θ∈Θ
est dominé par µ⊗n . Si pour tout θ ∈ Θ, Pθ = fθ µ, alors la vraisemblance est
n
Y
Ln (θ) = fθ (Xi ),
i=1

et la log-vraisemblance est :
n
X
`n (θ) = log fθ (Xi ).
i=1
Exemples
— Modèle de Bernoulli. Soit (X1 , . . . , Xn ) i.i.d. de loi de Bernoulli B(θ), θ ∈ [0, 1].
La loi de Bernoulli est absolument continue par rapport à µ = δ0 + δ1 . Une façon
X 1−X . On a alors en notant
Pnd’écrire la vraisemblance est L(θ) = θ (1 − θ)
pratique
Sn = i=1 Xi :
`n (θ) = Sn log θ + (n − Sn ) log(1 − θ).
Le maximum de vraisemblance est θbn = Sn /n. (Le démontrer).
— Modèle Gaussien. Soit (X1 , . . . , Xn ) i.i.d. de loi N (m, σ 2 ), m ∈ R, σ 2 ∈ R+,∗ .
La loi gaussienne N (m, σ 2 ) est absolument continue par rapport à Lebesgue, de
2 2
densité σ√12π e−(x−m) /2σ , donc
n
X (Xi − m)2 n
`n (m, σ 2 ) = − − log(2πσ 2 ).
2σ 2 2
i=1

Le maximum de vraisemblance est


n n n
!2
1X c2 n = 1
X 1X
m
bn = Xi , σ Xi2 − Xi .
n n n
i=1 i=1 i=1

(Le démontrer).
Il est clair que si l’on change de mesure dominante, la vraisemblance change (le voir
sur les deux exemples). Que se passe-t-il alors pour l’estimateur du maximum de vrai-
semblance ? On peut voir sur les deux exemples que, en changeant de mesure dominante,
on ne change pas l’estimateur du maximum de vraisemblance (Le faire ! Et voir ce qui
change et ce qui ne change pas !). En fait, c’est un résultat général, qui justifie la notion
(intrinsèque) d’estimateur du maximum de vraisemblance.
Proposition 2.3.1. Si un modèle (X , A, (Pθ )θ∈Θ ) est dominé, alors il existe une pro-
babilité Q qui domine le modèle et qui vérifie

∀A ∈ A, Q(A) = 0 ⇐⇒ ∀θ ∈ Θ, Pθ (A) = 0.

On dit alors que Q est une dominante privilégiée du modèle.

16
2.3 Maximum de vraisemblance

Remarque : il n’y a pas unicité de la dominante privilégiée, toute autre mesure de


probabilité équivalente à Q est une dominante privilégiée.

Preuve : Soit µ une mesure dominante. On commence par construire une probabilité
P équivalente à µ et qui domine le modèle. La mesure µ est sigma-finie, donc il existe
une collection au plus dénombrable d’ensembles mesurables An , n ∈ N , qui forme une
P de X et tels que pour tout n, µ(An ) < +∞. On choisit (λn )n∈N des réels tels
partition
que n∈N λn = 1 et tels que

∀n ∈ N, µ(An ) > 0 ⇐⇒ λn > 0.

On pose P telle que


dP X λn
(x) = 1A (x).
dµ µ(An ) n
n∈N

On a pour tout ensemble mesurable A,


X λn µ(A ∩ An )
P (A) =
µ(An )
n∈N

ce qui montre que P est une probabilité absolument continue par rapport à µ, et que si
P (A) = 0, alors pour tout n ∈ N , µ(A ∩ An ) = 0, donc µ(A) = 0 et µ est absolument
continue par rapport à P . Du coup aussi, pour tout θ ∈ Θ, Pθ est absolument continue
par rapport à P .
Notons maintenant Fθ = dPθ /dP . L’ensemble Aθ = {Fθ > 0} est mesurable. Soit C la
collection des réunions au plus dénombrables d’ensembles Aθ , et posons

M = sup P (C).
C∈C

On a M ≤ 1. Soit Cn une suite d’éléments de C tels que P (Cn ) ≥ M − 1/n. Soit


C ? = ∪n≥1 Cn . C ? ∈ C, et P (C ? ) ≥ M , donc P (C ? ) = M . Comme C ? ∈ C, il existe
une collection au plus dénombrable (θj )j∈J d’éléments P de Θ tels que C ? = ∪j∈J Aθj . Soit
ensuite (λj )j∈J des réels strictement positifs tels que j∈J λj = 1, et soit Q la mesure
telle que
dQ X
(x) = λj Fθj (x).
dP
j∈J
P
On a pour tout ensemble mesurable A, Q(A) = j∈J λj Pθj (A), donc Q est une proba-
bilité telle que si A est tel que, pour tout θ ∈ Θ, Pθ (A) = 0, alors Q(A) = 0. Il s’agit
maintenant de montrer la réciproque.
Démontrons tout d’abord que

∀θ ∈ Θ, P (Aθ ) = P (Aθ ∩ C ? ).

En effet, si ce n’était pas le cas, pour un θ de Θ, on aurait P (Aθ ∩ (C ? )c ) > 0, donc


P (Aθ ∪ C ? ) > M : contradiction.

17
2 Construction d’estimateurs

Soit maintenant A tel que Q(A) = 0. Pour tout θ ∈ Θ, on a P (Aθ ∩ (C ? )c ) = 0, et donc


Z Z
? c
Pθ (A ∩ (C ) ) = Fθ dP = Fθ dP = 0.
A∩(C ? )c A∩(C ? )c ∩Aθ

Donc Z Z
Pθ (A) = Pθ (A ∩ C ? ) = Fθ dP = Fθ dP.
A∩C ? A∩Aθ ∩C ?
On en déduit que
Z XZ XZ Fθ
Pθ (A) = Fθ dP ≤ Fθ dP = dPθj .
A∩Aθ ∩(∪j∈J Aθj ) A∩Aθ ∩Aθj A∩Aθ ∩Aθj Fθj
j∈J j∈J


R
Mais comme Q(A) = 0, on a pour tout j ∈ J, Pθj (A) = 0, donc A∩Aθ ∩Aθj Fθj dPθj = 0,
et donc Pθ (A) = 0.

Corollaire 2.3.1. L’estimateur du maximum de vraisemblance ne dépend pas du choix


de mesure dominante.
Preuve : Soient µ une mesure dominante. Notons L(θ) la vraisemblance obtenue avec
µ. Soit Q une dominante privilégiée. Alors Q est absolument continue par rapport à µ,
et l’on a, en notant LQ (θ) = dP
dQ (X) :
θ

dQ
L(θ) = LQ (θ) (X).

Par ailleurs, dQ
dµ (X) > 0 Pθ -p.s. pour tout θ. Donc θ maximise L(θ) si et seulement si θ
maximise LQ (θ), qui est une quantité qui ne dépend pas de µ.

On va maintenant justifier l’usage du maximum de vraisemblance dans une situation


très simple et en considérant le risque de test.
On se place dans la situation où Θ est réduit à deux points, que l’on peut noter Θ =
{0, 1}. Le modèle est alors réduit à deux probabilités P0 et P1 , et c’est donc un modèle
dominé. Une dominante privilégiée est µ = P0 +P 2 . Alors :
1

Proposition 2.3.2. L’estimateur du maximum de vraisemblance minimise la moyenne


du risque de test en 0 et en 1.
Preuve : On considère donc la fonction de perte 1t6=θ , et pour tout estimateur T le
risque R(T, θ) = Pθ (T 6= θ). Soit alors S(T ) la moyenne 12 (R(T, 0) + R(T, 1)). On a,
comme T (X) ∈ {0, 1},
Z Z 
1
S(T ) = T (x)f0 (x)dµ(x) + (1 − T (x))f1 (x)dµ(x)
2
Z
1 1
= + T (x)(f0 (x) − f1 (x))dµ(x).
2 2

18
2.3 Maximum de vraisemblance

Soit θb l’estimateur du maximum de vraisemblance. On a alors


Z
1
S(T ) − S(θ) =
b (T (x) − θ(x))(f
b 0 (x) − f1 (x))dµ(x).
2

Mais si f0 (x)−f1 (x) < 0, alors θ(x)


b = 1, et T (x)− θ(x)
b ≤ 0. Et si f0 (x)−f1 (x) > 0, alors
θ(x)
b = 0, et T (x) − θ(x)
b ≥ 0. Donc dans tous les cas, (T (x) − θ(x))(f
b 0 (x) − f1 (x)) ≥ 0,
et donc S(T ) − S(θ) ≥ 0.
b

On va calculer la moyenne du risque pour l’estimateur du maximum de vraisemblance,


et pour cela introduire la distance en variation.
Définition 2.3.1. Si P et Q sont deux probabilités sur (X , A), la distance en varia-
tion totale entre P et Q est définie par

d (P ; Q) = sup |P (A) − Q(A)|.


A∈A

Ceci définit une distance sur l’ensemble des probabilités sur (X , A)


En effet, on vérifie la symétrie, le fait que si d (P ; Q) = 0, alors P = Q, et l’inégalité
triangulaire.

On a alors
Proposition 2.3.3. Si µ domine P et Q, alors la distance en variation totale entre P
et Q vérifie
1 dP dQ
d (P ; Q) = −
2 dµ dµ L1 (µ)
= P (A) − Q(A)
dQ
où A = {x : dP
dµ (x) ≥ dµ (x)}.
La distance en variation totale entre P et Q est alors notée kP − QkV T .
dP dQ
Remarque : au passage, on a montré que dµ − dµ L1 (µ) est une quantité qui ne
dépend pas de la mesure dominante choisie.

Preuve : Tout d’abord, en posant


dP dQ
A = {x : (x) ≥ (x)},
dµ dµ
on a Z   Z  
dP dQ dP dQ dP dQ
− = − dµ − − dµ.
dµ dµ L1 (µ) A dµ dµ Ac dµ dµ
Par ailleurs, Z   Z  
dP dQ dP dQ
− dµ + − dµ = 0,
A dµ dµ Ac dµ dµ

19
2 Construction d’estimateurs

donc Z  
dP dQ dP dQ
− =2 − dµ.
dµ dµ L1 (µ) A dµ dµ
Puis on a par définition P (A) − Q(A) ≤ d (P ; Q). Maintenant, si B ∈ A,

P (B) − Q(B) = P (B ∩ A) + P (B ∩ Ac ) − Q(B ∩ A) − Q(B ∩ Ac )


Z   Z  
dP dQ dP dQ
= − dµ + − dµ
A∩B dµ dµ Ac ∩B dµ dµ
Z  
dP dQ
≤ − dµ
A∩B dµ dµ
Z  
dP dQ
≤ − dµ = P (A) − Q(A),
A dµ dµ

et de la même manière
Z  
dP dQ
P (B) − Q(B) ≥ − dµ = −[P (A) − Q(A)],
Ac dµ dµ

donc pour tout B ∈ A,


|P (B) − Q(B)| ≤ P (A) − Q(A),
et en prenant le supremum en B ∈ A on obtient d(P, Q) = P (A) − Q(A).

On obtient maintenant, dans le cadre précédent :

Proposition 2.3.4. Si Θ = {0, 1}, la valeur minimale de la moyenne du risque de test


en 0 et en 1, atteinte par le maximum de vraisemblance, vaut
1
(1 − kP0 − P1 kV T ) .
2

20
3 Fonction de répartition et théorème de
Glivenko-Cantelli
Soit X une variable aléatoire réelle.

Définition 3.0.1. La fonction de répartition FX de X est la fonction de R dans


[0, 1] donnée par
∀t ∈ R, FX (t) = P (X ≤ t) .

On a les propriétés suivantes. (Rappeler les preuves).


— FX est une fonction croissante, continue à droite, telle que

lim FX (t) = 0
t→−∞

et
lim FX (t) = 1;
t→+∞

— Si on note FX (t−) la limite à gauche de FX au point t (dire pourquoi elle existe),


FX (t−) = P (X < t) et FX (t) − FX (t−) = P (X = t).
— La fonction de répartition caractérise la loi. Autrement dit, si deux variables
aléatoires ont même fonction de répartition, alors elles ont même loi.
Par ailleurs, la première propriété est caractéristique des fonctions de répartition.

Proposition 3.0.1. Si F est une fonction de R dans [0, 1] qui est croissante, continue
à droite, telle que limt→−∞ F (t) = 0 et limt→+∞ F (t) = 1, alors il existe une variable
aléatoire réelle X telle que F est la fonction de répartition de X.

(Rappeler la preuve)

Définition 3.0.2. Toute fonction de répartition F admet une inverse généralisée (ou
pseudo-inverse) définie par :

∀u ∈]0, 1[, F − (u) = inf {x ∈ R : F (x) ≥ u} .

On dit aussi que F − est la fonction quantile et que F − (u) est le quantile de u.

On a alors :

Proposition 3.0.2. Pour tout x ∈ R et tout u ∈]0, 1[,

u ≤ F (x) ⇐⇒ F − (u) ≤ x.

21
3 Fonction de répartition et théorème de Glivenko-Cantelli

F − est une fonction croissante qui vérifie

∀u ∈]0, 1[, F (F − (u)) ≥ u,

et
∀x ∈ R, si F (x) ∈]0, 1[, F − (F (x)) ≤ x.
Preuve :Commencer par regarder des exemples de cas F discontinue et F avec un
plateau.
Soit u ∈]0, 1[, on note I = {x ∈ R : F (x) ≥ u}. Comme u < 1, I est non vide. Sinon on
aurait pour tout réel x, P (X ≤ x) < u < 1).
Par ailleurs comme F est croissante, si x ∈ I et si y ≥ x, alors y ∈ I.
Donc I est un intervalle semi-infini à droite, notons x0 sa borne inférieure. I = (x0 , +∞[.
Montrons alors que x0 ∈ I. En effet, pour tout t > 0, x0 + t ∈ I, donc F (x0 + t) ≥ u
et comme F est continue à droite, F (x0 ) ≥ u. Donc I = [x0 , +∞[ et donc F − (u) = x0 .
L’équivalence de la proposition s’en déduit.
La croissance de F − en découle. Puis en prenant x = F − (u) on obtient la première
inégalité, et en prenant u = F (x) on obtient la deuxième inégalité.

La fonction quantile permet de simuler une variable aléatoire de fonction de répartition


connue à partir d’une variable aléatoire de loi uniforme sur [0, 1].
Théorème 3.0.1. Si U est une variable aléatoire de loi uniforme sur [0, 1], alors F − (U )
est une variable aléatoire de fonction de répartition F .
Preuve : En effet, pour tout réel x, en utilisant la proposition précédente on a

P F − (U ) ≤ x = P (U ≤ F (x)) = F (x).


Soit maintenant (Xn )n≥1 une suite de variables aléatoires indépendantes de même
loi que X. On note Pn la mesure empirique et Fn la fonction de répartition empirique
donnée par :
n Z
1X
∀t ∈ R, Fn (t) = 1Xi ≤t = 1x≤t dPn (x).
n
i=1
On a alors :
Théorème 3.0.2 (Théorème de Glivenko-Cantelli). La fonction de répartition empi-
rique converge P-presque sûrement uniformément vers la fonction de répartition, i.e.

P − p.s., lim sup |Fn (t) − F (t)| = 0


n→+∞ t∈R

Preuve : Soit N un entier strictement  positif.



− j
Notons pour 1 ≤ j ≤ N − 1, xj,N = F N , et x0,N = −∞ et xN,N = +∞.
On convient Fn (x0,N ) = 0, F (x0,N ) = 0, Fn (xN,N ) = 1 et F (xN,N ) = 1. On a alors pour
tout j tel que 0 ≤ j ≤ N − 1,

∀t ∈ [xj,N ; xj+1,N [, Fn (xj,N ) ≤ Fn (t) ≤ Fn (xj+1,N −) et F (xj,N ) ≤ F (t) ≤ F (xj+1,N −).

22
Donc

∀t ∈ [xj,N ; xj+1,N [, Fn (xj,N ) − F (xj+1,N −) ≤ Fn (t) − F (t) ≤ Fn (xj+1,N −) − F (xj,N ).


 
Comme xj,N = F − Nj , on a F (xj,N −) ≤ Nj ≤ F (xj,N ) pour tout j (vérifier que aussi
pour j = 0 et j = N ), de sorte que
1 1
∀t ∈ [xj,N ; xj+1,N [, Fn (xj,N )−F (xj,N )− ≤ Fn (t)−F (t) ≤ Fn (xj+1,N −)−F (xj+1,N −)+ .
N N
Donc
1
sup |Fn (t) − F (t)| ≤ + max {|Fn (xj,N ) − F (xj,N )|; |Fn (xj,N −) − F (xj,N −)|} .
t∈R N 1≤j≤N −1

Par la loi forte des grands nombres, pour tout j, Fn (xj,N ) − F (xj,N ) tend vers 0 P -p.s.
et Fn (xj,N −) − F (xj,N −) tend vers 0 P -p.s. Si pour tout N on note AN l’événement
 
1
AN = lim sup sup |Fn (t) − F (t)| ≤
n→+∞ t∈R N

on a donc P (AN ) = 1 (préciser comment cela découle des LFGN citées précédemment).
Alors, P (∩N ≥1 AN ) = 1, et
\  
AN ⊂ lim sup |Fn (t) − F (t)| = 0 .
n→+∞ t∈R
N ≥1

On va maintenant s’intéresser au cas où la fonction de répartition F est continue.


Proposition 3.0.3. Si F est continue, pour tout u ∈]0, 1[, F (F − (u)) = u.
Si X est de fonction de répartition F continue, alors F (X) est de loi uniforme sur [0, 1].
Preuve : Reste à voir qu’alors F (F − (u)) ≤ u. Pour tout δ > 0, on a F − (u) − δ <
F − (u), donc, par contraposition de l’équivalence de la proposition 3.0.6, F (F − (u)−δ) <
u. Comme F est continue, on peut passer à la limite quand δ tend vers 0 et obtenir
F (F − (u)) ≤ u.
Si maintenant X est de fonction de répartition F continue, X a même loi que F − (U ) où
U est de loi uniforme sur [0, 1], donc F (X) a même loi que F (F − (U )) = U .

On a aussi :
Théorème 3.0.3. Si F est une fonction de répartition continue, si X1 , . . . , Xn sont n
variables aléatoires indépendantes de fonction de répartition F et si Fn est la fonction
de répartition empirique, alors la loi de

Dn = sup |Fn (t) − F (t)|


t∈R

ne dépend pas de F .

23
3 Fonction de répartition et théorème de Glivenko-Cantelli

Preuve : Soit U1 , . . . , Un des variables aléatoires indépendantes de loi uniforme sur


[0, 1]. Alors (X1 , . . . , Xn ) a même loi que (F − (U1 ), . . . , F − (Un )), et donc Dn a même loi
que
Xn
0
Dn = sup 1F − (Ui )≤t − F (t) .
t∈R i=1

Mais on a alors, comme l’événement (F − (Ui ) ≤ t) est égal à l’événement (F (t) ≥ Ui )


n
X
Dn0 = sup 1Ui ≤F (t) − F (t)
t∈R i=1

et comme F est continue croissante sur R, avec limite 0 en −∞ et limite 1 en +∞,


F (R) = (0, 1) (l’intervalle est ouvert ou semi-ouvert ou fermé), donc en posant u = F (t),
n
X
Dn0 = sup 1Ui ≤u − u .
u∈]0,1[ i=1

Application : construction de bandes de confiance pour F : La loi de Dn0 peut


être tabulée, donc si dn,α est tel que

P Dn0 ≥ dn,1−α ≤ α,


alors si Fc désigne l’ensemble des fonctions de répartition continues, on a, en utilisant le


théorème précédent,

∀F ∈ Fc , PF (kFn − F k∞ ≤ dn,1−α ) ≥ 1 − α

et l’ensemble des fonctions comprises, pour tout t, entre Fn (t) − dn,1−α et Fn (t) + dn,1−α
est une ”bande de confiance” pour F de niveau de confiance 1 − α.

24
4 Construction de tests
Se rappeler la notion de test, avec la définition 1.2.1.
La méthode indiquée par l’exemple du sondage est : choisir une statistique de test,
c’est-à-dire une variable aléatoire, dont la loi est différente selon que l’hypothèse nulle
H0 est vraie ou selon que c’est l’hypothèse alternative H1 qui est vraie, choisir une région
de rejet qui est conforme à ce changement qualitatif, et la calibrer en fonction du niveau
souhaité (revoir cela avec l’exemple du sondage).

4.1 Test du rapport de vraisemblance


4.1.1 Généralités
Soit un modèle statistique dominé (X , A, (Pθ )θ∈Θ ).
Soient Θ0 et Θ1 deux sous-ensembles disjoints de Θ. On veut tester H0 : ”θ ∈ Θ0 ” contre
H1 : ”θ ∈ Θ1 ”.
Le test du rapport de vraisemblance consiste à prendre la décision en fonction de la
valeur de la vraisemblance sur chacun des ensembles définissant l’hypothèse nulle (Θ0 )
et l’hypothèse alternative (Θ1 ). Soit donc µ une mesure dominante, et pour tout θ ∈ Θ,
fθ la densité de Pθ par rapport à µ. On note L(θ) la vraisemblance. Soit

supθ∈Θ1 L(θ)
T (X) = .
supθ∈Θ0 L(θ)

Le test du rapport de vraisemblance est de la forme

φ(X) = 1T >s

pour un seuil s fixé. Si on se fixe un niveau α ∈]0, 1[, alors on définit


 
Cα = inf C > 0 : sup Pθ (T > C) ≤ α .
θ∈Θ0

On a :

Proposition 4.1.1. Pour tout α ∈]0, 1[, si l’ensemble C > 0 : supθ∈Θ0 Pθ (T > C) ≤ α
est non vide, alors le test du rapport de vraisemblance 1T >Cα est de niveau α.

Preuve : Soit θ ∈ Θ0 . Pour tout C > Cα , on a Pθ (T > C) ≤ α. Comme la fonc-


tion C 7→ Pθ (T > C) est continue à droite, on a en faisant tendre C vers Cα à droite,
Pθ (T > Cα ) ≤ α. Comme ceci est vrai pour tout θ ∈ Θ0 , on en déduit que le test du

25
4 Construction de tests

rapport de vraisemblance 1T >Cα est de niveau α.

Exemple : modèle binomial et test de H0 : ”θ ≤ θ0 ” contre H1 : ”θ > θ0 ”. Montrer


que le test du rapport de vraisemblance prend la forme 1Sn ≥sn,α pour un sn,α bien choisi.

4.1.2 Optimalité dans le cas de deux hypothèses simples


On considère le cas où Θ0 = {θ0 } et Θ1 = {θ1 }, θ0 6= θ1 .
On note f0 (resp. f1 ) la densité de Pθ0 (resp. Pθ1 ) par rapport à la mesure dominante.
Le test du rapport de vraisemblance est de la forme

φ(X) = 1f1 (X)>sf0 (X)

et le seuil s est choisi en fonction du niveau souhaité α du test.


La taille du test est Pθ0 (f1 (X) > sf0 (X)), sa puissance est Pθ1 (f1 (X) > sf0 (X)). On a
le résultat d’optimalité suivant.

Proposition 4.1.2. Si le test du rapport de vraisemblance est de taille α alors il est


plus puissant que n’importe quel test de niveau α de H0 : ”θ = θ0 ” contre H1 : ”θ = θ1 ”.

Preuve : Soient s et α tels que Pθ0 (f1 (X) > sf0 (X)) = α. Posons φ(X) = 1f1 (X)>sf0 (X) .
Soit ψ un test de niveau α de ”θ = θ0 ” contre H1 : ”θ = θ1 ”. On a
Z
Eθ1 [φ − ψ] − sEθ0 [φ − ψ] = (f1 (x) − sf0 (x)) (φ(x) − ψ(x)) dµ(x)
≥ 0

car la fonction (f1 (x) − sf0 (x)) (φ(x) − ψ(x)) est toujours positive ou nulle (le voir en
distinguant les différents cas de signe possibles pour f1 (x) − sf0 (x)).
Donc

Eθ1 [φ] − Eθ1 [ψ] ≥ s (Eθ0 [φ] − Eθ0 [ψ])


≥ s (α − Eθ0 [ψ])
≥ 0

car φ est de taille α (donc Eθ0 [φ] = α) et ψ est de niveau α (donc Eθ0 [ψ] ≤ α).
Reprendre le cas du test de rapport de vraisemblance pour le modèle binomial.

4.2 Test de Kolmogorov-Smirnov


On considère le modèle statistique (Rn , B(Rn ), (PF⊗n )F ∈F ), où F est l’ensemble des
fonctions de répartition sur R. Si F0 est une fonction de répartition fixée, on veut tester
H0 : ”F = F0 ” contre H1 : ”F 6= F0 ”. L’idée est de se baser sur la fontion de répartition
empirique Fn . On a alors :

26
4.2 Test de Kolmogorov-Smirnov

Théorème 4.2.1. Si F0 est continue, le test

φ = 1kFn −F0 k∞ ≥dn,1−α

est de niveau α.

On a déjà vu que si F0 est continue, la loi de kFn −F0 k∞ sous PF⊗n


0
ne dépend pas de F0 .
La preuve du théorème est alors immédiate. On appelle ce test test de Kolmogorov-
Smirnov et Dn = kFn − F0 k∞ statistique de Kolmogorov.
Le calcul de Dn est simple. On a (le démontrer) :
 
i−1 i−1
Dn = max − F0 (X(i−1) ) ; − F0 (X(i) ) ∨ F0 (X(1) ) ∨ 1 − F0 (X(n) )
2≤i≤n n n

en notant (X(i) )1≤i≤n la statistique de rang de (Xi )1≤i≤n c’est-à- dire


X(1) ≤ X(2) ≤ · · · ≤ X(n) .
La loi de Dn sous PF⊗n0
est continue. (Le démontrer en l’écrivant avec la loi uniforme).

Si F 6= F0 , on a pour tout t, Fn (t) − F0 (t) = Fn (t) − F (t) + F (t) − F0 (t), donc

kFn − F0 k∞ ≥ kF − F0 k∞ − kFn − F k∞

et donc, si F est continue et kF − F0 k∞ ≥ 2dn,1−α

1 − EF [φ] ≤ PF (kFn − F k∞ ≥ kF − F0 k∞ − dn,1−α ) ≤ α,

c’est-à-dire que si F est continue et kF − F0 k∞ ≥ 2dn,1−α , la puissance en F est ≥ 1 − α.



On peut montrer que dn,1−α est d’ordre 1/ n quand n tend vers l’infini (en montrant

que sous F0 continue, nkFn − F0 k∞ converge en loi).

On peut chercher à comparer la loi inconnue à F0 en précisant sa ”position” par


rapport à F0 . Par exemple, si l’on veut tester H0 : ”∀t, F (t) ≤ F0 (t)” contre H1 :
”∃t, F (t) > F0 (t)” , on utilisera la statistique de Smirnov

Dn+ = sup (Fn (t) − F0 (t)) .


t∈R

On peut montrer que si F0 est continue, la loi de Dn+ lorsque F = F0 ne dépend pas de
F0 , et peut donc être tabulée. On peut donc choisir d+
n,1−α tel que le test 1Dn
+
≥d+ soit
n,1−α
de niveau α. (Démontrer tout cela, et comment calculer Dn+ avec la statistique de rang).

Noter que lorsque pour tout t, F (t) ≤ F0 (t), l’observation a tendance à être plus
grande sous PF que sous PF0 .

27
4 Construction de tests

4.3 Test du chi-deux d’ajustement


On vient de voir un test d’ajustement pour décider si une loi est une loi donnée conti-
nue. Il s’agit d’un test non paramétrique.
Que faire pour tester la même chose pour des lois discrètes ? On va y répondre dans le
cas paramétrique.
On se place dans le cas où X = {1, . . . , k}. On note P l’ensemble des probabilités
p = (p(1), . . . , p(k)) sur X , et Pp la loi sur X induite par p. Le modèle statistique est
alors (X n , A, (Pp⊗n )p∈P ).

On se donne p0 ∈ P tel que p0 (j) > 0, j = 1, . . . , k, et on veut tester H0 : ”p = p0 ”


contre H1 : ”p 6= p0 ”.
On dispose de X1 , . . . , Xn . Pour tout j = 1, . . . , k, on note
n
X
Nj = 1Xi =j
i=1

la statistique de comptage (remarquer qu’elle dépend de n et X1 , . . . , Xn même si la


N
notation ne l’indique pas). On se dit que nj est un bon estimateur de p(j), donc que
N
pour tester ”p = p0 ” contre ”p 6= p0 ” on pourrait se baser sur les différences nj − p0 (j).
On pose :
k
X (Nj − np0 (j))2
Zn = .
np0 (j)
j=1

On va avoir besoin de lois du Chi-deux.

Définition 4.3.1. Soit m un entier. La loi du Chi-deux à m degrés de liberté est la loi
de la somme des carrés de m variables aléatoires indépendantes de loi N (0, 1). On note
cette loi χ2 (m).

On a alors :

Théorème 4.3.1. Sous Pp0 , Zn converge en loi quand n tend vers +∞ vers une variable
aléatoire de loi χ2 (k − 1) (loi du Chi-deux à k − 1 degrés de liberté).

On démontrera ce théorème au chapitre suivant.

A partir de ce théorème, on peut construire un test qui soit asymptotiquement de


niveau α et de puissance 1 (Le faire ! Démontrer les résultats de niveau et puissance !).

4.4 Lien entre tests et régions de confiance


Lorsqu’on a construit des tests, on est souvent parti du même point de départ que
lorsqu’on a construit des régions de confiance ; on est parti d’un estimateur de ce qui est
testé ou estimé, et fait ensuite des calculs analogues. Y a-t-il quelque chose de général

28
4.4 Lien entre tests et régions de confiance

qui relie les deux procédures statistiques ?

Dire la définition d’une région de confiance R(X) pour θ, pas forcément un intervalle
de R.

Proposition 4.4.1. Soit R(X) une région de confiance pour θ de niveau de confiance
1 − α. Alors, pour tout θ0 ∈ Θ,

φ(X) = 1θ0 ∈R(X)


/

est un test de niveau α de H0 : ”θ = θ0 ” contre H1 : ”θ 6= θ0 ”

Preuve : Fixons θ0 ∈ Θ. On a alors Pθ0 (θ0 ∈ R(X)) ≥ 1 − α puisque R(X) une région
de confiance pour θ de niveau de confiance 1 − α, et donc

Eθ0 [φ(X)] = Pθ0 (θ0 ∈


/ R(X)) = 1 − Pθ0 (θ0 ∈ R(X)) ≤ α.

Proposition 4.4.2. On suppose que pour tout θ0 ∈ Θ, φθ0 (X) est un test de niveau α
de H0 : ”θ = θ0 ” contre H1 : ”θ 6= θ0 ”, et que la fonction de Θ × X dans R qui, à tout
(θ, X) associe φθ (X) est mesurable. Alors

R(X) = {θ ∈ Θ : φθ (X) = 0}

est une région de confiance pour θ de niveau de confiance 1 − α.

Preuve : Soit θ0 quelconque fixé dans Θ. Puisque φθ0 (X) est un test de niveau α de
H0 : ”θ = θ0 ” contre H1 : ”θ 6= θ0 ”, on a Eθ0 [φ(X)] ≤ α, soit Pθ0 (φθ0 (X) = 0) ≥ 1 − α.
Autrement dit,
Pθ0 (θ0 ∈ R(X)) ≥ 1 − α.
Ceci étant vrai pour tout θ0 ∈ Θ cela prouve que R(X) est une région de confiance pour
θ de niveau de confiance 1 − α.

Exemples :
— Modèle binomial : construire un test de H0 : ”θ = θ0 ” contre H1 : ”θ 6= θ0 ” à partir
de la région de confiance vue en introduction.
— Revisiter le test de Kolmogorov et la bande de confiance pour la fonction de
répartition.
— A partir du test du chi-deux d’ajustement, construire une région de confiance pour
la probabilité (p1 , . . . , pk ) dans le modèle multinomial.

29
5 Vecteurs gaussiens
Ce qui suit sont surtout des rappels !

Définition 5.0.1. La loi gaussienne N (m, σ 2 ), où m ∈ R et σ 2 ∈ R+ est la probabilité


de densité par rapport à Lebesgue

(x − m)2
 
1
√ exp − .
σ 2π 2σ 2

Un vecteur aléatoire X à valeurs dans Rk est un vecteur gaussien si et seulement si


toute combinaison linéaire de ses coordonnées est une variable aléatoire rélle gaussienne,
autrement dit, si et seulement si, pour tout U ∈ Rk , il existe m ∈ R et σ 2 ∈ R+ tels que
U T X soit de loi N (m, σ 2 ).

Si X est un vecteur gaussien, on peut alors définir E(X) le vecteur des espérances des
coordonnées de X, et V ar(X) la matrice k ×k de variance de X. (Rappeler sa définition).

La fonction caractéristique φ du vecteur gaussien d’espérance m ∈ Rk et de


matrice de variance Σ est donnée par
 
k T 1 T
∀t ∈ R , φ (t) = exp im t − t Σt .
2

(Rappeler la preuve.)
En particulier, la loi d’un vecteur gaussien est complètement déterminée par son espérance
m ∈ Rk et sa matrice de variance Σ, on note alors la loi Nk (m; Σ). Si Σ est inversible,
la densité par rapport à Lebesgue sur Rk est
 
1 1 T −1
p exp − (x − m) Σ (x − m) .
(2π)k/2 det(Σ) 2

Proposition 5.0.1. Si X est un vecteur gaussien de loi Nk (m; Σ) et si A est une matrice
p × k, alors AX est un vecteur gaussien de loi Np (Am; AΣAT ).

(Rappeler la preuve.)

Proposition 5.0.2. Si X est un vecteur gaussien et si sa variance est diagonale par


blocs, alors les blocs de coordonnées correspondants forment des vecteurs gaussiens indépendants.

31
5 Vecteurs gaussiens

(Rappeler la preuve.)

Définition 5.0.2. Un n-échantillon gaussien est un vecteur gaussien de loi Nn (0; Id),
c’est-à-dire un vecteur dont les n composantes sont des variables aléatoires indépendantes
de loi gaussienne centrée réduite.

Proposition 5.0.3. Lorsqu’on fait un changement de base orthonormée, un n-échantillon


gaussien reste un n-échantillon gaussien.

(Rappeler la preuve.)

Théorème 5.0.1 (Théorème de Cochran). Soit X un n-échantillon gaussien, et soient


E1 , . . . , Ep des sous-espaces vectoriels de Rn orthogonaux, dont la somme est égale à
Rn . Notons Πj la projection orthogonale de Rn sur Ej , j = 1, . . . , p et kj = dim(Ej ),
j = 1, . . . , p.
Alors les vecteurs Πj (X), j = 1, . . . , p, sont des vecteurs gaussiens indépendants, et pour
j = 1, . . . , p, kΠj (X)k2 suit la loi χ2 (kj ).

Preuve : Soit (ei,j )1≤i≤p,1≤j≤ki la base orthonormée de Rn telle que, pour tout i =
1, . . . , p, (ei,j )1≤j≤ki est une base orthonormée de Ei . Soit A la matrice de changement
de base associée, de sorte que si Y = AX, Y1 , . . . , Yn sont les coordonnées de X dans la
nouvelle base. Par les deux propositions qui précèdent, Y est un n-échantillon gaussien.
Par ailleurs, pour tout i = 1, . . . , p, en notant k0 = 0 :
ki
X
Πi (X) = Yk1 +...+ki−1 +j ei,j .
j=1

Donc
ki
X
kΠi (X)k2 = Yk21 +...+ki−1 +j
j=1

et kΠi (X)k2 suit donc la loi χ2 (ki ). Par ailleurs, (Πi (X))1≤i≤p est un vecteur gaussien de
matrice de variance diagonale, donc les Πj (X), j = 1, . . . , p, sont des vecteurs gaussiens
indépendants

Théorème 5.0.2 (Théorème de limite centrale multidimensionnel). Soit (Xn )n≥1 une
suite de variables aléatoires à valeurs dans Rk , indépendantes et de même loi de variance
finie. Alors
n
!
√ 1X
n Xi − E(X1 )
n
i=1

converge en loi vers une variable U de loi Nk (E(X1 ), V ar(X1 )).

32
(Rappeler la preuve à partir du TLC unidimensionnel.)

Preuve du Théorème 4.3.1 : On a X1 , . . . , Xn i.i.d. de loi Pp0 sur {1, . . . , k}. Pour
j = 1, . . . , k, on note
Xn
Nj = 1Xi =j
i=1
et
k
X (Nj − np0 (j))2
Zn = .
np0 (j)
j=1

Soit Wn le vecteur de Rk de j-ième coordonnée


!
1 Nj − np0 (j)
√ p .
n p0 (j)
p
Notons D le vecteur de Rk de j-ième coordonnée p0 (j).
Par le TLC multidimensionnel, le vecteur Wn converge en loi sous Pp0 vers une variable
U de loi Nk (0, Id − DDT ). Donc, par image continue, Zn = kWn k2 converge en loi sous
Pp0 vers kU k2 . Maintenant, A = Id − DDT est la matrice de projection orthogonale sur
l’orthogonal de la droite engendrée par D. Donc AAT = A, et U a même loi que AV ,
où V est de loi Nk (0, Id). Donc kU k2 a même loi que kAV k2 , qui est de loi χ2 (k − 1)
d’après le Théorème de Cochran.

33
6 Modèle linéaire gaussien

6.1 Définition et exemples


Le modèle linéaire gaussien est (Rn , B(Rn ), (Pθ )θ∈Θ ), où θ = (m, σ 2 ), Pθ = Nn (m, σ 2 Id),
et Θ = V × R∗+ , V étant un sous-espace vectoriel de Rn .

Si l’observation est Y , on peut écrire

Y = m + ε, m ∈ V, ε ∼ Nn (0, σ 2 Id),

ou encore
Yi = mi + εi , i = 1, . . . , n,
εi , i = 1, . . . , n, i.i.d. de loi N (0, σ 2 ). Remarquer qu’ici, les εi ne sont pas observés, et
que les Yi n’ont pas même loi.
Dans ce modèle, il y a deux parties :
— La modélisation de la variance : ε ∼ Nn (0, σ 2 Id), les εi ont même variance, ils
sont indépendants, ils sont gaussiens.
— La modélisation de l’espérance : choix du sous-espace vectoriel V tel que m ∈ V
(modèle linéaire).
Une façon d’écrire la modélisation de l’espérance est d’écrire que V est l’image de X
pour une matrice X n × p, et donc qu’il existe β ∈ Rp tel que

m = Xβ.

Si X est injective, ou encore si V est de dimension p, alors ce β est unique et l’on écrit
le modèle
Y = Xβ + ε, β ∈ Rp , ε ∼ Nn (0, σ 2 Id).
Ici, X est connu (car V est connu), et l’on pose θ = (β, σ 2 ), Pθ = Nn (Xβ, σ 2 Id),
Θ = Rp × R∗+ .

Exemples : Pour chaque exemple, expliciter le modèle sous ses deux formes, avec V
et avec X.
1. Régression : On a des mesures Yi , on veut les expliquer par des variables connues.
Par exemple : par le temps, si les mesures sont faites à des temps ti , on peut chercher
à ajuster une parabole :

Yi = a + bti + ct2i + εi , i = 1, . . . , n.

35
6 Modèle linéaire gaussien

Ou bien par des données socio-culturelles :


(1) (k)
Yi = a0 + a1 Xi + . . . + ak Xi + εi , i = 1, . . . , n.

(voir en quoi le modèle est linéaire)


2. Analyse de la variance à un facteur : n individus, p traitements, ni individus
soumis au traitement i, n = n1 + . . . + np , Yi,j : efficacité du traitement i sur le
j-ième individu traité par i :

Yi,j = µi + εi,j , i = 1, . . . , p, j = 1, . . . , ni .

Etude statistique :
Ce que l’on va étudier :
Les questions statistiques concernent θ, c’est à dire m ou β et σ 2 . On va donc s’intéresser
à l’estimation des paramètres, et à des tests sur ces paramètres.
Ce que l’on ne va pas étudier :
En choisissant pour analyser le problème posé le modèle linéraire gaussien, il convient
de vérifier que l’on n’a pas eu tort de choisir ce modèle. Il s’agit de construire des tests
de validation du modèle, par exemple pour tester que :
— Les i ont même variance
— Les i sont indépendants
— Les i sont gaussiens.
Il faut noter que si le modèle est validé, cela ne signifie pas qu’il est vrai : un modèle
est toujours faux !, cela signifie que la variabilité de l’expérience est correctement prise
en compte.
En statistique, une question centrale est celle du choix de modèle : si on choisit un
modèle trop compliqué, on a beaucoup de paramètres à estimer, et on cumule beaucoup
d’erreurs d’estimation, si on choisit un modèle trop simple, on reflète mal l’expérience.
Le choix de modèle est un véritable sujet de mathématique !

6.2 Estimation des paramètres


6.2.1 Estimation de m et σ 2
Le modèle est dominé. On peut écrire la vraisemblance et démontrer que l’estimateur
du maximum de vraisemblance est donné par (le démontrer !) :
1
b = ΠV (Y ) , σ˜2 = kY − ΠV (Y ) k2 ,
m
n
où ΠV est la projection orthogonale sur V . Par Cochran, on obtient facilement les lois, et
que E kY − ΠV (Y ) k2 = n − p, avec p = dim(V ), donc on préfère choisir l’estimateur
sans biais
c2 = 1 kY − ΠV (Y ) k2
σ
n−p
On a

36
6.2 Estimation des paramètres

Théorème 6.2.1. L’estimateur du maximum de vraisemblance m b suit la loi Nn (m, σ 2 ΠV ),


c2 /σ 2 suit la loi χ2 (n − p).
c2 , et (n − p)σ
il est indépendant de σ

Preuve : par le théorème de Cochran (écrire la preuve.)

6.2.2 Estimation de β et σ 2
Pour obtenir l’estimateur du maximum de vraisemblance, on cherche β ∈ Rp qui
minimise kY − Xβk2 . On peut faire le calcul par calcul différentiel, et obtenir (le faire)
qu’un tel β vérifie
(X T X)β = X T Y.

On a

Lemme 6.2.1. Si X est injective, alors X T X est inversible, et la projection orthogonale


sur V , image de X, est
ΠV = X(X T X)−1 X T .

Preuve : X(X T X)−1 X T est symétrique, idempotente, et si Y ∈ V , X(X T X)−1 X T Y =


Y.

Théorème 6.2.2. L’estimateur du maximum de vraisemblance est

βb = (X T X)−1 X T Y,

sa loi est Np (β, σ 2 (X T X)−1 ), et il est indépendant de σ


c2 .

Retour sur les exemples 1, 2.

Analyse de la variance : On obtient (faire le calcul !) :


ni
1 X
µ
bi = Yi,j , i = 1, . . . , p
ni
j=1

et
i p n
1 XX
c2 =
σ bi )2 .
(Yi,j − µ
n−p
i=1 j=1

Régression affine : il s’agit du modèle

Yi = a + bti + εi , i = 1, . . . , n.

Ecrire X et β, et calculer b
a et bb.

37
6 Modèle linéaire gaussien

6.3 Tests d’hypothèses linéaires


Dans les exemples de modèles linéaires vus en introduction, on peut se poser des
questions comme :
— Si l’on ajuste une parabole (exemple 1), passe-t-elle par l’origine ? C’est-à-dire :
a-t-on a = 0 ? Ou bien, la courbe est-elle en fait une droite ? C’est-à- dire : a-t-on
b = 0?
— Parmi les variables explicatives, certaines n’interviennent pas ? C’est-à-dire : a-t-
on, pour certains i, ai = 0 ?
— Y a-t-il une différence entre les traitements ? C’est-à-dire : a-t-on µ1 = . . . = µp ?
Ces questions là se formulent sous forme d’hypothèses linéaires, c’est-à-dire sous la
forme ”m ∈ W ” pour un sous-espace vectoriel W de V (Le faire sur les 3 exemples
indiqués !)

Soit donc W un sous-espace vectoriel de V . Notons p = dim(V ) et q = dim(W ), q < p


(sinon W = V et il n’y a rien à tester). On souhaite tester

H0 : ”m ∈ W ”

contre
H1 : ”m ∈ V \ W ”.
La statistique du test du rapport de vraisemblance est, si l’on note L(m, σ 2 ) la vraisem-
blance :
supm∈V \W,σ2 >0 L(m, σ 2 )
T =
supm∈W,σ2 >0 L(m, σ 2 )
Et l’on obtient (le calculer !) :
 n
kY − ΠW (Y )k
T = .
kY − ΠV (Y )k
Pour cela, on utilise le fait que, comme W est un sous-espace de dimension q < p, pour
tout m ∈ V et σ 2 > 0,
P(m,σ2 ) (ΠV (Y ) ∈ W ) = 0.
(Le démontrer, en utilisant que sous P(m,σ2 ) , ΠV (Y ) suit la loi Nn (m, ΠV )).

Par Pythagore,

kY − ΠV (Y )k2 + kΠV (Y ) − ΠW (Y )k2 = kY − ΠW (Y )k2 ,

et donc n/2
kΠV (Y ) − ΠW (Y )k2

T = 1+ .
kY − ΠV (Y )k2
Le test du rapport de vraisemblance est donc celui qui décide H0 si kΠVkY(Y−Π
)−ΠW (Y )k
V (Y )k
est
plus grand qu’un seuil. Reste à fixer ce seuil pour avoir un test de niveau α.

38
6.4 Régions de confiance

Définition 6.3.1. Soit Z une variable aléatoire. On dit que Z suit la loi de Fisher à
m et l degrés de liberté si Z a même loi que

U1 /m
U2 /l

où U1 et U2 sont des variables aléatoires indépendantes, U1 de loi χ2 (m) et U2 de loi


χ2 (l). On note F (m, l) cette loi.

On appelle test de Fisher de H0 : ”m ∈ W ” contre H1 : ”m ∈ V \ W ” le test qui


rejette H0 lorsque

kΠV (Y ) − ΠW (Y )k2 /(p − q)


≥ fp−q,n−p,1−α
kY − ΠV (Y )k2 /(n − p)

en notant fp−q,n−p,1−α le 1 − α-quantile de la loi F (p − q, n − p).

Théorème 6.3.1. Le test du rapport de vraisemblance de H0 : ”m ∈ W ” contre


H1 : ”m ∈ V \ W ” est le test de Fisher, et il est de niveau α.

(Ecrire la preuve !)
Retour sur les exemples.

Analyse de la variance : Le test du rapport de vraisemblance de H0 : ”µ1 = . . . =


µp ” contre H1 : ”∃i, j : µi 6= µj ” est le test qui rejette H0 lorsque
Pp
ni (Y − n1i nj=1 Yi,j )2 /(p − 1)
P i
i
Pp Pni 1 Pni 2
≥ fp−1,n−p,1−α
i=1 j=1 (Yi,j − ni j=1 Yi,j ) /(n − p)

en notant
p i n
1 XX
Y = Yi,j .
n
i=1 j=1

(Le démontrer !)

Régression affine : Ecrire le test de H0 : ”a = 0” contre H1 : ”a 6= 0” .

6.4 Régions de confiance


6.4.1 Région de confiance pour m
L’idée est de partir de ΠV (Y ) qui est un estimateur de m, de loi Nn (m, σ 2 ΠV ).
 
Y −m
ΠV (Y ) − m = σΠV
σ

39
6 Modèle linéaire gaussien

et donc par le théorème de Cochran, kΠV (Y ) − mk2 /σ 2 suit la loi χ2 (p). Si l’on connait
σ 2 , cela permet de construire une région de confiance pour m (le faire !). Que faire si on
ne connait pas σ 2 ? L’idée est de le remplacer par un estimateur, et de considérer
kΠV (Y ) − mk2
.
kY − ΠV (Y )k2 /(n − p)
On écrit
σ 2 kΠV Y −m
 2
kΠV (Y ) − mk2 /p σ k /p
= 2 Y −m Y −m
,
kY − ΠV (Y )k2 /(n − p)
 
σ k σ − ΠV σ k2 /(n − p)
qui, en utilisant le théorème de Cochran, suit la loi F (p, n − p). (L’écrire !). On a donc
kΠV (Y ) − mk2 /p
 
2
∀m ∈ V, ∀σ > 0, P(m,σ2 ) ≤ fp,n−p,1−α ≥ 1 − α.
kY − ΠV (Y )k2 /(n − p)
Donc
m ∈ V : kΠV (Y ) − mk2 ≤ pfp,n−p,1−α kY − ΠV (Y )k2 /(n − p)


est une région de confiance pour m de niveau de confiance


p 1 − α. C’est, dans V , une
sphère centrée en ΠV (Y ) et de rayon kY − ΠV (Y )k pfp,n−p,1−α /(n − p).

Remarque : si m0 est un vecteur fixé de V , on peut donc maintenant écrire un test de


H0 : m = m0 contre H1 : ”m 6= m0 ”. (Le faire !).

6.4.2 Région de confiance pour β


On part de l’estimateur de β :
βb = (X T X)−1 X T Y ∼ Np β, σ 2 (X T X)−1 .


On a alors !
βb − β
(X T X)1/2 ∼ Np (0, Id) ,
σ
et donc
1 b T
T
 
b − β ∼ χ2 (p).
β − β (X X) β
σ2
Comme βb est indépendant de σ c2 , on a que
 T    b T b 
β−β T X) β−β
βb − β (X T X) βb − β /p σ (X σ /p
= c2
c2
σ (n−p)σ
σ2
/(n − p)
suit la loi F (p, n − p). Donc, si fp,n−p,1−α est le quantile d’ordre 1 − α et F (p, n − p) :
 T   
βb − β (X T X) βb − β /p
∀β ∈ Rp , ∀σ 2 > 0, P(β,σ2 )  ≤ fp,n−p,1−α  = 1 − α
 
σ
c 2

40
6.4 Régions de confiance

et donc   T   
β ∈ Rp , βb − β (X T X) βb − β ≤ pσ
c2 fp,n−p,1−α

est une région de confiance pour β de niveau de confiance 1 − α.

6.4.3 Région de confiance pour σ 2


On part de l’estimateur
1
b2 =
σ kY − ΠV Y k2
n−p
2
pour lequel on sait que (n − p) σσb2 suit la loi χ2 (n − p). On a donc :

b2
 
2 2 σ 2
∀m ∈ V, ∀σ > 0, P(m,σ2 ) χn−p,α/2 ≤ (n − p) 2 ≤ χn−p,1−α/2 ≥ 1 − α.
σ

Donc " #
(n − p)bσ 2 (n − p)b
σ2
;
χ2n−p,1−α/2 χ2n−p,α/2

est un intervalle de confiance pour σ 2 de niveau de confiance 1 − α.

41
7 Eléments de théorie de la décision

7.1 introduction
Soit (X , A, (Pθ )θ∈Θ ) un modèle statistique, et X l’observation.

Soit g : Θ → Rd , et L une fonction de perte, c’est-à-dire une fonction de Rd × Rd dans


R+ . Si T (X) est un estimateur de g(θ), la fonction de risque est

θ 7→ Eθ [L (g(θ), T (X))] := R(θ, T ).

Pour comparer des estimateurs, on va comparer les risques. On peut penser à deux façons
de faire :
— Comparer la valeur maximale du risque, c’est l’approche minimax
— Comparer une valeur moyenne du risque, ce sera l’approche bayésienne.
Dans l’approche minimax, on cherche un estimateur T (X) qui soit proche (voire réalise)
la valeur minimale, parmi tous les estimateurs possibles, du risque maximal. On appelle
risque minimax la quantité
inf sup R(θ, T ).
T θ∈Θ

On va voir qu’il y a des limitations intrinsèques liées au modèle statistique et au choix


de fonction de perte.

7.2 Affinité de test et minoration du risque maximum


Revoir la distance en variation totale, définition et propriétés.

Définition 7.2.1. Soient P et Q deux probabilités définies sur un même espace. On


appelle affinité de test entre P et Q la quantité

π(P, Q) = 1 − kP − QkV T .

Proposition 7.2.1. Si µ domine P et Q, et si dP = f dµ et dQ = gdµ, alors


Z
π(P, Q) = (f ∧ g)dµ.

43
7 Eléments de théorie de la décision

Preuve :
On a
Z
π(P, Q) = 1 − (f − g) dµ
f ≥g
Z Z
= f dµ − (f − g) dµ
f ≥g
Z Z
= f dµ + gdµ
f <g f ≥g
Z
= (f ∧ g)dµ.

Sous l’hypothèse que la fonction de perte vérifie une inégalité de type triangulaire, on
va voir une minoration du risque minimax.
Théorème 7.2.1 (Théorème de Le Cam). On suppose qu’il existe C > 0 tel que, pour
tous u, v, w dans Rd ,
L(u, v) ≤ C [L(u, w) + L(v, w)] .
Alors pour tout estimateur T (X),
1
sup Eθ [L (g(θ), T (X))] ≥ sup [L (g(θ1 ), g(θ2 )) π (Pθ1 , Pθ2 )] .
θ∈Θ 2C (θ1 ,θ2 )∈Θ2

Preuve : Soient θ1 et θ2 de Θ. Posons µ = Pθ1 + Pθ2 , dPθ1 = fθ1 dµ et dPθ2 = fθ2 dµ.
On a par l’hypothèse sur L
L (g(θ1 ), g(θ2 )) ≤ C [L (g(θ1 ), T (X)) + L (g(θ2 ), T (X))]
et donc
Z
L (g(θ1 ), g(θ2 )) (fθ1 (x) ∧ fθ2 (x))dµ(x) ≤
Z
C [L (g(θ1 ), T (x)) + L (g(θ2 ), T (x))] (fθ1 (x) ∧ fθ2 (x))dµ(x).

Mais
Z Z
L (g(θ1 ), T (x)) (fθ1 (x) ∧ fθ2 (x))dµ(x) ≤ L (g(θ1 ), T (x)) fθ1 (x)dµ(x)

et Z Z
L (g(θ2 ), T (x)) (fθ1 (x) ∧ fθ2 (x))dµ(x) ≤ L (g(θ2 ), T (x)) fθ2 (x)dµ(x)

ce qui donne
Z
L (g(θ1 ), g(θ2 )) (fθ1 (x) ∧ fθ2 (x))dµ(x) ≤
Z Z 
C L (g(θ1 ), T (x)) fθ1 (x)dµ(x) + L (g(θ2 ), T (x)) fθ2 (x)dµ(x) .

44
7.2 Affinité de test et minoration du risque maximum

Autrement dit : pour tout (θ1 , θ2 ) ∈ Θ2 ,

L (g(θ1 ), g(θ2 )) π (Pθ1 , Pθ2 ) ≤ C {Eθ1 [L (g(θ1 ), T (X))] + Eθ2 [L (g(θ2 ), T (X))]} .

Le deuxième membre de l’inégalité est majoré par

2C sup Eθ [L (g(θ), T (X))] ,


θ∈Θ

et il suffit alors de prendre le supremum en (θ1 , θ2 ) ∈ Θ2 pour obtenir le théorème.

Proposition 7.2.2. Si d(·, ·) est une distance et si p ≥ 1, alors L(u, v) = (d(u, v))p
vérifie l’hypothèse du théorème de Le Cam avec C = 2p−1 .

Preuve : On a pour tous u, v, w, par l’inégalité triangulaire

d(u, v)p ≤ (d(u, w) + d(v, w))p .

Mais si p ≥ 1, la fonction x 7→ xp est convexe, donc pour tous x et y,


p
xp + y p

x+y
≤ ,
2 2

et donc
p
d(u, w)p + d(v, w)p
  
d(u, w) + d(v, w)
(d(u, w) + d(v, w))p = 2p ≤ 2p = 2p−1 (d(u, w)+d(v, w)).
2 2

En particulier, avec p = 2, on a la minoration du risque quadratique : pour tout


estimateur T (X),

 1
sup Eθ kg(θ) − T (X)k2 ≥ kg(θ1 ) − g(θ2 )k2 π (Pθ1 , Pθ2 ) .
  
sup
θ∈Θ 4 (θ1 ,θ2 )∈Θ2

Ce qui nous intéressera en particulier, c’est de comprendre comment évolue le minorant


en fonction de n dans une expérience statistique de variables i.i.d. Lorsque le modèle est
(X n , An , (Pθ⊗n )θ∈Θ ), et que la fonction de perte L vérifie l’hypothèse du théorème de Le
Cam, on a : pour tout estimateur Tn (X1 , . . . , Xn ),

1 h  i
sup Eθ [L (g(θ), Tn (X1 , . . . , Xn ))] ≥ sup L (g(θ1 ), g(θ2 )) π Pθ⊗n , P ⊗n
θ2 .
θ∈Θ 2C (θ1 ,θ2 )∈Θ2
1

  (7.1)
Il s’agit alors de comprendre comment évolue π Pθ⊗n
1
, Pθ⊗n
2
en fonction de n.

45
7 Eléments de théorie de la décision

7.3 Distance et affinité de Hellinger


On va définir une distance entre deux probabilités à partir de leurs densités par rap-
port à une mesure dominante. On commence par voir que cette quantité ne dépend pas
de la mesure dominante choisie – comme on a vu pour la distance en variation.

Soient P et Q deux probabilités sur un espace probabilisable (Ω, A). Soit µ une mesure
sur Ω qui domine P et Q. On note f la densité de P par rapport à µ et g la densité de
Q par rapport à µ. Si maintenant on pose ν = P +Q 2 , p la densité de P par rapport à ν
et q la densité de Q par rapport à ν, on a
dµ dµ
p=f et q = g .
dν dν
On a donc
√ 2 √ √
Z p Z
f − g dµ = ( p − q)2 dν

et cette quantité ne dépend donc pas de la mesure dominante choisie.

Définition 7.3.1. On appelle distance de Hellinger la quantité h(P, Q) telle que

√ 2
Z
2 1 p
h (P, Q) = f − g dµ.
2

On appelle affinité de Hellinger la quantité ρ(P, Q) telle que


Z p
ρ(P, Q) = f gdµ.

Il est clair que la distance de Hellinger est une distance. Par ailleurs,
√ 2 p √ 
Z p Z 
f − g dµ = f + g − 2 f g dµ

Z p
= 2−2 f gdµ

et donc
h2 (P, Q) = 1 − ρ(P, Q).
Ceci a pour conséquence que

0 ≤ h2 (P, Q) ≤ 1 et 0 ≤ ρ(P, Q) ≤ 1.

On va maintenant relier distance de Hellinger et distance en variation. Commençons


par comparer affinté de test et affinité de Hellinger. On a

Proposition 7.3.1. Pour toutes probabilités P et Q,

π(P, Q) ≤ ρ(P, Q) et (1 − π(P, Q))2 ≤ 1 − ρ2 (P, Q).

46
7.3 Distance et affinité de Hellinger

Preuve : On a
Z
π(P, Q) = f ∧ g dµ
√ 2
Z p
= f ∧ g dµ
√  p √ 
Z p
≤ f∧ g f ∨ g dµ

Z p
= f g dµ = ρ(P, Q).

Par ailleurs, par Cauchy-Schwarz


Z Z
ρ2 (P, Q) ≤ (f ∧ g) dµ (f ∨ g) dµ.

Mais f + g = f ∧ g + f ∨ g, ce qui donne


Z Z Z Z
(f ∧ g) dµ (f ∨ g) dµ = (f ∧ g) dµ (f + g − f ∧ g) dµ
= π(P, Q) (2 − π(P, Q))
= 1 − (1 − π(P, Q))2

donc
(1 − π(P, Q))2 ≤ 1 − ρ2 (P, Q).
On déduit de cette proposition le fait que ces deux distances sont comparables, mais ne
sont pas équivalentes.
Théorème 7.3.1. Pour toutes probabilités P et Q,

kP − QkV T ≤ 2h(P, Q)

et
h2 (P, Q) ≤ kP − QkV T .
Preuve : La première inégalité découle du fait que

kP − Qk2V T = (1 − π(P, Q))2 ≤ (1 + ρ(P, Q)) (1 − ρ(P, Q)) ≤ 2 (1 − ρ(P, Q)) .

La deuxième inégalité découle de

h2 (P, Q) = 1 − ρ(P, Q) ≤ 1 − π(P, Q) = kP − QkV T .

On s’intéresse maintenantQà la distance entre P ⊗n et QQ ⊗n , n un entier. La densité de

P ⊗n par rapport à µ est i=1 f (xi ), celle de Q est ni=1 g(xi ). On a par Fubini
⊗n n ⊗n

v v
Z u n u n n Z p
uY uY Y
t f (xi )t g(xi )dµ⊗n =
p
f (xi ) g(xi )dµ,
i=1 i=1 i=1

47
7 Eléments de théorie de la décision

et donc
ρ(P ⊗n , Q⊗n ) = (ρ(P, Q))n .
On en déduit
Proposition 7.3.2. Pour toutes probabilités P et Q,

h2 (P ⊗n , Q⊗n ) ≤ nh2 (P, Q).

Preuve : On a n
h2 (P ⊗n , Q⊗n ) = 1 − 1 − h2 (P, Q) .
Par ailleurs, pour tout entier n ≥ 1 et tout u ∈ [0, 1], par le théorème des accroissements
finis, il existe ũ ∈ [0, u] tel que 1 − (1 − u)n = n(1 − ũ)n−1 u, donc pour tout u ∈ [0, 1],
1 − (1 − u)n ≤ nu.

On peut maintenant obtenir le comportement de π(P ⊗n , Q⊗n ) en fonction de n.


Théorème 7.3.2. Pour toutes probabilités P et Q,
√ 2
1 − 2nh(P, Q) ≤ π(P ⊗n , Q⊗n ) ≤ e−nh (P,Q) .

Preuve : Montrons la majoration. On a

π(P ⊗n , Q⊗n ) ≤ ρ(P ⊗n , Q⊗n ) = exp[n log(1 − h2 (P, Q))].

Mais pour tout u > 0, log(1 + u) ≤ u, donc exp[n log(1 − h2 (P, Q))] ≤ exp[−nh2 (P, Q))].
Montrons maintenant la minoration. On a
2
1 − π(P ⊗n , Q⊗n ) ≤ 1 − ρ2 (P ⊗n , Q⊗n ) = 1 − (ρ(P, Q))2n .

Mais pour tout u ∈ [0, 1], 1 − u2n ≤ 2n(1 − u). Donc


2
1 − π(P ⊗n , Q⊗n ) ≤ 2n (1 − ρ(P, Q)) = 2nh2 (P, Q).

Dans la minoration du risque maximum du théorème de Le-Cam avec n observa-


tions i.i.d., on doit avoir un minorant > 0 de π(Pθ⊗n , Pθ⊗n ). On voit que cela nécessite
√ √ 1 2
d’avoir h(Pθ1 , Pθ2 ) ≤ c/ n pour un c < 1/ 2. Par ailleurs, le théorème montre que si

h(Pθ1 , Pθ2 ) ≥ c/ n, alors π(Pθ⊗n
1
, Pθ⊗n
2
) ≤ exp(−c2 ).

On va maintenant s’intéresser au risque maximum lorsque la fonction de perte est une


puissance de la distance de Hellinger. On se donne p ≥ 1. On se place dans le modèle
(X n , An , (Pθ⊗n )θ∈Θ ). pour tout estimateur Tn (X1 , . . . , Xn ),

Théorème 7.3.3. On suppose qu’il existe c < 1/ 2 tel que pour tout entier n, il existe

θ1 et θ2 dans Θ tels que h(Pθ1 , Pθ2 ) = c/ n. Alors il existe γ(p) > 0 tel que pour tout
estimateur Tn (X1 , . . . , Xn ), pour tout entier n,

sup Eθ hp Pθ , PTn (X1 ,...,Xn ) ≥ γ(p)n−p/2 .


 
θ∈Θ

48
7.3 Distance et affinité de Hellinger

En vitesse de Hellinger, la vitesse de convergence la meilleure possible est



1/ n.

Preuve : On applique l’inégalité (7.1) avec la fonction de perte l(u, v) = h(Pu , Pv )p ,


et l’on obtient
1 h  √ i
sup Eθ hp Pθ , PTn (X1 ,...,Xn ) ≥ p sup hp (Pθ1 , Pθ2 ) 1 − 2nh(Pθ1 , Pθ2 ) ,
 
θ∈Θ 2 (θ1 ,θ2 )∈Θ2

puis on choisit θ1 et θ2 dans Θ tels que h(Pθ1 , Pθ2 ) = c/ n pour obtenir
p 
√ 
 
1 c
sup Eθ hp Pθ , PTn (X1 ,...,Xn ) ≥ p
 
√ 1 − 2c ,
θ∈Θ 2 n

1 p

et l’on obtient le résultat avec γ(p) = 2p c (1 − 2c).

Sinon de manière générale, l’inégalité (7.1) se réécrit

1 h  √ i
sup Eθ [L (g(θ), Tn (X1 , . . . , Xn ))] ≥ sup L (g(θ1 ), g(θ2 )) 1 − 2nh(Pθ1 , Pθ2 ) .
θ∈Θ 2C (θ1 ,θ2 )∈Θ2
(7.2)
En particulier, le risque quadratique vérifie :
h i 1 h  √ i
sup Eθ (Tn (X1 , . . . , Xn ) − θ)2 ≥ sup (θ1 − θ2 )2 1 − 2nh(Pθ1 , Pθ2 ) . (7.3)
θ∈Θ 4 (θ1 ,θ2 )∈Θ2

Exemple 1 : modèle gaussien de moyenne inconnue et de variance 1. Θ = R, Pθ =


N (θ, 1). On a (faire le calcul !) :

(θ1 − θ2 )2
 
ρ (Pθ1 , Pθ2 ) = exp − ,
8

donc, comme pour tout u ≥ 0, 1 − exp(−u) ≤ u,

(θ1 − θ2 )2
h2 (Pθ1 , Pθ2 ) ≤ .
8
L’inégalité (7.3) donne alors : pour tout estimateur Tn (X1 , . . . , Xn ),

√ |θ1 − θ2 |
h i 1   
2 2
sup Eθ (Tn (X1 , . . . , Xn ) − θ) ≥ sup (θ1 − θ2 ) 1 − n .
θ∈R 4 (θ1 ,θ2 )∈R2 2

En prenant par exemple |θ1 −θ2 | = 1/ n on obtient : pour tout estimateur Tn (X1 , . . . , Xn ),
h i 1
sup Eθ (Tn (X1 , . . . , Xn ) − θ)2 ≥ .
θ∈R 8n

49
7 Eléments de théorie de la décision

1 Pn
Par ailleurs, l’estimateur Tn (X1 , . . . , Xn ) = n i=1 Xi = X vérifie que pour tout θ ∈ R,
Eθ [(X − θ)2 ] = 1/n, donc
 !2 
n
1X  = 1.
sup Eθ  Xi − θ
θ∈R n n
i=1

Exemple 2 : modèle uniforme. Θ = R∗+ , Pθ est la loi uniforme sur [0, θ]. On a (faire
le calcul !) :
|θ1 − θ2 | 1/2
 
ρ (Pθ1 , Pθ2 ) = 1 − .
θ1 ∨ θ 2

Si x ∈ [0, 1], 1 − x ≤ 1 − x, on a

|θ1 − θ2 |
h2 (Pθ1 , Pθ2 ) ≤ .
θ1 ∨ θ2

L’inégalité (7.3) donne alors : pour tout estimateur Tn (X1 , . . . , Xn ),


  s 
h i 1 |θ
(θ1 − θ2 )2 1 − 2n 1 − θ |
2 
sup Eθ (Tn (X1 , . . . , Xn ) − θ)2 ≥ sup .
θ∈]0,1] 4 (θ1 ,θ2 )∈]0,1]2 θ 1 ∨ θ 2

En prenant par exemple |θ1 − θ2 | = c/n et θ1 = 1 on obtient : pour tout estimateur


Tn (X1 , . . . , Xn ),
h i c2 (1 − √c)
2
sup Eθ (Tn (X1 , . . . , Xn ) − θ) ≥ .
θ∈R 8n2
Si l’on pose Tn (X1 , . . . , Xn ) = max{X1 , . . . , Xn }, on a (faire le calcul !) :
h i 2θ2 2
Eθ (Tn (X1 , . . . , Xn ) − θ)2 = ≤ 2
(n + 1)(n + 2) n

lorsque θ ∈]0, 1].

7.4 Vitesse de séparation pour le test de deux hypothèses


simples
Etant donné un n-échantillon X1 , . . . , Xn de loi P , on considère le test du rapport
de vraisemblance pour tester ”P = P0 ” contre ”P = P1 ”. Comme pour l’estimation, le
test s’améliore si n augmente : à niveau fixé la puissance augmente. Une autre façon de
voir l’apport d’information lorsque n augmente est de se demander jusqu’à quel point
P0 et P1 peuvent être proches pour avoir malgré tout les deux erreurs (de première et
de deuxième espèce) majorées par α.

50
7.4 Vitesse de séparation pour le test de deux hypothèses simples

Soit donc µ une mesure dominant P0 et P1 , f0 (resp. f1 ) la densité de P0 (resp. P1 )


par rapport à µ. Le test du rapport de vraisemblance s’écrit
φ = 1Pn log
f1 (Xi )
≥ncn
i=1 f0 (Xi )

pour un seuil ncn à fixer en fonction du niveau souhaité. Evaluons maintenant les erreurs
de première et de deuxième espèce. On a pour tout λ > 0 (le démontrer)
  f (X )
n
−λncn λ log f1 (X1 )
EP0 [φ] ≤ e EP0 e 0 1 .

En prenant λ = 1/2 on obtient


 f (X )

λ log f1 (X1 )
EP0 e 0 1 = ρ (P0 , P1 ) = 1 − h2 (P0 , P1 ) ,

ce qui donne
2 (P ,P ))
EP0 [φ] ≤ e−ncn /2 en log(1−h 0 1
,
et donc
2 (P
EP0 [φ] ≤ e−n[cn /2+h 0 ,P1 )]
.
Par ailleurs
n
!
X f1 (Xi )
EP1 [1 − φ] = P1 log ≤ ncn
f0 (Xi )
i=1
n
!
X f0 (Xi )
= P1 log ≥ −ncn
f1 (Xi )
i=1

et donc, comme par la même méthode que précédemment,


2 (P
EP1 [1 − φ] ≤ e−n[−cn /2+h 0 ,P1 )]
.
Pour avoir
EP0 [φ] ≤ α,
il suffit de choisir  
2 2 1
cn = −2h (P0 , P1 ) + log .
n α
On a alors
1 −2nh2 (P0 ,P1 )]
EP1 [1 − φ] ≤ e ,
α
et donc on a EP1 [1 − φ] ≤ α dès que
 
1
nh2 (P0 , P1 ) ≥ log .
α
En distance de Hellinger, la vitesse de séparation de deux hypothèses
simples pour obtenir un test du rapport de vraisemblance dont les deux

erreurs sont majorées par α est 1/ n.

51
7 Eléments de théorie de la décision

7.5 Divergence de Kullback


On va définir une quantité qui va être comparable à la distance de Hellinger entre deux
probabilités. Soient donc P et Q deux probabilités sur un espace probabilisable (Ω, A).
Soit µ une mesure sur Ω qui domine P et Q. On note f la densité de P par rapport à µ
et g la densité de Q par rapport à µ. Si P est absolument continue par rapport à Q, on
dP
a f = g dQ et si f > 0 alors g > 0 µ-p.s. (c’est-à-dire µ{x : f (x) > 0 et g(x) = 0} = 0).
On a en ce cas
Z   Z  
dP dP f
log dQ = log dP
dQ dQ f >0,g>0 g
Z   Z  
f g
= log dP − log dP.
f >g>0 g g>f >0 f
  R  dP 
Montrons que g>f >0 log fg dP est finie, de sorte que dP
R
dQ log dQ dQ est bien défini
 
(quitte à valoir +∞ si f >g>0 log fg dP = +∞).
R
 
Si P ({g > f > 0}) = 0, alors g>f >0 log fg dP = 0. Si P ({g > f > 0}) > 0, par
R

l’inégalité de Jensen,
Z  
1 g Q({g > f > 0})
log dP ≤ log < +∞.
P ({g > f > 0}) g>f >0 f P ({g > f > 0})
On peut donc introduire la définition suivante.
Définition 7.5.1. On appelle divergence de Kullback entre P et Q la quantité
( R 
dP dP
dQ log dQ dQ si P  Q
K (P, Q) =
+∞ sinon.
Remarque : la divergence de Kullback n’est pas une distance car elle n’est pas
symétrique : en général, K(P, Q) 6= K(Q, P ). Par contre, elle est bien positive ou nulle,
et nulle si et seulement si les probabilités sont égales, c’est une conséquence de l’inégalité
qui suit.
Proposition 7.5.1. On a
K (P, Q) ≥ 2h2 (P, Q) .
Preuve : Supposons P  Q, sinon l’inégalité est immédiate. On a
Z  
f
K (P, Q) = log dP
f >0,g>0 g
Z  r 
g
= −2 log dP
f >0,g>0 f
Z r 
g
≥ −2 − 1 dP
f >0,g>0 f

52
7.5 Divergence de Kullback

R pour tout x > −1, log(1 + x) ≤ x. Puis, comme µ-p.s., {f > 0} = {f > 0, g > 0}, on
car
a f >0,g>0 dP = 1, et donc
Z r  Z
g p
− 1 dP = f gdµ − 1
f >0,g>0 f f >0,g>0
= ρ (P, Q) − 1
= −h2 (P, Q) .
Cette proposition permet un nouveau minorant dans le théorème de Le Cam : si la
fonction de perte vérifie les hypothèses du théorème de Le Cam, pour tout estimateur
T (X),
  
1
q
sup Eθ [L (g(θ), T (X))] ≥ sup L (g(θ1 ), g(θ2 )) 1 − K(Pθ1 , Pθ2 ) . (7.4)
θ∈Θ 2C (θ1 ,θ2 )∈Θ2

Pour utiliser ce résultat avec n observations indépendantes, on a un calcul simple de


la divergence de Kullback entre produits tensoriels.
Proposition 7.5.2. Soient, pour i = 1, . . . , n, Pi et Qi deux probabilités sur un espace
probabilisable (Ωi , Ai ). Alors
n
X
K (⊗ni=1 Pi , ⊗ni=1 Qi ) = K (Pi , Qi )
i=1

En particulier :
K P ⊗n , Q⊗n = nK (P, Q) .


Preuve : l’écrire !.

Application au modèle linéaire gaussien.


Considérons le modèle
Y = Xβ + 
avec X = (x1 , . . . , xn )T ∈ Rn , β ∈ R,  ∼ Nn (0, σ 2 Id) et θ = (β, σ 2 ). On s’intéresse
au risque quadratique minimax pour estimer β. On a en appliquant (7.4), pour tout
estimateur T (Y ),
h i 1   q 
2 2
sup Eθ (T (Y ) − β) ≥ sup (β1 − β2 ) 1 − K(Pθ1 , Pθ2 )
θ∈R×{σ 2 } 4 (θ1 ,θ2 )

avec Pθ = ⊗ni=1 N (xi β, σ 2 ). On a donc


n
X
K N (xi β1 , σ 2 ), N (xi β2 , σ 2 ) .

K(Pθ1 , Pθ2 ) =
i=1

Puis (faire le calcul !) :


x2
K N (xi β1 , σ 2 ), N (xi β2 , σ 2 ) = i2 (β1 − β2 )2


53
7 Eléments de théorie de la décision

et donc
  v 
u
2 n
h i 1 (β1 − β2 ) X
sup Eθ (T (Y ) − β)2 ≥ sup (β1 − β2 )2 1 − t
u
2
x2i  .
2
θ∈R×{σ } 4 (θ1 ,θ2 ) 2σ
i=1

En prenant pour un c ∈]0, 1],

2cσ 2
(β1 − β2 )2 = Pn 2
i=1 xi

on obtient
h i σ 2 c(1 − √c)
2
sup Eθ (T (Y ) − β) ≥ .
2 ni=1 x2i
P
θ∈R×{σ 2 }

L’estimateur du maximum de vraisemblance est


Pn
xi Yi
β = Pi=1
b
n 2
i=1 xi

pour lequel, pour tout θ ∈ R × {σ 2 },

σ2
 2 
Eθ βb − β = Pn 2,
i=1 xi

et βb est un estimateur minimax à constante près.

7.6 Estimation bayésienne


7.6.1 Estimateurs admissibles et estimateurs bayésiens
On veut estimer g(θ), et on se fixe une fonction de perte L. Les définitions qui suivent
s’entendent relativement à la fonction de perte fixée. Soient T (X) et T 0 (X) deux esti-
mateurs.

Définition 7.6.1. On dit que T est aussi bon que T 0 si

∀θ ∈ Θ, R(θ, T ) ≤ R(θ, T 0 ).

On dit que T est meilleur que T 0 si T est aussi bon que T 0 et que en outre,

∃θ0 ∈ Θ, R(θ0 , T ) < R(θ0 , T 0 ).

On dit que T est admissible si il n’existe pas d’estimateur T 0 meilleur que T .

Théorème 7.6.1. Un estimateur admissible et de risque constant est minimax.

54
7.6 Estimation bayésienne

Preuve : Soit T un estimateur admissible et tel que pour une constante C, pour tout
θ ∈ Θ, R(θ, T ) = C. Alors supθ∈Θ R(θ, T ) = C. Si T 0 est un autre estimateur, il n’est
pas meilleur que T . Donc ou bien T est aussi bon que T 0 , auquel cas supθ∈Θ R(θ, T ) ≤
supθ∈Θ R(θ, T 0 ), ou bien il existe θ tel que R(θ, T 0 ) < R(θ, T ), mais alors il existe θ0 tel
que R(θ0 , T 0 ) > R(θ0 , T ) = C, auquel cas

sup R(θ, T 0 ) > C = sup R(θ, T ).


θ∈Θ θ∈Θ

Donc T est bien minimax.

On suppose maintenant Θ mesurable, et on munit alors Θ d’une probabilité ν, appelée


alors loi a priori. Les définitions qui suivent s’entendent relativement à la fonction de
perte fixée et à la loi a priori fixée.

Définition 7.6.2. On appelle risque de Bayes de l’estimateur T la quantité


Z
Rν (T ) = R(θ, T )dν(θ).
Θ

On dit que T est un estimateur bayésien si


— Pour tout θ ∈ Θ, R(θ, T ) est fini.
— Pour tout estimateur T 0 , Rν (T ) ≤ Rν (T 0 ).

Autrement dit, un estimateur bayésien minimise le risque bayésien. On va voir que


sous certaines conditions, pour trouver des estimateurs admissibles, il suffit de trouver
des estimateurs bayésiens. Si en outre leur risque est constant, ils sont minimax.

Théorème 7.6.2. Soit T un estimateur bayésien. Supposons que l’une des conditions
suivantes est réalisée :
1. T est unique au sens suivant : si T 0 est un estimateur bayésien, alors pour tout
θ ∈ Θ, T = T 0 Pθ -p.s.
2. Θ est dénombrable et ν charge tous les points de Θ.
3. Θ est une partie de Rk , ν charge tous les ouverts de Θ, et si T 0 est tel que R(θ, T 0 )
est fini pour tout θ ∈ Θ, alors θ 7→ R(θ, T 0 ) est continue.
Alors T est admissible.

Preuve : On va raisonner par l’absurde. Soit T un estimateur bayésien, et supposons


qu’il n’est pas admissible. Alors il existe un estimateur T 0 meilleur que T , donc tel que

∀θ ∈ Θ, R(θ, T 0 ) ≤ R(θ, T )

et
∃θ0 ∈ Θ, R(θ0 , T 0 ) < R(θ, T ).

55
7 Eléments de théorie de la décision

Supposons 1. Alors Rν (T 0 ) = Rν (T ), car T est bayésien. Donc pour tout θ ∈ Θ, T = T 0


Pθ -p.s. et donc pour tout θ ∈ Θ, R(θ, T 0 ) = R(θ, T ) : contradiction.
Supposons 2. Alors
X
Rν (T ) − Rν (T 0 ) = R(θ, T ) − R(θ, T 0 ) ν({θ})


θ∈Θ
R(θ0 , T ) − R(θ0 , T 0 ) ν({θ0 })


> 0 : contradiction.

Supposons 3. Alors la fonction θ 7→ R(θ, T ) − R(θ, T 0 ) est continue. Soit ε = R(θ0 , T ) −


R(θ0 , T 0 ). Par continuité, il existe un ouvert U contenant θ0 tel que
ε
∀θ ∈ U, |R(θ, T ) − R(θ, T 0 ) − ε| ≤ ,
2
et donc tel que
ε
∀θ ∈ U, R(θ, T ) − R(θ, T 0 ) ≥ .
2
On a alors
Z
0
R(θ, T ) − R(θ, T 0 ) dν(θ)

Rν (T ) − Rν (T ) =

R(θ, T ) − R(θ, T 0 ) dν(θ)


U
ε
≥ ν(U )
2
> 0 : contradiction.

7.6.2 Notion de loi conditionnelle


La formule
Z Z  Z
Rν (T ) = L(g(θ), T (x))dPθ (x) dν(θ) = L(g(θ), T (x))dPθ (x)dν(θ)
θ X θ×X

peut être lue en considérant que le couple (τ, X) (paramètre et observation) est une
variable aléatoire, de loi jointe dν(θ)dPθ (x). Le point de vue bayésien est de munir l’en-
semble des paramètres d’une loi a priori ν, et de considérer que, conditionnellement au
fait que le paramètre τ soit θ, l’observation est de loi Pθ . A condition que ce que l’on
vient de dire ait un sens, c’est à dire que l’on puisse effectivement parler de loi condi-
tionnelle. C’est ce que l’on va étudier ici.

Si (X, Y ) est un couple de variables aléatoires dans X × Y, de loi PX,Y , on sait que si
X et Y sont des variables indépendantes, on peut écrire, par Fubini : pour toute fonction
φ mesurable ≥ 0,
Z Z  Z Z 
E [φ(X, Y )] = φ(x, y)dPY (y) dPX (x) = φ(x, y)dPX (x) dPY (y).
X Y Y X

56
7.6 Estimation bayésienne

On souhaite écrire une formule analogue lorsque X et Y ne sont pas des variables
indépendantes, en faisant intervenir une loi conditionnelle :
Z Z 
E [φ(X, Y )] = φ(x, y)dPY (y|X = x) dPX (x) (7.5)
X Y

On va montrer que c’est possible sous certaines conditions. On suppose ici que X ⊂ Rk
et Y ⊂ Rp .

Proposition 7.6.1. Soit µ (resp. ν) une mesure positive sur X (resp. Y). On suppose
que P(X,Y ) est absolument continue par rapport à µ ⊗ ν de densité f (x, y). Alors (7.5)
est vraie si l’on définit

dPY (y|X = x) = f (y|X = x)dν(y),

avec
f (x, y)
f (y|X = x) = 1
g(x) g(x)>0
R
où g(x) est la densité par rapport à µ de la loi de X (g(x) = Y f (x, y)dν(y)).

dPY (y|X = x) est une version de la loi conditionnelle de Y sachant X = x.


Noter l’analogie avec la formule définissant les probabilités conditionnelles.

Preuve : Soit φ une fonction mesurable ≥ 0. On a


Z Z  Z Z 
f (x, y)
φ(x, y)f (y|X = x)dν(y) dPX (x) = φ(x, y) 1g(x)>0 dν(y) g(x)dµ(x)
X Y X Y g(x)
Z Z 
= φ(x, y)f (x, y)dν(y) dµ(x)
X Y

car si g(x) = 0, alors f (x, y) = 0 ν-p.p. Puis par Fubini


Z Z  Z
φ(x, y)f (x, y)dν(y) dµ(x) = φ(x, y)f (x, y)dν(y)dµ(x)
X Y X ×Y
= E [φ(X, Y )] .

Cette ”loi conditionnelle” permet-elle alors de calculer les espérances conditionnelles


comme les espérances ?

Quelques rappels sur les espérances conditionnelles par rapport à une tribu ; par rap-
port à une variable aléatoire ; la notation espérance conditionnelle à X = x.

Proposition 7.6.2. Si (7.5) est vraie, alors pour toute fonction ψ ∈ L1 (PY ),
Z
E [ψ(Y )|X = x] = ψ(y)dPY (y|X = x).
Y

57
7 Eléments de théorie de la décision

Preuve : Notons Z
ρ(x) = ψ(y)dPY (y|X = x).
Y

On veut montrer que pour toute fonction h mesurable bornée,

E [ψ(Y )h(X)] = E [ρ(X)h(X)] .

Soit donc h mesurable bornée. On a


Z Z 
E [ρ(X)h(X)] = ψ(y)dPY (y|X = x) h(x)dPX (x)
X Y
Z Z 
= ψ(y)h(x)dPY (y|X = x) dPX (x)
X Y
= E [ψ(Y )h(X)]

car (7.5).

7.6.3 Calcul d’estimateurs bayésiens


On suppose que le modèle (X , A, (Pθ )θ∈Θ ) est dominé. Soit µ une mesure dominante,
et pour tout θ ∈ Θ, fθ la densité de Pθ par rapport à µ. On suppose aussi que la loi a
priori a une densité ρ par rapport à une mesure π sur Θ : dν(θ) = ρ(θ)dπ(θ). On a alors
Z
Rν (T ) = L(g(θ), T (x))fθ (x)ρ(θ)dµ(x)dπ(θ).
Θ×X

Autrement dit, si (τ, X) est une variable aléatoire sur Θ × X de loi de densité h(θ, x) =
fθ (x)ρ(θ) par rapport à π ⊗ µ, on a

Rν (T ) = E [L(g(τ ), T (X))] .

On peut donc appliquer les résultats précédents sur les lois conditionnelles, et l’on a
Z Z 
Rν (T ) = L(g(θ), T (x))ρ(θ|X = x)dπ(θ) h(x)dµ(x),
X Θ
R
où h est la densité de la loi marginale de X, c’est-à-dire h(x) = Θ fθ (x)ρ(θ)dπ(θ), et où
ρ(θ|X = x) est la densité de la loi conditionnelle de τ sachant X = x, donnée par

fθ (x)ρ(θ)
ρ(θ|X = x) = 1h(x)>0 .
h(x)

On appelle ρ(θ|X)dπ(θ) loi a posteriori.


Il est clairR qu’alors, pour minimiser Rν (T ), il suffit pour tout x de choisir T (x) qui
minimise Θ L(g(θ), T (x))ρ(θ|X = x)dπ(θ). On va voir deux exemples typiques dans le
cas où ce que l’on cherche à estimer est à valeurs rélles, c’est-à-dire quand g : Θ → R.

58
7.6 Estimation bayésienne

[Link] Cas de la perte quadratique

On considère L(u, v) = (u − v)2 . Alors un estimateur bayésien est l’espérance a


posteriori T (X) donnée par
Z
T (x) = g(θ)ρ(θ|X = x)dπ(θ),
Θ

et T est unique hdµ-p.s. (Démontrer ces deux affirmations).


Si tout ensemble négligeable pour hdµ l’est pour Pθ pour tout θ, alors T est admissible.
(Ecrire ce que cela signifie, indiquer des conditions suffisantes pour obtenir ce résultat).

Exemple : modèle de Bernoulli avec a priori Beta.


Le modèle est ({0, 1}n , P({0, 1}n ), (B(θ)⊗n )θ∈[0,1] ). L’observation est X1 , . . . , Xn . On
choisit la loi a priori Beta B(a, b), avec a > 0 et b > 0, de densité par rapport à
Lebesgue
Γ(a + b) a−1
θ (1 − θ)b−1 10<θ<1 .
Γ(a)Γ(b)
R +∞
(Rappel : Γ(z) = 0 xz−1 e−x dx).
La loi a posteriori est alors la loi Beta B(a + ni=1 Xi ; b + n − ni=1 Xi ). (Le démontrer).
P P
L’espérance a posteriori est

a + ni=1 Xi
P
T (X1 , . . . , Xn ) = ,
a+b+n

et T est admissible. (Démontrer ces deux affirmations).

Exemple : modèle gaussien avec a priori gaussien.


Le modèle est (Rn , B({Rn ), (N (θ, 1)⊗n )θ∈R ). L’observation est X1 , . . . , Xn . On choisit la
loi a priori N (0, σ 2 ). La loi a posteriori est alors la loi

n
!
σ2 X σ2
N Xi ; .
1 + nσ 2 1 + nσ 2
i=1

(Le démontrer).
L’espérance a posteriori est

n
σ2 X
T (X1 , . . . , Xn ) = Xi ,
1 + nσ 2
i=1

et T est admissible. (Démontrer ces deux affirmations).

59
7 Eléments de théorie de la décision

[Link] Cas de la perte valeur absolue


On considère L(u, v) = |u−v|. Alors un estimateur bayésien est T (X) où T (x) minimise
pour tout x Z
|θ − T (x)| dν(θ|X = x).
Θ

On va voir qu’ un estimateur bayésien est la médiane a posteriori T (X) qui vérifie

1 1
ν (τ ≤ T (X)|X) ≥ et ν (τ ≥ T (X)|X) ≥ .
2 2
Pour cela, nous allons définir, pour α ∈]0, 1[, le quantile d’ordre α d’une loi de probabilité,
et appliquer cela au quantile d’ordre 1/2 appelé médiane. Soit Z une variable
aléatoire de loi P .

Définition 7.6.3. On dit que q est un quantile d’ordre α de Z (ou de la loi de Z) si


et seulement si
P (Z ≤ q) ≥ α et P (Z ≥ q) ≥ 1 − α.

Proposition 7.6.3. Si F est la fonction de répartition de Z, alors F − (α) est un quantile


d’ordre α de Z.

Remarque : il peut y avoir plusieurs quantiles d’ordre α.

Preuve : rappeler la définition de la fonction quantile et ses propriétés, voir que la


proposition en est une conséquence.

Proposition 7.6.4. q est un quantile d’ordre α de Z si et seulement si q minimise la


fonction
u 7→ αE [(Z − u)+ ] + (1 − α)E [(Z − u)− ] .

Preuve : Notons

h(u) = αE [(Z − u)+ ] + (1 − α)E [(Z − u)− ] .

Remarquons que l’on a aussi

h(u) = E [(Z − u)+ ] + (1 − α)E [(u − Z)] = E [(Z − u)− ] + αE [(Z − u)] .

On montre alors que pour tous u et v,

h(u) − h(v) ≥ (v − u) [P (Z ≥ v) − (1 − α)]

(en utilisant la première formulation) et

h(v) − h(u) ≥ (v − u) [P (Z ≤ u) − α]

60
7.6 Estimation bayésienne

(en utilisant la deuxième formulation).


Si q minimise h, alors pour tout v > q on a h(q) − h(v) ≤ 0, donc P (Z ≥ v) ≤ 1 − α, soit
P (Z < v) ≥ α, donc P (Z ≤ q) ≥ α en faisant tendre v vers q. Aussi, pour tout u < q,
h(q) − h(u) ≤ 0, donc P (Z ≤ u) ≤ α, donc P (Z < q) ≤ α en faisant tendre u vers q et
donc P (Z ≥ q) ≥ 1 − α.
Réciproquement, si P (Z ≤ q) ≥ α, alors pour tout v > q on a h(q) − h(v) ≤ 0, et si
P (Z ≥ q) ≥ 1 − α, pour tout u < q, h(q) − h(u) ≤ 0.

Exemple : dans le cas du modèle gaussien avec a priori gaussien, la médiane a pos-
teriori est égale à l’espérance a posteriori

61
8 Tests du rapport de vraisemblance et
théorie de Neyman-Pearson

8.1 Extension de la notion de test


On considère le modèle statistique (X , A, (Pθ )θ∈Θ ), Θ0 et Θ1 deux parties de Θ telles
que Θ0 ∩ Θ1 = ∅.
On veut tester H0 : ”θ ∈ Θ0 ” contre H1 : ”θ ∈ Θ1 ”.
Se rappeler ce qu’est un test φ(X), et toutes les notions liées.

On va étendre la notion de test, en particulier de façon à obtenir des tests de taille α


dans tous les cas.

Définition 8.1.1. Un test statistique de l’hypothèse H0 : “θ ∈ Θ000 contre l’alter-


native H1 : “θ ∈ Θ001 est une variable aléatoire φ fonction mesurable de l’observation
et à valeur dans [0, 1]. La règle de décision est la suivante : on rejette H0 avec probabi-
lité φ(X). En pratique, on génère une variable aléatoire U indépendante de X et de loi
uniforme sur [0, 1], et on rejette H0 si U ≤ φ(X).

On peut aussi considérer le test randomisé ψ(X, U ) = 1U ≤φ(X) , qui lui est à valeurs
dans {0, 1} et tel que φ(X) = E[ψ|X]. Le démontrer.

Définition 8.1.2. La taille du test est supθ∈Θ0 Eθ φ.


On appelle puissance du test la fonction θ 7→ Eθ φ.
On dit que le test est de niveau α si sa taille est majorée par α, ou autrement dit si la
fonction puissance, pour θ ∈ Θ0 , est majorée par α.

Démontrer que ces notions sont identiques si on les applique au test ou au test rando-
misé.

On va maintenant, comme pour les méthodes d’estimation, chercher des critères d’op-
timalité. De même qu’on a comparé les risques des estimateurs, on va comparer les
puissances des tests.

Définition 8.1.3. Le test φ est dit uniformément le plus puissant parmi les tests
de niveau α, soit UPP(α), si et seulement si φ est de niveau α et si pour tout test ψ
de niveau α, on a
∀θ ∈ Θ1 , Eθ ψ ≤ Eθ φ.

63
8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson

8.2 Cas de deux hypothèses simples


On étudie le cas où Θ0 = {θ0 } et Θ1 = {θ1 }. Soit µ une mesure dominant Pθ0 et Pθ1 ,
dP dP
et notons f0 = dµθ0 et f1 = dµθ1 .

Rappelons la notion de tests du rapport de vraisemblance (TRV). On l’avait défini


comme valant 1 lorsque f1 (X) > Cα f0 (X), avec

Cα = inf {C : Pθ0 (f1 (X) > Cf0 (X)) ≤ α} .

Rappeler pourquoi cet ensemble de C est de la forme [Cα , +∞[.

Lorsque le test est à valeurs dans {0, 1} cela suffit à le définir. Il vaut alors 0 sur
l’événement complémentaire.
On généralise la notion de test du rapport de vraisemblance en disant que c’est un test
tel que : il existe un réel sα tel que
— Le test vaut 1 sur l’événement ”supθ∈Θ1 fθ (X) > sα supθ∈Θ0 fθ (X),
— Le test vaut 0 sur l’événement ”supθ∈Θ1 fθ (X) < sα supθ∈Θ0 fθ (X),
— Et sur l’événement ”supθ∈Θ1 fθ (X) = sα supθ∈Θ0 fθ (X), le test vaut γ(X) ∈ [0, 1].

Proposition 8.2.1. Pour tout α ∈]0, 1[, il existe un test du rapport de vraisemblance
de taille α pour tester H0 :”θ = θ0 ” contre H1 :”θ = θ1 ” qui est

φα = 1f1 (X)>Cα f0 (X) + γ 1f1 (X)=Cα f0 (X)

avec γ = 0 si Pθ0 (f1 (X) = Cα f0 (X)) = 0 et

α − Pθ0 (f1 (X) > Cα f0 (X))


γ= ∈ [0, 1]
Pθ0 (f1 (X) = Cα f0 (X))

si Pθ0 (f1 (X) = Cα f0 (X)) > 0.

Preuve : On a Pθ0 (f1 (X) > Cα f0 (X)) ≤ α, et si C < Cα , Pθ0 (f1 (X) > Cf0 (X)) > α.
Donc en faisant tendre C vers Cα , on obtient

Pθ0 (f1 (X) ≥ Cα f0 (X)) ≥ α,

c’est à dire
Pθ0 (f1 (X) > Cα f0 (X)) + Pθ0 (f1 (X) = Cα f0 (X)) ≥ α,
ce qui prouve que γ ∈ [0, 1]. Puis

Eθ0 [φα ] = Pθ0 (f1 (X) > Cα f0 (X)) + γPθ0 (f1 (X) = Cα f0 (X))
= Pθ0 (f1 (X) > Cα f0 (X)) + α − Pθ0 (f1 (X) > Cα f0 (X)) = α.

64
8.2 Cas de deux hypothèses simples

Lemme 8.2.1 (Lemme de Neyman-Pearson). Soit α ∈]0, 1[. On suppose Pθ0 (f1 (X) >
0) > α. Alors φ est UPP(α) pour tester H0 :”θ = θ0 ” contre H1 :”θ = θ1 ” si et seulement
si φ est un test du rapport de vraisemblance de taille α. On dit alors que φ est NP(α).

Preuve : Soit ψ un test de niveau α. On a toujours (le vérifier région par région)

(ψ − φα ) (f1 − Cα f0 ) ≤ 0

donc en intégrant Z
(ψ − φα ) (f1 − Cα f0 ) dµ ≤ 0

soit
Eθ1 (ψ − φα ) ≤ Cα Eθ0 (ψ − φα ) ≤ 0
car Eθ0 ψ ≤ α et Eθ0 φα = α, et donc Eθ1 ψ ≤ Eθ1 φα , et donc φα est UPP(α).
Supposons maintenant que ψ est UPP(α). Alors Eθ1 ψ = Eθ1 φα , et donc

Cα Eθ0 (ψ − φα ) ≥ 0

et donc Cα Eθ0 (ψ − φα ) = 0 Comme Cα > 0 (puisque Pθ0 (f1 (X) > 0) > α) on obtient
Eθ0 ψ = Eθ0 φα = α. Du coup
Z Z
(ψ − 1) (f1 − Cα f0 ) dµ + (ψ) (f1 − Cα f0 ) dµ = 0,
f1 >Cα f0 f1 <Cα f0

ce qui montre que ψ = 1 sur l’événement ”f1 (X) > Cα f0 (X)” et ψ = 0 sur l’événement
”f1 (X) < Cα f0 (X)”, donc ψ est un test du rapport de vraisemblance de taille α.

Exemple : modèle gaussien. Ici Pθ = N (µ, 1)⊗n , θ = µ et Θ = R. Soient µ0 et µ1


deux réels. On montre facilement (le faire !) que :

Si µ1 > µ0 , le TRV(α) pour tester H0 : ”µ = µ0 ” contre H1 : ”µ = µ1 ” est

φα = 1X−µ0 >u1−α /√n

1 Pn
en notant X = n i=1 Xi et avec u1−α le quantile d’ordre 1 − α de N (0, 1).

De même si µ1 < µ0 , le TRV(α) pour tester H0 : ”µ = µ0 ” contre H1 : ”µ = µ1 ” est

ψα = 1X−µ0 <uα /√n

On remarque que ces tests ne dépendent de µ1 qu’à travers le signe de µ1 − µ0 . On


peut alors montrer que :

φα est UPP(α) pour tester H0 : ”µ = µ0 ” contre H1 : ”µ > µ0 ”,

65
8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson

ψα est UPP(α) pour tester H0 : ”µ = µ0 ” contre H1 : ”µ < µ0 ”,

et il n’existe pas de test UPP(α) pour tester H0 : ”µ = µ0 ” contre H1 : ”µ 6= µ0 ”.

(Ecrire la preuve de ces affirmations !).


Si l’on veut tester H0 : ”µ = µ0 ” contre H1 : ”µ 6= µ0 ”, on peut considérer le test

hα = 1X−µ0 >u1−α/2 /√n + 1X−µ0 <uα/2 /√n .

Faire la représentation graphique des courbes de puissance des trois tests φα , ψα et


hα . On pourra commencer par écrire les fonctions puissance de chacun des tests à l’aide
de la fonction de répartition de N (0, 1), et alors montrer que la fonction puissance de
φα est croissante et celle de ψα est décroissante.

8.3 Tests d’hypothèses multiples


On ne suppose plus que Θ0 et Θ1 sont réduits à un point. Existe-t-il alors un test
UPP(α) ? On vient de voir que non en général, mais que si l’on pouvait écrire le rap-
port de vraisemblance d’une certaine manière monotone on pouvait montrer que le test
UPP(α) pour des hypothèses simples le restait pour un test unilatère. On va généraliser
l’exemple gaussien.

On se place dans le cadre où : Θ est un intervalle de R, le modèle est dominé par une
mesure µ, et on note, pour tout θ, fθ = dP
dµ .
θ

Définition 8.3.1. On dit que la famille {fθ , θ ∈ Θ} est une famille à rapport mono-
tone si et seulement si il existe une statistique T (X), c’est à dire T : X → R mesurable
telle que : pour tout (θ1 , θ0 ) ∈ Θ2 tel que θ1 > θ0 , il existe une fonction Ψθ1 ,θ0 croissante
de R dans R telle que pour tout x tel que fθ0 (x) > 0 ou fθ1 (x) > 0 :
fθ1
(x) = Ψθ1 ,θ0 (T (x)) .
fθ0

Remarquons que quitte à considérer −T (X), on ne perd pas en généralité en ne


considérant que des fonctions croissantes. Noter aussi que si θ1 < θ0 ,
fθ1 1
(x) =
fθ0 Ψθ0 ,θ1 (T (x))

qui est une fonction décroissante de T (x).

Théorème 8.3.1. Soit α ∈]0, 1[ et {fθ , θ ∈ Θ} une famille à rapport monotone. Soit
θ0 ∈ Θ et soit θ0 ∈ Θ tel que θ0 > θ0 . Alors
1. Le TRV(α) de H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 ” ne dépend pas de θ0 .On peut le
noter φθ0 ,α .

66
8.3 Tests d’hypothèses multiples

2. La fonction θ 7→ Eθ [φθ0 ,α ] est croissante.


3. Le test φθ0 ,α est UPP(α) pour tester H0 : ”θ ≤ θ0 ” contre H1 : ”θ > θ0 .
Si maintenant θ0 ∈ Θ est tel que θ0 < θ0 , alors
1bis. Le TRV(α) de H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 ” ne dépend pas de θ0 .On peut
le noter ψθ0 ,α .
2bis. La fonction θ 7→ Eθ [ψθ0 ,α ] est décroissante.
3bis. Le test ψθ0 ,α est UPP(α) pour tester H0 : ”θ ≥ θ0 ” contre H1 : ”θ < θ0 .

Preuve : Montrons 1. Soit φ un TRV(α) de H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 ”. Alors,


il existe sα tel que :
— φ(X) = 1 si fθ0 (X) > sα fθ0 (X),
— φ(X) = 0 si fθ0 (X) < sα fθ0 (X),
— Eθ0 [φ(X)] = α.
Maintenant, comme {fθ , θ ∈ Θ} est une famille à rapport monotone, il existe un réel cα
et un réel γ tel que
φ = 1T (X)>cα + γ 1T (X)=cα
est un TRV(α) de H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 ”. On peut par exemple choisir

cα = inf{c : Pθ0 (T (X) > c) ≤ α},

puis γ = 0 si Pθ0 (T (X) = cα ) = 0 et

α − Pθ0 (T (X) > cα )


γ=
Pθ0 (T (X) = cα )

si Pθ0 (T (X) = cα ) > 0. cα et γ ne dépendent que de θ0 et α. On a donc montré 1.

Montrons maintenant 2. Soient θ1 et θ2 deux éléments de Θ tels que θ1 < θ2 . Alors


φθ0 ,α est un test du rapport de vraisemblance de H0 : ”θ = θ1 ” contre H1 : ”θ = θ2 ”
(dire pourquoi) de taille

a = Pθ1 (T (X) > cα ) + γPθ1 (T (X) = cα ) = Eθ1 [φθ0 ,α (X)].

Donc il est NP(a) et UPP(a) pour tester H0 : ”θ = θ1 ” contre H1 : ”θ = θ2 ”, et donc il


est plus puissant que le test constant égal à a, donc Eθ2 [φθ0 ,α (X)] ≥ a, soit

Eθ1 [φθ0 ,α (X)] ≤ Eθ2 [φθ0 ,α (X)]

et on a ainsi montré 2.
Montrons enfin 3. Tout d’abord, pour tout θ ≤ θ0 , Eθ [φθ0 ,α (X)] ≤ Eθ0 [φθ0 ,α (X)] = α et
donc φθ0 ,α est un test de taille α pour tester H0 : ”θ ≤ θ0 ” contre H1 : ”θ > θ0 . Soit φ
un test de niveau α pour tester H0 : ”θ ≤ θ0 ” contre H1 : ”θ > θ0 . Alors, si θ0 > θ0 , φ
est un test de niveau α pour tester H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 . Mais φθ0 ,α est
UPP(α) pour tester H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 , donc Eθ0 [φ(X)] ≤ Eθ0 [φθ0 ,α (X)].
Ceci étant vrai pour tout θ0 > θ0 , on a montré que φθ0 ,α est UPP(α) pour tester H0 :

67
8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson

”θ ≤ θ0 ” contre H1 : ”θ > θ0 .
Les preuves de 1bis, 2bis, 3bis sont analogues.

Revenons maintenant à la question concernant le test bilatère. On a vu dans le cas


gaussien qu’il n’existait pas de test UPP(α). Par les mêmes arguments, pour une famille
à rapport monotone, pour tout θ0 , il n’existe pas de test UPP(α) de ”θ = θ0 ” contre
”θ 6= θ0 ”. On va néanmoins montrer, dans le cas gaussien, qu’en se restreignant aux tests
dont la puissance est au moins égale à la taille, on a un test optimal.

Définition 8.3.2. On dit que le test φ de H0 : ”θ ∈ Θ0 ” contre H1 : ”θ ∈ Θ1 ” est un


test sans biais si et seulement si

sup Eθ [φ(X)] ≤ inf Eθ [φ(X)].


θ∈Θ0 θ∈Θ1

Proposition 8.3.1. Un test UPP est sans biais.

Preuve : car il est plus puissant que le test constant égal à sa taille.

Définition 8.3.3. Le test φ est dit uniformément le plus puissant parmi les tests
sans biais de niveau α, soit UPPB(α), pour tester H0 contre H1 si et seulement si
φ est un test sans biais et de niveau α pour tester H0 contre H1 tel que, si ψ est un test
sans bais de niveau α pour tester H0 contre H1 , alors Eθ1 φ ≥ Eθ1 ψ.

Revenons au modèle gaussien, et considérons le test de H0 : ”µ = µ0 ” contre H1 :


”µ 6= µ0 ” donné par

hα = 1X−µ0 >u1−α/2 /√n + 1X−µ0 <uα/2 /√n .

On a pour tout µ, en notant π(µ) = Eµ (hα ), F la fonction de répartition de N (0, 1) et


u = u1−α/2 = −uα/2 :
√ √
π(µ) = F (−u − n(µ − µ0 )) + 1 − F (u − n(µ − µ0 ))

(Le démontrer), et donc la dérivée de π est (faire le calcul !)


√ 
√ √

0 n 1 2 1 2
π (µ) = √ exp[− (u − n(µ − µ0 )) ] − exp[− (u + n(µ − µ0 )) ] ,
2π 2 2

et donc (le vérifier) π 0 (µ) ≤ 0 pour µ ≤ µ0 et π 0 (µ) ≥ 0 pour µ ≥ µ0 , donc π est


minimum en µ = µ0 et donc hα est un test sans biais de H0 : ”µ = µ0 ” contre H1 :
”µ 6= µ0 ”.

Proposition 8.3.2. Le test hα est UPPB(α) pour tester H0 : ”µ = µ0 ” contre H1 :


”µ 6= µ0 ”.

68
8.3 Tests d’hypothèses multiples

Preuve :
Tout d’abord, quitte à considérer θ = µ − µ0 , on peut considérer que µ0 = 0 sans perte
de généralité.
Soit φ un test sans biais pour tester H0 : ”µ = 0” contre H1 : ”µ 6= 0”. On a alors

E0 [φ] ≤ α et ∀µ ∈ R, Eµ [φ] ≥ α.
R
Mais la fonction µ 7→ Eµ [φ(X)] est dérivable, de dérivée φ(x1 , . . . , xn )ṗµ (x1 , . . . , xn )dx1 · · · dxn ,
où l’on note pµ (x1 , . . . , xn ) la densité de N (µ, 1)⊗n par rapport à Lebesgue et ṗµ (x1 , . . . , xn )
sa dérivée par rapport à µ. (Démontrer cette affirmation). La fonction µ 7→ Eµ [φ(X)]
ayant un minimum en 0, sa dérivée s’y annule, et donc pour tout test φ sans biais de
H0 : ”µ = 0” contre H1 : ”µ 6= 0” on a
Z
φ(x1 , . . . , xn )ṗ0 (x1 , . . . , xn )dx1 · · · dxn = 0. (8.1)

En particulier, E0 [φ] = α par continuité.

On va maintenant montrer que pour tout réel µ, il existe des réels k1 > 0 et k2 > 0
tels que

hα (x1 , . . . , xn ) = 0 ⇐⇒ pµ (x1 , . . . , xn ) − k1 p0 (x1 , . . . , xn ) − k2 ṗ0 (x1 , . . . , xn ) ≤ 0. (8.2)

Notons tout d’abord que


Pn
i=1 xi

hα (x1 , . . . , xn ) = 0 ⇐⇒ ≤ u.
n

Soit µ un réel fixé, et notons f (x; k1 , k2 ) la fonction telle que


 Pn 
i=1 xi

pµ (x1 , . . . , xn )−k1 p0 (x1 , . . . , xn )−k2 ṗ0 (x1 , . . . , xn ) = p0 (x1 , . . . , xn )f ; k1 , k2 .
n

On a √ n 2 √
f (x; k1 , k2 ) = exp nµx − µ − k1 + k2 nx,
2
dont la dérivée (en tant que fonction de x) est
√ √ n  √
f 0 (x; k1 , k2 ) = nµ exp nµx − µ2 + k2 n.
2
On voit que si µ et k2 sont non nuls et de signe contraire, alors f est décroissante puis
croissante, et pour que (8.2) soit vérifié, il suffit que u et −u soient les deux zéros de f .
Autrement dit, il suffit de trouver k1 et k2 tels que f (u; k1 , k2 ) = 0 et f (−u; k1 , k2 ) = 0
et k2 de signe contraire de µ. Or, f (u; k1 , k2 ) = 0 et f (−u; k1 , k2 ) = 0 si et seulement si
√ √ n 
k1 − k2 nu = exp nµu − µ2
2

69
8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson

et √  √ n 
k1 + k2 nu = exp − nµu − µ2
2
qui a une solution unique (k1 , k2 ) qui vérifie bien le fait que k2 est de signe contraire de
µ. (Faire le calcul pour le vérifier). Par ailleurs, k1 > 0. (Faire le calcul pour le vérifier).
Maintenant, si φ est un test sans biais de H0 : ”µ = 0” contre H1 : ”µ 6= 0” on a dans
tous les cas
(hα − φ) (pµ − k1 p0 − k2 ṗ0 ) ≥ 0,
et donc en utilisant (8.1)

Eµ [hα − φ] ≥ k1 E0 [hα − φ] = 0,

et donc Eµ [hα ] ≥ Eµ [φ].


Ceci étant vrai pour tout réel µ, on a bien montré que hα est UPPB(α).

70
9 Etude des estimateurs sans biais
Soit le modèle (X , A, (Pθ )θ∈Θ ), et X l’observation.
Soit g une fonction de Θ dans Rk .
On va s’intéresser aux estimateurs sans biais U (X) de g(θ), c’est-à-dire qui vérifient

∀θ ∈ Θ, Eθ [U (X)] = g(θ).

9.1 Exhaustivité et estimateurs UVMB


On cherche à résumer l’information sur le modèle contenue dans l’observation par
une statistique T (X), i.e. à voir si il existe une telle statistique telle que toute bonne
procédure d’estimation ou de test soit fonction de cette statistique. (Se rappeler les
méthodes vues précédemment).

9.1.1 Exemple du modèle de Bernoulli


Ici le modèle est donné par X = {0, 1}n , Pθ = B(θ)⊗n , θ ∈ [0, 1], X = (X1 , . . . , Xn ).
Toutes lesP procédures que l’on a vues pour estimer ou tester θ étaient fonction de
T (X) = ni=1 Xi .

Soit U (X) un estimateur, pour obtenir à partir de U un estimateur T (X)-mesurable,


on peut considérer
V (X) = Eθ [U (X)|T (X)].
Si U (X) est un estimateur sans biais de g(θ), alors V (X) vérifie Eθ [V (X)] = g(θ)
(l’écrire). Mais pour que ce soit vrai pour tout θ, il faut que V (X) ne dépende pas de θ,
ce qui n’a a priori aucune raison d’être vrai.

Ici, pour calculer V (X), on peut procéder à l’aide de la loi conditionnelle comme vu
au chapitre précédent (Rappeler pourquoi/comment). On a, pour tout (x1 , . . . , xn ) ∈ X ,
pour tout k ∈ {0, . . . , n} (Le démontrer) :

si Pni=1 xi 6= k
 P
 0

 1  n
Pθ ((X1 , . . . , Xn ) = (x1 , . . . , xn )|T (X) = k) = si i=1 xi = k
 
n 
k

On obtient alors que Eθ [U (X)|T (X)] ne dépend pas de θ.


On peut alors conclure que, si U (X) est un estimateur sans biais de g(θ), alors V (X) =
Eθ [U (X)|T (X)] est un estimateur sans biais de g(θ). De plus, pour le risque quadratique,

71
9 Etude des estimateurs sans biais

V (X) est aussi bon que U (X), et meilleur que U (X) si U (X) n’est pas T (X)-mesurable
(Le démontrer).

On va maintenant construire un cadre qui généralise cette situation.

9.1.2 Exhaustivité
On va maintenant construire un cadre qui généralise cette situation. On suppose main-
tenant que le modèle est dominé. Soit µ une mesure dominante.

Définition 9.1.1. Une statistique T (X) est dite statistique exhaustive si, pour tout
ensemble mesurable A, il existe une version de Eθ (1A (X)|T (X)) qui ne dépend pas de
θ.
Autrement dit, pour tout ensemble mesurable A, il existe une fonction φA telle que

∀θ ∈ Θ, Eθ (1A (X)|T (X)) = φA (T (X)) Pθ − p.s.

Cette notion est intrinsèque au modèle et ne dépend pas de ce que l’on cherche à
estimer.
Si on peut définir une loi de X conditionnelle à T (X), et que cette loi conditionnelle ne
dépend pas de θ, alors T (X) est une statistique exhaustive.

Dans cette définition, il se pourrait que l’événement sur lequel l’égalité est vérifiée (et
qui est de mesure 1 pour Pθ ) dépende de θ. Mais on va montrer qu’il n’y a en fait aucune
dépendence en θ.
Pour cela, on considère une dominante privilégiée P comme on a construit au chapitre
2, c’est à dire une probabilité P qui s’écrit
X
P = αθ Pθ (9.1)
θ∈D

où D est une partie au plus dénombrable de Θ, et où les αθ sont > 0 et de somme
totale égale à 1, telle que P domine tous les Pθ et telle que pour tout événement A,
P (A) = 0 ⇐⇒ ∀θ ∈ Θ, Pθ (A) = 0.
Alors, ”pour tout θ, Pθ -p.s. équivaut à P -p.s.”.

Lemme 9.1.1. Si T (X) est une statistique exhaustive, et P dominante privilégiée de


forme (9.1), alors pour tout ensemble mesurable A

∀θ ∈ Θ, Eθ (1A (X)|T (X)) = EP (1A (X)|T (X)) P − p.s.

Preuve : Pour tout ensemble mesurable A, notons φA la fonction telle que

∀θ ∈ Θ, Eθ (1A (X)|T (X)) = φA (T (X)) Pθ − p.s..

72
9.1 Exhaustivité et estimateurs UVMB

Pour toute fonction h mesurable bornée on a


X
EP (φA (T (X))h(T (X))) = αθ Eθ (φA (T (X))h(T (X)))
θ∈D

αθ Eθ (1A (X)h(T (X)))


X
=
θ∈D
= EP (1A (X)h(T (X)))
On va maintenant montrer que l’exhausitivité se lit sur la vraisemblance. Pour cela
on va avoir besoin de l’outil général suivant.
Lemme 9.1.2 (Lemme de changement de loi). Soient P et Q deux probabilités définies
sur un même espace probabilisable et telles que Q << P . Soit Y une variable aléatoire
Q-intégrable. Alors
1. On a  
dQ
EQ (Y ) = EP Y ,
dP
2. Et pour toute variable aléatoire T ,
 
EP Y dQdP |T
EQ (Y |T ) =  1E dQ |T >0 .
P ( dP )

dQ
EP dP |T

Preuve :  
Pour le point 1., on écrit EQ (Y ) = ydQ(y) = y dQ dQ
R R
dP (y)dP (y) = EP Y dP .
Montrons maintenant le point 2. Notons alors
 
EP Y dQdP |T
φ(T ) =  1E dQ |T >0 .
P ( dP )

dQ
EP dP |T

Commençons par montrer que φ(T ) est Q-intégrable. En utilisant le point 1. on a


 
dQ
EQ (|Y ]) = EP |Y |
dP
puis
  
dQ
EQ (|Y ]) = EP EP |Y | |T
dP
   
dQ
≥ EP |EP Y |T |
dP
  
dQ
≥ EP |φ(T )|EP |T
dP
 
dQ
= EP |φ(T )|
dP
= EQ (|φ(T )|).

73
9 Etude des estimateurs sans biais

On va maintenant montrer que pour toute fonction mesurable bornée h, EQ (h(T )φ(T )) =
EQ (Y h(T ).
Soit donc h une fonction mesurable bornée quelqconque.
On a en utilisant le point 1
 
dQ
EQ (h(T )φ(T )) = EP h(T )φ(T ) .
dP

Puis
  
dQ
EQ (h(T )φ(T )) = EP EP h(T )φ(T ) |T
dP
    
EP Y dQ dP |T dQ
 1E dQ |T >0
= EP EP h(T ) P ( dP ) dP |T
 
dQ
EP dP |T
   
EP Y dQdP |T 
dQ

= EP h(T )  1E dQ |T >0 EP |T 
P ( dP )

dQ
EP dP |T dP
   
dQ
= EP h(T )EP Y |T 1EP ( dQ |T )>0
dP dP
 
dQ
= EP h(T )Y 1 dQ
dP EP ( dP |T )>0
h i
= EQ h(T )Y 1EP ( dQ |T )>0
dP

en utilisant de nouveau le point 1. Mais


 
h i dQ
EQ 1EP ( dQ |T )>0 = EP 1 dQ
dP dP EP ( dP |T )>0
   
dQ
= EP EP |T 1EP ( dQ |T )>0
dP dP
  
dQ
= EP EP |T
dP
= 1,

et donc
1EP ( dQ |T )>0 = 1 Q − p.s.
dP

On a donc h i
EQ h(T )Y 1EP ( dQ |T )>0 = EQ [h(T )Y ]
dP

et l’on a bien montré que EQ (h(T )φ(T )) = EQ (Y h(T ).

Théorème 9.1.1 (Théorème de factorisation). Soit T (X) une statistique et P domi-


nante privilégiée de forme (9.1). Les trois assertions suivantes sont équivalentes

74
9.1 Exhaustivité et estimateurs UVMB

— (i) T (X) est une statistique exhaustive.


— (ii) Pour tout θ, dPdP est T (X)-mesurable.
θ

— (iii) Il existe une fonction mesurable ` et pour tout θ, une fonction mesurable hθ
tel que
dPθ
∀θ ∈ Θ, (x) = hθ (T (x))`(x).

Preuve :
Montrons (ii) =⇒ (iii). La dominante privilégiée P vérifie P << µ, et donc
dPθ dPθ dP
= .
dµ dP dµ
Montrons maintenant (iii) =⇒ (i). Supposons donc qu’il existe une fonction mesurable
` et pour tout θ, une fonction mesurable hθ tel que
dPθ
∀θ ∈ Θ, (x) = hθ (T (x))`(x).

On commence par construire ν une probabilité telle que µ << ν. (Proposer une telle
˜ = `(x) dµ (x),
construction). On a alors, en notant `(x) dν

dPθ ˜
∀θ ∈ Θ, (x) = hθ (T (x))`(x).

Soit A un ensemble mesurable quelconque. Par le lemme de changement de loi, on a
 
Eν dν 1A (X)|T (X)
dPθ

Eθ (1A (X)|T (X)) =   1Eν  dPθ |T (X)>0


dPθ
Eν dν |T (X) dν

 
˜
Eν `(X) 1A (X)|T (X)
=   1hθ (T (X))Eν (`(X)|T
˜ (X))>0 .
˜
Eν `(X)|T (X)

Mais   Z
dPθ dPθ
Pθ (hθ (T (X)) = 0) ≤ Pθ = 0 = dP dν = 0,
dν θ =0 dν

et donc Pθ (hθ (T (X)) > 0) = 1, et donc Pθ -p.s.


 
˜
Eν `(X) 1A (X)|T (X)
Eθ (1A (X)|T (X)) =   1Eν (`(X)|T
˜ (X))>0
˜
Eν `(X)|T (X)

et donc
 
˜
Eν `(X) 1A (X)|T (X)
Eθ (1A (X)|T (X)) =   1Eν (`(X)|T
˜ (X))>0 P − p.s.
˜
Eν `(X)|T (X)

75
9 Etude des estimateurs sans biais

Montrons enfin (i) =⇒ (ii). On suppose que T (X) est une statistique exhaustive. Soit A
un ensemble mesurable quelconque. On a

Pθ (A) = Eθ (Eθ (1A |T (X)))


 
dPθ
= EP Eθ (1A |T (X))
dP
 
dPθ
= EP EP (1A |T (X))
dP
car T (X) est une statistique exhaustive. Mais
   
dPθ dPθ
EP EP (1A |T (X)) = EP EP ( |T (X))1A .
dP dP
On a donc montré que pour tout ensemble mesurable A,
 
dPθ
Pθ (A) = EP EP ( |T (X))1A ,
dP
ce qui montre que
dPθ dPθ
= EP ( |T (X))
dP dP
dPθ
c’est-à-dire que dP est T (X)-mesurable.
Proposition 9.1.1. Si T (X) est une statistique exhaustive et U (X) une variable aléatoire
Pθ -intégrable, alors Eθ [U (X)|T (X)] ne dépend pas de θ.
dPθ
Preuve : Par le théorème de factorisation, pour tout θ, dP est T (X)-mesurable et
donc il existe une fonction mesurable hθ telle que
dPθ
∀θ ∈ Θ, (x) = hθ (T (x)).
dP
Par le lemme de changement de loi, on a
 
EP dP dP
θ
U (X)|T (X)
Eθ (U (X)|T (X)) =   1  dPθ 
dPθ EP dP |T (X) >0
EP dP |T (X)
= EP (U (X)|T (X)) 1hθ (T (X))>0 .

Mais   Z
dPθ dPθ
Pθ (hθ (T (X)) = 0) ≤ Pθ = 0 = dP dP = 0,
dP θ =0 dP
dP

et donc Pθ (hθ (T (X)) > 0) = 1, et donc Pθ -p.s.

Eθ (U (X)|T (X)) = EP (U (X)|T (X))

et donc
Eθ (U (X)|T (X)) = EP (U (X)|T (X)) P − p.s.

76
9.1 Exhaustivité et estimateurs UVMB

Théorème 9.1.2. On considère une fonction de perte L donnée par L(u, v) = ψ(u −
v) où ψ est une fonction convexe. Si T (X) est une statistique exhaustive et U (X) un
estimateur de g(θ), alors

∀θ ∈ Θ, R(θ, U ) ≥ R(θ, Eθ [U |T ]),

et si ψ est strictement convexe et si U (X) n’est pas T (X)-mesurable, alors

∀θ ∈ Θ, R(θ, U ) > R(θ, Eθ [U |T ]).

On en déduit que V (X) = Eθ [U |T ] est un estimateur de g(θ) aussi bon que U , et


meilleur que U si ψ est strictement convexe et si U (X) n’est pas T (X)-mesurable.

Preuve : Par l’inégalité de Jensen,

∀θ ∈ Θ, Eθ [ψ(U − g(θ))|T ] ≥ ψ(Eθ [U − g(θ)|T ]),

et l’on obtient la première inégalité du théorème en prenant l’espérance de cette inégalité.


Dans l’inégalité de Jensen, on a égalité si et seulement si

U − g(θ) = Eθ [U − g(θ)|T ] Pθ − p.s.

9.1.3 Estimateurs UVMB


On suppose ici que g(θ) est un réel, que la perte est la perte quadratique, i.e. L(u, v) =
(u − v)2 . On a alors pour tout estimateur U (X), par la décomposition biais/variance :

R(θ, U ) = V arθ (U ) + (Eθ (U ) − g(θ))2 .

Définition 9.1.2. Un estimateur U (X) de g(θ) est dit Uniformément de Variance


Minimale parmi les estimateurs sans Biais (UVMB) si et seulement si il est sans
biais, et aussi bon que tout estimateur sans biais, c’est-à-dire :

∀θ ∈ Θ, Eθ (U ) = g(θ)

et si V (X) est un estimateur sans biais de g(θ), alors

∀θ ∈ Θ, R(θ, U ) ≤ R(θ, V ).

Remarquons qu’il n’existe pas toujours d’estimateur sans biais. Par exemple, si Θ =
R∗+ et Pθ est la loi exponentielle de paramètre θ, dire que U est un estimateur sans biais
de θ signifie Z +∞
∀θ > 0, U (x)θe−θx dx = θ
0
soit Z +∞
∀θ > 0, U (x)e−θx dx = 1.
0

77
9 Etude des estimateurs sans biais

R +∞ R +∞
Si l’on pose pour θ > 0, h(θ) = 0 U (x)e−θx dx, on a |h(θ)| ≤ 0 |U (x)|e−θx dx. Par
Beppo-Levi, on a Z +∞
lim |U (x)|e−θx dx = 0,
θ→+∞ 0

donc limθ→+∞ h(θ) = 0.

Si U (X) est un estimateur sans biais de g(θ) et que T (X) est une statistique exhaus-
tive, alors Eθ (U |T ) (qui ne dépend pas de θ) est un estimateur sans biais de g(θ) aussi
bon que U (de risque quadratique majoré par celui de U ). Est-il UVMB ?
Définition 9.1.3. On suppose Θ ⊂ Rd , pas nécessairement avec d = 1.
Une statistique T (X) est une statistique complète si, pour toute fonction mesurable
φ à valeurs dans R telle que φ(T (x)) ∈ L1 (Pθ ) pour tout θ ∈ Θ, vérifiant

∀θ ∈ Θ, Eθ [φ(T (X))] = 0,

on a
∀θ ∈ Θ, φ(T (X)) = 0 Pθ − p.s.
Proposition 9.1.2. Si T (X) est une statistique exhaustive et complète, alors il existe
au plus un estimateur de g(θ) qui soit sans biais et fonction de T (X).
Preuve : Soient U1 et U2 des estimateurs sans biais de g(θ) qui sont fonction de T (X).
Alors U1 − U2 est fonction de T (X), donc il existe une fonction mesurable φ telle que
U1 − U2 = φ(T (X)). Mais

∀θ ∈ Θ, Eθ [φ(T (X))] = Eθ (U1 ) − Eθ (U2 ) = g(θ) − g(θ) = 0

car U1 et U2 sont des estimateurs sans biais de g(θ), et donc

∀θ ∈ Θ, φ(T (X)) = 0 Pθ − p.s.

car T (X) est complète, et donc

∀θ ∈ Θ, U1 = U2 = Eθ (U1 |T (X)) Pθ − p.s.

ne dépend pas de θ car T (X) est exhaustive.


Théorème 9.1.3. On suppose que T (X) est une statistique exhaustive et complète, et
qu’il existe un estimateur sans biais de g(θ) U (X). Alors V = Eθ [U |T ] est l’unique
UVMB de g(θ).
Preuve : Soit U 0 un estimateur sans biais de g(θ). Alors par le Théorème 9.1.2, on a

∀θ ∈ Θ, R(θ, U 0 ) ≥ R(θ, Eθ [U 0 |T ]).

Mais par la proposition précédente, V = Eθ [U |T ] est l’unique estimateur sans biais de


g(θ) donc Eθ [U 0 |T ] = Eθ [U |T ] et donc

∀θ ∈ Θ, R(θ, U 0 ) ≥ R(θ, V ).

78
9.1 Exhaustivité et estimateurs UVMB

9.1.4 Modèle exponentiel


On considère le modèle donné par
dPθ
(x) = h(x) exp {hQ(θ), T (x)i − ψ(θ)}

où Q : Θ → Rk , T : X → Rk est mesurable, et


Z 
∀θ ∈ Θ, ψ(θ) = log h(x) exp {hQ(θ), T (x)i} dµ(x) .

Quitte à poser dν = hdµ, on peut supposer sans perte de généralité que h(x) = 1,
autrement dit que
dPθ
(x) = exp {hQ(θ), T (x)i − ψ(θ)} (9.2)

et Z 
∀θ ∈ Θ, ψ(θ) = log exp {hQ(θ), T (x)i} dµ(x) . (9.3)

On a

Théorème 9.1.4. Dans le modèle donné par (9.2), si Q(Θ) est d’intérieur non vide,
alors T (X) est une statistique exhaustive et complète.

Preuve : Tout d’abord, T (X) est une statistique exhaustive par le Théorème de
factorisation.
Puis, soit φ une fonction mesurable telle que pour tout θ ∈ Θ, φ(T (x)) ∈ L1 (Pθ ), et que

∀θ ∈ Θ, Eθ [φ(T (X))] = 0.

On a alors
Z Z
∀θ ∈ Θ, φ(T (x))+ exp {hQ(θ), T (x)i − ψ(θ)} dµ(x) = φ(T (x))− exp {hQ(θ), T (x)i − ψ(θ)} dµ(x)
X X

et donc
Z Z
∀θ ∈ Θ, φ(T (x))+ exp {hQ(θ), T (x)i} dµ(x) = φ(T (x))− exp {hQ(θ), T (x)i} dµ(x).
X X

On note µ+T la mesure positive de densité φ+ par rapport à la mesure image de µ par T ,
et µ−
T la mesure positive de densité φ− par rapport à la mesure image de µ par T . On a
alors Z Z
∀θ ∈ Θ, exp {hQ(θ), ti} dµ+T (t) = exp {hQ(θ), ti} dµ−
T (x).
Rk Rk

Par le lemme 9.1.3 qui suit, comme Q(Θ) est d’intérieur non vide, on obtient µ+T = µT ,
donc φ(T (x))+ = φ(T (x))− µ-p.p., soit φ(T (x)) = 0 µ-p.p., et donc φ(T (x)) = 0 Pθ -p.s.
pour tout θ ∈ Θ, et T (X) est une statistique exhaustive et complète.

79
9 Etude des estimateurs sans biais

Lemme 9.1.3. Soient µ et ν deux mesures positives sur Rk . On suppose qu’il existe un
ouvert A de Rk tel que
Z Z
∀s ∈ A, exp {hs, xi} dµ(x) = exp {hs, xi} dν(x).

Alors, µ = ν.

Preuve : Soit s0 un point de A, et δ > 0 tel que la boule centrée en s0 et de rayon


2δ soit incluse dans A. Tout d’abord, on a
Z Z
exp {hs0 , xi} dµ(x) = exp {hs0 , xi} dν(x) = C0 ,

donc en notant P la probabilité de densité exp {hs0 , xi} /C0 par rapport à µ et Q la
probabilité de densité exp {hs0 , xi} /C0 par rapport à ν, on a pour tout u ∈ Rk tel que
kuk ≤ 2δ, Z Z
exp {hu, xi} dP (x) = exp {hu, xi} dQ(x).

Soit t ∈ RRk quelconque non nul. On note h la fonction de la variable complexe z définie
par z 7→ exp {zht, xi} dP (x). Alors la fonction h est holomorphe sur le domaine {z ∈
C : |Re(z)| ≤ δ/ktk} (Le démontrer
R !). De même, si g est la fonction de la variable
complexe z définie par z 7→ exp {zht, xi} dQ(x), la fonction g est holomorphe sur le
domaine {z ∈ C : |Re(z)| ≤ δ/ktk}. Par ailleurs, h et g coincident sur l’ensemble des z
réels dans ] − δ/ktk δ/ktk[. Donc h = g sur le domaine {z ∈ C : |Re(z)| < δ/ktk}, et donc
en particulier sur l’ensemble des imaginaires purs, et donc en particulier pour z = i, et
donc Z Z
exp {iht, xi} dP (x) = exp {iht, xi} dQ(x).

Ceci est vrai pour tout t ∈ Rk , donc P et Q ont même fonction caractéristique, donc
P = Q et donc µ = ν.

Exemples : dans chacun des cas suivant montrer qu’il s’agit d’un modèle exponentiel,
identifier θ, Q(θ), T (X), dire si il s’agit d’une statistique exhaustive complète.
— Modèle de Bernoulli
— Modèle de Poisson
— Modèle linéaire gaussien

9.2 Efficacité
9.2.1 Score et information de Fisher
Soit (X , A, (Pθ )θ∈Θ ), Θ ⊂ Rk , un modèle dominé et µ une mesure dominante. On note
fθ = dP
dµ . On suppose :
θ

— (S) : ∀θ ∈ Θ, ∀x ∈ X , fθ (x) > 0.

80
9.2 Efficacité

Sous cette hypothèses, les probabilités Pθ sont équivalentes (= mutuellement absolu-


ment continues).
On peut alors définir
`θ = log fθ .

Si pour tout x ∈ X , θ 7→ fθ (x) est différentiable, on pose


 T
∂`θ ∂`θ
`˙θ = ;···;
∂θ1 ∂θk

le vecteur gradient, que l’on appelle fonction score ou simplement score.

Remarquons que le score ne dépend pas de la mesure dominante : si P est une domi-
nante privilégiée, P est absolument continue par rapport à µ, donc

dPθ dP
`θ = log + log
dP dµ

et donc le score est, pour toute mesure dominante µ, le gradient de log dP


dP .
θ

Par ailleurs, on a, en notant f˙θ le gradient (vecteur des dérivées partielles) de fθ par
rapport à la variable θ,
f˙θ
`˙θ = .

On a donc, si `˙θ ∈ L1 (Pθ ),


Z
Eθ [`˙θ (X)] = f˙θ (x)dµ(x).

R
Comme la fonction θ 7→ fθ (x)dµ(x) est une fonction constante (égale à 1), on voit que si
on peut échanger dérivation et intégration (dériver sous le signe somme), Eθ [`˙θ (X)] = 0
(le score est centré).

Définition 9.2.1. On suppose (S), que Eθ [`˙θ (X)] = 0 et que Eθ [k`˙θ (X)k2 ] < ∞. Alors
la matrice de variance de `˙θ est appelée information de Fisher en θ et notée Iθ , on
a, comme le score est centré,

Iθ = Eθ [`˙θ (X)`˙Tθ (X)].

C’est une matrice k × k.

Remarquons que, comme toute matrice de variance, Iθ est semi-définie positive.

81
9 Etude des estimateurs sans biais

9.2.2 Inégalité de Cramer-Rao


On considère maintenant que l’on veut estimer g(θ) où g est une fonction de Θ dans R.

R est un estimateur sans biais de g(θ), on a pour tout θ ∈ Θ, Eθ (U (X)) =


Si U (X)
g(θ) = U (x)fθ (x)dµ(x). Pour simplifier, regardons le cas où k = 1, et supposons g
dérivable.R Si on peut dériver sous
R le signe somme, on a
g 0 (θ) = U (x)f˙θ (x)dµ(x) = U (x)`˙θ (x)fθ (x)dµ(x) = Eθ [U (X)`˙θ (X)]. Comme `˙θ (X)
est centré, on a aussi g 0 (θ) = Eθ [(U (X) − g(θ))`˙θ (X)], et par Cauchy-Schwarz,
2
g 0 (θ) ≤ V arθ (U (X)) Iθ ,
et donc, si Iθ > 0, V arθ (U (X)) ≥ (g 0 (θ))2 /Iθ .
On peut généraliser cela en dimension k quelconque. On note ∇g(θ) le vecteur gradient
de g(θ).
Théorème 9.2.1 (Inégalité de Cramer-Rao). On suppose que Θ est un ouvert de Rk ,
et on suppose (S). On suppose que pour tout x ∈ X , θ 7→ fθ (x) est différentiable, et que
pour tout θ ∈ Θ
— Eθ [`˙θ (X)] = 0,
— Eθ [k`˙θ (X)k2 ] < ∞,
— l’information de Fisher Iθ est inversible.
On suppose que θ 7→ g(θ) est différentiable, et que U (X) est un estimateur sans biais de
g(θ) tel que pour tout θ ∈ Θ, ∇g(θ) = Eθ [U (X)`˙θ (X)]. Alors
∀θ ∈ Θ, V arθ (U (X)) ≥ ∇g(θ)T Iθ−1 ∇g(θ).
Preuve : Soit a ∈ Rk tel que a 6= 0. On a
∇g(θ)T a = Eθ [(U (X)`˙θ (X))T a]
= Eθ [(U (X)`˙θ (X))T a] − g(θ)Eθ [`˙θ (X)T a]
= Eθ [(U (X) − g(θ))`˙θ (X)T a]
car le score est centré. Donc par Cauchy-Schwarz,
2
∇g(θ)T a ≤ V arθ (U (X))Eθ [(`˙θ (X)T a)2 ].
Mais
Eθ [(`˙θ (X)T a)2 ] = aT Iθ a > 0
(Dire pourquoi) car Iθ inversible. On a donc montré
2
k ∇g(θ)T a
∀a ∈ R : a 6= 0, V arθ (U (X)) ≥
aT Iθ a
et en prenant a = Iθ−1 ∇g(θ) le théorème s’en déduit.

On peut montrer que l’on a obtenu la meilleur borne inférieure possible, c’est à dire
que le supremum en a de la borne inférieure est atteint en a = Iθ−1 ∇g(θ) en appliquant
le lemme suivant avec S = Iθ et v = ∇g(θ).

82
9.2 Efficacité

Lemme 9.2.1. Si S est une matrice k × k définie positive et si v est un vecteur de Rk ,


alors
(v T a)2
sup T
= v T S −1 v.
a∈Rk ,a6=0 a Sa

Preuve : On commence par montrer que a 7→ x = S 1/2 a est une bijection de Rk dans
Rk de sorte que l’on obtient

(v T a)2 xT Ax
sup T
= sup T
a∈Rk ,a6=0 a Sa x∈Rk ,x6=0 x x

avec A = S −1/2 vv T S −1/2 , de sorte que le supremum recherché est la plus grande valeur
propre de A. Mais en posant
S −1/2 v
w= ,
kS −1/2 vk
on voit que
A = kS −1/2 vk2 wwT .

wwT est la matrice de projection orthogonale sur la droite engendrée par w, donc de plus
grande valeur propre 1, donc la plus grande valeur propre de A est kS −1/2 vk2 = v T S −1 v.

Définition 9.2.2. L’estimateur sans biais U (X) est dit efficace si

∀θ ∈ Θ, V arθ (U (X)) = ∇g(θ)T Iθ−1 ∇g(θ).

9.2.3 Cas des modèles produit


On considère le modèle (X n , An , (Pθ⊗n )θ∈Θ ).
On suppose que le modèle (X , A, (Pθ )θ∈Θ ) satisfait aux hypothèses du Théorème de
l’inégalité de Cramer-Rao, avec score `˙θ et information de Fisher Iθ .

Alors, dans le modèle (X n , An , (Pθ⊗n )θ∈Θ ), le score est


n
X
`˙θ,n (x1 , . . . , xn ) = `˙θ (xi ),
i=1

on a Eθ [`˙θ,n (X1 , . . . , Xn )] = 0 et la matrice de variance de `˙θ,n (X1 , . . . , Xn ), sous Pθ , est


nIθ (Démontrer ces affirmations).
On a donc, si U (X1 , . . . , Xn ) est un estimateur sans biais de g(θ) tel que ∇g(θ) =
Eθ [U (X1 , . . . , Xn )`˙θ (X1 , . . . , Xn )],

1
V arθ (U (X1 , . . . , Xn )) ≥ ∇g(θ)T Iθ−1 ∇g(θ).
n

83
9 Etude des estimateurs sans biais

9.2.4 Modèles exponentiels


On considère le modèle exponentiel écrit sous forme canonique, c’est à dire avec θ
choisi de sorte que
dPθ
(x) = exp{hθ, T (x)i − ψ(θ)}, (9.4)

avec T : X → Rk mesurable, θ ∈ Θ, sous-ensemble de Rk défini par
 Z 
Θ = θ ∈ Rk : exp{hθ, T (x)i}dµ(x) < +∞

et ψ : Θ → R donnée par
Z
ψ(θ) = log exp{hθ, T (x)i}dµ(x).

On a
R
Proposition 9.2.1. La fonction θ 7→ log exp{hθ, T (x)i}dµ(x) est indéfiniment dérivable
sur l’intérieur de Θ et se dérive sous le signe somme.
Preuve : La faire.

On peut alors montrer que sur l’intérieur de Θ, ∇ψ(θ) = Eθ [T (X)], le score est
T − ∇ψ(θ) et est centré, l’information de Fisher est
Iθ = V arθ [T (X)] = D2 ψ(θ),
la matrice hessienne de ψ en θ. T (X) est une statistique exhaustive complète, qui estime
sans biais ∇ψ(θ), et en est un UVMB et un estimateur efficace si Θ ⊂ R. P
Donc dans le modèle avec n observations i.i.d. d’un modèle canonique, c’est n1 ni=1 T (Xi )
qui estime sans biais ∇ψ(θ), et en est un UVMB et un estimateur efficace si Θ ⊂ R.
(Démontrer toutes ces affirmations).

Exemples : : écrire sous forme canonique le modèle de Bernoulli, le modèle de Pois-


son, le modèle linéaire gaussien, et voir comment se traduisent ces affirmations.

Si l’on reprend le modèle exponentiel sous sa forme générale (9.2) et Q deux fois
dérivable, calculer score, information de Fisher — dans le cas k = 1–, et montrer que,
1 Pn
0
si Q (θ) 6= 0, n i=1 T (Xi ) est un estimateur sans biais de ψ 0 (θ)/Q0 (θ), et en est un
UVMB et un estimateur efficace.

9.3 Limites des estimateurs sans biais et de l’efficacité


Il n’existe pas toujours d’estimateur sans biais (voir l’exemple du modèle des lois ex-
ponentielles).

84
9.3 Limites des estimateurs sans biais et de l’efficacité

Il n’existe pas toujours d’estimateur efficace ou UVMB : par exemple, dans le modèle
N (m, σ 2 )⊗n , il n’existe pas d’estimateur efficace de σ 2 (voir T.D.).

On peut parfois gagner sur le risque quadratique en autorisant un biais. Considérons


le modèle N (0, σ 2 )⊗n dans lequel on veut estimer σ 2 . Il s’agit d’un modèle
par exemple P
exponentiel, ni=1 Xi2 est une statistique exhaustive complète, et
n
2 1X 2
σ
b = Xi
n
i=1

est un estimateur sans biais UVMB de σ 2 . Son risque quadratique est

 2σ 4
R(σ 2 , σ
b2 ) := Eσ (b
 2
σ − σ 2 )2 = .
n
Si l’on considère maintenant l’estimateur

σ2,
Tλ = λb

son risque quadratique est, par la décomposition biais-variance :


 2 
2 2λ
R(σ 2 , Tλ ) = V arσ (Tλ ) + Eσ (Tλ ) − σ 2 = σ 4 + (λ − 1)2 .
n
2
L’étude de la fonction λ 7→ 2λn + (λ − 1)2 montre qu’elle admet un minimum strict en
1/(1 + n2 ), et que
∀σ > 0, R(σ 2 , T1/(1+ 2 ) ) < R(σ 2 , σ
b2 ).
n

b2 n’est pas admissible, T1/(1+ 2 ) est meilleur que σ


L’estimateur σ b2 .
n

Enfin, sous des hypothèses faibles, si un modèle admet un estimateur efficace T de g(θ),
pour θ ∈ Θ, Θ intervalle de R, alors le modèle est un modèle exponentiel de statistique
exhaustive complète T , ce qui restreint l’existence d’estimateurs efficaces essentiellement
aux modèles exponentiels, et pour estimer l’espérance de la statistique exhaustive uni-
quement.
Montrons cela. On suppose donc que les hypothèses du Théorème de l’inégalité de
Cramer-Rao sont vérifiées pour le modèle et pour T , et que

g 0 (θ)2
∀θ ∈ Θ, Eθ (T ) = g(θ), V arθ (T ) = .

Comme
g 0 (θ) = Eθ ((T − g(θ))`˙θ ),
on a  2
Covθ (T, `˙θ ) = V arθ (T )V arθ (`˙θ )

85
9 Etude des estimateurs sans biais

et donc, pour tout θ, ou bien T = Eθ (T ), ou bien il existe λθ tel que `˙θ = λθ (T −Eθ (T )).,
Pθ -p.s.
Si il existe θ0 tel que T = Eθ0 (T ) Pθ0 -p.s., alors T est constant µ-p.p., donc T = Eθ (T )
Pθ -p.s. pour tout θ, et g(θ) est constant, cas peu intéressant.
Sinon, pour tout θ ∈ Θ, il existe λθ tel que `˙θ = λθ (T − Eθ (T )), Pθ -p.s. On a donc, θ0
étant un point fixé de Θ
Z θ
∀θ ∈ Θ, log fθ = log fθ0 + λs (T − Es (T ))ds,
θ0

soit Z θ Z θ

∀θ ∈ Θ, log =T λs ds − λs Es (T )ds,
fθ0 θ0 θ0

c’est-à-dire
∀θ ∈ Θ, fθ = fθ0 exp[Q(θ)T − ψ(θ)]
avec Z θ Z θ
Q(θ) = λs ds, ψ(θ) = λs Es (T )ds.
θ0 θ0

86
10 Eléments de statistique asymptotique
La borne de Cramer-Rao nous dit que, si T (X) est un estimateur sans biais de g(θ),
0 (θ))2
alors pour tout θ, Eθ [(T (X) − g(θ)]2 ≥ (gI(θ) . Mais si T a un biais, que dit la borne de
Cramer-Rao ? Si on note b(θ) = Eθ (T (X)) − g(θ), comme T estime sans biais b(θ) + g(θ)
et que le risque quadratique est la somme de la variance et du carré du biais, on a
(b0 (θ) + g 0 (θ))2
Eθ [(T (X) − g(θ)]2 ≥ b2 (θ) +

.
I(θ)
Mais ceci n’est pas une borne intrinsèque puisqu’elle dépend de T (par l’intermédiaire
de b).
Par ailleurs, la notion d’efficacité stricte concerne exclusivement les modèles exponen-
tiels.
Ceci dit, on a vu que l’on pouvait obtenir des minorations intrinsèques, en considérant
non pas le risque ponctuel, mais le risque maximum (théorème de Le Cam).

On se demande si on peut obtenir des analogues asymptotiques de l’efficacité, dans le


contexte des suites d’observations i.i.d.. Par exemple, peut-on garantir que, pour tout θ,
si θbn est une suite d’estimateurs de θ,
h i 1
lim inf Eθ n(θbn − θ)2 ≥ ?
n→+∞ I(θ)
La réponse est non, mais en renforçant légèrement, on obtient quelque chose comme
h i 1
lim lim inf sup Eθ n(θbn − θ)2 ≥ .
c→+∞ n→+∞ |θ−θ |≤ √c
0
I(θ0 )
n

Cela fait partie de ce que l’on étudie en M2.

On se demande alors si, sans supposer le modèle exponentiel,


h il est
i possible de trouver
1
une suite d’estimateurs θbn de θ tels que limn→+∞ Eθ n(θbn − θ)2 = I(θ) , ou bien tels
√ b 1
que n(θn − θ) converge en loi sous Pθ vers N (0, I(θ) ) ? La réponse est oui, et c’est
l’estimateur du maximum de vraisemblance qui le permet.

10.1 Etude asymptotique de l’estimateur du maximum de


vraisemblance
L’objectif ici est de montrer que sous de bonnes hypothèses, moins restrictives que de
se trouver dans un modèle exponentiel, l’estimateur du maximum de vraisemblance θbn

87
10 Eléments de statistique asymptotique

√ 1
vérifie que n(θbn − θ) converge en loi sous Pθ vers N (0, I(θ) ). Revenons tout d’abord au
cadre du modèle exponentiel en dimension 1.
Soit Θ ouvert de R, µ une mesure sur R et (Pθ )θ∈Θ tel que dP dµ (x) = exp(θT (x)−ψ(θ)),
θ

Pθ la loiP d’une suite de variables aléatoires réelles i.i.d. de loi Pθ , g(θ) = ψ 0 (θ) = Eθ T (X).
Tn = n ni=1 T (Xi ) est un estimateur efficace de g(θ) et UVMB. Sa variance est V arθ (Tn ) =
1
(ψ 00 (θ)2 ψ 00 (θ) √
nI(θ) = n . Par le théorème de limite centrale, n(Tn − ψ 0 (θ)) converge en loi sous
00 2
Pθ vers N (0, (ψ (θ) ). Qu’en est-il pour l’estimateur du maximum de vraisemblance θbn ?
I(θ)
La log-vraisemblance est

`n (θ) = θ(T (X1 ) + · · · + T (Xn )) − nψ(θ).

ψ est strictement convexe, car ψ 00 > 0 (c’est la variance d’une variable aléatoire non
constante), donc `n est strictement concave et admet donc un unique maximum. ψ 0 est
strictement croissante, et si le maximum de `n est atteint à l’intérieur de Θ, il annule la
dérivée, donc Tn = ψ 0 (θbn ). Pour simplifier, on va supposer que ψ 0 (Θ) = R, et alors

θbn = (ψ 0 )−1 (Tn ).

Pour obtenir la convergence en loi, on va utiliser la méthode delta.

Théorème 10.1.1. Soit (Tn )n≥1 une suite de variables aléatoires à valeur dans I in-

tervalle de R et telle que n(Tn − m) converge en loi vers N (0; σ 2 ). Soit g : I → R une

fonction dérivable. Alors n(g(Tn ) − g(m)) converge en loi vers N (0; g 0 (m)2 σ 2 ).

On applique le théorème 10.1.1 avec g(x) = (ψ 0 )−1 (x). g est dérivable de dérivée
= ψ00 ((ψ01)−1 (x)) . On a m = ψ 0 (θ), donc g(m) = θ.
g 0 (x)
2
(ψ 00 (θ))2

1 1 1
g 0 (m)2 = g 0 (m)2 ψ 00 (θ) = ψ 00 (θ) = = ,
I(θ) ψ 00 (θ) ψ 00 (θ) I(θ)
√ 1
donc n(θbn − θ) converge en loi sous Pθ vers N (0, I(θ) ). Et en appliquant une nouvelle

fois le théorème 10.1.1, si φ : Θ → R est dérivable, n(φ(θbn ) − φ(θ)) converge en loi sous
0 (θ))2
Pθ vers N (0, (φI(θ) ).

Preuve du Théorème 10.1.1 (rappel) : on écrit le développement de Taylor

g(x) = g(m) + (x − m)g 0 (m) + (x − m)α(x − m),

où α(·) est une fonction qui vérifie α(u) = o(1) au voisinage de 0. On a alors
√ √ √
n(g(Tn ) − g(m)) = n(Tn − m)g 0 (m) + n(Tn − m)α(Tn − m).

Puis Tn − m tend en probabilité vers 0 : en effet, pour tout  > 0, P(|Tn − m| ≥ ) =


√ √ √
P(| n(Tn − m)| ≥ n) ≤ P(| n(Tn − m)| ≥ M ) dès que n ≥ ( M )2 . Donc si F est la
fonction de répartition de la gaussienne centrée réduite, lim supn→+∞ P(|Tn − m| ≥ ) ≤

88
10.1 Etude asymptotique de l’estimateur du maximum de vraisemblance

2(1−F (M )) et ceci pour tout M , donc en faisant tendre M vers l’infini, limn→+∞ P(|Tn −
m| ≥ ) = 0. Ensuite, on en déduit que α(Tn − m) converge en probabilité vers 0 :
en effet, pour tout  > 0 il existe δ > 0 tel que |u| < δ implique |α(u)| < , soit
|α(u)| ≥  implique |u| ≥ δ, donc P(|α(Tn − m)| ≥ ) ≤ P(|Tn − m| ≥ δ) et donc

limn→+∞ P(|α(Tn − m)| ≥ ) = 0. Puis n(Tn − m)α(Tn − m) converge en probabilité

vers 0 : en effet, pour tout  > 0 et pour tout M , comme, si | n(Tn − m)α(Tn − m)| ≥ 

et | n(Tn − m)| < M alors M |α(Tn − m)| ≥ ,
√ √ 
P(| n(Tn − m)α(Tn − m)| ≥ ) ≤ P(| n(Tn − m)| ≥ M ) + P(|α(Tn − m)| ≥ ),
M
√ √
et donc lim supn→+∞ P(| n(Tn −m)α(Tn −m)| ≥ ) ≤ 2(1−F (M )), donc lim supn→+∞ P(| n(Tn −

m)α(Tn −m)| ≥ ) = 0 en faisant tendre M vers l’infini. Enfin, n(Tn −m)g 0 (m) converge
en loi vers N (0; g 0 (m)2 σ 2 ), et on termine par le lemme de Slutzky.

On peut maintenant énoncer un théorème de convergence en loi du maximum de


vraisemblance dans un cadre plus général. On considère un modèle dominé {Pθ , θ ∈ Θ},
où Θ est un intervalle de R. On note fθ la densité de Pθ par rapport à la mesure
dominante, et Pθ la loi d’une suite de variables aléatoires réelles i.i.d. de loi Pθ . On
note Θ◦ l’intérieur de Θ et on se place dans le cadre où l’on a défini fonction score et
information de Fisher :
— (A1) ∀θ ∈ Θ, ∀x ∈ X , fθ (x) > 0,
— (A2) ∀x ∈ X , θ 7→ fθ (x) est dérivable sur Θ◦ , et on note `˙θ (x) la fonction score
(dérivée par rapport à θ de log fθ (x)),
— (A3) ∀θ ∈ Θ◦ , Eθ `˙θ (X) = 0 et Eθ k`˙θ (X)k2 < +∞. On note I(θ) l’information de
Fisher (matrice de variance de `˙θ (X)).

Théorème 10.1.2. On suppose (A1), (A2) et (A3). Soit θbn l’estimateur du maximum
de vraisemblance obtenu avec n observations X1 , . . . , Xn . On suppose :
— ∀θ ∈ Θ◦ , I(θ) > 0,
f 00
— ∀x ∈ X , θ 7→ fθ (x) est de classe C 2 sur Θ◦ et ∀θ ∈ Θ◦ , Eθ fθθ (X) = 0,
— ∀θ ∈ Θ◦ , il existe V , voisinage de θ et hθ ∈ L1 (Pθ ) tels que

∂2
∀s ∈ V, | (log fs )| ≤ hθ
∂θ2

— ∀θ ∈ Θ, θbn converge en Pθ probabilité vers θ.



Alors, pour tout θ dans Θ◦ , n(θbn − θ) converge en loi sous Pθ vers N (0, I(θ)
1
).

Preuve du Théorème 10.1.2.


Soit θ dans Θ◦ . Puisque θbn converge en Pθ probabilité vers θ, avec une probabilité qui
tend vers 1, θbn ∈ Θ◦ , et θbn annule la dérivée de la log-vraisemblance. On va noter An
l’événement “θbn ∈ Θ◦ ”. Sur An , on a
n
X
`˙θbn (Xi ) = 0.
i=1

89
10 Eléments de statistique asymptotique

Par ailleurs, le développement de Taylor s’écrit (en notant `00θ la dérivée seconde de log fθ )
pour tout x ∈ X et s ∈ Θ :
Z 1
`˙s (x) − `˙θ (x) = (s − θ) `00θ+t(s−θ) (x)dt.
0

Donc pour tout s ∈ Θ :


n
X n
X n
X
`˙s (Xi ) − `˙θ (Xi ) = (s − θ) `00θ (Xi ) + nRn (s)
i=1 i=1 i=1

avec
Z 1 n
1 X 00
Rn (s) = (`θ+t(s−θ) (Xi ) − `00θ (Xi ))dt.
0 n
i=1

Donc en utilisant cela avec s = θbn , sur An ,


n
" n #
1 X˙ √ 1 X
00 √
−√ `θ (Xi ) = n(θbn − θ) `θ (Xi ) + n(θbn − θ)Rn (θbn ).
n n
i=1 i=1

Calcul et loi des grands nombres montrent que n1 ni=1 `00θ (Xi ) converge en Pθ -probabilité
P
vers −I(θ).
Par le théorème de limite centrale, sous Pθ , √1n ni=1 `˙θ (Xi ) converge en loi vers N (0, I(θ)).
P

Enfin, Rn (θbn ) converge en Pθ -probabilité vers 0. En effet, si l’on note r(, x) = sup |`00 (x)− |s−θ]≤ s
`00θ (x)|, pour  suffisamment petit (tel que l’intervalle centré en θ et de largeur 2 soit
dans V ), on a 0 ≤ r(, x) ≤ hθ (x), et lim→0 r(, x) = 0, donc par convergence dominée
lim→0 Eθ r(, X) = 0. Puis pour tout δ > 0 et tout  > 0,
n
1 X
Pθ (|Rn (θbn )| ≥ δ) ≤ Pθ (|θbn − θ| ≥ ) + Pθ ( r(, Xi ) ≥ δ)
n
i=1
Pn
1
Par l’inégalité de Markov, Pθ ( n1 ni=1 r(, Xi ) ≥
P
car sup|s−θ|≤ |Rn (s)| ≤ n i=1 r(, Xi ).
δ) ≤ Eθ r(,X)
δ , et donc lim supn→+∞ Pθ (|Rn (θbn )| ≥ δ) ≤ Eθ r(,X)
δ , et en prenant la limite
quand  tend vers 0 on obtient limn→+∞ Pθ (|Rn (θn )| ≥ δ) = 0. Récapitulons :
b
h√ i h√ i
Zn n(θbn − θ) = Un 1An + Zn n(θbn − θ) (1 − 1An ),

avec Zn qui converge en Pθ -probabilité vers −I(θ) et Un qui converge en hloi sous Pθ vers
√ b i
N (0, I(θ)). Par ailleurs, 1An converge vers 1 en Pθ -probabilité, et donc Zn n(θn − θ) (1−
h√ i
1An ) converge vers 0 en Pθ -probabilité (car pour tout  > 0, Pθ (|Zn n(θbn − θ) (1 −
1An )| ≥ ) ≤ Pθ (1An = 0) tend vers 0 quand n tend vers l’infini). On termine en utilisant
le lemme de Slutzky.

90

10.2 Amélioration d’un estimateur n-consistant

10.2 Amélioration d’un estimateur n-consistant
Comment calculer l’estimateur du maximum de vraisemblance ? Algorithme d’annu-
lation du gradient : et si beaucoup de maxima locaux, et donc beaucoup de zéros du
gradient ? Partir d’un bon point initial et faire ensuite l’algorithme de Newton ?

On dispose d’une suite d’estimateurs Tn tels que pour tout θ, n(Tn − θ) converge
1
en loi sous Pθ vers N (0, σ 2 (θ)), avec σ 2 (θ) > I(θ) . On se dit que Tn n’est pas loin de
Pn ˙
l’estimateur du maximum de vraisemblance qui annule la fonction s 7→ i=1 `s (Xi ).
On peut alors chercher à améliorer l’estimation en cherchant le zéro de la fonction par
l’algorithme de Newton partant de Tn . En faisant un pas de cet algorithme, c’est à dire
en se déplaçant sur la droite tangente en Tn au graphe de la fonction, jusqu’au point où
cette tangente traverse l’axe des abscisses (qui annule l’ordonnée) [voir sur un dessin],
on obtient un nouvel estimateur :
Pn ˙
`Tn (Xi )
θ̃n = Tn − Pi=1n 00 . (10.1)
i=1 `Tn (Xi )

On se place dans le même cadre que pour le Théorème 10.1.2. On obtient alors
Théorème 10.2.1. On suppose (A1), (A2) et (A3). On suppose aussi que pour tout
√ √
θ ∈ Θ◦ , n(Tn − θ) converge en loi sous Pθ . Alors, pour tout θ ∈ Θ◦ , n(θ̃n − θ)
1
converge en loi sous Pθ vers N (0, I(θ) ), avec θ̃n df́eini par (10.1).
Preuve du Théorème 10.2.1.
Soit θ dans Θ◦ . On a avec les notations de la preuve du Théorème 10.1.2
n
X n
X n
X
`˙Tn (Xi ) = `˙θ (Xi ) + (Tn − θ) `00θ (Xi ) + n(Tn − θ)Rn (Tn )
i=1 i=1 i=1
Xn
= `˙θ (Xi ) + n(Tn − θ)Wn
i=1

où Wn converge en PθP -probabilité vers −I(θ) (comme dans la preuve du Théorème
10.1.2). Aussi, Zn = n1 ni=1 `00Tn (Xi ) converge en probabilité vers −I(θ). En effet,
n n
1 X 00 1 X 00
Zn = `θ (Xi ) + (`Tn (Xi ) − `00θ (Xi )),
n n
i=1 i=1

et si |Tn − θ| ≤ , alors | n1 ni=1 (`00Tn (Xi ) − `00θ (Xi ))| ≤ n1 ni=1 r(, Xi ). Mais Tn − θ
P P
converge en Pθ -probabilité vers 0, donc pour tout  > 0 et tout δ > 0,
n n
1 X 00 1X
Pθ (| (`Tn (Xi ) − `00θ (Xi ))| ≥ δ) ≤ Pθ (|Tn − θ| ≥ ) + Pθ ( r(, Xi ) ≥ δ)
n n
i=1 i=1
Eθ (r(, X1 ))
≤ Pθ (|Tn − θ| ≥ ) +
δ

91
10 Eléments de statistique asymptotique

par Markov, et donc en prenant laPlimite quand n tend vers l’infini, puis quand  tend
vers 0, on obtient limn→+∞ Pθ (| n1 ni=1 (`00Tn (Xi ) − `00θ (Xi ))| ≥ δ) = 0. On a donc :
Pn ˙ √
√1 n(Tn − θ)Wn
√ √ n i=1 `θ (Xi ) +
n(θ̃n − θ) = n(Tn − θ) −
Zn
n
!

 
Wn 1 1 X˙
= n(Tn − θ) 1 − + √ `θ (Xi ) .
Zn Zn n
i=1

√    
converge en Pθ -probabilité vers 0, et Z1n √1n ni=1 `˙θ (Xi )
Wn P
Par Slutzky, n(Tn −θ) 1 − Zn
1 √
converge en loi sous Pθ vers N (0, I(θ) ). Donc encore par Slutzky, n(θ̃n − θ) converge
1
en loi sous Pθ vers N (0, I(θ) ).

10.3 Consistance de l’estimateur du maximum de


vraisemblance
Il s’agit ici de voir comment réaliser la consistance de l’estimateur du maximum de
vraisemblance (hypothèse des théorèmes de loi asymptotique), et de voir que les hy-
pothèses qui permettent de l’obtenir ne sont plus locales mais globales.

Si on note `n (θ) la log-vraisemblance, et si log fθ (x) ∈ L1 (Pθ ), alors par la loi des
grands nombres n1 `n (θ) converge en probabilité sous Pθ vers Eθ [log fθ (X1 )], et pour tout
s ∈ Θ, si log fs (x) ∈ L1 (Pθ ), n1 [`n (θ) − `n (s)] converge en probabilité sous Pθ vers
Z  
fθ (x)
log dPθ (x) = K (Pθ , Ps ) .
fs (x)

Maximiser en s `n (s) c’est minimiser en s n1 [`n (θ) − `n (s)], et l’on souhaite que asymp-
totiquement le maximum soit en θ, donc que le minimum de s 7→ K (Pθ , Ps ) soit atteint
pour s = θ. Or K (Pθ , Ps ) est la divergence de Kullback entre Pθ et Ps , donc on sait que
pour tout s, K (Pθ , Ps ) ≥ 0 et que K (Pθ , Ps ) = 0 si et seulement si Ps = Pθ . On va donc
demander que cela implique s = θ, autrement dit que le modèle soit identifiable, c’est à
dire que la fonction θ 7→ Pθ soit injective.

Théorème 10.3.1. On suppose le modèle (Pθ )θ∈Θ dominé, et l’on note θbn l’estimateur
du maximum de vraisemblance obtenu avec X1 , . . . , Xn i.i.d. On suppose de plus que :
— le modèle est identifiable,
— Θ est un sous-ensemble compact de Rk ,
— pour tout x ∈ X , la fonction θ 7→ log fθ (x) est continue (fθ est la densité de Pθ
par rapport à la mesure dominante), et si l’on note h(x) = sups∈Θ | log fs (x)|, pour
tout θ ∈ Θ, h ∈ L1 (Pθ ).
Alors θbn est consistant, c’est à dire que pour tout θ ∈ Θ, θbn converge en probabilité sous
Pθ vers θ.

92
10.3 Consistance de l’estimateur du maximum de vraisemblance

Remarquer que si θ 7→ log fθ (x) est continue a fortiori fθ (x) 6= 0.


Preuve du Théorème 10.3.1.
Notons, pour tout x ∈ X et α > 0,
g(α, x) = sup | log fθ1 (x) − log fθ2 (x)|.
kθ1 −θ2 k≤α

Fixons θ ∈ Θ. On a alors g(α, x) ≤ 2h(x) et g(α, ·) ∈ L1 (Pθ ). De plus, θ 7→ log fθ (x) est
uniformément continue sur le compact Θ, donc pour tout x ∈ X , limα→0 g(α, x) = 0, et
par convergence dominée,
lim Eθ g(α, X1 ) = 0.
→0
Soit  > 0 quelconque. L’ensemble A = {s ∈ Θ : ks − θk ≥ } est compact (fermé dans
un compact), donc pour tout α > 0, on peut le recouvrir par un nombre fini Nα de boules
de rayon α, centrées en θi , i = 1, . . . , Nα . Pour tout s ∈ A , il existe i ∈ {1, . . . , Nα } tel
que ks − θi k ≤ α, et | log fs (x) − log fθi (x)| ≤ g(α, x). On a alors
n
X
sup `n (s) ≤ max{`n (θi ), i = 1, . . . , Nα } + g(α, Xi ).
s∈A i=1

Donc
   
Pθ kθn − θk ≥ 
b ≤ Pθ sup `n (s) ≥ `n (θ)
s∈A
n
!
1 1X 1
≤ Pθ max{ `n (θi ), i = 1, . . . , Nα } + g(α, Xi ) ≥ `n (θ)
n n n
i=1

Maintenant, max{`n (θi ) − `n (θ), i = 1, . . . , Nα } converge en probabilité sous Pθ vers


max{−K (Pθ , Pθi ) , i = 1, . . . , Nα } (car nombre fini de variables aléatoires),
et max{−K (Pθ , Pθi ) , i = 1, . . . , Nα } ≤ − inf s∈A K (Pθ , Ps ). Par ailleurs, s 7→ K (Pθ , Ps )
est continue (par convergence dominée) et atteint son minimum sur le compact A en
un point, donc par identifiabilité, inf s∈A K (Pθ , Ps ) = δ > 0. On a alors
n
  !
  1 δ  1 X δ 
Pθ kθbn − θk ≥  ≤ Pθ max{ (`n (θi ) − `n (θ)), i = 1, . . . , Nα } ≥ − + Pθ g(α, Xi ) ≥
n 2 n 2
i=1
 
1 δ 2Eθ g(α, X1 )
≤ Pθ max{ (`n (θi ) − `n (θ)), i = 1, . . . , Nα } ≥ − + .
n 2 δ
Mais  
1 δ
lim Pθ max{ (`n (θi ) − `n (θ)), i = 1, . . . , Nα } ≥ − =0
n→+∞ n 2
car − max{−K (Pθ , Pθi ) , i = 1, . . . , Nα } − δ2 ≥ δ2 . Donc
  2E g(α, X )
θ 1
lim sup Pθ kθbn − θk ≥  ≤
n→+∞ δ 
 
et en faisant tendre α vers 0, on obtient limn→+∞ Pθ kθbn − θk ≥  = 0.

93
10 Eléments de statistique asymptotique

10.4 Asymptotique du test du rapport de vraisemblance


On veut tester H0 : “θ = θ0 ” contre H1 : “θ 6= θ0 ” avec le test du rapport de vraisem-
blance. Ce test s’écrit
ϕn = 1supθ∈Θ `n (θ)−`n (θ0 )≥s

pour un seuil s à déterminer, de sorte que lim supn→+∞ Eθ0 φn ≤ α, niveau donné. Pour
fixer le seuil, il s’agit donc de déterminer la loi asymptotique de supθ∈Θ `n (θ) − `n (θ0 ).

Théorème 10.4.1. On suppose (Pθ )θ∈Θ dominé, Θ ⊂ R, on note fθ la densité de Pθ


par rapport à la mesure dominante, et l’on suppose que pour tous x et θ, fθ (x) > 0. On
note θbn l’estimateur du maximum de vraisemblance. Soit θ0 ∈ Θ◦ . On suppose que :
— θbn converge en Pθ0 probabilité vers θ0 .
f 00 f0
— ∀x ∈ X , θ 7→ fθ (x) est de classe C 2 en θ0 , Eθ0 fθθ0 (X) = 0, Eθ0 fθθ0 (X) = 0 et
0 0
 0 2

Eθ0 fθ0 (X) < +∞ (où l’on note fθ0 0 (x) et fθ000 (x) les dérivées de fθ (x) par
0

rapport à θ en θ0 ).
— I(θ0 ) > 0,
— Il existe V , voisinage de θ0 et h ∈ L1 (Pθ0 ) tels que

∂2
∀θ ∈ V, | (log fθ )| ≤ h.
∂θ2

Alors 2[`n (θbn ) − `n (θ0 )] converge en loi sous Pθ0 vers χ2 (1) (loi du chi-deux à un degré
de liberté).

Preuve du Théorème 10.4.1


En reprenant le Théorème 10.1.2 on a

n
√ 1 1 X˙
n(θbn − θ0 ) = ·√ `θ0 (Xi ) + n (10.2)
I(θ0 ) n
i=1

où n tend en Pθ0 -probabilité vers 0. θ 7→ `n (θ) est de classe C 2 en θ0 , on a donc

∂ (θbn − θ0 )2 ∂ 2
`n (θbn ) = `n (θ0 ) + (θbn − θ0 ) `n (θ0 ) + `n (θn ) (10.3)
∂θ 2 ∂θ2

pour un θn ∈ (θ0 ; θbn ). Noter que θn est aléatoire. Comme dans la preuve du Théorème
10.1.2, on obtient que
1 ∂2
`n (θn ) = −I(θ0 ) + Un (10.4)
n ∂θ2

94
10.5 Généralisations multidimensionnelles

où Un tend en Pθ0 -probabilité vers 0. En reportant (10.2) et (10.4) dans (10.3), on obtient

n n
! !
1 1 X˙ 1 X˙
`n (θbn ) − `n (θ0 ) = √ `θ0 (Xi ) + n √ `θ0 (Xi )
I(θ0 ) n n
i=1 i=1
n
!2
1 1 X˙
+ √ `θ0 (Xi ) + n (−I(θ0 ) + Un )
2I(θ0 )2 n
i=1
n
!2 n
!
1 1 X˙ n (1 + Un − I(θ0 )) 1 X˙
= √ `θ0 (Xi ) + √ `θ0 (Xi )
2I(θ0 ) n I(θ0 ) n
i=1 i=1
2n
+ (−I(θ0 ) + Un ) .
2I(θ0 )
  2
n −I(θ0 ))
Par Slutzky, n (1+U n
Pn ˙
√1
I(θ0 ) n i=1 `θ0 (Xi ) + 2I(θ 0)
(−I(θ0 ) + Un ) tend en Pθ0 -probabilité
vers 0. Par ailleurs,

n
!2 n
!2
1 1 X˙ 1 X `˙θ0 (Xi )
√ `θ0 (Xi ) = √ p ,
I(θ0 ) n n I(θ0 )
i=1 i=1

Pn `˙θ0 (Xi )
√1 √ converge en loi sous Pθ0 vers une gaussienne centrée réduite par le
n i=1 I(θ0 )
 2
`˙θ0 (Xi )
théorème de limite centrale, donc par image continue, √1n ni=1 √
P
converge en
I(θ0 )
loi sous Pθ0 vers χ2 (1) et le théorème s’en suit par Slutzky.

On a alors, si u1−α/2 est le quantile d’ordre 1−α/2 de la loi gaussienne centrée réduite,
u21−α/2est le quantile d’ordre 1 − α/2 de la loi χ2 (1) (car P (U 2 ≥ u2 ) = P (|U | ≥ u)), et
donc le test
ϕn = 1supθ∈Θ `n (θ)−`n (θ0 )≥u2
1−α/2

est de niveau asymptotique α pour tester H0 : “θ = θ0 ” contre H1 : “θ 6= θ0 ”.

10.5 Généralisations multidimensionnelles


On va écrire les résultats que l’on obtient dans le cas où Θ ⊂ Rk , les preuves se
déroulent de manière analogue au cas k = 1 (le faire en exercice !).
Soit (Pθ )θ∈Θ un modèle dominé, Θ ⊂ Rk , on note fθ (x) la densité de Pθ par rapport à
la mesure dominante, et Pθ la loi d’une suite de variables aléatoires i.i.d. de loi Pθ .
On note θbn l’estimateur du maximum de vraisemblance obtenu avec n observations
X1 , . . . , Xn .
Soit θ0 ∈ Θ◦ . On suppose que :
— θbn converge en Pθ0 probabilité vers θ0 .

95
10 Eléments de statistique asymptotique

D2 fθ0 ∇fθ0
— ∀x ∈ X , θ 7→ fθ (x) est de classe C 2 en θ0 , Eθ0 fθ0 (X) = 0, Eθ0 fθ0 (X) = 0 et
2
fθ0
Eθ0 fθ0 (X)
0
< +∞ (où l’on a noté ∇fθ0 (x) le gradient de fθ (x) par rapport à θ
en θ0 et D2 fθ0 (x) la matrice hessienne de fθ (x) par rapport à θ en θ0 ).
∇f
— I(θ0 ) est définie positive (I(θ0 ) est la matrice de variance de fθθ0 (X1 ) sous Pθ0 ,
0
— Il existe V , voisinage de θ0 et h ∈ L1 (Pθ0 ) tel que pour tous i, j = 1, . . . , k,
∂2
∀θ ∈ V, | (log fθ )| ≤ h.
∂θi ∂θi
Alors
n
√   1 X ∇fθ0
nI(θ0 ) θbn − θ0 − √ (Xi )
n fθ0
i=1
converge en Pθ0 -probabilité vers 0,
√ b
n θn − θ0 converge en loi sous Pθ0 vers Nk (0, I(θ0 )−1 ), et

n n
" #
X X
2 log fθbn (Xi ) − log fθ0 (Xi )
i=1 i=1

converge en loi sous Pθ0 vers un χ2 (k) (loi du chi-deux à k degrés de liberté).

10.6 Constructions de régions de confiance asymptotiques


A partir d’estimateurs asymptotiquement efficaces : soit Tn tel que pour tout θ,

n (Tn − θ) converge en loi sous Pθ vers Nk (0, I(θ)−1 ),. On a donc si Bkk est√
un borélien de
R tel que, si U suit la loi Nk (0, Ik ), alors P (U ∈ Bk ) = α, alors θ ∈ R : nI(θ)1/2 (Tn − θ) ∈ Bk
k

est une région de confiance pour θ asymptotiquement de niveau de confiance 1 − α. Mais


I(θ) dépend de θ inconnu, et il n’est pas forcément facile de déterminer cet ensemble
(voir sur des exemples).
Une solution est d’estimer l’information de Fisher. Si Ibn est un estimateur consistant de
√ 1/2
I(θ), alors par Slutzky, nIbn (Tn − θ) converge en loi sous Pθ vers Nk (0, Ik ), et
n √ o
Rn = θ ∈ Rk : nIbn1/2 (Tn − θ) ∈ Bk

est une région de confiance pour θ asymptotiquement de niveau de confiance 1 − α. Si


k = 1, on peut choisir B1 = [−u1−α/2 ; u1−α/2 ], où u1−α/2 est le quantile d’ordre 1 − α/2
de la loi gaussienne centrée réduite, et si k = 1,
 
u1−α/2 u1−α/2
Rn = Tn − q ; Tn − q 
√ √
n Inb n Ibn

est un intervalle de confiance pour θ asymptotiquement de niveau de confiance 1 − α.


On peut par exemple choisir :

96
10.7 Retour sur le test du chi-deux d’ajustement

— Ibn = I(T n ) (plug-in), consistant dès que θ 7→ I(θ) est continue,


1 Pn
— In = n i=1 `˙Tn `˙TTn , consistant sous les hypothèses du Théorème 10.1.2 par exemple.
b
On peut aussi utiliser le test du rapport de vraisemblance. Si on note ϕθn0 le test du
rapport de vraisemblance de H0 : “θ = θ0 ” contre H1 : “θ 6= θ0 ” asymptotiquement de
niveau α, alors {θ0 : ϕθn0 = 0} est une région de confiance pour θ asymptotiquement de
niveau de confiance 1 − α. Donc en utilisant le Théorème 10.4.1,
 
k 2
Sn = θ0 ∈ R : sup `n (θ) − `n (θ0 ) ≤ u1−α/2
θ∈Θ

est une région de confiance pour θ asymptotiquement de niveau de confiance 1 − α.

10.7 Retour sur le test du chi-deux d’ajustement


On revient sur le modèle où X = {1, . . . , k},
 
 k−1
X 
Θ = θ = (θ1 , . . . , θk−1 ) ∈ Rk−1 , θj ≥ 0, j = 1, . . . , k, θj ≤ 1 ,
 
j=1

et Pθ est la loi sur X donnée par : Pθ (X = j) = θj , j = 1, . . . , k − 1 et Pθ (X = k) =


1 − k−1
P
j=1 , que l’on notera alors θk .

Soient X1 , . . . , Xn i.i.d., on note pour j = 1, . . . , k


n
X
Nj = 1Xi =j .
i=1

La log-vraisemblance est `n (θ) = kj=1 Nj log θj , et l’estimateur du maximum de vrai-


P

semblance est θbn tel que


  Nj
θbn = , j = 1, . . . , k.
j n
On a vu que si pour tout j, θj > 0 et si l’on note
 2
Nj
X n − θj
k
Tn = n ,
θj
j=1

alors sous Pθ , Tn converge en loi quand n tend vers l’infini vers un χ2 (k − 1). On l’a
démontré en utilisant : le théorème de limite centrale et le théorème de Cochran.
Peut-on relier ce résultat au Théorème 10.4.1 ?
Proposition 10.7.1. On suppose que pour tout j = 1, . . . , k, θj > 0. Alors
h i
2 `n (θbn ) − `n (θ) = Tn + n

où n converge en Pθ -probabilité vers 0.

97
10 Eléments de statistique asymptotique

Preuve de la Proposition 10.7.1.


On a
k  
h i X Nj
2 `n (θn ) − `n (θ) = 2
b Nj log
nθj
j=1
k Nj
" !#
X − θ j
= 2 Nj log 1 + n
θj
j=1
k Nj
! k Nj
!2
n − θj − θj
X X
n
= 2 Nj − Nj + Zn
θj θj
j=1 j=1

u2
en utilisant log(1 + u) = u − 2 + u2 ε(u), où ε(u) tend vers 0 quand u tend vers 0, et
avec !2
k Nj Nj
!
X
n − θj n − θj
Zn = 2 Nj ε .
θj θj
j=1

On a
k Nj k Nj k Nj
! ! !
X Nj n − θj X
n − θj X
n − θj
Tn = n −n θj = Nj ,
n θj θj θj
j=1 j=1 j=1

Pk Pk
car j=1 Nj = n et j=1 θj = 1, et
 2
!2 Nj
k
X Nj
− θj
k 
X Nj

n − θj
n
Nj =n = Tn + Un
θj nθj θj
j=1 j=1

avec
 √n( Nj − θ ) 2
 
k  j
X Nj n
Un = −1 .
nθj θj
j=1

On a alors h i
2 `n (θbn ) − `n (θ) = Tn + Zn − Un .

Mais par Slutzky, Un converge en Pθ -probabilité vers 0, et par Slutzky et image continue,
k  Nj
!!2 Nj
!
√ − θj − θj

X Nj n n
Zn = 2 n ε .
n θj θj
j=1

converge en Pθ -probabilité vers 0.

On considère maintenant que l’on veut tester un sous-modèle décrit ainsi. Soit Θ ⊂ Rq ,
avec q < k − 1, et π : Θ → Rk−1 , π(θ) = (π1 (θ), . . . , πk−1 (θ) de sorte que Pθ (X = j) =

98
10.7 Retour sur le test du chi-deux d’ajustement

πj (θ), j = 1, . . . , k − 1. Si l’on note p = (P (X = 1), . . . , P (X = k − 1)), on veut donc


N
tester H0 :“p ∈ π(Θ)” contre H1 :“p ∈ π(Θ)”. On va donc regarder l’écart entre ( nj )j
et (πj (θ̂))j pour un estimateur consistant de θ. Considérons par exemple l’estimateur
du maximum de vraisemblance θbn . Regardons quand les théorèmes asymptotiques s’ap-
pliquent.

Comme X est un ensemble fini, les hypothèses d’intégrabilité et de domination sont


Pk−1 dès que les quantités sont finies. On note comme tout à l’heure πk (θ) = 1 −
vérifiées
j=1 πj (θ). Donc pour la consistance, il suffit de supposer que
— (H1) π est injective, continue sur Θ qui est compact, et pour tout j = 1, . . . , k,
pour tout θ ∈ Θ, inf θ∈Θ πj (θ) > 0.
Pour la normalité asymptotique, on a besoin de plus que
— (H2) Pour tout j = 1, . . . , k, θ 7→ π(θ) est de classe C 2 , et l’information de Fisher
I(θ) est inversible.
Théorème 10.7.1. On suppose (H1) et (H2). On note
 2
Nj
Xk
n − π j ( θ
bn )
Tn = n .
j=1 πj (θbn )

Alors si p ∈ π(Θ)◦ , Tn converge en loi sous Pp vers un χ2 (k − 1 − q).


La conséquence de ce théorème est que le test qui rejette H0 lorsque Tn ≥ χ2k−1−q;1−α
est asymptotiquement de niveau α. Il est aussi asymptotiquement de puissance 1 pour
tout p ∈
/ π(Θ). En effet, dans ce cas, Tn converge en probabilité vers +∞ (l’écrire).

Preuve du Théorème 10.7.1.


On note Zn le vecteur de Rk de coordonnées
Nj
!
√ np− πj (θ)
Zn,j = n , j = 1, . . . , k
πj (θ)

et Yn le vecteur de Rk de coordonnées
!
√ πj (θbn ) − πj (θ)
Yn,j = n p , j = 1, . . . , k.
πj (θ)

πj (θ)
Si on note Dn la matrice diagonale des , on a
πj (θbn )

Tn = kDn (Zn − Yn )k2 ,

et par Slutzky, la consistance de l’e.m.v., et le théorème de Cochran, il suffit donc de


montrer que Zn − Yn converge en loi sous Pθ vers Nk (0, Ik − R) où R est la matrice de
projection orthogonale sur un sous-espace de Rk de dimension q + 1.

99
10 Eléments de statistique asymptotique

Notons ∆ la matrice diagonale k × k des πj (θ), dπ la matrice k × q qui possède en lignes


les ∇πj (noter que la somme des coordonnées de ∇πj est nulle puisque la somme des
k √ k
π
pj (θ) est constante égale à 1), π le vecteur de R des πj (θ), π le vecteur de R des
πj (θ).
Comme pour i = 1, . . . , q,
k
X 1 ∂πj (θ)
(`˙θ (x))i = 1x=j ,
πj (θ) ∂θi
j=1

pour i, m = 1, . . . , q
k
X 1 ∂πj (θ) ∂πj (θ)
I(θ)i,m = ,
πj (θ) ∂θi ∂θm
j=1

I(θ) = (dπ)T ∆−1 (dπ), et dire que I(θ) est inversible c’est dire que les q vecteur de Rk
∂πj (θ)
(√ 1 ∂θi )1≤j≤k , pour i = 1, . . . , q, sont linéairement indépendants. On a (généralisation
πj (θ)
multidimensionnelle de la preuve du Théorème 10.1.2) :
n
√   I(θ)−1 X ˙
n θbn − θ = √ `θ (Xi ) + n
n
i=1
N
= I(θ)−1 (dπ)T ∆−1 √ + n
n

 
N
= I(θ)−1 (dπ)T ∆−1 n − π + n
n
où n tend en Pθ -probabilité vers 0, et où l’on a noté N le vecteur de Rk de coordonnées
Nj .
Par la méthode delta, on obtient
√   √  
n π(θbn ) − π(θ) = dπ n θbn − θ + ˜n

T −1 √
 
−1 N
= dπI(θ) (dπ) ∆ n − π + ¯n
n
où ˜n et ¯n tendent en Pθ -probabilité vers 0. En multipliant à gauche par ∆−1/2 on
obtient
Yn = ∆−1/2 dπI(θ)−1 (dπ)T ∆−1/2 Zn + Un
où Un tend en Pθ -probabilité vers 0. Donc Zn − Yn = (Ik − Q)Zn − Un avec Q =
√ √ T
∆−1/2 dπI(θ)−1 (dπ)T ∆−1/2 , et Zn converge en loi sous Pθ vers Nk (0, Ik − π π ). Donc
Zn − Yn converge en loi sous Pθ vers Nk (0, Σ) avec
 √ √ T  √ √ T
Σ = (Ik − Q) Ik − π π (Ik − Q)T = Ik − Q + π π

car Q est une matrice de projection orthogonale de rang q (le rang de dπ) (QT = Q, Q2 =
√ √ T √ √ T
Q) telle que Q π π = 0, et Q + π π est une matrice de projection orthogonale
sur un espace de dimension q + 1.

100

Vous aimerez peut-être aussi