0% ont trouvé ce document utile (0 vote)
429 vues225 pages

Rammah2 PDF

Transféré par

Codein
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
429 vues225 pages

Rammah2 PDF

Transféré par

Codein
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction aux methodes statistiques

Marc Hoffmann
Janvier 2013

ii

Table des mati`


eres
I

Mod
elisation statistique

1 Outils de probabilit
es
1.1

1.2

1.3

1.4

1.5

Loi dune variable aleatoire reelle . . . . . . . . . . . . . . . . . . . . . . .

1.1.1

Variables discr`etes . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1.2

Variables de loi absolument continue . . . . . . . . . . . . . . . . .

1.1.3

Formules dintegration . . . . . . . . . . . . . . . . . . . . . . . . .

Param`etres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.1

Esperance-variance . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.2

Coefficients dasymetrie et daplatissement . . . . . . . . . . . . . .

1.2.3

Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

1.3.1

Loi normale multivariee . . . . . . . . . . . . . . . . . . . . . . . .

12

1.3.2

Derivees des lois gaussiennes . . . . . . . . . . . . . . . . . . . . .

16

1.3.3

Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

Convergences et theor`emes limites . . . . . . . . . . . . . . . . . . . . . .

20

1.4.1

Modes de convergences . . . . . . . . . . . . . . . . . . . . . . . . .

20

1.4.2

Lois des grands nombres et theor`eme central-limite . . . . . . . . .

23

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

2 Exp
erience statistique
2.1

27

Modelisation statistique? . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

2.1.1

27

Exemples introductifs . . . . . . . . . . . . . . . . . . . . . . . . .

`
TABLE DES MATIERES

iv
2.1.2
2.2

2.3

II

Definition provisoire dune experience statistique?

. . . . . . . . .

34

Formulation mathematique . . . . . . . . . . . . . . . . . . . . . . . . . .

35

2.2.1

Experience engendree par une observation . . . . . . . . . . . . . .

35

2.2.2

Observation canonique? . . . . . . . . . . . . . . . . . . . . . . . .

36

2.2.3

Domination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

2.2.4

Mod`eles parametriques, non-parametriques? . . . . . . . . . . . . .

38

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

2.3.1

Mod`ele dechantillonnage ou du nechantillon . . . . . . . . . . . .

39

2.3.2

Mod`eles de regression . . . . . . . . . . . . . . . . . . . . . . . . .

42

M
ethodes destimation

3 Echantillonnage et fonction de r
epartition empirique
3.1

3.2

3.3

3.4

45
47

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

3.1.1

Situation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

3.1.2

Notations et definitions preliminaires . . . . . . . . . . . . . . . . .

48

Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

3.2.1

Fonction de repartition empirique . . . . . . . . . . . . . . . . . . .

49

3.2.2

Precision destimation . . . . . . . . . . . . . . . . . . . . . . . . .

49

3.2.3

Precision destimation asymptotique . . . . . . . . . . . . . . . . .

52

3.2.4

Precision non-asymptotique . . . . . . . . . . . . . . . . . . . . . .

54

3.2.5

Decision? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

Estimation uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

3.3.1

Estimation uniforme . . . . . . . . . . . . . . . . . . . . . . . . . .

60

3.3.2

Vitesse destimation uniforme . . . . . . . . . . . . . . . . . . . . .

62

3.3.3

Precision uniforme non-asymptotique? . . . . . . . . . . . . . . . .

63

3.3.4

Test dadequation `a une distribution donnee? . . . . . . . . . . . .

64

Estimation de fonctionnelles . . . . . . . . . . . . . . . . . . . . . . . . . .

64

3.4.1

Le cas regulier : methode de substitution . . . . . . . . . . . . . .

65

3.4.2

Le cas non-regulier? . . . . . . . . . . . . . . . . . . . . . . . . . .

69

`
TABLE DES MATIERES
3.5

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 M
ethodes destimation en densit
e
4.1

4.2

4.3

4.4

75

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

4.1.1

Notations et hypoth`eses . . . . . . . . . . . . . . . . . . . . . . . .

75

4.1.2

Familles parametriques classiques . . . . . . . . . . . . . . . . . . .

78

Methode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

80

4.2.1

Le cas de la dimension 1 . . . . . . . . . . . . . . . . . . . . . . . .

80

4.2.2

Le cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . .

83

Moments generalises. Z- et M -estimation . . . . . . . . . . . . . . . . . .

85

4.3.1

Z-estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

4.3.2

M -estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

87

4.3.3

Convergence des Z- et des M -estimateurs . . . . . . . . . . . . . .

88

4.3.4

Loi limite des Z- et M -estimateurs . . . . . . . . . . . . . . . . . .

90

Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . .

93

4.4.1

Principe du maximum de vraisemblance . . . . . . . . . . . . . . .

93

4.4.2

Exemples de calcul

4.4.3

Maximum de vraisemblance et M -estimation . . . . . . . . . . . . 103

. . . . . . . . . . . . . . . . . . . . . . . . . . 100

5 M
ethodes destimation en r
egression
5.1

5.2

5.3

72

105

Mod`eles de regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105


5.1.1

Mod`ele de regression `a

design  aleatoire . . . . . . . . . . . . . 105

5.1.2

Reduction au cas dun

design  deterministe . . . . . . . . . . . 107

5.1.3

Calcul de la vraisemblance

. . . . . . . . . . . . . . . . . . . . . . 107

Regression lineaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 109


5.2.1

Droite de regression . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.2.2

Moindres carres et maximum de vraisemblance . . . . . . . . . . . 112

Regression lineaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . 113


5.3.1

Mod`ele lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

5.3.2

Estimateur des moindres carres . . . . . . . . . . . . . . . . . . . . 114

5.3.3

Proprietes de la methode des moindres carres . . . . . . . . . . . . 116

`
TABLE DES MATIERES

vi
5.3.4
5.4

Regression lineaire multiple gaussienne . . . . . . . . . . . . . . . . 117

Regression non-lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119


5.4.1

Moindres carres non-lineaires et M -estimation . . . . . . . . . . . 119

5.4.2

Reconstruction dun signal echantillonne . . . . . . . . . . . . . . . 121

5.4.3

Mod`ele de Poisson conditionnel . . . . . . . . . . . . . . . . . . . . 123

5.4.4

Mod`eles `a reponse binaire . . . . . . . . . . . . . . . . . . . . . . . 124

6 Information statistique et th
eorie asymptotique

127

6.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

6.2

Comparaison destimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . 129

6.3

6.4

6.5

6.6

6.2.1

Risque quadratique en dimension 1 . . . . . . . . . . . . . . . . . . 130

6.2.2

Risque quadratique et normalite asymptotique . . . . . . . . . . . 133

6.2.3

Risque quadratique : le cas multidimensionnel? . . . . . . . . . . . 135

Mod`eles reguliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137


6.3.1

Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 137

6.3.2

Mod`ele regulier en dimension 1 . . . . . . . . . . . . . . . . . . . . 141

6.3.3

Proprietes de linformation de Fisher . . . . . . . . . . . . . . . . . 142

6.3.4

Interpretation geometrique de linformation de Fisher . . . . . . . 144

6.3.5

Le cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . 145

Theorie asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146


6.4.1

Normalite asymptotique du maximum de vraisemblance . . . . . . 146

6.4.2

Comparaison destimateurs : efficacite asymptotique . . . . . . . . 147

6.4.3

Le programme de Fisher et ses limites . . . . . . . . . . . . . . . . 151

6.4.4

Mod`eles non-reguliers . . . . . . . . . . . . . . . . . . . . . . . . . 152

Perte dinformation? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153


6.5.1

Sous-experience statistique . . . . . . . . . . . . . . . . . . . . . . 153

6.5.2

Statistique exhaustive . . . . . . . . . . . . . . . . . . . . . . . . . 156

6.5.3

Exemples de statistiques exhaustives . . . . . . . . . . . . . . . . . 157

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

`
TABLE DES MATIERES

III

vii

Tests dhypoth`
eses

161

7 Tests et r
egions de confiance

163

7.1

7.2

7.3

7.4

7.5

7.6

7.7

Problematique des tests dhypoth`ese . . . . . . . . . . . . . . . . . . . . . 163


7.1.1

Test et erreur de test . . . . . . . . . . . . . . . . . . . . . . . . . . 163

7.1.2

Comparaison de test, principe de Neyman . . . . . . . . . . . . . . 166

Hypoth`ese simple contre alternative simple . . . . . . . . . . . . . . . . . 166


7.2.1

Principe de Neyman et decision `a deux points . . . . . . . . . . . . 166

7.2.2

Lemme de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . 167

Tests dhypoth`eses composites . . . . . . . . . . . . . . . . . . . . . . . . . 171


7.3.1

Familles `
a rapport de vraisemblance monotone? . . . . . . . . . . . 171

7.3.2

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

p valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
7.4.1

Notion de p valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

7.4.2

Proprietes de la p -valeur

. . . . . . . . . . . . . . . . . . . . . . . 177

Regions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178


7.5.1

Region de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . 178

7.5.2

Fonctions pivotales : le cas non-asymptotique . . . . . . . . . . . . 179

7.5.3

Dualite tests regions de confiance . . . . . . . . . . . . . . . . . . 180

Tests dans le mod`ele de regression lineaire . . . . . . . . . . . . . . . . . . 182


7.6.1

Echantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . 182

7.6.2

Test dappartenance `a un sous-espace lineaire . . . . . . . . . . . . 184

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

8 Tests asymptotiques

191

8.1

Convergence dune suite de tests . . . . . . . . . . . . . . . . . . . . . . . 191

8.2

Tests de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

8.3

8.2.1

Le cas dune hypoth`ese nulle simple . . . . . . . . . . . . . . . . . 192

8.2.2

Hypoth`ese nulle composite . . . . . . . . . . . . . . . . . . . . . . 194

Test
8.3.1

sup sur sup ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196


Rapport de vraisemblance maximal asymptotique . . . . . . . . . . 197

`
TABLE DES MATIERES

viii

8.4

8.3.2

Lien avec la statistique de Wald

. . . . . . . . . . . . . . . . . . . 199

8.3.3

Resultat general pour le rapport de vraisemblance maximal?

. . . 200

Tests du 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
8.4.1

Test dadequation du 2 . . . . . . . . . . . . . . . . . . . . . . . . 201

8.4.2

Test du 2 dindependance? . . . . . . . . . . . . . . . . . . . . . . 204

Pr
esentation du document
Ces notes de cours presentent une introduction classique aux methodes statistiques.
Le terme  statistique(s)  reste souvent assez vague en mathematiques appliquees : il
concerne aussi bien le traitement des bases de donnees que lutilisation de techniques
numeriques en modelisation stochastique (image, econometrie et finance, physique, biologie) ; dans ce cours, il designe plutot une problematique au sein de la theorie des probabilites qui consiste en letude dobjets mathematiques bien definis : les experiences
statistiques.
Nous nous placons dans un cadre volontairement un peu abstrait, o`
u lon dispose
dune notion dexperience statistique associee `a une observation dans un mod`ele stochastique. Le but est de degager des methodes quantitatives basees sur des principes
relativement generaux, qui permettent de  retrouver  les param`etres dun mod`ele et
de  prendre des decisions  `
a partir dobservations issues de ce mod`ele. Nous voulons
quantifier lerreur de reconstruction ou de decision dans un contexte (relativement) universel, de sorte que des probl`emes issus de disciplines differentes puissent etre traites de la
meme mani`ere, en principe. Bien entendu, chaque discipline scientifique a sa specificite,
mais nous insisterons sur des methodes communes par exemple le principe de maximum de vraisemblance ou la methode des moindres carres qui setudient de facon unifiee
grace `a la theorie des probabilites.
Nous supposons le lecteur familier avec le cours de MAP 311, et nous faisons reference
tout au long de ces notes au polycopie de S. Meleard [5]. On trouvera tous les complements
de probabilites eventuellement necessaires dans le livre de J. Jacod et P. Protter [4] par
exemple.
Le Chapitre 1 rappelle les principaux outils de probabilites, et insiste sur les notions
fondamentales utiles en statistique : vecteurs gaussiens (lois derivees des vecteurs gaussiens) et theor`emes limites (modes de convergence et theor`eme central-limite). Il permet
aussi de fixer les notations utilisees dans ce cours.
Le Chapitre 2 presente la notion formelle dexperience statistique accompagnee des
exemples essentiels que sont les mod`eles dechantillonnage ou de densite, et les mod`eles
de regression.

`
TABLE DES MATIERES

Le Chapitre 3 etudie le mod`ele dechantillonnage dans sa plus grande generalite. Nous


nous posons une question apparemment nave : si lon observe (la realisation) de n variables aleatoires reelles independantes de meme loi inconnue, que peut-on dire de cette
loi ? Ceci nous permet de poser les jalons des methodes developpees dans les chapitres
suivants : estimation, regions et intervalles de confiance, tests, lorsque le nombre dobservations n est fixe ou bien dans la limite n . Le mod`ele est tr`es simple dun point
de vue probabiliste (les observations sont independantes et identiquement distribuees),
mais tr`es ardu dun point de vue statistique, puisque lon ne fait pas dhypoth`ese sur la
loi inconnue, et nous verrons tr`es vite les limites de cette generalite.
Les Chapitres 4 et 5 sont consacres aux methodes classiques de construction destimateurs pour les mod`eles parametriques, lorsque la loi inconnue est decrite par un param`etre
de dimension finie. On se place dans les mod`eles de densite et regression, et on construit
les estimateurs par moments, les Z- et M - estimateurs, lestimateur du maximum de
vraisemblance et lestimateur des moindres carres.
Le Chapitre 6 developpe dans le mod`ele de densite par souci de simplicite
differentes notions de comparaison destimateurs et la recherche dun estimateur optimal
associe `
a une experience statistique. Cest un probl`eme ancien qui remonte au programme
de Fisher des annees 1920, et qui na pas de solution totalement satisfaisante : un estimateur optimal dans un sens naf nexiste pas, il faut faire des concessions. Si lon suppose
suffisamment de regularite (dans ce cours, nous ne rechercherons pas les hypoth`eses minimales), on peut neanmoins realiser un programme doptimalite asymptotique que nous
presenterons bri`evement, reposant sur le principe du maximum de vraisemblance. Il est
associe `
a une quantite intrins`eque au mod`ele, linformation de Fisher, que nous etudierons
en tant que telle.
Curieusement, la notion de mod`ele regulier en statistique est limitative : nous verrons
sur des exemples que lon estime souvent  mieux  des param`etres dans des mod`eles
irreguliers. Mais un traitement systematique est plus difficile.
Les Chapitres 7 et 8 sont consacres aux tests statistiques dans un cadre nonasymptotique, puis asymptotique et leur lien canonique avec les intervalles et regions
de confiance. Si lon accepte un certain principe (dit de Neyman) qui hierarchise les erreurs de decision que lon commet lorsque lon fait un test, alors on peut dans certains
cas donner une solution optimale au probl`eme de test. On abordera les tests classiques
parametriques (Neyman-Pearson, Wald) et le test dadequation du 2 , incontournable en
pratique.

Les paragraphes suivis dune


etoile? pourront
etre omis en premi`
ere
lecture.
Les exercices `
a la fin de certains chapitres sont souvent des complements techniques
de certains aspects du cours et sont en general moins fondamentaux que les exercices
proposes en P.C.

`
TABLE DES MATIERES

xi

Faute de place et de temps, certains th`emes essentiels ne sont pas abordes : lapproche
bayesienne, la statistique computationnelle (algorithmique statistique, bootstrap). Par
ailleurs, lestimation non-parametrique et ses applications en debruitage de signal ou
dimage ainsi que lapprentissage et la classification font lobjet du cours de MAP 533
dA. Tsybakov. Nous donnons `
a la fin de ce polycopie quelques indications et references
bibliographiques.

Il existe par ailleurs de nombreux ouvrages qui traitent de methodes statistiques


au niveau o`
u nous nous placons. Ils font toujours un compromis (au prix de sacrifices)
entre rigueur mathematique et clarte des idees : citons deux livres emblematiques dont
nous nous sommes largement inspires :  All of Statistics  de L. Wasserman [11] qui
presente beaucoup didees sans preuve rigoureuse et  Statistical Mathematics  de A.A.
Borovkov [1], qui developpe de facon systematique la theorie et qui reste un grand classique du genre. De nombreux polycopies sur le sujet circulent 1 egalement. Enfin, un
cours de statistique, meme mathematique, ne se passe pas de donn
ees ou de simulations. Lacc`es `
a des quantites astronomiques de donn
ees est devenu facile aujourdhui :
par exemple ([Link]/larry/all-of-statistics) qui fournit les donn
ees
traitees dans les exemples du livre la page de L. Wasserman [11]. Pour des donn
ees financi`eres, economiques ou demographiques, ([Link]/freelunch/) ou le site
de lINSEE ([Link]).
Finalement, je tiens `
a remercier chaleureusement Mathieu Rosenbaum dont la lecture attentive a permis dameliorer significativement une premi`ere version de ce cours,
ainsi que les el`eves et coll`egues dont les nombreuses remarques ont permis daffiner la
presentation de ces notes.

1. Citons les polycopies et les notes de cours de Dominique Picard de lUniversite Paris Diderot,
et dAlexandre Tsybakov de lUniversite Pierre et Marie Curie, auquels nous avons fait de nombreux
emprunts.

xii

`
TABLE DES MATIERES

Premi`
ere partie

Mod
elisation statistique

Chapitre 1

Outils de probabilit
es
Nous considerons des variables aleatoires `a valeurs reelles ou vectorielles, discr`etes ou
de loi absolument continue. On envisagera (superficiellement) des cas plus complexes de
melanges de lois discr`etes et continues.

1.1

Loi dune variable al


eatoire r
eelle

On designe par (, A, P) un espace de probabilites. Les points sinterpr`etent


comme les resultats dune experience aleatoire. Les objets dinteret sont les evenements,
cest-`a-dire les elements de la tribu A. Une variable aleatoire reelle est une application
mesurable
X : (, A) (R, B),
o`
u B est la tribu borelienne sur R.
D
efinition 1.1. La fonction de repartition de la variable aleatoire reelle X est lapplication F : R [0, 1] definie par




F (x) = P X x = P , X() x , x R.
La fonction F est croissante, continue `a droite, tend vers 0 en et vers 1 en +.
Pour tout reel x,


P X = x = F (x) F (x).
La loi dune variable aleatoire designe dhabitude la mesure image de P par X sur (R, B),
notee PX et definie par
PX (A) = P[X A], A B(R).
Puisque la fonction de repartition F caracterise PX (voir Meleard [5], Proposition 4.2.3
p. 71), on peut parler indifferemment de F ou de PX pour designer la loi de X.
D
efinition 1.2. On appelle loi ou distribution de X la donnee de F .

Outils de probabilit
es

1.1.1

Variables discr`
etes

Une variable aleatoire reelle X est discr`ete si elle


de valeurs au
 prend un ensemble

plus denombrable {xi , i N} R. La donnee des xi , P[Xi = xi ] , i N determine
enti`erement F (et donc caracterise la loi de X).
Remarque 1.1. Si les xi sont isoles (par exemple si X est `a valeurs dans N ou Z), la
fonction de repartition F de X est constante par morceaux, et les points de discontinuite
de F sont les points xi . De plus,


P X = xi = F (xi ) F (xi ), i N.
Exemple 1.1.
1. Une variable aleatoire X suit la loi de Bernoulli de param`etre p [0, 1] si




P X =1 =p=1P X =0 .
Dans ce cas
F (x) = p1[0,1) (x) + 1[1,+) (x), x R.
2. Une variable aleatoire X suit la loi binomiale de param`etres (n, p) avec p [0, 1]
et n N \ {0} si


P X = k = Cnk pk (1 p)nk , k = 0, . . . , n.
Dans ce cas 1
F (x) =

Cnk pk (1 p)nk , x R.

kx

3. Une variable aleatoire X suit la loi Poisson de param`etre > 0, si




k
P X = k = e k! , k N.
Dans ce cas,
F (x) = e

X k
kx

1.1.2

k!

, x R.

Variables de loi absolument continue

Une variable aleatoire reelle X est de loi absolument continue (ou `a densite) si sa
fonction de repartition secrit
Z
F (x) =
f (t)dt, x R
(,x]

1. avec la convention

= 0.

1.1 Loi dune variable al


eatoire r
eelle

o`
u dt designe la mesure de Lebesgue sur 2 R. La fonction f , definie `a un ensemble
negligeable pr`es, est une densite de probabilite :
Z
f 0 et
f (t)dt = 1.
R

Dans ce cas, la fonction de repartition F de X est differentiable presque-partout et on a


F 0 (x) = f (x) presque-partout.
Si elle existe, la densite dune variable aleatoire determine enti`erement sa fonction de
repartition F , et donc caracterise sa loi. La loi dune variable absolument continue est
diffuse : pour tout x R, on a P X = x = 0.
Exemple 1.2.
1. Une variable aleatoire X suit la loi uniforme sur [a, b], avec a < b, si elle admet
pour densite
1
f (t) =
1 (t).
b a [a,b]
Dans ce cas

0
si
x<a

x
a
si x [a, b]
F (x) =

ba
1
si x > b.
2. Une variable aleatoire suit la loi exponentielle de param`etre > 0, si elle admet
pour densite
f (t) = et 1[0,+) (t).
Dans ce cas,

F (x) =

0
si x < 0
1 ex sinon.

3. Une variable aleatoire suit la loi normale de moyenne R et de variance 2 > 0,


notee N (, 2 ) si elle admet pour densite


1
(t )2
f (t) =
exp
.
2 2
2
Dans ce cas,

F (x) =
o`
u

(x) =


, x R,
2 /2

et

dt
.
2

2. Comprendre ici et dans toute la suite  la mesure de Lebesgue sur (R, B) . Idem pour la mesure
de Lebesgue sur Rn , cest-`
a-dire sur (Rn , Bn ), o`
u Bn est la tribu des boreliens de Rn .

Outils de probabilit
es

1.1.3

Formules dint
egration

Si X est une variable aleatoire reelle de loi F (ou encore PX ), on a, pour toute fonction
test 3 ,
Z
Z



E (X) =
X() P(d) =
(x) PX (dx)
(1.1)


(voir Meleard s[5], Proposition 4.5.1 p. 85), d`es que la fonction ; X() est
integrable par rapport `
a la mesure P(d). On ecrit aussi
Z

(x)dF (x).

(x)P (dx) =
R

Remarque 1.2. La mesure PX (dx), definie sur R peut etre construite `a partir de la
fonction de repartition F . Pour cela, on pose


PX (a, b] = F (b) F (a), pour tous a < b reels,
et ce qui definit PX sur un sous-ensemble de B. Le prolongement `a B en entier se fait `
a
laide du theor`eme de la classe monotone (voir par exemple Jacod et Protter, [4]).

Cas discret
Si X est discr`ete, prenant ses valeurs dans un ensemble {xi , i N} R de points
isoles, F est constante par morceaux, et ses discontinuites ont lieu aux points xi o`
u ses
sauts sont damplitude P[X = xi ] > 0, et
Z
(x)dF (x) =
R

(xi )P[X = xi ].

iN

Cas continu
Si X est (de loi) absolument continue de densite f , on a
Z

Z
(x)dF (x) =

(x)f (x)dx,
R

ce qui est coherent du point de vue des notations avec la propriete F 0 (x) = f (x) presquepartout.
3. Dans toute la suite, une fonction test designera une fonction borelienne positive (ou integrable, ou
bornee) de sorte que les formules dintegration associees soient bien definies.

1.2 Param`
etres de position

M
elange de lois discr`
etes et continues
Une variable aleatoire reelle nest par exclusivement discr`ete ou (de loi) absolument
continue.
Exemple 1.3. Soit X une variable aleatoire reelle de loi N (0, 1). La variable
Y = X1X0
nest ni discr`ete, ni continue : elle nest pas discr`ete puisquelle peut prendre toutes les
valeurs positives, mais elle nest pas (de loi) absolument continue puisque
P[Y = 0] =
La fonction de repartition de X secrit
Z
1
F (x) = 2 1x0 +

1
2

6= 0.

dt 
exp(t2 /2)
1x0 ,
2

et on a 4 pour toute fonction test ,


Z
Z


1
E (X) =
(x)dF (x) = 2 (0) +

dt
(t) exp(t2 /2) .
2

Remarque 1.3. La loi dune variable aleatoire peut etre discr`ete, absolument continue,
ou bien encore avoir une partie discr`ete et une partie absolument continue, comme dans
les exemples ci-dessus. Attention : ceci nepuise pas toutes les possibilites !

1.2

Param`
etres de position

Etant donnee une variable aleatoire reelle, on cherche une description de sa loi `a
laide dindicateurs deterministes les plus simples possible. On utilise souvent en premi`ere
approximation quatre indicateurs (sils existent) bases sur les quatre premiers moments
(`a normalisation affine pr`es) qui sont la moyenne, la variance, le coefficient dasymetrie
ou skewness et le coefficient daplatissement ou kurtosis.
Un autre type dapproximation se base sur les quantiles de la loi consideree, qui
mesurent dans un certain sens la dispersion de la loi. Plus difficiles `a manipuler, ils
presentent lavantage detre toujours definis.
4. On peut aussi ecrire la loi de X de la facon suivante
PX (dx) = 21 0 (dx) +

x2 /2
1 e
1x0 dx,
2

o`
u 0 (dx) designe la mesure de Dirac au point 0 et dx designe la mesure de Lebesgue sur R. Le contexte
dictera le choix des notations.

Outils de probabilit
es

1.2.1

Esp
erance-variance

Une variable aleatoire reelle X admet un moment dordre p N \ 0 si


Z
 p
|X()|p P(d) < +.
E |X| =

Dans ce cas, son moment dordre p est


 
E Xp =

X()p P(d).

D
efinition 1.3. La moyenne ou esperance X , si elle existe, est le moment dordre 1 de
la variable aleatoire X :
 
X = E X
2 ) de X, si elle existe, est le moment dordre 2
La variance Var[X] (encore notee X
recentre de X :
Z


2
2
X = Var[X] = E (X X ) = (x X )2 dF (x).
R

La racine carree de la variance X = (Var[X])1/2 sappelle lecart-type de X.


Le calcul effectif des moments se fait en utilisant la loi de X. Par exemple :
P
p
Z
ete

iN xi P[X = xi ] si X est discr`


 p
p
E X =
x dF (x) =
R p
R
si X est continue.
R x f (x)dx
La moyenne X fournit la meilleure prediction de X par une constante dans le sens
suivant :
Proposition 1.1. Si X admet un moment dordre 2, alors




E (X X )2 = min E (X c)2 .
cR



 
2
Demonstration. On a, pour tout reel c, E (X c)2 = E X c + Var[X].
Le couple esperance-variance fournit un indicateur tr`es simple pour controler les fluctuations de X autour de sa moyenne X via linegalite de Tchebychev :

 2
P |X X | t X
, t > 0.
t2

(1.2)

1.2 Param`
etres de position

Famille de dilatation-translation associ


ee `
a une loi
Si X a un moment dordre 2, ecrivons la decomposition X = mX + X o`
u est
centree-reduite, cest-`
a-dire
E[] = 0, et Var[] = E[ 2 ] = 1.
Alors, avec des notations evidentes,

FX (x) = F

x mX
X


, xR

et si X est (de loi) absolument continue, sa densite secrit




1
x mX
, x R.
fX (x) =
f
X
X
Plus generalement, etant donne une loi F , on peut considerer la famille de lois definies
par


x
F, (x) = F
, x R, R, > 0.

Les param`etres et jouent respectivement les roles de localisation (ou translation, ou


position) et de dilatation (ou dechelle).
Remarque 1.4. Pour definir une famille de translations-dilatations associee `a une loi
F , il nest pas necessaire que cette loi admette un moment dordre 1 ou 2.

1.2.2

Coefficients dasym
etrie et daplatissement

Le coefficient dasymetrie (skewness) et le coefficient daplatissement (kurtosis) correspondent, `


a normalisation par la moyenne et la variance pr`es, aux moments dordre 3
et 4 respectivement.
Asym
etrie (skewness)
D
efinition 1.4. La loi de X est symetrique par rapport `
a R si
x R,

F ( + x) = 1 F ( x)

o`
u F est la fonction de repartition de X.
Dans le cas absolument continu, si f est la densite de X, cela entrane
f ( + x) = f ( x)

presque-partout.

On dit quune loi est symetrique si elle est symetrique par rapport `a 0.
Si X admet un moment dordre 3, on introduit une mesure
distributions symetriques de la mani`ere suivante

deloignement  aux

10

Outils de probabilit
es

D
efinition 1.5. Le coefficient dasymetrie (skewness) dune variable aleatoire reelle X
telle que E |X|3 < + est
  E
X =

3 
X E[X]
.
3
X

Le coefficient dasym
  etrie est une mesure
 grossi`ere de symetrie : si la loi de X est
symetrique, alors X = 0. Mais avoir X = 0 ne signifie pas que la loi de X est
symetrique.
 
Remarque 1.5. Le coefficient X est invariant par dilatation-translation : pour tout
R et pour tout > 0, on a


 
+ X = X .
Aplatissement (kurtosis)
D
efinition 1.6.
 Le
 coefficient daplatissement (kurtosis) dune variable aleatoire reelle
X telle que E X 4 < + est
  E
X =

X E[X]
4
X

4 
3.

Le coefficient daplatissement est une mesure grossi`ere de lecartement de la loi de X


a la loi gaussienne en terme de queues de distribution, cest-`a-dire du comportement de
`


P |X| x au voisinage de x +.
 
Si X N (0, 1), on a (X) = 0. Lorsque X < 0 on dit que les queues de distribution de la loi de X
plus leg`eres que les queues gaussiennes, alors quelles sont
 sont

 plus
lourdes lorsque X > 0. Par linegalite de Cauchy-Schwarz, on a toujours X 2.
Remarque 1.6. Comme pour le coefficient dasymetrie, le coefficient daplatissement
est invariant par dilatation-translation : pour tout R et pour tout > 0, on a


 
+ X = X .

1.2.3

Quantiles

Si X est une variable aleatoire reelle dont la fonction de repartition F est continue
et strictement croissante, le quantile dordre p, 0 < p < 1, de la loi F est defini comme
lunique solution qp de lequation
F (qp ) = p.
(1.3)

1.2 Param`
etres de position

11

On a, par construction, la propriete caracteristique




P X qp = p.
Si F nest pas strictement croissante ou nest pas continue, il se peut que (1.3) nait pas
de solution ou bien ait une infinite de solutions. On peut alors modifier la definition (1.3)
de la facon suivante.
D
efinition 1.7. Le quantile qp dordre p, 0 < p < 1 de la loi F est la quantite

qp = 12 inf{x, F (x) > p} + sup{x, F (x) < p} .
Si (1.3) admet une solution unique, les deux definitions concident. Si (1.3) na pas
de solution, alors p na pas dantecedent et qp est un point de saut de F qui verifie :
F (qp ) p < F (qp ). Si (1.3) a une infinite de solutions, alors lensemble de ces solutions
est un intervalle borne et qp est le milieu de cet intervalle.
D
efinition 1.8. La mediane de X designe le quantile dordre 1/2 de la loi F . Les quartiles
de X designent la mediane, q1/4 et q3/4 .
On a toujours




P X q1/2 12 , et P X q1/2 12 .
Si F est continue, FX (q1/2 ) = 21 .
Remarque 1.7. La mediane est un indicateur de localisation dune loi de probabilite,
alors que lintervalle interquartile q3/4 q1/2 est un indicateur dechelle. Mediane et
intervalles interquartiles sont des analogues de la moyenne et de lecart-type, et sont
toujours definis.
La mediane jouit dune propriete analogue `a celle de la moyenne (Proposition 1.1)
lorsque lon remplace le moment dordre 2 par la valeur absolue.
Proposition 1.2. Si X admet un moment dordre 1, alors




E |X a| = min E |X c| ,
cR


pour tout a R verifiant P X a

1
2



et P X a 12 .

En particulier




E |X q1/2 | = min E |X c| .
cR





Demonstration. Montrons E |X c| E |X a| pour tout c R. Sans perdre de
generalite, on suppose c > a. On a alors
|X c| = |X a| + (c a)
|X c| |X a|
|X c| |X a| (c a)

sur {X a},
sur {a < X (a + c)/2},
sur {X > (a + c)/2}.

12

Outils de probabilit
es

En ecrivant
|X c| |X a| + (c a)1{Xa} (c a)1{X>(a+c)/2}
et en integrant cette derni`ere inegalite, on obtient








E |X c| E |X a| + (c a) P X a P X > (a + c)/2 .




La propriete de a garantit

de plus P X a P X > (a + c)/2 , ce qui permet de
conclure, puisque P X > a = 1 P X a 1/2.

1.3
1.3.1

Vecteurs gaussiens
Loi normale multivari
ee

Pr
eliminaires
Si
X = (X1 , . . . , Xn )T
est un vecteur aleatoire de Rn , son esperance est definie composante par composante en
prenant les esperances des Xi lorsque cela a un sens.
La variance de X est la matrice

 

X = E (X E[X])(X E[X])T
appelee aussi matrice de variance-covariance de X. Elle existe d`es lors que


E k X k2 < +,
o`
u k x k = (xT x)1/2 est la norme euclidienne du vecteur x Rn . On a les proprietes
suivantes :
 


   T
1. X = E X T X E X E X


 
 
2. Pour tout a Rn , Var aT X = aT X a. En particulier, X est symetrique
positive.


 
3. Si A est une matrice k n et b Rk , on a A X +b = A X AT .
Vecteurs gaussiens
Si Idn designe la matrice unite n n, on note
N (0, Idn )
la loi du vecteur aleatoire
X = (1 , . . . , n )T

1.3 Vecteurs gaussiens

13

dont toutes les composantes sont des variables aleatoires gaussiennes independantes,
centrees reduites. On ecrit X N (0, Idn ).
On a les proprietes suivantes :
1. La moyenne de X est 0 et sa matrice de variance-covariance est Idn .
2. La loi de X est absolument continue, de densite par rapport `a la mesure de Lebesgue
sur Rn donnee par


1 T
n/2
fX (x) = (2)
exp x x , x Rn .
2
3. La fonction caracteristique (voir Meleard [5], Definition 6.1. p. 125) de X est donnee
par


 iaT X 
1 T
X (a) = E e
= exp a a , a Rn .
2
D
efinition 1.9. Un vecteur aleatoire X `
a valeurs dans Rn est gaussien (ou normal) si,
pour une matrice A de taille n n et un vecteur Rn , on a
X = + A , N (0, Idn ).
On a les proprietes suivantes :
 
1. La moyenne (vectorielle) de X est E X = .
 
2. La matrice de covariance de X est X = Var X = AAT .
3. La fonction caracteristique de X vaut
 T 
X (a) = E eia X
 T

= E eia (+A)
 
T
T 
= exp iaT E ei(A a)

= exp iaT 21 (aT A)T aT A

= exp iaT 21 aT a , a Rn .
On a la caracterisation suivante dun vecteur gaussien :
Proposition 1.3. Une application : Rn C est la fonction caracteristique dun
vecteur gaussien si et seulement si il existe Rn et une matrice symetrique positive
(dont toutes les valeurs propres sont positives ou nulles) tels que

(a) = exp iaT 12 aT a , a Rn .

14

Outils de probabilit
es

Demonstration. Le calcul de la fonction caracteristique dun vecteur gaussien etabli plus


haut monte que la condition est necessaire. Pour montrer la condition suffisante, il suffit
dexhiber un vecteur gaussien de Rn dont est la fonction caracteristique. Pour cela, on
peut poser X = + 1/2 , o`
u 1/2 est une racine carree de et N (0, Idn ).
En consequence, la loi dun vecteur gaussien X est enti`erement determinee par sa
moyenne et sa matrice de covariance . On ecrira par la suite X N (, ).
Remarque 1.8. Dans la decomposition = AT A dune matrice symetrique positive,
la matrice A nest pas unique. On peut prendre pour A une racine carree de , mais
il existe aussi dautres choix o`
u A nest pas necessairement symetrique. Si designe la
matrice diagonale formee `a partir des valeurs propres j de , de rang k n alors, on a
la decomposition
T

= =

n
X

,j j T,j

j=1

o`
u les ,j sont les colonnes de , aj =
A = (a1 , . . . , ak , 0 . . . , 0).

k
X

a,j aT,j = AAT

i=1

p
j ,j et A est une matrice n n definie par

Une caracterisation equivalente de la loi dun vecteur gaussien est la suivante :


Proposition 1.4. Un vecteur aleatoire X est gaussien si et seulement si toute combinaison lineaire des composantes de X est une variable aleatoire gaussienne reelle 5 .
Demonstration. Si X N (, ), pour tout u R, on a
 T

aT X (u) = E eia X u
= X (ua)

= exp iuaT 12 u2 aT a ,
donc aT X N (aT , aT a). Reciproquement,
si pour tout a Rn , la variable aleatoire


2
reelle aT X est gaussienne, alors
(prendre pour a les projections sur
 E
 kX k <
 +

les coordonnees), donc = E X et = X existent. Soit a Rn , m R et s2 0
de sorte que aT X N (m, s2 ). Necessairement,
m = aT et s2 = aT a,
5. On admet dans cette terminologie quune constante est une variable aleatoire gaussienne, de
moyenne elle-meme et de variance 0.

1.3 Vecteurs gaussiens

15



par linearite de lesperance et parce que Var aT X = aT [X]a (voir le paragraphe
precedent). Donc
aT X (u) = exp imu 21 s2 u2


= exp iuaT 21 u2 aT a
= aT X (1)
= X (a).
Puisque le choix de a Rn est arbitraire, on a la conclusion.

Densit
e de la loi normale multivari
ee
Si est definie positive, la loi de X est absolument continue par rapport `a la mesure
de Lebesgue sur Rn , et la densite du vecteur X est obtenue `a partir de la densite de via
la representation X = +A par changement de variable affine (Meleard [5], paragraphe
4.10.2 p. 107) :

fX (x) = detA1 f A1 (x )


1
1
T 1

=
exp (x ) (x ) , x Rn .
n/2
2
(2)
det
Loi normale multivari
ee d
eg
en
er
ee
Si est singuli`ere, soit Rang() = k < n, le vecteur X na plus de densite sur Rn .
La representation X = + 1/2 montre que X se concentre `a une transformation affine
pr`es sur limage de 1/2 , qui est un sous-espace de dimension k.
Proposition 1.5. Si X N (0, ), avec Rang() = k < n, alors il existe un sousespace vectoriel H Rn de dimension n k tel que pour tout a H, la loi de aT X est
degeneree, cest-`
a-dire aT X est une constante (deterministe).
Demonstration. On pose H = Ker(). Alors H est de dimension n k et si a H, pour
tout u Rn , on a


T
aT X (u) = E eiu a X

= exp iu aT 21 u2 aT a

= exp iu aT
puisque a = 0.

16

Outils de probabilit
es

Ind
ependance de deux vecteurs gaussiens
Si X et Y sont
`a valeurs dans Rp et Rq respectivement, et
 deux vecteurs
 ale2atoires

2
tels que E k X k < + et E kYk < +, leur matrice de covariance est la matrice
p q definie par




X, Y = E (X E[X])(Y E[Y])T .
Lindependance entre des transformations lineaires dun vecteur gaussien se lit sur la
matrice de covariance :
Proposition 1.6. Si X est un vecteur gaussien de Rn et si A et B sont deux matrices
n p et n q, alors les vecteurs A X et B X sont independants si et seulement si


A X, B X = 0.
Demonstration. On concat`ene A X et B X en un vecteur Y = (A X, B X)T de Rp+q
qui est gaussien comme transformation lineaire du vecteur gaussien X. On a



A X
A X, B X
A X
0
=

Y = 

A X, B X
B X
0
B X


si A X, B X = 0. Il vient, pour u = (a, b) Rp Rq ,
Y (u) = Y (a, b)
= exp iaT E[A X] + bT E[B X] 21 (aT , bT )Y (a, b)T


= exp iaT E[A X] 12 aT A X a + ibT E[B X] 12 bT B X b
= X (a)X (b).


Reciproquement, si A X et B X sont independants, on a A X, B X = 0 par le meme
calcul.

1.3.2

D
eriv
ees des lois gaussiennes

Il sagit de trois familles de lois tr`es classiques en statistique et utilisees pour la


construction de tests et dintervalles de confiance obtenues comme transformation de
lois gaussiennes : loi du 2 , loi de Student et loi de Fisher-Snedecor.
Loi du 2 `
a n degr
es de libert
e
D
efinition 1.10. Une variable aleatoire reelle Y suit la loi du 2 `
a n degres de liberte
si elle peut secrire
n
X
Y =
Xi2 ,
i=1

1.3 Vecteurs gaussiens

17

o`
u les variables X1 , . . . , Xn sont independantes, de meme loi N (0, 1).
On ecrit Y 2 (n). Autrement dit, si X N (0, Idn ), alors k X 2 k 2 (n). On a
les proprietes suivantes :
1. La densite de la loi du 2 (n) est donnee par
y ; c(n)y n/21 ey/2 , y R+ \{0}
R +
avec c(n) = 2n/2 (n/2)1 et (x) = 0 ux1 eu/2 du.
 
 
2. Si Y 2 (n), on a E Y = n et E Y 2 = 2n.
On utilise souvent le resultat suivant :
Proposition 1.7. Soit X un vecteur aleatoire de Rn tel que X N (, ), o`
u est
definie positive. Alors
(X )T 1 (X ) 2 (n).
Demonstration. On a
(X )T 1 (X ) = k1/2 X k2 .
On conclut en utilisant : 1/2 X N (0, Idn ).
Loi T de Student
D
efinition 1.11. Une variable aleatoire reelle T suit la loi de Student `
a n degre de
libertes si

T =p
,
Y /n
o`
u N (0, 1) et Y 2 (n) sont independantes.
On ecrit T T(n). On a les proprietes suivantes
1. La densite de la loi T(n) est donnee par

(n+1)/2
y2
y ; c(n) 1 +
,
n
avec
c(n) =

yR

1
, et B(p, q) = (p)(q)/(p + q).
nB(1/2, n/2)

2. La loi T(n) est symetrique.


3. La loi T(1) est la loi de Cauchy.

18

Outils de probabilit
es
4. Lorsque n est grand, Y /n est proche de 1 par la loi des grands nombres et la loi
T(n) se  rapproche  de la loi N (0, 1).

La loi T de Student intervient en statistique comme une approximation de la loi N (0, 1),
lorsque la variance 1 est approchee par une loi du 2 `a n degres de liberte renormalisee.
Remarque 1.9. Par cette approximation meme, la loi T(n) est plus
la loi N (0, 1) : si T T(n) et N (0, 1), on a, par exemple,
 
 
T > X ,

dispersee  que

o`
u [] est le coefficient daplatissement (la kurtosis) defini dans la Section 1.2. Le cas
extreme est n = 1 o`
u la kurtosis nest meme pas definie (il faut prendre au moins n = 6).
Loi de Fisher-Snedecor
D
efinition 1.12. Une variable aleatoire Y suit la loi de Fisher-Snedecor de degres de
libertes (p, q) si
U/p
Y =
,
V /q
o`
u U 2 (p) et V 2 (q) sont independantes.
On ecrit Y Fp,q et on a les proprietes suivantes :
1. La densite de la loi Fp,q est donnee par
y ; c(p, q)

y p/21
,
(q + py)(p+q)/2

o`
u
c(p, q) =

y R+ \{0},

pp/2 q q/2
.
B(p/2, q/2)

2. Lorsque q est grand, la loi F (p, q) se rapproche de la loi du 2 (p). Cest le meme
raisonnement que pour la loi de Student.

1.3.3

Cochran

Il sagit dun resultat dalg`ebre lineaire que lon utilise pour deduire des proprietes de
transformations lineaires de vecteurs gaussiens.
Th
eP
or`
eme 1.1 (Cochran). Soit X N (0, Idn ) et A1 , . . . , AJ des matrices n n telles
J
que j=1 Rang(Aj ) n et verifiant
(i) les Aj sont symetriques,

1.3 Vecteurs gaussiens

19

(ii) Aj Ak = 0 si j 6= k et A2j = Aj .
Alors
1. Les vecteurs aleatoires (Aj X, j = 1, . . . , J) sont mutuellement independants, et
Aj X N (0, Aj ).
2. Les variables aleatoires (kAj X k2 , j = 1, . . . , J) sont mutuellement independantes
et kAj X k2 2 Rang(Aj ) .
Demonstration. On a, pour tout u Rn et j = 1, . . . , J
 T



T
T
E eiu Aj X = E ei(Aj u) X

= exp 21 (ATj u)T ATj u

par (i)
= exp 21 uT A2j u

1 T
= exp 2 u Aj u
par (ii).
On a donc Aj X N (0, Aj ). Soient u1 , . . . , uJ Rn . On a
 PJ T

 PJ

T
T
E ei j=1 uj Aj X = E ei( j=1 Aj uj ) X

= exp

1
2

J
X

ATj uj

J
T X

j=1


= exp

1
2

J
X

1
2



j=1

ATj uj

J
T X

j=1

= exp

ATj uj

J
X

Aj uj



par (i)

j=1

uTj Aj Aj 0 uj 0

j,j 0 =1

= exp

1
2

J
X

uTj Aj Aj uj

par (ii)

j=1

J
Y

exp 12 (ATj uj )T ATj uj

par (i)

j=1

J
Y

 T

E eiuj Aj X

j=1

ce qui entrane lindependance (Meleard [5], Proposition 6.1.4 p. 130) des Aj X. Pour
montrer le point 2 du theor`eme, on ecrit, pour j fixe,
Aj = T
o`
u est une matrice orthogonale et = Diag(1 , . . . , n ) est la matrice diagonale des
valeurs propres de Aj . Il vient
kAj X k2 = X T ATj Aj X = X T Aj X = (T X)T T X .

(1.4)

20

Outils de probabilit
es

par (i) et (ii). Posons Y = T X. On a Y N (0, Idn ) car est orthogonale. En


reecrivant (1.4) `
a laide de Y, on en deduit
kAj X k2 = YT Y =

n
X

i Yi2 2 Rang(Ai )

i=1

puisque Ai est un projecteur, donc i = 0 ou 1 et le nombre de i non nuls est le rang


de Ai . Lindependance des kAj X k2 est une consequence immediate de celle des Aj X
prouvee precedemment.

1.4
1.4.1

Convergences et th
eor`
emes limites
Modes de convergences

On consid`ere une suite (n )n de variables aleatoires reelles n definies sur un espace


de probabilite commun (, A, P).
D
efinition 1.13. La suite (n )n ou plus simplement n converge vers en probabilite
P

(notation : n ) si pour tout > 0




lim P |n | = 0.

p.s.

La suite n converge vers presque-s


urement (notation : n ) si


P lim sup |n | > 0 = 0.
n

Lp

La suite n converge vers dans Lp (notation : n ), avec 0 < p < , si




lim E |n |p = 0.
n

On a les proprietes suivantes :


1. La convergence presque-s
ure ou la convergence dans Lp entranent la convergence
en probabilite.
2. La convergence presque-s
ure et la convergence dans Lp ne sont pas comparables.
P

3. Si n , elle admet une sous-suite qui converge presque-s


urement.


P
Lp
4. Si n et si |n | , avec E p < + pour un p > 0, alors alors n .
P

5. Si f est continue et n , alors


P

f (n ) f ().

1.4 Convergences et th
eor`
emes limites

21

Pour parler de convergence presque-s


ure, il est necessaire que les variables n et leur
limite soient definies simultanement sur le meme espace de probabilite. 6
Remarque 1.10. La convergence en probabilite est sans doute la notion la plus adaptee
`a la problematique statistique. Elle traduit la propriete suivante : pour tout niveau de
risque > 0 et pour toute precision > 0, il existe un rang n(, ) `a partir duquel on
peut  affirmer  que n approche avec une erreur inferieure `a . La probabilite que
cette affirmation soit fausse est inferieure `a :


pour n n(, ), P |n | 1 .
Cependant, pour contr
oler precisement le comportement asymptotique de suites de
variables aleatoires, on aura besoin dun mode de convergence plus faible : la convergence
en loi.
d

D
efinition 1.14. La suite n converge vers en loi (notation n ) si pour toute
fonction continue bornee, on a




E (Xn ) E () lorsque n .
Remarque 1.11. On peut remplacer dans la definition la suite reelle n par une suite
de vecteurs aleatoires n de Rd avec d 1 et par un vecteur aleatoire de Rd .
6. Remarque (quon omettra en premi`ere lecture) : Ce nest pas forcement le cas pour la convergence
dans Lp ou en probabilite. Dans les chapitres qui suivront, on travaillera souvent avec une suite de variables
aleatoires reelles
X1 , . . . , Xn
independantes, et identiquement distribuees de loi Q sur (R, B). On utilisera la construction suivante :
pour chaque n, on pose
n = Rn , An = Bn , Pn = Q . . . Q
T

n fois.
X

On peut ainsi definir X = (X1 , . . . , Xn ) sur (n , A ) et la loi P du vecteur X concide avec Pn . Si


on consid`ere une suite de variable aleatoires de la forme n = n (X1 , . . . , Xn ), o`
u n : Rn R est une
n
application donnee, chaque n est definie sur un espace different (n , A , Pn ). Si la  limite  de n
est une constante c R deterministe, ce qui sera souvent le cas, alors on peut parfaitement parler de
convergence en probabilite et dans Lp en posant
P

n
n
c si > 0,



lim Pn |n c| = 0

et
L(Pn )

n c si



lim En |n c|p = 0.

Puisque Pn est enti`erement determinee par Q, on ecrira, sans quil y ait de confusion possible,
Q

n c

ou

Lp (Q)

n c.

Par contre, on ne peut plus parler de convergence presque-s


ure. Toutefois, en travaillant un peu, on
peut se placer sur un produit infini et donner de meme un sens a
` la convergence presque-s
ure. A posteriori
il ny a pas dambiguite decriture. Nous ne reviendrons plus sur ces questions techniques.

22

Outils de probabilit
es

La convergence en loi est une notion plus faible que la convergence en probabilite.
Elle ne fait intervenir que la suite des lois Pn et P . En particulier, on na pas besoin
que les variables n ou la limite soient definies sur le meme espace de probabilite.
On a les proprietes suivantes
d

1. n si et seulement si pour tout u R,


n (u) (u) lorsque n .
Cette propriete caracterise la convergence en loi 7 (Theor`eme de Levy).
2. (Astuce de Wold). La suite de vecteurs n de Rd converge vers en loi si et seulement
d

si aT aT pour tout a Rd .
3. Dans la Definition 1.14, on peut remplacer f continue bornee par
f (x) = 1(,x0 ] (x), x R


d
en tous les points x0 R tels que P = x0 = 0. Autrement dit n si et
seulement si



P n x P x], lorsque n .
en tout point x o`
u la fonction de repartition de est continue.
d

4. Si n et g : R R est continue, alors 8 g(n ) g().


Voici un resultat technique que nous utiliserons constamment dans ce cours :
d

Proposition 1.8 (Slutsky). Si n et n c o`


u c est une constante (deterministe),
alors
d
(n , n ) (, c).
d

En particulier, si h : R R R est continue, alors h(n , n ) h(, c). Ceci entrane


d

alors n + n + c, n n c , et ainsi de suite.


Demonstration. Soient u, v R. On ecrit




E ei(un +vn ) E eiu eivc






= E eiun eivn eivc + E eiun E eiu eivc .
d

La convergence n entrane immediatement la convergence vers 0 du second terme


du membre de droite de legalite.
7. On peut remplacer n et par des vecteurs de Rd avec d 1, en prenant u Rd .
8. On peut remplacer n et par des vecteurs de Rd avec d 1 et g : Rd R continue.

1.4 Convergences et th
eor`
emes limites

23

Concernant le premier terme, pour > 0, on introduit levenement {|n c| }.


On a alors



E eiun eivn eivc







= E eiun eivn eivc 1|n c| + E eiun eivn eivc 1|n c|<


2 P |n c| + |v|,
P

o`
u lon a utilise |eivn eivc | |v||n c|. On conclut en utilisant n c puis en faisant
tendre vers 0.

1.4.2

Lois des grands nombres et th


eor`
eme central-limite

Loutil probabiliste essentiel de ce cours est le controle de la somme de variables


aleatoires independantes (et souvent equidistribuees).
Notations
Si X1 , . . . , Xn est une suite de variables aleatoires reelles, on notera toujours
n

Xn =

1X
Xi
n
i=1

leur moyenne empirique. Si X1 , . . . , Xn sont independantes et de meme loi Q, on ecrira


X1 . . . Xn i.i.d. Q.
Dans ce contexte et lorsquil ny aura pas dambiguite on introduira parfois la notation
X pour designer une variable de meme loi que les Xi .
Lois des grands nombres
Proposition 1.9. Soient X1 , . . . , Xn des variables
 aleatoires independantes de meme loi,
telles que Var X = 2 < +. On note = E X . Alors


 2

.
E X n = et Var X n =
n
Demonstration. On utilise simplement la linearite de lesperance et la propriete
Var

n
X

n
 X
 
Xi =
Var Xi

i=1

qui est verifiee si les Xi sont independantes.

i=1

24

Outils de probabilit
es
L2

Remarque 1.12. La Proposition 1.9 implique la convergence X n et donc aussi


P
X n .
Th
eor`
eme 1.2 (Loi forte des grands nombres).
aleatoires
  Soient X1 , . . . , Xn des variables

independantes de meme loi, telles que E |X| < +. On note = E X . Alors
p.s.

X n

lorsque n .

Th
eor`
eme central limite
Le theor`eme central limite donne la vitesse de convergence dans la loi des grands

nombres. La Proposition 1.9 sugg`ere que la bonne normalisation est n : en effet, on a


h
E

n X n

 2 i

= nE

2 


X n E[X n ]
= nVar X n = 2 ,

qui reste bornee lorsque n . On cherche donc le comportement de lerreur normalisee




n X n , lorsque n .
Malheureusement, si la convergence existe, elle ne peut pas avoir lieu en probabilite 9 et
il faut affaiblir le mode de convergence.
Th
eor`
eme 1.3 (Theor`eme central limite).
X1 , . . . , Xn des variables
aleatoires
 2Soient

 
2 = Var X > 0. On note
independantes
de
m
e
me
loi,
telles
que
E
X
<
+
et

 
= E X . Alors



X n d
n
N (0, 1).

On dira que la suite n est asymptotiquement normale sil existe deux constantes
R et > 0 telles que

d
n(n ) N (0, 2 ).
En particulier, le theor`eme central limite implique que la moyenne empirique est asymptotiquement normale. Le resultat suivant montre que si n est asymptotiquement normale,
alors g(n ) lest aussi `
a condition que g : R R soit suffisamment reguli`ere.
Cet outil technique essentiel porte en statistique le nom de

methode delta .

Proposition 1.10 (methode delta). Si n est asymptotiquement normale et g : R R


est contin
ument differentiable, alors g(n ) lest aussi et

9. voir lExercice 1.2.

 d

n g(n ) g() N 0, 2 g 0 ()2 .

1.4 Convergences et th
eor`
emes limites

25

Demonstration. La fonction
(
h(x) =

g(x)g()
x
g 0 ()

si x 6=
si x =

est continue. La normalite asymptotique de n entrane en particulier la convergence


P
n , et donc aussi
P
h(n ) h() = g 0 ().


d
Or n g(n ) g() = h(n )n , avec n = n(n ) N (0, 2 ). La Proposition 1.8
(Slutsky) permet de conclure

d
d
h(n )n g 0 () N (0, 2 ) = N 2 g 0 ()2 ,
d

le symbole = signifiant

egalite en loi .

Version multidimensionnelle du th
eor`
eme central limite
d
Th
eor`
eme 1.4. Soient X 1 ,. . . , X n une suite de vecteurs aleatoires
  de R independants
2
et de meme loi, tels que E k X k < +. On note = E X et la matrice de
variance-covariance d d de X. On a
 d


n X n N 0, .

La  methode delta  a elle aussi une version multidimensionnelle. Si g : Rd Rk


est contin
ument differentiable, elle secrit

g(x) = g1 (x), . . . , gk (x) , gi : Rd R,
et on note Jg (x) la matrice de la differentielle de g au point x Rd :

1 g1 (x) . . . d g1 (x)

..
..
Jg (x) =
.
.
.
1 gk (x) . . . d gk (x)
Proposition 1.11. Soient 1 , . . . , n une suite de vecteurs aleatoires de Rd asymptotiquement normale, au sens o`
u:
 d


n n N 0,
o`
u Rd et est une matrice d d symetrique positive. Alors, si g : Rd Rk est
contin
ument differentiable, on a
 d


n g( n ) g() N 0, Jg () Jg ()T .

26

Outils de probabilit
es

1.5

Exercices

Exercice 1.1. Soient Xn et Yn deux suites de variables aleatoires reelles telles que
P


P
Xn 0 et supn E |Yn | < . Montrer que Xn Yn 0.
Exercice 1.2. Soit Xn une suite de variables aleatoires independantes centrees reduites.
Par le theor`eme central limite, on a
n

1 X
d
Sn =
Xi N (0, 1).
n
i=1

Le but de cet exercice est de montrer que Sn ne peut pas converger en probabilite.
Decomposer la variable S2n en fonction de Sn et dune variable aleatoire independante
de la precedente.
Calculer la fonction caracteristique de S2n Sn et montrer que cette difference
converge en loi.
En raisonnant par labsurde, en deduire que Sn ne converge pas en probabilite.
Exercice 1.3. On pose
f (x) =

|x|
.
1 + |x|

Montrer que la suite de variables aleatoires Xn converge en probabilite vers X si


et seulement si


lim E f (Xn X) = 0.
n

Montrer que lon peut remplacer f par g(x) = min{|x|, 1}, et plus generalement par
toute fonction f positive, continue, bornee, croissante sur R\ {0} verifiant f (0) = 0
et f (x) > 0 si x > 0.
En deduire que si Xn converge vers X en probabilite, il existe une sous-suite qui
converge presque-s
urement. (Il existe une autre preuve facile de ce resultat `
a laide
du lemme de Borel-Cantelli).

Chapitre 2

Exp
erience statistique
Une experience statistique est la description mathematique de la realisation dune
variable ou dun vecteur aleatoire (lobservation) associee `a un ensemble de lois de probabilite (le mod`ele) susceptibles davoir engendre cette observation.
A une experience statistique est toujours associee une problematique : la reconstruction dun param`etre du mod`ele (lestimation), la decision sur les proprietes du mod`ele
(un test).

Mod
elisation statistique?

2.1
2.1.1

Exemples introductifs

Exemple 1 : Sondage
Une election entre deux candidats A et B a lieu : on effectue un sondage `a la sortie
des urnes. On interroge n votants, n etant considere comme petit devant le nombre total
de votants, et on recolte les nombres nA et nB de voix pour A et B respectivement
(nA + nB = n, en ne tenant pas compte des votes blancs ou nuls pour simplifier).
Problematique statistique : peut-on affirmer que A ou B a gagne au vu de nA
et nB seulement ? Si lon decide dannoncer A (ou B) vainqueur, comment
quantifier lerreur de decision ?
La reponse va de toute evidence dependre de n et du rapport nA /nB . Ce probl`eme semble
intimement lie avec lexperience suivante : on lance une pi`ece de monnaie n fois et on
compte les nombres nP et nF de piles et faces obtenus.
Problematique statistique : la pi`ece est-elle truquee ? Si n = 100 et nP = 19,
nF = 81, on ne va pas vraiment hesiter. Mais quen est-il si n = 20, nP = 12
et nF = 8 ?

28

Exp
erience statistique

Intuitivement, dans ces deux experiences statistiques, le probl`eme de decision sera dautant plus difficile `
a resoudre que la pi`ece est  peu truquee , ou bien que les deux
candidats sont proches dans le cur des electeurs dune part, et si lon a recolte peu de
lancers ou de reponses (n petit) dautre part.

Exemple 2 : Reconstruction dun signal bruit


e

On transmet un signal periodique f (t), t [0, T ] echantillonne `a une certaine
frequence N . Chaque donnee f (k/N ), k = 1, . . . , N T , est corrompue lors de la transmission par une erreur ek , de sorte que lon capte
Yk = f (k/N ) + ek , k = 1, . . . , N T.
On a n = N T observations. On postule que les erreurs sont independantes les unes
des autres, nulles en moyenne, et leur  ordre de grandeur  sans preciser plus pour le
moment est > 0.
Problematique statistique : comment
reconstruire f , cest-`
a-dire comment construire

une fonction t ; fb t; (Yk ) ne dependant que des observations Yk on dira
un estimateur de f de sorte que fb soit  proche  de f ?
Intuitivement, la difficulte du probl`eme va dependre de N et du rapport entre la taille
de f et le niveau de bruit , et bien s
ur de la complexite du signal 1 . Voici une autre
question tr`es proche
Problematique statistique : comment decider si le canal transmet effectivement
un signal (afin de declencher une alarme, par exemple). Autrement dit, peuton decider en vue des Yk si f = 0 ou f 6= 0 ? Avec quelle probabilite de se
tromper ?
On peut imaginer un signal en dimension 2 : par exemple, une image definie sur le carre
unite [0, 1] [0, 1] pour une certaine discretisation en pixels auxquels sont associes des
niveaux de gris dans [1, M ] N. Das ce cas, on observe
Yk,` = f (k/N, `/N ) + k,` , 1 k, ` N,
o`
u
f : [0, 1] [0, 1] [1, M ] N
et les l,` sont des erreurs, nulles en moyenne et dordre de grandeur . On a n = N 2
observations. On pourra sinteresser au probl`eme de reconstruction de limage f ou bien
decider si une certaine caracteristique est presente dans limage ou non.
1. Un signal constant ou ayant une forme prescrite sera plus facile a
` reconstruire quun signal irregulier.

2.1 Mod
elisation statistique?

29

Exemple 3 : Evaluation du risque dun actif financier


On recueille sur le marche les donnees du prix (St , t 0) dun actif financier sur
lintervalle de temps [0, T ], pour une certaine echelle dechantillonnage : par exemple,
une semaine ou un jour, une heure, quelques minutes, etc. On observe les rendements
logarithmiques
Si
Yi = log
, i = 1, . . . , n = bT /c.
S(i1)
On a n = bT /c observations. Si lon se place dans la theorie classique de Black-Scholes,
la dynamique du prix suit lequation
dSt
= dt + dBt ,
St

(2.1)

o`
u (Bt , t 0) est un mouvement brownien, R est le drift et > 0 la volatilite de
lactif.
Problematique statistique : comment reconstruire 2 la volatilite `
a partirdes
donnees historiques Yi ? On peut aussi vouloir estimer le risque /( T )
de lactif 3 .
La reponse va dependre de T , et , mais aussi de , choisi par le statisticien.
Exemple 4 : Biopuces et analyse dADN
On dispose dun procede de biologie moleculaire, les biopuces (ou microarrays) qui
permet de mesurer lexpression de certains g`enes dun individu dune esp`ece biologique
dans certaines situations 4 . Dans ce cas, on dispose pour chaque individu i dune suite
de localisations (qui correspondent grossi`erement `a des g`enes) et dune expression correspondante qui prend la forme
(i)

(i)

X i = (X1 , . . . , XJ ), i = 1, . . . , N
(i)

o`
u Xj 0 est le niveau dexpression des g`enes parmi les sites {1, . . . , J} pour lindividu
i pris dans une population de taille N . On a 5 n = JN observations.
Problematique statistique : peut-on localiser les sites i responsables dun etat
(i)
donne, sachant que les mesures des Xj sont sujettes `
a des erreurs ? Si lon
se donne deux populations, lune atteinte dune maladie soupconnee detre
2. Par exemple, pour la comparer avec la volatilite implicite donnee par des prix doptions.
3. Que lon designe aussi comme son ratio de Sharpe.
4. Par exemple, en laboratoire, on peut mesurer lintensite de lexpression de certains g`enes dun
insecte infecte dans le but de localiser les g`enes promoteurs de la reponse immunitaire.
5. Avec le fait notable quen pratique N  J : N est de lordre de quelques individus alors que J est
de lordre de plusieurs milliers.

Exp
erience statistique

115
105

110

Bund

120

125

30

500

1000

1500

Time

Figure 2.1 Exemple 3 : observation des prix du contrat futur FGBL (Obligation 10 ans
de lEtat allemand), entre avril 1999 et decembre 2005. Lechantillonnage est de = 1
jour. (Source : BNP Paribas)

2.1 Mod
elisation statistique?

31

dorigine genetique, lautre population etant saine, peut-on decider au vu des


donnees X i (pour chaque population) si la maladie en question est dorigine
genetique ?
Exemple 5 : Contr
ole de qualit
e, donn
ees censur
ees
On cherche en laboratoire `a tester la fiabilite dun appareil industriel. On fait
fonctionner en parall`ele n appareils jusqu`a ce quils tombent tous en panne. On note
X1 , . . . , Xn
les instants de panne observes. On dispose donc de n observations.
Problematique statistique : comment reconstruire la loi du temps de panne ?
Le temps de panne moyen est-il raisonnable (plus petit quun seuil donne) ?
La precision destimation sur la loi du temps de panne des Xi sera dautant meilleure
que n est grand.
Si les appareils sont fiables, ce qui est realiste en pratique, la quantite maxi=1,...,n Xi
sera souvent hors datteinte pour le statisticien. On stoppe lexperience apr`es un temps
terminal T et on observe plut
ot
Xi? = min{Xi , T },

i = 1, . . . n.

Problematique statistique : quelle est la perte dinformation, quantifiee par T ,


dans cette seconde experience plus realiste ?
Exemple 6 : Influence dune variable sur une autre
Comment quantifier une assertion comme  la taille dun individu est fonction de son
age  ? Si on note Y la taille et X lage typiques dun individu, il est irrealiste de postuler
lexistence dune fonction f : R R telle que Y = f (X).
Toutefois, on peut esperer que la  variabilite  de Y est  essentiellement contenue  dans celle de X dans le sens suivant : si X et Y sont deux variables aleatoires avec
Y de carre integrable, ecrivons


Y = r(X) + , avec r(X) = E Y | X ,


de sorte que = Y E Y | X est un  bruit  centre. Cette decomposition est motivee
par la propriete de lesperance conditionelle qui est la meilleure approximation de Y par
une variable X- mesurable, au sens suivant :
E

Y r(X)

2 

= min E
h

2 
Y h(X)

32

Exp
erience statistique

Figure 2.2 Exemple 4. Observation dune biopuce en laboratoire : chaque carre lumineux mesure lintensite dexpression dun g`ene (en fait dune sequence dARNm codante
suffisamment longue pour etre mise en correspondance avec un g`ene via la production de
peptides pour lesquels code la sequence dADN correspondante). La representation  en
carres  est donnee pour economiser la representation : il ny a pas a priori de structure
bi-dimensionnelle associee `a cette  image .

2.1 Mod
elisation statistique?

33

o`
u le minimum est pris sur lensemble des fonctions boreliennes. Cest une caracterisation
de lesperance conditionnelle pour des variables de carre integrable (voir, par exemple,
Jacod et Protter [4]).



On traduit
  la taille dun individu est fonction de son age par la variance du
bruit 2 = E 2 est petite  par exemple. On collecte les ages et tailles (Xi , Yi ) dune
population de n individus. Les observations sont les (Xi , Yi ), avec

Yi = r(Xi ) + i , i = 1, . . . , n

(2.2)

et les i sont des bruits centres de taille 2 . On a n observations (ou 2n selon le point de
vue). Les Xi portent le nom de covariables, ou variables explicatives.
Problematique statistique : comment reconstruire la fonction r appelee fonction de regression et estimer lintensite 2 du bruit ?
Ce contexte est proche de celui de lexemple 1 du signal bruite, `a ceci pr`es que les points
k/N sont remplaces par les donnees aleatoires Xi , dont les valeurs ne sont pas choisies
par le statisticien. Mais si les Xi sont  bien repartis , on sattend `a ce que les deux
mod`eles soient proches lorsque n est grand.
Les variables X et Y nont pas vocation `a etre de meme dimension : on peut remplacer
X par un vecteur X Rk qui collecte un ensemble de covariables possibles. Dans ce cas,
la representation (2.2) devient Yi = r(X i ) + i o`
u maintenant r : Rk R, que lon peut
chercher `
a reconstruire.
Il existe aussi des situations o`
u Y est une variable qualitative, cest-`a-dire ne prenant
quun nombre fini de valeurs. On peut penser que le risque de maladie coronarienne chez
un individu est influence par toute une serie de facteurs : pression systolique, consommation de tabac, dalcool, taux de cholesterol, poids, age, terrain familial, etc. On note
Yi {0, 1} labsence ou la presence de maladie coronarienne pour un individu i detude
donne, et X i le vecteur des covariables constitue des differentes donnees recueillies chez
lindividu i. Dans ce cas, on a


r(x) = P Y = 1| X = x ,
qui sinterpr`ete comme la probabilite detre atteint de maladie coronarienne, sachant le
vecteur des covariables X.

34

Exp
erience statistique

2.1.2

D
efinition provisoire dune exp
erience statistique?

Construire une experience statistique consiste `a identifier trois elements distincts :


1. Des observations
x1 , x2 , . . . , xn

(2.3)
complexes. 6

o`
u les xi sont des reels, mais on peut imaginer des situation plus
Ces
observations sont associees `a la realisation dune experience physique, et le point
de depart du statisticien est donc le resultat de cette experience.
2. Un mod`
ele stochastique associe `a lexperience qui a engendre les observations. Les
observations sont considerees comme la realisation de variables aleatoires. La loi de
ces variables aleatoires identifie le mecanisme de formation des observations. Cette
loi depend de param`etres inconnus.
3. Une probl
ematique associee au couple [observations, mod`ele]. Il sagit pour le statisticien de  retrouver  on dira estimer les param`etres inconnus. Il faut pouvoir
contr
oler la qualite de cette estimation.
On peut aussi vouloir prendre une decision, par exemple sous la forme dun test
dhypoth`ese sur les param`etres. Il faut pouvoir controler lerreur de decision. 7

La problematique statistique consiste `a developper le point 3 dans des situations


associees aux points 12.
D
efinition 2.1 (provisoire dune experience statistique). Une experience statistique est
la donnee dobservations et dun mod`ele stochastique susceptible davoir engendre ces
observations.
Mathematiquement, les observations sont la realisation dun vecteur aleatoire Z dont
la loi PZ est prise dans une famille P de probabilites possibles donnee `
a lavance et qui
definit le mod`ele stochastique associe `
a lobservation.
Cette definition r`egle 8 provisoirement les points 1 et 2. Au moyen dune parametrisation appropriee, on peut toujours representer la famille P sous la forme


P = P , ,
6. On peut considerer des donnees qualitatives, que lon pourra coder par des entiers, ou bien des
donnees plus complexes, comme par exemple une surface o`
u la trajectoire dun processus stochastique.
La difficulte provient de lorganisation des xi qui peut etre complexe (vecteurs, tableaux) et ne transparat
pas dans lecriture (2.3).
7. Cest-`
a-dire la probabilite daccepter une hypoth`ese sur les param`etres alors quelle est fausse, ou
de la rejeter alors quelle est vraie.
8. Avec les notations de la definition 2.1, les observations secrivent sous la forme
(x1 , . . . , xn )T = Z()

2.2 Formulation math


ematique

35

o`
u est un ensemble de param`etres possibles. Le point 3 se traduit ainsi :
D
efinition 2.2. La problematique statistique (ou linference statistique) consiste, `
a partir
Z
dune realisation dun vecteur aleatoire Z, dont la loi P est prise dans une famille
{P , P } donnee, `
a retrouver le param`etre tel que PZ = P .
Le param`etre resume toute linformation que peut apporter lobservation Z().
Identifier est equivalent `
a identifier P , cest-`a-dire la loi de la variable aleatoire Z dont
on a observe une realisation Z().

2.2
2.2.1

Formulation math
ematique
Exp
erience engendr
ee par une observation

Situation
Une experience statistique est la donnee dun vecteur aleatoire Z `a valeurs dans un
espace mesurable (Z, Z), le plus souvent (Rn , B n ) et definie sur un espace de probabilite (, F, P). La problematique statistique consiste `a supposer que PZ appartient `a une
famille de probabilites sur (Z, Z), et le but est de  retrouver  les proprietes de PZ `a
partir de lobservation dune realisation de Z seulement.


On represente cette famille sous la forme P , , o`
u est un param`etre et un
 lespace d
ensemble de param`etres. Dans
un
probl`
e
me
statistique,
seul
etat  (Z, Z)


et la famille de probabilites P , comptent. Une fois ces elements specifies, la
donnee de Z et de lespace (, F, P) deviennent superflus.
D
efinition 2.3 (Experience statistique). Une experience (un mod`ele) statistique E est
la donnee dun triplet

E = Z, Z, {P , }
o`
u (Z, Z) est un espace mesurable et {P , } une famille de probabilites definie sur
(Z, Z). On appelle lensemble des param`etres.
On parle indifferemment dexp
ou de mod`ele statistique. On parlera
 erience statistique

parfois simplement du mod`ele P , lorsque le contexte ne prete pas `a confusion 9 .
D
efinition 2.4 (Experience engendree par une observation). Si lexperience statistique
E est construite `
a partir dune observation Z par le procede ci-dessus, on dit que E est
engendree par lobservation Z.
et sont donc apprehendees comme la realisation dun vecteur aleatoire Z defini implicitement sur un
espace mesurable (, A). La famille P est un ensemble de mesures de probabilites definies sur limage
Z() de Z.
9. Sans preciser lespace (Z, Z) sur lequel sont definies simultanement toutes les probabilites P , .

36

Exp
erience statistique

Exemple
On observe n variables aleatoires independantes, gaussiennes de moyenne R et
de variance 2 > 0. Lexperience statistique associee est decrite comme lobservation de
X1 , . . . , Xn independantes, identiquement distribuees,
Xi N (, 2 ), R, 2 > 0.
Il existe donc un espace de probabilites (, F, P) sur lequel est defini le vecteur aleatoire
Z = (X1 , . . . , Xn )T et PZ est la loi de n variables gaussiennes
 independantes de2 moyenne
Z
n
2
n
et de variance . La probabilite P , definie sur R , B , depend de et meme si
cela ne transparat pas dans les notations. On a
Z
n
X

Z
n/2
P [A] = (2)
exp 21 2
(xi )2 dx1 dxn , A B n .
A

i=1

Dans ce cas, on construit lexperience E associee de la facon suivante : on pose




Z, Z = Rn , B n , = (, 2 ), = R R+ \{0}, P = PZ ,
o`
u B n designe la tribu borelienne de Rn .
Remarque 2.1. En toute rigueur, on ne peut pas dire que lon observe Z, mais
plut
ot que lon observe une realisation Z() de Z, qui correspond aux  donnees physiques  x1 , x2 , . . . , xn que lon traite effectivement en pratique. Mathematiquement, cela
na aucune importance, et on sautorisera cet abus de langage. Le paragraphe suivant
permet de lever cette ambiguite 10 sur laquelle nous ne reviendrons plus.

2.2.2

Observation canonique?

Lorsque lon specifie directement une experience statistique E via la Definition 2.3, il
ny a pas dobservation Z. Une facon immediate de  considerer  E comme engendree
par une observation Z consiste `a poser

(, F) = Z, Z et Z() = , ,
et PZ = P est la loi de Z qui depend ici explicitement de dans les notations.
D
efinition 2.5 (Observation canonique). Si lobservation Z est construite `
a partir dune
experience statistique E par le procede ci-dessus, on dit que Z est lobservation canonique
associee a
` E.
Ces deux points de vue peuvent parfois etre source de confusion, principalement dans
les notations. Dans la pratique (mathematique) on naura pas besoin de se soucier du
point de vue sous lequel on se place, les Definitions 2.4 et 2.5 etant equivalentes.
10. En statistique, on parle de Z pour designer Z(), a
` linverse de la pratique qui consiste a
` ecrire
parfois f (x) pour designer la fonction f .

2.2 Formulation math


ematique

2.2.3

37

Domination



Apprehender une famille de mesure P , sans plus dhypoth`ese est tr`es
ambitieux, comme on le verra au Chapitre 3. Sous une hypoth`ese de regularite, dite de
domination, on ram`ene le probl`eme de letude des P `a une famille de fonctions sur (Z, Z).

D
efinition 2.6. Etant donnees deux mesures positives -finies et definies sur Z, Z ,
on dit que domine et on ecrit  si
[A] = 0 [A] = 0.
Le theor`eme de Radon-Nikodym (voir par exemple Jacod et Protter [4], Chapitre 28)
d
entrane lexistence dune fonction mesurable positive z ; p(z), notee z ; d
(z), appelee
densite de par rapport `
a , definie `a un ensemble -negligeable pr`es, de sorte que
(dz) = p(z)(dz),
au sens o`
u

Z
p(z)(dz) =

[A] =
A

d
d (z)(dz),

A Z.


D
efinition 2.7. Une experience statistique
E
=
Z,
Z,
{P
,

}
est dominee par la


mesure -finie definie sur Z, Z si pour tout , la mesure domine P .
Dans ce cas, il existe, pour tout une densite
z ; p(, z) =

d P
(z)
d

de sorte que
P (dz) = p(, z)(dz), z Z.
Lhypoth`ese
permet de  reduire  letude de la complexite de la famille
 de domination

de mesure P , `
a celle de lapplication
p : Z R+
et de la mesure dominante . Nous verrons dans les chapitres suivants comment letude
systematique des proprietes de p(, ) rend compte des proprietes de E.
Exemple 2.1. Un exemple o`
u il nexiste pas de mesure dominante est la famille parametrique {P = , R}, o`
u est la mesure de Dirac au point . Cet exemple 11
correspond `
a lexperience parfaite o`
u une seule observation permet de connatre sans
erreur le param`etre .
11. En effet, sil existe une mesure -finie sur R qui domine tous les P = , alors necessairement
{} =
6 0 pour tout R. Ceci est en contradiction avec lexistence dune partition denombrable An de
R telle que (An ) < + pour tout n, donc ne peut pas etre -finie.

38

Exp
erience statistique

Exemple 2.2. Un exemple plus subtil est donne par lexperience engendree par lobservation de X, o`
u X suit une loi de Poisson de param`etre 1, et = R+ \{0} est le
param`etre. Dans ce cas, lexperience est  vraiment aleatoire , mais on pourra montrer
en exercice quelle nest pas dominee 12 .

2.2.4

Mod`
eles param
etriques, non-param
etriques?

On distingue deux types dexperiences statistiques : les experiences parametriques,


o`
u peut secrire comme un sous-ensemble de Rd , le param`etre pouvant etre decrit
par un nombre fini de composantes, et les experiences non-parametriques, o`
u est un
element dun espace fonctionnel.
Par exemple, dans les exemples 2 signal bruite et 6 influence dune variable sur
une autre de la Section 2.1.1, le param`etre inconnu est le signal f ou la fonction de
regression r. Si lon postule que f (ou r) se represente sous la forme
f (, x) =

d
X

i i (x), x R

i=1

o`
u les fonctions i sont donnees, lexperience statistique est parametrique, et
= (1 , . . . , d )T Rd .
Le choix d = 2 et r(, x) = 0 + 1 x correspond `a
etudiera en detail dans la Section 5.2.

la droite de regression , que lon

Si f est un element quelconque dun espace fonctionnel (decrit le plus souvent par des
proprietes de regularite fonctionnelles : par exemple, f est de carre integrable et derivable
un certain nombre de fois dans L2 ), alors lexperience associee est non-parametrique et le
param`etre est la fonction f elle-meme. Si les fonctions i sont les d-premiers elements
dune base orthogonale de L2 , alors la transition dune situation parametrique vers une
situation non-parametrique consiste formellement `a passer `a la limite dans le nombre de
dimensions d qui decrivent le param`etre inconnu.
La distinction parametrique ou non-parametrique est un choix de modelisation. Pour
lexemple 2 de la transmission dun signal bruite ou de la reconstruction dune image de
la Section 2.1.1, un mod`ele non-parametrique semble plus approprie que pour lexemple
du sondage. Pour lexemple 3 de lestimation de la volatilite, on a choisi de prendre > 0
constant. Si on veut tenir compte des fluctuations de la volatilite dans le temps, une
representation fonctionnelle ((t), t 0) est plus appropriee. Le mod`ele sera plus proche
de la realite, mais le probl`eme statistique plus difficile.
Dans ce cours, hormis le Chapitre 3, nous nous restreindrons `a letude dexperiences
parametriques.
12. Indication : la loi de X secrit P (dx) =
que pour lexperience parfaite.

1 1
k (dx).
kN k! e

On raisonne alors de la meme mani`ere

2.3 Exemples

2.3
2.3.1

39

Exemples
Mod`
ele d
echantillonnage ou du n
echantillon

De par la simplicite de sa structure, cest une des experience statistiques les plus
etudiees, et qui occupe trois chapitres de ce cours.
Situation
Pour n 1, on consid`ere (la suite) dexperience(s) engendree par lobservation de
n-variables aleatoires reelles
X1 , . . . , Xn independantes, identiquement distribuees,
de loi inconnue F sur R, o`
u F F appartient `a une famille de loi F donnee. Lexperience
statistique E n correspondante est engendree par le vecteur Z = (X1 , . . . , Xn )T et on peut
ecrire

E n = Rn , B n , {PFn , F F}
o`
u PnF est la loi sur Rn de n-variables aleatoires independantes de loi F . Cela signifie en
particulier, que, pour tous x1 , . . . , xn R, on a
n

 Y
PFn X1 x1 , . . . , Xn xn =
F (xi ).
i=1

En particulier, si F est constituee de distributions F absolument continues, de densite


f , alors le vecteur (X1 , . . . , Xn ) admet une densite par rapport `a la mesure de Lebesgue
donnee par
n
Y
(x1 , . . . , xn ) ; p(x1 , . . . , xn ) =
f (xi ).
i=1

Dans ce cas, on a
PF (dx1 . . . dxn ) = p(x1 , . . . , xn )dx1 . . . dxn

(2.4)

et lexperience E n est dominee par la mesure de Lebesgue sur Rn .


Experience produit et domination
Si E designe lexperience engendree par une seule observation X F , cest-`a-dire

E = R, B, {F F}
alors E n est le

produit  de n copies independantes de E et on ecrit parfois


En = E . . . E

(n-fois).

40

Exp
erience statistique

Si la famille F est dominee par une mesure sur R, alors lexperience E n est dominee
par la mesure produit n = . . . sur Rn . En particulier, si est la mesure de
Lebesgue sur R, on retrouve (2.4).
Les exemples de la Section 2.1.1
Les exemples 1 sondage , 3 risque dun actif financier et 5 controle de qualite
de la Section 2.1.1 sont des mod`eles dechantillonnage :
1. Pour lexemple 1 sondage ou lancer de de, on peut associer `a chaque votant une
variable Xi prenant la valeur 0 ou 1 selon que lon vote pour A (pile) ou B (face). La
loi de Xi est une loi de Bernoulli de param`etre inconnu = [0, 1]. Si < 1/2,
A gagne. Si 6= 12 , la pi`ece est truquee.
Si lon recolte la suite compl`ete X1 , . . . , Xn des votes (des lancers) supposes independants et de meme loi de Bernoulli de param`etre , alors on est dans un mod`ele
dechantillonnage, et lexperience associee secrit



E n = {0, 1}n , tribu des parties de {0, 1}n , Pn , ,
o`
u
Pn = P P (n fois),
avec


P X = 1 = = 1 P [X = 0],
ce que lon peut encore ecrire sous la forme
P (dx) = 1 (dx) + (1 )0 (dx),
o`
u a (dx) designe la mesure de Dirac au point a. Cette derni`ere representation
permet de mettre en evidence la mesure de comptage (dx) = 0 (dx) + 1 (dx) sur
{0, 1} comme mesure dominante pour P . La mesure de comptage n =
sur le produit {0, 1}n domine alors lexperience E n .
Une autre mani`ere de proceder est de considerer que lon nobserve que le nombre de
votants nA pour le candidat A (ou nP ), ce qui donne aussi nB (ou nF ), puisque nA +
nB = nP + nF = n. Dans ce cas, on na quune seule observation X, et on modelise
nA comme la realisation dune variable aleatoire X binomiale de param`etres (n, ),
o`
u = [0, 1] est le param`etre inconnu. Dans ce cas, lexperience statistique
secrit



Een = {0, n}, tribu des parties de {0, n}, Qn , ,
o`
u cette fois-ci les Qn sont definies sur {0, . . . , n} et


Qn X = x = Cnx x (1 )nx , x = 0, . . . , n,

2.3 Exemples

41

ce qui secrit aussi


Qn (dx) =

n
X

Cnk k (1 )nk k (dx).

k=0

Cette derni`
Pere representation permet de mettre en evidence la mesure de comptage
n (dx) = nk=0 k (dx) sur {0, . . . , n} comme mesure dominante du mod`ele.
Intuitivement les experiences statistiques E n et Een contiennent la meme information
sur le param`etre . On verra au Chapitre 6 comment formaliser et quantifier cette
idee.
2. Pour lexemple 3 risque dun actif financier les observations secrivent
Yi = + (Bi B(i1) ) N , 2

et sont independantes, en utilisant les proprietes caracteristiques du mouvement


brownien (que lon pourra admettre) : Bt Bs N (0, t s) et Bt Bs est
independant du passe jusqu`a linstant s.
La loi F de Yi est dominee par la mesure de Lebesgue sur R et sa densite
x ; f (, x) = (2 2 )1/2 exp

1
(x
2 2

)2

depend du param`etre = (, 2 ) = R R+ \{0}.


3. Pour lexemple 5 contr
ole de qualite cest evident. Noter quun mod`ele classique
de duree de vie est fourni par la famille de lois exponentielles de param`etre
R+ \{0}. Dans ce cas, lexperience E est dominee par la mesure de Lebesgue sur R
et la loi de Yi secrit
P (dx) = ex 1{xR+ } dx.
Si les variables Yi sont censurees par un instant terminal T connu, on observe alors
plut
ot Yi? = min{Yi , T }. Dans ce cas, la loi P? de Yi? nest ni discr`ete, ni continue,
comme dans la Section 1.1.3 du Chapitre 1.
On pourra montrer en exercice que P? est dominee par (dx) = dx + T (dx), o`
u dx
est la mesure de Lebesgue sur R et T (dx) est la mesure de Dirac au point T . On a
P? (dx) = p(, x)(dx),
o`
u
p(, x) = ex 1{x<T } + c()1{x=T } ,
avec c() =

R +
T

et dt = eT .

42

2.3.2

Exp
erience statistique

Mod`
eles de r
egression

R
egression conditionnelle ou mod`
ele de signal bruit
e
On observe une fonction r : Rk R echantillonnee en n points, chaque observation
etant  bruitee  par une erreur systematique :
Yi = r(xi ) + i ,

i = 1, . . . , n.

Les bruits i sont des variables independantes, identiquement distribuees, centrees et


de carre integrable. Les xi sont les points dechantillonnage, appeles parfois points de
 design , d
efinis sur un domaine D Rk en general borne. Si k = 1, on prend le plus
souvent D = [0, 1] et xi = xi = i/n, i = 1, . . . , n. Si k 1 on peut imaginer que les points
se  repartissent  de facon reguli`ere sur D, ou bien au contraire quils se concentrent
dans une region de D. Dans cette acceptation du mod`ele de regression, le statisticien
choisit les points xi .
Si r = r(, ) est connue au param`etre Rd pr`es, le mod`ele est parametrique.
Cest le cas qui nous interessera. Une forme parametrique particuli`erement importante
est la regression lineaire r(, x) = T x, qui est bien definie d`es que k = d.
Lexperience statistique correspondante E n est engendree par les Yi , i = 1, . . . , n. Ce
sont des variables independantes mais pas identiquement distribuees (chaque Yi depend
de xi ). On a

E n = Rn , B n , {Pn , } ,
o`
u Pn est la loi conjointe des Yi . En particulier, pour tous y1 , . . . , yn R,
n

 Y
Pn Y1 y1 , . . . , Yn yn =
Fxi (yi ),
i=1

o`
u y ; Fxi (y) est la fonction de repartition de Yi . Par exemple, si i a une densite g par
rapport `
a la mesure de Lebesgue sur R, on a
Z y

g t r(, xi ) dt.
Fxi (y) =

Dans ce cas, le vecteur (Y1 , . . . , Yn ) a lui-meme une densite par rapport `a la mesure de
Lebesgue sur Rn , donnee par
(y1 , . . . , yn ) ; p(, y1 , . . . , yn ) =

n
Y


g t r(, xi ) .

i=1

On a alors
P (dy1 . . . dyn ) = p(, y1 , . . . , yn )dy1 . . . dyn
et le mod`ele est domine par la mesure de Lebesgue sur Rn .

2.3 Exemples

43

Lexemple 2 signal bruite de la Section 2.1.1 est un mod`ele de regression conditionnelle.


Le terme de regression conditionnelle pour ce mod`ele se justifie par opposition `a la
regression non-conditionnelle ou avec variables explicatives, que nous presentons maintenant.
R
egression avec variables explicatives
Lorsque lon veut etudier linfluence dune variable aleatoire X comme dans lexemple
6 de la Section 2.1.1, ou plus generalement dun vecteur aleatoire X Rk sur une variable
aleatoire reelle Y , on part generalement de lobservation dun n-echantillon
(X 1 , Y1 ), . . . , (X n , Yn )
de meme loi que (X, Y ). Formellement, on est dans le mod`ele du n-echantillon, mais
avec une difference notoire : cest la loi de Y qui nous interesse, les X i netant que des
observations auxiliaires. Les X i portent le nom de covariables, ou variables explicatives.
On peut postuler une representation du type
Y = r(X) + ,

(2.5)


o`
u r : R R est la fonction de regression r(x) = E Y | X = x qui est la meilleure
approximation de Y par une variable aleatoire X-mesurable au sens suivant :

2 

2 
E Y r(X)
= min E Y h(x)
k

o`
u le minimum est pris sur les fonctions boreliennes de Rk dans R, comme nous lavons
deja mentionne dans lexemple 6 -influence dune variable sur une autre.
On est alors dans une situation tout `a fait analogue avec celle du paragraphe precedent,
`a la difference pr`es que le statisticien ne choisit pas le  design 
(X 1 , . . . , X n ).
Cela a des incidences pratiques bien entendu, mais dun point de vue mathematique, on
peut faire une hypoth`ese relativement faible qui permet dunifier les deux points de vue :
Hypoth`
ese 2.1 (Ancillarite du

design ). La loi de X ne depend pas de .

Autrement dit, toute linformation sur la loi de Y que porte r(X) est contenue dans
la fonction de regression r(). Dans ce cas, puisque les X i sont observees et que leur loi
ne depend pas de , on peut oublier ou ignorer le caract`ere aleatoire des X i et raisonner
dans toute la suite conditionnellement aux X i = xi , o`
u les xi sont les valeurs observees 13 .
Sous lHypoth`ese 2.1, le mod`ele de regression avec variables explicatives concide
avec le mod`ele de regression conditionnelle et les formules du paragraphe precedent sont
valides dans ce contexte.
13. On reviendra sur ce point de vue dans le Chapitres 5.

44

Exp
erience statistique

R
egression logistique
Si lon veut etudier linfluence dun vecteur X sur une variable qualitative Y {0, 1}
comme pour letude du risque de maladie coronarienne de lexemple 6, lecriture du
mod`ele de regression (2.5) prend la forme


Y = r(X) + = P Y = 1| X + ,


 
avec = Y P Y = 1| X qui verifie bien E = 0.
Dans un cadre parametrique, un choix populaire de la fonction r(, ) : Rk [0, 1]
se fait de la mani`ere suivante : on se donne un diffeomorphisme : R (0, 1). Dans ce
cas, on peut forcer un mod`ele lineaire du type
r(, x) = (T x), Rd , x Rk
avec d = k. Un exemple incontournable pour les applications est celui de la fonction
logistique
ex
(x) =
, x R,
1 + ex
sur lequel nous reviendrons au Chapitre 5.

Deuxi`
eme partie

M
ethodes destimation

Chapitre 3

Echantillonnage et fonction de
r
epartition empirique
3.1
3.1.1

Introduction
Situation

Nous etudions dans ce chapitre le probl`eme tr`es general qui consiste `a  quantifier 
linformation fournie par lobservation dun n-echantillon dune loi F sur R, sans faire
aucune (ou presque aucune) hypoth`ese sur cette loi. Ce chapitre est aussi un pretexte
pour introduire les differentes problematiques du cours : estimation, tests et regions de
confiance, point de vue asymptotique.
Le terme  quantifier  utilise plus haut est imprecis ; nous le qualifierons `a travers la construction destimateurs de F ou de fonctionnelles T (F ) R de F et de
leur precision destimation, ce qui nous am`enera `a parler de region (et dintervalles) de
confiance. Nous consid`ererons aussi bri`evement le probl`eme de test dhypoth`ese : `a partir
de lobservation, decider si la loi F verifie une propriete donnee. De mani`ere generale, nous
etudierons comment la qualite des procedures statistiques augmente avec le nombre dobservations n. Nous comparerons les points de vue asymptotique (dans la limite n )
et non-asymptotique.
Ici, la structure probabiliste de lexperience statistique est tr`es simple (variables aleatoires independantes et identiquement distribuees) mais lensemble des param`etres 1 est
enorme ! De ce point de vue, lexperience statistique consideree est non-parametrique.
Dans les chapitres suivants, nous developperons systematiquement des methodes lorsque
lon fait des hypoth`eses supplementaires sur lensemble des param`etres.
1. cest-`
a-dire lensemble de toutes les lois de probabilites F sur R.

48

Echantillonnage et fonction de r
epartition empirique

3.1.2

Notations et d
efinitions pr
eliminaires

On observe un n-echantillon
X1 , . . . , Xn
note le plus souvent
X1 , . . . , Xn

T

de loi inconnue F sur R. On ne fait pas dhypoth`ese particuli`ere sur la loi commune
des Xi . Lexperience statistique sous-jacente, au sens de la Definition 2.3 du Chapitre 2,
secrit

E n = Rn , B n , (PFn , F F) ,
o`
u


F = F, F fonction de repartition
et PFn est la loi sur Rn de n variables aleatoires independantes de loi F . En particulier,
pour tous x1 , . . . , xn R, on a
PFn

n

 Y
X1 x1 , . . . , Xn xn =
F (xi ).
i=1

On ecrira parfois PF ou P `a la place de PFn lorsquil ny aura pas de risque de confusion.


On ecrit aussi X pour lune quelconque des Xi lorsque lindice ne joue pas de r
ole.
Remarque 3.1. Ici, lensemble des param`etres est  enorme . En particulier, la famille
de distributions F nest pas dominee (puisquelle contient par exemple toutes les mesures
de Dirac x , x R).
D
efinition 3.1. Une statistique, ou une procedure statistique, ou encore un estimateur,
associe(e) a
` lexperience E n , est une fonction mesurable des observations X1 , . . . , Xn .
Lorsque lon cherche `a estimer une fonctionnelle T (F ) R de F , un estimateur est
souvent note Tbn . Cest une variable aleatoire, ne dependant que de X1 , . . . , Xn et pas de F
(qui est une quantite inconnue), qui secrit donc Tbn = gn (X1 , . . . , Xn ), pour une certaine
fonction borelienne gn : Rn R qui ne depend pas de F . Se donner un estimateur, cest
se donner une telle fonction gn ().

3.2

Estimation ponctuelle

Soit x0 R. A partir de lobservation X1 , . . . , Xn , que pouvons-nous dire de




F (x0 ) = P X x0 ?

3.2 Estimation ponctuelle

3.2.1

49

Fonction de r
epartition empirique

Lidee la plus immediate est destimer F (x0 ) par la frequence empirique du nombre
de points Xi dans lintervalle (, x0 ]
n
o
1
Card Xi (, x0 ], i = 1, . . . , n
n

qui se rapproche de la frequence theorique P X x0 ] par la loi des grands nombres.
D
efinition 3.2. La fonction de repartition empirique de lechantillon (X1 , . . . , Xn ) est
definie par
n
1X
Fbn (x) =
1{Xi x} , x R .
n
i=1

Dans la suite, nous estimerons F (x0 ) par Fbn (x0 ).


Proposition 3.1. Pour tout x0 R, on a


E Fbn (x0 ) = F (x0 ),

2  F (x0 ) 1 F (x0 )



b
b
b
=
.
Var Fn (x0 ) = E Fn (x0 ) E[Fn (x0 )]
n
2

P
L
En particulier, on a Fbn (x0 ) F (x0 ) et donc Fbn (x0 ) F (x0 ).

Demonstration. Les variables aleatoires 1{Xi x0 } sont independantes, de loi de Bernoulli


de param`etre P[Xi x0] = F (x0 ). Donc nFbn (x0 ) est une variable aleatoire binomiale,
de param`etres n, F
 (x0 ) . Son esperance et sa variance valent respectivement nF (x0 ) et
nF (x0 ) 1 F (x0 ) . On obtient la proposition en divisant par n, et en utilisant le fait
que lesperance est lineaire et la variance quadratique.
Remarque 3.2. La loi forte des grands nombres garantit immediatement la convergence
p.s.
Fbn (x0 ) F (x0 ).

3.2.2

Pr
ecision destimation

La Proposition 3.1 fournit un resultat de convergence en apparence tr`es fort : si


`(x, y) = (x y)2 , avec x, y R designe la perte quadratique, on a


1
sup E ` Fbn (x0 ), F (x0 ) =
.
4n
F F

(3.1)

Echantillonnage et fonction de r
epartition empirique

0.6
0.4
0.0

0.2

(1:length(x))/length(x)

0.8

1.0

50

sort(x)

0.6
0.4
0.0

0.2

(1:length(x))/length(x)

0.8

1.0

Figure R3.1 Representation de x ; Fbn (x) (en noir) et x ; F (x)


2
x
(2)1/2 et /2 dt (en rouge), pour une realisation de X1 , . . . , Xn avec n = 20.

sort(x)

Figure R3.2 Representation de x ; Fbn (x) (en noir) et x ; F (x)


2
x
(2)1/2 et /2 dt (en rouge), pour une realisation de X1 , . . . , Xn avec n = 100.

51

0.6
0.4
0.0

0.2

(1:length(x))/length(x)

0.8

1.0

3.2 Estimation ponctuelle

sort(x)

Figure R3.3 Representation de x ; Fbn (x) (en noir) et x ; F (x) =


2
x
(2)1/2 et /2 dt (en rouge), pour une realisation de X1 , . . . , Xn , avec n = 1000.
Il suffit pour voir cela dappliquer la deuxi`eme partie de la Proposition 3.1 en utilisant
le fait que

sup F (x0 ) 1 F (x0 ) = 1/4.
(3.2)
F F

Cela signifie que, pour la perte quadratique, lestimateur Fbn (x0 ) approche F (x0 )

uniformement en F `
a vitesse n. Ce resultat est-il optimal, et dans quel sens ? Comment
le relier `
a une notion de precision destimation ? Si F (x0 ) est proche de 0 ou 1, ce qui
peut nous etre suggere par la lecture de Fbn (x0 ), peut-on ameliorer le facteur 1/4 dans
(3.1) et ameliorer la precision destimation ?
Une mani`ere daborder la precision destimation consiste `a construire un intervalle de
confiance `
a partir de la borne (3.1) de la facon suivante : on a, pour tout t > 0




1
1
P |Fbn (x0 ) F (x0 )| t 2 Var Fbn (x0 )
t
4nt2
par linegalite de Tchebychev (1.2). Choisissons (0, 1), et prenons t = t(, n) le plus
petit possible de sorte que 1/(4nt2 ) . Ceci nous fournit le choix
1
tn, = .
2 n
On en deduit que lintervalle 2


1
In, = Fbn (x0 )
2 n
2. La notation [a b] designe lintervalle [a b, a + b].

52

Echantillonnage et fonction de r
epartition empirique

contient F (x0 ) avec probabilite plus grande que 1 .


D
efinition 3.3. Lintervalle In, est appele intervalle de confiance pour la valeur F (x0 )
au niveau 1 . La propriete


P F (x0 ) In, 1
sappelle

propriete de couverture  (coverage property).

Remarque 3.3. Un intervalle de confiance est aleatoire. Il est observable (cest-`


a-dire
construit `
a partir des observations) et ne peut dependre de la quantite inconnue F (x0 )
qu`
a travers la loi des observations X1 , . . . , Xn .
Linterpretation de In, est claire : on imagine petit 3 et on garantit avec probabilite
1 que la quantite inconnue dinteret F (x0 ) appartient `a In, que lon observe.
Mais sans autre indication sur In, , cette information na que peu dinteret. On sattend `
a ce que la longueur |In, | de lintervalle, qui joue le role de precision destimation
de F (x0 ), soit petite lorsque n est grand 4 . On a
1
|In, | =
2 n
que lon interpr`ete comme la precision destimation au niveau de confiance 1 .

Lordre de grandeur de In, en n est 1/ n, comme pour la perte quadratique. Mais


on a aussi |In, | + lorsque 0. Il sagit dun compromis inevitable entre precision
destimation (vouloir |In, | petit) et risque (vouloir petit) qui sont antagonistes.
Nous allons explorer plusieurs facons dameliorer ce resultat.

3.2.3

Pr
ecision destimation asymptotique

Une mani`ere de juger de la pertinence de la precision dun estimateur est de se


placer dans le regime asymptotique n et detudier la loi asymptotique de lerreur
renormalisee


n Fbn (x0 ) F (x0 ) , n ,

la normalisation par n etant suggeree 5 par la Proposition 3.1.


3. La tradition dicte 5%, mais dautres choix sont evidemment pertinents.
4. Sinon, lintervalle trivial In, = R (ou meme In, = [0, 1] puisque 0 F (x0 ) 1) a la propriete de
couverture au niveau de confiance 1 !

2 
2
b
5. Dapr`es la Proposition 3.1, E
n Fbn (x0 )F (x0 )
est constante, donc
n Fn (x0 )F (x0 ) ,


et par suite n Fbn (x0 ) F (x0 ) est  en moyenne de lordre de grandeur de 1 en n .

3.2 Estimation ponctuelle

53

Proposition 3.2. On a
n =

Fbn (x0 ) F (x0 )


d
1/2 N (0, 1).
Fbn (x0 )1/2 1 Fbn (x0 )

De plus, pour tout (0, 1),





P n 1 (1 /2), 1 (1 /2) 1 ,
Rx
2
o`
u (x) = et /2 dt2 est la fonction de repartition de la loi N (0, 1).
Demonstration. Le theor`eme central-limite donne la convergence

Fbn (x0 ) F (x0 )


F (x0 )1/2 1 F (x0 )

1/2 N (0, 1).

 P

La Proposition 3.1 assure que Fbn (x0 ) 1 Fbn (x0 ) F (x0 ) 1 F (x0 ) . On en deduit
la premi`ere partie en appliquant la Proposition 1.8 (Slutsky).
d

Puisque n N (0, 1), on a


h
 i



1 (1 2 ) 1 (1 2 )
P n 1 (1 2 ), 1 1 2
=1
en utilisant (x) = 1 (x) puisque la loi N (0, 1) est symetrique (Definition 1.4).

On peut interpreter le second point de la Proposition 3.2 de la facon suivante : lorsque


n est grand ,

 1

Fbn (x0 ) F (x0 )
1

1/2 (1 2 ), (1 2 )
Fbn (x0 )1/2 1 Fbn (x0 )

avec probabilite proche de 1 . En isolant F (x0 ) dans cette relation et en posant


"

Jn,

Fbn (x0 )1/2 1 Fbn (x0 )

= Fbn (x0 )
n

1/2

#

1
,
2

la quantite F (x0 ) inconnue est dans lintervalle Jn, avec probabilite proche de 1
dans la limite n .
D
efinition 3.4. Lintervalle Jn, est appele intervalle de confiance asymptotique de
F (x0 ) au niveau 1 . La propriete


P F (x0 ) Jn, 1 , n
sappelle

propriete de couverture asymptotique .

54

Echantillonnage et fonction de r
epartition empirique
La precision asymptotique de Jn, est
1/2
Fbn (x0 )1/2 1 Fbn (x0 )

|Jn, | = 2
1 (1 2 ).
n

Lordre de grandeur de Jn, en n est 1/ n, comme pour lintervalle de confiance In,


construit avec la perte quadratique. On a aussi 1 (1 /2) lorsque 0. Par
contre,

1 (1 2 )  , 0.
voir Exercice 3.1 Cest aussi un resultat plus precis en apparence que celui obtenu `
a laide
de In, puisquon a remplace le facteur 1/2 obtenu en prenant la racine de (3.2) dans la
construction de In, par
1/2 1
Fbn (x0 )1/2 1 Fbn (x0 )

2
dans la construction de Jn, . Cependant, cette amelioration nest valide que dans le
regime asymptotique n .

3.2.4

Pr
ecision non-asymptotique

Nous cherchons un resultat de qualite comparable `a celui de la Proposition 3.2 mais


valable `
a n fixe.
Dans lapproche non-asymptotique `a laide de la perte quadratique, on a perdu en
utilisant linegalite de Markov qui sappuie uniquement sur le controle de la variance de
Fn (x). Le resultat suivant fournit un controle plus fin de la probabilite de deviation de
la moyenne empirique.
Th
eor`
eme 3.1 (Inegalite de Hoeffding). Soient Y1 , . . . , Yn des variables aleatoires reelles
independantes telles que E[Yi ] = 0 et ai Yi bi . Soit t > 0. Alors, pour tout > 0
P

n
X
i=1

n
Y

(bi ai )2 
t
Yi t e
exp 2
.
8
i=1

Demonstration. Si Y est une variable aleatoire `a valeurs dans [a, b], posons


Y () = log E exp (Y E[Y ]) ,

> 0.

 
La fonction ; Y () est deux fois derivable et, puisque E Y = 0, un calcul elementaire
conduit `
a
 


2
Y00 () = eY () E Y 2 exp Y e2Y () E Y exp Y
.
(3.3)

3.2 Estimation ponctuelle

55

 

 
Posons, pour A B, Q A = eY () E exp Y 1A , de sorte que Q est une mesure de
probabilite. Alors on peut interpreter (3.3) de la mani`ere suivante :
 
Y00 () = Var Z ,
o`
u Z est une variable aleatoire `
a valeurs dans [a, b] de loi Q. Maintenant, pour toute
variable Z `
a valeurs dans [a, b], on a toujours

b + a b a

Z

,


2
2
et donc
 



2  (b a)2
,
Var Z = Var Z (b + a)/2 E Z (b + a)/2

4
do`
u
Y00 () (b a)2 /4.

(3.4)

En integrant (3.4) et en utilisant Y (0) = Y0 (0) = 0, on deduit


Y () 2

(b a)2
.
8

(3.5)

Finalement, pour tous t, > 0,


P

n
X

n
X




Yi t = P exp
Yi exp(t)

i=1

i=1

E exp

n
X

Yi



(inegalite de Tchebychev)

i=1

=e

= et

n
Y
i=1
n
Y



E exp Yi

(independance des Yi )


exp Yi () ,

i=1

Puisque chaque Yi est centree et `


a valeurs dans [ai , bi ], on conclut en appliquant linegalite
(3.5) `a chaque Yi ().
Corollaire 3.1.
Si X1 , . . . , Xn sont des variables aleatoires de Bernoulli de param`etre p
1 Pn
et si X n = n i=1 Xi , alors, pour tout t > 0



P |X n p| t 2 exp 2nt2 .

56

Echantillonnage et fonction de r
epartition empirique

Demonstration. Appliquons linegalite de Hoeffding `a Yi = Xi p. Les conditions du


Theor`eme 3.1 sont verifiees avec bi ai = 1. Le choix = 4t/n conduit `a
P

n
X



Yi t exp 2t2 /n ,

(3.6)

i=1

soit encore


P X n p t = P

n
X



Yi nt exp 2nt2 .

i=1

De meme

n

X



(Yi ) nt exp 2nt2
P X n p t = P
i=1

en appliquant (3.6) a
` Yi . On conclut en ecrivant






P | X n p| t = P X n p t + P X n p t .

On en deduit un intervalle de confiance non-asymptotique pour F (x0 ).


Proposition 3.3. Pour tout > 0,
"
?
In,
= Fbn (x0 )

1
2
log
2n

est un intervalle de confiance pour F (x0 ) de niveau 1 .


Demonstration. On applique le Corollaire 3.1 aux 1{Xi x0 } qui sont des variables aleatoires
de Bernoulli independantes, de param`etre F (x0 ). On a, pour tout t > 0




P Fbn (x0 ) F (x0 ) > t 2 exp 2nt2 .
On cherche t = t(, n) le plus petit possible de sorte que 2 exp(2nt2 ) , ce qui donne
r
1
2
t(, n) =
log .
2n

Remarque 3.4. On a
? |
|In,
2 p
=
log(2/) 0, 0,
|In, |
2

3.2 Estimation ponctuelle

57



o`
u In, = Fbn (x0 ) 21n est lintervalle de confiance construit `a laide de linegalite de
Tchebychev dans la Section 3.2.2. Le gain est significatif. Par exemple, pour = 5%, on
a un rapport de
? |
|In,
= 0, 61.
|In, |
Pour = 1%, le rapport devient 0.33, soit une precision 3 fois meilleure !
? sont comparables en
Remarque 3.5. Par contre, les ordres de grandeur de Jn, et In,
?
n et en , voir Exercice 3.1. De ce point de vue, lintervalle In, est satisfaisant.

3.2.5

D
ecision?

Notion de test et derreur de test


Soit F0 une distribution donnee. On souhaite repondre `a la question suivante : en vue
dun n-echantillon X1 , . . . , Xn de loi F F, est-ce que
F (x0 ) = F0 (x0 ) ou non ?
On formule le probl`eme de la mani`ere suivante. On contruit `a partir des observations une
procedure (un estimateur)
n = n (X1 , . . . , Xn ) {0, 1}
ne prenant que les valeurs 0 ou 1. La valeur {n = 0} correspondra `a la reponse
`a la question, et la valeur {n = 1} correspondra `a la reponse  non  .

oui 

On dira que lon teste lhypoth`ese nulle


H0 :

F (x0 ) = F0 (x0 ),

H1 :

F (x0 ) 6= F0 (x0 ).

contre lalternative
Si n est une procedure ne prenant que les valeurs 0 ou 1, on dira que n est un test
simple 6 . Si n est un test simple, il se represente sous la forme
n = n (X1 , . . . , Xn ) = 1

(X1 ...,Xn )Rn

o`
u Rn Rn est un sous-ensemble de lespace des observations.
D
efinition 3.5. Lensemble Rn associe au test simple n est appele zone de rejet du
test, ou encore region critique du test.
6. On pourrait envisager des tests plus complexes, o`
u une reponse intermediaire entre 0 et 1 est
possible.

58

Echantillonnage et fonction de r
epartition empirique

Remarque 3.6. On definit aussi parfois la zone de rejet comme levenement





(X1 , . . . , Xn ) Rn .

Cela na aucune importance : il ny a jamais dambiguite 7 .


Lorsque
lon
levene
proc`ede `a un test, on decide daccepter lhypoth`ese
 H0 (lorsque

ment n = 0 est realise) ou de la rejeter (lorsque levenement n = 1 est realise).
On peut avoir raison de deux mani`eres : accepter lhypoth`ese H0 alors quelle est vraie 8
ou bien rejeter lhypoth`ese H0 alors quelle est fausse 9 .
Mais surtout, on peut aussi se tromper de deux mani`eres : rejeter H0 alors quelle est
vraie ou encore accepter H0 alors quelle est fausse. Ce sont ces deux erreurs que lon va
chercher `
a rendre petites simultanement.
Pour cela, nous devons definir precisement les conditions
F (x0 ) = F0 (x0 ) et F (x0 ) 6= F0 (x0 ).
Lexperience statistique engendree par les observations a pour ensemble de param`etres
F = {F, F fonction de repartition}.
Posons
F0 = {F F, F (x0 ) = F0 (x0 )}.
Alors lhypoth`ese H0 se traduit par le sous-ensemble de param`etres F0 , et lalternative
H1 par le sous-ensemble de param`etres F \ F0 .
D
efinition 3.6. Soit [0, 1]. Le test n est de niveau (respectivement, asymptotiquement de niveau ) si




sup PF n = 1 (respectivement lim sup sup PF n = 1 ).

F F0

n F F0

Autrement dit, si le niveau dun test est inferieur `a , la probabilite de rejeter lhypoth`ese (observer {n = 1}) alors quelle est vraie (F F0 ) est inferieure ou egale `
a .
On parle indifferemment derreur de premi`ere esp`ece du test n ou de niveau du test n .
Remarque 3.7. Bien que cela ne transparasse pas dans les notations, le test n depend
de en general.
7. La notion dexperience canonique, voir Section 2.2.2 du Chapitre 2 permet dailleurs de concilier
les deux points de vue de facon rigoureuse. Nous ne reviendrons plus sur ce point dans la suite du cours.
8. Cest-`
a-dire observer {n = 0} et avoir F (x0 ) = F0 (x0 ).
9. Cest-`
a-dire observer {n = 1} et avoir F (x0 ) 6= F0 (x0 ).

3.2 Estimation ponctuelle

59

D
efinition 3.7. La puissance dun test n est lapplication de F \ F0 dans [0, 1] definie
par


F F \ F0 ; PF n = 1 .
On parle indifferemment de
seconde esp`ece , definie par

puissance du test  ou bien de

fonction derreur de



F F \ F0 ; 1 PF n = 1 .
La demarche sera la suivante : on se fixe un niveau de risque , et on cherche un
test n de niveau (derreur de premi`ere esp`ece inferieure ou egale `a ) qui a la plus
grande puissance possible (lerreur de seconde esp`ece la plus petite possible). On etudiera
systematiquement ces notions aux Chapitres 7 et 8.
Construction de tests
A partir destimateurs et dintervalles de confiance de niveau 1 , la construction
dun test n est naturelle. On se restreint ici par simplicite au cadre asymptotique. On
a, dapr`es la construction de la Section 3.2.3, pour tout F F,


PF F (x0 ) Jn, 1 .
Ceci sugg`ere la r`egle de decision suivante : on accepte H0 si F0 (x0 ) Jn, et on rejette
H0 sinon.
Proposition 3.4. Soit (0, 1). Le test n = n, de lhypoth`ese nulle H0 : F (x0 ) =
F0 (x0 ) contre lalternative F (x0 ) 6= F0 (x0 ), defini par la zone de rejet


Rn, = F0 (x0 )
/ Jn, ,
est asymptotiquement de niveau . De plus, pour tout point de lalternative F F \ F0 ,
on a




PF n, = 0 = PF (X1 , . . . , Xn )
/ Rn, 0.
Autrement dit, lerreur de premi`ere esp`ece est asymptotiquement plus petite que
et lerreur de seconde esp`ece tend vers 0 ; ou encore, la puissance du test tend vers 1 en
tout point de lalternative. On dit que le test est consistant ou convergent.
Demonstration. La premi`ere partie de la proposition decoule de la propriete de couverture
asymptotique de Jn, (le second point de la Proposition 3.2). Pour le controle de lerreur
de seconde esp`ece, si F F \ F0 , alors
PF
Fbn (x0 )
F (x0 ) 6= F0 (x0 ),

60

Echantillonnage et fonction de r
epartition empirique

Ceci sugg`ere la decomposition

Fbn (x0 ) F0 (x0 )


1/2
Fbn (x0 )1/2 1 Fbn (x0 )

Fbn (x0 ) F (x0 )


F (x0 ) F0 (x0 )
= n
1/2 + n
1/2 .
1/2
b
b
b
Fn (x0 )
1 Fn (x0 )
Fn (x0 )1/2 1 Fbn (x0 )
n

Le premier terme tend en loi sous PF vers une gaussienne centree reduite dapr`es la
Proposition 3.2. Le second terme diverge vers lorsque n . Puisque

on a n,

n
n, = 0 =
n



o
Fbn (x0 ) F0 (x0 )

1


1/2
2
Fbn (x0 )1/2 1 Fbn (x0 )


1 en PF -probabilite si F F \ F0 . Ceci implique 10 PF n, = 0 0.


La question de loptimalite dune telle construction sera discutee dans le Chapitre 8.

3.3

Estimation uniforme

Les trois probl`emes developpes precedemment, estimation, intervalle de confiance et


test, que ce soit dun point de vue asymptotique ou non, ne font intervenir la distribution
F quen un point x0 donne. Ceci est peu satisfaisant si lon envisage F globalement.
Nous reprenons la problematique de la Section 3.2 simultanement pour toutes les
valeurs possibles de (F (x), x R). A partir de lobservation de (X1 , . . . , Xn ), que peuton dire de

F (x), x R ?

3.3.1

Estimation uniforme

Th
eor`
eme 3.2 (Glivenko-Cantelli). Soient X1 , . . . , Xn des variables aleatoires reelles
independantes, de meme loi F , et Fbn leur fonction de repartition empirique. Alors

p.s.
sup Fbn (x) F (x) 0, n .
xR

Demonstration. Soit k 1 un entier, et pour tout 0 k m,


xm
k = inf{x R, F (x)

k
m }.

10. Par exemple par convergence dominee, ou plus simplement parce que la suite de variables aleatoires
discr`etes n, tend en probabilite vers 1, donc en loi vers la loi degeneree 1 (dx), ce qui entrane la
convergence voulue.

3.3 Estimation uniforme

61

(Les points xm
ecessairement distincts si F nest pas continue.) Par construck ne sont pas n
tion, pour 0 k m 1,


k
F xm
F xm
k
k
m
car F est continue `
a droite, et donc


1
F xm
F xm
k +
k+1 .
m
m+1
Soit x [xm
). Puisque F et Fbn sont croissantes, on a, pour tout n 1,
k , xk







m
m
b
b m
Fbn xm
k F xk+1 Fn x F x Fn xk+1 F xk ,
et aussi, dapr`es ce ce qui prec`ede






1
1
m
m
Fbn xm
Fbn x F x Fbn xm
.
k F xk
k+1 F xk+1 +
m
m
Il vient


sup Fbn (x) F (x)
xR








m
Fbn xm F xm + 1 .
,
max
max max Fbn xm

F
x
k
k
k
k
0km
0km
m
p.s.

On a Fbn (x) F (x) par la loi forte des grands nombres. Il existe donc un ensemble
negligeable N 0 (m) en dehors duquel



max Fbn xm F xm 0.
0km

De meme, en appliquant la loi des grands nombres aux variables 1{Xi <x} , il existe une
ensemble negligeable N 00 (m) en dehors duquel



m
0.
max Fbn xm
k F xk
0km

On en deduit quen dehors dun ensemble negligeable N (m) = N 0 (m) N 00 (m), on a




1
lim sup sup Fbn (x) F (x) .
m
n xR
Puis on fait tendre m vers linfini :


lim sup Fbn (x) F (x) = 0

n xR

en dehors de

m1 N (m)

qui est de probabilite 0.

62

3.3.2

Echantillonnage et fonction de r
epartition empirique

Vitesse destimation uniforme

Th
eor`
eme 3.3 (Kolmogorov-Smirnov). Si la fonction de repartition F est continue,
alors

(d)

n sup Fbn (x) F (x) B


xR

o`
u B est une variable aleatoire dont la loi ne depend pas de F , de fonction de repartition

X


2
P Bx =1+2
(1)k e2k x , x 0.
k=1

Remarque 3.8. La variable aleatoire se represente comme B = supt[0,1] Bt , o`


u (Bt , t
[0, 1]) est un processus aleatoire appele pont brownien. Ce resultat decoule de la theorie
des processus empiriques et sa preuve depasse le cadre de ce cours 11 .

Nous admettons la convergence en loi de n supxR Fbn (x) F (x) . Nous allons cependant demontrer que cette loi ne depend pas de F , ce qui est tr`es important en vue
des applications statistiques.
Lemme 3.3.1. Soit U1 , . . . , Un une suite de variables aleatoires independantes, uniformes sur [0, 1]. On note Gn leur fonction de repartition empirique. Si F est continue,
on a legalite en loi
d



sup Fbn (x) F (x) = sup Gn (x) x .
xR

xR

En particulier, la loi de B ne depend pas de F .


Demonstration. Posons, Ui = F (Xi ). Alors les Ui sont des variables aleatoires uniformes
sur [0, 1], et il existe un ensemble negligeable Ni tel que, pour tout x R et pour tout

/ Ni on a

F Xi () F (x) si et seulement si Xi () x,
voir par exemple Meleard [5], paragraphe 4.2.4 p. 78. Donc, on peut ecrire, pour tout
xR
n
n

1X
1X
Fbn (t) =
1{Xi x} =
1{F (Xi )F (x)} = Gn F (x)
n
n
i=1
i=1
S
en dehors de N = i Ni qui est encore negligeable. Il vient







sup Fbn (x) F (x) = sup Gn F (x) F (x) = sup Gn (x) x .
xR

xR

xR

11. On pourra consulter, par exemple, le livre de van der Vaart [10] pour les liens entre statistique et
processus empiriques.

3.3 Estimation uniforme

63

On en deduit un intervalle de confiance, uniforme en x R (une region de confiance)


asymptotique. Pour tout (0, 1), designons par q1 le quantile dordre 1 de la loi
de B, de sorte que


P B q1 = 1 .
Proposition 3.5. La region
h



q1 i
b
Jn, (x), x R = Fn (x) , x R
n
est une region de confiance asymptotique :
h
i
P x R, F (x) Jn, (x) 1 .
Demonstration. On applique le Theor`eme 3.3 :
h
i
h
i


P x R, F (x) Jn, (x) = P sup n Fbn (x) F (x) q1
xR


P B q1 = 1 .

Remarque 3.9. Bien entendu, on a toujours 0 F (x)


 1, ce qui nest pas forcement le

cas de Fbn (x) q1 / n. On peut  reduire  la region Jn, (x), x R en remplacant


Jn, (x) par
J n, (x) := Jn, (x) [0, 1]
sans modifier la propriete de couverture asymptotique.

3.3.3

Pr
ecision uniforme non-asymptotique?

De la meme mani`ere que linegalite de Hoeffding du Theor`eme 3.1 nous a fourni une
precision ponctuelle non-asymptotique, on a le resultat suivant :
Th
eor`
eme 3.4 (Inegalite de Dvoretzky-Kiefer-Wolfowitz). Si la fonction de repartition
F est continue, pour n 1 et t > 0, on a




P sup Fbn (x) F (x) t 2 exp(2nt2 ).
x

La preuve utilise des resultats fins sur les processus empiriques et nous ladmettons.
On en deduit, pour (0, 1), une region de confiance non-asymptotique uniforme
q




1
In, (x), x R = Fbn (x) 2n
log 2 , x R
qui verifie, pour tout n 1
h
i
P x R, F (x) In, (x) 1 .
Remarque 3.10. De le meme mani`ere que dans le cadre asymptotique, on peut modifier
In, (x) en considerant In, (x) [0, 1].

64

Echantillonnage et fonction de r
epartition empirique

3.3.4

Test dad
equation `
a une distribution donn
ee?

Soit F0 une distribution donnee. On souhaite maintenant decider, en vue des observations X1 , . . . , Xn distribuees selon la loi F si F = F0 contre F 6= F0  globalement  cesta-dire tester lhypoth`ese nulle
`
H0 : x R, F (x) = F0 (x)
contre lalternative
H1 : x R, F (x) 6= F0 (x).
Par rapport `
a la Section 3.2.5, on doit modifier la traduction de lhypoth`ese F0 F. On
pose


F0 = F F, x R, F (x) = F0 (x) = {F0 }
et on traduit lhypoth`ese H0 par la propriete F F0 .
De la meme mani`ere que dans la Section 3.2.5, on
 peut construire
untest de lhypoth`
e
se
H
contre
H
a
`
laide
des
r
e
gions
de
confiance
I
(x),
x

R
, ou Jn, (x), x
0
1
n,

R .
Pour simplifier, nous enoncons un resultat asymptotique.
Proposition 3.6 (Test de Kolmogorov-Smirnov). Pour tout (0, 1), le test simple de
lhypoth`ese H0 : F F0 contre lalternative H1 : F F \ F0 , defini par la zone de rejet
n
o
Rn, = x R, F0 (x)
/ Jn, (x)
est asymptotiquement de niveau .
De plus, pour tout point de lalternative F F \ {F0 }, on a


PF (X1 , . . . , Xn )
/ Rn, 0.
Demonstration. Sous lhypoth`ese, on a F = F0 et




PF0 (X1 , . . . , Xn )
/ R = 1 PF0 x R, F0 (x) Jn, (x)
lorsque n par la Proposition 3.5. Donc le test de Kolmogorov-Smirnov est asymptotiquement de niveau . Pour tout point F F \ {F0 } de lalternative, il existe un
point x0 R pour lequel F (x0 ) 6= F0 (x0 ). On reprend alors point par point la fin de la
demonstration de la Proposition 3.4.

3.4

Estimation de fonctionnelles

Dans les Sections 3.2 et 3.3 nous avons rencontre deux situations opposees :

3.4 Estimation de fonctionnelles


1. Lestimation  locale
fonctionnelle lineaire

65

de F en un point x0 . Nous nous sommes interesse `a la


Tx0 (F ) = F (x0 ).

2. Lestimation

globale  de F , cest-`a-dire lestimation simultane des fonctionelles




Tx (F ) = F (x), x R .

Plus generalement, on peut considerer lestimation ou le probl`eme de decision relative


`a des fonctionnelles plus generales. Par exemple
1. Une fonctionnelle lineaire, de la forme
Z
T (F ) =

g(x)dF (x),

(3.7)

avec g connue (choisie par le statisticien). Lexemple prototype etant le moment


dordre 1, pour le choix g(x) = x
Z
m(F ) =
x dF (x).
R

2. Une combinaison de fonctionelles lineaires : la variance


Z
2
2 (F ) =
x m(F ) dF (x),
R

le coefficient dasymetrie
R
(F ) =

le coefficient dapplatissement de F ,
R
(F ) =

3
x m(F ) dF (x)
,
2 (F )3/2
4
x m(F ) dF (x)
2 (F )2

parmi bien dautres exemples.


3. Une fonctionelle non-lineaire, comme le quantile dordre (0, 1) :
T (F ) = q (F ) =

3.4.1

1
2


inf{t, F (t) > } + sup{t, F (t) < } .

Le cas r
egulier : m
ethode de substitution

Un estimateur naturel de T (F ) est lestimateur par substitution, o`


u lon remplace
b
formellement F par sa repartition empirique Fn ().
D
efinition 3.8. Lestimateur par substitution de T (F )
Tbn = Tbn (X1 , . . . , Xn ) = T (Fbn )
est obtenu en remplacant F par sa fonction de repartition empirique Fbn .

66

Echantillonnage et fonction de r
epartition empirique

Convergence dans le cas r


egulier
On a vu dans la Section 3.3 que les fonctions Fbn () et F () sont proches lorsque n est
grand. On imagine alors que T (Fbn ) est proche de T (F ) d`es lors que la fonction F ; T (F )
est reguli`ere.
Proposition 3.7. Si la fonctionnelle T (F ) admet la representation
Z

T (F ) = h
g(x)dF (x)

(3.8)

o`
u

R |g(x)|dF (x)

< + et h : R R continue, alors


p.s.
T (Fbn ) T (F ).

Demonstration. Remarquons que T (Fbn ) = h

1
n

(3.9)

Pn

i=1 g(Xi )

n


1X
p.s.
g(Xi ) E g(X) =
n

. On a

i=1

g(x)dF (x)
R

par la loi forte des grands nombres. La convergence reste vraie en composant par h qui
est continue.
Exemple 3.1. La variance 2 (F ) de la distribution F secrit
Z
2
2
(F ) =
x m(F ) dF (x)
ZR
Z
2
2
=
x dF (x)
xdF (x)
R
R
Z

Z

= h1
g1 (x)dF (x) + h2
g2 (x)dF (x) ,
R

avec h1 (x) = x, h2 (x) = x2 , g1 (x) = x2 , g2 (x) = x. Lestimateur par substitution associe


secrit
n
n
1X 2
1X
2
Xi X n =
Xi X n )2 .

bn2 =
n
n
i=1

i=1

p.s.
La convergence
bn2 2 (F ) decoule de la Proposition 3.7 appliquee `a chacun des termes
2
1 Pn
2
i=1 Xi et X n respectivement. On peut faire des calculs analogues pour le coefficient
n

dasymetrie (F ) et pour le coefficient daplatissement (F ).


Remarque 3.11. Plus generalement, si lon munit F de la metrique de la convergence
uniforme, le Theor`eme 3.2 (Glivenko-Cantelli) assure que la convergence (3.9) aura lieu
si lapplication T ; T (F ) est continue.

3.4 Estimation de fonctionnelles

67

Vitesse de convergence dans le cas r


egulier
Pour les fonctionnelles de type (3.8), on a une vitesse de convergence :
Proposition
situation de la Proposition 3.7, si h est contin
ument derivable

[Link] la
2
2
et si E g(X) = R g(x) dF (x) < +, alors

o`
u

 d

n T (Fbn ) T (F ) N 0, v(F ) ,


2


v(F ) = h0 E g(X) Var g(X) .

Demonstration. Par le theor`eme central limite,


Z

Z
n



 X
n
g(x)dFbn (x)
g(x)dF (x) = n n1
g(Xi ) E g(X)
R

i=1
d



N 0, Var g(X) .
On applique alors la Proposition 1.10 du Chapitre 1 (methode delta) :

n h

1
n

n
X




 d

2


g(Xi ) h E g(X)
N 0, h0 E g(X) Var g(X) .

i=1



Cest precisement le resultat recherche, puisque h E g(X) = T (F ).
Exemple 3.2. Etudions le comportement de lestimateur par substitution de
T (F ) =
sous lhypoth`ese que 0 <

Rx

8 dF (x)

1
1
 =R 4
4
E X
R x dF (x)
< +. On a

T (Fbn ) =

1
n

1
P4

4
i=1 Xi

(en convenant par exemple 1/0 = 0). On applique la Proposition 3.8, avec g(x) = x4 et
h(x) = x1 . (Il y a cependant une difficulte : en x = 0 la fonction h ne verifie pas 12 les
hypoth`eses de la Proposition 3.8 puisque h a une singularite en 0. En appliquant tout de
meme formellement de resultat de la proposition, on a

 d

n T (Fbn ) T (F ) N 0, v(F ) ,


R
12. Il sagit en fait dun faux probl`eme : on a E X 4 ] = R x4 RdF (x) > 0 puisque sinon, X = 0 presques
urement et donc F = 1R+ (x) ce qui contredirait lhypoth`ese R x8 dF (x) > 0. Ceci entrane que X est

eloigne en moyenne  de la singularite 0. On pourra alors montrer en exercice que la convergence en
loi voulue a bien lieu.

68

Echantillonnage et fonction de r
epartition empirique

avec


2



2  8
v(F ) = h0 E g(X)
E g(X)2 E g(X)
= 2 1
4
R i
i
o`
u i = E[X ] = R x dF (x). On peut pousser un peu plus loin letude et deduire de
ce resultat un intervalle de confiance asymptotique pour T (F ) = 1
4 comme dans la
Section 3.2.3. Cest lobjet de lExercice 3.3.
La Proposition 3.8 ne donne quun resultat en dimension 1 : elle ne permet meme pas
de traiter immediatement la vitesse de convergence dans lExemple 3.1, et une version
multidimensionnelle de la  methode delta  sav`ere necessaire dans le cas general.
Considerons une fonctionnelle de la forme
Z
Z

T (F ) = h
g1 (x)dF (x), . . . , gk (x)dF (x) ,
R

(3.10)

o`
u h : Rk R est une fonction differentiable, de gradient

Jh (x) = h(x) = 1 h(x), . . . , k h(x) , x Rk .
En appliquant la Proposition 1.11, on a le resultat suivant :
Corollaire 3.2. Si la fonctionnelle T (F )R admet la representation (3.10) avec une fonction h contin
ument differentiable, et si R gi (x)2 dF (x) < + pour tout i = 1, . . . , k,
alors
 d


n T (Fbn ) T (F ) N 0, v(F ) ,
avec
v(F ) = Jh (g) g Jh (g)T ,
o`
u




g = E g1 (X) , . . . , E gk (X)
et g est la matrice de variance-covariance des gi (X) :




g ij = E gi (X) E[gi (X)] gj (X) E[gj (X)] , 1 i, j k.
Exemple 3.3. Reprenons le probl`eme du calcul de la loi limite de la variance empirique
de lexemple 3.1. On a
n
2
1X 2
Xi X n .

bn2 =
n
i=1

On applique le Corollaire 3.2 avec h(x1 , x2 ) = x1 x22 , g1 (x) = x2 et g2 (x) = x. On a


h(x1 , x2 ) = (1, 2x2 ) et g = (E[X 2 ], E[X]).
Notons i = E[X i ]. Un calcul simple montre que


4 22 3 1 2
g =
.
3 1 2 2 21

3.4 Estimation de fonctionnelles


Alors

69

 d

n
bn2 N 0, v(F ) ,

avec


v(F ) = (1, 21 )

4 22 3 1 2
3 1 2 2 21

(1, 21 )T .

On trouve
v 2 = 4 22 41 (3 + 31 21 2 ).
Dans le cas precis de la variance empirique, on aurait pu aussi retrouver directement ce
resultat par une autre methode, voir lExercice 3.2.
Avec la meme technique, on peut exhiber les lois limites du coefficient dasymetrie
empirique et du coefficient daplatissement empirique.

3.4.2

Le cas non-r
egulier?

Les fonctionnelles reguli`eres de type (3.8) sont insuffisantes pour les applications :
par exemple, elles ne recouvrent pas le cas tr`es utile de lestimation des quantiles dune
distribution inconnue.
Plus generalement, supposons que lon dispose de linformation supplementaire suivante sur le mod`ele statistique :
F Fac F,
o`
u Fac designe lensemble des distributions absolument continues, cest-`a-dire qui poss`edent
une densite f par rapport `
a la mesure de Lebesgue. Alors, par exemple, la fonctionnelle
Z
Z
T (F ) =
F 0 (x)2 dx =
f (x)2 dx
R

F 0 (x)

nest pas reguli`ere. Bien que lon ait f (x) =


presque-partout, on ne peut pas former
b


destimateur par substitution en derivant Fn () qui est constante par morceaux. Plus
generalement, dans le cas o`
u le mod`ele statistique a pour ensemble de param`etres Fac , on
peut sinteresser `
a la constuction dun estimateur fbn () qui soit une bonne approximation
de la densite f () de F .
Dans le reste de cette section, nous etudions deux cas particuliers : lestimation des
quantiles, et le lissage de la distribution empirique.
Estimation des quantiles
On consid`ere la statistique dordre associee `a lechantillon (X1 , . . . , Xn ), cest-`a-dire le
vecteur (X(1) , . . . , X(n) ) obtenu par la permutation (aleatoire) qui fournit le rearrangement
croissant des donnees
X(1) X(i) X(n) .

70

Echantillonnage et fonction de r
epartition empirique

Cette permutation nest pas necessairement unique (dans le cas discret, certaines valeurs
des observations peuvent concider). Pour estimer le quantile 13 dordre p de la loi F ,
cest-`
a-dire

T (F ) = 12 inf{q, F (q) > p} + sup{q, F (q) < p}
on peut choisir lestimateur par substitution
qbn,p = T (Fbn ) =

1
2


inf{q, Fbn (q) > p} + sup{q, Fbn (q) < p}

appele quantile empirique dordre p. La difficulte de cette approche reside dans le fait
que x ; Fbn (x) est constante par morceaux, donc, pour p [0, 1] donne, lequation
Fbn (q) = p.
admet une infinite de solutions ou nen admet aucune. On peut expliciter qbn,p `
a laide de
la statistique dordre. On pourra montrer que


X(k)
si p (k 1)/n, k/n

qbn,p =
1
si p = k/n
2 X(k) + X(k+1)
pour k = 1, . . . , n. Le comportement asymptotique de qbn,p est etudie dans lExercice 3.6
a la fin du chapitre.
`
Lissage de la distribution empirique?
Etant donne lobservation X1 , . . . , Xn , la fonction aleatoire
n

1X
x ; Fbn (x) =
1{Xi ()x}
n
i=1

b
est constante par morceaux. On insiste ici sur
 lalea , pour marquer le fait que
 Fn ()
depend dune realisation X1 (), . . . , Xn () du vecteur aleatoire X1 , . . . , Xn . Si on
prend formellement sa derivee (au sens des distributions), on obtient
n

1X
Fbn0 (dx) =
Xi () (dx)
n

(3.11)

i=1

o`
u a (dx) est la mesure de Dirac au point a. On obtient ainsi une mesure de probabilite 14 ,
qui assigne `
a chaque point Xi () la masse 1/n.

D
efinition 3.9. Etant donnee une realisation X1 (), . . . , Xn () du vecteur aleatoire
X1 , . . . , Xn , on appelle distribution empirique la mesure de probabilite uniforme sur
lensemble {X1 (), . . . , Xn ()} definie par (3.11).
13. Voir la Section 1.2.3 du Chapitre 1.
14. Celle-ci depend de : il sagit dune distribution aleatoire.

3.4 Estimation de fonctionnelles

71

Remarquons quen posant formellement


dFbn (x) = Fbn0 (dx),
les notations sont coherentes avec les calculs : pour toute fonction test , on a
Z
Z
n
n
X

1X
(x)dFbn (x) =
(x) n1
Xi () =
Xi () (dx).
n
R
R
i=1

i=1

Estimateur `
a fen
etre mobile et `
a noyau?
La densite f est la derivee de la fonction de repartition x ; F (x). Ecrivons lapproximation

1
f (x) = F 0 (x)
F (x + h/2) F (x h/2)
h
lorsque h est petit. On approche le membre de droite par substitution. Ceci fournit
lestimateur

1 b
Fn (x + h/2) Fbn (x h/2) ,
fbn (x) =
h
appele estimateur par fenetre mobile.
Posons U h = [x h/2, x + h/2). Alors fbn (x) compte le nombre dobservations Xi qui
x

tombent  dans la
avec x :


fenetre  Uxh normalise par n, puis on fait glisser la fenetre Uxh

n

1 b
1 X
b
Fn (x + h/2) Fn (x h/2) =
1{Xi Uxh }
h
nh
i=1


n
x Xi
1 X
=
K
,
nh
h
i=1

o`
u K(x) = 1{1/2<x1/2} . La fonction aleatoire x ; fbn (x) est elle-meme une densite de
probabilite, constante par morceaux.
Une version plus lisse de lestimateur `a fen
R etre mobile consiste `a remplacer la fonction
K par une fonction reguli`ere K (r) , verifiant R K (r) (x)dx = 1. On utilise souvent le noyau
gaussien
K (r) (x) = (2)1/2 exp(x2 /2).
Lestimateur `
a noyau

1 X (r)
fbn(r) (x) =
K
nh
i=1

est donc la moyenne arithmetique de n

x Xi
h

fonctions cloches 


1 (r) Xi
K
,
h
h


72

Echantillonnage et fonction de r
epartition empirique

chaque  cloche  etant une densite de probabilite centree en Xi et dechelle h. La


(r)
fonction aleatoire x ; fbn (x) est une densite de probabilite : elle est positive, et
Z

fbn(r) (x)dx =

Z
K(x)dx = 1.
R

Letude des estimateurs `a noyau pour lestimation non-parametrique de la densite est


une theorie `
a part enti`ere qui depasse le cadre de ce cours. Elle est traitee de facon
approfondie dans le cours de MAP 553, voir [9].

3.5

Exercices

Rx
2
Exercice 3.1. Soit (x) = (2)1/2 et /2 dt la fonction de repartition de la loi
gaussienne standard.
2
Montrer que 1 (x) 21 ex /2 et en deduire que pour (0, 1),
1
exp( 1 (1 /2)2 ).
2
Montrer que 1 (x) =

2
x ex /2
2

x2 [1 (x)]. En deduire
2

ex /2
1 (x) .
2x 2
(On pourra utiliser linegalite : x/(1 + x2 ) 1/2x si x 1.)
En deduire
s
1
1 (1 /2),
2 log
r()
o`
u lon a pose r() := 2

q
log 1 .

Exercice 3.2. On a etudie le comportement asymptotique de la variance empirique par


la methode  delta  dans lexemple 3.3. On peut retrouver ce resultat de mani`ere plus
directe. On ecrit

1
n

n
X
i=1

(Xi X n )

1
n

n
X


(Xi )2 2 n(X n )2 .

i=1

Montrer que le second terme converge vers 0 en probabilite. Montrer que le premier terme
est asymptotiquement normal via le theor`eme central-limite. Conclure via la Proposition
1.8 (Slutsky).

3.5 Exercices

73

Exercice 3.3. On cherche un intervalle de confiance asymptotique pour la fonctionnelle

sous lhypoth`ese que 0 <


la convergence

T (F ) =

1
1
 =R 4
4
E X
R x dF (x)

8 dF (x)

< +. On a vu dans lExemple 3.2 la Section 3.4.1

Rx

 d

n T (Fbn ) T (F ) N 0, v(F ) ,

P
avec v(F ) = 8 /24 1. Montrer que v(Fbn ) v(F ) et en deduire un intervalle de confiance
asymptotique pour T (F ) `
a laide de la Proposition 1.8 (Slutsky).

Exercice 3.4. Soient X1 , . . . , Xn des variables aleatoires reelles independantes, de meme


densite f . On note X(1) , . . . , X(n) la statistique dordre associee (voir Section 3.4.2).
Montrer que la densite de (X(1) , . . . , X(n) ) est donnee par
f(X(1) ,...,X(n) ) = n!

n
Y

f (xi )1{x1 <x2 <...<xn } .

i=1

Si F designe la fonction de repartition des Xi , montrer que X(k) a pour densite


nk
fX(k) (x) = k Cnk f (x) 1 F (x)
F (x)k1 .
Exercice 3.5 (Un test asymptotique de gaussianite). Soient X1 , . . . , Xn un n-echantillon de loi inconnue F ayant au moins un moment dordre 4 et de moyenne nulle et de
variance non-nulle.
On pose, pour k = 1, . . . , 4
1 Pn
k
i=1 Xi
(k)
n
Tn =
.

1 Pn
2 k/2
X
i=1 i
n
Montrer que

2 d
n (3) 2
n (4)
Tn
+
Tn 3 2 (2),
15
24
2
2
o`
u (2) designe la loi du `a 2 degres de liberte.
En deduire un test de lhypoth`
se nulle H0 : F = contre lalternative H1 : F 6=
R x te2 /2
1/2
o`
u (x) = (2)
dt est la fonction de repartition de loi normale
e
standard.
Le test est-il consistant ?
Exercice 3.6 (Comportement asymptotique des quantiles empiriques). Soit (1 , . . . , n+1 )
des variables aleatoires independantes et de meme loi exponentielle de param`etre 1. On
pose
i
X
Vi =
j
j=1

74

Echantillonnage et fonction de r
epartition empirique
Montrer que le vecteur (V1 , . . . , Vn+1 ) admet comme densite
(v1 , . . . , vn+1 ) 7 1{0<v1 <<vn+1 } exp(vn+1 ).
On consid`ere une permutation aleatoire de {1, . . . , n} de loi uniforme et independante
de (1 , . . . , n+1 ). Montrer que les variables aleatoires
V(i)
,
Vn+1

i = 1, . . . n

sont independantes et de meme loi uniforme sur [0, 1].


Soit F une fonction de repartition sur R. On pose
F (u) = inf{t R, F (t) u},

0 < u < 1.

Montrer que F est bien definie et quon a lequivalence u F (t) F (u) t.


En deduire que si (X1 , . . . , Xn ) est un n-echantillon de loi F , alors la statistique
dordre (X(1) , . . . , X(n) ) a meme loi que le vecteur


V1

Vn+1

,...,F

Vn
Vn+1



Soit p (0, 1). Montrer que


 V[np] Vn+1 
,
n
np n1
converge en loi vers un vecteur gaussien centre (Z1 , Z2 ) avec Var(Z2 ) = 1 et
Var[Z1 ] = Cov(Z1 , Z2 ) = p.
On suppose quil existe un voisinage (a, b) de F (p) et une fonction f strictement
positive sur (a, b), continue en F (p) tels que
Z

f (s)ds

F (t) = F (t1 ) +

pour t (a, b).

t1

Montrer que F (p) est lunique solution de lequation F


 (t) = p. Montrer que


n(X([np]) F (p)) converge en loi vers la loi gaussienne N 0, p(1p)/f F (p) .


(Theor`eme de Mosteller).

Chapitre 4

M
ethodes destimation pour le
mod`
ele de densit
e
On se place dans le mod`ele dechantillonnage. Lhypoth`ese supplementaire par rapport
au Chapitre 3 est que la famille de probabilites associee `a lexperience statistique est
 param
etrique  : on peut la representer `a laide dun sous-ensemble dun espace de
dimension finie.

4.1
4.1.1

Introduction
Notations et hypoth`
eses

Situation
On observe un n-echantillon
X1 , . . . , Xn
dune loi inconnue sur R, que lon notera aussi sous forme dun vecteur colonne
T
X1 , . . . , Xn ,
o`
u les Xi sont des variables independantes et identiquement distribuees, et on suppose
que leur loi commune appartient a` une famille parametrique de lois donnee


P , , Rd ,
o`
u est un param`etre de dimension d. Lexperience statistique sous-jacente au sens de
la Definition 2.3 du Chapitre 2 secrit

E n = Rn , B n , {Pn , }

76

M
ethodes destimation en densit
e

o`
u Pn est la loi de n variables aleatoires independantes de loi P . On ecrit indifferemment
P , ou Pn , voire P lorsquil ny a pas de confusion possible. On note aussi E = E 1 ,
lexperience associee `
a une seule observation.
Dans ce contexte, on cherche `a construire des estimateurs bn de , ou plutot des suites
destimateurs, variant avec n. Un estimateur cf. la Definition 3.1 est une quantite
mesurable par rapport aux observations :
bn = bn (X, . . . , Xn )
` valeurs dans Rd (idealement, `a valeurs dans ). Evidemment, un estimateur raisonnable
a
bn  approche  dautant mieux que le nombre dobservations n est grand. Nous allons
 raisonnables ,
developper des methodes systematiques de construction
destimateurs


en faisant des hypoth`eses adequates sur la famille P , .
Identifiabilit
e
Nous supposons toujours que lexperience est bien parametree, au sens o`
u la fonction
; P est injective, ce qui etait dej`a implicite dans nos notations : deux valeurs
differentes 1 6= 2 donnent lieu `a deux mesures de probabilites P1 6= P2 differentes.
Une experience statistique E n engendree par lobservation dun n-echantillon secrit
E n = E E (n fois), o`
u E est lexperience statistique associee `a une observation
(E = E 1 ). Alors E n est identifiable si et seulement si E lest.
Voici un exemple de mauvaise parametrisation donnant lieu `a un mod`ele qui nest
pas identifiable : P est la loi sur R de densite par rapport `a la mesure de Lebesgue
1
1
2 2
f (, x) = e 2 (x ) , = R .
2

La donnee de f (, ) ne permet par de distinguer et . Par contre, la meme experience


associee `
a lensemble des param`etres e = R+ devient identifiable.
Domination
Nous faisons une hypoth`ese essentielle de domination, qui permet, en un certain sens,
de reduire la complexite de letude de E n `a celle dune fonction de plusieurs variables.
Hypoth`
ese 4.1. Lexperience E est dominee : il existe une mesure -finie sur R telle
que, pour tout , domine P . On note
f (, x) =
la densite de P par rapport `
a .

d P
(x), x R
d

4.1 Introduction

77

Remarque 4.1. Pour un n-echantillon, E n est dominee si et seulement si E lest.


Lexperience statistique E n est dominee par la mesure produit n = . . . (n
fois) et
n
Y
d Pn
(x1 , . . . , xn ) =
f (, xi ), x1 , . . . , xn R .
dn
i=1

Remarque 4.2. Se donner une experience statistique satisfaisant lHypoth`ese 4.1 revient `a specifier une application f : R R. Nous verrons dans ce chapitre ainsi quau
Chapitre 6 comment lestimation de est intimement liee `a la regularite de la fonction
(, x) ; f (, x).
Dans presque toutes les situations que nous considererons, la mesure est la mesure
de Lebesgue sur R lorsque la loi des observations est absolument continue, ou bien est
la mesure de comptage sur lensemble des valeurs possibles des observations lorsque la
loi des observations est discr`ete.
Exemple 4.1.
1. Si lexperience statistique E est engendree par lobservation dune variable exponentielle de param`etre , > 0, alors P (dx) est la loi exponentielle de param`etre
et = R+ \{0}. Une mesure dominante est la mesure de Lebesgue (dx) = dx
et on a
P (dx) = f (, x)dx = exp(x)1{x0} dx.
2. Si E est engendree par lobservation dune variable de Poisson de param`etre > 0,
alors P (dx) est la loi de Poisson de param`etre et = R+ \{0}. Dans ce cas, on
peut prendre pour la mesure de comptage sur N et on a
P (dx) = f (, x)(dx) = exp()

x
(dx),
x!

et on a aussi


f (, x) = P X = x .
3. Si E est engendree par lobservation dune variable gaussienne, de moyenne et de
variance 2 , alors = (, 2 ), = R R+ \{0} et P (dx) est la loi N (, 2 ). Dans
ce cas, on peut prendre (dx) = dx et on a

f (, x) = (2 2 )1/2 exp 21 2 (x )2 .
Attention : dans certaines situations, on suppose que lon connat lune des valeurs
ou 2 . Dans ce cas, on doit changer de param`etre et densemble de param`etres,
meme si, bien-s
ur, la loi des observations reste la meme. Par exemple, si lon connat
2 , alors on prend = , = R et on ecrit plutot

f2 (, x) = (2 2 )1/2 exp 21 2 (x )2 .

78

M
ethodes destimation en densit
e

Calcul de lois

On note Pn (ou P lorsquil ny a pas de confusion) la loi des observations, et En

(ou E ) lesperance associee. Si bn est un estimateur de et une fonction test, alors




E (bn ) = E bn (X1 , . . . , Xn )
Z

=
bn (x1 , . . . , xn ) P (dx1 ) . . . P (dxn )
Rn

Z
=
Rn

n
Y
bn (x1 , . . . , xn )
f (, xi )(dx1 ) . . . (dxn ).
i=1

Si est la mesure de Lebesgue, cette formule devient


Z
n


Y
b
b
n (x1 , . . . , xn )
E (n ) =
f (, xi )dx1 . . . dxn .
Rn

i=1

Si est la mesure de comptage sur M R au plus denombrable, la formule devient




E (bn ) =

bn (x1 , . . . , xn )

x1 ,..., xn M

n
Y

f (, xi ).

i=1

Ces formules ne sont pas toujours  praticables  : on choisit souvent des fonctions tests
et des estimateurs tr`es particuliers pour pouvoir conduire les calculs.

4.1.2

Familles param
etriques classiques

1. Loi gaussienne reelle et vectorielle, que nous avons deja rencontre au Chapitre 1.
2. Derivees des lois gaussiennes. Il sagit de la loi du 2 `a n degres de liberte, la loi
de Student `
a n degres de libertes, et la loi de Fisher ou Fisher-Snedecor `
a (n1 , n2 )
degres de liberte, que nous avons deja rencontrees au Chapitre 1.
3. Loi Gamma. Notee , de param`etres > 0 et > 0, de densite , par rapport
a la mesure de Lebesgue
`
, (x) =
o`
u (x) =

R +
0

1 x
x
e
1{x0}
()

ux1 eu du. Si X , , alors


Z +
 k

E X =
x+k1 ex dx
() 0
Z +
k
=
x+k1 ex dx
() 0
k ( + k)
=
.
()

4.1 Introduction

79

 
 
En particulier, E X = / et Var X = /2 . Le param`etre joue un role de
facteur dechelle : on montre de la meme mani`ere que si X 1, , alors X/ , .
Cest donc le deuxi`eme param`etre qui est important en modelisation. En particulier,
la loi du 2 `
a n degres de liberte est la loi 1/2,n/2 .
4. Loi exponentielle. Cest la loi ,1 , > 0, de densite ex 1{x0} . En particulier,
sa moyenne vaut 1/ et sa variance 1/2 .
5. Loi Beta. De param`etres 1 , 2 > 1. Cest une loi sur [0, 1], de densite
x;

(1 + 2 ) 1 1
x
(1 x)2 1 1{x(0,1)} .
(1 )(2 )

Son nom vient de la fonction Beta


Z 1
(1 )(2 )
B(1 , 2 ) =
x1 1 (1 x)2 1 dx =
.
(1 + 2 )
0
Si X suit la loi Beta de param`etres (1 , 2 ), ses moments sils existent sont
donnes par la formule
Z 1
 k
(1 + 2 ) 1 +k1
(1 + 2 )(1 + k)
E X =
x
(1 x)2 1 =
.
(1 )(1 + 2 + k)
0 (1 )(2 )
En particulier, pour k = 1, 2 on obtient
 
E X =

 
1
1 (1 + 1)
, E X2 =
.
1 + 2
(1 + 2 )(1 + 2 + 1)

6. Loi uniforme. Sur [0, 1], on peut la voir comme un cas particulier de la loi Beta 1
pour 1 = 2 = 1.
7. Loi de Cauchy. Cest la loi de param`etres R et 2 > 0 de densite
x;

1
1
2 =

1 + (x )/ 2 2
2 + (x )

sur R. Ce nest rien dautre que la famille de translations-dilatations associee `a la


loi de Cauchy standard de densite
x;

1
(1 + x2 )

mais `
a la difference de la famille des lois normales, elle nadmet pas de moment
dordre 1 (et donc pas de variance non plus).
1. Le lien entre loi uniforme et loi Beta intervient dans le calcul de la statistique de rang associe a
` des
tirages uniformes, dont une application fondamentale est la loi limite destimation de quantiles, voir par
exemple [1], p.46.

80

M
ethodes destimation en densit
e
8. Loi log-normale On dit quun variable Y est log-normale si elle peut secrire Y =
exp(X), avec X N (, 2 ). La densite de la loi log-normale est
x;


1
g log(x) ,
x

o`
u g(x) = (2 1/2 ) exp(x2 /2) est la densite de la loi normale standard. De plus,
 
 
2
2
E Y = e+ /2 , E Y 2 = e2+2 .
9. Loi de Bernoulli. Rencontree au Chapitre 1.
10. Loi de Poisson. Rencontr
ee au

 Chapitre 1. Si X suit une loi de Poisson de param`etre
> 0, alors E X = Var X = .
11. Loi multinomiale. Soient X1 , . . . , Xn sont des variables aleatoires `a valeurs dans
{1, . . . , d}, independantes et de meme loi


P X = ` = p` , ` = 1, . . . , d.
P
Si lon note N` = ni=1 1{Xi =`} le nombre de tirages ayant donne la valeur `, alors
le vecteur (N1 , . . . , N` ) suit la loi multinomiale de param`etres n et (p1 , . . . , pd ),
donnee par


P N1 = n1 , . . . , Nd = nd

n!
=
pn1 pnd d ,
n1 ! nd ! 1

d
X

n` = 1.

`=1

La loi multinomiale generalise la loi binomiale, qui correspond au cas d = 2. Cette


loi est fondamentale dans lutilisation du test du 2 du Chapitre 8.

4.2

M
ethode des moments

4.2.1

Le cas de la dimension 1

On suppose R. Supposons donnee une application g : R R telle que




; m() = E g(X)
existe et soit strictement monotone et continue. Alors m realise une bijection de sur
son image m() et on a la representation


= m1 E g(X) , .


En rempla
c
ant
la
moyenne
th
e
orique
inconnue
m()
=
E
g(X)
par sa version empi
P
rique n1 ni=1 g(Xi ), observable, un estimateur naturel de est donc
!
n
X
1
g(Xi ) .
(4.1)
bn = m1
n
i=1

4.2 M
ethode des moments

81

Une autre facon de voir cette approche est de remarquer que si F designe la fonction de
repartition de la loi P , alors
Z

1
g(x)dF (x) ,
= T (F ) = m
R

o`
u T est une fonctionnelle de type (3.7) etudiee au chapitre precedent. On a donc aussi
!
n
X
1
bn = T (Fbn ) = m1
g(Xi ) .
n
i=1

D
efinition 4.1. On appelle estimateur par methode des moments tout estimateur de la
forme (4.1) ou (??).
Remarque 4.3. Dans la plupart des exemples, on choisit g de la forme g(x) = xk avec
k 1, do`
u la terminologie. Le choix g est arbitraire pour le statisticien : il y a donc tout
un ensemble de possibilites pour construire un estimateur par methode des moments,
mais sous la contrainte que lapplication ; m() soit reguli`ere et inversible.
Sous des hypoth`eses de regularite sur m et dintegrabilite sur g, on a le comportement
asymptotique de b suivant.


Proposition 4.1. Si E |g(X)| < + et si m1 est continue, on a
p.s.
bn .


De plus, si pour tout , E g(X)2 < + et si la fonction m est derivable, alors

 d
n bn N




1
0, 0 2 Var g(X1 )
m ()

(4.2)

Demonstration. On applique simplement les Propositions 3.7 et 3.8 du Chapitre 3 `a la


fonctionnelle reguli`ere T (F ).
Exemple 4.2 (Loi exponentielle). On consid`ere lexperience E n engendree par lobservation dun n-echantillon de variables exponentielles de param`etre > 0. Les fonctions
les plus simples pour construire un estimateur sont par exemple g(x) = x ou ge(x) = x2 .
Ceci fournit deux estimateurs. On part de lequation
Z +


1
m() = E g(X) =
x exp(x)dx =

0
ou bien


m()
e
= E ge(X) =

Z
0

x2 exp(x)dx =

2
,
2

82

M
ethodes destimation en densit
e

et on resout
m() =

1
n

n
X

Xi

ou

m()
e
=

i=1

1
n

n
X

Xi2 .

i=1

On obtient deux estimateurs par substitution :


bn,1 =

1
1
n

Pn

i=1 Xi

et

bn,2 =

!1/2

2
1
n

Pn

2
i=1 Xi

La Proposition 4.1 sapplique, et, comme




1
Var g(X) = 2

et


 20
Var ge(X) = 4

1
2

et

m
e 0 () =

et
m0 () =

4
3

on obtient la convergence en loi (4.2) de lerreur renormalisee


vers une gaussienne centree de variance


v() = m0 ()2 Var g(X) = 2

b
n(n,i ) pour i = 1, 2

et


 20 6
5
ve() = m
e 0 ()2 Var ge(X) = 4
= 2
16
4
respectivement. Lerreur de lestimateur bn,1 est  moins dispersee  que celle de bn,2 et
de ce point de vue, bn,1 semble  preferable  `a bn,2 . Nous etudierons plus systematiquement
la comparaison destimateurs au Chapitre 6.
Exemple 4.3 (Loi de Cauchy). On consid`ere la famille de translation (voir 4.1.2)
associee `
a la loi de Cauchy sur R. La loi P a une densite par rapport `a la mesure de
Lebesgue sur R
1
, x R .
f (, x) =
1 + (x )2
La densite f (, ) na pas de moment dordre k pour k 1, et le choix g(x) = xk avec k
entier ne sapplique pas ici. Prenons g(x) = signe(x), avec

1 si x 0
signe(x) =
1 si x > 0.
On a


E g(X1 ) =

Z
signe(x)f (, x)dx = 1 2F (),
R

o`
u
1
F (t) =

dt
1
1
= Arctg(t) + .
2
1+t

4.2 M
ethode des moments

83

On resout

2
1X
Arctg() =
signe(Xi ),

n
i=1

do`
u lestimateur

!
n
X
signe(Xi ) .
2n

bn = tg

i=1

Les proprietes asymptotiques de bn vers sobtiennent en appliquant la Proposition 4.1.

4.2.2

Le cas multidimensionnel

Lorsque Rd avec d 1, il nest plus possible en general didentifier via une


seule fonction g via la representation (3.7). On etend la methode precedente en identifiant
`a laide de d applications g` : R R, pour ` = 1, . . . , d

x ; g1 (x), . . . , gd (x) , x R,
de sorte que le syst`eme dequations


m` () = E g` (X) =

Z
g` (x)dF (x), ` = 1, . . . , d

(4.3)

admette une solution unique, lorsque cela est possible. Un estimateur par methode des
moments est alors tout estimateur bn satisfaisant
d

1X
m` (bn ) =
g` (Xi ), ` = 1, . . . , d.
n

(4.4)

i=1

D
efinition 4.2. On appelle estimateur par substitution ou par methode des moments
associe a
` la fonction g tout estimateur bn solution de (4.4).
On note





m() = E g(X) = E g1 (X)], . . . , E gd (X)
lapplication de Rd Rd definie composante par composante par (4.3). On utilise donc
la representation
= m1 (m1 (), . . . , md ())
pour estimer par
bn = m

i=1

i=1

1X
1X
g1 (Xi ), . . . ,
gd (Xi )
n
n

84

M
ethodes destimation en densit
e

Proposition 4.2. Si m est continue, inversible et dinverse continue, alors lestimateur


par methode des moments est bien defini et on a
p.s.
bn



sous P . De plus, si m1 est differentiable et si E g` (X)2 < +, on a la convergence
 d


n bn N 0, V () ,
o`
u
T
V () = Jm1 m () Jm
1 ,

(4.5)

avec m () la matrice de variance-covariance du vecteur g1 (X), . . . , gd (X)


par






m () `,`0 = E g` (X)g`0 (X) E g` (X) E g`0 (X)

T

definie
(4.6)

et Jm1 designe la matrice de la differentielle de m1 .


Demonstration. Par la loi des grands nombres, on a, composante par composante, la
convergence
!
n
n





1X
1 X 1
p.s.
g1 (Xi ), . . . ,
gd (Xi ) E g1 (X) , . . . , E gd (X)
n
n
i=1

i=1

= m()
sous P . Par continuite de m1 , on en deduit
n

1 X 1
1X
g1 (Xi ), . . . ,
gd (Xi )
bn = m1
n
n
i=1
i=1





p.s.
m1 E g1 (X) , . . . , E gd (X)

= m1 m()

= .
La deuxi`eme partie de la proposition est la methode  delta  multidimensionnelle. On
applique dabord le Theor`eme 1.4 (theor`eme central limite vectoriel) : la suite de vecteurs
!T
n
n
1X
1X
g1 (Xi ), . . . ,
gd (Xi )
n
n
i=1

i=1

est asymptotiquement gaussienne, et


n
n

X

T
 1X
d
n n
g1 (Xi ), . . . , n1
gd (Xi ) m() N 0, m () ,
i=1

i=1

sous P , de matrice de variance-covariance m () donnee par (4.6). Puis, on applique la


Proposition 1.11 (methode delta) avec g = m1 .

4.3 Moments g
en
eralis
es. Z- et M -estimation

85

Remarque 4.4. Ce resultat est tr`es proche du Corollaire 3.2 du Chapitre 3 (la fonction
m1 jouant le r
ole de g dans le Corollaire 3.2).
Exemple 4.4. Si = (, 2 ) = R R+ \{0} et P est la loi N (, 2 ), alors d = 2
et les fonctions g1 (x) = x et g2 (x) = x2 fournissent le syst`eme dequations
n

= X n,

2 + 2 =

1X 2
Xi ,
n
i=1

dont la solution est


bn =
bn ,
bn2

T

= X n , n1

n
X

Xi2 X n

2 T

(4.7)

i=1

On retrouve lestimation de fonctionnelles du Chapitre 3. Lestimateur bn est asymptotiquement normal. On peut calculer sa variance asymptotique en appliquant la formule
(4.5) de la Proposition 4.2 ci-dessus ou bien en partant directement de la representation
 
(4.7) et en appliquant alors le Corollaire 3.2 du Chapitre 3. En notant i = E X i , on
obtient finalement

V () =

31 2 + 231 + 3
2 21
3
31 2 + 21 + 3 21 (41 2 231 23 ) + 4 22


.

En particulier, dans le cas dune distribution centree, lorsque 1 = 0, on retrouve la forme


particuli`erement simple


2
3
V () =
.
3 4 22

4.3

Moments g
en
eralis
es. Z- et M -estimation

Insuffisance de la m
ethode des moments
La methode des moments repose sur lexistence dune fonction m (reelle ou vectorielle)
inversible qui nest pas toujours facile `a determiner ou `a mettre en uvre numeriquement.
On presente une extension naturelle qui fournit une nouvelle classe destimateurs que lon
va pouvoir etudier de mani`ere systematique.
En particulier, sous des hypoth`eses de regularite suffisantes, on pourra construire une
methode  automatique  de selection dun estimateur asymptotiquement optimal, dans
un sens que nous discuterons au Chapitre 6.

86

4.3.1

M
ethodes destimation en densit
e

Z-estimateurs

Construction en dimension 1
Lorsque le param`etre est de dimension 1, cest-`a-dire R, la methode des moments de la section precedente repose sur de bonnes proprietes regularite, inversibilite
de lapplication
Z
g(x) P (dx)

m() = mg () =

(4.8)

pour un certain choix de fonction g. Autrement dit, on a, pour tout


Z

mg () g(x) P (dx) = 0,

(4.9)

o`
u g est `
a choisir. Considerons de mani`ere generale pour Rd et d 1 une application
:RR
telle que pour tout
Z
(, x) P (dx) = 0

(4.10)

dont (4.9) est un cas particulier avec (, x) = mg () g(x). Pour construire un estimateur, on peut se donner une application satisfaisant lequation (4.10) pour tout
et resoudre sa version empirique, cest-`a-dire chercher un estimateur bn satisfaisant
n

1X b
(n , Xi ) = 0.
n

(4.11)

i=1

D
efinition 4.3 (Z-Estimateur ou estimateur GMM 2 ). Etant donnee une application
: R R satisfaisant (4.10), on appelle Z-estimateur associe `
a tout estimateur
b
n satisfaisant (4.11).
Le cas multidimensionnel
Lextension au cas multi-dimensionnel Rd , avec d 1 est immediate. La fonction
est remplacee par une application
= (1 , . . . , d ) : R Rd
o`
u chaque composante ` : R R joue le meme role quen dimension 1. Pour que
la methode ait un sens, il faut que, comme pour lequation (4.10), le param`etre inconnu
soit solution du syst`eme dequations
Z
` (, x) P (dx) = 0, ` = 1, . . . , d
(4.12)
R

et construire un Z-estimateur revient `a resoudre une version empirique de (4.12).


2. Z pour zero et GMM pour Generalized Method of Moments.

4.3 Moments g
en
eralis
es. Z- et M -estimation

87

D
efinition 4.4 (Z-estimateur, cas multidimensionnel). Etant donne une application :
R Rd , on appelle Z-estimateur associe `
a tout estimateur bn satisfaisant
n

1X b
(n , Xi ) = 0,
n

` = 1, . . . , d.

i=1

4.3.2

M -estimateurs

Soit : R R une application telle que, pour tout Rd , avec d 1, la


fonction
Z


a ; E (a, X) =
(a, x) P (dx)
(4.13)
R

admette un maximum en a = . Une procedure naturelle pour estimer consiste `a


maximiser une version empirique de (4.13).
D
efinition 4.5. On appelle M -estimateur 3 associe au contraste tout estimateur bn
qui satisfait
n
n
1X b
1X
(n , Xi ) = max
(a, Xi ).
a n
n
i=1

i=1

Si le param`etre est de dimension d = 1 et si lon suppose, pour tout x R que la


fonction a ; (a, x) est reguli`ere, en posant
(a, x) = 1 (a, x),
on a

n
X

1 (bn , Xi ) =

i=1

n
X

(bn , Xi ) = 0

i=1

ce qui permet dans ce cas dinterpreter un M -estimateur comme un Z-estimateur.


Cette interpretation setend immediatement au cas multidimensionnel.
Exemple
4.5. On

consid`ere les lois {P , = R} qui est la famille de translations
F ( ), R associee `
a une distribution donnee F centree et ayant un moment
dordre 1. On a
Z
Z
=
x P (dx) = (x + )dF (x).
R

 
Alors m() = E X minimise la fonction
Z


a ; (x a)2 P (dx) = E (X a)2
R

3. Il y a peut-etre un probl`eme de mesurabilite a


` regler pour garantir que lon obtient effectivement
un estimateur. Nous ignorons ce probl`eme eventuel.

88

M
ethodes destimation en densit
e

dapr`es la Proposition 1.1. En prenant (a, x) = (x a)2 , le M -estimateur associe `


a
satisfait
n
n
X
X
b
(n , Xi ) = max
(a, Xi )
aR

i=1

ou encore

n
X

i=1

(bn , Xi ) = 0

i=1

P
u lestimaavec (a, x) = 1 (a, x) = 2(x a), ce qui implique ni=1 (Xi bn ) = 0, do`
1 Pn
b
teur n = X n = n i=1 Xi . Dans cet exemple simple, tous les points de vue concident.

4.3.3

Convergence des Z- et des M -estimateurs



Dans cette section, nous donnons des crit`eres simples sur la famille P , et la
fonction pour les Z-estimateurs ou pour les M -estimateurs qui garantissent
la convergence de lestimateur correspondant. Nos conditions sont classiques et sousoptimales. La recherche de conditions minimales est un probl`eme delicat qui depasse le
cadre de ce cours. On pourra consulter van der Vaart [10] pour une discussion accessible
sur le sujet. Pour des raisons techniques, nous commencons par traiter la convergence
des M -estimateurs, dont nous deduirons celle des Z-estimateurs.
Convergence des M -estimateurs
Pour une fonction de contraste : R R donnee, on definit
n

Mn (a) =

1X
(a, Xi ), a
n
i=1

et, pour ,


M (a, ) = E (a, X) .
Proposition 4.3 (Convergence des M -estimateurs). On suppose Rd , avec d 1,
que le M -estimateur bn associe a
` la fonction est bien defini, et quon a

P
(i) supa Mn (a) M (a, )
0,
(ii) > 0, sup|a| M (a, ) < M (, ), (condition de maximum)
P
(iii) Mn (bn ) Mn () n , o`
u n
0.

Alors le M -estimateur bn est convergent (ou consistant) :


P
bn
.

4.3 Moments g
en
eralis
es. Z- et M -estimation

89

Demonstration. On ecrit
M (, ) M (bn , ) = Tn,1 + Tn,2 + Tn,3 ,
avec
Tn,1 = M (, ) Mn (),
Tn,2 = Mn () Mn (bn ),
Tn,3 = Mn (bn ) M (bn , ).
Les termes Tn,1 et Tn,3 tendent vers 0 en probabilite sous P grace `a lhypoth`ese (i).
Soit > 0. Dapr`es la condition (ii), il existe > 0 tel que M (a, ) M (, )
d`es lors que |a | . On a donc linclusion



| bn | M (bn , ) M (, )
(4.14)
en prenant a = bn . Il vient




P | bn | P M (bn , ) < M (, )


= P M (, ) M (bn , ) >


P Tn,1 + n + Tn,3
P

o`
u lon utilise successivement linclusion (4.14), lhypoth`ese (iii) et le fait que chacun des
termes Tn,1 , n et Tn,3 tend vers 0 en probabilite sous P .
Convergence des Z-estimateurs
On suppose dabord R. Pour une fonction donnee, on definit
n

1X
(a, Xi ), a
Zn (a) =
n
i=1

et, pour ,


Z(a, ) = E (a, X) a .
Proposition 4.4 (Convergence des Z-estimateurs). On suppose que le Z-estimateur bn
associe `
a la fonction est bien defini, et quon a

P
(i) supa Zn (a) Z(a, )
0,
(ii) > 0, inf |a| |Z(a, )| > 0 = |Z(, )|,

90

M
ethodes destimation en densit
e
P
(iii) Zn (bn )
0.

Alors le Z-estimateur bn est convergent (ou consistant) :


P
bn
.

Demonstration. ll suffit de reprendre point par point la preuve de la Proposition 4.3 en


remplacant Mn (a) par |Zn (a)| et M (a, ) par Z(a, ).
Le cas multidimensionnel o`
u Rd avec d 1 se traite de la meme mani`ere, en
remplacant la fonction par une fonction vectorielle = (1 , . . . , d ) et les valeurs
absolues dans les conditions (i)(ii)(iii) par la norme euclidienne sur Rd .

4.3.4

Loi limite des Z- et M -estimateurs

Nous precisons les resultats de la section precedente, en cherchant une vitesse de


convergence n de sorte que lerreur normalisee
n (bn )
converge vers une limite non-degeneree. Nous donnons des hypoth`eses suffisantes sur
les fonctions pour les Z-estimateurs et pour les M -estimateurs de sorte

quon ait une convergence en loi vers une gaussienne avec la normalisation n = n.
Ces conditions ne sont pas optimales (voir van deer Vaart [10]). A linverse de la section
precedente, nous partons dun resultat sur les Z-estimateurs pour en deduire un resultat
sur les M -estimateurs.
Loi limite des Z-estimateurs
Nous donnons les resultats dans le cas R, lorsque le param`etre est de dimension
d = 1, pour simplifier 4 . Etant donnees, dune 
part une fonction
: R R definissant

un Z-estimateur, et dautre part la famille P , , on fait le jeu dhypoth`eses
suivant :
Hypoth`
ese 4.2 (Hypoth`ese loi limite Z-estimateurs). On a
(i) Pour tout point , il existe un voisinage ouvert V() tel que, pour tout
a V()
2



a (a, x) g(x), o`
u E g(X) < +.
(ii) Pour tout , on a


E (, X) = 0,



E (, X)2 < +,



E (, X) 6= 0.

4. Le passage au cas multidimensionnel ne presente essentiellement quune difficulte decriture.

4.3 Moments g
en
eralis
es. Z- et M -estimation

91

Remarque 4.5. Le jeu dhypoth`ese 4.2 peut paratre un peu  repoussant  `a premi`ere
vue. Nous verrons que la methode de preuve est tr`es simple, et que ces hypoth`eses apparaissent naturellement lors du controle des differents termes dun developpement asymptotique 5 .
Remarque 4.6. Le jeu dhypoth`ese 4.2 est local : comme
le sugg`

ere lhypoth`ese (i), on
doit pouvoir contr
oler le comportement de la famille P , dans un voisinage de
, pour tout . Ceci exclut les param`etres de la fronti`ere de dans le cas o`
u nest pas
un ouvert. En restreignant lespace des param`etres (donc en considerant une experience
statistique  plus petite ), on pourra souvent se ramener au jeu dhypoth`eses 4.2 `a
condition que soit dinterieur non vide au depart.
Sous ce jeu dhypoth`eses, on a le comportement asymptotique suivant pour les Zestimateurs


Proposition 4.5 (Loi limite des Z-estimateurs). Si la famille P , et la fonction
P
verifient lHypoth`ese 4.2, alors, si bn est un Z-estimateur associe `
a tel que bn
,
on a

en loi sous P , o`
u

 d

n bn N 0, v ()



E (, X)2
v () = 

 2 .
E (, X)

P
Demonstration. Notons Zn (a) = n1 ni=1 (a, Xi ), a comme dans la preuve de la Proposition 4.4, et introduisons les notations Zn0 (a) = a Zn (a), Zn00 (a) = a2 Zn (a). Ecrivons
un developpement de Taylor de la fonction Zn au voisinage de . On a
1
0 = Zn (bn ) = Zn () + (bn )Zn0 () + (bn )2 Zn00 (en ),
2
o`
u en est un point (aleatoire) entre bn et , ce que lon reecrit sous la forme

nZn ()
b
n n =
.
Zn0 () + 12 (bn )Zn00 (en )

(4.15)

sur levenement {Zn0 () + 12 (bn )Zn00 (en ) 6= 0}.


Sous P , les variables (, Xi ) sont independantes,
identiquement distribuees, de

2
moyenne nulle et de variance finie E (, X) dapr`es lHypoth`ese 4.2 (ii). En appliquant le theor`eme central-limite



d
nZn () N 0, E (, X)2
5. On peut  presque  les oublier et ne retenir que la methode de preuve o`
u elles reapparatront de
facon evidente.

92

M
ethodes destimation en densit
e

en loi sous P .
P
Considerons maintenant le denominateur. On a Zn0 () = n1 ni=1 (, Xi ) et les
variables (, Xi ) sont integrables dapr`es lHypoth`ese 4.2 (ii). En appliquant la loi
des grands nombres, on obtient


P
Zn0 ()
E (, X) 6= 0.
La seule reelle difficulte de la preuve de la proposition consiste `a demontrer que
P
00 e
1 b
2 (n )Zn (n )

0.

(4.16)


En effet, dans ce cas, le denominateur dans (4.15) tend vers E (, X) 6= 0 en P


probabilite, et on en deduit 6 , en appliquant la Proposition 1.8 (Slutsky) que

 !

E (, X)2
nZn ()
d
N 0,

2 ,
Zn0 () + 12 (bn )Zn00 (en )
E (, X)
qui est la limite recherchee.
Il reste `
a montrer (4.16). Dapr`es lhypoth`ese 4.2 (ii), il existe un voisinage V() de
P
implique que
tel que |a2 (a, x)| g(x) si a V(). Lhypoth`ese bn


P bn V() 1.
Posons Cn = {bn V()}. On a
n
h1 X
h
i
i
2
(en , Xi ) 1Cn
E Zn00 (en ) 1Cn E

n
i=1

n
h1 X

i
g(Xi )

i=1

i
= E g(X) < +
en appliquant lhypoth`ese 4.2 (i). On en deduit


sup E Zn00 (en )1Cn < +.
n

P
P
Ceci entrane (bn )Zn00 (en )1Cn
0, puisque bn
, voir par exemple lExercice 1.1
du Chapitre 1. Finalement, on ecrit, pour tout > 0





 

P 21 (bn )Zn00 (en ) P 21 (bn )Zn00 (en )1Cn + P Cnc ,

et chacun des deux termes du membre de droite tend vers 0 lorsque n .


bn )Zn00 (
en ) 6= 0}, mais
6. Il y a une petite difficulte : on doit se placer sur levenement {Zn0 () + 12 (
la P -probabilite de cet evenement tend vers 1. Nous omettons les details.

4.4 Maximum de vraisemblance

93

Loi limite des M -estimateurs


Nous nous restreignons encore au cas o`
u R. Nous traduisons lHypoth`ese 4.2
pour une fonction de contraste en posant (a, x) = a (a, x).
Hypoth`
ese 4.3 (Hypoth`ese loi limite M -estimateurs). On a
(i) Pour tout point , il existe un voisinage ouvert V() tel que, pour tout
a V()

3


a (a, x) g(x), o`
u E g(X) < +.
(ii) Pour tout , on a


E (, X) = 0,

2 
(, X)
< +,



E 2 (, X) 6= 0.



Proposition 4.6 (Loi limite des M -estimateurs). Si la famille P , et la fonction verifient lHypoth`ese 4.3, alors, si bn est un M -estimateur associe `
a tel que
P
b
n , on a
 d


n bn N 0, v ()
en loi sous P , o`
u


2 
E (, X)
v () = 
 2
 2 .
E (, X)

Demonstration. Comme indique plus haut, on applique la Proposition 4.5 `a la fonction


(a, x) = a (a, x).

4.4
4.4.1

Maximum de vraisemblance
Principe du maximum de vraisemblance

Fonction de vraisemblance
On se place sous lHypoth`ese de domination 4.1 presentee dans la Section 4.1.1 :
lexperience E est dominee par une mesure sur R, et on note
{f (, ), }

(4.17)

la famille de densites par rapport `a , indicee par lensemble des param`etres Rd ,


avec d 1. Pour toute fonction test
Z
Z
Z
d P
(x) P (dx) =
(x)
(x)(dx) =
(x)f (, x)(dx).
d
R
R
R

94

M
ethodes destimation en densit
e

D
efinition 4.6. On appelle fonction de vraisemblance associee `
a lexperience produit E n
lapplication
n
Y
; Ln (, X1 , . . . , Xn ) =
f (, Xi ).
i=1

La fonction de vraisemblance 7 est une fonction aleatoire, observable. On la note


parfois simplement Ln () lorsquil ny a pas dambiguite.


Exemple 4.6 (cas discret). Si la famille P , est la famille des lois de Poisson
de param`etre = R+ \{0},
P alors une mesure dominante est la mesure de comptage
sur N definie par (dx) = kN k (dx) et on a
P (dx) = f (, x)(dx) = e

x
(dx).
x!
x

La mesure (dx) est portee par N, donc on peut prendre f (, x) = e x! pour x N et


0 sinon. La vraisemblance secrit alors, pour tout > 0
Ln (, X1 , . . . , Xn ) =

n
Y
i=1

Pn
Xi
1
en i=1 Xi .
= Qn
Xi !
i=1 Xi !



Exemple 4.7 (cas continu). Si la famille P , est la famille des lois de Cauchy
de param`etre = (, 2 ) = R R+ \{0}, voir la Section 4.1.2 alors une mesure
dominante est la mesure de Lebesgue sur R et on a
P (dx) = f (, x)dx =

 dx.
2 + (x )2

La vraisemblance secrit alors, pour tout > 0


n
1
n Y 2
Ln (, X1 , . . . , Xn ) = n
+ (Xi )2

i=1

Exemple 4.8 (cas melange). Dans les exemples emblematiques du Chapitre 2, nous
avons mentionne lexperience engendree par lobservation de
Xi? = min{Xi , T }, i = 1, . . . , n
o`
u les Xi sont des variables exponentielles independantes, de
 param`etre > 0 que lon
nobserve pas, et T > 0 est un instant de censure. Les lois P? , de X ? ne sont
ni discr`etes, ni continues. La famille est dominee par (dx) = dx + T (dx), o`
u T (dx) est
la mesure de Dirac au point T . On a
P? (dx) = p(, x)(dx),
7. La fonction x ; f (, x) est definie a
` un ensemble -negligeable pr`es, donc on devrait en toute
rigueur parler dune (classe dequivalence de) fonction de vraisemblance.

4.4 Maximum de vraisemblance

95

o`
u
f (, x) = ex 1{x<T } + c()1{x=T } ,
avec c() =

R +
T

et dt = eT . La vraisemblance secrit

Ln (, X1? , . . . , Xn? ) =

n
Y

f (, Xi? )

i=1

= card Nn exp


+
Xi? c()card Nn ,

iNn

o`
u Nn = {i n, Xi? < T } et Nn+ = {i n, Xi? = T }. Elle est `a comparer avec la
vraisemblance du mod`ele sans censure, o`
u lon observe les Xi directement. Dans ce cas
Ln (, X1 , . . . , Xn ) = n exp

n
X


Xi .

i=1

Nous verrons au Chapitre 6 comment quantifier la perte dinformation liee `a la censure.

D
efinition de lestimateur du maximum de vraisemblance
D
efinition 4.7. On appelle estimateur du maximum de vraisemblance tout estimateur
mv
b
n satisfaisant
Ln (bnmv , X1 , . . . , Xn ) = max Ln (, X1 , . . . , Xn ),

autrement dit
bnmv arg max Ln (, X1 , . . . , Xn ).

(4.18)

Lestimateur du maximum de vraisemblance peut ne pas exister. Il nest pas non plus
necessairement unique.
D
efinition 4.8. Lapplication
1
log Ln (, X1 , . . . , Xn )
n
n
1X
=
log f (, Xi ),
n

; `n (, X1 , . . . , Xn ) =

i=1

bien definie si f (, ) > 0 est appelee fonction de log-vraisemblance. En posant log 0 = 0,


on pourra parler de log-vraisemblance en toute generalite.
On a aussi
bnmv arg max `n (, X1 , . . . , Xn ).

Avant de donner des exemples de calcul effectif destimateurs du maximum de vraisemblance, nous allons justifier la definition (4.18).

96

M
ethodes destimation en densit
e

Principe de maximum de vraisemblance `


a deux points
Considerons une famille de lois `a deux points
= {1 , 1 } R,
o`
u P1 et P2 sont deux lois discr`etes portees par un sous-ensemble M R au plus
denombrable. On choisit pour mesure dominante la mesure de comptage sur M, et la
densite f (, ) est donnee par


f (, x) = P X = x , x M, {1 , 2 }.

(4.19)

A priori avant lexperience aleatoire si les observations (X1 , . . . , Xn ) suivent la loi P


(avec = 1 ou 2 ) la probabilite dobserver 8 (X1 = x1 , . . . , Xn = xn ) est exactement
n
n

 Y

 Y
P X1 = x1 , . . . , Xn = xn =
P Xi = xi =
f (, xi ).
i=1

i=1

A posteriori on dispose dune realisation de (X1 , . . . , Xn ). Supposons que, pour cette


realisation, on observe
n
n
nY
o
Y
f (1 , Xi ) >
f (2 , Xi ) ,
i=1

i=1

cest-`
a-dire
n
o
Ln (1 , X1 , . . . , Xn ) > Ln (2 , X1 , . . . , Xn ) .
Dapr`es (4.19), nous pouvons faire linterpretation suivante :
A posteriori, la probabilite davoir observe (X1 , . . . , Xn ) est plus grande sous P1 que
sous P2 . Ceci nous sugg`ere de  suspecter  que la loi des observations est P1 plut
ot
que P2 : la valeur 1 est  plus vraisemblable  que 2 .
Si, pour la realisation de lobservation (X1 , . . . , Xn ) on a Ln (2 ) > Ln (1 ), alors on
fera la conclusion opposee : 2 est plus  vraisemblable  que 1 . On a donc maximise
la fonction de vraisemblance ; Ln (, X1 , . . . , Xn ) dans le cas tr`es simple o`
u ne peut
prendre que deux valeurs :
bnmv = 1 1

+ 2 1

Ln (1 ,X1 ,...,Xn )>Ln (2 ,X1 ,...,Xn )

Ln (1 ,X1 ,...,Xn )<Ln (2 ,X1 ,...,Xn )

Si enfin Ln (2 ) = Ln (1 ), alors il ny a pas unicite de la procedure et on ne peut pas


conclure.
8. Cest-`
a-dire la probabilite de realisation de levenement {X1 = x1 , . . . , Xn = xn }

4.4 Maximum de vraisemblance

97

Passage de deux param`


etres et une famille de lois quelconque
De mani`ere generale, si Rd avec d 1 est un ensemble arbitraire, la valeur, si
elle est bien definie,
bnmv = arg max Ln (, X1 , . . . , Xn )

est la plus vraisemblable.


Passage `
a une famille de lois continues
Le passage aux lois continues, o`
u les {P , } sont absolument continues par
rapport `
a la mesure de Lebesgue se faite de la meme mani`ere. On peut reproduire
heuristiquement le raisonnement du paragraphe precedent. On remplace
n
n

 Y

 Y
P X1 = x1 , . . . , Xn = xn =
P Xi = xi =
f (, xi ),
i=1

i=1

par


P X1 V(x1 ), . . . , Xn V(xn ) =

n
Y



P Xi V(xi )

i=1

o`
u V(x) est un

petit  voisinage de x. Alors


Z




P X V(x) =
f (, u)du f (, x) V(x)
V(x)





dans la limite V(x) 0, o`
u V(x) designe le mesure de Lebesgue de V(x). Donc la
probabilite de levenement
n
o
X1 V(x1 ), . . . , Xn V(xn )
est  essentiellement  proportionnelle `a
on accepte lapproximation precedente).

Qn

i=1 f (, xi ),

et ceci independamment de (si

Equations de vraisemblance
Si le maximum de ; Ln (), ou encore le maximum de ; `n () nest pas atteint
sur la fronti`ere de , et si lapplication ; Ln () est contin
ument differentiable, alors
une condition necessaire que doit satisfaire lestimateur du maximum de vraisemblance
bnmv est lannulation du gradient
Ln (, X1 , . . . , Xn )|=b mv = 0
n

98

M
ethodes destimation en densit
e

ce qui fournit un syst`eme de d equations si Rd avec d 1. De la meme mani`ere, une


condition necessaire sur la log-vraisemblance est
`n (, X1 , . . . , Xn )|=b mv = 0
n

(4.20)

D
efinition 4.9 (Equations de vraisemblance). Lequation (4.20) est appelee equation de
vraisemblance si d = 1 et syst`eme dequations de vraisembance si d > 1.
En resolvant (4.20), on obtient tous les points critiques de ; `n (), en particulier,
tous ses maxima et minima locaux.
D
efinition 4.10. On appelle racine de lequation de vraisemblance tout (estimateur) bnrv
solution de (4.20), cest-`
a-dire tel que
`n (bnrv , X1 , . . . , Xn ) = 0.
Remarque 4.7. Supposons que pour tout , on a f (, x) > 0 (dx) presquepartout et ; f (, x) est differentiable, (dx) presque-partout. Alors, si ; `n ()
atteint son maximum global pour tous les tels que `n () = 0, alors les ensembles
qui definissent les solutions bnmv et bnrv concident.
Invariance du maximum de vraisemblance vis-`
a-vis de la mesure dominante
ese 4.1, il existe une mesure positive -finie sur R qui domine la famille
 Sous lHypoth`

P , .
Cest le choix de qui specifie la famille de densites f (, ) sur laquelle est construite
la vraisemblance, et par suite lestimateur du maximum de vraisemblance.
Proposition 4.7. Lestimateur du maximum de vraisemblance ne depend pas du choix
de la mesure dominante dans le calcul de la vraisemblance.
Demonstration. Soit une autre mesure dominante. Les mesures et sont elles-memes
dominees par la mesure + , donc, pour toute fonction test ,
Z
Z
d P
(x) P (dx) =
(x)
(x)( + )(dx)
d(
+ )
R
ZR
d
d P
=
(x)
(x)
(x)( + )(dx)
d
d( + )
ZR
d P
d
=
(x)
(x)
(x)( + )(dx).
d
d( + )
R
P
P
Les densites dd
(x) et dd
(x) ne different que dun facteur multiplicatif qui ne depend pas
de (sauf eventuellement sur un ensemble ( + )-negligeable). Donc, presque-s
urement,
n
Y
d P
i=1

(Xi ) et

n
Y
d P
i=1

(Xi )

4.4 Maximum de vraisemblance

99

ne diff`erent que dune fonction de X1 , . . . , Xn qui ne depend pas de . On ne modifie


pas bnmv selon que lon maximise la vraisemblance formee sur lune ou lautre des mesures
dominantes.
Equi-invariance
Lestimateur du maximum de vraisemblance nest pas modifie par changement de
(bonne) parametrisation. Cela signifie que si bnmv est lestimateur du maximum de vraisemblance pour , alors (bnmv ) est lestimateur du maximum de vraisemblance du param`etre G() pour toute fonction G  raisonnable .


Plus precisement, si P , est une famille de probabilites associee `a une
experience statistique, et si
G : G()
est unebijection de sur son image G(), on construit une nouvelle famille de probabilites Q , G() en posant
Q = PG1 ( ) .
e est une bijection et si bnmv designe lestimateur du
Proposition 4.8. Si G :
maximum
de
pour lexperience statistique associee `
a la famille de lois

vraisemblance
mv
b
P , , alors G(n ) est lestimateur du maximum de vraisemblance
de G(), cest

`
a-dire pour lexperience statistique associee `
a la famille de lois PG1 ( ) , G() =


Q , G() .
1 ). Pour tout G(), la
Demonstration. Posons bn = G(bnmv ). Alors bnmv = G
n
 (b

vraisemblance Len (, X1 , . . . , Xn ) associee `a la famille PG1 ( ) , G() secrit

Len (, X1 , . . . , Xn ) = Ln (G1 ( ), X1 , . . . , Xn )
= Ln (, X1 , . . . , Xn )
Ln (b mv , X1 , . . . , Xn )
n

= Len (b
n , X1 , . . . , Xn ).

Exemple 4.9. Si X1 , . . . , Xn est un n-echantillon de loi exponentielle de param`etre


= R+ \{0}, alors la loi P a une densite par rapport `a la mesure de Lebesgue
donnee par f (, x) = ex 1{x0} . La log-vraisemblance secrit 9
`n (, X1 , . . . , Xn ) = n log

n
X

Xi ,

i=1

9. Noter que tous les Xi sont positifs P p.s., simultanement pour tous les , donc il est inutile
de faire apparatre la condition 1{Xi 0} dans la formule de la vraisemblance.

100

M
ethodes destimation en densit
e

donc `n (, X1 , . . . , Xn ) = 0 si et seulement si = X1 . On verifie que cest un maximum


n
global, donc b mv = 1 . Par equi-invariance, on en deduit sans calcul que lestimateur
n

Xn

du maximum de vraisemblance pour un n-echantillon de loi exponentielle de param`etre


= 1/, = R+ \{0} est bn = X n .
Exemple 4.10. Si X1 , . . . , Xn est un n-echantillon de loi log-normale de moyenne a R
et de variance d2 > 0, alors, par la representation Yi = log Xi N (, 2 ) avec
a = e+

2 /2

d2 = a2 (e 1)

(voir Section 4.1.2), en etudiant la fonction


(, 2 ) ; (a, d2 ) = e+

2 /2


2
, a2 (e 1)

qui etablit une bijection de R R+ \{0}, on en deduit par equi-invariance du cas gaussien
que lestimateur du maximum de vraisemblance pour (a, d2 ) est


2
2
b
anmv , (db2n ) mv = eY n +sn /2 , (b
anmv )2 (esn 1) ,
P
P
o`
u Y n = n1 ni=1 Yi = n1 ni=1 log Xi et s2n = n1 (Yi Y n )2 .

4.4.2

Exemples de calcul

Exemple 4.11 (mod`ele gaussien standard). Lexperience statistique est engendree par
un n-echantillon de loi N (, 2 ), le param`etre est = (, 2 ) = R R+ \{0}. Une
mesure dominante est la mesure de Lebesgue sur R et on a alors

f (, x) = (2 2 )1/2 exp 21 2 (x )2
La log-vraisemblance associee secrit
2

`n (, ), X1 , . . . , Xn

n
n
1 X
2
= log(2 ) 2
(Xi )2 .
2
2
i=1

Lequation de vraisemblance secrit

`n (, 2 ), X1 , . . . , Xn

n
1 X
(Xi )
2
i=1

n
1 X

(Xi )2 ,

2 `n (, ), X1 , . . . , Xn = 2 2 + 2 4
i=1

Pour n 2, ceci nous fournit le point critique


n


1X
bn = X n ,
(Xi X n )2 .
n
i=1

On verifie ensuite que le point critique est lunique maximum global et donc bnrv = bnmv .

4.4 Maximum de vraisemblance

101

Exemple 4.12 (mod`ele de Bernoulli). Lexperience statistique est engendree par un


n-echantillon de loi de Bernoulli de param`etre = (0, 1). Donc


P X = x = x (1 )1x , x {0, 1}.
On peut prendre comme mesure dominante la mesure de comptage sur {0, 1} et dans
ce cas f (, x) = x (1 )1x . La vraisemblance secrit
Ln (, X1 , . . . , Xn ) =

n
Y

Xi (1 )1Xi

i=1
Pn

i=1

Xi

(1 )n

Pn

i=1

Xi

et la log-vraisemblance vaut
`n (, X1 , . . . , Xn ) = n X n log + n(1 X n ) log(1 ).
On a `n (, X1 , . . . , Xn ) = n X n 1 (n X n )(1 )1 = 0 si et seulement si = X n .
On verifie que = X n est un maximum global et donc bnmv = X n .
Exemple 4.13 (mod`ele de Laplace). Lexperience statistique est engendree par un nechantillon de loi de Laplace de param`etre = R, dont la densite par rapport `a la
mesure de Lebesgue est donnee par
f (, x) =

1
|x | 
exp
,
2

o`
u > 0 est connu. La fonction de vraisemblance secrit
Ln (, X1 , . . . , Xn ) = (2)n exp

n

1 X
Xi

i=1

et la log-vraisemblance vaut
`n (, X1 , . . . , Xn ) = n log(2)

n

1 X
Xi .

i=1

Maximiser Ln (, X1 , . . . , Xn ) revient `a minimiser la fonction ;


fonction est derivable presque partout, de derivee

n
X


Pn

i=1 Xi . Cette

sign(Xi ).

i=1

La derivee (definie presque partout) est constante par morceaux. Si n est impair, elle
sannule en un point unique X n+1  , o`
u X(1) . . . X(n) designe la statistique dordre
2

associee `
a lechantillon (voir Section 3.4.2 du Chapitre 3).
 Si n est pair, il y a une infinite


de solutions : tout point de lintervalle X n , X n
est un estimateur du maximum
2

2 +1

de vraisemblance. On retrouve la mediane empirique (voir Section 3.4.2 du Chapitre 3).

102

M
ethodes destimation en densit
e

Exemple 4.14 (mod`ele uniforme). Lexperience statistique est engendree par un nechantillon de loi uniforme sur [0, ], o`
u = R+ \{0} est le param`etre. Une mesure
dominante est la mesure de Lebesgue et la densite de la loi uniforme est donnee par
f (, x) =

1
1
(x).
[0,]

La fonction de vraisemblance secrit


n
1 Y
Ln (, X1 , . . . , Xn ) = n
10Xi

i=1
n
1X(n) ,

o`
u X(n) = maxi=1,...,n Xi . La valeur maximale de Ln (, X1 , . . . , Xn ) est obtenue pour
= X(n) et donc bnmv = X(n) . Par contre, la fonction de log-vraisemblance nest pas
definie pour toutes les valeurs de et nest pas derivable.
Exemple 4.15 (mod`ele de Cauchy). Lexperience statistique est engendree par un nechantillon de loi de Cauchy de param`etre = R, dont la densite par rapport `
a la
mesure de Lebesgue sur R est donnee par
f (, x) =

1
.
1 + (x )2

La fonction de vraisemblance secrit


Ln (, X1 , . . . , Xn ) = n

n
Y
i=1

1
,
1 + (Xi )2

et la log-vraisemblance vaut
n

`n (, X1 , . . . , Xn ) = n log


1X
log 1 + (Xi )2 ,
n
i=1

et lequation de vraisemblance equivaut `a resoudre


n
X
i=1

Xi
= 0.
1 + (Xi )2

(4.21)

Cette equation nadmet pas de solution explicite et admet en general plusieurs solutions.
Nous verrons plus tard comment traiter le comportement asymptotique dune solution
de (4.21) de facon indirecte.
Exemple 4.16 (absence destimateur du maximum de vraisemblance). Considerons le
mod`ele de translation par rapport `a la densite
|x|

e 2
, x R,
f0 (x) = p
2 2|x|

4.4 Maximum de vraisemblance

103

cest-`a-dire le mod`ele domine par la mesure de Lebesgue sur R de densites


f0 (x ), x R, = R .
La fonction de vraisemblance secrit
n
Y

Ln (, X1 , . . . , Xn ) =

f0 (Xi ).

i=1

On a limXi Ln (, X1 , . . . , Xn ) = + pour tout i = 1, . . . , n. Pour cette experience


statistique, il nexiste pas destimateur du maximum de vraisemblance.

4.4.3

Maximum de vraisemblance et M -estimation

Pr
eliminaire : une in
egalit
e de convexit
e
Lemme 4.4.1 (Inegalite dentropie). Soit une mesure -finie sur (R, B). Soient deux
densites de probabilite f, g : R R+ par rapport `
a , cest-`
a-dire verifiant
Z
Z
f (x)(dx) =
g(x)(dx) = 1.
R

Alors 10

Z
f (x) log f (x)(dx)

f (x) log g(x)(dx)


R

si les deux integrales sont finies, et legalite a lieu si et seulement si f = g -presque


partout.
Demonstration. On doit montrer
Z
f (x) log
R

g(x)
(dx) 0.
f (x)

Pour x 1, on a log(1 + x) x avec egalite si et seulement si x = 0, donc





g(x)
g(x)
g(x)
log
= log 1 +
1
1,
f (x)
f (x)
f (x)
avec egalite si et seulement si f (x) = g(x). Il vient


Z
Z
g(x)
g(x)
f (x) log
(dx)
f (x)
1 (dx)
f (x)
f (x)
R
ZR
Z
=
g(x)(dx)
f (x)(dx) = 0.
R

Si on na pas f = g -presque partout, alors linegalite est stricte.


10. Avec la convention

R
{x,f (x)=0}

f (x) log g(x)(dx) = 0 pour toute fonction g.

(4.22)

104

M
ethodes destimation en densit
e

Le maximum de vraisemblance est un M -estimateur


Replacons-nous dans le contexte de la Section 4.3.2. Posons
(a, x) = log f (a, x), a , x R .
Alors lestimateur du maximum de vraisemblance bnmv , sil existe, satisfait
bnmv arg max
a

n
X

(a, Xi )

i=1

et peut sinterpreter comme le M -estimateur associe `a la fonction . En effet, dapr`es le


Lemme 4.4.1, la valeur a = maximise
Z
Z
a;
(a, x) P (dx) =
log f (a, x)f (, x)(dx).
R

Ceci justifie a posteriori le principe du maximum de vraisemblance. Nous verrons au


Chapitre 6 quil y a beaucoup plus encore : le contraste (a, x) = log f (, x) est optimal
dans un certain sens.
Si pour tout la fonction ; log f (, x) est differentiable -presque partout,
alors on a aussi linterpretation du maximum de vraisemblance comme Z-estimateur
associe `
a la fonction
(, x) = log f (, x) =

f (, x)
, , x R
f (, x)

lorsque R, avec une generalisation immediate en dimension plus grande que 1.


En particulier, le comportement asymptotique de lestimateur du maximum de vraisemblance peut se deduire des Propositions 4.5 ou 4.6 si lon dispose de conditions de
regularite suffisantes. Nous reviendrons plus specifiquement sur la convergence de lestimateur du maximum de vraisemblance dans le Chapitre 6.

Chapitre 5

M
ethodes destimation pour le
mod`
ele de r
egression
5.1

Mod`
eles de r
egression

Dej`a rencontre dans les exemples 2, 4 et 6 du Chapitre 2, la regression tout comme


lechantillonnage est incontournable en statistique. Presque tous les mod`eles utilises
dans les applications peuvent se ramener `a des generalisations plus ou moins sophistiquees
de la regression. Dans ce chapitre, nous presentons bri`evement les resultats essentiels de
lestimation parametrique et en particulier, la methode des moindres carres.

5.1.1

Mod`
ele de r
egression `
a

design  al
eatoire

On part de lexperience statistique engendree par lobservation


(X 1 , Y1 ), . . . , (X n , Yn )
o`
u
Yi = r(, X i ) + i ,

(5.1)

pour i = 1, . . . , n. Les variables aleatoires (X i , Yi ) sont independantes, de meme loi, `a


valeurs dans Rk R, et Rd est le param`etre inconnu.
D
efinition 5.1. Le vecteur X i est appele vecteur de covariables
(ou de variables expli
catives 1 ) associe `
a lobservation Yi . La matrice X 1 X n est appelee  design  ou
plan dexperience associe au mod`ele.
1. Lemploi de termes differents et non synonymes pour designer les meme objets provient des utilisations tr`es differentes du mod`ele de regression dans les applications (econometrie, signal, biostatistique,
etc.).

106

M
ethodes destimation en r
egression

La fonction x ; r(, x), connue au param`etre pr`es, est appelee fonction de


regression.
Les variables aleatoires i sont appelees

bruits  ou innovations.

On note P = P (dx dy) la loi jointe des (X i , Yi ) definie sur Rk R et le but est
dinferer sur le param`etre . Lexperience statistique associee `a lobservation secrit :

 n

n
(k+1)n
(k+1)n
Edesign-al
=
R
,
B
,
P
,

ea

o`
u Pn designe le produit des lois P effectue n-fois. Notons que puisque les (X i , Yi ) sont
independantes et equidistribuees, les i le sont aussi.
Remarque 5.1. Les variables i  polluent  lobservation de la fonction dinteret r(, )
aux points (X i , Yi ). En labsence des i reconstruire r(, ) et donc se ram`enerait `
a un
probl`eme dinterpolation numerique.
Hypoth`
ese 5.1 (Identifiabilite,  design aleatoire ). Lapplication ; r(, ) est
injective. De plus, la loi des i admet un moment dordre 1 et les variables i verifient


E i | X i = 0.

(5.2)

Remarque 5.2. LHypoth`ese 5.1 garantit une bonne parametrisation de la fonction de


regression r(, ). Sans (5.2), on pourrait ecrire
Yi = r(, X i ) + g(, X i ) + ei ,






avec g(, X i ) = E i | X i et ei = i E i | X i qui verifie bien E ei | X i = 0
et g 6= 0, ce qui empeche de pouvoir identifier la fonction r(, ), meme lorsquelle est
reduite `
a une constante.
Remarque 5.3. Une mani`ere naturelle dobtenir la representation (5.1) si la loi des Yi
admet un moment dordre 1 est de definir, pour chaque , la fonction de regression
r(, ) : Rk R
en posant


r(, x) = E Yi | X i = x , x Rk .
Alors, on a


Yi = r(, X i ) + i , avec i = Yi E Yi | X i
et on verifie immediatement que lon a bien lHypoth`ese 5.2.

5.1 Mod`
eles de r
egression

5.1.2

107

R
eduction au cas dun

design  d
eterministe

Nous avons dej`


a discute du caract`ere aleatoire du  design , selon que le statisticien
choisit ou non le plan dexperience ou le  design . Nous allons faire dans ce cours
une hypoth`ese qui va nous permettre de nous ramener systematiquement au cas o`
u le
 design  est d
eterministe.
Hypoth`
ese 5.2 (Ancillarite des covariables). La loi PX des covariables ne depend pas
de .
Sous lHypoth`ese 5.2, la loi des covariables X i ne contient pas dinformation sur le
param`etre . On  g`ele  les X i dont le caract`ere aleatoire est ignore.
Mathematiquement, cela consiste `a etudier les proprietes statistiques des estimateurs
conditionnellement aux X i , et donc, de remplacer formellement les (X i , Yi ) par (xi , Yi )
o`
u les xi sont donnees, sans perdre de generalite.
On remplace desormais le mod`ele de regression `a  design aleatoire  de la Section
5.1.1 par le mod`ele de regression `a  design deterministe  : on observe lexperience
engendree par
(x1 , Y1 ), . . . , (xn , Yn ),
o`
u
Yi = r(, xi ) + i

(5.3)

pour i = 1, . . . , n. Les vecteurs xi Rk sont donnes, et les variables Yi sont independantes


mais pas identiquement distribuees : la loi de Yi depend maintenant de xi qui est fixe et
les i sont des bruits. Lexperience statistique secrit ici
n
Edesign-d
eter =



Rn , B n , Pn , ,

o`
u Pn est la loi des Yi donnees par (5.3). Lhypoth`ese didentifiabilite devient
Hypoth`
ese 5.3 (Identifiabilite,  design deterministe ). Lapplication ; r(, )
est injective. De plus, pour tout i = 1, . . . , n, les variables aleatoires i sont integrables et
 
En i = 0.

5.1.3

Calcul de la vraisemblance

On se place dans toute la suite du chapitre dans le mod`ele de regression `a


n
sign  deterministe, cest-`
a-dire nous considerons lexperience Edesign-d
eter .

de-

108

M
ethodes destimation en r
egression

Calcul de la loi de Yi
Nous faisons ici une hypoth`ese technique :
Hypoth`
ese 5.4. Les  bruits  i sont independants, identiquement distribues, et leur
loi commune P ne depend pas des xi et du param`etre .
Cette hypoth`ese est un peu superflue et nous nous en affranchirons dans certains
exemples. Elle a neanmoins lavantage de presenter des formules de calcul tr`es simples.
Proposition 5.1 (Loi des observations). Sous les Hypoth`eses 5.3 et 5.4, on a, pour toute
fonction test , et pour i = 1, . . . , n
Z



E (Yi ) =
z + r(, xi ) P (dz).
R

Si, de plus, la loi P des  bruits  admet une densite z ; g(z) par rapport a
` la
mesure de Lebesgue, on a, pour i = 1, . . . , n
Z



E (Yi ) =
(z)g z r(, xi ) dz.
R


En particulier, Yi admet une densite donnee par z ; g z r(, xi ) .
Demonstration. Les deux points de la proposition sont evidents : on a




E (Yi ) = E r(, xi ) + i
Z

=
z + r(, xi ) P (dz),
R

en appliquant la formule de la mesure image (1.1). Si, de plus, P admet une densite g,
cette derni`ere quantite secrit
Z
Z


z + r(, xi ) g(z)dz =
(z)g z r(, xi ) dz.
R

Remarque 5.4. LHypoth`ese 5.4 est superflue. Dans le cas general, si on note P,xi
la loi de , dependante de xi et , et si cette loi admet une densite z ; g(, xi , z) par
rapport `
a la mesure de Lebesgue, alors Yi aussi et sa densite est donnee par :

z ; g , xi , z r(, xi )

5.2 R
egression lin
eaire simple

109

Formule de vraisemblance
Les variables Yi etant independantes le calcul de leur loi jointe est immediat.
Proposition 5.2. Sous les Hypoth`eses 5.3, et 5.4, si la loi P des  bruits  admet une
densite z ; g(z) par rapport `
a la mesure de Lebesgue sur R, alors la loi de (Y1 , . . . , Yn )
admet une densite par rapport `
a la mesure de Lebesgue sur Rn donnee par
(z1 , . . . , zn ) ;

n
Y


g zi r(, xi ) .

i=1

Demonstration. Par construction,


 les variables aleatoires Y1 , . . . , Yn sont independantes,
de densite zi ; g zi r(, xi ) par rapport `a la mesure de Lebesgue.
On en deduit que si P admet une densite par rapport `a la mesure de Lebesgue, alors
n
ee par la mesure de Lebesgue dz1 dzn
lexperience statistique Edesign-d
eter est domin
sur Rn , et on a
n
Y

d Pn
(z1 , . . . , zn ) =
g zi r(, xi ) .
dz1 dzn
i=1

Corollaire 5.1 (formule de vraisemblance). Sous les Hypoth`eses 5.3, et 5.4, si la loi P
des  bruits  admet une densite z ; g(z) par rapport `
a la mesure de Lebesgue sur R,
alors la vraisemblance par rapport `
a la mesure de Lebesgue sur Rn est donnee par
n
 Y

Ln , Y1 , . . . , Yn =
g Yi r(, xi ) .
i=1

5.2
`a

R
egression lin
eaire simple

Pour les raisons invoquees plus haut, on se place desormais dans le mod`ele de regression
design  deterministe.

5.2.1

Droite de r
egression

D
efinition 5.2. On appelle mod`ele lineaire simple lexperience statistique engendree par
les variables aleatoires Yi `
a valeurs dans R (et par le  design  (x1 , . . . , xn )), o`
u
Yi = 0 + 1 xi + i , i = 1, . . . , n
et
Le param`etre inconnu est = (0 , 1 )T = R2 .

110
Les

M
ethodes destimation en r
egression

bruits  i satisfont
 
 
E i = 0, Var i2 = 2 > 0.

Dans ce contexte, lHypoth`ese 5.3 est automatiquement verifiee. La variance 2 des


 bruits  peut elle-m
eme etre inconnue et etre consideree comme un param`etre du
mod`ele. On parle de mod`ele de regression simple `a variance connue ou inconnue. Les
param`etres 0 et 1 sappellent respectivement  ordonnee `a lorigine  et  coefficient
directeur  de la droite dequation
y = r(, x) = 0 + 1 x.
Si bn est un estimateur de , on note x ; r(bn , x) lestimateur de la fonction de regression
(ici, une droite) associee au mod`ele lineaire simple.
D
efinition 5.3. Si bn est un estimateur de dans le mod`ele lineaire simple, on appelle
b
Yi = r(bn , xi ) la valeur de Yi predite par lestimateur et bi = Yi Ybi son residu. On
appelle
n
n
X
X
b2=
kk
bi2 =
(Ybi Yi )2
i=1

i=1

la somme residuelle des carres (RSS, Residual Sum of Squares)


La somme residuelle des carres mesure lerreur (au sens de la norme euclidienne) entre
les observations Yi et les observations predites par lestimateur r(bn , xi ).
D
efinition 5.4. Lestimateur des moindres carres dans le mod`ele lineaire simple (`
a
variance connue) est lestimateur bnmc qui minimise la somme residuelle des carres :
n
X

n
X
2
2
mc
b
Yi r(n , xi ) = min
Yi r(, xi ) ,
R2

i=1

i=1

o`
u linfimum est pris sur lensemble des estimateurs possibles de construits `
a partir des
observations Yi , i = 1, . . . , n.

mc ,
b mc T , avec
Proposition 5.3. On a bnmc = bn,0
n,1
mc
mc
bn,0
= Y n bn,1
xn ,

et
mc
bn,1

Pn

=
=

o`
u xn =

1
n

Pn

i=1 xi

(x xn )(Yi Y n )
i=1
Pni
(xi xn )2
Pn i=1
Pn
xi (Yi Y n )
(xi xn )Yi
i=1
Pn
= Pi=1
,
n
2
2
i=1 (xi xn )
i=1 (xi xn )

et Y n =

1
n

Pn

i=1 Yi .

5.2 R
egression lin
eaire simple

111

Demonstration. En anticipant, on peut appliquer la Proposition 5.6 ou bien retrouver


directement le resultat : on cherche les points critiques de la fonction
(0 , 1 ) ; Ln (0 , 1 ) =

n
X

2
Yi 0 1 xi .

i=1

On a

P
0 Ln (0 , 1 ) = 2 Pni=1 (Yi 0 1 xi )
1 Ln (0 , 1 ) = 2 ni=1 xi (Yi 0 1 xi ),

et donc Ln (0 , 1 ) = 0 si et seulement si
 Pn
P
Pi=1 Yi + n0 +
1 ni=1 xi P
= 0
P
ni=1 xi Yi + 0 ni=1 xi + 1 ni=1 x2i = 0,

mc ,
b mc par substitution.
ce qui fournit 0 = Y n 1 xn en isolant 0 , puis (0 , 1 ) = bn,0
n,1
La fonction Ln est quadratique et tend vers + en linfini, lunique point critique est
bien un minimum global.

Cette preuve elementaire saffranchit dhypoth`eses probabilistes sur le mod`ele : le


resultat de la Propostion 5.3 ne necessite aucune propriete sur les i . Lestimation de 2
est en revanche plus subtile. On peut penser `a prendre la moyenne empirique du carre
des residus
n
n
2
1 X b2
1X

bn2 =
n =
Yi r(bnmc , xi ) ,
n
n
i=1

i=1

mais les variables aleatoires bn2 ne sont pas independantes, puisque bnmc fait intervenir
toutes les variables Yi .
Le resultat suivant donne le comportement de la moyenne et de la variance de b mc .
n

Proposition 5.4. Dans le mod`ele de regression lineaire simple, lestimateur des moindres
carres bnmc verifie


T
E bnmc = 0 , 1 ,
et la matrice de variance-covariance de bnmc est donnee par

n
1X 2
xi xn
 mc 
 mc

2
n i=1

mc
T
b
b
b
n
= E (n )(n ) = 2
,
nsn

xn
1
o`
u

s2n

1X
=
(xi xn )2 .
n
i=1

112

M
ethodes destimation en r
egression

Demonstration. Comme pour la preuve de la Proposition 5.3 on peut appliquer en anticipant la Proposition 5.8 ou bien demontrer le resultat directement.
Remarque 5.5. Sans hypoth`ese supplementaire sur la loi des innovations, il est difficile
de preciser ces resultats.

5.2.2

Moindres carr
es et maximum de vraisemblance

Nous allons faire une hypoth`ese supplementaire sur la distribution des


qui nous permettra de construire un estimateur de 2 .
Hypoth`
ese 5.5. Les

bruits  i

bruits  i sont independants, de meme loi N (0, 2 ).

Sous cette hypoth`ese forte qui renforce lHypoth`ese 5.4, lestimateur du maximum de
vraisemblance fournit un estimateur du param`etre (0 , 1 , 2 ) dont les deux premi`eres
composantes concident avec lestimateur des moindres carres de la Proposition 5.3.
Proposition 5.5. Sous lHypoth`ese 5.5, lestimateur du maximum de vraisemblance
mv b mv
bnmv = bn,0
, n,1 ,
bn2

est bien defini. On a




mv b mv
mc b mc
bn,0
, n,1 = bn,0
, n,1 ,
et

bn2 =

1 X b 2
i , o`
u bi = Yi r(bnmc , xi ).
n
i=1

Demonstration. Dapr`es le Corollaire 5.1, si g (x) = (2 2 )1/2 exp(x2 /2 2 ) designe la


densite de la loi N (0, 2 ), la vraisemblance de lexperience statistique est donnee par
n
 Y

Ln 0 , 1 , 2 , Y1 , . . . , Yn =
g Yi r(, xi ) ,
i=1

et la log-vraisemblance vaut alors


n
1 X
n
(Yi 0 1 xi )2 .
`n (0 , 1 , 2 , Y1 , . . . , Yn ) = log 2 2
2
2
i=1

On a
2 `n (0 , 1 , 2 , Y1 , . . . , Yn ) =

n
n
1 X
+
(Yi 0 1 xi )2
2 2 2 4
i=1

5.3 R
egression lin
eaire multiple

113

et ce terme est nul si et seulement si


n

2 =

1X
(Yi 0 1 xi )2 .
n
i=1

Par ailleurs, le calcul de 0 `n (0 , 1 , 2 , Y1 , . . . , Yn ) et 1 `n (0 , 1 , 2 , Y1 , . . . , Yn ) m`ene


`a une constante multiplicative pr`es `a celui des fonctions i Ln (0 , 1 , Y1 , . . . , Yn ), pour
i = 0, 1 de la preuve de la Proposition 5.3. On en deduit le point annonce bnmv comme
lunique point critique de la fonction de vraisemblance, et on verifie que cest bien un
maximum global.

5.3
5.3.1

R
egression lin
eaire multiple
Mod`
ele lin
eaire

On generalise le mod`ele de regression lineaire simple en autorisant des points de


design  vectoriels. On consid`ere lexperience statistique engendree par lobservation
de
(x1 , Y1 ), . . . , (xn , Yn )


avec
Yi = T xi +i , i = 1, . . . , n

(5.4)

o`
u les Yi sont `
a valeurs dans R, les variables explicatives xi sont `a valeurs dans Rk ,
et le param`etre = Rd est k-dimensionnel, cest-`a-dire d = k. Matriciellement, si
lon designe par M la matrice dont les colonnes sont les composantes des vecteurs xi ,
cest-`a-dire, si lon note xi = (xi,1 , . . . , xi,k )T ,

M=

x1,1 x1,2 . . . x1,k



xi,1 xi,2 . . . xi,k

xn,1 xn,2 . . . xn,k

et la representation (5.4) secrit de la meme mani`ere


Y = M + ,

(5.5)

o`
u Y = (Y1 , . . . , Yn )T et = (1 , . . . , n )T . Comme pour le mod`ele de regression lineaire
simple, nous faisons une hypoth`ese sur le  bruit  :
 


E = 0, E T = 2 Idn .

(5.6)

114

5.3.2

M
ethodes destimation en r
egression

Estimateur des moindres carr


es

Dans ce contexte, on cherche lestimateur des moindres carres pour , cest-`


a-dire
lestimateur bnmc qui minimise la somme du carre des residus :
n
X

Yi (bnmc )T xi

2

= min

n
X

i=1

Yi T xi

2

i=1

Il existe toujours une solution `a ce probl`eme de minimisation mais elle nest pas necessairement
unique.
D
efinition 5.5. On appelle estimateur des moindres carres tout estimateur bnmc satisfaisant
n
X
2
bnmc arg min
Yi T xi .
Rk

i=1

Une condition suffisante dunicite de lestimateur des moindres carres est la suivante :
Proposition 5.6. On suppose la matrice MT M inversible. Alors lestimateur des moindres
carres est unique et secrit
1 T
bnmc = MT M
M Y.
Nous donnons deux preuves et deux interpretations de ce resultat :
M
ethode analytique
Demonstration. Le point bnmc est necessairement un point critique de lapplication
; h() =

n
X

Yi T xi

2

i=1

cest-`
a-dire il est solution du syst`eme de k equations

j h bnmc = 0,

j = 1, . . . , k,

ce qui secrit
2

n
X

xi Yi bnmc

T


xi = 0

i=1

ou encore, sous forme matricielle :


MT M bnmc = MT Y.

(5.7)

5.3 R
egression lin
eaire multiple

115

Lequation (5.7) est un syst`eme de k equations qui a une solution unique d`es lors que
MT M est inversible, donnee par
1 T
bnmc = MT M
M Y.
La fonction ; h() est convexe et positive, donc la solution bnmc est un minimum
global.
D
efinition 5.6. Lequation (5.7) est appelee syst`eme dequations normales pour la methode
des moindres carres.
Proposition 5.7. La matrice MT M est (symetrique) positive. Elle est definie positive
si et seulement si rang(M) = k.
Demonstration. On a, pour v Rk

v T MT M v = w T w 0
o`
u lon a pose implicitement w = M v. Le cas degalite est verifie si et seulement si
w = 0, cest-`
a-dire, M v = 0. Si rang(M) < k, alors il existe v 6= 0 tel que M v = 0 et
dans ce cas, MT M nest pas strictement positive. Reciproquement,
si MT M nest pas

strictement positive, alors il existe v 6= 0 tel que v T MT M v = 0, et donc M v = 0 do`
u
rang(M) < k.
Remarque 5.6. En consequence, si la taille de lechantillon est plus petite que la
dimension du param`etre , cest-`
a-dire si n < k, la matrice MT M est degeneree.
M
ethode g
eom
etrique
Deuxi`eme demonstration de la Proposition 5.6. Soit V limage de Rn par lapplication
lineaire de Rn dans Rk de matrice M, cest-`a-dire


V = v Rn , v = M , Rk .
Alors, pour tout y Rn ,
min ky M k2 = min ky vk2 ,

Rk

vV

o`
u kvk2 = v T v designe le carre de la norme euclidienne. Notons que M est de rang k si
et seulement si la dimension de V est k. Dapr`es la Proposition 5.7, puisque MT M est
supposee inversible, on a bien dim V = k. Alors, si PV designe la matrice du projecteur
orthogonal sur V dans Rn , on a rang(PV ) = k et lestimateur des moindres carres verifie
M bnmc = PV Y,

(5.8)

116

M
ethodes destimation en r
egression

ce qui se traduit par


hY PV Y, vi = 0, pour tout v V,
n

o`
u, pour u, v R , on note hu, vi = uT v le produit scalaire euclidien. En appliquant
(5.8), lequation precedente secrit encore pour tout v V
hM bnmc , vi = hY, vi,
cest-`
a-dire, pour tout Rk
hM bnmc , M i = hY, M i,
soit, pour tout Rk

hMT M bnmc , i = hMT Y, i.


1 T
M Y.
Puisque MT M est inversible, on en deduit bnmc = MT M
Remarque 5.7. A ce stade de letude, comme pour le cas de la regression lineaire
simple, on na pas besoin de faire dhypoth`ese probabiliste sur le mod`ele. La methode des
moindres carres depasse le cadre de lestimation statistique et apparat plus generalement
comme une methode de  regularisation  en analyse numerique.

5.3.3

Propri
et
es de la m
ethode des moindres carr
es

Proposition 5.8. Supposons la matrice MT M inversible, et que le


On a


E bnmc = ,

 satisfait (5.6).

et la matrice de variance-covariance de bnmc est donnee par






1
bnmc = E (bnmc )(bnmc )T = 2 MT M
.
Demonstration. On a
1 T
1 T

1 T
bnmc = MT M
M Y = MT M
M M + = + MT M
M ,
 
do`
u la premi`ere partie de la proposition, puisque E = 0. Puis,


E (bnmc )(bnmc )T

1 T
1 
M T M MT M
= E MT M
1 T


1
= MT M
M E T M MT M
.
 T
Puisque E = 2 Idn , le dernier terme devient
1
1
1 T 2
M M MT M
= 2 MT M
.
MT M

5.3 R
egression lin
eaire multiple

117

Proposition 5.9 (Estimation de la variance 2 ). On suppose la matrice MT M inversible,


et que le  bruit  satisfait (5.6). Alors lestimateur

bn2

n
T 2
kY M bnmc k2
1 X
=
=
Yi bnmc xi
nk
nk
i=1

verifie
 2
E
bn = 2 .
Demonstration. On a la decomposition
Y M bnmc = M( bnmc ) +
1 T
= M MT M
M +
= (In PV ),
o`
u V Rn est limage de Rk par lapplication lineaire de matrice M comme precedemment.
Par consequent



T
 
E kY M bnmc k2 = E T In PV
In PV

2 
= E T In PV

 
= E T In PV ,
o`
u lon utilise le fait que la matrice In PV est symetrique et idempotente. Il vient

 

 
E T In PV = E trace T In PV



= E trace In PV T




= trace In PV E T
= 2 (n k).

5.3.4

R
egression lin
eaire multiple gaussienne

Loi des estimateurs


On fait lhypoth`ese supplementaire que est un vecteur gaussien, dont les composantes sont independantes, ce qui revient exactement `a lHypoth`ese 5.5. On a alors la loi
explicite de lestimateur des moindres carres.
Proposition 5.10. On se place sous lHypoth`ese 5.5 et on suppose que la matrice MT M
inversible.

118

M
ethodes destimation en r
egression

(i) lestimateur des moindres carres bnmc est un vecteur gaussien k-dimensionnel de
1
moyenne et de matrice de variance-covariance 2 MT M
,
(ii) les vecteurs aleatoires bnmc et Y M bnmc sont independants (et de meme, les
vecteurs aleatoires M(bnmc ) et Y M bnmc sont independants),
(iii) la variable aleatoire 2 kY M bnmc k2 suit la loi 2 (n k) du 2 `
a n k degres
de liberte, et 2 k M(b mc )k2 suit la loi 2 (k) du 2 `
a k degres de liberte.
n

Demonstration. On ecrit, comme pour la preuve de la Proposition 5.8


1 T
bnmc = + MT M
M ,
et on en deduit immediatement le point (i) : bnmc est un vecteur gaussien comme transformation affine de qui est un vecteur gaussien ; la moyenne de bnmc est et sa matrice
1
de variance-covariance 2 MT M
dapr`es la Proposition 5.8.
On a aussi
Y M bnmc = (Idn PV )
avec les notations de la preuve de la Proposition 5.9. Donc (bnmc , YM bnmc ) est un vecteur
gaussien de Rk+n comme transformation affine du vecteur gaussien . Pour montrer
lindependance dans (ii), on applique la Proposition 1.6. Il vient




bnmc , Y M bnmc = E (bnmc )(Y M bnmc )T


= E (MT M)1 MT T (Idn PV )
= 0,

1 T
car PV secrit PV = M MT M
M . Donc bnmc et Y M bnmc sont independants, et
par suite M(bnmc ) et Y M bnmc sont independants.
Le point (iii) est une application de la Proposition 1.1 (Cochran) : le vecteur 0 = 1
est gaussien de matrice de variance-covariance lidentite sur Rn . De plus
Y M bnmc = (Idn PV ) 0 ,

M(bnmc ) = PV 0

et les matrices PV et Idn PV sont idempotentes, voir la preuve de la Proposition 5.8,


et on a (Idn PV )PV = 0, avec Rang(PV ) = k et Rang(Idn PV ) = n k.
Remarque sur la loi des estimateurs et lapproche asymptotique
Dans le cas o`
u est un vecteur gaussien, les lois de bnmc et
bn2 sont explicites, `
a n fixe.
Il sagit dun resultat exact sur les lois des estimateurs dans un cadre non-asymptotique 2 .
2. On dit parfois

a
` distance finie .

5.4 R
egression non-lin
eaire

119

Ceci nest plus vrai si la loi des innovations nest pas gaussienne. Dans ce cas, on essaye
de se ramener au cas gaussien par des arguments asymptotiques.
Par exemple, dans le cas le plus simple o`
u lon observe
Yi = + i , i = 1, . . . , m
o`
u les innovations i sont independantes, identiquement distribuees mais pas necessairement
gaussiennes de moyenne 0 et de variance 2 > 0 et = R. Alors, on observe aussi

Y m = + e(m) ,
m
o`
u e(m) =

1
m

Pm

i=1 i

est une variable  asymptotiquement gaussienne  par le theor`eme

d
central limite, dans le sens o`
u e(m) N (0, 1) dans la limite m . On est donc ramene
au cas de la regression gaussienne, mais dans un cadre degenere : ici, on a k = d = 1,
2
M = 1 et 2 = m et n = 1 (une seule observation). Le cas dune dimension plus
grande et dun  design  non-degenere est plus delicat `a traiter : on peut chercher `a
 regrouper  les observations en faisant des moyennes, de sorte de se ramener au cas
gaussien via le theor`eme central-limite. Nous ne developpons pas ce point.

En conclusion, lobtention de lois explicites pour lestimateur des moindres carres dans
un cadre non-asymptotique est un fait remarquable, mais `a considerer avec precaution
du point de vue de la modelisation : lhypoth`ese de gaussianite sur les innovations est en
fait elle-meme de nature asymptotique.

5.4
5.4.1

R
egression non-lin
eaire
Moindres carr
es non-lin
eaires et M -estimation

Situation
On se place dans le contexte general de la Section 5.1.2. On fait lHypoth`ese 5.3 et
on observe
(x1 , Y1 , . . . , xn , Yn ),
o`
u
Yi = r(, xi ) + i , i = 1, . . . , n,

(5.9)

o`
u les xi Rk sont donnes et Rd est le param`etre inconnu. Contrairement `a la
section precedente, on ne suppose plus r(, ) lineaire, et il ny a donc plus de raison de
supposer d = k.

120

M
ethodes destimation en r
egression

Vraisemblance et moindres carr


es
Imposons pour simplifier lhypoth`ese de gaussianite 5.5 sur les innovations i , qui sont
donc independantes, de meme loi N (0, 2 ). Dans ce cas, la log-vraisemblance secrit
n
2
n
1 X
`n (, Y1 , . . . , Yn ) = log(2 2 ) 2
Yi r(, xi ) .
2
2
i=1

Le calcul de lestimateur du maximum de vraisemblance bnmv de consiste `a minimiser


la fonction
X
2
;
Yi r(, xi ) .
i=1

Dans le cas du mod`ele lineaire de la Section 5.2, si lon postule la forme r(, x) = T x
avec d = k, on retrouve aussi lestimateur des moindres carres. De mani`ere generale, sans
hypoth`ese particuli`ere sur les innovations , on peut poser la definition
D
efinition 5.7 (Estimateur des moindres carres non-lineaires). Etant donne le mod`ele
de regression non-lineaire (5.9), on appelle estimateur des moindres carres non-lineaires,
sil existe, tout estimateur bnmcnl satisfaisant
n
X

n
X
2
2
Yi r(bnmcnl , xi ) = inf
Yi r(, xi ) .

i=1

i=1

Cette definition se generalise tr`es naturellement `a une notion de M -estimateur de la


facon suivante. On se donne une application
: Rk R R
jouant le meme r
ole que lapplication (, ) de la Section 4.3 du Chapitre 4 pour lestimation dans le mod`ele de densite, `a ceci pr`es quon lautorise desormais `a dependre de
xi .
D
efinition 5.8. On appelle M -estimateur associe `
a la fonction de contraste tout esb
timateur n satisfaisant
n
X
i=1

(bn , xi , Yi ) = max

n
X

(, xi , Yi ).

i=1

Dans ce contexte, lestimateur des moindres carres non-lineaires apparat comme le


M -estimateur associe `
a la fonction de contraste
2
a ; (a, x, y) = y r(a, x) , a .
Une etude systematique des proprietes asymptotiques des M -estimateurs pour le mod`ele
de la regression se fait essentiellement de la meme mani`ere que pour le mod`ele de densite
du Chapitre 4, mais les aspects techniques sont plus developpes. Nous developpons sans
entrer dans les details quelques exemples.

5.4 R
egression non-lin
eaire

5.4.2

121

Reconstruction dun signal


echantillonn
e

On consid`ere lexperience statistique engendree par


Yi = r(, i/n) + i ,

i = 1, . . . , n

 
o`
u les i = i sont independants et identiquement distribues, centres et E 2i = 1. La
fonction r(, ) est connue
au param`etre Rd pr`es. Ici, le  design  est donc

1/n, . . . , (n 1)/n, 1 .
On suppose que la fonction (, x) ; r(, x) est reguli`ere. En particulier, x ; r(, x)
est au moins continue. Lestimateur des moindres carres non-lineaires, sil est bien defini,
verifie
n
X
2
bnmcnl = arg min
Yi r(, i/n) .

i=1

Indiquons bri`evement comment generaliser les resultats de la Section 4.3.3 sans faire
dhypoth`eses precises.
Consistance
Posons, pour a R (traitons le cas unidimensionnel pour simplifier),
n

2
1X
Yi r(a, i/n) .
Mn (a) =
n
i=1

On ecrit
n
2
1X
Mn (a) =
i + r(, i/n) r(a, i/n)
n
i=1

n
n
n
2 2 X

1X
2 X
r(, i/n) r(a, i/n) +
2i
r(, i/n) r(a, i/n) i ,
=
n
n
n
i=1

i=1

i=1

o`
u la loi des i sous P est centree et reduite. Par continuite de x ; r(, x), on a la
convergence
n

2
1X
r(, i/n) r(a, i/n)
n
i=1

2
r(, x) r(a, x) dx.

Par la loi des grands nombres, on a


n
2 X 2 P 2
i ,
n
i=1

122

M
ethodes destimation en r
egression

et, par un simple calcul de variance,


n
 P
2 X
r(, i/n) r(a, i/n) i
0.
n
i=1

Donc
P

Mn (a)
M (a, ) =

2
r(, x) r(a, x) dx + 2 .

La suite de letude consiste `a faire des hypoth`eses didentifiabilite adequates sur la fonction (, x) ; r(, x), de sorte que a ; M (a, ) admette un minimum unique en a = ,
et on peut alors generaliser la Proposition 4.3, mais une telle etude depasse un peu le
cadre du cours.

Loi limite et normalit


e asymptotique
Avec suffisamment de regularite, on peut faire un developpement de Mn0 (a) au voisinage de bnmc . On a
Mn0 (bnmcnl ) = 0 Mn0 () + ( bnmcnl )Mn00 (),
do`
u

nMn0 ()
mcnl
b
n(n )
.
Mn00 ()

On a

nMn0 ()


2 X
=
Yi r(, i/n) r(, i/n)
n
i=1

n
2 X
i r(, i/n),
=
n
i=1

do`
u
E


nMn0 () = 0,

et
n

 4 2 X
E nMn0 ()2 =
r(, i/n)2 2i
n
i=1
Z 1
4 2
r(, x)2 dx.
0

(5.10)

5.4 R
egression non-lin
eaire

123


1/2 (n)

d
En re-ecrivant nMn0 () = E nMn0 ()2
, on peut montrer 3 que (n) N (0, 1)
en loi sous P . On a aussi
n

2X
r(, i/n)2 + i 2 r(, i/n)
n
i=1
Z 1
P
2
r(, x)2 dx.

Mn00 () =

On en deduit, avec suffisamment de regularite et en controlant le reste dans lapproximation (5.10),




 d

2
n bnmcnl N 0, R 1
.
2
0 r(, x) dx

5.4.3

Mod`
ele de Poisson conditionnel

On observe
(x1 , Y1 ), . . . , (xn , Yn )
o`
u les xi Rk sont donnes et les Yi `a valeurs enti`eres. On suppose que Yi suit la loi de
Poisson de param`etre

i () = exp xTi , i = 1, . . . , n
o`
u = Rk est le param`etre inconnu.
Si lon consid`ere le mod`ele de regression `a  design  aleatoire associe, alors on observe
un n-echantillon
(X 1 , Y1 ), . . . , (X n , Yn )
o`
u les (X i , Yi ) ont la meme loi que (X, Y ) Rk R. La loi de (X, Y ) est decrite de la
4 `
facon suivante : conditionnellement
a X = x, la variable Y suit une loi de Poisson de

T
param`etre exp x . Puis, on doit specifier 5 la loi de X. En ecrivant
 

Yi = exp xTi + Yi exp xTi ,
on obtient bien la representation Yi = r(, xi ) + i , avec

r(, xi ) = exp xTi
et

i = Yi exp xTi .
3. Il faut disposer dun theor`eme central-limite pour des variables aleatoires independantes nonequidistribuees.
4. Do`
u la terminologie de mod`ele de Poisson conditionnel.
5. Ce que nous ne ferons jamais ; nous supposerons simplement que la loi de X ne depend pas de .

124

M
ethodes destimation en r
egression

 
On a bien E i = 0 en utilisant que lesperance dune variable aleatoire de Poisson de
param`etre est egale `
a . La vraisemblance du mod`ele secrit
Ln (, Y1 , . . . , Yn ) =

n
Y

ei ()

i=1

do`
u
log Ln (, Y1 , . . . , Yn ) =

n
X

i ()Yi
Yi !

n
n
X
 X
exp xTi +
Yi xTi
log(Yi !),

i=1

i=1

i=1

et les equations de vraisemblance secrivent

n
X

n
 X
xij exp xTi +
Yi xij = 0,

i=1

5.4.4

j = 1, . . . , k.

i=1

Mod`
eles `
a r
eponse binaire

Contexte g
en
eral
Tr`es utilises en pratique, les mod`eles binaires correspondent `a lobservation de
(x1 , Y1 ), . . . , (xn , Yn )
o`
u xi Rk est un ensemble de caracteristiques de lindividu i qui est de type Yi {0, 1}.
Par souci dhomogeneite avec la litterature, on se place sans perdre de generalite
dans le mod`ele `
a  design  aleatoire correspondant, cest-`a-dire que lon consid`ere les
xi comme des realisations de variables aleatoires X i . En ecrivant

Yi = pxi () + Yi pxi () ,
avec




pxi () = E Yi | X i = xi = P Yi = 1 | X i = xi ,
on obtient la representation
Yi = r(, xi ) + i ,
avec
r(, xi ) = pxi ()
et
i = Yi pxi (),


et on a bien E i | X i = xi = 0.

5.4 R
egression non-lin
eaire

125

R
egression logistique
La regression logistique correspond `a la modelisation


exp xTi
 = xTi ,
pxi () =
T
1 + exp xi
o`
u (x) = ex /(1 + ex ) est la fonction logistique.
En particulier, on peut expliciter la vraisemblance du mod`ele
Ln (, Y1 , . . . , Yn ) =

n
Y

pxi ()Yi 1 pxi ()

1Yi

i=1

que lon peut maximiser numeriquement.


Une representation equivalente est celle des mod`eles dits latents, o`
u lon observe
, Y ? = xT + Ui ,
i
i

Yi = 1

Yi? >0

(5.11)

o`
u les Yi sont des variables latentes, cest-`a-dire que lon nobserve pas, et Ui est une
variable ayant pour fonction de repartition
F (x) =

1
.
1 + ex

En effet,




P Yi? > 0 | X i = xi = P xTi + Ui > 0 | X i = xi


= 1 P Ui xTi

= 1 F xTi

exp xTi
.
=
1 + exp xTi
Mod`
eles Probit
Le mod`ele probit est proche de la regression logistique. Il sagit simplement de remplacer dans la representation (5.11) la variable Ui qui a pour fonction de repartition
F (x) = 1/(1 + ex ) par une variable aleatoire Ui gaussienne, centree.
Loi logistique et

odd-ratios

La loi logistique de fonction de repartition F (x) = 1/(1 + ex ) poss`ede des queues


de distribution plus epaisses que la loi gaussienne, et sa fonction de repartition est plus
simple `a manipuler numeriquement.

126

M
ethodes destimation en r
egression

Une specificite du mod`ele logistique est linterpretation du mod`ele en terme de risque.


Imaginons que Yi = 1 signifie la presence dune maladie chez lindividu i (et Yi = 0 signifie
labsence de la maladie). Les xi sont un ensemble de facteurs (qualitatifs ou marqueurs
biologiques) susceptibles  dexpliquer  Yi . Le risque (odd-ratio) de lindividu i est defini
comme


P Yi = 1 | X i = xi


Ri =
P Yi = 0 | X i = xi


et Ri est proche de P Yi = 1 | X i = xi (`a lordre 1) lorsque la probabilite de presence
de la maladie est faible. Dans le cas de la regression logistique, on a


1
P Yi = 1 | X i = xi
1 + exp( xTi )

=


P Yi = 0 | X i = xi
exp xTi 1 + exp( xTi )

= exp xTi .
Si une des variables explicatives xij est qualitative, pour un j {1, . . . , k} cest-`
a-dire `
a
valeurs dans {0, 1} (par exemple, une reponse de type  oui ou non  `a un questionnaire
concernant le patient), on note
(j)

xi

= (xi1 , . . . , xi,j1 , xi,j+1 , . . . , xik )T ,

cest-`
a-dire xi prive de sa j-i`eme composante. Posons


(j)
(j)
P Yi = 1 | X i
= xi , Xj = 1
Ri (Xj = 1) =


(j)
(j)
P Yi = 0 | X i
= xi , Xj = 1
et



(j)
(j)
P Yi = 1 | X i
= xi , Xj = 0
Ri (Xj = 0) =

.
(j)
(j)
P Yi = 0 | X i
= xi , Xj = 0

Alors, on a
 Ri (Xj = 1)
exp j xij =
.
Ri (Xj = 0)

Cette identite peut sinterpreter de la mani`ere suivante : le coefficient exp j xij est egal
au rapport des risques correspondant `a Xj = 1 et Xj = 0. Ce rapport est independant
(j)
de la valeur de xi .

Chapitre 6

Information et th
eorie
asymptotique
6.1

Introduction

Situation
Nous nous placons dans le contexte des deux chapitres precedents : on cherche `a
estimer un param`etre d -dimensionnel Rd dans les deux situations suivantes
1. Pour le mod`ele de la densite, on observe un n-echantillon
(X1 , . . . , Xn )
de variables
aleatoires

reelles. Les Xi suivent la loi P parmi une famille de probabilites P , donnees.
2. Pour le mod`ele de regression `a  design deterministe , on observe n vecteurs de
donnees
(x1 , Y1 ), . . . , (xn , Yn )
admettant la representation
Yi = r(, xi ) + i , i = 1, . . . , n.
La forme de la fonction de regression r(, ) est connue au param`etre pr`es, et
les i sont des innovations ou des  bruits  centres sur lesquels on fait un jeu
dhypoth`eses.
En forcant un peu le trait, nous pouvons resumer les methodes destimation des chapitres precedents `
a la construction destimateurs bases sur la maximisation dun crit`ere :
pour la densite,
n
X
bn arg max
(, Xi ),

i=1

128

Information statistique et th
eorie asymptotique

o`
u
:RR
est la fonction de constraste definissant lestimateur. Elle est choisie par le statisticien.
Pour la regression `
a  design  deterministe,
bn arg max

n
X

(, xi , Yi ),

i=1

o`
u maintenant la fonction de contraste
: Rk R R
prend aussi comme argument les valeurs des points du

design  observes xi .

Loi limite dun estimateur


Sous des hypoth`eses de regularite, le comportement asymptotique de bn prend la
forme (en dimension d = 1)
 d


n bn N 0, v ()

(6.1)

o`
u v () > 0 est la variance asymptotique de lestimateur, qui depend en general de
et bien s
ur du choix de la fonction de contraste .
La version multidimensionnelle de (6.1) secrit
 d


n bn N 0, V ()

(6.2)

avec V () une matrice symetrique, et doit se comprendre comme la convergence du




vecteur aleatoire n bn en loi vers un vecteur gaussien de Rd , centre, de matrice


de variance covariance V () definie positive.
Un resultat de type (6.1) ou (6.2) nous apprend deux choses :
1. Le  bon  ordre de grandeur de lerreur bn est 1n . En effet, la convergence

vers une loi non-degeneree 1 avec la normalisation n implique que si lon choisit
une autre normalisation n , alors lerreur normalisee
n (bn )

tend vers 0 en probabilite si n / n 0 et

explose 2

si n / n .

1. Cest-`
a-dire une loi gaussienne de variance finie v () non nulle ou de matrice de variance-covariance
V () non singuli`ere.


bn )| M > 0.
2. Dans le sens suivant : M > 0, lim inf n P |n (

6.2 Comparaison destimateurs

129

2. La dispersion de lerreur normalisee dans la bonne echelle


variance v () (ou V ()).

n est gaussienne, de

Ces deux informations apparaissent `a deux niveaux compl`etement differents, mais sont
de meme importance et guideront les questions que nous aborderons dans ce chapitre :

la vitesse destimation n = n est-elle optimale ? Dans quel sens ? Quelles conditions simples sur la famille de lois {P , } garantissent cette optimalite ? Sinon,
quelles vitesses peut-on trouver en general ?
au sein dune classe destimateurs satisfaisant (6.1) (ou (6.2) dans le cas o`
u le
param`etre est multidimensionnel), comment choisir un membre optimal, et dans
quel sens ? Par exemple, comment choisir la  meilleure  fonction ?
Un programme ainsi enonce est trop ambitieux. Nous donnerons neanmoins des
elements de reponse `
a chacune
enoncees ci-dessus. Sous des hypoth`eses
 des questions

de regularite sur la famille P , , on peut definir une quantite dinformation
linformation de Fisher associee `a lexperience statistique. Lestimateur du maximum de vraisemblance est asymptotiquement normal de variance linverse de linformation de Fisher. Cette variance est minimale parmi la classe des Z-estimateurs (ou
M -estimateurs reguliers) et ce resultat nous fournira une notion doptimalite associee
aux mod`eles reguliers.
Ce nest que le premier pas vers une theorie plus generale de lestimation optimale
dans les mod`eles dits reguliers, qui depasse le cadre de ce cours. Pour des developpements
plus complets, on pourra consulter V. Genon-Catalot et D. Picard [2] ou van der Vaart
[10].

6.2

Comparaison destimateurs

n
1, on se donne E une suite dexperiences associee `a la famille de probabilites
 nPour n
P , .

Placons-nous en dimension 1 pour simplifier. Etant donnees deux (suites d) estimateurs


bn,1 et bn,2
lequel est preferable ? Si lon dispose dun resultat asymptotique de type (6.1) de la forme


 d
n bn,j N 0, vj () j = 1, 2

alors on a le developpement asymptotique


r
bn,j = +

vj ()
n,j ,
n

130

Information statistique et th
eorie asymptotique

o`
u

n,j N (0, 1).


De ce point de vue, il est preferable de choisir bn,1 `a bn,2 si
v1 () v2 ().

(6.3)

Mais cela pose deux probl`emes :


le sens de linegalite (6.3) peut varier selon la valeur de qui est inconnue.
cette representation ne se justifie que dans la limite n .

6.2.1

Risque quadratique en dimension 1

Cette approche est non-asymptotique. On suppose ici d = 1, cest-`a-dire R.


D
efinition 6.1. Le risque quadratique dun estimateur bn au point est


R(bn , ) = E (bn )2 .
Le risque quadratique mesure lerreur moyenne quadratique lorsque lon estime par
bn . Le choix de lerreur quadratique est un peu arbitraire. On pourrait tout aussi bien
considerer le risque


E | bn | ,
ou plus generalement un risque associe `a une fonction de perte (x, y) ; `(x, y) arbitraire


E `(bn , )
satisfaisant `(x, y) 0 avec egalite si et seulement si x = y. On a deja rencontre les
avantages de considerer comme mesure derreur la difference au carre au Chapitre 5,
en particulier, le fait que ; R(bn , ) est derivable sous des hypoth`eses relativement
faibles.
Remarquons aussi que linegalite de Tchebychev (1.2) entrane, pour tout > 0


1
P | bn | > 2 R(bn , )

et donc le risque quadratique permet de controler au moins grossi`erement la probabilite que la precision de bn soit inferieure ou egale `a un niveau > 0 donne. En particulier,
si
R(bn , ) 0
alors

P
bn
.

On en deduit la r`egle de selection suivante :


D
efinition 6.2. Lestimateur bn,1 est preferable `
a lestimateur bn,2 au sens du risque
quadratique au point si
R(bn,1 , ) R(bn,2 , ).

6.2 Comparaison destimateurs

131

Notion dadmissibilit
e
Etant donne une (suite d) experience(s) E n , existe-t-il un estimateur b?n optimal au
sens de la Definition 6.2, cest-`
a-dire verifiant
, R(b?n , ) inf R(bn , ) ?

(6.4)

bn

La reponse est negative : prenons par exemple lexperience engendree par lobservation
dun n-echantillon de loi N (, 2 ), avec = R et 2 connu. Lestimateur du maximum de vraisemblance est
b mv = X n .
n

Considerons par ailleurs lestimateur artificiel


bn = 0
qui prend toujours la valeur 0 sans tenir compte des observations. Alors, pour tout ,
R(bnmv , ) =

2
et R(bn , ) = 2 .
n

Il est clair que selon les valeurs de n et il existe des valeurs de o`


u lestimateur absurde
bn = 0 est preferable `
a b mv pour le risque quadratique.
n

La situation generale est pire ! Meme si se reduit `a deux points distincts, quelle
que soit lexperience statistique, on ne peut pas construire destimateur optimal au sens
de (6.4). Voir pour cela lExercice 6.1. La notion doptimalite au sens naf de (6.4) est
impossible `
a realiser.
On peut neanmoins aborder la notion de comparaison sous un angle plus faible : cest
la notion defficacite et dadmissibilite.
D
efinition 6.3 (Efficacite). Si bn,1 est preferable `
a bn,2 pour le risque quadratique en
tout point et sil existe un point e pour lequel on a
e < R(bn,2 , ),
e
R(bn,1 , )
on dit que bn,1 est plus efficace que bn,2 et que bn,2 est inadmissible.
On en deduit une notion (faible) doptimalite :
D
efinition 6.4 (Admissibilite). Lestimateur bn est admissible sil nexiste pas destimateur plus efficace que bn .

132

Information statistique et th
eorie asymptotique

Optimalit
e sur une classe destimateurs
Une autre mani`ere de contourner le probl`eme de labsence doptimalite au sens (6.4)
consiste `
a restreindre la classe des estimateurs, de sorte que des estimateurs absurdes
soient elimines doffice. Pour cela, on part de la constatation suivante :
Proposition 6.1 (Structure du risque quadratique). Pour tout estimateur bn et tout
, on a la decomposition
 
2
 
R(bn , ) = E bn + Var bn = biais2 + variance.
D
efinition 6.5. On dit que bn est sans biais, respectivement asymptotiquement sans
biais, si
 
, E bn = ,
 
respectivement limn E bn = .
Une approche classique de la litterature statistique (un peu depassee aujourdhui)
consiste `
a realiser le programme suivant : parmi les estimateurs sans biais, chercher
ceux de variance minimale. Un fait remarquable est que dans certaines situations, un tel
programme est realisable, voir lExercice 6.3. Cependant, cette approche reste limitee et
nous ne la developperons pas dans ce cours car :
les estimateurs sans biais napparaissent que dans des situations assez particuli`eres.
meme pour les experiences statistiques admettant des estimateurs sans biais, on
peut presque toujours construire des estimateurs biaises plus efficaces, comme le
montre lexemple suivant dans un cas simple.
Exemple 6.1. Dans le mod`ele engendre par lobservation dun n-echantillon de loi
N (, 2 ), avec (, 2 ) R R+ \{0}, on sinteresse au param`etre = 2 . On suppose
n 2. Considerons les estimateurs
n

i=1

i=1

2
2
1X
1 X
bn,1 =
Xi X n , et bn,2 =
Xi X n .
n
n1
1 2 . En cons
Alors E bn,1 = n1
equence, le biais de bn,1 vaut 2 n1 et
n =  n

bn,1 est biaise. Par contre, E bn,2 = 2 = et bn,2 est sans biais. Par ailleurs,

2




n
2 4
Var bn,2 =
, Var bn,1 =
.
n1
n1

On en deduit

R(bn,1 , ) =

2
n

2

et
R(bn,2 , ) =

+2

n 1 4 2n 1 4
=

n2
n2

2 4
> R(bn,1 , )
n1

6.2 Comparaison destimateurs

133

pour tout . Donc bn,1 est plus efficace que bn,2 . Lestimateur sans biais est inadmissible.
Cependant, lExemple 6.1 nest pas tout `a fait honnete : la difference entre bn,1 et
b
n,2 sestompe lorsque n grandit, au sens o`
u
Rn (bn,1 , )
= 1.
n R(
bn,2 , )
lim

Cette remarque met plut


ot en relief un defaut de la notion dadmissibilite et sugg`ere
une approche asymptotique. Nous verrons plus loin comment lapproche asymptotique
elimine naturellement certains estimateurs artificiels. Nous concluons cette section avec
la regle de comparaison suivante :
D
efinition 6.6. Lestimateur bn,1 est asymptotiquement preferable a
` lestimateur bn,2
au point si
Rn (bn,1 , )
lim sup
1.
bn,2 , )
n R(
On pourrait en definir une notion defficacite asymptotique analogue `a la Definition
6.4 non-asymptotique. Nous reviendrons plus tard sur ce point.

6.2.2

Risque quadratique et normalit


e asymptotique

On suppose toujours R pour simplifier. On a vu aux Chapitres 4 et 5 des resultats


de type
 d


n bn N 0, v()
(6.5)
Supposons que la convergence ait aussi lieu en passant au carre et en prenant lesperance,
cest-`a-dire
lim nR(bn , ) = v().
(6.6)
n

Alors, lestimateur bn,1 sera asymptotiquement preferable `a lestimateur bn,2 pour le


risque quadratique au point si
v1 () v2 ()
(6.7)
d`es lors que bn,1 et bn,2 verifient des convergences de type (6.5) et (6.6).
Malheureusement, on na pas en general une inegalite de type (6.7) simultanement
pour tout . Une solution conservatrice consiste alors `a preferer asymptotiquement
bn,1 `a bn,2 si
sup v1 () sup v2 ().

Ceci nous conduit `


a une notion faible mais tr`es robuste de la notion doptimalite asymptotique pour le risque quadratique.

134

Information statistique et th
eorie asymptotique

D
efinition 6.7 (Risque minimax). Le risque dun estimateur bn sur lensemble des
param`etres est
R(bn | ) = sup R(bn , ).

Un estimateur b?n est asymptotiquement optimal au sens minimax pour le risque quadratique si
R(b?n | )
lim sup
1,
bn | )
n inf b R(
n

o`
u linfimum est pris sur lensemble de tous les estimateurs.
Remarque 6.1. Loptimalite asymptotique au sens minimax se generalise immediatement `
a dautres fonctions de perte que la perte quadratique. Elle est couramment utilisee
lorsque lensemble des param`etres est de grande dimension, et en particulier en estimation
non-parametrique.
Nous terminons cette section en presentant des conditions simples qui permettent de
passer de (6.5) `
a (6.6). A quelle condition simple la convergence en loi (6.5) entrane-telle une convergence de type (6.6) ? Plus generalement si Zn est une suite de variables
aleatoires reelles telle que
d

Zn Z,
peut-on avoir




lim E g(Zn ) = E g(Z)

pour une fonction g continue non-bornee ? Si g est bornee, cest la definition meme de
la convergence en loi. Dans le cas o`
u g est non-bornee, il faut invoquer une propriete
duniforme integrabilite sur la suite Zn .
d

Proposition 6.2. Soit Zn une suite de vecteurs aleatoires de Rd telle que Zn Z.


Alors, si g : Rd R est une application continue et si lune au moins des trois conditions
suivantes est verifiee :

R + 
(i) limt supn t
P |g(Zn )| > x dx = 0,


R +
(ii) P |g(Zn )| > x h(x), avec 0 h(x)dx < +,
(iii) il existe > 0 tel que supn E |g(Zn )|1+ < +,
on a




lim E g(Zn ) = E g(Z) .

Demonstration. Par linegalite de Tchebychev, on a, pour x > 0,





 E |g(Zn )|1+
P |g(Zn )| > x
,
x1+

6.2 Comparaison destimateurs

135

donc (iii) implique (i). De meme, la condition (ii) entrane clairement la condition (i).
Supposons (i). Alors, on ecrit
Z +




P |g(Zn )| x dx.
E |g(Zn )| =
0
d

Par hypoth`ese, la convergence en loi Zn Z entrane |g(Zn )| |g(Z)| par continuite


de |g()|, et donc




P |g(Zn )| x P |g(Z)| x
pour presque tout x. Donc, pour tout t > 0, par convergence dominee,
Z t
Z t




P |g(Z)| x dx.
P |g(Zn )| x dx
lim
n 0

Lhypoth`ese (i) rend legitime le passage `a la limite t dans la convergence precedente.


Finalement
Z +




lim E |g(Zn )| = lim
P |g(Zn )| x dx
n
n 0
Z +


=
P |g(Z)| x dx
0


= E |g(Z)| .

6.2.3

Risque quadratique : le cas multidimensionnel?

Si Rd avec d 1, un estimateur bn de = (1 , . . . , d )T secrit sous forme


vectorielle
b(d) T
bn = (b(1)
n , . . . , n ) ,
(j)
o`
u bn est la j-`eme composante de bn . Considerons dans un premier temps le risque
(j)
quadratique de bn au point composante par composante, cest-`a-dire R(bn , j ), pour
j = 1, . . . , d, ou plus generalement une combinaison lineaire
d
X

j R(b(j)
n , j )

j=1

de sorte que tous les j soient positifs. En particulier, pour j = 1 pour tout j, on a
d
X



2
b
j R(b(j)
n , j ) = E k n k ,

j=1

o`
u kk designe la norme euclidienne sur Rd . Pour cela, on a besoin dune notion de
dispersion dans Rd .

136

Information statistique et th
eorie asymptotique

D
efinition 6.8. Si Z1 et Z2 sont deux vecteurs
aleatoires `
a valeurs dans Rd ayant

des moments dordre deux (cest-`
a-dire E kZi k2 < + pour i = 1, 2), on dit que la
dispersion de Z1 autour de Rd est plus petite que la dispersion de Z2 si, pour tout
v Rd , on a




E hZ1 , vi2 E hZ2 , vi2 ,
(6.8)
Pd
o`
u hu, vi = i=1 ui vi designe le produit scalaire euclidien sur Rd .
 
 
Si = E Z1 = E Z2 , linegalite (6.8) exprime le fait que la variance de Z1 dans
nimporte quelle direction v est plus grande que la variance de Z2 dans cette meme
direction.
Si (Zi ) designe la matrice de variance-covariance de Zi pour i = 1, 2, la relation
(6.8) se traduit pour = 0 par
d
X
j,k=1

(Z1 )jk vj vk

d
X

(Z2 )jk vj vk , v Rd ,

j,k=1

cest-`
a-dire la matrice (Z2 ) (Z1 ) est positive. Ceci nous fournit, de la meme facon
quen dimension 1, une r`egle de selection non-asymptotique.
D
efinition 6.9. Un estimateur bn,1 du param`etre Rd est preferable `
a bn,2 pour
le risque quadratique au point si la dispersion de bn,1 autour de est plus petite que
celle de bn,2 .
En consequence, si i () = (bn,i ) est la matrice de variance-covariance du
vecteur bn,i pour i = 1, 2, dire que bn,1 est preferable `a bn,2 implique que la matrice
1 () 2 () est positive.
On peut de meme donner la r`egle de comparaison asymptotique suivante
D
efinition 6.10. Soit vn > 0 une suite telle que limn = +. Si bn,1 et bn,1 sont
deux suites destimateurs tels que
 d
vn bn,i Zi ,
pour i = 1, 2, o`
u les variables Zi sont centrees et de carre integrable, on dit que bn,1 est
asymptotiquement preferable `
a bn,2 au point si la dispersion de Z1 autour de 0 est plus
petite que celle de Z2 .


Remarque 6.2. En particulier, dans le cas classique o`


u vn = n et Zi N 0, i () ,
dire que bn,1 est asymptotiquement preferable `a bn,2 au point implique que la matrice
2 () 1 () est positive.

6.3 Mod`
eles r
eguliers

6.3
6.3.1

137

Mod`
eles r
eguliers
Information de Fisher

Situation
Dans toute la suite, on se placera dans le mod`ele de la densite : on consid`ere une suite
dexperience E n engendree par lobservation dun n-echantillon
(X1 , . . . , Xn )
o`
u la loi P des variables aleatoires Xi appartient `a une famille donnee de probabilites
sur R
{P , }
dominee par une mesure -finie 3 sur R. On note
f (, x) =

d P
(x),
d

, x R

la densite de P par rapport `


a . Cest une fonction positive, definie -presque partout,
-integrable, et si X P , on a la formule dintegration (cest la formule (1.1) de la
mesure image, voir Chapitre 1)


E (X) =

Z
(x) P (dx) =

(x)f (, x)(dx)
R

pour toute fonction test . On introduit aussi la notation suivante :


D
efinition 6.11. On pose, lorsque cela a un sens
`(, x) = log f (, x), x R, .
(En convenant log 0 = 0 par exemple, on pourra toujours parler de `(, x)). La derivee


de
 la fonction
; `(, x), lorsquelle existe, sappelle fonction score du mod`ele
P , .
Information de Fisher dune famille de densit
es
Restreignons nous dans un premier temps au cas o`
u R pour simplifier.
3. Dans presque tous les cas, sera la mesure de Lebesgue lorsque les P sont absolument continues,
ou bien la mesure de comptage sur un ensemble M R au plus denombrable lorsque les Xi sont discr`etes,
a
` valeurs dans M.

138

Information statistique et th
eorie asymptotique

D
efinition 6.12 (Information de Fisher). Si ; `(, x) est derivable (dx)-presque
partout, on appelle information de Fisher de la famille {P , } au point la
quantite
Z
2

2 
I() =
`(, x) f (, x)(dx) = E `(, X) .
R

On a, pour tout ,
Z
I() =
{x, f (,x)>0}

2
f (, x)
(dx),
f (, x)

et aussi
0 I() +,
les cas interessants etant ceux pour lesquels on a
0 < I() < +.
Origine de linformation de Fisher
Linformation de Fisher apparat naturellement comme la variance limite de lestimateur du maximum de vraisemblance, sous des hypoth`eses suffisantes de regularite sur
{f (, ), }. Cela signifie que lon a


 d

1
mv
b
.
(6.9)
n n N 0,
I()
Donnons immediatement lheuristique de ce resultat, sans nous soucier des hypoth`eses,
que nous preciserons plus loin. Nous allons essentiellement repeter la preuve de la Proposition 4.5 du Chapitre 4 dans ce contexte particulier. Dapr`es lequation (4.20) du
Chapitre 4, lestimateur bnmv satisfait
`n ()|=b mv = 0,
n

o`
u
`n () =

n
X

`(, Xi ) =

i=1

n
X

log f (, Xi )

i=1



est la log-vraisemblance associee `a la famille P , . Au voisinage de bnmv , on a, `
a
lordre 1,

0 = `n ()|=b mv `n () + bnmv 2 `n ().
n

En divisant par

2 `n ()

et en multipliant par

1 ,
n

on obtient lapproximation

 n1/2 `n ()
n bnmv
.
n1 2 `n ()

6.3 Mod`
eles r
eguliers

139

Cest letude asymptotique du numerateur et du denominateur respectivement qui va


faire apparatre I(). Notons que
n

1 X
n1/2 `n () =
log f (, Xi ).
n
i=1

et

2 `n ()

1X 2
=
log f (, Xi ).
n
i=1

Sous des conditions dintegrabilite suffisantes, le denominateur converge par la loi des
grands nombres vers


E 2 log f (, X)
en probabilite. Le comportement du numerateur 1n `n () est moins evident. Nous
allons dabord enoncer un lemme fondamental sur lequel nous reviendrons plus tard.
Lemme 6.3.1. Sous des hypoth`eses de regularite adequates, on a


E log f (, X) = 0.
Demonstration. Justifions formellement ce resultat : on a
Z


E log f (, X) =
log f (, x) f (, x)(dx)
R
Z
f (, x)
=
f (, x)(dx)
R f (, x)
Z
=
f (, x)(dx)
RZ
=
f (, x)(dx) = 1 = 0.
R

On a aussi
les calculs

2
R f (, x)(dx)

I() = E

= 0, ce qui permet de deduire la relation tr`es utile pour



2 
log f (, X)
= E 2 log f (, X .

(6.10)

Revenons `
a letude du numerateur 1n `n (). Dapr`es le Lemme 6.3.1, les variables
aleatoires log f (, Xi ) sont independantes, centrees, de variance I(). Dapr`es le theor`eme
central-limite, on a la convergence
n

1 X
d

log f (, Xi ) N 0, I() .
n
i=1

140

Information statistique et th
eorie asymptotique

On a deja vu que le denominateur n1 2 `n () converge en probabilite vers




E 2 log f (, X) = I()
dapr`es la formule (6.10). On en deduit par la Proposition 1.8 (Slutsky) que le quotient
converge en loi vers une gaussienne centree de variance I()1 , cest-`a-dire




1
mv
,
n bn N 0,
I()
et nous pouvons donc interpreter I() comme linverse de la variance asymptotique de
lestimateur du maximum de vraisemblance.
La suite de cette section consiste `a rendre rigoureux ce raisonnement, `a le generaliser au cas o`
u est de dimension d 1 et `a montrer que I() est une caracteristique
 g
eometrique  de la famille {P , }, apparentee `a une notion dinformation intrins`eque de lexperience statistique associee. Ce sera un premier pas vers une notion de
comparaison des experiences statistiques dune part, et de la meilleure estimation possible
dautre part.
Information de Fisher dune (suite d) exp
erience(s) statistique(s)
Linformation
de Fisher introduite dans la Definition 6.12 de la Section 6.3.1 porte sur

une famille f (, ), de densites (, x) R R+ avec R. Lextension
de cette notion pour une experience statistique dominee arbitraire en se restreignant
toujours au cas R est immediate :


D
efinition 6.13. Si E n = Zn , Zn , Pn , est une suite dexperiences statistiques
dominee par une mesure n (dz) -finie sur (Zn , Zn ) et si R, alors linformation de
Fisher de lexperience au point est definie par
Z 
2
n
log fn (, z) Pn (dz),
(6.11)
I( | E ) =
Zn

o`
u fn (, z) =

d Pn

d (z)

pour peu que lexpression ci-dessus soit bien definie.

En particulier, si lexperience statistique consideree est engendree par un n-echantillon


de loi {P , } sur R dominee par une mesure sur R, alors on a

E n = Rn , B n , {Pn , } ,
avec Pn = P P (n-fois), n = (n-fois), et
fn (z) = fn (x1 , . . . , xn ) =

n
Y
i=1

f (, xi ), z = (x1 , . . . , xn ) Z = Rn ,

6.3 Mod`
eles r
eguliers

141

P
o`
u f (, x) = dd
(x) est la densite pour la famille de lois de probabilites sur R. On deduit
immediatement de la formule (6.11) lidentite :

I( | E n ) = n I() = n I( | E 1 ),

(6.12)



o`
u I() est linformation de Fisher pour la famille f (, ), de la Definition 6.12.
Remarque 6.3. La formule (6.12) sinterpr`ete de la mani`ere suivante : pour un nechantillon, chaque donnee Xi contribue `a linformation totale du mod`ele au point
pour une quantite I(). Linformation totale, apr`es n observations, est n fois linformation
quapporte chaque donnee. Voir la Section 6.3.3.

6.3.2

Mod`
ele r
egulier en dimension 1

Nous avons vu dans la Section 4.3 du Chapitre 4 que lestimateur du maximum de


vraisemblance est un M -estimateur associe au constraste (a, x) = log f (a, x) ou bien
un Z-estimateur associe au  score 
(a, x) = a (a, x) =

a f (a, x)
,
f (a, x)

pour peu que ces quantites soient bien definies et reguli`eres 4 .


Nous allons donner un jeu dhypoth`eses le plus simple possible, de sorte que les
calculs de la Section 6.3.1 developpes precedemment soient justifies, en particulier le
Lemme 6.3.1, et que lon puisse appliquer les Propositions 4.5 ou 4.6 qui fournissent le
comportement asymptotique des Z- ou M -estimateurs.
Hypoth`
ese 6.1 (Regularite dun mod`ele (ou dune famille)). On a
(i) Lensemble des param`etres R est un intervalle ouvert et pour tous , 0 ,
les ensembles {f (, ) > 0} et {f (0 , ) > 0} concident.
(ii) -presque partout, les fonctions ; f (, ) et ; `(, ) sont deux fois contin
ument
differentiables sur .
(iii) Pour tout , il existe un voisinage de V() tel que pour tout a V() :
|a2 `(a, x)| + |a `(a, x)| + a `(a, x)
o`
u

2

g(x),

Z
g(x) sup f (a, x)(dx) < +.
R

aV()



4. Et on suppose toujours implicitement que la famille P ,  est dominee par une mesure
-finie sur R, de sorte que lon puisse parler de la famille des densites f (, ), .

142

Information statistique et th
eorie asymptotique

(iv) Linformation de Fisher est non-degeneree :


, I() > 0.
Les hypoth`eses (ii) et (iii) sont les plus restrictives. On peut significativement les
ameliorer. Une reference accessible est van der Waart [10]. Noter aussi que lhypoth`ese
(iii) est un renforcement des conditions


2 

= I() < .
E 2 `(, X) < +, et E `(, X)
D
efinition 6.14. On dit que la famille de densites {f (, ), } est reguli`ere si
lHypoth`ese 6.1 est verifiee. Par extension, lexperience statistique E (ou E n ) est reguli`ere
si elle est dominee et que la famille de densites associees est reguli`ere.

6.3.3

Propri
et
es de linformation de Fisher

Information de Fisher et maximum de vraisemblance


Lestimateur du maximum de vraisemblance est un M -estimateur, associe `
a la fonction


a ; F(a, ) = E (a, X) ,
o`
u est la fonction de contraste :
(a, x) = log f (a, x).
Proposition 6.3. Si la famille {f (, ), } est reguli`ere et si
Z


log f (, x) f (, x)(dx) < +,
, ,
R

alors, pour tout , la fonction a ; F(, a) est deux fois contin


ument derivable et
on a
a F(a, )
= 0,
a=

et
a2 F(a, )

a=



= E 2 `(, X) = I().

Le lemme technique suivant permet de justifier la derivation sous le signe somme :


Lemme 6.3.2. Soit g : R R telle que a ; g(a, x) soit contin
ument differentiable
(dx) presque-partout. Si, de plus, pour un ouvert U de , et pour tout a U
Z
Z




g(a, x) (dx) < +, et
sup a g(a, x) (dx) < +
R

R aU

6.3 Mod`
eles r
eguliers

143

alors la fonction a ; G(a) =


G0 (a) =

est contin
ument differentiable sur U et
Z
g(a, x)(dx) =
a g(a, x)(dx).

R g(a, x)(dx)

d
da

Z
R

Demonstration. Cest une application repetee du theor`eme de convergence dominee.


Demonstration de la Proposition 6.3. Lapplication a ; F(a, ) est derivable en appliquant le Lemme 6.3.2 avec g(a, x) = f (, x) log f (a, x). On obtient :
Z
`(, x)f (, x)(dx).
a F(a, )
=
a=

On sait deja par le Lemme 4.4.1 du Chapitre 4 que le maximum de F(, ) est atteint en
a = , donc a F(a, )
= 0. Pour la deuxi`eme egalite, on applique le Lemme 6.3.2 `a
a=

G(a) = a F(a, ) en posant cette fois-ci g(a, x) = a2 `(a, x)f (, x).


Nous allons maintenant demontrer rigoureusement lidentite 6.10 de la Section 6.3.1.
Lemme 6.3.3. Si la famille {f (, ), } est reguli`ere, alors, pour tout , on a
Z


I() = E 2 `(, X) = 2 `(, x)f (, x)(dx).
R

En particulier, on en deduit, sous les hypoth`eses de la Proposition 6.3


a2 F(a, )
= I().
a=
Demonstration. On derive deux fois sous le signe somme legalite
Z
f (, x)(dx) = 1.
R

On applique dabord le Lemme 6.3.2 avec g(, x) = f (, x). On en deduit, pour tout
,
Z
f (, x)(dx) = 0,
R

ou encore

Z
`(, x)f (, x)(dx) = 0.
R

On applique le Lemme 6.3.2 une seconde fois, avec g(, x) = f (, x) = `(, x)f (, x).
Alors
2
g(, x) = 2 `(, x)f (, x) + `(, x) f (, x).
Cette identite permet de conclure
Z
Z
0=
g(, x)(dx) =
2 `(, x)f (, x)(dx) + I(),
R

do`
u le resultat.

144

6.3.4

Information statistique et th
eorie asymptotique

Interpr
etation g
eom
etrique de linformation de Fisher

Pour une experience statistique reguli`ere, la Proposition 6.3 et le Lemme 6.3.3 donnent
la representation
I() = a2 F(a, )
0,
a=

et la fonction a ; F(a, ) atteint son maximum au point a = .


Si I() est petite, le rayon de courbure de la courbe representative de a ; F(a, ) est
grand dans un voisinage de , et F(, ) est  plate  dans ce voisinage, et le comportement typique de a ; `n (a) sera oscillant, rendant moins precis lestimateur du maximum
de vraisemblance. Par contre, si I() est grande, F(, ) est  pointue  dans un voisinage
de .
Lien avec lentropie
Si P et Q sont deux mesures de probabilites definies sur un meme espace mesurable
(, A), on definit la divergence de Kullback-Leibler de P relativement `a Q comme
Z
dP
log
K(P, Q) =
() P(d)
dQ

si P  Q (Q domine P) et on pose K(P, Q) = + sinon. On parle improprement de


 distance  de Kullback-Leibler entre P et Q pour la raison suivante :
Lemme 6.3.4. On a toujours
0 K(P, Q) +,
et
K(P, Q) = 0 si et seulement si

P = Q.

Demonstration. Introduisons la fonction definie sur R+ par


h(x) = x log(x).
 
Si Z est une variable aleatoire positive telle que EQ Z < + (esperance de Z par
rapport `
a la mesure de probabilite Q), on peut toujours definir la quantite
 


 
E Z = EQ h(Z) h EQ Z ,


En effet, h est minoree par 1/e, donc EQ h(Z) a un sens, meme si h(Z) nest pas Qintegrable. Puisque
  h est convexe, linegalite de Jensen assure que EQ [Z] 0 (eventuellement
+). Enfin, E Z est finie si et seulement si h(Z) est Q-integrable.

6.3 Mod`
eles r
eguliers

145

Supposons maintenant P  Q, et posons Z = ddQP , la densite de Radon-Nikodym 5 de


 
P par rapport `
a Q. Alors Z est Q-integrable et EQ Z = 1. Il vient
Z
 


dP
dP
E Z = EQ h(Z) =
log
dQ = K(P, Q),
dQ
dQ
do`
u la premi`ere partie du lemme.
La seconde partie du lemme est une consequence immediate du Lemme 4.4.1 : on
pose = Q, f = ddQP et g = 1. Alors f et g sont deux densites de probabilite par rapport
`a et on a
Z
f
K(P, Q) = log f d 0
g
dapr`es le Lemme 4.4.1, avec egalite si et seulement f = g -presque partout, ce qui
entrane P = Q.
Dans le contexte dun mod`ele regulier, entropie et information de Fisher sont relies
par la fonction F : on a, pour 1 , 2 ,
Z

f (2 , x)
K P1 , P2 = F(2 , 2 ) F(1 , 2 ) =
log
f (2 , x)(dx).
f (1 , x)
R
Cest une mesure de divergence disymetrique entre P1 et P2 . Son interpretation est
similaire `
a celle de linformation de Fisher, comme le montre la representation ci-dessus.
Lavantage immediat de la divergence de Kullback-Leibler sur linformation
 de Fisher

est quelle est toujours definie, sans hypoth`ese de regularite sur la famille P ,
sous-jacente.
D
efinition 6.15. La valeur
Z
F(, ) =

f (, x) log f (, x)(dx)
R

est appelee entropie de Shannon associee `


a la densite f (, ).
Lentropie de Shannon peut etre utilisee comme mesure de dispersion lorsque, par
exemple, la variance par rapport a` la loi f (, x)(dx) nexiste pas. Elle a un lien avec la
theorie de linformation.

6.3.5

Le cas multidimensionnel

Si Rd avec d > 1, tous les resultats de la Section precedente setendent de


mani`ere naturelle en remplacant derivation par rapport `a par differentiabilite dans Rd .
Linformation de Fisher devient la matrice dinformation de Fisher.
5. Voir, par exemple, Jacod et Protter [4], Chapitre 28.

146

Information statistique et th
eorie asymptotique

D
efinition 6.16. La matrice dinformation de Fisher I() = I()`,`0

1`,`0 d

associee

`
a la famille de densites {f (), } avec R est definie au point par


I()`,`0 = E ` log f (, X)`0 log f (, X) , 1 `, `0 d,
pour peu que cette quantite soit bien definie, avec = (1 , . . . , d )T . Cest une matrice
symetrique positive.
Nous ne developperons pas la theorie en dimension plus grande que 1. Une reference
avec des exemples detailles est Borovkov [1].

6.4
6.4.1

Th
eorie asymptotique
Normalit
e asymptotique du maximum de vraisemblance

Le cas de la dimension 1
n
On consid`
u
 ere lexp
erience statistique E engendree par un n-echantillon de loi P , o`
la famille P , est dominee par une mesure sur R -finie, et on suppose R.
Le resultat suivant donne le comportement asymptotique de lestimateur du maximum
de vraisemblance.

Proposition 6.4 (Normalite asymptotique de lEMV). Si lexperience E n est reguli`ere


au sens de la Definition 6.14, alors lestimateur du maximum de vraisemblance bnmv est
bien defini et asymptotiquement normal, et on a


 d
1 
n bnmv N 0,
I()

en loi sous P , et 0 < I() < + est linformation de Fisher du mod`ele au point .
Esquisse de demonstration. En interpretant lestimateur du maximum de vraisemblance
comme un M -estimateur, on applique la Proposition 4.6 du Chapitre 4 pour la fonction
de constraste (a, x) = log f (a, x). Ceci nous conduit en fait `a verifier les conditions de
lHypoth`ese 4.2 en vue dappliquer la Proposition 4.5 `a la fonction (a, x) = a log f (a, x).
Cependant, les conditions de lHypoth`ese 6.1 sont en partie plus faibles que lHypoth`ese 4.2. En reprenant la preuve de la Proposition 4.5, on verifie alos que seul le
terme de reste (4.16) pose une difficulte. On pourra montrer en exercice quen appliquant
pour ce terme la formule de Taylor avec reste integral, alors les conditions de regularite
de lHypoth`ese 6.1 permettent de conclure.

6.4 Th
eorie asymptotique

147

Le cas multidimensionnel
La Proposition 6.4 setend au cas multidimensionnel, en remplacant linformation de
Fisher par la matrice dinformation de Fisher definie dans la Section 6.3.5, en etendant
lHypoth`ese 6.1 par une version multidimensionelle (la derivee premi`ere par rapport `a
de la fonction ; f (, ) devenant le gradient et la derivee seconde la matrice hessienne).
Nous ne developperons pas la theorie en dimension plus grande que 1. Une reference avec
des exemples detailles est Borovkov [1].

6.4.2

Comparaison destimateurs : efficacit


e asymptotique

Nous nous placons dans cette section dans le cas de la dimension 1, avec R
pour simplifier. Les extensions au cas multidimensionnel se font de la meme mani`ere que
pour la Section 6.3.5. On se restreint ici `a la classe des estimateurs asymptotiquement
normaux, cest-`
a-dire les estimateurs bn pour lesquels
 d


n bn N 0, v()
pour . On suppose de plus :
Hypoth`
ese 6.2. Lapplication ; v() est continue et strictement positive sur .
Sous des hypoth`eses de regularite, on a vu que les M -estimateurs sont asymptotiquement normaux et verifient (6.2). En particulier, pour lestimateur du maximum de
vraisemblance,
1
v() =
.
I()
On a la r`egle de comparaison suivante :
D
efinition 6.17. Si bn,1 et bn,2 sont deux (suites d)estimateurs asymptotiquement normaux de variances asymptotiques respectives v1 () et v2 () et verifiant lHypoth`ese 6.2,
on dit que bn,1 est plus efficace que bn,2 si
, v1 () v2 ()
et si de plus, il existe un point e tel que
e < v2 ().
e
v1 ()
Une suite destimateurs bn est asymptotiquement efficace sil nexiste pas dautre estimateurs (dans la classe consideree) plus efficace que bn .
Remarque 6.4. Lhypoth`ese de normalite asymptotique en tout point permet
en particulier dexclure les estimateurs artificiels de la forme bn = 0 pour un point
0 arbitraire, qui sont catastrophiques pour le risque quadratique en dehors dun
 petit  voisinage de 0 mais qui ont un risque nul en 0 .

148

Information statistique et th
eorie asymptotique

Efficacit
e asymptotique du maximum de vraisemblance
Dans cette section, on consid`ere une experience statistique reguli`ere et on suppose
lespace des param`etres R pour simplifier. On se restreint en fait `a la classe des
Z-estimateurs, qui contient en particulier les M -estimateurs reguliers.
Un tel estimateur bn est obtenu comme solution dune equation de type
n
X

(bn , Xi ) = 0

(6.13)

i=1

o`
u : R est une fonction choisie par le statisticien, qui determine la methode. En
particulier, si
(, x) = log f (, x) = `(, x)
dans le cas dune famille de probabilites {P (dx) = f (, x)(dx), } dominee par
une mesure -finie , on retrouve lestimateur du maximum de vraisemblance.
On consid`ere une experience statistique reguli`ere engendree par lobservation dun
n-echantillon.
Th
eor`
eme 6.1 (Efficacite asymptotique du maximum de vraisemblance parmi la classe
des Z-estimateurs). Si bn est un Z-estimateur regulier 6 associe `
a la fonction via (6.13),
alors bn est asymptotiquement normal de variance asymptotique


E (, X)2
v () = 

2 .
E (, X)
De plus, pour tout choix de fonction , on a
v ()

1
.
I()

(6.14)

Corollaire 6.1. Dans un mod`ele regulier, lestimateur du maximum de vraisemblance


est asymptotiquement efficace parmi les Z-estimateurs reguliers.
Demonstration. La premi`ere partie du theor`eme a dej`a ete montree dans la Proposition
4.5. Montrons (6.14). On note 0 (, x) = (, x). Par construction, la fonction verifie


a E (a, X)
= 0,
a=
ce qui secrit encore
Z
Z
0
0=
(, x)f (, x)(dx) +
(, x) f (, x)(dx)
ZR
ZR
=
0 (, x)f (, x)(dx) +
(, x) `(, x)f (, x)(dx),
R

6. Nous appelons informellement Z-estimateur regulier un Z-estimateur pour lequel la Proposition


4.5 est verifiee.

6.4 Th
eorie asymptotique

149

cest-`a-dire




E 0 (, X) = E (, X) `(, X) .
En appliquant linegalite de Cauchy-Schwarz, on obtient





2 

 2
E (, X)2 E `(, X) ,
E 0 (, X)

cest-`a-dire
v ()


2

 
E (, X)

 E `(, X) 2 = I().
E (, X)2

Efficacit
e`
a un pas
Dans un mod`ele regulier, lestimateur du maximum de vraisemblance est  meilleur  que
nimporte quel autre Z-estimateur au sens de lefficacite asymptotique. Pourtant, il est
parfois plus facile de mettre en uvre un Z-estimateur donne (ou dailleurs un M estimateur) plut
ot que lestimateur du maximum de vraisemblance, voir lExemple 4.3
du mod`ele de Cauchy.
On peut modifier un estimateur bn consistant et asymptotiquement normal de sorte
quil ait asymptotiquement le meme
P comportement que lestimateur du maximum de
vraisemblance. On note `n () = n1 ni=1 log f (, Xi ).
Proposition 6.5 (Efficacite `
a un pas). Si le mod`ele est regulier et si bn est un estimateur
asymptotiquement normal, alors lestimateur modifie 7
`0 (bn )
en = bn n00
`n (bn )
verifie


 d
1 
n en N 0,
I()

en loi sous P et est donc asymptotiquement efficace.


Le choix initial pourra donc etre un M - ou Z-estimateur consistant et asymptotiquement normal, sans que lon ait besoin de se soucier (asymptotiquement) de sa variance
asymptotique.
7. Il faut bien s
ur que le denominateur du terme de correction soit non nul. Levenement sur lequel il
est bien defini a une P -probabilite qui tend vers 1 si le mod`ele est regulier. Nous omettons ces aspects
techniques.

150

Information statistique et th
eorie asymptotique

Esquisse de demonstration. On ecrit

n`0n (bn )
`00n (bn )

0 b
0
0 ()


n`
()
+
n
`
(

`
n
n
n
n
= n bn

`00n () + `00n (bn ) `00n ()
0

n`n () + n(bn )`00n () + un


b
.
= n n
`00n () + vn



n en = n bn

La seule difficulte consiste `a montrer que un


0 et vn
0. Cela se faitde la meme

mani`ere que pour la preuve de la Proposition 4.5 ou 4.6. Alors n en a le meme


comportement asymptotique que


n bn

n`0n () +

n(bn )`00n () `0 ()
= n 00
`00n ()
`n ()

1
qui converge en loi sous P vers la loi N 0, I()
de la meme mani`ere qu`a la Section
6.3.1.

Exemple 6.2. Une source emet des particules de type A avec probabilite et de type
B avec probabilite 1 , o`
u = (0, 1). On mesure lenergie des particules, qui
est distribuee selon une densite f1 connue pour les particules de type A et f2 pour les
particules de type B. Si lon detecte n particules avec des energies X1 , . . . , Xn , quelle
est la valeur de ? En postulant que lobservation est un n-echantillon, la fonction de
vraisemblance de lexperience statistique engendree par lobservation secrit
Ln (, X1 , . . . , Xn ) =

n
Y


f1 (Xi ) + (1 )f2 (Xi ) ,

i=1

de sorte que
log Ln (, X1 , . . . , Xn ) =

n
X
i=1

f1 (Xi ) f2 (Xi )
.
f1 (Xi ) + (1 )f2 (Xi )

La resolution de lequation
2 associee est dautant plus
R de vraisemblance
R x difficile que n est
grand. Supposons que R F1 (x) F2 (x) dx < +, o`
u Fi (x) = fi (t)dt, i = 1, 2.
b
Soit n lestimateur qui minimise
a;

2
Fbn (x) Fa (x) dx,

avec
Fa (x) = aF1 (x) + (1 a)F2 (x),

6.4 Th
eorie asymptotique

151

P
et Fbn (x) = n1 ni=1 1Xi x designe la fonction de repartition empirique de F etudiee au
Chapitre 3. En derivant par rapport `a la variable a, on obtient
Z


Fbn (x) Fa (x) F1 (x) F2 (x) dx = 0,
R

do`
u
R
bn =



Fbn (x) F2 (x) F1 (x) F2 (x) dx
.
2
R
R F1 (x) F2 (x) dx

En sappuyant sur le Chapitre 3, on peut montrer que bn est asymptotiquement normal.


Alors lestimateur modifie
log Ln (bn , X1 , . . . , Xn )
en = bn
2 log Ln (bn , X1 , . . . , Xn )
o`
u
2 log Ln (bn , X1 , . . . , Xn )

n
X
i=1

2
f1 (Xi ) f2 (Xi )
f1 (Xi ) + (1 )f2 (Xi )

2

est asymptotiquement efficace, et sa variance asymptotique est linformation de Fisher


du mod`ele
2
Z
f1 (x) f2 (x)
I() =
dx.
R f1 (x) + (1 )f2 (x)
Remarque 6.5. Il existe une extension multimensionnelle lorsque Rd avec d 1,
obtenue de la meme mani`ere par un developpement de Taylor `a lordre 2. La derivee de
; `n () est remplacee par son gradient, et la derivee seconde par sa matrice hessienne,
supposee definie positive.

6.4.3

Le programme de Fisher et ses limites

En 1922, Fisher conjectura que pour un mod`ele regulier (dans un sens comparable
avec celui de la Section 6.3.2),
(i) lestimateur du maximum de vraisemblance converge et a pour variance asymp1
totique I()
.
(ii) si, pour une suite destimateurs bn , on a

 d

n bn N 0, v() ,

alors, necessairement
v()

1
.
I()

152

Information statistique et th
eorie asymptotique

Le programme de Fisher aurait permis, parmi une classe destimateurs raisonnables, de


clore le debat sur loptimalite asymptotique. On a vu que le point (i) de la conjecture
de Fisher est vrai. On a montre que le point (ii) est vrai parmi la classe restreinte des
Z-estimateurs reguliers.
Mais la conjecture de Fisher est fausse en general : pour tout estimateur asymptotiquement normal, on peut construire un estimateur modifie plus efficace. Une construction
classique, le contre-exemple de Hodge-Lehmann, est etudiee par exemple dans GenonCatalot et Picard [2].
Conclusion
1. Concernant la notion de mod`ele regulier, par souci de simplicite, nous nous sommes
restreints `
a un jeu dhypoth`eses assez fortes. On peut etendre significativement les
hypoth`eses de regularite.
2. La comparaison asymptotique destimateurs reste une notion fragile et ad-hoc. Un
point de vue alternatif est la recherche duniformite en le param`etre (approche
minimax).

6.4.4

Mod`
eles non-r
eguliers

Nous traitons le cas des mod`eles non-reguliers sur un exemple incontournable : la loi
uniforme. Considerons lexperience engendree par un n-echantillon
de loi uniforme sur

[0, ], o`
u = R+ \{0}. La famille de lois P , associee est dominee par la
mesure de Lebesgue sur R+ , et la densite f (, x) secrit :
f (, x) = 1 1[0,] (x).
La fonction ; f (, x) nest pas reguli`ere au sens de la Definition 6.14, puisquelle
est discontinue en = x. On ne peut pas definir dinformation de Fisher, et la theorie
asymptotique ne sapplique pas. La vraisemblance secrit
Ln (, X1 , . . . , Xn ) =

n
Y

f (, Xi )

i=1

n
Y

1[0,] (Xi )

i=1

= n 1{maxi=1,...,n Xi } .
La fonction
; n 1

maxi=1,...,n Xi

atteint son maximum unique en = maxi=1,...,n Xi qui est donc lestimateur du maximum
de vraisemblance bnmv .

6.5 Perte dinformation?

153

Comportement asymptotique du maximum de vraisemblance


Lestimateur du maximum de vraisemblance nest pas asymptotiquement normal, et

la precision destimation de bnmv est meilleure que la vitesse 1/ n des mod`eles reguliers.
On peut preciser son comportement asymptotique. Pour t R, on a
n

\

P bnmv t] = P
(Xi t)
i=1

n
Y



P Xi t

i=1

= (1 t)n 1[0,] (t) + 1{t>}


par independance des Xi . Il vient




P n(bnmv ) t = P bn + nt
t n
= 1 + 1
1[n,0] (t) + 1{t>0}
n
1
e t 1{t0} + 1{t>0} .
Donc n(bnmv ) converge en loi sous P vers une loi de fonction de repartition
F (t) = e

1 t

1{t0} + 1{t>0} ,

derivable presque-partout, et de densite t ; 1 et 1{t0} , qui peut secrire comme Z,


o`
u Z est une variable aleatoire exponentielle de param`etre 1 . On notera que dans ce

mod`ele, la vitesse destimation est 1/n et non 1/ n comme dans les mod`eles reguliers.

6.5
6.5.1

Perte dinformation?
Sous-exp
erience statistique

On consid`ere une experience statistique E arbitraire, engendree par une observation


Z a` valeurs dans (Z, Z).
Dans lexperience E, un estimateur bn est la donnee dune fonction mesurable
:Z
appliquee `
a lobservation, cest-`
a-dire
b = (Z).

154

Information statistique et th
eorie asymptotique

Considerons maintenant une application mesurable


T : (Z, Z) (Y, Y)
o`
u (Y, Y) est un espace mesurable donne, et posons Y = T (Z). Alors Y apparat comme

une  sous-observation  de Z et un estimateur de la forme e = (Y ) = T (Z) sera
en general moins performant quun estimateur de la forme bn = (Z).
A lapplication T est attachee une notion de perte dinformation, ou de compression
dinformation, que nous allons un peu formaliser.
D
efinition 6.18. On appelle sous-experience de E associee `
a T est on note E T lexperience
engendree par lobservation T (Z).
Si

E = Rn , B n , (P , ) ,
on a

E T = T (Rn ), Y, (PT , ) ,
o`
u PT estla mesure image de P par T . Cest une mesure de probabilite definie sur
T (Rn ), Y par
 


PT A = P T 1 (A) , A Y.
Un premier resultat tr`es intuitif est que lon perd de linformation en passant de E `
a ET .
Proposition 6.6. Si E et E T sont reguli`eres, alors, pour tout


I E T I |E ,
o`
u I( |E) designe linformation de Fisher pour lexperience statistique E au point .

ET .

Notons tout dabord que si domine E, alors la mesure image T de par T domine 8
Posons
d PT
f T (, z) =
(z), z Z, .
dT

On demontre cette proposition en deux etapes. Une premi`ere etape est un resultat
interessant en lui-meme que nous enoncons sous forme de lemme.
Lemme 6.5.1. On a, pour tout ,



E log f (, Z) | T (Z) = log f T , T (Z)

P presque s
urement.

 




 
8. En effet, si PT A = 0, alors P T 1 (A) = 0 et donc T 1 (A) = 0 = T A .

6.5 Perte dinformation?

155

Demonstration. Soit A Y. Dune part, par caracterisation de lesperance conditionnelle


secrit


 


E log f (, Z)1T (Z)A = E E log f (, Z) |T 1T (Z)A .
Dautre part, puisque P est la loi de Z, on a par la formule de la mesure image (1.1)


E log f (, Z)1T (Z)A =

Z
T 1 (A)

log f (, z) P (dz).

Puisque E est reguli`ere, il vient


Z
log f (, z) P (dz)
T 1 (A)
Z
=
f (, z)(dz)
T 1 (A)
Z
=
f (, z)(dz)
T 1 (A)
Z
=
P (dz)
T 1 (A)
Z
=
PT (dz) (formule de la mesure image (1.1))
A
Z
=
f T (, z)T (dz)
A
Z
=
f T (, z)T (dz)
ZA
=
log f T (, z) PT (dz)
A



= E log f T , T (Z) 1T (Z)A (formule de la mesure image (1.1)).
Comme A est arbitraire, on conclut par identification.
Passons `
a la preuve de la Proposition 6.6 proprement dite. On a :
h
2 i
E log f (, Z) log f T , T (Z)
0.
En developpant le carre, on obtient :




I |E + I E T 2 E log f (, Z) log f T , T (Z) 0.
Dautre part,


E log f (, Z) log f T , T (Z)
 


= E E log f (, Z) |T log f T , T (Z)
h
2 i
= E log f T , T (Z)
,

156

Information statistique et th
eorie asymptotique

la derni`ere egalite etant


T  obtenue en appliquant le Lemme 6.5.1. Cette derni`ere quantite
est precisement I E , ce qui ach`eve la demonstration de la Proposition 6.6.

6.5.2

Statistique exhaustive

Absence de perte dinformation


Nous nous interessons `a une classe particuli`ere de fonctions T , qui ne font pas perdre
dinformation. Ecrites sous la forme Y = T (Z) on appelle ces fonctions des  statistiques
exhaustives .
D
efinition 6.19 (Statistique exhaustive). On dit que la statistique T est exhaustive (ou
plut
ot Y = T (Z)) pour lexperience reguli`ere E si E T est reguli`ere et


I E T = I |E .
Pour de telles sous-experiences, il ny a pas de perte dinformation, et la theorie de
lefficacite asymptotique reste inchangee.
Remarque 6.6. Il existe une definition plus large qui permet de definir lexhaustivite
(labsence de perte dinformation), meme lorsque linformation de Fisher nest pas definie,
que nous ne donnons pas ici. Nous utiliserons la notion dexhaustivite au Chapitre 7 dans
le cadre de mod`eles reguliers, et nous pouvons nous contenter de la Definition 6.19 dans
ce cours.
Remarque 6.7. Nous avons traite le cas dun param`etre unidimensionnel R
par souci de simplicite. On a des resultats analogues pour un param`etre Rd
avec d > 1 en remplacant linformation de Fisher par la matrice dinformation de Fisher,
pour des hypoth`eses de regularite suffisantes. Nous ne developperons pas ces aspects ici
(voir tout de meme lExemple 6.5).

Crit`
ere de factorisation
La notion dexhaustivite, cest-`a-dire dabsence de perte dinformation pour une sousexperience nest pas facile `a manipuler `a partir de la Definition 6.19. Nous donnons un
crit`ere tr`es simple pour montrer quune statistique est exhaustive.
Th
eor`
eme 6.2 (Crit`ere de Factorisation). Si lexperience E est dominee par , une
P
statistique T est exhaustive si et seulement si la vraisemblance f (, Z) = dd
(Z) secrit

f (, Z) = p T (Z), h(Z)

presque-partout,

o`
u les fonctions z ; p(, z) et z ; h(z) sont mesurables et positives.

(6.15)

6.5 Perte dinformation?

157

Nous donnons une preuve tr`es simple dans notre cadre o`


u nous supposons les experienT
ces statistiques E et E reguli`eres, et nous supposons de plus que f (, ) et strictement
positive pour tout pour simplifier. Pour le cas general evoque dans la Remarque
6.6, on trouvera une demonstation du theor`eme de factorisation dans Borovkov, [1], pp.
117120.

Demonstration. Si f (, Z) = p T (Z), h(Z) presque-partout, alors la mesure

e(dz) = h(z)(dz)


domine la famille P , . Puisque h est strictement positive, les ensembles de ou
e-mesure nulle concident. Dapr`es lExercice 6.2, linformation de Fisher ne depend
P
pas du choix de la mesure dominante, que lon calcule avec fe(, z) = dde
(z). On a dune
part,


E log fe(, Z) | T (Z) = log fe(, Z)


e-presque partout, puisque fe(, Z) = p T (Z), est une fonction mesurable de T (Z).
Dautre part, dapr`es le Lemme 6.5.1 et avec les memes notations, on a


E log fe(, Z) | T (Z) = log feT (, Z)

e-presque partout. On en deduit


log fe(, Z) = log feT (, Z)
a` un ensemble de
e-mesure nulle pr`es. Le resultat en decoule en passant au carre et en
integrant par rapport `
a P .
Reciproquement, on a montre dans la Proposition 6.6 que
h
2 i


E log f (, Z) log f T , T (Z)
= I | E I | E T 0.


En consequence, si I | E = I | E T , alors

log f (, Z) = log f T , T (Z) ,

(6.16)

legalite ayant lieu P presque-s


urement, et aussi presque-partout en utilisant le fait
que f (, ) est strictement positive. En integrant (6.16), on obtient la representation
(6.15).

6.5.3

Exemples de statistiques exhaustives

Exemple 6.3 (Mod`ele de Bernoulli). Dans lexemple 1 du Chapitre 2, nous avons


introduit deux experiences statistiques pour traiter le probl`eme du sondage. Dune part,

158

Information statistique et th
eorie asymptotique

lexperience E n , engendree par lobservation dun n-echantillon X1 , . . . , Xn de variables


aleatoires de Bernoulli de param`etre = [0, 1], qui secrit

 

E n = {0, 1}n , parties de {0, 1}n , Pn , ,
o`
u Pn = P . . . P (n-fois), avec




P X = 1 = = 1 P X = 0 ,
et qui correspond `
a lobservation du resultat deP
chaque votant. Dautre part, lexperience
Een engendree par lobservation de la somme 9 ni=1 Xi , notee

 

Een = {0, . . . , n}, parties de {0, . . . , n} , Qn , ,
o`
u Qn est la loi binomiale de param`etres (n, ), et qui correspond `a lobservation du
nombre total de voix pour le candidat A. Intuitivement, les deux points de vue contiennent
la meme information sur le param`etre . La notion dexhaustivite permet de formaliser
T
cette intuition. Lexperience Een = (E n est une sous-experience de E n pour lapplication
T : {0, 1}n {0, . . . , n}
(x1 , . . . , xn ) ; T (x1 , . . . , xn ) =

n
X

xi .

i=1

Ecrivons maintenant la vraisemblance dans


mesure de comptage sur {0, 1}n : on a

En

en prenant comme mesure dominante la

n
 Y
L , X1 , . . . , Xn =
Xi (1 )1Xi
i=1
T (X1 ,...,Xn )

(1 )nT (X1 ,...,Xn ) ,

et le crit`ere de factorisation nous dit que la statistique T (X1 , . . . , Xn ) est exhaustive. Il


ny a donc pas de perte dinformation si lon consid`ere Een plutot que E n .
Exemple 6.4 (Loi exponentielle). On consid`ere lexperience statistique engendree par
un n-echantillon de loi exponentielle de param`etre = R+ \{0}. La vraisemblance
secrit
n


X
Ln (, X1 , . . . , Xn ) = n exp
Xi
i=1

= n exp n X n


= p T (X1 , . . . , Xn ), h(X1 , . . . , Xn )

avec p(x, ) = n exp x et h = 1. Donc T (X1 , . . . , Xn ) = X n est une statistique
exhaustive dapr`es le theor`eme de factorisation.
9. Notee nA dans lexemple du Chapitre 2.

6.6 Exercices

159

Exemple 6.5 (Un exemple en dimension d = 2). On consid`ere lexperience statistique


engendree par un n-echantillon de loi N (, 2 ), avec comme param`etre = (, 2 )
= R R+ \{0}. La vraisemblance secrit
2 n/2

Ln (, X1 , . . . , Xn ) = (2 )

n

1 X
exp 2
(Xi )2
2

i=1

2 n/2

= (2 )


X
n
exp 2 ( n1
Xi2 2 X n +2 ,
2


i=1

P
ce qui montre que la statistique T (X1 , . . . , Xn ) = (X n , n1 ni=1 Xi2 ) est exhaustive dapr`es
le theor`eme de factorisation. Si lon suppose 2 = 1 connu, alors le param`etre devient
= et la vraisemblance secrit :
n

 1X
Ln (, X1 , . . . , Xn ) = (2)n/2 exp
(Xi )2
2
i=1

= (2)n/2 exp n X n n2

exp

1
2

n
X

Xi2

i=1

et on conclut que dans ce cas T (X1 , . . . , Xn ) = X n est exhaustive dapr`es le crit`ere de


factorisation.

6.6

Exercices

Exercice 6.1. On suppose que = {0 , } R, avec 0 6= 1 , est reduit `a deux


points et que les mesures P0 et P1 sont mutuellement absolument continues (cest-`adire P0  P1 et P1  P0 ). Montrer quil nexiste pas destimateur ? tel que
, R(? , ) inf R(bn , ),
bn



o`
u linfimum est pris sur lensemble de tous les estimateurs, o`
u R(bn , ) = E (bn )2
designe le risque quadratique de lestimateur bn au point .


Exercice 6.2. Soit P , , avec R une famille de probabilites sur R reguli`ere
au sens de la Definition 6.14. On suppose que pour tout , on a
f (, x) > 0,

(dx) presque partout,

o`
u est une mesure dominante. Montrer que linformation de Fisher I() ne depend pas
du choix de .

160

Information statistique et th
eorie asymptotique

Exercice 6.3 (Inegalite de Cramer-Rao). On consid`ere lexperience engendree par un


n-echantillon de loi appartenant `a la famille reguli`ere {P , }, o`
u R. Si bn est
un estimateur de (de carre integrable), on a, pour tout

 1 + b0 ()
E (bn )2
+ b()2 ,
nI()

(6.17)

 
o`
u b() = E bn est le biais Rde lestimateur bn .
En partant de lidentite 1 = R f (, x)(dx), montrer que
Z
f (, x)(dx).
0=
R

En deduire


E (bn ) f (, X) = 1,
et par linegalite de Cauchy-Schwarz, montrer linegalite de Cramer-Rao (6.17).

Troisi`
eme partie

Tests dhypoth`
eses

Chapitre 7

Tests et r
egions de confiance
Nous avons deja rencontre la notion de test statistique dans le Chapitre 3. Dans ce
chapitre, nous systematisons cette approche. Nous donnons quelques resultats incontournables de construction de test et nous abordons la notion doptimalite. Nous allons voir
que si on accepte de hierarchiser les erreurs de decision lorsque lon proc`ede `a un test
le principe de Neyman alors il est possible de definir une notion doptimalite plus
satisfaisante que pour lestimation.

7.1
7.1.1

Probl
ematique des tests dhypoth`
ese
Test et erreur de test

Situation
On consid`
 ere une experience statistique engendree par une observation Z `a valeurs
dans Z, Z et associee `
a la famille de lois de probabilites



P , .

Lensemble des param`etres est un sous-ensemble de Rd , avec d 1.


Dans le mod`ele de la densite, Z = (X1 , . . . , Xn ) est un n-echantilllon o`
u les variables
aleatoires reelles Xi sont independantes et de meme loi, et P est la loi du n-echantillon
definie sur (Z, Z) = (Rn , B n ).
Dans le mod`ele de la regression `a  design  deterministe, on peut ecrire lobservation comme Z = (Y1 , . . . , Yn ), o`
u les Yi = f (, xi ) + i sont independantes et le  design  (x1 , . . . , xn ) est donne une fois pour toutes. Dans ce cas, P est la loi jointe des
Yi definie sur (Z, Z) = (Rn , B n ).

164

Tests et r
egions de confiance

Principe du test statistique


On veut  decider  `a partir de lobservation de Z si une propriete de la loi de Z
est verifiee ou non. Cette propriete se traduit mathematiquement par un sous-ensemble
0 de lensemble des param`etres, et la propriete signifie que 0 .
D
efinition 7.1 (Terminologie de test). On teste

lhypoth`ese nulle 

H0 : 0
contre

lalternative 
H1 : 1 ,

avec 0 1 = . Construire un test signifie construire une procedure = (Z) de la


forme

si Z
/ R.  on accepte lhypoth`ese nulle 
0
(Z) = 1{ZR} =
(7.1)

1
si Z R.  on rejette lhypoth`ese nulle 
On dit que est un test simple.
Il est naturel de prendre 1 = \ 0 et cest ce que lon fera la plupart du temps.
On verra toutefois que ce choix ne simpose pas toujours et depend des proprietes que
lon souhaite obtenir pour . Pour le moment, on suppose 1 = \ 0 .
D
efinition 7.2. Toute procedure statistique de la forme (7.1) est
 appele e test simple.
On designe indifferemment lensemble R Z ou bien levenement Z R comme zone
de rejet ou encore zone critique du test .
Remarque 7.1. Dans la definition 7.1, on parle de test simple car on nautorise que
deux reponses (accepter ou rejeter). On pourrait imaginer des situations plus generales,
o`
u lon se refuse `
a decider, ou bien o`
u lon renvoie une valeur entre 0 et 1 qui indique un
 degr
e de suspicion  de lhypoth`ese.
Erreur de test
Lorsque lon effectue un test simple, il y a quatre possibilites. Deux sont anecdotiques
et correspondent `
a une bonne decision :
Accepter lhypoth`ese H0 alors que 0 (cest-`a-dire lhypoth`ese H0 est vraie).
Rejeter lhypoth`ese H0 alors que 1 (cest-`a-dire lhypoth`ese H0 est fausse).
Les deux autres possibilites sont celles qui vont nous occuper, et correspondent `
a une
erreur de decision :
Rejeter lhypoth`ese H0 alors que 0 (cest-`a-dire lhypoth`ese H0 est vraie).

7.1 Probl
ematique des tests dhypoth`
ese

165

Accepter lhypoth`ese H0 alors que 1 (cest-`a-dire lhypoth`ese H0 est fausse).


D
efinition 7.3 (Erreur de premi`ere et seconde esp`ece). Lerreur de premi`ere esp`ece
correspond `
a la probabilite maximale de rejeter lhypoth`ese alors quelle est vraie :




sup E (Z) = sup P Z R .
0

Lerreur de seconde esp`ece correspond `


a la probabilite maximale daccepter lhypoth`ese
alors quelle est fausse :




sup E 1 (Z) = sup P Z
/R .
1

(7.2)

Remarque 7.2. Dapr`es cette terminologie, lerreur de premi`ere esp`ece mesure la probabilite (maximale) de rejeter `
a tort, et lerreur de seconde esp`ece daccepter `a tort. Dans
le langage courant, commettre une erreur de premi`ere esp`ece revient `a faire un  faux
negatif , et commettre une erreur de seconde esp`ece revient `a faire un  faux positif .
Dans la plupart des situations, 0 est  plus petit  que 1 et le controle de lerreur
de seconde esp`ece (7.2) est difficile, surtout si 1 contient des points  tr`es proches  de
0 . Cest pour cela que lon introduit la fonction de fonction de puissance dun test, qui
mesure sa performance locale sur lalternative.
D
efinition 7.4. La fonction de puissance du test simple est lapplication
() : 1 [0, 1]
definie par


1 ; () = P Z R .

Hypoth`
ese simple, hypoth`
ese composite
On utilise souvent la terminologie suivante dans le cas reel, o`
u R. Soit 0 .
Tester H0 : = 0 contre H1 : = 1 avec 1 6= 0 . On parle de test dune
hypoth`ese simple contre une alternative simple.
Tester H0 : = 0 contre H1 : 6= 0 . On parle de test dune hypoth`ese simple
contre une alternative composite.
Tester H0 : > 0 contre H1 : 0 . On parle de test dune hypoth`ese composite
contre une alternative composite.
Tester H0 : > 0 contre H1 : = 0 . On parle de test dune hypoth`ese composite
contre une alternative simple.

166

7.1.2

Tests et r
egions de confiance

Comparaison de test, principe de Neyman

Idealement, on souhaite que lerreur de premi`ere esp`ece et lerreur de seconde esp`ece


soient toutes deux simultanement petites. Les deux tests triviaux
1 = 1 , et 2 = 1Z
qui consistent respectivement `a accepter systematiquement lhypoth`ese et `
a la rejeter systematiquement, sans utiliser lobservation Z, ont respectivement une erreur de
premi`ere esp`ece nulle et une erreur de seconde esp`ece nulle. Malheureusement la puissance de 1 est catastrophique : (1 ) = 0 en tout point de toute alternative 1 . De
meme lerreur de premi`ere esp`ece de 2 est egale `a 1, meme si lhypoth`ese est reduite `
a
un point, quelle que soit lhypoth`ese.
Une methodologie, proposee historiquement par Neyman, consiste `a imposer une disymetrie dans la problematique de test : on decide que le controle de lerreur de premi`ere
esp`ece est crucial. La demarche de construction de test sera alors, parmi les tests qui ont
une erreur de premi`ere esp`ece controlee, de choisir le (ou les) test(s) le(s) plus puissant()s,
cest-`
a-dire ayant une erreur de seconde esp`ece la plus petite possible.
D
efinition 7.5. Soit [0, 1] un niveau de risque. Un test simple est de niveau si
son erreur de premi`ere esp`ece est inferieure ou egale a
` .
D
efinition 7.6 (Principe de Neyman). Soit [0, 1] un niveau de risque. Le test ?
est optimal (uniformement plus puissant, ou UPP) pour tester
H0 : 0

contre

H1 : 1

si ? est de niveau et, pour tout test de niveau , on a


1 , () (? ).

7.2
7.2.1

Hypoth`
ese simple contre alternative simple
Principe de Neyman et d
ecision `
a deux points

Dans le cas dune hypoth`ese simple contre une alternative simple, on sait resoudre de
facon optimale le principe de Neyman. Il sagit dune situation remarquable, qui ne se
generalise pas facilement hormis des cas particuliers comme les familles `a rapport de
vraisemblance monotone, voir Section 7.3.1 dans un cadre non-asymptotique.
On suppose lensemble des param`etres reduit `a deux points : = {0 , 1 }. A partir
de lobservation Z, on teste
H0 : = 0 contre H1 : = 1 .

7.2 Hypoth`
ese simple contre alternative simple

167

D
efinition 7.7 (Optimalite). Soit [0, 1] un niveau de risque. Un test ? de niveau
est optimal ou PP (Plus Puissant) si
(? ) = sup ()

o`
u le supremum est pris parmi tous les tests de niveau .
Dans le cas dune hypoth`ese simple contre une alternative simple, estimation et test
se confondent. En effet, un estimateur  raisonnable 1  se represente sous la forme
bn = 0 1ZA + 1 1Z A
/
pour un certain ensemble A Z, et peut se mettre en correspondance avec le test simple
de lhypoth`ese H0 : = 0 contre H1 : = 1 defini par
n = 1

Z A
/




e ; `(, )
e est une fonction de perte 2 donnee, et si R bn , = E `(bn , )
Si (, )
designe le risque de lestimateur bn pour la perte `(, ) au point , on a



R bn , = E `(0 , )1ZA + `(1 , )1Z A
/




= `(0 , ) P = 0 + `(1 , ) P = 1 .
Donc


R(bn , 0 ) = `(1 , 0 ) P0 = 1
soit lerreur de premi`ere esp`ece du test , et

R(bn , 1 ) = `(0 , 1 ) 1 () ,
soit lerreur de seconde esp`ece du test. Construire un estimateur ayant un risque  petit  en 0 et 1 est equivalent ici `a construire un test ayant simultanement une erreur
de premi`ere et de seconde esp`ece petite.
Le principe de Neyman au niveau se traduit comme la recherche de qui minimise
1 (), sous la contrainte P0 = 1 .

7.2.2

Lemme de Neyman-Pearson

Dans le cas dune hypoth`ese simple contre une alternative simple, un test optimal ?
existe 3 , et on sait le construire explicitement `a laide du Lemme de Neyman-Pearson.
1. Cest-`
a-dire contraint a
` prendre des valeurs dans lespace des param`etres = {0 , 1 } ici.
e 0 pour tous ,
e et `(, )
e = 0 si et
2. Cest-`
a-dire verifiant les hypoth`eses minimales `(, )
e
seulement si = .
3. Pour des raisons de simplicite, on fera dans ce cours une restriction technique, mais le resultat est
vrai en toute generalite.

168

Tests et r
egions de confiance

La famille {P0 , P1 } est dominee, par exemple par = P0 + P1 . Notons


f (, z) =

d P
(z), z Z, = 0 , 1
d

les densites associees. Si lon veut estimer dans ce contexte, alors lestimateur du
maximum de vraisemblance secrit
bnmv = 0 1{f (1 ,Z)<f (0 ,Z)} + 1 1{f (0 ,Z)<f (1 ,Z)}
et il est bien defini sur levenement {f (0 , Z) 6= f (1 , Z)}, sinon, on ne peut pas dire
grand-chose. La comparaison de f (0 , Z) et f (1 , Z) nous fournit donc une r`egle de
decision naturelle. Mais on va un peu affiner cette r`egle de decision, pour pouvoir  calibrer  lerreur de premi`ere esp`ece. Soit c = c() > 0 `a choisir. On decide alors de rejeter
H0 si
f (1 , Z) > cf (0 , Z),
et on consid`ere la famille des tests de region critique


Rc = f (1 , Z) > cf (0 , Z) .

(7.3)

Le choix de c est regle par le resultat suivant.


Th
eor`
eme 7.1 (Lemme de Neyman-Pearson). Soit [0, 1]. Sil existe c = c() solution de


P0 f (1 , Z) > cf (0 , Z) = ,
(7.4)
alors le test de region critique R? = Rc() est optimal.
Demonstration. Considerons un test simple de niveau defini par la region critique R.
On a
Z
Z




?
P1 Z R P1 Z R =
f (1 , z)(dz)
f (1 , z)(dz)
?
RZ
ZR
=
f (1 , z)(dz)
f (1 , z)(dz)
R? \R

R\R?

car f (1 , z)(dz) = P1 (dz) est une mesure de probabilite. Puisque


R? \ R R? ,
on a, sur cet ensemble
f (1 , z) > c()f (0 , z).
De meme, sur R \ R? ,
f (1 , z) c()f (0 , z).

7.2 Hypoth`
ese simple contre alternative simple

169

Il vient
Z


f (0 , z)(dz)
f (0 , z)(dz)
R? \R
R\R?
Z

Z
f (0 , z)(dz)
= c()
f (0 , z)(dz)
?
R
 R 



?
= c() P0 Z R P0 Z R






P1 Z R? P1 Z R c()

o`
u lon a utilise cette fois-ci le fait que f (0 , z)(dz) est une mesure de probabilite.
Finalement, cette derni`ere quantitt
car, dune part, R? est de la forme
 e est positive

?
Rc() donne par (7.4) et donc P0 Z R =  et dautre part, puisque R est la zone
de rejet dun test de niveau , on a P0 Z R .
D
efinition 7.8 (Test simple de Neyman-Pearson). Le test simple de lhypoth`ese simple
H0 : = 0 contre lalternative simple H1 : = 1 defini 4 par la region critique
R? = Rc() du Theor`eme 7.1 est appele test de Neyman-Pearson.
Corollaire 7.1. Si ? est le test de Neyman-Pearson de niveau de H0 : = 0 contre
H1 : = 1 , on a
(? ) .
Demonstration. Le test de Neyman-Pearson ? est plus puissant que tous les tests de
niveau , en particulier, il est plus puissant que le test artificiel = 1u , o`
u U est une
variable aleatoire 5 , independante de Z, de loi uniforme. En effet,


P0 = 1 = .
Donc est de niveau et puisque ? est le test de Neyman-Pearson, on a


(? ) () = P1 = 1 = .

Remarque 7.3. Une condition suffisante pour que lequation (7.4) ait une solution est
que la variable aleatoire f (1 , Z)/f (0 , Z) soit bien definie et ait une densite par rapport
`a la mesure de Lebesgue sur R+ sous P0 .
Exemple 7.1. Soit F la fonction de repartition dune loi de probabilite donnee sur R. On
consid`ere lexperience statistique engendree par un n-echantillon de loi P de fonction de
repartition F ( ), o`
u = {0, 0 } pour un point 0 6= 0 de R . On teste H0 : = 0
4. Cela suppose implicitement quune solution c() existe, ce qui sera verifie dans la plupart de nos
exemples.
5. Quitte `
a considerer une bonne extension de lespace de probabilite sur lequel sont definis les P , on
peut toujours faire  exister  une telle variable aleatoire.

170

Tests et r
egions de confiance

contre H1 : = 0 . Si X1 , . . . , Xn designe lechantillon observe, on a la representation


pour
Xi = + i , i = 1, . . . , n
o`
u les i sont des variables aleatoires independantes, identiquement distribuees, de loi
F sous P . Le probl`eme consiste donc `a tester labsence dun facteur additif = 0
sajoutant aux variables i ou non. Si lon suppose que F est absolument continue, de
densite f et que la variable aleatoire f (X 0 )/f (X) a une densite sous P avec ,
alors (7.4) a une solution et le test de Neyman-Pearson a pour zone de rejet
Rn, =

n
nY
o
f (Xi 0 )
> c() ,
f (Xi )
i=1

o`
u le choix de c() > 0 est regle par la condition de niveau du test :
P0

n
hX
i=1

log

i
f (Xi 0 )
> log c() = .
f (Xi )

Lorsque n est grand, on peut calculer une valeur approchee de c `a laide du theor`eme
central-limite.
Exemple 7.2. Considerons une seule observation X de loi de Poisson de param`etre
> 0. On teste H0 : = 0 contre H1 : 1 , avec 0 6= 1 . Ici, le test de Neyman-Pearson
a pour zone de rejet
o
n

X
Rn, = exp (1 0 ) (1 1
0 ) c() ,
o`
u le choix de c() garantit que le test est de niveau . Ici,
n
log c() (1 0 ) o
Rn, = X >
.
log 1 log 0
Pour trouver c(), on doit en principe resoudre
h
log c() (1 0 ) i
P 0 X >
= ,
log 1 log 0
mais la loi de X nest pas absolument continue, donc cette equation na pas de solution
en general. On cherche alors le plus petit seuil c() > 0 de sorte que
h
log c() (1 0 ) i
P 0 X >
.
log 1 log 0
En pratique, on proc`ede de la mani`ere suivante : par exemple, pour 0 = 5 et = 5%,
on trouve




P0 X > 9 = 0, 032, et P0 X > 8 = 0, 068,
et on rejette lhypoth`ese si {X > 9} et on laccepte si {X 9}. Ainsi, lerreur de premi`ere
esp`ece du test est plus petite que = 5%, mais on ne peut plus garantir que le test est
optimal au sens du Theor`eme 7.1.

7.3 Tests dhypoth`


eses composites

171

Remarque 7.4. Il existe une version plus sophistiquee du test de Neyman-Pearson, qui
permet de traiter le cas o`
u lequation (7.4) na pas de solution, comme dans lexemple
7.2. Il faut alors considerer une classe plus large que les tests simples, la classe des tests
randomises (voir par exemple [1]).

7.3
7.3.1

Tests dhypoth`
eses composites
Familles `
a rapport de vraisemblance monotone?

On fait la restriction importante ici R, et plus precisement est un intervalle


ouvert. On suppose la famille {P , } dominee, et on note une mesure dominante.
Comme dhabitude, on definit la famille de densites
f (, z) =

d P
(z), z Z, .
d

Lhypoth`ese de travail dans toute cette section est


Hypoth`
ese 7.1. Pour tout , on a f (, z) > 0, (dz)-presque partout.
Soit e un point arbitraire de lensemble des param`etres. On souhaite tester une
hypoth`ese nulle de la forme
H0 : e
contre lalternative
H1 :

e
> .

Pour appliquer le resultat de Neyman-Pearson, il faut, dune certaine mani`ere, pouvoir


traiter tous les tests de lhypoth`ese simple H0 : = 0 contre lalternative H1 : = 1
e
simultanement pour tous les 0 e et 1 .
D
efinition 7.9. Sous lHypoth`ese 7.1, la famille de densite {f (, ), }, avec R,
est dite `
a rapport de vraisemblance monotone sil existe une application T : Z R
mesurable, de sorte que pour tous 1 < 2 ,
f (2 , Z)
f (1 , Z)

est une fonction monotone de T (Z).

Remarque 7.5. Quitte `


a changer T en T , on peut toujours supposer que cette fonction
est croissante.
Th
eor`
eme 7.2 (Lehmann). Soit [0, 1] un niveau de risque. On suppose que R
est un intervalle ouvert et que la famille {f (, ), } satisfait lHypoth`ese 7.1 et est `
a
e ) > 0
rapport de vraisemblance monotone. Si, pour e , il existe une solution = (,
`
a


Pe T (Z) > = ,

172

Tests et r
egions de confiance

alors le test de region de rejet




e )
R? = T (Z) > (,
e et de puissance maximale
est de niveau pour tester H0 : e contre H1 : > ,
parmi tous les tests de niveau .
Demonstration. Cest une adaptation de la preuve du Lemme de Neyman-Pearson. Lhypoth`ese dune famille `
a rapport de vraisemblance monotone se traduit par la propriete
e la condition
suivante : pour tous > ,
f (, Z)
>c
e Z)
f (,
est equivalente `
a
e , c)
T (Z) (,
pour une certaine fonction . Notons ? le test simple de region critique R? et soit 0 > e
un point arbitraire de lalternative. Montrons que la puissance 0 (? ) est maximale parmi
tous les tests de niveau pour tester H0 contre H1 .
Si lon consid`ere le test de lhypoth`ese simple = e contre lalternative simple = 0 ,
on sait que le test de Neyman-Pearson
NP = 1 f (0 ,Z)
e
f (,Z)

e
>c(,0 ,)

e est la constante du Theor`eme 7.1, a la puissance maximale parmi tous les


o`
u c(, 0 , )
tests de niveau . Dapr`es notre remarque preliminaire, il secrit aussi sous la forme
NP = 1

 ,

0 ,)
e
e
T (Z) ,,c(,

e est determinee par la condition


et c(, 0 , )


e , c(, 0 , )
e = ,
Pe T (Z) ,
sil existe. Cest le cas, dapr`es les hypoth`eses, et on a aussi

e , c(, 0 , )
e = (,
e ).
,
Dapr`es le Lemme de Neyman-Pearson, on en deduit que ? a une erreur de seconde
esp`ece maximale au point 0 parmi tous les tests de niveau , et donc uniformement sur
lalternative.
00
Il reste `
a montrer que ? est bien de niveau . Soit e un point arbitraire de
lhypoth`ese nulle. Posons


0 = P00 ? = 1 .

7.3 Tests dhypoth`


eses composites

173
00

Alors 0 est le niveau du test ? utilise pour tester lhypoth`ese nulle = contre
e Alors, comme precedemment, le Lemme de Neyman-Pearson entrane
lalternative = .
00
?
que est optimal pour tester = contre lalternative = e au niveau 0 . Finalement,
le Corollaire 7.1 implique que la puissance de ? est plus grande que 0 , cest-`a-dire




(? ) P00 ? = 1 = 1 Pe ? = 0 ,
soit




P00 ? = 1 Pe ? = 0 = .
00

Comme est arbitraire, le theor`eme est demontre.

7.3.2

Exemples

Exemple 7.3. On observe X1 , . . . , Xn independantes, de loi N (, 2 ), o`


u 2 est connu,
et = R. On teste H0 : = 0 contre H1 : = 1 , avec 0 < 1 . On a
Z = (X1 , . . . , Xn ), et on prend pour mesure dominante la mesure de Lebesgue sur Rn .
Si g(x) = (2)1/2 exp(x2 /2) designe la densite de la loi gaussienne standard sur R, on
a
n
X
f (, Z) =
g( Xi )
i=1

n

1
1 X
2
exp

(X

)
i
2
2
(2 2 )n/2
i=1

n
1
n2 
1 X 2 n
X
+
X

exp

n
i
2 2
2
2 2
(2 2 )n/2
i=1

do`
u



f (1 , Z)
n
n
= exp 2 (1 0 )X n exp 2 (21 20 ) .
f (0 , Z)

2
La zone de rejet du test de Neyman-Pearson secrit


n

n
f (1 , Z) > cf (0 , Z) =
(1 0 )X n 2 (21 20 ) > c
2

2

0 + 1
2 log c
= Xn >
+
.
2
n(0 1 )
Le choix de c est regle par lequation

1
2 log c 
P0 X n > (0 + 1 ) +
= .
2
n(0 1 )

(7.5)

Sous P0 , les Xi sont distribuees comme des variables aleatoires gaussiennes independantes,
de moyenne 0 et de variance 2 . Donc, sous P0 , on peut ecrire

X n = 0 + (0 ) ,
(7.6)
n

174

Tests et r
egions de confiance

o`
u la loi de (0 ) sous P0 est la loi gaussienne standard N (0, 1). Donc lequation (7.5)
est equivalente `
a

P 0
soit

(0 )

>

n
log c 
= ,
(1 0 ) +
2
n 0 1

n
1 log c
= 1 (1 )
(1 0 ) +
2
n 0 1

o`
u (x) designe la fonction de repartition de la loi N (0, 1), do`
u finalement


(1 0 )2
n
c = exp
+
(0 1 )1 (1 ) .
2

Exemple 7.4. Dans le meme contexte, on a bien, pour > e


 n( )

e
n
f (, Z)
2
e2 ) ,
= exp
T
(X
,
.
.
.
,
X
)

1
n
e Z)
2
2 2
f (,
avec T (X1 , . . . , Xn ) = X n . La famille {f (, ), R} est `a rapport de vraisemblance
monotone, et un test optimal (uniformement plus puissant) de H0 : e contre H1 :
> e est donne par la region critique


R = Xn > c ,
e ) est calibre par lequation
o`
u c = c(,


Pe X n > c = ,
e
soit, dapr`es 7.6 en remplacant 0 par ,

Pe

e
()

>

i
n
e = ,
(c )

o`
u la loi de () sous Pe est la loi N (0, 1). Do`
u
e

1 (1 )
e ) = e +
c = c(,
.
n

On peut expliciter sur cet exemple la puissance du test optimal


? = 1

e
X n >+

1 (1)

7.4 p valeur

175

e en utilisant une fois de plus la representation


On a, pour tout point de lalternative > ,

()

X n = + n , o`
u la loi de sous P est la loi N (0, 1),

1 (1 ) 

(? ) = P + () > e +
n
n

i
h
n e
= P () >
( ) + 1 (1 )

 n

=1
(e ) + 1 (1 )


 n
e 1 (1 )
( )
=

en utilisant lidentite 1 (x) = (x) (qui traduit simplement le fait que la loi gaussienne standard est symetrique).
Remarque 7.6. Hormis quelques cas particuliers comme les familles `a rapport de
vraisemblance monotone 6 , on ne sait pas en general exhiber de tests optimaux au sens
de Neyman lorsque lhypoth`ese nulle ou lalternative sont composites. Pour developper
une theorie generale, nous nous placerons comme pour lestimation dans un cadre
asymptotique d`es le Chapitre 8.

7.4
7.4.1

p valeur
Notion de p valeur

Introduction sur un exemple


Reprenons lExemple 7.4 avec e = 0, o`
u lon teste au niveau lhypoth`ese nulle
H0 : 0 contre lalternative H1 : > 0. La r`egle de decision (optimale) prend la forme


On rejette lhypoth`ese H0 si X n >

1 (1 )

Si les observations Xi sont independantes, ont un moment dordre 2, et si n est grand,


alors cette approche est plausible. Toutefois, on ne connat pas en general, mais on
peut lestimer par
bn , de sorte quen pratique, on va rejeter lhypoth`ese si
Xn >
bn

1 (1 )

.
n

(7.7)

On se donne sa valeur de favorite, par exemple 5%, et on effectue le test : on accepte


ou on rejette, en fonction du nombre de donnees n, des valeurs calculees `a partir des
observations X n ,
bn , et de la valeur choisie, selon la r`egle de decision (7.7).
6. Et le cas des echantillons gaussiens etudies plus loin dans le Section 7.6.1.

176

Tests et r
egions de confiance

Imaginons que lon rejette lhypoth`ese. Quaurions-nous fait pour le choix de = 1% ?


Ou bien = 1/1000, etc. ? En prenant de plus en plus petit, il y a fatalement un seuil
`
a partir duquel on va systematiquement accepter lhypoth`ese : pour se garder contre
lerreur de premi`ere esp`ece, on est pret `a augmenter les faux positifs 7 .
D
efinition de la p -valeur dun test
En pratique, accepter ou rejeter lhypoth`ese na donc que peu de signification scientifique, surtout si est proche du seuil limite o`
u la decision va basculer : en baissant ,
on accepte lhypoth`ese (ou bien en augmentant on rejette lhypoth`ese). Par contre, le
seuil de basculement de la decision (qui depend des observations) a une signification et
une interpretation : cest ce que lon appelle la p-valeur du test.
D
efinition 7.10 (p valeur). Soit, pour tout [0, 1], une famille de tests simples
de niveau pour tester lhypoth`ese H0 contre lalternative H1 . On note R la zone de
rejet de . On appelle p-valeur du test la quantite
p valeur(Z) = inf{, Z R }.
La p-valeur dun test (de la famille de tests indicee par le niveau ) est le plus petit
niveau pour lequel on rejette H0 .
R`
egle dinterpr
etation
On est confiant vis-`
a-vis de la decision de ne pas rejeter H0 lorsque la p -valeur du test
est grande. Voici quelques interpretations courantes qui sevissent dans les applications
(extrait du livre de Wasserman [11]) de linterpretation des ordres de grandeur des p valeurs :
p valeur
< 0.01
0.01 0.05
0.05 0.1
> 0.1

suspicion de rejet
suspicion tr`es forte contre H0
suspicion forte contre H0
suspicion faible contre H0
peu ou pas de suspicion contre H0

Attention ! Une p -valeur grande nest pas un indicateur en faveur de lacceptation de


lhypoth`ese H0 , mais plutot en faveur du non-rejet (suggerant en pratique denvisager
dautres tests plus precis ou plus co
uteux). Une p -valeur peut etre grande pour deux
raisons :
effectivement, lhypoth`ese H0 est vraie,


7. Dans le cas limite = 0, on ne peut pas se permettre de rejeter lhypoth`ese a


` tort, et ceci
oblige  le test a
` accepter systematiquement lhypoth`ese.

7.4 p valeur

177

lhypoth`ese H0 nest pas vraie, mais le test est tr`es peu puissant (beaucoup de faux
positifs) et son erreur de seconde esp`ece est grande.
Concernant la seconde raison, prenons par exemple le test trivial = 1 . Sa p-valeur
vaut 1 et prend donc la plus grande valeur possible. Mais son erreur de seconde esp`ece
est maximale.

7.4.2

Propri
et
es de la p -valeur

On peut preciser un peu le sens mathematique des remarques precedentes. On se


restreint au cas o`
u lhypoth`ese nulle est simple : on teste H0 : = 0 contre H1 = 6= 0 .
Proposition 7.1. Soit { , 0 1} une famille de tests exactement 8 de niveau
dont la zone de rejet est de la forme


R = T (Z) c
pour une certaine application T : Z R mesurable. Alors, si Ze designe une copie
independante de Z, on a


e T (Z) | Z .
p valeur(Z) = P0 T (Z)
De plus, si la loi de T (Z) est absolument continue sous P0 , alors la loi de p valeur(Z)
est uniforme sous P0 .
Le premier resultat de la Proposition 7.1 sinterpr`ete de la facon suivante : la pe dune experience  copie  soit
valeur est la probabilite sous P0 quune observation T (Z)
superieure `
a ce que lon a observe, cest-`a-dire T (Z).
Demonstration. Lapplication c : [0, 1] R est decroissante et c0 = + et c1 = .
On a lidentite
cpvaleur(Z) = T (Z).
Il vient




e T (Z) | Z = P T (Z)
e cpvaleur(Z) | Z
P0 T (Z)
0
= p valeur(Z)
par definition de lerreur de premi`ere esp`ece, en utilisant lhypoth`ese que le test est
exactement de niveau .
La seconde partie de la proposition est standard. Si F designe la fonction de repartition
e posons
de T (Z),



e T (Z) | Z = F T (Z) .
Y = P0 T (Z)
8. Au sens o`
u lerreur de premi`ere esp`ece vaut exactement .

178

Tests et r
egions de confiance

Alors, pour tout reel x, on a







P0 Y x = P0 F T (Z) x


= P0 T (Z) F 1 (x)

= F F 1 (x) = x
si x [0, 1], et o`
u F 1 (x) = inf{t R, F (t) x} (Meleard [5], paragraphe 4.2.4 p. 78).
Si x 0, la probabilite ci-dessus vaut 0 et si x > 1, elle vaut 1. Donc la loi de Y sous
P0 est uniforme sur [0, 1], ce qui ach`eve la demonstration.

7.5

R
egions de confiance

Nous avons dej`


a construit des intervalles de confiance dans le contexte de la precision
destimation pour le mod`ele dechantillonnage general du Chapitre 3. Nous formalisons
un peu dans cette section la notion et le lien naturel avec les tests dhypoth`ese, que
nous avons deja utilises au Chapitre 3.
Situation
On consid`ere lexperience statistique engendree par lobservation dun n-echantillon
X1 , . . . , Xn o`
u la variable aleatoire reelle Xi suit la loi P , avec Rd , d 1. On peut
immediatement generaliser ce qui va suivre `a une experience statistique arbitraire, avec
un simple co
ut notationnel.

7.5.1

R
egion de confiance

D
efinition 7.11. Soit [0, 1]. Une region de confiance de niveau 1 pour le
param`etre est un ensemble
C = C (X1 , . . . , Xn ) Rd ,
tel que


, P C(X1 , . . . , Xn ) 1 .

(7.8)

La propriete (7.8) est appelee  propriete de couverture  de la region C (X1 , . . . , Xn ).


Bien quen principe arbitraire, on construit en pratique des regions de confiance tr`es
particuli`eres. Si R, on utilise le plus souvent des intervalles. Construire un intervalle
de confiance de niveau 1 revient alors `a se donner deux statistiques g (X1 , . . . , Xn )
et d (X1 , . . . , Xn ) avec
g (X1 , . . . , Xn ) d (X1 , . . . , Xn )

7.5 R
egions de confiance

179

telles que, pour tout ,




P g (X1 , . . . , Xn ) d (X1 , . . . , Xn ) 1 .
Posee comme cela, la construction des statistiques g (X1 , . . . , Xn ) et d (X1 , . . . , Xn ) na
pas dinteret : nimporte quel intervalle contenant conviendra. La qualite dun intervalle
de confiance de niveau 1 se mesurera `a sa longueur (en generale aleatoire) que lon
cherche `
a rendre la plus petite possible, sous la contrainte de la propriete de couverture.
Dans ce sens, la problematique des tests et des intervalles de confiance est similaire.

7.5.2

Fonctions pivotales : le cas non-asymptotique

Dans le cas particulier o`


u lensemble des param`etres est de dimension 1, nous
examinons une methode de construction de regions de confiance, tr`es particuli`ere, mais
qui sera mise en uvre de mani`ere plus systematique dans le cadre asymptotique (voir
8.2). Elle est fortement apparentee `a la construction des tests.
Supposons que lon dispose dune variable aleatoire 9 S(, X1 , . . . , Xn ) `a valeurs dans
R dont la loi sous P ne depende pas de . En particulier, pour tout intervalle I de R, la
probabilite


P S(, X1 , . . . , Xn ) I
ne depend pas de .
D
efinition 7.12. On appelle pivot toute variable aleatoire S(, X1 , . . . , Xn ) dont la loi
ne depend pas de .
Exemple 7.5.
1. Si X1 , . . . , Xn sont independantes, de meme loi N (, 2 ), o`
u 2 est connu et
= R est le param`etre inconnu, alors
S(, X1 , . . . , Xn ) =

Xn

est pivotale.
2. Si X1 , . . . , Xn sont independantes, de meme loi exponentielle de param`etre , o`
u
R+ \{0} est le param`etre, alors S(, X1 , . . . , Xn ) = X n est pivotale. En effet,
la loi de X sous P est exponentielle de param`etre . Sa densite par rapport `a la
mesure de Lebesgue secrit g(), o`
u g(x) = exp(x)1{xR+ } est la densite de la
loi exponentielle de param`etre 1. De mani`ere generale, si X a pour densite f par
rapport `
a la mesure de Lebesgue, alors X a pour densite 1 f (1 ) si 6= 0.
Donc X a pour densite g() qui ne depend pas de . Par suite, puisque
n

S(, X1 , . . . , Xn ) =

1X
Xi ,
n
i=1

9. Attention : S(, X1 , . . . , Xn ) depend de , elle nest pas observable et ce nest pas une statistique.

180

Tests et r
egions de confiance
et que les Xi sont independantes, la loi de S(, X1 , . . . , Xn ) ne depend pas de .

Une methode de construction de pivot est la suivante. Soit une variable aleatoire
de meme loi que le pivot. Pour [0, 1], on consid`ere la classe des intervalles I R
verifiant




P S(, X1 , . . . , Xn ) I = P I 1 .
(7.9)
Alors la region


I = , S(, X1 , . . . , Xn ) I
est une region de confiance pour de niveau 1 . On est alors ramene `a choisir dans
la classe des intervalles I satisfaisant (7.9) de sorte que le diam`etre de I soit le plus
petit possible.
M
ethode g
en
erique de construction dun pivot
Dans les deux exemples precedents, les pivots se basent sur des estimateurs preliminaires du param`etre . Si bn est un estimateur de , une methode generique de construction
dun pivot est la suivante.


On note x ; (x) = P bn x , la fonction de repartition de bn au point .
Proposition 7.2. Si
(i) ; (x) est monotone pour tout x R,
(ii) x ; (x) est continue pour tout ,
alors
S(, X1 , . . . , Xn ) = (bn )
est un pivot de loi uniforme sur [0, 1]. En particulier, pour tout [0, 1]
h
i
P
(bn ) 1
=1
2
2
et


1
I = 1
/2 , 1/2
est un intervalle de confiance pour de niveau 1 .
Remarque 7.7. De meme, pour tout [0, 1],


1
I() = 1
, (1)
1
et on peut chercher la valeur qui minimise 1
(1) pour trouver le meilleur
intervalle de confiance parmi la classe des estimateurs donnes par le pivot.

7.5.3

Dualit
e tests r
egions de confiance

Il existe un lien naturel entre intervalles de confiances et tests que nous avons dej`
a
mis en evidence au Chapitre 3.

7.5 R
egions de confiance

181

Un exemple illustratif
Considerons lexperience statistique engendree par lobservation de X1 , . . . , Xn , independantes
et de meme loi N (, 2 ), o`
u 2 > 0 est connu et = R est le param`etre inconnu.
Soit [0, 1]. Posons, pour 0 ,
n

o
A (0 ) = 0 X n 1 1
2
n
et

o
R (0 ) = 0 X n > 1 1
.
2
n
Alors lensemble R (0 ) sinterpr`ete naturellement comme la zone de rejet dun test de
niveau pour lhypoth`ese
H0 : = 0 ,

contre

H1 : 6= 0 .

De plus, A (0 ) = Rc (0 ) correspond `a la zone o`


u lon accepte lhypoth`ese.
Proposition 7.3. Si, pour tout 0 , il existe un test de niveau et de zone de rejet
R (0 ) de lhypoth`ese nulle H0 : = 0 contre lalternative H1 : 6= 0 , alors, pour tout

n
o
C = C (X1 , . . . , Xn ) = , (X1 , . . . , Xn ) R ()c
est une region de confiance de niveau 1 pour .
Reciproquement, si C (X1 , . . . , Xn ) est une region de confiance de niveau 1 pour
le param`etre , alors, le test de lhypoth`ese nulle H0 : = 0 contre lalternative
6= 0 de region critique


R (0 ) = 0 Cc
est de niveau .
Demonstration. On a




P C(X1 , . . . , Xn ) = P (X1 , . . . , Xn ) R(0 )c


= 1 P (X1 , . . . , Xn ) R(0 )
1 .
Reciproquement, il suffit de noter que pour tout 0 , on a




P0 (X1 , . . . , Xn ) R(0 ) = 1 P0 (X1 , . . . , Xn ) Rc


= 1 P0 0 C
.

Remarque 7.8. Ce resultat, relativement immediat, ne nous dit rien sur la puissance
du test dune part, ni sur la qualite (le diam`etre) de la region de confiance dautre part.
Ces deux notions sont evidemment etroitement liees.

182

7.6
7.6.1

Tests et r
egions de confiance

Tests dans le mod`


ele de r
egression lin
eaire
Echantillons gaussiens

Situation
Dans toute cette section, on consid`ere lexperience statistique engendree par un nechantillon de la loi N (, 2 ), o`
u = (, 2 ) = R R+ {0}. Il y a concidence
dans ce cas tr`es simple avec le mod`ele de regression lineaire `a  design  deterministe :
les observations sont Y = (Y1 , . . . , Yn ) et on a la representation
Y = M + ,

(7.10)

o`
u
M = (1 . . . 1)T (n fois) et = (1 . . . n )T ,
les i etant sous P des variables gaussiennes standard. Lestimateur du maximum de
vraisemblance est

bnmv =
bnmv , (b
n2 ) mv
n


X
1
= Y n, n
(Yi Y n )2 ,
i=1

voir Chapitre 5, Proposition 5.5. Une autre mani`ere peut-etre plus naturelle dans ce
contexte est de maximiser directement la log-vraisemblance
n

n
1 X
`n (, 2 ), Y1 , . . . , Yn = log(2 2 ) 2
(Yi )2 .
2
2
i=1

On a


`n (, 2 ), Y1 , . . . , Yn

1
2

Pn

i=1 (Yi

n

n
1 X

2 ), Y , . . . , Y

(,

+
(Yi )2 ,
2

1
n
n
2 2 2 4
i=1

ce qui nous fournit le point critique


n


1X
bn = Y n ,
(Yi Y n )2 .
n
i=1

On verifie ensuite que le point critique est lunique maximum global et donc bn = bnmv .
Un estimateur sans biais de 2 est
n
1 X
n
2
(Yi Y n )2 =
(b
2 ) mv .
sn =
n1
n1 n
i=1

Les proprietes des vecteurs gaussiens et des lois derivees etudiees au Chapitre 1 nous
donnent gratuitement la loi jointe de (Y n , s2n ).

7.6 Tests dans le mod`


ele de r
egression lin
eaire

183

Lemme 7.6.1. Sous P , les variables Y n et s2n sont independantes. De plus, Y n suit la
2
2
loi N , n et (n 1) sn2 suit la loi du 2 `
a n 1 degres de liberte.
Demonstration. Cest une application de la Proposition 5.10 qui repose sur la Proposition
1.1 (Cochran) du Chapitre 1.
Batterie de tests classiques
Soit 0 R et 02 > 0 donnes.
1. On teste
H0 : 0

contre

H1 : > 0 .

Un test de niveau est donne par la zone de rejet




T
R = T (Y) > q1,n1
,
o`
u

T (Y) =

1
n1

n(Y n 0 )
 ,
Pn
2 1/2
i=1 (Yi Y n )

T
o`
u q1,n1
est le quantile dordre 1 de la loi de Student `a n 1 degres de
liberte.
Si lon veut tester
H0 : 0 contre H1 : < 0 ,

on prend la zone de rejet definie par




T
R = T (Y) < q1,n1
.
2. On teste
H0 : = 0

contre

H1 : 6= 0 .

Un test de niveau est par exemple le test defini par la zone de rejet



T
R = T (Y) > q1/2,n1
.
Il nest pas optimal.
3. On teste
H0 : 2 02

contre

H1 : 2 > 02 .

Un test de niveau est defini par la zone de rejet




2
R = V (Y) > q1,n1
,
o`
u
V (Y) =

n
1 X
(Yi Y )2
02 i=1

184

Tests et r
egions de confiance
2

et q1,n1
est le quantile dordre 1 de la loi du 2 `a n 1 degres de liberte. Si
lon veut tester
H0 : 2 02 contre H1 : 2 < 02 ,

on prend la zone de rejet definie par




2
R = V (Y) < q1,n1
,
4. Finalement, si lon teste
H0 : = 0

contre

H1 : 2 6= 02 ,

on construit un test de niveau en definissant le test de zone de rejet comme




R = V (Y) < c1 () ou V (Y) > c2 () ,
o`
u les constantes ci (), i = 1, 2 sont definies par les conditions
 
R, P(,0 ) R =
et


R, E,0 V (Y)1[c1 (),c2 ()] V (Y) = (n 1)(1 ).
Un type de tests couramment rencontres en pratique sont les tests relatifs `a deux echantillons
gaussiens. Cest lobjet de lexercice 7.1.
Sur loptimalit
e des tests dans le cas gaussien
Nous avons affirme loptimalite de certains des tests presentes dans le paragraphe
precedent. Pour la demontrer, on prouve dabord quun test optimal peut etre construit
par la statistique de test annoncee (la moyenne empirique, la variance empirique, la
statistque T de Student, et ainsi de suite), puis on optimise les param`etres de sorte de
garantir le niveau voulu pour une erreur de seconde esp`ece minimale, et on retrouve ainsi
les tests presentes ci-dessus.
Le premier point est delicat et utilise la notion de statistique exhaustive definie au
Chapitre 6 et le fait que les mod`eles gaussiens consideres appartiennent `a une famille
remarquable de mod`eles statistiques 10 .

7.6.2

Test dappartenance `
a un sous-espace lin
eaire

Situation
On se place dans le cadre du Chapitre 5, sous lHypoth`ese de la Proposition 5.6 et
dans le cadre de la regression multiple gaussienne. On observe
Y = M + , = Rd
10. Les mod`eles exponentiels, dont letude depasse le cadre de ce cours.

7.6 Tests dans le mod`


ele de r
egression lin
eaire

185

et on suppose
MT M > 0.
On suppose de plus que suit la loi normale sur Rn de matrice de variance-covariance
2 fois lidentite, cest-`
a-dire les i sont independantes, de loi N (0, 2 ).
Un premier cas simple
Soit a R. On veut tester H0 : j = a contre H1 : j 6= a, pour la composante j du
vecteur = (1 , . . . , d )T , o`
u la direction j est fixee `a lavance.
Un corollaire de la Proposition 5.10 du Chapitre 5 est le resultat suivant
Lemme 7.6.2. On a, pour tout , legalite en loi sous P
(bnmc )j j d
q
= N (0, 1),
(MT M)1
jj
o`
u (MT M)1
esigne lelement de la j-i`eme ligne et de la j-i`eme colonne de la matrice
jj d
T
1
(M M) .
Demonstration. On a, dapr`es la Proposition 5,
d
bnmc j = N 0, 2 (MT M)1

en loi sous P , donc, en posant vj = (0, . . . , 0, 1, 0, . . . , 0) o`


u le terme non-nul est `a la
mc
mc
T
b
b
j-i`eme place, la variable aleatoire (n )j j = (n ) vj est gaussienne, de moyenne


E (bnmc )T vj = 0
et de variance
E

(bnmc )T vj

2 



= vjT E (bnmc )(bnmc )T vj
= 2 vjT (MT M)1 vj
= 2 (MT M)1
jj .

Si est inconnu, alors, en introduisant lestimateur s2n , le Lemme 7.6.2 devient


Lemme 7.6.3. On a, pour tout , legalite en loi sous P ,
(bnmc )j j d
q
= T(n d),
sn (MT M)1
jj
o`
u T(n p) est la loi de Student de param`etre n d.

186

Tests et r
egions de confiance

b mc
Demonstration. Posons = (MT M)1
jj (n j j ) et
K = (n d)

kY M bnmc k2
s2n
=
2
2

dapr`es la Proposition 5.10. Alors sous P , la variable est gaussienne centree reduite,
et K suit la loi du 2 `
a n d degres de liberte dapr`es la Propostion 1.1 (Cochran), et
est independante de Y donc de .
En consequence, le test defini par la region critique


bnmc a



j
T
R = q
,
> q1/2,nd

bn (MT M)1
jj
T
o`
u q1/2,nd
designe le quantile dordre 1 de la loi de Student `a n d degres de
liberte est de niveau pour tester H0 : j = a contre H1 : j 6= a.

Remarque 7.9. Avec ce resultat, on na pas dinformation sur lerreur de seconde


esp`ece (la puissance du test), que lon doit etudier separement.
Une hypoth`
ese plus g
en
erale
Soit (a1 , . . . , am ) Rm , avec m < d et soit
1 j1 < j2 < . . . < jm d
une direction donnee. On souhaite tester
H0 : j1 = a1 , . . . , jm = am
contre lalternative
H1 : il existe un indice k {1, . . . , m}, tel que jk 6= ak .
Le cas le plus utile : la s
election de variables
Cest un cas particulier de la situation precedente utile dans de nombreuses situations
pratiques. On se place dans le mod`ele lineaire
Y = M + ,
o`
u chaque observation Yi secrit
Yi = T xi +i =

d
X
i=1

i xi + i , i = 1, . . . , n.

7.6 Tests dans le mod`


ele de r
egression lin
eaire

187

(On peut poser x1 = 1 si lon souhaite incorporer une  ordonnee `a lorigine ). Dans
le cas de la selection de variables, on teste si les k premi`eres variables influencent Y , les
d k suivantes ne jouant pas de role, ce qui se traduit par lhypoth`ese nulle
H0 : k+` = 0, ` = 1, . . . , ` = d k,
contre lalternative
H1 : il existe 1 ` d k, k+` 6= 0.
La selection de variables est un probl`eme vaste et tr`es important en pratique. On presente
quelques complements sur ce sujet dans lExercice 7.2.
Les F-tests
Cest la cadre le plus general, qui inclut les situations decrites precedemment.
Soit G la matrice dune application lineaire de Rd dans Rm , avec m d, et soit
b = (a1 , . . . , am )T un vecteur de Rm arbitraire. On veut tester lhypoth`ese nulle
H0 : G = b
contre lalternative
H1 : G 6= b.
On suppose que G est de la forme

0 ...
.. . .
G= .
.
0 ...

0
..
.
0

1 ...
.. . .
.
.
0 ...

0
.. ,
.
1

o`
u le premier bloc de 0 a m lignes et d m colonnes, alors que le second bloc est la
matrice identite `
a m lignes et m colonnes.
Proposition 7.4. Sous lhypoth`ese, cest-`
a-dire sous P avec G = b, on a legalite en
loi

G bnmc N b, 2 G(MT M)1 GT .
Demonstration. Cest une application de la Proposition 1.1 (Cochran).
Notons quici, la matrice de variance-covariance est de dimension m. Donc, pour tout
point de lhypoth`ese , cest-`
a-dire verifiant G = b, le vecteur m-dimensionnel G bnmc
est gaussien, de moyenne b et de matrice de variance-covariance
U = 2 G(MT M)1 GT .

188

Tests et r
egions de confiance

Notons que puisque MT M est inversible, la matrice U est definie positive. Posons
= (G bnmc b)T U1 (G bnmc b).
Donc sous P avec G = b, la variable aleatoire suit la loi du 2 `a m-degres de libertes.
On sait alors construire un test de niveau lorsque est connu.
Si est inconnu, on peut lestimer comme precedemment, mais dans le contexte
mod`ele lineaire gaussien general, o`
u est de dimension d 1, voir Proposition 5.10 du
Chapitre 5. Alors
kY M bnmc k2

bn2 =
,
nd
et en posant
b =
U
bn2 G(MT M)1 GT ,
la statistique
F (Y) =

b 1 (G b mc b)
(G bnmc b)T U
n
m

est pivotale sous P avec G = b et suit la loi de Fisher-Snedecor `a (m, n d) degres de


liberte. Un test de niveau est alors fourni par la region de rejet


FS
,
R = F (Y) > q1,m,nd
FS
designe le quantile dordre 1 de la loi de Fisher-Snedecor `a (m, n d)
o`
u q1,m,nd
degres de liberte. L`
a encore, ceci ne nous fournit pas dinformation sur lerreur de seconde
esp`ece du test que lon doit etudier separement.

7.7

Exercices

Exercice 7.1. Soient X1 , . . . , Xm et Y1 , . . . , Yn deux echantillons independants, de taille


respective m et n, de loi respective N (1 , 12 ) et N (2 , 22 ). On teste
H0 : 1 = 1

contre

H1 : 1 6= 2 .

Construire un test base sur la statistique


Xm Y n
Tn = q
,
(1) 2
(2) 2
(sm ) + (sn )
(1)

o`
u (sm )2 =

1
m

Pm

2
i=1 (Xi X m )

(2)

et (sn )2 =

1
n

Pn

2
i=1 (Yi Y n ) ,

et etudier sa consistance.

7.7 Exercices

189

Exercice 7.2 (R`egle de Bonferroni en test multiple). On souhaite faire m tests simultanement. On teste
H0,i contre H1,i , pour i = 1, . . . , m
(i)

(i)

Etant donnes m tests { , i = 1, . . . , m} o`


u est un test de niveau pour lhypoth`ese
H0,i contre lalternative H1,i , on construit les p-valeurs associees
(i)

p valeur( ),

i = 1, . . . , m.
(i)

La r`egle de Bonferroni consiste `


a rejeter lhypoth`ese H0,i si p valeur( ) < /m.
Montrer que la probabilite de rejeter `a tort une hypoth`ese nulle parmi les m hypoth`eses
nulles est inferieure `
a .

190

Tests et r
egions de confiance

Chapitre 8

Tests asymptotiques
On a vu dans le chapitre precedent que, mis `a part des cas relativement particuliers,
on na pas de methode de construction de test systematique. Dans ce chapitre, on se place
dans le regime asymptotique n , lorsque linformation de mod`ele est  grande .
Dans ce cas, d`es que le mod`ele est suffisamment regulier au sens du Chapitre 6 et que
lon dispose destimateurs  raisonnables , on sait construire des tests de facon un peu
plus systematique.
Cependant, on ne pourra pas obtenir loptimalite dune suite de tests de niveau
(asymptotique) donnee aussi facilement quau chapitre precedent ; on se contentera dune
notion plus faible : la convergence ou consistance de la suite de tests.

8.1

Convergence dune suite de tests

On se place dans la problematique du Chapitre 7. Etant donne une suite dexperiences


statistiques E n ayant pour ensemble de param`etres Rd avec d 1, on teste
H0 : 0 contre H1 : 1 , avec 0 1 = .
On se donne un test ou plut
ot une suite de tests 1 simples n dans E n de lhypoth`ese
nulle H0 contre lalternative H1 .
D
efinition 8.1 (Niveau asymptotique dune suite de tests). Soit [0, 1]. Le test n
est asymptotiquement de niveau si son erreur de premi`ere esp`ece est asymptotiquement
plus petite que :


0 , lim sup P n = 0 .
n

1. De la meme mani`ere que lon parle destimateur pour une suite destimateurs, on utilisera le terme
test pour designer une suite de tests.

192

Tests asymptotiques

D
efinition 8.2. Le test n est convergent ou consistant si sa puissance asymptotique
vaut 1, cest-`
a-dire si son erreur de seconde esp`ece est asymptotiquement nulle :




1 , lim P n = 1 = 1 = 1 lim P n = 1 .
n

8.2
8.2.1

Tests de Wald
Le cas dune hypoth`
ese nulle simple

Traitons dabord le cas du test dune hypoth`ese nulle simple H0 : = {0 } contre


H1 : 6= 0 . Placons-nous en dimension d = 1 pour simplifier. Supposons que lon dispose
dun estimateur bn asymptotiquement normal, cest-`a-dire pour lequel on a, pour tout
,
 d


n bn N 0, v() ,
o`
u v() > 0, la convergence ayant lieu en loi sous P . On suppose que la fonction ; v()
est reguli`ere. Sous lhypoth`ese, cest-`a-dire sous P0 , on a la convergence
bn 0 d
np
N (0, 1),
v(0 )
en loi sous P0 , ou encore, en appliquant la Proposition 1.8 (Slutsky)
Tn =
en loi sous P0 . On en deduit

bn 0 d
nq
N (0, 1)
v(bn )

(8.1)

presque immediatement  la construction suivante

Proposition 8.1. Pour tout (0, 1), le test n defini par la zone de rejet


Rn, = Tn 1 (1 /2) ,
o`
u 1 (1 ) designe le quantile dordre 1 de la loi normale standard, est asymptotiquement de niveau et consistant.
Demonstration. Le controle du niveau asymptotique de n est une consequence immediate
de la convergence (8.1) :




P0 n = 1 = P0 Tn 1 (1 /2) .
Montrons la consistance. Soit 6= 0 un point de lalternative. On ecrit
Tn =

0
bn
+ nq
.
nq
v(bn )
v(bn )

(8.2)

8.2 Tests de Wald

193

Le premier terme tend en loi sous P vers la loi N (0, 1), en appliquant la convergence
(8.1) avec `
a la place de 0 . Le denominateur du second terme converge en probabilite
sous P vers v(), et le numerateur diverge vers . Donc
P

|Tn |
+

et donc n
1 pour tout 6= 0 . On en deduit la consistance de n (par exemple par
convergence dominee).

Remarque 8.1. Ici, le choix de la zone de rejet ne simpose pas naturellement. Si


D R est tel que


P D = 1
(8.3)
o`
u N (0, 1), alors le test n (D ) defini par la zone de rejet


Rn (D ) = Tn
/ D
est asymptotiquement de niveau .
Remarque 8.2. Pour construire le test n de la Proposition 8.1, on a choisi la zone
dacceptation


D = 1 (1 /2), 1 (1 /2)
car elle est de longueur minimale parmi les zones D satisfaisant (8.3) mais ce choix na
pas dimportance si lon netudie pas plus precisement la puissance du test. Si lon se
contente simplement de la consistance, il suffit dimposer en plus que D est borne. Dans
P
ce cas, on a toujours n (D )
1 pour tout point 6= 0 de lalternative et n (D ) est
consistant.
Remarque 8.3. Le test n base sur la statistique Tn depend de v(). Intuitivement, il sera dautant meilleur (dautant plus puissant) que v() sera petit. Cela se
voit immediatement sur la decomposition (8.2) : le terme de droite diverge  dautant
mieux  que v(bn ) et donc asymptotiquement v() est petit, sans que cela affecte son
erreur de premi`ere esp`ece.
Si on est dans un mod`ele dechantillonnage regulier, on aura donc interet `a prendre lestimateur de variance asymptotique minimale, cest-`a-dire lestimateur du maximum de
vraisemblance, qui fournit v() = I()1 .
Dans la convergence (8.1), on aurait pu, de mani`ere equivalente, remplacer la statistique Tn par son carre, et obtenir
Tn2 = n

(bn 0 )2 d
2 (1)
b
v(n )

194

Tests asymptotiques

en loi sous P , o`
u 2 (1) designe la loi du 2 `a 1 degre de liberte. En construisant un test
base sur la statistique Tn avec comme loi limite, on obtient la zone de rejet
n
o
e n, = T 2 q 2
R
n
1,1
2

o`
u q1,1
designe le quantile dordre 1 de la loi du 2 `a 1 degre de liberte. Sans
e n, = Rn, !
surprise, R

8.2.2

Hypoth`
ese nulle composite

On se place dans le cadre general Rd , et on suppose que 0 peut secrire sous la


forme


0 = , g() = 0
o`
u lapplication
g : Rd Rm
est reguli`ere. Par exemple, lhypoth`ese nulle simple H0 : = 0 pour un point 0
donne peut toujours se ramener `a la condition g() = 0, avec g() = 0 .
Remarque 8.4. En dimension d = 1, lhypoth`ese composite H0 : > 0 secrit bien
sous la forme g() = 0 avec g() = 1{0 } , mais la fonction ; g() nest pas continue
en 0 .
Construction du test de Wald
Hypoth`
ese 8.1. Lapplication g : Rd Rm est contin
ument differentiable. De plus, sa
d
m
differentielle, en tant quelement de L(R , R ), est de rang maximal m en tout point
de (linterieur 2 de) 0 .
On notera Jg () la matrice de la differentielle de g au point . On suppose quil existe
un estimateur bn de asymptotiquement normal, au sens suivant :
Hypoth`
ese 8.2.

 d


n bn N 0, V () ,

en loi sous P , o`
u V () est definie positive, et ; V () est continue pour tout .
Proposition 8.2. Sous lHypoth`ese 8.1, en tout point 0 de lhypoth`ese, cest-`
a-dire
verifiant g() = 0, on a


d
ng(bn ) N 0, Jg ()V ()Jg ()T
sous P lorsque n .
2. En ne tenant pas compte de cette restriction quand 0 se reduit a
` un seul point.

8.2 Tests de Wald

195

Corollaire 8.1. Posons g () = Jg ()V ()Jg ()T dans la proposition precedente. On


a la convergence
d
Tn2 (g) = ng(bn )T g (bn )1 g(bn ) 2 (m)
(8.4)
sous P , o`
u 2 (m) designe la loi du 2 `
a m degres de liberte. Pour tout (0, 1), le test
defini par la region critique


2
Rn, = Tn2 q1,m
,
(8.5)
2

o`
u q1,m
designe le quantile dordre 1 de la loi du 2 `
a m degres de liberte, est
asymptotiquement de niveau et consistant.

D
efinition 8.3 (Test de Wald). On appelle test de Wald de H0 : g() = 0 contre
H1 : g() 6= 0 associe `
a lestimateur asymptotiquement normal bn le test base sur la
2
statistique Tn definie en (8.4) de region critique Rn, defini en (8.5). La statistique Tn2
sappelle statistique de Wald (associee `
a lestimateur bn ).
Remarque 8.5. Le test de la Proposition 8.1 est un test de Wald, dans la cas tr`es
particulier o`
u g() = 0 en dimension 1. En particulier, g 0 () = 1 en tout point
R.
Demonstration de la Proposition 8.2 et de son Corollaire 8.1. La proposition est simplement la version multidimensionnelle de la  methode delta , (Proposition 1.11) appliquee
`a g(bn ) dapr`es lHypoth`ese 8.2, en utilisant le fait que sous lhypoth`ese nulle, g() = 0.
Pour son corollaire, on en deduit dabord la convergence

ng ()1 g(bn ) N (0, Idm ),

en loi sous P , puis, par la Proposition 1.8 (Slutsky), par continuite de ; g ()

d
ng (bn )1 g(bn ) N (0, Idm ).

En passant `
a la norme au carre

d
k ng (bn )1 g(bn )k2 = ng(bn )T g (bn )1 g(bn ) kN (0, Idm )k2 2 (m).
On en deduit que le test donne par la region de rejet Rn, est asymptotiquement de
niveau .
Montrons quil est consistant. On raisonne comme en dimension 1 : si 1 est un
point de lalternative, on a g() 6= 0, on force le terme g() dans Tn et on ecrit
2
2
Tn2 = Tn,1
+ Tn,2
,

avec
T

2
Tn,1
= n g(bn ) g() g (bn )1 g(bn ) g() ,

196

Tests asymptotiques

et un terme additionnel
2
Tn,2
= Un + Vn ,

qui se redecompose en
Un = ng()T g (bn )1 g()
et

T

Vn = n g(bn ) g() g (bn )1 g() + ng()T g (bn )1 g(bn ) g() .

Pour tout , le terme Tn,1 converge en loi sous P vers la loi du 2 `a m degres de liberte :
cest la  methode delta  appliquee `a g(bn ) lorsque g() 6= 0. Il reste `a demontrer que
P
P
Tn,2 diverge. Par continuite, Vg (bn )
Vg (), donc Un
+. Le terme Vn diverge de
meme, mais on ne peut pas controler son signe. Il reste `a verifier que Vn est petit devant

Un . Pour cela, on ecrit Vn = nVn , avec


T


Vn = n g(bn ) g() g (bn )1 g() + ng()T g (bn )1 g(bn ) g()


et chacun des termes converge separement en loi sous P via la Proposition 8.2. Donc
P
Vn /Un
0 et le corollaire est demontre.

8.3

Test

sup sur sup ?

Situation et notations
On suppose pour simplifier que E n est engendree par un n-echantillon
X1 , . . . , Xn


de variables aleatoires reelles, dont la loi appartient `a la famille P , , avec
Rd , d 1, dominee par une mesure -finie sur R. On note {f (, ), } la
famille de densites associees. On teste H0 : 0 contre H1 : 1 , avec 0 1 = .
La statistique

sup sur sup

Si les deux hypoth`eses sont simples, cest-`a-dire 0 = {0 } et 1 = {1 }, avec


0 6= 1 , alors lapproche de Neyman-Pearson de la Section 7.2.2 du chapitre precedent
sugg`ere de considerer le rapport des vraisemblances
Qn
f (1 , Xi )
Ln (1 , X1 , . . . , Xn )
= Qni=1
,
Ln (0 , X1 , . . . , Xn )
f
i=1 (0 , Xi )
ou son logarithme

n
X
i=1

log f (1 , Xi )

n
X
i=1

log f (0 , Xi ),

8.3 Test

sup sur sup

197

et, suivant la r`egle de la construction du test du rapport de vraisemblance, on rejette


lhypoth`ese nulle = 0 si n depasse un seuil, calibre pour controler lerreur de premi`ere
esp`ece.
Lorsque 0 et 1 ne sont pas reduits `a un point, une r`egle conservative consiste `a
remplacer la quantite ci-dessus par

e n (X1 , . . . , Xn ) = sup

n
X

log f (, Xi ) sup

1 i=1

n
X

log f (, Xi )

0 i=1

et donc de comparer la vraisemblance de  la valeur la plus vraisemblable  sur 0 `a


 la valeur la plus vraisemblable  sur 1 . Malheureusement, le calcul de la loi de cette
e n par
quantite est difficile, meme asymptotiquement. On remplace alors

n = sup

n
X

log f (, Xi ) sup

i=1

= log

n
X

log f (0 , Xi )

0 i=1

sup L(, X1 , . . . , Xn )
,
sup0 L(, X1 , . . . , Xn )

o`
u le supremum au numerateur est evalue sur tout lespace des param`etres. On peut se
convaincre au moins heuristiquement que cette approche est raisonnable si le mod`ele
est suffisamment regulier. Dans ce cas, si 1 , sous P , la quantite qui atteint le
maximum pour le numerateur est lestimateur du maximum de vraisemblance bnmv qui
converge vers 1 .
D
efinition 8.4. On appelle n la

statistique du rapport de vraisemblance maximal .

Un resultat remarquable est que sous lhypoth`ese nulle, la loi de la statistique du


rapport de vraisemblance maximal est asymptotiquement la loi du 2 (`a une constante
multiplicative pr`es) pour un nombre de degres de liberte dependant de la dimension de
0 , et ceci conduit `
a une methode systematique de construction de tests.

8.3.1

Rapport de vraisemblance maximal asymptotique

On suppose le mod`ele regulier au sens du Chapitre 6. Notons bnmv lestimateur du


mv lestimateur du maximum de vraisemblance
maximum de vraisemblance du et bn,0
restreint `
a 0 (cest-`
a-dire obtenu lorsque lon maximise la vraisemblance sur 0 ).
En appliquant la formule de Taylor `a lordre 2 `a ; `(, x) = log f (, ), on reecrit

198

Tests asymptotiques

n comme

n
X

mv
`(bn,0
, Xi ) `(bnmv , Xi )

i=1

n
X

n
T
X

mv
mv T
mv
bnmv ) 12 (bnmv bn,0
`(bnmv , Xi ) (bn,0
)
H`(,Xi ) [en ] (bnmv bn,0
)

i=1

i=1

mv T
= 12 (bnmv bn,0
)

n
X


mv
H`(,Xi ) [en ] (bnmv bn,0
),

i=1
mv et
b mv et H`(,X ) [] designe la matrice hessienne de la
o`
u en est un point entre bn,0
n
i
fonction ; `(, Xi ) au point . Le terme dordre 1 disparat par definition du maximum
de vraisemblance
(d`es que bnmv ). Sous les hypoth`eses de regularite sur le mod`ele


P , , si 0 , on a les convergences

 d

mv
n bn,0
N 0, I1 () en loi sous P , 0 ,

o`
u I1 () designe linverse de la matrice dinformation de Fisher du mod`ele
et on a toujours

 d

n bnmv N 0, I1 () en loi sous P .

(8.6)



P , ,

(8.7)

mv ) est born
Donc la suite de vecteurs n(bnmv bn,0
ee en probabilite sous P , 0 . Par
ailleurs, on a toujours la convergence
n

1X
P
H`(,Xi ) []
I(), 0
n

(8.8)

i=1

(composante par composante) par la loi des grands nombres. On en deduit le resultat
suivant :
Proposition 8.3. Si lexperience statistique est reguli`ere au sens du Chapitre 6, pour
tout 0 (cest-`
a-dire en se placant sous lhypoth`ese H0 ), on a les approximations
suivantes
T
T

n = 1 n b mv I() n b mv + n
2

et aussi
n =

1
2

n,0

mv

n bn,0

n,0

T

T

mv
I(bnmv ) n bn,0
+ 0n

o`
u n et 0n sont deux suites qui tendent vers 0 en probabilite sous P pour tout 0 .

8.3 Test

sup sur sup

199

Demonstration. La premi`ere approximation est simplement une combinaison des estimations precedentes : on ecrit
mv T
(bnmv bn,0
)

n
X


mv
H`(,Xi ) [en ] (bnmv bn,0
)

i=1

mv T
n(bnmv bn,0
)

n
1 X


mv
),
H`(,Xi ) [en ] n(bnmv bn,0

i=1

et on utilise dune part le fait que le terme du milieu converge en probabilite vers I1 ()
via (8.8) en utilisant le fait que en est proche de (nous omettons les details), et dautre

mv ) est born
part que la suite n(bnmv bn,0
ee en P probabilite pour 0 par (8.6) et
(8.7).
La seconde approximation est simplement une consequence de la Proposition 1.8
(Slutsky).
mv ne sont pas les m
emes en general. Un
Remarque 8.6. Les estimateurs bnmv et bn,0
exemple classique rencontre aussi en regression est celui de lexperience statistique
engendree par un n-echantilllon de loi N (, 2 ), avec = (, 2 ) = R R+ \{0}.
Alors, si 0 = { , = 0}, on a
mv
bn,0
= 0, n1

n
X


Xi2 , alors que

bnmv = X n , n1

i=1

8.3.2

n
X

2
Xi2 X n .

i=1

Lien avec la statistique de Wald

Placons-nous dans le cas dune hypoth`ese nulle simple 0 = {0 } pour simplifier. La


statistique Tn2 du test de Wald definie dans le Corollaire 8.1 par (8.4) secrit `a laide de
la fonction g() = 0 , et Jg = Idd .
Si lexperience sous-jacente est reguli`ere, le choix de lestimateur bn = bnmv conduit
`a V () = I(), o`
u I() est linformation de Fisher du mod`ele. On a donc dans ce cas
g () = Jg ()V ()Jg ()T = I() et finalement,
T
T

mv
Tn2 = n bnmv 0 I(bnmv ) n bn,0
.
mv = . Dapr`
Par ailleurs, puisque lhypoth`ese nulle H0 est simple, on a bn,0
es la Propo0
sition 8.3, on deduit
Tn2 = 2n + n ,
(8.9)

o`
u n tend vers 0 en probabilite sous P0 .
En conclusion, dans le cas dune hypoth`ese nulle simple, la statistique de Wald associee
`a lestimateur du maximum de vraisemblance et la statistique du rapport de vraisemblance maximal sont asymptotiquement equivalentes. On en deduit immediatement que

200

Tests asymptotiques

pour une hypoth`ese nulle simple la statistique du rapport de vraisemblance maximale


converge en loi vers la loi du 2 `a d degres de liberte.
Remarque 8.7. Le lien que nous venons de montrer est tr`es particulier. Lequivalence
(8.9) setend au-del`
a dune hypoth`ese simple. Nous nous contenterons de ce resultat
particulier dans ce cours.
Remarque 8.8. Une autre statistique remarquable, la statistique du score (voir par
exemple Wasserman, [11]), se deduit de ces approximations.

8.3.3

R
esultat g
en
eral pour le rapport de vraisemblance maximal?

Dans le cas dune hypoth`ese nulle simple 0 = {0 }, nous venons de voir par
lequivalence asymptotique avec la statistique de Wald associee `a lestimateur du maximum de vraisemblance que la statistique 2n suit asymptotiquement la loi du 2 `
ad
degres de liberte. Ici, grace `a la Propostion 8.1, le degre d doit etre compris comme le
rang de la differentielle de Jg (), qui dans le cas trivial g() = 0 est maximal.
Ce resultat se generalise. On suppose que 0 peut secrire sous la forme


0 = , g() = 0
o`
u lapplication
g : Rd Rm
est reguli`ere au sens de lHypoth`ese 8.1, cest-`a-dire contin
ument differentiable, sa differentielle etant de rang maximal m en tout point de (linterieur de) 0 .
Proposition 8.4. Si lexperience statistique est reguli`ere au sens du Chapitre 6, sous
lHypoth`ese 8.1, pour tout point (dans linterieur) de 0 (ou si 0 est reduit `
a un
point), cest-`
a-dire tel que g() = 0, on a
d

2n 2 (m).
Nous admettons ce resultat. On en deduit un test asymptotiquement de niveau
defini par la region critique


2
Rn, = 2n q1,m
,
2

o`
u q1,m
est le quantile dordre 1 de la loi du 2 `a m degres de liberte.

8.4 Tests du 2

8.4

201

Tests du 2

Notation et pr
eliminaire
Si X une variable qualitative pouvant prendre d valeurs distinctes, on note {1, . . . , d}
lensemble de ses valeurs pour simplifier. En toute generalite, la loi de X secrit


P X = ` = p` , ` = 1, . . . , d
P
avec 0 p` 1 et d`=1 p` = 1, et le vecteur p = (p1 , . . . , pd )T caracterise la loi de X.
Desormais, nous identifions les lois de probabilites prenant d valeurs avec les vecteurs p
de lensemble
Md =

p = (p1 , . . . , pd )T , 0 p` 1,

d
X

o
p` = 1 .

`=1

8.4.1

Test dad
equation du 2

On observe un n-echantillon
X1 , . . . , Xn
de loi p Md inconnue et on teste lhypoth`ese
H0 : p = q, contre H1 : p 6= q
o`
u q Md est une loi donnee. Lexperience statistique associee `a lobservation secrit



E n = {1, . . . , d}n , P({1, . . . , d}n ), Pnp , p Md ,
o`
u Pnp est la loi 3 dun n-echantillon de loi p.
Pour construire un test, une idee immediate est de comparer les frequences empiriques
n

pbn,`

1X
=
1Xi =` , ` = 1, . . . , d
n

(8.10)

i=1

avec q` , ` = 1, . . . , d. En effet, la loi des grands nombres garantit la convergence


 Pp
(b
pn,1 , . . . , pbn,d (p1 , . . . , pd ) = p

(8.11)

en probabilite sous Pp . Letape suivante consiste `a etablir une vitesse de convergence


dans (8.11). En anticipant sur le theor`eme central-limite, on consid`ere le vecteur



pbn,d pd T
pbn,1 p1
U n (p) = n
,...,

p1
pd
3. Dans cette section, p Md remplacera lecriture habituelle .

202

Tests asymptotiques

qui est bien defini si toutes les composantes de p sont non nulles, ainsi que sa norme au
carre
2
d
X
pbn,` p`
2
kU n (p)k = n
.
p`
`=1

Par le theor`eme central limite, chaque composante de U n converge en loi vers une
gaussienne centree reduite, mais ceci ne permet pas den deduire la convergence en loi
vectorielle (et donc pas non plus celle de kU n k2 , utile pour construire un test), puisque
les variables aleatoires pb`,n ne sont pas independantes. Le resultat suivant precise la
convergence
Proposition 8.5. Si les composantes de p sont toutes non nulles, alors

d
U n (p) N 0, V (p) ,
o`
u V (p) = Idd

(8.12)

p( p) , et p = ( p1 , . . . , pd )T . De plus
d

kU n (p)k2 2 (d 1),

(8.13)

o`
u 2 (d 1) designe la loi du 2 `
a d 1 degres de liberte.
Demonstration. Pour i = 1, . . . , n et 1 ` d, posons
1
Y`i = (1{Xi =`} p` ).
p`
La suite de vecteurs Y i = (Y1i , . . . , Ydi ) est independante et de meme loi, car chaque
terme Y i ne fait intervenir que la variable Xi et les Xi sont independantes et de meme
loi. Notons que
n
1 X
U n (p) =
Yi.
n
i=1

De plus,
 


2
2
E Y`i = 0, E (Y`i )2 = p1
` (p` 2p` + p` ) = 1 p` ,
et pour ` 6= `0 ,


E Y`i Y`i0 = (p` p`0 )1/2 (0 2p` p`0 + p` p`0 ) = (p` p`0 )1/2 .
On applique alors le theor`eme central limite vectoriel 1.4 du Chapitre 1. On obtient la
convergence (8.12).
Pour la convergence (8.13), par continuite du carre de la norme, on a

 2

d
kU n (p)k2 N 0, V (p) 2 Rang V (p) ,

8.4 Tests du 2

203

la derni`ere egalite en loi etant une application de la Proposition 1.1 (Cochran). En effet, la

matrice V (p) = Idd p p est la matrice de la projection orthogonale sur lorthogonal

de lespace vectoriel
 de dimension 1 engendre par le vecteur p. On verifie aussi que lon
a bien Rang V (p) = d 1, do`
u le resultat.
D
efinition 8.5 (distance du 2 ). Si p, q Md et les coefficients q sont tous non nuls,
on appelle distance du 2 entre les lois p et q la quantite
2 (p, q) =

d
X
(p` q` )2
`=1

q`

bn = (b
Notons p
pn,1 , . . . , pbn,d )T . La Definition 8.5 est motivee par lidentite

bn , p .
kU n (p)k2 = n2 p
Remarque 8.9. Le terme  distance  est manifestement impropre, puisque quen
general on a 2 (p, q) 6= 2 (q, p). Toutefois, on a la propriete essentielle
2 (p, q) = 0 p = q .
Avec ces notations et la Proposition 8.5, on en deduit le test suivant, appele test
dadequation du 2 .
Proposition 8.6. Soit q Md une loi donnee dont les coefficients sont tous non nuls.
Pour tout (0, 1), le test defini par la zone de rejet
o
n

2
bn , q q1,d1
,
Rn, = n2 p
2

o`
u q1,d1
est le quantile de la loi du 2 `
a d 1 degres de liberte, est asymptotiquement
de niveau et consistant.

Demonstration. La premi`ere partie de la Proposition decoule de la Proposition 8.5 : on


a p = q sous lhypoth`ese, donc





2
bn , q q1,d1
Pp (X1 , . . . , Xn ) Rn, = Pq n2 p


2
= Pq kU n (q)k2 q1,d1
.
Pour montrer la consistance, placons-nous sous lalternative H1 . Alors on a p 6= q et
2 (p, q) 6= 0. On a aussi la convergence en probabilite sous Pp
 Pp
bn , q 2 (p, q) 6= 0.
2 p

bn , q diverge vers + en probabilite sous Pp . La consistance de la suite de
Donc n2 p
tests en decoule (par exemple par convergence dominee).

204

Tests asymptotiques

Exemple 8.1 (Mendel). Dans la cel`ebre experience de Mendel `a lorigine de la genetique,


le croisement de pois donne lieu `a quatre phenotypes identifies (combinant couleur et
forme). Selon la theorie de lheredite de Mendel, les phenotypes de type I, II, III et IV
sont distribues selon une loi multinomiale (voir Section 4.1.2, Chapitre 4) de param`etre
9 3 3 1
q=
, , ,
.
16 16 16 16
Mendel rapporte les resultats suivants : pour n = 556 observations, la repartition observee
entre les phenotypes de type I, II, III et IV est (315, 101, 108, 32). On teste H0 : p = q
contre H1 : p 6= q, o`
u p M4 qui est lensemble des lois dont les coefficients sont tous
non-nuls. On a ici
 ( 315 9 )2 ( 101 3 )2 ( 108 3 )2 ( 32 1 )2 

bn , q = 556 556 9 16 + 556 3 16 + 556 3 16 + 556 1 16
n2 p
16

16

16

16

= 0, 47.
2

= 0, 7815 et puisque
Pour le niveau = 5%, la valeur critique de rejet du test est q1,3
0, 47 < 0, 7815, on accepte H0 . On peut aussi calculer la p-valeur du test 4 . Dans un cadre
asymptotique, si Z 2 (3) est distribuee selon la loi du 2 avec 3 degres de liberte, on
a donc (voir Proposition 7.1)


p valeur = Pq Z > 0, 47 = 0, 93,

ce qui ne nous incite pas `a rejeter 5 H0 .

8.4.2

Test du 2 dind
ependance?

Test du 2 avec param`


etres estim
es
On observe un n-echantillon
X1 , . . . , Xn
de loi p Md inconnue et on teste lhypoth`ese nulle composite
H0 : p (Md )0 contre H1 : p Md \ (Md )0 ,
o`
u (Md )0 Md . On suppose que (Md )0 se represente sous la forme


(Md )0 = p = p(), ,
o`
u Rd est un sous-ensemble regulier de Rd de dimension m < d 1 (une variete
affine ou differentiable de dimension k). La famille {p, p Md } est reguli`ere au sens
4. Il sagit alors ici dune notion de p-valeur asymptotique, voir Section 7.4 du Chapitre 7.
5. Attention, rappelons que la signification de 0, 93 nous conduit a
` ne pas rejeter H0 , mais cela peut
etre aussi bien d
u au fait que H0 est vrai ou bien que la puissance du test est faible.

8.4 Tests du 2

205

du Chapitre 6 et il en va de meme pour la famille {p, p (Md )0 } d`es que ; p()


est suffisamment reguli`ere (voir Exercice 6.1). Sans etre plus precis pour le moment, cela
signifie que les estimateurs du maximum de vraisemblance pour la famille {p, p Md } et
pour la famille restreinte {p, p (Md )0 } sont bien definis et asymptotiquement normaux.
On peut donc utiliser le test base sur la statistique du rapport de vraisemblance maximal
n de la Section 8.3.
Nous avons dabord besoin du resultat auxiliaire suivant :
Lemme 8.4.1. On a les estimateurs du maximum de vraisemblance suivants : pour la
famille 6 {p, p Md } :
T
bnmv = pbn,1 , . . . , pbn,p
p
(8.14)
T
o`
u le vecteur pbn,1 , . . . , pbn,p
est le vecteur des frequences empiriques defini par 8.10
dans la Section 8.4.1, et pour la famille restreinte {p, p (Md )0 } :
p(b
nmv )

= arg max

d
X

nb
pn,` log p` ().

`=1

Demonstration. Montrons dabord (8.14). La loi de lobservation X1 , . . . , Xn est dominee


par la mesure de comptage sur {1, . . . d}n . On a donc
Ln (p, X1 , . . . , Xn ) =

n
Y

pXi ,

p = (p1 , . . . , pd )T ,

i=1

P
mais cette formule nest pas tr`es exploitable. En notant N` = ni=1 1{Xi =`} , on a une
correspondance univoque entre (X1 , . . . , Xn ) et (N1 , . . . , Nd ) puisque les Xi ne prennent
quun nombre fini de valeurs. Ceci permet de reecrire la loi du vecteur (X1 , . . . , Xn ) `a
laide de (N1 , . . . , Nd ).
P
P
Pour tous x1 , . . . , xn {1 . . . , d}, avec ni=1 xi = n et en notant n` = ni=1 1{xi =`} ,
on a




Pp X1 = x1 , . . . , Xn = xn = Pp N1 = n1 , . . . , Nd = nd
d

Y n
n!
p` i .
n1 ! nd !
`=1

On en deduit que le logarithme de la vraisemblance est


Ln (p, X1 , . . . , Xn ) = c(X1 , . . . , Xn ) +

d
X
`=1

6. Restreinte aux p dont toutes les composantes sont non nulles.

N` log p` ,

(8.15)

206

Tests asymptotiques

o`
u c(X1 , . . . , Xn ) est une constante qui ne depend pas de p. Donc maximiser la logvraisemblance revient `
a chercher le maximum de
(p1 , . . . , pd ) ;

d
X

Ni log pi , sous la contrainte

i=1

d
X

pi = 1.

i=1

On peut diviser cette fonction par n sans changer le probl`eme. Alors, en notant la
fonction de comptage sur {1, . . . , d} et f (x) = Nx /n pour x {1, . . . , d, on cherche `
a
maximiser
Z
g ; f (x) log g(x)(dx)
avec f et g des densites par rapport `a . Le Lemme 4.4.1 (inegalite dentropie) donne
la solution g = f , soit p` = N` /n = pbn,` . La deuxi`eme partie du lemme decoule de la
representation (8.15) de la log-vraisemblance.
On a le resultat remarquable suivant
Proposition 8.7. Si n designe la statistique du rapport de vraisemblance maximal
defini en (8.4), on a, pour tout point p Md

bmv
2n = n2 p
nmv ) + n ,
n , p(b
o`
u n tend vers 0 en probabilite sous Pp pour tout p M0 .
Demonstration. On reprend les notations de la preuve du Lemme 8.4.1. On a
2n =

d
X

N` log(N` /n)

log p` (b
nmv )

=2

d
X

N` log

`=1

`=1

N`
.
np` (b
nmv )

Sous lhypoth`ese nulle, cest-`a-dire si p = p() pour un , on a simultanement


N` Pp
p(), et
n
En posant n,` =
2:

N`
n

Pp

p(b
nmv )) p().

p(b
), on ecrit le developpement de Taylor du logarithme `
a lordre

d
X

n,` 
p` (b
nmv )
`=1
!

2
d
X



1
n,`
n,`
= 2n

1 + op (1)
n,` + p` (b
nmv )
p` (b
nmv ) 2 p` (b
nmv )
`=1
!
d
2
X
 1 3n,`

1 n,`
= 2n
n,` +
1 + op (1)
1 + op (1) ,
2 p` (b
nmv )
2 p` (b
nmv )2

2n = 2n

`=1



n,` + p` (b
nmv ) log 1 +

8.4 Tests du 2

207

o`
u op (1) designe une suite de variables aleatoires qui tend vers 0 en probabilite sous Pp .
Les N` /n et lesPp` (b
nmv ) sont des frequences empiriques, donc leur somme en ` vaut 1
d
pour chacun do`
u `=1 n,` = 0. On en deduit
2n = n

d
X
`=1
d
X

2n,`
p` (b
nmv )

+ n

2
N` /n p` (b
nmv )
=n
+ n
p` (b
nmv )
`=1

bnmv , p(b
= n2 p
nmv ) + n ,
o`
u n est une suite de variables aleatoires qui tend vers 0 en probabilite sous Pp .
Ce developpement asymptotique permet de construire le test suivant
Proposition 8.8. Si ; p() est reguli`ere et de dimension m, on a pour tout point
de lhypoth`ese p (Md )0 ,
 d
bnmv , p(b
n2 p
nmv ) 2 (d m 1).
En particulier, le test defini par la zone de rejet



2
bnmv , p(b
Rn, = n2 p
nmv ) q1,dm1

(8.16)

designe le quantile de la loi du 2 `


a d m 1 degres de liberte est
o`
u q1,dm1
asymptotiquement de niveau et consistant.

Nous admettons ce resultat. On pourra consulter van der Vaart [10] ou Borovkov [1]
pour une preuve et des complements.
D
efinition 8.6 (Test du 2 avec param`etres estimes). On appelle test du 2 avec param`etres estimes le test de zone de rejet definie par (8.16).
Application au test dind
ependance
Un cas tr`es classique du test du 2 avec param`etres estimes est celui du test dindependance. On observe un n-echantillon
(X1 , Y1 ), . . . , (Xn , Yn )

(8.17)

o`
u les variables Xi et Yi sont qualitatives, prenant respectivement `a d1 et d2 valeurs
possibles. La loi p du couple (X, Y ) est `a valeurs dans
o
n
X
0
0
0
0
p`,` = 1 .
Md1 ,d2 = p = (p`,` )1`d1 ,1` d2 , 0 p`,` 1,
`,`0

208

Tests asymptotiques

Notons les lois marginales du vecteur (X, Y )T .






p`, = P X = ` , et p,`0 = P Y = `0
pour 1 ` d1 , 1 `0 d2 , et o`
u on a
p`, =

d2
X

p`,`0 , p,`0 =

`0 =1

d1
X

p`,`0 .

`=1

On teste lindependance des variables X et Y `a partir de lobservation du n-echantillon


(8.17). Cela se traduit par lhypoth`ese nulle :
H0 : `, `0

p`,`0 = p`, p,`0

contre lalternative
H1 : `, `0 ,

p`,`0 6= p`, p,`0 .

Ici, lhypoth`ese nulle secrit


H0 : p (Md1 ,d2 )0 =

p = (p`,`0 ), p`,`0 = p`, p,`0



et donc (Md1 ,d2 )0 = p = p(), o`
u Rm avec m = d1 + d2 2 et la
parametrisation est reguli`ere. On applique alors les resultats de la section precedente
avec m = d1 + d2 2 < d1 d2 1. Il nous faut pour cela connatre lestimateur du
maximum de vraisemblance sur (Md1 ,d2 )0 .


Lemme 8.4.2. Pour la famille p, p (Md1 ,d2 )0 , lestimateur du maximum de vraimv
bn,0
semblance p
secrit

mv
pbn,0
= pbn,(`,) pbn,(,`0 )
`,`0
pour 1 ` d1 , 1 `0 d2 , avec
pbn,(`,) =

i=1

i=1

1X
1X
1{Xi =`} et pbn,(,`0 ) =
1{Yi =`0 }
n
n

les frequences empiriques marginales, qui sont aussi les estimateurs de maximum de
vraisemblance correspondants aux familles des lois marginales dapr`es le Lemme 8.4.1.
Demonstration. Cest essentiellement la meme preuve que celle du Lemme 8.4.1. Si p
(Md1 ,d2 )0 , les variables aleatoires Xi et Yi sont independantes, et la vraisemblance secrit
n
n
n
Y
 Y

 Y
pXi ,
p,Yi .
Ln p, (X1 , Y1 ), . . . (Xn , Yn ) =
pXi , p,Yi =
i=1

i=1

i=1

8.4 Tests du 2
En notant N`X =
obtient

209
P`

i=1 1{Xi =`}

et N`0 =

Pn

i=1 1{Yi =`0 }

log Ln p, (X1 , Y1 ), . . . (Xn , Yn )


= c(X1 , . . . , Xn , Y1 , . . . , Yn ) +

et en passant au logarithme, on

d1
X

N`X log p`, +

`=1

d2
X

N`Y log p,`0 ,

`0 =1

o`
u c(X1 , . . . , Xn , Y1 , . . . , Yn ) ne depend pas de p, et on raisonne comme pour le Lemme
8.4.1 en remplacant {1, . . . , d} par {1, . . . , d1 + d2 }.
bnmv
Par ailleurs, le Lemme
 8.4.1 donne lestimateur du maximum de vraisemblance p
pour la famille globale p, p Md1 ,d2 qui est lestimateur des frequences empiriques
n

(b
pn )`,`0

1X
1{(Xi ,Yi )=(`,`0 )}
=
n
i=1

pour 1 ` d1 , 1 `0 d2 .
Alors, comme precedemment, sous lhypoth`ese nulle, cest-`a-dire pour p (Md1 ,d2 )0
on a la convergence




d
mv
bnmv , p
bn,0
n2 p
2 (d1 1)(d2 1)
en loi sous Pp . En particulier, la statistique de test secrit

2


pn )`,`0 pbn,(`,) pbn,(,`0 )
X (b
mv
bnmv , p
bn,0
n2 p
=n
.
pbn,(`,) pbn,(,`0 )
0
`,`

Proposition 8.9 (Test dindependance du 2 ). Pour tout (0, 1), le test defini par
la zone de rejet
n


o
2
mv
bnmv , p
bn,0
q1,(d
,
Rn, = n2 p
1 1)(d2 1)
2

o`
u q1,(d
est le quantile dordre de la loi du 2 `
a (d1 1)(d2 1) degres de
1 1)(d2 1)
liberte est asymptotiquement de niveau et consistant.

Nous admettons la demonstration de ce resultat qui est essentiellement une application de la Proposition 8.8.
Exemple 8.2. On test lindependance entre le nombre denfants dun menage et son
revenu 7 sur une population de n = 25263 menages en Su`ede au milieu du si`ecle passe.
Les menages sont classes en 4 categories selon leur revenus : la categorie I correspond
aux revenus les plus faibles et la categorie IV aux revenus les plus eleves. Les resultats
obtenus sont les suivants :
7. Dapr`es [1], p. 354.

210

Tests asymptotiques
nb. enfants
0
1
2
3
4
pop.

I
2161
2755
936
225
39
6116

II
3577
5081
1753
419
98
10928

III
2184
2222
640
96
31
5173

IV
1636
1052
306
38
14
3016

pop.
9558
11110
3635
778
182
25263

Sans prejuger de la pertinence de la modelisation, on met en place un test du 2


dindependance pour la loi p M4,5 de la variable (nombre denfants, revenu) `
a valeurs dans {0, 1, 2, 3, 4} {I, II, III, IV } dont la distribution empirique est donnee
par le tableau ci-dessus et dont les marginales empiriques se lisent sur la derni`ere colonne
et la derni`ere ligne. On trouve


mv
bnmv , p
bn,0
= 568, 5
n2 p
ce qui est significativement plus grand que le quantile dordre 1 pour une loi du 2
a (5 1)(4 1) = 12 degres de liberte, meme pour des petites valeurs de . Dans ces
`
conditions, on rejette lhypoth`ese dindependance.
.

Bibliographie
[1] Borovkov, A. A. Mathematical statistics (traduit du russe). Gordon and Breach
science publishers, 1998.
ements de statistique asymptotique.
[2] Genon-Catalot, V., et Picard, D. El
Mathematiques & Applications. Springer-Verlag, Paris, 1993.
[3] Ibragimov, I. A., et Hasminskii, R. Z. Statistical Estimation, Asymptotic Theory.
New-York, Berlin, 1981.
[4] Jacod, J. et Protter, P. Probability essentials. Seconde edition. Universitext.
Springer-Verlag, Berlin, 2003.

[5] Meleard, S. Aleatoire. Polycopie de lEcole


polytechnique.

[6] Monfort, A. Statistique. Polycopie de lEcole


polytechnique (version editee par O.
Cappe).
[7] Picard, D. Statistique et Mod`eles Aleatoires. Polycopie de lUniversite Paris 7.
[8] Tsybakov, A. Statistique Appliquee. Polycopie de lUniversite de Pierre et Marie
Curie.
[9] Tsybakov, A. Apprentissage statistique et estimation non-parametrique. Polycopie

de lEcole
polytechnique.
[10] van der Vaart, A. Asymptotic statistics. Cambridge Series in Statistical and Probabilistic Mathematics, 3. Cambridge University Press, Cambridge, 1998.
[11] Wasserman, L. All of statistics. A concise course in statistical inference. Springer
Texts in Statistics. Springer-Verlag, New York, 2004.

Index
M -estimateur, 85
Z-estimateur, 84
2 , loi du, 16
2 , test du, 199
p -valeur, 176
ecart-type, 8
equi-invariance, 97
 bruit , innovation, 106
 design  al
eatoire, 105
 design  d
eterministe, 107


distribution, 3
distribution empirique, 69
DKV, inegalite de, 62
domination, 74
efficace, estimateur, 131
efficacite asymptotique, 147
esperance, 8
estimateur, 48
exhaustivite, 153
exponentielle, loi, 5

sup sur sup , test, 195

adequation, test du 2 d, 199


admissible, estimateur, 131
aplatissement, kurtosis, 9
asymetrie, skewness, 9
Beta, loi, 77
Bernoulli, loi de, 4
biaisvariance dun estimateur, 132
binomiale, loi, 4
Cauchy, loi de, 77
Cochran, 18
composite, hypoth`ese, 165
confiance, intervalle de, 50, 177
confiance, region de, 177
consistant, convergent, test, 58
consistant, test, 189
contraste, estimateur de, 85
convergence en loi, 21
convergence en probabilite, 20
convergence presque-s
ure, 20
convergent, test, 189
couverture, propriete de, 178

factorisation, crit`ere de, 156


Fisher, information de, 137
Fisher, loi de, 16
Fisher, programme de, 152
fonction de repartition empirique, 49
fonctionnelle lineaire, 63
Gamma, loi, 76
gaussienne, normale, loi, 5
gaussiens, vecteurs, 12
Glivenko-Cantelli, 59
GMM, estimateur, 84
Hoeffding, inegalite de, 53
identifiabilite, 74
independance, test du 2 d, 202
Kolmogorov-Smirnov, 60
Kolmogorov-Smirnov, test, 63
Kullback-Leibler, divergence, 144
log-normale, loi, 78
loi, 3

INDEX

213

mediane, 11
methode delta, 24
maximum de vraisemblance, 144
minimax, optimalite, 134
mod`ele de regression, 105
mod`ele multinomial, 203
moindres carres, estimateur des, 111, 114
moment, estimateur, 79
moments generalises, estimateur des, 84
moments, methode des, 78
monotone, rapport de vraisemblance, 171
moyenne, 8
multinomiale, 78

simple, hypoth`ese, 165


Slutsky, lemme de, 22
sous-espace, test dappartenance, 184
statistique, 48
Student, loi de, 16

Neyman, principe de, 166


Neyman-Pearson, lemme de, 166
niveau dun test, 57

uniforme, loi, 5

param`etres estimes, test du 2 , 202


perte dinformation, 153
perte quadratique, 49, 50
pivotale, statistique, 178
Poisson, loi de, 4
premi`ere esp`ece, erreur de, 57
procedure statistique, 48
quantile, 10
quantiles empiriques, 68
regression lineaire gaussienne, 117
regression lineaire multiple, 113
regression lineaire simple, 109
regression non-lineaire, 119
regulier, mod`ele, experience statistique, 141
residus, 110
rapport de vraisemblance maximal, test, 195
rapport de vraisemblance, test du, 168
risque quadratique, cas multidimensionnel,
135
selection de variables, test de, 184
score, fonction, 137
seconde esp`ece, erreur de, 57
Shannon, entropie de, 145

Tchebychev, inegalite de, 8


test asymptotique, 189
test simple, 56, 164
test, erreur de, 164
test, niveau dun, 57
test, puissance dun, 57
theor`eme central limite, 24

variance, 8
vraisemblance, equations de, 96
vraisemblance, contraste de, 103
vraisemblance, estimateur du maximum de,
92
vraisemblance, fonction de, 92
vraisemblance, log, 93
Wald, test de, 192

Vous aimerez peut-être aussi