0% ont trouvé ce document utile (0 vote)

429 vues225 pages

Rammah2 PDF

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

429 vues225 pages

Rammah2 PDF

Transféré par

Codein

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction aux methodes statistiques

Marc Hoffmann
Janvier 2013

Table des mati`

eres
I

Mod
elisation statistique

1 Outils de probabilit
es
1.1

1.2

1.3

1.4

1.5

Loi dune variable aleatoire reelle . . . . . . . . . . . . . . . . . . . . . . .

1.1.1

Variables discr`etes . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1.2

Variables de loi absolument continue . . . . . . . . . . . . . . . . .

1.1.3

Formules dintegration . . . . . . . . . . . . . . . . . . . . . . . . .

Param`etres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.1

Esperance-variance . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.2

Coefficients dasymetrie et daplatissement . . . . . . . . . . . . . .

1.2.3

Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3.1

Loi normale multivariee . . . . . . . . . . . . . . . . . . . . . . . .

1.3.2

Derivees des lois gaussiennes . . . . . . . . . . . . . . . . . . . . .

1.3.3

Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Convergences et theor`emes limites . . . . . . . . . . . . . . . . . . . . . .

1.4.1

Modes de convergences . . . . . . . . . . . . . . . . . . . . . . . . .

1.4.2

Lois des grands nombres et theor`eme central-limite . . . . . . . . .

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 Exp
erience statistique
2.1

Modelisation statistique? . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1.1

Exemples introductifs . . . . . . . . . . . . . . . . . . . . . . . . .

`
TABLE DES MATIERES

iv
2.1.2
2.2

2.3

Definition provisoire dune experience statistique?

. . . . . . . . .

Formulation mathematique . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.1

Experience engendree par une observation . . . . . . . . . . . . . .

2.2.2

Observation canonique? . . . . . . . . . . . . . . . . . . . . . . . .

2.2.3

Domination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.4

Mod`eles parametriques, non-parametriques? . . . . . . . . . . . . .

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3.1

Mod`ele dechantillonnage ou du nechantillon . . . . . . . . . . . .

2.3.2

Mod`eles de regression . . . . . . . . . . . . . . . . . . . . . . . . .

M
ethodes destimation

3 Echantillonnage et fonction de r
epartition empirique
3.1

3.2

3.3

3.4

45
47

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1.1

Situation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1.2

Notations et definitions preliminaires . . . . . . . . . . . . . . . . .

Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2.1

Fonction de repartition empirique . . . . . . . . . . . . . . . . . . .

3.2.2

Precision destimation . . . . . . . . . . . . . . . . . . . . . . . . .

3.2.3

Precision destimation asymptotique . . . . . . . . . . . . . . . . .

3.2.4

Precision non-asymptotique . . . . . . . . . . . . . . . . . . . . . .

3.2.5

Decision? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Estimation uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3.1

Estimation uniforme . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3.2

Vitesse destimation uniforme . . . . . . . . . . . . . . . . . . . . .

3.3.3

Precision uniforme non-asymptotique? . . . . . . . . . . . . . . . .

3.3.4

Test dadequation `a une distribution donnee? . . . . . . . . . . . .

Estimation de fonctionnelles . . . . . . . . . . . . . . . . . . . . . . . . . .

3.4.1

Le cas regulier : methode de substitution . . . . . . . . . . . . . .

3.4.2

Le cas non-regulier? . . . . . . . . . . . . . . . . . . . . . . . . . .

`
TABLE DES MATIERES
3.5

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 M
ethodes destimation en densit
e
4.1

4.2

4.3

4.4

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.1.1

Notations et hypoth`eses . . . . . . . . . . . . . . . . . . . . . . . .

4.1.2

Familles parametriques classiques . . . . . . . . . . . . . . . . . . .

Methode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2.1

Le cas de la dimension 1 . . . . . . . . . . . . . . . . . . . . . . . .

4.2.2

Le cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . .

Moments generalises. Z- et M -estimation . . . . . . . . . . . . . . . . . .

4.3.1

Z-estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3.2

M -estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3.3

Convergence des Z- et des M -estimateurs . . . . . . . . . . . . . .

4.3.4

Loi limite des Z- et M -estimateurs . . . . . . . . . . . . . . . . . .

Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . .

4.4.1

Principe du maximum de vraisemblance . . . . . . . . . . . . . . .

4.4.2

Exemples de calcul

4.4.3

Maximum de vraisemblance et M -estimation . . . . . . . . . . . . 103

. . . . . . . . . . . . . . . . . . . . . . . . . . 100

5 M
ethodes destimation en r
egression
5.1

5.2

5.3

105

Mod`eles de regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.1.1

Mod`ele de regression `a

design aleatoire . . . . . . . . . . . . . 105

5.1.2

Reduction au cas dun

design deterministe . . . . . . . . . . . 107

5.1.3

Calcul de la vraisemblance

. . . . . . . . . . . . . . . . . . . . . . 107

Regression lineaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.2.1

Droite de regression . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.2.2

Moindres carres et maximum de vraisemblance . . . . . . . . . . . 112

Regression lineaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . 113

5.3.1

Mod`ele lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

5.3.2

Estimateur des moindres carres . . . . . . . . . . . . . . . . . . . . 114

5.3.3

Proprietes de la methode des moindres carres . . . . . . . . . . . . 116

`
TABLE DES MATIERES

vi
5.3.4
5.4

Regression lineaire multiple gaussienne . . . . . . . . . . . . . . . . 117

Regression non-lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

5.4.1

Moindres carres non-lineaires et M -estimation . . . . . . . . . . . 119

5.4.2

Reconstruction dun signal echantillonne . . . . . . . . . . . . . . . 121

5.4.3

Mod`ele de Poisson conditionnel . . . . . . . . . . . . . . . . . . . . 123

5.4.4

Mod`eles `a reponse binaire . . . . . . . . . . . . . . . . . . . . . . . 124

6 Information statistique et th
eorie asymptotique

127

6.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

6.2

Comparaison destimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . 129

6.3

6.4

6.5

6.6

6.2.1

Risque quadratique en dimension 1 . . . . . . . . . . . . . . . . . . 130

6.2.2

Risque quadratique et normalite asymptotique . . . . . . . . . . . 133

6.2.3

Risque quadratique : le cas multidimensionnel? . . . . . . . . . . . 135

Mod`eles reguliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

6.3.1

Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 137

6.3.2

Mod`ele regulier en dimension 1 . . . . . . . . . . . . . . . . . . . . 141

6.3.3

Proprietes de linformation de Fisher . . . . . . . . . . . . . . . . . 142

6.3.4

Interpretation geometrique de linformation de Fisher . . . . . . . 144

6.3.5

Le cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . 145

Theorie asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

6.4.1

Normalite asymptotique du maximum de vraisemblance . . . . . . 146

6.4.2

Comparaison destimateurs : efficacite asymptotique . . . . . . . . 147

6.4.3

Le programme de Fisher et ses limites . . . . . . . . . . . . . . . . 151

6.4.4

Mod`eles non-reguliers . . . . . . . . . . . . . . . . . . . . . . . . . 152

Perte dinformation? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

6.5.1

Sous-experience statistique . . . . . . . . . . . . . . . . . . . . . . 153

6.5.2

Statistique exhaustive . . . . . . . . . . . . . . . . . . . . . . . . . 156

6.5.3

Exemples de statistiques exhaustives . . . . . . . . . . . . . . . . . 157

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

`
TABLE DES MATIERES

III

vii

Tests dhypoth`
eses

161

7 Tests et r
egions de confiance

163

7.1

7.2

7.3

7.4

7.5

7.6

7.7

Problematique des tests dhypoth`ese . . . . . . . . . . . . . . . . . . . . . 163

7.1.1

Test et erreur de test . . . . . . . . . . . . . . . . . . . . . . . . . . 163

7.1.2

Comparaison de test, principe de Neyman . . . . . . . . . . . . . . 166

Hypoth`ese simple contre alternative simple . . . . . . . . . . . . . . . . . 166

7.2.1

Principe de Neyman et decision `a deux points . . . . . . . . . . . . 166

7.2.2

Lemme de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . 167

Tests dhypoth`eses composites . . . . . . . . . . . . . . . . . . . . . . . . . 171

7.3.1

Familles `
a rapport de vraisemblance monotone? . . . . . . . . . . . 171

7.3.2

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

p valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
7.4.1

Notion de p valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

7.4.2

Proprietes de la p -valeur

. . . . . . . . . . . . . . . . . . . . . . . 177

Regions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

7.5.1

Region de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . 178

7.5.2

Fonctions pivotales : le cas non-asymptotique . . . . . . . . . . . . 179

7.5.3

Dualite tests regions de confiance . . . . . . . . . . . . . . . . . . 180

Tests dans le mod`ele de regression lineaire . . . . . . . . . . . . . . . . . . 182

7.6.1

Echantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . 182

7.6.2

Test dappartenance `a un sous-espace lineaire . . . . . . . . . . . . 184

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

8 Tests asymptotiques

191

8.1

Convergence dune suite de tests . . . . . . . . . . . . . . . . . . . . . . . 191

8.2

Tests de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

8.3

8.2.1

Le cas dune hypoth`ese nulle simple . . . . . . . . . . . . . . . . . 192

8.2.2

Hypoth`ese nulle composite . . . . . . . . . . . . . . . . . . . . . . 194

Test
8.3.1

sup sur sup ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

Rapport de vraisemblance maximal asymptotique . . . . . . . . . . 197

`
TABLE DES MATIERES

viii

8.4

8.3.2

Lien avec la statistique de Wald

. . . . . . . . . . . . . . . . . . . 199

8.3.3

Resultat general pour le rapport de vraisemblance maximal?

. . . 200

Tests du 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
8.4.1

Test dadequation du 2 . . . . . . . . . . . . . . . . . . . . . . . . 201

8.4.2

Test du 2 dindependance? . . . . . . . . . . . . . . . . . . . . . . 204

Pr
esentation du document
Ces notes de cours presentent une introduction classique aux methodes statistiques.
Le terme statistique(s) reste souvent assez vague en mathematiques appliquees : il
concerne aussi bien le traitement des bases de donnees que lutilisation de techniques
numeriques en modelisation stochastique (image, econometrie et finance, physique, biologie) ; dans ce cours, il designe plutot une problematique au sein de la theorie des probabilites qui consiste en letude dobjets mathematiques bien definis : les experiences
statistiques.
Nous nous placons dans un cadre volontairement un peu abstrait, o`
u lon dispose
dune notion dexperience statistique associee à une observation dans un modèle stochastique. Le but est de degager des methodes quantitatives basees sur des principes
relativement generaux, qui permettent de retrouver les paramètres dun modèle et
de prendre des decisions `
a partir dobservations issues de ce modèle. Nous voulons
quantifier lerreur de reconstruction ou de decision dans un contexte (relativement) universel, de sorte que des problèmes issus de disciplines differentes puissent etre traites de la
meme manière, en principe. Bien entendu, chaque discipline scientifique a sa specificite,
mais nous insisterons sur des methodes communes par exemple le principe de maximum de vraisemblance ou la methode des moindres carres qui setudient de facon unifiee
grace à la theorie des probabilites.
Nous supposons le lecteur familier avec le cours de MAP 311, et nous faisons reference
tout au long de ces notes au polycopie de S. Meleard [5]. On trouvera tous les complements
de probabilites eventuellement necessaires dans le livre de J. Jacod et P. Protter [4] par
exemple.
Le Chapitre 1 rappelle les principaux outils de probabilites, et insiste sur les notions
fondamentales utiles en statistique : vecteurs gaussiens (lois derivees des vecteurs gaussiens) et theorèmes limites (modes de convergence et theorème central-limite). Il permet
aussi de fixer les notations utilisees dans ce cours.
Le Chapitre 2 presente la notion formelle dexperience statistique accompagnee des
exemples essentiels que sont les modèles dechantillonnage ou de densite, et les modèles
de regression.

`
TABLE DES MATIERES

Le Chapitre 3 etudie le mod`ele dechantillonnage dans sa plus grande generalite. Nous

nous posons une question apparemment nave : si lon observe (la realisation) de n variables aleatoires reelles independantes de meme loi inconnue, que peut-on dire de cette
loi ? Ceci nous permet de poser les jalons des methodes developpees dans les chapitres
suivants : estimation, regions et intervalles de confiance, tests, lorsque le nombre dobservations n est fixe ou bien dans la limite n . Le modèle est très simple dun point
de vue probabiliste (les observations sont independantes et identiquement distribuees),
mais très ardu dun point de vue statistique, puisque lon ne fait pas dhypothèse sur la
loi inconnue, et nous verrons très vite les limites de cette generalite.
Les Chapitres 4 et 5 sont consacres aux methodes classiques de construction destimateurs pour les modèles parametriques, lorsque la loi inconnue est decrite par un paramètre
de dimension finie. On se place dans les modèles de densite et regression, et on construit
les estimateurs par moments, les Z- et M - estimateurs, lestimateur du maximum de
vraisemblance et lestimateur des moindres carres.
Le Chapitre 6 developpe dans le modèle de densite par souci de simplicite
differentes notions de comparaison destimateurs et la recherche dun estimateur optimal
associe `
a une experience statistique. Cest un problème ancien qui remonte au programme
de Fisher des annees 1920, et qui na pas de solution totalement satisfaisante : un estimateur optimal dans un sens naf nexiste pas, il faut faire des concessions. Si lon suppose
suffisamment de regularite (dans ce cours, nous ne rechercherons pas les hypothèses minimales), on peut neanmoins realiser un programme doptimalite asymptotique que nous
presenterons brièvement, reposant sur le principe du maximum de vraisemblance. Il est
associe `
a une quantite intrinsèque au modèle, linformation de Fisher, que nous etudierons
en tant que telle.
Curieusement, la notion de modèle regulier en statistique est limitative : nous verrons
sur des exemples que lon estime souvent mieux des paramètres dans des modèles
irreguliers. Mais un traitement systematique est plus difficile.
Les Chapitres 7 et 8 sont consacres aux tests statistiques dans un cadre nonasymptotique, puis asymptotique et leur lien canonique avec les intervalles et regions
de confiance. Si lon accepte un certain principe (dit de Neyman) qui hierarchise les erreurs de decision que lon commet lorsque lon fait un test, alors on peut dans certains
cas donner une solution optimale au problème de test. On abordera les tests classiques
parametriques (Neyman-Pearson, Wald) et le test dadequation du 2 , incontournable en
pratique.

Les paragraphes suivis dune

etoile? pourront
etre omis en premi`
ere
lecture.
Les exercices `
a la fin de certains chapitres sont souvent des complements techniques
de certains aspects du cours et sont en general moins fondamentaux que les exercices
proposes en P.C.

`
TABLE DES MATIERES

Faute de place et de temps, certains th`emes essentiels ne sont pas abordes : lapproche
bayesienne, la statistique computationnelle (algorithmique statistique, bootstrap). Par
ailleurs, lestimation non-parametrique et ses applications en debruitage de signal ou
dimage ainsi que lapprentissage et la classification font lobjet du cours de MAP 533
dA. Tsybakov. Nous donnons `
a la fin de ce polycopie quelques indications et references
bibliographiques.

Il existe par ailleurs de nombreux ouvrages qui traitent de methodes statistiques

au niveau o`
u nous nous placons. Ils font toujours un compromis (au prix de sacrifices)
entre rigueur mathematique et clarte des idees : citons deux livres emblematiques dont
nous nous sommes largement inspires : All of Statistics de L. Wasserman [11] qui
presente beaucoup didees sans preuve rigoureuse et Statistical Mathematics de A.A.
Borovkov [1], qui developpe de facon systematique la theorie et qui reste un grand classique du genre. De nombreux polycopies sur le sujet circulent 1 egalement. Enfin, un
cours de statistique, meme mathematique, ne se passe pas de donn
ees ou de simulations. Laccès `
a des quantites astronomiques de donn
ees est devenu facile aujourdhui :
par exemple ([Link]/larry/all-of-statistics) qui fournit les donn
ees
traitees dans les exemples du livre la page de L. Wasserman [11]. Pour des donn
ees financières, economiques ou demographiques, ([Link]/freelunch/) ou le site
de lINSEE ([Link]).
Finalement, je tiens `
a remercier chaleureusement Mathieu Rosenbaum dont la lecture attentive a permis dameliorer significativement une première version de ce cours,
ainsi que les elèves et collègues dont les nombreuses remarques ont permis daffiner la
presentation de ces notes.

1. Citons les polycopies et les notes de cours de Dominique Picard de lUniversite Paris Diderot,
et dAlexandre Tsybakov de lUniversite Pierre et Marie Curie, auquels nous avons fait de nombreux
emprunts.

xii

`
TABLE DES MATIERES

Premi`
ere partie

Mod
elisation statistique

Chapitre 1

Outils de probabilit
es
Nous considerons des variables aleatoires à valeurs reelles ou vectorielles, discrètes ou
de loi absolument continue. On envisagera (superficiellement) des cas plus complexes de
melanges de lois discrètes et continues.

1.1

Loi dune variable al

eatoire r
eelle

On designe par (, A, P) un espace de probabilites. Les points sinterpr`etent

comme les resultats dune experience aleatoire. Les objets dinteret sont les evenements,
cest-`a-dire les elements de la tribu A. Une variable aleatoire reelle est une application
mesurable
X : (, A) (R, B),
o`
u B est la tribu borelienne sur R.
D
efinition 1.1. La fonction de repartition de la variable aleatoire reelle X est lapplication F : R [0, 1] definie par

F (x) = P X x = P , X() x , x R.
La fonction F est croissante, continue `a droite, tend vers 0 en et vers 1 en +.
Pour tout reel x,

P X = x = F (x) F (x).
La loi dune variable aleatoire designe dhabitude la mesure image de P par X sur (R, B),
notee PX et definie par
PX (A) = P[X A], A B(R).
Puisque la fonction de repartition F caracterise PX (voir Meleard [5], Proposition 4.2.3
p. 71), on peut parler indifferemment de F ou de PX pour designer la loi de X.
D
efinition 1.2. On appelle loi ou distribution de X la donnee de F .

Outils de probabilit
es

1.1.1

Variables discr`
etes

Une variable aleatoire reelle X est discr`ete si elle

de valeurs au
prend un ensemble

plus denombrable {xi , i N} R. La donnee des xi , P[Xi = xi ] , i N determine
entièrement F (et donc caracterise la loi de X).
Remarque 1.1. Si les xi sont isoles (par exemple si X est à valeurs dans N ou Z), la
fonction de repartition F de X est constante par morceaux, et les points de discontinuite
de F sont les points xi . De plus,

P X = xi = F (xi ) F (xi ), i N.
Exemple 1.1.
1. Une variable aleatoire X suit la loi de Bernoulli de paramètre p [0, 1] si

P X =1 =p=1P X =0 .
Dans ce cas
F (x) = p1[0,1) (x) + 1[1,+) (x), x R.
2. Une variable aleatoire X suit la loi binomiale de paramètres (n, p) avec p [0, 1]
et n N \ {0} si

P X = k = Cnk pk (1 p)nk , k = 0, . . . , n.
Dans ce cas 1
F (x) =

Cnk pk (1 p)nk , x R.

3. Une variable aleatoire X suit la loi Poisson de param`etre > 0, si

k
P X = k = e k! , k N.
Dans ce cas,
F (x) = e

X k
kx

1.1.2

, x R.

Variables de loi absolument continue

Une variable aleatoire reelle X est de loi absolument continue (ou `a densite) si sa
fonction de repartition secrit
Z
F (x) =
f (t)dt, x R
(,x]

1. avec la convention

= 0.

1.1 Loi dune variable al

eatoire r
eelle

o`
u dt designe la mesure de Lebesgue sur 2 R. La fonction f , definie `a un ensemble
negligeable pr`es, est une densite de probabilite :
Z
f 0 et
f (t)dt = 1.
R

Dans ce cas, la fonction de repartition F de X est differentiable presque-partout et on a

F 0 (x) = f (x) presque-partout.
Si elle existe, la densite dune variable aleatoire determine enti`erement sa fonction de
repartition F , et donc caracterise sa loi. La loi dune variable absolument continue est
diffuse : pour tout x R, on a P X = x = 0.
Exemple 1.2.
1. Une variable aleatoire X suit la loi uniforme sur [a, b], avec a < b, si elle admet
pour densite
1
f (t) =
1 (t).
b a [a,b]
Dans ce cas

0
si
x<a

x
a
si x [a, b]
F (x) =

ba
1
si x > b.
2. Une variable aleatoire suit la loi exponentielle de param`etre > 0, si elle admet
pour densite
f (t) = et 1[0,+) (t).
Dans ce cas,

F (x) =

0
si x < 0
1 ex sinon.

3. Une variable aleatoire suit la loi normale de moyenne R et de variance 2 > 0,

notee N (, 2 ) si elle admet pour densite

1
(t )2
f (t) =
exp
.
2 2
2
Dans ce cas,

F (x) =
o`
u

(x) =

, x R,
2 /2

dt
.
2

2. Comprendre ici et dans toute la suite la mesure de Lebesgue sur (R, B) . Idem pour la mesure
de Lebesgue sur Rn , cest-`
a-dire sur (Rn , Bn ), o`
u Bn est la tribu des boreliens de Rn .

Outils de probabilit
es

1.1.3

Formules dint
egration

Si X est une variable aleatoire reelle de loi F (ou encore PX ), on a, pour toute fonction
test 3 ,
Z
Z

E (X) =
X() P(d) =
(x) PX (dx)
(1.1)

(voir Meleard s[5], Proposition 4.5.1 p. 85), d`es que la fonction ; X() est
integrable par rapport `
a la mesure P(d). On ecrit aussi
Z

(x)dF (x).

(x)P (dx) =
R

Remarque 1.2. La mesure PX (dx), definie sur R peut etre construite à partir de la
fonction de repartition F . Pour cela, on pose

PX (a, b] = F (b) F (a), pour tous a < b reels,
et ce qui definit PX sur un sous-ensemble de B. Le prolongement à B en entier se fait `
a
laide du theorème de la classe monotone (voir par exemple Jacod et Protter, [4]).

Cas discret
Si X est discr`ete, prenant ses valeurs dans un ensemble {xi , i N} R de points
isoles, F est constante par morceaux, et ses discontinuites ont lieu aux points xi o`
u ses
sauts sont damplitude P[X = xi ] > 0, et
Z
(x)dF (x) =
R

(xi )P[X = xi ].

Cas continu
Si X est (de loi) absolument continue de densite f , on a
Z

Z
(x)dF (x) =

(x)f (x)dx,
R

ce qui est coherent du point de vue des notations avec la propriete F 0 (x) = f (x) presquepartout.
3. Dans toute la suite, une fonction test designera une fonction borelienne positive (ou integrable, ou
bornee) de sorte que les formules dintegration associees soient bien definies.

1.2 Param`
etres de position

M
elange de lois discr`
etes et continues
Une variable aleatoire reelle nest par exclusivement discrète ou (de loi) absolument
continue.
Exemple 1.3. Soit X une variable aleatoire reelle de loi N (0, 1). La variable
Y = X1X0
nest ni discrète, ni continue : elle nest pas discrète puisquelle peut prendre toutes les
valeurs positives, mais elle nest pas (de loi) absolument continue puisque
P[Y = 0] =
La fonction de repartition de X secrit
Z
1
F (x) = 2 1x0 +

1
2

6= 0.

dt
exp(t2 /2)
1x0 ,
2

et on a 4 pour toute fonction test ,

Z
Z

1
E (X) =
(x)dF (x) = 2 (0) +

dt
(t) exp(t2 /2) .
2

Remarque 1.3. La loi dune variable aleatoire peut etre discr`ete, absolument continue,
ou bien encore avoir une partie discr`ete et une partie absolument continue, comme dans
les exemples ci-dessus. Attention : ceci nepuise pas toutes les possibilites !

1.2

Param`
etres de position

Etant donnee une variable aleatoire reelle, on cherche une description de sa loi à
laide dindicateurs deterministes les plus simples possible. On utilise souvent en première
approximation quatre indicateurs (sils existent) bases sur les quatre premiers moments
(à normalisation affine près) qui sont la moyenne, la variance, le coefficient dasymetrie
ou skewness et le coefficient daplatissement ou kurtosis.
Un autre type dapproximation se base sur les quantiles de la loi consideree, qui
mesurent dans un certain sens la dispersion de la loi. Plus difficiles à manipuler, ils
presentent lavantage detre toujours definis.
4. On peut aussi ecrire la loi de X de la facon suivante
PX (dx) = 21 0 (dx) +

x2 /2
1 e
1x0 dx,
2

o`
u 0 (dx) designe la mesure de Dirac au point 0 et dx designe la mesure de Lebesgue sur R. Le contexte
dictera le choix des notations.

Outils de probabilit
es

1.2.1

Esp
erance-variance

Une variable aleatoire reelle X admet un moment dordre p N \ 0 si

Z
p
|X()|p P(d) < +.
E |X| =

Dans ce cas, son moment dordre p est

E Xp =

X()p P(d).

D
efinition 1.3. La moyenne ou esperance X , si elle existe, est le moment dordre 1 de
la variable aleatoire X :

X = E X
2 ) de X, si elle existe, est le moment dordre 2
La variance Var[X] (encore notee X
recentre de X :
Z

2
2
X = Var[X] = E (X X ) = (x X )2 dF (x).
R

La racine carree de la variance X = (Var[X])1/2 sappelle lecart-type de X.

Le calcul effectif des moments se fait en utilisant la loi de X. Par exemple :
P
p
Z
ete

iN xi P[X = xi ] si X est discr`

p
p
E X =
x dF (x) =
R p
R
si X est continue.
R x f (x)dx
La moyenne X fournit la meilleure prediction de X par une constante dans le sens
suivant :
Proposition 1.1. Si X admet un moment dordre 2, alors

E (X X )2 = min E (X c)2 .
cR

2
Demonstration. On a, pour tout reel c, E (X c)2 = E X c + Var[X].
Le couple esperance-variance fournit un indicateur tr`es simple pour controler les fluctuations de X autour de sa moyenne X via linegalite de Tchebychev :

2
P |X X | t X
, t > 0.
t2

(1.2)

1.2 Param`
etres de position

Famille de dilatation-translation associ

ee `
a une loi
Si X a un moment dordre 2, ecrivons la decomposition X = mX + X o`
u est
centree-reduite, cest-`
a-dire
E[] = 0, et Var[] = E[ 2 ] = 1.
Alors, avec des notations evidentes,

FX (x) = F

x mX
X

, xR

et si X est (de loi) absolument continue, sa densite secrit

1
x mX
, x R.
fX (x) =
f
X
X
Plus generalement, etant donne une loi F , on peut considerer la famille de lois definies
par

x
F, (x) = F
, x R, R, > 0.

Les param`etres et jouent respectivement les roles de localisation (ou translation, ou

position) et de dilatation (ou dechelle).
Remarque 1.4. Pour definir une famille de translations-dilatations associee `a une loi
F , il nest pas necessaire que cette loi admette un moment dordre 1 ou 2.

1.2.2

Coefficients dasym
etrie et daplatissement

Le coefficient dasymetrie (skewness) et le coefficient daplatissement (kurtosis) correspondent, `

a normalisation par la moyenne et la variance pr`es, aux moments dordre 3
et 4 respectivement.
Asym
etrie (skewness)
D
efinition 1.4. La loi de X est symetrique par rapport `
a R si
x R,

F ( + x) = 1 F ( x)

o`
u F est la fonction de repartition de X.
Dans le cas absolument continu, si f est la densite de X, cela entrane
f ( + x) = f ( x)

presque-partout.

On dit quune loi est symetrique si elle est symetrique par rapport `a 0.
Si X admet un moment dordre 3, on introduit une mesure
distributions symetriques de la mani`ere suivante

deloignement aux

Outils de probabilit
es

D
efinition 1.5. Le coefficient dasymetrie (skewness) dune variable aleatoire reelle X
telle que E |X|3 < + est
E
X =

3
X E[X]
.
3
X

Le coefficient dasym
etrie est une mesure
grossi`ere de symetrie : si la loi de X est
symetrique, alors X = 0. Mais avoir X = 0 ne signifie pas que la loi de X est
symetrique.

Remarque 1.5. Le coefficient X est invariant par dilatation-translation : pour tout
R et pour tout > 0, on a

+ X = X .
Aplatissement (kurtosis)
D
efinition 1.6.
Le
coefficient daplatissement (kurtosis) dune variable aleatoire reelle
X telle que E X 4 < + est
E
X =

X E[X]
4
X

4
3.

Le coefficient daplatissement est une mesure grossi`ere de lecartement de la loi de X

a la loi gaussienne en terme de queues de distribution, cest-`a-dire du comportement de
`

P |X| x au voisinage de x +.

Si X N (0, 1), on a (X) = 0. Lorsque X < 0 on dit que les queues de distribution de la loi de X
plus leg`eres que les queues gaussiennes, alors quelles sont
sont

plus
lourdes lorsque X > 0. Par linegalite de Cauchy-Schwarz, on a toujours X 2.
Remarque 1.6. Comme pour le coefficient dasymetrie, le coefficient daplatissement
est invariant par dilatation-translation : pour tout R et pour tout > 0, on a

+ X = X .

1.2.3

Quantiles

Si X est une variable aleatoire reelle dont la fonction de repartition F est continue
et strictement croissante, le quantile dordre p, 0 < p < 1, de la loi F est defini comme
lunique solution qp de lequation
F (qp ) = p.
(1.3)

1.2 Param`
etres de position

On a, par construction, la propriete caracteristique

P X qp = p.
Si F nest pas strictement croissante ou nest pas continue, il se peut que (1.3) nait pas
de solution ou bien ait une infinite de solutions. On peut alors modifier la definition (1.3)
de la facon suivante.
D
efinition 1.7. Le quantile qp dordre p, 0 < p < 1 de la loi F est la quantite

qp = 12 inf{x, F (x) > p} + sup{x, F (x) < p} .
Si (1.3) admet une solution unique, les deux definitions concident. Si (1.3) na pas
de solution, alors p na pas dantecedent et qp est un point de saut de F qui verifie :
F (qp ) p < F (qp ). Si (1.3) a une infinite de solutions, alors lensemble de ces solutions
est un intervalle borne et qp est le milieu de cet intervalle.
D
efinition 1.8. La mediane de X designe le quantile dordre 1/2 de la loi F . Les quartiles
de X designent la mediane, q1/4 et q3/4 .
On a toujours

P X q1/2 12 , et P X q1/2 12 .
Si F est continue, FX (q1/2 ) = 21 .
Remarque 1.7. La mediane est un indicateur de localisation dune loi de probabilite,
alors que lintervalle interquartile q3/4 q1/2 est un indicateur dechelle. Mediane et
intervalles interquartiles sont des analogues de la moyenne et de lecart-type, et sont
toujours definis.
La mediane jouit dune propriete analogue `a celle de la moyenne (Proposition 1.1)
lorsque lon remplace le moment dordre 2 par la valeur absolue.
Proposition 1.2. Si X admet un moment dordre 1, alors

E |X a| = min E |X c| ,
cR

pour tout a R verifiant P X a

1
2

et P X a 12 .

En particulier

E |X q1/2 | = min E |X c| .
cR

Demonstration. Montrons E |X c| E |X a| pour tout c R. Sans perdre de
generalite, on suppose c > a. On a alors
|X c| = |X a| + (c a)
|X c| |X a|
|X c| |X a| (c a)

sur {X a},
sur {a < X (a + c)/2},
sur {X > (a + c)/2}.

Outils de probabilit
es

En ecrivant
|X c| |X a| + (c a)1{Xa} (c a)1{X>(a+c)/2}
et en integrant cette derni`ere inegalite, on obtient

E |X c| E |X a| + (c a) P X a P X > (a + c)/2 .

La propriete de a garantit

de plus P X a P X > (a + c)/2 , ce qui permet de
conclure, puisque P X > a = 1 P X a 1/2.

1.3
1.3.1

Vecteurs gaussiens
Loi normale multivari
ee

Pr
eliminaires
Si
X = (X1 , . . . , Xn )T
est un vecteur aleatoire de Rn , son esperance est definie composante par composante en
prenant les esperances des Xi lorsque cela a un sens.
La variance de X est la matrice

X = E (X E[X])(X E[X])T
appelee aussi matrice de variance-covariance de X. Elle existe d`es lors que

E k X k2 < +,
o`
u k x k = (xT x)1/2 est la norme euclidienne du vecteur x Rn . On a les proprietes
suivantes :

T
1. X = E X T X E X E X

2. Pour tout a Rn , Var aT X = aT X a. En particulier, X est symetrique
positive.

3. Si A est une matrice k n et b Rk , on a A X +b = A X AT .
Vecteurs gaussiens
Si Idn designe la matrice unite n n, on note
N (0, Idn )
la loi du vecteur aleatoire
X = (1 , . . . , n )T

1.3 Vecteurs gaussiens

dont toutes les composantes sont des variables aleatoires gaussiennes independantes,
centrees reduites. On ecrit X N (0, Idn ).
On a les proprietes suivantes :
1. La moyenne de X est 0 et sa matrice de variance-covariance est Idn .
2. La loi de X est absolument continue, de densite par rapport `a la mesure de Lebesgue
sur Rn donnee par

1 T
n/2
fX (x) = (2)
exp x x , x Rn .
2
3. La fonction caracteristique (voir Meleard [5], Definition 6.1. p. 125) de X est donnee
par

iaT X
1 T
X (a) = E e
= exp a a , a Rn .
2
D
efinition 1.9. Un vecteur aleatoire X `
a valeurs dans Rn est gaussien (ou normal) si,
pour une matrice A de taille n n et un vecteur Rn , on a
X = + A , N (0, Idn ).
On a les proprietes suivantes :

1. La moyenne (vectorielle) de X est E X = .

2. La matrice de covariance de X est X = Var X = AAT .
3. La fonction caracteristique de X vaut
T
X (a) = E eia X
T

= E eia (+A)

T
T
= exp iaT E ei(A a)

= exp iaT 21 (aT A)T aT A

= exp iaT 21 aT a , a Rn .
On a la caracterisation suivante dun vecteur gaussien :
Proposition 1.3. Une application : Rn C est la fonction caracteristique dun
vecteur gaussien si et seulement si il existe Rn et une matrice symetrique positive
(dont toutes les valeurs propres sont positives ou nulles) tels que

(a) = exp iaT 12 aT a , a Rn .

Outils de probabilit
es

Demonstration. Le calcul de la fonction caracteristique dun vecteur gaussien etabli plus

haut monte que la condition est necessaire. Pour montrer la condition suffisante, il suffit
dexhiber un vecteur gaussien de Rn dont est la fonction caracteristique. Pour cela, on
peut poser X = + 1/2 , o`
u 1/2 est une racine carree de et N (0, Idn ).
En consequence, la loi dun vecteur gaussien X est enti`erement determinee par sa
moyenne et sa matrice de covariance . On ecrira par la suite X N (, ).
Remarque 1.8. Dans la decomposition = AT A dune matrice symetrique positive,
la matrice A nest pas unique. On peut prendre pour A une racine carree de , mais
il existe aussi dautres choix o`
u A nest pas necessairement symetrique. Si designe la
matrice diagonale formee `a partir des valeurs propres j de , de rang k n alors, on a
la decomposition
T

= =

n
X

,j j T,j

j=1

o`
u les ,j sont les colonnes de , aj =
A = (a1 , . . . , ak , 0 . . . , 0).

k
X

a,j aT,j = AAT

i=1

p
j ,j et A est une matrice n n definie par

Une caracterisation equivalente de la loi dun vecteur gaussien est la suivante :

Proposition 1.4. Un vecteur aleatoire X est gaussien si et seulement si toute combinaison lineaire des composantes de X est une variable aleatoire gaussienne reelle 5 .
Demonstration. Si X N (, ), pour tout u R, on a
T

aT X (u) = E eia X u
= X (ua)

= exp iuaT 12 u2 aT a ,
donc aT X N (aT , aT a). Reciproquement,
si pour tout a Rn , la variable aleatoire

2
reelle aT X est gaussienne, alors
(prendre pour a les projections sur
E
kX k <
+

les coordonnees), donc = E X et = X existent. Soit a Rn , m R et s2 0
de sorte que aT X N (m, s2 ). Necessairement,
m = aT et s2 = aT a,
5. On admet dans cette terminologie quune constante est une variable aleatoire gaussienne, de
moyenne elle-meme et de variance 0.

1.3 Vecteurs gaussiens

par linearite de lesperance et parce que Var aT X = aT [X]a (voir le paragraphe
precedent). Donc
aT X (u) = exp imu 21 s2 u2

= exp iuaT 21 u2 aT a
= aT X (1)
= X (a).
Puisque le choix de a Rn est arbitraire, on a la conclusion.

Densit
e de la loi normale multivari
ee
Si est definie positive, la loi de X est absolument continue par rapport `a la mesure
de Lebesgue sur Rn , et la densite du vecteur X est obtenue `a partir de la densite de via
la representation X = +A par changement de variable affine (Meleard [5], paragraphe
4.10.2 p. 107) :

fX (x) = detA1 f A1 (x )

1
1
T 1

=
exp (x ) (x ) , x Rn .
n/2
2
(2)
det
Loi normale multivari
ee d
eg
en
er
ee
Si est singulière, soit Rang() = k < n, le vecteur X na plus de densite sur Rn .
La representation X = + 1/2 montre que X se concentre à une transformation affine
près sur limage de 1/2 , qui est un sous-espace de dimension k.
Proposition 1.5. Si X N (0, ), avec Rang() = k < n, alors il existe un sousespace vectoriel H Rn de dimension n k tel que pour tout a H, la loi de aT X est
degeneree, cest-`
a-dire aT X est une constante (deterministe).
Demonstration. On pose H = Ker(). Alors H est de dimension n k et si a H, pour
tout u Rn , on a

T
aT X (u) = E eiu a X

= exp iu aT 21 u2 aT a

= exp iu aT
puisque a = 0.

Outils de probabilit
es

Ind
ependance de deux vecteurs gaussiens
Si X et Y sont
`a valeurs dans Rp et Rq respectivement, et
deux vecteurs
ale2atoires

2
tels que E k X k < + et E kYk < +, leur matrice de covariance est la matrice
p q definie par

X, Y = E (X E[X])(Y E[Y])T .
Lindependance entre des transformations lineaires dun vecteur gaussien se lit sur la
matrice de covariance :
Proposition 1.6. Si X est un vecteur gaussien de Rn et si A et B sont deux matrices
n p et n q, alors les vecteurs A X et B X sont independants si et seulement si

A X, B X = 0.
Demonstration. On concat`ene A X et B X en un vecteur Y = (A X, B X)T de Rp+q
qui est gaussien comme transformation lineaire du vecteur gaussien X. On a

A X
A X, B X
A X
0
=

Y =

A X, B X
B X
0
B X

si A X, B X = 0. Il vient, pour u = (a, b) Rp Rq ,
Y (u) = Y (a, b)
= exp iaT E[A X] + bT E[B X] 21 (aT , bT )Y (a, b)T

= exp iaT E[A X] 12 aT A X a + ibT E[B X] 12 bT B X b
= X (a)X (b).

Reciproquement, si A X et B X sont independants, on a A X, B X = 0 par le meme
calcul.

1.3.2

D
eriv
ees des lois gaussiennes

Il sagit de trois familles de lois tr`es classiques en statistique et utilisees pour la

construction de tests et dintervalles de confiance obtenues comme transformation de
lois gaussiennes : loi du 2 , loi de Student et loi de Fisher-Snedecor.
Loi du 2 `
a n degr
es de libert
e
D
efinition 1.10. Une variable aleatoire reelle Y suit la loi du 2 `
a n degres de liberte
si elle peut secrire
n
X
Y =
Xi2 ,
i=1

1.3 Vecteurs gaussiens

o`
u les variables X1 , . . . , Xn sont independantes, de meme loi N (0, 1).
On ecrit Y 2 (n). Autrement dit, si X N (0, Idn ), alors k X 2 k 2 (n). On a
les proprietes suivantes :
1. La densite de la loi du 2 (n) est donnee par
y ; c(n)y n/21 ey/2 , y R+ \{0}
R +
avec c(n) = 2n/2 (n/2)1 et (x) = 0 ux1 eu/2 du.

2. Si Y 2 (n), on a E Y = n et E Y 2 = 2n.
On utilise souvent le resultat suivant :
Proposition 1.7. Soit X un vecteur aleatoire de Rn tel que X N (, ), o`
u est
definie positive. Alors
(X )T 1 (X ) 2 (n).
Demonstration. On a
(X )T 1 (X ) = k1/2 X k2 .
On conclut en utilisant : 1/2 X N (0, Idn ).
Loi T de Student
D
efinition 1.11. Une variable aleatoire reelle T suit la loi de Student `
a n degre de
libertes si

T =p
,
Y /n
o`
u N (0, 1) et Y 2 (n) sont independantes.
On ecrit T T(n). On a les proprietes suivantes
1. La densite de la loi T(n) est donnee par

(n+1)/2
y2
y ; c(n) 1 +
,
n
avec
c(n) =

1
, et B(p, q) = (p)(q)/(p + q).
nB(1/2, n/2)

2. La loi T(n) est symetrique.

3. La loi T(1) est la loi de Cauchy.

Outils de probabilit
es
4. Lorsque n est grand, Y /n est proche de 1 par la loi des grands nombres et la loi
T(n) se rapproche de la loi N (0, 1).

La loi T de Student intervient en statistique comme une approximation de la loi N (0, 1),
lorsque la variance 1 est approchee par une loi du 2 `a n degres de liberte renormalisee.
Remarque 1.9. Par cette approximation meme, la loi T(n) est plus
la loi N (0, 1) : si T T(n) et N (0, 1), on a, par exemple,

T > X ,

dispersee que

o`
u [] est le coefficient daplatissement (la kurtosis) defini dans la Section 1.2. Le cas
extreme est n = 1 o`
u la kurtosis nest meme pas definie (il faut prendre au moins n = 6).
Loi de Fisher-Snedecor
D
efinition 1.12. Une variable aleatoire Y suit la loi de Fisher-Snedecor de degres de
libertes (p, q) si
U/p
Y =
,
V /q
o`
u U 2 (p) et V 2 (q) sont independantes.
On ecrit Y Fp,q et on a les proprietes suivantes :
1. La densite de la loi Fp,q est donnee par
y ; c(p, q)

y p/21
,
(q + py)(p+q)/2

o`
u
c(p, q) =

y R+ \{0},

pp/2 q q/2
.
B(p/2, q/2)

2. Lorsque q est grand, la loi F (p, q) se rapproche de la loi du 2 (p). Cest le meme
raisonnement que pour la loi de Student.

1.3.3

Cochran

Il sagit dun resultat dalg`ebre lineaire que lon utilise pour deduire des proprietes de
transformations lineaires de vecteurs gaussiens.
Th
eP
or`
eme 1.1 (Cochran). Soit X N (0, Idn ) et A1 , . . . , AJ des matrices n n telles
J
que j=1 Rang(Aj ) n et verifiant
(i) les Aj sont symetriques,

1.3 Vecteurs gaussiens

(ii) Aj Ak = 0 si j 6= k et A2j = Aj .
Alors
1. Les vecteurs aleatoires (Aj X, j = 1, . . . , J) sont mutuellement independants, et
Aj X N (0, Aj ).
2. Les variables aleatoires (kAj X k2 , j = 1, . . . , J) sont mutuellement independantes
et kAj X k2 2 Rang(Aj ) .
Demonstration. On a, pour tout u Rn et j = 1, . . . , J
T

T
T
E eiu Aj X = E ei(Aj u) X

= exp 21 (ATj u)T ATj u

par (i)
= exp 21 uT A2j u

1 T
= exp 2 u Aj u
par (ii).
On a donc Aj X N (0, Aj ). Soient u1 , . . . , uJ Rn . On a
PJ T

PJ

T
T
E ei j=1 uj Aj X = E ei( j=1 Aj uj ) X

= exp

1
2

J
X

ATj uj

J
T X

j=1

= exp

1
2

J
X

1
2

j=1

ATj uj

J
T X

j=1

= exp

ATj uj

J
X

Aj uj

par (i)

j=1

uTj Aj Aj 0 uj 0

j,j 0 =1

= exp

1
2

J
X

uTj Aj Aj uj

par (ii)

j=1

J
Y

exp 12 (ATj uj )T ATj uj

par (i)

j=1

J
Y

T

E eiuj Aj X

j=1

ce qui entrane lindependance (Meleard [5], Proposition 6.1.4 p. 130) des Aj X. Pour
montrer le point 2 du theor`eme, on ecrit, pour j fixe,
Aj = T
o`
u est une matrice orthogonale et = Diag(1 , . . . , n ) est la matrice diagonale des
valeurs propres de Aj . Il vient
kAj X k2 = X T ATj Aj X = X T Aj X = (T X)T T X .

(1.4)

Outils de probabilit
es

par (i) et (ii). Posons Y = T X. On a Y N (0, Idn ) car est orthogonale. En

reecrivant (1.4) `
a laide de Y, on en deduit
kAj X k2 = YT Y =

n
X

i Yi2 2 Rang(Ai )

i=1

puisque Ai est un projecteur, donc i = 0 ou 1 et le nombre de i non nuls est le rang

de Ai . Lindependance des kAj X k2 est une consequence immediate de celle des Aj X
prouvee precedemment.

1.4
1.4.1

Convergences et th
eor`
emes limites
Modes de convergences

On consid`ere une suite (n )n de variables aleatoires reelles n definies sur un espace

de probabilite commun (, A, P).
D
efinition 1.13. La suite (n )n ou plus simplement n converge vers en probabilite
P

(notation : n ) si pour tout > 0

lim P |n | = 0.

p.s.

La suite n converge vers presque-s

urement (notation : n ) si

P lim sup |n | > 0 = 0.
n

La suite n converge vers dans Lp (notation : n ), avec 0 < p < , si

lim E |n |p = 0.
n

On a les proprietes suivantes :

1. La convergence presque-s
ure ou la convergence dans Lp entranent la convergence
en probabilite.
2. La convergence presque-s
ure et la convergence dans Lp ne sont pas comparables.
P

3. Si n , elle admet une sous-suite qui converge presque-s

urement.

P
Lp
4. Si n et si |n | , avec E p < + pour un p > 0, alors alors n .
P

5. Si f est continue et n , alors

f (n ) f ().

1.4 Convergences et th
eor`
emes limites

Pour parler de convergence presque-s

ure, il est necessaire que les variables n et leur
limite soient definies simultanement sur le meme espace de probabilite. 6
Remarque 1.10. La convergence en probabilite est sans doute la notion la plus adaptee
à la problematique statistique. Elle traduit la propriete suivante : pour tout niveau de
risque > 0 et pour toute precision > 0, il existe un rang n(, ) à partir duquel on
peut affirmer que n approche avec une erreur inferieure à . La probabilite que
cette affirmation soit fausse est inferieure à :

pour n n(, ), P |n | 1 .
Cependant, pour contr
oler precisement le comportement asymptotique de suites de
variables aleatoires, on aura besoin dun mode de convergence plus faible : la convergence
en loi.
d

D
efinition 1.14. La suite n converge vers en loi (notation n ) si pour toute
fonction continue bornee, on a

E (Xn ) E () lorsque n .
Remarque 1.11. On peut remplacer dans la definition la suite reelle n par une suite
de vecteurs aleatoires n de Rd avec d 1 et par un vecteur aleatoire de Rd .
6. Remarque (quon omettra en premi`ere lecture) : Ce nest pas forcement le cas pour la convergence
dans Lp ou en probabilite. Dans les chapitres qui suivront, on travaillera souvent avec une suite de variables
aleatoires reelles
X1 , . . . , Xn
independantes, et identiquement distribuees de loi Q sur (R, B). On utilisera la construction suivante :
pour chaque n, on pose
n = Rn , An = Bn , Pn = Q . . . Q
T

n fois.
X

On peut ainsi definir X = (X1 , . . . , Xn ) sur (n , A ) et la loi P du vecteur X concide avec Pn . Si

on consid`ere une suite de variable aleatoires de la forme n = n (X1 , . . . , Xn ), o`
u n : Rn R est une
n
application donnee, chaque n est definie sur un espace different (n , A , Pn ). Si la limite de n
est une constante c R deterministe, ce qui sera souvent le cas, alors on peut parfaitement parler de
convergence en probabilite et dans Lp en posant
P

n
n
c si > 0,

lim Pn |n c| = 0

et
L(Pn )

n c si

lim En |n c|p = 0.

Puisque Pn est enti`erement determinee par Q, on ecrira, sans quil y ait de confusion possible,
Q

n c

Lp (Q)

n c.

Par contre, on ne peut plus parler de convergence presque-s

ure. Toutefois, en travaillant un peu, on
peut se placer sur un produit infini et donner de meme un sens a
` la convergence presque-s
ure. A posteriori
il ny a pas dambiguite decriture. Nous ne reviendrons plus sur ces questions techniques.

Outils de probabilit
es

La convergence en loi est une notion plus faible que la convergence en probabilite.
Elle ne fait intervenir que la suite des lois Pn et P . En particulier, on na pas besoin
que les variables n ou la limite soient definies sur le meme espace de probabilite.
On a les proprietes suivantes
d

1. n si et seulement si pour tout u R,

n (u) (u) lorsque n .
Cette propriete caracterise la convergence en loi 7 (Theor`eme de Levy).
2. (Astuce de Wold). La suite de vecteurs n de Rd converge vers en loi si et seulement
d

si aT aT pour tout a Rd .
3. Dans la Definition 1.14, on peut remplacer f continue bornee par
f (x) = 1(,x0 ] (x), x R

d
en tous les points x0 R tels que P = x0 = 0. Autrement dit n si et
seulement si

P n x P x], lorsque n .
en tout point x o`
u la fonction de repartition de est continue.
d

4. Si n et g : R R est continue, alors 8 g(n ) g().

Voici un resultat technique que nous utiliserons constamment dans ce cours :
d

Proposition 1.8 (Slutsky). Si n et n c o`

u c est une constante (deterministe),
alors
d
(n , n ) (, c).
d

En particulier, si h : R R R est continue, alors h(n , n ) h(, c). Ceci entrane

alors n + n + c, n n c , et ainsi de suite.

Demonstration. Soient u, v R. On ecrit

E ei(un +vn ) E eiu eivc

= E eiun eivn eivc + E eiun E eiu eivc .
d

La convergence n entrane immediatement la convergence vers 0 du second terme

du membre de droite de legalite.
7. On peut remplacer n et par des vecteurs de Rd avec d 1, en prenant u Rd .
8. On peut remplacer n et par des vecteurs de Rd avec d 1 et g : Rd R continue.

1.4 Convergences et th
eor`
emes limites

Concernant le premier terme, pour > 0, on introduit levenement {|n c| }.

On a alors

E eiun eivn eivc

= E eiun eivn eivc 1|n c| + E eiun eivn eivc 1|n c|<

2 P |n c| + |v|,
P

o`
u lon a utilise |eivn eivc | |v||n c|. On conclut en utilisant n c puis en faisant
tendre vers 0.

1.4.2

Lois des grands nombres et th

eor`
eme central-limite

Loutil probabiliste essentiel de ce cours est le controle de la somme de variables

aleatoires independantes (et souvent equidistribuees).
Notations
Si X1 , . . . , Xn est une suite de variables aleatoires reelles, on notera toujours
n

Xn =

1X
Xi
n
i=1

leur moyenne empirique. Si X1 , . . . , Xn sont independantes et de meme loi Q, on ecrira

X1 . . . Xn i.i.d. Q.
Dans ce contexte et lorsquil ny aura pas dambiguite on introduira parfois la notation
X pour designer une variable de meme loi que les Xi .
Lois des grands nombres
Proposition 1.9. Soient X1 , . . . , Xn des variables
aleatoires independantes de meme loi,
telles que Var X = 2 < +. On note = E X . Alors

2

.
E X n = et Var X n =
n
Demonstration. On utilise simplement la linearite de lesperance et la propriete
Var

n
X

n
X

Xi =
Var Xi

i=1

qui est verifiee si les Xi sont independantes.

i=1

Outils de probabilit
es
L2

Remarque 1.12. La Proposition 1.9 implique la convergence X n et donc aussi

P
X n .
Th
eor`
eme 1.2 (Loi forte des grands nombres).
aleatoires
Soient X1 , . . . , Xn des variables

independantes de meme loi, telles que E |X| < +. On note = E X . Alors
p.s.

X n

lorsque n .

Th
eor`
eme central limite
Le theor`eme central limite donne la vitesse de convergence dans la loi des grands

nombres. La Proposition 1.9 sugg`ere que la bonne normalisation est n : en effet, on a

h
E

n X n

2 i

= nE

2

X n E[X n ]
= nVar X n = 2 ,

qui reste bornee lorsque n . On cherche donc le comportement de lerreur normalisee

n X n , lorsque n .
Malheureusement, si la convergence existe, elle ne peut pas avoir lieu en probabilite 9 et
il faut affaiblir le mode de convergence.
Th
eor`
eme 1.3 (Theor`eme central limite).
X1 , . . . , Xn des variables
aleatoires
2Soient

2 = Var X > 0. On note
independantes
de
m
e
me
loi,
telles
que
E
X
<
+
et

= E X . Alors

X n d
n
N (0, 1).

On dira que la suite n est asymptotiquement normale sil existe deux constantes
R et > 0 telles que

d
n(n ) N (0, 2 ).
En particulier, le theor`eme central limite implique que la moyenne empirique est asymptotiquement normale. Le resultat suivant montre que si n est asymptotiquement normale,
alors g(n ) lest aussi `
a condition que g : R R soit suffisamment reguli`ere.
Cet outil technique essentiel porte en statistique le nom de

methode delta .

Proposition 1.10 (methode delta). Si n est asymptotiquement normale et g : R R

est contin
ument differentiable, alors g(n ) lest aussi et

9. voir lExercice 1.2.

d

n g(n ) g() N 0, 2 g 0 ()2 .

1.4 Convergences et th
eor`
emes limites

Demonstration. La fonction
(
h(x) =

g(x)g()
x
g 0 ()

si x 6=
si x =

est continue. La normalite asymptotique de n entrane en particulier la convergence

P
n , et donc aussi
P
h(n ) h() = g 0 ().

d
Or n g(n ) g() = h(n )n , avec n = n(n ) N (0, 2 ). La Proposition 1.8
(Slutsky) permet de conclure

d
d
h(n )n g 0 () N (0, 2 ) = N 2 g 0 ()2 ,
d

le symbole = signifiant

egalite en loi .

Version multidimensionnelle du th
eor`
eme central limite
d
Th
eor`
eme 1.4. Soient X 1 ,. . . , X n une suite de vecteurs aleatoires
de R independants
2
et de meme loi, tels que E k X k < +. On note = E X et la matrice de
variance-covariance d d de X. On a
d

n X n N 0, .

La methode delta a elle aussi une version multidimensionnelle. Si g : Rd Rk

est contin
ument differentiable, elle secrit

g(x) = g1 (x), . . . , gk (x) , gi : Rd R,
et on note Jg (x) la matrice de la differentielle de g au point x Rd :

1 g1 (x) . . . d g1 (x)

..
..
Jg (x) =
.
.
.
1 gk (x) . . . d gk (x)
Proposition 1.11. Soient 1 , . . . , n une suite de vecteurs aleatoires de Rd asymptotiquement normale, au sens o`
u:
d

n n N 0,
o`
u Rd et est une matrice d d symetrique positive. Alors, si g : Rd Rk est
contin
ument differentiable, on a
d

n g( n ) g() N 0, Jg () Jg ()T .

Outils de probabilit
es

1.5

Exercices

Exercice 1.1. Soient Xn et Yn deux suites de variables aleatoires reelles telles que
P

P
Xn 0 et supn E |Yn | < . Montrer que Xn Yn 0.
Exercice 1.2. Soit Xn une suite de variables aleatoires independantes centrees reduites.
Par le theor`eme central limite, on a
n

1 X
d
Sn =
Xi N (0, 1).
n
i=1

Le but de cet exercice est de montrer que Sn ne peut pas converger en probabilite.
Decomposer la variable S2n en fonction de Sn et dune variable aleatoire independante
de la precedente.
Calculer la fonction caracteristique de S2n Sn et montrer que cette difference
converge en loi.
En raisonnant par labsurde, en deduire que Sn ne converge pas en probabilite.
Exercice 1.3. On pose
f (x) =

|x|
.
1 + |x|

Montrer que la suite de variables aleatoires Xn converge en probabilite vers X si

et seulement si

lim E f (Xn X) = 0.
n

Montrer que lon peut remplacer f par g(x) = min{|x|, 1}, et plus generalement par
toute fonction f positive, continue, bornee, croissante sur R\ {0} verifiant f (0) = 0
et f (x) > 0 si x > 0.
En deduire que si Xn converge vers X en probabilite, il existe une sous-suite qui
converge presque-s
urement. (Il existe une autre preuve facile de ce resultat `
a laide
du lemme de Borel-Cantelli).

Chapitre 2

Exp
erience statistique
Une experience statistique est la description mathematique de la realisation dune
variable ou dun vecteur aleatoire (lobservation) associee à un ensemble de lois de probabilite (le modèle) susceptibles davoir engendre cette observation.
A une experience statistique est toujours associee une problematique : la reconstruction dun paramètre du modèle (lestimation), la decision sur les proprietes du modèle
(un test).

Mod
elisation statistique?

2.1
2.1.1

Exemples introductifs

Exemple 1 : Sondage
Une election entre deux candidats A et B a lieu : on effectue un sondage à la sortie
des urnes. On interroge n votants, n etant considere comme petit devant le nombre total
de votants, et on recolte les nombres nA et nB de voix pour A et B respectivement
(nA + nB = n, en ne tenant pas compte des votes blancs ou nuls pour simplifier).
Problematique statistique : peut-on affirmer que A ou B a gagne au vu de nA
et nB seulement ? Si lon decide dannoncer A (ou B) vainqueur, comment
quantifier lerreur de decision ?
La reponse va de toute evidence dependre de n et du rapport nA /nB . Ce problème semble
intimement lie avec lexperience suivante : on lance une pièce de monnaie n fois et on
compte les nombres nP et nF de piles et faces obtenus.
Problematique statistique : la pièce est-elle truquee ? Si n = 100 et nP = 19,
nF = 81, on ne va pas vraiment hesiter. Mais quen est-il si n = 20, nP = 12
et nF = 8 ?

Exp
erience statistique

Intuitivement, dans ces deux experiences statistiques, le probl`eme de decision sera dautant plus difficile `
a resoudre que la pi`ece est peu truquee , ou bien que les deux
candidats sont proches dans le cur des electeurs dune part, et si lon a recolte peu de
lancers ou de reponses (n petit) dautre part.

Exemple 2 : Reconstruction dun signal bruit

e

On transmet un signal periodique f (t), t [0, T ] echantillonne à une certaine
frequence N . Chaque donnee f (k/N ), k = 1, . . . , N T , est corrompue lors de la transmission par une erreur ek , de sorte que lon capte
Yk = f (k/N ) + ek , k = 1, . . . , N T.
On a n = N T observations. On postule que les erreurs sont independantes les unes
des autres, nulles en moyenne, et leur ordre de grandeur sans preciser plus pour le
moment est > 0.
Problematique statistique : comment
reconstruire f , cest-`
a-dire comment construire

une fonction t ; fb t; (Yk ) ne dependant que des observations Yk on dira
un estimateur de f de sorte que fb soit proche de f ?
Intuitivement, la difficulte du problème va dependre de N et du rapport entre la taille
de f et le niveau de bruit , et bien s
ur de la complexite du signal 1 . Voici une autre
question très proche
Problematique statistique : comment decider si le canal transmet effectivement
un signal (afin de declencher une alarme, par exemple). Autrement dit, peuton decider en vue des Yk si f = 0 ou f 6= 0 ? Avec quelle probabilite de se
tromper ?
On peut imaginer un signal en dimension 2 : par exemple, une image definie sur le carre
unite [0, 1] [0, 1] pour une certaine discretisation en pixels auxquels sont associes des
niveaux de gris dans [1, M ] N. Das ce cas, on observe
Yk,` = f (k/N, `/N ) + k,` , 1 k, ` N,
o`
u
f : [0, 1] [0, 1] [1, M ] N
et les l,` sont des erreurs, nulles en moyenne et dordre de grandeur . On a n = N 2
observations. On pourra sinteresser au problème de reconstruction de limage f ou bien
decider si une certaine caracteristique est presente dans limage ou non.
1. Un signal constant ou ayant une forme prescrite sera plus facile a
` reconstruire quun signal irregulier.

2.1 Mod
elisation statistique?

Exemple 3 : Evaluation du risque dun actif financier

On recueille sur le marche les donnees du prix (St , t 0) dun actif financier sur
lintervalle de temps [0, T ], pour une certaine echelle dechantillonnage : par exemple,
une semaine ou un jour, une heure, quelques minutes, etc. On observe les rendements
logarithmiques
Si
Yi = log
, i = 1, . . . , n = bT /c.
S(i1)
On a n = bT /c observations. Si lon se place dans la theorie classique de Black-Scholes,
la dynamique du prix suit lequation
dSt
= dt + dBt ,
St

(2.1)

o`
u (Bt , t 0) est un mouvement brownien, R est le drift et > 0 la volatilite de
lactif.
Problematique statistique : comment reconstruire 2 la volatilite `
a partirdes
donnees historiques Yi ? On peut aussi vouloir estimer le risque /( T )
de lactif 3 .
La reponse va dependre de T , et , mais aussi de , choisi par le statisticien.
Exemple 4 : Biopuces et analyse dADN
On dispose dun procede de biologie moleculaire, les biopuces (ou microarrays) qui
permet de mesurer lexpression de certains gènes dun individu dune espèce biologique
dans certaines situations 4 . Dans ce cas, on dispose pour chaque individu i dune suite
de localisations (qui correspondent grossièrement à des gènes) et dune expression correspondante qui prend la forme
(i)

(i)

X i = (X1 , . . . , XJ ), i = 1, . . . , N
(i)

o`
u Xj 0 est le niveau dexpression des gènes parmi les sites {1, . . . , J} pour lindividu
i pris dans une population de taille N . On a 5 n = JN observations.
Problematique statistique : peut-on localiser les sites i responsables dun etat
(i)
donne, sachant que les mesures des Xj sont sujettes `
a des erreurs ? Si lon
se donne deux populations, lune atteinte dune maladie soupconnee detre
2. Par exemple, pour la comparer avec la volatilite implicite donnee par des prix doptions.
3. Que lon designe aussi comme son ratio de Sharpe.
4. Par exemple, en laboratoire, on peut mesurer lintensite de lexpression de certains gènes dun
insecte infecte dans le but de localiser les gènes promoteurs de la reponse immunitaire.
5. Avec le fait notable quen pratique N J : N est de lordre de quelques individus alors que J est
de lordre de plusieurs milliers.

Exp
erience statistique

115
105

110

Bund

120

125

500

1000

1500

Time

Figure 2.1 Exemple 3 : observation des prix du contrat futur FGBL (Obligation 10 ans
de lEtat allemand), entre avril 1999 et decembre 2005. Lechantillonnage est de = 1
jour. (Source : BNP Paribas)

2.1 Mod
elisation statistique?

dorigine genetique, lautre population etant saine, peut-on decider au vu des

donnees X i (pour chaque population) si la maladie en question est dorigine
genetique ?
Exemple 5 : Contr
ole de qualit
e, donn
ees censur
ees
On cherche en laboratoire à tester la fiabilite dun appareil industriel. On fait
fonctionner en parallèle n appareils jusquà ce quils tombent tous en panne. On note
X1 , . . . , Xn
les instants de panne observes. On dispose donc de n observations.
Problematique statistique : comment reconstruire la loi du temps de panne ?
Le temps de panne moyen est-il raisonnable (plus petit quun seuil donne) ?
La precision destimation sur la loi du temps de panne des Xi sera dautant meilleure
que n est grand.
Si les appareils sont fiables, ce qui est realiste en pratique, la quantite maxi=1,...,n Xi
sera souvent hors datteinte pour le statisticien. On stoppe lexperience après un temps
terminal T et on observe plut
ot
Xi? = min{Xi , T },

i = 1, . . . n.

Problematique statistique : quelle est la perte dinformation, quantifiee par T ,

dans cette seconde experience plus realiste ?
Exemple 6 : Influence dune variable sur une autre
Comment quantifier une assertion comme la taille dun individu est fonction de son
age ? Si on note Y la taille et X lage typiques dun individu, il est irrealiste de postuler
lexistence dune fonction f : R R telle que Y = f (X).
Toutefois, on peut esperer que la variabilite de Y est essentiellement contenue dans celle de X dans le sens suivant : si X et Y sont deux variables aleatoires avec
Y de carre integrable, ecrivons

Y = r(X) + , avec r(X) = E Y | X ,

de sorte que = Y E Y | X est un bruit centre. Cette decomposition est motivee
par la propriete de lesperance conditionelle qui est la meilleure approximation de Y par
une variable X- mesurable, au sens suivant :
E

Y r(X)

= min E
h

2
Y h(X)

Exp
erience statistique

Figure 2.2 Exemple 4. Observation dune biopuce en laboratoire : chaque carre lumineux mesure lintensite dexpression dun gène (en fait dune sequence dARNm codante
suffisamment longue pour etre mise en correspondance avec un gène via la production de
peptides pour lesquels code la sequence dADN correspondante). La representation en
carres est donnee pour economiser la representation : il ny a pas a priori de structure
bi-dimensionnelle associee à cette image .

2.1 Mod
elisation statistique?

o`
u le minimum est pris sur lensemble des fonctions boreliennes. Cest une caracterisation
de lesperance conditionnelle pour des variables de carre integrable (voir, par exemple,
Jacod et Protter [4]).

On traduit
la taille dun individu est fonction de son age par la variance du
bruit 2 = E 2 est petite par exemple. On collecte les ages et tailles (Xi , Yi ) dune
population de n individus. Les observations sont les (Xi , Yi ), avec

Yi = r(Xi ) + i , i = 1, . . . , n

(2.2)

et les i sont des bruits centres de taille 2 . On a n observations (ou 2n selon le point de
vue). Les Xi portent le nom de covariables, ou variables explicatives.
Problematique statistique : comment reconstruire la fonction r appelee fonction de regression et estimer lintensite 2 du bruit ?
Ce contexte est proche de celui de lexemple 1 du signal bruite, à ceci près que les points
k/N sont remplaces par les donnees aleatoires Xi , dont les valeurs ne sont pas choisies
par le statisticien. Mais si les Xi sont bien repartis , on sattend à ce que les deux
modèles soient proches lorsque n est grand.
Les variables X et Y nont pas vocation à etre de meme dimension : on peut remplacer
X par un vecteur X Rk qui collecte un ensemble de covariables possibles. Dans ce cas,
la representation (2.2) devient Yi = r(X i ) + i o`
u maintenant r : Rk R, que lon peut
chercher `
a reconstruire.
Il existe aussi des situations o`
u Y est une variable qualitative, cest-à-dire ne prenant
quun nombre fini de valeurs. On peut penser que le risque de maladie coronarienne chez
un individu est influence par toute une serie de facteurs : pression systolique, consommation de tabac, dalcool, taux de cholesterol, poids, age, terrain familial, etc. On note
Yi {0, 1} labsence ou la presence de maladie coronarienne pour un individu i detude
donne, et X i le vecteur des covariables constitue des differentes donnees recueillies chez
lindividu i. Dans ce cas, on a

r(x) = P Y = 1| X = x ,
qui sinterprète comme la probabilite detre atteint de maladie coronarienne, sachant le
vecteur des covariables X.

Exp
erience statistique

2.1.2

D
efinition provisoire dune exp
erience statistique?

Construire une experience statistique consiste `a identifier trois elements distincts :

1. Des observations
x1 , x2 , . . . , xn

(2.3)
complexes. 6

o`
u les xi sont des reels, mais on peut imaginer des situation plus
Ces
observations sont associees à la realisation dune experience physique, et le point
de depart du statisticien est donc le resultat de cette experience.
2. Un mod`
ele stochastique associe à lexperience qui a engendre les observations. Les
observations sont considerees comme la realisation de variables aleatoires. La loi de
ces variables aleatoires identifie le mecanisme de formation des observations. Cette
loi depend de paramètres inconnus.
3. Une probl
ematique associee au couple [observations, modèle]. Il sagit pour le statisticien de retrouver on dira estimer les paramètres inconnus. Il faut pouvoir
contr
oler la qualite de cette estimation.
On peut aussi vouloir prendre une decision, par exemple sous la forme dun test
dhypothèse sur les paramètres. Il faut pouvoir controler lerreur de decision. 7

La problematique statistique consiste `a developper le point 3 dans des situations

associees aux points 12.
D
efinition 2.1 (provisoire dune experience statistique). Une experience statistique est
la donnee dobservations et dun modèle stochastique susceptible davoir engendre ces
observations.
Mathematiquement, les observations sont la realisation dun vecteur aleatoire Z dont
la loi PZ est prise dans une famille P de probabilites possibles donnee `
a lavance et qui
definit le modèle stochastique associe `
a lobservation.
Cette definition règle 8 provisoirement les points 1 et 2. Au moyen dune parametrisation appropriee, on peut toujours representer la famille P sous la forme

P = P , ,
6. On peut considerer des donnees qualitatives, que lon pourra coder par des entiers, ou bien des
donnees plus complexes, comme par exemple une surface o`
u la trajectoire dun processus stochastique.
La difficulte provient de lorganisation des xi qui peut etre complexe (vecteurs, tableaux) et ne transparat
pas dans lecriture (2.3).
7. Cest-`
a-dire la probabilite daccepter une hypothèse sur les paramètres alors quelle est fausse, ou
de la rejeter alors quelle est vraie.
8. Avec les notations de la definition 2.1, les observations secrivent sous la forme
(x1 , . . . , xn )T = Z()

2.2 Formulation math

ematique

o`
u est un ensemble de paramètres possibles. Le point 3 se traduit ainsi :
D
efinition 2.2. La problematique statistique (ou linference statistique) consiste, `
a partir
Z
dune realisation dun vecteur aleatoire Z, dont la loi P est prise dans une famille
{P , P } donnee, `
a retrouver le paramètre tel que PZ = P .
Le paramètre resume toute linformation que peut apporter lobservation Z().
Identifier est equivalent `
a identifier P , cest-à-dire la loi de la variable aleatoire Z dont
on a observe une realisation Z().

2.2
2.2.1

Formulation math
ematique
Exp
erience engendr
ee par une observation

Situation
Une experience statistique est la donnee dun vecteur aleatoire Z à valeurs dans un
espace mesurable (Z, Z), le plus souvent (Rn , B n ) et definie sur un espace de probabilite (, F, P). La problematique statistique consiste à supposer que PZ appartient à une
famille de probabilites sur (Z, Z), et le but est de retrouver les proprietes de PZ à
partir de lobservation dune realisation de Z seulement.

On represente cette famille sous la forme P , , o`
u est un paramètre et un
lespace d
ensemble de paramètres. Dans
un
probl`
e
me
statistique,
seul
etat (Z, Z)

et la famille de probabilites P , comptent. Une fois ces elements specifies, la
donnee de Z et de lespace (, F, P) deviennent superflus.
D
efinition 2.3 (Experience statistique). Une experience (un modèle) statistique E est
la donnee dun triplet

E = Z, Z, {P , }
o`
u (Z, Z) est un espace mesurable et {P , } une famille de probabilites definie sur
(Z, Z). On appelle lensemble des paramètres.
On parle indifferemment dexp
ou de modèle statistique. On parlera
erience statistique

parfois simplement du modèle P , lorsque le contexte ne prete pas à confusion 9 .
D
efinition 2.4 (Experience engendree par une observation). Si lexperience statistique
E est construite `
a partir dune observation Z par le procede ci-dessus, on dit que E est
engendree par lobservation Z.
et sont donc apprehendees comme la realisation dun vecteur aleatoire Z defini implicitement sur un
espace mesurable (, A). La famille P est un ensemble de mesures de probabilites definies sur limage
Z() de Z.
9. Sans preciser lespace (Z, Z) sur lequel sont definies simultanement toutes les probabilites P , .

Exp
erience statistique

Exemple
On observe n variables aleatoires independantes, gaussiennes de moyenne R et
de variance 2 > 0. Lexperience statistique associee est decrite comme lobservation de
X1 , . . . , Xn independantes, identiquement distribuees,
Xi N (, 2 ), R, 2 > 0.
Il existe donc un espace de probabilites (, F, P) sur lequel est defini le vecteur aleatoire
Z = (X1 , . . . , Xn )T et PZ est la loi de n variables gaussiennes
independantes de2 moyenne
Z
n
2
n
et de variance . La probabilite P , definie sur R , B , depend de et meme si
cela ne transparat pas dans les notations. On a
Z
n
X

Z
n/2
P [A] = (2)
exp 21 2
(xi )2 dx1 dxn , A B n .
A

i=1

Dans ce cas, on construit lexperience E associee de la facon suivante : on pose

Z, Z = Rn , B n , = (, 2 ), = R R+ \{0}, P = PZ ,
o`
u B n designe la tribu borelienne de Rn .
Remarque 2.1. En toute rigueur, on ne peut pas dire que lon observe Z, mais
plut
ot que lon observe une realisation Z() de Z, qui correspond aux donnees physiques x1 , x2 , . . . , xn que lon traite effectivement en pratique. Mathematiquement, cela
na aucune importance, et on sautorisera cet abus de langage. Le paragraphe suivant
permet de lever cette ambiguite 10 sur laquelle nous ne reviendrons plus.

2.2.2

Observation canonique?

Lorsque lon specifie directement une experience statistique E via la Definition 2.3, il
ny a pas dobservation Z. Une facon immediate de considerer E comme engendree
par une observation Z consiste `a poser

(, F) = Z, Z et Z() = , ,
et PZ = P est la loi de Z qui depend ici explicitement de dans les notations.
D
efinition 2.5 (Observation canonique). Si lobservation Z est construite `
a partir dune
experience statistique E par le procede ci-dessus, on dit que Z est lobservation canonique
associee a
` E.
Ces deux points de vue peuvent parfois etre source de confusion, principalement dans
les notations. Dans la pratique (mathematique) on naura pas besoin de se soucier du
point de vue sous lequel on se place, les Definitions 2.4 et 2.5 etant equivalentes.
10. En statistique, on parle de Z pour designer Z(), a
` linverse de la pratique qui consiste a
` ecrire
parfois f (x) pour designer la fonction f .

2.2 Formulation math

ematique

2.2.3

Domination

Apprehender une famille de mesure P , sans plus dhypothèse est très
ambitieux, comme on le verra au Chapitre 3. Sous une hypothèse de regularite, dite de
domination, on ramène le problème de letude des P à une famille de fonctions sur (Z, Z).

D
efinition 2.6. Etant donnees deux mesures positives -finies et definies sur Z, Z ,
on dit que domine et on ecrit si
[A] = 0 [A] = 0.
Le theorème de Radon-Nikodym (voir par exemple Jacod et Protter [4], Chapitre 28)
d
entrane lexistence dune fonction mesurable positive z ; p(z), notee z ; d
(z), appelee
densite de par rapport `
a , definie à un ensemble -negligeable près, de sorte que
(dz) = p(z)(dz),
au sens o`
u

Z
p(z)(dz) =

[A] =
A

d
d (z)(dz),

A Z.

D
efinition 2.7. Une experience statistique
E
=
Z,
Z,
{P
,

}
est dominee par la

mesure -finie definie sur Z, Z si pour tout , la mesure domine P .
Dans ce cas, il existe, pour tout une densite
z ; p(, z) =

d P
(z)
d

de sorte que
P (dz) = p(, z)(dz), z Z.
Lhypoth`ese
permet de reduire letude de la complexite de la famille
de domination

de mesure P , `
a celle de lapplication
p : Z R+
et de la mesure dominante . Nous verrons dans les chapitres suivants comment letude
systematique des proprietes de p(, ) rend compte des proprietes de E.
Exemple 2.1. Un exemple o`
u il nexiste pas de mesure dominante est la famille parametrique {P = , R}, o`
u est la mesure de Dirac au point . Cet exemple 11
correspond `
a lexperience parfaite o`
u une seule observation permet de connatre sans
erreur le param`etre .
11. En effet, sil existe une mesure -finie sur R qui domine tous les P = , alors necessairement
{} =
6 0 pour tout R. Ceci est en contradiction avec lexistence dune partition denombrable An de
R telle que (An ) < + pour tout n, donc ne peut pas etre -finie.

Exp
erience statistique

Exemple 2.2. Un exemple plus subtil est donne par lexperience engendree par lobservation de X, o`
u X suit une loi de Poisson de param`etre 1, et = R+ \{0} est le
param`etre. Dans ce cas, lexperience est vraiment aleatoire , mais on pourra montrer
en exercice quelle nest pas dominee 12 .

2.2.4

Mod`
eles param
etriques, non-param
etriques?

On distingue deux types dexperiences statistiques : les experiences parametriques,

o`
u peut secrire comme un sous-ensemble de Rd , le param`etre pouvant etre decrit
par un nombre fini de composantes, et les experiences non-parametriques, o`
u est un
element dun espace fonctionnel.
Par exemple, dans les exemples 2 signal bruite et 6 influence dune variable sur
une autre de la Section 2.1.1, le param`etre inconnu est le signal f ou la fonction de
regression r. Si lon postule que f (ou r) se represente sous la forme
f (, x) =

d
X

i i (x), x R

i=1

o`
u les fonctions i sont donnees, lexperience statistique est parametrique, et
= (1 , . . . , d )T Rd .
Le choix d = 2 et r(, x) = 0 + 1 x correspond `a
etudiera en detail dans la Section 5.2.

la droite de regression , que lon

Si f est un element quelconque dun espace fonctionnel (decrit le plus souvent par des
proprietes de regularite fonctionnelles : par exemple, f est de carre integrable et derivable
un certain nombre de fois dans L2 ), alors lexperience associee est non-parametrique et le
paramètre est la fonction f elle-meme. Si les fonctions i sont les d-premiers elements
dune base orthogonale de L2 , alors la transition dune situation parametrique vers une
situation non-parametrique consiste formellement à passer à la limite dans le nombre de
dimensions d qui decrivent le paramètre inconnu.
La distinction parametrique ou non-parametrique est un choix de modelisation. Pour
lexemple 2 de la transmission dun signal bruite ou de la reconstruction dune image de
la Section 2.1.1, un modèle non-parametrique semble plus approprie que pour lexemple
du sondage. Pour lexemple 3 de lestimation de la volatilite, on a choisi de prendre > 0
constant. Si on veut tenir compte des fluctuations de la volatilite dans le temps, une
representation fonctionnelle ((t), t 0) est plus appropriee. Le modèle sera plus proche
de la realite, mais le problème statistique plus difficile.
Dans ce cours, hormis le Chapitre 3, nous nous restreindrons à letude dexperiences
parametriques.
12. Indication : la loi de X secrit P (dx) =
que pour lexperience parfaite.

1 1
k (dx).
kN k! e

On raisonne alors de la meme mani`ere

2.3 Exemples

2.3
2.3.1

Exemples
Mod`
ele d
echantillonnage ou du n
echantillon

De par la simplicite de sa structure, cest une des experience statistiques les plus
etudiees, et qui occupe trois chapitres de ce cours.
Situation
Pour n 1, on consid`ere (la suite) dexperience(s) engendree par lobservation de
n-variables aleatoires reelles
X1 , . . . , Xn independantes, identiquement distribuees,
de loi inconnue F sur R, o`
u F F appartient `a une famille de loi F donnee. Lexperience
statistique E n correspondante est engendree par le vecteur Z = (X1 , . . . , Xn )T et on peut
ecrire

E n = Rn , B n , {PFn , F F}
o`
u PnF est la loi sur Rn de n-variables aleatoires independantes de loi F . Cela signifie en
particulier, que, pour tous x1 , . . . , xn R, on a
n

Y
PFn X1 x1 , . . . , Xn xn =
F (xi ).
i=1

En particulier, si F est constituee de distributions F absolument continues, de densite

f , alors le vecteur (X1 , . . . , Xn ) admet une densite par rapport `a la mesure de Lebesgue
donnee par
n
Y
(x1 , . . . , xn ) ; p(x1 , . . . , xn ) =
f (xi ).
i=1

Dans ce cas, on a
PF (dx1 . . . dxn ) = p(x1 , . . . , xn )dx1 . . . dxn

(2.4)

et lexperience E n est dominee par la mesure de Lebesgue sur Rn .

Experience produit et domination
Si E designe lexperience engendree par une seule observation X F , cest-`a-dire

E = R, B, {F F}
alors E n est le

produit de n copies independantes de E et on ecrit parfois

En = E . . . E

(n-fois).

Exp
erience statistique

Si la famille F est dominee par une mesure sur R, alors lexperience E n est dominee
par la mesure produit n = . . . sur Rn . En particulier, si est la mesure de
Lebesgue sur R, on retrouve (2.4).
Les exemples de la Section 2.1.1
Les exemples 1 sondage , 3 risque dun actif financier et 5 controle de qualite
de la Section 2.1.1 sont des modèles dechantillonnage :
1. Pour lexemple 1 sondage ou lancer de de, on peut associer à chaque votant une
variable Xi prenant la valeur 0 ou 1 selon que lon vote pour A (pile) ou B (face). La
loi de Xi est une loi de Bernoulli de paramètre inconnu = [0, 1]. Si < 1/2,
A gagne. Si 6= 12 , la pièce est truquee.
Si lon recolte la suite complète X1 , . . . , Xn des votes (des lancers) supposes independants et de meme loi de Bernoulli de paramètre , alors on est dans un modèle
dechantillonnage, et lexperience associee secrit

E n = {0, 1}n , tribu des parties de {0, 1}n , Pn , ,
o`
u
Pn = P P (n fois),
avec

P X = 1 = = 1 P [X = 0],
ce que lon peut encore ecrire sous la forme
P (dx) = 1 (dx) + (1 )0 (dx),
o`
u a (dx) designe la mesure de Dirac au point a. Cette dernière representation
permet de mettre en evidence la mesure de comptage (dx) = 0 (dx) + 1 (dx) sur
{0, 1} comme mesure dominante pour P . La mesure de comptage n =
sur le produit {0, 1}n domine alors lexperience E n .
Une autre manière de proceder est de considerer que lon nobserve que le nombre de
votants nA pour le candidat A (ou nP ), ce qui donne aussi nB (ou nF ), puisque nA +
nB = nP + nF = n. Dans ce cas, on na quune seule observation X, et on modelise
nA comme la realisation dune variable aleatoire X binomiale de paramètres (n, ),
o`
u = [0, 1] est le paramètre inconnu. Dans ce cas, lexperience statistique
secrit

Een = {0, n}, tribu des parties de {0, n}, Qn , ,
o`
u cette fois-ci les Qn sont definies sur {0, . . . , n} et

Qn X = x = Cnx x (1 )nx , x = 0, . . . , n,

2.3 Exemples

ce qui secrit aussi

Qn (dx) =

n
X

Cnk k (1 )nk k (dx).

k=0

Cette derni`
Pere representation permet de mettre en evidence la mesure de comptage
n (dx) = nk=0 k (dx) sur {0, . . . , n} comme mesure dominante du mod`ele.
Intuitivement les experiences statistiques E n et Een contiennent la meme information
sur le param`etre . On verra au Chapitre 6 comment formaliser et quantifier cette
idee.
2. Pour lexemple 3 risque dun actif financier les observations secrivent
Yi = + (Bi B(i1) ) N , 2

et sont independantes, en utilisant les proprietes caracteristiques du mouvement

brownien (que lon pourra admettre) : Bt Bs N (0, t s) et Bt Bs est
independant du passe jusqu`a linstant s.
La loi F de Yi est dominee par la mesure de Lebesgue sur R et sa densite
x ; f (, x) = (2 2 )1/2 exp

1
(x
2 2

depend du param`etre = (, 2 ) = R R+ \{0}.

3. Pour lexemple 5 contr
ole de qualite cest evident. Noter quun modèle classique
de duree de vie est fourni par la famille de lois exponentielles de paramètre
R+ \{0}. Dans ce cas, lexperience E est dominee par la mesure de Lebesgue sur R
et la loi de Yi secrit
P (dx) = ex 1{xR+ } dx.
Si les variables Yi sont censurees par un instant terminal T connu, on observe alors
plut
ot Yi? = min{Yi , T }. Dans ce cas, la loi P? de Yi? nest ni discrète, ni continue,
comme dans la Section 1.1.3 du Chapitre 1.
On pourra montrer en exercice que P? est dominee par (dx) = dx + T (dx), o`
u dx
est la mesure de Lebesgue sur R et T (dx) est la mesure de Dirac au point T . On a
P? (dx) = p(, x)(dx),
o`
u
p(, x) = ex 1{x<T } + c()1{x=T } ,
avec c() =

R +
T

et dt = eT .

2.3.2

Exp
erience statistique

Mod`
eles de r
egression

R
egression conditionnelle ou mod`
ele de signal bruit
e
On observe une fonction r : Rk R echantillonnee en n points, chaque observation
etant bruitee par une erreur systematique :
Yi = r(xi ) + i ,

i = 1, . . . , n.

Les bruits i sont des variables independantes, identiquement distribuees, centrees et

de carre integrable. Les xi sont les points dechantillonnage, appeles parfois points de
design , d
efinis sur un domaine D Rk en general borne. Si k = 1, on prend le plus
souvent D = [0, 1] et xi = xi = i/n, i = 1, . . . , n. Si k 1 on peut imaginer que les points
se repartissent de facon regulière sur D, ou bien au contraire quils se concentrent
dans une region de D. Dans cette acceptation du modèle de regression, le statisticien
choisit les points xi .
Si r = r(, ) est connue au paramètre Rd près, le modèle est parametrique.
Cest le cas qui nous interessera. Une forme parametrique particulièrement importante
est la regression lineaire r(, x) = T x, qui est bien definie dès que k = d.
Lexperience statistique correspondante E n est engendree par les Yi , i = 1, . . . , n. Ce
sont des variables independantes mais pas identiquement distribuees (chaque Yi depend
de xi ). On a

E n = Rn , B n , {Pn , } ,
o`
u Pn est la loi conjointe des Yi . En particulier, pour tous y1 , . . . , yn R,
n

Y
Pn Y1 y1 , . . . , Yn yn =
Fxi (yi ),
i=1

o`
u y ; Fxi (y) est la fonction de repartition de Yi . Par exemple, si i a une densite g par
rapport `
a la mesure de Lebesgue sur R, on a
Z y

g t r(, xi ) dt.
Fxi (y) =

Dans ce cas, le vecteur (Y1 , . . . , Yn ) a lui-meme une densite par rapport `a la mesure de
Lebesgue sur Rn , donnee par
(y1 , . . . , yn ) ; p(, y1 , . . . , yn ) =

n
Y

g t r(, xi ) .

i=1

On a alors
P (dy1 . . . dyn ) = p(, y1 , . . . , yn )dy1 . . . dyn
et le mod`ele est domine par la mesure de Lebesgue sur Rn .

2.3 Exemples

Lexemple 2 signal bruite de la Section 2.1.1 est un mod`ele de regression conditionnelle.

Le terme de regression conditionnelle pour ce modèle se justifie par opposition à la
regression non-conditionnelle ou avec variables explicatives, que nous presentons maintenant.
R
egression avec variables explicatives
Lorsque lon veut etudier linfluence dune variable aleatoire X comme dans lexemple
6 de la Section 2.1.1, ou plus generalement dun vecteur aleatoire X Rk sur une variable
aleatoire reelle Y , on part generalement de lobservation dun n-echantillon
(X 1 , Y1 ), . . . , (X n , Yn )
de meme loi que (X, Y ). Formellement, on est dans le modèle du n-echantillon, mais
avec une difference notoire : cest la loi de Y qui nous interesse, les X i netant que des
observations auxiliaires. Les X i portent le nom de covariables, ou variables explicatives.
On peut postuler une representation du type
Y = r(X) + ,

(2.5)

o`
u r : R R est la fonction de regression r(x) = E Y | X = x qui est la meilleure
approximation de Y par une variable aleatoire X-mesurable au sens suivant :

2

2
E Y r(X)
= min E Y h(x)
k

o`
u le minimum est pris sur les fonctions boreliennes de Rk dans R, comme nous lavons
deja mentionne dans lexemple 6 -influence dune variable sur une autre.
On est alors dans une situation tout à fait analogue avec celle du paragraphe precedent,
à la difference près que le statisticien ne choisit pas le design
(X 1 , . . . , X n ).
Cela a des incidences pratiques bien entendu, mais dun point de vue mathematique, on
peut faire une hypothèse relativement faible qui permet dunifier les deux points de vue :
Hypoth`
ese 2.1 (Ancillarite du

design ). La loi de X ne depend pas de .

Autrement dit, toute linformation sur la loi de Y que porte r(X) est contenue dans
la fonction de regression r(). Dans ce cas, puisque les X i sont observees et que leur loi
ne depend pas de , on peut oublier ou ignorer le caractère aleatoire des X i et raisonner
dans toute la suite conditionnellement aux X i = xi , o`
u les xi sont les valeurs observees 13 .
Sous lHypothèse 2.1, le modèle de regression avec variables explicatives concide
avec le modèle de regression conditionnelle et les formules du paragraphe precedent sont
valides dans ce contexte.
13. On reviendra sur ce point de vue dans le Chapitres 5.

Exp
erience statistique

R
egression logistique
Si lon veut etudier linfluence dun vecteur X sur une variable qualitative Y {0, 1}
comme pour letude du risque de maladie coronarienne de lexemple 6, lecriture du
modèle de regression (2.5) prend la forme

Y = r(X) + = P Y = 1| X + ,

avec = Y P Y = 1| X qui verifie bien E = 0.
Dans un cadre parametrique, un choix populaire de la fonction r(, ) : Rk [0, 1]
se fait de la manière suivante : on se donne un diffeomorphisme : R (0, 1). Dans ce
cas, on peut forcer un modèle lineaire du type
r(, x) = (T x), Rd , x Rk
avec d = k. Un exemple incontournable pour les applications est celui de la fonction
logistique
ex
(x) =
, x R,
1 + ex
sur lequel nous reviendrons au Chapitre 5.

Deuxi`
eme partie

M
ethodes destimation

Chapitre 3

Echantillonnage et fonction de
r
epartition empirique
3.1
3.1.1

Introduction
Situation

Nous etudions dans ce chapitre le problème très general qui consiste à quantifier
linformation fournie par lobservation dun n-echantillon dune loi F sur R, sans faire
aucune (ou presque aucune) hypothèse sur cette loi. Ce chapitre est aussi un pretexte
pour introduire les differentes problematiques du cours : estimation, tests et regions de
confiance, point de vue asymptotique.
Le terme quantifier utilise plus haut est imprecis ; nous le qualifierons à travers la construction destimateurs de F ou de fonctionnelles T (F ) R de F et de
leur precision destimation, ce qui nous amènera à parler de region (et dintervalles) de
confiance. Nous considèrerons aussi brièvement le problème de test dhypothèse : à partir
de lobservation, decider si la loi F verifie une propriete donnee. De manière generale, nous
etudierons comment la qualite des procedures statistiques augmente avec le nombre dobservations n. Nous comparerons les points de vue asymptotique (dans la limite n )
et non-asymptotique.
Ici, la structure probabiliste de lexperience statistique est très simple (variables aleatoires independantes et identiquement distribuees) mais lensemble des paramètres 1 est
enorme ! De ce point de vue, lexperience statistique consideree est non-parametrique.
Dans les chapitres suivants, nous developperons systematiquement des methodes lorsque
lon fait des hypothèses supplementaires sur lensemble des paramètres.
1. cest-`
a-dire lensemble de toutes les lois de probabilites F sur R.

Echantillonnage et fonction de r
epartition empirique

3.1.2

Notations et d
efinitions pr
eliminaires

On observe un n-echantillon
X1 , . . . , Xn
note le plus souvent
X1 , . . . , Xn

de loi inconnue F sur R. On ne fait pas dhypoth`ese particuli`ere sur la loi commune
des Xi . Lexperience statistique sous-jacente, au sens de la Definition 2.3 du Chapitre 2,
secrit

E n = Rn , B n , (PFn , F F) ,
o`
u

F = F, F fonction de repartition
et PFn est la loi sur Rn de n variables aleatoires independantes de loi F . En particulier,
pour tous x1 , . . . , xn R, on a
PFn

n

Y
X1 x1 , . . . , Xn xn =
F (xi ).
i=1

On ecrira parfois PF ou P `a la place de PFn lorsquil ny aura pas de risque de confusion.

On ecrit aussi X pour lune quelconque des Xi lorsque lindice ne joue pas de r
ole.
Remarque 3.1. Ici, lensemble des param`etres est enorme . En particulier, la famille
de distributions F nest pas dominee (puisquelle contient par exemple toutes les mesures
de Dirac x , x R).
D
efinition 3.1. Une statistique, ou une procedure statistique, ou encore un estimateur,
associe(e) a
` lexperience E n , est une fonction mesurable des observations X1 , . . . , Xn .
Lorsque lon cherche `a estimer une fonctionnelle T (F ) R de F , un estimateur est
souvent note Tbn . Cest une variable aleatoire, ne dependant que de X1 , . . . , Xn et pas de F
(qui est une quantite inconnue), qui secrit donc Tbn = gn (X1 , . . . , Xn ), pour une certaine
fonction borelienne gn : Rn R qui ne depend pas de F . Se donner un estimateur, cest
se donner une telle fonction gn ().

3.2

Estimation ponctuelle

Soit x0 R. A partir de lobservation X1 , . . . , Xn , que pouvons-nous dire de

F (x0 ) = P X x0 ?

3.2 Estimation ponctuelle

3.2.1

Fonction de r
epartition empirique

Lidee la plus immediate est destimer F (x0 ) par la frequence empirique du nombre
de points Xi dans lintervalle (, x0 ]
n
o
1
Card Xi (, x0 ], i = 1, . . . , n
n

qui se rapproche de la frequence theorique P X x0 ] par la loi des grands nombres.
D
efinition 3.2. La fonction de repartition empirique de lechantillon (X1 , . . . , Xn ) est
definie par
n
1X
Fbn (x) =
1{Xi x} , x R .
n
i=1

Dans la suite, nous estimerons F (x0 ) par Fbn (x0 ).

Proposition 3.1. Pour tout x0 R, on a

E Fbn (x0 ) = F (x0 ),

2 F (x0 ) 1 F (x0 )

b
b
b
=
.
Var Fn (x0 ) = E Fn (x0 ) E[Fn (x0 )]
n
2

P
L
En particulier, on a Fbn (x0 ) F (x0 ) et donc Fbn (x0 ) F (x0 ).

Demonstration. Les variables aleatoires 1{Xi x0 } sont independantes, de loi de Bernoulli

de param`etre P[Xi x0] = F (x0 ). Donc nFbn (x0 ) est une variable aleatoire binomiale,
de param`etres n, F
(x0 ) . Son esperance et sa variance valent respectivement nF (x0 ) et
nF (x0 ) 1 F (x0 ) . On obtient la proposition en divisant par n, et en utilisant le fait
que lesperance est lineaire et la variance quadratique.
Remarque 3.2. La loi forte des grands nombres garantit immediatement la convergence
p.s.
Fbn (x0 ) F (x0 ).

3.2.2

Pr
ecision destimation

La Proposition 3.1 fournit un resultat de convergence en apparence tr`es fort : si

`(x, y) = (x y)2 , avec x, y R designe la perte quadratique, on a

1
sup E ` Fbn (x0 ), F (x0 ) =
.
4n
F F

(3.1)

Echantillonnage et fonction de r
epartition empirique

0.6
0.4
0.0

0.2

(1:length(x))/length(x)

0.8

1.0

sort(x)

0.6
0.4
0.0

0.2

(1:length(x))/length(x)

0.8

1.0

Figure R3.1 Representation de x ; Fbn (x) (en noir) et x ; F (x)

2
x
(2)1/2 et /2 dt (en rouge), pour une realisation de X1 , . . . , Xn avec n = 20.

sort(x)

Figure R3.2 Representation de x ; Fbn (x) (en noir) et x ; F (x)

2
x
(2)1/2 et /2 dt (en rouge), pour une realisation de X1 , . . . , Xn avec n = 100.

0.6
0.4
0.0

0.2

(1:length(x))/length(x)

0.8

1.0

3.2 Estimation ponctuelle

sort(x)

Figure R3.3 Representation de x ; Fbn (x) (en noir) et x ; F (x) =

2
x
(2)1/2 et /2 dt (en rouge), pour une realisation de X1 , . . . , Xn , avec n = 1000.
Il suffit pour voir cela dappliquer la deuxi`eme partie de la Proposition 3.1 en utilisant
le fait que

sup F (x0 ) 1 F (x0 ) = 1/4.
(3.2)
F F

Cela signifie que, pour la perte quadratique, lestimateur Fbn (x0 ) approche F (x0 )

uniformement en F `
a vitesse n. Ce resultat est-il optimal, et dans quel sens ? Comment
le relier `
a une notion de precision destimation ? Si F (x0 ) est proche de 0 ou 1, ce qui
peut nous etre suggere par la lecture de Fbn (x0 ), peut-on ameliorer le facteur 1/4 dans
(3.1) et ameliorer la precision destimation ?
Une mani`ere daborder la precision destimation consiste `a construire un intervalle de
confiance `
a partir de la borne (3.1) de la facon suivante : on a, pour tout t > 0

1
1
P |Fbn (x0 ) F (x0 )| t 2 Var Fbn (x0 )
t
4nt2
par linegalite de Tchebychev (1.2). Choisissons (0, 1), et prenons t = t(, n) le plus
petit possible de sorte que 1/(4nt2 ) . Ceci nous fournit le choix
1
tn, = .
2 n
On en deduit que lintervalle 2

1
In, = Fbn (x0 )
2 n
2. La notation [a b] designe lintervalle [a b, a + b].

Echantillonnage et fonction de r
epartition empirique

contient F (x0 ) avec probabilite plus grande que 1 .

D
efinition 3.3. Lintervalle In, est appele intervalle de confiance pour la valeur F (x0 )
au niveau 1 . La propriete

P F (x0 ) In, 1
sappelle

propriete de couverture (coverage property).

Remarque 3.3. Un intervalle de confiance est aleatoire. Il est observable (cest-`

a-dire
construit `
a partir des observations) et ne peut dependre de la quantite inconnue F (x0 )
qu`
a travers la loi des observations X1 , . . . , Xn .
Linterpretation de In, est claire : on imagine petit 3 et on garantit avec probabilite
1 que la quantite inconnue dinteret F (x0 ) appartient `a In, que lon observe.
Mais sans autre indication sur In, , cette information na que peu dinteret. On sattend `
a ce que la longueur |In, | de lintervalle, qui joue le role de precision destimation
de F (x0 ), soit petite lorsque n est grand 4 . On a
1
|In, | =
2 n
que lon interpr`ete comme la precision destimation au niveau de confiance 1 .

Lordre de grandeur de In, en n est 1/ n, comme pour la perte quadratique. Mais

on a aussi |In, | + lorsque 0. Il sagit dun compromis inevitable entre precision
destimation (vouloir |In, | petit) et risque (vouloir petit) qui sont antagonistes.
Nous allons explorer plusieurs facons dameliorer ce resultat.

3.2.3

Pr
ecision destimation asymptotique

Une mani`ere de juger de la pertinence de la precision dun estimateur est de se

placer dans le regime asymptotique n et detudier la loi asymptotique de lerreur
renormalisee

n Fbn (x0 ) F (x0 ) , n ,

la normalisation par n etant suggeree 5 par la Proposition 3.1.

3. La tradition dicte 5%, mais dautres choix sont evidemment pertinents.
4. Sinon, lintervalle trivial In, = R (ou meme In, = [0, 1] puisque 0 F (x0 ) 1) a la propriete de
couverture au niveau de confiance 1 !

2
2
b
5. Dapr`es la Proposition 3.1, E
n Fbn (x0 )F (x0 )
est constante, donc
n Fn (x0 )F (x0 ) ,

et par suite n Fbn (x0 ) F (x0 ) est en moyenne de lordre de grandeur de 1 en n .

3.2 Estimation ponctuelle

Proposition 3.2. On a
n =

Fbn (x0 ) F (x0 )

d
1/2 N (0, 1).
Fbn (x0 )1/2 1 Fbn (x0 )

De plus, pour tout (0, 1),

P n 1 (1 /2), 1 (1 /2) 1 ,
Rx
2
o`
u (x) = et /2 dt2 est la fonction de repartition de la loi N (0, 1).
Demonstration. Le theor`eme central-limite donne la convergence

Fbn (x0 ) F (x0 )

F (x0 )1/2 1 F (x0 )

1/2 N (0, 1).

P

La Proposition 3.1 assure que Fbn (x0 ) 1 Fbn (x0 ) F (x0 ) 1 F (x0 ) . On en deduit
la premi`ere partie en appliquant la Proposition 1.8 (Slutsky).
d

Puisque n N (0, 1), on a

h
i

1 (1 2 ) 1 (1 2 )
P n 1 (1 2 ), 1 1 2
=1
en utilisant (x) = 1 (x) puisque la loi N (0, 1) est symetrique (Definition 1.4).

On peut interpreter le second point de la Proposition 3.2 de la facon suivante : lorsque

n est grand ,

1

Fbn (x0 ) F (x0 )
1

1/2 (1 2 ), (1 2 )
Fbn (x0 )1/2 1 Fbn (x0 )

avec probabilite proche de 1 . En isolant F (x0 ) dans cette relation et en posant

Jn,

Fbn (x0 )1/2 1 Fbn (x0 )

= Fbn (x0 )
n

1/2

#

1
,
2

la quantite F (x0 ) inconnue est dans lintervalle Jn, avec probabilite proche de 1
dans la limite n .
D
efinition 3.4. Lintervalle Jn, est appele intervalle de confiance asymptotique de
F (x0 ) au niveau 1 . La propriete

P F (x0 ) Jn, 1 , n
sappelle

propriete de couverture asymptotique .

Echantillonnage et fonction de r
epartition empirique
La precision asymptotique de Jn, est
1/2
Fbn (x0 )1/2 1 Fbn (x0 )

|Jn, | = 2
1 (1 2 ).
n

Lordre de grandeur de Jn, en n est 1/ n, comme pour lintervalle de confiance In,

construit avec la perte quadratique. On a aussi 1 (1 /2) lorsque 0. Par
contre,

1 (1 2 ) , 0.
voir Exercice 3.1 Cest aussi un resultat plus precis en apparence que celui obtenu `
a laide
de In, puisquon a remplace le facteur 1/2 obtenu en prenant la racine de (3.2) dans la
construction de In, par
1/2 1
Fbn (x0 )1/2 1 Fbn (x0 )

2
dans la construction de Jn, . Cependant, cette amelioration nest valide que dans le
regime asymptotique n .

3.2.4

Pr
ecision non-asymptotique

Nous cherchons un resultat de qualite comparable `a celui de la Proposition 3.2 mais

valable `
a n fixe.
Dans lapproche non-asymptotique `a laide de la perte quadratique, on a perdu en
utilisant linegalite de Markov qui sappuie uniquement sur le controle de la variance de
Fn (x). Le resultat suivant fournit un controle plus fin de la probabilite de deviation de
la moyenne empirique.
Th
eor`
eme 3.1 (Inegalite de Hoeffding). Soient Y1 , . . . , Yn des variables aleatoires reelles
independantes telles que E[Yi ] = 0 et ai Yi bi . Soit t > 0. Alors, pour tout > 0
P

n
X
i=1

n
Y

(bi ai )2
t
Yi t e
exp 2
.
8
i=1

Demonstration. Si Y est une variable aleatoire `a valeurs dans [a, b], posons

Y () = log E exp (Y E[Y ]) ,

> 0.

La fonction ; Y () est deux fois derivable et, puisque E Y = 0, un calcul elementaire
conduit `
a

2
Y00 () = eY () E Y 2 exp Y e2Y () E Y exp Y
.
(3.3)

3.2 Estimation ponctuelle

Posons, pour A B, Q A = eY () E exp Y 1A , de sorte que Q est une mesure de
probabilite. Alors on peut interpreter (3.3) de la mani`ere suivante :

Y00 () = Var Z ,
o`
u Z est une variable aleatoire `
a valeurs dans [a, b] de loi Q. Maintenant, pour toute
variable Z `
a valeurs dans [a, b], on a toujours

b + a b a

Z

,

2
2
et donc

2 (b a)2
,
Var Z = Var Z (b + a)/2 E Z (b + a)/2

4
do`
u
Y00 () (b a)2 /4.

(3.4)

En integrant (3.4) et en utilisant Y (0) = Y0 (0) = 0, on deduit

Y () 2

(b a)2
.
8

(3.5)

Finalement, pour tous t, > 0,

n
X

n
X

Yi t = P exp
Yi exp(t)

i=1

E exp

n
X

(inegalite de Tchebychev)

i=1

= et

n
Y
i=1
n
Y

E exp Yi

(independance des Yi )

exp Yi () ,

i=1

Puisque chaque Yi est centree et `

a valeurs dans [ai , bi ], on conclut en appliquant linegalite
(3.5) `a chaque Yi ().
Corollaire 3.1.
Si X1 , . . . , Xn sont des variables aleatoires de Bernoulli de param`etre p
1 Pn
et si X n = n i=1 Xi , alors, pour tout t > 0

P |X n p| t 2 exp 2nt2 .

Echantillonnage et fonction de r
epartition empirique

Demonstration. Appliquons linegalite de Hoeffding `a Yi = Xi p. Les conditions du

Theor`eme 3.1 sont verifiees avec bi ai = 1. Le choix = 4t/n conduit `a
P

n
X

Yi t exp 2t2 /n ,

(3.6)

i=1

soit encore

P X n p t = P

n
X

Yi nt exp 2nt2 .

i=1

De meme

n

X

(Yi ) nt exp 2nt2
P X n p t = P
i=1

en appliquant (3.6) a
` Yi . On conclut en ecrivant

P | X n p| t = P X n p t + P X n p t .

On en deduit un intervalle de confiance non-asymptotique pour F (x0 ).

Proposition 3.3. Pour tout > 0,
"
?
In,
= Fbn (x0 )

1
2
log
2n

est un intervalle de confiance pour F (x0 ) de niveau 1 .

Demonstration. On applique le Corollaire 3.1 aux 1{Xi x0 } qui sont des variables aleatoires
de Bernoulli independantes, de param`etre F (x0 ). On a, pour tout t > 0

P Fbn (x0 ) F (x0 ) > t 2 exp 2nt2 .
On cherche t = t(, n) le plus petit possible de sorte que 2 exp(2nt2 ) , ce qui donne
r
1
2
t(, n) =
log .
2n

Remarque 3.4. On a
? |
|In,
2 p
=
log(2/) 0, 0,
|In, |
2

3.2 Estimation ponctuelle

o`
u In, = Fbn (x0 ) 21n est lintervalle de confiance construit `a laide de linegalite de
Tchebychev dans la Section 3.2.2. Le gain est significatif. Par exemple, pour = 5%, on
a un rapport de
? |
|In,
= 0, 61.
|In, |
Pour = 1%, le rapport devient 0.33, soit une precision 3 fois meilleure !
? sont comparables en
Remarque 3.5. Par contre, les ordres de grandeur de Jn, et In,
?
n et en , voir Exercice 3.1. De ce point de vue, lintervalle In, est satisfaisant.

3.2.5

D
ecision?

Notion de test et derreur de test

Soit F0 une distribution donnee. On souhaite repondre à la question suivante : en vue
dun n-echantillon X1 , . . . , Xn de loi F F, est-ce que
F (x0 ) = F0 (x0 ) ou non ?
On formule le problème de la manière suivante. On contruit à partir des observations une
procedure (un estimateur)
n = n (X1 , . . . , Xn ) {0, 1}
ne prenant que les valeurs 0 ou 1. La valeur {n = 0} correspondra à la reponse
à la question, et la valeur {n = 1} correspondra à la reponse non .

oui

On dira que lon teste lhypoth`ese nulle

H0 :

F (x0 ) = F0 (x0 ),

H1 :

F (x0 ) 6= F0 (x0 ).

contre lalternative
Si n est une procedure ne prenant que les valeurs 0 ou 1, on dira que n est un test
simple 6 . Si n est un test simple, il se represente sous la forme
n = n (X1 , . . . , Xn ) = 1

(X1 ...,Xn )Rn

o`
u Rn Rn est un sous-ensemble de lespace des observations.
D
efinition 3.5. Lensemble Rn associe au test simple n est appele zone de rejet du
test, ou encore region critique du test.
6. On pourrait envisager des tests plus complexes, o`
u une reponse intermediaire entre 0 et 1 est
possible.

Echantillonnage et fonction de r
epartition empirique

Remarque 3.6. On definit aussi parfois la zone de rejet comme levenement

(X1 , . . . , Xn ) Rn .

Cela na aucune importance : il ny a jamais dambiguite 7 .

Lorsque
lon
levene
procède à un test, on decide daccepter lhypothèse
H0 (lorsque

ment n = 0 est realise) ou de la rejeter (lorsque levenement n = 1 est realise).
On peut avoir raison de deux manières : accepter lhypothèse H0 alors quelle est vraie 8
ou bien rejeter lhypothèse H0 alors quelle est fausse 9 .
Mais surtout, on peut aussi se tromper de deux manières : rejeter H0 alors quelle est
vraie ou encore accepter H0 alors quelle est fausse. Ce sont ces deux erreurs que lon va
chercher `
a rendre petites simultanement.
Pour cela, nous devons definir precisement les conditions
F (x0 ) = F0 (x0 ) et F (x0 ) 6= F0 (x0 ).
Lexperience statistique engendree par les observations a pour ensemble de paramètres
F = {F, F fonction de repartition}.
Posons
F0 = {F F, F (x0 ) = F0 (x0 )}.
Alors lhypothèse H0 se traduit par le sous-ensemble de paramètres F0 , et lalternative
H1 par le sous-ensemble de paramètres F \ F0 .
D
efinition 3.6. Soit [0, 1]. Le test n est de niveau (respectivement, asymptotiquement de niveau ) si

sup PF n = 1 (respectivement lim sup sup PF n = 1 ).

F F0

n F F0

Autrement dit, si le niveau dun test est inferieur à , la probabilite de rejeter lhypothèse (observer {n = 1}) alors quelle est vraie (F F0 ) est inferieure ou egale `
a .
On parle indifferemment derreur de première espèce du test n ou de niveau du test n .
Remarque 3.7. Bien que cela ne transparasse pas dans les notations, le test n depend
de en general.
7. La notion dexperience canonique, voir Section 2.2.2 du Chapitre 2 permet dailleurs de concilier
les deux points de vue de facon rigoureuse. Nous ne reviendrons plus sur ce point dans la suite du cours.
8. Cest-`
a-dire observer {n = 0} et avoir F (x0 ) = F0 (x0 ).
9. Cest-`
a-dire observer {n = 1} et avoir F (x0 ) 6= F0 (x0 ).

3.2 Estimation ponctuelle

D
efinition 3.7. La puissance dun test n est lapplication de F \ F0 dans [0, 1] definie
par

F F \ F0 ; PF n = 1 .
On parle indifferemment de
seconde esp`ece , definie par

puissance du test ou bien de

fonction derreur de

F F \ F0 ; 1 PF n = 1 .
La demarche sera la suivante : on se fixe un niveau de risque , et on cherche un
test n de niveau (derreur de première espèce inferieure ou egale à ) qui a la plus
grande puissance possible (lerreur de seconde espèce la plus petite possible). On etudiera
systematiquement ces notions aux Chapitres 7 et 8.
Construction de tests
A partir destimateurs et dintervalles de confiance de niveau 1 , la construction
dun test n est naturelle. On se restreint ici par simplicite au cadre asymptotique. On
a, daprès la construction de la Section 3.2.3, pour tout F F,

PF F (x0 ) Jn, 1 .
Ceci suggère la règle de decision suivante : on accepte H0 si F0 (x0 ) Jn, et on rejette
H0 sinon.
Proposition 3.4. Soit (0, 1). Le test n = n, de lhypothèse nulle H0 : F (x0 ) =
F0 (x0 ) contre lalternative F (x0 ) 6= F0 (x0 ), defini par la zone de rejet

Rn, = F0 (x0 )
/ Jn, ,
est asymptotiquement de niveau . De plus, pour tout point de lalternative F F \ F0 ,
on a

PF n, = 0 = PF (X1 , . . . , Xn )
/ Rn, 0.
Autrement dit, lerreur de première espèce est asymptotiquement plus petite que
et lerreur de seconde espèce tend vers 0 ; ou encore, la puissance du test tend vers 1 en
tout point de lalternative. On dit que le test est consistant ou convergent.
Demonstration. La première partie de la proposition decoule de la propriete de couverture
asymptotique de Jn, (le second point de la Proposition 3.2). Pour le controle de lerreur
de seconde espèce, si F F \ F0 , alors
PF
Fbn (x0 )
F (x0 ) 6= F0 (x0 ),

Echantillonnage et fonction de r
epartition empirique

Ceci sugg`ere la decomposition

Fbn (x0 ) F0 (x0 )

1/2
Fbn (x0 )1/2 1 Fbn (x0 )

Fbn (x0 ) F (x0 )

F (x0 ) F0 (x0 )
= n
1/2 + n
1/2 .
1/2
b
b
b
Fn (x0 )
1 Fn (x0 )
Fn (x0 )1/2 1 Fbn (x0 )
n

Le premier terme tend en loi sous PF vers une gaussienne centree reduite dapr`es la
Proposition 3.2. Le second terme diverge vers lorsque n . Puisque

on a n,

n
n, = 0 =
n

o
Fbn (x0 ) F0 (x0 )

1

1/2
2
Fbn (x0 )1/2 1 Fbn (x0 )

1 en PF -probabilite si F F \ F0 . Ceci implique 10 PF n, = 0 0.

La question de loptimalite dune telle construction sera discutee dans le Chapitre 8.

3.3

Estimation uniforme

Les trois probl`emes developpes precedemment, estimation, intervalle de confiance et

test, que ce soit dun point de vue asymptotique ou non, ne font intervenir la distribution
F quen un point x0 donne. Ceci est peu satisfaisant si lon envisage F globalement.
Nous reprenons la problematique de la Section 3.2 simultanement pour toutes les
valeurs possibles de (F (x), x R). A partir de lobservation de (X1 , . . . , Xn ), que peuton dire de

F (x), x R ?

3.3.1

Estimation uniforme

Th
eor`
eme 3.2 (Glivenko-Cantelli). Soient X1 , . . . , Xn des variables aleatoires reelles
independantes, de meme loi F , et Fbn leur fonction de repartition empirique. Alors

p.s.
sup Fbn (x) F (x) 0, n .
xR

Demonstration. Soit k 1 un entier, et pour tout 0 k m,

xm
k = inf{x R, F (x)

k
m }.

10. Par exemple par convergence dominee, ou plus simplement parce que la suite de variables aleatoires
discr`etes n, tend en probabilite vers 1, donc en loi vers la loi degeneree 1 (dx), ce qui entrane la
convergence voulue.

3.3 Estimation uniforme

(Les points xm
ecessairement distincts si F nest pas continue.) Par construck ne sont pas n
tion, pour 0 k m 1,

k
F xm
F xm
k
k
m
car F est continue `
a droite, et donc

1
F xm
F xm
k +
k+1 .
m
m+1
Soit x [xm
). Puisque F et Fbn sont croissantes, on a, pour tout n 1,
k , xk

m
m
b
b m
Fbn xm
k F xk+1 Fn x F x Fn xk+1 F xk ,
et aussi, dapr`es ce ce qui prec`ede

1
1
m
m
Fbn xm
Fbn x F x Fbn xm
.
k F xk
k+1 F xk+1 +
m
m
Il vient

sup Fbn (x) F (x)
xR

m
Fbn xm F xm + 1 .
,
max
max max Fbn xm

F
x
k
k
k
k
0km
0km
m
p.s.

On a Fbn (x) F (x) par la loi forte des grands nombres. Il existe donc un ensemble
negligeable N 0 (m) en dehors duquel

max Fbn xm F xm 0.
0km

De meme, en appliquant la loi des grands nombres aux variables 1{Xi <x} , il existe une
ensemble negligeable N 00 (m) en dehors duquel

m
0.
max Fbn xm
k F xk
0km

On en deduit quen dehors dun ensemble negligeable N (m) = N 0 (m) N 00 (m), on a

1
lim sup sup Fbn (x) F (x) .
m
n xR
Puis on fait tendre m vers linfini :

lim sup Fbn (x) F (x) = 0

n xR

en dehors de

m1 N (m)

qui est de probabilite 0.

3.3.2

Echantillonnage et fonction de r
epartition empirique

Vitesse destimation uniforme

Th
eor`
eme 3.3 (Kolmogorov-Smirnov). Si la fonction de repartition F est continue,
alors

(d)

n sup Fbn (x) F (x) B

o`
u B est une variable aleatoire dont la loi ne depend pas de F , de fonction de repartition

X

2
P Bx =1+2
(1)k e2k x , x 0.
k=1

Remarque 3.8. La variable aleatoire se represente comme B = supt[0,1] Bt , o`

u (Bt , t
[0, 1]) est un processus aleatoire appele pont brownien. Ce resultat decoule de la theorie
des processus empiriques et sa preuve depasse le cadre de ce cours 11 .

Nous admettons la convergence en loi de n supxR Fbn (x) F (x). Nous allons cependant demontrer que cette loi ne depend pas de F , ce qui est tr`es important en vue
des applications statistiques.
Lemme 3.3.1. Soit U1 , . . . , Un une suite de variables aleatoires independantes, uniformes sur [0, 1]. On note Gn leur fonction de repartition empirique. Si F est continue,
on a legalite en loi
d

sup Fbn (x) F (x) = sup Gn (x) x.
xR

En particulier, la loi de B ne depend pas de F .

Demonstration. Posons, Ui = F (Xi ). Alors les Ui sont des variables aleatoires uniformes
sur [0, 1], et il existe un ensemble negligeable Ni tel que, pour tout x R et pour tout

/ Ni on a

F Xi () F (x) si et seulement si Xi () x,
voir par exemple Meleard [5], paragraphe 4.2.4 p. 78. Donc, on peut ecrire, pour tout
xR
n
n

1X
1X
Fbn (t) =
1{Xi x} =
1{F (Xi )F (x)} = Gn F (x)
n
n
i=1
i=1
S
en dehors de N = i Ni qui est encore negligeable. Il vient

sup Fbn (x) F (x) = sup Gn F (x) F (x) = sup Gn (x) x.
xR

11. On pourra consulter, par exemple, le livre de van der Vaart [10] pour les liens entre statistique et
processus empiriques.

3.3 Estimation uniforme

On en deduit un intervalle de confiance, uniforme en x R (une region de confiance)

asymptotique. Pour tout (0, 1), designons par q1 le quantile dordre 1 de la loi
de B, de sorte que

P B q1 = 1 .
Proposition 3.5. La region
h

q1 i
b
Jn, (x), x R = Fn (x) , x R
n
est une region de confiance asymptotique :
h
i
P x R, F (x) Jn, (x) 1 .
Demonstration. On applique le Theor`eme 3.3 :
h
i
h
i

P x R, F (x) Jn, (x) = P sup nFbn (x) F (x) q1
xR

P B q1 = 1 .

Remarque 3.9. Bien entendu, on a toujours 0 F (x)

1, ce qui nest pas forcement le

cas de Fbn (x) q1 / n. On peut reduire la region Jn, (x), x R en remplacant

Jn, (x) par
J n, (x) := Jn, (x) [0, 1]
sans modifier la propriete de couverture asymptotique.

3.3.3

Pr
ecision uniforme non-asymptotique?

De la meme mani`ere que linegalite de Hoeffding du Theor`eme 3.1 nous a fourni une
precision ponctuelle non-asymptotique, on a le resultat suivant :
Th
eor`
eme 3.4 (Inegalite de Dvoretzky-Kiefer-Wolfowitz). Si la fonction de repartition
F est continue, pour n 1 et t > 0, on a

P sup Fbn (x) F (x) t 2 exp(2nt2 ).
x

La preuve utilise des resultats fins sur les processus empiriques et nous ladmettons.
On en deduit, pour (0, 1), une region de confiance non-asymptotique uniforme
q

1
In, (x), x R = Fbn (x) 2n
log 2 , x R
qui verifie, pour tout n 1
h
i
P x R, F (x) In, (x) 1 .
Remarque 3.10. De le meme mani`ere que dans le cadre asymptotique, on peut modifier
In, (x) en considerant In, (x) [0, 1].

Echantillonnage et fonction de r
epartition empirique

3.3.4

Test dad
equation `
a une distribution donn
ee?

Soit F0 une distribution donnee. On souhaite maintenant decider, en vue des observations X1 , . . . , Xn distribuees selon la loi F si F = F0 contre F 6= F0 globalement cesta-dire tester lhypothèse nulle
`
H0 : x R, F (x) = F0 (x)
contre lalternative
H1 : x R, F (x) 6= F0 (x).
Par rapport `
a la Section 3.2.5, on doit modifier la traduction de lhypothèse F0 F. On
pose

F0 = F F, x R, F (x) = F0 (x) = {F0 }
et on traduit lhypothèse H0 par la propriete F F0 .
De la meme manière que dans la Section 3.2.5, on
peut construire
untest de lhypoth`
e
se
H
contre
H
a
`
laide
des
r
e
gions
de
confiance
I
(x),
x

R
, ou Jn, (x), x
0
1
n,

R .
Pour simplifier, nous enoncons un resultat asymptotique.
Proposition 3.6 (Test de Kolmogorov-Smirnov). Pour tout (0, 1), le test simple de
lhypoth`ese H0 : F F0 contre lalternative H1 : F F \ F0 , defini par la zone de rejet
n
o
Rn, = x R, F0 (x)
/ Jn, (x)
est asymptotiquement de niveau .
De plus, pour tout point de lalternative F F \ {F0 }, on a

PF (X1 , . . . , Xn )
/ Rn, 0.
Demonstration. Sous lhypoth`ese, on a F = F0 et

PF0 (X1 , . . . , Xn )
/ R = 1 PF0 x R, F0 (x) Jn, (x)
lorsque n par la Proposition 3.5. Donc le test de Kolmogorov-Smirnov est asymptotiquement de niveau . Pour tout point F F \ {F0 } de lalternative, il existe un
point x0 R pour lequel F (x0 ) 6= F0 (x0 ). On reprend alors point par point la fin de la
demonstration de la Proposition 3.4.

3.4

Estimation de fonctionnelles

Dans les Sections 3.2 et 3.3 nous avons rencontre deux situations opposees :

3.4 Estimation de fonctionnelles

1. Lestimation locale
fonctionnelle lineaire

de F en un point x0 . Nous nous sommes interesse `a la

Tx0 (F ) = F (x0 ).

2. Lestimation

globale de F , cest-`a-dire lestimation simultane des fonctionelles

Tx (F ) = F (x), x R .

Plus generalement, on peut considerer lestimation ou le probl`eme de decision relative

`a des fonctionnelles plus generales. Par exemple
1. Une fonctionnelle lineaire, de la forme
Z
T (F ) =

g(x)dF (x),

(3.7)

avec g connue (choisie par le statisticien). Lexemple prototype etant le moment

dordre 1, pour le choix g(x) = x
Z
m(F ) =
x dF (x).
R

2. Une combinaison de fonctionelles lineaires : la variance

Z
2
2 (F ) =
x m(F ) dF (x),
R

le coefficient dasymetrie
R
(F ) =

le coefficient dapplatissement de F ,
R
(F ) =

3
x m(F ) dF (x)
,
2 (F )3/2
4
x m(F ) dF (x)
2 (F )2

parmi bien dautres exemples.

3. Une fonctionelle non-lineaire, comme le quantile dordre (0, 1) :
T (F ) = q (F ) =

3.4.1

1
2

inf{t, F (t) > } + sup{t, F (t) < } .

Le cas r
egulier : m
ethode de substitution

Un estimateur naturel de T (F ) est lestimateur par substitution, o`

u lon remplace
b
formellement F par sa repartition empirique Fn ().
D
efinition 3.8. Lestimateur par substitution de T (F )
Tbn = Tbn (X1 , . . . , Xn ) = T (Fbn )
est obtenu en remplacant F par sa fonction de repartition empirique Fbn .

Echantillonnage et fonction de r
epartition empirique

Convergence dans le cas r

egulier
On a vu dans la Section 3.3 que les fonctions Fbn () et F () sont proches lorsque n est
grand. On imagine alors que T (Fbn ) est proche de T (F ) d`es lors que la fonction F ; T (F )
est reguli`ere.
Proposition 3.7. Si la fonctionnelle T (F ) admet la representation
Z

T (F ) = h
g(x)dF (x)

(3.8)

o`
u

R |g(x)|dF (x)

< + et h : R R continue, alors

p.s.
T (Fbn ) T (F ).

Demonstration. Remarquons que T (Fbn ) = h

1
n

(3.9)

i=1 g(Xi )

n

1X
p.s.
g(Xi ) E g(X) =
n

. On a

i=1

g(x)dF (x)
R

par la loi forte des grands nombres. La convergence reste vraie en composant par h qui
est continue.
Exemple 3.1. La variance 2 (F ) de la distribution F secrit
Z
2
2
(F ) =
x m(F ) dF (x)
ZR
Z
2
2
=
x dF (x)
xdF (x)
R
R
Z

Z

= h1
g1 (x)dF (x) + h2
g2 (x)dF (x) ,
R

avec h1 (x) = x, h2 (x) = x2 , g1 (x) = x2 , g2 (x) = x. Lestimateur par substitution associe

secrit
n
n
1X 2
1X
2
Xi X n =
Xi X n )2 .

bn2 =
n
n
i=1

i=1

p.s.
La convergence
bn2 2 (F ) decoule de la Proposition 3.7 appliquee `a chacun des termes
2
1 Pn
2
i=1 Xi et X n respectivement. On peut faire des calculs analogues pour le coefficient
n

dasymetrie (F ) et pour le coefficient daplatissement (F ).

Remarque 3.11. Plus generalement, si lon munit F de la metrique de la convergence
uniforme, le Theor`eme 3.2 (Glivenko-Cantelli) assure que la convergence (3.9) aura lieu
si lapplication T ; T (F ) est continue.

3.4 Estimation de fonctionnelles

Vitesse de convergence dans le cas r

egulier
Pour les fonctionnelles de type (3.8), on a une vitesse de convergence :
Proposition
situation de la Proposition 3.7, si h est contin
ument derivable

[Link] la
2
2
et si E g(X) = R g(x) dF (x) < +, alors

o`
u

d

n T (Fbn ) T (F ) N 0, v(F ) ,

2

v(F ) = h0 E g(X) Var g(X) .

Demonstration. Par le theor`eme central limite,

Z

Z
n

X
n
g(x)dFbn (x)
g(x)dF (x) = n n1
g(Xi ) E g(X)
R

i=1
d

N 0, Var g(X) .
On applique alors la Proposition 1.10 du Chapitre 1 (methode delta) :

n h

1
n

n
X

d

2

g(Xi ) h E g(X)
N 0, h0 E g(X) Var g(X) .

i=1

Cest precisement le resultat recherche, puisque h E g(X) = T (F ).
Exemple 3.2. Etudions le comportement de lestimateur par substitution de
T (F ) =
sous lhypoth`ese que 0 <

8 dF (x)

1
1
=R 4
4
E X
R x dF (x)
< +. On a

T (Fbn ) =

1
n

1
P4

4
i=1 Xi

(en convenant par exemple 1/0 = 0). On applique la Proposition 3.8, avec g(x) = x4 et
h(x) = x1 . (Il y a cependant une difficulte : en x = 0 la fonction h ne verifie pas 12 les
hypoth`eses de la Proposition 3.8 puisque h a une singularite en 0. En appliquant tout de
meme formellement de resultat de la proposition, on a

d

n T (Fbn ) T (F ) N 0, v(F ) ,

R
12. Il sagit en fait dun faux probl`eme : on a E X 4 ] = R x4 RdF (x) > 0 puisque sinon, X = 0 presques
urement et donc F = 1R+ (x) ce qui contredirait lhypoth`ese R x8 dF (x) > 0. Ceci entrane que X est

eloigne en moyenne de la singularite 0. On pourra alors montrer en exercice que la convergence en
loi voulue a bien lieu.

Echantillonnage et fonction de r
epartition empirique

avec

2

2 8
v(F ) = h0 E g(X)
E g(X)2 E g(X)
= 2 1
4
R i
i
o`
u i = E[X ] = R x dF (x). On peut pousser un peu plus loin letude et deduire de
ce resultat un intervalle de confiance asymptotique pour T (F ) = 1
4 comme dans la
Section 3.2.3. Cest lobjet de lExercice 3.3.
La Proposition 3.8 ne donne quun resultat en dimension 1 : elle ne permet meme pas
de traiter immediatement la vitesse de convergence dans lExemple 3.1, et une version
multidimensionnelle de la methode delta sav`ere necessaire dans le cas general.
Considerons une fonctionnelle de la forme
Z
Z

T (F ) = h
g1 (x)dF (x), . . . , gk (x)dF (x) ,
R

(3.10)

o`
u h : Rk R est une fonction differentiable, de gradient

Jh (x) = h(x) = 1 h(x), . . . , k h(x) , x Rk .
En appliquant la Proposition 1.11, on a le resultat suivant :
Corollaire 3.2. Si la fonctionnelle T (F )R admet la representation (3.10) avec une fonction h contin
ument differentiable, et si R gi (x)2 dF (x) < + pour tout i = 1, . . . , k,
alors
d

n T (Fbn ) T (F ) N 0, v(F ) ,
avec
v(F ) = Jh (g) g Jh (g)T ,
o`
u

g = E g1 (X) , . . . , E gk (X)
et g est la matrice de variance-covariance des gi (X) :

g ij = E gi (X) E[gi (X)] gj (X) E[gj (X)] , 1 i, j k.
Exemple 3.3. Reprenons le probl`eme du calcul de la loi limite de la variance empirique
de lexemple 3.1. On a
n
2
1X 2
Xi X n .

bn2 =
n
i=1

On applique le Corollaire 3.2 avec h(x1 , x2 ) = x1 x22 , g1 (x) = x2 et g2 (x) = x. On a

h(x1 , x2 ) = (1, 2x2 ) et g = (E[X 2 ], E[X]).
Notons i = E[X i ]. Un calcul simple montre que

4 22 3 1 2
g =
.
3 1 2 2 21

3.4 Estimation de fonctionnelles

Alors

d

n
bn2 N 0, v(F ) ,

avec

v(F ) = (1, 21 )

4 22 3 1 2
3 1 2 2 21

(1, 21 )T .

On trouve
v 2 = 4 22 41 (3 + 31 21 2 ).
Dans le cas precis de la variance empirique, on aurait pu aussi retrouver directement ce
resultat par une autre methode, voir lExercice 3.2.
Avec la meme technique, on peut exhiber les lois limites du coefficient dasymetrie
empirique et du coefficient daplatissement empirique.

3.4.2

Le cas non-r
egulier?

Les fonctionnelles regulières de type (3.8) sont insuffisantes pour les applications :
par exemple, elles ne recouvrent pas le cas très utile de lestimation des quantiles dune
distribution inconnue.
Plus generalement, supposons que lon dispose de linformation supplementaire suivante sur le modèle statistique :
F Fac F,
o`
u Fac designe lensemble des distributions absolument continues, cest-à-dire qui possèdent
une densite f par rapport `
a la mesure de Lebesgue. Alors, par exemple, la fonctionnelle
Z
Z
T (F ) =
F 0 (x)2 dx =
f (x)2 dx
R

F 0 (x)

nest pas reguli`ere. Bien que lon ait f (x) =

presque-partout, on ne peut pas former
b

destimateur par substitution en derivant Fn () qui est constante par morceaux. Plus
generalement, dans le cas o`
u le modèle statistique a pour ensemble de paramètres Fac , on
peut sinteresser `
a la constuction dun estimateur fbn () qui soit une bonne approximation
de la densite f () de F .
Dans le reste de cette section, nous etudions deux cas particuliers : lestimation des
quantiles, et le lissage de la distribution empirique.
Estimation des quantiles
On considère la statistique dordre associee à lechantillon (X1 , . . . , Xn ), cest-à-dire le
vecteur (X(1) , . . . , X(n) ) obtenu par la permutation (aleatoire) qui fournit le rearrangement
croissant des donnees
X(1) X(i) X(n) .

Echantillonnage et fonction de r
epartition empirique

Cette permutation nest pas necessairement unique (dans le cas discret, certaines valeurs
des observations peuvent concider). Pour estimer le quantile 13 dordre p de la loi F ,
cest-`
a-dire

T (F ) = 12 inf{q, F (q) > p} + sup{q, F (q) < p}
on peut choisir lestimateur par substitution
qbn,p = T (Fbn ) =

1
2

inf{q, Fbn (q) > p} + sup{q, Fbn (q) < p}

appele quantile empirique dordre p. La difficulte de cette approche reside dans le fait
que x ; Fbn (x) est constante par morceaux, donc, pour p [0, 1] donne, lequation
Fbn (q) = p.
admet une infinite de solutions ou nen admet aucune. On peut expliciter qbn,p `
a laide de
la statistique dordre. On pourra montrer que

X(k)
si p (k 1)/n, k/n

qbn,p =
1
si p = k/n
2 X(k) + X(k+1)
pour k = 1, . . . , n. Le comportement asymptotique de qbn,p est etudie dans lExercice 3.6
a la fin du chapitre.
`
Lissage de la distribution empirique?
Etant donne lobservation X1 , . . . , Xn , la fonction aleatoire
n

1X
x ; Fbn (x) =
1{Xi ()x}
n
i=1

b
est constante par morceaux. On insiste ici sur
lalea , pour marquer le fait que
Fn ()
depend dune realisation X1 (), . . . , Xn () du vecteur aleatoire X1 , . . . , Xn . Si on
prend formellement sa derivee (au sens des distributions), on obtient
n

1X
Fbn0 (dx) =
Xi () (dx)
n

(3.11)

i=1

o`
u a (dx) est la mesure de Dirac au point a. On obtient ainsi une mesure de probabilite 14 ,
qui assigne `
a chaque point Xi () la masse 1/n.

D
efinition 3.9. Etant donnee une realisation X1 (), . . . , Xn () du vecteur aleatoire
X1 , . . . , Xn , on appelle distribution empirique la mesure de probabilite uniforme sur
lensemble {X1 (), . . . , Xn ()} definie par (3.11).
13. Voir la Section 1.2.3 du Chapitre 1.
14. Celle-ci depend de : il sagit dune distribution aleatoire.

3.4 Estimation de fonctionnelles

Remarquons quen posant formellement

dFbn (x) = Fbn0 (dx),
les notations sont coherentes avec les calculs : pour toute fonction test , on a
Z
Z
n
n
X

1X
(x)dFbn (x) =
(x) n1
Xi () =
Xi () (dx).
n
R
R
i=1

i=1

Estimateur `
a fen
etre mobile et `
a noyau?
La densite f est la derivee de la fonction de repartition x ; F (x). Ecrivons lapproximation

1
f (x) = F 0 (x)
F (x + h/2) F (x h/2)
h
lorsque h est petit. On approche le membre de droite par substitution. Ceci fournit
lestimateur

1 b
Fn (x + h/2) Fbn (x h/2) ,
fbn (x) =
h
appele estimateur par fenetre mobile.
Posons U h = [x h/2, x + h/2). Alors fbn (x) compte le nombre dobservations Xi qui
x

tombent dans la
avec x :

fenetre Uxh normalise par n, puis on fait glisser la fenetre Uxh

n

1 b
1 X
b
Fn (x + h/2) Fn (x h/2) =
1{Xi Uxh }
h
nh
i=1

n
x Xi
1 X
=
K
,
nh
h
i=1

o`
u K(x) = 1{1/2<x1/2} . La fonction aleatoire x ; fbn (x) est elle-meme une densite de
probabilite, constante par morceaux.
Une version plus lisse de lestimateur à fen
R etre mobile consiste à remplacer la fonction
K par une fonction regulière K (r) , verifiant R K (r) (x)dx = 1. On utilise souvent le noyau
gaussien
K (r) (x) = (2)1/2 exp(x2 /2).
Lestimateur `
a noyau

1 X (r)
fbn(r) (x) =
K
nh
i=1

est donc la moyenne arithmetique de n

x Xi
h

fonctions cloches

1 (r) Xi
K
,
h
h

Echantillonnage et fonction de r
epartition empirique

chaque cloche etant une densite de probabilite centree en Xi et dechelle h. La

(r)
fonction aleatoire x ; fbn (x) est une densite de probabilite : elle est positive, et
Z

fbn(r) (x)dx =

Z
K(x)dx = 1.
R

Letude des estimateurs `a noyau pour lestimation non-parametrique de la densite est

une theorie `
a part enti`ere qui depasse le cadre de ce cours. Elle est traitee de facon
approfondie dans le cours de MAP 553, voir [9].

3.5

Exercices

Rx
2
Exercice 3.1. Soit (x) = (2)1/2 et /2 dt la fonction de repartition de la loi
gaussienne standard.
2
Montrer que 1 (x) 21 ex /2 et en deduire que pour (0, 1),
1
exp( 1 (1 /2)2 ).
2
Montrer que 1 (x) =

2
x ex /2
2

x2 [1 (x)]. En deduire
2

ex /2
1 (x) .
2x 2
(On pourra utiliser linegalite : x/(1 + x2 ) 1/2x si x 1.)
En deduire
s
1
1 (1 /2),
2 log
r()
o`
u lon a pose r() := 2

q
log 1 .

Exercice 3.2. On a etudie le comportement asymptotique de la variance empirique par

la methode delta dans lexemple 3.3. On peut retrouver ce resultat de mani`ere plus
directe. On ecrit

1
n

n
X
i=1

(Xi X n )

1
n

n
X

(Xi )2 2 n(X n )2 .

i=1

Montrer que le second terme converge vers 0 en probabilite. Montrer que le premier terme
est asymptotiquement normal via le theor`eme central-limite. Conclure via la Proposition
1.8 (Slutsky).

3.5 Exercices

Exercice 3.3. On cherche un intervalle de confiance asymptotique pour la fonctionnelle

sous lhypoth`ese que 0 <

la convergence

T (F ) =

1
1
=R 4
4
E X
R x dF (x)

8 dF (x)

< +. On a vu dans lExemple 3.2 la Section 3.4.1

d

n T (Fbn ) T (F ) N 0, v(F ) ,

P
avec v(F ) = 8 /24 1. Montrer que v(Fbn ) v(F ) et en deduire un intervalle de confiance
asymptotique pour T (F ) `
a laide de la Proposition 1.8 (Slutsky).

Exercice 3.4. Soient X1 , . . . , Xn des variables aleatoires reelles independantes, de meme

densite f . On note X(1) , . . . , X(n) la statistique dordre associee (voir Section 3.4.2).
Montrer que la densite de (X(1) , . . . , X(n) ) est donnee par
f(X(1) ,...,X(n) ) = n!

n
Y

f (xi )1{x1 <x2 <...<xn } .

i=1

Si F designe la fonction de repartition des Xi , montrer que X(k) a pour densite

nk
fX(k) (x) = k Cnk f (x) 1 F (x)
F (x)k1 .
Exercice 3.5 (Un test asymptotique de gaussianite). Soient X1 , . . . , Xn un n-echantillon de loi inconnue F ayant au moins un moment dordre 4 et de moyenne nulle et de
variance non-nulle.
On pose, pour k = 1, . . . , 4
1 Pn
k
i=1 Xi
(k)
n
Tn =
.

1 Pn
2 k/2
X
i=1 i
n
Montrer que

2 d
n (3) 2
n (4)
Tn
+
Tn 3 2 (2),
15
24
2
2
o`
u (2) designe la loi du `a 2 degres de liberte.
En deduire un test de lhypoth`
se nulle H0 : F = contre lalternative H1 : F 6=
R x te2 /2
1/2
o`
u (x) = (2)
dt est la fonction de repartition de loi normale
e
standard.
Le test est-il consistant ?
Exercice 3.6 (Comportement asymptotique des quantiles empiriques). Soit (1 , . . . , n+1 )
des variables aleatoires independantes et de meme loi exponentielle de param`etre 1. On
pose
i
X
Vi =
j
j=1

Echantillonnage et fonction de r
epartition empirique
Montrer que le vecteur (V1 , . . . , Vn+1 ) admet comme densite
(v1 , . . . , vn+1 ) 7 1{0<v1 <<vn+1 } exp(vn+1 ).
On consid`ere une permutation aleatoire de {1, . . . , n} de loi uniforme et independante
de (1 , . . . , n+1 ). Montrer que les variables aleatoires
V(i)
,
Vn+1

i = 1, . . . n

sont independantes et de meme loi uniforme sur [0, 1].

Soit F une fonction de repartition sur R. On pose
F (u) = inf{t R, F (t) u},

0 < u < 1.

Montrer que F est bien definie et quon a lequivalence u F (t) F (u) t.

En deduire que si (X1 , . . . , Xn ) est un n-echantillon de loi F , alors la statistique
dordre (X(1) , . . . , X(n) ) a meme loi que le vecteur

Vn+1

,...,F

Vn
Vn+1

Soit p (0, 1). Montrer que

V[np] Vn+1
,
n
np n1
converge en loi vers un vecteur gaussien centre (Z1 , Z2 ) avec Var(Z2 ) = 1 et
Var[Z1 ] = Cov(Z1 , Z2 ) = p.
On suppose quil existe un voisinage (a, b) de F (p) et une fonction f strictement
positive sur (a, b), continue en F (p) tels que
Z

f (s)ds

F (t) = F (t1 ) +

pour t (a, b).

Montrer que F (p) est lunique solution de lequation F

(t) = p. Montrer que

n(X([np]) F (p)) converge en loi vers la loi gaussienne N 0, p(1p)/f F (p) .

(Theor`eme de Mosteller).

Chapitre 4

M
ethodes destimation pour le
mod`
ele de densit
e
On se place dans le modèle dechantillonnage. Lhypothèse supplementaire par rapport
au Chapitre 3 est que la famille de probabilites associee à lexperience statistique est
param
etrique : on peut la representer à laide dun sous-ensemble dun espace de
dimension finie.

4.1
4.1.1

Introduction
Notations et hypoth`
eses

Situation
On observe un n-echantillon
X1 , . . . , Xn
dune loi inconnue sur R, que lon notera aussi sous forme dun vecteur colonne
T
X1 , . . . , Xn ,
o`
u les Xi sont des variables independantes et identiquement distribuees, et on suppose
que leur loi commune appartient a` une famille parametrique de lois donnee

P , , Rd ,
o`
u est un param`etre de dimension d. Lexperience statistique sous-jacente au sens de
la Definition 2.3 du Chapitre 2 secrit

E n = Rn , B n , {Pn , }

M
ethodes destimation en densit
e

o`
u Pn est la loi de n variables aleatoires independantes de loi P . On ecrit indifferemment
P , ou Pn , voire P lorsquil ny a pas de confusion possible. On note aussi E = E 1 ,
lexperience associee `
a une seule observation.
Dans ce contexte, on cherche à construire des estimateurs bn de , ou plutot des suites
destimateurs, variant avec n. Un estimateur cf. la Definition 3.1 est une quantite
mesurable par rapport aux observations :
bn = bn (X, . . . , Xn )
` valeurs dans Rd (idealement, à valeurs dans ). Evidemment, un estimateur raisonnable
a
bn approche dautant mieux que le nombre dobservations n est grand. Nous allons
raisonnables ,
developper des methodes systematiques de construction
destimateurs

en faisant des hypothèses adequates sur la famille P , .
Identifiabilit
e
Nous supposons toujours que lexperience est bien parametree, au sens o`
u la fonction
; P est injective, ce qui etait dejà implicite dans nos notations : deux valeurs
differentes 1 6= 2 donnent lieu à deux mesures de probabilites P1 6= P2 differentes.
Une experience statistique E n engendree par lobservation dun n-echantillon secrit
E n = E E (n fois), o`
u E est lexperience statistique associee à une observation
(E = E 1 ). Alors E n est identifiable si et seulement si E lest.
Voici un exemple de mauvaise parametrisation donnant lieu à un modèle qui nest
pas identifiable : P est la loi sur R de densite par rapport à la mesure de Lebesgue
1
1
2 2
f (, x) = e 2 (x ) , = R .
2

La donnee de f (, ) ne permet par de distinguer et . Par contre, la meme experience

associee `
a lensemble des paramètres e = R+ devient identifiable.
Domination
Nous faisons une hypothèse essentielle de domination, qui permet, en un certain sens,
de reduire la complexite de letude de E n à celle dune fonction de plusieurs variables.
Hypoth`
ese 4.1. Lexperience E est dominee : il existe une mesure -finie sur R telle
que, pour tout , domine P . On note
f (, x) =
la densite de P par rapport `
a .

d P
(x), x R
d

4.1 Introduction

Remarque 4.1. Pour un n-echantillon, E n est dominee si et seulement si E lest.

Lexperience statistique E n est dominee par la mesure produit n = . . . (n
fois) et
n
Y
d Pn
(x1 , . . . , xn ) =
f (, xi ), x1 , . . . , xn R .
dn
i=1

Remarque 4.2. Se donner une experience statistique satisfaisant lHypothèse 4.1 revient à specifier une application f : R R. Nous verrons dans ce chapitre ainsi quau
Chapitre 6 comment lestimation de est intimement liee à la regularite de la fonction
(, x) ; f (, x).
Dans presque toutes les situations que nous considererons, la mesure est la mesure
de Lebesgue sur R lorsque la loi des observations est absolument continue, ou bien est
la mesure de comptage sur lensemble des valeurs possibles des observations lorsque la
loi des observations est discrète.
Exemple 4.1.
1. Si lexperience statistique E est engendree par lobservation dune variable exponentielle de paramètre , > 0, alors P (dx) est la loi exponentielle de paramètre
et = R+ \{0}. Une mesure dominante est la mesure de Lebesgue (dx) = dx
et on a
P (dx) = f (, x)dx = exp(x)1{x0} dx.
2. Si E est engendree par lobservation dune variable de Poisson de paramètre > 0,
alors P (dx) est la loi de Poisson de paramètre et = R+ \{0}. Dans ce cas, on
peut prendre pour la mesure de comptage sur N et on a
P (dx) = f (, x)(dx) = exp()

x
(dx),
x!

et on a aussi

f (, x) = P X = x .
3. Si E est engendree par lobservation dune variable gaussienne, de moyenne et de
variance 2 , alors = (, 2 ), = R R+ \{0} et P (dx) est la loi N (, 2 ). Dans
ce cas, on peut prendre (dx) = dx et on a

f (, x) = (2 2 )1/2 exp 21 2 (x )2 .
Attention : dans certaines situations, on suppose que lon connat lune des valeurs
ou 2 . Dans ce cas, on doit changer de param`etre et densemble de param`etres,
meme si, bien-s
ur, la loi des observations reste la meme. Par exemple, si lon connat
2 , alors on prend = , = R et on ecrit plutot

f2 (, x) = (2 2 )1/2 exp 21 2 (x )2 .

M
ethodes destimation en densit
e

Calcul de lois

On note Pn (ou P lorsquil ny a pas de confusion) la loi des observations, et En

(ou E ) lesperance associee. Si bn est un estimateur de et une fonction test, alors

E (bn ) = E bn (X1 , . . . , Xn )
Z

=
bn (x1 , . . . , xn ) P (dx1 ) . . . P (dxn )
Rn

Z
=
Rn

n
Y
bn (x1 , . . . , xn )
f (, xi )(dx1 ) . . . (dxn ).
i=1

Si est la mesure de Lebesgue, cette formule devient

Z
n

Y
b
b
n (x1 , . . . , xn )
E (n ) =
f (, xi )dx1 . . . dxn .
Rn

i=1

Si est la mesure de comptage sur M R au plus denombrable, la formule devient

E (bn ) =

bn (x1 , . . . , xn )

x1 ,..., xn M

n
Y

f (, xi ).

i=1

Ces formules ne sont pas toujours praticables : on choisit souvent des fonctions tests
et des estimateurs tr`es particuliers pour pouvoir conduire les calculs.

4.1.2

Familles param
etriques classiques

1. Loi gaussienne reelle et vectorielle, que nous avons deja rencontre au Chapitre 1.
2. Derivees des lois gaussiennes. Il sagit de la loi du 2 `a n degres de liberte, la loi
de Student `
a n degres de libertes, et la loi de Fisher ou Fisher-Snedecor `
a (n1 , n2 )
degres de liberte, que nous avons deja rencontrees au Chapitre 1.
3. Loi Gamma. Notee , de param`etres > 0 et > 0, de densite , par rapport
a la mesure de Lebesgue
`
, (x) =
o`
u (x) =

R +
0

1 x
x
e
1{x0}
()

ux1 eu du. Si X , , alors

Z +
k

E X =
x+k1 ex dx
() 0
Z +
k
=
x+k1 ex dx
() 0
k ( + k)
=
.
()

4.1 Introduction

En particulier, E X = / et Var X = /2 . Le paramètre joue un role de
facteur dechelle : on montre de la meme manière que si X 1, , alors X/ , .
Cest donc le deuxième paramètre qui est important en modelisation. En particulier,
la loi du 2 `
a n degres de liberte est la loi 1/2,n/2 .
4. Loi exponentielle. Cest la loi ,1 , > 0, de densite ex 1{x0} . En particulier,
sa moyenne vaut 1/ et sa variance 1/2 .
5. Loi Beta. De paramètres 1 , 2 > 1. Cest une loi sur [0, 1], de densite
x;

(1 + 2 ) 1 1
x
(1 x)2 1 1{x(0,1)} .
(1 )(2 )

Son nom vient de la fonction Beta

Z 1
(1 )(2 )
B(1 , 2 ) =
x1 1 (1 x)2 1 dx =
.
(1 + 2 )
0
Si X suit la loi Beta de param`etres (1 , 2 ), ses moments sils existent sont
donnes par la formule
Z 1
k
(1 + 2 ) 1 +k1
(1 + 2 )(1 + k)
E X =
x
(1 x)2 1 =
.
(1 )(1 + 2 + k)
0 (1 )(2 )
En particulier, pour k = 1, 2 on obtient

E X =

1
1 (1 + 1)
, E X2 =
.
1 + 2
(1 + 2 )(1 + 2 + 1)

6. Loi uniforme. Sur [0, 1], on peut la voir comme un cas particulier de la loi Beta 1
pour 1 = 2 = 1.
7. Loi de Cauchy. Cest la loi de param`etres R et 2 > 0 de densite
x;

1
1
2 =

1 + (x )/ 2 2
2 + (x )

sur R. Ce nest rien dautre que la famille de translations-dilatations associee `a la

loi de Cauchy standard de densite
x;

1
(1 + x2 )

mais `
a la difference de la famille des lois normales, elle nadmet pas de moment
dordre 1 (et donc pas de variance non plus).
1. Le lien entre loi uniforme et loi Beta intervient dans le calcul de la statistique de rang associe a
` des
tirages uniformes, dont une application fondamentale est la loi limite destimation de quantiles, voir par
exemple [1], p.46.

M
ethodes destimation en densit
e
8. Loi log-normale On dit quun variable Y est log-normale si elle peut secrire Y =
exp(X), avec X N (, 2 ). La densite de la loi log-normale est
x;

1
g log(x) ,
x

o`
u g(x) = (2 1/2 ) exp(x2 /2) est la densite de la loi normale standard. De plus,

2
2
E Y = e+ /2 , E Y 2 = e2+2 .
9. Loi de Bernoulli. Rencontree au Chapitre 1.
10. Loi de Poisson. Rencontr
ee au

Chapitre 1. Si X suit une loi de Poisson de paramètre
> 0, alors E X = Var X = .
11. Loi multinomiale. Soient X1 , . . . , Xn sont des variables aleatoires à valeurs dans
{1, . . . , d}, independantes et de meme loi

P X = ` = p` , ` = 1, . . . , d.
P
Si lon note N` = ni=1 1{Xi =`} le nombre de tirages ayant donne la valeur `, alors
le vecteur (N1 , . . . , N` ) suit la loi multinomiale de paramètres n et (p1 , . . . , pd ),
donnee par

P N1 = n1 , . . . , Nd = nd

n!
=
pn1 pnd d ,
n1 ! nd ! 1

d
X

n` = 1.

`=1

La loi multinomiale generalise la loi binomiale, qui correspond au cas d = 2. Cette

loi est fondamentale dans lutilisation du test du 2 du Chapitre 8.

4.2

M
ethode des moments

4.2.1

Le cas de la dimension 1

On suppose R. Supposons donnee une application g : R R telle que

; m() = E g(X)
existe et soit strictement monotone et continue. Alors m realise une bijection de sur
son image m() et on a la representation

= m1 E g(X) , .

En rempla
c
ant
la
moyenne
th
e
orique
inconnue
m()
=
E
g(X)
par sa version empi
P
rique n1 ni=1 g(Xi ), observable, un estimateur naturel de est donc
!
n
X
1
g(Xi ) .
(4.1)
bn = m1
n
i=1

4.2 M
ethode des moments

Une autre facon de voir cette approche est de remarquer que si F designe la fonction de
repartition de la loi P , alors
Z

1
g(x)dF (x) ,
= T (F ) = m
R

o`
u T est une fonctionnelle de type (3.7) etudiee au chapitre precedent. On a donc aussi
!
n
X
1
bn = T (Fbn ) = m1
g(Xi ) .
n
i=1

D
efinition 4.1. On appelle estimateur par methode des moments tout estimateur de la
forme (4.1) ou (??).
Remarque 4.3. Dans la plupart des exemples, on choisit g de la forme g(x) = xk avec
k 1, do`
u la terminologie. Le choix g est arbitraire pour le statisticien : il y a donc tout
un ensemble de possibilites pour construire un estimateur par methode des moments,
mais sous la contrainte que lapplication ; m() soit reguli`ere et inversible.
Sous des hypoth`eses de regularite sur m et dintegrabilite sur g, on a le comportement
asymptotique de b suivant.

Proposition 4.1. Si E |g(X)| < + et si m1 est continue, on a
p.s.
bn .

De plus, si pour tout , E g(X)2 < + et si la fonction m est derivable, alors

d
n bn N

1
0, 0 2 Var g(X1 )
m ()

(4.2)

Demonstration. On applique simplement les Propositions 3.7 et 3.8 du Chapitre 3 `a la

fonctionnelle regulière T (F ).
Exemple 4.2 (Loi exponentielle). On considère lexperience E n engendree par lobservation dun n-echantillon de variables exponentielles de paramètre > 0. Les fonctions
les plus simples pour construire un estimateur sont par exemple g(x) = x ou ge(x) = x2 .
Ceci fournit deux estimateurs. On part de lequation
Z +

1
m() = E g(X) =
x exp(x)dx =

0
ou bien

m()
e
= E ge(X) =

Z
0

x2 exp(x)dx =

2
,
2

M
ethodes destimation en densit
e

et on resout
m() =

1
n

n
X

m()
e
=

i=1

1
n

n
X

Xi2 .

i=1

On obtient deux estimateurs par substitution :

bn,1 =

1
1
n

i=1 Xi

bn,2 =

!1/2

2
1
n

2
i=1 Xi

La Proposition 4.1 sapplique, et, comme

1
Var g(X) = 2

20
Var ge(X) = 4

1
2

m
e 0 () =

et
m0 () =

4
3

on obtient la convergence en loi (4.2) de lerreur renormalisee

vers une gaussienne centree de variance

v() = m0 ()2 Var g(X) = 2

b
n(n,i ) pour i = 1, 2

20 6
5
ve() = m
e 0 ()2 Var ge(X) = 4
= 2
16
4
respectivement. Lerreur de lestimateur bn,1 est moins dispersee que celle de bn,2 et
de ce point de vue, bn,1 semble preferable à bn,2 . Nous etudierons plus systematiquement
la comparaison destimateurs au Chapitre 6.
Exemple 4.3 (Loi de Cauchy). On considère la famille de translation (voir 4.1.2)
associee `
a la loi de Cauchy sur R. La loi P a une densite par rapport à la mesure de
Lebesgue sur R
1
, x R .
f (, x) =
1 + (x )2
La densite f (, ) na pas de moment dordre k pour k 1, et le choix g(x) = xk avec k
entier ne sapplique pas ici. Prenons g(x) = signe(x), avec

1 si x 0
signe(x) =
1 si x > 0.
On a

E g(X1 ) =

Z
signe(x)f (, x)dx = 1 2F (),
R

o`
u
1
F (t) =

dt
1
1
= Arctg(t) + .
2
1+t

4.2 M
ethode des moments

On resout

2
1X
Arctg() =
signe(Xi ),

n
i=1

do`
u lestimateur

!
n
X
signe(Xi ) .
2n

bn = tg

i=1

Les proprietes asymptotiques de bn vers sobtiennent en appliquant la Proposition 4.1.

4.2.2

Le cas multidimensionnel

Lorsque Rd avec d 1, il nest plus possible en general didentifier via une

seule fonction g via la representation (3.7). On etend la methode precedente en identifiant
`a laide de d applications g` : R R, pour ` = 1, . . . , d

x ; g1 (x), . . . , gd (x) , x R,
de sorte que le syst`eme dequations

m` () = E g` (X) =

Z
g` (x)dF (x), ` = 1, . . . , d

(4.3)

admette une solution unique, lorsque cela est possible. Un estimateur par methode des
moments est alors tout estimateur bn satisfaisant
d

1X
m` (bn ) =
g` (Xi ), ` = 1, . . . , d.
n

(4.4)

i=1

D
efinition 4.2. On appelle estimateur par substitution ou par methode des moments
associe a
` la fonction g tout estimateur bn solution de (4.4).
On note

m() = E g(X) = E g1 (X)], . . . , E gd (X)
lapplication de Rd Rd definie composante par composante par (4.3). On utilise donc
la representation
= m1 (m1 (), . . . , md ())
pour estimer par
bn = m

i=1

1X
1X
g1 (Xi ), . . . ,
gd (Xi )
n
n

M
ethodes destimation en densit
e

Proposition 4.2. Si m est continue, inversible et dinverse continue, alors lestimateur

par methode des moments est bien defini et on a
p.s.
bn

sous P . De plus, si m1 est differentiable et si E g` (X)2 < +, on a la convergence
d

n bn N 0, V () ,
o`
u
T
V () = Jm1 m () Jm
1 ,

(4.5)

avec m () la matrice de variance-covariance du vecteur g1 (X), . . . , gd (X)

par

m () `,`0 = E g` (X)g`0 (X) E g` (X) E g`0 (X)

definie
(4.6)

et Jm1 designe la matrice de la differentielle de m1 .

Demonstration. Par la loi des grands nombres, on a, composante par composante, la
convergence
!
n
n

1X
1 X 1
p.s.
g1 (Xi ), . . . ,
gd (Xi ) E g1 (X) , . . . , E gd (X)
n
n
i=1

i=1

= m()
sous P . Par continuite de m1 , on en deduit
n

1 X 1
1X
g1 (Xi ), . . . ,
gd (Xi )
bn = m1
n
n
i=1
i=1

p.s.
m1 E g1 (X) , . . . , E gd (X)

= m1 m()

= .
La deuxième partie de la proposition est la methode delta multidimensionnelle. On
applique dabord le Theorème 1.4 (theorème central limite vectoriel) : la suite de vecteurs
!T
n
n
1X
1X
g1 (Xi ), . . . ,
gd (Xi )
n
n
i=1

i=1

est asymptotiquement gaussienne, et

n
n

X

T
1X
d
n n
g1 (Xi ), . . . , n1
gd (Xi ) m() N 0, m () ,
i=1

i=1

sous P , de matrice de variance-covariance m () donnee par (4.6). Puis, on applique la

Proposition 1.11 (methode delta) avec g = m1 .

4.3 Moments g
en
eralis
es. Z- et M -estimation

Remarque 4.4. Ce resultat est tr`es proche du Corollaire 3.2 du Chapitre 3 (la fonction
m1 jouant le r
ole de g dans le Corollaire 3.2).
Exemple 4.4. Si = (, 2 ) = R R+ \{0} et P est la loi N (, 2 ), alors d = 2
et les fonctions g1 (x) = x et g2 (x) = x2 fournissent le syst`eme dequations
n

= X n,

2 + 2 =

1X 2
Xi ,
n
i=1

dont la solution est

bn =
bn ,
bn2

= X n , n1

n
X

Xi2 X n

2 T

(4.7)

i=1

On retrouve lestimation de fonctionnelles du Chapitre 3. Lestimateur bn est asymptotiquement normal. On peut calculer sa variance asymptotique en appliquant la formule
(4.5) de la Proposition 4.2 ci-dessus ou bien en partant directement de la representation

(4.7) et en appliquant alors le Corollaire 3.2 du Chapitre 3. En notant i = E X i , on
obtient finalement

V () =

31 2 + 231 + 3
2 21
3
31 2 + 21 + 3 21 (41 2 231 23 ) + 4 22

En particulier, dans le cas dune distribution centree, lorsque 1 = 0, on retrouve la forme

particuli`erement simple

2
3
V () =
.
3 4 22

4.3

Moments g
en
eralis
es. Z- et M -estimation

Insuffisance de la m
ethode des moments
La methode des moments repose sur lexistence dune fonction m (reelle ou vectorielle)
inversible qui nest pas toujours facile à determiner ou à mettre en uvre numeriquement.
On presente une extension naturelle qui fournit une nouvelle classe destimateurs que lon
va pouvoir etudier de manière systematique.
En particulier, sous des hypothèses de regularite suffisantes, on pourra construire une
methode automatique de selection dun estimateur asymptotiquement optimal, dans
un sens que nous discuterons au Chapitre 6.

4.3.1

M
ethodes destimation en densit
e

Z-estimateurs

Construction en dimension 1
Lorsque le param`etre est de dimension 1, cest-`a-dire R, la methode des moments de la section precedente repose sur de bonnes proprietes regularite, inversibilite
de lapplication
Z
g(x) P (dx)

m() = mg () =

(4.8)

pour un certain choix de fonction g. Autrement dit, on a, pour tout

Z

mg () g(x) P (dx) = 0,

(4.9)

o`
u g est `
a choisir. Considerons de mani`ere generale pour Rd et d 1 une application
:RR
telle que pour tout
Z
(, x) P (dx) = 0

(4.10)

dont (4.9) est un cas particulier avec (, x) = mg () g(x). Pour construire un estimateur, on peut se donner une application satisfaisant lequation (4.10) pour tout
et resoudre sa version empirique, cest-`a-dire chercher un estimateur bn satisfaisant
n

1X b
(n , Xi ) = 0.
n

(4.11)

i=1

D
efinition 4.3 (Z-Estimateur ou estimateur GMM 2 ). Etant donnee une application
: R R satisfaisant (4.10), on appelle Z-estimateur associe `
a tout estimateur
b
n satisfaisant (4.11).
Le cas multidimensionnel
Lextension au cas multi-dimensionnel Rd , avec d 1 est immediate. La fonction
est remplacee par une application
= (1 , . . . , d ) : R Rd
o`
u chaque composante ` : R R joue le meme role quen dimension 1. Pour que
la methode ait un sens, il faut que, comme pour lequation (4.10), le param`etre inconnu
soit solution du syst`eme dequations
Z
` (, x) P (dx) = 0, ` = 1, . . . , d
(4.12)
R

et construire un Z-estimateur revient `a resoudre une version empirique de (4.12).

2. Z pour zero et GMM pour Generalized Method of Moments.

4.3 Moments g
en
eralis
es. Z- et M -estimation

D
efinition 4.4 (Z-estimateur, cas multidimensionnel). Etant donne une application :
R Rd , on appelle Z-estimateur associe `
a tout estimateur bn satisfaisant
n

1X b
(n , Xi ) = 0,
n

` = 1, . . . , d.

i=1

4.3.2

M -estimateurs

Soit : R R une application telle que, pour tout Rd , avec d 1, la

fonction
Z

a ; E (a, X) =
(a, x) P (dx)
(4.13)
R

admette un maximum en a = . Une procedure naturelle pour estimer consiste `a

maximiser une version empirique de (4.13).
D
efinition 4.5. On appelle M -estimateur 3 associe au contraste tout estimateur bn
qui satisfait
n
n
1X b
1X
(n , Xi ) = max
(a, Xi ).
a n
n
i=1

i=1

Si le param`etre est de dimension d = 1 et si lon suppose, pour tout x R que la

fonction a ; (a, x) est reguli`ere, en posant
(a, x) = 1 (a, x),
on a

n
X

1 (bn , Xi ) =

i=1

n
X

(bn , Xi ) = 0

i=1

ce qui permet dans ce cas dinterpreter un M -estimateur comme un Z-estimateur.

Cette interpretation setend immediatement au cas multidimensionnel.
Exemple
4.5. On

consid`ere les lois {P , = R} qui est la famille de translations
F ( ), R associee `
a une distribution donnee F centree et ayant un moment
dordre 1. On a
Z
Z
=
x P (dx) = (x + )dF (x).
R

Alors m() = E X minimise la fonction
Z

a ; (x a)2 P (dx) = E (X a)2
R

3. Il y a peut-etre un probl`eme de mesurabilite a

` regler pour garantir que lon obtient effectivement
un estimateur. Nous ignorons ce probl`eme eventuel.

M
ethodes destimation en densit
e

dapr`es la Proposition 1.1. En prenant (a, x) = (x a)2 , le M -estimateur associe `

a
satisfait
n
n
X
X
b
(n , Xi ) = max
(a, Xi )
aR

i=1

ou encore

n
X

i=1

(bn , Xi ) = 0

i=1

P
u lestimaavec (a, x) = 1 (a, x) = 2(x a), ce qui implique ni=1 (Xi bn ) = 0, do`
1 Pn
b
teur n = X n = n i=1 Xi . Dans cet exemple simple, tous les points de vue concident.

4.3.3

Convergence des Z- et des M -estimateurs

Dans cette section, nous donnons des crit`eres simples sur la famille P , et la
fonction pour les Z-estimateurs ou pour les M -estimateurs qui garantissent
la convergence de lestimateur correspondant. Nos conditions sont classiques et sousoptimales. La recherche de conditions minimales est un probl`eme delicat qui depasse le
cadre de ce cours. On pourra consulter van der Vaart [10] pour une discussion accessible
sur le sujet. Pour des raisons techniques, nous commencons par traiter la convergence
des M -estimateurs, dont nous deduirons celle des Z-estimateurs.
Convergence des M -estimateurs
Pour une fonction de contraste : R R donnee, on definit
n

Mn (a) =

1X
(a, Xi ), a
n
i=1

et, pour ,

M (a, ) = E (a, X) .
Proposition 4.3 (Convergence des M -estimateurs). On suppose Rd , avec d 1,
que le M -estimateur bn associe a
` la fonction est bien defini, et quon a

P
(i) supa Mn (a) M (a, )
0,
(ii) > 0, sup|a| M (a, ) < M (, ), (condition de maximum)
P
(iii) Mn (bn ) Mn () n , o`
u n
0.

Alors le M -estimateur bn est convergent (ou consistant) :

P
bn
.

4.3 Moments g
en
eralis
es. Z- et M -estimation

Demonstration. On ecrit
M (, ) M (bn , ) = Tn,1 + Tn,2 + Tn,3 ,
avec
Tn,1 = M (, ) Mn (),
Tn,2 = Mn () Mn (bn ),
Tn,3 = Mn (bn ) M (bn , ).
Les termes Tn,1 et Tn,3 tendent vers 0 en probabilite sous P grace à lhypothèse (i).
Soit > 0. Daprès la condition (ii), il existe > 0 tel que M (a, ) M (, )
dès lors que |a | . On a donc linclusion

| bn | M (bn , ) M (, )
(4.14)
en prenant a = bn . Il vient

P | bn | P M (bn , ) < M (, )

= P M (, ) M (bn , ) >

P Tn,1 + n + Tn,3
P

o`
u lon utilise successivement linclusion (4.14), lhypoth`ese (iii) et le fait que chacun des
termes Tn,1 , n et Tn,3 tend vers 0 en probabilite sous P .
Convergence des Z-estimateurs
On suppose dabord R. Pour une fonction donnee, on definit
n

1X
(a, Xi ), a
Zn (a) =
n
i=1

et, pour ,

Z(a, ) = E (a, X) a .
Proposition 4.4 (Convergence des Z-estimateurs). On suppose que le Z-estimateur bn
associe `
a la fonction est bien defini, et quon a

P
(i) supa Zn (a) Z(a, )
0,
(ii) > 0, inf |a| |Z(a, )| > 0 = |Z(, )|,

M
ethodes destimation en densit
e
P
(iii) Zn (bn )
0.

Alors le Z-estimateur bn est convergent (ou consistant) :

P
bn
.

Demonstration. ll suffit de reprendre point par point la preuve de la Proposition 4.3 en

remplacant Mn (a) par |Zn (a)| et M (a, ) par Z(a, ).
Le cas multidimensionnel o`
u Rd avec d 1 se traite de la meme mani`ere, en
remplacant la fonction par une fonction vectorielle = (1 , . . . , d ) et les valeurs
absolues dans les conditions (i)(ii)(iii) par la norme euclidienne sur Rd .

4.3.4

Loi limite des Z- et M -estimateurs

Nous precisons les resultats de la section precedente, en cherchant une vitesse de

convergence n de sorte que lerreur normalisee
n (bn )
converge vers une limite non-degeneree. Nous donnons des hypoth`eses suffisantes sur
les fonctions pour les Z-estimateurs et pour les M -estimateurs de sorte

quon ait une convergence en loi vers une gaussienne avec la normalisation n = n.
Ces conditions ne sont pas optimales (voir van deer Vaart [10]). A linverse de la section
precedente, nous partons dun resultat sur les Z-estimateurs pour en deduire un resultat
sur les M -estimateurs.
Loi limite des Z-estimateurs
Nous donnons les resultats dans le cas R, lorsque le paramètre est de dimension
d = 1, pour simplifier 4 . Etant donnees, dune
part une fonction
: R R definissant

un Z-estimateur, et dautre part la famille P , , on fait le jeu dhypothèses
suivant :
Hypoth`
ese 4.2 (Hypothèse loi limite Z-estimateurs). On a
(i) Pour tout point , il existe un voisinage ouvert V() tel que, pour tout
a V()
2

a (a, x) g(x), o`
u E g(X) < +.
(ii) Pour tout , on a

E (, X) = 0,

E (, X)2 < +,

E (, X) 6= 0.

4. Le passage au cas multidimensionnel ne presente essentiellement quune difficulte decriture.

4.3 Moments g
en
eralis
es. Z- et M -estimation

Remarque 4.5. Le jeu dhypothèse 4.2 peut paratre un peu repoussant à première
vue. Nous verrons que la methode de preuve est très simple, et que ces hypothèses apparaissent naturellement lors du controle des differents termes dun developpement asymptotique 5 .
Remarque 4.6. Le jeu dhypothèse 4.2 est local : comme
le sugg`

ere lhypothèse (i), on
doit pouvoir contr
oler le comportement de la famille P , dans un voisinage de
, pour tout . Ceci exclut les paramètres de la frontière de dans le cas o`
u nest pas
un ouvert. En restreignant lespace des paramètres (donc en considerant une experience
statistique plus petite ), on pourra souvent se ramener au jeu dhypothèses 4.2 à
condition que soit dinterieur non vide au depart.
Sous ce jeu dhypothèses, on a le comportement asymptotique suivant pour les Zestimateurs

Proposition 4.5 (Loi limite des Z-estimateurs). Si la famille P , et la fonction
P
verifient lHypothèse 4.2, alors, si bn est un Z-estimateur associe `
a tel que bn
,
on a

en loi sous P , o`
u

d

n bn N 0, v ()

E (, X)2
v () =

2 .
E (, X)

P
Demonstration. Notons Zn (a) = n1 ni=1 (a, Xi ), a comme dans la preuve de la Proposition 4.4, et introduisons les notations Zn0 (a) = a Zn (a), Zn00 (a) = a2 Zn (a). Ecrivons
un developpement de Taylor de la fonction Zn au voisinage de . On a
1
0 = Zn (bn ) = Zn () + (bn )Zn0 () + (bn )2 Zn00 (en ),
2
o`
u en est un point (aleatoire) entre bn et , ce que lon reecrit sous la forme

nZn ()
b
n n =
.
Zn0 () + 12 (bn )Zn00 (en )

(4.15)

sur levenement {Zn0 () + 12 (bn )Zn00 (en ) 6= 0}.

Sous P , les variables (, Xi ) sont independantes,
identiquement distribuees, de

2
moyenne nulle et de variance finie E (, X) daprès lHypothèse 4.2 (ii). En appliquant le theorème central-limite

d
nZn () N 0, E (, X)2
5. On peut presque les oublier et ne retenir que la methode de preuve o`
u elles reapparatront de
facon evidente.

M
ethodes destimation en densit
e

en loi sous P .
P
Considerons maintenant le denominateur. On a Zn0 () = n1 ni=1 (, Xi ) et les
variables (, Xi ) sont integrables daprès lHypothèse 4.2 (ii). En appliquant la loi
des grands nombres, on obtient

P
Zn0 ()
E (, X) 6= 0.
La seule reelle difficulte de la preuve de la proposition consiste à demontrer que
P
00 e
1 b
2 (n )Zn (n )

(4.16)

En effet, dans ce cas, le denominateur dans (4.15) tend vers E (, X) 6= 0 en P

probabilite, et on en deduit 6 , en appliquant la Proposition 1.8 (Slutsky) que

!

E (, X)2
nZn ()
d
N 0,

2 ,
Zn0 () + 12 (bn )Zn00 (en )
E (, X)
qui est la limite recherchee.
Il reste `
a montrer (4.16). Daprès lhypothèse 4.2 (ii), il existe un voisinage V() de
P
implique que
tel que |a2 (a, x)| g(x) si a V(). Lhypothèse bn

P bn V() 1.
Posons Cn = {bn V()}. On a
n
h1 X
h
i
i
2
(en , Xi )1Cn
E Zn00 (en )1Cn E

n
i=1

n
h1 X

i
g(Xi )

i=1

i
= E g(X) < +
en appliquant lhypoth`ese 4.2 (i). On en deduit

sup E Zn00 (en )1Cn < +.
n

P
P
Ceci entrane (bn )Zn00 (en )1Cn
0, puisque bn
, voir par exemple lExercice 1.1
du Chapitre 1. Finalement, on ecrit, pour tout > 0

P 21 (bn )Zn00 (en ) P 21 (bn )Zn00 (en )1Cn + P Cnc ,

et chacun des deux termes du membre de droite tend vers 0 lorsque n .

bn )Zn00 (
en ) 6= 0}, mais
6. Il y a une petite difficulte : on doit se placer sur levenement {Zn0 () + 12 (
la P -probabilite de cet evenement tend vers 1. Nous omettons les details.

4.4 Maximum de vraisemblance

Loi limite des M -estimateurs

Nous nous restreignons encore au cas o`
u R. Nous traduisons lHypoth`ese 4.2
pour une fonction de contraste en posant (a, x) = a (a, x).
Hypoth`
ese 4.3 (Hypoth`ese loi limite M -estimateurs). On a
(i) Pour tout point , il existe un voisinage ouvert V() tel que, pour tout
a V()

3

a (a, x) g(x), o`
u E g(X) < +.
(ii) Pour tout , on a

E (, X) = 0,

2
(, X)
< +,

E 2 (, X) 6= 0.

Proposition 4.6 (Loi limite des M -estimateurs). Si la famille P , et la fonction verifient lHypoth`ese 4.3, alors, si bn est un M -estimateur associe `
a tel que
P
b
n , on a
d

n bn N 0, v ()
en loi sous P , o`
u

2
E (, X)
v () =
2
2 .
E (, X)

Demonstration. Comme indique plus haut, on applique la Proposition 4.5 `a la fonction

(a, x) = a (a, x).

4.4
4.4.1

Maximum de vraisemblance
Principe du maximum de vraisemblance

Fonction de vraisemblance
On se place sous lHypoth`ese de domination 4.1 presentee dans la Section 4.1.1 :
lexperience E est dominee par une mesure sur R, et on note
{f (, ), }

(4.17)

la famille de densites par rapport `a , indicee par lensemble des param`etres Rd ,

avec d 1. Pour toute fonction test
Z
Z
Z
d P
(x) P (dx) =
(x)
(x)(dx) =
(x)f (, x)(dx).
d
R
R
R

M
ethodes destimation en densit
e

D
efinition 4.6. On appelle fonction de vraisemblance associee `
a lexperience produit E n
lapplication
n
Y
; Ln (, X1 , . . . , Xn ) =
f (, Xi ).
i=1

La fonction de vraisemblance 7 est une fonction aleatoire, observable. On la note

parfois simplement Ln () lorsquil ny a pas dambiguite.

Exemple 4.6 (cas discret). Si la famille P , est la famille des lois de Poisson
de param`etre = R+ \{0},
P alors une mesure dominante est la mesure de comptage
sur N definie par (dx) = kN k (dx) et on a
P (dx) = f (, x)(dx) = e

x
(dx).
x!
x

La mesure (dx) est portee par N, donc on peut prendre f (, x) = e x! pour x N et

0 sinon. La vraisemblance secrit alors, pour tout > 0
Ln (, X1 , . . . , Xn ) =

n
Y
i=1

Pn
Xi
1
en i=1 Xi .
= Qn
Xi !
i=1 Xi !

Exemple 4.7 (cas continu). Si la famille P , est la famille des lois de Cauchy
de param`etre = (, 2 ) = R R+ \{0}, voir la Section 4.1.2 alors une mesure
dominante est la mesure de Lebesgue sur R et on a
P (dx) = f (, x)dx =

dx.
2 + (x )2

La vraisemblance secrit alors, pour tout > 0

n
1
n Y 2
Ln (, X1 , . . . , Xn ) = n
+ (Xi )2

i=1

Exemple 4.8 (cas melange). Dans les exemples emblematiques du Chapitre 2, nous
avons mentionne lexperience engendree par lobservation de
Xi? = min{Xi , T }, i = 1, . . . , n
o`
u les Xi sont des variables exponentielles independantes, de
paramètre > 0 que lon
nobserve pas, et T > 0 est un instant de censure. Les lois P? , de X ? ne sont
ni discrètes, ni continues. La famille est dominee par (dx) = dx + T (dx), o`
u T (dx) est
la mesure de Dirac au point T . On a
P? (dx) = p(, x)(dx),
7. La fonction x ; f (, x) est definie a
` un ensemble -negligeable près, donc on devrait en toute
rigueur parler dune (classe dequivalence de) fonction de vraisemblance.

4.4 Maximum de vraisemblance

o`
u
f (, x) = ex 1{x<T } + c()1{x=T } ,
avec c() =

R +
T

et dt = eT . La vraisemblance secrit

Ln (, X1? , . . . , Xn? ) =

n
Y

f (, Xi? )

i=1

= card Nn exp

+
Xi? c()card Nn ,

iNn

o`
u Nn = {i n, Xi? < T } et Nn+ = {i n, Xi? = T }. Elle est `a comparer avec la
vraisemblance du mod`ele sans censure, o`
u lon observe les Xi directement. Dans ce cas
Ln (, X1 , . . . , Xn ) = n exp

n
X

Xi .

i=1

Nous verrons au Chapitre 6 comment quantifier la perte dinformation liee `a la censure.

D
efinition de lestimateur du maximum de vraisemblance
D
efinition 4.7. On appelle estimateur du maximum de vraisemblance tout estimateur
mv
b
n satisfaisant
Ln (bnmv , X1 , . . . , Xn ) = max Ln (, X1 , . . . , Xn ),

autrement dit
bnmv arg max Ln (, X1 , . . . , Xn ).

(4.18)

Lestimateur du maximum de vraisemblance peut ne pas exister. Il nest pas non plus
necessairement unique.
D
efinition 4.8. Lapplication
1
log Ln (, X1 , . . . , Xn )
n
n
1X
=
log f (, Xi ),
n

; `n (, X1 , . . . , Xn ) =

i=1

bien definie si f (, ) > 0 est appelee fonction de log-vraisemblance. En posant log 0 = 0,

on pourra parler de log-vraisemblance en toute generalite.
On a aussi
bnmv arg max `n (, X1 , . . . , Xn ).

Avant de donner des exemples de calcul effectif destimateurs du maximum de vraisemblance, nous allons justifier la definition (4.18).

M
ethodes destimation en densit
e

Principe de maximum de vraisemblance `

a deux points
Considerons une famille de lois `a deux points
= {1 , 1 } R,
o`
u P1 et P2 sont deux lois discr`etes portees par un sous-ensemble M R au plus
denombrable. On choisit pour mesure dominante la mesure de comptage sur M, et la
densite f (, ) est donnee par

f (, x) = P X = x , x M, {1 , 2 }.

(4.19)

A priori avant lexperience aleatoire si les observations (X1 , . . . , Xn ) suivent la loi P

(avec = 1 ou 2 ) la probabilite dobserver 8 (X1 = x1 , . . . , Xn = xn ) est exactement
n
n

Y

Y
P X1 = x1 , . . . , Xn = xn =
P Xi = xi =
f (, xi ).
i=1

i=1

A posteriori on dispose dune realisation de (X1 , . . . , Xn ). Supposons que, pour cette

realisation, on observe
n
n
nY
o
Y
f (1 , Xi ) >
f (2 , Xi ) ,
i=1

i=1

cest-`
a-dire
n
o
Ln (1 , X1 , . . . , Xn ) > Ln (2 , X1 , . . . , Xn ) .
Daprès (4.19), nous pouvons faire linterpretation suivante :
A posteriori, la probabilite davoir observe (X1 , . . . , Xn ) est plus grande sous P1 que
sous P2 . Ceci nous suggère de suspecter que la loi des observations est P1 plut
ot
que P2 : la valeur 1 est plus vraisemblable que 2 .
Si, pour la realisation de lobservation (X1 , . . . , Xn ) on a Ln (2 ) > Ln (1 ), alors on
fera la conclusion opposee : 2 est plus vraisemblable que 1 . On a donc maximise
la fonction de vraisemblance ; Ln (, X1 , . . . , Xn ) dans le cas très simple o`
u ne peut
prendre que deux valeurs :
bnmv = 1 1

+ 2 1

Ln (1 ,X1 ,...,Xn )>Ln (2 ,X1 ,...,Xn )

Ln (1 ,X1 ,...,Xn )<Ln (2 ,X1 ,...,Xn )

Si enfin Ln (2 ) = Ln (1 ), alors il ny a pas unicite de la procedure et on ne peut pas

conclure.
8. Cest-`
a-dire la probabilite de realisation de levenement {X1 = x1 , . . . , Xn = xn }

4.4 Maximum de vraisemblance

Passage de deux param`

etres et une famille de lois quelconque
De mani`ere generale, si Rd avec d 1 est un ensemble arbitraire, la valeur, si
elle est bien definie,
bnmv = arg max Ln (, X1 , . . . , Xn )

est la plus vraisemblable.

Passage `
a une famille de lois continues
Le passage aux lois continues, o`
u les {P , } sont absolument continues par
rapport `
a la mesure de Lebesgue se faite de la meme mani`ere. On peut reproduire
heuristiquement le raisonnement du paragraphe precedent. On remplace
n
n

Y

Y
P X1 = x1 , . . . , Xn = xn =
P Xi = xi =
f (, xi ),
i=1

i=1

par

P X1 V(x1 ), . . . , Xn V(xn ) =

n
Y

P Xi V(xi )

i=1

o`
u V(x) est un

petit voisinage de x. Alors

Z

P X V(x) =
f (, u)du f (, x)V(x)
V(x)

dans la limite V(x) 0, o`
u V(x) designe le mesure de Lebesgue de V(x). Donc la
probabilite de levenement
n
o
X1 V(x1 ), . . . , Xn V(xn )
est essentiellement proportionnelle `a
on accepte lapproximation precedente).

i=1 f (, xi ),

et ceci independamment de (si

Equations de vraisemblance
Si le maximum de ; Ln (), ou encore le maximum de ; `n () nest pas atteint
sur la fronti`ere de , et si lapplication ; Ln () est contin
ument differentiable, alors
une condition necessaire que doit satisfaire lestimateur du maximum de vraisemblance
bnmv est lannulation du gradient
Ln (, X1 , . . . , Xn )|=b mv = 0
n

M
ethodes destimation en densit
e

ce qui fournit un syst`eme de d equations si Rd avec d 1. De la meme mani`ere, une

condition necessaire sur la log-vraisemblance est
`n (, X1 , . . . , Xn )|=b mv = 0
n

(4.20)

D
efinition 4.9 (Equations de vraisemblance). Lequation (4.20) est appelee equation de
vraisemblance si d = 1 et syst`eme dequations de vraisembance si d > 1.
En resolvant (4.20), on obtient tous les points critiques de ; `n (), en particulier,
tous ses maxima et minima locaux.
D
efinition 4.10. On appelle racine de lequation de vraisemblance tout (estimateur) bnrv
solution de (4.20), cest-`
a-dire tel que
`n (bnrv , X1 , . . . , Xn ) = 0.
Remarque 4.7. Supposons que pour tout , on a f (, x) > 0 (dx) presquepartout et ; f (, x) est differentiable, (dx) presque-partout. Alors, si ; `n ()
atteint son maximum global pour tous les tels que `n () = 0, alors les ensembles
qui definissent les solutions bnmv et bnrv concident.
Invariance du maximum de vraisemblance vis-`
a-vis de la mesure dominante
ese 4.1, il existe une mesure positive -finie sur R qui domine la famille
Sous lHypoth`

P , .
Cest le choix de qui specifie la famille de densites f (, ) sur laquelle est construite
la vraisemblance, et par suite lestimateur du maximum de vraisemblance.
Proposition 4.7. Lestimateur du maximum de vraisemblance ne depend pas du choix
de la mesure dominante dans le calcul de la vraisemblance.
Demonstration. Soit une autre mesure dominante. Les mesures et sont elles-memes
dominees par la mesure + , donc, pour toute fonction test ,
Z
Z
d P
(x) P (dx) =
(x)
(x)( + )(dx)
d(
+ )
R
ZR
d
d P
=
(x)
(x)
(x)( + )(dx)
d
d( + )
ZR
d P
d
=
(x)
(x)
(x)( + )(dx).
d
d( + )
R
P
P
Les densites dd
(x) et dd
(x) ne different que dun facteur multiplicatif qui ne depend pas
de (sauf eventuellement sur un ensemble ( + )-negligeable). Donc, presque-s
urement,
n
Y
d P
i=1

(Xi ) et

n
Y
d P
i=1

(Xi )

4.4 Maximum de vraisemblance

ne diff`erent que dune fonction de X1 , . . . , Xn qui ne depend pas de . On ne modifie

pas bnmv selon que lon maximise la vraisemblance formee sur lune ou lautre des mesures
dominantes.
Equi-invariance
Lestimateur du maximum de vraisemblance nest pas modifie par changement de
(bonne) parametrisation. Cela signifie que si bnmv est lestimateur du maximum de vraisemblance pour , alors (bnmv ) est lestimateur du maximum de vraisemblance du paramètre G() pour toute fonction G raisonnable .

Plus precisement, si P , est une famille de probabilites associee à une
experience statistique, et si
G : G()
est unebijection de sur son image G(), on construit une nouvelle famille de probabilites Q , G() en posant
Q = PG1 ( ) .
e est une bijection et si bnmv designe lestimateur du
Proposition 4.8. Si G :
maximum
de
pour lexperience statistique associee `
a la famille de lois

vraisemblance
mv
b
P , , alors G(n ) est lestimateur du maximum de vraisemblance
de G(), cest

`
a-dire pour lexperience statistique associee `
a la famille de lois PG1 ( ) , G() =

Q , G() .
1 ). Pour tout G(), la
Demonstration. Posons bn = G(bnmv ). Alors bnmv = G
n
(b

vraisemblance Len (, X1 , . . . , Xn ) associee à la famille PG1 ( ) , G() secrit

Len (, X1 , . . . , Xn ) = Ln (G1 ( ), X1 , . . . , Xn )
= Ln (, X1 , . . . , Xn )
Ln (b mv , X1 , . . . , Xn )
n

= Len (b
n , X1 , . . . , Xn ).

Exemple 4.9. Si X1 , . . . , Xn est un n-echantillon de loi exponentielle de param`etre

= R+ \{0}, alors la loi P a une densite par rapport `a la mesure de Lebesgue
donnee par f (, x) = ex 1{x0} . La log-vraisemblance secrit 9
`n (, X1 , . . . , Xn ) = n log

n
X

Xi ,

i=1

9. Noter que tous les Xi sont positifs P p.s., simultanement pour tous les , donc il est inutile
de faire apparatre la condition 1{Xi 0} dans la formule de la vraisemblance.

100

M
ethodes destimation en densit
e

donc `n (, X1 , . . . , Xn ) = 0 si et seulement si = X1 . On verifie que cest un maximum

n
global, donc b mv = 1 . Par equi-invariance, on en deduit sans calcul que lestimateur
n

du maximum de vraisemblance pour un n-echantillon de loi exponentielle de param`etre

= 1/, = R+ \{0} est bn = X n .
Exemple 4.10. Si X1 , . . . , Xn est un n-echantillon de loi log-normale de moyenne a R
et de variance d2 > 0, alors, par la representation Yi = log Xi N (, 2 ) avec
a = e+

2 /2

d2 = a2 (e 1)

(voir Section 4.1.2), en etudiant la fonction

(, 2 ) ; (a, d2 ) = e+

2 /2

2
, a2 (e 1)

qui etablit une bijection de R R+ \{0}, on en deduit par equi-invariance du cas gaussien
que lestimateur du maximum de vraisemblance pour (a, d2 ) est

2
2
b
anmv , (db2n ) mv = eY n +sn /2 , (b
anmv )2 (esn 1) ,
P
P
o`
u Y n = n1 ni=1 Yi = n1 ni=1 log Xi et s2n = n1 (Yi Y n )2 .

4.4.2

Exemples de calcul

Exemple 4.11 (mod`ele gaussien standard). Lexperience statistique est engendree par
un n-echantillon de loi N (, 2 ), le param`etre est = (, 2 ) = R R+ \{0}. Une
mesure dominante est la mesure de Lebesgue sur R et on a alors

f (, x) = (2 2 )1/2 exp 21 2 (x )2
La log-vraisemblance associee secrit
2

`n (, ), X1 , . . . , Xn

n
n
1 X
2
= log(2 ) 2
(Xi )2 .
2
2
i=1

Lequation de vraisemblance secrit

`n (, 2 ), X1 , . . . , Xn

n
1 X
(Xi )
2
i=1

n
1 X

(Xi )2 ,

2 `n (, ), X1 , . . . , Xn = 2 2 + 2 4
i=1

Pour n 2, ceci nous fournit le point critique

1X
bn = X n ,
(Xi X n )2 .
n
i=1

On verifie ensuite que le point critique est lunique maximum global et donc bnrv = bnmv .

4.4 Maximum de vraisemblance

101

Exemple 4.12 (mod`ele de Bernoulli). Lexperience statistique est engendree par un

n-echantillon de loi de Bernoulli de param`etre = (0, 1). Donc

P X = x = x (1 )1x , x {0, 1}.
On peut prendre comme mesure dominante la mesure de comptage sur {0, 1} et dans
ce cas f (, x) = x (1 )1x . La vraisemblance secrit
Ln (, X1 , . . . , Xn ) =

n
Y

Xi (1 )1Xi

i=1
Pn

i=1

(1 )n

i=1

et la log-vraisemblance vaut
`n (, X1 , . . . , Xn ) = n X n log + n(1 X n ) log(1 ).
On a `n (, X1 , . . . , Xn ) = n X n 1 (n X n )(1 )1 = 0 si et seulement si = X n .
On verifie que = X n est un maximum global et donc bnmv = X n .
Exemple 4.13 (modèle de Laplace). Lexperience statistique est engendree par un nechantillon de loi de Laplace de paramètre = R, dont la densite par rapport à la
mesure de Lebesgue est donnee par
f (, x) =

1
|x |
exp
,
2

o`
u > 0 est connu. La fonction de vraisemblance secrit
Ln (, X1 , . . . , Xn ) = (2)n exp

n

1 X
Xi

i=1

et la log-vraisemblance vaut
`n (, X1 , . . . , Xn ) = n log(2)

n

1 X
Xi .

i=1

Maximiser Ln (, X1 , . . . , Xn ) revient `a minimiser la fonction ;

fonction est derivable presque partout, de derivee

n
X

Pn

i=1 Xi . Cette

sign(Xi ).

i=1

La derivee (definie presque partout) est constante par morceaux. Si n est impair, elle
sannule en un point unique X n+1 , o`
u X(1) . . . X(n) designe la statistique dordre
2

associee `
a lechantillon (voir Section 3.4.2 du Chapitre 3).
Si n est pair, il y a une infinite

de solutions : tout point de lintervalle X n , X n
est un estimateur du maximum
2

2 +1

de vraisemblance. On retrouve la mediane empirique (voir Section 3.4.2 du Chapitre 3).

102

M
ethodes destimation en densit
e

Exemple 4.14 (mod`ele uniforme). Lexperience statistique est engendree par un nechantillon de loi uniforme sur [0, ], o`
u = R+ \{0} est le param`etre. Une mesure
dominante est la mesure de Lebesgue et la densite de la loi uniforme est donnee par
f (, x) =

1
1
(x).
[0,]

La fonction de vraisemblance secrit

n
1 Y
Ln (, X1 , . . . , Xn ) = n
10Xi

i=1
n
1X(n) ,

o`
u X(n) = maxi=1,...,n Xi . La valeur maximale de Ln (, X1 , . . . , Xn ) est obtenue pour
= X(n) et donc bnmv = X(n) . Par contre, la fonction de log-vraisemblance nest pas
definie pour toutes les valeurs de et nest pas derivable.
Exemple 4.15 (mod`ele de Cauchy). Lexperience statistique est engendree par un nechantillon de loi de Cauchy de param`etre = R, dont la densite par rapport `
a la
mesure de Lebesgue sur R est donnee par
f (, x) =

1
.
1 + (x )2

La fonction de vraisemblance secrit

Ln (, X1 , . . . , Xn ) = n

n
Y
i=1

1
,
1 + (Xi )2

et la log-vraisemblance vaut
n

`n (, X1 , . . . , Xn ) = n log

1X
log 1 + (Xi )2 ,
n
i=1

et lequation de vraisemblance equivaut `a resoudre

n
X
i=1

Xi
= 0.
1 + (Xi )2

(4.21)

Cette equation nadmet pas de solution explicite et admet en general plusieurs solutions.
Nous verrons plus tard comment traiter le comportement asymptotique dune solution
de (4.21) de facon indirecte.
Exemple 4.16 (absence destimateur du maximum de vraisemblance). Considerons le
mod`ele de translation par rapport `a la densite
|x|

e 2
, x R,
f0 (x) = p
2 2|x|

4.4 Maximum de vraisemblance

103

cest-`a-dire le mod`ele domine par la mesure de Lebesgue sur R de densites

f0 (x ), x R, = R .
La fonction de vraisemblance secrit
n
Y

Ln (, X1 , . . . , Xn ) =

f0 (Xi ).

i=1

On a limXi Ln (, X1 , . . . , Xn ) = + pour tout i = 1, . . . , n. Pour cette experience

statistique, il nexiste pas destimateur du maximum de vraisemblance.

4.4.3

Maximum de vraisemblance et M -estimation

Pr
eliminaire : une in
egalit
e de convexit
e
Lemme 4.4.1 (Inegalite dentropie). Soit une mesure -finie sur (R, B). Soient deux
densites de probabilite f, g : R R+ par rapport `
a , cest-`
a-dire verifiant
Z
Z
f (x)(dx) =
g(x)(dx) = 1.
R

Alors 10

Z
f (x) log f (x)(dx)

f (x) log g(x)(dx)

si les deux integrales sont finies, et legalite a lieu si et seulement si f = g -presque

partout.
Demonstration. On doit montrer
Z
f (x) log
R

g(x)
(dx) 0.
f (x)

Pour x 1, on a log(1 + x) x avec egalite si et seulement si x = 0, donc

g(x)
g(x)
g(x)
log
= log 1 +
1
1,
f (x)
f (x)
f (x)
avec egalite si et seulement si f (x) = g(x). Il vient

Z
Z
g(x)
g(x)
f (x) log
(dx)
f (x)
1 (dx)
f (x)
f (x)
R
ZR
Z
=
g(x)(dx)
f (x)(dx) = 0.
R

Si on na pas f = g -presque partout, alors linegalite est stricte.

10. Avec la convention

R
{x,f (x)=0}

f (x) log g(x)(dx) = 0 pour toute fonction g.

(4.22)

104

M
ethodes destimation en densit
e

Le maximum de vraisemblance est un M -estimateur

Replacons-nous dans le contexte de la Section 4.3.2. Posons
(a, x) = log f (a, x), a , x R .
Alors lestimateur du maximum de vraisemblance bnmv , sil existe, satisfait
bnmv arg max
a

n
X

(a, Xi )

i=1

et peut sinterpreter comme le M -estimateur associe `a la fonction . En effet, dapr`es le

Lemme 4.4.1, la valeur a = maximise
Z
Z
a;
(a, x) P (dx) =
log f (a, x)f (, x)(dx).
R

Ceci justifie a posteriori le principe du maximum de vraisemblance. Nous verrons au

Chapitre 6 quil y a beaucoup plus encore : le contraste (a, x) = log f (, x) est optimal
dans un certain sens.
Si pour tout la fonction ; log f (, x) est differentiable -presque partout,
alors on a aussi linterpretation du maximum de vraisemblance comme Z-estimateur
associe `
a la fonction
(, x) = log f (, x) =

f (, x)
, , x R
f (, x)

lorsque R, avec une generalisation immediate en dimension plus grande que 1.

En particulier, le comportement asymptotique de lestimateur du maximum de vraisemblance peut se deduire des Propositions 4.5 ou 4.6 si lon dispose de conditions de
regularite suffisantes. Nous reviendrons plus specifiquement sur la convergence de lestimateur du maximum de vraisemblance dans le Chapitre 6.

Chapitre 5

M
ethodes destimation pour le
mod`
ele de r
egression
5.1

Mod`
eles de r
egression

Dej`a rencontre dans les exemples 2, 4 et 6 du Chapitre 2, la regression tout comme

lechantillonnage est incontournable en statistique. Presque tous les modèles utilises
dans les applications peuvent se ramener à des generalisations plus ou moins sophistiquees
de la regression. Dans ce chapitre, nous presentons brièvement les resultats essentiels de
lestimation parametrique et en particulier, la methode des moindres carres.

5.1.1

Mod`
ele de r
egression `
a

design al
eatoire

On part de lexperience statistique engendree par lobservation

(X 1 , Y1 ), . . . , (X n , Yn )
o`
u
Yi = r(, X i ) + i ,

(5.1)

pour i = 1, . . . , n. Les variables aleatoires (X i , Yi ) sont independantes, de meme loi, `a

valeurs dans Rk R, et Rd est le paramètre inconnu.
D
efinition 5.1. Le vecteur X i est appele vecteur de covariables
(ou de variables expli
catives 1 ) associe `
a lobservation Yi . La matrice X 1 X n est appelee design ou
plan dexperience associe au modèle.
1. Lemploi de termes differents et non synonymes pour designer les meme objets provient des utilisations très differentes du modèle de regression dans les applications (econometrie, signal, biostatistique,
etc.).

106

M
ethodes destimation en r
egression

La fonction x ; r(, x), connue au param`etre pr`es, est appelee fonction de

regression.
Les variables aleatoires i sont appelees

bruits ou innovations.

On note P = P (dx dy) la loi jointe des (X i , Yi ) definie sur Rk R et le but est
dinferer sur le param`etre . Lexperience statistique associee `a lobservation secrit :

n

n
(k+1)n
(k+1)n
Edesign-al
=
R
,
B
,
P
,

o`
u Pn designe le produit des lois P effectue n-fois. Notons que puisque les (X i , Yi ) sont
independantes et equidistribuees, les i le sont aussi.
Remarque 5.1. Les variables i polluent lobservation de la fonction dinteret r(, )
aux points (X i , Yi ). En labsence des i reconstruire r(, ) et donc se ram`enerait `
a un
probl`eme dinterpolation numerique.
Hypoth`
ese 5.1 (Identifiabilite, design aleatoire ). Lapplication ; r(, ) est
injective. De plus, la loi des i admet un moment dordre 1 et les variables i verifient

E i | X i = 0.

(5.2)

Remarque 5.2. LHypoth`ese 5.1 garantit une bonne parametrisation de la fonction de

regression r(, ). Sans (5.2), on pourrait ecrire
Yi = r(, X i ) + g(, X i ) + ei ,

avec g(, X i ) = E i | X i et ei = i E i | X i qui verifie bien E ei | X i = 0
et g 6= 0, ce qui empeche de pouvoir identifier la fonction r(, ), meme lorsquelle est
reduite `
a une constante.
Remarque 5.3. Une mani`ere naturelle dobtenir la representation (5.1) si la loi des Yi
admet un moment dordre 1 est de definir, pour chaque , la fonction de regression
r(, ) : Rk R
en posant

r(, x) = E Yi | X i = x , x Rk .
Alors, on a

Yi = r(, X i ) + i , avec i = Yi E Yi | X i
et on verifie immediatement que lon a bien lHypoth`ese 5.2.

5.1 Mod`
eles de r
egression

5.1.2

107

R
eduction au cas dun

design d
eterministe

Nous avons dej`

a discute du caractère aleatoire du design , selon que le statisticien
choisit ou non le plan dexperience ou le design . Nous allons faire dans ce cours
une hypothèse qui va nous permettre de nous ramener systematiquement au cas o`
u le
design est d
eterministe.
Hypoth`
ese 5.2 (Ancillarite des covariables). La loi PX des covariables ne depend pas
de .
Sous lHypothèse 5.2, la loi des covariables X i ne contient pas dinformation sur le
paramètre . On gèle les X i dont le caractère aleatoire est ignore.
Mathematiquement, cela consiste à etudier les proprietes statistiques des estimateurs
conditionnellement aux X i , et donc, de remplacer formellement les (X i , Yi ) par (xi , Yi )
o`
u les xi sont donnees, sans perdre de generalite.
On remplace desormais le modèle de regression à design aleatoire de la Section
5.1.1 par le modèle de regression à design deterministe : on observe lexperience
engendree par
(x1 , Y1 ), . . . , (xn , Yn ),
o`
u
Yi = r(, xi ) + i

(5.3)

pour i = 1, . . . , n. Les vecteurs xi Rk sont donnes, et les variables Yi sont independantes

mais pas identiquement distribuees : la loi de Yi depend maintenant de xi qui est fixe et
les i sont des bruits. Lexperience statistique secrit ici
n
Edesign-d
eter =

Rn , B n , Pn , ,

o`
u Pn est la loi des Yi donnees par (5.3). Lhypoth`ese didentifiabilite devient
Hypoth`
ese 5.3 (Identifiabilite, design deterministe ). Lapplication ; r(, )
est injective. De plus, pour tout i = 1, . . . , n, les variables aleatoires i sont integrables et

En i = 0.

5.1.3

Calcul de la vraisemblance

On se place dans toute la suite du chapitre dans le mod`ele de regression `a

n
sign deterministe, cest-`
a-dire nous considerons lexperience Edesign-d
eter .

de-

108

M
ethodes destimation en r
egression

Calcul de la loi de Yi
Nous faisons ici une hypothèse technique :
Hypoth`
ese 5.4. Les bruits i sont independants, identiquement distribues, et leur
loi commune P ne depend pas des xi et du paramètre .
Cette hypothèse est un peu superflue et nous nous en affranchirons dans certains
exemples. Elle a neanmoins lavantage de presenter des formules de calcul très simples.
Proposition 5.1 (Loi des observations). Sous les Hypothèses 5.3 et 5.4, on a, pour toute
fonction test , et pour i = 1, . . . , n
Z

E (Yi ) =
z + r(, xi ) P (dz).
R

Si, de plus, la loi P des bruits admet une densite z ; g(z) par rapport a
` la
mesure de Lebesgue, on a, pour i = 1, . . . , n
Z

E (Yi ) =
(z)g z r(, xi ) dz.
R

En particulier, Yi admet une densite donnee par z ; g z r(, xi ) .
Demonstration. Les deux points de la proposition sont evidents : on a

E (Yi ) = E r(, xi ) + i
Z

=
z + r(, xi ) P (dz),
R

en appliquant la formule de la mesure image (1.1). Si, de plus, P admet une densite g,
cette derni`ere quantite secrit
Z
Z

z + r(, xi ) g(z)dz =
(z)g z r(, xi ) dz.
R

Remarque 5.4. LHypoth`ese 5.4 est superflue. Dans le cas general, si on note P,xi
la loi de , dependante de xi et , et si cette loi admet une densite z ; g(, xi , z) par
rapport `
a la mesure de Lebesgue, alors Yi aussi et sa densite est donnee par :

z ; g , xi , z r(, xi )

5.2 R
egression lin
eaire simple

109

Formule de vraisemblance
Les variables Yi etant independantes le calcul de leur loi jointe est immediat.
Proposition 5.2. Sous les Hypoth`eses 5.3, et 5.4, si la loi P des bruits admet une
densite z ; g(z) par rapport `
a la mesure de Lebesgue sur R, alors la loi de (Y1 , . . . , Yn )
admet une densite par rapport `
a la mesure de Lebesgue sur Rn donnee par
(z1 , . . . , zn ) ;

n
Y

g zi r(, xi ) .

i=1

Demonstration. Par construction,

les variables aleatoires Y1 , . . . , Yn sont independantes,
de densite zi ; g zi r(, xi ) par rapport `a la mesure de Lebesgue.
On en deduit que si P admet une densite par rapport `a la mesure de Lebesgue, alors
n
ee par la mesure de Lebesgue dz1 dzn
lexperience statistique Edesign-d
eter est domin
sur Rn , et on a
n
Y

d Pn
(z1 , . . . , zn ) =
g zi r(, xi ) .
dz1 dzn
i=1

Corollaire 5.1 (formule de vraisemblance). Sous les Hypoth`eses 5.3, et 5.4, si la loi P
des bruits admet une densite z ; g(z) par rapport `
a la mesure de Lebesgue sur R,
alors la vraisemblance par rapport `
a la mesure de Lebesgue sur Rn est donnee par
n
Y

Ln , Y1 , . . . , Yn =
g Yi r(, xi ) .
i=1

5.2
`a

R
egression lin
eaire simple

Pour les raisons invoquees plus haut, on se place desormais dans le mod`ele de regression
design deterministe.

5.2.1

Droite de r
egression

D
efinition 5.2. On appelle mod`ele lineaire simple lexperience statistique engendree par
les variables aleatoires Yi `
a valeurs dans R (et par le design (x1 , . . . , xn )), o`
u
Yi = 0 + 1 xi + i , i = 1, . . . , n
et
Le param`etre inconnu est = (0 , 1 )T = R2 .

110
Les

M
ethodes destimation en r
egression

bruits i satisfont

E i = 0, Var i2 = 2 > 0.

Dans ce contexte, lHypoth`ese 5.3 est automatiquement verifiee. La variance 2 des

bruits peut elle-m
eme etre inconnue et etre consideree comme un paramètre du
modèle. On parle de modèle de regression simple à variance connue ou inconnue. Les
paramètres 0 et 1 sappellent respectivement ordonnee à lorigine et coefficient
directeur de la droite dequation
y = r(, x) = 0 + 1 x.
Si bn est un estimateur de , on note x ; r(bn , x) lestimateur de la fonction de regression
(ici, une droite) associee au modèle lineaire simple.
D
efinition 5.3. Si bn est un estimateur de dans le modèle lineaire simple, on appelle
b
Yi = r(bn , xi ) la valeur de Yi predite par lestimateur et bi = Yi Ybi son residu. On
appelle
n
n
X
X
b2=
kk
bi2 =
(Ybi Yi )2
i=1

i=1

la somme residuelle des carres (RSS, Residual Sum of Squares)

La somme residuelle des carres mesure lerreur (au sens de la norme euclidienne) entre
les observations Yi et les observations predites par lestimateur r(bn , xi ).
D
efinition 5.4. Lestimateur des moindres carres dans le mod`ele lineaire simple (`
a
variance connue) est lestimateur bnmc qui minimise la somme residuelle des carres :
n
X

n
X
2
2
mc
b
Yi r(n , xi ) = min
Yi r(, xi ) ,
R2

i=1

o`
u linfimum est pris sur lensemble des estimateurs possibles de construits `
a partir des
observations Yi , i = 1, . . . , n.

mc ,
b mc T , avec
Proposition 5.3. On a bnmc = bn,0
n,1
mc
mc
bn,0
= Y n bn,1
xn ,

et
mc
bn,1

=
=

o`
u xn =

1
n

i=1 xi

(x xn )(Yi Y n )
i=1
Pni
(xi xn )2
Pn i=1
Pn
xi (Yi Y n )
(xi xn )Yi
i=1
Pn
= Pi=1
,
n
2
2
i=1 (xi xn )
i=1 (xi xn )

et Y n =

1
n

i=1 Yi .

5.2 R
egression lin
eaire simple

111

Demonstration. En anticipant, on peut appliquer la Proposition 5.6 ou bien retrouver

directement le resultat : on cherche les points critiques de la fonction
(0 , 1 ) ; Ln (0 , 1 ) =

n
X

2
Yi 0 1 xi .

i=1

On a

P
0 Ln (0 , 1 ) = 2 Pni=1 (Yi 0 1 xi )
1 Ln (0 , 1 ) = 2 ni=1 xi (Yi 0 1 xi ),

et donc Ln (0 , 1 ) = 0 si et seulement si
Pn
P
Pi=1 Yi + n0 +
1 ni=1 xi P
= 0
P
ni=1 xi Yi + 0 ni=1 xi + 1 ni=1 x2i = 0,

mc ,
b mc par substitution.
ce qui fournit 0 = Y n 1 xn en isolant 0 , puis (0 , 1 ) = bn,0
n,1
La fonction Ln est quadratique et tend vers + en linfini, lunique point critique est
bien un minimum global.

Cette preuve elementaire saffranchit dhypoth`eses probabilistes sur le mod`ele : le

resultat de la Propostion 5.3 ne necessite aucune propriete sur les i . Lestimation de 2
est en revanche plus subtile. On peut penser `a prendre la moyenne empirique du carre
des residus
n
n
2
1 X b2
1X

bn2 =
n =
Yi r(bnmc , xi ) ,
n
n
i=1

i=1

mais les variables aleatoires bn2 ne sont pas independantes, puisque bnmc fait intervenir
toutes les variables Yi .
Le resultat suivant donne le comportement de la moyenne et de la variance de b mc .
n

Proposition 5.4. Dans le mod`ele de regression lineaire simple, lestimateur des moindres
carres bnmc verifie

T
E bnmc = 0 , 1 ,
et la matrice de variance-covariance de bnmc est donnee par

n
1X 2
xi xn
mc
mc

2
n i=1

mc
T
b
b
b
n
= E (n )(n ) = 2
,
nsn

xn
1
o`
u

s2n

1X
=
(xi xn )2 .
n
i=1

112

M
ethodes destimation en r
egression

Demonstration. Comme pour la preuve de la Proposition 5.3 on peut appliquer en anticipant la Proposition 5.8 ou bien demontrer le resultat directement.
Remarque 5.5. Sans hypoth`ese supplementaire sur la loi des innovations, il est difficile
de preciser ces resultats.

5.2.2

Moindres carr
es et maximum de vraisemblance

Nous allons faire une hypoth`ese supplementaire sur la distribution des

qui nous permettra de construire un estimateur de 2 .
Hypoth`
ese 5.5. Les

bruits i

bruits i sont independants, de meme loi N (0, 2 ).

Sous cette hypothèse forte qui renforce lHypothèse 5.4, lestimateur du maximum de
vraisemblance fournit un estimateur du paramètre (0 , 1 , 2 ) dont les deux premières
composantes concident avec lestimateur des moindres carres de la Proposition 5.3.
Proposition 5.5. Sous lHypothèse 5.5, lestimateur du maximum de vraisemblance
mv b mv
bnmv = bn,0
, n,1 ,
bn2

est bien defini. On a

mv b mv
mc b mc
bn,0
, n,1 = bn,0
, n,1 ,
et

bn2 =

1 X b 2
i , o`
u bi = Yi r(bnmc , xi ).
n
i=1

Demonstration. Dapr`es le Corollaire 5.1, si g (x) = (2 2 )1/2 exp(x2 /2 2 ) designe la

densite de la loi N (0, 2 ), la vraisemblance de lexperience statistique est donnee par
n
Y

Ln 0 , 1 , 2 , Y1 , . . . , Yn =
g Yi r(, xi ) ,
i=1

et la log-vraisemblance vaut alors

n
1 X
n
(Yi 0 1 xi )2 .
`n (0 , 1 , 2 , Y1 , . . . , Yn ) = log 2 2
2
2
i=1

On a
2 `n (0 , 1 , 2 , Y1 , . . . , Yn ) =

n
n
1 X
+
(Yi 0 1 xi )2
2 2 2 4
i=1

5.3 R
egression lin
eaire multiple

113

et ce terme est nul si et seulement si

2 =

1X
(Yi 0 1 xi )2 .
n
i=1

Par ailleurs, le calcul de 0 `n (0 , 1 , 2 , Y1 , . . . , Yn ) et 1 `n (0 , 1 , 2 , Y1 , . . . , Yn ) m`ene

à une constante multiplicative près à celui des fonctions i Ln (0 , 1 , Y1 , . . . , Yn ), pour
i = 0, 1 de la preuve de la Proposition 5.3. On en deduit le point annonce bnmv comme
lunique point critique de la fonction de vraisemblance, et on verifie que cest bien un
maximum global.

5.3
5.3.1

R
egression lin
eaire multiple
Mod`
ele lin
eaire

On generalise le mod`ele de regression lineaire simple en autorisant des points de

design vectoriels. On consid`ere lexperience statistique engendree par lobservation
de
(x1 , Y1 ), . . . , (xn , Yn )

avec
Yi = T xi +i , i = 1, . . . , n

(5.4)

o`
u les Yi sont `
a valeurs dans R, les variables explicatives xi sont à valeurs dans Rk ,
et le paramètre = Rd est k-dimensionnel, cest-à-dire d = k. Matriciellement, si
lon designe par M la matrice dont les colonnes sont les composantes des vecteurs xi ,
cest-à-dire, si lon note xi = (xi,1 , . . . , xi,k )T ,

x1,1 x1,2 . . . x1,k

xi,1 xi,2 . . . xi,k

xn,1 xn,2 . . . xn,k

et la representation (5.4) secrit de la meme mani`ere

Y = M + ,

(5.5)

o`
u Y = (Y1 , . . . , Yn )T et = (1 , . . . , n )T . Comme pour le mod`ele de regression lineaire
simple, nous faisons une hypoth`ese sur le bruit :

E = 0, E T = 2 Idn .

(5.6)

114

5.3.2

M
ethodes destimation en r
egression

Estimateur des moindres carr

Dans ce contexte, on cherche lestimateur des moindres carres pour , cest-`

a-dire
lestimateur bnmc qui minimise la somme du carre des residus :
n
X

Yi (bnmc )T xi

= min

n
X

i=1

Yi T xi

i=1

Il existe toujours une solution `a ce probl`eme de minimisation mais elle nest pas necessairement
unique.
D
efinition 5.5. On appelle estimateur des moindres carres tout estimateur bnmc satisfaisant
n
X
2
bnmc arg min
Yi T xi .
Rk

i=1

Une condition suffisante dunicite de lestimateur des moindres carres est la suivante :
Proposition 5.6. On suppose la matrice MT M inversible. Alors lestimateur des moindres
carres est unique et secrit
1 T
bnmc = MT M
M Y.
Nous donnons deux preuves et deux interpretations de ce resultat :
M
ethode analytique
Demonstration. Le point bnmc est necessairement un point critique de lapplication
; h() =

n
X

Yi T xi

i=1

cest-`
a-dire il est solution du syst`eme de k equations

j h bnmc = 0,

j = 1, . . . , k,

ce qui secrit
2

n
X

xi Yi bnmc

xi = 0

i=1

ou encore, sous forme matricielle :

MT M bnmc = MT Y.

(5.7)

5.3 R
egression lin
eaire multiple

115

Lequation (5.7) est un système de k equations qui a une solution unique dès lors que
MT M est inversible, donnee par
1 T
bnmc = MT M
M Y.
La fonction ; h() est convexe et positive, donc la solution bnmc est un minimum
global.
D
efinition 5.6. Lequation (5.7) est appelee système dequations normales pour la methode
des moindres carres.
Proposition 5.7. La matrice MT M est (symetrique) positive. Elle est definie positive
si et seulement si rang(M) = k.
Demonstration. On a, pour v Rk

v T MT M v = w T w 0
o`
u lon a pose implicitement w = M v. Le cas degalite est verifie si et seulement si
w = 0, cest-`
a-dire, M v = 0. Si rang(M) < k, alors il existe v 6= 0 tel que M v = 0 et
dans ce cas, MT M nest pas strictement positive. Reciproquement,
si MT M nest pas

strictement positive, alors il existe v 6= 0 tel que v T MT M v = 0, et donc M v = 0 do`
u
rang(M) < k.
Remarque 5.6. En consequence, si la taille de lechantillon est plus petite que la
dimension du paramètre , cest-`
a-dire si n < k, la matrice MT M est degeneree.
M
ethode g
eom
etrique
Deuxième demonstration de la Proposition 5.6. Soit V limage de Rn par lapplication
lineaire de Rn dans Rk de matrice M, cest-à-dire

V = v Rn , v = M , Rk .
Alors, pour tout y Rn ,
min ky M k2 = min ky vk2 ,

o`
u kvk2 = v T v designe le carre de la norme euclidienne. Notons que M est de rang k si
et seulement si la dimension de V est k. Dapr`es la Proposition 5.7, puisque MT M est
supposee inversible, on a bien dim V = k. Alors, si PV designe la matrice du projecteur
orthogonal sur V dans Rn , on a rang(PV ) = k et lestimateur des moindres carres verifie
M bnmc = PV Y,

(5.8)

116

M
ethodes destimation en r
egression

ce qui se traduit par

hY PV Y, vi = 0, pour tout v V,
n

o`
u, pour u, v R , on note hu, vi = uT v le produit scalaire euclidien. En appliquant
(5.8), lequation precedente secrit encore pour tout v V
hM bnmc , vi = hY, vi,
cest-`
a-dire, pour tout Rk
hM bnmc , M i = hY, M i,
soit, pour tout Rk

hMT M bnmc , i = hMT Y, i.

1 T
M Y.
Puisque MT M est inversible, on en deduit bnmc = MT M
Remarque 5.7. A ce stade de letude, comme pour le cas de la regression lineaire
simple, on na pas besoin de faire dhypoth`ese probabiliste sur le mod`ele. La methode des
moindres carres depasse le cadre de lestimation statistique et apparat plus generalement
comme une methode de regularisation en analyse numerique.

5.3.3

Propri
et
es de la m
ethode des moindres carr
es

Proposition 5.8. Supposons la matrice MT M inversible, et que le

On a

E bnmc = ,

satisfait (5.6).

et la matrice de variance-covariance de bnmc est donnee par

1
bnmc = E (bnmc )(bnmc )T = 2 MT M
.
Demonstration. On a
1 T
1 T

1 T
bnmc = MT M
M Y = MT M
M M + = + MT M
M ,

do`
u la premi`ere partie de la proposition, puisque E = 0. Puis,

E (bnmc )(bnmc )T

1 T
1
M T M MT M
= E MT M
1 T

1
= MT M
M E T M MT M
.
T
Puisque E = 2 Idn , le dernier terme devient
1
1
1 T 2
M M MT M
= 2 MT M
.
MT M

5.3 R
egression lin
eaire multiple

117

Proposition 5.9 (Estimation de la variance 2 ). On suppose la matrice MT M inversible,

et que le bruit satisfait (5.6). Alors lestimateur

bn2

n
T 2
kY M bnmc k2
1 X
=
=
Yi bnmc xi
nk
nk
i=1

verifie
2
E
bn = 2 .
Demonstration. On a la decomposition
Y M bnmc = M( bnmc ) +
1 T
= M MT M
M +
= (In PV ),
o`
u V Rn est limage de Rk par lapplication lineaire de matrice M comme precedemment.
Par consequent

T

E kY M bnmc k2 = E T In PV
In PV

2
= E T In PV

= E T In PV ,
o`
u lon utilise le fait que la matrice In PV est symetrique et idempotente. Il vient

E T In PV = E trace T In PV

= E trace In PV T

= trace In PV E T
= 2 (n k).

5.3.4

R
egression lin
eaire multiple gaussienne

Loi des estimateurs

On fait lhypothèse supplementaire que est un vecteur gaussien, dont les composantes sont independantes, ce qui revient exactement à lHypothèse 5.5. On a alors la loi
explicite de lestimateur des moindres carres.
Proposition 5.10. On se place sous lHypothèse 5.5 et on suppose que la matrice MT M
inversible.

118

M
ethodes destimation en r
egression

(i) lestimateur des moindres carres bnmc est un vecteur gaussien k-dimensionnel de
1
moyenne et de matrice de variance-covariance 2 MT M
,
(ii) les vecteurs aleatoires bnmc et Y M bnmc sont independants (et de meme, les
vecteurs aleatoires M(bnmc ) et Y M bnmc sont independants),
(iii) la variable aleatoire 2 kY M bnmc k2 suit la loi 2 (n k) du 2 `
a n k degres
de liberte, et 2 k M(b mc )k2 suit la loi 2 (k) du 2 `
a k degres de liberte.
n

Demonstration. On ecrit, comme pour la preuve de la Proposition 5.8

1 T
bnmc = + MT M
M ,
et on en deduit immediatement le point (i) : bnmc est un vecteur gaussien comme transformation affine de qui est un vecteur gaussien ; la moyenne de bnmc est et sa matrice
1
de variance-covariance 2 MT M
dapr`es la Proposition 5.8.
On a aussi
Y M bnmc = (Idn PV )
avec les notations de la preuve de la Proposition 5.9. Donc (bnmc , YM bnmc ) est un vecteur
gaussien de Rk+n comme transformation affine du vecteur gaussien . Pour montrer
lindependance dans (ii), on applique la Proposition 1.6. Il vient

bnmc , Y M bnmc = E (bnmc )(Y M bnmc )T

= E (MT M)1 MT T (Idn PV )
= 0,

1 T
car PV secrit PV = M MT M
M . Donc bnmc et Y M bnmc sont independants, et
par suite M(bnmc ) et Y M bnmc sont independants.
Le point (iii) est une application de la Proposition 1.1 (Cochran) : le vecteur 0 = 1
est gaussien de matrice de variance-covariance lidentite sur Rn . De plus
Y M bnmc = (Idn PV ) 0 ,

M(bnmc ) = PV 0

et les matrices PV et Idn PV sont idempotentes, voir la preuve de la Proposition 5.8,

et on a (Idn PV )PV = 0, avec Rang(PV ) = k et Rang(Idn PV ) = n k.
Remarque sur la loi des estimateurs et lapproche asymptotique
Dans le cas o`
u est un vecteur gaussien, les lois de bnmc et
bn2 sont explicites, `
a n fixe.
Il sagit dun resultat exact sur les lois des estimateurs dans un cadre non-asymptotique 2 .
2. On dit parfois

a
` distance finie .

5.4 R
egression non-lin
eaire

119

Ceci nest plus vrai si la loi des innovations nest pas gaussienne. Dans ce cas, on essaye
de se ramener au cas gaussien par des arguments asymptotiques.
Par exemple, dans le cas le plus simple o`
u lon observe
Yi = + i , i = 1, . . . , m
o`
u les innovations i sont independantes, identiquement distribuees mais pas necessairement
gaussiennes de moyenne 0 et de variance 2 > 0 et = R. Alors, on observe aussi

Y m = + e(m) ,
m
o`
u e(m) =

1
m

i=1 i

est une variable asymptotiquement gaussienne par le theor`eme

d
central limite, dans le sens o`
u e(m) N (0, 1) dans la limite m . On est donc ramene
au cas de la regression gaussienne, mais dans un cadre degenere : ici, on a k = d = 1,
2
M = 1 et 2 = m et n = 1 (une seule observation). Le cas dune dimension plus
grande et dun design non-degenere est plus delicat à traiter : on peut chercher à
regrouper les observations en faisant des moyennes, de sorte de se ramener au cas
gaussien via le theorème central-limite. Nous ne developpons pas ce point.

En conclusion, lobtention de lois explicites pour lestimateur des moindres carres dans
un cadre non-asymptotique est un fait remarquable, mais `a considerer avec precaution
du point de vue de la modelisation : lhypoth`ese de gaussianite sur les innovations est en
fait elle-meme de nature asymptotique.

5.4
5.4.1

R
egression non-lin
eaire
Moindres carr
es non-lin
eaires et M -estimation

Situation
On se place dans le contexte general de la Section 5.1.2. On fait lHypoth`ese 5.3 et
on observe
(x1 , Y1 , . . . , xn , Yn ),
o`
u
Yi = r(, xi ) + i , i = 1, . . . , n,

(5.9)

o`
u les xi Rk sont donnes et Rd est le param`etre inconnu. Contrairement `a la
section precedente, on ne suppose plus r(, ) lineaire, et il ny a donc plus de raison de
supposer d = k.

120

M
ethodes destimation en r
egression

Vraisemblance et moindres carr

es
Imposons pour simplifier lhypoth`ese de gaussianite 5.5 sur les innovations i , qui sont
donc independantes, de meme loi N (0, 2 ). Dans ce cas, la log-vraisemblance secrit
n
2
n
1 X
`n (, Y1 , . . . , Yn ) = log(2 2 ) 2
Yi r(, xi ) .
2
2
i=1

Le calcul de lestimateur du maximum de vraisemblance bnmv de consiste `a minimiser

la fonction
X
2
;
Yi r(, xi ) .
i=1

Dans le cas du modèle lineaire de la Section 5.2, si lon postule la forme r(, x) = T x
avec d = k, on retrouve aussi lestimateur des moindres carres. De manière generale, sans
hypothèse particulière sur les innovations , on peut poser la definition
D
efinition 5.7 (Estimateur des moindres carres non-lineaires). Etant donne le modèle
de regression non-lineaire (5.9), on appelle estimateur des moindres carres non-lineaires,
sil existe, tout estimateur bnmcnl satisfaisant
n
X

n
X
2
2
Yi r(bnmcnl , xi ) = inf
Yi r(, xi ) .

i=1

Cette definition se generalise tr`es naturellement `a une notion de M -estimateur de la

facon suivante. On se donne une application
: Rk R R
jouant le meme r
ole que lapplication (, ) de la Section 4.3 du Chapitre 4 pour lestimation dans le modèle de densite, à ceci près quon lautorise desormais à dependre de
xi .
D
efinition 5.8. On appelle M -estimateur associe `
a la fonction de contraste tout esb
timateur n satisfaisant
n
X
i=1

(bn , xi , Yi ) = max

n
X

(, xi , Yi ).

i=1

Dans ce contexte, lestimateur des moindres carres non-lineaires apparat comme le

M -estimateur associe `
a la fonction de contraste
2
a ; (a, x, y) = y r(a, x) , a .
Une etude systematique des proprietes asymptotiques des M -estimateurs pour le modèle
de la regression se fait essentiellement de la meme manière que pour le modèle de densite
du Chapitre 4, mais les aspects techniques sont plus developpes. Nous developpons sans
entrer dans les details quelques exemples.

5.4 R
egression non-lin
eaire

5.4.2

121

Reconstruction dun signal

echantillonn
e

On consid`ere lexperience statistique engendree par

Yi = r(, i/n) + i ,

i = 1, . . . , n

o`
u les i = i sont independants et identiquement distribues, centres et E 2i = 1. La
fonction r(, ) est connue
au paramètre Rd près. Ici, le design est donc

1/n, . . . , (n 1)/n, 1 .
On suppose que la fonction (, x) ; r(, x) est regulière. En particulier, x ; r(, x)
est au moins continue. Lestimateur des moindres carres non-lineaires, sil est bien defini,
verifie
n
X
2
bnmcnl = arg min
Yi r(, i/n) .

i=1

Indiquons bri`evement comment generaliser les resultats de la Section 4.3.3 sans faire
dhypoth`eses precises.
Consistance
Posons, pour a R (traitons le cas unidimensionnel pour simplifier),
n

2
1X
Yi r(a, i/n) .
Mn (a) =
n
i=1

On ecrit
n
2
1X
Mn (a) =
i + r(, i/n) r(a, i/n)
n
i=1

n
n
n
2 2 X

1X
2 X
r(, i/n) r(a, i/n) +
2i
r(, i/n) r(a, i/n) i ,
=
n
n
n
i=1

i=1

o`
u la loi des i sous P est centree et reduite. Par continuite de x ; r(, x), on a la
convergence
n

2
1X
r(, i/n) r(a, i/n)
n
i=1

2
r(, x) r(a, x) dx.

Par la loi des grands nombres, on a

n
2 X 2 P 2
i ,
n
i=1

122

M
ethodes destimation en r
egression

et, par un simple calcul de variance,

n
P
2 X
r(, i/n) r(a, i/n) i
0.
n
i=1

Donc
P

Mn (a)
M (a, ) =

2
r(, x) r(a, x) dx + 2 .

La suite de letude consiste `a faire des hypoth`eses didentifiabilite adequates sur la fonction (, x) ; r(, x), de sorte que a ; M (a, ) admette un minimum unique en a = ,
et on peut alors generaliser la Proposition 4.3, mais une telle etude depasse un peu le
cadre du cours.

Loi limite et normalit

e asymptotique
Avec suffisamment de regularite, on peut faire un developpement de Mn0 (a) au voisinage de bnmc . On a
Mn0 (bnmcnl ) = 0 Mn0 () + ( bnmcnl )Mn00 (),
do`
u

nMn0 ()
mcnl
b
n(n )
.
Mn00 ()

On a

nMn0 ()

2 X
=
Yi r(, i/n) r(, i/n)
n
i=1

n
2 X
i r(, i/n),
=
n
i=1

do`
u
E

nMn0 () = 0,

et
n

4 2 X
E nMn0 ()2 =
r(, i/n)2 2i
n
i=1
Z 1
4 2
r(, x)2 dx.
0

(5.10)

5.4 R
egression non-lin
eaire

123

1/2 (n)

d
En re-ecrivant nMn0 () = E nMn0 ()2
, on peut montrer 3 que (n) N (0, 1)
en loi sous P . On a aussi
n

2X
r(, i/n)2 + i 2 r(, i/n)
n
i=1
Z 1
P
2
r(, x)2 dx.

Mn00 () =

On en deduit, avec suffisamment de regularite et en controlant le reste dans lapproximation (5.10),

2
n bnmcnl N 0, R 1
.
2
0 r(, x) dx

5.4.3

Mod`
ele de Poisson conditionnel

On observe
(x1 , Y1 ), . . . , (xn , Yn )
o`
u les xi Rk sont donnes et les Yi à valeurs entières. On suppose que Yi suit la loi de
Poisson de paramètre

i () = exp xTi , i = 1, . . . , n
o`
u = Rk est le paramètre inconnu.
Si lon considère le modèle de regression à design aleatoire associe, alors on observe
un n-echantillon
(X 1 , Y1 ), . . . , (X n , Yn )
o`
u les (X i , Yi ) ont la meme loi que (X, Y ) Rk R. La loi de (X, Y ) est decrite de la
4 `
facon suivante : conditionnellement
a X = x, la variable Y suit une loi de Poisson de

T
paramètre exp x . Puis, on doit specifier 5 la loi de X. En ecrivant

Yi = exp xTi + Yi exp xTi ,
on obtient bien la representation Yi = r(, xi ) + i , avec

r(, xi ) = exp xTi
et

i = Yi exp xTi .
3. Il faut disposer dun theorème central-limite pour des variables aleatoires independantes nonequidistribuees.
4. Do`
u la terminologie de modèle de Poisson conditionnel.
5. Ce que nous ne ferons jamais ; nous supposerons simplement que la loi de X ne depend pas de .

124

M
ethodes destimation en r
egression

On a bien E i = 0 en utilisant que lesperance dune variable aleatoire de Poisson de
param`etre est egale `
a . La vraisemblance du mod`ele secrit
Ln (, Y1 , . . . , Yn ) =

n
Y

ei ()

i=1

do`
u
log Ln (, Y1 , . . . , Yn ) =

n
X

i ()Yi
Yi !

n
n
X
X
exp xTi +
Yi xTi
log(Yi !),

i=1

et les equations de vraisemblance secrivent

n
X

n
X
xij exp xTi +
Yi xij = 0,

i=1

5.4.4

j = 1, . . . , k.

i=1

Mod`
eles `
a r
eponse binaire

Contexte g
en
eral
Très utilises en pratique, les modèles binaires correspondent à lobservation de
(x1 , Y1 ), . . . , (xn , Yn )
o`
u xi Rk est un ensemble de caracteristiques de lindividu i qui est de type Yi {0, 1}.
Par souci dhomogeneite avec la litterature, on se place sans perdre de generalite
dans le modèle `
a design aleatoire correspondant, cest-à-dire que lon considère les
xi comme des realisations de variables aleatoires X i . En ecrivant

Yi = pxi () + Yi pxi () ,
avec

pxi () = E Yi | X i = xi = P Yi = 1 | X i = xi ,
on obtient la representation
Yi = r(, xi ) + i ,
avec
r(, xi ) = pxi ()
et
i = Yi pxi (),

et on a bien E i | X i = xi = 0.

5.4 R
egression non-lin
eaire

125

R
egression logistique
La regression logistique correspond `a la modelisation

exp xTi
= xTi ,
pxi () =
T
1 + exp xi
o`
u (x) = ex /(1 + ex ) est la fonction logistique.
En particulier, on peut expliciter la vraisemblance du mod`ele
Ln (, Y1 , . . . , Yn ) =

n
Y

pxi ()Yi 1 pxi ()

1Yi

i=1

que lon peut maximiser numeriquement.

Une representation equivalente est celle des mod`eles dits latents, o`
u lon observe
, Y ? = xT + Ui ,
i
i

Yi = 1

Yi? >0

(5.11)

o`
u les Yi sont des variables latentes, cest-`a-dire que lon nobserve pas, et Ui est une
variable ayant pour fonction de repartition
F (x) =

1
.
1 + ex

En effet,

P Yi? > 0 | X i = xi = P xTi + Ui > 0 | X i = xi

= 1 P Ui xTi

= 1 F xTi

exp xTi
.
=
1 + exp xTi
Mod`
eles Probit
Le mod`ele probit est proche de la regression logistique. Il sagit simplement de remplacer dans la representation (5.11) la variable Ui qui a pour fonction de repartition
F (x) = 1/(1 + ex ) par une variable aleatoire Ui gaussienne, centree.
Loi logistique et

odd-ratios

La loi logistique de fonction de repartition F (x) = 1/(1 + ex ) poss`ede des queues

de distribution plus epaisses que la loi gaussienne, et sa fonction de repartition est plus
simple `a manipuler numeriquement.

126

M
ethodes destimation en r
egression

Une specificite du mod`ele logistique est linterpretation du mod`ele en terme de risque.

Imaginons que Yi = 1 signifie la presence dune maladie chez lindividu i (et Yi = 0 signifie
labsence de la maladie). Les xi sont un ensemble de facteurs (qualitatifs ou marqueurs
biologiques) susceptibles dexpliquer Yi . Le risque (odd-ratio) de lindividu i est defini
comme

P Yi = 1 | X i = xi

Ri =
P Yi = 0 | X i = xi

et Ri est proche de P Yi = 1 | X i = xi (`a lordre 1) lorsque la probabilite de presence
de la maladie est faible. Dans le cas de la regression logistique, on a

1
P Yi = 1 | X i = xi
1 + exp( xTi )

=

P Yi = 0 | X i = xi
exp xTi 1 + exp( xTi )

= exp xTi .
Si une des variables explicatives xij est qualitative, pour un j {1, . . . , k} cest-`
a-dire `
a
valeurs dans {0, 1} (par exemple, une reponse de type oui ou non `a un questionnaire
concernant le patient), on note
(j)

= (xi1 , . . . , xi,j1 , xi,j+1 , . . . , xik )T ,

cest-`
a-dire xi prive de sa j-i`eme composante. Posons

(j)
(j)
P Yi = 1 | X i
= xi , Xj = 1
Ri (Xj = 1) =

(j)
(j)
P Yi = 0 | X i
= xi , Xj = 1
et

(j)
(j)
P Yi = 1 | X i
= xi , Xj = 0
Ri (Xj = 0) =

.
(j)
(j)
P Yi = 0 | X i
= xi , Xj = 0

Alors, on a
Ri (Xj = 1)
exp j xij =
.
Ri (Xj = 0)

Cette identite peut sinterpreter de la mani`ere suivante : le coefficient exp j xij est egal
au rapport des risques correspondant `a Xj = 1 et Xj = 0. Ce rapport est independant
(j)
de la valeur de xi .

Chapitre 6

Information et th
eorie
asymptotique
6.1

Introduction

Situation
Nous nous placons dans le contexte des deux chapitres precedents : on cherche à
estimer un paramètre d -dimensionnel Rd dans les deux situations suivantes
1. Pour le modèle de la densite, on observe un n-echantillon
(X1 , . . . , Xn )
de variables
aleatoires

reelles. Les Xi suivent la loi P parmi une famille de probabilites P , donnees.
2. Pour le modèle de regression à design deterministe , on observe n vecteurs de
donnees
(x1 , Y1 ), . . . , (xn , Yn )
admettant la representation
Yi = r(, xi ) + i , i = 1, . . . , n.
La forme de la fonction de regression r(, ) est connue au paramètre près, et
les i sont des innovations ou des bruits centres sur lesquels on fait un jeu
dhypothèses.
En forcant un peu le trait, nous pouvons resumer les methodes destimation des chapitres precedents `
a la construction destimateurs bases sur la maximisation dun critère :
pour la densite,
n
X
bn arg max
(, Xi ),

i=1

128

Information statistique et th
eorie asymptotique

o`
u
:RR
est la fonction de constraste definissant lestimateur. Elle est choisie par le statisticien.
Pour la regression `
a design deterministe,
bn arg max

n
X

(, xi , Yi ),

i=1

o`
u maintenant la fonction de contraste
: Rk R R
prend aussi comme argument les valeurs des points du

design observes xi .

Loi limite dun estimateur

Sous des hypoth`eses de regularite, le comportement asymptotique de bn prend la
forme (en dimension d = 1)
d

n bn N 0, v ()

(6.1)

o`
u v () > 0 est la variance asymptotique de lestimateur, qui depend en general de
et bien s
ur du choix de la fonction de contraste .
La version multidimensionnelle de (6.1) secrit
d

n bn N 0, V ()

(6.2)

avec V () une matrice symetrique, et doit se comprendre comme la convergence du

vecteur aleatoire n bn en loi vers un vecteur gaussien de Rd , centre, de matrice

de variance covariance V () definie positive.
Un resultat de type (6.1) ou (6.2) nous apprend deux choses :
1. Le bon ordre de grandeur de lerreur bn est 1n . En effet, la convergence

vers une loi non-degeneree 1 avec la normalisation n implique que si lon choisit
une autre normalisation n , alors lerreur normalisee
n (bn )

tend vers 0 en probabilite si n / n 0 et

explose 2

si n / n .

1. Cest-`
a-dire une loi gaussienne de variance finie v () non nulle ou de matrice de variance-covariance
V () non singuli`ere.

bn )| M > 0.
2. Dans le sens suivant : M > 0, lim inf n P |n (

6.2 Comparaison destimateurs

129

2. La dispersion de lerreur normalisee dans la bonne echelle

variance v () (ou V ()).

n est gaussienne, de

Ces deux informations apparaissent `a deux niveaux compl`etement differents, mais sont
de meme importance et guideront les questions que nous aborderons dans ce chapitre :

la vitesse destimation n = n est-elle optimale ? Dans quel sens ? Quelles conditions simples sur la famille de lois {P , } garantissent cette optimalite ? Sinon,
quelles vitesses peut-on trouver en general ?
au sein dune classe destimateurs satisfaisant (6.1) (ou (6.2) dans le cas o`
u le
paramètre est multidimensionnel), comment choisir un membre optimal, et dans
quel sens ? Par exemple, comment choisir la meilleure fonction ?
Un programme ainsi enonce est trop ambitieux. Nous donnerons neanmoins des
elements de reponse `
a chacune
enoncees ci-dessus. Sous des hypothèses
des questions

de regularite sur la famille P , , on peut definir une quantite dinformation
linformation de Fisher associee à lexperience statistique. Lestimateur du maximum de vraisemblance est asymptotiquement normal de variance linverse de linformation de Fisher. Cette variance est minimale parmi la classe des Z-estimateurs (ou
M -estimateurs reguliers) et ce resultat nous fournira une notion doptimalite associee
aux modèles reguliers.
Ce nest que le premier pas vers une theorie plus generale de lestimation optimale
dans les modèles dits reguliers, qui depasse le cadre de ce cours. Pour des developpements
plus complets, on pourra consulter V. Genon-Catalot et D. Picard [2] ou van der Vaart
[10].

6.2

Comparaison destimateurs

n
1, on se donne E une suite dexperiences associee `a la famille de probabilites
nPour n
P , .

Placons-nous en dimension 1 pour simplifier. Etant donnees deux (suites d) estimateurs

bn,1 et bn,2
lequel est preferable ? Si lon dispose dun resultat asymptotique de type (6.1) de la forme

d
n bn,j N 0, vj () j = 1, 2

alors on a le developpement asymptotique

r
bn,j = +

vj ()
n,j ,
n

130

Information statistique et th
eorie asymptotique

o`
u

n,j N (0, 1).

De ce point de vue, il est preferable de choisir bn,1 `a bn,2 si
v1 () v2 ().

(6.3)

Mais cela pose deux probl`emes :

le sens de linegalite (6.3) peut varier selon la valeur de qui est inconnue.
cette representation ne se justifie que dans la limite n .

6.2.1

Risque quadratique en dimension 1

Cette approche est non-asymptotique. On suppose ici d = 1, cest-`a-dire R.

D
efinition 6.1. Le risque quadratique dun estimateur bn au point est

R(bn , ) = E (bn )2 .
Le risque quadratique mesure lerreur moyenne quadratique lorsque lon estime par
bn . Le choix de lerreur quadratique est un peu arbitraire. On pourrait tout aussi bien
considerer le risque

E | bn | ,
ou plus generalement un risque associe `a une fonction de perte (x, y) ; `(x, y) arbitraire

E `(bn , )
satisfaisant `(x, y) 0 avec egalite si et seulement si x = y. On a deja rencontre les
avantages de considerer comme mesure derreur la difference au carre au Chapitre 5,
en particulier, le fait que ; R(bn , ) est derivable sous des hypoth`eses relativement
faibles.
Remarquons aussi que linegalite de Tchebychev (1.2) entrane, pour tout > 0

1
P | bn | > 2 R(bn , )

et donc le risque quadratique permet de controler au moins grossi`erement la probabilite que la precision de bn soit inferieure ou egale `a un niveau > 0 donne. En particulier,
si
R(bn , ) 0
alors

P
bn
.

On en deduit la r`egle de selection suivante :

D
efinition 6.2. Lestimateur bn,1 est preferable `
a lestimateur bn,2 au sens du risque
quadratique au point si
R(bn,1 , ) R(bn,2 , ).

6.2 Comparaison destimateurs

131

Notion dadmissibilit
e
Etant donne une (suite d) experience(s) E n , existe-t-il un estimateur b?n optimal au
sens de la Definition 6.2, cest-`
a-dire verifiant
, R(b?n , ) inf R(bn , ) ?

(6.4)

La reponse est negative : prenons par exemple lexperience engendree par lobservation
dun n-echantillon de loi N (, 2 ), avec = R et 2 connu. Lestimateur du maximum de vraisemblance est
b mv = X n .
n

Considerons par ailleurs lestimateur artificiel

bn = 0
qui prend toujours la valeur 0 sans tenir compte des observations. Alors, pour tout ,
R(bnmv , ) =

2
et R(bn , ) = 2 .
n

Il est clair que selon les valeurs de n et il existe des valeurs de o`

u lestimateur absurde
bn = 0 est preferable `
a b mv pour le risque quadratique.
n

La situation generale est pire ! Meme si se reduit `a deux points distincts, quelle
que soit lexperience statistique, on ne peut pas construire destimateur optimal au sens
de (6.4). Voir pour cela lExercice 6.1. La notion doptimalite au sens naf de (6.4) est
impossible `
a realiser.
On peut neanmoins aborder la notion de comparaison sous un angle plus faible : cest
la notion defficacite et dadmissibilite.
D
efinition 6.3 (Efficacite). Si bn,1 est preferable `
a bn,2 pour le risque quadratique en
tout point et sil existe un point e pour lequel on a
e < R(bn,2 , ),
e
R(bn,1 , )
on dit que bn,1 est plus efficace que bn,2 et que bn,2 est inadmissible.
On en deduit une notion (faible) doptimalite :
D
efinition 6.4 (Admissibilite). Lestimateur bn est admissible sil nexiste pas destimateur plus efficace que bn .

132

Information statistique et th
eorie asymptotique

Optimalit
e sur une classe destimateurs
Une autre manière de contourner le problème de labsence doptimalite au sens (6.4)
consiste `
a restreindre la classe des estimateurs, de sorte que des estimateurs absurdes
soient elimines doffice. Pour cela, on part de la constatation suivante :
Proposition 6.1 (Structure du risque quadratique). Pour tout estimateur bn et tout
, on a la decomposition

2

R(bn , ) = E bn + Var bn = biais2 + variance.
D
efinition 6.5. On dit que bn est sans biais, respectivement asymptotiquement sans
biais, si

, E bn = ,

respectivement limn E bn = .
Une approche classique de la litterature statistique (un peu depassee aujourdhui)
consiste `
a realiser le programme suivant : parmi les estimateurs sans biais, chercher
ceux de variance minimale. Un fait remarquable est que dans certaines situations, un tel
programme est realisable, voir lExercice 6.3. Cependant, cette approche reste limitee et
nous ne la developperons pas dans ce cours car :
les estimateurs sans biais napparaissent que dans des situations assez particulières.
meme pour les experiences statistiques admettant des estimateurs sans biais, on
peut presque toujours construire des estimateurs biaises plus efficaces, comme le
montre lexemple suivant dans un cas simple.
Exemple 6.1. Dans le modèle engendre par lobservation dun n-echantillon de loi
N (, 2 ), avec (, 2 ) R R+ \{0}, on sinteresse au paramètre = 2 . On suppose
n 2. Considerons les estimateurs
n

i=1

2
2
1X
1 X
bn,1 =
Xi X n , et bn,2 =
Xi X n .
n
n1
1 2 . En cons
Alors E bn,1 = n1
equence, le biais de bn,1 vaut 2 n1 et
n = n

bn,1 est biaise. Par contre, E bn,2 = 2 = et bn,2 est sans biais. Par ailleurs,

2

n
2 4
Var bn,2 =
, Var bn,1 =
.
n1
n1

On en deduit

R(bn,1 , ) =

2
n

et
R(bn,2 , ) =

n 1 4 2n 1 4
=

n2
n2

2 4
> R(bn,1 , )
n1

6.2 Comparaison destimateurs

133

pour tout . Donc bn,1 est plus efficace que bn,2 . Lestimateur sans biais est inadmissible.
Cependant, lExemple 6.1 nest pas tout `a fait honnete : la difference entre bn,1 et
b
n,2 sestompe lorsque n grandit, au sens o`
u
Rn (bn,1 , )
= 1.
n R(
bn,2 , )
lim

Cette remarque met plut

ot en relief un defaut de la notion dadmissibilite et sugg`ere
une approche asymptotique. Nous verrons plus loin comment lapproche asymptotique
elimine naturellement certains estimateurs artificiels. Nous concluons cette section avec
la regle de comparaison suivante :
D
efinition 6.6. Lestimateur bn,1 est asymptotiquement preferable a
` lestimateur bn,2
au point si
Rn (bn,1 , )
lim sup
1.
bn,2 , )
n R(
On pourrait en definir une notion defficacite asymptotique analogue `a la Definition
6.4 non-asymptotique. Nous reviendrons plus tard sur ce point.

6.2.2

Risque quadratique et normalit

e asymptotique

On suppose toujours R pour simplifier. On a vu aux Chapitres 4 et 5 des resultats

de type
d

n bn N 0, v()
(6.5)
Supposons que la convergence ait aussi lieu en passant au carre et en prenant lesperance,
cest-`a-dire
lim nR(bn , ) = v().
(6.6)
n

Alors, lestimateur bn,1 sera asymptotiquement preferable `a lestimateur bn,2 pour le

risque quadratique au point si
v1 () v2 ()
(6.7)
dès lors que bn,1 et bn,2 verifient des convergences de type (6.5) et (6.6).
Malheureusement, on na pas en general une inegalite de type (6.7) simultanement
pour tout . Une solution conservatrice consiste alors à preferer asymptotiquement
bn,1 à bn,2 si
sup v1 () sup v2 ().

Ceci nous conduit `

a une notion faible mais tr`es robuste de la notion doptimalite asymptotique pour le risque quadratique.

134

Information statistique et th
eorie asymptotique

D
efinition 6.7 (Risque minimax). Le risque dun estimateur bn sur lensemble des
param`etres est
R(bn | ) = sup R(bn , ).

Un estimateur b?n est asymptotiquement optimal au sens minimax pour le risque quadratique si
R(b?n | )
lim sup
1,
bn | )
n inf b R(
n

o`
u linfimum est pris sur lensemble de tous les estimateurs.
Remarque 6.1. Loptimalite asymptotique au sens minimax se generalise immediatement `
a dautres fonctions de perte que la perte quadratique. Elle est couramment utilisee
lorsque lensemble des param`etres est de grande dimension, et en particulier en estimation
non-parametrique.
Nous terminons cette section en presentant des conditions simples qui permettent de
passer de (6.5) `
a (6.6). A quelle condition simple la convergence en loi (6.5) entrane-telle une convergence de type (6.6) ? Plus generalement si Zn est une suite de variables
aleatoires reelles telle que
d

Zn Z,
peut-on avoir

lim E g(Zn ) = E g(Z)

pour une fonction g continue non-bornee ? Si g est bornee, cest la definition meme de
la convergence en loi. Dans le cas o`
u g est non-bornee, il faut invoquer une propriete
duniforme integrabilite sur la suite Zn .
d

Proposition 6.2. Soit Zn une suite de vecteurs aleatoires de Rd telle que Zn Z.

Alors, si g : Rd R est une application continue et si lune au moins des trois conditions
suivantes est verifiee :

R +
(i) limt supn t
P |g(Zn )| > x dx = 0,

R +
(ii) P |g(Zn )| > x h(x), avec 0 h(x)dx < +,
(iii) il existe > 0 tel que supn E |g(Zn )|1+ < +,
on a

lim E g(Zn ) = E g(Z) .

Demonstration. Par linegalite de Tchebychev, on a, pour x > 0,

E |g(Zn )|1+
P |g(Zn )| > x
,
x1+

6.2 Comparaison destimateurs

135

donc (iii) implique (i). De meme, la condition (ii) entrane clairement la condition (i).
Supposons (i). Alors, on ecrit
Z +

P |g(Zn )| x dx.
E |g(Zn )| =
0
d

Par hypoth`ese, la convergence en loi Zn Z entrane |g(Zn )| |g(Z)| par continuite

de |g()|, et donc

P |g(Zn )| x P |g(Z)| x
pour presque tout x. Donc, pour tout t > 0, par convergence dominee,
Z t
Z t

P |g(Z)| x dx.
P |g(Zn )| x dx
lim
n 0

Lhypoth`ese (i) rend legitime le passage `a la limite t dans la convergence precedente.

Finalement
Z +

lim E |g(Zn )| = lim
P |g(Zn )| x dx
n
n 0
Z +

=
P |g(Z)| x dx
0

= E |g(Z)| .

6.2.3

Risque quadratique : le cas multidimensionnel?

Si Rd avec d 1, un estimateur bn de = (1 , . . . , d )T secrit sous forme

vectorielle
b(d) T
bn = (b(1)
n , . . . , n ) ,
(j)
o`
u bn est la j-`eme composante de bn . Considerons dans un premier temps le risque
(j)
quadratique de bn au point composante par composante, cest-`a-dire R(bn , j ), pour
j = 1, . . . , d, ou plus generalement une combinaison lineaire
d
X

j R(b(j)
n , j )

j=1

de sorte que tous les j soient positifs. En particulier, pour j = 1 pour tout j, on a
d
X

2
b
j R(b(j)
n , j ) = E k n k ,

j=1

o`
u kk designe la norme euclidienne sur Rd . Pour cela, on a besoin dune notion de
dispersion dans Rd .

136

Information statistique et th
eorie asymptotique

D
efinition 6.8. Si Z1 et Z2 sont deux vecteurs
aleatoires `
a valeurs dans Rd ayant

des moments dordre deux (cest-`
a-dire E kZi k2 < + pour i = 1, 2), on dit que la
dispersion de Z1 autour de Rd est plus petite que la dispersion de Z2 si, pour tout
v Rd , on a

E hZ1 , vi2 E hZ2 , vi2 ,
(6.8)
Pd
o`
u hu, vi = i=1 ui vi designe le produit scalaire euclidien sur Rd .

Si = E Z1 = E Z2 , linegalite (6.8) exprime le fait que la variance de Z1 dans
nimporte quelle direction v est plus grande que la variance de Z2 dans cette meme
direction.
Si (Zi ) designe la matrice de variance-covariance de Zi pour i = 1, 2, la relation
(6.8) se traduit pour = 0 par
d
X
j,k=1

(Z1 )jk vj vk

d
X

(Z2 )jk vj vk , v Rd ,

j,k=1

cest-`
a-dire la matrice (Z2 ) (Z1 ) est positive. Ceci nous fournit, de la meme facon
quen dimension 1, une règle de selection non-asymptotique.
D
efinition 6.9. Un estimateur bn,1 du paramètre Rd est preferable `
a bn,2 pour
le risque quadratique au point si la dispersion de bn,1 autour de est plus petite que
celle de bn,2 .
En consequence, si i () = (bn,i ) est la matrice de variance-covariance du
vecteur bn,i pour i = 1, 2, dire que bn,1 est preferable à bn,2 implique que la matrice
1 () 2 () est positive.
On peut de meme donner la règle de comparaison asymptotique suivante
D
efinition 6.10. Soit vn > 0 une suite telle que limn = +. Si bn,1 et bn,1 sont
deux suites destimateurs tels que
d
vn bn,i Zi ,
pour i = 1, 2, o`
u les variables Zi sont centrees et de carre integrable, on dit que bn,1 est
asymptotiquement preferable `
a bn,2 au point si la dispersion de Z1 autour de 0 est plus
petite que celle de Z2 .

Remarque 6.2. En particulier, dans le cas classique o`

u vn = n et Zi N 0, i () ,
dire que bn,1 est asymptotiquement preferable `a bn,2 au point implique que la matrice
2 () 1 () est positive.

6.3 Mod`
eles r
eguliers

6.3
6.3.1

137

Mod`
eles r
eguliers
Information de Fisher

Situation
Dans toute la suite, on se placera dans le modèle de la densite : on considère une suite
dexperience E n engendree par lobservation dun n-echantillon
(X1 , . . . , Xn )
o`
u la loi P des variables aleatoires Xi appartient à une famille donnee de probabilites
sur R
{P , }
dominee par une mesure -finie 3 sur R. On note
f (, x) =

d P
(x),
d

, x R

la densite de P par rapport `

a . Cest une fonction positive, definie -presque partout,
-integrable, et si X P , on a la formule dintegration (cest la formule (1.1) de la
mesure image, voir Chapitre 1)

E (X) =

Z
(x) P (dx) =

(x)f (, x)(dx)
R

pour toute fonction test . On introduit aussi la notation suivante :

D
efinition 6.11. On pose, lorsque cela a un sens
`(, x) = log f (, x), x R, .
(En convenant log 0 = 0 par exemple, on pourra toujours parler de `(, x)). La derivee

de
la fonction
; `(, x), lorsquelle existe, sappelle fonction score du mod`ele
P , .
Information de Fisher dune famille de densit
es
Restreignons nous dans un premier temps au cas o`
u R pour simplifier.
3. Dans presque tous les cas, sera la mesure de Lebesgue lorsque les P sont absolument continues,
ou bien la mesure de comptage sur un ensemble M R au plus denombrable lorsque les Xi sont discr`etes,
a
` valeurs dans M.

138

Information statistique et th
eorie asymptotique

D
efinition 6.12 (Information de Fisher). Si ; `(, x) est derivable (dx)-presque
partout, on appelle information de Fisher de la famille {P , } au point la
quantite
Z
2

2
I() =
`(, x) f (, x)(dx) = E `(, X) .
R

On a, pour tout ,
Z
I() =
{x, f (,x)>0}

2
f (, x)
(dx),
f (, x)

et aussi
0 I() +,
les cas interessants etant ceux pour lesquels on a
0 < I() < +.
Origine de linformation de Fisher
Linformation de Fisher apparat naturellement comme la variance limite de lestimateur du maximum de vraisemblance, sous des hypoth`eses suffisantes de regularite sur
{f (, ), }. Cela signifie que lon a

d

1
mv
b
.
(6.9)
n n N 0,
I()
Donnons immediatement lheuristique de ce resultat, sans nous soucier des hypoth`eses,
que nous preciserons plus loin. Nous allons essentiellement repeter la preuve de la Proposition 4.5 du Chapitre 4 dans ce contexte particulier. Dapr`es lequation (4.20) du
Chapitre 4, lestimateur bnmv satisfait
`n ()|=b mv = 0,
n

o`
u
`n () =

n
X

`(, Xi ) =

i=1

n
X

log f (, Xi )

i=1

est la log-vraisemblance associee `a la famille P , . Au voisinage de bnmv , on a, `
a
lordre 1,

0 = `n ()|=b mv `n () + bnmv 2 `n ().
n

En divisant par

2 `n ()

et en multipliant par

1 ,
n

on obtient lapproximation

n1/2 `n ()
n bnmv
.
n1 2 `n ()

6.3 Mod`
eles r
eguliers

139

Cest letude asymptotique du numerateur et du denominateur respectivement qui va

faire apparatre I(). Notons que
n

1 X
n1/2 `n () =
log f (, Xi ).
n
i=1

2 `n ()

1X 2
=
log f (, Xi ).
n
i=1

Sous des conditions dintegrabilite suffisantes, le denominateur converge par la loi des
grands nombres vers

E 2 log f (, X)
en probabilite. Le comportement du numerateur 1n `n () est moins evident. Nous
allons dabord enoncer un lemme fondamental sur lequel nous reviendrons plus tard.
Lemme 6.3.1. Sous des hypoth`eses de regularite adequates, on a

E log f (, X) = 0.
Demonstration. Justifions formellement ce resultat : on a
Z

E log f (, X) =
log f (, x) f (, x)(dx)
R
Z
f (, x)
=
f (, x)(dx)
R f (, x)
Z
=
f (, x)(dx)
RZ
=
f (, x)(dx) = 1 = 0.
R

On a aussi
les calculs

2
R f (, x)(dx)

I() = E

= 0, ce qui permet de deduire la relation tr`es utile pour

2
log f (, X)
= E 2 log f (, X .

(6.10)

Revenons `
a letude du numerateur 1n `n (). Daprès le Lemme 6.3.1, les variables
aleatoires log f (, Xi ) sont independantes, centrees, de variance I(). Daprès le theorème
central-limite, on a la convergence
n

1 X
d

log f (, Xi ) N 0, I() .
n
i=1

140

Information statistique et th
eorie asymptotique

On a deja vu que le denominateur n1 2 `n () converge en probabilite vers

E 2 log f (, X) = I()
dapr`es la formule (6.10). On en deduit par la Proposition 1.8 (Slutsky) que le quotient
converge en loi vers une gaussienne centree de variance I()1 , cest-`a-dire

1
mv
,
n bn N 0,
I()
et nous pouvons donc interpreter I() comme linverse de la variance asymptotique de
lestimateur du maximum de vraisemblance.
La suite de cette section consiste à rendre rigoureux ce raisonnement, à le generaliser au cas o`
u est de dimension d 1 et à montrer que I() est une caracteristique
g
eometrique de la famille {P , }, apparentee à une notion dinformation intrinsèque de lexperience statistique associee. Ce sera un premier pas vers une notion de
comparaison des experiences statistiques dune part, et de la meilleure estimation possible
dautre part.
Information de Fisher dune (suite d) exp
erience(s) statistique(s)
Linformation
de Fisher introduite dans la Definition 6.12 de la Section 6.3.1 porte sur

une famille f (, ), de densites (, x) R R+ avec R. Lextension
de cette notion pour une experience statistique dominee arbitraire en se restreignant
toujours au cas R est immediate :

D
efinition 6.13. Si E n = Zn , Zn , Pn , est une suite dexperiences statistiques
dominee par une mesure n (dz) -finie sur (Zn , Zn ) et si R, alors linformation de
Fisher de lexperience au point est definie par
Z
2
n
log fn (, z) Pn (dz),
(6.11)
I( | E ) =
Zn

o`
u fn (, z) =

d Pn

d (z)

pour peu que lexpression ci-dessus soit bien definie.

En particulier, si lexperience statistique consideree est engendree par un n-echantillon

de loi {P , } sur R dominee par une mesure sur R, alors on a

E n = Rn , B n , {Pn , } ,
avec Pn = P P (n-fois), n = (n-fois), et
fn (z) = fn (x1 , . . . , xn ) =

n
Y
i=1

f (, xi ), z = (x1 , . . . , xn ) Z = Rn ,

6.3 Mod`
eles r
eguliers

141

P
o`
u f (, x) = dd
(x) est la densite pour la famille de lois de probabilites sur R. On deduit
immediatement de la formule (6.11) lidentite :

I( | E n ) = n I() = n I( | E 1 ),

(6.12)

o`
u I() est linformation de Fisher pour la famille f (, ), de la Definition 6.12.
Remarque 6.3. La formule (6.12) sinterprète de la manière suivante : pour un nechantillon, chaque donnee Xi contribue à linformation totale du modèle au point
pour une quantite I(). Linformation totale, après n observations, est n fois linformation
quapporte chaque donnee. Voir la Section 6.3.3.

6.3.2

Mod`
ele r
egulier en dimension 1

Nous avons vu dans la Section 4.3 du Chapitre 4 que lestimateur du maximum de

vraisemblance est un M -estimateur associe au constraste (a, x) = log f (a, x) ou bien
un Z-estimateur associe au score
(a, x) = a (a, x) =

a f (a, x)
,
f (a, x)

pour peu que ces quantites soient bien definies et reguli`eres 4 .

Nous allons donner un jeu dhypothèses le plus simple possible, de sorte que les
calculs de la Section 6.3.1 developpes precedemment soient justifies, en particulier le
Lemme 6.3.1, et que lon puisse appliquer les Propositions 4.5 ou 4.6 qui fournissent le
comportement asymptotique des Z- ou M -estimateurs.
Hypoth`
ese 6.1 (Regularite dun modèle (ou dune famille)). On a
(i) Lensemble des paramètres R est un intervalle ouvert et pour tous , 0 ,
les ensembles {f (, ) > 0} et {f (0 , ) > 0} concident.
(ii) -presque partout, les fonctions ; f (, ) et ; `(, ) sont deux fois contin
ument
differentiables sur .
(iii) Pour tout , il existe un voisinage de V() tel que pour tout a V() :
|a2 `(a, x)| + |a `(a, x)| + a `(a, x)
o`
u

g(x),

Z
g(x) sup f (a, x)(dx) < +.
R

aV()

4. Et on suppose toujours implicitement que la famille P , est dominee par une mesure
-finie sur R, de sorte que lon puisse parler de la famille des densites f (, ), .

142

Information statistique et th
eorie asymptotique

(iv) Linformation de Fisher est non-degeneree :

, I() > 0.
Les hypothèses (ii) et (iii) sont les plus restrictives. On peut significativement les
ameliorer. Une reference accessible est van der Waart [10]. Noter aussi que lhypothèse
(iii) est un renforcement des conditions

2

= I() < .
E 2 `(, X) < +, et E `(, X)
D
efinition 6.14. On dit que la famille de densites {f (, ), } est regulière si
lHypothèse 6.1 est verifiee. Par extension, lexperience statistique E (ou E n ) est regulière
si elle est dominee et que la famille de densites associees est regulière.

6.3.3

Propri
et
es de linformation de Fisher

Information de Fisher et maximum de vraisemblance

Lestimateur du maximum de vraisemblance est un M -estimateur, associe `
a la fonction

a ; F(a, ) = E (a, X) ,
o`
u est la fonction de contraste :
(a, x) = log f (a, x).
Proposition 6.3. Si la famille {f (, ), } est reguli`ere et si
Z

log f (, x)f (, x)(dx) < +,
, ,
R

alors, pour tout , la fonction a ; F(, a) est deux fois contin

ument derivable et
on a
a F(a, )
= 0,
a=

et
a2 F(a, )

= E 2 `(, X) = I().

Le lemme technique suivant permet de justifier la derivation sous le signe somme :

Lemme 6.3.2. Soit g : R R telle que a ; g(a, x) soit contin
ument differentiable
(dx) presque-partout. Si, de plus, pour un ouvert U de , et pour tout a U
Z
Z

g(a, x)(dx) < +, et
sup a g(a, x)(dx) < +
R

R aU

6.3 Mod`
eles r
eguliers

143

alors la fonction a ; G(a) =

G0 (a) =

est contin
ument differentiable sur U et
Z
g(a, x)(dx) =
a g(a, x)(dx).

R g(a, x)(dx)

d
da

Z
R

Demonstration. Cest une application repetee du theor`eme de convergence dominee.

Demonstration de la Proposition 6.3. Lapplication a ; F(a, ) est derivable en appliquant le Lemme 6.3.2 avec g(a, x) = f (, x) log f (a, x). On obtient :
Z
`(, x)f (, x)(dx).
a F(a, )
=
a=

On sait deja par le Lemme 4.4.1 du Chapitre 4 que le maximum de F(, ) est atteint en
a = , donc a F(a, )
= 0. Pour la deuxi`eme egalite, on applique le Lemme 6.3.2 `a
a=

G(a) = a F(a, ) en posant cette fois-ci g(a, x) = a2 `(a, x)f (, x).

Nous allons maintenant demontrer rigoureusement lidentite 6.10 de la Section 6.3.1.
Lemme 6.3.3. Si la famille {f (, ), } est reguli`ere, alors, pour tout , on a
Z

I() = E 2 `(, X) = 2 `(, x)f (, x)(dx).
R

En particulier, on en deduit, sous les hypoth`eses de la Proposition 6.3

a2 F(a, )
= I().
a=
Demonstration. On derive deux fois sous le signe somme legalite
Z
f (, x)(dx) = 1.
R

On applique dabord le Lemme 6.3.2 avec g(, x) = f (, x). On en deduit, pour tout
,
Z
f (, x)(dx) = 0,
R

ou encore

Z
`(, x)f (, x)(dx) = 0.
R

On applique le Lemme 6.3.2 une seconde fois, avec g(, x) = f (, x) = `(, x)f (, x).
Alors
2
g(, x) = 2 `(, x)f (, x) + `(, x) f (, x).
Cette identite permet de conclure
Z
Z
0=
g(, x)(dx) =
2 `(, x)f (, x)(dx) + I(),
R

do`
u le resultat.

144

6.3.4

Information statistique et th
eorie asymptotique

Interpr
etation g
eom
etrique de linformation de Fisher

Pour une experience statistique reguli`ere, la Proposition 6.3 et le Lemme 6.3.3 donnent
la representation
I() = a2 F(a, )
0,
a=

et la fonction a ; F(a, ) atteint son maximum au point a = .

Si I() est petite, le rayon de courbure de la courbe representative de a ; F(a, ) est
grand dans un voisinage de , et F(, ) est plate dans ce voisinage, et le comportement typique de a ; `n (a) sera oscillant, rendant moins precis lestimateur du maximum
de vraisemblance. Par contre, si I() est grande, F(, ) est pointue dans un voisinage
de .
Lien avec lentropie
Si P et Q sont deux mesures de probabilites definies sur un meme espace mesurable
(, A), on definit la divergence de Kullback-Leibler de P relativement `a Q comme
Z
dP
log
K(P, Q) =
() P(d)
dQ

si P Q (Q domine P) et on pose K(P, Q) = + sinon. On parle improprement de

distance de Kullback-Leibler entre P et Q pour la raison suivante :
Lemme 6.3.4. On a toujours
0 K(P, Q) +,
et
K(P, Q) = 0 si et seulement si

P = Q.

Demonstration. Introduisons la fonction definie sur R+ par

h(x) = x log(x).

Si Z est une variable aleatoire positive telle que EQ Z < + (esperance de Z par
rapport `
a la mesure de probabilite Q), on peut toujours definir la quantite

E Z = EQ h(Z) h EQ Z ,

En effet, h est minoree par 1/e, donc EQ h(Z) a un sens, meme si h(Z) nest pas Qintegrable. Puisque
h est convexe, linegalite de Jensen assure que EQ [Z] 0 (eventuellement
+). Enfin, E Z est finie si et seulement si h(Z) est Q-integrable.

6.3 Mod`
eles r
eguliers

145

Supposons maintenant P Q, et posons Z = ddQP , la densite de Radon-Nikodym 5 de

P par rapport `
a Q. Alors Z est Q-integrable et EQ Z = 1. Il vient
Z

dP
dP
E Z = EQ h(Z) =
log
dQ = K(P, Q),
dQ
dQ
do`
u la première partie du lemme.
La seconde partie du lemme est une consequence immediate du Lemme 4.4.1 : on
pose = Q, f = ddQP et g = 1. Alors f et g sont deux densites de probabilite par rapport
à et on a
Z
f
K(P, Q) = log f d 0
g
daprès le Lemme 4.4.1, avec egalite si et seulement f = g -presque partout, ce qui
entrane P = Q.
Dans le contexte dun modèle regulier, entropie et information de Fisher sont relies
par la fonction F : on a, pour 1 , 2 ,
Z

f (2 , x)
K P1 , P2 = F(2 , 2 ) F(1 , 2 ) =
log
f (2 , x)(dx).
f (1 , x)
R
Cest une mesure de divergence disymetrique entre P1 et P2 . Son interpretation est
similaire `
a celle de linformation de Fisher, comme le montre la representation ci-dessus.
Lavantage immediat de la divergence de Kullback-Leibler sur linformation
de Fisher

est quelle est toujours definie, sans hypothèse de regularite sur la famille P ,
sous-jacente.
D
efinition 6.15. La valeur
Z
F(, ) =

f (, x) log f (, x)(dx)
R

est appelee entropie de Shannon associee `

a la densite f (, ).
Lentropie de Shannon peut etre utilisee comme mesure de dispersion lorsque, par
exemple, la variance par rapport a` la loi f (, x)(dx) nexiste pas. Elle a un lien avec la
theorie de linformation.

6.3.5

Le cas multidimensionnel

Si Rd avec d > 1, tous les resultats de la Section precedente setendent de

mani`ere naturelle en remplacant derivation par rapport `a par differentiabilite dans Rd .
Linformation de Fisher devient la matrice dinformation de Fisher.
5. Voir, par exemple, Jacod et Protter [4], Chapitre 28.

146

Information statistique et th
eorie asymptotique

D
efinition 6.16. La matrice dinformation de Fisher I() = I()`,`0

1`,`0 d

associee

`
a la famille de densites {f (), } avec R est definie au point par

I()`,`0 = E ` log f (, X)`0 log f (, X) , 1 `, `0 d,
pour peu que cette quantite soit bien definie, avec = (1 , . . . , d )T . Cest une matrice
symetrique positive.
Nous ne developperons pas la theorie en dimension plus grande que 1. Une reference
avec des exemples detailles est Borovkov [1].

6.4
6.4.1

Th
eorie asymptotique
Normalit
e asymptotique du maximum de vraisemblance

Le cas de la dimension 1
n
On consid`
u
ere lexp
erience statistique E engendree par un n-echantillon de loi P , o`
la famille P , est dominee par une mesure sur R -finie, et on suppose R.
Le resultat suivant donne le comportement asymptotique de lestimateur du maximum
de vraisemblance.

Proposition 6.4 (Normalite asymptotique de lEMV). Si lexperience E n est reguli`ere

au sens de la Definition 6.14, alors lestimateur du maximum de vraisemblance bnmv est
bien defini et asymptotiquement normal, et on a

d
1
n bnmv N 0,
I()

en loi sous P , et 0 < I() < + est linformation de Fisher du modèle au point .
Esquisse de demonstration. En interpretant lestimateur du maximum de vraisemblance
comme un M -estimateur, on applique la Proposition 4.6 du Chapitre 4 pour la fonction
de constraste (a, x) = log f (a, x). Ceci nous conduit en fait à verifier les conditions de
lHypothèse 4.2 en vue dappliquer la Proposition 4.5 à la fonction (a, x) = a log f (a, x).
Cependant, les conditions de lHypothèse 6.1 sont en partie plus faibles que lHypothèse 4.2. En reprenant la preuve de la Proposition 4.5, on verifie alos que seul le
terme de reste (4.16) pose une difficulte. On pourra montrer en exercice quen appliquant
pour ce terme la formule de Taylor avec reste integral, alors les conditions de regularite
de lHypothèse 6.1 permettent de conclure.

6.4 Th
eorie asymptotique

147

Le cas multidimensionnel
La Proposition 6.4 setend au cas multidimensionnel, en remplacant linformation de
Fisher par la matrice dinformation de Fisher definie dans la Section 6.3.5, en etendant
lHypothèse 6.1 par une version multidimensionelle (la derivee première par rapport à
de la fonction ; f (, ) devenant le gradient et la derivee seconde la matrice hessienne).
Nous ne developperons pas la theorie en dimension plus grande que 1. Une reference avec
des exemples detailles est Borovkov [1].

6.4.2

Comparaison destimateurs : efficacit

e asymptotique

Nous nous placons dans cette section dans le cas de la dimension 1, avec R
pour simplifier. Les extensions au cas multidimensionnel se font de la meme mani`ere que
pour la Section 6.3.5. On se restreint ici `a la classe des estimateurs asymptotiquement
normaux, cest-`
a-dire les estimateurs bn pour lesquels
d

n bn N 0, v()
pour . On suppose de plus :
Hypoth`
ese 6.2. Lapplication ; v() est continue et strictement positive sur .
Sous des hypothèses de regularite, on a vu que les M -estimateurs sont asymptotiquement normaux et verifient (6.2). En particulier, pour lestimateur du maximum de
vraisemblance,
1
v() =
.
I()
On a la règle de comparaison suivante :
D
efinition 6.17. Si bn,1 et bn,2 sont deux (suites d)estimateurs asymptotiquement normaux de variances asymptotiques respectives v1 () et v2 () et verifiant lHypothèse 6.2,
on dit que bn,1 est plus efficace que bn,2 si
, v1 () v2 ()
et si de plus, il existe un point e tel que
e < v2 ().
e
v1 ()
Une suite destimateurs bn est asymptotiquement efficace sil nexiste pas dautre estimateurs (dans la classe consideree) plus efficace que bn .
Remarque 6.4. Lhypothèse de normalite asymptotique en tout point permet
en particulier dexclure les estimateurs artificiels de la forme bn = 0 pour un point
0 arbitraire, qui sont catastrophiques pour le risque quadratique en dehors dun
petit voisinage de 0 mais qui ont un risque nul en 0 .

148

Information statistique et th
eorie asymptotique

Efficacit
e asymptotique du maximum de vraisemblance
Dans cette section, on considère une experience statistique regulière et on suppose
lespace des paramètres R pour simplifier. On se restreint en fait à la classe des
Z-estimateurs, qui contient en particulier les M -estimateurs reguliers.
Un tel estimateur bn est obtenu comme solution dune equation de type
n
X

(bn , Xi ) = 0

(6.13)

i=1

o`
u : R est une fonction choisie par le statisticien, qui determine la methode. En
particulier, si
(, x) = log f (, x) = `(, x)
dans le cas dune famille de probabilites {P (dx) = f (, x)(dx), } dominee par
une mesure -finie , on retrouve lestimateur du maximum de vraisemblance.
On consid`ere une experience statistique reguli`ere engendree par lobservation dun
n-echantillon.
Th
eor`
eme 6.1 (Efficacite asymptotique du maximum de vraisemblance parmi la classe
des Z-estimateurs). Si bn est un Z-estimateur regulier 6 associe `
a la fonction via (6.13),
alors bn est asymptotiquement normal de variance asymptotique

E (, X)2
v () =

2 .
E (, X)
De plus, pour tout choix de fonction , on a
v ()

1
.
I()

(6.14)

Corollaire 6.1. Dans un mod`ele regulier, lestimateur du maximum de vraisemblance

est asymptotiquement efficace parmi les Z-estimateurs reguliers.
Demonstration. La première partie du theorème a dejà ete montree dans la Proposition
4.5. Montrons (6.14). On note 0 (, x) = (, x). Par construction, la fonction verifie

a E (a, X)
= 0,
a=
ce qui secrit encore
Z
Z
0
0=
(, x)f (, x)(dx) +
(, x) f (, x)(dx)
ZR
ZR
=
0 (, x)f (, x)(dx) +
(, x) `(, x)f (, x)(dx),
R

6. Nous appelons informellement Z-estimateur regulier un Z-estimateur pour lequel la Proposition

4.5 est verifiee.

6.4 Th
eorie asymptotique

149

cest-`a-dire

E 0 (, X) = E (, X) `(, X) .
En appliquant linegalite de Cauchy-Schwarz, on obtient

2

2
E (, X)2 E `(, X) ,
E 0 (, X)

cest-`a-dire
v ()

2

E (, X)

E `(, X) 2 = I().
E (, X)2

Efficacit
e`
a un pas
Dans un modèle regulier, lestimateur du maximum de vraisemblance est meilleur que
nimporte quel autre Z-estimateur au sens de lefficacite asymptotique. Pourtant, il est
parfois plus facile de mettre en uvre un Z-estimateur donne (ou dailleurs un M estimateur) plut
ot que lestimateur du maximum de vraisemblance, voir lExemple 4.3
du modèle de Cauchy.
On peut modifier un estimateur bn consistant et asymptotiquement normal de sorte
quil ait asymptotiquement le meme
P comportement que lestimateur du maximum de
vraisemblance. On note `n () = n1 ni=1 log f (, Xi ).
Proposition 6.5 (Efficacite `
a un pas). Si le modèle est regulier et si bn est un estimateur
asymptotiquement normal, alors lestimateur modifie 7
`0 (bn )
en = bn n00
`n (bn )
verifie

d
1
n en N 0,
I()

en loi sous P et est donc asymptotiquement efficace.

Le choix initial pourra donc etre un M - ou Z-estimateur consistant et asymptotiquement normal, sans que lon ait besoin de se soucier (asymptotiquement) de sa variance
asymptotique.
7. Il faut bien s
ur que le denominateur du terme de correction soit non nul. Levenement sur lequel il
est bien defini a une P -probabilite qui tend vers 1 si le mod`ele est regulier. Nous omettons ces aspects
techniques.

150

Information statistique et th
eorie asymptotique

Esquisse de demonstration. On ecrit

n`0n (bn )
`00n (bn )

0 b
0
0 ()

n`
()
+
n
`
(

`
n
n
n
n
= n bn

`00n () + `00n (bn ) `00n ()
0

n`n () + n(bn )`00n () + un

b
.
= n n
`00n () + vn

n en = n bn

La seule difficulte consiste `a montrer que un

0 et vn
0. Cela se faitde la meme

mani`ere que pour la preuve de la Proposition 4.5 ou 4.6. Alors n en a le meme

comportement asymptotique que

n bn

n`0n () +

n(bn )`00n () `0 ()
= n 00
`00n ()
`n ()

1
qui converge en loi sous P vers la loi N 0, I()
de la meme mani`ere qu`a la Section
6.3.1.

Exemple 6.2. Une source emet des particules de type A avec probabilite et de type
B avec probabilite 1 , o`
u = (0, 1). On mesure lenergie des particules, qui
est distribuee selon une densite f1 connue pour les particules de type A et f2 pour les
particules de type B. Si lon detecte n particules avec des energies X1 , . . . , Xn , quelle
est la valeur de ? En postulant que lobservation est un n-echantillon, la fonction de
vraisemblance de lexperience statistique engendree par lobservation secrit
Ln (, X1 , . . . , Xn ) =

n
Y

f1 (Xi ) + (1 )f2 (Xi ) ,

i=1

de sorte que
log Ln (, X1 , . . . , Xn ) =

n
X
i=1

f1 (Xi ) f2 (Xi )
.
f1 (Xi ) + (1 )f2 (Xi )

La resolution de lequation
2 associee est dautant plus
R de vraisemblance
R x difficile que n est
grand. Supposons que R F1 (x) F2 (x) dx < +, o`
u Fi (x) = fi (t)dt, i = 1, 2.
b
Soit n lestimateur qui minimise
a;

2
Fbn (x) Fa (x) dx,

avec
Fa (x) = aF1 (x) + (1 a)F2 (x),

6.4 Th
eorie asymptotique

151

P
et Fbn (x) = n1 ni=1 1Xi x designe la fonction de repartition empirique de F etudiee au
Chapitre 3. En derivant par rapport `a la variable a, on obtient
Z

Fbn (x) Fa (x) F1 (x) F2 (x) dx = 0,
R

do`
u
R
bn =

Fbn (x) F2 (x) F1 (x) F2 (x) dx
.
2
R
R F1 (x) F2 (x) dx

En sappuyant sur le Chapitre 3, on peut montrer que bn est asymptotiquement normal.

Alors lestimateur modifie
log Ln (bn , X1 , . . . , Xn )
en = bn
2 log Ln (bn , X1 , . . . , Xn )
o`
u
2 log Ln (bn , X1 , . . . , Xn )

n
X
i=1

2
f1 (Xi ) f2 (Xi )
f1 (Xi ) + (1 )f2 (Xi )

est asymptotiquement efficace, et sa variance asymptotique est linformation de Fisher

du modèle
2
Z
f1 (x) f2 (x)
I() =
dx.
R f1 (x) + (1 )f2 (x)
Remarque 6.5. Il existe une extension multimensionnelle lorsque Rd avec d 1,
obtenue de la meme manière par un developpement de Taylor à lordre 2. La derivee de
; `n () est remplacee par son gradient, et la derivee seconde par sa matrice hessienne,
supposee definie positive.

6.4.3

Le programme de Fisher et ses limites

En 1922, Fisher conjectura que pour un mod`ele regulier (dans un sens comparable
avec celui de la Section 6.3.2),
(i) lestimateur du maximum de vraisemblance converge et a pour variance asymp1
totique I()
.
(ii) si, pour une suite destimateurs bn , on a

d

n bn N 0, v() ,

alors, necessairement
v()

1
.
I()

152

Information statistique et th
eorie asymptotique

Le programme de Fisher aurait permis, parmi une classe destimateurs raisonnables, de

clore le debat sur loptimalite asymptotique. On a vu que le point (i) de la conjecture
de Fisher est vrai. On a montre que le point (ii) est vrai parmi la classe restreinte des
Z-estimateurs reguliers.
Mais la conjecture de Fisher est fausse en general : pour tout estimateur asymptotiquement normal, on peut construire un estimateur modifie plus efficace. Une construction
classique, le contre-exemple de Hodge-Lehmann, est etudiee par exemple dans GenonCatalot et Picard [2].
Conclusion
1. Concernant la notion de modèle regulier, par souci de simplicite, nous nous sommes
restreints `
a un jeu dhypothèses assez fortes. On peut etendre significativement les
hypothèses de regularite.
2. La comparaison asymptotique destimateurs reste une notion fragile et ad-hoc. Un
point de vue alternatif est la recherche duniformite en le paramètre (approche
minimax).

6.4.4

Mod`
eles non-r
eguliers

Nous traitons le cas des mod`eles non-reguliers sur un exemple incontournable : la loi
uniforme. Considerons lexperience engendree par un n-echantillon
de loi uniforme sur

[0, ], o`
u = R+ \{0}. La famille de lois P , associee est dominee par la
mesure de Lebesgue sur R+ , et la densite f (, x) secrit :
f (, x) = 1 1[0,] (x).
La fonction ; f (, x) nest pas reguli`ere au sens de la Definition 6.14, puisquelle
est discontinue en = x. On ne peut pas definir dinformation de Fisher, et la theorie
asymptotique ne sapplique pas. La vraisemblance secrit
Ln (, X1 , . . . , Xn ) =

n
Y

f (, Xi )

i=1

n
Y

1[0,] (Xi )

i=1

= n 1{maxi=1,...,n Xi } .
La fonction
; n 1

maxi=1,...,n Xi

atteint son maximum unique en = maxi=1,...,n Xi qui est donc lestimateur du maximum
de vraisemblance bnmv .

6.5 Perte dinformation?

153

Comportement asymptotique du maximum de vraisemblance

Lestimateur du maximum de vraisemblance nest pas asymptotiquement normal, et

la precision destimation de bnmv est meilleure que la vitesse 1/ n des mod`eles reguliers.
On peut preciser son comportement asymptotique. Pour t R, on a
n

\

P bnmv t] = P
(Xi t)
i=1

n
Y

P Xi t

i=1

= (1 t)n 1[0,] (t) + 1{t>}

par independance des Xi . Il vient

P n(bnmv ) t = P bn + nt
t n
= 1 + 1
1[n,0] (t) + 1{t>0}
n
1
e t 1{t0} + 1{t>0} .
Donc n(bnmv ) converge en loi sous P vers une loi de fonction de repartition
F (t) = e

1 t

1{t0} + 1{t>0} ,

derivable presque-partout, et de densite t ; 1 et 1{t0} , qui peut secrire comme Z,

o`
u Z est une variable aleatoire exponentielle de param`etre 1 . On notera que dans ce

mod`ele, la vitesse destimation est 1/n et non 1/ n comme dans les mod`eles reguliers.

6.5
6.5.1

Perte dinformation?
Sous-exp
erience statistique

On consid`ere une experience statistique E arbitraire, engendree par une observation

Z a` valeurs dans (Z, Z).
Dans lexperience E, un estimateur bn est la donnee dune fonction mesurable
:Z
appliquee `
a lobservation, cest-`
a-dire
b = (Z).

154

Information statistique et th
eorie asymptotique

Considerons maintenant une application mesurable

T : (Z, Z) (Y, Y)
o`
u (Y, Y) est un espace mesurable donne, et posons Y = T (Z). Alors Y apparat comme

une sous-observation de Z et un estimateur de la forme e = (Y ) = T (Z) sera
en general moins performant quun estimateur de la forme bn = (Z).
A lapplication T est attachee une notion de perte dinformation, ou de compression
dinformation, que nous allons un peu formaliser.
D
efinition 6.18. On appelle sous-experience de E associee `
a T est on note E T lexperience
engendree par lobservation T (Z).
Si

E = Rn , B n , (P , ) ,
on a

E T = T (Rn ), Y, (PT , ) ,
o`
u PT estla mesure image de P par T . Cest une mesure de probabilite definie sur
T (Rn ), Y par

PT A = P T 1 (A) , A Y.
Un premier resultat tr`es intuitif est que lon perd de linformation en passant de E `
a ET .
Proposition 6.6. Si E et E T sont reguli`eres, alors, pour tout

I E T I |E ,
o`
u I( |E) designe linformation de Fisher pour lexperience statistique E au point .

ET .

Notons tout dabord que si domine E, alors la mesure image T de par T domine 8
Posons
d PT
f T (, z) =
(z), z Z, .
dT

On demontre cette proposition en deux etapes. Une premi`ere etape est un resultat
interessant en lui-meme que nous enoncons sous forme de lemme.
Lemme 6.5.1. On a, pour tout ,

E log f (, Z) | T (Z) = log f T , T (Z)

P presque s
urement.

8. En effet, si PT A = 0, alors P T 1 (A) = 0 et donc T 1 (A) = 0 = T A .

6.5 Perte dinformation?

155

Demonstration. Soit A Y. Dune part, par caracterisation de lesperance conditionnelle

secrit

E log f (, Z)1T (Z)A = E E log f (, Z) |T 1T (Z)A .
Dautre part, puisque P est la loi de Z, on a par la formule de la mesure image (1.1)

E log f (, Z)1T (Z)A =

Z
T 1 (A)

log f (, z) P (dz).

Puisque E est reguli`ere, il vient

Z
log f (, z) P (dz)
T 1 (A)
Z
=
f (, z)(dz)
T 1 (A)
Z
=
f (, z)(dz)
T 1 (A)
Z
=
P (dz)
T 1 (A)
Z
=
PT (dz) (formule de la mesure image (1.1))
A
Z
=
f T (, z)T (dz)
A
Z
=
f T (, z)T (dz)
ZA
=
log f T (, z) PT (dz)
A

= E log f T , T (Z) 1T (Z)A (formule de la mesure image (1.1)).
Comme A est arbitraire, on conclut par identification.
Passons `
a la preuve de la Proposition 6.6 proprement dite. On a :
h
2 i
E log f (, Z) log f T , T (Z)
0.
En developpant le carre, on obtient :

I |E + I E T 2 E log f (, Z) log f T , T (Z) 0.
Dautre part,

E log f (, Z) log f T , T (Z)

= E E log f (, Z) |T log f T , T (Z)
h
2 i
= E log f T , T (Z)
,

156

Information statistique et th
eorie asymptotique

la derni`ere egalite etant

T obtenue en appliquant le Lemme 6.5.1. Cette derni`ere quantite
est precisement I E , ce qui ach`eve la demonstration de la Proposition 6.6.

6.5.2

Statistique exhaustive

Absence de perte dinformation

Nous nous interessons à une classe particulière de fonctions T , qui ne font pas perdre
dinformation. Ecrites sous la forme Y = T (Z) on appelle ces fonctions des statistiques
exhaustives .
D
efinition 6.19 (Statistique exhaustive). On dit que la statistique T est exhaustive (ou
plut
ot Y = T (Z)) pour lexperience regulière E si E T est regulière et

I E T = I |E .
Pour de telles sous-experiences, il ny a pas de perte dinformation, et la theorie de
lefficacite asymptotique reste inchangee.
Remarque 6.6. Il existe une definition plus large qui permet de definir lexhaustivite
(labsence de perte dinformation), meme lorsque linformation de Fisher nest pas definie,
que nous ne donnons pas ici. Nous utiliserons la notion dexhaustivite au Chapitre 7 dans
le cadre de modèles reguliers, et nous pouvons nous contenter de la Definition 6.19 dans
ce cours.
Remarque 6.7. Nous avons traite le cas dun paramètre unidimensionnel R
par souci de simplicite. On a des resultats analogues pour un paramètre Rd
avec d > 1 en remplacant linformation de Fisher par la matrice dinformation de Fisher,
pour des hypothèses de regularite suffisantes. Nous ne developperons pas ces aspects ici
(voir tout de meme lExemple 6.5).

Crit`
ere de factorisation
La notion dexhaustivite, cest-à-dire dabsence de perte dinformation pour une sousexperience nest pas facile à manipuler à partir de la Definition 6.19. Nous donnons un
critère très simple pour montrer quune statistique est exhaustive.
Th
eor`
eme 6.2 (Critère de Factorisation). Si lexperience E est dominee par , une
P
statistique T est exhaustive si et seulement si la vraisemblance f (, Z) = dd
(Z) secrit

f (, Z) = p T (Z), h(Z)

presque-partout,

o`
u les fonctions z ; p(, z) et z ; h(z) sont mesurables et positives.

(6.15)

6.5 Perte dinformation?

157

Nous donnons une preuve tr`es simple dans notre cadre o`

u nous supposons les experienT
ces statistiques E et E reguli`eres, et nous supposons de plus que f (, ) et strictement
positive pour tout pour simplifier. Pour le cas general evoque dans la Remarque
6.6, on trouvera une demonstation du theor`eme de factorisation dans Borovkov, [1], pp.
117120.

Demonstration. Si f (, Z) = p T (Z), h(Z) presque-partout, alors la mesure

e(dz) = h(z)(dz)

domine la famille P , . Puisque h est strictement positive, les ensembles de ou
e-mesure nulle concident. Dapr`es lExercice 6.2, linformation de Fisher ne depend
P
pas du choix de la mesure dominante, que lon calcule avec fe(, z) = dde
(z). On a dune
part,

E log fe(, Z) | T (Z) = log fe(, Z)

e-presque partout, puisque fe(, Z) = p T (Z), est une fonction mesurable de T (Z).
Dautre part, dapr`es le Lemme 6.5.1 et avec les memes notations, on a

E log fe(, Z) | T (Z) = log feT (, Z)

e-presque partout. On en deduit

log fe(, Z) = log feT (, Z)
a` un ensemble de
e-mesure nulle pr`es. Le resultat en decoule en passant au carre et en
integrant par rapport `
a P .
Reciproquement, on a montre dans la Proposition 6.6 que
h
2 i

E log f (, Z) log f T , T (Z)
= I | E I | E T 0.

En consequence, si I | E = I | E T , alors

log f (, Z) = log f T , T (Z) ,

(6.16)

legalite ayant lieu P presque-s

urement, et aussi presque-partout en utilisant le fait
que f (, ) est strictement positive. En integrant (6.16), on obtient la representation
(6.15).

6.5.3

Exemples de statistiques exhaustives

Exemple 6.3 (Mod`ele de Bernoulli). Dans lexemple 1 du Chapitre 2, nous avons

introduit deux experiences statistiques pour traiter le probl`eme du sondage. Dune part,

158

Information statistique et th
eorie asymptotique

lexperience E n , engendree par lobservation dun n-echantillon X1 , . . . , Xn de variables

aleatoires de Bernoulli de paramètre = [0, 1], qui secrit

E n = {0, 1}n , parties de {0, 1}n , Pn , ,
o`
u Pn = P . . . P (n-fois), avec

P X = 1 = = 1 P X = 0 ,
et qui correspond `
a lobservation du resultat deP
chaque votant. Dautre part, lexperience
Een engendree par lobservation de la somme 9 ni=1 Xi , notee

Een = {0, . . . , n}, parties de {0, . . . , n} , Qn , ,
o`
u Qn est la loi binomiale de paramètres (n, ), et qui correspond à lobservation du
nombre total de voix pour le candidat A. Intuitivement, les deux points de vue contiennent
la meme information sur le paramètre . La notion dexhaustivite permet de formaliser
T
cette intuition. Lexperience Een = (E n est une sous-experience de E n pour lapplication
T : {0, 1}n {0, . . . , n}
(x1 , . . . , xn ) ; T (x1 , . . . , xn ) =

n
X

xi .

i=1

Ecrivons maintenant la vraisemblance dans

mesure de comptage sur {0, 1}n : on a

en prenant comme mesure dominante la

n
Y
L , X1 , . . . , Xn =
Xi (1 )1Xi
i=1
T (X1 ,...,Xn )

(1 )nT (X1 ,...,Xn ) ,

et le crit`ere de factorisation nous dit que la statistique T (X1 , . . . , Xn ) est exhaustive. Il

ny a donc pas de perte dinformation si lon considère Een plutot que E n .
Exemple 6.4 (Loi exponentielle). On considère lexperience statistique engendree par
un n-echantillon de loi exponentielle de paramètre = R+ \{0}. La vraisemblance
secrit
n

X
Ln (, X1 , . . . , Xn ) = n exp
Xi
i=1

= n exp n X n

= p T (X1 , . . . , Xn ), h(X1 , . . . , Xn )

avec p(x, ) = n exp x et h = 1. Donc T (X1 , . . . , Xn ) = X n est une statistique
exhaustive dapr`es le theor`eme de factorisation.
9. Notee nA dans lexemple du Chapitre 2.

6.6 Exercices

159

Exemple 6.5 (Un exemple en dimension d = 2). On consid`ere lexperience statistique

engendree par un n-echantillon de loi N (, 2 ), avec comme param`etre = (, 2 )
= R R+ \{0}. La vraisemblance secrit
2 n/2

Ln (, X1 , . . . , Xn ) = (2 )

n

1 X
exp 2
(Xi )2
2

i=1

2 n/2

= (2 )

X
n
exp 2 ( n1
Xi2 2 X n +2 ,
2

i=1

P
ce qui montre que la statistique T (X1 , . . . , Xn ) = (X n , n1 ni=1 Xi2 ) est exhaustive daprès
le theorème de factorisation. Si lon suppose 2 = 1 connu, alors le paramètre devient
= et la vraisemblance secrit :
n

1X
Ln (, X1 , . . . , Xn ) = (2)n/2 exp
(Xi )2
2
i=1

= (2)n/2 exp n X n n2

exp

1
2

n
X

Xi2

i=1

et on conclut que dans ce cas T (X1 , . . . , Xn ) = X n est exhaustive dapr`es le crit`ere de

factorisation.

6.6

Exercices

Exercice 6.1. On suppose que = {0 , } R, avec 0 6= 1 , est reduit `a deux

points et que les mesures P0 et P1 sont mutuellement absolument continues (cest-`adire P0 P1 et P1 P0 ). Montrer quil nexiste pas destimateur ? tel que
, R(? , ) inf R(bn , ),
bn

o`
u linfimum est pris sur lensemble de tous les estimateurs, o`
u R(bn , ) = E (bn )2
designe le risque quadratique de lestimateur bn au point .

Exercice 6.2. Soit P , , avec R une famille de probabilites sur R reguli`ere
au sens de la Definition 6.14. On suppose que pour tout , on a
f (, x) > 0,

(dx) presque partout,

o`
u est une mesure dominante. Montrer que linformation de Fisher I() ne depend pas
du choix de .

160

Information statistique et th
eorie asymptotique

Exercice 6.3 (Inegalite de Cramer-Rao). On consid`ere lexperience engendree par un

n-echantillon de loi appartenant `a la famille reguli`ere {P , }, o`
u R. Si bn est
un estimateur de (de carre integrable), on a, pour tout

1 + b0 ()
E (bn )2
+ b()2 ,
nI()

(6.17)

o`
u b() = E bn est le biais Rde lestimateur bn .
En partant de lidentite 1 = R f (, x)(dx), montrer que
Z
f (, x)(dx).
0=
R

En deduire

E (bn ) f (, X) = 1,
et par linegalite de Cauchy-Schwarz, montrer linegalite de Cramer-Rao (6.17).

Troisi`
eme partie

Tests dhypoth`
eses

Chapitre 7

Tests et r
egions de confiance
Nous avons deja rencontre la notion de test statistique dans le Chapitre 3. Dans ce
chapitre, nous systematisons cette approche. Nous donnons quelques resultats incontournables de construction de test et nous abordons la notion doptimalite. Nous allons voir
que si on accepte de hierarchiser les erreurs de decision lorsque lon proc`ede `a un test
le principe de Neyman alors il est possible de definir une notion doptimalite plus
satisfaisante que pour lestimation.

7.1
7.1.1

Probl
ematique des tests dhypoth`
ese
Test et erreur de test

Situation
On consid`
ere une experience statistique engendree par une observation Z `a valeurs
dans Z, Z et associee `
a la famille de lois de probabilites

P , .

Lensemble des param`etres est un sous-ensemble de Rd , avec d 1.

Dans le modèle de la densite, Z = (X1 , . . . , Xn ) est un n-echantilllon o`
u les variables
aleatoires reelles Xi sont independantes et de meme loi, et P est la loi du n-echantillon
definie sur (Z, Z) = (Rn , B n ).
Dans le modèle de la regression à design deterministe, on peut ecrire lobservation comme Z = (Y1 , . . . , Yn ), o`
u les Yi = f (, xi ) + i sont independantes et le design (x1 , . . . , xn ) est donne une fois pour toutes. Dans ce cas, P est la loi jointe des
Yi definie sur (Z, Z) = (Rn , B n ).

164

Tests et r
egions de confiance

Principe du test statistique

On veut decider `a partir de lobservation de Z si une propriete de la loi de Z
est verifiee ou non. Cette propriete se traduit mathematiquement par un sous-ensemble
0 de lensemble des param`etres, et la propriete signifie que 0 .
D
efinition 7.1 (Terminologie de test). On teste

lhypoth`ese nulle

H0 : 0
contre

lalternative
H1 : 1 ,

avec 0 1 = . Construire un test signifie construire une procedure = (Z) de la

forme

si Z
/ R. on accepte lhypoth`ese nulle
0
(Z) = 1{ZR} =
(7.1)

1
si Z R. on rejette lhypothèse nulle
On dit que est un test simple.
Il est naturel de prendre 1 = \ 0 et cest ce que lon fera la plupart du temps.
On verra toutefois que ce choix ne simpose pas toujours et depend des proprietes que
lon souhaite obtenir pour . Pour le moment, on suppose 1 = \ 0 .
D
efinition 7.2. Toute procedure statistique de la forme (7.1) est
appele e test simple.
On designe indifferemment lensemble R Z ou bien levenement Z R comme zone
de rejet ou encore zone critique du test .
Remarque 7.1. Dans la definition 7.1, on parle de test simple car on nautorise que
deux reponses (accepter ou rejeter). On pourrait imaginer des situations plus generales,
o`
u lon se refuse `
a decider, ou bien o`
u lon renvoie une valeur entre 0 et 1 qui indique un
degr
e de suspicion de lhypothèse.
Erreur de test
Lorsque lon effectue un test simple, il y a quatre possibilites. Deux sont anecdotiques
et correspondent `
a une bonne decision :
Accepter lhypothèse H0 alors que 0 (cest-à-dire lhypothèse H0 est vraie).
Rejeter lhypothèse H0 alors que 1 (cest-à-dire lhypothèse H0 est fausse).
Les deux autres possibilites sont celles qui vont nous occuper, et correspondent `
a une
erreur de decision :
Rejeter lhypothèse H0 alors que 0 (cest-à-dire lhypothèse H0 est vraie).

7.1 Probl
ematique des tests dhypoth`
ese

165

Accepter lhypothèse H0 alors que 1 (cest-à-dire lhypothèse H0 est fausse).

D
efinition 7.3 (Erreur de première et seconde espèce). Lerreur de première espèce
correspond `
a la probabilite maximale de rejeter lhypothèse alors quelle est vraie :

sup E (Z) = sup P Z R .
0

Lerreur de seconde esp`ece correspond `

a la probabilite maximale daccepter lhypoth`ese
alors quelle est fausse :

sup E 1 (Z) = sup P Z
/R .
1

(7.2)

Remarque 7.2. Daprès cette terminologie, lerreur de première espèce mesure la probabilite (maximale) de rejeter `
a tort, et lerreur de seconde espèce daccepter à tort. Dans
le langage courant, commettre une erreur de première espèce revient à faire un faux
negatif , et commettre une erreur de seconde espèce revient à faire un faux positif .
Dans la plupart des situations, 0 est plus petit que 1 et le controle de lerreur
de seconde espèce (7.2) est difficile, surtout si 1 contient des points très proches de
0 . Cest pour cela que lon introduit la fonction de fonction de puissance dun test, qui
mesure sa performance locale sur lalternative.
D
efinition 7.4. La fonction de puissance du test simple est lapplication
() : 1 [0, 1]
definie par

1 ; () = P Z R .

Hypoth`
ese simple, hypoth`
ese composite
On utilise souvent la terminologie suivante dans le cas reel, o`
u R. Soit 0 .
Tester H0 : = 0 contre H1 : = 1 avec 1 6= 0 . On parle de test dune
hypothèse simple contre une alternative simple.
Tester H0 : = 0 contre H1 : 6= 0 . On parle de test dune hypothèse simple
contre une alternative composite.
Tester H0 : > 0 contre H1 : 0 . On parle de test dune hypothèse composite
contre une alternative composite.
Tester H0 : > 0 contre H1 : = 0 . On parle de test dune hypothèse composite
contre une alternative simple.

166

7.1.2

Tests et r
egions de confiance

Comparaison de test, principe de Neyman

Idealement, on souhaite que lerreur de première espèce et lerreur de seconde espèce

soient toutes deux simultanement petites. Les deux tests triviaux
1 = 1 , et 2 = 1Z
qui consistent respectivement à accepter systematiquement lhypothèse et `
a la rejeter systematiquement, sans utiliser lobservation Z, ont respectivement une erreur de
première espèce nulle et une erreur de seconde espèce nulle. Malheureusement la puissance de 1 est catastrophique : (1 ) = 0 en tout point de toute alternative 1 . De
meme lerreur de première espèce de 2 est egale à 1, meme si lhypothèse est reduite `
a
un point, quelle que soit lhypothèse.
Une methodologie, proposee historiquement par Neyman, consiste à imposer une disymetrie dans la problematique de test : on decide que le controle de lerreur de première
espèce est crucial. La demarche de construction de test sera alors, parmi les tests qui ont
une erreur de première espèce controlee, de choisir le (ou les) test(s) le(s) plus puissant()s,
cest-`
a-dire ayant une erreur de seconde espèce la plus petite possible.
D
efinition 7.5. Soit [0, 1] un niveau de risque. Un test simple est de niveau si
son erreur de première espèce est inferieure ou egale a
` .
D
efinition 7.6 (Principe de Neyman). Soit [0, 1] un niveau de risque. Le test ?
est optimal (uniformement plus puissant, ou UPP) pour tester
H0 : 0

contre

H1 : 1

si ? est de niveau et, pour tout test de niveau , on a

1 , () (? ).

7.2
7.2.1

Hypoth`
ese simple contre alternative simple
Principe de Neyman et d
ecision `
a deux points

Dans le cas dune hypothèse simple contre une alternative simple, on sait resoudre de
facon optimale le principe de Neyman. Il sagit dune situation remarquable, qui ne se
generalise pas facilement hormis des cas particuliers comme les familles à rapport de
vraisemblance monotone, voir Section 7.3.1 dans un cadre non-asymptotique.
On suppose lensemble des paramètres reduit à deux points : = {0 , 1 }. A partir
de lobservation Z, on teste
H0 : = 0 contre H1 : = 1 .

7.2 Hypoth`
ese simple contre alternative simple

167

D
efinition 7.7 (Optimalite). Soit [0, 1] un niveau de risque. Un test ? de niveau
est optimal ou PP (Plus Puissant) si
(? ) = sup ()

o`
u le supremum est pris parmi tous les tests de niveau .
Dans le cas dune hypoth`ese simple contre une alternative simple, estimation et test
se confondent. En effet, un estimateur raisonnable 1 se represente sous la forme
bn = 0 1ZA + 1 1Z A
/
pour un certain ensemble A Z, et peut se mettre en correspondance avec le test simple
de lhypoth`ese H0 : = 0 contre H1 : = 1 defini par
n = 1

Z A
/

e ; `(, )
e est une fonction de perte 2 donnee, et si R bn , = E `(bn , )
Si (, )
designe le risque de lestimateur bn pour la perte `(, ) au point , on a

R bn , = E `(0 , )1ZA + `(1 , )1Z A
/

= `(0 , ) P = 0 + `(1 , ) P = 1 .
Donc

R(bn , 0 ) = `(1 , 0 ) P0 = 1
soit lerreur de première espèce du test , et

R(bn , 1 ) = `(0 , 1 ) 1 () ,
soit lerreur de seconde espèce du test. Construire un estimateur ayant un risque petit en 0 et 1 est equivalent ici à construire un test ayant simultanement une erreur
de première et de seconde espèce petite.
Le principe de Neyman au niveau se traduit comme la recherche de qui minimise
1 (), sous la contrainte P0 = 1 .

7.2.2

Lemme de Neyman-Pearson

Dans le cas dune hypothèse simple contre une alternative simple, un test optimal ?
existe 3 , et on sait le construire explicitement à laide du Lemme de Neyman-Pearson.
1. Cest-`
a-dire contraint a
` prendre des valeurs dans lespace des paramètres = {0 , 1 } ici.
e 0 pour tous ,
e et `(, )
e = 0 si et
2. Cest-`
a-dire verifiant les hypothèses minimales `(, )
e
seulement si = .
3. Pour des raisons de simplicite, on fera dans ce cours une restriction technique, mais le resultat est
vrai en toute generalite.

168

Tests et r
egions de confiance

La famille {P0 , P1 } est dominee, par exemple par = P0 + P1 . Notons

f (, z) =

d P
(z), z Z, = 0 , 1
d

les densites associees. Si lon veut estimer dans ce contexte, alors lestimateur du
maximum de vraisemblance secrit
bnmv = 0 1{f (1 ,Z)<f (0 ,Z)} + 1 1{f (0 ,Z)<f (1 ,Z)}
et il est bien defini sur levenement {f (0 , Z) 6= f (1 , Z)}, sinon, on ne peut pas dire
grand-chose. La comparaison de f (0 , Z) et f (1 , Z) nous fournit donc une règle de
decision naturelle. Mais on va un peu affiner cette règle de decision, pour pouvoir calibrer lerreur de première espèce. Soit c = c() > 0 à choisir. On decide alors de rejeter
H0 si
f (1 , Z) > cf (0 , Z),
et on considère la famille des tests de region critique

Rc = f (1 , Z) > cf (0 , Z) .

(7.3)

Le choix de c est regle par le resultat suivant.

Th
eor`
eme 7.1 (Lemme de Neyman-Pearson). Soit [0, 1]. Sil existe c = c() solution de

P0 f (1 , Z) > cf (0 , Z) = ,
(7.4)
alors le test de region critique R? = Rc() est optimal.
Demonstration. Considerons un test simple de niveau defini par la region critique R.
On a
Z
Z

?
P1 Z R P1 Z R =
f (1 , z)(dz)
f (1 , z)(dz)
?
RZ
ZR
=
f (1 , z)(dz)
f (1 , z)(dz)
R? \R

R\R?

car f (1 , z)(dz) = P1 (dz) est une mesure de probabilite. Puisque

R? \ R R? ,
on a, sur cet ensemble
f (1 , z) > c()f (0 , z).
De meme, sur R \ R? ,
f (1 , z) c()f (0 , z).

7.2 Hypoth`
ese simple contre alternative simple

169

Il vient
Z

f (0 , z)(dz)
f (0 , z)(dz)
R? \R
R\R?
Z

Z
f (0 , z)(dz)
= c()
f (0 , z)(dz)
?
R
R

?
= c() P0 Z R P0 Z R

P1 Z R? P1 Z R c()

o`
u lon a utilise cette fois-ci le fait que f (0 , z)(dz) est une mesure de probabilite.
Finalement, cette dernière quantitt
car, dune part, R? est de la forme
e est positive

?
Rc() donne par (7.4) et donc P0 Z R = et dautre part, puisque R est la zone
de rejet dun test de niveau , on a P0 Z R .
D
efinition 7.8 (Test simple de Neyman-Pearson). Le test simple de lhypothèse simple
H0 : = 0 contre lalternative simple H1 : = 1 defini 4 par la region critique
R? = Rc() du Theorème 7.1 est appele test de Neyman-Pearson.
Corollaire 7.1. Si ? est le test de Neyman-Pearson de niveau de H0 : = 0 contre
H1 : = 1 , on a
(? ) .
Demonstration. Le test de Neyman-Pearson ? est plus puissant que tous les tests de
niveau , en particulier, il est plus puissant que le test artificiel = 1u , o`
u U est une
variable aleatoire 5 , independante de Z, de loi uniforme. En effet,

P0 = 1 = .
Donc est de niveau et puisque ? est le test de Neyman-Pearson, on a

(? ) () = P1 = 1 = .

Remarque 7.3. Une condition suffisante pour que lequation (7.4) ait une solution est
que la variable aleatoire f (1 , Z)/f (0 , Z) soit bien definie et ait une densite par rapport
`a la mesure de Lebesgue sur R+ sous P0 .
Exemple 7.1. Soit F la fonction de repartition dune loi de probabilite donnee sur R. On
consid`ere lexperience statistique engendree par un n-echantillon de loi P de fonction de
repartition F ( ), o`
u = {0, 0 } pour un point 0 6= 0 de R . On teste H0 : = 0
4. Cela suppose implicitement quune solution c() existe, ce qui sera verifie dans la plupart de nos
exemples.
5. Quitte `
a considerer une bonne extension de lespace de probabilite sur lequel sont definis les P , on
peut toujours faire exister une telle variable aleatoire.

170

Tests et r
egions de confiance

contre H1 : = 0 . Si X1 , . . . , Xn designe lechantillon observe, on a la representation

pour
Xi = + i , i = 1, . . . , n
o`
u les i sont des variables aleatoires independantes, identiquement distribuees, de loi
F sous P . Le probl`eme consiste donc `a tester labsence dun facteur additif = 0
sajoutant aux variables i ou non. Si lon suppose que F est absolument continue, de
densite f et que la variable aleatoire f (X 0 )/f (X) a une densite sous P avec ,
alors (7.4) a une solution et le test de Neyman-Pearson a pour zone de rejet
Rn, =

n
nY
o
f (Xi 0 )
> c() ,
f (Xi )
i=1

o`
u le choix de c() > 0 est regle par la condition de niveau du test :
P0

n
hX
i=1

log

i
f (Xi 0 )
> log c() = .
f (Xi )

Lorsque n est grand, on peut calculer une valeur approchee de c à laide du theorème
central-limite.
Exemple 7.2. Considerons une seule observation X de loi de Poisson de paramètre
> 0. On teste H0 : = 0 contre H1 : 1 , avec 0 6= 1 . Ici, le test de Neyman-Pearson
a pour zone de rejet
o
n

X
Rn, = exp (1 0 ) (1 1
0 ) c() ,
o`
u le choix de c() garantit que le test est de niveau . Ici,
n
log c() (1 0 ) o
Rn, = X >
.
log 1 log 0
Pour trouver c(), on doit en principe resoudre
h
log c() (1 0 ) i
P 0 X >
= ,
log 1 log 0
mais la loi de X nest pas absolument continue, donc cette equation na pas de solution
en general. On cherche alors le plus petit seuil c() > 0 de sorte que
h
log c() (1 0 ) i
P 0 X >
.
log 1 log 0
En pratique, on procède de la manière suivante : par exemple, pour 0 = 5 et = 5%,
on trouve

P0 X > 9 = 0, 032, et P0 X > 8 = 0, 068,
et on rejette lhypothèse si {X > 9} et on laccepte si {X 9}. Ainsi, lerreur de première
espèce du test est plus petite que = 5%, mais on ne peut plus garantir que le test est
optimal au sens du Theorème 7.1.

7.3 Tests dhypoth`

eses composites

171

Remarque 7.4. Il existe une version plus sophistiquee du test de Neyman-Pearson, qui
permet de traiter le cas o`
u lequation (7.4) na pas de solution, comme dans lexemple
7.2. Il faut alors considerer une classe plus large que les tests simples, la classe des tests
randomises (voir par exemple [1]).

7.3
7.3.1

Tests dhypoth`
eses composites
Familles `
a rapport de vraisemblance monotone?

On fait la restriction importante ici R, et plus precisement est un intervalle

ouvert. On suppose la famille {P , } dominee, et on note une mesure dominante.
Comme dhabitude, on definit la famille de densites
f (, z) =

d P
(z), z Z, .
d

Lhypoth`ese de travail dans toute cette section est

Hypoth`
ese 7.1. Pour tout , on a f (, z) > 0, (dz)-presque partout.
Soit e un point arbitraire de lensemble des param`etres. On souhaite tester une
hypoth`ese nulle de la forme
H0 : e
contre lalternative
H1 :

e
> .

Pour appliquer le resultat de Neyman-Pearson, il faut, dune certaine mani`ere, pouvoir

traiter tous les tests de lhypoth`ese simple H0 : = 0 contre lalternative H1 : = 1
e
simultanement pour tous les 0 e et 1 .
D
efinition 7.9. Sous lHypoth`ese 7.1, la famille de densite {f (, ), }, avec R,
est dite `
a rapport de vraisemblance monotone sil existe une application T : Z R
mesurable, de sorte que pour tous 1 < 2 ,
f (2 , Z)
f (1 , Z)

est une fonction monotone de T (Z).

Remarque 7.5. Quitte `

a changer T en T , on peut toujours supposer que cette fonction
est croissante.
Th
eor`
eme 7.2 (Lehmann). Soit [0, 1] un niveau de risque. On suppose que R
est un intervalle ouvert et que la famille {f (, ), } satisfait lHypoth`ese 7.1 et est `
a
e ) > 0
rapport de vraisemblance monotone. Si, pour e , il existe une solution = (,
`
a

Pe T (Z) > = ,

172

Tests et r
egions de confiance

alors le test de region de rejet

e )
R? = T (Z) > (,
e et de puissance maximale
est de niveau pour tester H0 : e contre H1 : > ,
parmi tous les tests de niveau .
Demonstration. Cest une adaptation de la preuve du Lemme de Neyman-Pearson. Lhypothèse dune famille `
a rapport de vraisemblance monotone se traduit par la propriete
e la condition
suivante : pour tous > ,
f (, Z)
>c
e Z)
f (,
est equivalente `
a
e , c)
T (Z) (,
pour une certaine fonction . Notons ? le test simple de region critique R? et soit 0 > e
un point arbitraire de lalternative. Montrons que la puissance 0 (? ) est maximale parmi
tous les tests de niveau pour tester H0 contre H1 .
Si lon considère le test de lhypothèse simple = e contre lalternative simple = 0 ,
on sait que le test de Neyman-Pearson
NP = 1 f (0 ,Z)
e
f (,Z)

e
>c(,0 ,)

e est la constante du Theor`eme 7.1, a la puissance maximale parmi tous les

o`
u c(, 0 , )
tests de niveau . Dapr`es notre remarque preliminaire, il secrit aussi sous la forme
NP = 1

0 ,)
e
e
T (Z) ,,c(,

e est determinee par la condition

et c(, 0 , )

e , c(, 0 , )
e = ,
Pe T (Z) ,
sil existe. Cest le cas, daprès les hypothèses, et on a aussi

e , c(, 0 , )
e = (,
e ).
,
Daprès le Lemme de Neyman-Pearson, on en deduit que ? a une erreur de seconde
espèce maximale au point 0 parmi tous les tests de niveau , et donc uniformement sur
lalternative.
00
Il reste `
a montrer que ? est bien de niveau . Soit e un point arbitraire de
lhypothèse nulle. Posons

0 = P00 ? = 1 .

7.3 Tests dhypoth`

eses composites

173
00

Alors 0 est le niveau du test ? utilise pour tester lhypoth`ese nulle = contre
e Alors, comme precedemment, le Lemme de Neyman-Pearson entrane
lalternative = .
00
?
que est optimal pour tester = contre lalternative = e au niveau 0 . Finalement,
le Corollaire 7.1 implique que la puissance de ? est plus grande que 0 , cest-`a-dire

(? ) P00 ? = 1 = 1 Pe ? = 0 ,
soit

P00 ? = 1 Pe ? = 0 = .
00

Comme est arbitraire, le theor`eme est demontre.

7.3.2

Exemples

Exemple 7.3. On observe X1 , . . . , Xn independantes, de loi N (, 2 ), o`

u 2 est connu,
et = R. On teste H0 : = 0 contre H1 : = 1 , avec 0 < 1 . On a
Z = (X1 , . . . , Xn ), et on prend pour mesure dominante la mesure de Lebesgue sur Rn .
Si g(x) = (2)1/2 exp(x2 /2) designe la densite de la loi gaussienne standard sur R, on
a
n
X
f (, Z) =
g( Xi )
i=1

n

1
1 X
2
exp

)
i
2
2
(2 2 )n/2
i=1

n
1
n2
1 X 2 n
X
+
X

exp

n
i
2 2
2
2 2
(2 2 )n/2
i=1

do`
u

f (1 , Z)
n
n
= exp 2 (1 0 )X n exp 2 (21 20 ) .
f (0 , Z)

2
La zone de rejet du test de Neyman-Pearson secrit

n

n
f (1 , Z) > cf (0 , Z) =
(1 0 )X n 2 (21 20 ) > c
2

2

0 + 1
2 log c
= Xn >
+
.
2
n(0 1 )
Le choix de c est regle par lequation

1
2 log c
P0 X n > (0 + 1 ) +
= .
2
n(0 1 )

(7.5)

Sous P0 , les Xi sont distribuees comme des variables aleatoires gaussiennes independantes,
de moyenne 0 et de variance 2 . Donc, sous P0 , on peut ecrire

X n = 0 + (0 ) ,
(7.6)
n

174

Tests et r
egions de confiance

o`
u la loi de (0 ) sous P0 est la loi gaussienne standard N (0, 1). Donc lequation (7.5)
est equivalente `
a

P 0
soit

(0 )

n
log c
= ,
(1 0 ) +
2
n 0 1

n
1 log c
= 1 (1 )
(1 0 ) +
2
n 0 1

o`
u (x) designe la fonction de repartition de la loi N (0, 1), do`
u finalement

(1 0 )2
n
c = exp
+
(0 1 )1 (1 ) .
2

Exemple 7.4. Dans le meme contexte, on a bien, pour > e

n( )

e
n
f (, Z)
2
e2 ) ,
= exp
T
(X
,
.
.
.
,
X
)

1
n
e Z)
2
2 2
f (,
avec T (X1 , . . . , Xn ) = X n . La famille {f (, ), R} est `a rapport de vraisemblance
monotone, et un test optimal (uniformement plus puissant) de H0 : e contre H1 :
> e est donne par la region critique

R = Xn > c ,
e ) est calibre par lequation
o`
u c = c(,

Pe X n > c = ,
e
soit, dapr`es 7.6 en remplacant 0 par ,

e
()

i
n
e = ,
(c )

o`
u la loi de () sous Pe est la loi N (0, 1). Do`
u
e

1 (1 )
e ) = e +
c = c(,
.
n

On peut expliciter sur cet exemple la puissance du test optimal

? = 1

e
X n >+

1 (1)

7.4 p valeur

175

e en utilisant une fois de plus la representation

On a, pour tout point de lalternative > ,

()

X n = + n , o`
u la loi de sous P est la loi N (0, 1),

1 (1 )

(? ) = P + () > e +
n
n

i
h
n e
= P () >
( ) + 1 (1 )

n

=1
(e ) + 1 (1 )

n
e 1 (1 )
( )
=

en utilisant lidentite 1 (x) = (x) (qui traduit simplement le fait que la loi gaussienne standard est symetrique).
Remarque 7.6. Hormis quelques cas particuliers comme les familles à rapport de
vraisemblance monotone 6 , on ne sait pas en general exhiber de tests optimaux au sens
de Neyman lorsque lhypothèse nulle ou lalternative sont composites. Pour developper
une theorie generale, nous nous placerons comme pour lestimation dans un cadre
asymptotique dès le Chapitre 8.

7.4
7.4.1

p valeur
Notion de p valeur

Introduction sur un exemple

Reprenons lExemple 7.4 avec e = 0, o`
u lon teste au niveau lhypoth`ese nulle
H0 : 0 contre lalternative H1 : > 0. La r`egle de decision (optimale) prend la forme

On rejette lhypoth`ese H0 si X n >

1 (1 )

Si les observations Xi sont independantes, ont un moment dordre 2, et si n est grand,

alors cette approche est plausible. Toutefois, on ne connat pas en general, mais on
peut lestimer par
bn , de sorte quen pratique, on va rejeter lhypoth`ese si
Xn >
bn

1 (1 )

.
n

(7.7)

On se donne sa valeur de favorite, par exemple 5%, et on effectue le test : on accepte

ou on rejette, en fonction du nombre de donnees n, des valeurs calculees `a partir des
observations X n ,
bn , et de la valeur choisie, selon la r`egle de decision (7.7).
6. Et le cas des echantillons gaussiens etudies plus loin dans le Section 7.6.1.

176

Tests et r
egions de confiance

Imaginons que lon rejette lhypoth`ese. Quaurions-nous fait pour le choix de = 1% ?

Ou bien = 1/1000, etc. ? En prenant de plus en plus petit, il y a fatalement un seuil
`
a partir duquel on va systematiquement accepter lhypothèse : pour se garder contre
lerreur de première espèce, on est pret à augmenter les faux positifs 7 .
D
efinition de la p -valeur dun test
En pratique, accepter ou rejeter lhypothèse na donc que peu de signification scientifique, surtout si est proche du seuil limite o`
u la decision va basculer : en baissant ,
on accepte lhypothèse (ou bien en augmentant on rejette lhypothèse). Par contre, le
seuil de basculement de la decision (qui depend des observations) a une signification et
une interpretation : cest ce que lon appelle la p-valeur du test.
D
efinition 7.10 (p valeur). Soit, pour tout [0, 1], une famille de tests simples
de niveau pour tester lhypothèse H0 contre lalternative H1 . On note R la zone de
rejet de . On appelle p-valeur du test la quantite
p valeur(Z) = inf{, Z R }.
La p-valeur dun test (de la famille de tests indicee par le niveau ) est le plus petit
niveau pour lequel on rejette H0 .
R`
egle dinterpr
etation
On est confiant vis-`
a-vis de la decision de ne pas rejeter H0 lorsque la p -valeur du test
est grande. Voici quelques interpretations courantes qui sevissent dans les applications
(extrait du livre de Wasserman [11]) de linterpretation des ordres de grandeur des p valeurs :
p valeur
< 0.01
0.01 0.05
0.05 0.1
> 0.1

suspicion de rejet
suspicion tr`es forte contre H0
suspicion forte contre H0
suspicion faible contre H0
peu ou pas de suspicion contre H0

Attention ! Une p -valeur grande nest pas un indicateur en faveur de lacceptation de

lhypoth`ese H0 , mais plutot en faveur du non-rejet (suggerant en pratique denvisager
dautres tests plus precis ou plus co
uteux). Une p -valeur peut etre grande pour deux
raisons :
effectivement, lhypoth`ese H0 est vraie,

7. Dans le cas limite = 0, on ne peut pas se permettre de rejeter lhypoth`ese a

` tort, et ceci
oblige le test a
` accepter systematiquement lhypoth`ese.

7.4 p valeur

177

lhypothèse H0 nest pas vraie, mais le test est très peu puissant (beaucoup de faux
positifs) et son erreur de seconde espèce est grande.
Concernant la seconde raison, prenons par exemple le test trivial = 1 . Sa p-valeur
vaut 1 et prend donc la plus grande valeur possible. Mais son erreur de seconde espèce
est maximale.

7.4.2

Propri
et
es de la p -valeur

On peut preciser un peu le sens mathematique des remarques precedentes. On se

restreint au cas o`
u lhypothèse nulle est simple : on teste H0 : = 0 contre H1 = 6= 0 .
Proposition 7.1. Soit { , 0 1} une famille de tests exactement 8 de niveau
dont la zone de rejet est de la forme

R = T (Z) c
pour une certaine application T : Z R mesurable. Alors, si Ze designe une copie
independante de Z, on a

e T (Z) | Z .
p valeur(Z) = P0 T (Z)
De plus, si la loi de T (Z) est absolument continue sous P0 , alors la loi de p valeur(Z)
est uniforme sous P0 .
Le premier resultat de la Proposition 7.1 sinterprète de la facon suivante : la pe dune experience copie soit
valeur est la probabilite sous P0 quune observation T (Z)
superieure `
a ce que lon a observe, cest-à-dire T (Z).
Demonstration. Lapplication c : [0, 1] R est decroissante et c0 = + et c1 = .
On a lidentite
cpvaleur(Z) = T (Z).
Il vient

e T (Z) | Z = P T (Z)
e cpvaleur(Z) | Z
P0 T (Z)
0
= p valeur(Z)
par definition de lerreur de première espèce, en utilisant lhypothèse que le test est
exactement de niveau .
La seconde partie de la proposition est standard. Si F designe la fonction de repartition
e posons
de T (Z),

e T (Z) | Z = F T (Z) .
Y = P0 T (Z)
8. Au sens o`
u lerreur de première espèce vaut exactement .

178

Tests et r
egions de confiance

Alors, pour tout reel x, on a

P0 Y x = P0 F T (Z) x

= P0 T (Z) F 1 (x)

= F F 1 (x) = x
si x [0, 1], et o`
u F 1 (x) = inf{t R, F (t) x} (Meleard [5], paragraphe 4.2.4 p. 78).
Si x 0, la probabilite ci-dessus vaut 0 et si x > 1, elle vaut 1. Donc la loi de Y sous
P0 est uniforme sur [0, 1], ce qui ach`eve la demonstration.

7.5

R
egions de confiance

Nous avons dej`

a construit des intervalles de confiance dans le contexte de la precision
destimation pour le modèle dechantillonnage general du Chapitre 3. Nous formalisons
un peu dans cette section la notion et le lien naturel avec les tests dhypothèse, que
nous avons deja utilises au Chapitre 3.
Situation
On considère lexperience statistique engendree par lobservation dun n-echantillon
X1 , . . . , Xn o`
u la variable aleatoire reelle Xi suit la loi P , avec Rd , d 1. On peut
immediatement generaliser ce qui va suivre à une experience statistique arbitraire, avec
un simple co
ut notationnel.

7.5.1

R
egion de confiance

D
efinition 7.11. Soit [0, 1]. Une region de confiance de niveau 1 pour le
param`etre est un ensemble
C = C (X1 , . . . , Xn ) Rd ,
tel que

, P C(X1 , . . . , Xn ) 1 .

(7.8)

La propriete (7.8) est appelee propriete de couverture de la region C (X1 , . . . , Xn ).

Bien quen principe arbitraire, on construit en pratique des regions de confiance très
particulières. Si R, on utilise le plus souvent des intervalles. Construire un intervalle
de confiance de niveau 1 revient alors à se donner deux statistiques g (X1 , . . . , Xn )
et d (X1 , . . . , Xn ) avec
g (X1 , . . . , Xn ) d (X1 , . . . , Xn )

7.5 R
egions de confiance

179

telles que, pour tout ,

P g (X1 , . . . , Xn ) d (X1 , . . . , Xn ) 1 .
Posee comme cela, la construction des statistiques g (X1 , . . . , Xn ) et d (X1 , . . . , Xn ) na
pas dinteret : nimporte quel intervalle contenant conviendra. La qualite dun intervalle
de confiance de niveau 1 se mesurera `a sa longueur (en generale aleatoire) que lon
cherche `
a rendre la plus petite possible, sous la contrainte de la propriete de couverture.
Dans ce sens, la problematique des tests et des intervalles de confiance est similaire.

7.5.2

Fonctions pivotales : le cas non-asymptotique

Dans le cas particulier o`

u lensemble des paramètres est de dimension 1, nous
examinons une methode de construction de regions de confiance, très particulière, mais
qui sera mise en uvre de manière plus systematique dans le cadre asymptotique (voir
8.2). Elle est fortement apparentee à la construction des tests.
Supposons que lon dispose dune variable aleatoire 9 S(, X1 , . . . , Xn ) à valeurs dans
R dont la loi sous P ne depende pas de . En particulier, pour tout intervalle I de R, la
probabilite

P S(, X1 , . . . , Xn ) I
ne depend pas de .
D
efinition 7.12. On appelle pivot toute variable aleatoire S(, X1 , . . . , Xn ) dont la loi
ne depend pas de .
Exemple 7.5.
1. Si X1 , . . . , Xn sont independantes, de meme loi N (, 2 ), o`
u 2 est connu et
= R est le paramètre inconnu, alors
S(, X1 , . . . , Xn ) =

est pivotale.
2. Si X1 , . . . , Xn sont independantes, de meme loi exponentielle de paramètre , o`
u
R+ \{0} est le paramètre, alors S(, X1 , . . . , Xn ) = X n est pivotale. En effet,
la loi de X sous P est exponentielle de paramètre . Sa densite par rapport à la
mesure de Lebesgue secrit g(), o`
u g(x) = exp(x)1{xR+ } est la densite de la
loi exponentielle de paramètre 1. De manière generale, si X a pour densite f par
rapport `
a la mesure de Lebesgue, alors X a pour densite 1 f (1 ) si 6= 0.
Donc X a pour densite g() qui ne depend pas de . Par suite, puisque
n

S(, X1 , . . . , Xn ) =

1X
Xi ,
n
i=1

9. Attention : S(, X1 , . . . , Xn ) depend de , elle nest pas observable et ce nest pas une statistique.

180

Tests et r
egions de confiance
et que les Xi sont independantes, la loi de S(, X1 , . . . , Xn ) ne depend pas de .

Une methode de construction de pivot est la suivante. Soit une variable aleatoire
de meme loi que le pivot. Pour [0, 1], on considère la classe des intervalles I R
verifiant

P S(, X1 , . . . , Xn ) I = P I 1 .
(7.9)
Alors la region

I = , S(, X1 , . . . , Xn ) I
est une region de confiance pour de niveau 1 . On est alors ramene à choisir dans
la classe des intervalles I satisfaisant (7.9) de sorte que le diamètre de I soit le plus
petit possible.
M
ethode g
en
erique de construction dun pivot
Dans les deux exemples precedents, les pivots se basent sur des estimateurs preliminaires du paramètre . Si bn est un estimateur de , une methode generique de construction
dun pivot est la suivante.

On note x ; (x) = P bn x , la fonction de repartition de bn au point .
Proposition 7.2. Si
(i) ; (x) est monotone pour tout x R,
(ii) x ; (x) est continue pour tout ,
alors
S(, X1 , . . . , Xn ) = (bn )
est un pivot de loi uniforme sur [0, 1]. En particulier, pour tout [0, 1]
h
i
P
(bn ) 1
=1
2
2
et

1
I = 1
/2 , 1/2
est un intervalle de confiance pour de niveau 1 .
Remarque 7.7. De meme, pour tout [0, 1],

1
I() = 1
, (1)
1
et on peut chercher la valeur qui minimise 1
(1) pour trouver le meilleur
intervalle de confiance parmi la classe des estimateurs donnes par le pivot.

7.5.3

Dualit
e tests r
egions de confiance

Il existe un lien naturel entre intervalles de confiances et tests que nous avons dej`
a
mis en evidence au Chapitre 3.

7.5 R
egions de confiance

181

Un exemple illustratif
Considerons lexperience statistique engendree par lobservation de X1 , . . . , Xn , independantes
et de meme loi N (, 2 ), o`
u 2 > 0 est connu et = R est le param`etre inconnu.
Soit [0, 1]. Posons, pour 0 ,
n

o
A (0 ) = 0 X n 1 1
2
n
et

o
R (0 ) = 0 X n > 1 1
.
2
n
Alors lensemble R (0 ) sinterpr`ete naturellement comme la zone de rejet dun test de
niveau pour lhypoth`ese
H0 : = 0 ,

contre

H1 : 6= 0 .

De plus, A (0 ) = Rc (0 ) correspond `a la zone o`

u lon accepte lhypoth`ese.
Proposition 7.3. Si, pour tout 0 , il existe un test de niveau et de zone de rejet
R (0 ) de lhypoth`ese nulle H0 : = 0 contre lalternative H1 : 6= 0 , alors, pour tout

n
o
C = C (X1 , . . . , Xn ) = , (X1 , . . . , Xn ) R ()c
est une region de confiance de niveau 1 pour .
Reciproquement, si C (X1 , . . . , Xn ) est une region de confiance de niveau 1 pour
le param`etre , alors, le test de lhypoth`ese nulle H0 : = 0 contre lalternative
6= 0 de region critique

R (0 ) = 0 Cc
est de niveau .
Demonstration. On a

P C(X1 , . . . , Xn ) = P (X1 , . . . , Xn ) R(0 )c

= 1 P (X1 , . . . , Xn ) R(0 )
1 .
Reciproquement, il suffit de noter que pour tout 0 , on a

P0 (X1 , . . . , Xn ) R(0 ) = 1 P0 (X1 , . . . , Xn ) Rc

= 1 P0 0 C
.

Remarque 7.8. Ce resultat, relativement immediat, ne nous dit rien sur la puissance
du test dune part, ni sur la qualite (le diam`etre) de la region de confiance dautre part.
Ces deux notions sont evidemment etroitement liees.

182

7.6
7.6.1

Tests et r
egions de confiance

Tests dans le mod`

ele de r
egression lin
eaire
Echantillons gaussiens

Situation
Dans toute cette section, on considère lexperience statistique engendree par un nechantillon de la loi N (, 2 ), o`
u = (, 2 ) = R R+ {0}. Il y a concidence
dans ce cas très simple avec le modèle de regression lineaire à design deterministe :
les observations sont Y = (Y1 , . . . , Yn ) et on a la representation
Y = M + ,

(7.10)

o`
u
M = (1 . . . 1)T (n fois) et = (1 . . . n )T ,
les i etant sous P des variables gaussiennes standard. Lestimateur du maximum de
vraisemblance est

bnmv =
bnmv , (b
n2 ) mv
n

X
1
= Y n, n
(Yi Y n )2 ,
i=1

voir Chapitre 5, Proposition 5.5. Une autre mani`ere peut-etre plus naturelle dans ce
contexte est de maximiser directement la log-vraisemblance
n

n
1 X
`n (, 2 ), Y1 , . . . , Yn = log(2 2 ) 2
(Yi )2 .
2
2
i=1

On a

`n (, 2 ), Y1 , . . . , Yn

1
2

i=1 (Yi

n

n
1 X

2 ), Y , . . . , Y

+
(Yi )2 ,
2

1
n
n
2 2 2 4
i=1

ce qui nous fournit le point critique

1X
bn = Y n ,
(Yi Y n )2 .
n
i=1

On verifie ensuite que le point critique est lunique maximum global et donc bn = bnmv .
Un estimateur sans biais de 2 est
n
1 X
n
2
(Yi Y n )2 =
(b
2 ) mv .
sn =
n1
n1 n
i=1

Les proprietes des vecteurs gaussiens et des lois derivees etudiees au Chapitre 1 nous
donnent gratuitement la loi jointe de (Y n , s2n ).

7.6 Tests dans le mod`

ele de r
egression lin
eaire

183

Lemme 7.6.1. Sous P , les variables Y n et s2n sont independantes. De plus, Y n suit la
2
2
loi N , n et (n 1) sn2 suit la loi du 2 `
a n 1 degres de liberte.
Demonstration. Cest une application de la Proposition 5.10 qui repose sur la Proposition
1.1 (Cochran) du Chapitre 1.
Batterie de tests classiques
Soit 0 R et 02 > 0 donnes.
1. On teste
H0 : 0

contre

H1 : > 0 .

Un test de niveau est donne par la zone de rejet

T
R = T (Y) > q1,n1
,
o`
u

T (Y) =

1
n1

n(Y n 0 )
,
Pn
2 1/2
i=1 (Yi Y n )

T
o`
u q1,n1
est le quantile dordre 1 de la loi de Student `a n 1 degres de
liberte.
Si lon veut tester
H0 : 0 contre H1 : < 0 ,

on prend la zone de rejet definie par

T
R = T (Y) < q1,n1
.
2. On teste
H0 : = 0

contre

H1 : 6= 0 .

Un test de niveau est par exemple le test defini par la zone de rejet

T
R = T (Y) > q1/2,n1
.
Il nest pas optimal.
3. On teste
H0 : 2 02

contre

H1 : 2 > 02 .

Un test de niveau est defini par la zone de rejet

2
R = V (Y) > q1,n1
,
o`
u
V (Y) =

n
1 X
(Yi Y )2
02 i=1

184

Tests et r
egions de confiance
2

et q1,n1
est le quantile dordre 1 de la loi du 2 `a n 1 degres de liberte. Si
lon veut tester
H0 : 2 02 contre H1 : 2 < 02 ,

on prend la zone de rejet definie par

2
R = V (Y) < q1,n1
,
4. Finalement, si lon teste
H0 : = 0

contre

H1 : 2 6= 02 ,

on construit un test de niveau en definissant le test de zone de rejet comme

R = V (Y) < c1 () ou V (Y) > c2 () ,
o`
u les constantes ci (), i = 1, 2 sont definies par les conditions

R, P(,0 ) R =
et

R, E,0 V (Y)1[c1 (),c2 ()] V (Y) = (n 1)(1 ).
Un type de tests couramment rencontres en pratique sont les tests relatifs à deux echantillons
gaussiens. Cest lobjet de lexercice 7.1.
Sur loptimalit
e des tests dans le cas gaussien
Nous avons affirme loptimalite de certains des tests presentes dans le paragraphe
precedent. Pour la demontrer, on prouve dabord quun test optimal peut etre construit
par la statistique de test annoncee (la moyenne empirique, la variance empirique, la
statistque T de Student, et ainsi de suite), puis on optimise les paramètres de sorte de
garantir le niveau voulu pour une erreur de seconde espèce minimale, et on retrouve ainsi
les tests presentes ci-dessus.
Le premier point est delicat et utilise la notion de statistique exhaustive definie au
Chapitre 6 et le fait que les modèles gaussiens consideres appartiennent à une famille
remarquable de modèles statistiques 10 .

7.6.2

Test dappartenance `
a un sous-espace lin
eaire

Situation
On se place dans le cadre du Chapitre 5, sous lHypoth`ese de la Proposition 5.6 et
dans le cadre de la regression multiple gaussienne. On observe
Y = M + , = Rd
10. Les mod`eles exponentiels, dont letude depasse le cadre de ce cours.

7.6 Tests dans le mod`

ele de r
egression lin
eaire

185

et on suppose
MT M > 0.
On suppose de plus que suit la loi normale sur Rn de matrice de variance-covariance
2 fois lidentite, cest-`
a-dire les i sont independantes, de loi N (0, 2 ).
Un premier cas simple
Soit a R. On veut tester H0 : j = a contre H1 : j 6= a, pour la composante j du
vecteur = (1 , . . . , d )T , o`
u la direction j est fixee à lavance.
Un corollaire de la Proposition 5.10 du Chapitre 5 est le resultat suivant
Lemme 7.6.2. On a, pour tout , legalite en loi sous P
(bnmc )j j d
q
= N (0, 1),
(MT M)1
jj
o`
u (MT M)1
esigne lelement de la j-ième ligne et de la j-ième colonne de la matrice
jj d
T
1
(M M) .
Demonstration. On a, daprès la Proposition 5,
d
bnmc j = N 0, 2 (MT M)1

en loi sous P , donc, en posant vj = (0, . . . , 0, 1, 0, . . . , 0) o`

u le terme non-nul est `a la
mc
mc
T
b
b
j-i`eme place, la variable aleatoire (n )j j = (n ) vj est gaussienne, de moyenne

E (bnmc )T vj = 0
et de variance
E

(bnmc )T vj

= vjT E (bnmc )(bnmc )T vj
= 2 vjT (MT M)1 vj
= 2 (MT M)1
jj .

Si est inconnu, alors, en introduisant lestimateur s2n , le Lemme 7.6.2 devient

Lemme 7.6.3. On a, pour tout , legalite en loi sous P ,
(bnmc )j j d
q
= T(n d),
sn (MT M)1
jj
o`
u T(n p) est la loi de Student de param`etre n d.

186

Tests et r
egions de confiance

b mc
Demonstration. Posons = (MT M)1
jj (n j j ) et
K = (n d)

kY M bnmc k2
s2n
=
2
2

dapr`es la Proposition 5.10. Alors sous P , la variable est gaussienne centree reduite,
et K suit la loi du 2 `
a n d degres de liberte dapr`es la Propostion 1.1 (Cochran), et
est independante de Y donc de .
En consequence, le test defini par la region critique

bnmc a

j
T
R = q
,
> q1/2,nd

bn (MT M)1
jj
T
o`
u q1/2,nd
designe le quantile dordre 1 de la loi de Student `a n d degres de
liberte est de niveau pour tester H0 : j = a contre H1 : j 6= a.

Remarque 7.9. Avec ce resultat, on na pas dinformation sur lerreur de seconde

esp`ece (la puissance du test), que lon doit etudier separement.
Une hypoth`
ese plus g
en
erale
Soit (a1 , . . . , am ) Rm , avec m < d et soit
1 j1 < j2 < . . . < jm d
une direction donnee. On souhaite tester
H0 : j1 = a1 , . . . , jm = am
contre lalternative
H1 : il existe un indice k {1, . . . , m}, tel que jk 6= ak .
Le cas le plus utile : la s
election de variables
Cest un cas particulier de la situation precedente utile dans de nombreuses situations
pratiques. On se place dans le mod`ele lineaire
Y = M + ,
o`
u chaque observation Yi secrit
Yi = T xi +i =

d
X
i=1

i xi + i , i = 1, . . . , n.

7.6 Tests dans le mod`

ele de r
egression lin
eaire

187

(On peut poser x1 = 1 si lon souhaite incorporer une ordonnee à lorigine ). Dans
le cas de la selection de variables, on teste si les k premières variables influencent Y , les
d k suivantes ne jouant pas de role, ce qui se traduit par lhypothèse nulle
H0 : k+` = 0, ` = 1, . . . , ` = d k,
contre lalternative
H1 : il existe 1 ` d k, k+` 6= 0.
La selection de variables est un problème vaste et très important en pratique. On presente
quelques complements sur ce sujet dans lExercice 7.2.
Les F-tests
Cest la cadre le plus general, qui inclut les situations decrites precedemment.
Soit G la matrice dune application lineaire de Rd dans Rm , avec m d, et soit
b = (a1 , . . . , am )T un vecteur de Rm arbitraire. On veut tester lhypothèse nulle
H0 : G = b
contre lalternative
H1 : G 6= b.
On suppose que G est de la forme

0 ...
.. . .
G= .
.
0 ...

0
..
.
0

1 ...
.. . .
.
.
0 ...

0
.. ,
.
1

o`
u le premier bloc de 0 a m lignes et d m colonnes, alors que le second bloc est la
matrice identite `
a m lignes et m colonnes.
Proposition 7.4. Sous lhypoth`ese, cest-`
a-dire sous P avec G = b, on a legalite en
loi

G bnmc N b, 2 G(MT M)1 GT .
Demonstration. Cest une application de la Proposition 1.1 (Cochran).
Notons quici, la matrice de variance-covariance est de dimension m. Donc, pour tout
point de lhypoth`ese , cest-`
a-dire verifiant G = b, le vecteur m-dimensionnel G bnmc
est gaussien, de moyenne b et de matrice de variance-covariance
U = 2 G(MT M)1 GT .

188

Tests et r
egions de confiance

Notons que puisque MT M est inversible, la matrice U est definie positive. Posons
= (G bnmc b)T U1 (G bnmc b).
Donc sous P avec G = b, la variable aleatoire suit la loi du 2 `a m-degres de libertes.
On sait alors construire un test de niveau lorsque est connu.
Si est inconnu, on peut lestimer comme precedemment, mais dans le contexte
mod`ele lineaire gaussien general, o`
u est de dimension d 1, voir Proposition 5.10 du
Chapitre 5. Alors
kY M bnmc k2

bn2 =
,
nd
et en posant
b =
U
bn2 G(MT M)1 GT ,
la statistique
F (Y) =

b 1 (G b mc b)
(G bnmc b)T U
n
m

est pivotale sous P avec G = b et suit la loi de Fisher-Snedecor `a (m, n d) degres de

liberte. Un test de niveau est alors fourni par la region de rejet

FS
,
R = F (Y) > q1,m,nd
FS
designe le quantile dordre 1 de la loi de Fisher-Snedecor `a (m, n d)
o`
u q1,m,nd
degres de liberte. L`
a encore, ceci ne nous fournit pas dinformation sur lerreur de seconde
esp`ece du test que lon doit etudier separement.

7.7

Exercices

Exercice 7.1. Soient X1 , . . . , Xm et Y1 , . . . , Yn deux echantillons independants, de taille

respective m et n, de loi respective N (1 , 12 ) et N (2 , 22 ). On teste
H0 : 1 = 1

contre

H1 : 1 6= 2 .

Construire un test base sur la statistique

Xm Y n
Tn = q
,
(1) 2
(2) 2
(sm ) + (sn )
(1)

o`
u (sm )2 =

1
m

2
i=1 (Xi X m )

(2)

et (sn )2 =

1
n

2
i=1 (Yi Y n ) ,

et etudier sa consistance.

7.7 Exercices

189

Exercice 7.2 (R`egle de Bonferroni en test multiple). On souhaite faire m tests simultanement. On teste
H0,i contre H1,i , pour i = 1, . . . , m
(i)

(i)

Etant donnes m tests { , i = 1, . . . , m} o`

u est un test de niveau pour lhypoth`ese
H0,i contre lalternative H1,i , on construit les p-valeurs associees
(i)

p valeur( ),

i = 1, . . . , m.
(i)

La r`egle de Bonferroni consiste `

a rejeter lhypothèse H0,i si p valeur( ) < /m.
Montrer que la probabilite de rejeter à tort une hypothèse nulle parmi les m hypothèses
nulles est inferieure `
a .

190

Tests et r
egions de confiance

Chapitre 8

Tests asymptotiques
On a vu dans le chapitre precedent que, mis à part des cas relativement particuliers,
on na pas de methode de construction de test systematique. Dans ce chapitre, on se place
dans le regime asymptotique n , lorsque linformation de modèle est grande .
Dans ce cas, dès que le modèle est suffisamment regulier au sens du Chapitre 6 et que
lon dispose destimateurs raisonnables , on sait construire des tests de facon un peu
plus systematique.
Cependant, on ne pourra pas obtenir loptimalite dune suite de tests de niveau
(asymptotique) donnee aussi facilement quau chapitre precedent ; on se contentera dune
notion plus faible : la convergence ou consistance de la suite de tests.

8.1

Convergence dune suite de tests

On se place dans la problematique du Chapitre 7. Etant donne une suite dexperiences

statistiques E n ayant pour ensemble de paramètres Rd avec d 1, on teste
H0 : 0 contre H1 : 1 , avec 0 1 = .
On se donne un test ou plut
ot une suite de tests 1 simples n dans E n de lhypothèse
nulle H0 contre lalternative H1 .
D
efinition 8.1 (Niveau asymptotique dune suite de tests). Soit [0, 1]. Le test n
est asymptotiquement de niveau si son erreur de première espèce est asymptotiquement
plus petite que :

0 , lim sup P n = 0 .
n

1. De la meme mani`ere que lon parle destimateur pour une suite destimateurs, on utilisera le terme
test pour designer une suite de tests.

192

Tests asymptotiques

D
efinition 8.2. Le test n est convergent ou consistant si sa puissance asymptotique
vaut 1, cest-`
a-dire si son erreur de seconde esp`ece est asymptotiquement nulle :

1 , lim P n = 1 = 1 = 1 lim P n = 1 .
n

8.2
8.2.1

Tests de Wald
Le cas dune hypoth`
ese nulle simple

Traitons dabord le cas du test dune hypoth`ese nulle simple H0 : = {0 } contre

H1 : 6= 0 . Placons-nous en dimension d = 1 pour simplifier. Supposons que lon dispose
dun estimateur bn asymptotiquement normal, cest-`a-dire pour lequel on a, pour tout
,
d

n bn N 0, v() ,
o`
u v() > 0, la convergence ayant lieu en loi sous P . On suppose que la fonction ; v()
est regulière. Sous lhypothèse, cest-à-dire sous P0 , on a la convergence
bn 0 d
np
N (0, 1),
v(0 )
en loi sous P0 , ou encore, en appliquant la Proposition 1.8 (Slutsky)
Tn =
en loi sous P0 . On en deduit

bn 0 d
nq
N (0, 1)
v(bn )

(8.1)

presque immediatement la construction suivante

Proposition 8.1. Pour tout (0, 1), le test n defini par la zone de rejet

Rn, = Tn 1 (1 /2) ,
o`
u 1 (1 ) designe le quantile dordre 1 de la loi normale standard, est asymptotiquement de niveau et consistant.
Demonstration. Le controle du niveau asymptotique de n est une consequence immediate
de la convergence (8.1) :

P0 n = 1 = P0 Tn 1 (1 /2) .
Montrons la consistance. Soit 6= 0 un point de lalternative. On ecrit
Tn =

0
bn
+ nq
.
nq
v(bn )
v(bn )

(8.2)

8.2 Tests de Wald

193

Le premier terme tend en loi sous P vers la loi N (0, 1), en appliquant la convergence
(8.1) avec `
a la place de 0 . Le denominateur du second terme converge en probabilite
sous P vers v(), et le numerateur diverge vers . Donc
P

|Tn |
+

et donc n
1 pour tout 6= 0 . On en deduit la consistance de n (par exemple par
convergence dominee).

Remarque 8.1. Ici, le choix de la zone de rejet ne simpose pas naturellement. Si

D R est tel que

P D = 1
(8.3)
o`
u N (0, 1), alors le test n (D ) defini par la zone de rejet

Rn (D ) = Tn
/ D
est asymptotiquement de niveau .
Remarque 8.2. Pour construire le test n de la Proposition 8.1, on a choisi la zone
dacceptation

D = 1 (1 /2), 1 (1 /2)
car elle est de longueur minimale parmi les zones D satisfaisant (8.3) mais ce choix na
pas dimportance si lon netudie pas plus precisement la puissance du test. Si lon se
contente simplement de la consistance, il suffit dimposer en plus que D est borne. Dans
P
ce cas, on a toujours n (D )
1 pour tout point 6= 0 de lalternative et n (D ) est
consistant.
Remarque 8.3. Le test n base sur la statistique Tn depend de v(). Intuitivement, il sera dautant meilleur (dautant plus puissant) que v() sera petit. Cela se
voit immediatement sur la decomposition (8.2) : le terme de droite diverge dautant
mieux que v(bn ) et donc asymptotiquement v() est petit, sans que cela affecte son
erreur de première espèce.
Si on est dans un modèle dechantillonnage regulier, on aura donc interet à prendre lestimateur de variance asymptotique minimale, cest-à-dire lestimateur du maximum de
vraisemblance, qui fournit v() = I()1 .
Dans la convergence (8.1), on aurait pu, de manière equivalente, remplacer la statistique Tn par son carre, et obtenir
Tn2 = n

(bn 0 )2 d
2 (1)
b
v(n )

194

Tests asymptotiques

en loi sous P , o`
u 2 (1) designe la loi du 2 `a 1 degre de liberte. En construisant un test
base sur la statistique Tn avec comme loi limite, on obtient la zone de rejet
n
o
e n, = T 2 q 2
R
n
1,1
2

o`
u q1,1
designe le quantile dordre 1 de la loi du 2 `a 1 degre de liberte. Sans
e n, = Rn, !
surprise, R

8.2.2

Hypoth`
ese nulle composite

On se place dans le cadre general Rd , et on suppose que 0 peut secrire sous la

forme

0 = , g() = 0
o`
u lapplication
g : Rd Rm
est regulière. Par exemple, lhypothèse nulle simple H0 : = 0 pour un point 0
donne peut toujours se ramener à la condition g() = 0, avec g() = 0 .
Remarque 8.4. En dimension d = 1, lhypothèse composite H0 : > 0 secrit bien
sous la forme g() = 0 avec g() = 1{0 } , mais la fonction ; g() nest pas continue
en 0 .
Construction du test de Wald
Hypoth`
ese 8.1. Lapplication g : Rd Rm est contin
ument differentiable. De plus, sa
d
m
differentielle, en tant quelement de L(R , R ), est de rang maximal m en tout point
de (linterieur 2 de) 0 .
On notera Jg () la matrice de la differentielle de g au point . On suppose quil existe
un estimateur bn de asymptotiquement normal, au sens suivant :
Hypoth`
ese 8.2.

n bn N 0, V () ,

en loi sous P , o`
u V () est definie positive, et ; V () est continue pour tout .
Proposition 8.2. Sous lHypoth`ese 8.1, en tout point 0 de lhypoth`ese, cest-`
a-dire
verifiant g() = 0, on a

d
ng(bn ) N 0, Jg ()V ()Jg ()T
sous P lorsque n .
2. En ne tenant pas compte de cette restriction quand 0 se reduit a
` un seul point.

8.2 Tests de Wald

195

Corollaire 8.1. Posons g () = Jg ()V ()Jg ()T dans la proposition precedente. On

a la convergence
d
Tn2 (g) = ng(bn )T g (bn )1 g(bn ) 2 (m)
(8.4)
sous P , o`
u 2 (m) designe la loi du 2 `
a m degres de liberte. Pour tout (0, 1), le test
defini par la region critique

2
Rn, = Tn2 q1,m
,
(8.5)
2

o`
u q1,m
designe le quantile dordre 1 de la loi du 2 `
a m degres de liberte, est
asymptotiquement de niveau et consistant.

D
efinition 8.3 (Test de Wald). On appelle test de Wald de H0 : g() = 0 contre
H1 : g() 6= 0 associe `
a lestimateur asymptotiquement normal bn le test base sur la
2
statistique Tn definie en (8.4) de region critique Rn, defini en (8.5). La statistique Tn2
sappelle statistique de Wald (associee `
a lestimateur bn ).
Remarque 8.5. Le test de la Proposition 8.1 est un test de Wald, dans la cas très
particulier o`
u g() = 0 en dimension 1. En particulier, g 0 () = 1 en tout point
R.
Demonstration de la Proposition 8.2 et de son Corollaire 8.1. La proposition est simplement la version multidimensionnelle de la methode delta , (Proposition 1.11) appliquee
à g(bn ) daprès lHypothèse 8.2, en utilisant le fait que sous lhypothèse nulle, g() = 0.
Pour son corollaire, on en deduit dabord la convergence

ng ()1 g(bn ) N (0, Idm ),

en loi sous P , puis, par la Proposition 1.8 (Slutsky), par continuite de ; g ()

d
ng (bn )1 g(bn ) N (0, Idm ).

En passant `
a la norme au carre

d
k ng (bn )1 g(bn )k2 = ng(bn )T g (bn )1 g(bn ) kN (0, Idm )k2 2 (m).
On en deduit que le test donne par la region de rejet Rn, est asymptotiquement de
niveau .
Montrons quil est consistant. On raisonne comme en dimension 1 : si 1 est un
point de lalternative, on a g() 6= 0, on force le terme g() dans Tn et on ecrit
2
2
Tn2 = Tn,1
+ Tn,2
,

avec
T

2
Tn,1
= n g(bn ) g() g (bn )1 g(bn ) g() ,

196

Tests asymptotiques

et un terme additionnel
2
Tn,2
= Un + Vn ,

qui se redecompose en
Un = ng()T g (bn )1 g()
et

T

Vn = n g(bn ) g() g (bn )1 g() + ng()T g (bn )1 g(bn ) g() .

Pour tout , le terme Tn,1 converge en loi sous P vers la loi du 2 à m degres de liberte :
cest la methode delta appliquee à g(bn ) lorsque g() 6= 0. Il reste à demontrer que
P
P
Tn,2 diverge. Par continuite, Vg (bn )
Vg (), donc Un
+. Le terme Vn diverge de
meme, mais on ne peut pas controler son signe. Il reste à verifier que Vn est petit devant

Un . Pour cela, on ecrit Vn = nVn , avec

Vn = n g(bn ) g() g (bn )1 g() + ng()T g (bn )1 g(bn ) g()

et chacun des termes converge separement en loi sous P via la Proposition 8.2. Donc
P
Vn /Un
0 et le corollaire est demontre.

8.3

Test

sup sur sup ?

Situation et notations
On suppose pour simplifier que E n est engendree par un n-echantillon
X1 , . . . , Xn

de variables aleatoires reelles, dont la loi appartient `a la famille P , , avec
Rd , d 1, dominee par une mesure -finie sur R. On note {f (, ), } la
famille de densites associees. On teste H0 : 0 contre H1 : 1 , avec 0 1 = .
La statistique

sup sur sup

Si les deux hypoth`eses sont simples, cest-`a-dire 0 = {0 } et 1 = {1 }, avec

0 6= 1 , alors lapproche de Neyman-Pearson de la Section 7.2.2 du chapitre precedent
sugg`ere de considerer le rapport des vraisemblances
Qn
f (1 , Xi )
Ln (1 , X1 , . . . , Xn )
= Qni=1
,
Ln (0 , X1 , . . . , Xn )
f
i=1 (0 , Xi )
ou son logarithme

n
X
i=1

log f (1 , Xi )

n
X
i=1

log f (0 , Xi ),

8.3 Test

sup sur sup

197

et, suivant la r`egle de la construction du test du rapport de vraisemblance, on rejette

lhypothèse nulle = 0 si n depasse un seuil, calibre pour controler lerreur de première
espèce.
Lorsque 0 et 1 ne sont pas reduits à un point, une règle conservative consiste à
remplacer la quantite ci-dessus par

e n (X1 , . . . , Xn ) = sup

n
X

log f (, Xi ) sup

1 i=1

n
X

log f (, Xi )

0 i=1

et donc de comparer la vraisemblance de la valeur la plus vraisemblable sur 0 `a

la valeur la plus vraisemblable sur 1 . Malheureusement, le calcul de la loi de cette
e n par
quantite est difficile, meme asymptotiquement. On remplace alors

n = sup

n
X

log f (, Xi ) sup

i=1

= log

n
X

log f (0 , Xi )

0 i=1

sup L(, X1 , . . . , Xn )
,
sup0 L(, X1 , . . . , Xn )

o`
u le supremum au numerateur est evalue sur tout lespace des param`etres. On peut se
convaincre au moins heuristiquement que cette approche est raisonnable si le mod`ele
est suffisamment regulier. Dans ce cas, si 1 , sous P , la quantite qui atteint le
maximum pour le numerateur est lestimateur du maximum de vraisemblance bnmv qui
converge vers 1 .
D
efinition 8.4. On appelle n la

statistique du rapport de vraisemblance maximal .

Un resultat remarquable est que sous lhypoth`ese nulle, la loi de la statistique du

rapport de vraisemblance maximal est asymptotiquement la loi du 2 (`a une constante
multiplicative pr`es) pour un nombre de degres de liberte dependant de la dimension de
0 , et ceci conduit `
a une methode systematique de construction de tests.

8.3.1

Rapport de vraisemblance maximal asymptotique

On suppose le mod`ele regulier au sens du Chapitre 6. Notons bnmv lestimateur du

mv lestimateur du maximum de vraisemblance
maximum de vraisemblance du et bn,0
restreint `
a 0 (cest-`
a-dire obtenu lorsque lon maximise la vraisemblance sur 0 ).
En appliquant la formule de Taylor `a lordre 2 `a ; `(, x) = log f (, ), on reecrit

198

Tests asymptotiques

n comme

n
X

mv
`(bn,0
, Xi ) `(bnmv , Xi )

i=1

n
X

n
T
X

mv
mv T
mv
bnmv ) 12 (bnmv bn,0
`(bnmv , Xi ) (bn,0
)
H`(,Xi ) [en ] (bnmv bn,0
)

i=1

mv T
= 12 (bnmv bn,0
)

n
X

mv
H`(,Xi ) [en ] (bnmv bn,0
),

i=1
mv et
b mv et H`(,X ) [] designe la matrice hessienne de la
o`
u en est un point entre bn,0
n
i
fonction ; `(, Xi ) au point . Le terme dordre 1 disparat par definition du maximum
de vraisemblance
(dès que bnmv ). Sous les hypothèses de regularite sur le modèle

P , , si 0 , on a les convergences

d

mv
n bn,0
N 0, I1 () en loi sous P , 0 ,

o`
u I1 () designe linverse de la matrice dinformation de Fisher du mod`ele
et on a toujours

d

n bnmv N 0, I1 () en loi sous P .

(8.6)

P , ,

(8.7)

mv ) est born
Donc la suite de vecteurs n(bnmv bn,0
ee en probabilite sous P , 0 . Par
ailleurs, on a toujours la convergence
n

1X
P
H`(,Xi ) []
I(), 0
n

(8.8)

i=1

(composante par composante) par la loi des grands nombres. On en deduit le resultat
suivant :
Proposition 8.3. Si lexperience statistique est reguli`ere au sens du Chapitre 6, pour
tout 0 (cest-`
a-dire en se placant sous lhypoth`ese H0 ), on a les approximations
suivantes
T
T

n = 1 n b mv I() n b mv + n
2

et aussi
n =

1
2

n,0

n bn,0

n,0

mv
I(bnmv ) n bn,0
+ 0n

o`
u n et 0n sont deux suites qui tendent vers 0 en probabilite sous P pour tout 0 .

8.3 Test

sup sur sup

199

Demonstration. La premi`ere approximation est simplement une combinaison des estimations precedentes : on ecrit
mv T
(bnmv bn,0
)

n
X

mv
H`(,Xi ) [en ] (bnmv bn,0
)

i=1

mv T
n(bnmv bn,0
)

n
1 X

mv
),
H`(,Xi ) [en ] n(bnmv bn,0

i=1

et on utilise dune part le fait que le terme du milieu converge en probabilite vers I1 ()
via (8.8) en utilisant le fait que en est proche de (nous omettons les details), et dautre

mv ) est born
part que la suite n(bnmv bn,0
ee en P probabilite pour 0 par (8.6) et
(8.7).
La seconde approximation est simplement une consequence de la Proposition 1.8
(Slutsky).
mv ne sont pas les m
emes en general. Un
Remarque 8.6. Les estimateurs bnmv et bn,0
exemple classique rencontre aussi en regression est celui de lexperience statistique
engendree par un n-echantilllon de loi N (, 2 ), avec = (, 2 ) = R R+ \{0}.
Alors, si 0 = { , = 0}, on a
mv
bn,0
= 0, n1

n
X

Xi2 , alors que

bnmv = X n , n1

i=1

8.3.2

n
X

2
Xi2 X n .

i=1

Lien avec la statistique de Wald

Placons-nous dans le cas dune hypoth`ese nulle simple 0 = {0 } pour simplifier. La

statistique Tn2 du test de Wald definie dans le Corollaire 8.1 par (8.4) secrit à laide de
la fonction g() = 0 , et Jg = Idd .
Si lexperience sous-jacente est regulière, le choix de lestimateur bn = bnmv conduit
à V () = I(), o`
u I() est linformation de Fisher du modèle. On a donc dans ce cas
g () = Jg ()V ()Jg ()T = I() et finalement,
T
T

mv
Tn2 = n bnmv 0 I(bnmv ) n bn,0
.
mv = . Dapr`
Par ailleurs, puisque lhypoth`ese nulle H0 est simple, on a bn,0
es la Propo0
sition 8.3, on deduit
Tn2 = 2n + n ,
(8.9)

o`
u n tend vers 0 en probabilite sous P0 .
En conclusion, dans le cas dune hypoth`ese nulle simple, la statistique de Wald associee
`a lestimateur du maximum de vraisemblance et la statistique du rapport de vraisemblance maximal sont asymptotiquement equivalentes. On en deduit immediatement que

200

Tests asymptotiques

pour une hypoth`ese nulle simple la statistique du rapport de vraisemblance maximale

converge en loi vers la loi du 2 à d degres de liberte.
Remarque 8.7. Le lien que nous venons de montrer est très particulier. Lequivalence
(8.9) setend au-del`
a dune hypothèse simple. Nous nous contenterons de ce resultat
particulier dans ce cours.
Remarque 8.8. Une autre statistique remarquable, la statistique du score (voir par
exemple Wasserman, [11]), se deduit de ces approximations.

8.3.3

R
esultat g
en
eral pour le rapport de vraisemblance maximal?

Dans le cas dune hypothèse nulle simple 0 = {0 }, nous venons de voir par
lequivalence asymptotique avec la statistique de Wald associee à lestimateur du maximum de vraisemblance que la statistique 2n suit asymptotiquement la loi du 2 `
ad
degres de liberte. Ici, grace à la Propostion 8.1, le degre d doit etre compris comme le
rang de la differentielle de Jg (), qui dans le cas trivial g() = 0 est maximal.
Ce resultat se generalise. On suppose que 0 peut secrire sous la forme

0 = , g() = 0
o`
u lapplication
g : Rd Rm
est regulière au sens de lHypothèse 8.1, cest-à-dire contin
ument differentiable, sa differentielle etant de rang maximal m en tout point de (linterieur de) 0 .
Proposition 8.4. Si lexperience statistique est regulière au sens du Chapitre 6, sous
lHypothèse 8.1, pour tout point (dans linterieur) de 0 (ou si 0 est reduit `
a un
point), cest-`
a-dire tel que g() = 0, on a
d

2n 2 (m).
Nous admettons ce resultat. On en deduit un test asymptotiquement de niveau
defini par la region critique

2
Rn, = 2n q1,m
,
2

o`
u q1,m
est le quantile dordre 1 de la loi du 2 `a m degres de liberte.

8.4 Tests du 2

8.4

201

Tests du 2

Notation et pr
eliminaire
Si X une variable qualitative pouvant prendre d valeurs distinctes, on note {1, . . . , d}
lensemble de ses valeurs pour simplifier. En toute generalite, la loi de X secrit

P X = ` = p` , ` = 1, . . . , d
P
avec 0 p` 1 et d`=1 p` = 1, et le vecteur p = (p1 , . . . , pd )T caracterise la loi de X.
Desormais, nous identifions les lois de probabilites prenant d valeurs avec les vecteurs p
de lensemble
Md =

p = (p1 , . . . , pd )T , 0 p` 1,

d
X

o
p` = 1 .

`=1

8.4.1

Test dad
equation du 2

On observe un n-echantillon
X1 , . . . , Xn
de loi p Md inconnue et on teste lhypoth`ese
H0 : p = q, contre H1 : p 6= q
o`
u q Md est une loi donnee. Lexperience statistique associee `a lobservation secrit

E n = {1, . . . , d}n , P({1, . . . , d}n ), Pnp , p Md ,
o`
u Pnp est la loi 3 dun n-echantillon de loi p.
Pour construire un test, une idee immediate est de comparer les frequences empiriques
n

pbn,`

1X
=
1Xi =` , ` = 1, . . . , d
n

(8.10)

i=1

avec q` , ` = 1, . . . , d. En effet, la loi des grands nombres garantit la convergence

Pp
(b
pn,1 , . . . , pbn,d (p1 , . . . , pd ) = p

(8.11)

en probabilite sous Pp . Letape suivante consiste `a etablir une vitesse de convergence

dans (8.11). En anticipant sur le theor`eme central-limite, on consid`ere le vecteur

pbn,d pd T
pbn,1 p1
U n (p) = n
,...,

p1
pd
3. Dans cette section, p Md remplacera lecriture habituelle .

202

Tests asymptotiques

qui est bien defini si toutes les composantes de p sont non nulles, ainsi que sa norme au
carre
2
d
X
pbn,` p`
2
kU n (p)k = n
.
p`
`=1

Par le theor`eme central limite, chaque composante de U n converge en loi vers une
gaussienne centree reduite, mais ceci ne permet pas den deduire la convergence en loi
vectorielle (et donc pas non plus celle de kU n k2 , utile pour construire un test), puisque
les variables aleatoires pb`,n ne sont pas independantes. Le resultat suivant precise la
convergence
Proposition 8.5. Si les composantes de p sont toutes non nulles, alors

d
U n (p) N 0, V (p) ,
o`
u V (p) = Idd

(8.12)

p( p) , et p = ( p1 , . . . , pd )T . De plus
d

kU n (p)k2 2 (d 1),

(8.13)

o`
u 2 (d 1) designe la loi du 2 `
a d 1 degres de liberte.
Demonstration. Pour i = 1, . . . , n et 1 ` d, posons
1
Y`i = (1{Xi =`} p` ).
p`
La suite de vecteurs Y i = (Y1i , . . . , Ydi ) est independante et de meme loi, car chaque
terme Y i ne fait intervenir que la variable Xi et les Xi sont independantes et de meme
loi. Notons que
n
1 X
U n (p) =
Yi.
n
i=1

De plus,

2
2
E Yì = 0, E (Yì )2 = p1
` (p` 2p` + p` ) = 1 p` ,
et pour ` 6= `0 ,

E Yì Yì0 = (p` p`0 )1/2 (0 2p` p`0 + p` p`0 ) = (p` p`0 )1/2 .
On applique alors le theorème central limite vectoriel 1.4 du Chapitre 1. On obtient la
convergence (8.12).
Pour la convergence (8.13), par continuite du carre de la norme, on a

2

d
kU n (p)k2 N 0, V (p) 2 Rang V (p) ,

8.4 Tests du 2

203

la derni`ere egalite en loi etant une application de la Proposition 1.1 (Cochran). En effet, la

matrice V (p) = Idd p p est la matrice de la projection orthogonale sur lorthogonal

de lespace vectoriel
de dimension 1 engendre par le vecteur p. On verifie aussi que lon
a bien Rang V (p) = d 1, do`
u le resultat.
D
efinition 8.5 (distance du 2 ). Si p, q Md et les coefficients q sont tous non nuls,
on appelle distance du 2 entre les lois p et q la quantite
2 (p, q) =

d
X
(p` q` )2
`=1

bn = (b
Notons p
pn,1 , . . . , pbn,d )T . La Definition 8.5 est motivee par lidentite

bn , p .
kU n (p)k2 = n2 p
Remarque 8.9. Le terme distance est manifestement impropre, puisque quen
general on a 2 (p, q) 6= 2 (q, p). Toutefois, on a la propriete essentielle
2 (p, q) = 0 p = q .
Avec ces notations et la Proposition 8.5, on en deduit le test suivant, appele test
dadequation du 2 .
Proposition 8.6. Soit q Md une loi donnee dont les coefficients sont tous non nuls.
Pour tout (0, 1), le test defini par la zone de rejet
o
n

2
bn , q q1,d1
,
Rn, = n2 p
2

o`
u q1,d1
est le quantile de la loi du 2 `
a d 1 degres de liberte, est asymptotiquement
de niveau et consistant.

Demonstration. La premi`ere partie de la Proposition decoule de la Proposition 8.5 : on

a p = q sous lhypoth`ese, donc

2
bn , q q1,d1
Pp (X1 , . . . , Xn ) Rn, = Pq n2 p

2
= Pq kU n (q)k2 q1,d1
.
Pour montrer la consistance, placons-nous sous lalternative H1 . Alors on a p 6= q et
2 (p, q) 6= 0. On a aussi la convergence en probabilite sous Pp
Pp
bn , q 2 (p, q) 6= 0.
2 p

bn , q diverge vers + en probabilite sous Pp . La consistance de la suite de
Donc n2 p
tests en decoule (par exemple par convergence dominee).

204

Tests asymptotiques

Exemple 8.1 (Mendel). Dans la cel`ebre experience de Mendel `a lorigine de la genetique,

le croisement de pois donne lieu `a quatre phenotypes identifies (combinant couleur et
forme). Selon la theorie de lheredite de Mendel, les phenotypes de type I, II, III et IV
sont distribues selon une loi multinomiale (voir Section 4.1.2, Chapitre 4) de param`etre
9 3 3 1
q=
, , ,
.
16 16 16 16
Mendel rapporte les resultats suivants : pour n = 556 observations, la repartition observee
entre les phenotypes de type I, II, III et IV est (315, 101, 108, 32). On teste H0 : p = q
contre H1 : p 6= q, o`
u p M4 qui est lensemble des lois dont les coefficients sont tous
non-nuls. On a ici
( 315 9 )2 ( 101 3 )2 ( 108 3 )2 ( 32 1 )2

bn , q = 556 556 9 16 + 556 3 16 + 556 3 16 + 556 1 16
n2 p
16

= 0, 47.
2

= 0, 7815 et puisque
Pour le niveau = 5%, la valeur critique de rejet du test est q1,3
0, 47 < 0, 7815, on accepte H0 . On peut aussi calculer la p-valeur du test 4 . Dans un cadre
asymptotique, si Z 2 (3) est distribuee selon la loi du 2 avec 3 degres de liberte, on
a donc (voir Proposition 7.1)

p valeur = Pq Z > 0, 47 = 0, 93,

ce qui ne nous incite pas `a rejeter 5 H0 .

8.4.2

Test du 2 dind
ependance?

Test du 2 avec param`

etres estim
es
On observe un n-echantillon
X1 , . . . , Xn
de loi p Md inconnue et on teste lhypoth`ese nulle composite
H0 : p (Md )0 contre H1 : p Md \ (Md )0 ,
o`
u (Md )0 Md . On suppose que (Md )0 se represente sous la forme

(Md )0 = p = p(), ,
o`
u Rd est un sous-ensemble regulier de Rd de dimension m < d 1 (une variete
affine ou differentiable de dimension k). La famille {p, p Md } est reguli`ere au sens
4. Il sagit alors ici dune notion de p-valeur asymptotique, voir Section 7.4 du Chapitre 7.
5. Attention, rappelons que la signification de 0, 93 nous conduit a
` ne pas rejeter H0 , mais cela peut
etre aussi bien d
u au fait que H0 est vrai ou bien que la puissance du test est faible.

8.4 Tests du 2

205

du Chapitre 6 et il en va de meme pour la famille {p, p (Md )0 } d`es que ; p()

est suffisamment reguli`ere (voir Exercice 6.1). Sans etre plus precis pour le moment, cela
signifie que les estimateurs du maximum de vraisemblance pour la famille {p, p Md } et
pour la famille restreinte {p, p (Md )0 } sont bien definis et asymptotiquement normaux.
On peut donc utiliser le test base sur la statistique du rapport de vraisemblance maximal
n de la Section 8.3.
Nous avons dabord besoin du resultat auxiliaire suivant :
Lemme 8.4.1. On a les estimateurs du maximum de vraisemblance suivants : pour la
famille 6 {p, p Md } :
T
bnmv = pbn,1 , . . . , pbn,p
p
(8.14)
T
o`
u le vecteur pbn,1 , . . . , pbn,p
est le vecteur des frequences empiriques defini par 8.10
dans la Section 8.4.1, et pour la famille restreinte {p, p (Md )0 } :
p(b
nmv )

= arg max

d
X

nb
pn,` log p` ().

`=1

Demonstration. Montrons dabord (8.14). La loi de lobservation X1 , . . . , Xn est dominee

par la mesure de comptage sur {1, . . . d}n . On a donc
Ln (p, X1 , . . . , Xn ) =

n
Y

pXi ,

p = (p1 , . . . , pd )T ,

i=1

P
mais cette formule nest pas tr`es exploitable. En notant N` = ni=1 1{Xi =`} , on a une
correspondance univoque entre (X1 , . . . , Xn ) et (N1 , . . . , Nd ) puisque les Xi ne prennent
quun nombre fini de valeurs. Ceci permet de reecrire la loi du vecteur (X1 , . . . , Xn ) `a
laide de (N1 , . . . , Nd ).
P
P
Pour tous x1 , . . . , xn {1 . . . , d}, avec ni=1 xi = n et en notant n` = ni=1 1{xi =`} ,
on a

Pp X1 = x1 , . . . , Xn = xn = Pp N1 = n1 , . . . , Nd = nd
d

Y n
n!
p` i .
n1 ! nd !
`=1

On en deduit que le logarithme de la vraisemblance est

Ln (p, X1 , . . . , Xn ) = c(X1 , . . . , Xn ) +

d
X
`=1

6. Restreinte aux p dont toutes les composantes sont non nulles.

N` log p` ,

(8.15)

206

Tests asymptotiques

o`
u c(X1 , . . . , Xn ) est une constante qui ne depend pas de p. Donc maximiser la logvraisemblance revient `
a chercher le maximum de
(p1 , . . . , pd ) ;

d
X

Ni log pi , sous la contrainte

i=1

d
X

pi = 1.

i=1

On peut diviser cette fonction par n sans changer le problème. Alors, en notant la
fonction de comptage sur {1, . . . , d} et f (x) = Nx /n pour x {1, . . . , d, on cherche `
a
maximiser
Z
g ; f (x) log g(x)(dx)
avec f et g des densites par rapport à . Le Lemme 4.4.1 (inegalite dentropie) donne
la solution g = f , soit p` = N` /n = pbn,` . La deuxième partie du lemme decoule de la
representation (8.15) de la log-vraisemblance.
On a le resultat remarquable suivant
Proposition 8.7. Si n designe la statistique du rapport de vraisemblance maximal
defini en (8.4), on a, pour tout point p Md

bmv
2n = n2 p
nmv ) + n ,
n , p(b
o`
u n tend vers 0 en probabilite sous Pp pour tout p M0 .
Demonstration. On reprend les notations de la preuve du Lemme 8.4.1. On a
2n =

d
X

N` log(N` /n)

log p` (b
nmv )

d
X

N` log

`=1

N`
.
np` (b
nmv )

Sous lhypoth`ese nulle, cest-`a-dire si p = p() pour un , on a simultanement

N` Pp
p(), et
n
En posant n,` =
2:

N`
n

p(b
nmv )) p().

p(b
), on ecrit le developpement de Taylor du logarithme `
a lordre

d
X

n,`
p` (b
nmv )
`=1
!

2
d
X

1
n,`
n,`
= 2n

1 + op (1)
n,` + p` (b
nmv )
p` (b
nmv ) 2 p` (b
nmv )
`=1
!
d
2
X
1 3n,`

1 n,`
= 2n
n,` +
1 + op (1)
1 + op (1) ,
2 p` (b
nmv )
2 p` (b
nmv )2

2n = 2n

`=1

n,` + p` (b
nmv ) log 1 +

8.4 Tests du 2

207

o`
u op (1) designe une suite de variables aleatoires qui tend vers 0 en probabilite sous Pp .
Les N` /n et lesPp` (b
nmv ) sont des frequences empiriques, donc leur somme en ` vaut 1
d
pour chacun do`
u `=1 n,` = 0. On en deduit
2n = n

d
X
`=1
d
X

2n,`
p` (b
nmv )

+ n

2
N` /n p` (b
nmv )
=n
+ n
p` (b
nmv )
`=1

bnmv , p(b
= n2 p
nmv ) + n ,
o`
u n est une suite de variables aleatoires qui tend vers 0 en probabilite sous Pp .
Ce developpement asymptotique permet de construire le test suivant
Proposition 8.8. Si ; p() est reguli`ere et de dimension m, on a pour tout point
de lhypoth`ese p (Md )0 ,
d
bnmv , p(b
n2 p
nmv ) 2 (d m 1).
En particulier, le test defini par la zone de rejet

2
bnmv , p(b
Rn, = n2 p
nmv ) q1,dm1

(8.16)

designe le quantile de la loi du 2 `

a d m 1 degres de liberte est
o`
u q1,dm1
asymptotiquement de niveau et consistant.

Nous admettons ce resultat. On pourra consulter van der Vaart [10] ou Borovkov [1]
pour une preuve et des complements.
D
efinition 8.6 (Test du 2 avec paramètres estimes). On appelle test du 2 avec paramètres estimes le test de zone de rejet definie par (8.16).
Application au test dind
ependance
Un cas très classique du test du 2 avec paramètres estimes est celui du test dindependance. On observe un n-echantillon
(X1 , Y1 ), . . . , (Xn , Yn )

(8.17)

o`
u les variables Xi et Yi sont qualitatives, prenant respectivement `a d1 et d2 valeurs
possibles. La loi p du couple (X, Y ) est `a valeurs dans
o
n
X
0
0
0
0
p`,` = 1 .
Md1 ,d2 = p = (p`,` )1`d1 ,1` d2 , 0 p`,` 1,
`,`0

208

Tests asymptotiques

Notons les lois marginales du vecteur (X, Y )T .

p`, = P X = ` , et p,`0 = P Y = `0
pour 1 ` d1 , 1 `0 d2 , et o`
u on a
p`, =

d2
X

p`,`0 , p,`0 =

`0 =1

d1
X

p`,`0 .

`=1

On teste lindependance des variables X et Y `a partir de lobservation du n-echantillon

(8.17). Cela se traduit par lhypoth`ese nulle :
H0 : `, `0

p`,`0 = p`, p,`0

contre lalternative
H1 : `, `0 ,

p`,`0 6= p`, p,`0 .

Ici, lhypoth`ese nulle secrit

H0 : p (Md1 ,d2 )0 =

p = (p`,`0 ), p`,`0 = p`, p,`0

et donc (Md1 ,d2 )0 = p = p(), o`
u Rm avec m = d1 + d2 2 et la
parametrisation est reguli`ere. On applique alors les resultats de la section precedente
avec m = d1 + d2 2 < d1 d2 1. Il nous faut pour cela connatre lestimateur du
maximum de vraisemblance sur (Md1 ,d2 )0 .

Lemme 8.4.2. Pour la famille p, p (Md1 ,d2 )0 , lestimateur du maximum de vraimv
bn,0
semblance p
secrit

mv
pbn,0
= pbn,(`,) pbn,(,`0 )
`,`0
pour 1 ` d1 , 1 `0 d2 , avec
pbn,(`,) =

i=1

1X
1X
1{Xi =`} et pbn,(,`0 ) =
1{Yi =`0 }
n
n

les frequences empiriques marginales, qui sont aussi les estimateurs de maximum de
vraisemblance correspondants aux familles des lois marginales dapr`es le Lemme 8.4.1.
Demonstration. Cest essentiellement la meme preuve que celle du Lemme 8.4.1. Si p
(Md1 ,d2 )0 , les variables aleatoires Xi et Yi sont independantes, et la vraisemblance secrit
n
n
n
Y
Y

Y
pXi ,
p,Yi .
Ln p, (X1 , Y1 ), . . . (Xn , Yn ) =
pXi , p,Yi =
i=1

i=1

8.4 Tests du 2
En notant N`X =
obtient

209
P`

i=1 1{Xi =`}

et N`0 =

i=1 1{Yi =`0 }

log Ln p, (X1 , Y1 ), . . . (Xn , Yn )

= c(X1 , . . . , Xn , Y1 , . . . , Yn ) +

et en passant au logarithme, on

d1
X

N`X log p`, +

`=1

d2
X

N`Y log p,`0 ,

`0 =1

o`
u c(X1 , . . . , Xn , Y1 , . . . , Yn ) ne depend pas de p, et on raisonne comme pour le Lemme
8.4.1 en remplacant {1, . . . , d} par {1, . . . , d1 + d2 }.
bnmv
Par ailleurs, le Lemme
8.4.1 donne lestimateur du maximum de vraisemblance p
pour la famille globale p, p Md1 ,d2 qui est lestimateur des frequences empiriques
n

(b
pn )`,`0

1X
1{(Xi ,Yi )=(`,`0 )}
=
n
i=1

pour 1 ` d1 , 1 `0 d2 .
Alors, comme precedemment, sous lhypoth`ese nulle, cest-`a-dire pour p (Md1 ,d2 )0
on a la convergence

d
mv
bnmv , p
bn,0
n2 p
2 (d1 1)(d2 1)
en loi sous Pp . En particulier, la statistique de test secrit

2

pn )`,`0 pbn,(`,) pbn,(,`0 )
X (b
mv
bnmv , p
bn,0
n2 p
=n
.
pbn,(`,) pbn,(,`0 )
0
`,`

Proposition 8.9 (Test dindependance du 2 ). Pour tout (0, 1), le test defini par
la zone de rejet
n

o
2
mv
bnmv , p
bn,0
q1,(d
,
Rn, = n2 p
1 1)(d2 1)
2

o`
u q1,(d
est le quantile dordre de la loi du 2 `
a (d1 1)(d2 1) degres de
1 1)(d2 1)
liberte est asymptotiquement de niveau et consistant.

Nous admettons la demonstration de ce resultat qui est essentiellement une application de la Proposition 8.8.
Exemple 8.2. On test lindependance entre le nombre denfants dun menage et son
revenu 7 sur une population de n = 25263 menages en Suède au milieu du siècle passe.
Les menages sont classes en 4 categories selon leur revenus : la categorie I correspond
aux revenus les plus faibles et la categorie IV aux revenus les plus eleves. Les resultats
obtenus sont les suivants :
7. Daprès [1], p. 354.

210

Tests asymptotiques
nb. enfants
0
1
2
3
4
pop.

I
2161
2755
936
225
39
6116

II
3577
5081
1753
419
98
10928

III
2184
2222
640
96
31
5173

IV
1636
1052
306
38
14
3016

pop.
9558
11110
3635
778
182
25263

Sans prejuger de la pertinence de la modelisation, on met en place un test du 2

dindependance pour la loi p M4,5 de la variable (nombre denfants, revenu) `
a valeurs dans {0, 1, 2, 3, 4} {I, II, III, IV } dont la distribution empirique est donnee
par le tableau ci-dessus et dont les marginales empiriques se lisent sur la dernière colonne
et la dernière ligne. On trouve

mv
bnmv , p
bn,0
= 568, 5
n2 p
ce qui est significativement plus grand que le quantile dordre 1 pour une loi du 2
a (5 1)(4 1) = 12 degres de liberte, meme pour des petites valeurs de . Dans ces
`
conditions, on rejette lhypothèse dindependance.
.

Bibliographie
[1] Borovkov, A. A. Mathematical statistics (traduit du russe). Gordon and Breach
science publishers, 1998.
ements de statistique asymptotique.
[2] Genon-Catalot, V., et Picard, D. El
Mathematiques & Applications. Springer-Verlag, Paris, 1993.
[3] Ibragimov, I. A., et Hasminskii, R. Z. Statistical Estimation, Asymptotic Theory.
New-York, Berlin, 1981.
[4] Jacod, J. et Protter, P. Probability essentials. Seconde edition. Universitext.
Springer-Verlag, Berlin, 2003.

[5] Meleard, S. Aleatoire. Polycopie de lEcole

polytechnique.

[6] Monfort, A. Statistique. Polycopie de lEcole

polytechnique (version editee par O.
Cappe).
[7] Picard, D. Statistique et Mod`eles Aleatoires. Polycopie de lUniversite Paris 7.
[8] Tsybakov, A. Statistique Appliquee. Polycopie de lUniversite de Pierre et Marie
Curie.
[9] Tsybakov, A. Apprentissage statistique et estimation non-parametrique. Polycopie

de lEcole
polytechnique.
[10] van der Vaart, A. Asymptotic statistics. Cambridge Series in Statistical and Probabilistic Mathematics, 3. Cambridge University Press, Cambridge, 1998.
[11] Wasserman, L. All of statistics. A concise course in statistical inference. Springer
Texts in Statistics. Springer-Verlag, New York, 2004.

Index
M -estimateur, 85
Z-estimateur, 84
2 , loi du, 16
2 , test du, 199
p -valeur, 176
ecart-type, 8
equi-invariance, 97
bruit , innovation, 106
design al
eatoire, 105
design d
eterministe, 107

distribution, 3
distribution empirique, 69
DKV, inegalite de, 62
domination, 74
efficace, estimateur, 131
efficacite asymptotique, 147
esperance, 8
estimateur, 48
exhaustivite, 153
exponentielle, loi, 5

sup sur sup , test, 195

adequation, test du 2 d, 199

admissible, estimateur, 131
aplatissement, kurtosis, 9
asymetrie, skewness, 9
Beta, loi, 77
Bernoulli, loi de, 4
biaisvariance dun estimateur, 132
binomiale, loi, 4
Cauchy, loi de, 77
Cochran, 18
composite, hypoth`ese, 165
confiance, intervalle de, 50, 177
confiance, region de, 177
consistant, convergent, test, 58
consistant, test, 189
contraste, estimateur de, 85
convergence en loi, 21
convergence en probabilite, 20
convergence presque-s
ure, 20
convergent, test, 189
couverture, propriete de, 178

factorisation, crit`ere de, 156

Fisher, information de, 137
Fisher, loi de, 16
Fisher, programme de, 152
fonction de repartition empirique, 49
fonctionnelle lineaire, 63
Gamma, loi, 76
gaussienne, normale, loi, 5
gaussiens, vecteurs, 12
Glivenko-Cantelli, 59
GMM, estimateur, 84
Hoeffding, inegalite de, 53
identifiabilite, 74
independance, test du 2 d, 202
Kolmogorov-Smirnov, 60
Kolmogorov-Smirnov, test, 63
Kullback-Leibler, divergence, 144
log-normale, loi, 78
loi, 3

INDEX

213

mediane, 11
methode delta, 24
maximum de vraisemblance, 144
minimax, optimalite, 134
mod`ele de regression, 105
mod`ele multinomial, 203
moindres carres, estimateur des, 111, 114
moment, estimateur, 79
moments generalises, estimateur des, 84
moments, methode des, 78
monotone, rapport de vraisemblance, 171
moyenne, 8
multinomiale, 78

simple, hypoth`ese, 165

Slutsky, lemme de, 22
sous-espace, test dappartenance, 184
statistique, 48
Student, loi de, 16

Neyman, principe de, 166

Neyman-Pearson, lemme de, 166
niveau dun test, 57

uniforme, loi, 5

param`etres estimes, test du 2 , 202

perte dinformation, 153
perte quadratique, 49, 50
pivotale, statistique, 178
Poisson, loi de, 4
première espèce, erreur de, 57
procedure statistique, 48
quantile, 10
quantiles empiriques, 68
regression lineaire gaussienne, 117
regression lineaire multiple, 113
regression lineaire simple, 109
regression non-lineaire, 119
regulier, modèle, experience statistique, 141
residus, 110
rapport de vraisemblance maximal, test, 195
rapport de vraisemblance, test du, 168
risque quadratique, cas multidimensionnel,
135
selection de variables, test de, 184
score, fonction, 137
seconde espèce, erreur de, 57
Shannon, entropie de, 145

Tchebychev, inegalite de, 8

test asymptotique, 189
test simple, 56, 164
test, erreur de, 164
test, niveau dun, 57
test, puissance dun, 57
theor`eme central limite, 24

variance, 8
vraisemblance, equations de, 96
vraisemblance, contraste de, 103
vraisemblance, estimateur du maximum de,
92
vraisemblance, fonction de, 92
vraisemblance, log, 93
Wald, test de, 192

Vous aimerez peut-être aussi

Introduction à la Statistique Mathématique
Pas encore d'évaluation
Introduction à la Statistique Mathématique
87 pages
Statistiques et Analyse des Données
Pas encore d'évaluation
Statistiques et Analyse des Données
186 pages
Introduction aux SVM et leur évolution
100% (1)
Introduction aux SVM et leur évolution
4 pages
Concepts de Base en Algorithmique
Pas encore d'évaluation
Concepts de Base en Algorithmique
98 pages
Memoire Byemba Kayembe Josué
Pas encore d'évaluation
Memoire Byemba Kayembe Josué
86 pages
Règles d'association et itemsets fréquents
Pas encore d'évaluation
Règles d'association et itemsets fréquents
8 pages
Feuilletage 576
Pas encore d'évaluation
Feuilletage 576
24 pages
100 Notions de Maths en IA Et Data Science 1741592016
Pas encore d'évaluation
100 Notions de Maths en IA Et Data Science 1741592016
112 pages
Filtrage Collaboratif et Recommandations Web
Pas encore d'évaluation
Filtrage Collaboratif et Recommandations Web
32 pages
Support Cours Algorthmique
Pas encore d'évaluation
Support Cours Algorthmique
31 pages
QLearning
Pas encore d'évaluation
QLearning
34 pages
Modélisation des Systèmes Complexes
100% (1)
Modélisation des Systèmes Complexes
126 pages
Analyse Et Prédiction Des Crises Cardiaques
Pas encore d'évaluation
Analyse Et Prédiction Des Crises Cardiaques
30 pages
Méthodes de Monte Carlo Et Chaînes de Markov Pour La Simulation
Pas encore d'évaluation
Méthodes de Monte Carlo Et Chaînes de Markov Pour La Simulation
122 pages
Processus Ornstein-Uhlenbeck : Modèles et Applications
Pas encore d'évaluation
Processus Ornstein-Uhlenbeck : Modèles et Applications
13 pages
Goulet Introduction Programmation R
100% (1)
Goulet Introduction Programmation R
170 pages
Introduction à la Recherche Opérationnelle
Pas encore d'évaluation
Introduction à la Recherche Opérationnelle
113 pages
SVM Linéaires avec Spark : Guide TP-4
Pas encore d'évaluation
SVM Linéaires avec Spark : Guide TP-4
5 pages
Feuilletage
Pas encore d'évaluation
Feuilletage
30 pages
Analyse de données d'enquêtes avec R
Pas encore d'évaluation
Analyse de données d'enquêtes avec R
797 pages
Concours sportifs à l'Exposition de 1900
Pas encore d'évaluation
Concours sportifs à l'Exposition de 1900
795 pages
Introduction aux SVM et Classification Binaire
Pas encore d'évaluation
Introduction aux SVM et Classification Binaire
50 pages
Feature Engineering en Machine Learning
Pas encore d'évaluation
Feature Engineering en Machine Learning
37 pages
Concours D'accès Master Sécurité: Et Informatique
Pas encore d'évaluation
Concours D'accès Master Sécurité: Et Informatique
7 pages
Mathématiques pour Machine Learning
Pas encore d'évaluation
Mathématiques pour Machine Learning
6 pages
Introduction à R et au tidyverse
Pas encore d'évaluation
Introduction à R et au tidyverse
478 pages
AideALaDecision D
Pas encore d'évaluation
AideALaDecision D
184 pages
0765 Techniques Algorithmiques Et Programmation
100% (1)
0765 Techniques Algorithmiques Et Programmation
175 pages
Stratégie de Diversification de NVK
Pas encore d'évaluation
Stratégie de Diversification de NVK
4 pages
Introduction à l'apprentissage machine
Pas encore d'évaluation
Introduction à l'apprentissage machine
2 pages
Cours Java Programmation
Pas encore d'évaluation
Cours Java Programmation
107 pages
Évaluation Econométrie des Données de Panel
Pas encore d'évaluation
Évaluation Econométrie des Données de Panel
2 pages
Optimisation
Pas encore d'évaluation
Optimisation
21 pages
Analyse de données avec Python 2E
Pas encore d'évaluation
Analyse de données avec Python 2E
1 099 pages
Statistiques en psychologie et sciences sociales
100% (1)
Statistiques en psychologie et sciences sociales
81 pages
Introduction au langage de programmation R
Pas encore d'évaluation
Introduction au langage de programmation R
7 pages
HTML JavaScript 3
Pas encore d'évaluation
HTML JavaScript 3
280 pages
Scoring Marketing : Régression Logistique
Pas encore d'évaluation
Scoring Marketing : Régression Logistique
16 pages
Prédiction - Churn - Enock - NKINSI 12
Pas encore d'évaluation
Prédiction - Churn - Enock - NKINSI 12
65 pages
Introduction à l'Intelligence Artificielle
Pas encore d'évaluation
Introduction à l'Intelligence Artificielle
11 pages
Graphes pour Terminale ES
Pas encore d'évaluation
Graphes pour Terminale ES
106 pages
Introduction au logiciel R et ses fonctionnalités
Pas encore d'évaluation
Introduction au logiciel R et ses fonctionnalités
157 pages
Maths Graphes Algorithmes PDF
0% (1)
Maths Graphes Algorithmes PDF
81 pages
Cours Stati Appliquee
Pas encore d'évaluation
Cours Stati Appliquee
103 pages
Analyse des séries temporelles en R
Pas encore d'évaluation
Analyse des séries temporelles en R
39 pages
Statistiques en grande dimension : Régressions
Pas encore d'évaluation
Statistiques en grande dimension : Régressions
29 pages
Méthodes Statistiques et Estimation
Pas encore d'évaluation
Méthodes Statistiques et Estimation
225 pages
Estimation Statistique du Signal et Image
Pas encore d'évaluation
Estimation Statistique du Signal et Image
125 pages
StatM1 Poly P Doukhan
Pas encore d'évaluation
StatM1 Poly P Doukhan
111 pages
Principes de Statistique Inférentielle
Pas encore d'évaluation
Principes de Statistique Inférentielle
145 pages
Statistique Inférentielle Avancée
Pas encore d'évaluation
Statistique Inférentielle Avancée
135 pages
Cours Pierre Ribereau
100% (1)
Cours Pierre Ribereau
100 pages
Cours de Statistique Mathématique
Pas encore d'évaluation
Cours de Statistique Mathématique
119 pages
Cours de Statistique Mathématique 2023
Pas encore d'évaluation
Cours de Statistique Mathématique 2023
74 pages
Statistique Inferentielle L 2
Pas encore d'évaluation
Statistique Inferentielle L 2
55 pages
Cours de Statistique Inférentielle 2023
Pas encore d'évaluation
Cours de Statistique Inférentielle 2023
100 pages
STAT 4 LICENCE Yode
Pas encore d'évaluation
STAT 4 LICENCE Yode
75 pages
Cours de Statistique Mathématique 2004
Pas encore d'évaluation
Cours de Statistique Mathématique 2004
409 pages
Arabe Superprofe
Pas encore d'évaluation
Arabe Superprofe
13 pages
La Nouvelle Atlantique: Conquête et Mystère
Pas encore d'évaluation
La Nouvelle Atlantique: Conquête et Mystère
12 pages
Exercices sur les Plans d'Expérience à 2 Niveaux
Pas encore d'évaluation
Exercices sur les Plans d'Expérience à 2 Niveaux
29 pages
Guide de l'Équilibre Alimentaire 2012
Pas encore d'évaluation
Guide de l'Équilibre Alimentaire 2012
50 pages
Métaux Planétaires et Santé Holistique
Pas encore d'évaluation
Métaux Planétaires et Santé Holistique
13 pages
L'ÉCOLE Berceau de Destinée
Pas encore d'évaluation
L'ÉCOLE Berceau de Destinée
5 pages
Aristote Et La Science
Pas encore d'évaluation
Aristote Et La Science
16 pages
Méthodologie de Présentation Scientifique
Pas encore d'évaluation
Méthodologie de Présentation Scientifique
18 pages
C'est Pas Sorcier 2205 - Champagne
Pas encore d'évaluation
C'est Pas Sorcier 2205 - Champagne
1 page
Inversion Du Sujet
Pas encore d'évaluation
Inversion Du Sujet
14 pages
Configurez Le Routage de Votre Réseau - OpenClassrooms
Pas encore d'évaluation
Configurez Le Routage de Votre Réseau - OpenClassrooms
11 pages
Fiche60 Tout Un Fromage
Pas encore d'évaluation
Fiche60 Tout Un Fromage
2 pages
Critères de correction EVACOM 2018
Pas encore d'évaluation
Critères de correction EVACOM 2018
5 pages
Identification et désir en éducation
Pas encore d'évaluation
Identification et désir en éducation
15 pages
Anne Sabbatique
Pas encore d'évaluation
Anne Sabbatique
4 pages
Junaidi Silsila
Pas encore d'évaluation
Junaidi Silsila
55 pages
He Fenouil Doux
Pas encore d'évaluation
He Fenouil Doux
5 pages
Rôle du comité d'audit contre la fraude
Pas encore d'évaluation
Rôle du comité d'audit contre la fraude
4 pages
Devoir 6 Phonetique 100014717
Pas encore d'évaluation
Devoir 6 Phonetique 100014717
9 pages
Tiers-Lieux : Travail et Organisation Moderne
Pas encore d'évaluation
Tiers-Lieux : Travail et Organisation Moderne
107 pages
La Subjonctif Present Et Passe
Pas encore d'évaluation
La Subjonctif Present Et Passe
7 pages
Fiche Des Citations de Poésie
Pas encore d'évaluation
Fiche Des Citations de Poésie
2 pages
L'Agriculture
Pas encore d'évaluation
L'Agriculture
3 pages
Licence 1 - 2 - 3 Architecture 2021-2022
Pas encore d'évaluation
Licence 1 - 2 - 3 Architecture 2021-2022
3 pages
Guide pour Analyser une Décision Juridique
Pas encore d'évaluation
Guide pour Analyser une Décision Juridique
6 pages
Dieux Morts TB
Pas encore d'évaluation
Dieux Morts TB
10 pages
Naissance du roman et ses origines
Pas encore d'évaluation
Naissance du roman et ses origines
10 pages
Bibliothèque Bountyfrei : 370 livres
Pas encore d'évaluation
Bibliothèque Bountyfrei : 370 livres
8 pages
Droits Humains - Les 3 Générations
Pas encore d'évaluation
Droits Humains - Les 3 Générations
15 pages
Fiche de Lecture: Molière en Classe
100% (1)
Fiche de Lecture: Molière en Classe
3 pages

Rammah2 PDF

Transféré par

Rammah2 PDF

Transféré par

Introduction aux methodes statistiques

Table des mati`

Loi dune variable aleatoire reelle . . . . . . . . . . . . . . . . . . . . . . .

Variables de loi absolument continue . . . . . . . . . . . . . . . . .

Coefficients dasymetrie et daplatissement . . . . . . . . . . . . . .

Loi normale multivariee . . . . . . . . . . . . . . . . . . . . . . . .

Derivees des lois gaussiennes . . . . . . . . . . . . . . . . . . . . .

Convergences et theor`emes limites . . . . . . . . . . . . . . . . . . . . . .

Lois des grands nombres et theor`eme central-limite . . . . . . . . .

Definition provisoire dune experience statistique?

Experience engendree par une observation . . . . . . . . . . . . . .

Mod`eles parametriques, non-parametriques? . . . . . . . . . . . . .

Mod`ele dechantillonnage ou du nechantillon . . . . . . . . . . . .

Notations et definitions preliminaires . . . . . . . . . . . . . . . . .

Fonction de repartition empirique . . . . . . . . . . . . . . . . . . .

Precision destimation asymptotique . . . . . . . . . . . . . . . . .

Vitesse destimation uniforme . . . . . . . . . . . . . . . . . . . . .

Precision uniforme non-asymptotique? . . . . . . . . . . . . . . . .

Test dadequation `a une distribution donnee? . . . . . . . . . . . .

Le cas regulier : methode de substitution . . . . . . . . . . . . . .

Familles parametriques classiques . . . . . . . . . . . . . . . . . . .

Methode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Moments generalises. Z- et M -estimation . . . . . . . . . . . . . . . . . .

Convergence des Z- et des M -estimateurs . . . . . . . . . . . . . .

Loi limite des Z- et M -estimateurs . . . . . . . . . . . . . . . . . .

Principe du maximum de vraisemblance . . . . . . . . . . . . . . .

Maximum de vraisemblance et M -estimation . . . . . . . . . . . . 103

Mod`eles de regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

design  aleatoire . . . . . . . . . . . . . 105

Reduction au cas dun

design  deterministe . . . . . . . . . . . 107

Regression lineaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Droite de regression . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Moindres carres et maximum de vraisemblance . . . . . . . . . . . 112

Regression lineaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . 113

Mod`ele lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

Estimateur des moindres carres . . . . . . . . . . . . . . . . . . . . 114

Proprietes de la methode des moindres carres . . . . . . . . . . . . 116

Regression lineaire multiple gaussienne . . . . . . . . . . . . . . . . 117

Regression non-lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

Moindres carres non-lineaires et M -estimation . . . . . . . . . . . 119

Reconstruction dun signal echantillonne . . . . . . . . . . . . . . . 121

Mod`ele de Poisson conditionnel . . . . . . . . . . . . . . . . . . . . 123

Mod`eles `a reponse binaire . . . . . . . . . . . . . . . . . . . . . . . 124

Comparaison destimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . 129

Risque quadratique en dimension 1 . . . . . . . . . . . . . . . . . . 130

Risque quadratique et normalite asymptotique . . . . . . . . . . . 133

Risque quadratique : le cas multidimensionnel? . . . . . . . . . . . 135

Mod`eles reguliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 137

Mod`ele regulier en dimension 1 . . . . . . . . . . . . . . . . . . . . 141

Proprietes de linformation de Fisher . . . . . . . . . . . . . . . . . 142

Interpretation geometrique de linformation de Fisher . . . . . . . 144

Le cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . 145

Theorie asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

Normalite asymptotique du maximum de vraisemblance . . . . . . 146

Comparaison destimateurs : efficacite asymptotique . . . . . . . . 147

Le programme de Fisher et ses limites . . . . . . . . . . . . . . . . 151

Mod`eles non-reguliers . . . . . . . . . . . . . . . . . . . . . . . . . 152

Perte dinformation? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

Sous-experience statistique . . . . . . . . . . . . . . . . . . . . . . 153

Statistique exhaustive . . . . . . . . . . . . . . . . . . . . . . . . . 156

Exemples de statistiques exhaustives . . . . . . . . . . . . . . . . . 157

Problematique des tests dhypoth`ese . . . . . . . . . . . . . . . . . . . . . 163

Test et erreur de test . . . . . . . . . . . . . . . . . . . . . . . . . . 163

Comparaison de test, principe de Neyman . . . . . . . . . . . . . . 166

Hypoth`ese simple contre alternative simple . . . . . . . . . . . . . . . . . 166

Principe de Neyman et decision `a deux points . . . . . . . . . . . . 166

Lemme de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . 167

Tests dhypoth`eses composites . . . . . . . . . . . . . . . . . . . . . . . . . 171

Notion de p valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

Regions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

Region de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . 178

Fonctions pivotales : le cas non-asymptotique . . . . . . . . . . . . 179

Dualite tests regions de confiance . . . . . . . . . . . . . . . . . . 180

Tests dans le mod`ele de regression lineaire . . . . . . . . . . . . . . . . . . 182

design aleatoire . . . . . . . . . . . . . 105

design deterministe . . . . . . . . . . . 107

sup sur sup ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196