Rammah2 PDF
Rammah2 PDF
Marc Hoffmann
Janvier 2013
ii
Mod
elisation statistique
1 Outils de probabilit
es
1.1
1.2
1.3
1.4
1.5
1.1.1
Variables discr`etes . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2
1.1.3
Formules dintegration . . . . . . . . . . . . . . . . . . . . . . . . .
Param`etres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1
Esperance-variance . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2
1.2.3
Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1.3.1
12
1.3.2
16
1.3.3
Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
20
1.4.1
Modes de convergences . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.4.2
23
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2 Exp
erience statistique
2.1
27
Modelisation statistique? . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
2.1.1
27
Exemples introductifs . . . . . . . . . . . . . . . . . . . . . . . . .
`
TABLE DES MATIERES
iv
2.1.2
2.2
2.3
II
. . . . . . . . .
34
Formulation mathematique . . . . . . . . . . . . . . . . . . . . . . . . . .
35
2.2.1
35
2.2.2
Observation canonique? . . . . . . . . . . . . . . . . . . . . . . . .
36
2.2.3
Domination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
2.2.4
38
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
2.3.1
39
2.3.2
Mod`eles de regression . . . . . . . . . . . . . . . . . . . . . . . . .
42
M
ethodes destimation
3 Echantillonnage et fonction de r
epartition empirique
3.1
3.2
3.3
3.4
45
47
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.1.1
Situation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.1.2
48
Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.2.1
49
3.2.2
Precision destimation . . . . . . . . . . . . . . . . . . . . . . . . .
49
3.2.3
52
3.2.4
Precision non-asymptotique . . . . . . . . . . . . . . . . . . . . . .
54
3.2.5
Decision? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
Estimation uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
3.3.1
Estimation uniforme . . . . . . . . . . . . . . . . . . . . . . . . . .
60
3.3.2
62
3.3.3
63
3.3.4
64
Estimation de fonctionnelles . . . . . . . . . . . . . . . . . . . . . . . . . .
64
3.4.1
65
3.4.2
Le cas non-regulier? . . . . . . . . . . . . . . . . . . . . . . . . . .
69
`
TABLE DES MATIERES
3.5
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 M
ethodes destimation en densit
e
4.1
4.2
4.3
4.4
75
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
4.1.1
Notations et hypoth`eses . . . . . . . . . . . . . . . . . . . . . . . .
75
4.1.2
78
80
4.2.1
Le cas de la dimension 1 . . . . . . . . . . . . . . . . . . . . . . . .
80
4.2.2
Le cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . .
83
85
4.3.1
Z-estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
4.3.2
M -estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
4.3.3
88
4.3.4
90
Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . .
93
4.4.1
93
4.4.2
Exemples de calcul
4.4.3
. . . . . . . . . . . . . . . . . . . . . . . . . . 100
5 M
ethodes destimation en r
egression
5.1
5.2
5.3
72
105
Mod`ele de regression `a
5.1.2
5.1.3
Calcul de la vraisemblance
. . . . . . . . . . . . . . . . . . . . . . 107
5.2.2
5.3.2
5.3.3
`
TABLE DES MATIERES
vi
5.3.4
5.4
5.4.2
5.4.3
5.4.4
6 Information statistique et th
eorie asymptotique
127
6.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.2
6.3
6.4
6.5
6.6
6.2.1
6.2.2
6.2.3
6.3.2
6.3.3
6.3.4
6.3.5
6.4.2
6.4.3
6.4.4
6.5.2
6.5.3
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
`
TABLE DES MATIERES
III
vii
Tests dhypoth`
eses
161
7 Tests et r
egions de confiance
163
7.1
7.2
7.3
7.4
7.5
7.6
7.7
7.1.2
7.2.2
Familles `
a rapport de vraisemblance monotone? . . . . . . . . . . . 171
7.3.2
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
p valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
7.4.1
7.4.2
Proprietes de la p -valeur
. . . . . . . . . . . . . . . . . . . . . . . 177
7.5.2
7.5.3
7.6.2
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
8 Tests asymptotiques
191
8.1
8.2
8.3
8.2.1
8.2.2
Test
8.3.1
`
TABLE DES MATIERES
viii
8.4
8.3.2
. . . . . . . . . . . . . . . . . . . 199
8.3.3
. . . 200
Tests du 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
8.4.1
8.4.2
Pr
esentation du document
Ces notes de cours presentent une introduction classique aux methodes statistiques.
Le terme statistique(s) reste souvent assez vague en mathematiques appliquees : il
concerne aussi bien le traitement des bases de donnees que lutilisation de techniques
numeriques en modelisation stochastique (image, econometrie et finance, physique, biologie) ; dans ce cours, il designe plutot une problematique au sein de la theorie des probabilites qui consiste en letude dobjets mathematiques bien definis : les experiences
statistiques.
Nous nous placons dans un cadre volontairement un peu abstrait, o`
u lon dispose
dune notion dexperience statistique associee `a une observation dans un mod`ele stochastique. Le but est de degager des methodes quantitatives basees sur des principes
relativement generaux, qui permettent de retrouver les param`etres dun mod`ele et
de prendre des decisions `
a partir dobservations issues de ce mod`ele. Nous voulons
quantifier lerreur de reconstruction ou de decision dans un contexte (relativement) universel, de sorte que des probl`emes issus de disciplines differentes puissent etre traites de la
meme mani`ere, en principe. Bien entendu, chaque discipline scientifique a sa specificite,
mais nous insisterons sur des methodes communes par exemple le principe de maximum de vraisemblance ou la methode des moindres carres qui setudient de facon unifiee
grace `a la theorie des probabilites.
Nous supposons le lecteur familier avec le cours de MAP 311, et nous faisons reference
tout au long de ces notes au polycopie de S. Meleard [5]. On trouvera tous les complements
de probabilites eventuellement necessaires dans le livre de J. Jacod et P. Protter [4] par
exemple.
Le Chapitre 1 rappelle les principaux outils de probabilites, et insiste sur les notions
fondamentales utiles en statistique : vecteurs gaussiens (lois derivees des vecteurs gaussiens) et theor`emes limites (modes de convergence et theor`eme central-limite). Il permet
aussi de fixer les notations utilisees dans ce cours.
Le Chapitre 2 presente la notion formelle dexperience statistique accompagnee des
exemples essentiels que sont les mod`eles dechantillonnage ou de densite, et les mod`eles
de regression.
`
TABLE DES MATIERES
`
TABLE DES MATIERES
xi
Faute de place et de temps, certains th`emes essentiels ne sont pas abordes : lapproche
bayesienne, la statistique computationnelle (algorithmique statistique, bootstrap). Par
ailleurs, lestimation non-parametrique et ses applications en debruitage de signal ou
dimage ainsi que lapprentissage et la classification font lobjet du cours de MAP 533
dA. Tsybakov. Nous donnons `
a la fin de ce polycopie quelques indications et references
bibliographiques.
1. Citons les polycopies et les notes de cours de Dominique Picard de lUniversite Paris Diderot,
et dAlexandre Tsybakov de lUniversite Pierre et Marie Curie, auquels nous avons fait de nombreux
emprunts.
xii
`
TABLE DES MATIERES
Premi`
ere partie
Mod
elisation statistique
Chapitre 1
Outils de probabilit
es
Nous considerons des variables aleatoires `a valeurs reelles ou vectorielles, discr`etes ou
de loi absolument continue. On envisagera (superficiellement) des cas plus complexes de
melanges de lois discr`etes et continues.
1.1
Outils de probabilit
es
1.1.1
Variables discr`
etes
Cnk pk (1 p)nk , x R.
kx
X k
kx
1.1.2
k!
, x R.
Une variable aleatoire reelle X est de loi absolument continue (ou `a densite) si sa
fonction de repartition secrit
Z
F (x) =
f (t)dt, x R
(,x]
1. avec la convention
= 0.
o`
u dt designe la mesure de Lebesgue sur 2 R. La fonction f , definie `a un ensemble
negligeable pr`es, est une densite de probabilite :
Z
f 0 et
f (t)dt = 1.
R
0
si
x<a
x
a
si x [a, b]
F (x) =
ba
1
si x > b.
2. Une variable aleatoire suit la loi exponentielle de param`etre > 0, si elle admet
pour densite
f (t) = et 1[0,+) (t).
Dans ce cas,
F (x) =
0
si x < 0
1 ex sinon.
(x) =
, x R,
2 /2
et
dt
.
2
2. Comprendre ici et dans toute la suite la mesure de Lebesgue sur (R, B) . Idem pour la mesure
de Lebesgue sur Rn , cest-`
a-dire sur (Rn , Bn ), o`
u Bn est la tribu des boreliens de Rn .
Outils de probabilit
es
1.1.3
Formules dint
egration
Si X est une variable aleatoire reelle de loi F (ou encore PX ), on a, pour toute fonction
test 3 ,
Z
Z
E (X) =
X() P(d) =
(x) PX (dx)
(1.1)
(voir Meleard s[5], Proposition 4.5.1 p. 85), d`es que la fonction ; X() est
integrable par rapport `
a la mesure P(d). On ecrit aussi
Z
(x)dF (x).
(x)P (dx) =
R
Remarque 1.2. La mesure PX (dx), definie sur R peut etre construite `a partir de la
fonction de repartition F . Pour cela, on pose
PX (a, b] = F (b) F (a), pour tous a < b reels,
et ce qui definit PX sur un sous-ensemble de B. Le prolongement `a B en entier se fait `
a
laide du theor`eme de la classe monotone (voir par exemple Jacod et Protter, [4]).
Cas discret
Si X est discr`ete, prenant ses valeurs dans un ensemble {xi , i N} R de points
isoles, F est constante par morceaux, et ses discontinuites ont lieu aux points xi o`
u ses
sauts sont damplitude P[X = xi ] > 0, et
Z
(x)dF (x) =
R
(xi )P[X = xi ].
iN
Cas continu
Si X est (de loi) absolument continue de densite f , on a
Z
Z
(x)dF (x) =
(x)f (x)dx,
R
ce qui est coherent du point de vue des notations avec la propriete F 0 (x) = f (x) presquepartout.
3. Dans toute la suite, une fonction test designera une fonction borelienne positive (ou integrable, ou
bornee) de sorte que les formules dintegration associees soient bien definies.
1.2 Param`
etres de position
M
elange de lois discr`
etes et continues
Une variable aleatoire reelle nest par exclusivement discr`ete ou (de loi) absolument
continue.
Exemple 1.3. Soit X une variable aleatoire reelle de loi N (0, 1). La variable
Y = X1X0
nest ni discr`ete, ni continue : elle nest pas discr`ete puisquelle peut prendre toutes les
valeurs positives, mais elle nest pas (de loi) absolument continue puisque
P[Y = 0] =
La fonction de repartition de X secrit
Z
1
F (x) = 2 1x0 +
1
2
6= 0.
dt
exp(t2 /2)
1x0 ,
2
dt
(t) exp(t2 /2) .
2
Remarque 1.3. La loi dune variable aleatoire peut etre discr`ete, absolument continue,
ou bien encore avoir une partie discr`ete et une partie absolument continue, comme dans
les exemples ci-dessus. Attention : ceci nepuise pas toutes les possibilites !
1.2
Param`
etres de position
Etant donnee une variable aleatoire reelle, on cherche une description de sa loi `a
laide dindicateurs deterministes les plus simples possible. On utilise souvent en premi`ere
approximation quatre indicateurs (sils existent) bases sur les quatre premiers moments
(`a normalisation affine pr`es) qui sont la moyenne, la variance, le coefficient dasymetrie
ou skewness et le coefficient daplatissement ou kurtosis.
Un autre type dapproximation se base sur les quantiles de la loi consideree, qui
mesurent dans un certain sens la dispersion de la loi. Plus difficiles `a manipuler, ils
presentent lavantage detre toujours definis.
4. On peut aussi ecrire la loi de X de la facon suivante
PX (dx) = 21 0 (dx) +
x2 /2
1 e
1x0 dx,
2
o`
u 0 (dx) designe la mesure de Dirac au point 0 et dx designe la mesure de Lebesgue sur R. Le contexte
dictera le choix des notations.
Outils de probabilit
es
1.2.1
Esp
erance-variance
X()p P(d).
D
efinition 1.3. La moyenne ou esperance X , si elle existe, est le moment dordre 1 de
la variable aleatoire X :
X = E X
2 ) de X, si elle existe, est le moment dordre 2
La variance Var[X] (encore notee X
recentre de X :
Z
2
2
X = Var[X] = E (X X ) = (x X )2 dF (x).
R
2
Demonstration. On a, pour tout reel c, E (X c)2 = E X c + Var[X].
Le couple esperance-variance fournit un indicateur tr`es simple pour controler les fluctuations de X autour de sa moyenne X via linegalite de Tchebychev :
2
P |X X | t X
, t > 0.
t2
(1.2)
1.2 Param`
etres de position
x mX
X
, xR
1.2.2
Coefficients dasym
etrie et daplatissement
F ( + x) = 1 F ( x)
o`
u F est la fonction de repartition de X.
Dans le cas absolument continu, si f est la densite de X, cela entrane
f ( + x) = f ( x)
presque-partout.
On dit quune loi est symetrique si elle est symetrique par rapport `a 0.
Si X admet un moment dordre 3, on introduit une mesure
distributions symetriques de la mani`ere suivante
deloignement aux
10
Outils de probabilit
es
D
efinition 1.5. Le coefficient dasymetrie (skewness) dune variable aleatoire reelle X
telle que E |X|3 < + est
E
X =
3
X E[X]
.
3
X
Le coefficient dasym
etrie est une mesure
grossi`ere de symetrie : si la loi de X est
symetrique, alors X = 0. Mais avoir X = 0 ne signifie pas que la loi de X est
symetrique.
Remarque 1.5. Le coefficient X est invariant par dilatation-translation : pour tout
R et pour tout > 0, on a
+ X = X .
Aplatissement (kurtosis)
D
efinition 1.6.
Le
coefficient daplatissement (kurtosis) dune variable aleatoire reelle
X telle que E X 4 < + est
E
X =
X E[X]
4
X
4
3.
1.2.3
Quantiles
Si X est une variable aleatoire reelle dont la fonction de repartition F est continue
et strictement croissante, le quantile dordre p, 0 < p < 1, de la loi F est defini comme
lunique solution qp de lequation
F (qp ) = p.
(1.3)
1.2 Param`
etres de position
11
pour tout a R verifiant P X a
1
2
et P X a 12 .
En particulier
E |X q1/2 | = min E |X c| .
cR
Demonstration. Montrons E |X c| E |X a| pour tout c R. Sans perdre de
generalite, on suppose c > a. On a alors
|X c| = |X a| + (c a)
|X c| |X a|
|X c| |X a| (c a)
sur {X a},
sur {a < X (a + c)/2},
sur {X > (a + c)/2}.
12
Outils de probabilit
es
En ecrivant
|X c| |X a| + (c a)1{Xa} (c a)1{X>(a+c)/2}
et en integrant cette derni`ere inegalite, on obtient
E |X c| E |X a| + (c a) P X a P X > (a + c)/2 .
La propriete de a garantit
de plus P X a P X > (a + c)/2 , ce qui permet de
conclure, puisque P X > a = 1 P X a 1/2.
1.3
1.3.1
Vecteurs gaussiens
Loi normale multivari
ee
Pr
eliminaires
Si
X = (X1 , . . . , Xn )T
est un vecteur aleatoire de Rn , son esperance est definie composante par composante en
prenant les esperances des Xi lorsque cela a un sens.
La variance de X est la matrice
X = E (X E[X])(X E[X])T
appelee aussi matrice de variance-covariance de X. Elle existe d`es lors que
E k X k2 < +,
o`
u k x k = (xT x)1/2 est la norme euclidienne du vecteur x Rn . On a les proprietes
suivantes :
T
1. X = E X T X E X E X
2. Pour tout a Rn , Var aT X = aT X a. En particulier, X est symetrique
positive.
3. Si A est une matrice k n et b Rk , on a A X +b = A X AT .
Vecteurs gaussiens
Si Idn designe la matrice unite n n, on note
N (0, Idn )
la loi du vecteur aleatoire
X = (1 , . . . , n )T
13
dont toutes les composantes sont des variables aleatoires gaussiennes independantes,
centrees reduites. On ecrit X N (0, Idn ).
On a les proprietes suivantes :
1. La moyenne de X est 0 et sa matrice de variance-covariance est Idn .
2. La loi de X est absolument continue, de densite par rapport `a la mesure de Lebesgue
sur Rn donnee par
1 T
n/2
fX (x) = (2)
exp x x , x Rn .
2
3. La fonction caracteristique (voir Meleard [5], Definition 6.1. p. 125) de X est donnee
par
iaT X
1 T
X (a) = E e
= exp a a , a Rn .
2
D
efinition 1.9. Un vecteur aleatoire X `
a valeurs dans Rn est gaussien (ou normal) si,
pour une matrice A de taille n n et un vecteur Rn , on a
X = + A , N (0, Idn ).
On a les proprietes suivantes :
1. La moyenne (vectorielle) de X est E X = .
2. La matrice de covariance de X est X = Var X = AAT .
3. La fonction caracteristique de X vaut
T
X (a) = E eia X
T
= E eia (+A)
T
T
= exp iaT E ei(A a)
= exp iaT 21 (aT A)T aT A
= exp iaT 21 aT a , a Rn .
On a la caracterisation suivante dun vecteur gaussien :
Proposition 1.3. Une application : Rn C est la fonction caracteristique dun
vecteur gaussien si et seulement si il existe Rn et une matrice symetrique positive
(dont toutes les valeurs propres sont positives ou nulles) tels que
(a) = exp iaT 12 aT a , a Rn .
14
Outils de probabilit
es
= =
n
X
,j j T,j
j=1
o`
u les ,j sont les colonnes de , aj =
A = (a1 , . . . , ak , 0 . . . , 0).
k
X
i=1
p
j ,j et A est une matrice n n definie par
15
par linearite de lesperance et parce que Var aT X = aT [X]a (voir le paragraphe
precedent). Donc
aT X (u) = exp imu 21 s2 u2
= exp iuaT 21 u2 aT a
= aT X (1)
= X (a).
Puisque le choix de a Rn est arbitraire, on a la conclusion.
Densit
e de la loi normale multivari
ee
Si est definie positive, la loi de X est absolument continue par rapport `a la mesure
de Lebesgue sur Rn , et la densite du vecteur X est obtenue `a partir de la densite de via
la representation X = +A par changement de variable affine (Meleard [5], paragraphe
4.10.2 p. 107) :
fX (x) = detA1 f A1 (x )
1
1
T 1
=
exp (x ) (x ) , x Rn .
n/2
2
(2)
det
Loi normale multivari
ee d
eg
en
er
ee
Si est singuli`ere, soit Rang() = k < n, le vecteur X na plus de densite sur Rn .
La representation X = + 1/2 montre que X se concentre `a une transformation affine
pr`es sur limage de 1/2 , qui est un sous-espace de dimension k.
Proposition 1.5. Si X N (0, ), avec Rang() = k < n, alors il existe un sousespace vectoriel H Rn de dimension n k tel que pour tout a H, la loi de aT X est
degeneree, cest-`
a-dire aT X est une constante (deterministe).
Demonstration. On pose H = Ker(). Alors H est de dimension n k et si a H, pour
tout u Rn , on a
T
aT X (u) = E eiu a X
= exp iu aT 21 u2 aT a
= exp iu aT
puisque a = 0.
16
Outils de probabilit
es
Ind
ependance de deux vecteurs gaussiens
Si X et Y sont
`a valeurs dans Rp et Rq respectivement, et
deux vecteurs
ale2atoires
2
tels que E k X k < + et E kYk < +, leur matrice de covariance est la matrice
p q definie par
X, Y = E (X E[X])(Y E[Y])T .
Lindependance entre des transformations lineaires dun vecteur gaussien se lit sur la
matrice de covariance :
Proposition 1.6. Si X est un vecteur gaussien de Rn et si A et B sont deux matrices
n p et n q, alors les vecteurs A X et B X sont independants si et seulement si
A X, B X = 0.
Demonstration. On concat`ene A X et B X en un vecteur Y = (A X, B X)T de Rp+q
qui est gaussien comme transformation lineaire du vecteur gaussien X. On a
A X
A X, B X
A X
0
=
Y =
A X, B X
B X
0
B X
si A X, B X = 0. Il vient, pour u = (a, b) Rp Rq ,
Y (u) = Y (a, b)
= exp iaT E[A X] + bT E[B X] 21 (aT , bT )Y (a, b)T
= exp iaT E[A X] 12 aT A X a + ibT E[B X] 12 bT B X b
= X (a)X (b).
Reciproquement, si A X et B X sont independants, on a A X, B X = 0 par le meme
calcul.
1.3.2
D
eriv
ees des lois gaussiennes
17
o`
u les variables X1 , . . . , Xn sont independantes, de meme loi N (0, 1).
On ecrit Y 2 (n). Autrement dit, si X N (0, Idn ), alors k X 2 k 2 (n). On a
les proprietes suivantes :
1. La densite de la loi du 2 (n) est donnee par
y ; c(n)y n/21 ey/2 , y R+ \{0}
R +
avec c(n) = 2n/2 (n/2)1 et (x) = 0 ux1 eu/2 du.
2. Si Y 2 (n), on a E Y = n et E Y 2 = 2n.
On utilise souvent le resultat suivant :
Proposition 1.7. Soit X un vecteur aleatoire de Rn tel que X N (, ), o`
u est
definie positive. Alors
(X )T 1 (X ) 2 (n).
Demonstration. On a
(X )T 1 (X ) = k1/2 X k2 .
On conclut en utilisant : 1/2 X N (0, Idn ).
Loi T de Student
D
efinition 1.11. Une variable aleatoire reelle T suit la loi de Student `
a n degre de
libertes si
T =p
,
Y /n
o`
u N (0, 1) et Y 2 (n) sont independantes.
On ecrit T T(n). On a les proprietes suivantes
1. La densite de la loi T(n) est donnee par
(n+1)/2
y2
y ; c(n) 1 +
,
n
avec
c(n) =
yR
1
, et B(p, q) = (p)(q)/(p + q).
nB(1/2, n/2)
18
Outils de probabilit
es
4. Lorsque n est grand, Y /n est proche de 1 par la loi des grands nombres et la loi
T(n) se rapproche de la loi N (0, 1).
La loi T de Student intervient en statistique comme une approximation de la loi N (0, 1),
lorsque la variance 1 est approchee par une loi du 2 `a n degres de liberte renormalisee.
Remarque 1.9. Par cette approximation meme, la loi T(n) est plus
la loi N (0, 1) : si T T(n) et N (0, 1), on a, par exemple,
T > X ,
dispersee que
o`
u [] est le coefficient daplatissement (la kurtosis) defini dans la Section 1.2. Le cas
extreme est n = 1 o`
u la kurtosis nest meme pas definie (il faut prendre au moins n = 6).
Loi de Fisher-Snedecor
D
efinition 1.12. Une variable aleatoire Y suit la loi de Fisher-Snedecor de degres de
libertes (p, q) si
U/p
Y =
,
V /q
o`
u U 2 (p) et V 2 (q) sont independantes.
On ecrit Y Fp,q et on a les proprietes suivantes :
1. La densite de la loi Fp,q est donnee par
y ; c(p, q)
y p/21
,
(q + py)(p+q)/2
o`
u
c(p, q) =
y R+ \{0},
pp/2 q q/2
.
B(p/2, q/2)
2. Lorsque q est grand, la loi F (p, q) se rapproche de la loi du 2 (p). Cest le meme
raisonnement que pour la loi de Student.
1.3.3
Cochran
Il sagit dun resultat dalg`ebre lineaire que lon utilise pour deduire des proprietes de
transformations lineaires de vecteurs gaussiens.
Th
eP
or`
eme 1.1 (Cochran). Soit X N (0, Idn ) et A1 , . . . , AJ des matrices n n telles
J
que j=1 Rang(Aj ) n et verifiant
(i) les Aj sont symetriques,
19
(ii) Aj Ak = 0 si j 6= k et A2j = Aj .
Alors
1. Les vecteurs aleatoires (Aj X, j = 1, . . . , J) sont mutuellement independants, et
Aj X N (0, Aj ).
2. Les variables aleatoires (kAj X k2 , j = 1, . . . , J) sont mutuellement independantes
et kAj X k2 2 Rang(Aj ) .
Demonstration. On a, pour tout u Rn et j = 1, . . . , J
T
T
T
E eiu Aj X = E ei(Aj u) X
= exp 21 (ATj u)T ATj u
par (i)
= exp 21 uT A2j u
1 T
= exp 2 u Aj u
par (ii).
On a donc Aj X N (0, Aj ). Soient u1 , . . . , uJ Rn . On a
PJ T
PJ
T
T
E ei j=1 uj Aj X = E ei( j=1 Aj uj ) X
= exp
1
2
J
X
ATj uj
J
T X
j=1
= exp
1
2
J
X
1
2
j=1
ATj uj
J
T X
j=1
= exp
ATj uj
J
X
Aj uj
par (i)
j=1
uTj Aj Aj 0 uj 0
j,j 0 =1
= exp
1
2
J
X
uTj Aj Aj uj
par (ii)
j=1
J
Y
par (i)
j=1
J
Y
T
E eiuj Aj X
j=1
ce qui entrane lindependance (Meleard [5], Proposition 6.1.4 p. 130) des Aj X. Pour
montrer le point 2 du theor`eme, on ecrit, pour j fixe,
Aj = T
o`
u est une matrice orthogonale et = Diag(1 , . . . , n ) est la matrice diagonale des
valeurs propres de Aj . Il vient
kAj X k2 = X T ATj Aj X = X T Aj X = (T X)T T X .
(1.4)
20
Outils de probabilit
es
n
X
i Yi2 2 Rang(Ai )
i=1
1.4
1.4.1
Convergences et th
eor`
emes limites
Modes de convergences
p.s.
Lp
f (n ) f ().
1.4 Convergences et th
eor`
emes limites
21
D
efinition 1.14. La suite n converge vers en loi (notation n ) si pour toute
fonction continue bornee, on a
E (Xn ) E () lorsque n .
Remarque 1.11. On peut remplacer dans la definition la suite reelle n par une suite
de vecteurs aleatoires n de Rd avec d 1 et par un vecteur aleatoire de Rd .
6. Remarque (quon omettra en premi`ere lecture) : Ce nest pas forcement le cas pour la convergence
dans Lp ou en probabilite. Dans les chapitres qui suivront, on travaillera souvent avec une suite de variables
aleatoires reelles
X1 , . . . , Xn
independantes, et identiquement distribuees de loi Q sur (R, B). On utilisera la construction suivante :
pour chaque n, on pose
n = Rn , An = Bn , Pn = Q . . . Q
T
n fois.
X
n
n
c si > 0,
lim Pn |n c| = 0
et
L(Pn )
n c si
lim En |n c|p = 0.
Puisque Pn est enti`erement determinee par Q, on ecrira, sans quil y ait de confusion possible,
Q
n c
ou
Lp (Q)
n c.
22
Outils de probabilit
es
La convergence en loi est une notion plus faible que la convergence en probabilite.
Elle ne fait intervenir que la suite des lois Pn et P . En particulier, on na pas besoin
que les variables n ou la limite soient definies sur le meme espace de probabilite.
On a les proprietes suivantes
d
si aT aT pour tout a Rd .
3. Dans la Definition 1.14, on peut remplacer f continue bornee par
f (x) = 1(,x0 ] (x), x R
d
en tous les points x0 R tels que P = x0 = 0. Autrement dit n si et
seulement si
P n x P x], lorsque n .
en tout point x o`
u la fonction de repartition de est continue.
d
1.4 Convergences et th
eor`
emes limites
23
o`
u lon a utilise |eivn eivc | |v||n c|. On conclut en utilisant n c puis en faisant
tendre vers 0.
1.4.2
Xn =
1X
Xi
n
i=1
n
X
n
X
Xi =
Var Xi
i=1
i=1
24
Outils de probabilit
es
L2
X n
lorsque n .
Th
eor`
eme central limite
Le theor`eme central limite donne la vitesse de convergence dans la loi des grands
n X n
2 i
= nE
2
X n E[X n ]
= nVar X n = 2 ,
n X n , lorsque n .
Malheureusement, si la convergence existe, elle ne peut pas avoir lieu en probabilite 9 et
il faut affaiblir le mode de convergence.
Th
eor`
eme 1.3 (Theor`eme central limite).
X1 , . . . , Xn des variables
aleatoires
2Soient
2 = Var X > 0. On note
independantes
de
m
e
me
loi,
telles
que
E
X
<
+
et
= E X . Alors
X n d
n
N (0, 1).
On dira que la suite n est asymptotiquement normale sil existe deux constantes
R et > 0 telles que
d
n(n ) N (0, 2 ).
En particulier, le theor`eme central limite implique que la moyenne empirique est asymptotiquement normale. Le resultat suivant montre que si n est asymptotiquement normale,
alors g(n ) lest aussi `
a condition que g : R R soit suffisamment reguli`ere.
Cet outil technique essentiel porte en statistique le nom de
methode delta .
d
n g(n ) g() N 0, 2 g 0 ()2 .
1.4 Convergences et th
eor`
emes limites
25
Demonstration. La fonction
(
h(x) =
g(x)g()
x
g 0 ()
si x 6=
si x =
d
Or n g(n ) g() = h(n )n , avec n = n(n ) N (0, 2 ). La Proposition 1.8
(Slutsky) permet de conclure
d
d
h(n )n g 0 () N (0, 2 ) = N 2 g 0 ()2 ,
d
le symbole = signifiant
egalite en loi .
Version multidimensionnelle du th
eor`
eme central limite
d
Th
eor`
eme 1.4. Soient X 1 ,. . . , X n une suite de vecteurs aleatoires
de R independants
2
et de meme loi, tels que E k X k < +. On note = E X et la matrice de
variance-covariance d d de X. On a
d
n X n N 0, .
1 g1 (x) . . . d g1 (x)
..
..
Jg (x) =
.
.
.
1 gk (x) . . . d gk (x)
Proposition 1.11. Soient 1 , . . . , n une suite de vecteurs aleatoires de Rd asymptotiquement normale, au sens o`
u:
d
n n N 0,
o`
u Rd et est une matrice d d symetrique positive. Alors, si g : Rd Rk est
contin
ument differentiable, on a
d
n g( n ) g() N 0, Jg () Jg ()T .
26
Outils de probabilit
es
1.5
Exercices
Exercice 1.1. Soient Xn et Yn deux suites de variables aleatoires reelles telles que
P
P
Xn 0 et supn E |Yn | < . Montrer que Xn Yn 0.
Exercice 1.2. Soit Xn une suite de variables aleatoires independantes centrees reduites.
Par le theor`eme central limite, on a
n
1 X
d
Sn =
Xi N (0, 1).
n
i=1
Le but de cet exercice est de montrer que Sn ne peut pas converger en probabilite.
Decomposer la variable S2n en fonction de Sn et dune variable aleatoire independante
de la precedente.
Calculer la fonction caracteristique de S2n Sn et montrer que cette difference
converge en loi.
En raisonnant par labsurde, en deduire que Sn ne converge pas en probabilite.
Exercice 1.3. On pose
f (x) =
|x|
.
1 + |x|
Montrer que lon peut remplacer f par g(x) = min{|x|, 1}, et plus generalement par
toute fonction f positive, continue, bornee, croissante sur R\ {0} verifiant f (0) = 0
et f (x) > 0 si x > 0.
En deduire que si Xn converge vers X en probabilite, il existe une sous-suite qui
converge presque-s
urement. (Il existe une autre preuve facile de ce resultat `
a laide
du lemme de Borel-Cantelli).
Chapitre 2
Exp
erience statistique
Une experience statistique est la description mathematique de la realisation dune
variable ou dun vecteur aleatoire (lobservation) associee `a un ensemble de lois de probabilite (le mod`ele) susceptibles davoir engendre cette observation.
A une experience statistique est toujours associee une problematique : la reconstruction dun param`etre du mod`ele (lestimation), la decision sur les proprietes du mod`ele
(un test).
Mod
elisation statistique?
2.1
2.1.1
Exemples introductifs
Exemple 1 : Sondage
Une election entre deux candidats A et B a lieu : on effectue un sondage `a la sortie
des urnes. On interroge n votants, n etant considere comme petit devant le nombre total
de votants, et on recolte les nombres nA et nB de voix pour A et B respectivement
(nA + nB = n, en ne tenant pas compte des votes blancs ou nuls pour simplifier).
Problematique statistique : peut-on affirmer que A ou B a gagne au vu de nA
et nB seulement ? Si lon decide dannoncer A (ou B) vainqueur, comment
quantifier lerreur de decision ?
La reponse va de toute evidence dependre de n et du rapport nA /nB . Ce probl`eme semble
intimement lie avec lexperience suivante : on lance une pi`ece de monnaie n fois et on
compte les nombres nP et nF de piles et faces obtenus.
Problematique statistique : la pi`ece est-elle truquee ? Si n = 100 et nP = 19,
nF = 81, on ne va pas vraiment hesiter. Mais quen est-il si n = 20, nP = 12
et nF = 8 ?
28
Exp
erience statistique
Intuitivement, dans ces deux experiences statistiques, le probl`eme de decision sera dautant plus difficile `
a resoudre que la pi`ece est peu truquee , ou bien que les deux
candidats sont proches dans le cur des electeurs dune part, et si lon a recolte peu de
lancers ou de reponses (n petit) dautre part.
2.1 Mod
elisation statistique?
29
(2.1)
o`
u (Bt , t 0) est un mouvement brownien, R est le drift et > 0 la volatilite de
lactif.
Problematique statistique : comment reconstruire 2 la volatilite `
a partirdes
donnees historiques Yi ? On peut aussi vouloir estimer le risque /( T )
de lactif 3 .
La reponse va dependre de T , et , mais aussi de , choisi par le statisticien.
Exemple 4 : Biopuces et analyse dADN
On dispose dun procede de biologie moleculaire, les biopuces (ou microarrays) qui
permet de mesurer lexpression de certains g`enes dun individu dune esp`ece biologique
dans certaines situations 4 . Dans ce cas, on dispose pour chaque individu i dune suite
de localisations (qui correspondent grossi`erement `a des g`enes) et dune expression correspondante qui prend la forme
(i)
(i)
X i = (X1 , . . . , XJ ), i = 1, . . . , N
(i)
o`
u Xj 0 est le niveau dexpression des g`enes parmi les sites {1, . . . , J} pour lindividu
i pris dans une population de taille N . On a 5 n = JN observations.
Problematique statistique : peut-on localiser les sites i responsables dun etat
(i)
donne, sachant que les mesures des Xj sont sujettes `
a des erreurs ? Si lon
se donne deux populations, lune atteinte dune maladie soupconnee detre
2. Par exemple, pour la comparer avec la volatilite implicite donnee par des prix doptions.
3. Que lon designe aussi comme son ratio de Sharpe.
4. Par exemple, en laboratoire, on peut mesurer lintensite de lexpression de certains g`enes dun
insecte infecte dans le but de localiser les g`enes promoteurs de la reponse immunitaire.
5. Avec le fait notable quen pratique N J : N est de lordre de quelques individus alors que J est
de lordre de plusieurs milliers.
Exp
erience statistique
115
105
110
Bund
120
125
30
500
1000
1500
Time
Figure 2.1 Exemple 3 : observation des prix du contrat futur FGBL (Obligation 10 ans
de lEtat allemand), entre avril 1999 et decembre 2005. Lechantillonnage est de = 1
jour. (Source : BNP Paribas)
2.1 Mod
elisation statistique?
31
i = 1, . . . n.
Y r(X)
2
= min E
h
2
Y h(X)
32
Exp
erience statistique
Figure 2.2 Exemple 4. Observation dune biopuce en laboratoire : chaque carre lumineux mesure lintensite dexpression dun g`ene (en fait dune sequence dARNm codante
suffisamment longue pour etre mise en correspondance avec un g`ene via la production de
peptides pour lesquels code la sequence dADN correspondante). La representation en
carres est donnee pour economiser la representation : il ny a pas a priori de structure
bi-dimensionnelle associee `a cette image .
2.1 Mod
elisation statistique?
33
o`
u le minimum est pris sur lensemble des fonctions boreliennes. Cest une caracterisation
de lesperance conditionnelle pour des variables de carre integrable (voir, par exemple,
Jacod et Protter [4]).
On traduit
la taille dun individu est fonction de son age par la variance du
bruit 2 = E 2 est petite par exemple. On collecte les ages et tailles (Xi , Yi ) dune
population de n individus. Les observations sont les (Xi , Yi ), avec
Yi = r(Xi ) + i , i = 1, . . . , n
(2.2)
et les i sont des bruits centres de taille 2 . On a n observations (ou 2n selon le point de
vue). Les Xi portent le nom de covariables, ou variables explicatives.
Problematique statistique : comment reconstruire la fonction r appelee fonction de regression et estimer lintensite 2 du bruit ?
Ce contexte est proche de celui de lexemple 1 du signal bruite, `a ceci pr`es que les points
k/N sont remplaces par les donnees aleatoires Xi , dont les valeurs ne sont pas choisies
par le statisticien. Mais si les Xi sont bien repartis , on sattend `a ce que les deux
mod`eles soient proches lorsque n est grand.
Les variables X et Y nont pas vocation `a etre de meme dimension : on peut remplacer
X par un vecteur X Rk qui collecte un ensemble de covariables possibles. Dans ce cas,
la representation (2.2) devient Yi = r(X i ) + i o`
u maintenant r : Rk R, que lon peut
chercher `
a reconstruire.
Il existe aussi des situations o`
u Y est une variable qualitative, cest-`a-dire ne prenant
quun nombre fini de valeurs. On peut penser que le risque de maladie coronarienne chez
un individu est influence par toute une serie de facteurs : pression systolique, consommation de tabac, dalcool, taux de cholesterol, poids, age, terrain familial, etc. On note
Yi {0, 1} labsence ou la presence de maladie coronarienne pour un individu i detude
donne, et X i le vecteur des covariables constitue des differentes donnees recueillies chez
lindividu i. Dans ce cas, on a
r(x) = P Y = 1| X = x ,
qui sinterpr`ete comme la probabilite detre atteint de maladie coronarienne, sachant le
vecteur des covariables X.
34
Exp
erience statistique
2.1.2
D
efinition provisoire dune exp
erience statistique?
(2.3)
complexes. 6
o`
u les xi sont des reels, mais on peut imaginer des situation plus
Ces
observations sont associees `a la realisation dune experience physique, et le point
de depart du statisticien est donc le resultat de cette experience.
2. Un mod`
ele stochastique associe `a lexperience qui a engendre les observations. Les
observations sont considerees comme la realisation de variables aleatoires. La loi de
ces variables aleatoires identifie le mecanisme de formation des observations. Cette
loi depend de param`etres inconnus.
3. Une probl
ematique associee au couple [observations, mod`ele]. Il sagit pour le statisticien de retrouver on dira estimer les param`etres inconnus. Il faut pouvoir
contr
oler la qualite de cette estimation.
On peut aussi vouloir prendre une decision, par exemple sous la forme dun test
dhypoth`ese sur les param`etres. Il faut pouvoir controler lerreur de decision. 7
35
o`
u est un ensemble de param`etres possibles. Le point 3 se traduit ainsi :
D
efinition 2.2. La problematique statistique (ou linference statistique) consiste, `
a partir
Z
dune realisation dun vecteur aleatoire Z, dont la loi P est prise dans une famille
{P , P } donnee, `
a retrouver le param`etre tel que PZ = P .
Le param`etre resume toute linformation que peut apporter lobservation Z().
Identifier est equivalent `
a identifier P , cest-`a-dire la loi de la variable aleatoire Z dont
on a observe une realisation Z().
2.2
2.2.1
Formulation math
ematique
Exp
erience engendr
ee par une observation
Situation
Une experience statistique est la donnee dun vecteur aleatoire Z `a valeurs dans un
espace mesurable (Z, Z), le plus souvent (Rn , B n ) et definie sur un espace de probabilite (, F, P). La problematique statistique consiste `a supposer que PZ appartient `a une
famille de probabilites sur (Z, Z), et le but est de retrouver les proprietes de PZ `a
partir de lobservation dune realisation de Z seulement.
On represente cette famille sous la forme P , , o`
u est un param`etre et un
lespace d
ensemble de param`etres. Dans
un
probl`
e
me
statistique,
seul
etat (Z, Z)
et la famille de probabilites P , comptent. Une fois ces elements specifies, la
donnee de Z et de lespace (, F, P) deviennent superflus.
D
efinition 2.3 (Experience statistique). Une experience (un mod`ele) statistique E est
la donnee dun triplet
E = Z, Z, {P , }
o`
u (Z, Z) est un espace mesurable et {P , } une famille de probabilites definie sur
(Z, Z). On appelle lensemble des param`etres.
On parle indifferemment dexp
ou de mod`ele statistique. On parlera
erience statistique
parfois simplement du mod`ele P , lorsque le contexte ne prete pas `a confusion 9 .
D
efinition 2.4 (Experience engendree par une observation). Si lexperience statistique
E est construite `
a partir dune observation Z par le procede ci-dessus, on dit que E est
engendree par lobservation Z.
et sont donc apprehendees comme la realisation dun vecteur aleatoire Z defini implicitement sur un
espace mesurable (, A). La famille P est un ensemble de mesures de probabilites definies sur limage
Z() de Z.
9. Sans preciser lespace (Z, Z) sur lequel sont definies simultanement toutes les probabilites P , .
36
Exp
erience statistique
Exemple
On observe n variables aleatoires independantes, gaussiennes de moyenne R et
de variance 2 > 0. Lexperience statistique associee est decrite comme lobservation de
X1 , . . . , Xn independantes, identiquement distribuees,
Xi N (, 2 ), R, 2 > 0.
Il existe donc un espace de probabilites (, F, P) sur lequel est defini le vecteur aleatoire
Z = (X1 , . . . , Xn )T et PZ est la loi de n variables gaussiennes
independantes de2 moyenne
Z
n
2
n
et de variance . La probabilite P , definie sur R , B , depend de et meme si
cela ne transparat pas dans les notations. On a
Z
n
X
Z
n/2
P [A] = (2)
exp 21 2
(xi )2 dx1 dxn , A B n .
A
i=1
2.2.2
Observation canonique?
Lorsque lon specifie directement une experience statistique E via la Definition 2.3, il
ny a pas dobservation Z. Une facon immediate de considerer E comme engendree
par une observation Z consiste `a poser
(, F) = Z, Z et Z() = , ,
et PZ = P est la loi de Z qui depend ici explicitement de dans les notations.
D
efinition 2.5 (Observation canonique). Si lobservation Z est construite `
a partir dune
experience statistique E par le procede ci-dessus, on dit que Z est lobservation canonique
associee a
` E.
Ces deux points de vue peuvent parfois etre source de confusion, principalement dans
les notations. Dans la pratique (mathematique) on naura pas besoin de se soucier du
point de vue sous lequel on se place, les Definitions 2.4 et 2.5 etant equivalentes.
10. En statistique, on parle de Z pour designer Z(), a
` linverse de la pratique qui consiste a
` ecrire
parfois f (x) pour designer la fonction f .
2.2.3
37
Domination
Apprehender une famille de mesure P , sans plus dhypoth`ese est tr`es
ambitieux, comme on le verra au Chapitre 3. Sous une hypoth`ese de regularite, dite de
domination, on ram`ene le probl`eme de letude des P `a une famille de fonctions sur (Z, Z).
D
efinition 2.6. Etant donnees deux mesures positives -finies et definies sur Z, Z ,
on dit que domine et on ecrit si
[A] = 0 [A] = 0.
Le theor`eme de Radon-Nikodym (voir par exemple Jacod et Protter [4], Chapitre 28)
d
entrane lexistence dune fonction mesurable positive z ; p(z), notee z ; d
(z), appelee
densite de par rapport `
a , definie `a un ensemble -negligeable pr`es, de sorte que
(dz) = p(z)(dz),
au sens o`
u
Z
p(z)(dz) =
[A] =
A
d
d (z)(dz),
A Z.
D
efinition 2.7. Une experience statistique
E
=
Z,
Z,
{P
,
}
est dominee par la
mesure -finie definie sur Z, Z si pour tout , la mesure domine P .
Dans ce cas, il existe, pour tout une densite
z ; p(, z) =
d P
(z)
d
de sorte que
P (dz) = p(, z)(dz), z Z.
Lhypoth`ese
permet de reduire letude de la complexite de la famille
de domination
de mesure P , `
a celle de lapplication
p : Z R+
et de la mesure dominante . Nous verrons dans les chapitres suivants comment letude
systematique des proprietes de p(, ) rend compte des proprietes de E.
Exemple 2.1. Un exemple o`
u il nexiste pas de mesure dominante est la famille parametrique {P = , R}, o`
u est la mesure de Dirac au point . Cet exemple 11
correspond `
a lexperience parfaite o`
u une seule observation permet de connatre sans
erreur le param`etre .
11. En effet, sil existe une mesure -finie sur R qui domine tous les P = , alors necessairement
{} =
6 0 pour tout R. Ceci est en contradiction avec lexistence dune partition denombrable An de
R telle que (An ) < + pour tout n, donc ne peut pas etre -finie.
38
Exp
erience statistique
Exemple 2.2. Un exemple plus subtil est donne par lexperience engendree par lobservation de X, o`
u X suit une loi de Poisson de param`etre 1, et = R+ \{0} est le
param`etre. Dans ce cas, lexperience est vraiment aleatoire , mais on pourra montrer
en exercice quelle nest pas dominee 12 .
2.2.4
Mod`
eles param
etriques, non-param
etriques?
d
X
i i (x), x R
i=1
o`
u les fonctions i sont donnees, lexperience statistique est parametrique, et
= (1 , . . . , d )T Rd .
Le choix d = 2 et r(, x) = 0 + 1 x correspond `a
etudiera en detail dans la Section 5.2.
Si f est un element quelconque dun espace fonctionnel (decrit le plus souvent par des
proprietes de regularite fonctionnelles : par exemple, f est de carre integrable et derivable
un certain nombre de fois dans L2 ), alors lexperience associee est non-parametrique et le
param`etre est la fonction f elle-meme. Si les fonctions i sont les d-premiers elements
dune base orthogonale de L2 , alors la transition dune situation parametrique vers une
situation non-parametrique consiste formellement `a passer `a la limite dans le nombre de
dimensions d qui decrivent le param`etre inconnu.
La distinction parametrique ou non-parametrique est un choix de modelisation. Pour
lexemple 2 de la transmission dun signal bruite ou de la reconstruction dune image de
la Section 2.1.1, un mod`ele non-parametrique semble plus approprie que pour lexemple
du sondage. Pour lexemple 3 de lestimation de la volatilite, on a choisi de prendre > 0
constant. Si on veut tenir compte des fluctuations de la volatilite dans le temps, une
representation fonctionnelle ((t), t 0) est plus appropriee. Le mod`ele sera plus proche
de la realite, mais le probl`eme statistique plus difficile.
Dans ce cours, hormis le Chapitre 3, nous nous restreindrons `a letude dexperiences
parametriques.
12. Indication : la loi de X secrit P (dx) =
que pour lexperience parfaite.
1 1
k (dx).
kN k! e
2.3 Exemples
2.3
2.3.1
39
Exemples
Mod`
ele d
echantillonnage ou du n
echantillon
De par la simplicite de sa structure, cest une des experience statistiques les plus
etudiees, et qui occupe trois chapitres de ce cours.
Situation
Pour n 1, on consid`ere (la suite) dexperience(s) engendree par lobservation de
n-variables aleatoires reelles
X1 , . . . , Xn independantes, identiquement distribuees,
de loi inconnue F sur R, o`
u F F appartient `a une famille de loi F donnee. Lexperience
statistique E n correspondante est engendree par le vecteur Z = (X1 , . . . , Xn )T et on peut
ecrire
E n = Rn , B n , {PFn , F F}
o`
u PnF est la loi sur Rn de n-variables aleatoires independantes de loi F . Cela signifie en
particulier, que, pour tous x1 , . . . , xn R, on a
n
Y
PFn X1 x1 , . . . , Xn xn =
F (xi ).
i=1
Dans ce cas, on a
PF (dx1 . . . dxn ) = p(x1 , . . . , xn )dx1 . . . dxn
(2.4)
(n-fois).
40
Exp
erience statistique
Si la famille F est dominee par une mesure sur R, alors lexperience E n est dominee
par la mesure produit n = . . . sur Rn . En particulier, si est la mesure de
Lebesgue sur R, on retrouve (2.4).
Les exemples de la Section 2.1.1
Les exemples 1 sondage , 3 risque dun actif financier et 5 controle de qualite
de la Section 2.1.1 sont des mod`eles dechantillonnage :
1. Pour lexemple 1 sondage ou lancer de de, on peut associer `a chaque votant une
variable Xi prenant la valeur 0 ou 1 selon que lon vote pour A (pile) ou B (face). La
loi de Xi est une loi de Bernoulli de param`etre inconnu = [0, 1]. Si < 1/2,
A gagne. Si 6= 12 , la pi`ece est truquee.
Si lon recolte la suite compl`ete X1 , . . . , Xn des votes (des lancers) supposes independants et de meme loi de Bernoulli de param`etre , alors on est dans un mod`ele
dechantillonnage, et lexperience associee secrit
E n = {0, 1}n , tribu des parties de {0, 1}n , Pn , ,
o`
u
Pn = P P (n fois),
avec
P X = 1 = = 1 P [X = 0],
ce que lon peut encore ecrire sous la forme
P (dx) = 1 (dx) + (1 )0 (dx),
o`
u a (dx) designe la mesure de Dirac au point a. Cette derni`ere representation
permet de mettre en evidence la mesure de comptage (dx) = 0 (dx) + 1 (dx) sur
{0, 1} comme mesure dominante pour P . La mesure de comptage n =
sur le produit {0, 1}n domine alors lexperience E n .
Une autre mani`ere de proceder est de considerer que lon nobserve que le nombre de
votants nA pour le candidat A (ou nP ), ce qui donne aussi nB (ou nF ), puisque nA +
nB = nP + nF = n. Dans ce cas, on na quune seule observation X, et on modelise
nA comme la realisation dune variable aleatoire X binomiale de param`etres (n, ),
o`
u = [0, 1] est le param`etre inconnu. Dans ce cas, lexperience statistique
secrit
Een = {0, n}, tribu des parties de {0, n}, Qn , ,
o`
u cette fois-ci les Qn sont definies sur {0, . . . , n} et
Qn X = x = Cnx x (1 )nx , x = 0, . . . , n,
2.3 Exemples
41
n
X
k=0
Cette derni`
Pere representation permet de mettre en evidence la mesure de comptage
n (dx) = nk=0 k (dx) sur {0, . . . , n} comme mesure dominante du mod`ele.
Intuitivement les experiences statistiques E n et Een contiennent la meme information
sur le param`etre . On verra au Chapitre 6 comment formaliser et quantifier cette
idee.
2. Pour lexemple 3 risque dun actif financier les observations secrivent
Yi = + (Bi B(i1) ) N , 2
1
(x
2 2
)2
R +
T
et dt = eT .
42
2.3.2
Exp
erience statistique
Mod`
eles de r
egression
R
egression conditionnelle ou mod`
ele de signal bruit
e
On observe une fonction r : Rk R echantillonnee en n points, chaque observation
etant bruitee par une erreur systematique :
Yi = r(xi ) + i ,
i = 1, . . . , n.
o`
u y ; Fxi (y) est la fonction de repartition de Yi . Par exemple, si i a une densite g par
rapport `
a la mesure de Lebesgue sur R, on a
Z y
g t r(, xi ) dt.
Fxi (y) =
Dans ce cas, le vecteur (Y1 , . . . , Yn ) a lui-meme une densite par rapport `a la mesure de
Lebesgue sur Rn , donnee par
(y1 , . . . , yn ) ; p(, y1 , . . . , yn ) =
n
Y
g t r(, xi ) .
i=1
On a alors
P (dy1 . . . dyn ) = p(, y1 , . . . , yn )dy1 . . . dyn
et le mod`ele est domine par la mesure de Lebesgue sur Rn .
2.3 Exemples
43
(2.5)
o`
u r : R R est la fonction de regression r(x) = E Y | X = x qui est la meilleure
approximation de Y par une variable aleatoire X-mesurable au sens suivant :
2
2
E Y r(X)
= min E Y h(x)
k
o`
u le minimum est pris sur les fonctions boreliennes de Rk dans R, comme nous lavons
deja mentionne dans lexemple 6 -influence dune variable sur une autre.
On est alors dans une situation tout `a fait analogue avec celle du paragraphe precedent,
`a la difference pr`es que le statisticien ne choisit pas le design
(X 1 , . . . , X n ).
Cela a des incidences pratiques bien entendu, mais dun point de vue mathematique, on
peut faire une hypoth`ese relativement faible qui permet dunifier les deux points de vue :
Hypoth`
ese 2.1 (Ancillarite du
Autrement dit, toute linformation sur la loi de Y que porte r(X) est contenue dans
la fonction de regression r(). Dans ce cas, puisque les X i sont observees et que leur loi
ne depend pas de , on peut oublier ou ignorer le caract`ere aleatoire des X i et raisonner
dans toute la suite conditionnellement aux X i = xi , o`
u les xi sont les valeurs observees 13 .
Sous lHypoth`ese 2.1, le mod`ele de regression avec variables explicatives concide
avec le mod`ele de regression conditionnelle et les formules du paragraphe precedent sont
valides dans ce contexte.
13. On reviendra sur ce point de vue dans le Chapitres 5.
44
Exp
erience statistique
R
egression logistique
Si lon veut etudier linfluence dun vecteur X sur une variable qualitative Y {0, 1}
comme pour letude du risque de maladie coronarienne de lexemple 6, lecriture du
mod`ele de regression (2.5) prend la forme
Y = r(X) + = P Y = 1| X + ,
avec = Y P Y = 1| X qui verifie bien E = 0.
Dans un cadre parametrique, un choix populaire de la fonction r(, ) : Rk [0, 1]
se fait de la mani`ere suivante : on se donne un diffeomorphisme : R (0, 1). Dans ce
cas, on peut forcer un mod`ele lineaire du type
r(, x) = (T x), Rd , x Rk
avec d = k. Un exemple incontournable pour les applications est celui de la fonction
logistique
ex
(x) =
, x R,
1 + ex
sur lequel nous reviendrons au Chapitre 5.
Deuxi`
eme partie
M
ethodes destimation
Chapitre 3
Echantillonnage et fonction de
r
epartition empirique
3.1
3.1.1
Introduction
Situation
Nous etudions dans ce chapitre le probl`eme tr`es general qui consiste `a quantifier
linformation fournie par lobservation dun n-echantillon dune loi F sur R, sans faire
aucune (ou presque aucune) hypoth`ese sur cette loi. Ce chapitre est aussi un pretexte
pour introduire les differentes problematiques du cours : estimation, tests et regions de
confiance, point de vue asymptotique.
Le terme quantifier utilise plus haut est imprecis ; nous le qualifierons `a travers la construction destimateurs de F ou de fonctionnelles T (F ) R de F et de
leur precision destimation, ce qui nous am`enera `a parler de region (et dintervalles) de
confiance. Nous consid`ererons aussi bri`evement le probl`eme de test dhypoth`ese : `a partir
de lobservation, decider si la loi F verifie une propriete donnee. De mani`ere generale, nous
etudierons comment la qualite des procedures statistiques augmente avec le nombre dobservations n. Nous comparerons les points de vue asymptotique (dans la limite n )
et non-asymptotique.
Ici, la structure probabiliste de lexperience statistique est tr`es simple (variables aleatoires independantes et identiquement distribuees) mais lensemble des param`etres 1 est
enorme ! De ce point de vue, lexperience statistique consideree est non-parametrique.
Dans les chapitres suivants, nous developperons systematiquement des methodes lorsque
lon fait des hypoth`eses supplementaires sur lensemble des param`etres.
1. cest-`
a-dire lensemble de toutes les lois de probabilites F sur R.
48
Echantillonnage et fonction de r
epartition empirique
3.1.2
Notations et d
efinitions pr
eliminaires
On observe un n-echantillon
X1 , . . . , Xn
note le plus souvent
X1 , . . . , Xn
T
de loi inconnue F sur R. On ne fait pas dhypoth`ese particuli`ere sur la loi commune
des Xi . Lexperience statistique sous-jacente, au sens de la Definition 2.3 du Chapitre 2,
secrit
E n = Rn , B n , (PFn , F F) ,
o`
u
F = F, F fonction de repartition
et PFn est la loi sur Rn de n variables aleatoires independantes de loi F . En particulier,
pour tous x1 , . . . , xn R, on a
PFn
n
Y
X1 x1 , . . . , Xn xn =
F (xi ).
i=1
3.2
Estimation ponctuelle
3.2.1
49
Fonction de r
epartition empirique
Lidee la plus immediate est destimer F (x0 ) par la frequence empirique du nombre
de points Xi dans lintervalle (, x0 ]
n
o
1
Card Xi (, x0 ], i = 1, . . . , n
n
qui se rapproche de la frequence theorique P X x0 ] par la loi des grands nombres.
D
efinition 3.2. La fonction de repartition empirique de lechantillon (X1 , . . . , Xn ) est
definie par
n
1X
Fbn (x) =
1{Xi x} , x R .
n
i=1
P
L
En particulier, on a Fbn (x0 ) F (x0 ) et donc Fbn (x0 ) F (x0 ).
3.2.2
Pr
ecision destimation
(3.1)
Echantillonnage et fonction de r
epartition empirique
0.6
0.4
0.0
0.2
(1:length(x))/length(x)
0.8
1.0
50
sort(x)
0.6
0.4
0.0
0.2
(1:length(x))/length(x)
0.8
1.0
sort(x)
51
0.6
0.4
0.0
0.2
(1:length(x))/length(x)
0.8
1.0
sort(x)
Cela signifie que, pour la perte quadratique, lestimateur Fbn (x0 ) approche F (x0 )
uniformement en F `
a vitesse n. Ce resultat est-il optimal, et dans quel sens ? Comment
le relier `
a une notion de precision destimation ? Si F (x0 ) est proche de 0 ou 1, ce qui
peut nous etre suggere par la lecture de Fbn (x0 ), peut-on ameliorer le facteur 1/4 dans
(3.1) et ameliorer la precision destimation ?
Une mani`ere daborder la precision destimation consiste `a construire un intervalle de
confiance `
a partir de la borne (3.1) de la facon suivante : on a, pour tout t > 0
1
1
P |Fbn (x0 ) F (x0 )| t 2 Var Fbn (x0 )
t
4nt2
par linegalite de Tchebychev (1.2). Choisissons (0, 1), et prenons t = t(, n) le plus
petit possible de sorte que 1/(4nt2 ) . Ceci nous fournit le choix
1
tn, = .
2 n
On en deduit que lintervalle 2
1
In, = Fbn (x0 )
2 n
2. La notation [a b] designe lintervalle [a b, a + b].
52
Echantillonnage et fonction de r
epartition empirique
3.2.3
Pr
ecision destimation asymptotique
53
Proposition 3.2. On a
n =
P
La Proposition 3.1 assure que Fbn (x0 ) 1 Fbn (x0 ) F (x0 ) 1 F (x0 ) . On en deduit
la premi`ere partie en appliquant la Proposition 1.8 (Slutsky).
d
1
Fbn (x0 ) F (x0 )
1
1/2 (1 2 ), (1 2 )
Fbn (x0 )1/2 1 Fbn (x0 )
Jn,
= Fbn (x0 )
n
1/2
#
1
,
2
la quantite F (x0 ) inconnue est dans lintervalle Jn, avec probabilite proche de 1
dans la limite n .
D
efinition 3.4. Lintervalle Jn, est appele intervalle de confiance asymptotique de
F (x0 ) au niveau 1 . La propriete
P F (x0 ) Jn, 1 , n
sappelle
54
Echantillonnage et fonction de r
epartition empirique
La precision asymptotique de Jn, est
1/2
Fbn (x0 )1/2 1 Fbn (x0 )
|Jn, | = 2
1 (1 2 ).
n
1 (1 2 ) , 0.
voir Exercice 3.1 Cest aussi un resultat plus precis en apparence que celui obtenu `
a laide
de In, puisquon a remplace le facteur 1/2 obtenu en prenant la racine de (3.2) dans la
construction de In, par
1/2 1
Fbn (x0 )1/2 1 Fbn (x0 )
2
dans la construction de Jn, . Cependant, cette amelioration nest valide que dans le
regime asymptotique n .
3.2.4
Pr
ecision non-asymptotique
n
X
i=1
n
Y
(bi ai )2
t
Yi t e
exp 2
.
8
i=1
Demonstration. Si Y est une variable aleatoire `a valeurs dans [a, b], posons
Y () = log E exp (Y E[Y ]) ,
> 0.
La fonction ; Y () est deux fois derivable et, puisque E Y = 0, un calcul elementaire
conduit `
a
2
Y00 () = eY () E Y 2 exp Y e2Y () E Y exp Y
.
(3.3)
55
Posons, pour A B, Q A = eY () E exp Y 1A , de sorte que Q est une mesure de
probabilite. Alors on peut interpreter (3.3) de la mani`ere suivante :
Y00 () = Var Z ,
o`
u Z est une variable aleatoire `
a valeurs dans [a, b] de loi Q. Maintenant, pour toute
variable Z `
a valeurs dans [a, b], on a toujours
b + a b a
Z
,
2
2
et donc
2 (b a)2
,
Var Z = Var Z (b + a)/2 E Z (b + a)/2
4
do`
u
Y00 () (b a)2 /4.
(3.4)
(b a)2
.
8
(3.5)
n
X
n
X
Yi t = P exp
Yi exp(t)
i=1
i=1
E exp
n
X
Yi
(inegalite de Tchebychev)
i=1
=e
= et
n
Y
i=1
n
Y
E exp Yi
(independance des Yi )
exp Yi () ,
i=1
56
Echantillonnage et fonction de r
epartition empirique
n
X
Yi t exp 2t2 /n ,
(3.6)
i=1
soit encore
P X n p t = P
n
X
Yi nt exp 2nt2 .
i=1
De meme
n
X
(Yi ) nt exp 2nt2
P X n p t = P
i=1
en appliquant (3.6) a
` Yi . On conclut en ecrivant
P | X n p| t = P X n p t + P X n p t .
1
2
log
2n
Remarque 3.4. On a
? |
|In,
2 p
=
log(2/) 0, 0,
|In, |
2
57
o`
u In, = Fbn (x0 ) 21n est lintervalle de confiance construit `a laide de linegalite de
Tchebychev dans la Section 3.2.2. Le gain est significatif. Par exemple, pour = 5%, on
a un rapport de
? |
|In,
= 0, 61.
|In, |
Pour = 1%, le rapport devient 0.33, soit une precision 3 fois meilleure !
? sont comparables en
Remarque 3.5. Par contre, les ordres de grandeur de Jn, et In,
?
n et en , voir Exercice 3.1. De ce point de vue, lintervalle In, est satisfaisant.
3.2.5
D
ecision?
oui
F (x0 ) = F0 (x0 ),
H1 :
F (x0 ) 6= F0 (x0 ).
contre lalternative
Si n est une procedure ne prenant que les valeurs 0 ou 1, on dira que n est un test
simple 6 . Si n est un test simple, il se represente sous la forme
n = n (X1 , . . . , Xn ) = 1
o`
u Rn Rn est un sous-ensemble de lespace des observations.
D
efinition 3.5. Lensemble Rn associe au test simple n est appele zone de rejet du
test, ou encore region critique du test.
6. On pourrait envisager des tests plus complexes, o`
u une reponse intermediaire entre 0 et 1 est
possible.
58
Echantillonnage et fonction de r
epartition empirique
(X1 , . . . , Xn ) Rn .
F F0
n F F0
Autrement dit, si le niveau dun test est inferieur `a , la probabilite de rejeter lhypoth`ese (observer {n = 1}) alors quelle est vraie (F F0 ) est inferieure ou egale `
a .
On parle indifferemment derreur de premi`ere esp`ece du test n ou de niveau du test n .
Remarque 3.7. Bien que cela ne transparasse pas dans les notations, le test n depend
de en general.
7. La notion dexperience canonique, voir Section 2.2.2 du Chapitre 2 permet dailleurs de concilier
les deux points de vue de facon rigoureuse. Nous ne reviendrons plus sur ce point dans la suite du cours.
8. Cest-`
a-dire observer {n = 0} et avoir F (x0 ) = F0 (x0 ).
9. Cest-`
a-dire observer {n = 1} et avoir F (x0 ) 6= F0 (x0 ).
59
D
efinition 3.7. La puissance dun test n est lapplication de F \ F0 dans [0, 1] definie
par
F F \ F0 ; PF n = 1 .
On parle indifferemment de
seconde esp`ece , definie par
fonction derreur de
F F \ F0 ; 1 PF n = 1 .
La demarche sera la suivante : on se fixe un niveau de risque , et on cherche un
test n de niveau (derreur de premi`ere esp`ece inferieure ou egale `a ) qui a la plus
grande puissance possible (lerreur de seconde esp`ece la plus petite possible). On etudiera
systematiquement ces notions aux Chapitres 7 et 8.
Construction de tests
A partir destimateurs et dintervalles de confiance de niveau 1 , la construction
dun test n est naturelle. On se restreint ici par simplicite au cadre asymptotique. On
a, dapr`es la construction de la Section 3.2.3, pour tout F F,
PF F (x0 ) Jn, 1 .
Ceci sugg`ere la r`egle de decision suivante : on accepte H0 si F0 (x0 ) Jn, et on rejette
H0 sinon.
Proposition 3.4. Soit (0, 1). Le test n = n, de lhypoth`ese nulle H0 : F (x0 ) =
F0 (x0 ) contre lalternative F (x0 ) 6= F0 (x0 ), defini par la zone de rejet
Rn, = F0 (x0 )
/ Jn, ,
est asymptotiquement de niveau . De plus, pour tout point de lalternative F F \ F0 ,
on a
PF n, = 0 = PF (X1 , . . . , Xn )
/ Rn, 0.
Autrement dit, lerreur de premi`ere esp`ece est asymptotiquement plus petite que
et lerreur de seconde esp`ece tend vers 0 ; ou encore, la puissance du test tend vers 1 en
tout point de lalternative. On dit que le test est consistant ou convergent.
Demonstration. La premi`ere partie de la proposition decoule de la propriete de couverture
asymptotique de Jn, (le second point de la Proposition 3.2). Pour le controle de lerreur
de seconde esp`ece, si F F \ F0 , alors
PF
Fbn (x0 )
F (x0 ) 6= F0 (x0 ),
60
Echantillonnage et fonction de r
epartition empirique
Le premier terme tend en loi sous PF vers une gaussienne centree reduite dapr`es la
Proposition 3.2. Le second terme diverge vers lorsque n . Puisque
on a n,
n
n, = 0 =
n
o
Fbn (x0 ) F0 (x0 )
1
1/2
2
Fbn (x0 )1/2 1 Fbn (x0 )
1 en PF -probabilite si F F \ F0 . Ceci implique 10 PF n, = 0 0.
3.3
Estimation uniforme
3.3.1
Estimation uniforme
Th
eor`
eme 3.2 (Glivenko-Cantelli). Soient X1 , . . . , Xn des variables aleatoires reelles
independantes, de meme loi F , et Fbn leur fonction de repartition empirique. Alors
p.s.
sup Fbn (x) F (x) 0, n .
xR
k
m }.
10. Par exemple par convergence dominee, ou plus simplement parce que la suite de variables aleatoires
discr`etes n, tend en probabilite vers 1, donc en loi vers la loi degeneree 1 (dx), ce qui entrane la
convergence voulue.
61
(Les points xm
ecessairement distincts si F nest pas continue.) Par construck ne sont pas n
tion, pour 0 k m 1,
k
F xm
F xm
k
k
m
car F est continue `
a droite, et donc
1
F xm
F xm
k +
k+1 .
m
m+1
Soit x [xm
). Puisque F et Fbn sont croissantes, on a, pour tout n 1,
k , xk
m
m
b
b m
Fbn xm
k F xk+1 Fn x F x Fn xk+1 F xk ,
et aussi, dapr`es ce ce qui prec`ede
1
1
m
m
Fbn xm
Fbn x F x Fbn xm
.
k F xk
k+1 F xk+1 +
m
m
Il vient
sup Fbn (x) F (x)
xR
m
Fbn xm F xm + 1 .
,
max
max max Fbn xm
F
x
k
k
k
k
0km
0km
m
p.s.
On a Fbn (x) F (x) par la loi forte des grands nombres. Il existe donc un ensemble
negligeable N 0 (m) en dehors duquel
max Fbn xm F xm 0.
0km
De meme, en appliquant la loi des grands nombres aux variables 1{Xi <x} , il existe une
ensemble negligeable N 00 (m) en dehors duquel
m
0.
max Fbn xm
k F xk
0km
n xR
en dehors de
m1 N (m)
62
3.3.2
Echantillonnage et fonction de r
epartition empirique
Th
eor`
eme 3.3 (Kolmogorov-Smirnov). Si la fonction de repartition F est continue,
alors
(d)
o`
u B est une variable aleatoire dont la loi ne depend pas de F , de fonction de repartition
X
2
P Bx =1+2
(1)k e2k x , x 0.
k=1
Nous admettons la convergence en loi de n supxR Fbn (x) F (x). Nous allons cependant demontrer que cette loi ne depend pas de F , ce qui est tr`es important en vue
des applications statistiques.
Lemme 3.3.1. Soit U1 , . . . , Un une suite de variables aleatoires independantes, uniformes sur [0, 1]. On note Gn leur fonction de repartition empirique. Si F est continue,
on a legalite en loi
d
sup Fbn (x) F (x) = sup Gn (x) x.
xR
xR
/ Ni on a
F Xi () F (x) si et seulement si Xi () x,
voir par exemple Meleard [5], paragraphe 4.2.4 p. 78. Donc, on peut ecrire, pour tout
xR
n
n
1X
1X
Fbn (t) =
1{Xi x} =
1{F (Xi )F (x)} = Gn F (x)
n
n
i=1
i=1
S
en dehors de N = i Ni qui est encore negligeable. Il vient
sup Fbn (x) F (x) = sup Gn F (x) F (x) = sup Gn (x) x.
xR
xR
xR
11. On pourra consulter, par exemple, le livre de van der Vaart [10] pour les liens entre statistique et
processus empiriques.
63
3.3.3
Pr
ecision uniforme non-asymptotique?
De la meme mani`ere que linegalite de Hoeffding du Theor`eme 3.1 nous a fourni une
precision ponctuelle non-asymptotique, on a le resultat suivant :
Th
eor`
eme 3.4 (Inegalite de Dvoretzky-Kiefer-Wolfowitz). Si la fonction de repartition
F est continue, pour n 1 et t > 0, on a
P sup Fbn (x) F (x) t 2 exp(2nt2 ).
x
La preuve utilise des resultats fins sur les processus empiriques et nous ladmettons.
On en deduit, pour (0, 1), une region de confiance non-asymptotique uniforme
q
1
In, (x), x R = Fbn (x) 2n
log 2 , x R
qui verifie, pour tout n 1
h
i
P x R, F (x) In, (x) 1 .
Remarque 3.10. De le meme mani`ere que dans le cadre asymptotique, on peut modifier
In, (x) en considerant In, (x) [0, 1].
64
Echantillonnage et fonction de r
epartition empirique
3.3.4
Test dad
equation `
a une distribution donn
ee?
Soit F0 une distribution donnee. On souhaite maintenant decider, en vue des observations X1 , . . . , Xn distribuees selon la loi F si F = F0 contre F 6= F0 globalement cesta-dire tester lhypoth`ese nulle
`
H0 : x R, F (x) = F0 (x)
contre lalternative
H1 : x R, F (x) 6= F0 (x).
Par rapport `
a la Section 3.2.5, on doit modifier la traduction de lhypoth`ese F0 F. On
pose
F0 = F F, x R, F (x) = F0 (x) = {F0 }
et on traduit lhypoth`ese H0 par la propriete F F0 .
De la meme mani`ere que dans la Section 3.2.5, on
peut construire
untest de lhypoth`
e
se
H
contre
H
a
`
laide
des
r
e
gions
de
confiance
I
(x),
x
R
, ou Jn, (x), x
0
1
n,
R .
Pour simplifier, nous enoncons un resultat asymptotique.
Proposition 3.6 (Test de Kolmogorov-Smirnov). Pour tout (0, 1), le test simple de
lhypoth`ese H0 : F F0 contre lalternative H1 : F F \ F0 , defini par la zone de rejet
n
o
Rn, = x R, F0 (x)
/ Jn, (x)
est asymptotiquement de niveau .
De plus, pour tout point de lalternative F F \ {F0 }, on a
PF (X1 , . . . , Xn )
/ Rn, 0.
Demonstration. Sous lhypoth`ese, on a F = F0 et
PF0 (X1 , . . . , Xn )
/ R = 1 PF0 x R, F0 (x) Jn, (x)
lorsque n par la Proposition 3.5. Donc le test de Kolmogorov-Smirnov est asymptotiquement de niveau . Pour tout point F F \ {F0 } de lalternative, il existe un
point x0 R pour lequel F (x0 ) 6= F0 (x0 ). On reprend alors point par point la fin de la
demonstration de la Proposition 3.4.
3.4
Estimation de fonctionnelles
Dans les Sections 3.2 et 3.3 nous avons rencontre deux situations opposees :
65
2. Lestimation
g(x)dF (x),
(3.7)
le coefficient dasymetrie
R
(F ) =
le coefficient dapplatissement de F ,
R
(F ) =
3
x m(F ) dF (x)
,
2 (F )3/2
4
x m(F ) dF (x)
2 (F )2
3.4.1
1
2
inf{t, F (t) > } + sup{t, F (t) < } .
Le cas r
egulier : m
ethode de substitution
66
Echantillonnage et fonction de r
epartition empirique
(3.8)
o`
u
R |g(x)|dF (x)
1
n
(3.9)
Pn
i=1 g(Xi )
n
1X
p.s.
g(Xi ) E g(X) =
n
. On a
i=1
g(x)dF (x)
R
par la loi forte des grands nombres. La convergence reste vraie en composant par h qui
est continue.
Exemple 3.1. La variance 2 (F ) de la distribution F secrit
Z
2
2
(F ) =
x m(F ) dF (x)
ZR
Z
2
2
=
x dF (x)
xdF (x)
R
R
Z
Z
= h1
g1 (x)dF (x) + h2
g2 (x)dF (x) ,
R
bn2 =
n
n
i=1
i=1
p.s.
La convergence
bn2 2 (F ) decoule de la Proposition 3.7 appliquee `a chacun des termes
2
1 Pn
2
i=1 Xi et X n respectivement. On peut faire des calculs analogues pour le coefficient
n
67
o`
u
d
n T (Fbn ) T (F ) N 0, v(F ) ,
2
v(F ) = h0 E g(X) Var g(X) .
X
n
g(x)dFbn (x)
g(x)dF (x) = n n1
g(Xi ) E g(X)
R
i=1
d
N 0, Var g(X) .
On applique alors la Proposition 1.10 du Chapitre 1 (methode delta) :
n h
1
n
n
X
d
2
g(Xi ) h E g(X)
N 0, h0 E g(X) Var g(X) .
i=1
Cest precisement le resultat recherche, puisque h E g(X) = T (F ).
Exemple 3.2. Etudions le comportement de lestimateur par substitution de
T (F ) =
sous lhypoth`ese que 0 <
Rx
8 dF (x)
1
1
=R 4
4
E X
R x dF (x)
< +. On a
T (Fbn ) =
1
n
1
P4
4
i=1 Xi
(en convenant par exemple 1/0 = 0). On applique la Proposition 3.8, avec g(x) = x4 et
h(x) = x1 . (Il y a cependant une difficulte : en x = 0 la fonction h ne verifie pas 12 les
hypoth`eses de la Proposition 3.8 puisque h a une singularite en 0. En appliquant tout de
meme formellement de resultat de la proposition, on a
d
n T (Fbn ) T (F ) N 0, v(F ) ,
R
12. Il sagit en fait dun faux probl`eme : on a E X 4 ] = R x4 RdF (x) > 0 puisque sinon, X = 0 presques
urement et donc F = 1R+ (x) ce qui contredirait lhypoth`ese R x8 dF (x) > 0. Ceci entrane que X est
eloigne en moyenne de la singularite 0. On pourra alors montrer en exercice que la convergence en
loi voulue a bien lieu.
68
Echantillonnage et fonction de r
epartition empirique
avec
2
2 8
v(F ) = h0 E g(X)
E g(X)2 E g(X)
= 2 1
4
R i
i
o`
u i = E[X ] = R x dF (x). On peut pousser un peu plus loin letude et deduire de
ce resultat un intervalle de confiance asymptotique pour T (F ) = 1
4 comme dans la
Section 3.2.3. Cest lobjet de lExercice 3.3.
La Proposition 3.8 ne donne quun resultat en dimension 1 : elle ne permet meme pas
de traiter immediatement la vitesse de convergence dans lExemple 3.1, et une version
multidimensionnelle de la methode delta sav`ere necessaire dans le cas general.
Considerons une fonctionnelle de la forme
Z
Z
T (F ) = h
g1 (x)dF (x), . . . , gk (x)dF (x) ,
R
(3.10)
o`
u h : Rk R est une fonction differentiable, de gradient
Jh (x) = h(x) = 1 h(x), . . . , k h(x) , x Rk .
En appliquant la Proposition 1.11, on a le resultat suivant :
Corollaire 3.2. Si la fonctionnelle T (F )R admet la representation (3.10) avec une fonction h contin
ument differentiable, et si R gi (x)2 dF (x) < + pour tout i = 1, . . . , k,
alors
d
n T (Fbn ) T (F ) N 0, v(F ) ,
avec
v(F ) = Jh (g) g Jh (g)T ,
o`
u
g = E g1 (X) , . . . , E gk (X)
et g est la matrice de variance-covariance des gi (X) :
g ij = E gi (X) E[gi (X)] gj (X) E[gj (X)] , 1 i, j k.
Exemple 3.3. Reprenons le probl`eme du calcul de la loi limite de la variance empirique
de lexemple 3.1. On a
n
2
1X 2
Xi X n .
bn2 =
n
i=1
69
d
n
bn2 N 0, v(F ) ,
avec
v(F ) = (1, 21 )
4 22 3 1 2
3 1 2 2 21
(1, 21 )T .
On trouve
v 2 = 4 22 41 (3 + 31 21 2 ).
Dans le cas precis de la variance empirique, on aurait pu aussi retrouver directement ce
resultat par une autre methode, voir lExercice 3.2.
Avec la meme technique, on peut exhiber les lois limites du coefficient dasymetrie
empirique et du coefficient daplatissement empirique.
3.4.2
Le cas non-r
egulier?
Les fonctionnelles reguli`eres de type (3.8) sont insuffisantes pour les applications :
par exemple, elles ne recouvrent pas le cas tr`es utile de lestimation des quantiles dune
distribution inconnue.
Plus generalement, supposons que lon dispose de linformation supplementaire suivante sur le mod`ele statistique :
F Fac F,
o`
u Fac designe lensemble des distributions absolument continues, cest-`a-dire qui poss`edent
une densite f par rapport `
a la mesure de Lebesgue. Alors, par exemple, la fonctionnelle
Z
Z
T (F ) =
F 0 (x)2 dx =
f (x)2 dx
R
F 0 (x)
70
Echantillonnage et fonction de r
epartition empirique
Cette permutation nest pas necessairement unique (dans le cas discret, certaines valeurs
des observations peuvent concider). Pour estimer le quantile 13 dordre p de la loi F ,
cest-`
a-dire
T (F ) = 12 inf{q, F (q) > p} + sup{q, F (q) < p}
on peut choisir lestimateur par substitution
qbn,p = T (Fbn ) =
1
2
inf{q, Fbn (q) > p} + sup{q, Fbn (q) < p}
appele quantile empirique dordre p. La difficulte de cette approche reside dans le fait
que x ; Fbn (x) est constante par morceaux, donc, pour p [0, 1] donne, lequation
Fbn (q) = p.
admet une infinite de solutions ou nen admet aucune. On peut expliciter qbn,p `
a laide de
la statistique dordre. On pourra montrer que
X(k)
si p (k 1)/n, k/n
qbn,p =
1
si p = k/n
2 X(k) + X(k+1)
pour k = 1, . . . , n. Le comportement asymptotique de qbn,p est etudie dans lExercice 3.6
a la fin du chapitre.
`
Lissage de la distribution empirique?
Etant donne lobservation X1 , . . . , Xn , la fonction aleatoire
n
1X
x ; Fbn (x) =
1{Xi ()x}
n
i=1
b
est constante par morceaux. On insiste ici sur
lalea , pour marquer le fait que
Fn ()
depend dune realisation X1 (), . . . , Xn () du vecteur aleatoire X1 , . . . , Xn . Si on
prend formellement sa derivee (au sens des distributions), on obtient
n
1X
Fbn0 (dx) =
Xi () (dx)
n
(3.11)
i=1
o`
u a (dx) est la mesure de Dirac au point a. On obtient ainsi une mesure de probabilite 14 ,
qui assigne `
a chaque point Xi () la masse 1/n.
D
efinition 3.9. Etant donnee une realisation X1 (), . . . , Xn () du vecteur aleatoire
X1 , . . . , Xn , on appelle distribution empirique la mesure de probabilite uniforme sur
lensemble {X1 (), . . . , Xn ()} definie par (3.11).
13. Voir la Section 1.2.3 du Chapitre 1.
14. Celle-ci depend de : il sagit dune distribution aleatoire.
71
i=1
Estimateur `
a fen
etre mobile et `
a noyau?
La densite f est la derivee de la fonction de repartition x ; F (x). Ecrivons lapproximation
1
f (x) = F 0 (x)
F (x + h/2) F (x h/2)
h
lorsque h est petit. On approche le membre de droite par substitution. Ceci fournit
lestimateur
1 b
Fn (x + h/2) Fbn (x h/2) ,
fbn (x) =
h
appele estimateur par fenetre mobile.
Posons U h = [x h/2, x + h/2). Alors fbn (x) compte le nombre dobservations Xi qui
x
tombent dans la
avec x :
n
1 b
1 X
b
Fn (x + h/2) Fn (x h/2) =
1{Xi Uxh }
h
nh
i=1
n
x Xi
1 X
=
K
,
nh
h
i=1
o`
u K(x) = 1{1/2<x1/2} . La fonction aleatoire x ; fbn (x) est elle-meme une densite de
probabilite, constante par morceaux.
Une version plus lisse de lestimateur `a fen
R etre mobile consiste `a remplacer la fonction
K par une fonction reguli`ere K (r) , verifiant R K (r) (x)dx = 1. On utilise souvent le noyau
gaussien
K (r) (x) = (2)1/2 exp(x2 /2).
Lestimateur `
a noyau
1 X (r)
fbn(r) (x) =
K
nh
i=1
x Xi
h
fonctions cloches
1 (r) Xi
K
,
h
h
72
Echantillonnage et fonction de r
epartition empirique
fbn(r) (x)dx =
Z
K(x)dx = 1.
R
3.5
Exercices
Rx
2
Exercice 3.1. Soit (x) = (2)1/2 et /2 dt la fonction de repartition de la loi
gaussienne standard.
2
Montrer que 1 (x) 21 ex /2 et en deduire que pour (0, 1),
1
exp( 1 (1 /2)2 ).
2
Montrer que 1 (x) =
2
x ex /2
2
x2 [1 (x)]. En deduire
2
ex /2
1 (x) .
2x 2
(On pourra utiliser linegalite : x/(1 + x2 ) 1/2x si x 1.)
En deduire
s
1
1 (1 /2),
2 log
r()
o`
u lon a pose r() := 2
q
log 1 .
1
n
n
X
i=1
(Xi X n )
1
n
n
X
(Xi )2 2 n(X n )2 .
i=1
Montrer que le second terme converge vers 0 en probabilite. Montrer que le premier terme
est asymptotiquement normal via le theor`eme central-limite. Conclure via la Proposition
1.8 (Slutsky).
3.5 Exercices
73
T (F ) =
1
1
=R 4
4
E X
R x dF (x)
8 dF (x)
Rx
d
n T (Fbn ) T (F ) N 0, v(F ) ,
P
avec v(F ) = 8 /24 1. Montrer que v(Fbn ) v(F ) et en deduire un intervalle de confiance
asymptotique pour T (F ) `
a laide de la Proposition 1.8 (Slutsky).
n
Y
i=1
2 d
n (3) 2
n (4)
Tn
+
Tn 3 2 (2),
15
24
2
2
o`
u (2) designe la loi du `a 2 degres de liberte.
En deduire un test de lhypoth`
se nulle H0 : F = contre lalternative H1 : F 6=
R x te2 /2
1/2
o`
u (x) = (2)
dt est la fonction de repartition de loi normale
e
standard.
Le test est-il consistant ?
Exercice 3.6 (Comportement asymptotique des quantiles empiriques). Soit (1 , . . . , n+1 )
des variables aleatoires independantes et de meme loi exponentielle de param`etre 1. On
pose
i
X
Vi =
j
j=1
74
Echantillonnage et fonction de r
epartition empirique
Montrer que le vecteur (V1 , . . . , Vn+1 ) admet comme densite
(v1 , . . . , vn+1 ) 7 1{0<v1 <<vn+1 } exp(vn+1 ).
On consid`ere une permutation aleatoire de {1, . . . , n} de loi uniforme et independante
de (1 , . . . , n+1 ). Montrer que les variables aleatoires
V(i)
,
Vn+1
i = 1, . . . n
0 < u < 1.
V1
Vn+1
,...,F
Vn
Vn+1
f (s)ds
F (t) = F (t1 ) +
t1
Chapitre 4
M
ethodes destimation pour le
mod`
ele de densit
e
On se place dans le mod`ele dechantillonnage. Lhypoth`ese supplementaire par rapport
au Chapitre 3 est que la famille de probabilites associee `a lexperience statistique est
param
etrique : on peut la representer `a laide dun sous-ensemble dun espace de
dimension finie.
4.1
4.1.1
Introduction
Notations et hypoth`
eses
Situation
On observe un n-echantillon
X1 , . . . , Xn
dune loi inconnue sur R, que lon notera aussi sous forme dun vecteur colonne
T
X1 , . . . , Xn ,
o`
u les Xi sont des variables independantes et identiquement distribuees, et on suppose
que leur loi commune appartient a` une famille parametrique de lois donnee
P , , Rd ,
o`
u est un param`etre de dimension d. Lexperience statistique sous-jacente au sens de
la Definition 2.3 du Chapitre 2 secrit
E n = Rn , B n , {Pn , }
76
M
ethodes destimation en densit
e
o`
u Pn est la loi de n variables aleatoires independantes de loi P . On ecrit indifferemment
P , ou Pn , voire P lorsquil ny a pas de confusion possible. On note aussi E = E 1 ,
lexperience associee `
a une seule observation.
Dans ce contexte, on cherche `a construire des estimateurs bn de , ou plutot des suites
destimateurs, variant avec n. Un estimateur cf. la Definition 3.1 est une quantite
mesurable par rapport aux observations :
bn = bn (X, . . . , Xn )
` valeurs dans Rd (idealement, `a valeurs dans ). Evidemment, un estimateur raisonnable
a
bn approche dautant mieux que le nombre dobservations n est grand. Nous allons
raisonnables ,
developper des methodes systematiques de construction
destimateurs
en faisant des hypoth`eses adequates sur la famille P , .
Identifiabilit
e
Nous supposons toujours que lexperience est bien parametree, au sens o`
u la fonction
; P est injective, ce qui etait dej`a implicite dans nos notations : deux valeurs
differentes 1 6= 2 donnent lieu `a deux mesures de probabilites P1 6= P2 differentes.
Une experience statistique E n engendree par lobservation dun n-echantillon secrit
E n = E E (n fois), o`
u E est lexperience statistique associee `a une observation
(E = E 1 ). Alors E n est identifiable si et seulement si E lest.
Voici un exemple de mauvaise parametrisation donnant lieu `a un mod`ele qui nest
pas identifiable : P est la loi sur R de densite par rapport `a la mesure de Lebesgue
1
1
2 2
f (, x) = e 2 (x ) , = R .
2
d P
(x), x R
d
4.1 Introduction
77
Remarque 4.2. Se donner une experience statistique satisfaisant lHypoth`ese 4.1 revient `a specifier une application f : R R. Nous verrons dans ce chapitre ainsi quau
Chapitre 6 comment lestimation de est intimement liee `a la regularite de la fonction
(, x) ; f (, x).
Dans presque toutes les situations que nous considererons, la mesure est la mesure
de Lebesgue sur R lorsque la loi des observations est absolument continue, ou bien est
la mesure de comptage sur lensemble des valeurs possibles des observations lorsque la
loi des observations est discr`ete.
Exemple 4.1.
1. Si lexperience statistique E est engendree par lobservation dune variable exponentielle de param`etre , > 0, alors P (dx) est la loi exponentielle de param`etre
et = R+ \{0}. Une mesure dominante est la mesure de Lebesgue (dx) = dx
et on a
P (dx) = f (, x)dx = exp(x)1{x0} dx.
2. Si E est engendree par lobservation dune variable de Poisson de param`etre > 0,
alors P (dx) est la loi de Poisson de param`etre et = R+ \{0}. Dans ce cas, on
peut prendre pour la mesure de comptage sur N et on a
P (dx) = f (, x)(dx) = exp()
x
(dx),
x!
et on a aussi
f (, x) = P X = x .
3. Si E est engendree par lobservation dune variable gaussienne, de moyenne et de
variance 2 , alors = (, 2 ), = R R+ \{0} et P (dx) est la loi N (, 2 ). Dans
ce cas, on peut prendre (dx) = dx et on a
f (, x) = (2 2 )1/2 exp 21 2 (x )2 .
Attention : dans certaines situations, on suppose que lon connat lune des valeurs
ou 2 . Dans ce cas, on doit changer de param`etre et densemble de param`etres,
meme si, bien-s
ur, la loi des observations reste la meme. Par exemple, si lon connat
2 , alors on prend = , = R et on ecrit plutot
f2 (, x) = (2 2 )1/2 exp 21 2 (x )2 .
78
M
ethodes destimation en densit
e
Calcul de lois
On note Pn (ou P lorsquil ny a pas de confusion) la loi des observations, et En
(ou E ) lesperance associee. Si bn est un estimateur de et une fonction test, alors
E (bn ) = E bn (X1 , . . . , Xn )
Z
=
bn (x1 , . . . , xn ) P (dx1 ) . . . P (dxn )
Rn
Z
=
Rn
n
Y
bn (x1 , . . . , xn )
f (, xi )(dx1 ) . . . (dxn ).
i=1
i=1
bn (x1 , . . . , xn )
x1 ,..., xn M
n
Y
f (, xi ).
i=1
Ces formules ne sont pas toujours praticables : on choisit souvent des fonctions tests
et des estimateurs tr`es particuliers pour pouvoir conduire les calculs.
4.1.2
Familles param
etriques classiques
1. Loi gaussienne reelle et vectorielle, que nous avons deja rencontre au Chapitre 1.
2. Derivees des lois gaussiennes. Il sagit de la loi du 2 `a n degres de liberte, la loi
de Student `
a n degres de libertes, et la loi de Fisher ou Fisher-Snedecor `
a (n1 , n2 )
degres de liberte, que nous avons deja rencontrees au Chapitre 1.
3. Loi Gamma. Notee , de param`etres > 0 et > 0, de densite , par rapport
a la mesure de Lebesgue
`
, (x) =
o`
u (x) =
R +
0
1 x
x
e
1{x0}
()
E X =
x+k1 ex dx
() 0
Z +
k
=
x+k1 ex dx
() 0
k ( + k)
=
.
()
4.1 Introduction
79
En particulier, E X = / et Var X = /2 . Le param`etre joue un role de
facteur dechelle : on montre de la meme mani`ere que si X 1, , alors X/ , .
Cest donc le deuxi`eme param`etre qui est important en modelisation. En particulier,
la loi du 2 `
a n degres de liberte est la loi 1/2,n/2 .
4. Loi exponentielle. Cest la loi ,1 , > 0, de densite ex 1{x0} . En particulier,
sa moyenne vaut 1/ et sa variance 1/2 .
5. Loi Beta. De param`etres 1 , 2 > 1. Cest une loi sur [0, 1], de densite
x;
(1 + 2 ) 1 1
x
(1 x)2 1 1{x(0,1)} .
(1 )(2 )
1
1 (1 + 1)
, E X2 =
.
1 + 2
(1 + 2 )(1 + 2 + 1)
6. Loi uniforme. Sur [0, 1], on peut la voir comme un cas particulier de la loi Beta 1
pour 1 = 2 = 1.
7. Loi de Cauchy. Cest la loi de param`etres R et 2 > 0 de densite
x;
1
1
2 =
1 + (x )/ 2 2
2 + (x )
1
(1 + x2 )
mais `
a la difference de la famille des lois normales, elle nadmet pas de moment
dordre 1 (et donc pas de variance non plus).
1. Le lien entre loi uniforme et loi Beta intervient dans le calcul de la statistique de rang associe a
` des
tirages uniformes, dont une application fondamentale est la loi limite destimation de quantiles, voir par
exemple [1], p.46.
80
M
ethodes destimation en densit
e
8. Loi log-normale On dit quun variable Y est log-normale si elle peut secrire Y =
exp(X), avec X N (, 2 ). La densite de la loi log-normale est
x;
1
g log(x) ,
x
o`
u g(x) = (2 1/2 ) exp(x2 /2) est la densite de la loi normale standard. De plus,
2
2
E Y = e+ /2 , E Y 2 = e2+2 .
9. Loi de Bernoulli. Rencontree au Chapitre 1.
10. Loi de Poisson. Rencontr
ee au
Chapitre 1. Si X suit une loi de Poisson de param`etre
> 0, alors E X = Var X = .
11. Loi multinomiale. Soient X1 , . . . , Xn sont des variables aleatoires `a valeurs dans
{1, . . . , d}, independantes et de meme loi
P X = ` = p` , ` = 1, . . . , d.
P
Si lon note N` = ni=1 1{Xi =`} le nombre de tirages ayant donne la valeur `, alors
le vecteur (N1 , . . . , N` ) suit la loi multinomiale de param`etres n et (p1 , . . . , pd ),
donnee par
P N1 = n1 , . . . , Nd = nd
n!
=
pn1 pnd d ,
n1 ! nd ! 1
d
X
n` = 1.
`=1
4.2
M
ethode des moments
4.2.1
Le cas de la dimension 1
4.2 M
ethode des moments
81
Une autre facon de voir cette approche est de remarquer que si F designe la fonction de
repartition de la loi P , alors
Z
1
g(x)dF (x) ,
= T (F ) = m
R
o`
u T est une fonctionnelle de type (3.7) etudiee au chapitre precedent. On a donc aussi
!
n
X
1
bn = T (Fbn ) = m1
g(Xi ) .
n
i=1
D
efinition 4.1. On appelle estimateur par methode des moments tout estimateur de la
forme (4.1) ou (??).
Remarque 4.3. Dans la plupart des exemples, on choisit g de la forme g(x) = xk avec
k 1, do`
u la terminologie. Le choix g est arbitraire pour le statisticien : il y a donc tout
un ensemble de possibilites pour construire un estimateur par methode des moments,
mais sous la contrainte que lapplication ; m() soit reguli`ere et inversible.
Sous des hypoth`eses de regularite sur m et dintegrabilite sur g, on a le comportement
asymptotique de b suivant.
Proposition 4.1. Si E |g(X)| < + et si m1 est continue, on a
p.s.
bn .
De plus, si pour tout , E g(X)2 < + et si la fonction m est derivable, alors
d
n bn N
1
0, 0 2 Var g(X1 )
m ()
(4.2)
0
ou bien
m()
e
= E ge(X) =
Z
0
x2 exp(x)dx =
2
,
2
82
M
ethodes destimation en densit
e
et on resout
m() =
1
n
n
X
Xi
ou
m()
e
=
i=1
1
n
n
X
Xi2 .
i=1
1
1
n
Pn
i=1 Xi
et
bn,2 =
!1/2
2
1
n
Pn
2
i=1 Xi
et
20
Var ge(X) = 4
1
2
et
m
e 0 () =
et
m0 () =
4
3
b
n(n,i ) pour i = 1, 2
et
20 6
5
ve() = m
e 0 ()2 Var ge(X) = 4
= 2
16
4
respectivement. Lerreur de lestimateur bn,1 est moins dispersee que celle de bn,2 et
de ce point de vue, bn,1 semble preferable `a bn,2 . Nous etudierons plus systematiquement
la comparaison destimateurs au Chapitre 6.
Exemple 4.3 (Loi de Cauchy). On consid`ere la famille de translation (voir 4.1.2)
associee `
a la loi de Cauchy sur R. La loi P a une densite par rapport `a la mesure de
Lebesgue sur R
1
, x R .
f (, x) =
1 + (x )2
La densite f (, ) na pas de moment dordre k pour k 1, et le choix g(x) = xk avec k
entier ne sapplique pas ici. Prenons g(x) = signe(x), avec
1 si x 0
signe(x) =
1 si x > 0.
On a
E g(X1 ) =
Z
signe(x)f (, x)dx = 1 2F (),
R
o`
u
1
F (t) =
dt
1
1
= Arctg(t) + .
2
1+t
4.2 M
ethode des moments
83
On resout
2
1X
Arctg() =
signe(Xi ),
n
i=1
do`
u lestimateur
!
n
X
signe(Xi ) .
2n
bn = tg
i=1
4.2.2
Le cas multidimensionnel
Z
g` (x)dF (x), ` = 1, . . . , d
(4.3)
admette une solution unique, lorsque cela est possible. Un estimateur par methode des
moments est alors tout estimateur bn satisfaisant
d
1X
m` (bn ) =
g` (Xi ), ` = 1, . . . , d.
n
(4.4)
i=1
D
efinition 4.2. On appelle estimateur par substitution ou par methode des moments
associe a
` la fonction g tout estimateur bn solution de (4.4).
On note
m() = E g(X) = E g1 (X)], . . . , E gd (X)
lapplication de Rd Rd definie composante par composante par (4.3). On utilise donc
la representation
= m1 (m1 (), . . . , md ())
pour estimer par
bn = m
i=1
i=1
1X
1X
g1 (Xi ), . . . ,
gd (Xi )
n
n
84
M
ethodes destimation en densit
e
sous P . De plus, si m1 est differentiable et si E g` (X)2 < +, on a la convergence
d
n bn N 0, V () ,
o`
u
T
V () = Jm1 m () Jm
1 ,
(4.5)
T
definie
(4.6)
i=1
= m()
sous P . Par continuite de m1 , on en deduit
n
1 X 1
1X
g1 (Xi ), . . . ,
gd (Xi )
bn = m1
n
n
i=1
i=1
p.s.
m1 E g1 (X) , . . . , E gd (X)
= m1 m()
= .
La deuxi`eme partie de la proposition est la methode delta multidimensionnelle. On
applique dabord le Theor`eme 1.4 (theor`eme central limite vectoriel) : la suite de vecteurs
!T
n
n
1X
1X
g1 (Xi ), . . . ,
gd (Xi )
n
n
i=1
i=1
i=1
4.3 Moments g
en
eralis
es. Z- et M -estimation
85
Remarque 4.4. Ce resultat est tr`es proche du Corollaire 3.2 du Chapitre 3 (la fonction
m1 jouant le r
ole de g dans le Corollaire 3.2).
Exemple 4.4. Si = (, 2 ) = R R+ \{0} et P est la loi N (, 2 ), alors d = 2
et les fonctions g1 (x) = x et g2 (x) = x2 fournissent le syst`eme dequations
n
= X n,
2 + 2 =
1X 2
Xi ,
n
i=1
T
= X n , n1
n
X
Xi2 X n
2 T
(4.7)
i=1
On retrouve lestimation de fonctionnelles du Chapitre 3. Lestimateur bn est asymptotiquement normal. On peut calculer sa variance asymptotique en appliquant la formule
(4.5) de la Proposition 4.2 ci-dessus ou bien en partant directement de la representation
(4.7) et en appliquant alors le Corollaire 3.2 du Chapitre 3. En notant i = E X i , on
obtient finalement
V () =
31 2 + 231 + 3
2 21
3
31 2 + 21 + 3 21 (41 2 231 23 ) + 4 22
.
4.3
Moments g
en
eralis
es. Z- et M -estimation
Insuffisance de la m
ethode des moments
La methode des moments repose sur lexistence dune fonction m (reelle ou vectorielle)
inversible qui nest pas toujours facile `a determiner ou `a mettre en uvre numeriquement.
On presente une extension naturelle qui fournit une nouvelle classe destimateurs que lon
va pouvoir etudier de mani`ere systematique.
En particulier, sous des hypoth`eses de regularite suffisantes, on pourra construire une
methode automatique de selection dun estimateur asymptotiquement optimal, dans
un sens que nous discuterons au Chapitre 6.
86
4.3.1
M
ethodes destimation en densit
e
Z-estimateurs
Construction en dimension 1
Lorsque le param`etre est de dimension 1, cest-`a-dire R, la methode des moments de la section precedente repose sur de bonnes proprietes regularite, inversibilite
de lapplication
Z
g(x) P (dx)
m() = mg () =
(4.8)
(4.9)
o`
u g est `
a choisir. Considerons de mani`ere generale pour Rd et d 1 une application
:RR
telle que pour tout
Z
(, x) P (dx) = 0
(4.10)
dont (4.9) est un cas particulier avec (, x) = mg () g(x). Pour construire un estimateur, on peut se donner une application satisfaisant lequation (4.10) pour tout
et resoudre sa version empirique, cest-`a-dire chercher un estimateur bn satisfaisant
n
1X b
(n , Xi ) = 0.
n
(4.11)
i=1
D
efinition 4.3 (Z-Estimateur ou estimateur GMM 2 ). Etant donnee une application
: R R satisfaisant (4.10), on appelle Z-estimateur associe `
a tout estimateur
b
n satisfaisant (4.11).
Le cas multidimensionnel
Lextension au cas multi-dimensionnel Rd , avec d 1 est immediate. La fonction
est remplacee par une application
= (1 , . . . , d ) : R Rd
o`
u chaque composante ` : R R joue le meme role quen dimension 1. Pour que
la methode ait un sens, il faut que, comme pour lequation (4.10), le param`etre inconnu
soit solution du syst`eme dequations
Z
` (, x) P (dx) = 0, ` = 1, . . . , d
(4.12)
R
4.3 Moments g
en
eralis
es. Z- et M -estimation
87
D
efinition 4.4 (Z-estimateur, cas multidimensionnel). Etant donne une application :
R Rd , on appelle Z-estimateur associe `
a tout estimateur bn satisfaisant
n
1X b
(n , Xi ) = 0,
n
` = 1, . . . , d.
i=1
4.3.2
M -estimateurs
i=1
n
X
1 (bn , Xi ) =
i=1
n
X
(bn , Xi ) = 0
i=1
Alors m() = E X minimise la fonction
Z
a ; (x a)2 P (dx) = E (X a)2
R
88
M
ethodes destimation en densit
e
i=1
ou encore
n
X
i=1
(bn , Xi ) = 0
i=1
P
u lestimaavec (a, x) = 1 (a, x) = 2(x a), ce qui implique ni=1 (Xi bn ) = 0, do`
1 Pn
b
teur n = X n = n i=1 Xi . Dans cet exemple simple, tous les points de vue concident.
4.3.3
Dans cette section, nous donnons des crit`eres simples sur la famille P , et la
fonction pour les Z-estimateurs ou pour les M -estimateurs qui garantissent
la convergence de lestimateur correspondant. Nos conditions sont classiques et sousoptimales. La recherche de conditions minimales est un probl`eme delicat qui depasse le
cadre de ce cours. On pourra consulter van der Vaart [10] pour une discussion accessible
sur le sujet. Pour des raisons techniques, nous commencons par traiter la convergence
des M -estimateurs, dont nous deduirons celle des Z-estimateurs.
Convergence des M -estimateurs
Pour une fonction de contraste : R R donnee, on definit
n
Mn (a) =
1X
(a, Xi ), a
n
i=1
et, pour ,
M (a, ) = E (a, X) .
Proposition 4.3 (Convergence des M -estimateurs). On suppose Rd , avec d 1,
que le M -estimateur bn associe a
` la fonction est bien defini, et quon a
P
(i) supa Mn (a) M (a, )
0,
(ii) > 0, sup|a| M (a, ) < M (, ), (condition de maximum)
P
(iii) Mn (bn ) Mn () n , o`
u n
0.
4.3 Moments g
en
eralis
es. Z- et M -estimation
89
Demonstration. On ecrit
M (, ) M (bn , ) = Tn,1 + Tn,2 + Tn,3 ,
avec
Tn,1 = M (, ) Mn (),
Tn,2 = Mn () Mn (bn ),
Tn,3 = Mn (bn ) M (bn , ).
Les termes Tn,1 et Tn,3 tendent vers 0 en probabilite sous P grace `a lhypoth`ese (i).
Soit > 0. Dapr`es la condition (ii), il existe > 0 tel que M (a, ) M (, )
d`es lors que |a | . On a donc linclusion
| bn | M (bn , ) M (, )
(4.14)
en prenant a = bn . Il vient
P | bn | P M (bn , ) < M (, )
= P M (, ) M (bn , ) >
P Tn,1 + n + Tn,3
P
o`
u lon utilise successivement linclusion (4.14), lhypoth`ese (iii) et le fait que chacun des
termes Tn,1 , n et Tn,3 tend vers 0 en probabilite sous P .
Convergence des Z-estimateurs
On suppose dabord R. Pour une fonction donnee, on definit
n
1X
(a, Xi ), a
Zn (a) =
n
i=1
et, pour ,
Z(a, ) = E (a, X) a .
Proposition 4.4 (Convergence des Z-estimateurs). On suppose que le Z-estimateur bn
associe `
a la fonction est bien defini, et quon a
P
(i) supa Zn (a) Z(a, )
0,
(ii) > 0, inf |a| |Z(a, )| > 0 = |Z(, )|,
90
M
ethodes destimation en densit
e
P
(iii) Zn (bn )
0.
4.3.4
quon ait une convergence en loi vers une gaussienne avec la normalisation n = n.
Ces conditions ne sont pas optimales (voir van deer Vaart [10]). A linverse de la section
precedente, nous partons dun resultat sur les Z-estimateurs pour en deduire un resultat
sur les M -estimateurs.
Loi limite des Z-estimateurs
Nous donnons les resultats dans le cas R, lorsque le param`etre est de dimension
d = 1, pour simplifier 4 . Etant donnees, dune
part une fonction
: R R definissant
un Z-estimateur, et dautre part la famille P , , on fait le jeu dhypoth`eses
suivant :
Hypoth`
ese 4.2 (Hypoth`ese loi limite Z-estimateurs). On a
(i) Pour tout point , il existe un voisinage ouvert V() tel que, pour tout
a V()
2
a (a, x) g(x), o`
u E g(X) < +.
(ii) Pour tout , on a
E (, X) = 0,
E (, X)2 < +,
E (, X) 6= 0.
4.3 Moments g
en
eralis
es. Z- et M -estimation
91
Remarque 4.5. Le jeu dhypoth`ese 4.2 peut paratre un peu repoussant `a premi`ere
vue. Nous verrons que la methode de preuve est tr`es simple, et que ces hypoth`eses apparaissent naturellement lors du controle des differents termes dun developpement asymptotique 5 .
Remarque 4.6. Le jeu dhypoth`ese 4.2 est local : comme
le sugg`
ere lhypoth`ese (i), on
doit pouvoir contr
oler le comportement de la famille P , dans un voisinage de
, pour tout . Ceci exclut les param`etres de la fronti`ere de dans le cas o`
u nest pas
un ouvert. En restreignant lespace des param`etres (donc en considerant une experience
statistique plus petite ), on pourra souvent se ramener au jeu dhypoth`eses 4.2 `a
condition que soit dinterieur non vide au depart.
Sous ce jeu dhypoth`eses, on a le comportement asymptotique suivant pour les Zestimateurs
Proposition 4.5 (Loi limite des Z-estimateurs). Si la famille P , et la fonction
P
verifient lHypoth`ese 4.2, alors, si bn est un Z-estimateur associe `
a tel que bn
,
on a
en loi sous P , o`
u
d
n bn N 0, v ()
E (, X)2
v () =
2 .
E (, X)
P
Demonstration. Notons Zn (a) = n1 ni=1 (a, Xi ), a comme dans la preuve de la Proposition 4.4, et introduisons les notations Zn0 (a) = a Zn (a), Zn00 (a) = a2 Zn (a). Ecrivons
un developpement de Taylor de la fonction Zn au voisinage de . On a
1
0 = Zn (bn ) = Zn () + (bn )Zn0 () + (bn )2 Zn00 (en ),
2
o`
u en est un point (aleatoire) entre bn et , ce que lon reecrit sous la forme
nZn ()
b
n n =
.
Zn0 () + 12 (bn )Zn00 (en )
(4.15)
d
nZn () N 0, E (, X)2
5. On peut presque les oublier et ne retenir que la methode de preuve o`
u elles reapparatront de
facon evidente.
92
M
ethodes destimation en densit
e
en loi sous P .
P
Considerons maintenant le denominateur. On a Zn0 () = n1 ni=1 (, Xi ) et les
variables (, Xi ) sont integrables dapr`es lHypoth`ese 4.2 (ii). En appliquant la loi
des grands nombres, on obtient
P
Zn0 ()
E (, X) 6= 0.
La seule reelle difficulte de la preuve de la proposition consiste `a demontrer que
P
00 e
1 b
2 (n )Zn (n )
0.
(4.16)
E (, X)2
nZn ()
d
N 0,
2 ,
Zn0 () + 12 (bn )Zn00 (en )
E (, X)
qui est la limite recherchee.
Il reste `
a montrer (4.16). Dapr`es lhypoth`ese 4.2 (ii), il existe un voisinage V() de
P
implique que
tel que |a2 (a, x)| g(x) si a V(). Lhypoth`ese bn
P bn V() 1.
Posons Cn = {bn V()}. On a
n
h1 X
h
i
i
2
(en , Xi )1Cn
E Zn00 (en )1Cn E
n
i=1
n
h1 X
i
g(Xi )
i=1
i
= E g(X) < +
en appliquant lhypoth`ese 4.2 (i). On en deduit
sup E Zn00 (en )1Cn < +.
n
P
P
Ceci entrane (bn )Zn00 (en )1Cn
0, puisque bn
, voir par exemple lExercice 1.1
du Chapitre 1. Finalement, on ecrit, pour tout > 0
P 21 (bn )Zn00 (en ) P 21 (bn )Zn00 (en )1Cn + P Cnc ,
93
2
(, X)
< +,
E 2 (, X) 6= 0.
Proposition 4.6 (Loi limite des M -estimateurs). Si la famille P , et la fonction verifient lHypoth`ese 4.3, alors, si bn est un M -estimateur associe `
a tel que
P
b
n , on a
d
n bn N 0, v ()
en loi sous P , o`
u
2
E (, X)
v () =
2
2 .
E (, X)
4.4
4.4.1
Maximum de vraisemblance
Principe du maximum de vraisemblance
Fonction de vraisemblance
On se place sous lHypoth`ese de domination 4.1 presentee dans la Section 4.1.1 :
lexperience E est dominee par une mesure sur R, et on note
{f (, ), }
(4.17)
94
M
ethodes destimation en densit
e
D
efinition 4.6. On appelle fonction de vraisemblance associee `
a lexperience produit E n
lapplication
n
Y
; Ln (, X1 , . . . , Xn ) =
f (, Xi ).
i=1
x
(dx).
x!
x
n
Y
i=1
Pn
Xi
1
en i=1 Xi .
= Qn
Xi !
i=1 Xi !
Exemple 4.7 (cas continu). Si la famille P , est la famille des lois de Cauchy
de param`etre = (, 2 ) = R R+ \{0}, voir la Section 4.1.2 alors une mesure
dominante est la mesure de Lebesgue sur R et on a
P (dx) = f (, x)dx =
dx.
2 + (x )2
i=1
Exemple 4.8 (cas melange). Dans les exemples emblematiques du Chapitre 2, nous
avons mentionne lexperience engendree par lobservation de
Xi? = min{Xi , T }, i = 1, . . . , n
o`
u les Xi sont des variables exponentielles independantes, de
param`etre > 0 que lon
nobserve pas, et T > 0 est un instant de censure. Les lois P? , de X ? ne sont
ni discr`etes, ni continues. La famille est dominee par (dx) = dx + T (dx), o`
u T (dx) est
la mesure de Dirac au point T . On a
P? (dx) = p(, x)(dx),
7. La fonction x ; f (, x) est definie a
` un ensemble -negligeable pr`es, donc on devrait en toute
rigueur parler dune (classe dequivalence de) fonction de vraisemblance.
95
o`
u
f (, x) = ex 1{x<T } + c()1{x=T } ,
avec c() =
R +
T
et dt = eT . La vraisemblance secrit
Ln (, X1? , . . . , Xn? ) =
n
Y
f (, Xi? )
i=1
= card Nn exp
+
Xi? c()card Nn ,
iNn
o`
u Nn = {i n, Xi? < T } et Nn+ = {i n, Xi? = T }. Elle est `a comparer avec la
vraisemblance du mod`ele sans censure, o`
u lon observe les Xi directement. Dans ce cas
Ln (, X1 , . . . , Xn ) = n exp
n
X
Xi .
i=1
D
efinition de lestimateur du maximum de vraisemblance
D
efinition 4.7. On appelle estimateur du maximum de vraisemblance tout estimateur
mv
b
n satisfaisant
Ln (bnmv , X1 , . . . , Xn ) = max Ln (, X1 , . . . , Xn ),
autrement dit
bnmv arg max Ln (, X1 , . . . , Xn ).
(4.18)
Lestimateur du maximum de vraisemblance peut ne pas exister. Il nest pas non plus
necessairement unique.
D
efinition 4.8. Lapplication
1
log Ln (, X1 , . . . , Xn )
n
n
1X
=
log f (, Xi ),
n
; `n (, X1 , . . . , Xn ) =
i=1
Avant de donner des exemples de calcul effectif destimateurs du maximum de vraisemblance, nous allons justifier la definition (4.18).
96
M
ethodes destimation en densit
e
(4.19)
i=1
i=1
cest-`
a-dire
n
o
Ln (1 , X1 , . . . , Xn ) > Ln (2 , X1 , . . . , Xn ) .
Dapr`es (4.19), nous pouvons faire linterpretation suivante :
A posteriori, la probabilite davoir observe (X1 , . . . , Xn ) est plus grande sous P1 que
sous P2 . Ceci nous sugg`ere de suspecter que la loi des observations est P1 plut
ot
que P2 : la valeur 1 est plus vraisemblable que 2 .
Si, pour la realisation de lobservation (X1 , . . . , Xn ) on a Ln (2 ) > Ln (1 ), alors on
fera la conclusion opposee : 2 est plus vraisemblable que 1 . On a donc maximise
la fonction de vraisemblance ; Ln (, X1 , . . . , Xn ) dans le cas tr`es simple o`
u ne peut
prendre que deux valeurs :
bnmv = 1 1
+ 2 1
97
i=1
par
P X1 V(x1 ), . . . , Xn V(xn ) =
n
Y
P Xi V(xi )
i=1
o`
u V(x) est un
dans la limite V(x) 0, o`
u V(x) designe le mesure de Lebesgue de V(x). Donc la
probabilite de levenement
n
o
X1 V(x1 ), . . . , Xn V(xn )
est essentiellement proportionnelle `a
on accepte lapproximation precedente).
Qn
i=1 f (, xi ),
Equations de vraisemblance
Si le maximum de ; Ln (), ou encore le maximum de ; `n () nest pas atteint
sur la fronti`ere de , et si lapplication ; Ln () est contin
ument differentiable, alors
une condition necessaire que doit satisfaire lestimateur du maximum de vraisemblance
bnmv est lannulation du gradient
Ln (, X1 , . . . , Xn )|=b mv = 0
n
98
M
ethodes destimation en densit
e
(4.20)
D
efinition 4.9 (Equations de vraisemblance). Lequation (4.20) est appelee equation de
vraisemblance si d = 1 et syst`eme dequations de vraisembance si d > 1.
En resolvant (4.20), on obtient tous les points critiques de ; `n (), en particulier,
tous ses maxima et minima locaux.
D
efinition 4.10. On appelle racine de lequation de vraisemblance tout (estimateur) bnrv
solution de (4.20), cest-`
a-dire tel que
`n (bnrv , X1 , . . . , Xn ) = 0.
Remarque 4.7. Supposons que pour tout , on a f (, x) > 0 (dx) presquepartout et ; f (, x) est differentiable, (dx) presque-partout. Alors, si ; `n ()
atteint son maximum global pour tous les tels que `n () = 0, alors les ensembles
qui definissent les solutions bnmv et bnrv concident.
Invariance du maximum de vraisemblance vis-`
a-vis de la mesure dominante
ese 4.1, il existe une mesure positive -finie sur R qui domine la famille
Sous lHypoth`
P , .
Cest le choix de qui specifie la famille de densites f (, ) sur laquelle est construite
la vraisemblance, et par suite lestimateur du maximum de vraisemblance.
Proposition 4.7. Lestimateur du maximum de vraisemblance ne depend pas du choix
de la mesure dominante dans le calcul de la vraisemblance.
Demonstration. Soit une autre mesure dominante. Les mesures et sont elles-memes
dominees par la mesure + , donc, pour toute fonction test ,
Z
Z
d P
(x) P (dx) =
(x)
(x)( + )(dx)
d(
+ )
R
ZR
d
d P
=
(x)
(x)
(x)( + )(dx)
d
d( + )
ZR
d P
d
=
(x)
(x)
(x)( + )(dx).
d
d( + )
R
P
P
Les densites dd
(x) et dd
(x) ne different que dun facteur multiplicatif qui ne depend pas
de (sauf eventuellement sur un ensemble ( + )-negligeable). Donc, presque-s
urement,
n
Y
d P
i=1
(Xi ) et
n
Y
d P
i=1
(Xi )
99
Len (, X1 , . . . , Xn ) = Ln (G1 ( ), X1 , . . . , Xn )
= Ln (, X1 , . . . , Xn )
Ln (b mv , X1 , . . . , Xn )
n
= Len (b
n , X1 , . . . , Xn ).
n
X
Xi ,
i=1
9. Noter que tous les Xi sont positifs P p.s., simultanement pour tous les , donc il est inutile
de faire apparatre la condition 1{Xi 0} dans la formule de la vraisemblance.
100
M
ethodes destimation en densit
e
Xn
2 /2
d2 = a2 (e 1)
2 /2
2
, a2 (e 1)
qui etablit une bijection de R R+ \{0}, on en deduit par equi-invariance du cas gaussien
que lestimateur du maximum de vraisemblance pour (a, d2 ) est
2
2
b
anmv , (db2n ) mv = eY n +sn /2 , (b
anmv )2 (esn 1) ,
P
P
o`
u Y n = n1 ni=1 Yi = n1 ni=1 log Xi et s2n = n1 (Yi Y n )2 .
4.4.2
Exemples de calcul
Exemple 4.11 (mod`ele gaussien standard). Lexperience statistique est engendree par
un n-echantillon de loi N (, 2 ), le param`etre est = (, 2 ) = R R+ \{0}. Une
mesure dominante est la mesure de Lebesgue sur R et on a alors
f (, x) = (2 2 )1/2 exp 21 2 (x )2
La log-vraisemblance associee secrit
2
`n (, ), X1 , . . . , Xn
n
n
1 X
2
= log(2 ) 2
(Xi )2 .
2
2
i=1
`n (, 2 ), X1 , . . . , Xn
n
1 X
(Xi )
2
i=1
n
1 X
(Xi )2 ,
2 `n (, ), X1 , . . . , Xn = 2 2 + 2 4
i=1
1X
bn = X n ,
(Xi X n )2 .
n
i=1
On verifie ensuite que le point critique est lunique maximum global et donc bnrv = bnmv .
101
n
Y
Xi (1 )1Xi
i=1
Pn
i=1
Xi
(1 )n
Pn
i=1
Xi
et la log-vraisemblance vaut
`n (, X1 , . . . , Xn ) = n X n log + n(1 X n ) log(1 ).
On a `n (, X1 , . . . , Xn ) = n X n 1 (n X n )(1 )1 = 0 si et seulement si = X n .
On verifie que = X n est un maximum global et donc bnmv = X n .
Exemple 4.13 (mod`ele de Laplace). Lexperience statistique est engendree par un nechantillon de loi de Laplace de param`etre = R, dont la densite par rapport `a la
mesure de Lebesgue est donnee par
f (, x) =
1
|x |
exp
,
2
o`
u > 0 est connu. La fonction de vraisemblance secrit
Ln (, X1 , . . . , Xn ) = (2)n exp
n
1 X
Xi
i=1
et la log-vraisemblance vaut
`n (, X1 , . . . , Xn ) = n log(2)
n
1 X
Xi .
i=1
n
X
Pn
i=1 Xi . Cette
sign(Xi ).
i=1
La derivee (definie presque partout) est constante par morceaux. Si n est impair, elle
sannule en un point unique X n+1 , o`
u X(1) . . . X(n) designe la statistique dordre
2
associee `
a lechantillon (voir Section 3.4.2 du Chapitre 3).
Si n est pair, il y a une infinite
de solutions : tout point de lintervalle X n , X n
est un estimateur du maximum
2
2 +1
102
M
ethodes destimation en densit
e
Exemple 4.14 (mod`ele uniforme). Lexperience statistique est engendree par un nechantillon de loi uniforme sur [0, ], o`
u = R+ \{0} est le param`etre. Une mesure
dominante est la mesure de Lebesgue et la densite de la loi uniforme est donnee par
f (, x) =
1
1
(x).
[0,]
i=1
n
1X(n) ,
o`
u X(n) = maxi=1,...,n Xi . La valeur maximale de Ln (, X1 , . . . , Xn ) est obtenue pour
= X(n) et donc bnmv = X(n) . Par contre, la fonction de log-vraisemblance nest pas
definie pour toutes les valeurs de et nest pas derivable.
Exemple 4.15 (mod`ele de Cauchy). Lexperience statistique est engendree par un nechantillon de loi de Cauchy de param`etre = R, dont la densite par rapport `
a la
mesure de Lebesgue sur R est donnee par
f (, x) =
1
.
1 + (x )2
n
Y
i=1
1
,
1 + (Xi )2
et la log-vraisemblance vaut
n
`n (, X1 , . . . , Xn ) = n log
1X
log 1 + (Xi )2 ,
n
i=1
Xi
= 0.
1 + (Xi )2
(4.21)
Cette equation nadmet pas de solution explicite et admet en general plusieurs solutions.
Nous verrons plus tard comment traiter le comportement asymptotique dune solution
de (4.21) de facon indirecte.
Exemple 4.16 (absence destimateur du maximum de vraisemblance). Considerons le
mod`ele de translation par rapport `a la densite
|x|
e 2
, x R,
f0 (x) = p
2 2|x|
103
Ln (, X1 , . . . , Xn ) =
f0 (Xi ).
i=1
4.4.3
Pr
eliminaire : une in
egalit
e de convexit
e
Lemme 4.4.1 (Inegalite dentropie). Soit une mesure -finie sur (R, B). Soient deux
densites de probabilite f, g : R R+ par rapport `
a , cest-`
a-dire verifiant
Z
Z
f (x)(dx) =
g(x)(dx) = 1.
R
Alors 10
Z
f (x) log f (x)(dx)
g(x)
(dx) 0.
f (x)
R
{x,f (x)=0}
(4.22)
104
M
ethodes destimation en densit
e
n
X
(a, Xi )
i=1
f (, x)
, , x R
f (, x)
Chapitre 5
M
ethodes destimation pour le
mod`
ele de r
egression
5.1
Mod`
eles de r
egression
5.1.1
Mod`
ele de r
egression `
a
design al
eatoire
(5.1)
106
M
ethodes destimation en r
egression
bruits ou innovations.
On note P = P (dx dy) la loi jointe des (X i , Yi ) definie sur Rk R et le but est
dinferer sur le param`etre . Lexperience statistique associee `a lobservation secrit :
n
n
(k+1)n
(k+1)n
Edesign-al
=
R
,
B
,
P
,
ea
o`
u Pn designe le produit des lois P effectue n-fois. Notons que puisque les (X i , Yi ) sont
independantes et equidistribuees, les i le sont aussi.
Remarque 5.1. Les variables i polluent lobservation de la fonction dinteret r(, )
aux points (X i , Yi ). En labsence des i reconstruire r(, ) et donc se ram`enerait `
a un
probl`eme dinterpolation numerique.
Hypoth`
ese 5.1 (Identifiabilite, design aleatoire ). Lapplication ; r(, ) est
injective. De plus, la loi des i admet un moment dordre 1 et les variables i verifient
E i | X i = 0.
(5.2)
5.1 Mod`
eles de r
egression
5.1.2
107
R
eduction au cas dun
design d
eterministe
(5.3)
Rn , B n , Pn , ,
o`
u Pn est la loi des Yi donnees par (5.3). Lhypoth`ese didentifiabilite devient
Hypoth`
ese 5.3 (Identifiabilite, design deterministe ). Lapplication ; r(, )
est injective. De plus, pour tout i = 1, . . . , n, les variables aleatoires i sont integrables et
En i = 0.
5.1.3
Calcul de la vraisemblance
de-
108
M
ethodes destimation en r
egression
Calcul de la loi de Yi
Nous faisons ici une hypoth`ese technique :
Hypoth`
ese 5.4. Les bruits i sont independants, identiquement distribues, et leur
loi commune P ne depend pas des xi et du param`etre .
Cette hypoth`ese est un peu superflue et nous nous en affranchirons dans certains
exemples. Elle a neanmoins lavantage de presenter des formules de calcul tr`es simples.
Proposition 5.1 (Loi des observations). Sous les Hypoth`eses 5.3 et 5.4, on a, pour toute
fonction test , et pour i = 1, . . . , n
Z
E (Yi ) =
z + r(, xi ) P (dz).
R
Si, de plus, la loi P des bruits admet une densite z ; g(z) par rapport a
` la
mesure de Lebesgue, on a, pour i = 1, . . . , n
Z
E (Yi ) =
(z)g z r(, xi ) dz.
R
En particulier, Yi admet une densite donnee par z ; g z r(, xi ) .
Demonstration. Les deux points de la proposition sont evidents : on a
E (Yi ) = E r(, xi ) + i
Z
=
z + r(, xi ) P (dz),
R
en appliquant la formule de la mesure image (1.1). Si, de plus, P admet une densite g,
cette derni`ere quantite secrit
Z
Z
z + r(, xi ) g(z)dz =
(z)g z r(, xi ) dz.
R
Remarque 5.4. LHypoth`ese 5.4 est superflue. Dans le cas general, si on note P,xi
la loi de , dependante de xi et , et si cette loi admet une densite z ; g(, xi , z) par
rapport `
a la mesure de Lebesgue, alors Yi aussi et sa densite est donnee par :
z ; g , xi , z r(, xi )
5.2 R
egression lin
eaire simple
109
Formule de vraisemblance
Les variables Yi etant independantes le calcul de leur loi jointe est immediat.
Proposition 5.2. Sous les Hypoth`eses 5.3, et 5.4, si la loi P des bruits admet une
densite z ; g(z) par rapport `
a la mesure de Lebesgue sur R, alors la loi de (Y1 , . . . , Yn )
admet une densite par rapport `
a la mesure de Lebesgue sur Rn donnee par
(z1 , . . . , zn ) ;
n
Y
g zi r(, xi ) .
i=1
Corollaire 5.1 (formule de vraisemblance). Sous les Hypoth`eses 5.3, et 5.4, si la loi P
des bruits admet une densite z ; g(z) par rapport `
a la mesure de Lebesgue sur R,
alors la vraisemblance par rapport `
a la mesure de Lebesgue sur Rn est donnee par
n
Y
Ln , Y1 , . . . , Yn =
g Yi r(, xi ) .
i=1
5.2
`a
R
egression lin
eaire simple
Pour les raisons invoquees plus haut, on se place desormais dans le mod`ele de regression
design deterministe.
5.2.1
Droite de r
egression
D
efinition 5.2. On appelle mod`ele lineaire simple lexperience statistique engendree par
les variables aleatoires Yi `
a valeurs dans R (et par le design (x1 , . . . , xn )), o`
u
Yi = 0 + 1 xi + i , i = 1, . . . , n
et
Le param`etre inconnu est = (0 , 1 )T = R2 .
110
Les
M
ethodes destimation en r
egression
bruits i satisfont
E i = 0, Var i2 = 2 > 0.
i=1
n
X
2
2
mc
b
Yi r(n , xi ) = min
Yi r(, xi ) ,
R2
i=1
i=1
o`
u linfimum est pris sur lensemble des estimateurs possibles de construits `
a partir des
observations Yi , i = 1, . . . , n.
mc ,
b mc T , avec
Proposition 5.3. On a bnmc = bn,0
n,1
mc
mc
bn,0
= Y n bn,1
xn ,
et
mc
bn,1
Pn
=
=
o`
u xn =
1
n
Pn
i=1 xi
(x xn )(Yi Y n )
i=1
Pni
(xi xn )2
Pn i=1
Pn
xi (Yi Y n )
(xi xn )Yi
i=1
Pn
= Pi=1
,
n
2
2
i=1 (xi xn )
i=1 (xi xn )
et Y n =
1
n
Pn
i=1 Yi .
5.2 R
egression lin
eaire simple
111
n
X
2
Yi 0 1 xi .
i=1
On a
P
0 Ln (0 , 1 ) = 2 Pni=1 (Yi 0 1 xi )
1 Ln (0 , 1 ) = 2 ni=1 xi (Yi 0 1 xi ),
et donc Ln (0 , 1 ) = 0 si et seulement si
Pn
P
Pi=1 Yi + n0 +
1 ni=1 xi P
= 0
P
ni=1 xi Yi + 0 ni=1 xi + 1 ni=1 x2i = 0,
mc ,
b mc par substitution.
ce qui fournit 0 = Y n 1 xn en isolant 0 , puis (0 , 1 ) = bn,0
n,1
La fonction Ln est quadratique et tend vers + en linfini, lunique point critique est
bien un minimum global.
bn2 =
n =
Yi r(bnmc , xi ) ,
n
n
i=1
i=1
mais les variables aleatoires bn2 ne sont pas independantes, puisque bnmc fait intervenir
toutes les variables Yi .
Le resultat suivant donne le comportement de la moyenne et de la variance de b mc .
n
Proposition 5.4. Dans le mod`ele de regression lineaire simple, lestimateur des moindres
carres bnmc verifie
T
E bnmc = 0 , 1 ,
et la matrice de variance-covariance de bnmc est donnee par
n
1X 2
xi xn
mc
mc
2
n i=1
mc
T
b
b
b
n
= E (n )(n ) = 2
,
nsn
xn
1
o`
u
s2n
1X
=
(xi xn )2 .
n
i=1
112
M
ethodes destimation en r
egression
Demonstration. Comme pour la preuve de la Proposition 5.3 on peut appliquer en anticipant la Proposition 5.8 ou bien demontrer le resultat directement.
Remarque 5.5. Sans hypoth`ese supplementaire sur la loi des innovations, il est difficile
de preciser ces resultats.
5.2.2
Moindres carr
es et maximum de vraisemblance
bruits i
Sous cette hypoth`ese forte qui renforce lHypoth`ese 5.4, lestimateur du maximum de
vraisemblance fournit un estimateur du param`etre (0 , 1 , 2 ) dont les deux premi`eres
composantes concident avec lestimateur des moindres carres de la Proposition 5.3.
Proposition 5.5. Sous lHypoth`ese 5.5, lestimateur du maximum de vraisemblance
mv b mv
bnmv = bn,0
, n,1 ,
bn2
bn2 =
1 X b 2
i , o`
u bi = Yi r(bnmc , xi ).
n
i=1
On a
2 `n (0 , 1 , 2 , Y1 , . . . , Yn ) =
n
n
1 X
+
(Yi 0 1 xi )2
2 2 2 4
i=1
5.3 R
egression lin
eaire multiple
113
2 =
1X
(Yi 0 1 xi )2 .
n
i=1
5.3
5.3.1
R
egression lin
eaire multiple
Mod`
ele lin
eaire
avec
Yi = T xi +i , i = 1, . . . , n
(5.4)
o`
u les Yi sont `
a valeurs dans R, les variables explicatives xi sont `a valeurs dans Rk ,
et le param`etre = Rd est k-dimensionnel, cest-`a-dire d = k. Matriciellement, si
lon designe par M la matrice dont les colonnes sont les composantes des vecteurs xi ,
cest-`a-dire, si lon note xi = (xi,1 , . . . , xi,k )T ,
M=
(5.5)
o`
u Y = (Y1 , . . . , Yn )T et = (1 , . . . , n )T . Comme pour le mod`ele de regression lineaire
simple, nous faisons une hypoth`ese sur le bruit :
E = 0, E T = 2 Idn .
(5.6)
114
5.3.2
M
ethodes destimation en r
egression
Yi (bnmc )T xi
2
= min
n
X
i=1
Yi T xi
2
i=1
Il existe toujours une solution `a ce probl`eme de minimisation mais elle nest pas necessairement
unique.
D
efinition 5.5. On appelle estimateur des moindres carres tout estimateur bnmc satisfaisant
n
X
2
bnmc arg min
Yi T xi .
Rk
i=1
Une condition suffisante dunicite de lestimateur des moindres carres est la suivante :
Proposition 5.6. On suppose la matrice MT M inversible. Alors lestimateur des moindres
carres est unique et secrit
1 T
bnmc = MT M
M Y.
Nous donnons deux preuves et deux interpretations de ce resultat :
M
ethode analytique
Demonstration. Le point bnmc est necessairement un point critique de lapplication
; h() =
n
X
Yi T xi
2
i=1
cest-`
a-dire il est solution du syst`eme de k equations
j h bnmc = 0,
j = 1, . . . , k,
ce qui secrit
2
n
X
xi Yi bnmc
T
xi = 0
i=1
(5.7)
5.3 R
egression lin
eaire multiple
115
Lequation (5.7) est un syst`eme de k equations qui a une solution unique d`es lors que
MT M est inversible, donnee par
1 T
bnmc = MT M
M Y.
La fonction ; h() est convexe et positive, donc la solution bnmc est un minimum
global.
D
efinition 5.6. Lequation (5.7) est appelee syst`eme dequations normales pour la methode
des moindres carres.
Proposition 5.7. La matrice MT M est (symetrique) positive. Elle est definie positive
si et seulement si rang(M) = k.
Demonstration. On a, pour v Rk
v T MT M v = w T w 0
o`
u lon a pose implicitement w = M v. Le cas degalite est verifie si et seulement si
w = 0, cest-`
a-dire, M v = 0. Si rang(M) < k, alors il existe v 6= 0 tel que M v = 0 et
dans ce cas, MT M nest pas strictement positive. Reciproquement,
si MT M nest pas
strictement positive, alors il existe v 6= 0 tel que v T MT M v = 0, et donc M v = 0 do`
u
rang(M) < k.
Remarque 5.6. En consequence, si la taille de lechantillon est plus petite que la
dimension du param`etre , cest-`
a-dire si n < k, la matrice MT M est degeneree.
M
ethode g
eom
etrique
Deuxi`eme demonstration de la Proposition 5.6. Soit V limage de Rn par lapplication
lineaire de Rn dans Rk de matrice M, cest-`a-dire
V = v Rn , v = M , Rk .
Alors, pour tout y Rn ,
min ky M k2 = min ky vk2 ,
Rk
vV
o`
u kvk2 = v T v designe le carre de la norme euclidienne. Notons que M est de rang k si
et seulement si la dimension de V est k. Dapr`es la Proposition 5.7, puisque MT M est
supposee inversible, on a bien dim V = k. Alors, si PV designe la matrice du projecteur
orthogonal sur V dans Rn , on a rang(PV ) = k et lestimateur des moindres carres verifie
M bnmc = PV Y,
(5.8)
116
M
ethodes destimation en r
egression
o`
u, pour u, v R , on note hu, vi = uT v le produit scalaire euclidien. En appliquant
(5.8), lequation precedente secrit encore pour tout v V
hM bnmc , vi = hY, vi,
cest-`
a-dire, pour tout Rk
hM bnmc , M i = hY, M i,
soit, pour tout Rk
5.3.3
Propri
et
es de la m
ethode des moindres carr
es
satisfait (5.6).
5.3 R
egression lin
eaire multiple
117
bn2
n
T 2
kY M bnmc k2
1 X
=
=
Yi bnmc xi
nk
nk
i=1
verifie
2
E
bn = 2 .
Demonstration. On a la decomposition
Y M bnmc = M( bnmc ) +
1 T
= M MT M
M +
= (In PV ),
o`
u V Rn est limage de Rk par lapplication lineaire de matrice M comme precedemment.
Par consequent
T
E kY M bnmc k2 = E T In PV
In PV
2
= E T In PV
= E T In PV ,
o`
u lon utilise le fait que la matrice In PV est symetrique et idempotente. Il vient
E T In PV = E trace T In PV
= E trace In PV T
= trace In PV E T
= 2 (n k).
5.3.4
R
egression lin
eaire multiple gaussienne
118
M
ethodes destimation en r
egression
(i) lestimateur des moindres carres bnmc est un vecteur gaussien k-dimensionnel de
1
moyenne et de matrice de variance-covariance 2 MT M
,
(ii) les vecteurs aleatoires bnmc et Y M bnmc sont independants (et de meme, les
vecteurs aleatoires M(bnmc ) et Y M bnmc sont independants),
(iii) la variable aleatoire 2 kY M bnmc k2 suit la loi 2 (n k) du 2 `
a n k degres
de liberte, et 2 k M(b mc )k2 suit la loi 2 (k) du 2 `
a k degres de liberte.
n
1 T
car PV secrit PV = M MT M
M . Donc bnmc et Y M bnmc sont independants, et
par suite M(bnmc ) et Y M bnmc sont independants.
Le point (iii) est une application de la Proposition 1.1 (Cochran) : le vecteur 0 = 1
est gaussien de matrice de variance-covariance lidentite sur Rn . De plus
Y M bnmc = (Idn PV ) 0 ,
M(bnmc ) = PV 0
a
` distance finie .
5.4 R
egression non-lin
eaire
119
Ceci nest plus vrai si la loi des innovations nest pas gaussienne. Dans ce cas, on essaye
de se ramener au cas gaussien par des arguments asymptotiques.
Par exemple, dans le cas le plus simple o`
u lon observe
Yi = + i , i = 1, . . . , m
o`
u les innovations i sont independantes, identiquement distribuees mais pas necessairement
gaussiennes de moyenne 0 et de variance 2 > 0 et = R. Alors, on observe aussi
Y m = + e(m) ,
m
o`
u e(m) =
1
m
Pm
i=1 i
d
central limite, dans le sens o`
u e(m) N (0, 1) dans la limite m . On est donc ramene
au cas de la regression gaussienne, mais dans un cadre degenere : ici, on a k = d = 1,
2
M = 1 et 2 = m et n = 1 (une seule observation). Le cas dune dimension plus
grande et dun design non-degenere est plus delicat `a traiter : on peut chercher `a
regrouper les observations en faisant des moyennes, de sorte de se ramener au cas
gaussien via le theor`eme central-limite. Nous ne developpons pas ce point.
En conclusion, lobtention de lois explicites pour lestimateur des moindres carres dans
un cadre non-asymptotique est un fait remarquable, mais `a considerer avec precaution
du point de vue de la modelisation : lhypoth`ese de gaussianite sur les innovations est en
fait elle-meme de nature asymptotique.
5.4
5.4.1
R
egression non-lin
eaire
Moindres carr
es non-lin
eaires et M -estimation
Situation
On se place dans le contexte general de la Section 5.1.2. On fait lHypoth`ese 5.3 et
on observe
(x1 , Y1 , . . . , xn , Yn ),
o`
u
Yi = r(, xi ) + i , i = 1, . . . , n,
(5.9)
o`
u les xi Rk sont donnes et Rd est le param`etre inconnu. Contrairement `a la
section precedente, on ne suppose plus r(, ) lineaire, et il ny a donc plus de raison de
supposer d = k.
120
M
ethodes destimation en r
egression
Dans le cas du mod`ele lineaire de la Section 5.2, si lon postule la forme r(, x) = T x
avec d = k, on retrouve aussi lestimateur des moindres carres. De mani`ere generale, sans
hypoth`ese particuli`ere sur les innovations , on peut poser la definition
D
efinition 5.7 (Estimateur des moindres carres non-lineaires). Etant donne le mod`ele
de regression non-lineaire (5.9), on appelle estimateur des moindres carres non-lineaires,
sil existe, tout estimateur bnmcnl satisfaisant
n
X
n
X
2
2
Yi r(bnmcnl , xi ) = inf
Yi r(, xi ) .
i=1
i=1
(bn , xi , Yi ) = max
n
X
(, xi , Yi ).
i=1
5.4 R
egression non-lin
eaire
5.4.2
121
i = 1, . . . , n
o`
u les i = i sont independants et identiquement distribues, centres et E 2i = 1. La
fonction r(, ) est connue
au param`etre Rd pr`es. Ici, le design est donc
1/n, . . . , (n 1)/n, 1 .
On suppose que la fonction (, x) ; r(, x) est reguli`ere. En particulier, x ; r(, x)
est au moins continue. Lestimateur des moindres carres non-lineaires, sil est bien defini,
verifie
n
X
2
bnmcnl = arg min
Yi r(, i/n) .
i=1
Indiquons bri`evement comment generaliser les resultats de la Section 4.3.3 sans faire
dhypoth`eses precises.
Consistance
Posons, pour a R (traitons le cas unidimensionnel pour simplifier),
n
2
1X
Yi r(a, i/n) .
Mn (a) =
n
i=1
On ecrit
n
2
1X
Mn (a) =
i + r(, i/n) r(a, i/n)
n
i=1
n
n
n
2 2 X
1X
2 X
r(, i/n) r(a, i/n) +
2i
r(, i/n) r(a, i/n) i ,
=
n
n
n
i=1
i=1
i=1
o`
u la loi des i sous P est centree et reduite. Par continuite de x ; r(, x), on a la
convergence
n
2
1X
r(, i/n) r(a, i/n)
n
i=1
2
r(, x) r(a, x) dx.
122
M
ethodes destimation en r
egression
Donc
P
Mn (a)
M (a, ) =
2
r(, x) r(a, x) dx + 2 .
La suite de letude consiste `a faire des hypoth`eses didentifiabilite adequates sur la fonction (, x) ; r(, x), de sorte que a ; M (a, ) admette un minimum unique en a = ,
et on peut alors generaliser la Proposition 4.3, mais une telle etude depasse un peu le
cadre du cours.
nMn0 ()
mcnl
b
n(n )
.
Mn00 ()
On a
nMn0 ()
2 X
=
Yi r(, i/n) r(, i/n)
n
i=1
n
2 X
i r(, i/n),
=
n
i=1
do`
u
E
nMn0 () = 0,
et
n
4 2 X
E nMn0 ()2 =
r(, i/n)2 2i
n
i=1
Z 1
4 2
r(, x)2 dx.
0
(5.10)
5.4 R
egression non-lin
eaire
123
1/2 (n)
d
En re-ecrivant nMn0 () = E nMn0 ()2
, on peut montrer 3 que (n) N (0, 1)
en loi sous P . On a aussi
n
2X
r(, i/n)2 + i 2 r(, i/n)
n
i=1
Z 1
P
2
r(, x)2 dx.
Mn00 () =
2
n bnmcnl N 0, R 1
.
2
0 r(, x) dx
5.4.3
Mod`
ele de Poisson conditionnel
On observe
(x1 , Y1 ), . . . , (xn , Yn )
o`
u les xi Rk sont donnes et les Yi `a valeurs enti`eres. On suppose que Yi suit la loi de
Poisson de param`etre
i () = exp xTi , i = 1, . . . , n
o`
u = Rk est le param`etre inconnu.
Si lon consid`ere le mod`ele de regression `a design aleatoire associe, alors on observe
un n-echantillon
(X 1 , Y1 ), . . . , (X n , Yn )
o`
u les (X i , Yi ) ont la meme loi que (X, Y ) Rk R. La loi de (X, Y ) est decrite de la
4 `
facon suivante : conditionnellement
a X = x, la variable Y suit une loi de Poisson de
T
param`etre exp x . Puis, on doit specifier 5 la loi de X. En ecrivant
Yi = exp xTi + Yi exp xTi ,
on obtient bien la representation Yi = r(, xi ) + i , avec
r(, xi ) = exp xTi
et
i = Yi exp xTi .
3. Il faut disposer dun theor`eme central-limite pour des variables aleatoires independantes nonequidistribuees.
4. Do`
u la terminologie de mod`ele de Poisson conditionnel.
5. Ce que nous ne ferons jamais ; nous supposerons simplement que la loi de X ne depend pas de .
124
M
ethodes destimation en r
egression
On a bien E i = 0 en utilisant que lesperance dune variable aleatoire de Poisson de
param`etre est egale `
a . La vraisemblance du mod`ele secrit
Ln (, Y1 , . . . , Yn ) =
n
Y
ei ()
i=1
do`
u
log Ln (, Y1 , . . . , Yn ) =
n
X
i ()Yi
Yi !
n
n
X
X
exp xTi +
Yi xTi
log(Yi !),
i=1
i=1
i=1
n
X
n
X
xij exp xTi +
Yi xij = 0,
i=1
5.4.4
j = 1, . . . , k.
i=1
Mod`
eles `
a r
eponse binaire
Contexte g
en
eral
Tr`es utilises en pratique, les mod`eles binaires correspondent `a lobservation de
(x1 , Y1 ), . . . , (xn , Yn )
o`
u xi Rk est un ensemble de caracteristiques de lindividu i qui est de type Yi {0, 1}.
Par souci dhomogeneite avec la litterature, on se place sans perdre de generalite
dans le mod`ele `
a design aleatoire correspondant, cest-`a-dire que lon consid`ere les
xi comme des realisations de variables aleatoires X i . En ecrivant
Yi = pxi () + Yi pxi () ,
avec
pxi () = E Yi | X i = xi = P Yi = 1 | X i = xi ,
on obtient la representation
Yi = r(, xi ) + i ,
avec
r(, xi ) = pxi ()
et
i = Yi pxi (),
et on a bien E i | X i = xi = 0.
5.4 R
egression non-lin
eaire
125
R
egression logistique
La regression logistique correspond `a la modelisation
exp xTi
= xTi ,
pxi () =
T
1 + exp xi
o`
u (x) = ex /(1 + ex ) est la fonction logistique.
En particulier, on peut expliciter la vraisemblance du mod`ele
Ln (, Y1 , . . . , Yn ) =
n
Y
1Yi
i=1
Yi = 1
Yi? >0
(5.11)
o`
u les Yi sont des variables latentes, cest-`a-dire que lon nobserve pas, et Ui est une
variable ayant pour fonction de repartition
F (x) =
1
.
1 + ex
En effet,
P Yi? > 0 | X i = xi = P xTi + Ui > 0 | X i = xi
= 1 P Ui xTi
= 1 F xTi
exp xTi
.
=
1 + exp xTi
Mod`
eles Probit
Le mod`ele probit est proche de la regression logistique. Il sagit simplement de remplacer dans la representation (5.11) la variable Ui qui a pour fonction de repartition
F (x) = 1/(1 + ex ) par une variable aleatoire Ui gaussienne, centree.
Loi logistique et
odd-ratios
126
M
ethodes destimation en r
egression
xi
cest-`
a-dire xi prive de sa j-i`eme composante. Posons
(j)
(j)
P Yi = 1 | X i
= xi , Xj = 1
Ri (Xj = 1) =
(j)
(j)
P Yi = 0 | X i
= xi , Xj = 1
et
(j)
(j)
P Yi = 1 | X i
= xi , Xj = 0
Ri (Xj = 0) =
.
(j)
(j)
P Yi = 0 | X i
= xi , Xj = 0
Alors, on a
Ri (Xj = 1)
exp j xij =
.
Ri (Xj = 0)
Cette identite peut sinterpreter de la mani`ere suivante : le coefficient exp j xij est egal
au rapport des risques correspondant `a Xj = 1 et Xj = 0. Ce rapport est independant
(j)
de la valeur de xi .
Chapitre 6
Information et th
eorie
asymptotique
6.1
Introduction
Situation
Nous nous placons dans le contexte des deux chapitres precedents : on cherche `a
estimer un param`etre d -dimensionnel Rd dans les deux situations suivantes
1. Pour le mod`ele de la densite, on observe un n-echantillon
(X1 , . . . , Xn )
de variables
aleatoires
reelles. Les Xi suivent la loi P parmi une famille de probabilites P , donnees.
2. Pour le mod`ele de regression `a design deterministe , on observe n vecteurs de
donnees
(x1 , Y1 ), . . . , (xn , Yn )
admettant la representation
Yi = r(, xi ) + i , i = 1, . . . , n.
La forme de la fonction de regression r(, ) est connue au param`etre pr`es, et
les i sont des innovations ou des bruits centres sur lesquels on fait un jeu
dhypoth`eses.
En forcant un peu le trait, nous pouvons resumer les methodes destimation des chapitres precedents `
a la construction destimateurs bases sur la maximisation dun crit`ere :
pour la densite,
n
X
bn arg max
(, Xi ),
i=1
128
Information statistique et th
eorie asymptotique
o`
u
:RR
est la fonction de constraste definissant lestimateur. Elle est choisie par le statisticien.
Pour la regression `
a design deterministe,
bn arg max
n
X
(, xi , Yi ),
i=1
o`
u maintenant la fonction de contraste
: Rk R R
prend aussi comme argument les valeurs des points du
design observes xi .
n bn N 0, v ()
(6.1)
o`
u v () > 0 est la variance asymptotique de lestimateur, qui depend en general de
et bien s
ur du choix de la fonction de contraste .
La version multidimensionnelle de (6.1) secrit
d
n bn N 0, V ()
(6.2)
vers une loi non-degeneree 1 avec la normalisation n implique que si lon choisit
une autre normalisation n , alors lerreur normalisee
n (bn )
explose 2
si n / n .
1. Cest-`
a-dire une loi gaussienne de variance finie v () non nulle ou de matrice de variance-covariance
V () non singuli`ere.
bn )| M > 0.
2. Dans le sens suivant : M > 0, lim inf n P |n (
129
n est gaussienne, de
Ces deux informations apparaissent `a deux niveaux compl`etement differents, mais sont
de meme importance et guideront les questions que nous aborderons dans ce chapitre :
la vitesse destimation n = n est-elle optimale ? Dans quel sens ? Quelles conditions simples sur la famille de lois {P , } garantissent cette optimalite ? Sinon,
quelles vitesses peut-on trouver en general ?
au sein dune classe destimateurs satisfaisant (6.1) (ou (6.2) dans le cas o`
u le
param`etre est multidimensionnel), comment choisir un membre optimal, et dans
quel sens ? Par exemple, comment choisir la meilleure fonction ?
Un programme ainsi enonce est trop ambitieux. Nous donnerons neanmoins des
elements de reponse `
a chacune
enoncees ci-dessus. Sous des hypoth`eses
des questions
de regularite sur la famille P , , on peut definir une quantite dinformation
linformation de Fisher associee `a lexperience statistique. Lestimateur du maximum de vraisemblance est asymptotiquement normal de variance linverse de linformation de Fisher. Cette variance est minimale parmi la classe des Z-estimateurs (ou
M -estimateurs reguliers) et ce resultat nous fournira une notion doptimalite associee
aux mod`eles reguliers.
Ce nest que le premier pas vers une theorie plus generale de lestimation optimale
dans les mod`eles dits reguliers, qui depasse le cadre de ce cours. Pour des developpements
plus complets, on pourra consulter V. Genon-Catalot et D. Picard [2] ou van der Vaart
[10].
6.2
Comparaison destimateurs
n
1, on se donne E une suite dexperiences associee `a la famille de probabilites
nPour n
P , .
d
n bn,j N 0, vj () j = 1, 2
vj ()
n,j ,
n
130
Information statistique et th
eorie asymptotique
o`
u
(6.3)
6.2.1
et donc le risque quadratique permet de controler au moins grossi`erement la probabilite que la precision de bn soit inferieure ou egale `a un niveau > 0 donne. En particulier,
si
R(bn , ) 0
alors
P
bn
.
131
Notion dadmissibilit
e
Etant donne une (suite d) experience(s) E n , existe-t-il un estimateur b?n optimal au
sens de la Definition 6.2, cest-`
a-dire verifiant
, R(b?n , ) inf R(bn , ) ?
(6.4)
bn
La reponse est negative : prenons par exemple lexperience engendree par lobservation
dun n-echantillon de loi N (, 2 ), avec = R et 2 connu. Lestimateur du maximum de vraisemblance est
b mv = X n .
n
2
et R(bn , ) = 2 .
n
La situation generale est pire ! Meme si se reduit `a deux points distincts, quelle
que soit lexperience statistique, on ne peut pas construire destimateur optimal au sens
de (6.4). Voir pour cela lExercice 6.1. La notion doptimalite au sens naf de (6.4) est
impossible `
a realiser.
On peut neanmoins aborder la notion de comparaison sous un angle plus faible : cest
la notion defficacite et dadmissibilite.
D
efinition 6.3 (Efficacite). Si bn,1 est preferable `
a bn,2 pour le risque quadratique en
tout point et sil existe un point e pour lequel on a
e < R(bn,2 , ),
e
R(bn,1 , )
on dit que bn,1 est plus efficace que bn,2 et que bn,2 est inadmissible.
On en deduit une notion (faible) doptimalite :
D
efinition 6.4 (Admissibilite). Lestimateur bn est admissible sil nexiste pas destimateur plus efficace que bn .
132
Information statistique et th
eorie asymptotique
Optimalit
e sur une classe destimateurs
Une autre mani`ere de contourner le probl`eme de labsence doptimalite au sens (6.4)
consiste `
a restreindre la classe des estimateurs, de sorte que des estimateurs absurdes
soient elimines doffice. Pour cela, on part de la constatation suivante :
Proposition 6.1 (Structure du risque quadratique). Pour tout estimateur bn et tout
, on a la decomposition
2
R(bn , ) = E bn + Var bn = biais2 + variance.
D
efinition 6.5. On dit que bn est sans biais, respectivement asymptotiquement sans
biais, si
, E bn = ,
respectivement limn E bn = .
Une approche classique de la litterature statistique (un peu depassee aujourdhui)
consiste `
a realiser le programme suivant : parmi les estimateurs sans biais, chercher
ceux de variance minimale. Un fait remarquable est que dans certaines situations, un tel
programme est realisable, voir lExercice 6.3. Cependant, cette approche reste limitee et
nous ne la developperons pas dans ce cours car :
les estimateurs sans biais napparaissent que dans des situations assez particuli`eres.
meme pour les experiences statistiques admettant des estimateurs sans biais, on
peut presque toujours construire des estimateurs biaises plus efficaces, comme le
montre lexemple suivant dans un cas simple.
Exemple 6.1. Dans le mod`ele engendre par lobservation dun n-echantillon de loi
N (, 2 ), avec (, 2 ) R R+ \{0}, on sinteresse au param`etre = 2 . On suppose
n 2. Considerons les estimateurs
n
i=1
i=1
2
2
1X
1 X
bn,1 =
Xi X n , et bn,2 =
Xi X n .
n
n1
1 2 . En cons
Alors E bn,1 = n1
equence, le biais de bn,1 vaut 2 n1 et
n = n
bn,1 est biaise. Par contre, E bn,2 = 2 = et bn,2 est sans biais. Par ailleurs,
2
n
2 4
Var bn,2 =
, Var bn,1 =
.
n1
n1
On en deduit
R(bn,1 , ) =
2
n
2
et
R(bn,2 , ) =
+2
n 1 4 2n 1 4
=
n2
n2
2 4
> R(bn,1 , )
n1
133
pour tout . Donc bn,1 est plus efficace que bn,2 . Lestimateur sans biais est inadmissible.
Cependant, lExemple 6.1 nest pas tout `a fait honnete : la difference entre bn,1 et
b
n,2 sestompe lorsque n grandit, au sens o`
u
Rn (bn,1 , )
= 1.
n R(
bn,2 , )
lim
6.2.2
n bn N 0, v()
(6.5)
Supposons que la convergence ait aussi lieu en passant au carre et en prenant lesperance,
cest-`a-dire
lim nR(bn , ) = v().
(6.6)
n
134
Information statistique et th
eorie asymptotique
D
efinition 6.7 (Risque minimax). Le risque dun estimateur bn sur lensemble des
param`etres est
R(bn | ) = sup R(bn , ).
Un estimateur b?n est asymptotiquement optimal au sens minimax pour le risque quadratique si
R(b?n | )
lim sup
1,
bn | )
n inf b R(
n
o`
u linfimum est pris sur lensemble de tous les estimateurs.
Remarque 6.1. Loptimalite asymptotique au sens minimax se generalise immediatement `
a dautres fonctions de perte que la perte quadratique. Elle est couramment utilisee
lorsque lensemble des param`etres est de grande dimension, et en particulier en estimation
non-parametrique.
Nous terminons cette section en presentant des conditions simples qui permettent de
passer de (6.5) `
a (6.6). A quelle condition simple la convergence en loi (6.5) entrane-telle une convergence de type (6.6) ? Plus generalement si Zn est une suite de variables
aleatoires reelles telle que
d
Zn Z,
peut-on avoir
lim E g(Zn ) = E g(Z)
pour une fonction g continue non-bornee ? Si g est bornee, cest la definition meme de
la convergence en loi. Dans le cas o`
u g est non-bornee, il faut invoquer une propriete
duniforme integrabilite sur la suite Zn .
d
135
donc (iii) implique (i). De meme, la condition (ii) entrane clairement la condition (i).
Supposons (i). Alors, on ecrit
Z +
P |g(Zn )| x dx.
E |g(Zn )| =
0
d
6.2.3
j R(b(j)
n , j )
j=1
de sorte que tous les j soient positifs. En particulier, pour j = 1 pour tout j, on a
d
X
2
b
j R(b(j)
n , j ) = E k n k ,
j=1
o`
u kk designe la norme euclidienne sur Rd . Pour cela, on a besoin dune notion de
dispersion dans Rd .
136
Information statistique et th
eorie asymptotique
D
efinition 6.8. Si Z1 et Z2 sont deux vecteurs
aleatoires `
a valeurs dans Rd ayant
des moments dordre deux (cest-`
a-dire E kZi k2 < + pour i = 1, 2), on dit que la
dispersion de Z1 autour de Rd est plus petite que la dispersion de Z2 si, pour tout
v Rd , on a
E hZ1 , vi2 E hZ2 , vi2 ,
(6.8)
Pd
o`
u hu, vi = i=1 ui vi designe le produit scalaire euclidien sur Rd .
Si = E Z1 = E Z2 , linegalite (6.8) exprime le fait que la variance de Z1 dans
nimporte quelle direction v est plus grande que la variance de Z2 dans cette meme
direction.
Si (Zi ) designe la matrice de variance-covariance de Zi pour i = 1, 2, la relation
(6.8) se traduit pour = 0 par
d
X
j,k=1
(Z1 )jk vj vk
d
X
(Z2 )jk vj vk , v Rd ,
j,k=1
cest-`
a-dire la matrice (Z2 ) (Z1 ) est positive. Ceci nous fournit, de la meme facon
quen dimension 1, une r`egle de selection non-asymptotique.
D
efinition 6.9. Un estimateur bn,1 du param`etre Rd est preferable `
a bn,2 pour
le risque quadratique au point si la dispersion de bn,1 autour de est plus petite que
celle de bn,2 .
En consequence, si i () = (bn,i ) est la matrice de variance-covariance du
vecteur bn,i pour i = 1, 2, dire que bn,1 est preferable `a bn,2 implique que la matrice
1 () 2 () est positive.
On peut de meme donner la r`egle de comparaison asymptotique suivante
D
efinition 6.10. Soit vn > 0 une suite telle que limn = +. Si bn,1 et bn,1 sont
deux suites destimateurs tels que
d
vn bn,i Zi ,
pour i = 1, 2, o`
u les variables Zi sont centrees et de carre integrable, on dit que bn,1 est
asymptotiquement preferable `
a bn,2 au point si la dispersion de Z1 autour de 0 est plus
petite que celle de Z2 .
6.3 Mod`
eles r
eguliers
6.3
6.3.1
137
Mod`
eles r
eguliers
Information de Fisher
Situation
Dans toute la suite, on se placera dans le mod`ele de la densite : on consid`ere une suite
dexperience E n engendree par lobservation dun n-echantillon
(X1 , . . . , Xn )
o`
u la loi P des variables aleatoires Xi appartient `a une famille donnee de probabilites
sur R
{P , }
dominee par une mesure -finie 3 sur R. On note
f (, x) =
d P
(x),
d
, x R
Z
(x) P (dx) =
(x)f (, x)(dx)
R
138
Information statistique et th
eorie asymptotique
D
efinition 6.12 (Information de Fisher). Si ; `(, x) est derivable (dx)-presque
partout, on appelle information de Fisher de la famille {P , } au point la
quantite
Z
2
2
I() =
`(, x) f (, x)(dx) = E `(, X) .
R
On a, pour tout ,
Z
I() =
{x, f (,x)>0}
2
f (, x)
(dx),
f (, x)
et aussi
0 I() +,
les cas interessants etant ceux pour lesquels on a
0 < I() < +.
Origine de linformation de Fisher
Linformation de Fisher apparat naturellement comme la variance limite de lestimateur du maximum de vraisemblance, sous des hypoth`eses suffisantes de regularite sur
{f (, ), }. Cela signifie que lon a
d
1
mv
b
.
(6.9)
n n N 0,
I()
Donnons immediatement lheuristique de ce resultat, sans nous soucier des hypoth`eses,
que nous preciserons plus loin. Nous allons essentiellement repeter la preuve de la Proposition 4.5 du Chapitre 4 dans ce contexte particulier. Dapr`es lequation (4.20) du
Chapitre 4, lestimateur bnmv satisfait
`n ()|=b mv = 0,
n
o`
u
`n () =
n
X
`(, Xi ) =
i=1
n
X
log f (, Xi )
i=1
est la log-vraisemblance associee `a la famille P , . Au voisinage de bnmv , on a, `
a
lordre 1,
0 = `n ()|=b mv `n () + bnmv 2 `n ().
n
En divisant par
2 `n ()
et en multipliant par
1 ,
n
on obtient lapproximation
n1/2 `n ()
n bnmv
.
n1 2 `n ()
6.3 Mod`
eles r
eguliers
139
1 X
n1/2 `n () =
log f (, Xi ).
n
i=1
et
2 `n ()
1X 2
=
log f (, Xi ).
n
i=1
Sous des conditions dintegrabilite suffisantes, le denominateur converge par la loi des
grands nombres vers
E 2 log f (, X)
en probabilite. Le comportement du numerateur 1n `n () est moins evident. Nous
allons dabord enoncer un lemme fondamental sur lequel nous reviendrons plus tard.
Lemme 6.3.1. Sous des hypoth`eses de regularite adequates, on a
E log f (, X) = 0.
Demonstration. Justifions formellement ce resultat : on a
Z
E log f (, X) =
log f (, x) f (, x)(dx)
R
Z
f (, x)
=
f (, x)(dx)
R f (, x)
Z
=
f (, x)(dx)
RZ
=
f (, x)(dx) = 1 = 0.
R
On a aussi
les calculs
2
R f (, x)(dx)
I() = E
2
log f (, X)
= E 2 log f (, X .
(6.10)
Revenons `
a letude du numerateur 1n `n (). Dapr`es le Lemme 6.3.1, les variables
aleatoires log f (, Xi ) sont independantes, centrees, de variance I(). Dapr`es le theor`eme
central-limite, on a la convergence
n
1 X
d
log f (, Xi ) N 0, I() .
n
i=1
140
Information statistique et th
eorie asymptotique
1
mv
,
n bn N 0,
I()
et nous pouvons donc interpreter I() comme linverse de la variance asymptotique de
lestimateur du maximum de vraisemblance.
La suite de cette section consiste `a rendre rigoureux ce raisonnement, `a le generaliser au cas o`
u est de dimension d 1 et `a montrer que I() est une caracteristique
g
eometrique de la famille {P , }, apparentee `a une notion dinformation intrins`eque de lexperience statistique associee. Ce sera un premier pas vers une notion de
comparaison des experiences statistiques dune part, et de la meilleure estimation possible
dautre part.
Information de Fisher dune (suite d) exp
erience(s) statistique(s)
Linformation
de Fisher introduite dans la Definition 6.12 de la Section 6.3.1 porte sur
une famille f (, ), de densites (, x) R R+ avec R. Lextension
de cette notion pour une experience statistique dominee arbitraire en se restreignant
toujours au cas R est immediate :
D
efinition 6.13. Si E n = Zn , Zn , Pn , est une suite dexperiences statistiques
dominee par une mesure n (dz) -finie sur (Zn , Zn ) et si R, alors linformation de
Fisher de lexperience au point est definie par
Z
2
n
log fn (, z) Pn (dz),
(6.11)
I( | E ) =
Zn
o`
u fn (, z) =
d Pn
d (z)
n
Y
i=1
f (, xi ), z = (x1 , . . . , xn ) Z = Rn ,
6.3 Mod`
eles r
eguliers
141
P
o`
u f (, x) = dd
(x) est la densite pour la famille de lois de probabilites sur R. On deduit
immediatement de la formule (6.11) lidentite :
I( | E n ) = n I() = n I( | E 1 ),
(6.12)
o`
u I() est linformation de Fisher pour la famille f (, ), de la Definition 6.12.
Remarque 6.3. La formule (6.12) sinterpr`ete de la mani`ere suivante : pour un nechantillon, chaque donnee Xi contribue `a linformation totale du mod`ele au point
pour une quantite I(). Linformation totale, apr`es n observations, est n fois linformation
quapporte chaque donnee. Voir la Section 6.3.3.
6.3.2
Mod`
ele r
egulier en dimension 1
a f (a, x)
,
f (a, x)
2
g(x),
Z
g(x) sup f (a, x)(dx) < +.
R
aV()
4. Et on suppose toujours implicitement que la famille P , est dominee par une mesure
-finie sur R, de sorte que lon puisse parler de la famille des densites f (, ), .
142
Information statistique et th
eorie asymptotique
6.3.3
Propri
et
es de linformation de Fisher
et
a2 F(a, )
a=
= E 2 `(, X) = I().
R aU
6.3 Mod`
eles r
eguliers
143
est contin
ument differentiable sur U et
Z
g(a, x)(dx) =
a g(a, x)(dx).
R g(a, x)(dx)
d
da
Z
R
On sait deja par le Lemme 4.4.1 du Chapitre 4 que le maximum de F(, ) est atteint en
a = , donc a F(a, )
= 0. Pour la deuxi`eme egalite, on applique le Lemme 6.3.2 `a
a=
On applique dabord le Lemme 6.3.2 avec g(, x) = f (, x). On en deduit, pour tout
,
Z
f (, x)(dx) = 0,
R
ou encore
Z
`(, x)f (, x)(dx) = 0.
R
On applique le Lemme 6.3.2 une seconde fois, avec g(, x) = f (, x) = `(, x)f (, x).
Alors
2
g(, x) = 2 `(, x)f (, x) + `(, x) f (, x).
Cette identite permet de conclure
Z
Z
0=
g(, x)(dx) =
2 `(, x)f (, x)(dx) + I(),
R
do`
u le resultat.
144
6.3.4
Information statistique et th
eorie asymptotique
Interpr
etation g
eom
etrique de linformation de Fisher
Pour une experience statistique reguli`ere, la Proposition 6.3 et le Lemme 6.3.3 donnent
la representation
I() = a2 F(a, )
0,
a=
P = Q.
6.3 Mod`
eles r
eguliers
145
f (, x) log f (, x)(dx)
R
6.3.5
Le cas multidimensionnel
146
Information statistique et th
eorie asymptotique
D
efinition 6.16. La matrice dinformation de Fisher I() = I()`,`0
1`,`0 d
associee
`
a la famille de densites {f (), } avec R est definie au point par
I()`,`0 = E ` log f (, X)`0 log f (, X) , 1 `, `0 d,
pour peu que cette quantite soit bien definie, avec = (1 , . . . , d )T . Cest une matrice
symetrique positive.
Nous ne developperons pas la theorie en dimension plus grande que 1. Une reference
avec des exemples detailles est Borovkov [1].
6.4
6.4.1
Th
eorie asymptotique
Normalit
e asymptotique du maximum de vraisemblance
Le cas de la dimension 1
n
On consid`
u
ere lexp
erience statistique E engendree par un n-echantillon de loi P , o`
la famille P , est dominee par une mesure sur R -finie, et on suppose R.
Le resultat suivant donne le comportement asymptotique de lestimateur du maximum
de vraisemblance.
d
1
n bnmv N 0,
I()
en loi sous P , et 0 < I() < + est linformation de Fisher du mod`ele au point .
Esquisse de demonstration. En interpretant lestimateur du maximum de vraisemblance
comme un M -estimateur, on applique la Proposition 4.6 du Chapitre 4 pour la fonction
de constraste (a, x) = log f (a, x). Ceci nous conduit en fait `a verifier les conditions de
lHypoth`ese 4.2 en vue dappliquer la Proposition 4.5 `a la fonction (a, x) = a log f (a, x).
Cependant, les conditions de lHypoth`ese 6.1 sont en partie plus faibles que lHypoth`ese 4.2. En reprenant la preuve de la Proposition 4.5, on verifie alos que seul le
terme de reste (4.16) pose une difficulte. On pourra montrer en exercice quen appliquant
pour ce terme la formule de Taylor avec reste integral, alors les conditions de regularite
de lHypoth`ese 6.1 permettent de conclure.
6.4 Th
eorie asymptotique
147
Le cas multidimensionnel
La Proposition 6.4 setend au cas multidimensionnel, en remplacant linformation de
Fisher par la matrice dinformation de Fisher definie dans la Section 6.3.5, en etendant
lHypoth`ese 6.1 par une version multidimensionelle (la derivee premi`ere par rapport `a
de la fonction ; f (, ) devenant le gradient et la derivee seconde la matrice hessienne).
Nous ne developperons pas la theorie en dimension plus grande que 1. Une reference avec
des exemples detailles est Borovkov [1].
6.4.2
Nous nous placons dans cette section dans le cas de la dimension 1, avec R
pour simplifier. Les extensions au cas multidimensionnel se font de la meme mani`ere que
pour la Section 6.3.5. On se restreint ici `a la classe des estimateurs asymptotiquement
normaux, cest-`
a-dire les estimateurs bn pour lesquels
d
n bn N 0, v()
pour . On suppose de plus :
Hypoth`
ese 6.2. Lapplication ; v() est continue et strictement positive sur .
Sous des hypoth`eses de regularite, on a vu que les M -estimateurs sont asymptotiquement normaux et verifient (6.2). En particulier, pour lestimateur du maximum de
vraisemblance,
1
v() =
.
I()
On a la r`egle de comparaison suivante :
D
efinition 6.17. Si bn,1 et bn,2 sont deux (suites d)estimateurs asymptotiquement normaux de variances asymptotiques respectives v1 () et v2 () et verifiant lHypoth`ese 6.2,
on dit que bn,1 est plus efficace que bn,2 si
, v1 () v2 ()
et si de plus, il existe un point e tel que
e < v2 ().
e
v1 ()
Une suite destimateurs bn est asymptotiquement efficace sil nexiste pas dautre estimateurs (dans la classe consideree) plus efficace que bn .
Remarque 6.4. Lhypoth`ese de normalite asymptotique en tout point permet
en particulier dexclure les estimateurs artificiels de la forme bn = 0 pour un point
0 arbitraire, qui sont catastrophiques pour le risque quadratique en dehors dun
petit voisinage de 0 mais qui ont un risque nul en 0 .
148
Information statistique et th
eorie asymptotique
Efficacit
e asymptotique du maximum de vraisemblance
Dans cette section, on consid`ere une experience statistique reguli`ere et on suppose
lespace des param`etres R pour simplifier. On se restreint en fait `a la classe des
Z-estimateurs, qui contient en particulier les M -estimateurs reguliers.
Un tel estimateur bn est obtenu comme solution dune equation de type
n
X
(bn , Xi ) = 0
(6.13)
i=1
o`
u : R est une fonction choisie par le statisticien, qui determine la methode. En
particulier, si
(, x) = log f (, x) = `(, x)
dans le cas dune famille de probabilites {P (dx) = f (, x)(dx), } dominee par
une mesure -finie , on retrouve lestimateur du maximum de vraisemblance.
On consid`ere une experience statistique reguli`ere engendree par lobservation dun
n-echantillon.
Th
eor`
eme 6.1 (Efficacite asymptotique du maximum de vraisemblance parmi la classe
des Z-estimateurs). Si bn est un Z-estimateur regulier 6 associe `
a la fonction via (6.13),
alors bn est asymptotiquement normal de variance asymptotique
E (, X)2
v () =
2 .
E (, X)
De plus, pour tout choix de fonction , on a
v ()
1
.
I()
(6.14)
6.4 Th
eorie asymptotique
149
cest-`a-dire
E 0 (, X) = E (, X) `(, X) .
En appliquant linegalite de Cauchy-Schwarz, on obtient
2
2
E (, X)2 E `(, X) ,
E 0 (, X)
cest-`a-dire
v ()
2
E (, X)
E `(, X) 2 = I().
E (, X)2
Efficacit
e`
a un pas
Dans un mod`ele regulier, lestimateur du maximum de vraisemblance est meilleur que
nimporte quel autre Z-estimateur au sens de lefficacite asymptotique. Pourtant, il est
parfois plus facile de mettre en uvre un Z-estimateur donne (ou dailleurs un M estimateur) plut
ot que lestimateur du maximum de vraisemblance, voir lExemple 4.3
du mod`ele de Cauchy.
On peut modifier un estimateur bn consistant et asymptotiquement normal de sorte
quil ait asymptotiquement le meme
P comportement que lestimateur du maximum de
vraisemblance. On note `n () = n1 ni=1 log f (, Xi ).
Proposition 6.5 (Efficacite `
a un pas). Si le mod`ele est regulier et si bn est un estimateur
asymptotiquement normal, alors lestimateur modifie 7
`0 (bn )
en = bn n00
`n (bn )
verifie
d
1
n en N 0,
I()
150
Information statistique et th
eorie asymptotique
n`0n (bn )
`00n (bn )
0 b
0
0 ()
n`
()
+
n
`
(
`
n
n
n
n
= n bn
`00n () + `00n (bn ) `00n ()
0
n en = n bn
n bn
n`0n () +
n(bn )`00n () `0 ()
= n 00
`00n ()
`n ()
1
qui converge en loi sous P vers la loi N 0, I()
de la meme mani`ere qu`a la Section
6.3.1.
Exemple 6.2. Une source emet des particules de type A avec probabilite et de type
B avec probabilite 1 , o`
u = (0, 1). On mesure lenergie des particules, qui
est distribuee selon une densite f1 connue pour les particules de type A et f2 pour les
particules de type B. Si lon detecte n particules avec des energies X1 , . . . , Xn , quelle
est la valeur de ? En postulant que lobservation est un n-echantillon, la fonction de
vraisemblance de lexperience statistique engendree par lobservation secrit
Ln (, X1 , . . . , Xn ) =
n
Y
f1 (Xi ) + (1 )f2 (Xi ) ,
i=1
de sorte que
log Ln (, X1 , . . . , Xn ) =
n
X
i=1
f1 (Xi ) f2 (Xi )
.
f1 (Xi ) + (1 )f2 (Xi )
La resolution de lequation
2 associee est dautant plus
R de vraisemblance
R x difficile que n est
grand. Supposons que R F1 (x) F2 (x) dx < +, o`
u Fi (x) = fi (t)dt, i = 1, 2.
b
Soit n lestimateur qui minimise
a;
2
Fbn (x) Fa (x) dx,
avec
Fa (x) = aF1 (x) + (1 a)F2 (x),
6.4 Th
eorie asymptotique
151
P
et Fbn (x) = n1 ni=1 1Xi x designe la fonction de repartition empirique de F etudiee au
Chapitre 3. En derivant par rapport `a la variable a, on obtient
Z
Fbn (x) Fa (x) F1 (x) F2 (x) dx = 0,
R
do`
u
R
bn =
Fbn (x) F2 (x) F1 (x) F2 (x) dx
.
2
R
R F1 (x) F2 (x) dx
n
X
i=1
2
f1 (Xi ) f2 (Xi )
f1 (Xi ) + (1 )f2 (Xi )
2
6.4.3
En 1922, Fisher conjectura que pour un mod`ele regulier (dans un sens comparable
avec celui de la Section 6.3.2),
(i) lestimateur du maximum de vraisemblance converge et a pour variance asymp1
totique I()
.
(ii) si, pour une suite destimateurs bn , on a
d
n bn N 0, v() ,
alors, necessairement
v()
1
.
I()
152
Information statistique et th
eorie asymptotique
6.4.4
Mod`
eles non-r
eguliers
Nous traitons le cas des mod`eles non-reguliers sur un exemple incontournable : la loi
uniforme. Considerons lexperience engendree par un n-echantillon
de loi uniforme sur
[0, ], o`
u = R+ \{0}. La famille de lois P , associee est dominee par la
mesure de Lebesgue sur R+ , et la densite f (, x) secrit :
f (, x) = 1 1[0,] (x).
La fonction ; f (, x) nest pas reguli`ere au sens de la Definition 6.14, puisquelle
est discontinue en = x. On ne peut pas definir dinformation de Fisher, et la theorie
asymptotique ne sapplique pas. La vraisemblance secrit
Ln (, X1 , . . . , Xn ) =
n
Y
f (, Xi )
i=1
n
Y
1[0,] (Xi )
i=1
= n 1{maxi=1,...,n Xi } .
La fonction
; n 1
maxi=1,...,n Xi
atteint son maximum unique en = maxi=1,...,n Xi qui est donc lestimateur du maximum
de vraisemblance bnmv .
153
la precision destimation de bnmv est meilleure que la vitesse 1/ n des mod`eles reguliers.
On peut preciser son comportement asymptotique. Pour t R, on a
n
\
P bnmv t] = P
(Xi t)
i=1
n
Y
P Xi t
i=1
1 t
1{t0} + 1{t>0} ,
mod`ele, la vitesse destimation est 1/n et non 1/ n comme dans les mod`eles reguliers.
6.5
6.5.1
Perte dinformation?
Sous-exp
erience statistique
154
Information statistique et th
eorie asymptotique
ET .
Notons tout dabord que si domine E, alors la mesure image T de par T domine 8
Posons
d PT
f T (, z) =
(z), z Z, .
dT
On demontre cette proposition en deux etapes. Une premi`ere etape est un resultat
interessant en lui-meme que nous enoncons sous forme de lemme.
Lemme 6.5.1. On a, pour tout ,
E log f (, Z) | T (Z) = log f T , T (Z)
P presque s
urement.
8. En effet, si PT A = 0, alors P T 1 (A) = 0 et donc T 1 (A) = 0 = T A .
155
Z
T 1 (A)
log f (, z) P (dz).
156
Information statistique et th
eorie asymptotique
6.5.2
Statistique exhaustive
Crit`
ere de factorisation
La notion dexhaustivite, cest-`a-dire dabsence de perte dinformation pour une sousexperience nest pas facile `a manipuler `a partir de la Definition 6.19. Nous donnons un
crit`ere tr`es simple pour montrer quune statistique est exhaustive.
Th
eor`
eme 6.2 (Crit`ere de Factorisation). Si lexperience E est dominee par , une
P
statistique T est exhaustive si et seulement si la vraisemblance f (, Z) = dd
(Z) secrit
f (, Z) = p T (Z), h(Z)
presque-partout,
o`
u les fonctions z ; p(, z) et z ; h(z) sont mesurables et positives.
(6.15)
157
e(dz) = h(z)(dz)
domine la famille P , . Puisque h est strictement positive, les ensembles de ou
e-mesure nulle concident. Dapr`es lExercice 6.2, linformation de Fisher ne depend
P
pas du choix de la mesure dominante, que lon calcule avec fe(, z) = dde
(z). On a dune
part,
E log fe(, Z) | T (Z) = log fe(, Z)
e-presque partout, puisque fe(, Z) = p T (Z), est une fonction mesurable de T (Z).
Dautre part, dapr`es le Lemme 6.5.1 et avec les memes notations, on a
E log fe(, Z) | T (Z) = log feT (, Z)
(6.16)
6.5.3
158
Information statistique et th
eorie asymptotique
n
X
xi .
i=1
En
n
Y
L , X1 , . . . , Xn =
Xi (1 )1Xi
i=1
T (X1 ,...,Xn )
= n exp n X n
= p T (X1 , . . . , Xn ), h(X1 , . . . , Xn )
avec p(x, ) = n exp x et h = 1. Donc T (X1 , . . . , Xn ) = X n est une statistique
exhaustive dapr`es le theor`eme de factorisation.
9. Notee nA dans lexemple du Chapitre 2.
6.6 Exercices
159
Ln (, X1 , . . . , Xn ) = (2 )
n
1 X
exp 2
(Xi )2
2
i=1
2 n/2
= (2 )
X
n
exp 2 ( n1
Xi2 2 X n +2 ,
2
i=1
P
ce qui montre que la statistique T (X1 , . . . , Xn ) = (X n , n1 ni=1 Xi2 ) est exhaustive dapr`es
le theor`eme de factorisation. Si lon suppose 2 = 1 connu, alors le param`etre devient
= et la vraisemblance secrit :
n
1X
Ln (, X1 , . . . , Xn ) = (2)n/2 exp
(Xi )2
2
i=1
= (2)n/2 exp n X n n2
exp
1
2
n
X
Xi2
i=1
6.6
Exercices
o`
u linfimum est pris sur lensemble de tous les estimateurs, o`
u R(bn , ) = E (bn )2
designe le risque quadratique de lestimateur bn au point .
Exercice 6.2. Soit P , , avec R une famille de probabilites sur R reguli`ere
au sens de la Definition 6.14. On suppose que pour tout , on a
f (, x) > 0,
o`
u est une mesure dominante. Montrer que linformation de Fisher I() ne depend pas
du choix de .
160
Information statistique et th
eorie asymptotique
(6.17)
o`
u b() = E bn est le biais Rde lestimateur bn .
En partant de lidentite 1 = R f (, x)(dx), montrer que
Z
f (, x)(dx).
0=
R
En deduire
E (bn ) f (, X) = 1,
et par linegalite de Cauchy-Schwarz, montrer linegalite de Cramer-Rao (6.17).
Troisi`
eme partie
Tests dhypoth`
eses
Chapitre 7
Tests et r
egions de confiance
Nous avons deja rencontre la notion de test statistique dans le Chapitre 3. Dans ce
chapitre, nous systematisons cette approche. Nous donnons quelques resultats incontournables de construction de test et nous abordons la notion doptimalite. Nous allons voir
que si on accepte de hierarchiser les erreurs de decision lorsque lon proc`ede `a un test
le principe de Neyman alors il est possible de definir une notion doptimalite plus
satisfaisante que pour lestimation.
7.1
7.1.1
Probl
ematique des tests dhypoth`
ese
Test et erreur de test
Situation
On consid`
ere une experience statistique engendree par une observation Z `a valeurs
dans Z, Z et associee `
a la famille de lois de probabilites
P , .
164
Tests et r
egions de confiance
lhypoth`ese nulle
H0 : 0
contre
lalternative
H1 : 1 ,
si Z
/ R. on accepte lhypoth`ese nulle
0
(Z) = 1{ZR} =
(7.1)
1
si Z R. on rejette lhypoth`ese nulle
On dit que est un test simple.
Il est naturel de prendre 1 = \ 0 et cest ce que lon fera la plupart du temps.
On verra toutefois que ce choix ne simpose pas toujours et depend des proprietes que
lon souhaite obtenir pour . Pour le moment, on suppose 1 = \ 0 .
D
efinition 7.2. Toute procedure statistique de la forme (7.1) est
appele e test simple.
On designe indifferemment lensemble R Z ou bien levenement Z R comme zone
de rejet ou encore zone critique du test .
Remarque 7.1. Dans la definition 7.1, on parle de test simple car on nautorise que
deux reponses (accepter ou rejeter). On pourrait imaginer des situations plus generales,
o`
u lon se refuse `
a decider, ou bien o`
u lon renvoie une valeur entre 0 et 1 qui indique un
degr
e de suspicion de lhypoth`ese.
Erreur de test
Lorsque lon effectue un test simple, il y a quatre possibilites. Deux sont anecdotiques
et correspondent `
a une bonne decision :
Accepter lhypoth`ese H0 alors que 0 (cest-`a-dire lhypoth`ese H0 est vraie).
Rejeter lhypoth`ese H0 alors que 1 (cest-`a-dire lhypoth`ese H0 est fausse).
Les deux autres possibilites sont celles qui vont nous occuper, et correspondent `
a une
erreur de decision :
Rejeter lhypoth`ese H0 alors que 0 (cest-`a-dire lhypoth`ese H0 est vraie).
7.1 Probl
ematique des tests dhypoth`
ese
165
(7.2)
Remarque 7.2. Dapr`es cette terminologie, lerreur de premi`ere esp`ece mesure la probabilite (maximale) de rejeter `
a tort, et lerreur de seconde esp`ece daccepter `a tort. Dans
le langage courant, commettre une erreur de premi`ere esp`ece revient `a faire un faux
negatif , et commettre une erreur de seconde esp`ece revient `a faire un faux positif .
Dans la plupart des situations, 0 est plus petit que 1 et le controle de lerreur
de seconde esp`ece (7.2) est difficile, surtout si 1 contient des points tr`es proches de
0 . Cest pour cela que lon introduit la fonction de fonction de puissance dun test, qui
mesure sa performance locale sur lalternative.
D
efinition 7.4. La fonction de puissance du test simple est lapplication
() : 1 [0, 1]
definie par
1 ; () = P Z R .
Hypoth`
ese simple, hypoth`
ese composite
On utilise souvent la terminologie suivante dans le cas reel, o`
u R. Soit 0 .
Tester H0 : = 0 contre H1 : = 1 avec 1 6= 0 . On parle de test dune
hypoth`ese simple contre une alternative simple.
Tester H0 : = 0 contre H1 : 6= 0 . On parle de test dune hypoth`ese simple
contre une alternative composite.
Tester H0 : > 0 contre H1 : 0 . On parle de test dune hypoth`ese composite
contre une alternative composite.
Tester H0 : > 0 contre H1 : = 0 . On parle de test dune hypoth`ese composite
contre une alternative simple.
166
7.1.2
Tests et r
egions de confiance
contre
H1 : 1
7.2
7.2.1
Hypoth`
ese simple contre alternative simple
Principe de Neyman et d
ecision `
a deux points
Dans le cas dune hypoth`ese simple contre une alternative simple, on sait resoudre de
facon optimale le principe de Neyman. Il sagit dune situation remarquable, qui ne se
generalise pas facilement hormis des cas particuliers comme les familles `a rapport de
vraisemblance monotone, voir Section 7.3.1 dans un cadre non-asymptotique.
On suppose lensemble des param`etres reduit `a deux points : = {0 , 1 }. A partir
de lobservation Z, on teste
H0 : = 0 contre H1 : = 1 .
7.2 Hypoth`
ese simple contre alternative simple
167
D
efinition 7.7 (Optimalite). Soit [0, 1] un niveau de risque. Un test ? de niveau
est optimal ou PP (Plus Puissant) si
(? ) = sup ()
o`
u le supremum est pris parmi tous les tests de niveau .
Dans le cas dune hypoth`ese simple contre une alternative simple, estimation et test
se confondent. En effet, un estimateur raisonnable 1 se represente sous la forme
bn = 0 1ZA + 1 1Z A
/
pour un certain ensemble A Z, et peut se mettre en correspondance avec le test simple
de lhypoth`ese H0 : = 0 contre H1 : = 1 defini par
n = 1
Z A
/
e ; `(, )
e est une fonction de perte 2 donnee, et si R bn , = E `(bn , )
Si (, )
designe le risque de lestimateur bn pour la perte `(, ) au point , on a
R bn , = E `(0 , )1ZA + `(1 , )1Z A
/
= `(0 , ) P = 0 + `(1 , ) P = 1 .
Donc
R(bn , 0 ) = `(1 , 0 ) P0 = 1
soit lerreur de premi`ere esp`ece du test , et
R(bn , 1 ) = `(0 , 1 ) 1 () ,
soit lerreur de seconde esp`ece du test. Construire un estimateur ayant un risque petit en 0 et 1 est equivalent ici `a construire un test ayant simultanement une erreur
de premi`ere et de seconde esp`ece petite.
Le principe de Neyman au niveau se traduit comme la recherche de qui minimise
1 (), sous la contrainte P0 = 1 .
7.2.2
Lemme de Neyman-Pearson
Dans le cas dune hypoth`ese simple contre une alternative simple, un test optimal ?
existe 3 , et on sait le construire explicitement `a laide du Lemme de Neyman-Pearson.
1. Cest-`
a-dire contraint a
` prendre des valeurs dans lespace des param`etres = {0 , 1 } ici.
e 0 pour tous ,
e et `(, )
e = 0 si et
2. Cest-`
a-dire verifiant les hypoth`eses minimales `(, )
e
seulement si = .
3. Pour des raisons de simplicite, on fera dans ce cours une restriction technique, mais le resultat est
vrai en toute generalite.
168
Tests et r
egions de confiance
d P
(z), z Z, = 0 , 1
d
les densites associees. Si lon veut estimer dans ce contexte, alors lestimateur du
maximum de vraisemblance secrit
bnmv = 0 1{f (1 ,Z)<f (0 ,Z)} + 1 1{f (0 ,Z)<f (1 ,Z)}
et il est bien defini sur levenement {f (0 , Z) 6= f (1 , Z)}, sinon, on ne peut pas dire
grand-chose. La comparaison de f (0 , Z) et f (1 , Z) nous fournit donc une r`egle de
decision naturelle. Mais on va un peu affiner cette r`egle de decision, pour pouvoir calibrer lerreur de premi`ere esp`ece. Soit c = c() > 0 `a choisir. On decide alors de rejeter
H0 si
f (1 , Z) > cf (0 , Z),
et on consid`ere la famille des tests de region critique
Rc = f (1 , Z) > cf (0 , Z) .
(7.3)
R\R?
7.2 Hypoth`
ese simple contre alternative simple
169
Il vient
Z
f (0 , z)(dz)
f (0 , z)(dz)
R? \R
R\R?
Z
Z
f (0 , z)(dz)
= c()
f (0 , z)(dz)
?
R
R
?
= c() P0 Z R P0 Z R
P1 Z R? P1 Z R c()
o`
u lon a utilise cette fois-ci le fait que f (0 , z)(dz) est une mesure de probabilite.
Finalement, cette derni`ere quantitt
car, dune part, R? est de la forme
e est positive
?
Rc() donne par (7.4) et donc P0 Z R = et dautre part, puisque R est la zone
de rejet dun test de niveau , on a P0 Z R .
D
efinition 7.8 (Test simple de Neyman-Pearson). Le test simple de lhypoth`ese simple
H0 : = 0 contre lalternative simple H1 : = 1 defini 4 par la region critique
R? = Rc() du Theor`eme 7.1 est appele test de Neyman-Pearson.
Corollaire 7.1. Si ? est le test de Neyman-Pearson de niveau de H0 : = 0 contre
H1 : = 1 , on a
(? ) .
Demonstration. Le test de Neyman-Pearson ? est plus puissant que tous les tests de
niveau , en particulier, il est plus puissant que le test artificiel = 1u , o`
u U est une
variable aleatoire 5 , independante de Z, de loi uniforme. En effet,
P0 = 1 = .
Donc est de niveau et puisque ? est le test de Neyman-Pearson, on a
(? ) () = P1 = 1 = .
Remarque 7.3. Une condition suffisante pour que lequation (7.4) ait une solution est
que la variable aleatoire f (1 , Z)/f (0 , Z) soit bien definie et ait une densite par rapport
`a la mesure de Lebesgue sur R+ sous P0 .
Exemple 7.1. Soit F la fonction de repartition dune loi de probabilite donnee sur R. On
consid`ere lexperience statistique engendree par un n-echantillon de loi P de fonction de
repartition F ( ), o`
u = {0, 0 } pour un point 0 6= 0 de R . On teste H0 : = 0
4. Cela suppose implicitement quune solution c() existe, ce qui sera verifie dans la plupart de nos
exemples.
5. Quitte `
a considerer une bonne extension de lespace de probabilite sur lequel sont definis les P , on
peut toujours faire exister une telle variable aleatoire.
170
Tests et r
egions de confiance
n
nY
o
f (Xi 0 )
> c() ,
f (Xi )
i=1
o`
u le choix de c() > 0 est regle par la condition de niveau du test :
P0
n
hX
i=1
log
i
f (Xi 0 )
> log c() = .
f (Xi )
Lorsque n est grand, on peut calculer une valeur approchee de c `a laide du theor`eme
central-limite.
Exemple 7.2. Considerons une seule observation X de loi de Poisson de param`etre
> 0. On teste H0 : = 0 contre H1 : 1 , avec 0 6= 1 . Ici, le test de Neyman-Pearson
a pour zone de rejet
o
n
X
Rn, = exp (1 0 ) (1 1
0 ) c() ,
o`
u le choix de c() garantit que le test est de niveau . Ici,
n
log c() (1 0 ) o
Rn, = X >
.
log 1 log 0
Pour trouver c(), on doit en principe resoudre
h
log c() (1 0 ) i
P 0 X >
= ,
log 1 log 0
mais la loi de X nest pas absolument continue, donc cette equation na pas de solution
en general. On cherche alors le plus petit seuil c() > 0 de sorte que
h
log c() (1 0 ) i
P 0 X >
.
log 1 log 0
En pratique, on proc`ede de la mani`ere suivante : par exemple, pour 0 = 5 et = 5%,
on trouve
P0 X > 9 = 0, 032, et P0 X > 8 = 0, 068,
et on rejette lhypoth`ese si {X > 9} et on laccepte si {X 9}. Ainsi, lerreur de premi`ere
esp`ece du test est plus petite que = 5%, mais on ne peut plus garantir que le test est
optimal au sens du Theor`eme 7.1.
171
Remarque 7.4. Il existe une version plus sophistiquee du test de Neyman-Pearson, qui
permet de traiter le cas o`
u lequation (7.4) na pas de solution, comme dans lexemple
7.2. Il faut alors considerer une classe plus large que les tests simples, la classe des tests
randomises (voir par exemple [1]).
7.3
7.3.1
Tests dhypoth`
eses composites
Familles `
a rapport de vraisemblance monotone?
d P
(z), z Z, .
d
e
> .
172
Tests et r
egions de confiance
e
>c(,0 ,)
,
0 ,)
e
e
T (Z) ,,c(,
173
00
Alors 0 est le niveau du test ? utilise pour tester lhypoth`ese nulle = contre
e Alors, comme precedemment, le Lemme de Neyman-Pearson entrane
lalternative = .
00
?
que est optimal pour tester = contre lalternative = e au niveau 0 . Finalement,
le Corollaire 7.1 implique que la puissance de ? est plus grande que 0 , cest-`a-dire
(? ) P00 ? = 1 = 1 Pe ? = 0 ,
soit
P00 ? = 1 Pe ? = 0 = .
00
7.3.2
Exemples
n
1
1 X
2
exp
(X
)
i
2
2
(2 2 )n/2
i=1
n
1
n2
1 X 2 n
X
+
X
exp
n
i
2 2
2
2 2
(2 2 )n/2
i=1
do`
u
f (1 , Z)
n
n
= exp 2 (1 0 )X n exp 2 (21 20 ) .
f (0 , Z)
2
La zone de rejet du test de Neyman-Pearson secrit
n
n
f (1 , Z) > cf (0 , Z) =
(1 0 )X n 2 (21 20 ) > c
2
2
0 + 1
2 log c
= Xn >
+
.
2
n(0 1 )
Le choix de c est regle par lequation
1
2 log c
P0 X n > (0 + 1 ) +
= .
2
n(0 1 )
(7.5)
Sous P0 , les Xi sont distribuees comme des variables aleatoires gaussiennes independantes,
de moyenne 0 et de variance 2 . Donc, sous P0 , on peut ecrire
X n = 0 + (0 ) ,
(7.6)
n
174
Tests et r
egions de confiance
o`
u la loi de (0 ) sous P0 est la loi gaussienne standard N (0, 1). Donc lequation (7.5)
est equivalente `
a
P 0
soit
(0 )
>
n
log c
= ,
(1 0 ) +
2
n 0 1
n
1 log c
= 1 (1 )
(1 0 ) +
2
n 0 1
o`
u (x) designe la fonction de repartition de la loi N (0, 1), do`
u finalement
(1 0 )2
n
c = exp
+
(0 1 )1 (1 ) .
2
1
n
e Z)
2
2 2
f (,
avec T (X1 , . . . , Xn ) = X n . La famille {f (, ), R} est `a rapport de vraisemblance
monotone, et un test optimal (uniformement plus puissant) de H0 : e contre H1 :
> e est donne par la region critique
R = Xn > c ,
e ) est calibre par lequation
o`
u c = c(,
Pe X n > c = ,
e
soit, dapr`es 7.6 en remplacant 0 par ,
Pe
e
()
>
i
n
e = ,
(c )
o`
u la loi de () sous Pe est la loi N (0, 1). Do`
u
e
1 (1 )
e ) = e +
c = c(,
.
n
e
X n >+
1 (1)
7.4 p valeur
175
X n = + n , o`
u la loi de sous P est la loi N (0, 1),
1 (1 )
(? ) = P + () > e +
n
n
i
h
n e
= P () >
( ) + 1 (1 )
n
=1
(e ) + 1 (1 )
n
e 1 (1 )
( )
=
en utilisant lidentite 1 (x) = (x) (qui traduit simplement le fait que la loi gaussienne standard est symetrique).
Remarque 7.6. Hormis quelques cas particuliers comme les familles `a rapport de
vraisemblance monotone 6 , on ne sait pas en general exhiber de tests optimaux au sens
de Neyman lorsque lhypoth`ese nulle ou lalternative sont composites. Pour developper
une theorie generale, nous nous placerons comme pour lestimation dans un cadre
asymptotique d`es le Chapitre 8.
7.4
7.4.1
p valeur
Notion de p valeur
1 (1 )
1 (1 )
.
n
(7.7)
176
Tests et r
egions de confiance
suspicion de rejet
suspicion tr`es forte contre H0
suspicion forte contre H0
suspicion faible contre H0
peu ou pas de suspicion contre H0
7.4 p valeur
177
lhypoth`ese H0 nest pas vraie, mais le test est tr`es peu puissant (beaucoup de faux
positifs) et son erreur de seconde esp`ece est grande.
Concernant la seconde raison, prenons par exemple le test trivial = 1 . Sa p-valeur
vaut 1 et prend donc la plus grande valeur possible. Mais son erreur de seconde esp`ece
est maximale.
7.4.2
Propri
et
es de la p -valeur
178
Tests et r
egions de confiance
7.5
R
egions de confiance
7.5.1
R
egion de confiance
D
efinition 7.11. Soit [0, 1]. Une region de confiance de niveau 1 pour le
param`etre est un ensemble
C = C (X1 , . . . , Xn ) Rd ,
tel que
, P C(X1 , . . . , Xn ) 1 .
(7.8)
7.5 R
egions de confiance
179
7.5.2
Xn
est pivotale.
2. Si X1 , . . . , Xn sont independantes, de meme loi exponentielle de param`etre , o`
u
R+ \{0} est le param`etre, alors S(, X1 , . . . , Xn ) = X n est pivotale. En effet,
la loi de X sous P est exponentielle de param`etre . Sa densite par rapport `a la
mesure de Lebesgue secrit g(), o`
u g(x) = exp(x)1{xR+ } est la densite de la
loi exponentielle de param`etre 1. De mani`ere generale, si X a pour densite f par
rapport `
a la mesure de Lebesgue, alors X a pour densite 1 f (1 ) si 6= 0.
Donc X a pour densite g() qui ne depend pas de . Par suite, puisque
n
S(, X1 , . . . , Xn ) =
1X
Xi ,
n
i=1
9. Attention : S(, X1 , . . . , Xn ) depend de , elle nest pas observable et ce nest pas une statistique.
180
Tests et r
egions de confiance
et que les Xi sont independantes, la loi de S(, X1 , . . . , Xn ) ne depend pas de .
Une methode de construction de pivot est la suivante. Soit une variable aleatoire
de meme loi que le pivot. Pour [0, 1], on consid`ere la classe des intervalles I R
verifiant
P S(, X1 , . . . , Xn ) I = P I 1 .
(7.9)
Alors la region
I = , S(, X1 , . . . , Xn ) I
est une region de confiance pour de niveau 1 . On est alors ramene `a choisir dans
la classe des intervalles I satisfaisant (7.9) de sorte que le diam`etre de I soit le plus
petit possible.
M
ethode g
en
erique de construction dun pivot
Dans les deux exemples precedents, les pivots se basent sur des estimateurs preliminaires du param`etre . Si bn est un estimateur de , une methode generique de construction
dun pivot est la suivante.
On note x ; (x) = P bn x , la fonction de repartition de bn au point .
Proposition 7.2. Si
(i) ; (x) est monotone pour tout x R,
(ii) x ; (x) est continue pour tout ,
alors
S(, X1 , . . . , Xn ) = (bn )
est un pivot de loi uniforme sur [0, 1]. En particulier, pour tout [0, 1]
h
i
P
(bn ) 1
=1
2
2
et
1
I = 1
/2 , 1/2
est un intervalle de confiance pour de niveau 1 .
Remarque 7.7. De meme, pour tout [0, 1],
1
I() = 1
, (1)
1
et on peut chercher la valeur qui minimise 1
(1) pour trouver le meilleur
intervalle de confiance parmi la classe des estimateurs donnes par le pivot.
7.5.3
Dualit
e tests r
egions de confiance
Il existe un lien naturel entre intervalles de confiances et tests que nous avons dej`
a
mis en evidence au Chapitre 3.
7.5 R
egions de confiance
181
Un exemple illustratif
Considerons lexperience statistique engendree par lobservation de X1 , . . . , Xn , independantes
et de meme loi N (, 2 ), o`
u 2 > 0 est connu et = R est le param`etre inconnu.
Soit [0, 1]. Posons, pour 0 ,
n
o
A (0 ) = 0 X n 1 1
2
n
et
o
R (0 ) = 0 X n > 1 1
.
2
n
Alors lensemble R (0 ) sinterpr`ete naturellement comme la zone de rejet dun test de
niveau pour lhypoth`ese
H0 : = 0 ,
contre
H1 : 6= 0 .
n
o
C = C (X1 , . . . , Xn ) = , (X1 , . . . , Xn ) R ()c
est une region de confiance de niveau 1 pour .
Reciproquement, si C (X1 , . . . , Xn ) est une region de confiance de niveau 1 pour
le param`etre , alors, le test de lhypoth`ese nulle H0 : = 0 contre lalternative
6= 0 de region critique
R (0 ) = 0 Cc
est de niveau .
Demonstration. On a
P C(X1 , . . . , Xn ) = P (X1 , . . . , Xn ) R(0 )c
= 1 P (X1 , . . . , Xn ) R(0 )
1 .
Reciproquement, il suffit de noter que pour tout 0 , on a
P0 (X1 , . . . , Xn ) R(0 ) = 1 P0 (X1 , . . . , Xn ) Rc
= 1 P0 0 C
.
Remarque 7.8. Ce resultat, relativement immediat, ne nous dit rien sur la puissance
du test dune part, ni sur la qualite (le diam`etre) de la region de confiance dautre part.
Ces deux notions sont evidemment etroitement liees.
182
7.6
7.6.1
Tests et r
egions de confiance
Situation
Dans toute cette section, on consid`ere lexperience statistique engendree par un nechantillon de la loi N (, 2 ), o`
u = (, 2 ) = R R+ {0}. Il y a concidence
dans ce cas tr`es simple avec le mod`ele de regression lineaire `a design deterministe :
les observations sont Y = (Y1 , . . . , Yn ) et on a la representation
Y = M + ,
(7.10)
o`
u
M = (1 . . . 1)T (n fois) et = (1 . . . n )T ,
les i etant sous P des variables gaussiennes standard. Lestimateur du maximum de
vraisemblance est
bnmv =
bnmv , (b
n2 ) mv
n
X
1
= Y n, n
(Yi Y n )2 ,
i=1
voir Chapitre 5, Proposition 5.5. Une autre mani`ere peut-etre plus naturelle dans ce
contexte est de maximiser directement la log-vraisemblance
n
n
1 X
`n (, 2 ), Y1 , . . . , Yn = log(2 2 ) 2
(Yi )2 .
2
2
i=1
On a
`n (, 2 ), Y1 , . . . , Yn
1
2
Pn
i=1 (Yi
n
n
1 X
2 ), Y , . . . , Y
(,
+
(Yi )2 ,
2
1
n
n
2 2 2 4
i=1
1X
bn = Y n ,
(Yi Y n )2 .
n
i=1
On verifie ensuite que le point critique est lunique maximum global et donc bn = bnmv .
Un estimateur sans biais de 2 est
n
1 X
n
2
(Yi Y n )2 =
(b
2 ) mv .
sn =
n1
n1 n
i=1
Les proprietes des vecteurs gaussiens et des lois derivees etudiees au Chapitre 1 nous
donnent gratuitement la loi jointe de (Y n , s2n ).
183
Lemme 7.6.1. Sous P , les variables Y n et s2n sont independantes. De plus, Y n suit la
2
2
loi N , n et (n 1) sn2 suit la loi du 2 `
a n 1 degres de liberte.
Demonstration. Cest une application de la Proposition 5.10 qui repose sur la Proposition
1.1 (Cochran) du Chapitre 1.
Batterie de tests classiques
Soit 0 R et 02 > 0 donnes.
1. On teste
H0 : 0
contre
H1 : > 0 .
T (Y) =
1
n1
n(Y n 0 )
,
Pn
2 1/2
i=1 (Yi Y n )
T
o`
u q1,n1
est le quantile dordre 1 de la loi de Student `a n 1 degres de
liberte.
Si lon veut tester
H0 : 0 contre H1 : < 0 ,
contre
H1 : 6= 0 .
Un test de niveau est par exemple le test defini par la zone de rejet
T
R = T (Y) > q1/2,n1
.
Il nest pas optimal.
3. On teste
H0 : 2 02
contre
H1 : 2 > 02 .
n
1 X
(Yi Y )2
02 i=1
184
Tests et r
egions de confiance
2
et q1,n1
est le quantile dordre 1 de la loi du 2 `a n 1 degres de liberte. Si
lon veut tester
H0 : 2 02 contre H1 : 2 < 02 ,
contre
H1 : 2 6= 02 ,
7.6.2
Test dappartenance `
a un sous-espace lin
eaire
Situation
On se place dans le cadre du Chapitre 5, sous lHypoth`ese de la Proposition 5.6 et
dans le cadre de la regression multiple gaussienne. On observe
Y = M + , = Rd
10. Les mod`eles exponentiels, dont letude depasse le cadre de ce cours.
185
et on suppose
MT M > 0.
On suppose de plus que suit la loi normale sur Rn de matrice de variance-covariance
2 fois lidentite, cest-`
a-dire les i sont independantes, de loi N (0, 2 ).
Un premier cas simple
Soit a R. On veut tester H0 : j = a contre H1 : j 6= a, pour la composante j du
vecteur = (1 , . . . , d )T , o`
u la direction j est fixee `a lavance.
Un corollaire de la Proposition 5.10 du Chapitre 5 est le resultat suivant
Lemme 7.6.2. On a, pour tout , legalite en loi sous P
(bnmc )j j d
q
= N (0, 1),
(MT M)1
jj
o`
u (MT M)1
esigne lelement de la j-i`eme ligne et de la j-i`eme colonne de la matrice
jj d
T
1
(M M) .
Demonstration. On a, dapr`es la Proposition 5,
d
bnmc j = N 0, 2 (MT M)1
(bnmc )T vj
2
= vjT E (bnmc )(bnmc )T vj
= 2 vjT (MT M)1 vj
= 2 (MT M)1
jj .
186
Tests et r
egions de confiance
b mc
Demonstration. Posons = (MT M)1
jj (n j j ) et
K = (n d)
kY M bnmc k2
s2n
=
2
2
dapr`es la Proposition 5.10. Alors sous P , la variable est gaussienne centree reduite,
et K suit la loi du 2 `
a n d degres de liberte dapr`es la Propostion 1.1 (Cochran), et
est independante de Y donc de .
En consequence, le test defini par la region critique
bnmc a
j
T
R = q
,
> q1/2,nd
bn (MT M)1
jj
T
o`
u q1/2,nd
designe le quantile dordre 1 de la loi de Student `a n d degres de
liberte est de niveau pour tester H0 : j = a contre H1 : j 6= a.
d
X
i=1
i xi + i , i = 1, . . . , n.
187
(On peut poser x1 = 1 si lon souhaite incorporer une ordonnee `a lorigine ). Dans
le cas de la selection de variables, on teste si les k premi`eres variables influencent Y , les
d k suivantes ne jouant pas de role, ce qui se traduit par lhypoth`ese nulle
H0 : k+` = 0, ` = 1, . . . , ` = d k,
contre lalternative
H1 : il existe 1 ` d k, k+` 6= 0.
La selection de variables est un probl`eme vaste et tr`es important en pratique. On presente
quelques complements sur ce sujet dans lExercice 7.2.
Les F-tests
Cest la cadre le plus general, qui inclut les situations decrites precedemment.
Soit G la matrice dune application lineaire de Rd dans Rm , avec m d, et soit
b = (a1 , . . . , am )T un vecteur de Rm arbitraire. On veut tester lhypoth`ese nulle
H0 : G = b
contre lalternative
H1 : G 6= b.
On suppose que G est de la forme
0 ...
.. . .
G= .
.
0 ...
0
..
.
0
1 ...
.. . .
.
.
0 ...
0
.. ,
.
1
o`
u le premier bloc de 0 a m lignes et d m colonnes, alors que le second bloc est la
matrice identite `
a m lignes et m colonnes.
Proposition 7.4. Sous lhypoth`ese, cest-`
a-dire sous P avec G = b, on a legalite en
loi
G bnmc N b, 2 G(MT M)1 GT .
Demonstration. Cest une application de la Proposition 1.1 (Cochran).
Notons quici, la matrice de variance-covariance est de dimension m. Donc, pour tout
point de lhypoth`ese , cest-`
a-dire verifiant G = b, le vecteur m-dimensionnel G bnmc
est gaussien, de moyenne b et de matrice de variance-covariance
U = 2 G(MT M)1 GT .
188
Tests et r
egions de confiance
Notons que puisque MT M est inversible, la matrice U est definie positive. Posons
= (G bnmc b)T U1 (G bnmc b).
Donc sous P avec G = b, la variable aleatoire suit la loi du 2 `a m-degres de libertes.
On sait alors construire un test de niveau lorsque est connu.
Si est inconnu, on peut lestimer comme precedemment, mais dans le contexte
mod`ele lineaire gaussien general, o`
u est de dimension d 1, voir Proposition 5.10 du
Chapitre 5. Alors
kY M bnmc k2
bn2 =
,
nd
et en posant
b =
U
bn2 G(MT M)1 GT ,
la statistique
F (Y) =
b 1 (G b mc b)
(G bnmc b)T U
n
m
7.7
Exercices
contre
H1 : 1 6= 2 .
o`
u (sm )2 =
1
m
Pm
2
i=1 (Xi X m )
(2)
et (sn )2 =
1
n
Pn
2
i=1 (Yi Y n ) ,
et etudier sa consistance.
7.7 Exercices
189
Exercice 7.2 (R`egle de Bonferroni en test multiple). On souhaite faire m tests simultanement. On teste
H0,i contre H1,i , pour i = 1, . . . , m
(i)
(i)
p valeur( ),
i = 1, . . . , m.
(i)
190
Tests et r
egions de confiance
Chapitre 8
Tests asymptotiques
On a vu dans le chapitre precedent que, mis `a part des cas relativement particuliers,
on na pas de methode de construction de test systematique. Dans ce chapitre, on se place
dans le regime asymptotique n , lorsque linformation de mod`ele est grande .
Dans ce cas, d`es que le mod`ele est suffisamment regulier au sens du Chapitre 6 et que
lon dispose destimateurs raisonnables , on sait construire des tests de facon un peu
plus systematique.
Cependant, on ne pourra pas obtenir loptimalite dune suite de tests de niveau
(asymptotique) donnee aussi facilement quau chapitre precedent ; on se contentera dune
notion plus faible : la convergence ou consistance de la suite de tests.
8.1
1. De la meme mani`ere que lon parle destimateur pour une suite destimateurs, on utilisera le terme
test pour designer une suite de tests.
192
Tests asymptotiques
D
efinition 8.2. Le test n est convergent ou consistant si sa puissance asymptotique
vaut 1, cest-`
a-dire si son erreur de seconde esp`ece est asymptotiquement nulle :
1 , lim P n = 1 = 1 = 1 lim P n = 1 .
n
8.2
8.2.1
Tests de Wald
Le cas dune hypoth`
ese nulle simple
n bn N 0, v() ,
o`
u v() > 0, la convergence ayant lieu en loi sous P . On suppose que la fonction ; v()
est reguli`ere. Sous lhypoth`ese, cest-`a-dire sous P0 , on a la convergence
bn 0 d
np
N (0, 1),
v(0 )
en loi sous P0 , ou encore, en appliquant la Proposition 1.8 (Slutsky)
Tn =
en loi sous P0 . On en deduit
bn 0 d
nq
N (0, 1)
v(bn )
(8.1)
Proposition 8.1. Pour tout (0, 1), le test n defini par la zone de rejet
Rn, = Tn 1 (1 /2) ,
o`
u 1 (1 ) designe le quantile dordre 1 de la loi normale standard, est asymptotiquement de niveau et consistant.
Demonstration. Le controle du niveau asymptotique de n est une consequence immediate
de la convergence (8.1) :
P0 n = 1 = P0 Tn 1 (1 /2) .
Montrons la consistance. Soit 6= 0 un point de lalternative. On ecrit
Tn =
0
bn
+ nq
.
nq
v(bn )
v(bn )
(8.2)
193
Le premier terme tend en loi sous P vers la loi N (0, 1), en appliquant la convergence
(8.1) avec `
a la place de 0 . Le denominateur du second terme converge en probabilite
sous P vers v(), et le numerateur diverge vers . Donc
P
|Tn |
+
et donc n
1 pour tout 6= 0 . On en deduit la consistance de n (par exemple par
convergence dominee).
(bn 0 )2 d
2 (1)
b
v(n )
194
Tests asymptotiques
en loi sous P , o`
u 2 (1) designe la loi du 2 `a 1 degre de liberte. En construisant un test
base sur la statistique Tn avec comme loi limite, on obtient la zone de rejet
n
o
e n, = T 2 q 2
R
n
1,1
2
o`
u q1,1
designe le quantile dordre 1 de la loi du 2 `a 1 degre de liberte. Sans
e n, = Rn, !
surprise, R
8.2.2
Hypoth`
ese nulle composite
d
n bn N 0, V () ,
en loi sous P , o`
u V () est definie positive, et ; V () est continue pour tout .
Proposition 8.2. Sous lHypoth`ese 8.1, en tout point 0 de lhypoth`ese, cest-`
a-dire
verifiant g() = 0, on a
d
ng(bn ) N 0, Jg ()V ()Jg ()T
sous P lorsque n .
2. En ne tenant pas compte de cette restriction quand 0 se reduit a
` un seul point.
195
o`
u q1,m
designe le quantile dordre 1 de la loi du 2 `
a m degres de liberte, est
asymptotiquement de niveau et consistant.
D
efinition 8.3 (Test de Wald). On appelle test de Wald de H0 : g() = 0 contre
H1 : g() 6= 0 associe `
a lestimateur asymptotiquement normal bn le test base sur la
2
statistique Tn definie en (8.4) de region critique Rn, defini en (8.5). La statistique Tn2
sappelle statistique de Wald (associee `
a lestimateur bn ).
Remarque 8.5. Le test de la Proposition 8.1 est un test de Wald, dans la cas tr`es
particulier o`
u g() = 0 en dimension 1. En particulier, g 0 () = 1 en tout point
R.
Demonstration de la Proposition 8.2 et de son Corollaire 8.1. La proposition est simplement la version multidimensionnelle de la methode delta , (Proposition 1.11) appliquee
`a g(bn ) dapr`es lHypoth`ese 8.2, en utilisant le fait que sous lhypoth`ese nulle, g() = 0.
Pour son corollaire, on en deduit dabord la convergence
d
ng (bn )1 g(bn ) N (0, Idm ).
En passant `
a la norme au carre
d
k ng (bn )1 g(bn )k2 = ng(bn )T g (bn )1 g(bn ) kN (0, Idm )k2 2 (m).
On en deduit que le test donne par la region de rejet Rn, est asymptotiquement de
niveau .
Montrons quil est consistant. On raisonne comme en dimension 1 : si 1 est un
point de lalternative, on a g() 6= 0, on force le terme g() dans Tn et on ecrit
2
2
Tn2 = Tn,1
+ Tn,2
,
avec
T
2
Tn,1
= n g(bn ) g() g (bn )1 g(bn ) g() ,
196
Tests asymptotiques
et un terme additionnel
2
Tn,2
= Un + Vn ,
qui se redecompose en
Un = ng()T g (bn )1 g()
et
T
Vn = n g(bn ) g() g (bn )1 g() + ng()T g (bn )1 g(bn ) g() .
Pour tout , le terme Tn,1 converge en loi sous P vers la loi du 2 `a m degres de liberte :
cest la methode delta appliquee `a g(bn ) lorsque g() 6= 0. Il reste `a demontrer que
P
P
Tn,2 diverge. Par continuite, Vg (bn )
Vg (), donc Un
+. Le terme Vn diverge de
meme, mais on ne peut pas controler son signe. Il reste `a verifier que Vn est petit devant
8.3
Test
Situation et notations
On suppose pour simplifier que E n est engendree par un n-echantillon
X1 , . . . , Xn
de variables aleatoires reelles, dont la loi appartient `a la famille P , , avec
Rd , d 1, dominee par une mesure -finie sur R. On note {f (, ), } la
famille de densites associees. On teste H0 : 0 contre H1 : 1 , avec 0 1 = .
La statistique
n
X
i=1
log f (1 , Xi )
n
X
i=1
log f (0 , Xi ),
8.3 Test
197
e n (X1 , . . . , Xn ) = sup
n
X
log f (, Xi ) sup
1 i=1
n
X
log f (, Xi )
0 i=1
n = sup
n
X
log f (, Xi ) sup
i=1
= log
n
X
log f (0 , Xi )
0 i=1
sup L(, X1 , . . . , Xn )
,
sup0 L(, X1 , . . . , Xn )
o`
u le supremum au numerateur est evalue sur tout lespace des param`etres. On peut se
convaincre au moins heuristiquement que cette approche est raisonnable si le mod`ele
est suffisamment regulier. Dans ce cas, si 1 , sous P , la quantite qui atteint le
maximum pour le numerateur est lestimateur du maximum de vraisemblance bnmv qui
converge vers 1 .
D
efinition 8.4. On appelle n la
8.3.1
198
Tests asymptotiques
n comme
n
X
mv
`(bn,0
, Xi ) `(bnmv , Xi )
i=1
n
X
n
T
X
mv
mv T
mv
bnmv ) 12 (bnmv bn,0
`(bnmv , Xi ) (bn,0
)
H`(,Xi ) [en ] (bnmv bn,0
)
i=1
i=1
mv T
= 12 (bnmv bn,0
)
n
X
mv
H`(,Xi ) [en ] (bnmv bn,0
),
i=1
mv et
b mv et H`(,X ) [] designe la matrice hessienne de la
o`
u en est un point entre bn,0
n
i
fonction ; `(, Xi ) au point . Le terme dordre 1 disparat par definition du maximum
de vraisemblance
(d`es que bnmv ). Sous les hypoth`eses de regularite sur le mod`ele
P , , si 0 , on a les convergences
d
mv
n bn,0
N 0, I1 () en loi sous P , 0 ,
o`
u I1 () designe linverse de la matrice dinformation de Fisher du mod`ele
et on a toujours
d
n bnmv N 0, I1 () en loi sous P .
(8.6)
P , ,
(8.7)
mv ) est born
Donc la suite de vecteurs n(bnmv bn,0
ee en probabilite sous P , 0 . Par
ailleurs, on a toujours la convergence
n
1X
P
H`(,Xi ) []
I(), 0
n
(8.8)
i=1
(composante par composante) par la loi des grands nombres. On en deduit le resultat
suivant :
Proposition 8.3. Si lexperience statistique est reguli`ere au sens du Chapitre 6, pour
tout 0 (cest-`
a-dire en se placant sous lhypoth`ese H0 ), on a les approximations
suivantes
T
T
n = 1 n b mv I() n b mv + n
2
et aussi
n =
1
2
n,0
mv
n bn,0
n,0
T
T
mv
I(bnmv ) n bn,0
+ 0n
o`
u n et 0n sont deux suites qui tendent vers 0 en probabilite sous P pour tout 0 .
8.3 Test
199
Demonstration. La premi`ere approximation est simplement une combinaison des estimations precedentes : on ecrit
mv T
(bnmv bn,0
)
n
X
mv
H`(,Xi ) [en ] (bnmv bn,0
)
i=1
mv T
n(bnmv bn,0
)
n
1 X
mv
),
H`(,Xi ) [en ] n(bnmv bn,0
i=1
et on utilise dune part le fait que le terme du milieu converge en probabilite vers I1 ()
via (8.8) en utilisant le fait que en est proche de (nous omettons les details), et dautre
mv ) est born
part que la suite n(bnmv bn,0
ee en P probabilite pour 0 par (8.6) et
(8.7).
La seconde approximation est simplement une consequence de la Proposition 1.8
(Slutsky).
mv ne sont pas les m
emes en general. Un
Remarque 8.6. Les estimateurs bnmv et bn,0
exemple classique rencontre aussi en regression est celui de lexperience statistique
engendree par un n-echantilllon de loi N (, 2 ), avec = (, 2 ) = R R+ \{0}.
Alors, si 0 = { , = 0}, on a
mv
bn,0
= 0, n1
n
X
Xi2 , alors que
bnmv = X n , n1
i=1
8.3.2
n
X
2
Xi2 X n .
i=1
mv
Tn2 = n bnmv 0 I(bnmv ) n bn,0
.
mv = . Dapr`
Par ailleurs, puisque lhypoth`ese nulle H0 est simple, on a bn,0
es la Propo0
sition 8.3, on deduit
Tn2 = 2n + n ,
(8.9)
o`
u n tend vers 0 en probabilite sous P0 .
En conclusion, dans le cas dune hypoth`ese nulle simple, la statistique de Wald associee
`a lestimateur du maximum de vraisemblance et la statistique du rapport de vraisemblance maximal sont asymptotiquement equivalentes. On en deduit immediatement que
200
Tests asymptotiques
8.3.3
R
esultat g
en
eral pour le rapport de vraisemblance maximal?
Dans le cas dune hypoth`ese nulle simple 0 = {0 }, nous venons de voir par
lequivalence asymptotique avec la statistique de Wald associee `a lestimateur du maximum de vraisemblance que la statistique 2n suit asymptotiquement la loi du 2 `
ad
degres de liberte. Ici, grace `a la Propostion 8.1, le degre d doit etre compris comme le
rang de la differentielle de Jg (), qui dans le cas trivial g() = 0 est maximal.
Ce resultat se generalise. On suppose que 0 peut secrire sous la forme
0 = , g() = 0
o`
u lapplication
g : Rd Rm
est reguli`ere au sens de lHypoth`ese 8.1, cest-`a-dire contin
ument differentiable, sa differentielle etant de rang maximal m en tout point de (linterieur de) 0 .
Proposition 8.4. Si lexperience statistique est reguli`ere au sens du Chapitre 6, sous
lHypoth`ese 8.1, pour tout point (dans linterieur) de 0 (ou si 0 est reduit `
a un
point), cest-`
a-dire tel que g() = 0, on a
d
2n 2 (m).
Nous admettons ce resultat. On en deduit un test asymptotiquement de niveau
defini par la region critique
2
Rn, = 2n q1,m
,
2
o`
u q1,m
est le quantile dordre 1 de la loi du 2 `a m degres de liberte.
8.4 Tests du 2
8.4
201
Tests du 2
Notation et pr
eliminaire
Si X une variable qualitative pouvant prendre d valeurs distinctes, on note {1, . . . , d}
lensemble de ses valeurs pour simplifier. En toute generalite, la loi de X secrit
P X = ` = p` , ` = 1, . . . , d
P
avec 0 p` 1 et d`=1 p` = 1, et le vecteur p = (p1 , . . . , pd )T caracterise la loi de X.
Desormais, nous identifions les lois de probabilites prenant d valeurs avec les vecteurs p
de lensemble
Md =
p = (p1 , . . . , pd )T , 0 p` 1,
d
X
o
p` = 1 .
`=1
8.4.1
Test dad
equation du 2
On observe un n-echantillon
X1 , . . . , Xn
de loi p Md inconnue et on teste lhypoth`ese
H0 : p = q, contre H1 : p 6= q
o`
u q Md est une loi donnee. Lexperience statistique associee `a lobservation secrit
E n = {1, . . . , d}n , P({1, . . . , d}n ), Pnp , p Md ,
o`
u Pnp est la loi 3 dun n-echantillon de loi p.
Pour construire un test, une idee immediate est de comparer les frequences empiriques
n
pbn,`
1X
=
1Xi =` , ` = 1, . . . , d
n
(8.10)
i=1
(8.11)
pbn,d pd T
pbn,1 p1
U n (p) = n
,...,
p1
pd
3. Dans cette section, p Md remplacera lecriture habituelle .
202
Tests asymptotiques
qui est bien defini si toutes les composantes de p sont non nulles, ainsi que sa norme au
carre
2
d
X
pbn,` p`
2
kU n (p)k = n
.
p`
`=1
Par le theor`eme central limite, chaque composante de U n converge en loi vers une
gaussienne centree reduite, mais ceci ne permet pas den deduire la convergence en loi
vectorielle (et donc pas non plus celle de kU n k2 , utile pour construire un test), puisque
les variables aleatoires pb`,n ne sont pas independantes. Le resultat suivant precise la
convergence
Proposition 8.5. Si les composantes de p sont toutes non nulles, alors
d
U n (p) N 0, V (p) ,
o`
u V (p) = Idd
(8.12)
p( p) , et p = ( p1 , . . . , pd )T . De plus
d
kU n (p)k2 2 (d 1),
(8.13)
o`
u 2 (d 1) designe la loi du 2 `
a d 1 degres de liberte.
Demonstration. Pour i = 1, . . . , n et 1 ` d, posons
1
Y`i = (1{Xi =`} p` ).
p`
La suite de vecteurs Y i = (Y1i , . . . , Ydi ) est independante et de meme loi, car chaque
terme Y i ne fait intervenir que la variable Xi et les Xi sont independantes et de meme
loi. Notons que
n
1 X
U n (p) =
Yi.
n
i=1
De plus,
2
2
E Y`i = 0, E (Y`i )2 = p1
` (p` 2p` + p` ) = 1 p` ,
et pour ` 6= `0 ,
E Y`i Y`i0 = (p` p`0 )1/2 (0 2p` p`0 + p` p`0 ) = (p` p`0 )1/2 .
On applique alors le theor`eme central limite vectoriel 1.4 du Chapitre 1. On obtient la
convergence (8.12).
Pour la convergence (8.13), par continuite du carre de la norme, on a
2
d
kU n (p)k2
N 0, V (p)
2 Rang V (p) ,
8.4 Tests du 2
203
la derni`ere egalite en loi etant une application de la Proposition 1.1 (Cochran). En effet, la
matrice V (p) = Idd p p est la matrice de la projection orthogonale sur lorthogonal
de lespace vectoriel
de dimension 1 engendre par le vecteur p. On verifie aussi que lon
a bien Rang V (p) = d 1, do`
u le resultat.
D
efinition 8.5 (distance du 2 ). Si p, q Md et les coefficients q sont tous non nuls,
on appelle distance du 2 entre les lois p et q la quantite
2 (p, q) =
d
X
(p` q` )2
`=1
q`
bn = (b
Notons p
pn,1 , . . . , pbn,d )T . La Definition 8.5 est motivee par lidentite
bn , p .
kU n (p)k2 = n2 p
Remarque 8.9. Le terme distance est manifestement impropre, puisque quen
general on a 2 (p, q) 6= 2 (q, p). Toutefois, on a la propriete essentielle
2 (p, q) = 0 p = q .
Avec ces notations et la Proposition 8.5, on en deduit le test suivant, appele test
dadequation du 2 .
Proposition 8.6. Soit q Md une loi donnee dont les coefficients sont tous non nuls.
Pour tout (0, 1), le test defini par la zone de rejet
o
n
2
bn , q q1,d1
,
Rn, = n2 p
2
o`
u q1,d1
est le quantile de la loi du 2 `
a d 1 degres de liberte, est asymptotiquement
de niveau et consistant.
204
Tests asymptotiques
16
16
16
= 0, 47.
2
= 0, 7815 et puisque
Pour le niveau = 5%, la valeur critique de rejet du test est q1,3
0, 47 < 0, 7815, on accepte H0 . On peut aussi calculer la p-valeur du test 4 . Dans un cadre
asymptotique, si Z 2 (3) est distribuee selon la loi du 2 avec 3 degres de liberte, on
a donc (voir Proposition 7.1)
p valeur = Pq Z > 0, 47 = 0, 93,
8.4.2
Test du 2 dind
ependance?
8.4 Tests du 2
205
= arg max
d
X
nb
pn,` log p` ().
`=1
n
Y
pXi ,
p = (p1 , . . . , pd )T ,
i=1
P
mais cette formule nest pas tr`es exploitable. En notant N` = ni=1 1{Xi =`} , on a une
correspondance univoque entre (X1 , . . . , Xn ) et (N1 , . . . , Nd ) puisque les Xi ne prennent
quun nombre fini de valeurs. Ceci permet de reecrire la loi du vecteur (X1 , . . . , Xn ) `a
laide de (N1 , . . . , Nd ).
P
P
Pour tous x1 , . . . , xn {1 . . . , d}, avec ni=1 xi = n et en notant n` = ni=1 1{xi =`} ,
on a
Pp X1 = x1 , . . . , Xn = xn = Pp N1 = n1 , . . . , Nd = nd
d
Y n
n!
p` i .
n1 ! nd !
`=1
d
X
`=1
N` log p` ,
(8.15)
206
Tests asymptotiques
o`
u c(X1 , . . . , Xn ) est une constante qui ne depend pas de p. Donc maximiser la logvraisemblance revient `
a chercher le maximum de
(p1 , . . . , pd ) ;
d
X
i=1
d
X
pi = 1.
i=1
On peut diviser cette fonction par n sans changer le probl`eme. Alors, en notant la
fonction de comptage sur {1, . . . , d} et f (x) = Nx /n pour x {1, . . . , d, on cherche `
a
maximiser
Z
g ; f (x) log g(x)(dx)
avec f et g des densites par rapport `a . Le Lemme 4.4.1 (inegalite dentropie) donne
la solution g = f , soit p` = N` /n = pbn,` . La deuxi`eme partie du lemme decoule de la
representation (8.15) de la log-vraisemblance.
On a le resultat remarquable suivant
Proposition 8.7. Si n designe la statistique du rapport de vraisemblance maximal
defini en (8.4), on a, pour tout point p Md
bmv
2n = n2 p
nmv ) + n ,
n , p(b
o`
u n tend vers 0 en probabilite sous Pp pour tout p M0 .
Demonstration. On reprend les notations de la preuve du Lemme 8.4.1. On a
2n =
d
X
N` log(N` /n)
log p` (b
nmv )
=2
d
X
N` log
`=1
`=1
N`
.
np` (b
nmv )
N`
n
Pp
p(b
nmv )) p().
p(b
), on ecrit le developpement de Taylor du logarithme `
a lordre
d
X
n,`
p` (b
nmv )
`=1
!
2
d
X
1
n,`
n,`
= 2n
1 + op (1)
n,` + p` (b
nmv )
p` (b
nmv ) 2 p` (b
nmv )
`=1
!
d
2
X
1 3n,`
1 n,`
= 2n
n,` +
1 + op (1)
1 + op (1) ,
2 p` (b
nmv )
2 p` (b
nmv )2
2n = 2n
`=1
n,` + p` (b
nmv ) log 1 +
8.4 Tests du 2
207
o`
u op (1) designe une suite de variables aleatoires qui tend vers 0 en probabilite sous Pp .
Les N` /n et lesPp` (b
nmv ) sont des frequences empiriques, donc leur somme en ` vaut 1
d
pour chacun do`
u `=1 n,` = 0. On en deduit
2n = n
d
X
`=1
d
X
2n,`
p` (b
nmv )
+ n
2
N` /n p` (b
nmv )
=n
+ n
p` (b
nmv )
`=1
bnmv , p(b
= n2 p
nmv ) + n ,
o`
u n est une suite de variables aleatoires qui tend vers 0 en probabilite sous Pp .
Ce developpement asymptotique permet de construire le test suivant
Proposition 8.8. Si ; p() est reguli`ere et de dimension m, on a pour tout point
de lhypoth`ese p (Md )0 ,
d
bnmv , p(b
n2 p
nmv ) 2 (d m 1).
En particulier, le test defini par la zone de rejet
2
bnmv , p(b
Rn, = n2 p
nmv ) q1,dm1
(8.16)
Nous admettons ce resultat. On pourra consulter van der Vaart [10] ou Borovkov [1]
pour une preuve et des complements.
D
efinition 8.6 (Test du 2 avec param`etres estimes). On appelle test du 2 avec param`etres estimes le test de zone de rejet definie par (8.16).
Application au test dind
ependance
Un cas tr`es classique du test du 2 avec param`etres estimes est celui du test dindependance. On observe un n-echantillon
(X1 , Y1 ), . . . , (Xn , Yn )
(8.17)
o`
u les variables Xi et Yi sont qualitatives, prenant respectivement `a d1 et d2 valeurs
possibles. La loi p du couple (X, Y ) est `a valeurs dans
o
n
X
0
0
0
0
p`,` = 1 .
Md1 ,d2 = p = (p`,` )1`d1 ,1` d2 , 0 p`,` 1,
`,`0
208
Tests asymptotiques
d2
X
p`,`0 , p,`0 =
`0 =1
d1
X
p`,`0 .
`=1
contre lalternative
H1 : `, `0 ,
et donc (Md1 ,d2 )0 = p = p(), o`
u Rm avec m = d1 + d2 2 et la
parametrisation est reguli`ere. On applique alors les resultats de la section precedente
avec m = d1 + d2 2 < d1 d2 1. Il nous faut pour cela connatre lestimateur du
maximum de vraisemblance sur (Md1 ,d2 )0 .
Lemme 8.4.2. Pour la famille p, p (Md1 ,d2 )0 , lestimateur du maximum de vraimv
bn,0
semblance p
secrit
mv
pbn,0
= pbn,(`,) pbn,(,`0 )
`,`0
pour 1 ` d1 , 1 `0 d2 , avec
pbn,(`,) =
i=1
i=1
1X
1X
1{Xi =`} et pbn,(,`0 ) =
1{Yi =`0 }
n
n
les frequences empiriques marginales, qui sont aussi les estimateurs de maximum de
vraisemblance correspondants aux familles des lois marginales dapr`es le Lemme 8.4.1.
Demonstration. Cest essentiellement la meme preuve que celle du Lemme 8.4.1. Si p
(Md1 ,d2 )0 , les variables aleatoires Xi et Yi sont independantes, et la vraisemblance secrit
n
n
n
Y
Y
Y
pXi ,
p,Yi .
Ln p, (X1 , Y1 ), . . . (Xn , Yn ) =
pXi , p,Yi =
i=1
i=1
i=1
8.4 Tests du 2
En notant N`X =
obtient
209
P`
et N`0 =
Pn
et en passant au logarithme, on
d1
X
`=1
d2
X
`0 =1
o`
u c(X1 , . . . , Xn , Y1 , . . . , Yn ) ne depend pas de p, et on raisonne comme pour le Lemme
8.4.1 en remplacant {1, . . . , d} par {1, . . . , d1 + d2 }.
bnmv
Par ailleurs, le Lemme
8.4.1 donne lestimateur du maximum de vraisemblance p
pour la famille globale p, p Md1 ,d2 qui est lestimateur des frequences empiriques
n
(b
pn )`,`0
1X
1{(Xi ,Yi )=(`,`0 )}
=
n
i=1
pour 1 ` d1 , 1 `0 d2 .
Alors, comme precedemment, sous lhypoth`ese nulle, cest-`a-dire pour p (Md1 ,d2 )0
on a la convergence
d
mv
bnmv , p
bn,0
n2 p
2 (d1 1)(d2 1)
en loi sous Pp . En particulier, la statistique de test secrit
2
pn )`,`0 pbn,(`,) pbn,(,`0 )
X (b
mv
bnmv , p
bn,0
n2 p
=n
.
pbn,(`,) pbn,(,`0 )
0
`,`
Proposition 8.9 (Test dindependance du 2 ). Pour tout (0, 1), le test defini par
la zone de rejet
n
o
2
mv
bnmv , p
bn,0
q1,(d
,
Rn, = n2 p
1 1)(d2 1)
2
o`
u q1,(d
est le quantile dordre de la loi du 2 `
a (d1 1)(d2 1) degres de
1 1)(d2 1)
liberte est asymptotiquement de niveau et consistant.
Nous admettons la demonstration de ce resultat qui est essentiellement une application de la Proposition 8.8.
Exemple 8.2. On test lindependance entre le nombre denfants dun menage et son
revenu 7 sur une population de n = 25263 menages en Su`ede au milieu du si`ecle passe.
Les menages sont classes en 4 categories selon leur revenus : la categorie I correspond
aux revenus les plus faibles et la categorie IV aux revenus les plus eleves. Les resultats
obtenus sont les suivants :
7. Dapr`es [1], p. 354.
210
Tests asymptotiques
nb. enfants
0
1
2
3
4
pop.
I
2161
2755
936
225
39
6116
II
3577
5081
1753
419
98
10928
III
2184
2222
640
96
31
5173
IV
1636
1052
306
38
14
3016
pop.
9558
11110
3635
778
182
25263
Bibliographie
[1] Borovkov, A. A. Mathematical statistics (traduit du russe). Gordon and Breach
science publishers, 1998.
ements de statistique asymptotique.
[2] Genon-Catalot, V., et Picard, D. El
Mathematiques & Applications. Springer-Verlag, Paris, 1993.
[3] Ibragimov, I. A., et Hasminskii, R. Z. Statistical Estimation, Asymptotic Theory.
New-York, Berlin, 1981.
[4] Jacod, J. et Protter, P. Probability essentials. Seconde edition. Universitext.
Springer-Verlag, Berlin, 2003.
de lEcole
polytechnique.
[10] van der Vaart, A. Asymptotic statistics. Cambridge Series in Statistical and Probabilistic Mathematics, 3. Cambridge University Press, Cambridge, 1998.
[11] Wasserman, L. All of statistics. A concise course in statistical inference. Springer
Texts in Statistics. Springer-Verlag, New York, 2004.
Index
M -estimateur, 85
Z-estimateur, 84
2 , loi du, 16
2 , test du, 199
p -valeur, 176
ecart-type, 8
equi-invariance, 97
bruit , innovation, 106
design al
eatoire, 105
design d
eterministe, 107
distribution, 3
distribution empirique, 69
DKV, inegalite de, 62
domination, 74
efficace, estimateur, 131
efficacite asymptotique, 147
esperance, 8
estimateur, 48
exhaustivite, 153
exponentielle, loi, 5
INDEX
213
mediane, 11
methode delta, 24
maximum de vraisemblance, 144
minimax, optimalite, 134
mod`ele de regression, 105
mod`ele multinomial, 203
moindres carres, estimateur des, 111, 114
moment, estimateur, 79
moments generalises, estimateur des, 84
moments, methode des, 78
monotone, rapport de vraisemblance, 171
moyenne, 8
multinomiale, 78
uniforme, loi, 5
variance, 8
vraisemblance, equations de, 96
vraisemblance, contraste de, 103
vraisemblance, estimateur du maximum de,
92
vraisemblance, fonction de, 92
vraisemblance, log, 93
Wald, test de, 192