Cours Statistiques
Cours Statistiques
Statistique
Arnaud Guyader
Table des matières
1 Modélisation statistique 1
1.1 Probabilités : rappels et compléments . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Majorations classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.3 Théorèmes asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.4 Opérations sur les limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.5 Absolue continuité et densités . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 Les problèmes statistiques classiques . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3.3 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2 Estimation unidimensionnelle 39
2.1 Quantités empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.1.1 Moyenne et variance empiriques . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.1.2 Fonction de répartition et quantiles empiriques . . . . . . . . . . . . . . . . 42
2.2 Estimation paramétrique unidimensionnelle . . . . . . . . . . . . . . . . . . . . . . 54
2.2.1 La méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.2.2 Le maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3 Comparaison d’estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.3.1 Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.3.2 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.3.3 Inégalité de l’Information et borne de Cramér-Rao . . . . . . . . . . . . . . 81
2.3.4 Efficacité asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
i
Chapitre 1
Modélisation statistique
Introduction
Considérons un exemple jouet qui servira de fil rouge dans tout ce chapitre. Une pièce a été lancée
n fois de suite : à l’issue de cette expérience, on dispose donc du n-uplet (x1 , . . . , xn ) avec la
convention xi = 0 si le i-ème lancer a donné Face et xi = 1 pour Pile. Les valeurs xi peuvent
ainsi être considérées comme des réalisations de variables aléatoires X1 , . . . , Xn indépendantes et
identiquement distribuées (en abrégé : i.i.d.) selon la loi de Bernoulli de paramètre θ, ce que l’on
notera
i.i.d.
(X1 , . . . , Xn ) ∼ B(θ),
Il n’en reste pas moins que les outils utilisés dans les deux domaines sont rigoureusement les
mêmes : loi des grands nombres, théorème central limite, inégalités classiques, modes de conver-
gence stochastique, etc. Pour la plupart, ceux-ci ont déjà été vus en cours de probabilités et nous
nous contenterons donc de les rappeler brièvement.
probabilité que la variable X tombe dans l’ensemble B. Cette loi est complètement déterminée par
un objet bien plus simple et maniable : la fonction de répartition FX , définie pour tout réel x par
1
2 Chapitre 1. Modélisation statistique
probabilité que la variable X tombe au-dessous de x. Rappelons que cette fonction est croissante,
a pour limites respectives 0 et 1 en −∞ et +∞, et est continue à droite. Elle admet un nombre
au plus dénombrable de discontinuités et on a pour tout réel x0
P(X = x0 ) = FX (x0 ) − FX (x−
0 ) = FX (x0 ) − lim FX (x).
x→x0 ,x<x0
0.4 1.00
0.3 0.75
0.2 0.50
0.1 0.25
0.0 0.00
−4 −2 0 2 4 −4 −2 0 2 4
si
∀ε > 0 P (|Xn − X| ≥ ε) −−−→ 0.
n→∞
On dit que la suite (Xn ) converge presque sûrement vers la variable aléatoire X et on note
p.s.
Xn −−−→ X
n→∞
si ³ ´ ³n o´
P lim Xn = X := P ω ∈ Ω : lim Xn (ω) = X(ω) = 1.
n→∞ n→∞
La convergence en probabilité dit que, si n est grand, Xn est proche de X avec grande probabilité.
Si l’on voit une variable aléatoire comme une fonction de Ω dans R, la convergence presque sûre
peut quant à elle être considérée comme une version stochastique de la convergence simple d’une
suite de fonctions vue en cours d’analyse. Elle implique la convergence en probabilité 1 :
p.s. P
Xn −−−→ X =⇒ Xn −−−→ X.
n→∞ n→∞
Très souvent, un résultat de convergence presque sûre se déduit directement de la loi forte des
grands nombres (cf. Section 1.1.3, Théorème 2) ou se démontre par l’intermédiaire du Lemme de
Borel-Cantelli. Celui-ci assure en effet que si pour tout ε > 0
∞
X
P (|Xn − X| ≥ ε) < ∞,
n=1
alors (Xn ) converge presque sûrement vers X (en notant Aεn := {|Xn − X| ≥ ε}, on voit que
{limn→∞ Xn 6= X} = ∪ε lim sup Aεn , or la convergence de la série assure que P(lim sup Aεn ) = 0 et
on conclut par sous-sigma-additivité).
Passons maintenant à la convergence en loi, d’usage constant en statistique en raison du Théo-
rème Central Limite. Nous ne donnons ici qu’une des nombreuses caractérisations de ce mode de
convergence (cf. par exemple le Théorème porte-manteau).
Dans cette définition, on peut remplacer « pour toute fonction continue et bornée » par « pour
toute fonction C ∞ à support compact ».
Attention : contrairement aux convergences en probabilité et presque sûre, elle concerne la conver-
gence d’une suite de lois, non la convergence d’une suite de variables ! Du reste, la définition ne
suppose même pas que les variables sont définies sur le même espace probabilisé.
Exemple et Notation : si, pour tout n, Xn = X ∼ N (0, 1), alors par symétrie de la loi normale
il vient X ′ = −X ∼ N (0, 1), donc
L
Xn = X −−−→ X ′ = −X,
n→∞
1. Noter que P(|Xn − X| ≥ ε) = E[1{|Xn −X|≥ε} ] et appliquer la convergence dominée à Yn = 1{|Xn −X|≥ε} .
mais il n’y a bien sûr pas convergence en probabilité de (Xn ) = X vers X ′ = −X. Afin de mettre
en évidence le fait que c’est la suite des lois des Xn qui converge, on utilisera souvent l’abus de
notation consistant à mettre une loi à la limite. Dans cet exemple, on pourra ainsi écrire
L
Xn −−−→ N (0, 1).
n→∞
Le critère de la définition ci-dessus n’est pas forcément facile à vérifier. Il en existe un parfois plus
commode, qui consiste à établir la convergence simple de la suite des fonctions de répartition.
Exemple : Soit (Xn ) une suite de variables aléatoires de lois uniformes sur [−1/n; 1/n]. Pour
toute fonction ϕ continue et bornée, le théorème de convergence dominée donne :
Z Z
n 1/n 1 1
E[ϕ(Xn )] = ϕ(x)dx = ϕ(u/n)du −−−→ ϕ(0),
2 −1/n 2 −1 n→∞
ce qui prouve que la suite (Xn ) converge en loi vers un Dirac en 0, c’est-à-dire vers X constante
presque sûrement égale à 0, dont la fonction de répartition est FX (x) = 1x≥0 . Ce résultat
peut se voir grâce au critère précédent : la suite de fonctions de répartitions FXn (x) = 12 (1 +
nx)1[−1/n;1/n[ (x) + 1[1/n;∞[ (x) converge en effet vers FX (x) = 1x≥0 pour tout x 6= 0, c’est-à-dire
en tout point de continuité de FX . En revanche, on voit que pour tout n, FXn (0) = 1/2 qui ne
tend pas vers FX (0) = 1.
Remarque : Supposons les variables Xn et X absolument continues de densités respectives fn
et f , alors pour que Xn converge en loi vers X, il suffit que fn converge presque partout vers f .
Cette condition n’est cependant pas nécessaire : il suffit pour s’en convaincre de considérer la suite
de variables Xn de densités fn (x) = (1 − cos(2πnx))1[0,1] (x) pour n ≥ 1, qui tend en loi vers une
uniforme sur [0, 1] (cf. fonctions de répartition) bien que fn (x) ne converge pour aucun x de ]0, 1[.
Notation : pour a < b, nous noterons (a, b) l’intervalle allant de a à b sans préciser si les extrémités
y appartiennent ou non (donc quatre situations possibles). Noter que ceci ne correspond pas à la
notation anglo-saxonne, pour laquelle une parenthèse est un crochet ouvert.
Exemple : supposons que (Xn ) converge en loi vers X, avec a et b des points de continuité de
FX , alors on peut montrer, par exemple grâce au Théorème porte-manteau, que
Ceci marche en particulier lorsque X est une variable gaussienne, ce qui sera très souvent le cas
pour la convergence en loi.
Si la fonction de répartition de la loi limite est continue sur R, la convergence en loi équivaut donc
à la convergence simple de la suite des fonctions de répartition. Le résultat suivant, donné à titre
culturel, montre qu’on a en fait convergence uniforme.
A nouveau, ce résultat s’applique en particulier lorsqu’il y a convergence vers une loi normale. Il
correspond en fait au deuxième théorème de Dini appliqué à notre cadre.
Notons enfin que le critère des fonctions de répartition pour vérifier la convergence en loi est
pratique lorsque Xn s’écrit comme le minimum ou le maximum de variables aléatoires indépen-
dantes. Une autre façon de vérifier la convergence en loi est de passer par les fonctions caractéris-
tiques. Rappelons que la fonction caractéristique d’une variable aléatoire X est la fonction
ΦX : R → C £ ¤
t 7→ ΦX (t) = E eitX = E[cos(tX)] + iE[sin(tX)]
Comme son nom l’indique, elle caractérise la loi d’une variable, au sens où X et Y ont même
loi si et seulement si ΦX = ΦY . On a alors l’équivalent de la Proposition 1, c’est-à-dire que la
convergence en loi se ramène à la convergence simple d’une suite de fonctions.
Ce critère de Paul Lévy est en particulier efficace lorsqu’on a affaire à des sommes de variables
aléatoires indépendantes, la fonction caractéristique de la somme étant alors tout simplement égale
au produit des fonctions caractéristiques :
X ⊥ Y ⇐⇒ ΦX+Y = ΦX × ΦY .
Exemple : dans l’exemple introductif, la variable correspondant au nombre de Pile sur les n
lancers s’écrit
i.i.d.
Sn = X1 + · · · + Xn avec (X1 , . . . , Xn ) ∼ B(θ).
En appliquant la définition de la fonction caractéristique, on trouve pour la variable X1 :
Puisque Sn suit une loi binomiale B(n, θ), on a en fait obtenu la fonction caratéristique de la loi
binomiale.
Noter qu’on a en fait démontré mieux, à savoir la convergence en moyenne quadratique de (θ̂n )
vers θ puisque ·³ ´2 ¸ Var(Sn ) θ(1 − θ)
E θ̂n − θ = Var(θ̂n ) = = −−−→ 0.
n2 n n→∞
d’où il vient µ ¶
2c2
P (|Sn − E[Sn ]| ≥ c) ≤ 2 exp − Pn 2
.
i=1 (bi − ai )
Si en plus d’être indépendantes, les variables Xi ont même loi, alors on peut prendre ai = a, bi = b
et en remplaçant c par cn, on en déduit une majoration de l’écart entre la moyenne empirique et
la moyenne théorique. Précisément, en notant m = E[X1 ], on obtient
µ¯ ¯ ¶ µ ¶
¯ Sn ¯ 2c2 n
P ¯¯ − m¯¯ ≥ c ≤ 2 exp − .
n (b − a)2
laquelle est meilleure que celle de Tchebychev vue en (1.1) dès que c2 n ≥ 1, 08 (voir Figure 1.2).
En particulier, pour tout c > 0, on voit que
∞
X ³¯ ¯ ´
¯ ¯
P ¯θ̂n − θ¯ ≥ c < ∞,
n=1
Cette ruse aussi simple que puissante est connue sous le nom de méthode de Chernoff.
0.6
0.4 Hoeffding
Tchebychev
0.2
On parle de Loi Forte des Grands Nombres pour la convergence presque sûre et de Loi faible des
Grands Nombres pour la convergence en probabilité.
Si l’on suppose que les Xi admettent un moment d’ordre 2, donc une variance σ 2 < +∞, alors
la loi faible des grands nombres est une simple conséquence de l’inégalité de Tchebychev puisque,
pour tout ε > 0, µ¯ ¯ ¶
¯ Sn ¯ σ2
P ¯ ¯ ¯
− m¯ ≥ ε ≤ 2 −−−→ 0.
n ε n n→∞
Le résultat général du Théorème 2 montre que l’on n’a pas besoin de supposer l’existence d’un
moment d’ordre 2 pour avoir la convergence, laquelle a même lieu presque sûrement.
Exemple : dans notre exemple, les Xi étant effectivement i.i.d. avec E[X1 ] = θ, on retrouve bien
P & p.s.
θ̂n −−−−−→ θ.
n→∞
La Figure 1.3 (à gauche) représente une trajectoire (θ̂n ) pour une pièce déséquilibrée (2 fois plus
de chances de tomber sur Face que sur Pile).
Remarque : Si les variables aléatoires Xn n’ont pas d’espérance, la suite Sn /n connaît des va-
riations brusques et ne converge pas en général : ceci est illustré Figure 1.3 (à droite). On peut
néanmoins montrer que si les Xn sont i.i.d. positives avec E[X1 ] = +∞, alors Sn /n tend presque
sûrement vers +∞.
0.5 2.5
0.4
0.0
0.3
0.2
−2.5
0.1
0.0
0 250 500 750 1000 0 250 500 750 1000
Figure 1.3 – Gauche : deux réalisations de θ̂n pour 1 ≤ n ≤ 103 lorsque θ = 1/3. Droite : deux
réalisations de Sn /n lorsque les Xi suivent une loi de Cauchy.
En analyse, i.e. dans un cadre déterministe, une fois établi qu’une suite de nombres est convergente,
l’étape suivante consiste à déterminer la vitesse de convergence vers cette limite. On peut se poser
la même question dans un contexte stochastique. A quelle vitesse la suite de moyennes empiriques
(Sn /n) converge-t-elle vers la vraie moyenne m ? De façon générale, dès lors que les variables
admettent un moment d’ordre 2 (c’est-à-dire hormis pour les lois à queues lourdes de type Cauchy,
√
Pareto, etc.), cette vitesse est en 1/ n, comme le montre le Théorème Central Limite, second
grand résultat de convergence.
Remarques :
1. Noter que, par convention, le second paramètre de la gaussienne désignera toujours la va-
riance, non l’écart-type. Ceci n’est pas le cas pour tous les logiciels, par exemple R et Python
adoptent la convention inverse.
Le TCL nous dit que, si l’on additionne un grand nombre de variables i.i.d., cette somme s’approche
d’une gaussienne, donc de façon hautement non rigoureuse on écrirait que pour n “grand”,
n
X L
Sn = Xi ≈ N (nm, nσ 2 )
i=1
écriture que l’on rend rigoureuse en centrant (soustraction de nm), réduisant (division par l’écart-
√
type σ n) et en passant à la limite en loi, c’est-à-dire
Sn − nm L
√ −−−→ N (0, 1),
σ n n→∞
Figure 1.4 – Illustration du TCL via la convergence des fonctions de répartition Fn vers Φ pour
le Pile ou Face avec θ = 1/3 et respectivement n = 20, n = 100 et n = 500.
2. en fait quasi-universelle, puisqu’elle suppose que les Xi admettent un moment d’ordre 2. Si on lève cette
hypothèse, d’autres vitesses et d’autres lois limites apparaissent...
Cette convergence simple, qui est en fait uniforme via la Proposition 2, est illustrée Figure 1.4.
Supposons qu’on puisse appliquer le TCL avec la loi limite, alors avec un léger abus de notation,
on aurait ¯ √ ³ ´¯
¯ n θ̂ − θ ¯
¯ n ¯
P ¯¯ p ¯ ≥ c ≈ P (|N (0, 1)| ≥ c) = 2(1 − Φ(c)).
¯
¯ θ(1 − θ) ¯
Comme le montre la Figure 1.5, cette borne est toujours meilleure que celle donnée par l’inégalité
de Hoeffding vue précédemment, à savoir
µ¯ ¯ ¶ µ 2¶
¯ ¯ c c
P ¯θ̂n − θ¯ ≥ √ ≤ 2 exp − .
2 n 2
2.0
1.5
1.0
0.5
0.0
0 1 2 3
c
³¯ ¯ ´ ³ 2´
¯ ¯ c
Figure 1.5 – Majorations de P ¯θ̂n − θ¯ ≥ √
2 n
par 2 (1 − Φ(c)) (rouge) et 2 exp − c2 (noir).
(a) Si (Xn ) converge p.s. vers X, alors (g(Xn )) converge p.s. vers g(X).
(b) Si (Xn ) converge en probabilité vers X, alors (g(Xn )) converge en probabilité vers g(X).
(c) Si (Xn ) converge en loi vers X, alors (g(Xn )) converge en loi vers g(X).
Si g est continue sur R, aucun souci à se faire, mais cette condition est inutilement forte : ce qui
importe à la limite, c’est la continuité de g là où la variable X a des chances de tomber. Or la
condition P(X ∈ Dg ) = 0 assure justement que X ne tombe jamais là où g pose des problèmes, donc
tout se passe bien. C’est l’équivalent aléatoire du résultat bien connu sur les suites déterministes,
à savoir que si (xn ) converge vers L ∈ R et si g est continue en L alors (g(xn )) converge vers g(L) :
g n’a nullement besoin d’être continue partout. Ici la limite n’est plus déterministe, mais aléatoire,
donc il faut juste s’assurer du fait que g se comporte bien là où vit cette limite.
p
Exemple : Dans le jeu du Pile ou Face, puisque θ ∈]0, 1[, la fonction g : x 7→ 1/ qx(1 − x) est
continue en θ. Puisque (θ̂n ) converge presque sûrement vers θ, on en déduit que (1/ θ̂n (1 − θ̂n ))
p
converge presque sûrement vers 1/ θ(1 − θ). La multiplication par une constante étant aussi une
application continue, il s’ensuit que
p
θ(1 − θ) p.s.
q −−−→ 1.
n→∞
θ̂n (1 − θ̂n )
Nous avons vu en Section 1.1.1 que la convergence presque sûre implique la convergence en pro-
babilité. Quid du lien entre cette dernière et la convergence en loi ?
La réciproque est fausse en générale, mais vraie si la limite est une constante :
L P
Xn −−−→ a =⇒ Xn −−−→ a.
n→∞ n→∞
Bilan : on peut retenir que convergences p.s. et L2 impliquent toutes deux la convergence en
probabilités, laquelle implique la convergence en loi.
Dire que (Xn ) tend en loi vers la constante a signifie que la loi des Xn tend vers un Dirac au point
a, ou encore que pour toute fonction continue et bornée ϕ,
L L
Xn + Yn −−−→ X + a et Xn Yn −−−→ aX.
n→∞ n→∞
√ θ̂n − θ L
np −−−→ N (0, 1).
θ(1 − θ) n→∞
On aimerait en déduire des intervalles de confiance pour θ, mais ce n’est pas possible sous cette
forme car le dénominateur fait intervenir le paramètre θ inconnu. L’idée naturelle est de le remplacer
par son estimateur θ̂n et, par conséquent, de considérer la suite de variables
√ θ̂n − θ
nq .
θ̂n (1 − θ̂n )
Ceci permet de construire des intervalles de confiance asymptotiques, comme nous le verrons plus
loin.
Attention ! La convergence en loi n’est pas stable par addition. Soit X ∼ N (0, 1), Xn = Yn = X
pour tout n, et Y = −X, alors (Xn ) converge en loi vers X, (Yn ) converge en loi vers Y , mais
(Xn + Yn ) ne converge pas en loi vers X + Y = 0.
Le résultat suivant n’a rien d’étonnant et montre grosso modo qu’un TCL implique une convergence
√
en probabilité. Pour le prouver, il suffit de prendre Yn = 1/ n dans le Théorème de Slutsky.
Corollaire 2
Soit (Xn ) une suite de variables aléatoires, X une variable aléatoire et a un nombre réel tels que
√ L
n (Xn − a) −−−→ X,
n→∞
√
L’idée est la suivante : supposons par exemple que n (Xn − 1) tende en loi vers une gaussienne
centrée réduite et considérons par ailleurs une fonction g dérivable en 1, alors sans souci de rigueur
on écrirait
1
Xn ≈ 1 + √ N (0, 1) et g(1 + h) ≈ g(1) + g ′ (1)h
n
d’où
1 1
g(Xn ) ≈ g(1 + √ N (0, 1)) ≈ g(1) + g ′ (1) × √ N (0, 1),
n n
c’est-à-dire
√
n (g(Xn ) − g(1)) ≈ g ′ (1)N (0, 1) = N (0, (g ′ (1))2 ).
L
vn (Xn − a) −−−→ X.
n→∞
L
vn (g(Xn ) − g(a)) −−−→ g ′ (a)X.
n→∞
√
En particulier, si vn = n et X ∼ N (0, σ 2 ) alors
√ L
n (g(Xn ) − g(a)) −−−→ N (0, (σg ′ (a))2 ).
n→∞
P
Xn −−−→ a.
n→∞
Dire que g est dérivable en a signifie qu’il existe une fonction r telle que
avec limx→a r(x) = 0. En d’autres termes, la fonction r est prolongeable par continuité en a,
et ce en posant r(a) = 0. Puisque (Xn ) converge en probabilité vers a, on déduit du Théorème
de continuité que la suite (r(Xn )) converge en probabilité vers r(a) = 0. Nous avons donc le
développement limité aléatoire
avec
P
g ′ (a) + r(Xn ) −−−→ g ′ (a).
n→∞
L
vn (g(Xn ) − g(a)) = (g ′ (a) + r(Xn )) × vn (Xn − a) −−−→ g ′ (a)X.
n→∞
¥
La convergence en loi de la suite de variables aléatoires (1/θ̂n ) est alors une conséquence directe
de la méthode Delta : µ ¶
√ 1 1 L
n − −−−→ N (0, (1 − θ)/θ3 ).
θ̂n θ n→∞
′ ′
Remarque : si g (a) = 0, alors g (a)X = 0 et la loi limite est un Dirac en 0, ce qui nous apprend
√
seulement que g(Xn ) tend vers g(a) à vitesse plus rapide que 1/ n. Pour connaître la vitesse
effective, il suffit souvent, comme en analyse, de pousser le développement limité jusqu’au premier
√
terme non nul. Reprenons l’exemple où n (Xn − 1) tend en loi vers une gaussienne centrée réduite
avec cette fois g ′ (1) = 0 mais g ′′ (1) 6= 0. Alors, toujours sans souci de rigueur, on écrit
1 1
Xn ≈ 1 + √ N (0, 1) et g(1 + h) ≈ g(1) + g ′′ (1)h2
n 2
d’où µ ¶2
1 1 1
g(Xn ) ≈ g(1 + √ N (0, 1)) ≈ g(1) + g ′′ (1) √ N (0, 1) ,
n 2 n
c’est-à-dire, puisque le carré d’une loi N (0, 1) est une loi du khi-deux à un degré de liberté, notée
χ21 ,
g ′′ (1) 2
n (g(Xn ) − g(1)) ≈ χ1 .
2
En adaptant la preuve de la méthode Delta, on peut montrer rigoureusement que
2 L
n (g(Xn ) − g(1)) −−−→ χ21 .
g ′′ (1) n→∞
Deux exemples d’espaces mesurés nous intéresseront plus particulièrement dans tout ce cours, l’un
relatif aux variables discrètes, l’autre aux variables à densité.
Exemples :
1. Mesure de comptage : (E, E, µ) = (N, P(N), µ), où P(N) désigne l’ensemble de toutes les
parties de N et µ la mesure de comptage qui à un ensemble A associe son cardinal, noté |A|
et éventuellement infini. On peut décrire µ par l’intermédiaire des mesures de Dirac 4 δk :
+∞
X +∞
X
µ= δk =⇒ µ(A) = δk (A) = |A|.
k=0 k=0
Dans ce cadre, en munissant comme d’habitude R de la tribu borélienne B(R), toute fonction
P: N → R est (P(N), B(R))-mesurable et correspond à une suite (ϕ(n))n≥0 . Si la série
ϕ
n≥0 ϕ(n) est absolument convergente, la suite (ϕ(n))n≥0 est dite intégrable par rapport
à µ, d’intégrale la somme de la série :
Z ∞
X ∞
X
ϕ(x)µ(dx) = ϕ(n)µ({n}) = ϕ(n).
E n=0 n=0
2. Mesure de Lebesgue : (E, E, µ) = (R, B(R), λ), où λ est la mesure de Lebesgue qui à un
intervalle associe sa longueur, éventuellement infinie. Avec la notation (a, b) définie précé-
demment, ceci s’écrit :
−∞ ≤ a ≤ b ≤ +∞ =⇒ λ((a, b)) = b − a,
Ces deux mesures ne sont pas finies puisque µ(N) = λ(R) = ∞, mais elles sont σ-finies.
Exemples :
1. Mesure de comptage : il suffit de prendre En = {0, . . . , n}.
2. Mesure de Lebesgue : les intervalles En = [−n, n] font l’affaire.
3. L’ensemble des réels n’étant pas dénombrable, la mesure de comptage sur (R, B(R)) n’est
pas σ-finie.
L’absolue continuité correspond à une relation de préordre (réflexivité et transitivité) entre mesures.
Lorsque les mesures λ et µ sont σ-finies, on retrouve la notion de densité de µ par rapport à λ,
bien connue pour les variables aléatoires.
Théorème 7 (Radon-Nikodym)
Soit (E, E) un espace mesurable, λ et µ deux mesures positives σ-finies sur cet espace. Si µ est
absolument continue par rapport à λ, alors µ a une densité par rapport à λ, c’est-à-dire qu’il existe
une fonction f mesurable et positive, notée f = dµ/dλ, telle que pour toute fonction µ-intégrable
ϕ, on ait Z Z Z
dµ
ϕ(x)µ(dx) = ϕ(x) (x)λ(dx) = ϕ(x)f (x)λ(dx).
E E dλ E
autrement dit
∞
X ∞
X
ϕ(n)P(X = n) = ϕ(n)f (n).
n=0 n=0
En prenant comme fonctions tests ϕk (n) = 1k (n), on en déduit que la densité f (n) au
point n n’est rien d’autre que P(X = n). Sous réserve d’intégrabilité, on retrouve ainsi que
l’espérance de la variable aléatoire ϕ(X) s’écrit
∞
X ∞
X ∞
X
E[ϕ(X)] := ϕ(n)PX ({n}) = ϕ(n)P(X = n)µ({n}) = ϕ(n)P(X = n).
n=0 n=0 n=0
Par exemple, la loi de Bernoulli de paramètre θ est Pθ = (1 − θ)δ0 + θδ1 , qui est absolument
continue par rapport à la mesure de comptage sur N, et même par rapport à la mesure de
comptage sur {0, 1}.
2. Mesure de Lebesgue : une variable aléatoire réelle est dite absolument continue (sous-
entendu : par rapport à la mesure de Lebesgue) ou à densité (même sous-entendu) s’il
existe une fonction f borélienne positive d’intégrale 1 par rapport à la mesure de Lebesgue
λ(dx) = dx et telle que pour toute fonction PX -intégrable ϕ, on ait
Z Z
E[ϕ(X)] = ϕ(x)PX (dx) = ϕ(x)f (x)dx.
R R
Remarque : Dans toute la suite de ce cours, même si ce n’est pas précisé, toutes les mesures
considérées seront supposées sigma-finies, de même que toutes les fonctions considérées seront
supposées mesurables.
probabilité que l’objet aléatoire X tombe dans l’ensemble A. Résumons ce qui vient d’être dit.
Dans cette définition, l’hypothèse fondamentale est bien entendu qu’il existe une valeur θ∗ ∈ Θ
telle que PX = Pθ∗ . Le vrai paramètre θ∗ est inconnu mais l’espace Θ dans lequel il vit est, lui,
supposé connu.
Attention ! Dans toute la suite, afin d’alléger les écritures, nous adopterons l’abus de notation
consistant à utiliser la même lettre θ pour la vraie valeur du paramètre (i.e. θ∗ ) et pour une valeur
générique de celui-ci (comme dans la notation (Pθ )θ∈Θ ). Le contexte doit cependant permettre
d’éviter toute confusion.
Exemples :
1. Dans le jeu de Pile ou Face, on a donc E = {0, 1}n . Puisque E est fini, on le munit
naturellement de la tribu E = P(E) de toutes les parties de E. L’objet aléatoire est ici le
n-uplet X = (X1 , . . . , Xn ). Comme le résultat de chaque lancer suit une loi de Bernoulli
B(θ), pour un certain paramètre inconnu θ ∈ Θ =]0, 1[, et puisque ces lancers sont i.i.d., le
modèle statistique est la famille de lois
¡ ¢
(Pθ )θ∈Θ = B(θ)⊗n θ∈]0,1[ .
Dans ces deux exemples, le vecteur X = (X1 , . . . , Xn ) est un échantillon de variables Xi i.i.d.
appelées des observations 5 . Lorsque, comme dans ces exemples, ces variables sont i.i.d. de loi
commune Qθ , c’est-à-dire que ¡ ¢
(Pθ )θ∈Θ = Q⊗nθ θ∈Θ
,
on parle de modèle d’échantillonnage. Dans ce cas, on appellera indifféremment (Pθ )θ∈Θ ou (Qθ )θ∈Θ
le modèle statistique en question. Ce n’est bien sûr pas le seul cadre envisageable, comme nous le
verrons plus loin sur le modèle de régression linéaire. Par ailleurs, ces deux exemples ont un autre
point commun : la taille de l’espace des paramètres.
Exemples :
1. Jeu de Pile ou Face : Θ =]0, 1[⊆ R, donc c’est un problème paramétrique unidimensionnel.
2. Taille : Θ = R × R⋆+ ⊆ R2 , problème paramétrique bidimensionnel.
3. Considérons que la taille des hommes ne soit pas supposée suivre une loi normale, mais une
loi inconnue sur [0.5; 2.5]. On suppose, ce qui est raisonnable, que cette loi a une densité f
par rapport à la mesure de Lebesgue. Dans ce cas, Θ correspond à l’ensemble des densités sur
[0.5; 2.5], qui est clairement de dimension infinie. C’est donc un modèle non paramétrique.
Dans ce genre de situation, afin d’éviter des espaces fonctionnels trop gros, on met en général
des contraintes supplémentaires sur la densité, typiquement des hypothèses de régularité.
Remarque : tout modèle statistique est un modèle approché de la réalité. Lorsqu’on suppose par
exemple que la répartition des tailles suit une loi normale, il y a a priori incompatibilité entre le
fait qu’une gaussienne est à valeurs dans R tout entier et le fait que ladite taille est à valeurs dans
R+ (et même dans [0.5; 2.5]). Ceci pourrait faire croire que le modèle adopté est inadapté, sauf que
5. avec un léger abus de langage, le même terme servant à qualifier X, voire x = (x1 , . . . , xn ).
0.40
−4 −3 −2 −1 1 2 3 4
68%
95%
99, 7%
cet argument n’en est pas un, car “en pratique” tout se passe comme si les variables gaussiennes
étaient bornées (voir Figure 1.6). En effet, si X ∼ N (0, 1), la probabilité que X ne tombe pas
dans l’intervalle [−8, 8] est de l’ordre 6 de 10−15 . Ainsi, même en considérant un échantillon d’un
milliard de gaussiennes, la probabilité que l’une d’entre elles sorte de cet intervalle est inférieure
à une chance sur un million (borne de l’union). Bref, pour les valeurs de n que l’on considère en
pratique, un échantillon de n gaussiennes est indiscernable d’une suite de variables à support dans
[−8, 8]. De façon générale, un modèle statistique est toujours une approximation de la réalité, mais
ceci n’est pas un problème tant que les conclusions que l’on tire de ce modèle approché restent
fiables.
Passons à un autre point. Notre but étant d’approcher la vraie valeur θ du paramètre, encore
faut-il que celui-ci soit défini sans ambiguïté. C’est le principe d’identifiabilité qui est ici à l’œuvre.
Définition 8 (Identifiabilité)
Le modèle statistique (Pθ )θ∈Θ est dit identifiable si l’application θ 7→ Pθ est injective, c’est-à-dire
si deux paramètres distincts ne peuvent correspondre à la même loi.
¡ ¢
Exemple : le modèle gaussien N (m, σ 2 ) m∈R,σ>0 est identifiable. Par contre, le modèle alternatif
¡ ¢
N (m, σ 2 ) m∈R,σ6=0 ne l’est pas puisque N (m, σ 2 ) = N (m, (−σ)2 ).
Dans toute la suite, tous les modèles seront supposés identifiables. Nous concluons cette section
par une définition permettant de ramener une famille de lois à une famille de densités. Elle fait
appel aux notions rappelées en Section 1.1.5.
ne peut être finie que si En est au plus dénombrable. Une union d’ensembles au plus dé-
nombrables étant au plus dénombrable, l’union des En ne peut être égale à R.
1.3.1 Estimation
La première question que l’on se pose est celle de l’estimation du vrai paramètre θ.
Sn = X1 + · · · + Xn
est bien une statistique, puisqu’elle ne dépend que de l’observation X = (X1 , . . . , Xn ), mais ce
n’est clairement pas un estimateur de θ, contrairement à la fréquence empirique
Sn X1 + · · · + X n
θ̂n = = ,
n n
qui est effectivement une approximation aléatoire de θ.
Remarques :
1. Un estimateur est censé approcher le paramètre d’intérêt, le rôle plus général d’une statis-
tique étant de fournir des informations de diverses natures.
2. Dans la pratique, c’est la réalisation de l’estimateur qui fournit une estimation de θ : on
l’appelle parfois l’estimée. Ainsi, si x = (x1 , . . . , xn ) est une réalisation de X = (X1 , . . . , Xn )
de loi Pθ , on peut calculer l’approximation θ̂(x) de θ.
3. On peut vouloir estimer une fonction g(θ) du paramètre θ, par exemple g(θ) = θ2 . Dans ce
cas, un estimateur sera une statistique ĝ(X). Si g est régulière et que l’on dispose déjà d’un
“bon” estimateur θ̂ du paramètre θ, un estimateur naturel est ĝ(X) = g(θ̂).
Le but de l’estimateur θ̂ étant d’approcher θ, encore faut-il préciser en quel sens. Une manière
classique de quantifier la précision d’un estimateur est de passer par son risque quadratique.
Remarques :
1. Dans cette définition, le calcul d’espérance se fait en supposant que l’observation X suit la
loi Pθ , c’est-à-dire que
·³ ´2 ¸ Z ³ ´2
R(θ̂, θ) = E θ̂(X) − θ = θ̂(x) − θ Pθ (dx).
E
C’est pourquoi on note parfois Eθ au lieu de E, Varθ au lieu de Var et Pθ au lieu de P. Afin
d’alléger les écritures, la plupart du temps nous n’adoptons pas cette convention, mais
il convient de garder constamment en tête la valeur du paramètre par rapport à laquelle on
calcule les probabilités, espérances et variances.
2. Lorsque Θ est un espace métrique muni de la distance d, cette définition se généralise sans
problème : · ³ ´ ¸
2
R(θ̂, θ) = E d θ, θ̂ .
Le terme B(θ̂) = E[θ̂] − θ est appelé biais de l’estimateur θ̂. S’il est nul, on dit que l’estimateur est
sans biais ou non biaisé.
Remarques :
1. Si le paramètre θ a une unité, le biais se mesure avec cette même unité, tandis que la variance
se mesure avec cette unité au carré. Ne serait-ce que pour des raisons d’homogénéité des
grandeurs, il est donc logique d’ajouter le carré du biais à la variance.
2. Le biais mesure l’erreur moyenne faite par l’estimateur θ̂, tandis que le terme de variance me-
sure les fluctuations de θ̂ autour de sa moyenne. Un estimateur sera donc d’autant meilleur
que son biais et sa variance sont tous deux faibles.
3. Cette décomposition biais-variance se généralise en dimension supérieure lorsque Θ ⊆ Rk
est muni de la distance euclidienne, notée k · k. Elle s’écrit alors
·° °2 ¸ ° °2 ·° °2 ¸ X
k ³ ´
° ° ° ° ° °
R(θ̂, θ) = E °θ̂ − θ° = °E[θ̂] − θ° + E °θ̂ − E[θ̂]° = B(θ̂i )2 + Var(θ̂i ) ,
i=1
c’est-à-dire que l’erreur quadratique globale est la somme des erreurs quadratiques sur
chaque composante.
Exemple : dans l’exemple du Pile ou Face, θ̂ = θ̂n et tous les calculs ont déjà été faits. Nous
avons vu que E[θ̂n ] = θ donc il est sans biais, d’où un risque quadratique égal à
θ(1 − θ) 1
R(θ̂n , θ) = Var(θ̂n ) = ≤ −−−→ 0.
n 4n n→∞
Définition 12 (Convergence et normalité asymptotique)
Soit θ un paramètre réel inconnu. On dit que la suite d’estimateurs (θ̂n )n≥1 est :
— convergente, ou consistante, si
P
θ̂n −−−→ θ.
n→∞
Remarques :
1. Par abus de langage, on dira simplement que θ̂n est un estimateur consistant et asymptoti-
quement normal de θ. D’autre part, on dira que θ̂n est un estimateur fortement consistant
si la convergence vers θ a lieu presque sûrement.
2. De façon plus générale, s’il existe une suite (vn ) tendant vers l’infini et une variable X non
dégénérée (i.e. non p.s. égale à 0) telles que vn (θ̂n − θ) tend en loi vers X, alors on dit que
l’estimateur θ̂n converge à vitesse 1/vn .
Rappelons que, d’après le Corollaire 2, la normalité asymptotique de (θ̂n )n≥1 implique sa consis-
tance (mais pas sa consistance forte). Par ailleurs, si l’on dispose d’une suite (σ̂n2 )n≥1 d’estimateurs
qui converge vers σ 2 , alors le Théorème de Slutsky entraîne que
√ θ̂n − θ L
n −−−→ N (0, 1),
σ̂n n→∞
ce qui permet de construire des intervalles de confiance asymptotiques pour θ (cf. Section 1.3.2).
En estimation paramétrique, le cadre d’application typique de la méthode Delta est le suivant : on
veut estimer le paramètre θ, sachant qu’à partir des observations on sait construire facilement un
estimateur d’une fonction de ce paramètre. Si la fonction en question est assez régulière, il suffit
alors d’appliquer la méthode Delta à sa fonction réciproque.
En l’occurrence, une fonction “assez régulière” est un C 1 -difféomorphisme, c’est-à-dire une appli-
cation continûment dérivable, bijective, et dont la fonction réciproque est, elle aussi, continûment
dérivable. Au passage, l’exemple x 7→ x3 montre qu’une fonction peut être bijective de R vers R
et partout dérivable sans que sa réciproque soit dérivable partout.
alors
L 1
vn (θ̂n − θ) −−−→ Zθ .
n→∞ ϕ′ (θ)
√
Dans le cas particulier où vn = n et Zθ ∼ N (0, σθ2 ), on a donc
√ L
n(θ̂n − θ) −−−→ N (0, (σθ /ϕ′ (θ))2 ).
n→∞
Il convient de définir θ̂n de façon générale. De deux choses l’une : ou bien ϕ̂n ∈ ϕ(Θ), auquel cas
θ̂n = ϕ−1 (ϕ̂n ) ; ou bien ϕ̂n ∈
/ ϕ(Θ), auquel cas on peut considérer un point arbitraire θ0 de Θ et
poser θ̂n = θ0 . On a donc, avec la convention ϕ−1 (ϕ̂n )1ϕ̂n ∈ϕ(Θ)
/ = 0,
Ainsi l’estimateur θ̂n est-il bien défini au sens de l’énoncé dès que ϕ̂n ∈ ϕ(Θ), or
et le membre de gauche tend vers 1 lorsque n tend vers l’infini car ϕ̂n tend en probabilité vers
ϕ(θ), donc θ̂n est bien défini (au sens de l’énoncé) avec une probabilité qui tend vers 1. De plus,
puisque
|ϕ̂n − ϕ(θ)| < δ =⇒ |ϕ−1 (ϕ̂n ) − θ| = |θ̂n − θ| < ε,
il en résulte que
P(|ϕ̂n − ϕ(θ)| < δ) ≤ P(|θ̂n − θ| < ε).
Il reste à nouveau à faire tendre n vers l’infini pour en déduire que, pour tout ε > 0,
c’est-à-dire
P
θ̂n −−−→ θ.
n→∞
donc le dernier terme du membre de droite de (1.3) tend en probabilité vers 0. Pour le premier, le
même raisonnement assure que
P
1ϕ̂n ∈ϕ(Θ) −−−→ 1.
n→∞
Par ailleurs, la dérivabilité de ϕ−1 en ϕ(θ) et la relation 7 (ϕ−1 )′ (ϕ(θ)) = 1/ϕ′ (θ) donne pour tout
u ∈ ϕ(Θ)
ϕ−1 (u) = θ + (u − ϕ(θ))(1/ϕ′ (θ) + r(u)),
où r est définie sur ϕ(Θ) et continue en ϕ(θ) avec r(ϕ(θ)) = 0. Par conséquent
vn (ϕ−1 (ϕ̂n ) − ϕ−1 (ϕ(θ)))1ϕ̂n ∈ϕ(Θ) = vn (ϕ̂n − ϕ(θ))(1/ϕ′ (θ) + r(ϕ̂n ))1ϕ̂n ∈ϕ(Θ) ,
L 1
vn (ϕ−1 (ϕ̂n ) − ϕ−1 (ϕ(θ)))1ϕ̂n ∈ϕ(Θ) −−−→ Zθ .
n→∞ ϕ′ (θ)
En revenant à (1.3), une nouvelle application du Lemme de Slutsky donne finalement bien le
résultat annoncé, à savoir
L 1
vn (θ̂n − θ) −−−→ ′ Zθ .
n→∞ ϕ (θ)
¥
7. Noter que ϕ′ (θ) 6= 0 car ϕ est un C 1 -difféomorphisme de Θ dans ϕ(Θ).
Remarque : Soit θ ∈ Θ :=]0, +∞[ un paramètre inconnu que l’on cherche à estimer et (Xi )i≥1
des variables i.i.d. selon une loi de Poisson de paramètre 1/θ. Pour estimer θ, il suffit de considérer
le C 1 -difféomorphisme ϕ : Θ → Θ défini par ϕ(θ) = 1/θ. Par la Loi des Grands Nombres et le
TCL, la moyenne empirique ϕ̂n := X̄n est un estimateur consistant et asymptotiquement normal
de ϕ(θ) = 1/θ. Le résultat précédent assure alors que θ̂n = ϕ−1 (ϕ̂n ) = 1/X̄n est un estimateur
consistant et asymptotiquement normal de θ, avec
√ L
n(θ̂n − θ) −−−→ N (0, θ3 ).
n→∞
On peut noter qu’il n’est pas nécessairement défini pour tout n, mais seulement à partir du premier
indice n0 tel que Xn0 > 0. C’est en ce sens qu’il faut comprendre le passage “est défini avec une
probabilité qui tend vers 1 lorsque n → ∞” dans l’énoncé ci-dessus : la probabilité qu’il ne soit
toujours pas défini lorsque l’on dispose de n données est égale à e−n/θ , quantité qui pour tout
θ > 0 tend bien vers zéro lorsque la taille de l’échantillon tend vers l’infini.
Nota Bene. La normalité asymptotique ne permet pas de contrôler le risque quadratique. Dans le
modèle précédent des lois de Poisson P(1/θ), θ > 0, l’estimateur θ̂n = 1/X̄n est asymptotiquement
normal, mais de risque quadratique infini puisque P(X̄n = 0) > 0.
Outre l’estimation du paramètre inconnu θ, on peut chercher un intervalle dans lequel celui-ci a
de grandes chances de se trouver : c’est ici qu’intervient la notion d’intervalles de confiance.
Achtung ! Il ne faut pas confondre l’intervalle de confiance (qui est aléatoire) et sa réalisation
(θ(x), θ(x)), qui ne l’est pas ! Ainsi, écrire
n’a strictement aucun sens puisque cette probabilité vaut 0 ou 1. On se contentera de dire que
[0.48; 0.52] est un intervalle de confiance à 95% pour θ.
Remarques :
1. Les deux critères de qualité d’un intervalle de confiance sont sa longueur et son niveau.
Ceux-ci étant antagonistes, il s’agit de réaliser un compromis. Ainsi, pour un niveau de
confiance donné (par exemple 95%), on cherchera un intervalle de confiance de plus petite
longueur possible. Pour l’exemple du Pile ou Face, [0, 1] est un intervalle de confiance à 95%
(et même à 100%), mais il est clair qu’il n’a aucun intérêt...
2. Si l’on ne suppose plus Θ ⊆ R, on appelle domaine (ou région) de confiance de niveau
(1 − α) tout ensemble aléatoire D(X) ne dépendant ni de θ ni d’autres quantités inconnues
et tel que
∀θ ∈ Θ P(θ ∈ D(X)) ≥ 1 − α.
La méthode standard pour obtenir des intervalles de confiance est de passer par des inégalités
classiques comme celles vues en Section 1.1.2 ou, pour des intervalles de confiance asymptotiques,
par un résultat de convergence en loi tel que le Théorème Central Limite.
Exemple : on revient au jeu de Pile ou Face, pour lequel on applique les bornes vues en Section
1.1.2. L’inégalité de Tchebychev nous a permis d’écrire que, pour tout c > 0,
³¯ ¯ ´ θ(1 − θ) 1 ³¯ ¯ ´ 1
¯ ¯ ¯ ¯
P ¯θ̂n − θ¯ ≥ c ≤ 2
≤ 2
=⇒ P ¯ θ̂ n − θ ¯ ≤ c ≥1− 2 .
c n 4c n 4c n
√
En prenant c = 1/(2 nα), on en déduit que
µ ¶
1 1
P θ̂n − √ ≤ θ ≤ θ̂n + √ ≥ 1 − α,
2 nα 2 nα
√ √
c’est-à-dire que [θ̂n − 1/(2 nα), θ̂n + 1/(2 nα)] est un intervalle de confiance de niveau (1 − α)
√
pour θ. Ceci donne, pour α = 5%, un intervalle de confiance de rayon 2.24/ n.
Par l’inégalité de Hoeffding, nous avons obtenu
³¯ ¯ ´ ¡ ¢ ³¯ ¯ ´ ¡ ¢
¯ ¯ ¯ ¯
P ¯θ̂n − θ¯ ≥ c ≤ 2 exp −2c n =⇒ P ¯θ̂n − θ¯ ≤ c ≥ 1 − 2 exp −2c2 n ,
2
p
donc en posant c = − log(α/2)/(2n), on obtient le nouvel intervalle de confiance
à r r !
− log(α/2) − log(α/2)
P θ̂n − ≤ θ ≤ θ̂n + ≥ 1 − α.
2n 2n
Cet intervalle est plus petit que celui donné par Tchebychev si et seulement si
r
− log(α/2) 1
≤ √ ⇐⇒ −2α log(α/2) ≤ 1 ⇐⇒ 0 < α ≤ 0.23,
2n 2 nα
ce qui correspond bien aux valeurs de α pertinentes pour des intervalles de confiance à 90, 95 ou
√
99%. A titre d’exemple, l’intervalle de confiance à 95% fourni par Hoeffding est de rayon 1.36/ n,
effectivement plus petit que celui obtenu par Tchebychev.
Ces intervalles de confiance sont valables pour tout n. Lorsque n est suffisamment grand et que
l’on dispose d’un résultat de convergence en loi de type normalité asymptotique, on se sert des
quantiles de la loi normale pour construire des intervalles de confiance asymptotiques, au sens
où ils sont valables pour n → ∞.
Dans tous nos exemples, la limite inférieure sera en fait une limite classique. Illustrons l’idée sur
l’exemple du Pile ou Face.
Exemple : le Théorème Central Limite a permis d’établir, pour tout 0 < θ < 1, la convergence
en loi
√ θ̂n − θ L
np −−−→ N (0, 1).
θ(1 − θ) n→∞
Rappelons que q1−α/2 désigne le quantile d’ordre (1 − α/2) de la loi normale centrée réduite,
c’est-à-dire en notant Φ−1 la réciproque de sa fonction de répartition (encore appelée fonction
quantile),
¡ ¢ ¡ ¢
q1−α/2 = Φ−1 (1−α/2) ⇐⇒ P N (0, 1) ≤ q1−α/2 = 1−α/2 ⇐⇒ P |N (0, 1)| ≤ q1−α/2 = 1−α.
Le quantile le plus connu est bien sûr q0.975 = 1.96... ≈ 2, qui sert à construire des intervalles de
confiance à 95%. On a donc
à p !
¯ ¯ θ(1 − θ)
¯ ¯
P ¯θ̂n − θ¯ ≤ q1−α/2 √ −−−→ 1 − α.
n n→∞
Le paramètre inconnu θ apparaissant dans les bornes de l’intervalle, deux solutions s’offrent à nous
pour pouvoir poursuivre : ou bien on lâche du lest en se souvenant que 0 < θ(1 − θ) ≤ 1/4, pour
aboutir à µ¯ ¯ q ¶
¯ ¯ 1−α/2
lim P ¯θ̂n − θ¯ ≤ √ ≥ 1 − α.
n→∞ 2 n
Ou bien on fait ce qu’on appelle en anglais du plug-in : dans les bornes, on remplace θ par son
estimateur θ̂n , ce qui est justifié par le Théorème de Slutsky puisque (voir Section 1.1.4)
√ θ̂n − θ L
nq −−−→ N (0, 1), (1.4)
n→∞
θ̂n (1 − θ̂n )
et mène à l’intervalle de confiance asymptotique
q q
θ̂n (1 − θ̂n ) θ̂n (1 − θ̂n )
θ̂n − q1−α/2 √ , θ̂n + q1−α/2 √ . (1.5)
n n
Il faut cependant garder à l’esprit que la convergence (1.4) fait intervenir une double asymptotique :
ceci devient problématique lorsque θ est proche de 0, puisque la probabilité que θ̂n = 0 n’est alors
pas négligeable 9 . Dans ce cas, pour que l’intervalle (1.5) ait un sens, la prudence incite à prendre
n au moins de l’ordre de 5/θ. La même remarque s’applique, mutatis mutandis, au cas où θ est
proche de 1.
Quoi qu’il en soit, puisque 0 ≤ θ̂n (1 − θ̂n ) ≤ 1/4, on obtient à nouveau un rayon inférieur à
√ √ √
q1−α/2 /(2 n). En particulier, pour α = 0.05, il vaut donc 1/ n, à comparer au 1.36/ n obtenu
par Hoeffding.
Remarques :
9. de l’ordre de exp(−nθ) si n ≈ 1/θ, cf. par exemple l’approximation de la binomiale par la loi de Poisson.
1. Tout ce qui vient d’être dit s’applique en politique dans le cadre des sondages aléatoires
simples. Ainsi, pour un échantillon de 1000 personnes prises au hasard dans la population, la
précision est de l’ordre de ±3%. Néanmoins, en pratique, les instituts de sondage utilisent
des méthodes d’échantillonnage par quotas, et tout se complique pour l’estimation de la
précision...
2. En Définition 14, si on requiert plutôt
on parle d’intervalles de confiance asymptotiques forts. Il est facile de voir que cette condi-
tion implique celle donnée dans la définition. Cependant, un exemple permet de voir qu’elle
est bien plus exigeante (de même qu’en analyse la convergence uniforme d’une suite de
fonctions implique strictement sa convergence simple). Considérons en effet des variables
Xi i.i.d. selon une loi de Poisson de paramètre θ > 0. Par le TCL et le Lemme de Slutsky,
un intervalle de confiance asymptotique au sens de la Définition 14 est
" p p #
Φ−1 (1 − α/2) X̄n Φ−1 (1 − α/2) X̄n
IC(θ, n) = X̄n − √ ; X̄n + √ .
n n
Mais clairement le paramètre inconnu θ > 0 n’appartient pas à cet intervalle si la borne de
droite est nulle, i.e. si X̄n = 0, or pour tout n ≥ 1 fixé
avec
/ (θn (X), θn (X))) ≥ Pθ (X̄n = 0) = e−nθ ,
Pθ (θ ∈
et supθ>0 e−nθ = 1, donc
inf Pθ (θ ∈ (θn (X), θn (X))) = 0,
θ>0
et a fortiori
lim inf inf Pθ (θ ∈ (θn (X), θn (X))) = 0 < 1 − α.
n→∞ θ∈Θ
Bref, les IC(θ, n) ne sont pas des intervalles de confiance asymptotiques forts.
Θ0 ∪ Θ1 = Θ et Θ0 ∩ Θ1 = ∅.
1. Pour le jeu de Pile ou Face, on veut tester H0 : θ = 1/2, c’est-à-dire Θ0 = {1/2} (hypothèse
simple), contre H1 : θ 6= 1/2 donc Θ1 =]0, 1/2[∪]1/2, 1[ (hypothèse bilatère). On parle de
test bilatère.
2. Dans le cadre des élections, notant θ la vraie proportion de votants pour Alice dans la
population complète, on veut tester H0 : θ ≥ 1/2, c’est-à-dire Θ0 = [1/2, 1] (hypothèse
unilatère), contre H1 : θ < 1/2, c’est-à-dire Θ1 = [0, 1/2[. On parle cette fois de test
unilatère.
R = T −1 ({1}) = {x ∈ E, T (x) = 1}
Très souvent, la statistique de test est elle-même basée sur un estimateur θ̂ = θ̂(X) du paramètre
θ et
T (X) = 1X∈R = 1θ̂∈R′ .
Par abus de langage, on appelle encore R′ la région de rejet associée à la statistique de test. Tous
les exemples qui suivent se situent d’ailleurs dans ce cadre. A première vue, on pourrait penser au
choix naturel R′ = Θ1 comme région de rejet de H0 , mais ce n’est pas une bonne idée, comme on
le verra sur un exemple ci-dessous.
En pratique, on dispose seulement d’une réalisation x de X et la procédure est la suivante : si
θ̂ = θ̂(x) ∈ R′ , on rejette H0 , sinon on l’accepte.
α : Θ0 → [0, 1]
θ 7→ Eθ [T (X)] = Pθ (T (X) = 1).
Etant donné α ∈ [0, 1], le test est dit de niveau α si sa taille est majorée par α.
— risque (ou erreur) de deuxième espèce l’application
β : Θ1 → [0, 1]
θ 7→ 1 − Eθ [T (X)] = Pθ (T (X) = 0).
π : Θ → [0, 1]
θ 7→ Eθ [T (X)] = Pθ (T (X) = 1).
Ces définitions reflètent le fait que, lors d’un test d’hypothèse, on peut se tromper de deux façons :
— ou bien en rejetant H0 alors qu’elle est vraie, ce qui arrive avec probabilité α(θ) pour θ ∈ Θ0 :
on parle de faux positif ;
— ou bien en conservant H0 alors qu’elle est fausse, ce qui arrive avec probabilité β(θ) pour
θ ∈ Θ1 : on parle de faux négatif.
Clairement, la fonction puissance permet de retrouver les deux types de risques : sur Θ0 on a
π(θ) = α(θ), tandis que sur Θ1 on a π(θ) = 1 − β(θ). Idéalement, on aimerait que cette fonction
puissance soit proche de 0 lorsque θ ∈ Θ0 et proche de 1 lorsque θ ∈ Θ1 . Malheureusement, ceci
est en général impossible puisque, dans la plupart des cas, les ensembles Θ0 et Θ1 ont une frontière
commune et la fonction π est continue.
Exemple : on considère X = (X1 , . . . , Xn ) i.i.d. selon une loi normale N (θ, 1). On veut tester
H0 : θ ≤ 0 contre H1 : θ > 0
ce qui revient, en notant Θ0 =] − ∞, 0] et Θ1 =]0, +∞[, à tester
H0 : θ ∈ Θ 0 contre H1 : θ ∈ Θ 1 .
Une façon naturelle de procéder est de se baser sur la moyenne empirique
X1 + · · · + X n
θ̂n = θ̂(X) =
n
et de considérer la région de rejet R′ =]0, +∞[. Calculons la fonction puissance de ce test. Quel
que soit le réel θ, la loi de l’estimateur est connue :
θ̂n ∼ N (θ, 1/n).
Par conséquent, quel que soit le réel θ,
√ √
π(θ) = Pθ (θ̂n > 0) = 1 − Φ(−θ n) = Φ(θ n),
dont la représentation se déduit de celle de Φ (voir Figure 1.7). L’erreur de première espèce et la
taille du test s’en déduisent immédiatement :
√ 1
∀θ ≤ 0 α(θ) = Pθ (θ̂n > 0) = Φ(θ n) =⇒ α⋆ = sup α(θ) = sup π(θ) = Φ(0) = ,
θ≤0 θ≤0 2
donc on a construit un test de niveau 1/2, ce qui n’est pas glorieux... Voyons comment faire mieux.
0.4 0.4
0.75
0.3 0.3
0.50
0.2 0.2
0.25
0.1 0.1
−1.0 −0.5 0.0 0.5 1.0 −1.00 −0.75 −0.50 −0.25 0.00 0.00 0.25 0.50 0.75 1.00
θ θ θ
Figure 1.7 – Fonction puissance, risque de première espèce, risque de deuxième espèce (n = 20).
Dissymétrisation (Neyman & Pearson) : pour sortir de cette impasse, une méthode classique
est de privilégier l’une des hypothèses par rapport à l’autre, par convention H0 par rapport à H1 ,
et de contrôler avant tout la probabilité de rejeter H0 alors qu’elle est vraie, i.e. l’erreur de première
espèce. Typiquement, on prendra pour H0 :
Comme attendu, cette fonction est majorée par α sur ]∞, 0]. Sur ]0, +∞[, elle est croissante et
tend vers 1 lorsque θ s’éloigne du point frontière 0 (voir Figure 1.8).
0.04 0.75
0.75
0.03
0.50
0.50
0.02
0.25 0.25
0.01
−1.0 −0.5 0.0 0.5 1.0 −1.00 −0.75 −0.50 −0.25 0.00 0.00 0.25 0.50 0.75 1.00
θ θ θ
Figure 1.8 – Puissance, risque de première espèce, risque de deuxième espèce (n = 20 et α = 5%).
(θ(X), θ(X)) ∩ Θ0 = ∅ =⇒ θ ∈
/ (θ(X), θ(X)).
la dernière inégalité venant de la définition même de l’intervalle de confiance. Puisque cette inégalité
est valable pour tout θ ∈ Θ0 , elle reste vérifiée pour le supremum :
α⋆ = sup Pθ (T (X) = 1) ≤ α,
θ∈Θ0
ce qui est précisément la condition à laquelle on avait abouti ci-dessus. Au passage, notons
√
que ] − ∞, θ̂n + q1−α / n] est aussi un intervalle de confiance de niveau (1 − α) pour θ, donc
le test consistant à rejeter H0 si
i √ i
−∞, θ̂n + q1−α / n ∩] − ∞, 0] = ∅
est aussi de niveau α. Clairement, cette condition n’est jamais réalisée : un test ne rejetant
jamais H0 ne rejette jamais H0 à tort donc est bien de niveau α pour tout α ∈ [0, 1]. Il n’en
reste pas moins qu’il n’a aucun intérêt...
2. Pour l’exemple des élections, θ est la vraie proportion de votants pour Alice dans la popu-
lation totale et on souhaite confronter les hypothèses
1 1
H0 : θ ≥ contre H1 : θ < .
2 2
D’après (1.4), nous savons que
√ θ̂n − θ L
nq −−−→ N (0, 1), (1.6)
n→∞
θ̂n (1 − θ̂n )
Là encore, c’est en particulier vrai si θ ∈ Θ0 = [1/2, 1]. Toujours par le résultat du lemme
précédent, on rejette donc H0 si
q
θ̂n (1 − θ̂n ) 1
θ̂n + q1−α √ < .
n 2
Il faut cependant noter qu’on a construit ici un test Tn de niveau asymptotique α, au sens
où
sup lim Pθ (Tn (X) = 1) ≤ α.
θ∈Θ0 n→+∞
La définition générale fait intervenir la limite supérieure, mais dans tous les exemples que
nous rencontrerons celle-ci sera en fait une limite classique.
Définition 17 (Niveau asymptotique d’une suite de tests)
On dit que la suite de tests (Tn (X))n≥1 est de niveau asymptotique α si
∀θ ∈ Θ0 , lim sup Pθ (Tn (X) = 1) ≤ α.
n→∞
2. Toujours sur l’exemple précédent du Pile ou Face, on peut recycler le raisonnement fait pour
les élections : la normalité asymptotique (1.6) assure que, pour tout θ ∈]0, 1[, un intervalle
de confiance bilatère de niveau asymptotique (1 − α) pour θ est
q q
θ̂n (1 − θ̂n ) θ̂n (1 − θ̂n )
θ̂n − q1−α/2 √ , θ̂n + q1−α/2 √ . (1.8)
n n
Ceci est en particulier vrai pour θ = 1/2 même si, à nouveau, cet intervalle de confiance n’a
aucun intérêt a priori lorsqu’on connaît la valeur de θ. Quoi qu’il en soit, le test consistant
à rejeter H0 lorsque 1/2 n’appartient pas à cet intervalle est de niveau asymptotique α.
Comme θ̂n tend p.s. vers 1/2 avec θ̂n (1 − θ̂n ) ≤ 1/4, on constate que les tests sont asymp-
totiquement équivalents et que, à n fini, on rejette plus souvent H0 en se basant sur (1.8)
plutôt que sur (1.7).
Règle : il ressort de ces exemples que si l’on veut construire un test unilatère, on part d’intervalles
de confiance unilatères de sens opposé à Θ0 . Pour un test bilatère avec Θ0 = {θ0 }, on part
idéalement de l’intervalle de confiance non trivial le plus court possible pour θ0 .
Dans ce qui précède, le choix du niveau α est fixé a priori, par exemple α = 5%. Puis, une réalisation
x étant donnée, on regarde si au vu de celle-ci on rejette H0 ou non. On peut en fait procéder de
façon duale : partant de x et d’une famille Rα (ou R′α ) de régions de rejet, on peut se demander
à quel point la réalisation est en (dés)accord avec H0 .
Exemple : on revient sur l’exemple de l’échantillon gaussien. Supposons que l’on observe x =
(x1 , . . . , x100 ) de moyenne empirique θ̂n (x) = 0.3. Pour cette valeur, conserve-t-on H0 au niveau
10% ? 5% ? 1% ? La réponse est donnée par la procédure de test : celle-ci spécifie en effet que l’on
rejette H0 au niveau α si et seulement si
√ √
θ̂n (x) > Φ−1 (1 − α)/ n ⇐⇒ α > 1 − Φ( nθ̂n (x)) = 1 − Φ(3) ≈ 10−3 .
En particulier, on rejette H0 au niveau de risque 10%, 5%, 1%, et en fait à tout niveau supérieur
à 1%. La notion de p-value permet de formaliser cette idée.
Revenons donc au cas général. Notant Rα la région de rejet de niveau α pour la statistique de test
T (X), on rejette H0 si
T (X) = 1 ⇐⇒ X ∈ Rα .
Si cette statistique de test est basée sur un estimateur θ̂ = θ̂(X), ceci s’exprime encore
T (X) = 1 ⇐⇒ θ̂ ∈ R′α .
Ce qui se passe dans quasiment tous les cas, et ce que nous supposerons dans la suite, c’est que
les régions de rejet sont emboîtées, c’est-à-dire que
α0 (x) = inf {α ∈ [0, 1], x ∈ Rα } = inf{α ∈ [0, 1], H0 est rejetée au niveau α}.
et sur le cas particulier où θ̂n (x) = 0.3, ceci donne une p-value d’environ 10−3 .
Remarque : Pour une famille de suites de tests de niveaux asymptotiques α, on définit logiquement
la p-value (sous-entendu : asymptotique) comme l’infimum des α tel que H0 est rejetée au niveau
asymptotique α.
Take-home message : c’est cette valeur α0 (x) qui est usuellement donnée par les logiciels de
statistique en sortie d’un test d’hypothèse. Comme son nom en français l’indique, cette p-value
reflète à quel point il est significatif de rejeter H0 . Si α0 (x) est très proche de 0 (disons inférieur à
1/100), on rejette H0 sans scrupules 10 . Si au contraire α0 (x) est grand (disons supérieur à 1/10),
il semble raisonnable de conserver H0 . Pour des valeurs intermédiaires de α0 (x), rien n’est clair...
Revenons à l’exemple de l’échantillon gaussien où a été observée, pour n = 100, une moyenne
empirique θ̂n (x) = 0.3, correspondant à une p-value d’environ 10−3 . Une autre façon de retrouver
ce résultat est de se dire que si H0 était vraie, c’est-à-dire θ ≤ 0, le scénario le plus vraisemblable
pour observer une valeur positive de θ̂n (x) est que θ = 0. Or si θ = 0, l’estimateur θ̂n = θ̂n (X)
suit une loi normale N (0, 1/n) et la probabilité qu’une telle variable soit supérieure ou égale à 0.3
est, avec n = 100,
Ceci permet d’interpréter la p-value comme une probabilité (et au passage de comprendre le “p”
de p-value) : elle correspond à la probabilité qu’on aurait d’observer une valeur au moins aussi
positive de θ̂n si H0 était vraie. Le “au moins aussi positive” vient du test fait ici et de H0 , qui
suppose θ ≤ 0. Pour un autre test, il faudra adapter le vocabulaire, comme l’illustre l’exemple
suivant.
Exemple : nous revenons à l’exemple du Pile ou Face, où l’on veut tester
1 1
H0 : θ = contre H1 : θ 6= .
2 2
On observe x = (x1 , . . . , xn ) : quelle est la p-value associée ? On a vu que le test consistant à
rejeter H0 si ¯ ¯
√ ¯ 1 ¯¯
¯
2 n ¯θ̂n − ¯ > q1−α/2 = Φ−1 (1 − α/2)
2
est de niveau asymptotique α. Notant θ̂n (x) la fréquence empirique observée, la p-value est donc
par définition
√
α0 (x) = inf {α ∈ [0, 1], x ∈ Rα } = inf{α ∈ [0, 1], 2 n|θ̂n (x) − 1/2| > Φ−1 (1 − α/2)}.
d’où √
α0 (x) = 2(1 − Φ(2 n|θ̂n (x) − 1/2|)).
Puisque, de façon générale, on a pour tout c ≥ 0
La p-value correspond donc à la probabilité d’observer un écart à 1/2 au moins aussi grand que
|θ̂n (x) − 1/2| si la pièce est équilibrée.
Généralisation : pour voir la p-value comme une probabilité, il faut considérer que le test T (X)
est obtenu par le seuillage d’une statistique S(X), c’est-à-dire que l’on rejette H0 au niveau α si
et seulement si S(X) > cα . Les exemples que nous avons déjà rencontrés, et en fait tous ceux que
nous croiserons, ne procèdent pas autrement :
√
— Echantillon gaussien : S(x) = nθ̂n (x) et cα = q1−α .
— Alice et Bob :
√ θ̂n (x) − 21
S(x) = − n q et cα = q1−α .
θ̂n (1 − θ̂n )
√
— Pile ou Face : S(x) = 2 n|θ̂n (x) − 1/2| et cα = q1−α/2 .
Une réalisation x étant donnée, on peut alors montrer que la p-value se reformule comme suit :
où, pour chaque valeur de θ ∈ Θ0 , X (aléatoire !) a pour loi Pθ . Nous nous contentons d’établir
ce résultat dans le cas confortable d’une fonction de répartition bijective (sous-entendu : de son
support, supposé être un intervalle, vers l’image de celui-ci, donc continue et strictement croissante
sur son support).
Lemme 3 (Interprétation de la p-value)
Supposons qu’il existe θ0 ∈ Θ0 tel que le test rejette H0 au niveau α si et seulement si S(X) >
cα = Fθ−1
0
(1 − α), où Fθ0 (s) = Pθ0 (S(X) ≤ s) est la fonction de répartition de S(X) lorsque le
paramètre est θ0 . Fθ0 est supposée bijective et telle que Fθ0 (s) = inf θ∈Θ0 Fθ (s) pour tout s. Alors,
pour une réalisation x, la p-value α0 (x) s’écrit encore
Preuve. Par définition du test, pour une réalisation x et puisque Fθ0 est strictement croissante,
la p-value est
n o
α0 (x) = inf α ∈ [0, 1], S(x) > Fθ−1
0
(1 − α) = inf {α ∈ [0, 1], Fθ0 (S(x)) > 1 − α} .
c’est-à-dire
α0 (x) = sup (1 − Pθ (S(X) ≤ S(x))) = sup Pθ (S(X) > S(x)).
θ∈Θ0 θ∈Θ0
¥
Exemples :
√
— Echantillon gaussien : Θ0 = R− et on a vu que S(X) = nθ̂n (X). Pour tout θ ≤ 0,
√
Fθ (s) = Φ(s − θ n) donc inf θ≤0 Fθ (s) = Φ(s) = F0 (s) qui est bijective et on retrouve bien
le fait que
√
α0 (x) = sup Pθ (S(X) > S(x)) = P0 (S(X) > S(x)) = P(N (0, 1) > nθ̂n (x)).
θ∈Θ0
√ θ̂n (x) − 21
S(x) = − n q .
θ̂n (1 − θ̂n )
√ θ̂n (X) − 12 L
S(X) = − n q −−−→ N (0, 1).
n→∞
θ̂n (1 − θ̂n )
Si θ > 1/2, alors de la loi des grands nombres on déduit en raisonnant “ω par ω” que
Asymptotiquement, on a donc inf θ≥0 Fθ (s) = Φ(s) = F0 (s) et on conclut comme dans
l’exemple précédent.
√
— Pile ou Face : S(x) = 2 n|θ̂n (x) − 1/2|. Soit Y ∼ N (0, 1) et Z = |Y |, alors si θ = 1/2 on a
la convergence en loi
√ L
S(X) = 2 n|θ̂n (X) − 1/2| −−−→ Z,
n→∞
Estimation unidimensionnelle
Introduction
Dans tout ce chapitre, on considère le modèle d’échantillonnage en dimension 1, autrement dit
on dispose d’un échantillon (X1 , . . . , Xn ) de variables aléatoires réelles i.i.d. de loi inconnue PX .
La Section 2.1 présente les quantités dites empiriques liées à cet échantillon et quelques résultats
afférents. On se restreint par la suite à des variables suivant une loi Pθ paramétrée par θ ∈ Θ, où Θ
est un intervalle de R. Autrement dit, nous sommes dans le cadre paramétrique le plus commode qui
soit, le paramètre en jeu étant unidimensionnel. La Section 2.2 présente deux techniques classiques
d’estimation : la méthode des moments et celle du maximum de vraisemblance. Finalement, dans
le cadre des modèles dits réguliers, la Section 2.3 explique en quoi la notion d’information de Fisher
permet de spécifier l’optimalité d’un estimateur.
Ses propriétés découlent directement de la loi forte des grands nombres et du théorème central
limite.
p.s. √ L
X̄n −−−→ µ et n(X̄n − µ) −−−→ N (0, σ 2 ).
n→∞ n→∞
Puisque la variance σ 2 des Xi apparaît dans le résultat de normalité asympotique, il est naturel
de chercher à l’estimer à son tour. Ici, les choses se compliquent un peu en raison du biais de la
variance empirique.
39
40 Chapitre 2. Estimation unidimensionnelle
Attention ! La notation ŝ2n dans cette définition correspond au σ̂n2 qui sera défini au Chapitre
3. Par ailleurs, c’est l’estimateur non biaisé ŝ2n qui est considéré par de nombreux logiciels (cf. la
commande sd de R, qui fournit l’écart-type associé).
Preuve. Partons de la seconde expression de la variance empirique, à savoir
n
1X 2
σ̂n2 = Xi − X̄n2 . (2.1)
n
i=1
La clé de la preuve est la relation E[Y = Var(Y ) + E[Y ]2 . Ainsi, la moyenne du premier terme
2]
Si l’on suppose de plus l’existence d’un moment d’ordre 4 pour les Xi , alors il y a aussi normalité
asymptotique :
√ L √ 2 L
n(σ̂n2 − σ 2 ) −−−→ N (0, v 2 ) et n(ŝn − σ 2 ) −−−→ N (0, v 2 ),
n→∞ n→∞
Preuve. Pour la consistance, on part de la formule (2.1) à laquelle on applique deux fois la loi des
grands nombres et le théorème de continuité :
n
1X 2 P
σ̂n2 = Xi − X̄n2 −−−→ E[X12 ] − E[X1 ]2 = Var(X1 ) = σ 2 .
n n→∞
i=1
Par la remarque ci-dessus, le même résultat s’applique à ŝ2n . Pour la normalité asymptotique, la
ruse est de considérer les variables i.i.d. centrées Yi = (Xi − µ) et de noter que
n n n
1X 1X 1X 2
σ̂n2 = (Xi − X̄n )2 = (Yi − Ȳn )2 = Yi − Ȳn2 = Yn2 − Ȳn2 .
n n n
i=1 i=1 i=1
Par la loi des grands nombres, Ȳn tend en probabilité vers 0. De plus, le TCL appliqué aux variables
Yi de moyenne nulle et de variance σ 2 donne
√ L
n Ȳn −−−→ N (0, σ 2 ),
n→∞
De même, le TCL appliqué aux variables Yi2 de moyenne σ 2 et de variance v 2 nous dit que
√ ³ 2 ´
L
n Yn − σ 2 −−−→ N (0, v 2 ).
n→∞
Quant à l’estimateur sans biais, tout le travail a déjà été fait ou presque, vu que
√ √ √ 1 √
n(ŝ2n − σ 2 ) = n(ŝ2n − σ̂n2 ) + n(σ̂n2 − σ 2 ) = √ ŝ2n + n(σ̂n2 − σ 2 ).
n
Il suffit donc d’invoquer la convergence de ŝ2n et Slutsky pour le premier terme, et la normalité
asymptotique de σ̂n2 pour le second.
¥
Ce résultat reste bien sûr valable avec ŝn en lieu et place de σ̂n .
X(1) ≤ · · · ≤ X(n) .
X(1,n) ≤ · · · ≤ X(n,n) .
Pour tout k entre 1 et n, la variable X(k) est appelée la k-ème statistique d’ordre. Par exemple, la
première statistique d’ordre est le minimum de l’échantillon tandis que la n-ème correspond à son
maximum.
Achtung ! Même si les Xi sont i.i.d., les X(i) ne le sont clairement plus : à titre d’exemple, la
connaissance de X(1) donne de l’information sur X(2) , qui ne peut être plus petit.
D’un point de vue algorithmique, ce rangement croissant peut se faire par un algorithme de tri
rapide (ou quicksort) dont le coût moyen est en O(n log n), ce qui n’est pas cher payé. Notons enfin
que la définition précédente ne suppose pas les Xi distincts. C’est néanmoins presque sûrement le
cas si la fonction de répartition des Xi est continue (cas d’une loi sans atome).
C’est une fonction (aléatoire !) en escalier qui ne présente des sauts qu’aux X(i) , ces sauts étant
tous égaux à 1/n si les Xi sont distincts (cf. Figure 2.1). Dans le cas général, l’amplitude des sauts
est toujours un multiple de 1/n, le multiple en question correspondant au nombre de points de
l’échantillon empilés au même endroit.
1.00 1.00
0.75 0.75
0.50 0.50
0.25 0.25
0.00 0.00
−5 0 −5 0 5
Figure 2.1 – En noir : deux réalisations de F20 avec X1 , . . . , X20 i.i.d. selon une loi de Cauchy.
En rouge : fonction de répartition de la loi de Cauchy.
— Normalité asymptotique :
√ L
n (Fn (x) − F (x)) −−−→ N (0, F (x)(1 − F (x))).
n→∞
Preuve. Dans tous ces résultats, il importe de garder en tête que x est un réel fixé. Ainsi nFn (x)
représente tout bonnement le nombre de points de l’échantillon qui tombent à gauche de x :
n
X n
X
nFn (x) = 1]−∞,x] (Xi ) = Yi ,
i=1 i=1
d’où la loi binomiale pour leur somme. De la même façon, la loi forte des grands nombres appliquée
aux variables Yi assure que
n
1X p.s.
Fn (x) = Yi −−−→ E[Y1 ] = F (x),
n n→∞
i=1
Ainsi, pour tout réel x, il existe un ensemble Ω0 (x) de probabilité 1 tel que, pour tout ω ∈ Ω0 (x),
la réalisation x1 = X1 (ω), x2 = X2 (ω), . . . vérifie
n n
1X X i
1]−∞,x] (xi ) = 1 (x) −−−→ F (x).
n n [x(i) ,x(i+1) [ n→∞
i=1 i=1
A priori, ceci n’assure même pas la convergence simple de Fn vers F de façon presque sûre, car
Ω0 (x) dépend de x, or une intersection non dénombrable d’ensembles de probabilité 1 n’est pas
nécessairement de probabilité 1. En fait on peut montrer que, de façon presque sûre, il y a bien
Un quantile est défini à partir de la fonction de répartition. Il n’y aucun problème lorsque celle-ci
est bijective. Si tel n’est pas le cas, il faut faire un peu attention. Ceci arrivera en particulier pour
les fonctions de répartition empiriques que nous aborderons ultérieurement.
Remarque : ainsi, on peut noter que F −1 (0) = −∞, tandis que F −1 (1) est la borne supérieure
du support de la loi de X lorsque cette variable a pour fonction de répartition F .
Si F est bijective, il est clair que cette fonction quantile coïncide avec l’inverse classique (au sens
de fonction réciproque) de F , avec les conventions évidentes aux limites. A contrario, considérons
une variable aléatoire X discrète à valeurs dans l’ensemble fini {x1 < · · · < xm } avec probabilités
(p1 , . . . , pm ). Il est facile de vérifier que pour tout u ∈]0, 1[,
x1 si 0 < u ≤ p1
x 2 si p1 < u ≤ p1 + p2
F −1 (u) = ..
.
xm si p1 + · · · + pm−1 < u ≤ 1
c’est-à-dire
m
X
F −1 (u) = xk 1p1 +···+pk−1 <u≤p1 +···+pk . (2.2)
k=1
Si l’ensemble des valeurs prises par la variable discrète X n’est pas fini, il suffit de remplacer
cette somme par une série. Quoi qu’il en soit, outre que, tout comme F , cette fonction quantile
est croissante et en escalier, on notera que, contrairement à F , elle est continue à gauche. Ces
propriétés sont en fait toujours vraies.
Convention : dans toute la suite, nous conviendrons que F (−∞) = 0 et F (+∞) = 1 afin de
définir sans ambiguïté la fonction composée F ◦ F −1 sur [0, 1].
Propriétés 1
Soit F une fonction de répartition et F −1 son inverse généralisée. Alors :
1. Valeur en 0 : F −1 (0) = −∞.
2. Monotonie : F −1 est croissante.
3. Continuité : F −1 est continue à gauche.
4. Equivalence : ∀u ∈ [0, 1],
Supposons maintenant F continue. Alors, pour tout u ∈]0, 1] et pour tout ε > 0, on a, toujours
par (2.3),
F −1 (u) − ε < F −1 (u) =⇒ F (F −1 (u) − ε) < u.
Etant donné que u ∈]0, 1] et que F est supposée continue, le passage à la limite lorsque ε → 0
donne (F ◦ F −1 )(u) ≤ u. Au total, on a donc prouvé que, pour tout u ∈]0, 1], (F ◦ F −1 )(u) = u.
Avec les conventions prises pour F et F −1 , ceci est encore vrai pour u = 0. Supposons F non
injective, ce qui signifie qu’il existe x′0 < x0 tels que F (x′0 ) = F (x0 ) = u0 , donc
Dans le même ordre d’idée, si F est injective, alors quel que soit le réel x, il n’existe pas de réel
x′ < x tel que F (x′ ) = F (x), donc
Remarque : la preuve ci-dessus montre que si F est continue en F −1 (u0 ) alors (F ◦F −1 )(u0 ) = u0 .
Exemples : illustrons le dernier point des Propriétés 1.
1. Si X suit une loi uniforme sur [0, 1], alors sa fonction de répartition F est continue mais
pas injective. De fait, on a
F(x) F−1(u)
1.00 4
0.75 2
0.50 0
0.25 −2
0.00 −4
−4 −2 0 2 4 0.00 0.25 0.50 0.75 1.00
Le résultat suivant est utile tant d’un point de vue pratique, par exemple pour les méthodes
Monte-Carlo, que théorique, typiquement pour l’étude du processus empirique.
Preuve. Soit X = F −1 (U ) et x réel fixé, alors d’après le résultat d’équivalence des Propriétés 1,
la fonction de répartition de X se calcule facilement :
la dernière égalité venant de ce que, pour tout u ∈ [0, 1], P (U ≤ u) = u. Le premier point est donc
établi. On l’applique pour le second : la variable Y = F −1 (U ) a même loi que X, donc la variable
F (X) a même loi que F (Y ) = (F ◦ F −1 )(U ). Or F est continue, donc par le dernier point des
Propriétés 1, F ◦ F −1 = Id, donc F (Y ) = U et F (X) est de loi uniforme sur [0, 1].
¥
A propos du second point, il est clair que si X présente un atome en x0 , la variable F (X) va
hériter d’un atome en F (x0 ), donc ne sera certainement pas distribuée selon une loi uniforme. Par
exemple, si X ∼ B(1/3), alors F (X) est une variable discrète prenant les valeurs F (0) = 2/3 et
F (1) = 1 avec les probabilités respectives 2/3 et 1/3.
Application : méthode d’inversion en Monte-Carlo. Supposons que l’on dispose d’un gé-
nérateur aléatoire de variables uniformes 1 . Par exemple, en R, une réalisation est donnée via la
commande u=runif(1). Alors, si la fonction de répartition F est facilement inversible, on déduit
1. c’est en fait un générateur pseudo-aléatoire.
du résultat précédent une méthode simple pour générer une variable de fonction de répartition F
à partir de la simulation d’une variable uniforme.
Exemples :
1. Simulation d’une variable exponentielle. On veut générer une variable X selon la loi expo-
nentielle de paramètre λ > 0 fixé connu. Pour tout x > 0, F (x) = 1−e−λx , bijective de ]0, ∞[
vers ]0, 1[. Il s’ensuit que pour tout u ∈]0, 1[, F −1 (u) = −(log(1 − u))/λ. Ainsi la commande
x=-log(1-runif(1)) donne une réalisation d’une variable exponentielle de paramètre 1.
Puisque U a la même loi que 1 − U , on peut même aller plus vite par x=-log(runif(1)).
La fonction rexp de R est implémentée de cette façon.
2. Simulation d’une variable de Cauchy. On veut générer une variable X selon la loi de Cauchy
standard, c’est-à-dire de densité f (x) = 1/(π(1 + x2 )), donc de fonction de répartition
F (x) = (π/2 + arctan x)/π, bijective de R vers ]0, 1[. Par la méthode d’inversion, si U suit
une loi uniforme sur ]0, 1[, X = tan(π(U − 1/2)) suit une loi de Cauchy.
Maintenant qu’on a défini l’inverse d’une fonction de répartition en toute généralité, on peut passer
aux quantiles.
Définition 22 (Quantiles)
Soit F une fonction de répartition et p un réel de [0, 1]. On appelle quantile d’ordre p, ou p-quantile,
de F
xp = xp (F ) = F −1 (p) = inf{x ∈ R : F (x) ≥ p} ∈ R.
On le note aussi qp (penser aux intervalles de confiance). x1/2 est appelé médiane de F , x1/4 et
x3/4 étant ses premier et troisième quartiles.
Remarque : On a toujours x0 = −∞, tandis que x1 est la borne supérieure du support (éven-
tuellement +∞). De plus, la Proposition 1 assure que
∀p ∈ [0, 1] F (xp ) = F (F −1 (p)) ≥ p. (2.4)
On peut aussi définir les quantiles empiriques : ils coïncident avec les points de l’échantillon puisque
c’est uniquement en ceux-ci que la fonction de répartition empirique varie.
Notation : pour tout réel x, ⌈x⌉ désigne la partie entière supérieure de x, c’est-à-dire le plus petit
entier supérieur ou égal à x. En particulier, elle vérifie : x ≤ ⌈x⌉ < x + 1.
Lemme 3 (Quantiles empiriques)
Soit (X1 , . . . , Xn ) un échantillon et Fn la fonction de répartition empirique associée. Pour tout
p ∈ [0, 1], on note xp (n) = xp (Fn ) le quantile empirique (donc aléatoire) associé, c’est-à-dire, avec
la convention X(0) = −∞,
xp (n) = Fn−1 (p) = inf{x ∈ R : Fn (x) ≥ p} = X(⌈np⌉) .
Preuve. Le but est de prouver la dernière égalité. Celle-ci est évidente si p = 0 avec la convention
adoptée. Si 0 < p ≤ 1, alors 1 ≤ ⌈np⌉ ≤ n et, puisque X(1) ≤ · · · ≤ X(⌈np⌉) ≤ · · · ≤ X(n) , il est
clair que
n
1X ⌈np⌉
Fn (X(⌈np⌉) ) = 1X(j) ≤X(⌈np⌉) ≥ ≥ p,
n n
j=1
donc xp (n) = Fn−1 (p)≤ X(⌈np⌉) . Supposons maintenant que Fn−1 (p) < X(⌈np⌉) . Rappelons que
Fn−1 (p) est l’un des points de l’échantillon. Dès lors, si Fn−1 (p) < X(⌈np⌉) , alors il y a au plus
⌈np⌉ − 1 indices j tels que Xj ≤ Fn−1 (p), donc
n
1X ⌈np⌉ − 1
Fn (Fn−1 (p)) = 1Xj ≤Fn−1 (p) ≤ < p,
n n
j=1
Preuve. Pour le premier point, fixons p ∈]0, 1[ et ε > 0. Comme très souvent pour montrer une
convergence presque sûre, on va établir une inégalité de concentration du type
P(|xp (n) − xp | > ε) = P(xp (n) < xp − ε) + P(xp (n) > xp + ε). (2.5)
Ainsi
P(xp (n) < xp − ε) ≤ P(Sn − E[Sn ] ≥ n(p − F (xp − ε))).
Or, par définition de xp = inf{x, F (x) ≥ p}, on a, pour tout ε > 0, F (xp − ε) < p donc
terme général d’une série convergente. Le second terme de l’équation (2.5) se traite de façon
comparable :
P(xp (n) > xp + ε) = P(Fn−1 (p) > xp + ε) = P(nFn (xp + ε) < np) ≤ P(nFn (xp + ε) ≤ np),
c’est-à-dire à !
n
X
P(xp (n) > xp + ε) ≤ P 1Xi ≤xp +ε ≤ np ,
i=1
où l’on a cette fois
n
X
Sn = 1]−∞,xp +ε] (Xi ) ∼ B(n, F (xp + ε)) =⇒ E[Sn ] = nF (xp + ε),
i=1
d’où
P(xp (n) > xp + ε) ≤ P(Sn − E[Sn ] ≤ n(p − F (xp + ε))).
Or F étant globalement croissante et, par hypothèse, strictement croissante en xp , l’inégalité (2.4)
implique que pour tout ε > 0
ce qui donne encore une série convergente. Le premier point est donc établi.
Le second revient à montrer que pour tout réel x
à !
√ f (xp )
P( n(xp (n) − xp ) ≤ x) −−−→ Φ p x ,
n→∞ p(1 − p)
et µ ¶
√ ⌈np⌉ − 1 √
yn = n − F (xp + x/ n) .
n
Par définition de la partie entière par excès et d’après l’hypothèse sur F , il est clair que
µ µ ¶¶
√ √ x √
yn = n p + o(1/ n) − F (xp ) + f (xp ) √ + o(1/ n) −−−→ −f (xp )x.
n n→∞
L
Zn −−−→ N (0, p(1 − p)).
n→∞
Par ailleurs,
√ √ √ √
Yn − Z n = n(Fn (xp + x/ n) − Fn (xp )) − n(F (xp + x/ n) − F (xp )),
δn (1 − δn )
P (|Yn − Zn | ≥ ε) ≤ −−−→ 0,
ε2 n→∞
c’est-à-dire que (Yn − Zn ) tend en probabilité vers 0. Au total, par le Lemme de Slutsky,
L
Yn = Zn + (Yn − Zn ) −−−→ N (0, p(1 − p)).
n→∞
Par ailleurs, (yn ) converge de façon déterministe, donc a fortiori en probabilité, vers −f (xp )x donc
une nouvelle application du Lemme de Slutsky donne
L
Yn − yn − f (xp )x −−−→ N (0, p(1 − p)),
n→∞
Exemples :
0.3
0.0
0.75
0.2 −0.5
0.50
0.1 −1.0
0.25
−1.5
0.0
−5.0 −2.5 0.0 2.5 5.0 −5.0 −2.5 0.0 2.5 5.0 0 250 500 750 1000
1.00
0.75
0.50
0.25
0.00
0 2500 5000 7500 10000
Figure 2.4 – Oscillation de la médiane empirique pour des variables de Bernoulli B(1/2).
0.3 0.75
0.5
0.2 0.50
0.0
0.1 0.25
−0.5
0.0 0.00
−2 0 2 4 −2 0 2 4 0 250 500 750 1000
1 1 (x−3)2 1 1 (x+3)2
X = B × Y + (1 − B) × Z =⇒ f (x) = × √ e− 2 + × √ e− 2 .
2 2π 2 2π
Par symétrie, la médiane de X est en 0, et par le premier point du théorème on est assuré de
la convergence de x1/2 (n) vers 0. Néanmoins, cette convergence est très lente : la plupart des
points tombant près de l’un ou l’autre des modes, la médiane empirique sera elle-même très
longtemps plus proche de l’un ou l’autre des modes que de 0 (voir Figure 2.6). A contrario, si
on considère une brave gaussienne centrée réduite, l’échantillon sera bien concentré autour
de 0, donc si on coupe au milieu de celui-ci, la médiane empirique sera proche de 0.
0.20 1.00
1
0.15 0.75
0
0.10 0.50 −1
0.05 0.25 −2
−3
0.00 0.00
−5.0 −2.5 0.0 2.5 5.0 −5.0 −2.5 0.0 2.5 5.0 0 250 500 750 1000
Figure 2.6 – Densité d’un mélange équiprobable de gaussiennes, fonction de répartition et médiane
empirique.
donc
à p p !
p(1 − p) p(1 − p)
P p − Φ−1 (1 − α/2) √ ≤ Fn (xp ) < p + Φ−1 (1 − α/2) √ −−−→ 1 − α.
n n n→∞
Noter que cet intervalle s’obtient très facilement en pratique : si on définit p+ et p− par
p
± −1 p(1 − p)
p =p±Φ (1 − α/2) √ ,
n
l’intervalle de confiance s’écrit tout simplement [X(⌈np− ⌉) , X(⌈np+ ⌉) ], et l’affaire est entendue.
Exemple. Lorsque F est continue en la médiane, un intervalle de confiance à 95% pour celle-ci
√ √
est, à peu de choses près, complètement défini par les statistiques d’ordres n/2 − n et n/2 + n.
Autrement dit, si n = 104 , il y a environ 95% de chances que la médiane se situe dans l’intervalle
[X(4900) , X(5100) ].
√ L
n(ϕ̂n − ϕ(θ)) −−−→ N (0, σ 2 ),
n→∞
√ L
n(θ̂n − θ) −−−→ N (0, (σ/ϕ′ (θ))2 ).
n→∞
Sous le nom de méthode des moments ne se cache rien de plus que le cas particulier où ϕ(θ)
correspond à un moment de Pθ , c’est-à-dire que ϕ(θ) = E[X1k ] ou plus généralement ϕ(θ) =
E[h(X1 )]. L’exemple le plus connu est celui où l’on estime ϕ(θ) = E[X1 ] par la moyenne empirique
X̄n . Nous allons décliner cette idée sur plusieurs exemples.
Lois uniformes
La loi uniforme est la loi du “hasard pur”. Rappelons que X suit une loi uniforme sur [a, b], où
−∞ < a < b < +∞, si elle a pour densité f (x) = 1[a,b] (x)/(b − a). Sa moyenne vaut E[X] =
(a + b)/2 et sa variance Var(X) = (b − a)2 /12.
Considérons le modèle à un paramètre d’une loi uniforme sur [θ − 1, θ + 1]. On a donc E[X] = θ
et Var(X) = 1/3. La moyenne empirique X̄n est donc un estimateur sans biais de θ, son risque
quadratique vaut 1/(3n) et on a la convergence en loi
√ L
n(X̄n − θ) −−−→ N (0, 1/3).
n→∞
Si on veut des intervalles de confiance pour θ, on a au moins trois méthodes à notre disposition :
— Inégalité de Bienaymé-Tchebychev :
µ ¶
1 1 1
P(|X̄n − θ| ≥ c) ≤ =⇒ Pθ X̄n − √ ≤ θ ≤ X̄n + √ ≥ 1 − α.
3nc2 3nα 3nα
d’où Ã r r !
−2 log(α/2) −2 log(α/2)
Pθ X̄n − ≤ θ ≤ X̄n + ≥ 1 − α.
n n
Noter que l’inégalité de Hoeffding permet aussi de contruire des intervalles de confiance
unilatères.
— Normalité asymptotique : on a cette fois des intervalles de confiance asymptotiques
µ ¶
q1−α/2 q1−α/2
Pθ X̄n − √ ≤ θ ≤ X̄n + √ −−−→ 1 − α,
3n 3n n→∞
Lois exponentielles
La loi exponentielle correspond très souvent à la loi d’une durée. Rappelons que la variable X suit
une loi exponentielle de paramètre λ > 0, noté X ∼ E(λ), si elle a pour densité f (x) = λe−λx 1x≥0 .
Sa moyenne vaut E[X] = 1/λ et sa variance Var(X) = 1/λ2 . Le réel λ est un paramètre d’échelle :
si X ∼ E(λ), alors Y = λX ∼ E(1). Si on considère la moyenne empirique, on a donc
µ ¶
1
p.s. √ 1 L
X̄n −−−→ et n X̄n − −−−→ N (0, 1/λ2 ).
n→∞ λ λ n→∞
Si on considère l’estimateur 1/X̄n = g(X̄n ), on sait par le Théorème de Continuité qu’il est
convergent et la méthode Delta donne
µ ¶
√ 1 L
n − λ −−−→ N (0, λ2 ).
X̄n n→∞
Lois Gamma
En guise de mise en bouche, on rappelle que la fonction Gamma, définie pour tout réel r > 0 par
Z +∞
Γ(r) = xr−1 e−x dx, (2.6)
0
√
vérifie Γ(1/2) = π, Γ(1) = 1, Γ(r + 1) = rΓ(r) donc pour tout entier naturel n, Γ(n + 1) = n!.
Un changement de variable évident montre ainsi que, pour tout λ > 0, la fonction
(λx)r−1 −λx
f (x) = fr,λ (x) = λe 1x≥0
Γ(r)
définit une densité sur R+ . Si la variable aléatoire X a cette densité, on dit que X suit une loi
Gamma de paramètres r et λ et on note X ∼ Γ(r, λ).
X1 + · · · + Xn ∼ Γ(r1 + · · · + rn , λ).
Par conséquent :
— Si (X1 , . . . , Xn ) sont i.i.d. de loi E(λ), alors
n
X
Xi ∼ Γ(n, λ) et X̄n ∼ Γ(n, nλ).
i=1
Pn 2
— Si (X1 , . . . , Xn ) sont i.i.d. de loi N (0, 1), alors i=1 Xi ∼ Γ(n/2, 1/2), c’est-à-dire que
χ2n = Γ(n/2, 1/2).
Lorsque r est grand, la loi Γ(r, λ) ressemble à une loi normale (voir Figure 2.7). Par abus de
L
notation, on écrira parfois “Γ(r, λ) ≈ N (r/λ, r/λ2 )”, en ayant bien conscience de ce que cela
signifie, à savoir
¯ µ ¶ ¯
λ ³ r´ L ¯
¯ λ ³ r´ ¯
√ Xr − −−−→ N (0, 1) ⇐⇒ ∀x ∈ R, ¯P √ Xr − ≤ x − Φ(x)¯¯ −−−→ 0.
r λ r→∞ r λ r→∞
Pour l’estimation de paramètres, partant d’un échantillon (X1 , . . . , Xn ) i.i.d. selon une loi Γ(r, λ),
la moyenne empirique a les propriétés suivantes : E[X̄n ] = r/λ, Var(X̄n ) = r/(λ2 n), donc
r
√ ³ r´ L 2 n¡ ¢ L
n X̄n − −−−→ N (0, r/λ ) ⇐⇒ λX̄n − r −−−→ N (0, 1).
λ n→∞ r n→∞
Supposons que r est connu et que l’on cherche à estimer λ. Un intervalle de confiance asymptotique
se déduit donc de la convergence
µ µ √ ¶ µ √ ¶¶
1 q1−α/2 r 1 q1−α/2 r
P r− √ ≤λ≤ r+ √ −−−→ 1 − α.
X̄n n X̄n n n→∞
0.08
0.09
0.2 0.06
0.06
0.04
0.1
0.03 0.02
Figure 2.7 – Densités de lois Γ(r, λ) (noir) et N (r/λ, r/λ2 ) (rouge) avec λ = 2 et respectivement
r = 10, 50, 100.
On peut aussi appliquer Tchebychev pour un intervalle non asymptotique. Notons qu’en prenant
r = 1, tout ceci s’applique en particulier au cas d’une loi exponentielle de paramètre inconnu λ.
Si, réciproquement, λ est connu et que l’on cherche à estimer r, on sait d’une part que λX̄n est
un estimateur convergent de r, d’autre part grâce à la normalité asymptotique ci-dessus et le
Théorème de Slutsky que
√ λX̄n − r L
n p −−−→ N (0, 1),
λX̄n n→∞
ce qui fournit des intervalles de confiance asymptotiques pour r. Là encore, Tchebychev permet
d’obtenir des intervalles non asymptotiques, au prix de la résolution d’équations du second degré.
E[Y ] = σm + µ et Var(Y ) = s2 σ 2 .
Par les théorèmes classiques, cet estimateur est non biaisé, consistant et obéit à la normalité
asymptotique
√ L
n(µ̂n − µ) −−−→ N (0, σ 2 s2 ),
n→∞
ce qui permet de construire des intervalles de confiance asymptotiques. A nouveau, les inégali-
tés de Tchebychev et Hoeffding (dans le cas borné) fournissent des intervalles de confiance non
asymptotiques.
Si µ est connu et que l’on veut estimer σ, distinguons deux cas de figure possibles :
— si m 6= 0 : l’estimateur naturel est alors
1
σ̂n = (Ȳn − µ),
m
qui est consistant et vérifie
µ ¶
√ L 2 √ m σ̂n L
n(σ̂n − σ) −−−→ N (0, (σs/m) ) ⇐⇒ n −1 −−−→ N (0, 1),
n→∞ s σ n→∞
lequel est bien convergent par la loi des grands nombres. Si on suppose de plus l’existence
d’un moment d’ordre 4 pour Y (ou, ce qui est équivalent, pour X), alors
µ ¶
√ L √ s2 σ̂n2 L
n(σ̂n2 2 4
− σ ) −−−→ N (0, σ Var(X )/s ) ⇐⇒ 2 4
n p −1 −−−→ N (0, 1),
n→∞ Var(X 2 ) σ2 n→∞
Sur ce cas particulier, la médiane empirique correspond donc à un estimateur un peu moins précis
que la moyenne empirique. Notons que ça n’est pas toujours le cas, il suffit pour s’en convaincre
√
de considérer une loi de Laplace : l’estimateur de la médiane empirique est asymptotiquement 2
fois plus précis que celui de la moyenne empirique.
Même lorsque, comme dans le cas gaussien, l’estimateur de la médiane empirique est théoriquement
moins bon, cet estimateur peut être intéressant en raison de sa robustesse. Un exemple très simple
permet de comprendre l’idée.
3. Noter que, dans ce cas particulier, il y a en fait égalité en loi pour tout n ≥ 1 puisque X̄n ∼ N (θ, 1/n).
L’écart-type valant à peu près 1/10, il y a environ 95% de chances que X̄n se trouve entre 0.3
et 0.7, tandis qu’en l’absence de valeur aberrante, celle-ci se trouverait entre -0.2 et 0.2, d’où le
problème : une seule valeur erronée a fait dérailler l’estimateur... A contrario, il est clair que celle-
ci n’a quasiment aucune influence sur la médiane empirique. Ainsi la médiane empirique est-elle
beaucoup plus stable que la moyenne empirique face aux données aberrantes : on dit qu’elle est
robuste.
Rappel ! Revenons sur la médiane empirique dans un cadre général. Comme expliqué précédem-
ment, le résultat de normalité asymptotique
µ ¶
√ L 1
n(x1/2 (n) − x1/2 ) −−−→ N 0,
n→∞ 4f (x1/2 )2
[X(⌈n/2−√n⌉) , X(⌈n/2+√n⌉) ].
Dans le cas d’un modèle d’échantillonnage où X = (X1 , . . . , Xn ) avec les Xi i.i.d., autrement dit
gθ (x1 , . . . , xn ) = fθ (x1 ) . . . fθ (xn ), on a donc
n
X
ℓn (θ̂) = sup log fθ (Xi ).
θ∈Θ i=1
Interprétation : sous réserve d’existence et d’unicité, l’EMV θ̂ est donc la valeur de θ qui rend
le jeu d’observations X1 , . . . , Xn le plus vraisemblable. Dès lors, il est logique que θ̂ soit une
variable aléatoire dépendant des Xi .
Lorsque Θ est fini, le modèle identifiable et les Xi i.i.d., on peut montrer qu’il existe un EMV et
qu’il est asymptotiquement unique et convergent. Mais, en général, ni l’existence ni l’unicité des
EMV ne sont assurées. En fait, à peu près tout peut arriver, comme on pourra s’en rendre compte
sur quelques exemples par la suite.
Supposons que, partant du paramétrage par θ ∈ Θ, on considère une bijection ϕ : Θ → Λ. Il est
alors équivalent de travailler avec les densités (gθ )θ∈Θ ou avec les densités (hλ )λ∈Λ définies par
hλ (x) = gϕ−1 (λ) (x). Sous réserve d’existence, un EMV λ̂ du second paramétrage vérifie alors
hλ̂ (X) = sup hλ (X) = sup gϕ−1 (λ) (X) = sup gθ (X) = gθ̂ (X),
λ∈Λ λ∈Λ θ∈Θ
donc il y a correspondance bijective entre EMV pour les deux paramétrages. Il est ainsi équivalent
de dire que θ̂ est un EMV de θ ou que λ̂ = ϕ(θ̂) est un EMV de λ = ϕ(θ). Par convention, on
étend ce principe au cas où ϕ n’est pas bijective.
Définition 24 (Extension de la notion d’EMV)
Si ϕ est une application définie sur Θ, on dit que ϕ(θ̂) est un estimateur du maximum de vraisem-
blance de ϕ(θ) si θ̂ est un estimateur du maximum de vraisemblance de θ.
Exemple. Considérons un modèle gaussien où les variables Xi sont i.i.d. de loi N (θ, 1). La log-
vraisemblance s’écrit (voir aussi Figure 2.8)
n
n 1X
ℓn (θ) = − log(2π) − (Xi − θ)2 .
2 2
i=1
On vérifie sans problème que l’unique maximum de cette fonction est en θ̂ = X̄n . L’EMV coïncide
donc avec la moyenne empirique. Avec la convention de la définition précédente, nous dirons donc
que l’EMV de θ2 dans ce modèle est (X̄n )2 .
1e−33
1.4
0 Vraisemblance
Données
−50
1.2
−100 1.0
−150
0.8
−200
0.6
−250
0.4
−300
0.2
−350
Log-vraisemblance
−400 Données 0.0
0 1 2 3 4 5 0 1 2 3 4 5
Figure 2.8 – Echantillon de 50 variables i.i.d. de loi N (3, 1), log-vraisemblance et vraisemblance.
Remarque. Pour un modèle (Pθ )θ∈θ ) dominé, l’EMV dépend de la densité choisie ! Reprenons
l’exemple précédent du modèle de translation gaussien, i.e. X ∼ N (θ, 1), mais plutôt que la
2
densité classique fθ (x) = f (x − θ) avec f (x) = (2π)−1/2 e−x /2 , considérons gθ (x) = g(x − θ) où
g(x) = f (x)1x6=1 + 1x=1 . Puisque f et g sont égales presque partout, g est encore une densité par
rapport à la mesure de Lebesgue, de loi associée la gaussienne standard, et le modèle de translation
défini à partir de cette densité est le même que précédemment. Néanmoins, il est facile de voir
que si n = 1, c’est-à-dire que l’on dispose d’une seule observation X ∼ N (θ, 1), l’EMV pour les
densités gθ est θ̃ = X − 1 et non plus θ̂ = X. Dans la suite, on considérera toujours les versions
“classiques” des densités.
Nous présentons maintenant quelques exemples illustrant différents cas de figures.
Si σ est connu, tout se passe comme ci-dessus et l’EMV de µ est µ̂ = X̄n . Si µ est connu et si on
cherche l’EMV de σ 2 , la dérivation par rapport à σ 2 (et non par rapport à σ !) donne
n n
n 1 X 2 2 1X
− + (X i − µ) =⇒ σ̂ = (Xi − µ)2 .
2σ 2 2σ 4 n
i=1 i=1
Ainsi, dans les deux cas, les EMV correspondent aux estimateurs obtenus par la méthode des
moments. Notons que la maximisation de ℓn (µ, σ 2 ) par rapport à µ ne dépend pas de la valeur
de σ 2 : c’est toujours µ̂ = X̄n . Donc, si les deux paramètres sont inconnus, l’EMV de σ 2 doit
maximiser
n n
2 n n 2 1 X 2 2 1X
ℓn (X̄n , σ ) = − log(2π) − log(σ ) − 2 (Xi − X̄n ) =⇒ σ̂ = (Xi − X̄n )2 ,
2 2 2σ n
i=1 i=1
Loi de Poisson. On passe maintenant à un exemple discret. Si X ∼ P(λ), avec λ > 0, alors
P(X = k) = e−λ λk /k! pour tout entier naturel k. La densité de la loi de Poisson par rapport
à la mesure de comptage sur N est ainsi définie par fλ (x) = e−λ λx /x! pour tout entier naturel
x. Un échantillon i.i.d. (X1 , . . . , Xn ) étant donné, sa log-vraisemblance vaut donc, après quelques
bidouillages,
Xn
ℓn (λ) = n(X̄n log λ − λ) − log(Xi !),
i=1
laquelle se minimise sans difficulté et aboutit à l’EMV λ̂ = X̄n si X̄n > 0. Le cas pathologique où
la moyenne empirique est nulle correspond à la nullité de tous les Xi . Dans ce cas ℓn (λ) = −nλ,
qui n’a pas de maximum, la valeur λ = 0 étant exclue pour une loi de Poisson. Notons cependant
que ceci n’arrive qu’avec probabilité exp(−nλ), qui tend exponentiellement vite vers 0 avec n.
Loi uniforme sur [0, θ]. La densité étant égale à fθ (x) = 1[0,θ] (x)/θ, la vraisemblance vaut
n
1 Y 1
Ln (θ) = n 1[0,θ] (Xi ) = n 1[X(n) ,+∞[ (θ),
θ θ
i=1
θ2
R(θ̃, θ) = Var(2X̄n ) = ,
3n
et ce bien que l’EMV soit biaisé. Par ailleurs, le calcul de la fonction de répartition montre que,
pour tout t ≥ 0,
³ ´ µ ¶ µ ¶
t t n t
Pθ n(θ − θ̂) ≥ t = Fθ̂ θ − = 1− 1[0,nθ] (t) −−−→ e− θ 1[0,∞[ (t),
n θn n→∞
Ainsi, l’EMV θ̂ converge à vitesse 1/n vers θ et la loi limite est une loi exponentielle.
Elle ne prend que deux valeurs, 0 et 1/2n , de sorte que tout θ ∈ [X(n) − 1, X(1) + 1] est un EMV 4
C’est donc une situation où il n’y a pas unicité de l’EMV. En calculant les fonctions de répartition
de X(1) et X(n) à l’instar de ce qui a été fait dans l’exemple précédent, on montre facilement que
X(1) tend vers (θ − 1) et X(n) vers (θ + 1). Par conséquent, quel que soit le choix de θ̂n dans
l’intervalle [X(n) − 1, X(1) + 1], on aura convergence vers θ. Une possibilité est de couper la poire
en deux en choisissant le milieu de l’intervalle, i.e. θ̂n = (X(1) + X(n) )/2.
Dérivée de la log-vraisemblance 0
Données
40 −200
−400
20
−600
0 −800
−1000
−20
−1200
−40 −1400
Log-vraisemblance
−1600
Données
0 200 400 600 800 1000 1200 1400 1600 0 200 400 600 800 1000 1200 1400 1600
4. noter que [X(n) − 1, X(1) + 1] est toujours non vide car 0 < X(n) − X(1) < 2.
La log-vraisemblance s’écrit
n
X
ℓn (θ) = −n log π − log(1 + (Xi − θ)2 ).
i=1
Elle est continue et tend vers −∞ lorsque θ → ±∞, donc elle admet un (ou plusieurs) EMV. Il
“suffit” pour le(s) trouver d’annuler la dérivée :
n
X Xi − θ
ℓ′n (θ) = 2 .
1 + (Xi − θ)2
i=1
Ceci définit bien une densité, laquelle présente la particularité d’être discontinue en 0, où elle
explose (mais f (0) = 0). On considère alors la famille de densités (fθ )θ∈R obtenues par translation
de f , c’est-à-dire pour tous réels θ et x,
à !
1 1 1
fθ (x) = f (x − θ) = p 1]0,1] (|x − θ|) + 1 (|x − θ|) . (2.7)
6 |x − θ| (x − θ)2 ]1,+∞[
Clairement, cette fonction tend vers +∞ dès que θ tend vers l’un des Xi , mais vaut 0 en chacun
des Xi par définition de f . Il n’y a donc pas d’estimateur du maximum de vraisemblance (voir
Figure 2.10). On peut également noter que si X a pour densité fθ , elle n’admet pas d’espérance,
donc la méthode des moments mène elle aussi à une impasse. Pour estimer θ, on peut néanmoins
s’en sortir en passant par la médiane empirique. En effet, la fonction de répartition associée à la
densité f est
−1/(6x)
√ si x ≤ −1
1/2 − −x/3 si − 1 ≤ x ≤ 0
F (x) = √
1/2 + x/3 si 0 ≤ x ≤ 1
1 − 1/(6x) si x ≥ 1
Cette fonction est continue bijective, de médiane 0. Par translation, la médiane de la variable
aléatoire X de densité fθ est donc θ, le paramètre que l’on cherche à estimer. Notant comme
d’habitude x1/2 (n) = X(⌈n/2⌉) la médiane empirique, le résultat de consistance s’applique :
p.s.
x1/2 (n) −−−→ θ.
n→∞
Par contre, la normalité asymptotique telle qu’énoncée en Théorème 8 est hors-sujet puisque
fθ (θ) = 0. Il n’en reste pas moins que l’on peut toujours construire des intervalles de confiance
grâce à la méthode vue et revue du passage par la fonction de répartition empirique : ainsi,
[X(⌈n/2−√n⌉) , X(⌈n/2+√n⌉) ] est un intervalle de confiance asymptotique à 95%.
−40
0 Log-vraisemblance Log-vraisemblance (zoom)
Données
−20 −45
−40 −50
−60
−55
−80
−60
−100
−65
−120
−70
−140
−15 −10 −5 0 5 10 15 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
L’approche minimax consiste, pour un estimateur θ̂, à définir son risque maximal Rmax (θ̂) =
supθ∈Θ R(θ, θ̂), quantité qui ne dépend donc plus de θ, puis à chercher un estimateur θ̌ qui minimise
ce risque maximal, c’est-à-dire tel que
Rmax (θ̌) = inf Rmax (θ̂) = inf sup R(θ, θ̂),
θ̂ θ̂ θ∈Θ
où l’infimum est pris sur tous les estimateurs possibles θ̂ de θ. S’il existe, un tel estimateur θ̌ est dit
minimax : c’est donc un estimateur optimal dans le pire des cas. Dans l’exemple gaussien ci-dessus,
on constate que Rmax (θ̂) = 1/n tandis que Rmax (θ̃) = +∞, donc au sens du critère minimax le
premier estimateur est préférable au second. On peut en fait montrer que, dans ce modèle, θ̂ = X̄n
est un estimateur minimax. De façon plus générale, on peut cependant reprocher à ce critère d’être
trop pessimiste, notamment lorsque l’intervalle Θ n’est pas compact.
Le point de vue bayésien revient quant à lui à mettre une loi a priori Π sur le paramètre θ, dès
lors vu comme une variable aléatoire θ, et à définir le risque de Bayes
h i Z h i
2
RB (Π, θ̂) = E (θ̂(X) − θ) = Eθ (θ̂(X) − θ)2 Π(dθ),
Θ
où le premier symbole d’espérance signifie qu’on moyennise par rapport à X et par rapport à
θ, tandis que le second considère θ fixé à la valeur θ. A nouveau, l’intérêt est que la quantité
RB (Π, θ̂) ne dépend plus de θ. Un estimateur est alors dit de Bayes pour la loi a priori Π et le
risque quadratique s’il minimise le risque de Bayes 5 . Contrairement à un estimateur minimax,
c’est un estimateur qui est optimal en moyenne, ce qui semble un critère plus raisonnable. Cette
solution est attrayante, mais elle dépend tout de même de la loi a priori Π sur θ, laquelle peut être
sujette à débat...
Oublions le cadre bayésien pour revenir à l’approche fréquentiste et considérons la perte quadra-
tique. Sa décomposition biais carré-variance s’écrit
h i ³ ´2 ·³ ´2 ¸
2
R(θ, θ̂) = Eθ (θ̂ − θ) = Eθ [θ̂] − θ + Eθ θ̂ − Eθ [θ̂] ,
et on voit qu’un bon estimateur doit avoir un biais et une variance qui sont tous deux petits.
Absence d’estimateur non biaisé. Dans certaines situations, ce n’est même pas la peine de
se creuser la tête, il n’existe tout bonnement aucun estimateur sans biais. On observe X suivant
une loi binomiale B(n, 1/λ), où n est connu et λ > 1 est le paramètre que l’on cherche à estimer.
Supposons que λ̂ = λ̂(X) soit un estimateur sans biais de λ. Alors, pour tout λ > 1, on aurait
n µ ¶
X µ ¶
n −k 1 n−k
λ = E[λ̂(X)] = λ 1− λ̂(k).
k λ
k=0
Dans cette écriture, les λ̂(k) ne sont rien de plus que des coefficients réels dépendant de k et
indépendants de λ. L’équation précédente est équivalente à dire que, pour tout λ > 1,
Xn µ ¶
n+1 n
λ − λ̂(k)(λ − 1)n−k = 0.
k
k=0
5. Pour le risque quadratique, on peut montrer que la moyenne a posteriori E[θ|X] est un estimateur de Bayes.
Un polynôme de degré exactement (n+1) ne pouvant avoir plus de (n+1) racines, ceci est absurde !
Il n’existe donc aucun estimateur sans biais pour ce problème.
Manque de stabilité. Supposons que θ̂ = θ̂(X) soit un estimateur non biaisé de θ et ϕ une
fonction. Hormis lorsque ϕ est affine, il n’y a en général aucune raison pour que E[ϕ(θ̂)] = ϕ(E[θ̂]) =
ϕ(θ), donc en général l’absence de biais n’est pas préservé par transformation. Ceci est limpide
lorsque ϕ est strictement convexe (ou concave), car l’inégalité de Jensen impose alors 6
L’histoire du débiaisage. Supposons qu’on dispose d’un estimateur biaisé mais que ce biais
est facilement rectifiable. Est-ce la meilleure chose à faire pour autant ? Pas forcément... Revenons
à l’exemple d’une loi uniforme sur [0, θ] vu en Section 2.2.2. L’estimateur du maximum de vrai-
semblance était θ̂ = X(n) , qui présentait un biais puisque E[θ̂] = (nθ)/(n + 1). Par ailleurs nous
avions vu que
n 2 h i 2θ2
E[θ̂2 ] = θ =⇒ R(θ̂, θ) = E (θ̂ − θ)2 = .
n+2 (n + 1)(n + 2)
(n + 1)2 2 θ2
E[θ̃2 ] = θ =⇒ R(θ̃, θ) = Var(θ̃) = E[θ̃2 ] − θ2 = .
n(n + 2) n(n + 2)
On en déduit que R(θ̃, θ) ≤ R(θ̂, θ), donc le débiaisage a amélioré les choses en terme de risque
quadratique. Néanmoins, on peut faire encore mieux. En effet, considérons de façon plus générale
un estimateur de la forme αX(n) , où α est un réel. Son erreur quadratique s’écrit donc
µ ¶
£ 2
¤ 2 n 2 2n
R(αX(n) , θ) = E (αX(n) − θ) =θ α − α+1 .
n+2 n+1
θ2 θ2
R(θ̌, θ) = < = R(θ̃, θ).
(n + 1)2 n(n + 2)
Il existe cependant une situation qui peut changer radicalement la donne. Supposons que θ̂n pré-
sente un biais
bn (θ) = E[θ̂n ] − θ = O(1/n),
tandis que θ̃n est non biaisé. Supposons que le nombre n de données soit immense mais qu’on
dispose aussi d’un très grand nombre de processeurs de façon à pouvoir paralléliser les calculs.
√
Pour simplifier les notations, on va considérer N = n processeurs, chacun traitant un ensemble
(1) (N )
de N données. On a donc N estimateurs partiels θ̂N , . . . , θ̂N desquels on déduit l’estimateur
global par moyennisation
(1) (N )
θ̂ + · · · + θ̂N
T̂n = N .
N
Les estimateurs partiels étant i.i.d., les propriétés de T̂n sont immédiates :
2 (θ)
σN σ 2 (θ)
E[T̂n ] = bN (θ) et Var(T̂n ) = =⇒ R(T̂n , θ) = bN (θ)2 + N .
N N
Suivant la même démarche, l’estimateur non biaisé θ̃n mène à l’estimateur global
Donc si b(θ)2 + σ 2 (θ) > s2 (θ), il faudra désormais privilégier le second estimateur. On voit que la
parallélisation des calculs a fait émerger le biais du premier estimateur de façon décisive !
L’approche asymptotique
Il est souvent plus simple de comparer les choses de façon asymptotique, i.e. lorsque n tend vers
l’infini. Le premier critère est bien entendu celui de la vitesse de convergence vers 0. Si, pour tout
θ ∈ Θ, on a R(θ̂n , θ) = o(R(θ̃n , θ)) lorsque n → ∞, on préférera θ̂n à θ̃n .
Exemples :
1. Si l’on revient à l’exemple où les n variables Xi sont i.i.d. suivant une loi N (θ, 1) en
considérant les deux estimateurs θ̂n = X̄n et θ̃n = 0 de risques quadratiques respectifs
R(θ̂n , θ) = 1/n et R(θ̃n , θ) = θ2 . Nous avons vu que, à n fixé, l’estimateur “raisonnable” θ̂n
n’est pas toujours meilleur que l’estimateur “stupide” θ̃n , cela dépend de la valeur de θ. Si
maintenant on regarde les choses d’un point de vue asymptotique, alors on voit que, pour
tout réel θ, R(θ̂n , θ) = o(R(θ̃n , θ)). Ceci corrobore l’intuition selon laquelle, entre ces deux
estimateurs, c’est bien sûr θ̂n qu’il faut privilégier.
2. Reprenons l’exemple de la loi uniforme sur [0, θ], où l’estimateur du maximum de vraisem-
blance est θ̂n = X(n) . L’estimateur issu de la méthode des moments est θ̃n = 2X̄n et a pour
risque quadratique θ2 /(3n). Puisque, pour tout θ > 0,
µ ¶
2θ2 θ2
R(θ̂n , θ) = =o ,
(n + 1)(n + 2) 3n
Ce dernier exemple n’est cependant pas représentatif de la situation typique : en général, les risques
quadratiques convergent à vitesse 1/n vers 0. Plus précisément, si l’on dispose pour les estimateurs
θ̂n et θ̃n de résultats de normalité asymptotique de la forme
√ ³ ´
L √ ³ ´
L
n θ̂n − θ −−−→ N (0, σ 2 (θ)) et n θ̃n − θ −−−→ N (0, s2 (θ)),
n→∞ n→∞
avec σ 2 (θ) ≤ s2 (θ) pour tout θ ∈ Θ, alors on préférera θ̂n à θ̃n . En effet, en arrondissant 1.96 à 2,
on a par exemple
µ¯ ¯ 2σ(θ) ¶ µ¯ ¯ 2s(θ) ¶
¯ ¯ ¯ ¯
P ¯θ̂n − θ¯ ≤ √ −−−→ 95% et P ¯θ̃n − θ¯ ≤ √ −−−→ 95%
n n→∞ n n→∞
donc pour un même niveau de confiance asymptotique, le premier estimateur donne un encadrement
plus précis.
A première vue, on n’a fait que reporter le problème, puisque la comparaison des variances asymp-
totiques soulève les mêmes difficultés que la comparaison des risques quadratiques. On peut en
effet très bien imaginer θ et θ′ tels que σ 2 (θ) < s2 (θ) et σ 2 (θ′ ) > s2 (θ′ ). Comme nous allons le
voir, l’intérêt de la théorie asymptotique est que, sous certaines conditions, il existe une variance
asymptotique optimale et des estimateurs atteignant celle-ci 8 .
Sans même rentrer dans les détails techniques, ceci n’a rien d’étonnant : dans la plupart des
exemples croisés jusqu’ici, les estimateurs sont asymptotiquement normaux et de risque quadra-
tique en 1/n. Un cas très particulier est celui de l’estimateur du maximum de vraisemblance pour
le modèle uniforme (U[0,θ] )θ>0 , c’est-à-dire X(n) : il n’est pas asymptotiquement normal et son
risque quadratique est en 1/n2 . Bref, il est tout à fait atypique et nous allons préciser en quel sens,
à savoir qu’il n’est pas régulier.
Nous commençons par rappeler la notion d’absolue continuité d’une fonction. Celle-ci est bien
entendu liée à l’absolue continuité d’une mesure par rapport à une autre, vue au Chapitre 1. Pour
plus de détails sur ce thème, on pourra consulter [12], Chapitre VI, paragraphe 4, ou [2], Chapitre
6, Section 31.
La question initiale est la suivante : quand peut-on dire qu’une fonction dérivable presque partout
est l’intégrale indéfinie de sa dérivée ? Clairement ce n’est pas toujours vrai, comme le montre la
fonction f (x) = 1[0,∞[ (x). Il y a plusieurs caractérisations équivalentes de l’absolue continuité,
nous adopterons la suivante 9 .
8. Tuons le suspense : la variance optimale sera l’inverse de l’information de Fisher, asymptotiquement atteinte
par l’estimateur du maximum de vraisemblance (sous les hypothèses idoines).
9. La définition classique est : f est absolument continue surP [a, b] si ∀ε > 0, ∃δ > 0 tel Pque ∀n > 0, pour toute
famille d’intervalles deux à deux disjoints (ak , bk )1≤k≤n tels que nk=1 (b k − a k ) ≤ δ, on a n
k=1 |f (bk ) − f (ak )| ≤ ε.
Remarque. Ainsi, pour faire le lien avec la Section 1.1.5, il est équivalent de dire que la loi d’une
variable aléatoire définit une mesure absolument continue par rapport à la mesure de Lebesgue
sur R, ou que la fonction de répartition associée à cette loi est absolument continue au sens de la
définition ci-dessus.
En terme de régularité, la notion d’absolue continuité est plus forte que celle d’uniforme continuité,
mais plus faible que celle de lipschitziannité. En particulier, toute fonction absolument continue
est continue (par le théorème de convergence dominée) mais la réciproque est fausse. Une fonction
peut même être continue sur I, dérivable presque partout sur I, sans être pour autant absolument
continue : l’escalier du diable en est un exemple typique. Par ailleurs, avec la définition précédente,
la fonction f ′ n’est définie que presque partout. Le résultat suivant précise les choses. On rappelle
qu’une fonction f est dérivable au sens usuel en x0 s’il existe ℓ0 ∈ R tel que
f (x0 + h) − f (x0 )
−−−→ ℓ0 .
h h→0
Dans la suite, pour définir sans ambiguïté la dérivée au sens de l’absolue continuité, nous consi-
dérons que f ′ est la dérivée au sens usuel quand celle-ci existe, et 0 sinon. Avec cette convention,
lorsque f est absolument continue et positive sur I, alors f (x) = 0 implique f ′ (x) = 0. En effet, ou
bien f est dérivable au sens usuel en x, mais alors puisque x est un minimum de f ≥ 0, nécessai-
rement f ′ (x) = 0. Ou bien f n’est pas dérivable au sens usuel en x, auquel cas par la convention
précédente on a encore f ′ (x) = 0. Pour la suite, la conséquence de ceci est l’égalité
Si f est absolument continue sur I, alors elle est continue sur I et à variation bornée sur tout
segment de I. De plus, si f et g sont absolument continues sur I, alors f g l’est aussi, de dérivée
égale à f ′ g + f g ′ presque partout.
Dans tout ce qui suit, nous considérons sur E un modèle statistique dominé de la forme (Pθ )θ∈Θ =
(gθ · µ)θ∈Θ où Θ est un intervalle ouvert de R et µ une mesure de référence. Par ailleurs, les
symboles de dérivation au sens de l’absolue continuité le seront toujours par rapport au paramètre
θ, c’est-à-dire que, sous réserve d’existence, nous noterons pour x ∈ E et θ ∈ Θ :
∂ ∂2
gθ′ (x) = gθ (x) et gθ′′ (x) = gθ (x).
∂θ ∂θ2
Si l’on note ℓθ (X) = log gθ (X) le logarithme de la densité calculé en X avec X ∼ Pθ , on appelle
score la variable aléatoire
∂ g ′ (X)
ℓ′θ (X) = log gθ (X) = θ .
∂θ gθ (X)
Attention ! Il y a ici une subtilité : lorsque X = (X1 , . . . , Xn ) ∼ Pθ∗ , nous avons précédemment
noté ℓn (θ) = log gθ (X) la log-vraisemblance de l’échantillon (cf. Section 2.2.2), fonction définie
pour toute valeur θ ∈ Θ et avons défini l’estimateur du maximum de vraisemblance comme une
valeur de θ maximisant cette fonction. A contrario, dans toute la présente section, X est supposé
suivre la loi Pθ . En particulier, lorsque nous parlerons des moments du score ℓ′θ (X), il faut bien
avoir en tête que X ∼ Pθ .
Il existe plusieurs façons de définir un modèle régulier. Celle que nous proposons n’est pas la plus
classique, mais présente l’avantage d’être très générale.
Ainsi, pour qu’un modèle soit régulier, la fonction (θ, x) 7→ gθ (x) doit respecter une condition
de continuité/dérivabilité par rapport à θ, et une condition d’intégrabilité par rapport à x. Par
ailleurs, si elle existe, il est clair que l’information de Fisher est toujours supérieure ou égale à 0.
A retenir : si pour µ presque tout x ∈ E, la fonction θ 7→ gθ (x) est C 1 , alors les deux premiers
points sont clairement vérifiés 10 . A contrario, si pour µ presque tout x ∈ E, la fonction θ 7→ gθ (x)
possède (au moins) une discontinuité, le modèle n’est pas régulier puisque le premier point n’est
pas vérifié.
Exemples :
1. Loi exponentielle : considérons X ∼ E(θ) avec θ ∈ Θ =]0, +∞[, alors
donc :
— pour tout x ≥ 0, l’application θ 7→ gθ (x) est C ∞ sur Θ donc les deux premiers points
sont clairs ;
— pour tout θ > 0,
1
ℓθ (X) = log θ − θX =⇒ ℓ′θ (X) = − X.
θ
Puisque Eθ [X] = 1/θ et Varθ (X) = 1/θ2 , on en déduit que
"µ ¶2 #
£ ¤ 1 h i
Eθ (ℓ′θ (X))2 = Eθ −X = Eθ (X − E[X])2 = Varθ (X) = 1/θ2
θ
continue sur Θ =]0, +∞[. Ainsi le modèle défini par ces lois exponentielles est bien
régulier, d’information de Fisher égale à I(θ) = 1/θ2 .
10. Ceux-ci comprennent néanmoins des modèles plus généraux : par exemple, comme nous le verrons plus loin,
le modèle de translation pour la loi de Laplace défini par gθ (x) = 12 exp(−|x − θ|) est régulier. Pour le second point,
il suffit en effet de prendre E0 = R \ {θ0 }, lequel est bien de mesure de Lebesgue pleine.
2. Loi de Bernoulli : soit X ∼ B(θ) avec θ ∈ Θ =]0, 1[, alors µ = δ0 + δ1 est la mesure de
comptage sur {0, 1}, avec
gθ (0) = 1 − θ et gθ (1) = θ,
donc :
— pour tout x ∈ {0, 1}, l’application θ 7→ gθ (x) est C ∞ sur Θ donc les deux premiers
points sont satisfaits ;
— Pour le dernier, on peut écrire pour tout x ∈ {0, 1}
X−θ
gθ (x) = θx (1 − θ)1−x =⇒ ℓθ (X) = X log θ + (1 − X) log(1 − θ) =⇒ ℓ′θ (X) =
θ(1 − θ)
continue sur Θ =]0, 1[. Par conséquent ce modèle est régulier, d’information de Fisher
égale à I(θ) = 1/(θ(1 − θ)).
3. Loi uniforme : supposons maintenant que X ∼ U[0,θ] avec θ ∈ Θ =]0, +∞[. Pour tout réel
x ≥ 0 (fixé !), la fonction
1 1
θ 7→ gθ (x) = 1[0,θ] (x) = 1[x,+∞[ (θ)
θ θ
est discontinue au point x, donc ce modèle n’est pas régulier. Ceci est en accord avec ce que
nous avons annoncé en préambule. Par conséquent, rien de ce qui suit ne s’appliquera à ce
modèle.
4. On pourrait penser que si pour tout x de E la fonction θ 7→ gθ (x) est continue et C 1 par
morceaux sur Θ, alors les deux premiers points de la Définition 26 sont automatiquement
vérifiés. Ce n’est pas le cas, comme le montre l’exemple suivant : soit 0 < θ < 1, U une
variable de loi uniforme sur [0, 1], et X définie par : X = 1U ≤θ/2 si 0 < θ ≤ 1/2 et
X = 1U ≤θ−1/4 si 1/2 < θ < 1. Que x soit égal à 0 ou 1, la fonction θ 7→ gθ′ (x) n’est pas
continue en θ = 1/2 et il est donc impossible de définir ce que serait l’information de Fisher
en ce point. Ce modèle n’est donc pas régulier.
On va maintenant donner un résultat de dérivation sous le signe somme. Au préalable, précisons
qu’une application θ 7→ ϕ(θ) est localement bornée sur Θ si
Clairement, une fonction continue sur Θ est localement bornée. Une fonction bornée sur Θ est a
fortiori localement bornée, la réciproque étant fausse : il suffit de considérer ϕ(θ) = θ sur Θ = R.
Pour tomber sur une fonction non localement bornée, il faut le faire exprès : c’est par exemple le
cas de la fonction définie sur R par ϕ(0) = 0 et ϕ(θ) = 1/θ si θ 6= 0, laquelle n’est pas localement
bornée à l’origine.
Bref, pour la suite, on retiendra que l’hypothèse “telle fonction est localement bornée” n’est pas
bien contraignante. Sa raison d’être est de permettre la dérivation sous le signe somme, comme
dans le résultat suivant.
Preuve. Fixons θ0 ∈ Θ et h > 0 tel que [θ0 , θ0 +h] ⊂ Θ. Alors, par absolue continuité de θ 7→ gθ (x)
pour µ presque tout x de E, on a
Z Z µZ θ0 +h ¶
′
Eθ0 +h [T (X)] − Eθ0 [T (X)] = T (x)(gθ0 +h (x) − gθ0 (x))µ(dx) = T (x) gθ (x)dθ µ(dx).
E E θ0
Pour pouvoir inverser l’ordre d’intégration, il faut commencer par vérifier l’absolue intégrabilité.
La propriété (2.8) et l’inégalité de Cauchy-Schwarz donnent :
Z θ0 +h µZ ¶ Z θ0 +h ÃZ p ′ (x)|
!
|g
|T (x)gθ′ (x)|µ(dx) dθ = |T (x)| gθ (x) pθ 1g (x)>0 µ(dx) dθ
θ0 E θ0 E gθ (x) θ
Z θ0 +h sZ Z ′
2
gθ (x)2
≤ T (x) gθ (x)µ(dx) 1gθ (x)>0 µ(dx) dθ
θ0 E E gθ (x)
Z θ0 +h p
≤ Eθ [T (X)2 ]I(θ) dθ.
θ0
Le modèle étant régulier et la fonction θ 7→ Eθ [T (X)2 ] localement bornée, le terme de droite est
fini pour h assez petit et on peut donc appliquer le théorème de Fubini dans l’égalité initiale :
Z θ0 +h µZ ¶
′
Eθ0 +h [T (X)] − Eθ0 [T (X)] = T (x)gθ (x)µ(dx) dθ.
θ0 E
Pour montrer que l’application Rθ 7→ Eθ [T (X)] est C 1 avec la dérivée de l’énoncé, il suffit ainsi de
prouver que l’application θ 7→ E T (x)gθ′ (x)µ(dx) est continue en tout θ0 , c’est-à-dire que pour
toute suite (θn ) de limite θ0 , on a bien
Z Z
T (x)gθ′ n (x)µ(dx) −−−→ T (x)gθ′ 0 (x)µ(dx),
E n→∞ E
Pour démontrer que le second terme de (2.10) tend vers 0, on adopte un raisonnement de type
intégrabilité uniforme, en remarquant que pour tout a > 0 on peut écrire :
Z Z
∆ϕn (x)ψ0 (x)µ(dx) = ∆ϕn (x)ψ0 (x)1|∆ϕn (x)|≤a|ψ0 (x)| µ(dx)
E E
Z
+ ∆ϕn (x)ψ0 (x)1|∆ϕn (x)|>a|ψ0 (x)| µ(dx). (2.11)
E
Concernant le premier terme de (2.11), puisque pour µ presque tout x ∈ E, l’application θ 7→ gθ (x)
est absolument continue, elle est en particulier continue en θ0 , donc la fonction sous l’intégrale tend
vers 0 pour µ presque tout x. Elle est de plus majorée en valeur absolue par la fonction x 7→ aψ0 (x)2 ,
laquelle est intégrable par rapport à µ, d’intégrale aI(θ0 ). Le théorème de convergence dominée
assure donc que Z
∆ϕn (x)ψ0 (x)1|∆ϕn (x)|≤a|ψ0 (x)| µ(dx) −−−→ 0.
E n→∞
Puisque la fonction θ 7→ Eθ [T (X)2 ] est localement bornée, elle est bornée au voisinage de θ0 et il
existe c indépendant de a tel que lim supn→∞ Eθn [T (X)2 ] ≤ c. Cette borne étant également valide
en remplaçant θn par θ0 , il vient
¯Z ¯
¯ ¯ 2c
lim sup ¯ ∆ϕn (x)ψ0 (x)1|∆ϕn (x)|>a|ψ0 (x)| µ(dx)¯¯ ≤ .
¯
n→∞ E a
Puisque a peut être choisi arbitrairement, on a bien établi que
Z
∆ϕn (x)ψ0 (x)1|∆ϕn (x)>a|ψ0 (x)| µ(dx) −−−→ 0.
E n→∞
Au total, nous venons de prouver que le second terme de (2.10) tend vers 0. Pour le premier terme,
l’inégalité de Cauchy-Schwarz donne
Z sZ
q
|ϕn (x)∆ψn (x)|µ(dx) ≤ Eθn [T (X)2 ] × ∆ψn (x)2 µ(dx).
E E
Puisque lim supn→∞ Eθn [T (X)2 ] ≤ c, la preuve sera complète une fois établi que le terme de droite
tend vers 0. Pour ce faire, on écrit
Z Z
2
∆ψn (x) µ(dx) = I(θn ) − I(θ0 ) − 2 ψ0 (x)∆ψn (x)µ(dx).
E E
Puisque l’information de Fisher est continue, I(θn ) tend vers I(θ0 ) et il suffit donc de prouver que
le dernier terme tend vers 0. Une façon de procéder consiste à considérer la décomposition (2.11)
en remplaçant ∆ϕn par ∆ψn et à voir que, mutatis mutandis, les arguments précédents passent
encore. En particulier, le théorème de convergence dominée s’applique à nouveau en remarquant
que Z Z ³ ´
ψ0 (x)∆ψn (x)µ(dx) = ψ0 (x) ψn (x)1gθ0 (x)>0 − ψ0 (x) µ(dx).
E E
Le modèle étant régulier, il existe un ensemble E0 de µ mesure pleine tel que pour tout x ∈ E0 ,
g ′ (x) g ′ (x)
ψn (x)1gθ0 (x)>0 = pθn 1gθn (x)>0 1gθ0 (x)>0 −−−→ pθ0 1g (x)>0 = ψ0 (x).
gθn (x) n→∞ gθ0 (x) θ0
¥
Dans la Proposition 10, le cas particulier T (X) = 1 assure que le score est centré, c’est-à-dire
Eθ [ℓ′θ (X)] = 0. Ceci donne une nouvelle formule pour l’information de Fisher, que nous avons en
fait déjà rencontrée sur les modèles des lois exponentielles et de Bernoulli.
Preuve. Prenons T (X) = 1 dans la Proposition 10, alors θ 7→ Eθ [T (X)2 ] = 1 est bien localement
bornée, donc · ′ ¸
∂ gθ (X) £ ¤
0= Eθ [1] = Eθ = Eθ ℓ′θ (X) .
∂θ gθ (X)
D’où l’on déduit, en partant de l’équation (2.9),
£ ¤ £ ¤ ¡ £ ¤¢2
I(θ) = Eθ (ℓ′θ (X))2 = Eθ (ℓ′θ (X))2 − Eθ ℓ′θ (X) = Varθ (ℓ′θ (X)).
¥
On peut donner une nouvelle formulation de l’information de Fisher, mais elle nécessite des hypo-
thèses supplémentaires. Nous dirons qu’une famille de fonctions ϕθ (x) intégrables par rapport à x
pour la mesure µ est localement dominée dans L1 (µ) si
Si l’on considère pour µ la mesure de Lebesgue sur R, un exemple de famille non localement
dominée dans L1 (µ) est donné par ϕθ (x) = exp(−|θx|) si θ 6= 0 et ϕ0 (x) = 0 lorsque θ = 0. Toutes
les fonctions x 7→ ϕθ (x) sont intégrables sur R, mais si l’on prend θ0 = 0, il est clair que pour tout
réel x et tout ε > 0, sup−ε<θ<ε |ϕθ (x)| = 1, qui n’est pas intégrable sur R.
Quoi qu’il en soit, ce qu’on a en tête avec ce genre d’hypothèse est clair : pouvoir appliquer les
résultats de continuité et de dérivabilité de Lebesgue. Une façon “classique” de définir un modèle
régulier est la suivante 11 .
Preuve. Considérons
Les deux premières hypothèses assurent que, dans la Définition 26, on peut remplacer E par E ′
et µ par 1E ′ · µ. Ceci fait de gθ (x) une application strictement positive et C 1 en θ. On peut alors
appliquer le théorème de continuité de Lebesgue à la fonction
Z
gθ′ (x)2
I(θ) = µ(dx).
E ′ gθ (x)
11. On notera cependant qu’elle est plus restrictive et pas plus simple à vérifier que celle de la Définition 26.
En tout point θ0 de Θ, la fonction θ 7→ gθ′ (x)2 /gθ (x) est continue. De plus, il existe un voisinage
]θ0 − ε, θ0 + ε[ tel que
gθ′ (x)2
0≤ sup ≤ ψ(x),
θ0 −ε<θ<θ0 +ε gθ (x)
avec ψ ∈ L1 (µ). Ceci assure que I est continue en θ0 . Celui-ci étant arbitraire, la fonction I est
continue sur Θ.
¥
En ajoutant une hypothèse du même tonneau, on aboutit à une nouvelle expression pour l’infor-
mation de Fisher.
Or on a vu en (2.9) que · ¸
£ ¤ gθ′ (X)2
I(θ) = Eθ (ℓ′θ (X))2 = Eθ .
gθ (X)2
Pour l’autre terme, il vient · ¸ Z
gθ′′ (X)
Eθ = gθ′′ (x)µ(dx).
gθ (X) E′
Soit x ∈ E ′ fixé. En tout point θ0 de Θ, la fonction θ 7→ ϕθ (x) = gθ′ (x) est dérivable, de dérivée
gθ′′0 (x). De plus, par hypothèse, il existe un voisinage ]θ0 − ε, θ0 + ε[ tel que
avec ψ ∈ L1 (µ). Le théorème de dérivabilité de Lebesgue implique donc que la fonction Φ définie
sur Θ par Z
Φ(θ) = ϕθ (x)µ(dx)
E′
est dérivable en θ0 , de dérivée
Z Z · ′′ ¸
gθ′′0 (x) gθ0 (X)
Φ′ (θ0 ) = gθ′′0 (x)µ(dx) = gθ (x)µ(dx) = Eθ0 .
E′ E′ gθ0 (x) 0 gθ0 (X)
Ainsi Φ est dérivable sur Θ, de dérivée
· ¸
′ gθ′′ (X)
Φ (θ) = Eθ .
gθ (X)
Or, comme on l’a vu dans la preuve du Corollaire 3, Φ est identiquement nulle sur Θ, donc il en
va de même pour sa dérivée.
¥
Exemple : illustrons ce résultat sur l’exemple des lois exponentielles. Quel que soit θ > 0, le
support est [0, +∞[ donc indépendant de θ. Par ailleurs, on a vu que pour tout x ≥ 0, l’application
θ 7→ gθ (x) est C ∞ sur Θ =]0, +∞[. Pour tout θ0 > 0 et ε > 0 tel que θ0 − ε > 0, on a pour tout
x≥0:
gθ′ (x)2 (1 − θx)2 −θx gθ′ (x)2 (1 + (θ0 + ε)x)2 −(θ0 −ε)x
= e =⇒ 0 ≤ sup ≤ ψ(x) = e ,
gθ (x) θ θ0 −ε<θ<θ0 +ε gθ (x) θ0 − ε
avec clairement Z +∞
ψ(x) dx < +∞.
0
De la même façon,
gθ′′ (x) = (θx − 2)xe−θx =⇒ sup |gθ′′ (x)| ≤ φ(x) = ((θ0 + ε)x + 2)xe−(θ0 −ε)x ,
θ0 −ε<θ<θ0 +ε
avec clairement Z +∞
φ(x) dx < +∞.
0
Le modèle est donc régulier au sens de Fisher et on peut appliquer la formule de la Proposition 11
pour retrouver l’information de Fisher :
1 1 £ ¤ 1
ℓ′θ (x) = − x =⇒ ℓ′′θ (x) = − 2 =⇒ I(θ) = −Eθ ℓ′′θ (X) = 2 .
θ θ θ
Nous allons maintenant donner quelques propriétés de l’information de Fisher. La première d’entre
elles concerne la mesure dominante µ, laquelle n’a aucune importance.
et l’information de Fisher est la même dans les deux cas. Le raisonnement valant aussi entre ν et
λ, le débat est clos.
¥
Si l’information de Fisher n’est pas sensible au changement de mesure dominante, elle l’est par
contre au changement de paramètre.
Preuve. Notons hη (x) = gψ(η) (x). Le modèle initial étant régulier et ψ étant C 1 , on en déduit
que ϕ est elle-même continue bijective, et on peut montrer que pour µ presque tout x, la fonction
η 7→ hη (x) est absolument continue sur l’intervalle ouvert ϕ(Θ), de dérivée
qui correspond à une fonction continue sur ϕ(Θ) puisque ψ est C 1 et le modèle initial régulier.
¥
Voyons ce que ceci donne sur les deux exemples les plus classiques de changements de paramètres.
Exemples :
1. Translation : si on pose η = θ − θ0 avec θ0 fixé, alors
J(η) = σ 2 I(ση).
Lorsqu’on dispose d’un échantillon i.i.d., l’information de Fisher croît linéairement avec la taille
de l’échantillon. En d’autres termes, l’information apportée par n observations i.i.d. est n fois plus
grande que l’information apportée par une seule.
par rapport à la mesure µ⊗n , est encore régulier et d’information de Fisher In (θ) = nI1 (θ).
Remarque : Ce résultat est une conséquence du suivant : si (Pθ )θ∈Θ = (gθ · µ)θ∈Θ et (Qθ )θ∈Θ =
(hθ · ν)θ∈Θ sont deux modèles réguliers d’informations respectives I1 (θ) et I2 (θ), alors le modèle
produit, de densité
kθ (x, y) = gθ (x)hθ (y)
par rapport à la mesure µ⊗ν sur E ×F , est régulier et d’information de Fisher I(θ) = I1 (θ)+I2 (θ).
Avec des mots : l’information d’un couple de variables indépendantes est la somme des deux
informations.
Preuve. Nous allons démontrer le résultat de la remarque, celui de la proposition s’en déduisant
par récurrence. Tout d’abord, on note que la régularité de la fonction
d’où
kθ′ (x, y)2 = gθ′ (x)2 hθ (y)2 + 2(gθ′ (x)gθ (x))(h′θ (y)hθ (y)) + gθ (x)2 h′θ (y)2 ,
et sur l’ensemble Sθ = {(x, y), gθ (x)hθ (y) > 0} où l’on calculera l’intégrale d’intérêt, on a donc
est la somme de trois termes, le premier et le dernier étant comparables. Le premier s’écrit (l’in-
tégration se faisant sur Sθ )
ZZ µZ ¶ µZ ¶
gθ′ (x)2 gθ′ (x)2
hθ (y)µ(dx)µ(dy) = µ(dx) hθ (y)µ(dy) = I1 (θ),
gθ (x) gθ (x)
puisque pour tout θ, y 7→ hθ (y) est une densité, donc d’intégrale 1. De même, le troisième terme
vaut I2 (θ). Reste à montrer que celui du milieu est nul, or
ZZ µZ ¶ µZ ¶
gθ′ (x)h′θ (y)µ(dx)µ(dy) = gθ′ (x)µ(dx) h′θ (y)µ(dy) = 0,
ces deux intégrales étant nulles via la Proposition 10 : les scores sont des variables centrées. Les
fonctions I1 et I2 étant toutes deux continues, le résultat est établi.
¥
Si l’on admet que le modèle produit est régulier, alors le résultat de la Proposition 13 découle tout
simplement du fait que, dans le cas indépendant, la variance de la somme correspond à la somme
des variances. Avec un abus de notations :
n
Y n
X n
X
gθ (X) = fθ (Xi ) =⇒ ℓθ (X) = ℓθ (Xi ) =⇒ In (θ) = Varθ (ℓ′θ (X)) = Varθ (ℓ′θ (Xi )) = nI1 (θ).
i=1 i=1 i=1
Exemples
La Proposition 13 nous dit que l’information de Fisher d’un échantillon i.i.d. se déduit de celle
d’une seule variable. C’est pourquoi, dans tout ce qui suit, nous ne noterons plus x et X, mais x
et X qui représentent donc des quantités réelles, discrètes ou continues, et fθ (x) au lieu de gθ (x)
pour les densités. Commençons par quelques lois classiques.
1. Loi binomiale : si X ∼ B(n, θ) avec 0 < θ < 1 inconnu et n ∈ N⋆ connu, alors ce modèle
est régulier pour les mêmes raisons que le modèle de Bernoulli. Cette fois, pour tout x ∈
{0, . . . , n}, on a
µ ¶
n x x − nθ n
fθ (x) = θ (1 − θ)n−x =⇒ ℓ′θ (x) = =⇒ I(θ) = Var(ℓ′θ (X)) = .
x θ(1 − θ) θ(1 − θ)
On note que cette information est égale à n fois celle du modèle de Bernoulli. Sans rentrer
dans les détails : on sait qu’une variable binomiale B(n, θ) correspond en loi à la somme de
n variables i.i.d. X1 , . . . , Xn de Bernoulli B(θ), or on peut montrer que cette somme est une
statistique exhaustive du vecteur (X1 , . . . , Xn ), c’est-à-dire grosso modo que la somme est
un résumé sans perte de toute l’information sur le paramètre θ contenue dans le vecteur. Or
la Proposition 13 nous assure justement que l’information de Fisher du modèle à n variables
est égale à n fois l’information du modèle à 1 variable, laquelle vaut comme on l’a vu sur le
modèle de Bernoulli I1 (θ) = 1/(θ(1 − θ)).
2. Loi de Poisson : si X ∼ P(λ), avec λ > 0 paramètre inconnu, la vraisemblance vaut, pour
tout λ > 0 et tout x ∈ N,
Pour tout x ∈ N, la fonction λ 7→ ℓλ (x) est C 1 sur ]0, ∞[ donc les deux premiers points
de la Définition 26 sont satisfaits. Il reste à vérifier que le moment d’ordre 2 du score
ℓ′λ (X) = X/λ − 1 est une fonction continue en λ. Rappelons qu’une variable de Poisson
P(λ) a pour moyenne et pour variance λ, donc
1 1 1
Eλ [ℓ′λ (X)2 ] = Eλ [(X/λ − 1)2 ] = 2
Eλ [(X − λ)2 ] = 2 Varλ (X) = .
λ λ λ
1
Puisque λ 7→ λ est continue sur ]0, ∞[, ce modèle est régulier d’information I(λ) = λ1 .
3. Loi gaussienne : si X ∼ N (µ, σ 2 ), le logarithme de la densité s’écrit
1 1
log f (x) = − log(2πσ 2 ) − 2 (x − µ)2 .
2 2σ
1 1 1
Eµ [ℓ′µ (X)2 ] = 2
Eµ [((X − µ)/σ)2 ] = 2 Eµ [Y 2 ] = 2 .
σ σ σ
Le modèle (fµ )µ∈R est donc régulier, d’information de Fisher constante I(µ) = 1/σ 2 .
— Si le paramètre est σ 2 > 0 (i.e. µ connu) : pour tout réel x, la fonction σ 2 7→ ℓσ2 (x) =
log f (x) est C 1 sur ]0, ∞[. De plus
1 h© ª2 i 1 1
Eσ2 [ℓ′σ2 (X)2 ] = 4
Eσ 2 ((X − µ)/σ) 2
− 1 = 4 Varσ2 (Y 2 ) = 4 .
4σ 4σ 2σ
Le modèle (fσ2 )σ2 >0 est donc régulier, d’information de Fisher I(σ 2 ) = 1/(2σ 4 ). No-
ter que si on considère σ > 0 comme paramètre, alors la Proposition 12 donne pour
information de Fisher J(σ) = 2/σ 2 .
Modèles de translation
Nous considérons ici une densité f (x) par rapport à la mesure de Lebesgue sur R, indépendante
de θ, et le modèle de translation associé
Comme on peut s’y attendre, la régularité de ce modèle ne dépend que de f . Rappelons qu’une
fonction définie sur un segment [a, b] est dite continue et C 1 par morceaux si elle est continue et s’il
existe une subdivision a0 = a < a1 < · · · < an = b telle que chaque restriction de f à ]ai , ai+1 [ se
prolonge en une fonction de classe C 1 sur [ai , ai+1 ] 12 . Une fonction définie sur R est dite continue
et C 1 par morceaux si elle l’est sur tout segment contenu dans cet intervalle. Ainsi, l’ensemble des
points où f n’est pas dérivable est au plus dénombrable, donc de mesure de Lebesgue nulle. Il est
facile de voir qu’une telle fonction est absolument continue.
alors le modèle de translation (fθ (x))θ∈R est régulier, d’information de Fisher constante égale à
I(θ) = I pour tout θ.
Le modèle de translation (fθ (x))θ∈R est donc régulier, d’information de Fisher égale à 1.
On remarque au passage que ce modèle ne satisfait pas la condition de régularité requise
par le Lemme 4 puisque, quel que soit x, la fonction θ 7→ fθ (x) = f (x − θ) n’est pas C 1 sur
Θ = R (problème en θ = x).
2. Loi exotique : on considère cette fois la densité de classe C 1 (cf. Figure 2.11)
1 + cos x − sin x f ′ (x)2 1 − cos x
f (x) = 1[−π,π] (x) =⇒ f ′ (x) = 1[−π,π] (x) =⇒ = 1[−π,π] (x)
2π 2π f (x) 2π
donc le modèle de translation associé est régulier et a pour information de Fisher
Z π
1
I= (1 − cos x)dx = 1.
2π −π
Ici, le modèle ne satisfait pas la condition de support du Lemme 4, puisque le support de
fθ (x) est égal à [θ − π, θ + π], donc dépendant de θ.
3. Contre-exemple de la loi uniforme : si fθ (x) = 1[0,1] (x − θ), on voit que, pour tout réel
x, la fonction θ 7→ fθ (x) présente deux discontinuités, en x − 1 et en x. Le premier point
de la Définition 26 n’est pas vérifié et ce modèle de translation n’est donc pas régulier. On
retrouve ici le même problème que pour le modèle (U[0,θ] )θ∈R mentionné en début de section.
0.5
0.3
0.4
0.2
0.3
0.2 0.1
0.1
0.0
−2 −1 0 1 2 −4 −2 0 2 4
Remarque : De façon plus générale, si ϕ̂(X) est un estimateur de ϕ(θ) de risque quadratique
localement borné, avec ϕ de classe C 1 , de biais b(θ) = Eθ [ϕ̂(X)] − ϕ(θ), alors si I(θ) > 0, on a
h i (ϕ′ (θ) + b′ (θ))2
Eθ (ϕ̂(X) − ϕ(θ))2 ≥ b(θ)2 + .
I(θ)
Les deux membres de droite étant localement bornés, il en va de même pour celui de gauche.
On peut donc appliquer la Proposition 10 à la statistique θ̂(X), ce qui assure que la fonction
θ 7→ Eθ [θ̂(X)] est de classe C 1 sur Θ, de dérivée
∂ h i
Eθ [θ̂(X)] = Eθ θ̂(X)ℓ′θ (X) .
∂θ
Or on sait que le score est centré, i.e. Eθ [ℓ′θ (X)] = 0, donc l’équation précédente s’écrit encore
∂ h i
Eθ [θ̂(X)] = Eθ (θ̂(X) − Eθ [θ̂(X)])ℓ′θ (X) .
∂θ
L’inégalité de Cauchy-Schwarz donne alors
µ ¶2
∂
Eθ [θ̂(X)] ≤ Varθ (θ̂(X)) × I(θ). (2.12)
∂θ
Il reste à voir que, pour le membre de gauche, Eθ [θ̂(X)] = b(θ) + θ. La fonction θ 7→ Eθ [θ̂(X)]
étant de classe C 1 , le biais l’est aussi et
µ ¶2
∂
Eθ [θ̂(X)] = (1 + b′ (θ))2 .
∂θ
On arrive ainsi au résultat souhaité, si tant est que I(θ) soit strictement positif.
¥
Remarque : Dans la preuve précédente, la variance apparaît dans l’inégalité (2.12). On voit que
si I(θ0 ) = 0, tout s’écroule et on perd toute information sur la variance de θ̂(X) en θ0 .
Donnons maintenant la version la plus connue de l’inégalité précédente : elle est due à Fréchet,
Darmois, Cramér et Rao, mais l’usage n’a conservé que les deux derniers auteurs.
1
Varθ (θ̂(X)) ≥ .
I(θ)
Pour un modèle d’échantillonnage régulier où X = (X1 , . . . , Xn ) et pour un estimateur sans biais
θ̂n (X), cette borne devient
1
Varθ (θ̂n (X)) ≥ .
nI1 (θ)
Un estimateur atteignant cette borne est dit efficace.
Remarque : Pour un estimateur non biaisé ϕ̂n (X) de ϕ(θ), la borne de Cramér-Rao s’écrit donc
h i ϕ′ (θ)2
2
Eθ (ϕ̂n (X) − ϕ(θ)) = Varθ (ϕ̂n (X)) ≥ .
nI1 (θ)
Exemple. Reprenons l’exemple du cas gaussien où la variance σ 2 > 0 est inconnue, en supposant
pour simplifier que la moyenne est nulle (ça ne change rien), c’est-à-dire
i.i.d.
(X1 , . . . , Xn ) ∼ N (0, σ 2 ).
l’estimateur au maximum de vraisemblance (ou de la méthode des moments) est 1/X̄n . Il est
biaisé : en effet, nX̄n ∼ Γ(n, λ), or un calcul facile montre que
λ
Z ∼ Γ(n, λ) =⇒ E[1/Z] = ,
n−1
13. Rappelons que si X ∼ N (0, 1), alors E[X 4 ] = 3, cas particulier de la formule générale : E[X 2n ] = (2n)!/(2n n!).
d’où l’on déduit que Eλ [1/X̄n ] = nλ/(n − 1). Considérons alors l’estimateur sans biais
n−1
λ̂n = λ̂n (X) = .
nX̄n
Puisqu’un calcul du même type que celui mentionné plus haut assure que
λ2
Z ∼ Γ(n, λ) =⇒ E[1/Z 2 ] = ,
(n − 1)(n − 2)
on en déduit que
λ2 1 λ2
Varλ (λ̂n ) = > = .
n−2 nI1 (λ) n
La borne de Cramér-Rao n’est pas atteinte et cet estimateur n’est pas efficace. Néanmoins, on voit
qu’asymptotiquement
1 1
nVarλ (λ̂n ) −−−→ 2 = .
n→∞ λ I1 (λ)
Ce genre de phénomène, tout à fait typique, incite naturellement à introduire le concept d’efficacité
asymptotique.
Remarque : Avant de passer à l’efficacité asymptotique, revenons aux lois exponentielles, que
nous définissons cette fois pour tout θ > 0 par 14
1 x
fθ (x) = e− θ 1x≥0 .
θ
A partir d’un échantillon X = (X1 , . . . , Xn ) i.i.d. suivant cette loi, l’estimateur naturel (maximum
de vraisemblance ou méthode des moments) est donc maintenant θ̂n = θ̂n (X) = X̄n . Il est non
biaisé et de variance
Varθ (X1 ) θ2
Varθ (θ̂n ) = = .
n n
Or l’information de Fisher vaut, via le changement de paramètre λ = ψ(θ) = 1/θ :
1 n 1
J1 (θ) = ψ ′ (θ)2 I1 (1/θ) = 2
=⇒ Jn (θ) = 2 = ,
θ θ Varθ (θ̂n )
et on a cette fois un estimateur efficace ! Ceci montre qu’un simple changement de paramètre, aussi
régulier soit-il, modifie la propriété d’efficacité.
et on a égalité dans l’Inégalité de l’Information. Dirait-on pour autant que cet estimateur est
optimal ? Clairement non, il est même désastreux dès que le vrai paramètre θ est loin de l’origine.
Le problème de l’exemple précédent vient de ce qu’on a minimisé le terme de variance (en l’annu-
lant) sans contrôler le terme de biais. Or on sait qu’un bon estimateur doit avoir un biais et une
variance qui sont tous deux petits. Pour évacuer ce genre d’estimateur sans intérêt et arriver à nos
fins, une idée est de contrôler uniformément le risque quadratique. Le résultat suivant va dans ce
sens.
Exemple. Pour l’estimation de la moyenne dans le modèle (N (µ, 1))µ∈R , nous avons vu que
l’information est constante égale à I(µ) = 1, donc elle ne s’annule sur aucun intervalle J = [−r, r]
et est majorée par 1. L’inégalité précédente nous apprend que, pour tout estimateur µ̂n (X),
à !2
h i 1 1
sup Eµ (µ̂n (X) − µ)2 ≥ × .
−r≤µ≤r n 1 + r√1 n
En particulier, on voit que l’estimateur trivial µ̃(X) = µ̃n (X) = 0 proposé ci-dessus n’est plus du
tout optimal puisque h i
sup Eµ (µ̃n (X) − µ)2 = r2 ,
−r≤µ≤r
tandis que la borne inférieure tend vers 0 à vitesse 1/n. Tout ça est rassurant.
Preuve. Afin d’alléger les notations, convenons de noter le risque quadratique
·³ ´2 ¸
R(θ) = Eθ θ̂n (X) − θ .
Nous cherchons donc à minorer le supremum sur J de R(θ). S’il n’est pas borné, l’inégalité est
évidente. S’il est borné sur un intervalle ouvert contenant J, il est localement borné sur J et on
peut appliquer l’Inégalité de l’Information en tout point θ de J, à savoir
(1 + b′ (θ))2
R(θ) ≥ b(θ)2 + .
nI(θ)
Introduisons un coefficient de réglage c ∈]0, 1[. Deux cas de figure sont alors envisageables :
— ou bien il existe θ0 ∈ J tel que |b′ (θ0 )| ≤ c, alors en ce point l’Inégalité de l’Information
nous dit que
et a fortiori
(1 − c)2
sup R(θ) ≥ R(θ0 ) ≥ .
θ∈J nI¯
— ou bien |b′ (θ)| > c pour tout θ ∈ J. Puisqu’elle est continue (cf. preuve de la Proposition
15), la fonction b′ a donc un signe constant sur J et la variation de b sur J est minorée par
2cr :
sup b(θ) − inf b(θ) ≥ 2cr =⇒ sup |b(θ)| ≥ cr
θ∈J θ∈J θ∈J
et, toujours par l’Inégalité de l’Information,
sup R(θ) ≥ sup b(θ)2 ≥ (cr)2 .
θ∈J θ∈J
ce qui est le résultat voulu. Il reste à voir que si R est borné sur J = [m − r, m + r] mais non
localement borné sur un intervalle ouvert contenant J, il suffit d’appliquer ce raisonnement aux
intervalles de la forme [m − r + ε, m + r − ε] puis de faire tendre ε vers 0. Le résultat passe à la
limite grâce à la continuité de I sur Θ, donc sur J.
¥
Remarques :
1. L’astuce consistant à choisir c de façon à égaliser les deux termes est un grand classique
en statistique : elle revient simplement à équilibrer le biais (au carré) et la variance. En
statistique non paramétrique, on la retrouve par exemple pour le choix de la fenêtre dans
les estimateurs à noyaux ou le nombre de voisins dans la méthode des plus proches voisins.
2. On peut généraliser l’inégalité de la Proposition 10 à un estimateur ϕ̂n (X) de ϕ(θ) tel que
ϕ soit C 1 de dérivée ne s’annulant pas sur Θ. En notant
I(θ)
I¯ϕ = sup ′ 2 et ∆(ϕ) = sup ϕ(θ) − inf ϕ(θ)
θ∈J ϕ (θ) θ∈J θ∈J
Ainsi, pour toute suite (rn ) de limite nulle, on a à la fois I¯n qui tend vers I(θ0 ) et
2
1 1
sup nR(θ̂n , θ) ≥ ¯ × .
θ0 −rn ≤θ≤θ0 +rn I n 1 + √1
rn nI¯n
Cette minoration est en particulier vérifiée dans le pire des cas pour le minorant, c’est-à-dire lorsque
√
celui-ci est de limite la plus grande possible : il suffit pour ça de choisir rn de sorte que rn n tende
vers l’infini (par exemple rn = n−1/4 ), ce qui donne
1
lim inf sup nR(θ̂n , θ) ≥ .
n→∞ θ −rn ≤θ≤θ +rn
0 0
I(θ0 )
Autrement dit, le risque d’un estimateur θ̂n de θ ne peut être asymptotiquement meilleur que
1/(nI(θ0 )) au voisinage de θ0 . Ceci laisse à penser que pour un estimateur θ̂n asymptotiquement
normal de θ0 , c’est-à-dire tel que
√ ³ ´
L
n θ̂n − θ0 −−−→ N (0, σ 2 (θ0 )),
n→∞
la plus petite valeur possible pour σ 2 (θ0 ) serait 1/I(θ0 ). En généralisant comme toujours via une
fonction ϕ, la borne serait en ϕ′ (θ0 )2 /(nI(θ0 )). La définition de l’efficacité asymptotique part de
ce constat.
√ L ϕ′ (θ)2
n (ϕ̂n (X) − ϕ(θ)) −−−→ N (0, σ 2 (θ)) avec σ 2 (θ) ≤
n→∞ I(θ)
En ce sens, sous les hypothèses adéquates, l’information de Fisher permet bien de préciser ce que
l’on peut attendre de mieux d’un estimateur. C’est ce que voulait dire, en tout début de Section
2.3.2, la phrase : “Un critère d’optimalité est spécifié par l’information de Fisher”. Avant de donner
des exemples d’estimateurs asymptotiquement efficaces, quelques remarques s’imposent.
Remarques :
1. Prenons ϕ(θ) = θ, qui est bien C 1 de dérivée ϕ′ (θ) = 1 ne s’annulant pas sur Θ. Sous les
mêmes hypothèses, un estimateur θ̂n (X) de θ est dit asymptotiquement efficace si on a
√ ³ ´
L 1
n θ̂n (X) − θ −−−→ N (0, σ 2 (θ)) avec σ 2 (θ) ≤
n→∞ I(θ)
cette loi, alors par les propriétés classiques des variables gaussiennes, l’estimateur X̄n vérifie
pour tout n
√ ¡ ¢ 1
n X̄n − θ ∼ N (0, 1) avec 1= ,
I(θ)
donc c’est un estimateur asymptotiquement efficace. Etant donné que Eθ [X̄n ] = θ et
Varθ (X̄n ) = 1/n, il est d’ailleurs également efficace. L’estimateur de Hodges θ̂n s’obtient en
annulant ce premier estimateur lorsqu’il est proche de 0, à savoir
Autrement dit, si la moyenne empirique est proche de 0 alors on estime θ par 0, sinon on
garde la moyenne empirique. Etudions la normalité asymptotique de cet estimateur.
— Si θ = 0, alors X̄n ∼ N (0, 1/n) et pour tout ε > 0,
³¯√ ¯ ´ ³¯√ ¯ ´ ³¯ ¯ ´ ³¯ ¯ ´
¯ ¯ ¯ ¯ ¯ ¯
P ¯ nθ̂n ¯ ≥ ε = P ¯ nX̄n 1|X̄n |≥n−1/4 ¯ ≥ ε ≤ P ¯X̄n ¯ ≥ n−1/4 = P ¯n1/4 X̄n ¯ ≥ 1 ,
c’est-à-dire que
√ P
nX̄n 1|X̄n |≤n−1/4 −−−→ 0,
n→∞
et par Slutsky
√ ³ ´
L 1
n θ̂n − θ −−−→ N (0, 1) avec 1= .
n→∞ I(θ)
Autrement dit, l’estimateur de Hodges a une variance asymptotique en 1/I(θ) pour tout
θ 6= 0 et une variance asymptotique strictement plus petite pour θ = 0 : on dit qu’il est
super-efficace. On peut toutefois montrer que pour tout n, l’erreur quadratique moyenne
R(θ̂n , θ) est détériorée localement autour de 0 par rapport à celle de la moyenne empirique
R(X̄n , θ) = 1/n. Précisément, il existe une constante c > 0 indépendante de n et de θ telle
√
que sup|θ|≤n−1/4 R(θ̂n , θ) ≥ c/ n. Ce comportement, parfois appelé phénomène de Hodges,
est illustré Figure 2.12.
15
10
−2 −1 0 1 2
θ
Exemples :
1. Revenons au cas des lois exponentielles (E(λ))λ>0 , modèle régulier d’information de Fisher
I1 (λ) = 1/λ2 strictement positive pour tout λ > 0. Nous avons vu que l’estimateur naturel
λ̃n (X) = 1/X̄n n’est pas efficace : d’une part il est biaisé, d’autre part même si on le
débiaise on n’atteint pas la borne de Cramér-Rao. Néanmoins, quel que soit λ > 0, si
X = (X1 , . . . , Xn ) est un échantillon i.i.d. selon fλ , le Théorème Central Limite nous dit
que µ ¶
√ 1 L
n X̄n − −−−→ N (0, 1/λ2 ).
λ n→∞
La méthode Delta donne alors
√ ³ ´
L 1
n λ̃n (X) − λ −−−→ N (0, λ2 ) avec λ2 = ,
n→∞ I(λ)
qui est strictement positive si et seulement si θ est non nul. L’estimateur naturel (moments
ou EMV) est
µ ¶
1/3 X1 + · · · + Xn 1/3
θ̂n (X) = X̄n = .
n
On sait que
√ ¡ ¢ L
n X̄n − θ3 −−−→ N (0, 1)
n→∞
La variable Y n’est pas gaussienne : elle est bimodale (voir Figure 2.13), sa densité f (y)
pouvant se calculer comme suit
3 y6
F (y) = P(Y ≤ y) = P(Y 3 ≤ y 3 ) = Φ(y 3 ) =⇒ f (y) = √ y 2 e− 2 .
2π
Bref, on a toujours convergence en loi, mais la limite n’est plus gaussienne et la vitesse
de convergence n’est plus en n−1/2 , mais en n−1/6 , donc bien plus lente 15 . Cependant,
l’estimateur θ̂n est asymptotiquement efficace puisque, pour tout θ tel que J(θ) 6= 0, il
est asymptotiquement normal de variance limite 1/J(θ). Cet exemple permet simplement
de constater que, en un point où l’information de Fisher s’annule, le comportement d’un
estimateur asymptotiquement efficace peut être complètement différent de ce qui se passe
√
partout ailleurs : ici, lorsque J(θ) = 0, i.e. lorsque θ = 0, la vitesse n’est plus en 1/ n et la
loi limite n’est plus gaussienne.
1.00
0.6
0.75
0.50 0.4
0.25 0.2
0.00 0.0
−2 −1 0 1 2 −2 −1 0 1 2
Figure 2.13 – Fonction de répartition et densité de la variable Y telle que Y 3 ∼ N (0, 1).
Modulo une hypothèse de domination, on peut montrer (mais nous l’admettrons 16 ) un résultat
général assurant l’efficacité asymptotique de l’estimateur du maximum de vraisemblance dans un
modèle régulier.
√ √
15. Pour voir que n(θ̂n (X) − θ) = nθ̂n (X) ne converge pas en loi, il suffit de noter que, pour tout réel t, on a
√
P( nθ̂n (X) ≤ t) = P(N (0, 1) ≤ t /n) = Φ(t3 /n) → 1/2 quand n → ∞, ce qui exclut l’existence d’une fonction de
3
répartition F telle que la limite précédente coïncide avec F en tout point de continuité de celle-ci.
16. Voir [6] pour une preuve.
alors
√ ³ ´
L
n θ̂n (X) − θ0 −−−→ N (0, 1/I(θ0 )),
n→∞
Exemple : Dans le modèle régulier déjà mentionné où X ∼ E(θ), nous avons vu que I(θ) = I1 (θ) =
1/θ2 > 0 pour tout θ > 0. Considérons θ0 > 0 fixé et un échantillon X = (X1 , . . . , Xn ) i.i.d. selon la
loi E(θ0 ). L’estimateur du maximum de vraisemblance est θ̂n = 1/X̄n et la loi des grands nombres
montre qu’il est consistant. Nous avons même vérifié qu’il est en fait asymptotiquement efficace.
On peut retrouver ce dernier point grâce au résultat général précédent. En effet, prenons h = θ0 /2,
alors un calcul déjà fait donne ℓ′θ (X1 ) = (1/θ − X1 ) donc, pour tout θ ∈ [θ0 /2; 3θ0 /2],
µ ¶2 ¯ ¯2 µ ¶2 µ ¶2
1 ¯1 ¯ 1 2
ℓ′θ (X1 )2 = − X1 = ¯¯ − X1 ¯¯ ≤ + X1 ≤ + X1 ,
θ θ θ θ0
donc d’après le Théorème 11 l’EMV θ̂n = 1/X̄n est asymptotiquement efficace. Sur cet exemple
élémentaire, on constate néanmoins que la vérification directe par le TCL et la méthode Delta
permettent de conclure plus rapidement.
Bilan : Pour reprendre la question posée en début de section : “Existe-t-il un estimateur optimal,
et si oui en quel sens ?” on peut dire que, du point de vue asymptotique dans le cadre des modèles
réguliers, c’est l’estimateur du maximum de vraisemblance qui répond au problème (sous les ré-
serves qui s’imposent : existence d’un EMV consistant, hypothèse de domination (2.13), non-nullité
de l’information de Fisher). Encore faut-il pouvoir le calculer, ce qui n’est pas toujours chose facile.
De plus, comme nous l’avons vu, l’EMV souffre d’un manque de robustesse aux données aberrantes
ou à une mauvaise spécification du modèle.
Notant θ0 la vraie valeur du paramètre, le Théorème 11 signifie que plus l’information de Fisher
en ce point est grande, plus on peut estimer précisément θ0 , en particulier par l’estimateur au max
de vraisemblance. Dit autrement, plus I(θ0 ) est grande, plus l’information moyenne apportée par
une donnée est importante : on peut par exemple écrire
à !
2 2
Pθ0 θ̂n − p ≤ θ0 ≤ θ̂n + p −−−→ 0.95.
nI(θ0 ) nI(θ0 ) n→∞
On notera au passage que ceci ne correspond pas à un intervalle de confiance asymptotique à 95% :
puisqu’on ne connaît pas θ0 , en général on ne connaît pas non plus I(θ0 ). Néanmoins, puisque la
fonction I est continue, si l’on dispose d’une formule explicite pour celle-ci, il suffit de remplacer
I(θ0 ) par I(θ̂n ) pour en déduire un intervalle de confiance asymptotique.
Par ailleurs, on peut donner une interprétation graphique de l’information de Fisher grâce au lien
avec la théorie de l’information 17 . On se contente d’en donner l’idée en considérant que tous les
objets sont bien définis et suffisamment réguliers. Si f et g sont deux densités, on appelle divergence
de Kullback-Leibler, ou entropie relative, de g par rapport à f la quantité
Z µ ¶
f (x)
D(f k g) = log f (x)dx.
g(x)
L’inégalité de Jensen assure que celle-ci est toujours positive, et nulle si et seulement si f et g sont
égales presque partout. Stricto sensu, cette divergence ne peut cependant s’interpréter comme une
distance puisque ni la symétrie ni l’inégalité triangulaire ne sont en général vérifiées. En terme
d’inférence statistique, supposons que θ0 soit la vraie valeur du paramètre, alors pour une autre
valeur θ, la divergence de fθ à fθ0 peut encore s’écrire
D(fθ0 k fθ )
D(fθ0 k fθ )
θ θ
θ0 θ0
Figure 2.14 – Divergence et information de Fisher, avec I(θ0 ) plus grande à droite qu’à gauche.
c’est-à-dire qui maximise la fonction θ 7→ Eθ0 [ℓθ (X)], dite fonction de contraste. Celle-ci étant hors
d’atteinte, l’idée est de maximiser sa version empirique : en effet, par la Loi des Grands Nombres,
si les Xi sont i.i.d. de densité fθ0 , alors
n
1X p.s.
ℓθ (Xi ) −−−→ Eθ0 [ℓθ (X)].
n n→∞
i=1
Or maximiser le terme de gauche, c’est justement ce que fait l’estimateur au maximum de vrai-
semblance.
17. voir [5] pour une introduction à ce domaine, en particulier le chapitre Information Theory and Statistics.
Introduction
Le principe de la régression est de modéliser une variable y, dite variable à expliquer ou variable
réponse, comme une fonction de p variables 1 x = [x1 , . . . , xp ]′ , dites variables explicatives :
y = g(x) = g(x1 , . . . , xp ).
On dispose d’un échantillon de taille n de couples (xi , yi )1≤i≤n et le but est de retrouver la fonction
g. Le modèle le plus simple est celui d’une relation linéaire, c’est-à-dire qu’on suppose l’existence
d’un vecteur de paramètres β = [β1 , . . . , βp ]′ tel que
y = x ′ β = β 1 x1 + · · · + β p xp .
En pratique, ceci ne marche pas, ou bien parce que ce modèle est approché (la liaison n’est pas
réellement linéaire) ou bien en raison des erreurs de mesure. L’idée est alors de voir y comme la
réalisation d’une variable aléatoire Y tenant compte de cette inadéquation. Concrètement, ceci
revient à réécrire le modèle sous la forme
Y = x′ β + ε = β1 x1 + · · · + βp xp + ε,
où la variable aléatoire ε est supposée centrée et de variance inconnue σ 2 . On parle alors de modèle
de régression linéaire. Partant de notre échantillon, l’objectif est ainsi d’estimer le paramètre β
ainsi que la variance σ 2 de l’erreur ε. On a donc affaire à un problème d’inférence statistique,
paramétrique au sens de la Définition 7. Les exemples d’applications de la régression linéaire
foisonnent, on se contente ici d’en mentionner quelques-uns :
1. Concentration de l’ozone : dans ce domaine, on cherche à expliquer le maximum jour-
nalier de la concentration en ozone, notée O3 (en µg/m3 ), en fonction de la température à
midi T . Le nuage de points de la Figure 3.1 (à gauche) correspond à 112 données relevées
durant l’été 2001 à Rennes. On propose le modèle :
O3 = β1 + β2 T + ε.
Lorsqu’il n’y a, comme ici, qu’une “vraie” variable explicative (la température), on parle de
régression linéaire simple. On peut affiner ce modèle en tenant compte de la nébulosité 2 N
à midi et de la projection V du vecteur vitesse du vent sur l’axe Est-Ouest, ce qui donne
O3 = β1 + β2 T + β3 V + β4 N + ε,
et on parle alors de régression linéaire multiple.
1. Dans tout ce chapitre, le symbole ′ correspond à la transposition.
2. Celle-ci prend des valeurs entières de 0 à 8, pour un ciel allant de très dégagé à très couvert.
93
94 Chapitre 3. Le modèle linéaire gaussien
160
25
120
Hauteur
maxO3
20
80
15
40
15 20 25 30 30 40 50 60 70
T12 Circonférence
2. Hauteur d’un eucalyptus : la Figure 3.1 (à droite) correspond à environ 1400 couples
(xi , yi ) où xi correspond à la circonférence du tronc à 1 mètre du sol (en centimètres) et
yi à la hauteur de l’arbre (en mètres). Au vu de ce nuage de points, on peut proposer le
modèle √
Y = β1 + β2 x + β3 x + ε.
On voit sur cet exemple que le modèle de régression linéaire est linéaire en les paramètres
inconnus βj , non en la variable x !
3. Modèle de Cobb-Douglas : énoncé en 1928 dans l’article A Theory of Production, le
principe est de décrire, sur l’ensemble des Etats-Unis, la production P en fonction du capital
K (valeur des usines, etc.) et du travail T (nombre de travailleurs). Les auteurs proposèrent
le modèle suivant
P = α 1 K α2 T α3 .
En passant au logarithme, en notant (β1 , β2 , β3 ) = (log α1 , α2 , α3 ) et en tenant compte de
l’erreur du modèle, on aboutit donc à
A partir de données sur 24 années consécutives, de 1899 à 1922, ils estimèrent α2 = 1/4
et α3 = 3/4. Ici, partant d’un modèle de régression non-linéaire en α2 et α3 , on a pu le
linéariser grâce à une simple transformation logarithmique. Ce n’est bien sûr pas toujours
le cas...
où :
— les Yi sont des variables aléatoires dont on observe les réalisations yi ;
— les xij sont connus, non aléatoires, la variable xi1 valant souvent 1 pour tout i ;
de sorte que p correspond toujours au nombre de “vraies” variables explicatives. Avec notre conven-
tion d’écriture (3.1), si xi1 vaut 1 pour tout i, p est le nombre de paramètres à estimer, tandis que
le nombre de variables explicatives est, à proprement parler, (p − 1).
En adoptant une écriture matricielle pour (3.1), nous obtenons la définition suivante :
Y = Xβ + ε
où :
— Y est un vecteur aléatoire de dimension n,
— X est une matrice de taille n × p connue, appelée matrice du plan d’expérience,
— β est le vecteur de dimension p des paramètres inconnus du modèle,
— ε, de dimension n, est le vecteur aléatoire et inconnu des erreurs.
L’hypothèse (H1 ) assure que le modèle est identifiable, nous y reviendrons en Section 3.2 pour
l’étude du modèle gaussien. Pour l’instant, contentons-nous de noter qu’elle implique p ≤ n et
qu’elle est équivalente à supposer la matrice carrée X ′ X inversible. Supposons en effet X de rang
p : puisque rg(X) ≤ min(n, p), ceci implique bien p ≤ n. De plus, s’il existait un vecteur α de
Rp tel que (X ′ X)α = 0, on aurait kXαk2 = α′ (X ′ X)α = 0, donc Xα = 0, d’où α = 0 puisque
rg(X) = p. La réciproque est claire : si X ′ X est inversible, alors une matrice et sa transposée ayant
le même rang, il vient
Concrètement, si rg(X) < p, ceci signifie que (au moins) l’une des colonnes de la matrice X du
plan d’expérience est combinaison linéaire des autres, c’est-à-dire que la variable correspondant à
cette colonne n’apporte (linéairement) aucune information supplémentaire : elle est donc inutile.
Remarque. La matrice X ′ X est symétrique et on vient de voir que, sous l’hypothèse (H1 ), pour
tout α ∈ Rp non nul, on a α′ (X ′ X)α = kXαk2 > 0. Autrement dit, la matrice X ′ X est symétrique
définie positive.
En (H2 ), supposer les erreurs centrées est naturel : si tel n’était pas le cas, leur moyenne m passerait
dans la partie déterministe du modèle, quitte éventuellement à ajouter un paramètre β0 = m si la
constante n’est pas déjà présente dans le modèle. Par ailleurs, dans toute cette section 3.1, nous
pourrions en fait nous contenter de supposer que les erreurs εi sont décorrélées, centrées et de
même variance σ 2 (on parle alors d’homoscédasticité).
Notation. On notera X = [X1 | . . . |Xp ], où Xj est le vecteur colonne de taille n correspondant
à la j-ème variable. La i-ème ligne de la matrice X sera quant à elle notée x′i = [xi1 , . . . , xip ] et
elle correspond au i-ème “individu” de l’échantillon. La matrice X du plan d’expérience est aussi
appelée matrice “individus × variables”. Par conséquent, l’équation (3.1) s’écrit encore
Y = Xβ + ε = β1 X1 + · · · + βp Xp + ε.
Pour déterminer β̂, il suffit de raisonner géométriquement. La matrice X = [X1 | . . . |Xp ] du plan
d’expérience est formée de p vecteurs colonnes dans Rn (la première étant généralement constituée
de 1). Le sous-espace de Rn engendré par ces p vecteurs colonnes est appelé espace image, ou
espace des solutions, et noté
MX = Im(X) = Vect(X1 , . . . , Xp ).
Il est de dimension p par l’hypothèse (H1 ) et tout vecteur de cet espace est de la forme Xα, où α
est un vecteur de Rp :
Xα = α1 X1 + · · · + αp Xp .
M⊥
X
Y
Y − Ŷ
Ŷ = X β̂ = PX Y
Xα
MX
Selon le modèle de la Définition 28, le vecteur Y est la somme d’un élément Xβ de MX et d’une
erreur ε, laquelle n’a aucune raison d’appartenir à MX . Minimiser kY − Xαk2 revient à chercher
l’élément de MX qui soit le plus proche de Y au sens de la norme euclidienne. Cet élément, unique
puisque MX est un convexe fermé de Rn , est par définition le projeté orthogonal de Y sur MX
(voir Figure 3.2). Il sera noté Ŷ = PX Y , où PX est la matrice de projection orthogonale sur MX . Il
peut aussi s’écrire sous la forme Ŷ = X β̂, où β̂ est l’estimateur des moindres carrés de β. L’espace
orthogonal à MX , noté M⊥ X , est souvent appelé espace des résidus. En tant que supplémentaire
orthogonal, il est de dimension
dim(M⊥ n
X ) = dim(R ) − dim(MX ) = n − p.
Les expressions de β̂ et PX données maintenant sont sans aucun doute les plus importantes de
tout ce chapitre, puisqu’on peut quasiment tout retrouver à partir de celles-ci.
β̂ = (X ′ X)−1 X ′ Y,
et la matrice PX de projection orthogonale sur MX s’écrit :
PX = X(X ′ X)−1 X ′ .
Ces p équations se regroupent en une seule : X ′ (Y −X β̂) = 0, d’où l’on déduit bien l’expres-
sion de β̂ = (X ′ X)−1 X ′ Y . Puisque par définition Ŷ = PX Y = X β̂ = X(X ′ X)−1 X ′ Y et
comme cette relation est valable pour tout Y ∈ Rn , on en déduit que PX = X(X ′ X)−1 X ′ .
2. Par différentiation : on cherche α ∈ Rp qui minimise la fonction
S(α) = kY − Xαk2 = α′ (X ′ X)α − 2Y ′ Xα + kY k2 .
Or S est de type quadratique en α, avec X ′ X symétrique définie positive, donc le problème
admet une unique solution β̂ : c’est le point où le gradient de S est nul. Géométriquement,
en dimension 2, c’est le sommet du paraboloïde défini par S. Ceci s’écrit :
∇S(β̂) = 2β̂ ′ X ′ X − 2Y ′ X = 0 ⇐⇒ (X ′ X)β̂ = X ′ Y.
La matrice X ′ X étant inversible par (H1 ), ceci donne β̂ = (X ′ X)−1 X ′ Y et par le même
raisonnement que ci-dessus il s’ensuit que PX = X(X ′ X)−1 X ′ .
¥
Remarques :
1. Puisque Y = Xβ + ε, l’estimateur β̂ s’écrit encore
β̂ = β + (X ′ X)−1 X ′ ε. (3.2)
Vu que β et ε sont inconnus, cette expression ne permet en rien de calculer β̂. Néanmoins,
elle peut s’avérer utile pour établir certaines propriétés de cet estimateur : en particulier,
elle montre que β̂ est une transformation affine du vecteur aléatoire ε.
2. Dire que la matrice X n’est pas de rang p signifie que le sous-espace MX engendré par
ses colonnes est strictement inférieur à p, ou encore que le noyau de l’application linéaire
α ∈ Rp 7→ Xα ∈ Rn n’est pas réduit à 0. La projection Ŷ sur MX reste bien définie, mais
on perd l’unicité de l’estimateur des moindres carrés puisque si β̂ permet d’atteindre le
minimum, celui-ci est encore atteint pour tout vecteur de la forme β̂ + α avec α appartenant
au noyau de X.
Exemples.
1. La droite des moindres carrés pour le modèle expliquant le maximum journalier de l’ozone
en fonction de la température à midi est superposée au nuage de points en Figure 3.3 à
gauche.
2. Pour l’exemple des eucalyptus, la courbe des moindres carrés, de la forme y = β̂1 + β̂2 x +
√
β̂3 x, est représentée Figure 3.3 à droite.
160
25
120
Hauteur
maxO3
20
80
15
40
15 20 25 30 30 40 50 60 70
T12 Circonférence
Figure 3.3 – Droite et courbe des moindres carrés pour l’ozone et les eucalyptus.
Y = Ŷ + (Y − Ŷ ) = PX Y + (In − PX )Y = PX Y + PX ⊥ Y
Ŷ = X β̂ = β̂1 X1 + · · · + β̂p Xp
signifie que les β̂i sont les coordonnées de Ŷ dans la base (X1 , . . . , Xp ) de MX . Il ne faudrait pas
croire pour autant que les β̂i sont les coordonnées des projections de Y sur les Xi : ceci n’est vrai
que si la base (X1 , . . . , Xp ) est orthogonale, ce qui n’est pas le cas en général.
Rappels sur les projecteurs : soit P une matrice carrée de taille n. On dit que P est une
matrice de projection si P 2 = P . Ce nom est dû au fait que pour tout vecteur x de Rn , P x est la
projection de x sur Im(P ) parallèlement à Ker(P ). Si en plus de vérifier P 2 = P , la matrice P est
symétrique (i.e. P ′ = P ), alors P x est la projection orthogonale de x sur Im(P ) parallèlement à
Ker(P ), c’est-à-dire qu’on a la décomposition
x = P x + (x − P x) avec P x ⊥ x − P x.
C’est ce cas de figure qui nous concernera dans ce cours. Toute matrice symétrique réelle étant
diagonalisable en base orthonormée, il existe une matrice orthogonale Q (i.e. QQ′ = In , ce qui
signifie que les colonnes de Q forment une base orthonormée de Rn ) et une matrice diagonale ∆
telles que P = Q∆Q′ . On voit alors facilement que la diagonale de ∆ est composée de p “1” et de
(n − p) “0”, où p est la dimension de Im(P ), espace sur lequel on projette. En particulier la trace
de P , qui est égale à celle de ∆, vaut tout simplement p.
Revenons à nos moutons : on a vu que PX = X(X ′ X)−1 X ′ . On vérifie bien que PX2 = PX et que
PX est symétrique. Ce qui précède assure également que Tr(PX ) = p et Tr(PX ⊥ ) = n − p. Cette
dernière remarque nous sera utile pour construire un estimateur sans biais de σ 2 . D’autre part, la
matrice PX est souvent notée H (comme Hat) dans la littérature anglo-saxonne, car elle met un
chapeau sur le vecteur Y : PX Y = HY = Ŷ .
Nous allons maintenant nous intéresser au biais et à la matrice de covariance de l’estimateur β̂ des
moindres carrés. On rappelle que la matrice de covariance du vecteur aléatoire β̂, ou matrice de
variance-covariance, ou matrice de dispersion, est par définition :
Puisque β est de dimension p, elle est de dimension p × p. Elle est symétrique semi-définie positive,
mais pas nécessairement définie positive. De plus, pour pour toute matrice A de taille m × p et
tout vecteur b de dimension m déterministes, on a
Ces propriétés élémentaires seront très souvent appliquées dans la suite, et en particulier dans le
résultat suivant.
Cov(β̂) = σ 2 (X ′ X)−1 .
Preuve. D’après (3.2), β̂ est une transformation affine du vecteur aléatoire ε. Puisque E[ε] = 0,
il vient
E[β̂] = E[β + (X ′ X)−1 X ′ ε] = β + (X ′ X)−1 X ′ E[ε] = β.
Pour la covariance, vu que Cov(ε) = σ 2 In , on procède de même :
Définition 30 (Résidus)
On appelle vecteur des résidus le vecteur aléatoire de taille n défini par
M⊥
X
Y = Xβ + ε
ε̂ = Y − Ŷ = PX ⊥ Y = PX ⊥ ε
Ŷ = X β̂ = PX Y = Xβ + PX ε
MX
Noter que dans la définition précédente, la dernière expression ε̂ = PX ⊥ ε ne permet pas, contrai-
rement aux autres, de calculer les résidus puisque le vecteur des erreurs ε est inconnu. A nouveau,
cette formule est néanmoins utile dans certains cas. Par ailleurs, si β̂ estime bien β, alors d’une
certaine façon les résidus ε̂ = Y − X β̂ estiment bien les erreurs ε = Y − Xβ, donc un estimateur
“naturel” de la variance résiduelle σ 2 est donné par :
n n
1X 1X 2 1 SCR
(Yi − Ŷi )2 = ε̂i = kε̂k2 = .
n n n n
i=1 i=1
En fait, comme on va le voir, cet estimateur est biaisé. Ce biais est néanmoins facilement corri-
geable, comme le montre le résultat suivant.
Remarque : ceci suppose bien entendu qu’on a en fait p < n. Ceci n’a rien d’étonnant : si p = n
avec rg(X) = p, alors Y ∈ MX donc Y = Ŷ = X β̂ et ε̂ = 0. Du point de vue des données, tout
se passe comme s’il n’y avait pas de terme d’erreur ε dans le modèle initial Y = Xβ + ε. Cette
situation ne nous intéressera pas dans ce chapitre.
Preuve. Nous calculons tout bonnement la moyenne de la somme des carrés résiduelle, en tenant
compte du fait que PX ⊥ est un projecteur orthogonal :
X
E[kε̂k2 ] = E[kPX ⊥ εk2 ] = E[ε′ PX′ ⊥ PX ⊥ ε] = E[ε′ PX ⊥ ε] = E PX ⊥ (i, j)εi εj ,
1≤i,j≤n
¥
On déduit de cet estimateur de σ̂ 2 de la variance résiduelle σ 2 un estimateur sans biais de la
matrice de covariance de β, valant comme on l’a vu Cov(β̂) = σ 2 (X ′ X)−1 :
2
d β̂) = σ̂ 2 (X ′ X)−1 = kε̂k (X ′ X)−1 = SCR (X ′ X)−1 .
Cov(
n−p n−p
où les dimensions sont indiquées en indices. Les hypothèses concernant le modèle étaient :
½
(H1 ) : rg(X) = p
(H)
(H2 ) : les εi sont i.i.d. avec E[ε] = 0 et Var(ε) = σ 2 In
Nous allons désormais faire une hypothèse plus forte, à savoir celle de gaussianité des résidus. Nous
supposerons donc jusqu’à la fin de ce chapitre :
½
(H1 ) : rg(X) = p
(H)
(H2 ) : ε ∼ N (0, σ 2 In )
L’intérêt de supposer les résidus gaussiens est de pouvoir en déduire les lois de nos estimateurs,
donc de construire des régions de confiance et des tests d’hypothèses. Par ailleurs, même si l’on
peut bien entendu trouver des exemples ne rentrant pas dans ce cadre, modéliser les erreurs par
une loi gaussienne n’est généralement pas farfelu au vu du Théorème Central Limite.
Remarque : Contrairement à tous les exemples des Chapitre 1 et 2, nous ne sommes plus dans un
modèle d’échantillonnage puisque toutes les variables Yi n’ont pas la même loi : Yi ∼ N (x′i β, σ 2 ),
c’est-à-dire qu’elles ont même variance mais pas même moyenne. Elles sont néanmoins indépen-
dantes puisque les erreurs εi le sont.
Remarque : Si l’on reprend la Définition 6 d’une expérience statistique, l’objet aléatoire est ici le
vecteur Y = Xβ + ε de Rn , de loi normale N (Xβ, σ 2 In ). En accord avec la Définition 8, le modèle
statistique
(Pθ )θ∈Θ = (N (Xβ, σ 2 In ))β∈Rp ,σ2 >0
n’est cependant identifiable que si l’application (β, σ 2 ) 7→ N (Xβ, σ 2 In ) est injective, or ceci n’est
vrai que si X est injective, donc de rang p, d’où l’hypothèse (H1 ).
Le second point agréable est la facilité avec laquelle on peut vérifier l’indépendance : en effet, les
composantes d’un vecteur gaussien Y = [Y1 , · · · , Yn ]′ sont indépendantes si et seulement si ΣY est
diagonale. Dit crûment, dans le cadre vecteur gaussien, indépendance équivaut à décorrélation.
Disons enfin un mot de la densité. Soit Y ∼ N (µ, ΣY ) un vecteur gaussien. Il admet une densité
f sur Rn si et seulement si sa matrice de dispersion ΣY est inversible (i.e. symétrique définie
positive), auquel cas :
1 1 ′ −1
f (y) = p e− 2 (y−µ) ΣY (y−µ) . (3.3)
(2π)n/2 det(ΣY )
La non-inversibilité de ΣY signifie que le vecteur Y ne prend ses valeurs que dans un sous-espace
affine de dimension n0 < n, sur lequel il est distribué comme un vecteur gaussien n0 -dimensionnel.
Certaines lois classiques en statistique sont définies à partir de la loi normale.
(2n)!
E[X 2n+1 ] = 0 et E[X 2n ] =
2n n!
d’où l’on déduit que si S ∼ χ2d alors
0.04
0.03
0.02
0.01
0.00
0 25 50 75 100
Figure 3.5 – Densités d’un χ250 (en noir) et d’une N (50, 100) (en rouge).
Par ailleurs, lorsque d est grand, on sait par le Théorème Central Limite que S suit approximative-
ment une loi normale de moyenne d et de variance 2d : √ S ≈ N (d, 2d).
√ Ainsi, pour d grand, environ
95% des valeurs de S se situent dans l’intervalle [d − 2 2d, d + 2 2d]. Ceci est illustré Figure 3.5
pour d = 50 ddl. Notons enfin le lien avec la loi Gamma : dire que S ∼ χ2d est équivalent à dire
que S ∼ Γ(d/2, 1/2), ce qui donne l’expression de sa densité, laquelle ne sera par ailleurs d’aucune
utilité dans ce qui suit.
0.4
0.3
0.2
0.1
0.0
Figure 3.6 – Densités d’une T10 (en noir) et d’une N (0, 1) (en rouge).
Concernant la loi de Student : lorsque d = 1, T suit une loi de Cauchy et n’a donc pas d’espérance
(ni, a fortiori, de variance). Pour d = 2, T est centrée mais de variance infinie. Pour d ≥ 3 (le cas
d
qui nous intéresse), T est centrée et de variance d−2 . D’autre part, lorsque d devient grand, en
notant Sd au lieu de S et puisque E[Sd ] = d et Var(Sd ) = 2d, l’inégalité de Tchebychev assure que
la suite de variables aléatoires (Sd /d) tend vers 1 en probabilité : en effet, pour tout ε > 0,
µ¯ ¯ ¶
¯ Sd ¯ Var(Sd /d) 2
P ¯ ¯ ¯
− 1¯ ≥ ε ≤ = 2 −−−→ 0.
d ε 2 dε d→∞
De fait, par le Lemme de Slutsky, lorsque d tend vers l’infini, T tend en loi vers une gaussienne
centrée réduite : T ≈ N (0, 1). Ceci est illustré Figure 3.6 pour d = 10 ddl. Par conséquent, lorsque
d est grand, les quantiles d’une loi de Student Td sont très proches de ceux d’une loi N (0, 1).
Une remarque enfin sur la loi de Fisher : dans la suite, typiquement, d2 sera grand, de sorte qu’à
nouveau S2 /d2 tend vers 1 en probabilité. Dans ce cas, F peut se voir comme un khi-deux normalisé
par son degré de liberté : F ≈ χ2d1 /d1 . Ceci est illustré Figure 3.7 pour d1 = 2 et d2 = 10.
1.00
0.75
0.50
0.25
0.00
0 2 4 6
M⊥
Y ∼ N (0, In )
χ2
n
∼
k2
kP⊥ Y k2 ∼ χ2n−p
kY
P Y ∼ N (0, P )
kP Y k2 ∼ χ2p
Théorème 12 (Cochran)
Soit Y ∼ N (µ, σ 2 In ), M un sous-espace de Rn de dimension p, P la matrice de projection or-
thogonale sur M et P⊥ = In − P la matrice de projection orthogonale sur M⊥ . Nous avons les
propriétés suivantes :
(i) P Y ∼ N (P µ, σ 2 P ) et P⊥ Y ∼ N (P⊥ µ, σ 2 P⊥ ) ;
(ii) les vecteurs P Y et P⊥ Y = (Y − P Y ) sont indépendants ;
2 2
(iii) kP (Yσ−µ)k
2 ∼ χ2p et kP⊥ (Yσ2−µ)k ∼ χ2n−p .
Preuve.
(i) Ce premier point est clair par stabilité des vecteurs gaussiens par transformation linéaire
et puisque P et P⊥ sont des projections.
(ii) Toujours par stabilité, le vecteur de taille 2n obtenu en empilant P Y et P⊥ Y est lui
aussi gaussien. Pour prouver que P Y et P⊥ Y sont indépendants, il suffit donc de montrer
que leur covariance est nulle. Or, puisque P⊥′ = P⊥ , on a tout simplement
(iii) D’après le premier point, P (Y − µ) ∼ N (0, σ 2 P ). Par ailleurs, il existe une ma-
trice orthogonale Q telle que P = Q∆Q′ où ∆ est une matrice diagonale dont les p
premiers éléments diagonaux valent 1 et les (n − p) suivants valent 0. Soit maintenant
X = [X1 , . . . , Xn ]′ vecteur aléatoire dont les p premières composantes sont des variables
gaussiennes indépendantes centrées et réduites tandis que les (n − p) dernières valent 0. Le
vecteur X ainsi construit est gaussien, avec X ∼ N (0, ∆), donc σQX est aussi gaussien,
avec σQX ∼ N (0, σ 2 P ). Autrement dit, les vecteurs aléatoires σQX et P (Y − µ) ont même
loi, donc les variables aléatoires σ 2 kQXk2 et kP (Y − µ)k2 aussi. Or
n
X p
X
2 ′ ′ ′
kQXk = X Q QX = X X = Xi2 = Xi2 ∼ χ2p .
i=1 i=1
Remarque : Si on projette un vecteur gaussien sur deux sous-espaces orthogonaux, les vecteurs
aléatoires obtenus seront par définition orthogonaux, mais ils n’ont en général aucune raison d’être
indépendants. Il suffit de considérer 3 gaussiennes i.i.d. standards (W1 , W2 , W3 ) et, dans R2 , le
vecteur aléatoire [X, Y ]′ = [W1 + W2 , W1 + W3 ]′ . La projection sur l’axe des abscisses (respective-
ment des ordonnées) est le vecteur V1 = [X, 0]′ (respectivement V2 = [0, Y ]′ ), or ces deux vecteurs
ne sont pas indépendants puisque leur covariance n’est pas nulle :
· ¸
0 1
Cov(V1 , V2 ) = .
0 0
ε ∼ N (0, σ 2 In ) =⇒ Y = Xβ + ε ∼ N (Xβ, σ 2 In ).
Dès lors, les estimateurs β̂ et σ̂ 2 peuvent être vus à partir de projections de vecteurs gaussiens sur
des sous-espaces orthogonaux.
Propriétés 1 (Lois des estimateurs avec variance connue)
Sous les hypothèses (H), nous avons :
(i) β̂ est un vecteur gaussien : β̂ ∼ N (β, σ 2 (X ′ X)−1 ) ;
(ii) β̂ et σ̂ 2 sont indépendants ;
2
(iii) (n − p) σ̂σ2 ∼ χ2n−p .
Preuve.
(i) D’après (3.2), β̂ = β + (X ′ X)−1 X ′ ε, or par hypothèse ε ∼ N (0, σ 2 In ) est un vecteur
gaussien. On en déduit que β̂ est lui aussi un vecteur gaussien, sa loi est donc entière-
ment caractérisée par sa moyenne et sa matrice de dispersion, lesquelles ont été établies en
Proposition 17.
(ii) Comme précédemment, notons MX le sous-espace de Rn engendré par les p colonnes
de X et PX = X(X ′ X)−1 X ′ la projection orthogonale sur ce sous-espace. On peut noter
que :
β̂ = (X ′ X)−1 X ′ Y = (X ′ X)−1 X ′ (X(X ′ X)−1 X ′ )Y = (X ′ X)−1 X ′ PX Y,
donc β̂ est un vecteur aléatoire fonction (déterministe !) de PX Y , tandis que :
kε̂k2 kY − PX Y k2 kPX ⊥ Y k2
σ̂ 2 = = =
n−p n−p n−p
Par conséquent, pour un modèle donné (i.e. des paramètres β = [β1 , . . . , βp ] et σ 2 fixés) et une
taille n d’échantillon croissante, on a
P
σ̂ 2 = σ̂n2 −−−→ σ 2 ,
n→∞
β̂j − βj β̂j − βj
Tj := q = ∼ Tn−p .
σ̂ [(X ′ X)−1 ]jj σ̂β̂j
1 p
F := (β̂ − β)′ (X ′ X)(β̂ − β) ∼ Fn−p .
pσ̂ 2
Preuve :
(i) D’après la proposition précédente, on sait d’une part que β̂j ∼ N (βj , σ 2 (X ′ X)−1
jj ),
2
d’autre part que (n − p) σ̂σ2 ∼ χ2n−p et enfin que β̂j et σ̂ 2 sont indépendants. Il ne reste plus
qu’à écrire Tj sous la forme
β̂ −βj
qj
σ (X ′ X)−1
jj
Tj = σ̂
σ
1
(β̂ − β)′ (X ′ X)(β̂ − β) ∼ χ2p .
σ2
2
Il reste à remplacer σ 2 par σ̂ 2 en se souvenant que (n − p) σσ̂2 ∼ χ2n−p et du fait que β̂ et σ̂ 2
sont indépendants. On obtient bien alors la loi de Fisher annoncée.
¥
Remarque : La matrice (X ′ X) étant symétrique définie positive, c’est aussi le cas pour son inverse
(X ′ X)−1 . Or si S est symétrique définie positive, tous ses coefficients diagonaux sont strictement
positifs puisque si ej désigne le j e vecteur de la base canonique, alors Sjj = e′j Sej > 0. Dès lors,
q
la division par (X ′ X)−1 jj dans la définition de Tj ne pose pas problème.
Les variables Tj et F du résultat précédent sont des exemples de variables pivotales. Ce ne sont
pas des statistiques au sens de la Définition 10 du Chapitre 1, car elles font intervenir les paramètres
β et σ 2 du modèle. Néanmoins leur loi est, elle, bel et bien indépendante de ce paramètre. Comme
nous le verrons, l’avantage des variables pivotales est de permettre la construction de domaines de
confiance. Auparavant, illustrons sur un exemple le second point de la Proposition 20.
Exemple : régression linéaire simple. Considérons le cas p = 2, de sorte que
· ¸
β̂1 − β1
(β̂ − β) = .
β̂2 − β2
Si la constante fait partie du modèle, nous sommes dans le cadre d’une régression linéaire simple
avec, pour tout i ∈ {1, . . . , n}, Yi = β1 + β2 x + εi . Dans ce cas, β̂1 et β̂2 sont respectivement
l’ordonnée à l’origine et la pente de la droite des moindres carrés. X est la matrice n × 2 dont la
première colonne est uniquement composée de 1 et la seconde des xi , si bien que
· P ¸ · ¸
′ n x i n nx̄
XX= P P 2 = P 2 ,
xi xi nx̄ xi
et le point (ii) de la Proposition 20 s’écrit
1 ³ 2
X
2 2
´
2
n( β̂ 1 − β 1 ) + 2nx̄( β̂ 1 − β 1 )( β̂ 2 − β 2 ) + x i ( β̂ 2 − β 2 ) ∼ Fn−2 ,
2σ̂ 2
ce qui nous permettra de construire une ellipse de confiance pour β = (β1 , β2 ). Plus généralement,
pour p > 2, (ii) donnera des hyper-ellipsoïdes de confiance pour β centrés en β̂. Par ailleurs, ce
résultat est à la base de la distance de Cook en validation de modèle.
Les logiciels donnent usuellement des intervalles de confiance pour les paramètres βj pris séparé-
ment. Cependant, ces intervalles de confiance ne tiennent pas compte de la dépendance entre les
βj , laquelle incite plutôt à étudier des domaines de confiance. Nous allons donc traiter les deux
cas, en considérant σ 2 inconnue, ce qui est généralement le cas en pratique.
où tn−p (1 − α/2) est le quantile d’ordre (1 − α/2) d’une loi de Student Tn−p .
(ii) Un intervalle de confiance de niveau (1 − α) pour σ 2 est :
· ¸
(n − p)σ̂ 2 (n − p)σ̂ 2
, ,
cn−p (1 − α/2) cn−p (α/2)
où cn−p (α/2) et cn−p (1 − α/2) sont les quantiles d’ordres α/2 et (1 − α/2) d’une loi χ2n−p .
(iii) Une région de confiance de niveau (1 − α) pour β est l’intérieur de l’hyper-ellipsoïde
défini par
½ ¾
p 1 ′ ′ p
β∈R : (β̂ − β) (X X)(β̂ − β) ≤ fn−p (1 − α) . (3.4)
pσ̂ 2
p p
où fn−p (1 − α) est le quantile d’ordre (1 − α) d’une loi de Fisher Fn−p .
Preuve. Il suffit d’appliquer le point (iii) des Propriétés 1 et les résultats de la Proposition 20.
¥
Rappel : soit (x0 , y0 ) un point de R2 , c2 > 0 une constante et S une matrice 2 × 2 symétrique
définie positive, alors l’ensemble des points (x, y) du plan tels que
· ¸
x − x0
[x − x0 , y − y0 ] S ≤ c2 ⇐⇒ s11 (x − x0 )2 + 2s12 (x − x0 )(y − y0 ) + s22 (y − y0 )2 ≤ c2
y − y0
est l’intérieur d’une ellipse centrée en (x0 , y0 ) dont les axes correspondent aux directions données
par les vecteurs propres de S. Il suffit pour s’en convaincre de considérer la diagonalisation S =
Q∆Q′ , avec ∆ diagonale de coefficients diagonaux δ12 et δ22 , et le changement de coordonnées
· ¸ · ¸ · ¸
u ′ x − x0 x − x0
=Q =⇒ [x − x0 , y − y0 ] S = δ1 u2 + δ2 v 2 ≤ c 2 .
v y − y0 y − y0
Cette région de confiance est donc l’intérieur d’une ellipse centrée en (β̂1 , β̂2 ) et d’axes donnés par
les vecteurs propres de la matrice X ′ X, laquelle est bien définie positive grâce à (H1 ). Considérons
maintenant les intervalles de confiance Iˆ1 et Iˆ2 de niveau (1 − α) pour β1 et β2 donnés par le point
(i) et le rectangle R̂ = Iˆ1 × Iˆ2 . La borne de l’union implique
3.2.3 Prévision
Une fois le modèle de régression construit, c’est-à-dire une fois les paramètres β et σ 2 estimés à
partir des n observations (x′i , Yi )1≤i≤n , on peut bien entendu s’en servir pour faire de la prévision.
Soit donc x′n+1 = [xn+1,1 , · · · , xn+1,p ] une nouvelle valeur pour laquelle nous voudrions prédire
Yn+1 . Cette variable réponse est définie par Yn+1 = x′n+1 β + εn+1 , avec εn+1 ∼ N (0, σ 2 ) indépen-
dant des (εi )1≤i≤n . La méthode naturelle est de prédire la valeur correspondante grâce au modèle
(p)
ajusté, soit Ŷn+1 = x′n+1 β̂. L’erreur de prévision est alors définie par
(p) (p)
ε̂n+1 = Yn+1 − Ŷn+1 = x′n+1 (β − β̂) + εn+1 .
Deux types d’erreurs vont alors entacher cette prévision : la première, incompressible, due à l’aléa
de εn+1 , l’autre à l’incertitude inhérente à l’estimateur β̂, cette dernière décroissant typiquement
avec le nombre n de données.
(p) (p)
Attention ! La prévision Ŷn+1 et l’erreur de prévision ε̂n+1 ne jouent pas le même rôle que les
valeurs ajustées (Ŷi )1≤i≤n et les résidus (ε̂i )1≤i≤n , d’où la différence de notations.
6.5
6.0
5.5
5.0
4.5
Figure 3.9 – Ellipse et rectangle de confiance (pointillés) à 95% pour β̂ = (β̂1 , β̂2 ) sur l’exemple
de l’ozone.
(p)
ε̂n+1 ∼ N (0, σ 2 (1 + x′n+1 (X ′ X)−1 xn+1 )).
(p)
Preuve. Pour quantifier l’erreur de prévision (Yn+1 − Ŷn+1 ), on utilise la décomposition :
(p)
Yn+1 − Ŷn+1 = x′n+1 (β − β̂) + εn+1 ,
qui est la somme de deux variables gaussiennes indépendantes puisque β̂ est construit à partir des
(p)
(εi )1≤i≤n . On en déduit que (Yn+1 − Ŷn+1 ) est une variable gaussienne, dont il ne reste plus qu’à
calculer moyenne et variance. Comme E[εn+1 ] = 0 et puisque β̂ est un estimateur sans biais de β,
il est clair que
(p)
E[ε̂n+1 ] = E[x′n+1 (β − β̂) + εn+1 ] = x′n+1 (β − E[β̂]) + E[εn+1 ] = 0.
Autrement dit, en moyenne, notre estimateur ne se trompe pas. Calculons la variance de l’er-
reur de prévision. Puisque β̂ dépend uniquement des variables aléatoires (εi )1≤i≤n , dont εn+1 est
indépendante, il vient :
³ ´
(p)
Var ε̂n+1 = Var(εn+1 + x′n+1 (β − β̂)) = σ 2 + x′n+1 Cov(β̂)xn+1
= σ 2 (1 + x′n+1 (X ′ X)−1 xn+1 ).
¥
Nous retrouvons bien l’incertitude d’observation σ 2 à laquelle vient s’ajouter l’incertitude d’esti-
mation. On peut prouver qu’en présence de la constante, cette incertitude est minimale au centre
de gravité des variables explicatives, c’est-à-dire lorsque
et qu’elle vaut σ 2 (1 + 1/n). Ceci est facile à voir en régression linéaire simple : en effet, dans ce
cas, en écrivant x′n+1 = [1, x], un calcul élémentaire montre que la variance de prédiction s’écrit
encore ³ ´ µ ¶ µ ¶
(p) 2 1 (x − x̄)2 2 1
Var ε̂n+1 = σ 1 + + P ≥σ 1+ ,
n (xi − x̄)2 n
avec égalité si et seulement si x = x̄. Ainsi la variance augmente lorsque xn+1 s’éloigne du centre
de gravité du nuage. Autrement dit, faire de la prévision lorsque xn+1 est “loin” de x̄ est périlleux,
puisque la variance de l’erreur de prévision peut être très grande ! Ceci s’explique intuitivement
par le fait que plus une observation xn+1 est éloignée de la moyenne x̄ et moins on a d’information
sur elle.
Revenons au cadre de la Proposition 21. L’étape suivante consiste à préciser un intervalle de
confiance pour Yn+1 = x′n+1 β + εn+1 . Comme d’habitude, le résultat de la Proposition 21 est
inutilisable en l’état puisqu’il fait intervenir la variance σ 2 , inconnue. Comme d’habitude, il suffit
de la remplacer par son estimateur.
où tα = tn−p (1 − α/2) est le quantile d’ordre (1 − α/2) d’une loi de Student Tn−p .
Le numérateur suit une loi normale centrée réduite, le dénominateur est la racine d’un khi-deux à
(n−p) ddl divisé par (n−p). Il reste à s’assurer que numérateur et dénominateur sont indépendants,
(p)
or Yn+1 − Ŷn+1 = x′n+1 (β − β̂) + εn+1 et σ̂ est indépendant à la fois de β̂ (conséquence de Cochran,
cf. Propriétés 1) et de εn+1 (puisque σ̂ ne dépend que des (εi )1≤i≤n ). On en conclut que
(p)
Yn+1 − Ŷn+1
q ∼ Tn−p ,
σ̂ 1 + x′n+1 (X ′ X)−1 xn+1
200
150
maxO3
100
50
15 20 25 30
T12
on retrouve ainsi la remarque déjà faite : plus le point à prévoir admet pour abscisse x une valeur
éloignée de x̄, plus l’intervalle de confiance sera grand.
Plus précisément, la courbe décrite par les limites de ces intervalles de confiance lorsque xn+1
varie est une hyperbole d’axes x = x̄ et y = β̂1 + β̂2 x. Pour s’en persuader, il suffit d’effectuer le
changement de variables ½
X = x − x̄
Y = y − (β̂1 + β̂2 x)
d’où il ressort qu’un point (X, Y ) est dans la région de confiance ci-dessus si et seulement si
Y 2 X2
− 2 ≤ 1,
b2 a
avec ½ ¡ ¢P
a2 = ¡ 1 + n1 ¢ (xi − x̄)2
b2 = 1 + n1 (tn−2 (1 − α/2)σ̂)2
ce qui définit bien l’intérieur d’une hyperbole. En particulier, le centre de cette hyperbole est tout
bonnement le centre de gravité du nuage de points (voir Figure 3.10).
qu’il en soit, si l’on compare à l’estimateur σ̂ 2 = kY − X β̂k2 /(n − p) obtenu précédemment, nous
avons donc :
2 n−p 2
σ̂mv = σ̂ .
n
On en déduit que l’estimateur σ̂mv 2 du maximum de vraisemblance est biaisé, mais d’autant moins
On voit que, dans ce modèle, P l’estimateur β̂mv du maximum de vraisemblance est la valeur de
β qui minimise la quantité ni=1 |Yi − x′i β|. Il présente l’avantage d’être plus robuste à d’éven-
tuels outliers ou à une mauvaise spécification du modèle, mais l’inconvénient de ne pas être aussi
simple que celui des moindres carrés : il n’a pas de formule explicite et nécessite de résoudre
numériquement un problème d’optimisation. Face à ce constat, Legendre (1805) et Gauss (1823)
ont proposé de privilégier l’estimateur des moindres carrés, lequel correspond donc, dans le cas
d’erreurs gaussiennes, à l’estimateur du maximum de vraisemblance.
[1] Peter J. Bickel and Kjell A. Doksum. Mathematical Statistics. Prentice Hall, 1976.
[2] Patrick Billingsley. Probability and Measure. John Wiley & Sons Inc., 3ème edition, 1995.
[3] Lucien Birgé. Statistique mathématique. Polycopié UPMC, 2014.
[4] Alexandr Alekseevich Borovkov. Mathematical Statistics. Gordon and Breach Science Publi-
shers, 1998.
[5] Thomas M. Cover and Joy A. Thomas. Elements of information theory. John Wiley & Sons
Inc., 1991.
[6] Bernard Delyon. Estimation paramétrique. Format électronique, 2022.
[7] Benoît Cadre et Céline Vial. Statistique mathématique - Master 1 et Agrégation. Ellipses,
2012.
[8] Bernard Bercu et Djalil Chafaï. Modélisation stochastique et simulation. Dunod, 2007.
[9] Pierre-André Cornillon et Eric Matzner-Lober. Régression avec R. Springer, 2010.
[10] Vincent Rivoirard et Gilles Stoltz. Statistique mathématique en action. Vuibert, 2012.
[11] Jean Jacod et Philip Protter. L’essentiel en théorie des probabilités. Cassini, 2003.
[12] Andreï Kolmogorov et Sergeï Fomine. Eléments de la théorie des fonctions et de l’analyse
fonctionnelle. Ellipses, Mir, 3ème edition, 1994.
[13] Dominique Fourdrinier. Statistique inférentielle. Dunod, 2002.
[14] Michel Lejeune. Statistique - La théorie et ses applications. Springer, 2005.
[15] Christian Robert. Le choix bayésien. Springer, 2010.
[16] Mark J. Schervish. Theory of Statistics. Springer-Verlag, 1995.
[17] Jun Shao. Mathematical Statistics - Exercises and Solutions. Springer, 2005.
[18] Larry Wasserman. All of Statistics - A Concise Course in Statistical Inference. Springer,
2004.
[19] Jan Wretman. A Simple Derivation of the Asymptotic Distribution of a Sample Quantile.
Scand. J. Statist., 5(2) :123–124, 1978.