0% ont trouvé ce document utile (0 vote)
216 vues119 pages

Cours Statistiques

Ce document présente les notions de base de la modélisation statistique, notamment les probabilités, les modes de convergence, les estimateurs, les intervalles de confiance et les tests d'hypothèses. Il s'agit du chapitre 1 d'un cours de statistique.

Transféré par

justeillian
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
216 vues119 pages

Cours Statistiques

Ce document présente les notions de base de la modélisation statistique, notamment les probabilités, les modes de convergence, les estimateurs, les intervalles de confiance et les tests d'hypothèses. Il s'agit du chapitre 1 d'un cours de statistique.

Transféré par

justeillian
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Sorbonne Université

Master Mathématiques et Applications Année 2023/2024


Master 1, MU4MA015 Premier Semestre

Statistique

Arnaud Guyader
Table des matières

1 Modélisation statistique 1
1.1 Probabilités : rappels et compléments . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Majorations classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.3 Théorèmes asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.4 Opérations sur les limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.5 Absolue continuité et densités . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 Les problèmes statistiques classiques . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3.3 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2 Estimation unidimensionnelle 39
2.1 Quantités empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.1.1 Moyenne et variance empiriques . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.1.2 Fonction de répartition et quantiles empiriques . . . . . . . . . . . . . . . . 42
2.2 Estimation paramétrique unidimensionnelle . . . . . . . . . . . . . . . . . . . . . . 54
2.2.1 La méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.2.2 Le maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3 Comparaison d’estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.3.1 Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.3.2 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.3.3 Inégalité de l’Information et borne de Cramér-Rao . . . . . . . . . . . . . . 81
2.3.4 Efficacité asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3 Le modèle linéaire gaussien 93


3.1 Régression linéaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.1.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.1.2 Estimateurs des Moindres Carrés . . . . . . . . . . . . . . . . . . . . . . . . 96
3.2 Le modèle gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3.2.1 Quelques rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.2.2 Lois des estimateurs et domaines de confiance . . . . . . . . . . . . . . . . . 106
3.2.3 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
3.2.4 Estimateurs du Maximum de Vraisemblance . . . . . . . . . . . . . . . . . . 112

i
Chapitre 1

Modélisation statistique

Introduction
Considérons un exemple jouet qui servira de fil rouge dans tout ce chapitre. Une pièce a été lancée
n fois de suite : à l’issue de cette expérience, on dispose donc du n-uplet (x1 , . . . , xn ) avec la
convention xi = 0 si le i-ème lancer a donné Face et xi = 1 pour Pile. Les valeurs xi peuvent
ainsi être considérées comme des réalisations de variables aléatoires X1 , . . . , Xn indépendantes et
identiquement distribuées (en abrégé : i.i.d.) selon la loi de Bernoulli de paramètre θ, ce que l’on
notera
i.i.d.
(X1 , . . . , Xn ) ∼ B(θ),

où la probabilité θ ∈]0, 1[ de tomber sur Pile est inconnue. Au vu de la réalisation (x1 , . . . , xn ) de


cet échantillon (X1 , . . . , Xn ), on souhaite par exemple estimer le paramètre θ, ou encore tester si
la pièce est équilibrée ou non, autrement dit si θ = 1/2 ou si θ 6= 1/2. Ces questions sont typiques
de ce que l’on appelle la statistique inférentielle.

Il importe de comprendre dès à présent la différence entre probabilités et statistique. En probabi-


lités, le paramètre θ est supposé connu, donc la loi de X = X1 aussi, et on répond à des questions
du type : quelle est la loi du nombre Sn = X1 + · · · + Xn de Pile sur les n lancers ? quelle est
la limite du rapport Sn /n lorsque n tend vers l’infini ? etc., bref on cherche à en déduire des ré-
sultats impliquant cette loi de X. En statistique, c’est le contraire : on dispose d’un échantillon
(X1 , . . . , Xn ) et on veut remonter à la loi de X, c’est-à-dire au paramètre θ.

Il n’en reste pas moins que les outils utilisés dans les deux domaines sont rigoureusement les
mêmes : loi des grands nombres, théorème central limite, inégalités classiques, modes de conver-
gence stochastique, etc. Pour la plupart, ceux-ci ont déjà été vus en cours de probabilités et nous
nous contenterons donc de les rappeler brièvement.

1.1 Probabilités : rappels et compléments


Si X est une variable aléatoire réelle, sa loi PX est définie pour tout borélien B de R par

PX (B) = P(X ∈ B),

probabilité que la variable X tombe dans l’ensemble B. Cette loi est complètement déterminée par
un objet bien plus simple et maniable : la fonction de répartition FX , définie pour tout réel x par

FX (x) = P(X ≤ x) = PX (] − ∞, x]),

1
2 Chapitre 1. Modélisation statistique

probabilité que la variable X tombe au-dessous de x. Rappelons que cette fonction est croissante,
a pour limites respectives 0 et 1 en −∞ et +∞, et est continue à droite. Elle admet un nombre
au plus dénombrable de discontinuités et on a pour tout réel x0
P(X = x0 ) = FX (x0 ) − FX (x−
0 ) = FX (x0 ) − lim FX (x).
x→x0 ,x<x0

En d’autres termes, FX présente un saut au point x0 si et seulement si la probabilité pour X de


tomber en x0 est non nulle, la hauteur du saut correspondant précisément à cette probabilité. Dans
ce cas, on dit parfois que la loi de X présente un atome en x0 .
Exemples :
1. Si X ∼ B(θ), alors 
 0 si x < 0
FX (x) = 1 − θ si 0 ≤ x < 1

1 si x ≥ 1
2. Si X ∼ N (0, 1), loi gaussienne centrée réduite, on note Φ sa fonction de répartition, définie
pour tout réel x par Z x
1 t2
Φ(x) = √ e− 2 dt.
−∞ 2π
Par symétrie par rapport à 0, il vient Φ(−x) = 1 − Φ(x), c’est-à-dire que le point (0, 1/2)
est centre de symétrie de la courbe représentant Φ (voir Figure 1.1 à droite).

0.4 1.00

0.3 0.75

0.2 0.50

0.1 0.25

0.0 0.00
−4 −2 0 2 4 −4 −2 0 2 4

Figure 1.1 – Densité et fonction de répartition de la loi normale centrée réduite.

1.1.1 Modes de convergence


Nous nous focaliserons dans la suite sur les modes de convergence suivants : la convergence en
probabilité, la convergence presque sûre, la convergence en loi et la convergence en moyenne qua-
dratique (ou L2 ).
Définition 1 (Convergence en probabilité, convergence presque sûre)
Les variables aléatoires (Xn ) et X étant définies sur le même espace probabilisé, on dit que la suite
(Xn ) converge en probabilité vers la variable aléatoire X et on note
P
Xn −−−→ X
n→∞

Arnaud Guyader Statistique


1.1. Probabilités : rappels et compléments 3

si
∀ε > 0 P (|Xn − X| ≥ ε) −−−→ 0.
n→∞
On dit que la suite (Xn ) converge presque sûrement vers la variable aléatoire X et on note
p.s.
Xn −−−→ X
n→∞

si ³ ´ ³n o´
P lim Xn = X := P ω ∈ Ω : lim Xn (ω) = X(ω) = 1.
n→∞ n→∞

La convergence en probabilité dit que, si n est grand, Xn est proche de X avec grande probabilité.
Si l’on voit une variable aléatoire comme une fonction de Ω dans R, la convergence presque sûre
peut quant à elle être considérée comme une version stochastique de la convergence simple d’une
suite de fonctions vue en cours d’analyse. Elle implique la convergence en probabilité 1 :
p.s. P
Xn −−−→ X =⇒ Xn −−−→ X.
n→∞ n→∞

Très souvent, un résultat de convergence presque sûre se déduit directement de la loi forte des
grands nombres (cf. Section 1.1.3, Théorème 2) ou se démontre par l’intermédiaire du Lemme de
Borel-Cantelli. Celui-ci assure en effet que si pour tout ε > 0

X
P (|Xn − X| ≥ ε) < ∞,
n=1

alors (Xn ) converge presque sûrement vers X (en notant Aεn := {|Xn − X| ≥ ε}, on voit que
{limn→∞ Xn 6= X} = ∪ε lim sup Aεn , or la convergence de la série assure que P(lim sup Aεn ) = 0 et
on conclut par sous-sigma-additivité).
Passons maintenant à la convergence en loi, d’usage constant en statistique en raison du Théo-
rème Central Limite. Nous ne donnons ici qu’une des nombreuses caractérisations de ce mode de
convergence (cf. par exemple le Théorème porte-manteau).

Définition 2 (Convergence en loi)


On dit que la suite (Xn ) de variables aléatoires converge en loi vers (la loi de la variable aléatoire)
X et on note
L d
Xn −−−→ X ou Xn −−−→ X ou Xn à X
n→∞ n→∞

si pour toute fonction continue et bornée ϕ, on a

E[ϕ(Xn )] −−−→ E[ϕ(X)].


n→∞

Dans cette définition, on peut remplacer « pour toute fonction continue et bornée » par « pour
toute fonction C ∞ à support compact ».
Attention : contrairement aux convergences en probabilité et presque sûre, elle concerne la conver-
gence d’une suite de lois, non la convergence d’une suite de variables ! Du reste, la définition ne
suppose même pas que les variables sont définies sur le même espace probabilisé.
Exemple et Notation : si, pour tout n, Xn = X ∼ N (0, 1), alors par symétrie de la loi normale
il vient X ′ = −X ∼ N (0, 1), donc
L
Xn = X −−−→ X ′ = −X,
n→∞

1. Noter que P(|Xn − X| ≥ ε) = E[1{|Xn −X|≥ε} ] et appliquer la convergence dominée à Yn = 1{|Xn −X|≥ε} .

Statistique Arnaud Guyader


4 Chapitre 1. Modélisation statistique

mais il n’y a bien sûr pas convergence en probabilité de (Xn ) = X vers X ′ = −X. Afin de mettre
en évidence le fait que c’est la suite des lois des Xn qui converge, on utilisera souvent l’abus de
notation consistant à mettre une loi à la limite. Dans cet exemple, on pourra ainsi écrire
L
Xn −−−→ N (0, 1).
n→∞

Le critère de la définition ci-dessus n’est pas forcément facile à vérifier. Il en existe un parfois plus
commode, qui consiste à établir la convergence simple de la suite des fonctions de répartition.

Proposition 1 (Fonctions de répartition & Convergence en loi)


La suite de variables aléatoires (Xn ) converge en loi vers X si et seulement si en tout point de
continuité x de FX , on a
FXn (x) −−−→ FX (x).
n→∞

Exemple : Soit (Xn ) une suite de variables aléatoires de lois uniformes sur [−1/n; 1/n]. Pour
toute fonction ϕ continue et bornée, le théorème de convergence dominée donne :
Z Z
n 1/n 1 1
E[ϕ(Xn )] = ϕ(x)dx = ϕ(u/n)du −−−→ ϕ(0),
2 −1/n 2 −1 n→∞

ce qui prouve que la suite (Xn ) converge en loi vers un Dirac en 0, c’est-à-dire vers X constante
presque sûrement égale à 0, dont la fonction de répartition est FX (x) = 1x≥0 . Ce résultat
peut se voir grâce au critère précédent : la suite de fonctions de répartitions FXn (x) = 12 (1 +
nx)1[−1/n;1/n[ (x) + 1[1/n;∞[ (x) converge en effet vers FX (x) = 1x≥0 pour tout x 6= 0, c’est-à-dire
en tout point de continuité de FX . En revanche, on voit que pour tout n, FXn (0) = 1/2 qui ne
tend pas vers FX (0) = 1.
Remarque : Supposons les variables Xn et X absolument continues de densités respectives fn
et f , alors pour que Xn converge en loi vers X, il suffit que fn converge presque partout vers f .
Cette condition n’est cependant pas nécessaire : il suffit pour s’en convaincre de considérer la suite
de variables Xn de densités fn (x) = (1 − cos(2πnx))1[0,1] (x) pour n ≥ 1, qui tend en loi vers une
uniforme sur [0, 1] (cf. fonctions de répartition) bien que fn (x) ne converge pour aucun x de ]0, 1[.
Notation : pour a < b, nous noterons (a, b) l’intervalle allant de a à b sans préciser si les extrémités
y appartiennent ou non (donc quatre situations possibles). Noter que ceci ne correspond pas à la
notation anglo-saxonne, pour laquelle une parenthèse est un crochet ouvert.
Exemple : supposons que (Xn ) converge en loi vers X, avec a et b des points de continuité de
FX , alors on peut montrer, par exemple grâce au Théorème porte-manteau, que

P (Xn ∈ (a, b)) −−−→ P (X ∈ (a, b)) .


n→∞

Ceci marche en particulier lorsque X est une variable gaussienne, ce qui sera très souvent le cas
pour la convergence en loi.
Si la fonction de répartition de la loi limite est continue sur R, la convergence en loi équivaut donc
à la convergence simple de la suite des fonctions de répartition. Le résultat suivant, donné à titre
culturel, montre qu’on a en fait convergence uniforme.

Proposition 2 (Convergence uniforme d’une suite de fonctions de répartition)


Si la fonction de répartition FX est continue sur tout R et si (Xn ) converge en loi vers X, alors
la suite de fonctions (FXn ) converge uniformément vers FX , c’est-à-dire

kFXn − FX k∞ := sup |FXn (x) − FX (x)| −−−→ 0.


x∈R n→∞

Arnaud Guyader Statistique


1.1. Probabilités : rappels et compléments 5

A nouveau, ce résultat s’applique en particulier lorsqu’il y a convergence vers une loi normale. Il
correspond en fait au deuxième théorème de Dini appliqué à notre cadre.
Notons enfin que le critère des fonctions de répartition pour vérifier la convergence en loi est
pratique lorsque Xn s’écrit comme le minimum ou le maximum de variables aléatoires indépen-
dantes. Une autre façon de vérifier la convergence en loi est de passer par les fonctions caractéris-
tiques. Rappelons que la fonction caractéristique d’une variable aléatoire X est la fonction

ΦX : R → C £ ¤
t 7→ ΦX (t) = E eitX = E[cos(tX)] + iE[sin(tX)]

Comme son nom l’indique, elle caractérise la loi d’une variable, au sens où X et Y ont même
loi si et seulement si ΦX = ΦY . On a alors l’équivalent de la Proposition 1, c’est-à-dire que la
convergence en loi se ramène à la convergence simple d’une suite de fonctions.

Théorème 1 (Critère de convergence de Paul Lévy)


La suite de variables aléatoires (Xn ) converge en loi vers X si et seulement si

∀t ∈ R ΦXn (t) −−−→ ΦX (t).


n→∞

Puisqu’elle intervient dans de très nombreux phénomènes asymptotiques, il convient de connaître


la fonction caractéristique de la loi gaussienne, à savoir
µ ¶
2 σ 2 t2
X ∼ N (m, σ ) ⇐⇒ ΦX (t) = exp imt − .
2

Ce critère de Paul Lévy est en particulier efficace lorsqu’on a affaire à des sommes de variables
aléatoires indépendantes, la fonction caractéristique de la somme étant alors tout simplement égale
au produit des fonctions caractéristiques :

X ⊥ Y ⇐⇒ ΦX+Y = ΦX × ΦY .

Exemple : dans l’exemple introductif, la variable correspondant au nombre de Pile sur les n
lancers s’écrit
i.i.d.
Sn = X1 + · · · + Xn avec (X1 , . . . , Xn ) ∼ B(θ).
En appliquant la définition de la fonction caractéristique, on trouve pour la variable X1 :

ΦX1 (t) = (1 − θ) + θeit .

Celle de la variable Sn s’en déduit donc à peu de frais :


£ ¤ h i ¡ £ ¤¢n ¡ ¢n
ΦSn (t) = E eitSn = E eit(X1 +···+Xn ) = E eitX1 = (1 − θ) + θeit .

Puisque Sn suit une loi binomiale B(n, θ), on a en fait obtenu la fonction caratéristique de la loi
binomiale.

Définition 3 (Convergence en moyenne quadratique)


On dit que la suite de variables aléatoires (Xn ) de carrés intégrables tend vers X en moyenne
quadratique, ou dans L2 , si £ ¤
E (Xn − X)2 −−−→ 0.
n→∞

L’inégalité de Markov ci-dessous assure que la convergence en moyenne quadratique implique la


convergence en probabilité.

Statistique Arnaud Guyader


6 Chapitre 1. Modélisation statistique

1.1.2 Majorations classiques


Si un résultat de convergence en loi se démontre souvent grâce à l’un des critères vus ci-dessus
(fonctions tests, de répartition ou caractéristiques), une convergence en probabilité ou presque sûre
découle typiquement de l’une des inégalités que nous rappelons maintenant. Elles quantifient la
probabilité qu’une variable aléatoire s’éloigne de sa moyenne, ou plus généralement qu’elle prenne
de grandes valeurs. Leur intérêt est de ne pas faire intervenir la loi de cette variable, qui peut être
très compliquée, mais plutôt des moments de celle-ci, en général plus faciles d’accès.

Proposition 3 (Inégalité de Markov)


Soit X une variable aléatoire, alors pour tous réels c > 0 et p > 0, on a
E [|X|p ]
P(|X| ≥ c) ≤ .
cp
Ce résultat vient tout simplement de la décomposition
|X|p = |X|p 1{|X|<c} + |X|p 1{|X|≥c} ≥ cp 1{|X|≥c} .
Notons que si E [|X|p ] = +∞, cette inégalité reste valide, mais elle ne nous apprend rien. En
prenant p = 2 et en considérant la variable centrée X − E[X], on en déduit le résultat suivant.

Corollaire 1 (Inégalité de Bienaymé-Tchebychev)


Soit X une variable aléatoire, alors pour tout réel c > 0, on a
Var(X)
P(|X − E[X]| ≥ c) ≤ .
c2
Exemple : dans l’exemple introductif, un estimateur naturel de θ est la moyenne empirique des
Xi , c’est-à-dire
X1 + · · · + X n Sn
θ̂n = = .
n n
Puisque Sn ∼ B(n, θ), on a Var(Sn ) = nθ(1 − θ) donc Var(θ̂n ) = θ(1 − θ)/n et l’inégalité ci-dessus
donne
³¯ ¯ ´ θ(1 − θ) 1
¯ ¯
P ¯θ̂n − θ¯ ≥ c ≤ 2
≤ 2 , (1.1)
c n 4c n
la dernière inégalité venant de ce que 0 < θ(1−θ) ≤ 1/4 pour tout θ ∈]0, 1[. D’après la Définition 1,
ceci prouve que la suite des fréquences empiriques (θ̂n ) tend en probabilité vers la vraie probabilité
θ de Pile lorsque le nombre de lancers tend vers l’infini :
P
θ̂n −−−→ θ.
n→∞

Noter qu’on a en fait démontré mieux, à savoir la convergence en moyenne quadratique de (θ̂n )
vers θ puisque ·³ ´2 ¸ Var(Sn ) θ(1 − θ)
E θ̂n − θ = Var(θ̂n ) = = −−−→ 0.
n2 n n→∞

La borne de Bienaymé-Tchebychev n’est cependant pas suffisamment P précise pour montrer la


convergence presque sûre via Borel-Cantelli puisque la série majorante 1/n en (1.1) est diver-
gente. Qu’à cela ne tienne, on peut faire bien mieux, comme nous allons le voir maintenant.
Sous réserve d’existence de moments, les inégalités ci-dessus permettent de majorer l’écart à la
moyenne par des fonctions polynomiales. Si l’on s’intéresse à des variables bornées, on peut même
obtenir des majorations exponentielles. On parle alors d’inégalités de concentration : il en existe
de multiples variantes, dont voici l’une des plus classiques.

Arnaud Guyader Statistique


1.1. Probabilités : rappels et compléments 7

Proposition 4 (Inégalité de Hoeffding)


Soit X1 , . . . , Xn des variables aléatoires indépendantes et bornées, avec ai ≤ Xi ≤ bi . Notant
Sn = X1 + · · · + Xn leur somme, on a pour tout réel c ≥ 0
µ ¶
2c2
P (Sn − E[Sn ] ≥ c) ≤ exp − Pn 2
.
i=1 (bi − ai )

En changeant Xi en −Xi , on en déduit aussitôt


µ ¶
2c2
P
P (Sn − E[Sn ] ≤ −c) ≤ exp − n 2
,
i=1 (bi − ai )

d’où il vient µ ¶
2c2
P (|Sn − E[Sn ]| ≥ c) ≤ 2 exp − Pn 2
.
i=1 (bi − ai )

Si en plus d’être indépendantes, les variables Xi ont même loi, alors on peut prendre ai = a, bi = b
et en remplaçant c par cn, on en déduit une majoration de l’écart entre la moyenne empirique et
la moyenne théorique. Précisément, en notant m = E[X1 ], on obtient
µ¯ ¯ ¶ µ ¶
¯ Sn ¯ 2c2 n
P ¯¯ − m¯¯ ≥ c ≤ 2 exp − .
n (b − a)2

Exemple : pour le jeu de Pile ou Face, puisque a = 0, b = 1 et m = θ, cette inégalité donne


³¯ ¯ ´ ¡ ¢
¯ ¯
P ¯θ̂n − θ¯ ≥ c ≤ 2 exp −2c2 n , (1.2)

laquelle est meilleure que celle de Tchebychev vue en (1.1) dès que c2 n ≥ 1, 08 (voir Figure 1.2).
En particulier, pour tout c > 0, on voit que

X ³¯ ¯ ´
¯ ¯
P ¯θ̂n − θ¯ ≥ c < ∞,
n=1

donc par Borel-Cantelli (θ̂n ) tend presque sûrement vers θ.


Notons que l’inégalité (1.2) est valable pour toute taille d’échantillon n. A la limite lorsque n tend
vers l’infini, on peut faire encore un peu mieux car on connaît asymptotiquement la loi de cet
écart entre moyennes empirique et théorique : c’est une gaussienne, comme le spécifie le Théorème
Central Limite de la section suivante.
Remarque : Méthode de Chernoff. L’hypothèse fondamentale dans l’inégalité de Hoeffding est
l’aspect borné des variables aléatoires. On peut parfois obtenir des bornes exponentielles explicites
en supposant “seulement” que la variable X admet des moments exponentiels, c’est-à-dire que
E[exp(λX)] < ∞. Dans ce cas, pour tout réel c et tout λ > 0, la croissance de la fonction
x 7→ exp(λx) et l’inégalité de Markov permettent d’écrire

P(X ≥ c) = P(exp(λX) ≥ exp(λc)) ≤ exp(−λc))E[exp(λX)] =: ϕ(λ).

Si on sait minimiser ϕ et si ce minimum est atteint en λ0 , ceci donne

P(X ≥ c) ≤ inf ϕ(λ) = ϕ(λ0 ) = exp(−λ0 c))E[exp(λ0 X)].


λ≥0

Cette ruse aussi simple que puissante est connue sous le nom de méthode de Chernoff.

Statistique Arnaud Guyader


8 Chapitre 1. Modélisation statistique

0.6

0.4 Hoeffding
Tchebychev
0.2

0.5 1.0 1.5 2.0


c2 n
³¯ ¯ ´
¯ ¯
Figure 1.2 – Bornes de Bienaymé-Tchebychev et de Hoeffding pour P ¯θ̂n − θ¯ ≥ c .

1.1.3 Théorèmes asymptotiques


On revient à notre exemple : on veut estimer la probabilité θ de tomber sur Pile. Comme on l’a
dit, un estimateur naturel est celui de la fréquence empirique d’apparition de Pile au cours des n
premiers lancers, c’est-à-dire
X1 + · · · + X n Sn
θ̂n = = .
n n
On a démontré en section précédente que, lorsque le nombre de lancers tend vers l’infini, cette
fréquence empirique (θ̂n ) tend presque sûrement vers la fréquence théorique θ. Nous avons fait la
démonstration “à la main”, via Hoeffding et Borel-Cantelli. Il y a en fait un argument massue qui
permettait de conclure directement : la Loi des Grands Nombres, qui est le premier grand résultat
de convergence.

Théorème 2 (Loi des Grands Nombres)


Soit (Xn ) une suite de variables aléatoires i.i.d. admettant une moyenne m = E[X1 ], alors
n
Sn 1X P & p.s.
:= Xi −−−−−→ m.
n n n→∞
i=1

On parle de Loi Forte des Grands Nombres pour la convergence presque sûre et de Loi faible des
Grands Nombres pour la convergence en probabilité.

Si l’on suppose que les Xi admettent un moment d’ordre 2, donc une variance σ 2 < +∞, alors
la loi faible des grands nombres est une simple conséquence de l’inégalité de Tchebychev puisque,
pour tout ε > 0, µ¯ ¯ ¶
¯ Sn ¯ σ2
P ¯ ¯ ¯
− m¯ ≥ ε ≤ 2 −−−→ 0.
n ε n n→∞
Le résultat général du Théorème 2 montre que l’on n’a pas besoin de supposer l’existence d’un
moment d’ordre 2 pour avoir la convergence, laquelle a même lieu presque sûrement.
Exemple : dans notre exemple, les Xi étant effectivement i.i.d. avec E[X1 ] = θ, on retrouve bien
P & p.s.
θ̂n −−−−−→ θ.
n→∞

Arnaud Guyader Statistique


1.1. Probabilités : rappels et compléments 9

La Figure 1.3 (à gauche) représente une trajectoire (θ̂n ) pour une pièce déséquilibrée (2 fois plus
de chances de tomber sur Face que sur Pile).
Remarque : Si les variables aléatoires Xn n’ont pas d’espérance, la suite Sn /n connaît des va-
riations brusques et ne converge pas en général : ceci est illustré Figure 1.3 (à droite). On peut
néanmoins montrer que si les Xn sont i.i.d. positives avec E[X1 ] = +∞, alors Sn /n tend presque
sûrement vers +∞.

0.5 2.5

0.4

0.0
0.3

0.2

−2.5
0.1

0.0
0 250 500 750 1000 0 250 500 750 1000

Figure 1.3 – Gauche : deux réalisations de θ̂n pour 1 ≤ n ≤ 103 lorsque θ = 1/3. Droite : deux
réalisations de Sn /n lorsque les Xi suivent une loi de Cauchy.

En analyse, i.e. dans un cadre déterministe, une fois établi qu’une suite de nombres est convergente,
l’étape suivante consiste à déterminer la vitesse de convergence vers cette limite. On peut se poser
la même question dans un contexte stochastique. A quelle vitesse la suite de moyennes empiriques
(Sn /n) converge-t-elle vers la vraie moyenne m ? De façon générale, dès lors que les variables
admettent un moment d’ordre 2 (c’est-à-dire hormis pour les lois à queues lourdes de type Cauchy,

Pareto, etc.), cette vitesse est en 1/ n, comme le montre le Théorème Central Limite, second
grand résultat de convergence.

Théorème 3 (Théorème Central Limite)


Soit (Xn ) une suite de variables aléatoires i.i.d. admettant une variance σ 2 = Var(X1 ) > 0, alors
µ ¶ n
√ Sn Sn − nm 1 X L
n −m = √ =√ (Xi − m) −−−→ N (0, σ 2 ),
n n n n→∞
i=1

ce qui est équivalent à dire que


√ µ ¶ n
n Sn Sn − nm 1 X Xi − m L
−m = √ =√ −−−→ N (0, 1).
σ n σ n n σ n→∞
i=1

Remarques :
1. Noter que, par convention, le second paramètre de la gaussienne désignera toujours la va-
riance, non l’écart-type. Ceci n’est pas le cas pour tous les logiciels, par exemple R et Python
adoptent la convention inverse.

Statistique Arnaud Guyader


10 Chapitre 1. Modélisation statistique

2. Le cas σ 2 = 0 est trivial, puisqu’alors Xi = m presque sûrement et il en va de même pour



Sn /n, donc la loi de n(Sn /n − m) est dégénérée : c’est un Dirac en 0.
Le fait que la loi normale apparaisse ainsi de façon universelle 2 comme limite de somme de va-
riables convenablement centrées et normalisées est franchement remarquable. Le centrage et la
normalisation ne recèlent quant à eux aucun mystère : en effet, puisque les Xi sont i.i.d., on a
" n # Ã n !
X X
E[Sn ] = E Xi = nm & Var(Sn ) = Var Xi = nσ 2 .
i=1 i=1

Le TCL nous dit que, si l’on additionne un grand nombre de variables i.i.d., cette somme s’approche
d’une gaussienne, donc de façon hautement non rigoureuse on écrirait que pour n “grand”,
n
X L
Sn = Xi ≈ N (nm, nσ 2 )
i=1

écriture que l’on rend rigoureuse en centrant (soustraction de nm), réduisant (division par l’écart-

type σ n) et en passant à la limite en loi, c’est-à-dire
Sn − nm L
√ −−−→ N (0, 1),
σ n n→∞

qui est exactement le Théorème Central Limite.

1.00 1.00 1.00

0.75 0.75 0.75

0.50 0.50 0.50

0.25 0.25 0.25

0.00 0.00 0.00


−2 0 2 −2 0 2 −2 0 2

Figure 1.4 – Illustration du TCL via la convergence des fonctions de répartition Fn vers Φ pour
le Pile ou Face avec θ = 1/3 et respectivement n = 20, n = 100 et n = 500.

Exemple : dans notre exemple, on a donc


√ ³ ´
n θ̂n − θ L
p −−−→ N (0, 1).
θ(1 − θ) n→∞

En particulier, en notant Fn la fonction de répartition de la variable de gauche (qui se déduit de celle


d’une loi binomiale B(n, θ) par translation et changement d’échelle), on déduit de la Proposition
1 que pour tout réel x,
√ ³ ´ 
n θ̂n − θ
Fn (x) := P  p ≤ x −−−→ Φ(x).
θ(1 − θ) n→∞

2. en fait quasi-universelle, puisqu’elle suppose que les Xi admettent un moment d’ordre 2. Si on lève cette
hypothèse, d’autres vitesses et d’autres lois limites apparaissent...

Arnaud Guyader Statistique


1.1. Probabilités : rappels et compléments 11

Cette convergence simple, qui est en fait uniforme via la Proposition 2, est illustrée Figure 1.4.
Supposons qu’on puisse appliquer le TCL avec la loi limite, alors avec un léger abus de notation,
on aurait ¯ √ ³ ´¯ 
¯ n θ̂ − θ ¯
¯ n ¯
P ¯¯ p ¯ ≥ c ≈ P (|N (0, 1)| ≥ c) = 2(1 − Φ(c)).
¯
¯ θ(1 − θ) ¯

Puisque θ(1 − θ) ≤ 1/4, il vient


à !
µ¯ ¯ c
¶ ¯ ¯ cpθ(1 − θ)
¯ ¯ ¯ ¯
P ¯θ̂n − θ¯ ≥ √ ≤ P ¯θ̂n − θ¯ ≥ √ ≈ 2 (1 − Φ(c)) .
2 n n

Comme le montre la Figure 1.5, cette borne est toujours meilleure que celle donnée par l’inégalité
de Hoeffding vue précédemment, à savoir
µ¯ ¯ ¶ µ 2¶
¯ ¯ c c
P ¯θ̂n − θ¯ ≥ √ ≤ 2 exp − .
2 n 2

2.0

1.5

1.0

0.5

0.0
0 1 2 3
c
³¯ ¯ ´ ³ 2´
¯ ¯ c
Figure 1.5 – Majorations de P ¯θ̂n − θ¯ ≥ √
2 n
par 2 (1 − Φ(c)) (rouge) et 2 exp − c2 (noir).

1.1.4 Opérations sur les limites


Une suite de variables aléatoires (Xn ) étant donnée, il arrive souvent qu’on s’intéresse à son image
par une fonction g, c’est-à-dire à la suite de variables aléatoires 3 (g(Xn )). Question : si (Xn )
converge en un certain sens, cette convergence est-elle préservée pour (g(Xn )) ? La réponse est oui
si g est continue, comme le montre le résultat suivant, connu en anglais sous le nom de Continuous
Mapping Theorem.

Théorème 4 (Théorème de continuité)


Soit (Xn ) une suite de variables aléatoires, X une variable aléatoire, g une fonction dont l’ensemble
des points de discontinuité est noté Dg . Si P(X ∈ Dg ) = 0, alors la suite (g(Xn )) hérite du mode
de convergence de la suite (Xn ) :
3. Toutes les fonctions considérées dans ce cours sont boréliennes, donc g(Xn ) est bien une variable aléatoire.

Statistique Arnaud Guyader


12 Chapitre 1. Modélisation statistique

(a) Si (Xn ) converge p.s. vers X, alors (g(Xn )) converge p.s. vers g(X).
(b) Si (Xn ) converge en probabilité vers X, alors (g(Xn )) converge en probabilité vers g(X).
(c) Si (Xn ) converge en loi vers X, alors (g(Xn )) converge en loi vers g(X).

Si g est continue sur R, aucun souci à se faire, mais cette condition est inutilement forte : ce qui
importe à la limite, c’est la continuité de g là où la variable X a des chances de tomber. Or la
condition P(X ∈ Dg ) = 0 assure justement que X ne tombe jamais là où g pose des problèmes, donc
tout se passe bien. C’est l’équivalent aléatoire du résultat bien connu sur les suites déterministes,
à savoir que si (xn ) converge vers L ∈ R et si g est continue en L alors (g(xn )) converge vers g(L) :
g n’a nullement besoin d’être continue partout. Ici la limite n’est plus déterministe, mais aléatoire,
donc il faut juste s’assurer du fait que g se comporte bien là où vit cette limite.
p
Exemple : Dans le jeu du Pile ou Face, puisque θ ∈]0, 1[, la fonction g : x 7→ 1/ qx(1 − x) est
continue en θ. Puisque (θ̂n ) converge presque sûrement vers θ, on en déduit que (1/ θ̂n (1 − θ̂n ))
p
converge presque sûrement vers 1/ θ(1 − θ). La multiplication par une constante étant aussi une
application continue, il s’ensuit que
p
θ(1 − θ) p.s.
q −−−→ 1.
n→∞
θ̂n (1 − θ̂n )

Nous avons vu en Section 1.1.1 que la convergence presque sûre implique la convergence en pro-
babilité. Quid du lien entre cette dernière et la convergence en loi ?

Proposition 5 (Convergence en probabilité ⇒ Convergence en loi)


Si la suite de variables aléatoires (Xn ) converge en probabilité vers la variable X, alors (Xn )
converge en loi vers X :
P L
Xn −−−→ X =⇒ Xn −−−→ X.
n→∞ n→∞

La réciproque est fausse en générale, mais vraie si la limite est une constante :
L P
Xn −−−→ a =⇒ Xn −−−→ a.
n→∞ n→∞

Bilan : on peut retenir que convergences p.s. et L2 impliquent toutes deux la convergence en
probabilités, laquelle implique la convergence en loi.
Dire que (Xn ) tend en loi vers la constante a signifie que la loi des Xn tend vers un Dirac au point
a, ou encore que pour toute fonction continue et bornée ϕ,

E[ϕ(Xn )] −−−→ E[ϕ(a)] = ϕ(a).


n→∞

Exercice : grâce à un développement limité à l’ordre 1 de la fonction caractéristique de θ̂n ,


retrouver le fait que (θ̂n ) converge en probabilité vers θ.
Lorsque (xn ) et (yn ) sont deux suites de nombres réels tendant respectivement vers x et y, alors
la suite (xn + yn ) tend vers x + y et la suite (xn yn ) vers xy. Le Théorème de Slutsky propose un
analogue de ce résultat pour la convergence en loi.

Théorème 5 (Théorème de Slutsky)


Si (Xn ) converge en loi vers X et si (Yn ) converge en probabilité vers la constante a, alors

L L
Xn + Yn −−−→ X + a et Xn Yn −−−→ aX.
n→∞ n→∞

Arnaud Guyader Statistique


1.1. Probabilités : rappels et compléments 13

Exemple : l’application du TCL à notre exemple a donné

√ θ̂n − θ L
np −−−→ N (0, 1).
θ(1 − θ) n→∞

On aimerait en déduire des intervalles de confiance pour θ, mais ce n’est pas possible sous cette
forme car le dénominateur fait intervenir le paramètre θ inconnu. L’idée naturelle est de le remplacer
par son estimateur θ̂n et, par conséquent, de considérer la suite de variables

√ θ̂n − θ
nq .
θ̂n (1 − θ̂n )

Que dire de sa convergence ? Nous avons vu ci-dessus que


p
θ(1 − θ) p.s.
q −−−→ 1,
n→∞
θ̂n (1 − θ̂n )

ce qui implique bien sûr que p


θ(1 − θ) P
q −−−→ 1.
n→∞
θ̂n (1 − θ̂n )

Il suffit alors d’appliquer le Théorème de Slutsky :


p
√ θ̂n − θ √ θ̂n − θ θ(1 − θ) L
nq = np ×q −−−→ N (0, 1).
θ̂n (1 − θ̂n ) θ(1 − θ) θ̂n (1 − θ̂n )
n→∞

Ceci permet de construire des intervalles de confiance asymptotiques, comme nous le verrons plus
loin.
Attention ! La convergence en loi n’est pas stable par addition. Soit X ∼ N (0, 1), Xn = Yn = X
pour tout n, et Y = −X, alors (Xn ) converge en loi vers X, (Yn ) converge en loi vers Y , mais
(Xn + Yn ) ne converge pas en loi vers X + Y = 0.
Le résultat suivant n’a rien d’étonnant et montre grosso modo qu’un TCL implique une convergence

en probabilité. Pour le prouver, il suffit de prendre Yn = 1/ n dans le Théorème de Slutsky.

Corollaire 2
Soit (Xn ) une suite de variables aléatoires, X une variable aléatoire et a un nombre réel tels que
√ L
n (Xn − a) −−−→ X,
n→∞

alors (Xn ) converge en probabilité vers a.



Remarque : cet énoncé peut se généraliser en remplaçant n par une suite (vn ) de réels tendant
vers +∞. C’est du reste sous cette forme qu’on l’utilisera dans la méthode Delta ci-dessous.
Entre autres choses, cette méthode Delta explique l’action d’une application dérivable sur un
résultat de type TCL. Elle précise en fait le premier terme non constant d’un développement
limité aléatoire. En effet, par rapport au Théorème 4 qui est un résultat de continuité, celui-ci
peut se voir comme un résultat de dérivabilité.

Statistique Arnaud Guyader


14 Chapitre 1. Modélisation statistique


L’idée est la suivante : supposons par exemple que n (Xn − 1) tende en loi vers une gaussienne
centrée réduite et considérons par ailleurs une fonction g dérivable en 1, alors sans souci de rigueur
on écrirait
1
Xn ≈ 1 + √ N (0, 1) et g(1 + h) ≈ g(1) + g ′ (1)h
n
d’où
1 1
g(Xn ) ≈ g(1 + √ N (0, 1)) ≈ g(1) + g ′ (1) × √ N (0, 1),
n n
c’est-à-dire

n (g(Xn ) − g(1)) ≈ g ′ (1)N (0, 1) = N (0, (g ′ (1))2 ).

La méthode Delta traduit cette heuristique de façon rigoureuse.

Théorème 6 (méthode Delta)


Soit (Xn ) une suite de variables aléatoires et (vn ) une suite de réels tendant vers +∞. Supposons
qu’il existe un réel a et une variable X tels que

L
vn (Xn − a) −−−→ X.
n→∞

Si g est une fonction dérivable au point a, alors

L
vn (g(Xn ) − g(a)) −−−→ g ′ (a)X.
n→∞

En particulier, si vn = n et X ∼ N (0, σ 2 ) alors
√ L
n (g(Xn ) − g(a)) −−−→ N (0, (σg ′ (a))2 ).
n→∞

Preuve. D’après le Corollaire 2 et la remarque qui la suit, on sait que

P
Xn −−−→ a.
n→∞

Dire que g est dérivable en a signifie qu’il existe une fonction r telle que

g(x) = g(a) + (x − a)(g ′ (a) + r(x)),

avec limx→a r(x) = 0. En d’autres termes, la fonction r est prolongeable par continuité en a,
et ce en posant r(a) = 0. Puisque (Xn ) converge en probabilité vers a, on déduit du Théorème
de continuité que la suite (r(Xn )) converge en probabilité vers r(a) = 0. Nous avons donc le
développement limité aléatoire

g(Xn ) = g(a) + (Xn − a)(g ′ (a) + r(Xn )),

avec
P
g ′ (a) + r(Xn ) −−−→ g ′ (a).
n→∞

Il ne reste plus qu’à appliquer le Théorème de Slutsky :

L
vn (g(Xn ) − g(a)) = (g ′ (a) + r(Xn )) × vn (Xn − a) −−−→ g ′ (a)X.
n→∞
¥

Arnaud Guyader Statistique


1.1. Probabilités : rappels et compléments 15

Exemple : nous avons vu que


√ ³ ´
L
n θ̂n − θ −−−→ N (0, θ(1 − θ)).
n→∞

La convergence en loi de la suite de variables aléatoires (1/θ̂n ) est alors une conséquence directe
de la méthode Delta : µ ¶
√ 1 1 L
n − −−−→ N (0, (1 − θ)/θ3 ).
θ̂n θ n→∞
′ ′
Remarque : si g (a) = 0, alors g (a)X = 0 et la loi limite est un Dirac en 0, ce qui nous apprend

seulement que g(Xn ) tend vers g(a) à vitesse plus rapide que 1/ n. Pour connaître la vitesse
effective, il suffit souvent, comme en analyse, de pousser le développement limité jusqu’au premier

terme non nul. Reprenons l’exemple où n (Xn − 1) tend en loi vers une gaussienne centrée réduite
avec cette fois g ′ (1) = 0 mais g ′′ (1) 6= 0. Alors, toujours sans souci de rigueur, on écrit
1 1
Xn ≈ 1 + √ N (0, 1) et g(1 + h) ≈ g(1) + g ′′ (1)h2
n 2
d’où µ ¶2
1 1 1
g(Xn ) ≈ g(1 + √ N (0, 1)) ≈ g(1) + g ′′ (1) √ N (0, 1) ,
n 2 n
c’est-à-dire, puisque le carré d’une loi N (0, 1) est une loi du khi-deux à un degré de liberté, notée
χ21 ,
g ′′ (1) 2
n (g(Xn ) − g(1)) ≈ χ1 .
2
En adaptant la preuve de la méthode Delta, on peut montrer rigoureusement que
2 L
n (g(Xn ) − g(1)) −−−→ χ21 .
g ′′ (1) n→∞

Il y a donc convergence à vitesse 1/n et la loi limite n’est plus gaussienne.

1.1.5 Absolue continuité et densités


Cette section rappelle quelques résultats de théorie de la mesure utiles dans la suite pour définir
la notion de modèle statistique dominé. De façon très générale, on considère un espace mesuré
(E, E, µ), i.e. un ensemble E muni d’une tribu (ou σ-algèbre) E et d’une mesure positive µ, c’est-
à-dire une application de E dans [0, +∞] vérifiant µ(∅) = 0 et, pour toute suite (An ) d’ensembles
de E deux à deux disjoints, la propriété de σ-additivité :
Ã∞ ! ∞
[ X
µ An = µ(An ).
n=1 n=1

Deux exemples d’espaces mesurés nous intéresseront plus particulièrement dans tout ce cours, l’un
relatif aux variables discrètes, l’autre aux variables à densité.
Exemples :
1. Mesure de comptage : (E, E, µ) = (N, P(N), µ), où P(N) désigne l’ensemble de toutes les
parties de N et µ la mesure de comptage qui à un ensemble A associe son cardinal, noté |A|
et éventuellement infini. On peut décrire µ par l’intermédiaire des mesures de Dirac 4 δk :
+∞
X +∞
X
µ= δk =⇒ µ(A) = δk (A) = |A|.
k=0 k=0

4. On rappelle que δk (A) = 1 si k ∈ A et δk (A) = 0 sinon.

Statistique Arnaud Guyader


16 Chapitre 1. Modélisation statistique

Dans ce cadre, en munissant comme d’habitude R de la tribu borélienne B(R), toute fonction
P: N → R est (P(N), B(R))-mesurable et correspond à une suite (ϕ(n))n≥0 . Si la série
ϕ
n≥0 ϕ(n) est absolument convergente, la suite (ϕ(n))n≥0 est dite intégrable par rapport
à µ, d’intégrale la somme de la série :
Z ∞
X ∞
X
ϕ(x)µ(dx) = ϕ(n)µ({n}) = ϕ(n).
E n=0 n=0

2. Mesure de Lebesgue : (E, E, µ) = (R, B(R), λ), où λ est la mesure de Lebesgue qui à un
intervalle associe sa longueur, éventuellement infinie. Avec la notation (a, b) définie précé-
demment, ceci s’écrit :

−∞ ≤ a ≤ b ≤ +∞ =⇒ λ((a, b)) = b − a,

avec la convention classique : +∞ − a = +∞ − (−∞) = b − (−∞) = +∞. Une fonction


ϕ : R → R supposée borélienne, i.e. (B(R), B(R))-mesurable, est dite intégrable si sa valeur
absolue est intégrable au sens de Lebesgue, auquel cas on note
Z Z Z
ϕ(x)µ(dx) = ϕ(x)λ(dx) = ϕ(x)dx.
E R R

Ces deux mesures ne sont pas finies puisque µ(N) = λ(R) = ∞, mais elles sont σ-finies.

Définition 4 (Mesure σ-finie)


Soit (E, E, µ) un espace mesuré. On dit que la mesure µ est σ-finie s’il existe une suite (En )
d’ensembles mesurables tels que µ(En ) < ∞ pour tout n et

[
E= En .
n=1

Autrement dit, il existe un recouvrement de E par des sous-ensembles de mesures finies.

Exemples :
1. Mesure de comptage : il suffit de prendre En = {0, . . . , n}.
2. Mesure de Lebesgue : les intervalles En = [−n, n] font l’affaire.
3. L’ensemble des réels n’étant pas dénombrable, la mesure de comptage sur (R, B(R)) n’est
pas σ-finie.

L’absolue continuité correspond à une relation de préordre (réflexivité et transitivité) entre mesures.

Définition 5 (Absolue continuité)


Soit (E, E) un espace mesurable, λ et µ deux mesures positives sur cet espace. On dit que µ est
absolument continue par rapport à λ, noté µ ≪ λ, si tout ensemble mesurable A négligeable pour
λ l’est aussi pour µ :
∀A ∈ E λ(A) = 0 =⇒ µ(A) = 0.
On dit que λ et µ sont équivalentes si µ ≪ λ et λ ≪ µ, auquel cas elles ont les mêmes ensembles
négligeables.

Lorsque les mesures λ et µ sont σ-finies, on retrouve la notion de densité de µ par rapport à λ,
bien connue pour les variables aléatoires.

Arnaud Guyader Statistique


1.1. Probabilités : rappels et compléments 17

Théorème 7 (Radon-Nikodym)
Soit (E, E) un espace mesurable, λ et µ deux mesures positives σ-finies sur cet espace. Si µ est
absolument continue par rapport à λ, alors µ a une densité par rapport à λ, c’est-à-dire qu’il existe
une fonction f mesurable et positive, notée f = dµ/dλ, telle que pour toute fonction µ-intégrable
ϕ, on ait Z Z Z

ϕ(x)µ(dx) = ϕ(x) (x)λ(dx) = ϕ(x)f (x)λ(dx).
E E dλ E

Notation : dans ce cas on note µ = f · λ.


Remarque : ça ne marche plus si les mesures ne sont pas supposées σ-finies. En effet, considérons
(E, E) = (R, B(R)) et λ la mesure de comptage sur cet espace, c’est-à-dire que λ(B) = |B| pour
tout borélien B. Ainsi λ(B) = 0 si et seulement si B est l’ensemble vide. Dès lors, toute mesure
sur (E, E) est absolument continue par rapport à λ. Ceci est en particulier vrai pour la mesure
de Lebesgue µ(dx) = dx. Pourtant, celle-ci n’admet pas de densité par rapport à la mesure de
comptage, sinon il existerait une fonction f telle que pour toute indicatrice ϕ = 1a , on ait
Z Z Z
0= 1a (x)dx = 1a (x)µ(dx) = 1a (x)f (x)λ(dx) = f (a),
R R R

d’où, pour ϕ = 1[0,1] ,


Z 1 Z Z
1= dx = 1[0,1] (x)dx = 1[0,1] (x)f (x)λ(dx) = 0,
0 R R

ce qui est absurde.


Exemples :
1. Mesure de comptage : soit X une variable aléatoire discrète, c’est-à-dire à valeurs dans
N ou un sous-ensemble de N. Sa loi PX définit une mesure de probabilité sur (N, P(N)),
laquelle est complètement spécifiée par les probabilités des singletons PX ({n}) = P(X = n).
Puisque le seul ensemble négligeable pour la mesure de comptage est l’ensemble vide, il est
clair que PX ≪ µ. Le théorème de Radon-Nikodym affirme donc qu’il existe une fonction,
ici une suite f (n), telle que pour toute suite ϕ(n) intégrable par rapport à PX on puisse
écrire
X∞ X∞
ϕ(n)PX ({n}) = ϕ(n)f (n)µ({n}),
n=0 n=0

autrement dit

X ∞
X
ϕ(n)P(X = n) = ϕ(n)f (n).
n=0 n=0

En prenant comme fonctions tests ϕk (n) = 1k (n), on en déduit que la densité f (n) au
point n n’est rien d’autre que P(X = n). Sous réserve d’intégrabilité, on retrouve ainsi que
l’espérance de la variable aléatoire ϕ(X) s’écrit

X ∞
X ∞
X
E[ϕ(X)] := ϕ(n)PX ({n}) = ϕ(n)P(X = n)µ({n}) = ϕ(n)P(X = n).
n=0 n=0 n=0

Par exemple, la loi de Bernoulli de paramètre θ est Pθ = (1 − θ)δ0 + θδ1 , qui est absolument
continue par rapport à la mesure de comptage sur N, et même par rapport à la mesure de
comptage sur {0, 1}.

Statistique Arnaud Guyader


18 Chapitre 1. Modélisation statistique

2. Mesure de Lebesgue : une variable aléatoire réelle est dite absolument continue (sous-
entendu : par rapport à la mesure de Lebesgue) ou à densité (même sous-entendu) s’il
existe une fonction f borélienne positive d’intégrale 1 par rapport à la mesure de Lebesgue
λ(dx) = dx et telle que pour toute fonction PX -intégrable ϕ, on ait
Z Z
E[ϕ(X)] = ϕ(x)PX (dx) = ϕ(x)f (x)dx.
R R

Cette densité f correspond exactement à la dérivée de Radon-Nikodym de PX par rapport


à la mesure de Lebesgue, i.e. f (x) = dP
dλ (x).
X

Remarque : Dans toute la suite de ce cours, même si ce n’est pas précisé, toutes les mesures
considérées seront supposées sigma-finies, de même que toutes les fonctions considérées seront
supposées mesurables.

1.2 Modèles statistiques


La démarche statistique comporte généralement deux étapes. La première est une phase de mo-
délisation, qui consiste à mettre un phénomène réel sous forme mathématique. En pratique, ceci
revient à supposer que l’observation X est un objet aléatoire dont la loi PX (inconnue !) appartient
à une famille de lois (Pθ )θ∈Θ que l’on spécifie. Cette étape préliminaire, cruciale, est en grande
partie une affaire de praticien : pour chaque domaine d’application (physique, chimie, biologie,
etc.), ce sont les spécialistes du domaine qui fourniront cette modélisation.
Ceci étant supposé acquis, la seconde étape est celle qui nous occupe dans ce cours, à savoir
l’inférence statistique, ou statistique inférentielle. Il s’agit, à partir du modèle (Pθ )θ∈Θ et de l’ob-
servation X, de retirer l’information la plus pertinente possible sur les paramètres en jeu dans le
modèle, c’est-à-dire dans la loi de X. On rappelle que si X est un objet aléatoire (variable, vecteur,
processus) à valeurs dans un espace mesurable (E, E), sa loi PX est définie pour tout A de E par :

PX (A) = P(X ∈ A) = P({ω ∈ Ω : X(ω) ∈ A}),

probabilité que l’objet aléatoire X tombe dans l’ensemble A. Résumons ce qui vient d’être dit.

Définition 6 (Expérience statistique)


Une expérience statistique est la donnée d’un objet aléatoire X à valeurs dans un espace mesurable
(E, E) et d’une famille de lois (Pθ )θ∈Θ sur cet espace, supposée contenir la loi PX , et appelée modèle
statistique pour la loi de X.

Dans cette définition, l’hypothèse fondamentale est bien entendu qu’il existe une valeur θ∗ ∈ Θ
telle que PX = Pθ∗ . Le vrai paramètre θ∗ est inconnu mais l’espace Θ dans lequel il vit est, lui,
supposé connu.
Attention ! Dans toute la suite, afin d’alléger les écritures, nous adopterons l’abus de notation
consistant à utiliser la même lettre θ pour la vraie valeur du paramètre (i.e. θ∗ ) et pour une valeur
générique de celui-ci (comme dans la notation (Pθ )θ∈Θ ). Le contexte doit cependant permettre
d’éviter toute confusion.
Exemples :
1. Dans le jeu de Pile ou Face, on a donc E = {0, 1}n . Puisque E est fini, on le munit
naturellement de la tribu E = P(E) de toutes les parties de E. L’objet aléatoire est ici le
n-uplet X = (X1 , . . . , Xn ). Comme le résultat de chaque lancer suit une loi de Bernoulli

Arnaud Guyader Statistique


1.2. Modèles statistiques 19

B(θ), pour un certain paramètre inconnu θ ∈ Θ =]0, 1[, et puisque ces lancers sont i.i.d., le
modèle statistique est la famille de lois
¡ ¢
(Pθ )θ∈Θ = B(θ)⊗n θ∈]0,1[ .

Autrement dit, toute réalisation x = (x1 , . . . , xn ) de X a, sous Pθ , la probabilité


n
Y
Pθ (x) = P(X1 = x1 ) . . . P(Xn = xn ) = θxi (1 − θ)1−xi = θsn (1 − θ)n−sn ,
i=1

où sn = x1 + · · · + xn correspond au nombre de Pile dans le n-uplet x = (x1 , . . . , xn ).


2. Dans une population donnée, la taille des hommes adultes est modélisée par une loi normale
de moyenne et variance inconnues. On veut estimer ces dernières à partir d’un échantillon
de n hommes pris au hasard dans la population. On considère cette fois E = Rn muni de la
tribu borélienne E = B(Rn ). L’objet aléatoire est le n-uplet X = (X1 , . . . , Xn ) avec les Xi
i.i.d. suivant une certaine loi normale N (m, σ 2 ). Dans ce cas, θ = (m, σ 2 ) et Θ = R × R⋆+ .
La famille de lois est donc
¡ ¢
(Pθ )θ∈Θ = N (m, σ 2 )⊗n (m,σ2 )∈R×R⋆ .
+

Notons qu’on peut aussi prendre θ = (m, σ) en fonction du contexte.

Dans ces deux exemples, le vecteur X = (X1 , . . . , Xn ) est un échantillon de variables Xi i.i.d.
appelées des observations 5 . Lorsque, comme dans ces exemples, ces variables sont i.i.d. de loi
commune Qθ , c’est-à-dire que ¡ ¢
(Pθ )θ∈Θ = Q⊗nθ θ∈Θ
,
on parle de modèle d’échantillonnage. Dans ce cas, on appellera indifféremment (Pθ )θ∈Θ ou (Qθ )θ∈Θ
le modèle statistique en question. Ce n’est bien sûr pas le seul cadre envisageable, comme nous le
verrons plus loin sur le modèle de régression linéaire. Par ailleurs, ces deux exemples ont un autre
point commun : la taille de l’espace des paramètres.

Définition 7 (Modèle paramétrique)


Si l’espace Θ des paramètres du modèle statistique (Pθ )θ∈Θ est contenu dans Rk pour un certain
k ∈ N⋆ , on parle de modèle paramétrique. Sinon, il est non paramétrique.

Exemples :
1. Jeu de Pile ou Face : Θ =]0, 1[⊆ R, donc c’est un problème paramétrique unidimensionnel.
2. Taille : Θ = R × R⋆+ ⊆ R2 , problème paramétrique bidimensionnel.
3. Considérons que la taille des hommes ne soit pas supposée suivre une loi normale, mais une
loi inconnue sur [0.5; 2.5]. On suppose, ce qui est raisonnable, que cette loi a une densité f
par rapport à la mesure de Lebesgue. Dans ce cas, Θ correspond à l’ensemble des densités sur
[0.5; 2.5], qui est clairement de dimension infinie. C’est donc un modèle non paramétrique.
Dans ce genre de situation, afin d’éviter des espaces fonctionnels trop gros, on met en général
des contraintes supplémentaires sur la densité, typiquement des hypothèses de régularité.

Remarque : tout modèle statistique est un modèle approché de la réalité. Lorsqu’on suppose par
exemple que la répartition des tailles suit une loi normale, il y a a priori incompatibilité entre le
fait qu’une gaussienne est à valeurs dans R tout entier et le fait que ladite taille est à valeurs dans
R+ (et même dans [0.5; 2.5]). Ceci pourrait faire croire que le modèle adopté est inadapté, sauf que
5. avec un léger abus de langage, le même terme servant à qualifier X, voire x = (x1 , . . . , xn ).

Statistique Arnaud Guyader


20 Chapitre 1. Modélisation statistique

0.40

−4 −3 −2 −1 1 2 3 4
68%
95%

99, 7%

Figure 1.6 – Concentration de la loi normale standard autour de sa moyenne.

cet argument n’en est pas un, car “en pratique” tout se passe comme si les variables gaussiennes
étaient bornées (voir Figure 1.6). En effet, si X ∼ N (0, 1), la probabilité que X ne tombe pas
dans l’intervalle [−8, 8] est de l’ordre 6 de 10−15 . Ainsi, même en considérant un échantillon d’un
milliard de gaussiennes, la probabilité que l’une d’entre elles sorte de cet intervalle est inférieure
à une chance sur un million (borne de l’union). Bref, pour les valeurs de n que l’on considère en
pratique, un échantillon de n gaussiennes est indiscernable d’une suite de variables à support dans
[−8, 8]. De façon générale, un modèle statistique est toujours une approximation de la réalité, mais
ceci n’est pas un problème tant que les conclusions que l’on tire de ce modèle approché restent
fiables.
Passons à un autre point. Notre but étant d’approcher la vraie valeur θ du paramètre, encore
faut-il que celui-ci soit défini sans ambiguïté. C’est le principe d’identifiabilité qui est ici à l’œuvre.

Définition 8 (Identifiabilité)
Le modèle statistique (Pθ )θ∈Θ est dit identifiable si l’application θ 7→ Pθ est injective, c’est-à-dire
si deux paramètres distincts ne peuvent correspondre à la même loi.
¡ ¢
Exemple : le modèle gaussien N (m, σ 2 ) m∈R,σ>0 est identifiable. Par contre, le modèle alternatif
¡ ¢
N (m, σ 2 ) m∈R,σ6=0 ne l’est pas puisque N (m, σ 2 ) = N (m, (−σ)2 ).
Dans toute la suite, tous les modèles seront supposés identifiables. Nous concluons cette section
par une définition permettant de ramener une famille de lois à une famille de densités. Elle fait
appel aux notions rappelées en Section 1.1.5.

Définition 9 (Modèle statistique dominé)


Le modèle statistique (Pθ )θ∈Θ sur (E, E) est dit dominé s’il existe une mesure σ-finie λ sur (E, E)
telle que, pour tout θ ∈ Θ, on ait Pθ ≪ λ. La mesure λ est alors appelée mesure dominante.

6. en R, il suffit de taper la commande : 2*(1-pnorm(8))

Arnaud Guyader Statistique


1.3. Les problèmes statistiques classiques 21

Dans le classique modèle d’échantillonnage où Pθ = Q⊗n θ , il est clair que Qθ ≪ λ si et seulement si


Pθ ≪ λ⊗n . On parlera donc de mesure dominante aussi bien pour Pθ que pour Qθ . En particulier,
si Qθ = fθ · λ, alors la loi Pθ a pour densité fθ (x1 ) × · · · × fθ (xn ) par rapport à la mesure dominante
λ⊗n .
Exemples :
1. Jeu de Pile ou Face : une mesure dominante de Qθ = (1 − θ)δ0 + θδ1 est λ = δ0 + δ1 , mesure
de comptage sur {0, 1}.
2. Taille : le modèle est dominé par la mesure de Lebesgue sur R.
3. Si (E, E) = (R, B(R)), le modèle (δθ )θ∈R des mesures de Dirac ne peut être dominé. En
effet, supposons qu’il existe une mesure σ-finie λ telle que δθ ≪ λ pour tout réel θ. Alors,
d’après le Théorème de Radon-Nikodym, il existe une fonction fθ telle que δθ = fθ · λ, d’où
en particulier
1 = δθ ({θ}) = fθ (θ) × λ({θ}) =⇒ λ({θ}) > 0.
Puisque λ est σ-finie, il existe un recouvrement de R par une suite (En ) de boréliens tels
que λ(En ) < ∞ pour tout n. Or, puisque λ({θ}) > 0 pour tout θ, la somme
X
λ(En ) = λ({θ})
θ∈En

ne peut être finie que si En est au plus dénombrable. Une union d’ensembles au plus dé-
nombrables étant au plus dénombrable, l’union des En ne peut être égale à R.

En pratique, deux mesures dominantes nous serviront constamment : la mesure de comptage si E


est au plus dénombrable, la mesure de Lebesgue si E = Rd .

1.3 Les problèmes statistiques classiques


Dans toute cette section, on considère le cadre d’une expérience statistique telle que spécifiée par
la Définition 6 et on inventorie quelques questions classiques en statistique inférentielle. Comme
précédemment, l’exemple du jeu de Pile ou Face servira de fil rouge pour illustrer le propos.

1.3.1 Estimation
La première question que l’on se pose est celle de l’estimation du vrai paramètre θ.

Définition 10 (Statistique et Estimateur)


Une statistique T (X) est une fonction mesurable de l’objet aléatoire X et éventuellement de pa-
ramètres connus, mais qui ne dépend pas de θ. Un estimateur de θ est une statistique θ̂ = θ̂(X)
destinée à approcher θ.

Exemple : pour le jeu de Pile ou Face, la variable

Sn = X1 + · · · + Xn

est bien une statistique, puisqu’elle ne dépend que de l’observation X = (X1 , . . . , Xn ), mais ce
n’est clairement pas un estimateur de θ, contrairement à la fréquence empirique
Sn X1 + · · · + X n
θ̂n = = ,
n n
qui est effectivement une approximation aléatoire de θ.
Remarques :

Statistique Arnaud Guyader


22 Chapitre 1. Modélisation statistique

1. Un estimateur est censé approcher le paramètre d’intérêt, le rôle plus général d’une statis-
tique étant de fournir des informations de diverses natures.
2. Dans la pratique, c’est la réalisation de l’estimateur qui fournit une estimation de θ : on
l’appelle parfois l’estimée. Ainsi, si x = (x1 , . . . , xn ) est une réalisation de X = (X1 , . . . , Xn )
de loi Pθ , on peut calculer l’approximation θ̂(x) de θ.
3. On peut vouloir estimer une fonction g(θ) du paramètre θ, par exemple g(θ) = θ2 . Dans ce
cas, un estimateur sera une statistique ĝ(X). Si g est régulière et que l’on dispose déjà d’un
“bon” estimateur θ̂ du paramètre θ, un estimateur naturel est ĝ(X) = g(θ̂).
Le but de l’estimateur θ̂ étant d’approcher θ, encore faut-il préciser en quel sens. Une manière
classique de quantifier la précision d’un estimateur est de passer par son risque quadratique.

Définition 11 (Risque quadratique)


Etant donné une expérience statistique telle que Θ ⊆ R, le risque quadratique, ou erreur quadratique
moyenne, de l’estimateur θ̂ est défini pour tout θ ∈ Θ par
·³ ´2 ¸
R(θ̂, θ) = E θ̂ − θ .

Remarques :
1. Dans cette définition, le calcul d’espérance se fait en supposant que l’observation X suit la
loi Pθ , c’est-à-dire que
·³ ´2 ¸ Z ³ ´2
R(θ̂, θ) = E θ̂(X) − θ = θ̂(x) − θ Pθ (dx).
E

C’est pourquoi on note parfois Eθ au lieu de E, Varθ au lieu de Var et Pθ au lieu de P. Afin
d’alléger les écritures, la plupart du temps nous n’adoptons pas cette convention, mais
il convient de garder constamment en tête la valeur du paramètre par rapport à laquelle on
calcule les probabilités, espérances et variances.
2. Lorsque Θ est un espace métrique muni de la distance d, cette définition se généralise sans
problème : · ³ ´ ¸
2
R(θ̂, θ) = E d θ, θ̂ .

L’exemple le plus courant est celui où Θ ⊆ Rk avec d correspondant à la distance euclidienne.


L’inégalité de Markov de la Proposition 3 avec p = 2 et X = (θ̂ − θ) donne, pour tout c > 0,
·³ ´2 ¸
³¯ ¯ ´ E θ̂ − θ R(θ̂, θ)
¯ ¯
P ¯θ̂ − θ¯ ≥ c ≤ = .
c2 c2
Par conséquent, si le risque quadratique est petit, l’estimateur θ̂ est proche de θ avec une grande
probabilité. D’autre part, le risque quadratique admet la décomposition fondamentale suivante,
dite de biais-variance.
Lemme 1 (Décomposition biais-variance)
Avec les notations de la définition du risque quadratique, on a
³ ´2 ·³ ´2 ¸
R(θ̂, θ) = E[θ̂] − θ + E θ̂ − E[θ̂] =: B(θ̂)2 + Var(θ̂).

Le terme B(θ̂) = E[θ̂] − θ est appelé biais de l’estimateur θ̂. S’il est nul, on dit que l’estimateur est
sans biais ou non biaisé.

Arnaud Guyader Statistique


1.3. Les problèmes statistiques classiques 23

Preuve : Il suffit d’écrire


³ ´2 ³ ´2 ³ ´³ ´ ³ ´2
θ̂ − θ = θ̂ − E[θ̂] + 2 θ̂ − E[θ̂] E[θ̂] − θ + E[θ̂] − θ .
³ ´
Dans cette expression, le terme B(θ̂) := E[θ̂] − θ est déterministe donc en prenant l’espérance,
il vient ·³ ´2 ¸ ³ ´2
R(θ̂, θ) = E θ̂ − E[θ̂] + E[θ̂] − θ = Var(θ̂) + B(θ̂)2 .
¥

Remarques :
1. Si le paramètre θ a une unité, le biais se mesure avec cette même unité, tandis que la variance
se mesure avec cette unité au carré. Ne serait-ce que pour des raisons d’homogénéité des
grandeurs, il est donc logique d’ajouter le carré du biais à la variance.
2. Le biais mesure l’erreur moyenne faite par l’estimateur θ̂, tandis que le terme de variance me-
sure les fluctuations de θ̂ autour de sa moyenne. Un estimateur sera donc d’autant meilleur
que son biais et sa variance sont tous deux faibles.
3. Cette décomposition biais-variance se généralise en dimension supérieure lorsque Θ ⊆ Rk
est muni de la distance euclidienne, notée k · k. Elle s’écrit alors
·° °2 ¸ ° °2 ·° °2 ¸ X
k ³ ´
° ° ° ° ° °
R(θ̂, θ) = E °θ̂ − θ° = °E[θ̂] − θ° + E °θ̂ − E[θ̂]° = B(θ̂i )2 + Var(θ̂i ) ,
i=1

ce qui donne finalement


k
X
R(θ̂, θ) = R(θ̂i , θi ),
i=1

c’est-à-dire que l’erreur quadratique globale est la somme des erreurs quadratiques sur
chaque composante.

Exemple : dans l’exemple du Pile ou Face, θ̂ = θ̂n et tous les calculs ont déjà été faits. Nous
avons vu que E[θ̂n ] = θ donc il est sans biais, d’où un risque quadratique égal à

θ(1 − θ) 1
R(θ̂n , θ) = Var(θ̂n ) = ≤ −−−→ 0.
n 4n n→∞
Définition 12 (Convergence et normalité asymptotique)
Soit θ un paramètre réel inconnu. On dit que la suite d’estimateurs (θ̂n )n≥1 est :
— convergente, ou consistante, si
P
θ̂n −−−→ θ.
n→∞

— asymptotiquement normale s’il existe σ 2 > 0 tel que


√ L
n(θ̂n − θ) −−−→ N (0, σ 2 ).
n→∞

Remarques :
1. Par abus de langage, on dira simplement que θ̂n est un estimateur consistant et asymptoti-
quement normal de θ. D’autre part, on dira que θ̂n est un estimateur fortement consistant
si la convergence vers θ a lieu presque sûrement.

Statistique Arnaud Guyader


24 Chapitre 1. Modélisation statistique

2. De façon plus générale, s’il existe une suite (vn ) tendant vers l’infini et une variable X non
dégénérée (i.e. non p.s. égale à 0) telles que vn (θ̂n − θ) tend en loi vers X, alors on dit que
l’estimateur θ̂n converge à vitesse 1/vn .

Rappelons que, d’après le Corollaire 2, la normalité asymptotique de (θ̂n )n≥1 implique sa consis-
tance (mais pas sa consistance forte). Par ailleurs, si l’on dispose d’une suite (σ̂n2 )n≥1 d’estimateurs
qui converge vers σ 2 , alors le Théorème de Slutsky entraîne que
√ θ̂n − θ L
n −−−→ N (0, 1),
σ̂n n→∞
ce qui permet de construire des intervalles de confiance asymptotiques pour θ (cf. Section 1.3.2).
En estimation paramétrique, le cadre d’application typique de la méthode Delta est le suivant : on
veut estimer le paramètre θ, sachant qu’à partir des observations on sait construire facilement un
estimateur d’une fonction de ce paramètre. Si la fonction en question est assez régulière, il suffit
alors d’appliquer la méthode Delta à sa fonction réciproque.
En l’occurrence, une fonction “assez régulière” est un C 1 -difféomorphisme, c’est-à-dire une appli-
cation continûment dérivable, bijective, et dont la fonction réciproque est, elle aussi, continûment
dérivable. Au passage, l’exemple x 7→ x3 montre qu’une fonction peut être bijective de R vers R
et partout dérivable sans que sa réciproque soit dérivable partout.

Proposition 6 (méthode Delta et fonction inversible)


Soit (X1 , . . . , Xn ) un échantillon de variables aléatoires i.i.d. de loi Pθ , avec θ point intérieur à
Θ intervalle de R, et ϕ un C 1 -difféomorphisme de Θ dans ϕ(Θ). Si ϕ̂n = ϕ̂n (X1 , . . . , Xn ) est un
estimateur convergent de ϕ(θ), alors θ̂n = ϕ−1 (ϕ̂n ) est défini avec une probabilité qui tend vers 1
lorsque n → ∞ et
P
θ̂n −−−→ θ.
n→∞
De plus, s’il existe une suite de réels (vn ) tendant vers l’infini et une variable Zθ tels que
L
vn (ϕ̂n − ϕ(θ)) −−−→ Zθ ,
n→∞

alors
L 1
vn (θ̂n − θ) −−−→ Zθ .
n→∞ ϕ′ (θ)

Dans le cas particulier où vn = n et Zθ ∼ N (0, σθ2 ), on a donc
√ L
n(θ̂n − θ) −−−→ N (0, (σθ /ϕ′ (θ))2 ).
n→∞

La preuve consiste simplement à adapter le théorème de continuité et la méthode Delta dans un


contexte un peu spécial.
Preuve. Le point θ étant intérieur à Θ et ϕ continue bijective, le point ϕ(θ) est intérieur à ϕ(Θ).
En particulier, pour tout ε > 0, il existe δ > 0 tel que la boule centrée en ϕ(θ) et de rayon δ soit
contenue dans ϕ(Θ) et, par continuité de ϕ−1 en ϕ(θ),

|u − ϕ(θ)| < δ =⇒ |ϕ−1 (u) − θ| < ε.

Il convient de définir θ̂n de façon générale. De deux choses l’une : ou bien ϕ̂n ∈ ϕ(Θ), auquel cas
θ̂n = ϕ−1 (ϕ̂n ) ; ou bien ϕ̂n ∈
/ ϕ(Θ), auquel cas on peut considérer un point arbitraire θ0 de Θ et
poser θ̂n = θ0 . On a donc, avec la convention ϕ−1 (ϕ̂n )1ϕ̂n ∈ϕ(Θ)
/ = 0,

θ̂n = ϕ−1 (ϕ̂n )1ϕ̂n ∈ϕ(Θ) + θ0 1ϕ̂n ∈ϕ(Θ)


/ .

Arnaud Guyader Statistique


1.3. Les problèmes statistiques classiques 25

Ainsi l’estimateur θ̂n est-il bien défini au sens de l’énoncé dès que ϕ̂n ∈ ϕ(Θ), or

P(|ϕ̂n − ϕ(θ)| < δ) ≤ P(ϕ̂n ∈ ϕ(Θ))

et le membre de gauche tend vers 1 lorsque n tend vers l’infini car ϕ̂n tend en probabilité vers
ϕ(θ), donc θ̂n est bien défini (au sens de l’énoncé) avec une probabilité qui tend vers 1. De plus,
puisque
|ϕ̂n − ϕ(θ)| < δ =⇒ |ϕ−1 (ϕ̂n ) − θ| = |θ̂n − θ| < ε,

il en résulte que
P(|ϕ̂n − ϕ(θ)| < δ) ≤ P(|θ̂n − θ| < ε).

Il reste à nouveau à faire tendre n vers l’infini pour en déduire que, pour tout ε > 0,

P(|θ̂n − θ| < ε) −−−→ 1,


n→∞

c’est-à-dire
P
θ̂n −−−→ θ.
n→∞

Pour la convergence en loi, on peut partir de la décomposition

vn (θ̂n − θ) = vn (ϕ−1 (ϕ̂n ) − ϕ−1 (ϕ(θ)))1ϕ̂n ∈ϕ(Θ) + vn (θ0 − θ)1ϕ̂n ∈ϕ(Θ)


/ . (1.3)

D’après ci-dessus, pour tout ε > 0,

P(|vn (θ0 − θ)1ϕ̂n ∈ϕ(Θ)


/ | ≥ ε) ≤ P(ϕ̂n ∈
/ ϕ(Θ)) −−−→ 0,
n→∞

donc le dernier terme du membre de droite de (1.3) tend en probabilité vers 0. Pour le premier, le
même raisonnement assure que
P
1ϕ̂n ∈ϕ(Θ) −−−→ 1.
n→∞

Par ailleurs, la dérivabilité de ϕ−1 en ϕ(θ) et la relation 7 (ϕ−1 )′ (ϕ(θ)) = 1/ϕ′ (θ) donne pour tout
u ∈ ϕ(Θ)
ϕ−1 (u) = θ + (u − ϕ(θ))(1/ϕ′ (θ) + r(u)),

où r est définie sur ϕ(Θ) et continue en ϕ(θ) avec r(ϕ(θ)) = 0. Par conséquent

vn (ϕ−1 (ϕ̂n ) − ϕ−1 (ϕ(θ)))1ϕ̂n ∈ϕ(Θ) = vn (ϕ̂n − ϕ(θ))(1/ϕ′ (θ) + r(ϕ̂n ))1ϕ̂n ∈ϕ(Θ) ,

et le Lemme de Slutsky donne

L 1
vn (ϕ−1 (ϕ̂n ) − ϕ−1 (ϕ(θ)))1ϕ̂n ∈ϕ(Θ) −−−→ Zθ .
n→∞ ϕ′ (θ)

En revenant à (1.3), une nouvelle application du Lemme de Slutsky donne finalement bien le
résultat annoncé, à savoir
L 1
vn (θ̂n − θ) −−−→ ′ Zθ .
n→∞ ϕ (θ)

¥
7. Noter que ϕ′ (θ) 6= 0 car ϕ est un C 1 -difféomorphisme de Θ dans ϕ(Θ).

Statistique Arnaud Guyader


26 Chapitre 1. Modélisation statistique

Remarque : Soit θ ∈ Θ :=]0, +∞[ un paramètre inconnu que l’on cherche à estimer et (Xi )i≥1
des variables i.i.d. selon une loi de Poisson de paramètre 1/θ. Pour estimer θ, il suffit de considérer
le C 1 -difféomorphisme ϕ : Θ → Θ défini par ϕ(θ) = 1/θ. Par la Loi des Grands Nombres et le
TCL, la moyenne empirique ϕ̂n := X̄n est un estimateur consistant et asymptotiquement normal
de ϕ(θ) = 1/θ. Le résultat précédent assure alors que θ̂n = ϕ−1 (ϕ̂n ) = 1/X̄n est un estimateur
consistant et asymptotiquement normal de θ, avec
√ L
n(θ̂n − θ) −−−→ N (0, θ3 ).
n→∞

On peut noter qu’il n’est pas nécessairement défini pour tout n, mais seulement à partir du premier
indice n0 tel que Xn0 > 0. C’est en ce sens qu’il faut comprendre le passage “est défini avec une
probabilité qui tend vers 1 lorsque n → ∞” dans l’énoncé ci-dessus : la probabilité qu’il ne soit
toujours pas défini lorsque l’on dispose de n données est égale à e−n/θ , quantité qui pour tout
θ > 0 tend bien vers zéro lorsque la taille de l’échantillon tend vers l’infini.
Nota Bene. La normalité asymptotique ne permet pas de contrôler le risque quadratique. Dans le
modèle précédent des lois de Poisson P(1/θ), θ > 0, l’estimateur θ̂n = 1/X̄n est asymptotiquement
normal, mais de risque quadratique infini puisque P(X̄n = 0) > 0.
Outre l’estimation du paramètre inconnu θ, on peut chercher un intervalle dans lequel celui-ci a
de grandes chances de se trouver : c’est ici qu’intervient la notion d’intervalles de confiance.

1.3.2 Intervalles de confiance


Toujours dans l’exemple du jeu de Pile ou Face, supposons qu’on vous dise : après n lancers, on a
obtenu 60% de Pile. Devez-vous en déduire que la pièce n’est pas équilibrée ? Il est clair que votre
réponse dépendra du nombre n de lancers. En effet, si n = 10, alors si la pièce est équilibrée, la
variables Sn du nombre de Pile suit une loi binomiale B(10, 0.5) et la probabilité d’observer au
moins 6 Pile est environ égale à 38%. Bref, on ne peut rien en conclure.
A contrario, si n = 1000, on a cette fois Sn ∼ B(1000, 0.5), laquelle est très bien approchée
√ par
une loi gaussienne. Précisément, le Théorème Central Limite nous assure que (Sn − 500)/ 250
suit approximativement une loi normale centrée réduite donc, modulo cette approximation 8 ,
µ ¶
Sn − 500 100
P(Sn ≥ 600) = P √ ≥ √ ≈ P(N (0, 1) ≥ 6.32) ≈ 10−10 .
250 250
Cette fois, le doute n’est plus permis : il est à peu près certain que la pièce est déséquilibrée.
Au final, on voit que notre confiance dans l’estimateur est très fortement liée à sa loi et, par là,
à la taille de l’échantillon dont on dispose. L’objet des intervalles de confiance est justement de
formaliser ce point.

Définition 13 (Intervalle de confiance)


Supposons Θ ⊆ R et fixons α ∈]0, 1[ (petit, par exemple 5%). On appelle intervalle de confiance pour
θ de niveau (1 − α) tout intervalle aléatoire (θ(X), θ(X)) dont les deux bornes sont des statistiques
et tel que, pour tout θ ∈ Θ,
P(θ ∈ (θ(X), θ(X))) ≥ 1 − α.

Achtung ! Il ne faut pas confondre l’intervalle de confiance (qui est aléatoire) et sa réalisation
(θ(x), θ(x)), qui ne l’est pas ! Ainsi, écrire

P(0.48 ≤ θ ≤ 0.52) = 0.95


8. qui est en fait excellente car θ = 1/2.

Arnaud Guyader Statistique


1.3. Les problèmes statistiques classiques 27

n’a strictement aucun sens puisque cette probabilité vaut 0 ou 1. On se contentera de dire que
[0.48; 0.52] est un intervalle de confiance à 95% pour θ.
Remarques :
1. Les deux critères de qualité d’un intervalle de confiance sont sa longueur et son niveau.
Ceux-ci étant antagonistes, il s’agit de réaliser un compromis. Ainsi, pour un niveau de
confiance donné (par exemple 95%), on cherchera un intervalle de confiance de plus petite
longueur possible. Pour l’exemple du Pile ou Face, [0, 1] est un intervalle de confiance à 95%
(et même à 100%), mais il est clair qu’il n’a aucun intérêt...
2. Si l’on ne suppose plus Θ ⊆ R, on appelle domaine (ou région) de confiance de niveau
(1 − α) tout ensemble aléatoire D(X) ne dépendant ni de θ ni d’autres quantités inconnues
et tel que
∀θ ∈ Θ P(θ ∈ D(X)) ≥ 1 − α.
La méthode standard pour obtenir des intervalles de confiance est de passer par des inégalités
classiques comme celles vues en Section 1.1.2 ou, pour des intervalles de confiance asymptotiques,
par un résultat de convergence en loi tel que le Théorème Central Limite.
Exemple : on revient au jeu de Pile ou Face, pour lequel on applique les bornes vues en Section
1.1.2. L’inégalité de Tchebychev nous a permis d’écrire que, pour tout c > 0,
³¯ ¯ ´ θ(1 − θ) 1 ³¯ ¯ ´ 1
¯ ¯ ¯ ¯
P ¯θ̂n − θ¯ ≥ c ≤ 2
≤ 2
=⇒ P ¯ θ̂ n − θ ¯ ≤ c ≥1− 2 .
c n 4c n 4c n

En prenant c = 1/(2 nα), on en déduit que
µ ¶
1 1
P θ̂n − √ ≤ θ ≤ θ̂n + √ ≥ 1 − α,
2 nα 2 nα
√ √
c’est-à-dire que [θ̂n − 1/(2 nα), θ̂n + 1/(2 nα)] est un intervalle de confiance de niveau (1 − α)

pour θ. Ceci donne, pour α = 5%, un intervalle de confiance de rayon 2.24/ n.
Par l’inégalité de Hoeffding, nous avons obtenu
³¯ ¯ ´ ¡ ¢ ³¯ ¯ ´ ¡ ¢
¯ ¯ ¯ ¯
P ¯θ̂n − θ¯ ≥ c ≤ 2 exp −2c n =⇒ P ¯θ̂n − θ¯ ≤ c ≥ 1 − 2 exp −2c2 n ,
2

p
donc en posant c = − log(α/2)/(2n), on obtient le nouvel intervalle de confiance
à r r !
− log(α/2) − log(α/2)
P θ̂n − ≤ θ ≤ θ̂n + ≥ 1 − α.
2n 2n

Cet intervalle est plus petit que celui donné par Tchebychev si et seulement si
r
− log(α/2) 1
≤ √ ⇐⇒ −2α log(α/2) ≤ 1 ⇐⇒ 0 < α ≤ 0.23,
2n 2 nα

ce qui correspond bien aux valeurs de α pertinentes pour des intervalles de confiance à 90, 95 ou

99%. A titre d’exemple, l’intervalle de confiance à 95% fourni par Hoeffding est de rayon 1.36/ n,
effectivement plus petit que celui obtenu par Tchebychev.
Ces intervalles de confiance sont valables pour tout n. Lorsque n est suffisamment grand et que
l’on dispose d’un résultat de convergence en loi de type normalité asymptotique, on se sert des
quantiles de la loi normale pour construire des intervalles de confiance asymptotiques, au sens
où ils sont valables pour n → ∞.

Statistique Arnaud Guyader


28 Chapitre 1. Modélisation statistique

Définition 14 (Intervalle de confiance asymptotique)


Supposons Θ ⊆ R, X = (X1 , . . . , Xn ) et α ∈]0, 1[. On appelle intervalles de confiance pour θ de
niveau asymptotique (1 − α) toute suite d’intervalles aléatoires (θn (X), θn (X)) dont les bornes sont
des statistiques et telle que, pour tout θ ∈ Θ,
lim inf Pθ (θ ∈ (θn (X), θn (X))) ≥ 1 − α.
n→∞

Dans tous nos exemples, la limite inférieure sera en fait une limite classique. Illustrons l’idée sur
l’exemple du Pile ou Face.
Exemple : le Théorème Central Limite a permis d’établir, pour tout 0 < θ < 1, la convergence
en loi
√ θ̂n − θ L
np −−−→ N (0, 1).
θ(1 − θ) n→∞
Rappelons que q1−α/2 désigne le quantile d’ordre (1 − α/2) de la loi normale centrée réduite,
c’est-à-dire en notant Φ−1 la réciproque de sa fonction de répartition (encore appelée fonction
quantile),
¡ ¢ ¡ ¢
q1−α/2 = Φ−1 (1−α/2) ⇐⇒ P N (0, 1) ≤ q1−α/2 = 1−α/2 ⇐⇒ P |N (0, 1)| ≤ q1−α/2 = 1−α.
Le quantile le plus connu est bien sûr q0.975 = 1.96... ≈ 2, qui sert à construire des intervalles de
confiance à 95%. On a donc
à p !
¯ ¯ θ(1 − θ)
¯ ¯
P ¯θ̂n − θ¯ ≤ q1−α/2 √ −−−→ 1 − α.
n n→∞

Le paramètre inconnu θ apparaissant dans les bornes de l’intervalle, deux solutions s’offrent à nous
pour pouvoir poursuivre : ou bien on lâche du lest en se souvenant que 0 < θ(1 − θ) ≤ 1/4, pour
aboutir à µ¯ ¯ q ¶
¯ ¯ 1−α/2
lim P ¯θ̂n − θ¯ ≤ √ ≥ 1 − α.
n→∞ 2 n
Ou bien on fait ce qu’on appelle en anglais du plug-in : dans les bornes, on remplace θ par son
estimateur θ̂n , ce qui est justifié par le Théorème de Slutsky puisque (voir Section 1.1.4)
√ θ̂n − θ L
nq −−−→ N (0, 1), (1.4)
n→∞
θ̂n (1 − θ̂n )
et mène à l’intervalle de confiance asymptotique
 q q 
θ̂n (1 − θ̂n ) θ̂n (1 − θ̂n )
θ̂n − q1−α/2 √ , θ̂n + q1−α/2 √ . (1.5)
n n

Il faut cependant garder à l’esprit que la convergence (1.4) fait intervenir une double asymptotique :
ceci devient problématique lorsque θ est proche de 0, puisque la probabilité que θ̂n = 0 n’est alors
pas négligeable 9 . Dans ce cas, pour que l’intervalle (1.5) ait un sens, la prudence incite à prendre
n au moins de l’ordre de 5/θ. La même remarque s’applique, mutatis mutandis, au cas où θ est
proche de 1.
Quoi qu’il en soit, puisque 0 ≤ θ̂n (1 − θ̂n ) ≤ 1/4, on obtient à nouveau un rayon inférieur à
√ √ √
q1−α/2 /(2 n). En particulier, pour α = 0.05, il vaut donc 1/ n, à comparer au 1.36/ n obtenu
par Hoeffding.
Remarques :
9. de l’ordre de exp(−nθ) si n ≈ 1/θ, cf. par exemple l’approximation de la binomiale par la loi de Poisson.

Arnaud Guyader Statistique


1.3. Les problèmes statistiques classiques 29

1. Tout ce qui vient d’être dit s’applique en politique dans le cadre des sondages aléatoires
simples. Ainsi, pour un échantillon de 1000 personnes prises au hasard dans la population, la
précision est de l’ordre de ±3%. Néanmoins, en pratique, les instituts de sondage utilisent
des méthodes d’échantillonnage par quotas, et tout se complique pour l’estimation de la
précision...
2. En Définition 14, si on requiert plutôt

lim inf inf Pθ (θ ∈ (θn (X), θn (X))) ≥ 1 − α,


n→∞ θ∈Θ

on parle d’intervalles de confiance asymptotiques forts. Il est facile de voir que cette condi-
tion implique celle donnée dans la définition. Cependant, un exemple permet de voir qu’elle
est bien plus exigeante (de même qu’en analyse la convergence uniforme d’une suite de
fonctions implique strictement sa convergence simple). Considérons en effet des variables
Xi i.i.d. selon une loi de Poisson de paramètre θ > 0. Par le TCL et le Lemme de Slutsky,
un intervalle de confiance asymptotique au sens de la Définition 14 est
" p p #
Φ−1 (1 − α/2) X̄n Φ−1 (1 − α/2) X̄n
IC(θ, n) = X̄n − √ ; X̄n + √ .
n n

Mais clairement le paramètre inconnu θ > 0 n’appartient pas à cet intervalle si la borne de
droite est nulle, i.e. si X̄n = 0, or pour tout n ≥ 1 fixé

inf Pθ (θ ∈ (θn (X), θn (X))) = 1 − sup Pθ (θ ∈


/ (θn (X), θn (X))),
θ>0 θ>0

avec
/ (θn (X), θn (X))) ≥ Pθ (X̄n = 0) = e−nθ ,
Pθ (θ ∈
et supθ>0 e−nθ = 1, donc
inf Pθ (θ ∈ (θn (X), θn (X))) = 0,
θ>0

et a fortiori
lim inf inf Pθ (θ ∈ (θn (X), θn (X))) = 0 < 1 − α.
n→∞ θ∈Θ

Bref, les IC(θ, n) ne sont pas des intervalles de confiance asymptotiques forts.

1.3.3 Tests d’hypothèses


Le principe d’un test d’hypothèse est de répondre de façon binaire (i.e. par oui ou non) à une
question sur le paramètre de l’expérience statistique en jeu. Dans le cadre du Pile ou Face, ce sera
par exemple : la pièce est-elle oui ou non équilibrée ? Dans le cadre des élections, ce sera plutôt :
Alice va-t-elle être élue plutôt que Bob ?
Ceci revient à se donner une partition de Θ en deux sous-ensembles Θ0 et Θ1 , c’est-à-dire que

Θ0 ∪ Θ1 = Θ et Θ0 ∩ Θ1 = ∅.

Puis, à partir d’une observation X ∼ Pθ , à décider si le vrai paramètre θ appartient à Θ0 ou à Θ1 .


On définit ainsi :
— H0 : θ ∈ Θ0 , hypothèse nulle ;
— H1 : θ ∈ Θ1 , hypothèse alternative.
Exemples :

Statistique Arnaud Guyader


30 Chapitre 1. Modélisation statistique

1. Pour le jeu de Pile ou Face, on veut tester H0 : θ = 1/2, c’est-à-dire Θ0 = {1/2} (hypothèse
simple), contre H1 : θ 6= 1/2 donc Θ1 =]0, 1/2[∪]1/2, 1[ (hypothèse bilatère). On parle de
test bilatère.
2. Dans le cadre des élections, notant θ la vraie proportion de votants pour Alice dans la
population complète, on veut tester H0 : θ ≥ 1/2, c’est-à-dire Θ0 = [1/2, 1] (hypothèse
unilatère), contre H1 : θ < 1/2, c’est-à-dire Θ1 = [0, 1/2[. On parle cette fois de test
unilatère.

Définition 15 (Test d’hypothèse)


Un test d’hypothèse est une statistique T (X) à valeurs dans {0, 1} associée à la stratégie suivante :
pour l’observation X, l’hypothèse H0 est acceptée (respectivement rejetée) si T (X) = 0 (respective-
ment T (X) = 1). Le domaine

R = T −1 ({1}) = {x ∈ E, T (x) = 1}

est appelé région de rejet du test, et Rc la région d’acceptation.

Très souvent, la statistique de test est elle-même basée sur un estimateur θ̂ = θ̂(X) du paramètre
θ et
T (X) = 1X∈R = 1θ̂∈R′ .
Par abus de langage, on appelle encore R′ la région de rejet associée à la statistique de test. Tous
les exemples qui suivent se situent d’ailleurs dans ce cadre. A première vue, on pourrait penser au
choix naturel R′ = Θ1 comme région de rejet de H0 , mais ce n’est pas une bonne idée, comme on
le verra sur un exemple ci-dessous.
En pratique, on dispose seulement d’une réalisation x de X et la procédure est la suivante : si
θ̂ = θ̂(x) ∈ R′ , on rejette H0 , sinon on l’accepte.

Définition 16 (Risques, niveau et puissance d’un test)


On appelle :
— risque (ou erreur) de première espèce l’application

α : Θ0 → [0, 1]
θ 7→ Eθ [T (X)] = Pθ (T (X) = 1).

— taille du test le réel


α⋆ = sup α(θ) = sup Pθ (T (X) = 1).
θ∈Θ0 θ∈Θ0

Etant donné α ∈ [0, 1], le test est dit de niveau α si sa taille est majorée par α.
— risque (ou erreur) de deuxième espèce l’application

β : Θ1 → [0, 1]
θ 7→ 1 − Eθ [T (X)] = Pθ (T (X) = 0).

— fonction puissance du test l’application

π : Θ → [0, 1]
θ 7→ Eθ [T (X)] = Pθ (T (X) = 1).

Ces définitions reflètent le fait que, lors d’un test d’hypothèse, on peut se tromper de deux façons :
— ou bien en rejetant H0 alors qu’elle est vraie, ce qui arrive avec probabilité α(θ) pour θ ∈ Θ0 :
on parle de faux positif ;

Arnaud Guyader Statistique


1.3. Les problèmes statistiques classiques 31

— ou bien en conservant H0 alors qu’elle est fausse, ce qui arrive avec probabilité β(θ) pour
θ ∈ Θ1 : on parle de faux négatif.
Clairement, la fonction puissance permet de retrouver les deux types de risques : sur Θ0 on a
π(θ) = α(θ), tandis que sur Θ1 on a π(θ) = 1 − β(θ). Idéalement, on aimerait que cette fonction
puissance soit proche de 0 lorsque θ ∈ Θ0 et proche de 1 lorsque θ ∈ Θ1 . Malheureusement, ceci
est en général impossible puisque, dans la plupart des cas, les ensembles Θ0 et Θ1 ont une frontière
commune et la fonction π est continue.
Exemple : on considère X = (X1 , . . . , Xn ) i.i.d. selon une loi normale N (θ, 1). On veut tester
H0 : θ ≤ 0 contre H1 : θ > 0
ce qui revient, en notant Θ0 =] − ∞, 0] et Θ1 =]0, +∞[, à tester
H0 : θ ∈ Θ 0 contre H1 : θ ∈ Θ 1 .
Une façon naturelle de procéder est de se baser sur la moyenne empirique
X1 + · · · + X n
θ̂n = θ̂(X) =
n
et de considérer la région de rejet R′ =]0, +∞[. Calculons la fonction puissance de ce test. Quel
que soit le réel θ, la loi de l’estimateur est connue :
θ̂n ∼ N (θ, 1/n).
Par conséquent, quel que soit le réel θ,
√ √
π(θ) = Pθ (θ̂n > 0) = 1 − Φ(−θ n) = Φ(θ n),
dont la représentation se déduit de celle de Φ (voir Figure 1.7). L’erreur de première espèce et la
taille du test s’en déduisent immédiatement :
√ 1
∀θ ≤ 0 α(θ) = Pθ (θ̂n > 0) = Φ(θ n) =⇒ α⋆ = sup α(θ) = sup π(θ) = Φ(0) = ,
θ≤0 θ≤0 2
donc on a construit un test de niveau 1/2, ce qui n’est pas glorieux... Voyons comment faire mieux.

π(θ) α(θ) β(θ)


1.00 0.5 0.5

0.4 0.4
0.75

0.3 0.3

0.50

0.2 0.2

0.25
0.1 0.1

0.00 0.0 0.0

−1.0 −0.5 0.0 0.5 1.0 −1.00 −0.75 −0.50 −0.25 0.00 0.00 0.25 0.50 0.75 1.00
θ θ θ

Figure 1.7 – Fonction puissance, risque de première espèce, risque de deuxième espèce (n = 20).

Dissymétrisation (Neyman & Pearson) : pour sortir de cette impasse, une méthode classique
est de privilégier l’une des hypothèses par rapport à l’autre, par convention H0 par rapport à H1 ,
et de contrôler avant tout la probabilité de rejeter H0 alors qu’elle est vraie, i.e. l’erreur de première
espèce. Typiquement, on prendra pour H0 :

Statistique Arnaud Guyader


32 Chapitre 1. Modélisation statistique

— une hypothèse communément admise ;


— une hypothèse de prudence ;
— une hypothèse facile à formuler ;
— etc.
Le plan de vol consiste alors à se fixer un niveau α petit (inférieur à 10%) et à chercher un test de
niveau α avec une fonction puissance qui tend aussi vite que possible vers 1 quand θ ∈ Θ1 s’éloigne
de Θ0 .
Exemple : reprenons l’exemple précédent avec la statistique de test basée sur l’estimateur θ̂n . Le
niveau α ∈]0, 1[ étant fixé (par exemple 5%), l’idée est de se donner une marge de sécurité sur
la région de rejet en considérant R′α =]cα , +∞[, avec cα > 0. Dit autrement, pour décider que le
vrai paramètre θ est positif, la positivité de l’estimateur θ̂n ne suffit pas à nous convaincre : il faut
que ce dernier soit supérieur à cα , constante elle-même strictement positive. Reste à déterminer
cα . Pour ce faire, il suffit d’écrire la condition sur le niveau du test en tenant compte du fait que
θ̂n ∼ N (θ, 1/n) :

sup Pθ (θ̂n > cα ) ≤ α ⇐⇒ sup P(N (θ, 1/n) > cα ) ≤ α ⇐⇒ sup P(N (0, 1) > (cα − θ) n) ≤ α
θ≤0 θ≤0 θ≥0

c’est-à-dire, puisque Φ est croissante :


√ √
sup Φ((θ − cα ) n) ≤ α ⇐⇒ Φ(−cα n) ≤ α.
θ≤0

En notant q1−α = Φ−1 (1 − α) le quantile d’ordre (1 − α) de la normale centrée réduite (e.g.



q1−α = 1.64 si α = 5%), il suffit donc de prendre cα = q1−α / n. Ainsi, au niveau 5%, on rejettera

H0 si la moyenne des Xi est supérieure à 1.64/ n.
On peut alors calculer la fonction puissance du test ainsi construit. Pour tout réel θ, on a
√ √
π(θ) = Pθ (θ̂n > q1−α / n) = Φ(θ n − q1−α ).

Comme attendu, cette fonction est majorée par α sur ]∞, 0]. Sur ]0, +∞[, elle est croissante et
tend vers 1 lorsque θ s’éloigne du point frontière 0 (voir Figure 1.8).

π(θ) α(θ) β(θ)


1.00 0.05

0.04 0.75
0.75

0.03
0.50
0.50

0.02

0.25 0.25
0.01

0.00 0.00 0.00

−1.0 −0.5 0.0 0.5 1.0 −1.00 −0.75 −0.50 −0.25 0.00 0.00 0.25 0.50 0.75 1.00
θ θ θ

Figure 1.8 – Puissance, risque de première espèce, risque de deuxième espèce (n = 20 et α = 5%).

La connaissance d’intervalles de confiance permet de construire des tests d’hypothèses. C’est ce


que garantit le résultat suivant, aussi élémentaire qu’efficace.

Arnaud Guyader Statistique


1.3. Les problèmes statistiques classiques 33

Lemme 2 (Intervalles et tests)


Soit α ∈ [0, 1] fixé. Si, pour tout θ ∈ Θ0 , (θ(X), θ(X)) est un intervalle de confiance de niveau
(1 − α) pour θ, alors le test T (X) tel que T (X) = 1 si et seulement si (θ(X), θ(X)) ∩ Θ0 = ∅, est
un test de niveau α.

Preuve. Il suffit de noter que, pour tout θ ∈ Θ0 ,

(θ(X), θ(X)) ∩ Θ0 = ∅ =⇒ θ ∈
/ (θ(X), θ(X)).

Par conséquent, pour tout θ ∈ Θ0 ,

Pθ (T (X) = 1) = Pθ ((θ(X), θ(X)) ∩ Θ0 = ∅) ≤ Pθ (θ ∈


/ (θ(X), θ(X))) ≤ α,

la dernière inégalité venant de la définition même de l’intervalle de confiance. Puisque cette inégalité
est valable pour tout θ ∈ Θ0 , elle reste vérifiée pour le supremum :

α⋆ = sup Pθ (T (X) = 1) ≤ α,
θ∈Θ0

et le test T est bien de niveau α.


¥
Exemples :
1. Dans l’exemple de l’échantillon gaussien, puisque θ̂n ∼ N (θ, 1/n), on voit que pour tout θ,

l’intervalle [θ̂n − q1−α / n, +∞[ est un intervalle de confiance unilatère de niveau (1 − α)
pour θ. C’est en particulier vrai si θ ∈ Θ0 =] − ∞, 0]. D’après ce qui vient d’être dit, on
rejette H0 si
h √ h √
θ̂n − q1−α / n, +∞ ∩] − ∞, 0] = ∅ ⇐⇒ θ̂n > q1−α / n,

ce qui est précisément la condition à laquelle on avait abouti ci-dessus. Au passage, notons

que ] − ∞, θ̂n + q1−α / n] est aussi un intervalle de confiance de niveau (1 − α) pour θ, donc
le test consistant à rejeter H0 si
i √ i
−∞, θ̂n + q1−α / n ∩] − ∞, 0] = ∅

est aussi de niveau α. Clairement, cette condition n’est jamais réalisée : un test ne rejetant
jamais H0 ne rejette jamais H0 à tort donc est bien de niveau α pour tout α ∈ [0, 1]. Il n’en
reste pas moins qu’il n’a aucun intérêt...
2. Pour l’exemple des élections, θ est la vraie proportion de votants pour Alice dans la popu-
lation totale et on souhaite confronter les hypothèses
1 1
H0 : θ ≥ contre H1 : θ < .
2 2
D’après (1.4), nous savons que

√ θ̂n − θ L
nq −−−→ N (0, 1), (1.6)
n→∞
θ̂n (1 − θ̂n )

donc un intervalle de confiance unilatère et asymptotique de niveau (1 − α) pour θ est


 q 
θ̂n (1 − θ̂n )
0, θ̂n + q1−α √ .
n

Statistique Arnaud Guyader


34 Chapitre 1. Modélisation statistique

Là encore, c’est en particulier vrai si θ ∈ Θ0 = [1/2, 1]. Toujours par le résultat du lemme
précédent, on rejette donc H0 si
q
θ̂n (1 − θ̂n ) 1
θ̂n + q1−α √ < .
n 2
Il faut cependant noter qu’on a construit ici un test Tn de niveau asymptotique α, au sens

sup lim Pθ (Tn (X) = 1) ≤ α.
θ∈Θ0 n→+∞
La définition générale fait intervenir la limite supérieure, mais dans tous les exemples que
nous rencontrerons celle-ci sera en fait une limite classique.
Définition 17 (Niveau asymptotique d’une suite de tests)
On dit que la suite de tests (Tn (X))n≥1 est de niveau asymptotique α si
∀θ ∈ Θ0 , lim sup Pθ (Tn (X) = 1) ≤ α.
n→∞

Le raisonnement du Lemme 2 s’applique à nouveau et permet de faire le lien entre intervalle


de confiance de niveau asymptotique (1 − α) et test de niveau asymptotique α. Par ailleurs,
à l’instar de la remarque faite pour les intervalles de confiance asymptotiques, noter que
nous n’exigeons pas la condition plus forte
lim sup sup Pθ (Tn (X) = 1) ≤ α.
n→∞ θ∈Θ0

3. Revenons à l’exemple du jeu de Pile ou Face, où nous disposons de X = (X1 , . . . , Xn ) i.i.d.


selon la loi B(θ). On veut construire un test d’hypothèse pour décider si la pièce est, oui ou
non, équilibrée :
1 1
H0 : θ = contre H1 : θ 6= .
2 2
Si θ = 1/2, on déduit du TCL que
µ ¶
√ 1 L
2 n θ̂n − −−−→ N (0, 1),
2 n→∞
donc un intervalle bilatère et asymptotique de niveau (1 − α) pour θ = 1/2 est
· ¸
q1−α/2 q1−α/2
θ̂n − √ , θ̂n + √ . (1.7)
2 n 2 n
A partir de là, le test consistant à conserver H0 si 1/2 appartient à cet intervalle est asymp-
totiquement de niveau α puisque, si la pièce est équilibrée,
µ · ¸¶
1 q1−α/2 q1−α/2
P1/2 / θ̂n − √ , θ̂n + √
∈ −−−→ α.
2 2 n 2 n n→∞

Prenons par exemple n = 1000 et α = 5%, donc q1−α/2 = 1.96... ≈ 2. On rejette H0 si


|θ̂n − 1/2| > 0.03.
Remarques :
1. L’exemple précédent a ceci de notable que l’intervalle de confiance (1.7) n’a aucun intérêt
puisqu’un intervalle de confiance de niveau 100% pour la valeur θ = 1/2 est tout simplement
I = {1/2}. Néanmoins, le test construit à partir de cet intervalle stupide est, lui, pertinent. A
contrario, si l’on applique le Lemme 2 à partir de l’intervalle de confiance optimal I = {1/2},
on aboutit à un test sans intérêt puisqu’on ne rejette jamais H0 .

Arnaud Guyader Statistique


1.3. Les problèmes statistiques classiques 35

2. Toujours sur l’exemple précédent du Pile ou Face, on peut recycler le raisonnement fait pour
les élections : la normalité asymptotique (1.6) assure que, pour tout θ ∈]0, 1[, un intervalle
de confiance bilatère de niveau asymptotique (1 − α) pour θ est
 q q 
θ̂n (1 − θ̂n ) θ̂n (1 − θ̂n )
θ̂n − q1−α/2 √ , θ̂n + q1−α/2 √ . (1.8)
n n

Ceci est en particulier vrai pour θ = 1/2 même si, à nouveau, cet intervalle de confiance n’a
aucun intérêt a priori lorsqu’on connaît la valeur de θ. Quoi qu’il en soit, le test consistant
à rejeter H0 lorsque 1/2 n’appartient pas à cet intervalle est de niveau asymptotique α.
Comme θ̂n tend p.s. vers 1/2 avec θ̂n (1 − θ̂n ) ≤ 1/4, on constate que les tests sont asymp-
totiquement équivalents et que, à n fini, on rejette plus souvent H0 en se basant sur (1.8)
plutôt que sur (1.7).

Règle : il ressort de ces exemples que si l’on veut construire un test unilatère, on part d’intervalles
de confiance unilatères de sens opposé à Θ0 . Pour un test bilatère avec Θ0 = {θ0 }, on part
idéalement de l’intervalle de confiance non trivial le plus court possible pour θ0 .
Dans ce qui précède, le choix du niveau α est fixé a priori, par exemple α = 5%. Puis, une réalisation
x étant donnée, on regarde si au vu de celle-ci on rejette H0 ou non. On peut en fait procéder de
façon duale : partant de x et d’une famille Rα (ou R′α ) de régions de rejet, on peut se demander
à quel point la réalisation est en (dés)accord avec H0 .
Exemple : on revient sur l’exemple de l’échantillon gaussien. Supposons que l’on observe x =
(x1 , . . . , x100 ) de moyenne empirique θ̂n (x) = 0.3. Pour cette valeur, conserve-t-on H0 au niveau
10% ? 5% ? 1% ? La réponse est donnée par la procédure de test : celle-ci spécifie en effet que l’on
rejette H0 au niveau α si et seulement si
√ √
θ̂n (x) > Φ−1 (1 − α)/ n ⇐⇒ α > 1 − Φ( nθ̂n (x)) = 1 − Φ(3) ≈ 10−3 .

En particulier, on rejette H0 au niveau de risque 10%, 5%, 1%, et en fait à tout niveau supérieur
à 1%. La notion de p-value permet de formaliser cette idée.
Revenons donc au cas général. Notant Rα la région de rejet de niveau α pour la statistique de test
T (X), on rejette H0 si
T (X) = 1 ⇐⇒ X ∈ Rα .
Si cette statistique de test est basée sur un estimateur θ̂ = θ̂(X), ceci s’exprime encore

T (X) = 1 ⇐⇒ θ̂ ∈ R′α .

Ce qui se passe dans quasiment tous les cas, et ce que nous supposerons dans la suite, c’est que
les régions de rejet sont emboîtées, c’est-à-dire que

0 ≤ α1 ≤ α2 ≤ 1 ⇐⇒ Rα1 ⊆ Rα2 ⇐⇒ R′α1 ⊆ R′α2 .



Exemple : sur l’exemple de l’échantillon gaussien, R′α =]Φ−1 (1 − α)/ n, +∞[ et la décroissance

de la fonction α 7→ Φ−1 (1 − α)/ n montre que les régions sont en effet emboîtées.
En pratique, on dispose d’une réalisation x et on veut décider si, au vu de cette réalisation, on
accepte H0 ou si on la rejette, et ce en précisant le niveau de risque.

Statistique Arnaud Guyader


36 Chapitre 1. Modélisation statistique

Définition 18 (Niveau de significativité, probabilité critique, p-value)


Pour une réalisation x, on appelle niveau de significativité (ou probabilité critique, ou p-value) du
test associé aux régions de rejet Rα la quantité

α0 (x) = inf {α ∈ [0, 1], x ∈ Rα } = inf{α ∈ [0, 1], H0 est rejetée au niveau α}.

Exemple : pour l’exemple de l’échantillon gaussien, on a donc de façon générale



α0 (x) = 1 − Φ( nθ̂n (x)),

et sur le cas particulier où θ̂n (x) = 0.3, ceci donne une p-value d’environ 10−3 .
Remarque : Pour une famille de suites de tests de niveaux asymptotiques α, on définit logiquement
la p-value (sous-entendu : asymptotique) comme l’infimum des α tel que H0 est rejetée au niveau
asymptotique α.
Take-home message : c’est cette valeur α0 (x) qui est usuellement donnée par les logiciels de
statistique en sortie d’un test d’hypothèse. Comme son nom en français l’indique, cette p-value
reflète à quel point il est significatif de rejeter H0 . Si α0 (x) est très proche de 0 (disons inférieur à
1/100), on rejette H0 sans scrupules 10 . Si au contraire α0 (x) est grand (disons supérieur à 1/10),
il semble raisonnable de conserver H0 . Pour des valeurs intermédiaires de α0 (x), rien n’est clair...
Revenons à l’exemple de l’échantillon gaussien où a été observée, pour n = 100, une moyenne
empirique θ̂n (x) = 0.3, correspondant à une p-value d’environ 10−3 . Une autre façon de retrouver
ce résultat est de se dire que si H0 était vraie, c’est-à-dire θ ≤ 0, le scénario le plus vraisemblable
pour observer une valeur positive de θ̂n (x) est que θ = 0. Or si θ = 0, l’estimateur θ̂n = θ̂n (X)
suit une loi normale N (0, 1/n) et la probabilité qu’une telle variable soit supérieure ou égale à 0.3
est, avec n = 100,

P(N (0, 1/100) ≥ 0.3) = P(N (0, 1) ≤ 3) = 1 − Φ(3) ≈ 10−3 .

Ceci permet d’interpréter la p-value comme une probabilité (et au passage de comprendre le “p”
de p-value) : elle correspond à la probabilité qu’on aurait d’observer une valeur au moins aussi
positive de θ̂n si H0 était vraie. Le “au moins aussi positive” vient du test fait ici et de H0 , qui
suppose θ ≤ 0. Pour un autre test, il faudra adapter le vocabulaire, comme l’illustre l’exemple
suivant.
Exemple : nous revenons à l’exemple du Pile ou Face, où l’on veut tester
1 1
H0 : θ = contre H1 : θ 6= .
2 2
On observe x = (x1 , . . . , xn ) : quelle est la p-value associée ? On a vu que le test consistant à
rejeter H0 si ¯ ¯
√ ¯ 1 ¯¯
¯
2 n ¯θ̂n − ¯ > q1−α/2 = Φ−1 (1 − α/2)
2
est de niveau asymptotique α. Notant θ̂n (x) la fréquence empirique observée, la p-value est donc
par définition

α0 (x) = inf {α ∈ [0, 1], x ∈ Rα } = inf{α ∈ [0, 1], 2 n|θ̂n (x) − 1/2| > Φ−1 (1 − α/2)}.

Or la croissance de Φ permet d’écrire


√ √
2 n|θ̂n (x) − 1/2| > Φ−1 (1 − α/2) ⇐⇒ α > 2(1 − Φ(2 n|θ̂n (x) − 1/2|))
10. Noter toutefois qu’en pratique ceci dépend complètement du domaine d’application !

Arnaud Guyader Statistique


1.3. Les problèmes statistiques classiques 37

d’où √
α0 (x) = 2(1 − Φ(2 n|θ̂n (x) − 1/2|)).
Puisque, de façon générale, on a pour tout c ≥ 0

P(|N (0, 1)| > c) = 2(1 − Φ(c)),

on peut aussi écrire √


α0 (x) = P(|N (0, 1)| > 2 n|θ̂n (x) − 1/2|).
Or, sous H0 ,

θ = 1/2 =⇒ θ̂n (X) ∼ N (1/2, 1/(4n)) =⇒ 2 n(θ̂n (X) − 1/2) ∼ N (0, 1)

et l’on peut donc écrire


√ √
α0 (x) = P1/2 (2 n|θ̂n (X) − 1/2| > 2 n|θ̂n (x) − 1/2|) = P1/2 (|θ̂n (X) − 1/2| > |θ̂n (x) − 1/2|).

La p-value correspond donc à la probabilité d’observer un écart à 1/2 au moins aussi grand que
|θ̂n (x) − 1/2| si la pièce est équilibrée.
Généralisation : pour voir la p-value comme une probabilité, il faut considérer que le test T (X)
est obtenu par le seuillage d’une statistique S(X), c’est-à-dire que l’on rejette H0 au niveau α si
et seulement si S(X) > cα . Les exemples que nous avons déjà rencontrés, et en fait tous ceux que
nous croiserons, ne procèdent pas autrement :

— Echantillon gaussien : S(x) = nθ̂n (x) et cα = q1−α .
— Alice et Bob :
√ θ̂n (x) − 21
S(x) = − n q et cα = q1−α .
θ̂n (1 − θ̂n )

— Pile ou Face : S(x) = 2 n|θ̂n (x) − 1/2| et cα = q1−α/2 .
Une réalisation x étant donnée, on peut alors montrer que la p-value se reformule comme suit :

α0 (x) = sup Pθ (S(X) > S(x)),


θ∈Θ0

où, pour chaque valeur de θ ∈ Θ0 , X (aléatoire !) a pour loi Pθ . Nous nous contentons d’établir
ce résultat dans le cas confortable d’une fonction de répartition bijective (sous-entendu : de son
support, supposé être un intervalle, vers l’image de celui-ci, donc continue et strictement croissante
sur son support).
Lemme 3 (Interprétation de la p-value)
Supposons qu’il existe θ0 ∈ Θ0 tel que le test rejette H0 au niveau α si et seulement si S(X) >
cα = Fθ−1
0
(1 − α), où Fθ0 (s) = Pθ0 (S(X) ≤ s) est la fonction de répartition de S(X) lorsque le
paramètre est θ0 . Fθ0 est supposée bijective et telle que Fθ0 (s) = inf θ∈Θ0 Fθ (s) pour tout s. Alors,
pour une réalisation x, la p-value α0 (x) s’écrit encore

α0 (x) = Pθ0 (S(X) > S(x)) = sup Pθ (S(X) > S(x)).


θ∈Θ0

Preuve. Par définition du test, pour une réalisation x et puisque Fθ0 est strictement croissante,
la p-value est
n o
α0 (x) = inf α ∈ [0, 1], S(x) > Fθ−1
0
(1 − α) = inf {α ∈ [0, 1], Fθ0 (S(x)) > 1 − α} .

Statistique Arnaud Guyader


38 Chapitre 1. Modélisation statistique

On en déduit la première formule :

α0 (x) = 1 − Fθ0 (S(x)) = Pθ0 (S(X) > S(x)).

De plus, de par la minimalité de Fθ0 parmi les Fθ , il vient

α0 (x) = 1 − inf Fθ (S(x)) = sup (1 − Fθ (S(x))) ,


θ∈Θ0 θ∈Θ0

c’est-à-dire
α0 (x) = sup (1 − Pθ (S(X) ≤ S(x))) = sup Pθ (S(X) > S(x)).
θ∈Θ0 θ∈Θ0
¥

Exemples :

— Echantillon gaussien : Θ0 = R− et on a vu que S(X) = nθ̂n (X). Pour tout θ ≤ 0,

Fθ (s) = Φ(s − θ n) donc inf θ≤0 Fθ (s) = Φ(s) = F0 (s) qui est bijective et on retrouve bien
le fait que

α0 (x) = sup Pθ (S(X) > S(x)) = P0 (S(X) > S(x)) = P(N (0, 1) > nθ̂n (x)).
θ∈Θ0

— Alice et Bob : soit θ ∈ Θ0 = [1/2, 1] et

√ θ̂n (x) − 21
S(x) = − n q .
θ̂n (1 − θ̂n )

Si θ = 1/2, alors on sait que

√ θ̂n (X) − 12 L
S(X) = − n q −−−→ N (0, 1).
n→∞
θ̂n (1 − θ̂n )

Si θ > 1/2, alors de la loi des grands nombres on déduit en raisonnant “ω par ω” que

√ θ̂n (X) − 12 p.s.


S(X) = − n q −−−→ −∞.
n→∞
θ̂n (1 − θ̂n )

Asymptotiquement, on a donc inf θ≥0 Fθ (s) = Φ(s) = F0 (s) et on conclut comme dans
l’exemple précédent.

— Pile ou Face : S(x) = 2 n|θ̂n (x) − 1/2|. Soit Y ∼ N (0, 1) et Z = |Y |, alors si θ = 1/2 on a
la convergence en loi
√ L
S(X) = 2 n|θ̂n (X) − 1/2| −−−→ Z,
n→∞

et cα = q1−α/2 = FZ−1 (1 − α). Le résultat s’applique à nouveau puisque Θ0 = {1/2}.


A retenir : on résume souvent le résultat du Lemme 3 par la phrase : “La p-value est la probabilité,
sous H0 , d’obtenir une statistique de test au moins aussi extrême que celle observée.”
Remarque : d’un point de vue historique, il semblerait que la notion de p-value trouve ses origines
dans une controverse typiquement britannique entre Ronald Fisher et Muriel Bristol, connue sous
le nom de The lady tasting tea.

Arnaud Guyader Statistique


Chapitre 2

Estimation unidimensionnelle

Introduction
Dans tout ce chapitre, on considère le modèle d’échantillonnage en dimension 1, autrement dit
on dispose d’un échantillon (X1 , . . . , Xn ) de variables aléatoires réelles i.i.d. de loi inconnue PX .
La Section 2.1 présente les quantités dites empiriques liées à cet échantillon et quelques résultats
afférents. On se restreint par la suite à des variables suivant une loi Pθ paramétrée par θ ∈ Θ, où Θ
est un intervalle de R. Autrement dit, nous sommes dans le cadre paramétrique le plus commode qui
soit, le paramètre en jeu étant unidimensionnel. La Section 2.2 présente deux techniques classiques
d’estimation : la méthode des moments et celle du maximum de vraisemblance. Finalement, dans
le cadre des modèles dits réguliers, la Section 2.3 explique en quoi la notion d’information de Fisher
permet de spécifier l’optimalité d’un estimateur.

2.1 Quantités empiriques


2.1.1 Moyenne et variance empiriques
Partant d’un échantillon (Xn )n≥1 i.i.d. de variables intégrables, l’exemple le plus simple d’estima-
teur de la moyenne µ = E[X1 ] est celui de la moyenne empirique :
n
1X
X̄n = Xi .
n
i=1

Ses propriétés découlent directement de la loi forte des grands nombres et du théorème central
limite.

Proposition 7 (Convergence et normalité asymptotique de la moyenne empirique)


Si les variables (Xn )n≥1 sont i.i.d., ont un moment d’ordre 2 avec E[X1 ] = µ et Var(X1 ) =
σ 2 > 0, alors la moyenne empirique X̄n est un estimateur non biaisé, fortement consistant et
asymptotiquement normal :

p.s. √ L
X̄n −−−→ µ et n(X̄n − µ) −−−→ N (0, σ 2 ).
n→∞ n→∞

Puisque la variance σ 2 des Xi apparaît dans le résultat de normalité asympotique, il est naturel
de chercher à l’estimer à son tour. Ici, les choses se compliquent un peu en raison du biais de la
variance empirique.

39
40 Chapitre 2. Estimation unidimensionnelle

Lemme 1 (Estimateurs de la variance)


Sous les mêmes hypothèses qu’en Proposition 7, on appelle variance empirique l’estimateur
n n
1X 1X 2
σ̂n2 = (Xi − X̄n )2 = Xi − X̄n2 ,
n n
i=1 i=1

et estimateur sans biais de la variance


n
1 X n
ŝ2n = (Xi − X̄n )2 = σ̂ 2
n−1 n−1 n
i=1

lequel vérifie bien E[ŝ2n ] = σ 2 = Var(X1 ).

Attention ! La notation ŝ2n dans cette définition correspond au σ̂n2 qui sera défini au Chapitre
3. Par ailleurs, c’est l’estimateur non biaisé ŝ2n qui est considéré par de nombreux logiciels (cf. la
commande sd de R, qui fournit l’écart-type associé).
Preuve. Partons de la seconde expression de la variance empirique, à savoir
n
1X 2
σ̂n2 = Xi − X̄n2 . (2.1)
n
i=1

La clé de la preuve est la relation E[Y = Var(Y ) + E[Y ]2 . Ainsi, la moyenne du premier terme
2]

est triviale : " n #


1X 2
E Xi = E[X12 ] = Var(X1 ) + E[X1 ]2 = σ 2 + µ2 .
n
i=1
Le second est à peine plus difficile si l’on tient compte du fait que la variance de la somme de
variables indépendantes est égale à la somme des variances :
à n !
1 X 1 σ2
E[X̄n2 ] = Var(X̄n ) + E[X̄n ]2 = 2 Var Xi + E[X1 ]2 = Var(X1 ) + E[X1 ]2 = + µ2 ,
n n n
i=1

ce qui mène au résultat annoncé.


¥
Les deux estimateurs sont asymptotiquement équivalents puisque
σ̂n2 n−1 1
= = 1 − −−−→ 1,
ŝ2n n n n→∞
et ont les mêmes propriétés de convergence et de normalité asymptotique.

Proposition 8 (Convergence et normalité asymptotique de la variance empirique)


Si les variables (Xn )n≥1 sont i.i.d. et admettent un moment d’ordre 2, avec Var(X1 ) = σ 2 , alors
les estimateurs σ̂n2 et ŝ2n sont fortement consistants :
p.s. p.s.
σ̂n2 −−−→ σ 2 et ŝ2n −−−→ σ 2 .
n→∞ n→∞

Si l’on suppose de plus l’existence d’un moment d’ordre 4 pour les Xi , alors il y a aussi normalité
asymptotique :
√ L √ 2 L
n(σ̂n2 − σ 2 ) −−−→ N (0, v 2 ) et n(ŝn − σ 2 ) −−−→ N (0, v 2 ),
n→∞ n→∞

où, en notant µ = E[X1 ],


v 2 = Var((X1 − µ)2 ) = E[(X1 − µ)4 ] − σ 4 .

Arnaud Guyader Statistique


2.1. Quantités empiriques 41

Preuve. Pour la consistance, on part de la formule (2.1) à laquelle on applique deux fois la loi des
grands nombres et le théorème de continuité :
n
1X 2 P
σ̂n2 = Xi − X̄n2 −−−→ E[X12 ] − E[X1 ]2 = Var(X1 ) = σ 2 .
n n→∞
i=1

Par la remarque ci-dessus, le même résultat s’applique à ŝ2n . Pour la normalité asymptotique, la
ruse est de considérer les variables i.i.d. centrées Yi = (Xi − µ) et de noter que
n n n
1X 1X 1X 2
σ̂n2 = (Xi − X̄n )2 = (Yi − Ȳn )2 = Yi − Ȳn2 = Yn2 − Ȳn2 .
n n n
i=1 i=1 i=1

On peut donc écrire


√ √ ³ 2 ´ √ √ ³ ´ ¡√ ¢
n(σ̂n2 − σ 2 ) = n Yn − σ 2 − n Ȳn2 = n Yn2 − σ 2 − Ȳn × n Ȳn ,

Par la loi des grands nombres, Ȳn tend en probabilité vers 0. De plus, le TCL appliqué aux variables
Yi de moyenne nulle et de variance σ 2 donne
√ L
n Ȳn −−−→ N (0, σ 2 ),
n→∞

d’où par Slutsky


¡√ ¢ L
Ȳn × n Ȳn −−−→ 0.
n→∞

De même, le TCL appliqué aux variables Yi2 de moyenne σ 2 et de variance v 2 nous dit que

√ ³ 2 ´
L
n Yn − σ 2 −−−→ N (0, v 2 ).
n→∞

Il reste à appliquer Slutsky pour recoller les morceaux :


√ √ ³ 2 ´ ¡√ ¢ L
n(σ̂n2 − σ 2 ) = n Yn − σ 2 − Ȳn × n Ȳn −−−→ N (0, v 2 ).
n→∞

Quant à l’estimateur sans biais, tout le travail a déjà été fait ou presque, vu que

√ √ √ 1 √
n(ŝ2n − σ 2 ) = n(ŝ2n − σ̂n2 ) + n(σ̂n2 − σ 2 ) = √ ŝ2n + n(σ̂n2 − σ 2 ).
n

Il suffit donc d’invoquer la convergence de ŝ2n et Slutsky pour le premier terme, et la normalité
asymptotique de σ̂n2 pour le second.
¥

Remarque : par le résultat précédent et le Lemme de Slutsky, un intervalle de confiance de niveau


asymptotique (1 − α) pour µ est donc
· ¸
Φ−1 (1 − α/2)σ̂n Φ−1 (1 − α/2)σ̂n
X̄n − √ ; X̄n + √ .
n n

Ce résultat reste bien sûr valable avec ŝn en lieu et place de σ̂n .

Statistique Arnaud Guyader


42 Chapitre 2. Estimation unidimensionnelle

2.1.2 Fonction de répartition et quantiles empiriques


Avant de définir la fonction de répartition empirique, il convient de mettre de l’ordre dans l’échan-
tillon.

Définition 19 (Statistiques d’ordre)


Partant d’un échantillon X1 , . . . , Xn , les n statistiques d’ordre X(1) , . . . , X(n) s’obtiennent en ran-
geant l’échantillon par ordre croissant, c’est-à-dire qu’elles vérifient

X(1) ≤ · · · ≤ X(n) .

Notation. On rencontre aussi l’écriture suivante pour les statistiques d’ordre :

X(1,n) ≤ · · · ≤ X(n,n) .

Pour tout k entre 1 et n, la variable X(k) est appelée la k-ème statistique d’ordre. Par exemple, la
première statistique d’ordre est le minimum de l’échantillon tandis que la n-ème correspond à son
maximum.
Achtung ! Même si les Xi sont i.i.d., les X(i) ne le sont clairement plus : à titre d’exemple, la
connaissance de X(1) donne de l’information sur X(2) , qui ne peut être plus petit.
D’un point de vue algorithmique, ce rangement croissant peut se faire par un algorithme de tri
rapide (ou quicksort) dont le coût moyen est en O(n log n), ce qui n’est pas cher payé. Notons enfin
que la définition précédente ne suppose pas les Xi distincts. C’est néanmoins presque sûrement le
cas si la fonction de répartition des Xi est continue (cas d’une loi sans atome).

Définition 20 (Fonction de répartition empirique)


La fonction de répartition empirique Fn d’un échantillon X1 , . . . , Xn est définie pour tout réel x
par
n n
1X 1X
Fn (x) = 1]−∞,x] (Xi ) = 1]−∞,x] (X(i) ),
n n
i=1 i=1
ou, de façon équivalente,

|{i ∈ {1, . . . , n}, Xi ≤ x}| |{i ∈ {1, . . . , n}, X(i) ≤ x}|


Fn (x) = = ,
n n
c’est-à-dire la proportion de l’échantillon tombant au-dessous de x.

En notant X(n+1) = +∞, cette fonction s’écrit encore


n
X i
Fn (x) = 1 (x).
n [X(i) ,X(i+1) [
i=1

C’est une fonction (aléatoire !) en escalier qui ne présente des sauts qu’aux X(i) , ces sauts étant
tous égaux à 1/n si les Xi sont distincts (cf. Figure 2.1). Dans le cas général, l’amplitude des sauts
est toujours un multiple de 1/n, le multiple en question correspondant au nombre de points de
l’échantillon empilés au même endroit.

Proposition 9 (Loi, convergence et normalité asymptotique)


Soit (Xn )n≥1 des variables i.i.d. de fonction de répartition F , alors pour tout réel x, on a :
— Loi : la variable aléatoire nFn (x) suit une loi binomiale B(n, F (x)).
— Consistance forte :
p.s.
Fn (x) −−−→ F (x).
n→∞

Arnaud Guyader Statistique


2.1. Quantités empiriques 43

1.00 1.00

0.75 0.75

0.50 0.50

0.25 0.25

0.00 0.00
−5 0 −5 0 5

Figure 2.1 – En noir : deux réalisations de F20 avec X1 , . . . , X20 i.i.d. selon une loi de Cauchy.
En rouge : fonction de répartition de la loi de Cauchy.

— Normalité asymptotique :
√ L
n (Fn (x) − F (x)) −−−→ N (0, F (x)(1 − F (x))).
n→∞

Preuve. Dans tous ces résultats, il importe de garder en tête que x est un réel fixé. Ainsi nFn (x)
représente tout bonnement le nombre de points de l’échantillon qui tombent à gauche de x :
n
X n
X
nFn (x) = 1]−∞,x] (Xi ) = Yi ,
i=1 i=1

où les Yi sont i.i.d. selon une loi de Bernoulli de paramètre

p = P(Y1 = 1) = P(Xi ≤ x) = F (x),

d’où la loi binomiale pour leur somme. De la même façon, la loi forte des grands nombres appliquée
aux variables Yi assure que
n
1X p.s.
Fn (x) = Yi −−−→ E[Y1 ] = F (x),
n n→∞
i=1

tandis que le TCL donne


√ L
n (Fn (x) − F (x)) −−−→ N (0, Var(Y1 )) = N (0, F (x)(1 − F (x))).
n→∞
¥

Ainsi, pour tout réel x, il existe un ensemble Ω0 (x) de probabilité 1 tel que, pour tout ω ∈ Ω0 (x),
la réalisation x1 = X1 (ω), x2 = X2 (ω), . . . vérifie
n n
1X X i
1]−∞,x] (xi ) = 1 (x) −−−→ F (x).
n n [x(i) ,x(i+1) [ n→∞
i=1 i=1

A priori, ceci n’assure même pas la convergence simple de Fn vers F de façon presque sûre, car
Ω0 (x) dépend de x, or une intersection non dénombrable d’ensembles de probabilité 1 n’est pas
nécessairement de probabilité 1. En fait on peut montrer que, de façon presque sûre, il y a bien

Statistique Arnaud Guyader


44 Chapitre 2. Estimation unidimensionnelle

convergence simple et même mieux, convergence uniforme : le Théorème de Glivenko-Cantelli, que


nous ne démontrons pas ici, assure en effet que
p.s.
kFn − F k∞ := sup |Fn (x) − F (x)| −−−→ 0.
x∈R n→∞

Un quantile est défini à partir de la fonction de répartition. Il n’y aucun problème lorsque celle-ci
est bijective. Si tel n’est pas le cas, il faut faire un peu attention. Ceci arrivera en particulier pour
les fonctions de répartition empiriques que nous aborderons ultérieurement.

Définition 21 (Inverse généralisée)


Soit F une fonction de répartition. On appelle inverse généralisée de F , ou fonction quantile, la
fonction définie pour tout u ∈ [0, 1] par

F −1 (u) = inf{x ∈ R : F (x) ≥ u},

avec les conventions inf R = −∞ et inf ∅ = +∞.

Remarque : ainsi, on peut noter que F −1 (0) = −∞, tandis que F −1 (1) est la borne supérieure
du support de la loi de X lorsque cette variable a pour fonction de répartition F .
Si F est bijective, il est clair que cette fonction quantile coïncide avec l’inverse classique (au sens
de fonction réciproque) de F , avec les conventions évidentes aux limites. A contrario, considérons
une variable aléatoire X discrète à valeurs dans l’ensemble fini {x1 < · · · < xm } avec probabilités
(p1 , . . . , pm ). Il est facile de vérifier que pour tout u ∈]0, 1[,


 x1 si 0 < u ≤ p1

 x 2 si p1 < u ≤ p1 + p2
F −1 (u) = ..

 .


xm si p1 + · · · + pm−1 < u ≤ 1

c’est-à-dire
m
X
F −1 (u) = xk 1p1 +···+pk−1 <u≤p1 +···+pk . (2.2)
k=1

Si l’ensemble des valeurs prises par la variable discrète X n’est pas fini, il suffit de remplacer
cette somme par une série. Quoi qu’il en soit, outre que, tout comme F , cette fonction quantile
est croissante et en escalier, on notera que, contrairement à F , elle est continue à gauche. Ces
propriétés sont en fait toujours vraies.
Convention : dans toute la suite, nous conviendrons que F (−∞) = 0 et F (+∞) = 1 afin de
définir sans ambiguïté la fonction composée F ◦ F −1 sur [0, 1].

Propriétés 1
Soit F une fonction de répartition et F −1 son inverse généralisée. Alors :
1. Valeur en 0 : F −1 (0) = −∞.
2. Monotonie : F −1 est croissante.
3. Continuité : F −1 est continue à gauche.
4. Equivalence : ∀u ∈ [0, 1],

F (x) ≥ u ⇐⇒ x ≥ F −1 (u). (2.3)

Arnaud Guyader Statistique


2.1. Quantités empiriques 45

5. Inversibilité : ∀u ∈ [0, 1], on a (F ◦ F −1 )(u) ≥ u. De plus :


— si F est continue alors F ◦ F −1 = Id, mais si elle n’est pas injective il existe x0 tel que
(F −1 ◦ F )(x0 ) < x0 ;
— si F est injective alors F −1 ◦ F = Id, mais si elle n’est pas continue il existe u0 tel que
(F ◦ F −1 )(u0 ) > u0 ;
— il y a équivalence entre F ◦ F −1 = F −1 ◦ F = Id et l’inversibilité de F au sens usuel.

Preuve. Les deux premiers points découlent de la définition de F −1 . Etablissons l’équivalence


(2.3) : avec la convention F −1 (0) = −∞, il n’y a rien à montrer pour u = 0, donc on peut
considérer u ∈]0, 1]. Par définition de F −1 (u), si F (x) ≥ u, alors x ≥ F −1 (u). Inversement, si
F −1 (u) ≤ x, alors pour tout ε > 0 on a F −1 (u) < x + ε, donc par définition de F −1 (u), il vient
u ≤ F (x + ε). Puisque F est continue à droite, on en déduit que u ≤ F (x) et l’équivalence (2.3)
est établie.
La continuité à gauche en découle : puisqu’il n’y a rien à prouver pour u = 0, il suffit en effet de
montrer, grâce à la croissance de F −1 , que pour tout u ∈]0, 1] et tout ε > 0, on peut trouver δ > 0
tel que F −1 (u − δ) > F −1 (u) − ε =: x′ . Puisque x′ < F −1 (u), (2.3) assure que F (x′ ) < u donc
F (x′ ) < u − δ pour δ assez petit. Ceci implique x′ < F −1 (u − δ), c’est-à-dire précisément ce qu’il
fallait établir.
Pour le dernier point, il n’y a rien à prouver si u = 0. Si u ∈]0, 1], d’après (2.3), on a

F −1 (u) ≤ F −1 (u) =⇒ u ≤ (F ◦ F −1 )(u).

Supposons maintenant F continue. Alors, pour tout u ∈]0, 1] et pour tout ε > 0, on a, toujours
par (2.3),
F −1 (u) − ε < F −1 (u) =⇒ F (F −1 (u) − ε) < u.
Etant donné que u ∈]0, 1] et que F est supposée continue, le passage à la limite lorsque ε → 0
donne (F ◦ F −1 )(u) ≤ u. Au total, on a donc prouvé que, pour tout u ∈]0, 1], (F ◦ F −1 )(u) = u.
Avec les conventions prises pour F et F −1 , ceci est encore vrai pour u = 0. Supposons F non
injective, ce qui signifie qu’il existe x′0 < x0 tels que F (x′0 ) = F (x0 ) = u0 , donc

(F −1 ◦ F )(x0 ) = F −1 (u0 ) ≤ x′0 < x0 .

Dans le même ordre d’idée, si F est injective, alors quel que soit le réel x, il n’existe pas de réel
x′ < x tel que F (x′ ) = F (x), donc

F −1 (F (x)) = inf{x′ ∈ R, F (x′ ) ≥ F (x)} = x.

Si F n’est pas continue en un point x0 , il existe u0 tel que F (x−


0 ) < u0 < F (x0 ), auquel cas

(F ◦ F −1 )(u0 ) = F (F −1 (u0 )) = F (x0 ) > u0 .

Quant au dernier point, il correspond exactement à la définition de la réciproque d’une fonction


bijective, de sorte qu’il n’y a rien à démontrer.
¥

Remarque : la preuve ci-dessus montre que si F est continue en F −1 (u0 ) alors (F ◦F −1 )(u0 ) = u0 .
Exemples : illustrons le dernier point des Propriétés 1.
1. Si X suit une loi uniforme sur [0, 1], alors sa fonction de répartition F est continue mais
pas injective. De fait, on a

(F −1 ◦ F )(2) = F −1 (1) = 1 < 2.

Statistique Arnaud Guyader


46 Chapitre 2. Estimation unidimensionnelle

2. Soit Y ∼ N (0, 1), B ∼ B(1/2), avec Y et B indépendantes, et X = BY , alors la fonction de


répartition de X présente un saut en 0 puisque F (0− ) = 1/4 tandis que F (0) = 3/4 (voir
Figure 2.2). Elle est injective mais pas continue, et on voit que
3 1
(F ◦ F −1 )(1/2) = F (0) = > .
4 2

F(x) F−1(u)
1.00 4

0.75 2

0.50 0

0.25 −2

0.00 −4
−4 −2 0 2 4 0.00 0.25 0.50 0.75 1.00

Figure 2.2 – Fonction de répartition de la variable X = 2BY et son inverse généralisée.

Le résultat suivant est utile tant d’un point de vue pratique, par exemple pour les méthodes
Monte-Carlo, que théorique, typiquement pour l’étude du processus empirique.

Lemme 2 (Universalité de la loi uniforme)


Soit U une variable uniforme sur [0, 1], F une fonction de répartition et F −1 son inverse généra-
lisée. Alors :
1. la variable aléatoire X = F −1 (U ) a pour fonction de répartition F .
2. si X a pour fonction de répartition F et si F est continue, alors la variable aléatoire F (X)
est de loi uniforme sur [0, 1].

Preuve. Soit X = F −1 (U ) et x réel fixé, alors d’après le résultat d’équivalence des Propriétés 1,
la fonction de répartition de X se calcule facilement :

P(X ≤ x) = P(F −1 (U ) ≤ x) = P(U ≤ F (x)) = F (x),

la dernière égalité venant de ce que, pour tout u ∈ [0, 1], P (U ≤ u) = u. Le premier point est donc
établi. On l’applique pour le second : la variable Y = F −1 (U ) a même loi que X, donc la variable
F (X) a même loi que F (Y ) = (F ◦ F −1 )(U ). Or F est continue, donc par le dernier point des
Propriétés 1, F ◦ F −1 = Id, donc F (Y ) = U et F (X) est de loi uniforme sur [0, 1].
¥

A propos du second point, il est clair que si X présente un atome en x0 , la variable F (X) va
hériter d’un atome en F (x0 ), donc ne sera certainement pas distribuée selon une loi uniforme. Par
exemple, si X ∼ B(1/3), alors F (X) est une variable discrète prenant les valeurs F (0) = 2/3 et
F (1) = 1 avec les probabilités respectives 2/3 et 1/3.
Application : méthode d’inversion en Monte-Carlo. Supposons que l’on dispose d’un gé-
nérateur aléatoire de variables uniformes 1 . Par exemple, en R, une réalisation est donnée via la
commande u=runif(1). Alors, si la fonction de répartition F est facilement inversible, on déduit
1. c’est en fait un générateur pseudo-aléatoire.

Arnaud Guyader Statistique


2.1. Quantités empiriques 47

du résultat précédent une méthode simple pour générer une variable de fonction de répartition F
à partir de la simulation d’une variable uniforme.
Exemples :
1. Simulation d’une variable exponentielle. On veut générer une variable X selon la loi expo-
nentielle de paramètre λ > 0 fixé connu. Pour tout x > 0, F (x) = 1−e−λx , bijective de ]0, ∞[
vers ]0, 1[. Il s’ensuit que pour tout u ∈]0, 1[, F −1 (u) = −(log(1 − u))/λ. Ainsi la commande
x=-log(1-runif(1)) donne une réalisation d’une variable exponentielle de paramètre 1.
Puisque U a la même loi que 1 − U , on peut même aller plus vite par x=-log(runif(1)).
La fonction rexp de R est implémentée de cette façon.
2. Simulation d’une variable de Cauchy. On veut générer une variable X selon la loi de Cauchy
standard, c’est-à-dire de densité f (x) = 1/(π(1 + x2 )), donc de fonction de répartition
F (x) = (π/2 + arctan x)/π, bijective de R vers ]0, 1[. Par la méthode d’inversion, si U suit
une loi uniforme sur ]0, 1[, X = tan(π(U − 1/2)) suit une loi de Cauchy.
Maintenant qu’on a défini l’inverse d’une fonction de répartition en toute généralité, on peut passer
aux quantiles.
Définition 22 (Quantiles)
Soit F une fonction de répartition et p un réel de [0, 1]. On appelle quantile d’ordre p, ou p-quantile,
de F
xp = xp (F ) = F −1 (p) = inf{x ∈ R : F (x) ≥ p} ∈ R.
On le note aussi qp (penser aux intervalles de confiance). x1/2 est appelé médiane de F , x1/4 et
x3/4 étant ses premier et troisième quartiles.
Remarque : On a toujours x0 = −∞, tandis que x1 est la borne supérieure du support (éven-
tuellement +∞). De plus, la Proposition 1 assure que
∀p ∈ [0, 1] F (xp ) = F (F −1 (p)) ≥ p. (2.4)
On peut aussi définir les quantiles empiriques : ils coïncident avec les points de l’échantillon puisque
c’est uniquement en ceux-ci que la fonction de répartition empirique varie.
Notation : pour tout réel x, ⌈x⌉ désigne la partie entière supérieure de x, c’est-à-dire le plus petit
entier supérieur ou égal à x. En particulier, elle vérifie : x ≤ ⌈x⌉ < x + 1.
Lemme 3 (Quantiles empiriques)
Soit (X1 , . . . , Xn ) un échantillon et Fn la fonction de répartition empirique associée. Pour tout
p ∈ [0, 1], on note xp (n) = xp (Fn ) le quantile empirique (donc aléatoire) associé, c’est-à-dire, avec
la convention X(0) = −∞,
xp (n) = Fn−1 (p) = inf{x ∈ R : Fn (x) ≥ p} = X(⌈np⌉) .
Preuve. Le but est de prouver la dernière égalité. Celle-ci est évidente si p = 0 avec la convention
adoptée. Si 0 < p ≤ 1, alors 1 ≤ ⌈np⌉ ≤ n et, puisque X(1) ≤ · · · ≤ X(⌈np⌉) ≤ · · · ≤ X(n) , il est
clair que
n
1X ⌈np⌉
Fn (X(⌈np⌉) ) = 1X(j) ≤X(⌈np⌉) ≥ ≥ p,
n n
j=1

donc xp (n) = Fn−1 (p)≤ X(⌈np⌉) . Supposons maintenant que Fn−1 (p) < X(⌈np⌉) . Rappelons que
Fn−1 (p) est l’un des points de l’échantillon. Dès lors, si Fn−1 (p) < X(⌈np⌉) , alors il y a au plus
⌈np⌉ − 1 indices j tels que Xj ≤ Fn−1 (p), donc
n
1X ⌈np⌉ − 1
Fn (Fn−1 (p)) = 1Xj ≤Fn−1 (p) ≤ < p,
n n
j=1

Statistique Arnaud Guyader


48 Chapitre 2. Estimation unidimensionnelle

ce qui est en contradiction avec (2.4).


¥
Exemple. La médiane empirique dépend de la parité de n : x1/2 (n) = X(n/2) si n est pair et
x1/2 (n) = X((n+1)/2) sinon.
Si p ∈]0, 1[ est fixé, il en va de même pour le p-quantile xp = F −1 (p), que l’on peut chercher à
estimer. Disposant d’un échantillon (X1 , . . . , Xn ) i.i.d. selon F , que dire du p-quantile empirique
xp (n) ? Sans prendre de précautions, ça peut mal se passer...

Théorème 8 (Convergence et normalité asymptotique du quantile empirique)


Soit (X1 , . . . , Xn ) i.i.d. selon F , p ∈]0, 1[ fixé, xp le p-quantile de F et xp (n) le p-quantile empirique.
1. Convergence : si F est strictement croissante en xp , alors
p.s.
xp (n) −−−→ xp .
n→∞

2. Normalité asymptotique : si F est dérivable en xp de dérivée f (xp ) > 0, alors


µ ¶
√ L p(1 − p)
n(xp (n) − xp ) −−−→ N 0, .
n→∞ f (xp )2

Preuve. Pour le premier point, fixons p ∈]0, 1[ et ε > 0. Comme très souvent pour montrer une
convergence presque sûre, on va établir une inégalité de concentration du type

P(|xp (n) − xp | > ε) ≤ α exp(−βp,ε n),

et Borel-Cantelli permettra de conclure. Vu la dissymétrie induite par l’inverse généralisée, on


commence par scinder le terme à majorer :

P(|xp (n) − xp | > ε) = P(xp (n) < xp − ε) + P(xp (n) > xp + ε). (2.5)

Pour le premier, il découle de l’équivalence (2.3) que


à n
!
X
P(xp (n) < xp − ε) ≤ P(Fn−1 (p) ≤ xp − ε) = P(nFn (xp − ε) ≥ np) = P 1Xi ≤xp −ε ≥ np ,
i=1

où l’on reconnaît une somme de variables de Bernoulli i.i.d. :


n
X n
X
Sn = Bi = 1]−∞,xp −ε] (Xi ) ∼ B(n, F (xp − ε)) =⇒ E[Sn ] = nF (xp − ε).
i=1 i=1

Ainsi
P(xp (n) < xp − ε) ≤ P(Sn − E[Sn ] ≥ n(p − F (xp − ε))).
Or, par définition de xp = inf{x, F (x) ≥ p}, on a, pour tout ε > 0, F (xp − ε) < p donc

n(p − F (xp − ε)) =: nδ > 0.

A ce stade, Hoeffding s’impose (cf. Chapitre 1 Proposition 4) :

P(xp (n) < xp − ε) ≤ P(Sn − E[Sn ] ≥ nδ) ≤ exp(−2δ 2 n),

terme général d’une série convergente. Le second terme de l’équation (2.5) se traite de façon
comparable :

P(xp (n) > xp + ε) = P(Fn−1 (p) > xp + ε) = P(nFn (xp + ε) < np) ≤ P(nFn (xp + ε) ≤ np),

Arnaud Guyader Statistique


2.1. Quantités empiriques 49

c’est-à-dire à !
n
X
P(xp (n) > xp + ε) ≤ P 1Xi ≤xp +ε ≤ np ,
i=1
où l’on a cette fois
n
X
Sn = 1]−∞,xp +ε] (Xi ) ∼ B(n, F (xp + ε)) =⇒ E[Sn ] = nF (xp + ε),
i=1

d’où
P(xp (n) > xp + ε) ≤ P(Sn − E[Sn ] ≤ n(p − F (xp + ε))).
Or F étant globalement croissante et, par hypothèse, strictement croissante en xp , l’inégalité (2.4)
implique que pour tout ε > 0

F (xp + ε) > F (xp ) ≥ p =⇒ n(p − F (xp + ε)) =: −nγ < 0.

On peut donc à nouveau appliquer Hoeffding :

P(xp (n) > xp + ε) ≤ P(Sn − E[Sn ] ≤ −nγ) ≤ exp(−2γ 2 n),

ce qui donne encore une série convergente. Le premier point est donc établi.
Le second revient à montrer que pour tout réel x
à !
√ f (xp )
P( n(xp (n) − xp ) ≤ x) −−−→ Φ p x ,
n→∞ p(1 − p)

où Φ représente comme d’habitude la fonction de répartition de la gaussienne centrée réduite.


Soit donc p ∈]0, 1[ et xp le quantile associé. Puisque F est continue en xp , on a F (xp ) = p. Soit
maintenant x un réel fixé, alors
µ ¶ µ ¶
√ x x
P( n(xp (n) − xp ) ≤ x) = P xp (n) ≤ xp + √ = P X(⌈np⌉) ≤ xp + √ ,
n n
et en tenant compte du fait que les sauts de la fonction de répartition empirique sont d’amplitude
au moins 1/n, ceci s’écrit encore
µ ¶
√ ¡ √ ¢ √ ⌈np⌉ − 1
P( n(xp (n) − xp ) ≤ x) = P nFn (xp + x/ n) ≥ ⌈np⌉ = P Fn (xp + x/ n) > ,
n
c’est-à-dire
µ ¶
√ √ ⌈np⌉ − 1
P( n(xp (n) − xp ) ≤ x) = 1 − P Fn (xp + x/ n) ≤ = 1 − Gn (yn ),
n
où Gn est la fonction de répartition de la variable aléatoire
√ ¡ √ √ ¢
Yn = n Fn (xp + x/ n) − F (xp + x/ n)

et µ ¶
√ ⌈np⌉ − 1 √
yn = n − F (xp + x/ n) .
n
Par définition de la partie entière par excès et d’après l’hypothèse sur F , il est clair que
µ µ ¶¶
√ √ x √
yn = n p + o(1/ n) − F (xp ) + f (xp ) √ + o(1/ n) −−−→ −f (xp )x.
n n→∞

Statistique Arnaud Guyader


50 Chapitre 2. Estimation unidimensionnelle

Concernant la variable Yn , on a la décomposition Yn = Zn + (Yn − Zn ) avec


√ √
Zn = n(Fn (xp ) − F (xp )) = n(Fn (xp ) − p)

et la Proposition 9 implique que

L
Zn −−−→ N (0, p(1 − p)).
n→∞

Par ailleurs,
√ √ √ √
Yn − Z n = n(Fn (xp + x/ n) − Fn (xp )) − n(F (xp + x/ n) − F (xp )),

or, comme on l’a vu à plusieurs reprises, si x est positif,


n
X
√ √
n(Fn (xp + x/ n) − Fn (xp )) = 1xp <Xi ≤xp +x/√n ∼ B(n, F (xp + x/ n) − F (xp )) =: B(n, δn ).
i=1

Si x est négatif, le même raisonnement montre que


√ √
−n(Fn (xp + x/ n) − Fn (xp )) ∼ B(n, F (xp ) − F (xp + x/ n)) = B(n, −δn ).

Dans tous les cas, n|Yn − Zn | correspond en loi à une binomiale B(n, |δn |) recentrée. L’inégalité
de Tchebychev et la continuité de F en xp assurent donc que, pour tout ε > 0,

δn (1 − δn )
P (|Yn − Zn | ≥ ε) ≤ −−−→ 0,
ε2 n→∞

c’est-à-dire que (Yn − Zn ) tend en probabilité vers 0. Au total, par le Lemme de Slutsky,

L
Yn = Zn + (Yn − Zn ) −−−→ N (0, p(1 − p)).
n→∞

Par ailleurs, (yn ) converge de façon déterministe, donc a fortiori en probabilité, vers −f (xp )x donc
une nouvelle application du Lemme de Slutsky donne

L
Yn − yn − f (xp )x −−−→ N (0, p(1 − p)),
n→∞

ce qui implique, pour tout réel t,


à ! à !
t t
P(Yn − yn − f (xp )x > t) −−−→ 1 − Φ p = Φ −p .
n→∞ p(1 − p) p(1 − p)

La valeur t = −f (xp )x donne


à !
√ f (xp )
P( n(xp (n) − xp ) ≤ x) = 1 − Gn (yn ) = P(Yn > yn ) −−−→ Φ p x ,
n→∞ p(1 − p)

ce qui est le résultat voulu.


¥

Exemples :

Arnaud Guyader Statistique


2.1. Quantités empiriques 51

0.3
0.0
0.75

0.2 −0.5
0.50

0.1 −1.0
0.25

−1.5
0.0
−5.0 −2.5 0.0 2.5 5.0 −5.0 −2.5 0.0 2.5 5.0 0 250 500 750 1000

Figure 2.3 – Densité de Cauchy, fonction de répartition et convergence de la médiane empirique.

1. On considère (X1 , . . . , Xn ) i.i.d. selon la loi de Cauchy de densité


1
f (x) = .
π (1 + (x − θ)2 )
Sa médiane est clairement le paramètre de translation θ, que l’on estime donc par la médiane
empirique x1/2 (n). Le résultat précédent nous assure que
p.s.
x1/2 (n) −−−→ x1/2 = θ,
n→∞

avec plus précisément


√ L ¡ ¢
n(x1/2 (n) − θ) −−−→ N 0, π 2 /4 .
n→∞

Via l’approximation usuelle Φ−1 (0.975)


≈ 2, on en déduit par exemple qu’un intervalle de
confiance de niveau asymptotique 95% pour θ est donné par
· ¸
π π
x1/2 (n) − √ ; x1/2 (n) + √ .
n n
Lorsque θ = 0, la densité de la loi de Cauchy symétrique, sa fonction de répartition et la
convergence de la médiane empirique sont illustrées Figure 2.3.
2. Si xp est le quantile d’ordre p de F , on a nécessairement F (x) < F (xp ) si x < xp . La
condition de stricte croissance de F en xp se ramène donc à la condition F (x) > F (xp ) si
x > xp . Bref, il ne faut pas que la fonction de répartition soit plate à droite de xp . Un exemple
élémentaire permet de comprendre ce qui se passe : soit X distribué suivant une loi de
Bernoulli de paramètre 1/2. Sa médiane vaut donc 0. Il est néanmoins facile de se convaincre
que la médiane empirique x1/2 (n) va osciller éternellement (mais pas régulièrement) de la
valeur 0 à la valeur 1 (voir Figure 2.4).
3. Le comportement pathologique de la médiane empirique en exemple précédent n’est pas
dû au fait que la loi de X est discrète. En effet, on peut très bien avoir le même type de
phénomène lorsque X a une densité. Par exemple, soit Y ∼ N (0, 1) et la variable X définie
comme suit :
X = Y 1Y <0 + (1 + Y )1Y ≥0 .
La densité de X présente donc un trou entre 0 et 1, sa fonction de répartition un plateau
sur cet intervalle, et sa médiane vaut x1/2 = 0 (voir Figure 2.5 à gauche). Ici encore,
la médiane empirique x1/2 (n) va osciller éternellement entre des valeurs négatives et des
valeurs supérieures à 1 (voir Figure 2.5 à droite).

Statistique Arnaud Guyader


52 Chapitre 2. Estimation unidimensionnelle

1.00

0.75

0.50

0.25

0.00
0 2500 5000 7500 10000

Figure 2.4 – Oscillation de la médiane empirique pour des variables de Bernoulli B(1/2).

0.4 1.00 1.0

0.3 0.75
0.5
0.2 0.50
0.0
0.1 0.25

−0.5
0.0 0.00
−2 0 2 4 −2 0 2 4 0 250 500 750 1000

Figure 2.5 – Densité de X = Y 1Y <0 + (1 + Y )1Y ≥0 , fonction de répartition et oscillation de la


médiane empirique.

Arnaud Guyader Statistique


2.1. Quantités empiriques 53

4. Pour comprendre la présence du f (xp ) au dénominateur dans la variance asymptotique,


voyons deux exemples. Dans le premier, on considère un mélange équiprobable de deux
gaussiennes réduites de moyennes opposées, par exemple -3 et +3. Formellement, en notant
Y et Z les variables gaussiennes en question et B une variable de Bernoulli de paramètre
1/2, indépendante des 2 précédentes, ceci s’écrit 2 :

1 1 (x−3)2 1 1 (x+3)2
X = B × Y + (1 − B) × Z =⇒ f (x) = × √ e− 2 + × √ e− 2 .
2 2π 2 2π

Par symétrie, la médiane de X est en 0, et par le premier point du théorème on est assuré de
la convergence de x1/2 (n) vers 0. Néanmoins, cette convergence est très lente : la plupart des
points tombant près de l’un ou l’autre des modes, la médiane empirique sera elle-même très
longtemps plus proche de l’un ou l’autre des modes que de 0 (voir Figure 2.6). A contrario, si
on considère une brave gaussienne centrée réduite, l’échantillon sera bien concentré autour
de 0, donc si on coupe au milieu de celui-ci, la médiane empirique sera proche de 0.

0.20 1.00
1
0.15 0.75
0

0.10 0.50 −1

0.05 0.25 −2

−3
0.00 0.00
−5.0 −2.5 0.0 2.5 5.0 −5.0 −2.5 0.0 2.5 5.0 0 250 500 750 1000

Figure 2.6 – Densité d’un mélange équiprobable de gaussiennes, fonction de répartition et médiane
empirique.

Remarque : Le résultat de normalité asymptotique du Théorème 8 ne permet pas de construire


des intervalles de confiance si on ne connaît pas f (xp ). Dit autrement, la loi limite n’est pas
pivotale. Alors que faire ?
Astuce : si l’on sait encadrer Fn (xp ), alors il suffira “d’inverser” cet encadrement pour en déduire
un intervalle de confiance pour xp . Or, d’après la Proposition 9, si F (xp ) = p, c’est-à-dire si F est
continue en xp , on a
√ √ L
n (Fn (xp ) − F (xp )) = n (Fn (xp ) − p) −−−→ N (0, p(1 − p)),
n→∞

donc
à p p !
p(1 − p) p(1 − p)
P p − Φ−1 (1 − α/2) √ ≤ Fn (xp ) < p + Φ−1 (1 − α/2) √ −−−→ 1 − α.
n n n→∞

On peut alors appliquer l’équivalence (2.3) des Propriétés 1 avec Fn :

Fn (x) ≥ u ⇐⇒ x ≥ Fn−1 (u) et Fn (x) < v ⇐⇒ x < Fn−1 (v)

2. Pour trouver la densité, on peut commencer par calculer la fonction de répartition.

Statistique Arnaud Guyader


54 Chapitre 2. Estimation unidimensionnelle

pour en déduire un intervalle de confiance de niveau asymptotique (1 − α) pour xp , à savoir :


" Ã p ! Ã p !"
p(1 − p) p(1 − p)
Fn−1 p − Φ−1 (1 − α/2) √ , Fn−1 p + Φ−1 (1 − α/2) √ ,
n n

ou encore (qui peut le plus peut le moins) :


" Ã p ! Ã p !#
p(1 − p) p(1 − p)
Fn−1 p − Φ−1 (1 − α/2) √ , Fn−1 p + Φ−1 (1 − α/2) √ .
n n

Noter que cet intervalle s’obtient très facilement en pratique : si on définit p+ et p− par
p
± −1 p(1 − p)
p =p±Φ (1 − α/2) √ ,
n

l’intervalle de confiance s’écrit tout simplement [X(⌈np− ⌉) , X(⌈np+ ⌉) ], et l’affaire est entendue.

Exemple. Lorsque F est continue en la médiane, un intervalle de confiance à 95% pour celle-ci
√ √
est, à peu de choses près, complètement défini par les statistiques d’ordres n/2 − n et n/2 + n.
Autrement dit, si n = 104 , il y a environ 95% de chances que la médiane se situe dans l’intervalle
[X(4900) , X(5100) ].

Remarque. Le raisonnement précédent a ceci de remarquable qu’il ne suppose ni la connaissance


de f (xp ) ni sa stricte postivité ! La seule chose requise est la continuité de F en xp . Un exemple
d’application est donné en fin de section 2.2.2.

2.2 Estimation paramétrique unidimensionnelle


On se limite désormais au modèle paramétrique unidimensionnel, c’est-à-dire qu’on dispose d’un
échantillon (X1 , . . . , Xn ) de variables aléatoires réelles i.i.d. de loi Pθ paramétrée par θ ∈ Θ, où θ est
inconnu et Θ est un intervalle de R. Cette section présente deux techniques classiques d’estimation
de θ : méthodes des moments et du maximum de vraisemblance.

2.2.1 La méthode des moments


Nous avons vu en Proposition 6 que si

√ L
n(ϕ̂n − ϕ(θ)) −−−→ N (0, σ 2 ),
n→∞

alors, sous des hypothèses idoines et en notant θ̂n := ϕ−1 (ϕ̂n ), on a

√ L
n(θ̂n − θ) −−−→ N (0, (σ/ϕ′ (θ))2 ).
n→∞

Sous le nom de méthode des moments ne se cache rien de plus que le cas particulier où ϕ(θ)
correspond à un moment de Pθ , c’est-à-dire que ϕ(θ) = E[X1k ] ou plus généralement ϕ(θ) =
E[h(X1 )]. L’exemple le plus connu est celui où l’on estime ϕ(θ) = E[X1 ] par la moyenne empirique
X̄n . Nous allons décliner cette idée sur plusieurs exemples.

Arnaud Guyader Statistique


2.2. Estimation paramétrique unidimensionnelle 55

Lois uniformes
La loi uniforme est la loi du “hasard pur”. Rappelons que X suit une loi uniforme sur [a, b], où
−∞ < a < b < +∞, si elle a pour densité f (x) = 1[a,b] (x)/(b − a). Sa moyenne vaut E[X] =
(a + b)/2 et sa variance Var(X) = (b − a)2 /12.
Considérons le modèle à un paramètre d’une loi uniforme sur [θ − 1, θ + 1]. On a donc E[X] = θ
et Var(X) = 1/3. La moyenne empirique X̄n est donc un estimateur sans biais de θ, son risque
quadratique vaut 1/(3n) et on a la convergence en loi
√ L
n(X̄n − θ) −−−→ N (0, 1/3).
n→∞

Si on veut des intervalles de confiance pour θ, on a au moins trois méthodes à notre disposition :
— Inégalité de Bienaymé-Tchebychev :
µ ¶
1 1 1
P(|X̄n − θ| ≥ c) ≤ =⇒ Pθ X̄n − √ ≤ θ ≤ X̄n + √ ≥ 1 − α.
3nc2 3nα 3nα

— Inégalité de Hoeffding : les variables étant bornées, on peut écrire


c2 n
P(|X̄n − θ| ≥ c) ≤ 2e− 2 ,

d’où Ã r r !
−2 log(α/2) −2 log(α/2)
Pθ X̄n − ≤ θ ≤ X̄n + ≥ 1 − α.
n n

Noter que l’inégalité de Hoeffding permet aussi de contruire des intervalles de confiance
unilatères.
— Normalité asymptotique : on a cette fois des intervalles de confiance asymptotiques
µ ¶
q1−α/2 q1−α/2
Pθ X̄n − √ ≤ θ ≤ X̄n + √ −−−→ 1 − α,
3n 3n n→∞

et on peut construire là encore des intervalles de confiance asymptotiques unilatères.


Comme expliqué au Chapitre 1, on peut déduire de ces intervalles de confiance des tests d’hypo-
thèses.

Lois exponentielles
La loi exponentielle correspond très souvent à la loi d’une durée. Rappelons que la variable X suit
une loi exponentielle de paramètre λ > 0, noté X ∼ E(λ), si elle a pour densité f (x) = λe−λx 1x≥0 .
Sa moyenne vaut E[X] = 1/λ et sa variance Var(X) = 1/λ2 . Le réel λ est un paramètre d’échelle :
si X ∼ E(λ), alors Y = λX ∼ E(1). Si on considère la moyenne empirique, on a donc
µ ¶
1
p.s. √ 1 L
X̄n −−−→ et n X̄n − −−−→ N (0, 1/λ2 ).
n→∞ λ λ n→∞

Si on considère l’estimateur 1/X̄n = g(X̄n ), on sait par le Théorème de Continuité qu’il est
convergent et la méthode Delta donne
µ ¶
√ 1 L
n − λ −−−→ N (0, λ2 ).
X̄n n→∞

Statistique Arnaud Guyader


56 Chapitre 2. Estimation unidimensionnelle

Lois Gamma
En guise de mise en bouche, on rappelle que la fonction Gamma, définie pour tout réel r > 0 par
Z +∞
Γ(r) = xr−1 e−x dx, (2.6)
0

vérifie Γ(1/2) = π, Γ(1) = 1, Γ(r + 1) = rΓ(r) donc pour tout entier naturel n, Γ(n + 1) = n!.
Un changement de variable évident montre ainsi que, pour tout λ > 0, la fonction

(λx)r−1 −λx
f (x) = fr,λ (x) = λe 1x≥0
Γ(r)

définit une densité sur R+ . Si la variable aléatoire X a cette densité, on dit que X suit une loi
Gamma de paramètres r et λ et on note X ∼ Γ(r, λ).

Propriétés 2 (Loi Gamma)


1. Lien avec la loi exponentielle : Γ(1, λ) = E(λ).
2. Changement d’échelle : si X ∼ Γ(r, λ) et si α > 0, alors αX ∼ Γ(r, λ/α).
3. Moments : E[X] = r/λ et Var(X) = r/λ2 .
4. Lien avec la loi du khi-deux : si Y ∼ N (0, 1), alors Y 2 ∼ Γ(1/2, 1/2), donc χ21 = Γ(1/2, 1/2).
5. Stabilité : si (X1 , . . . , Xn ) sont indépendantes de lois respectives Γ(ri , λ), alors

X1 + · · · + Xn ∼ Γ(r1 + · · · + rn , λ).

Par conséquent :
— Si (X1 , . . . , Xn ) sont i.i.d. de loi E(λ), alors
n
X
Xi ∼ Γ(n, λ) et X̄n ∼ Γ(n, nλ).
i=1
Pn 2
— Si (X1 , . . . , Xn ) sont i.i.d. de loi N (0, 1), alors i=1 Xi ∼ Γ(n/2, 1/2), c’est-à-dire que
χ2n = Γ(n/2, 1/2).

Lorsque r est grand, la loi Γ(r, λ) ressemble à une loi normale (voir Figure 2.7). Par abus de
L
notation, on écrira parfois “Γ(r, λ) ≈ N (r/λ, r/λ2 )”, en ayant bien conscience de ce que cela
signifie, à savoir
¯ µ ¶ ¯
λ ³ r´ L ¯
¯ λ ³ r´ ¯
√ Xr − −−−→ N (0, 1) ⇐⇒ ∀x ∈ R, ¯P √ Xr − ≤ x − Φ(x)¯¯ −−−→ 0.
r λ r→∞ r λ r→∞

Pour l’estimation de paramètres, partant d’un échantillon (X1 , . . . , Xn ) i.i.d. selon une loi Γ(r, λ),
la moyenne empirique a les propriétés suivantes : E[X̄n ] = r/λ, Var(X̄n ) = r/(λ2 n), donc
r
√ ³ r´ L 2 n¡ ¢ L
n X̄n − −−−→ N (0, r/λ ) ⇐⇒ λX̄n − r −−−→ N (0, 1).
λ n→∞ r n→∞

Supposons que r est connu et que l’on cherche à estimer λ. Un intervalle de confiance asymptotique
se déduit donc de la convergence
µ µ √ ¶ µ √ ¶¶
1 q1−α/2 r 1 q1−α/2 r
P r− √ ≤λ≤ r+ √ −−−→ 1 − α.
X̄n n X̄n n n→∞

Arnaud Guyader Statistique


2.2. Estimation paramétrique unidimensionnelle 57

0.08

0.09
0.2 0.06

0.06
0.04

0.1

0.03 0.02

0.0 0.00 0.00

0.0 2.5 5.0 7.5 10.0 15 20 25 30 35 40 50 60

Figure 2.7 – Densités de lois Γ(r, λ) (noir) et N (r/λ, r/λ2 ) (rouge) avec λ = 2 et respectivement
r = 10, 50, 100.

On peut aussi appliquer Tchebychev pour un intervalle non asymptotique. Notons qu’en prenant
r = 1, tout ceci s’applique en particulier au cas d’une loi exponentielle de paramètre inconnu λ.
Si, réciproquement, λ est connu et que l’on cherche à estimer r, on sait d’une part que λX̄n est
un estimateur convergent de r, d’autre part grâce à la normalité asymptotique ci-dessus et le
Théorème de Slutsky que
√ λX̄n − r L
n p −−−→ N (0, 1),
λX̄n n→∞
ce qui fournit des intervalles de confiance asymptotiques pour r. Là encore, Tchebychev permet
d’obtenir des intervalles non asymptotiques, au prix de la résolution d’équations du second degré.

Translation et changement d’échelle


A partir d’une densité f sur R et considérant un couple (µ, σ) ∈ R × R∗+ , on peut définir une
nouvelle densité fµ,σ par translation et changement d’échelle comme suit :
1
∀y ∈ R fµ,σ (y) = f ((y − µ)/σ).
σ
Si X a pour densité f = f0,1 , la variable aléatoire Y = σX +µ a pour densité fµ,σ . On en trouve des
exemples à foison dans la littérature. L’exemple le plus courant est celui où X ∼ N (0, 1), auquel
cas Y = σX + µ ∼ N (µ, σ 2 ). On peut encore citer le cas où X ∼ U[0,1] et Y = (b − a)X + a ∼ U[a,b] .
Dans un contexte de statistique inférentielle, supposons que l’on connaisse E[X] = m, Var(X) = s2
et qu’à partir d’un échantillon (Y1 , . . . , Yn ) i.i.d. selon la densité fµ,σ , on veuille estimer µ ou σ.
On commence par noter que

E[Y ] = σm + µ et Var(Y ) = s2 σ 2 .

Si σ est connu et que l’on veut estimer µ, on propose donc l’estimateur


n
1X
µ̂n = Ȳn − σm = Yi − σm.
n
i=1

Par les théorèmes classiques, cet estimateur est non biaisé, consistant et obéit à la normalité
asymptotique
√ L
n(µ̂n − µ) −−−→ N (0, σ 2 s2 ),
n→∞

Statistique Arnaud Guyader


58 Chapitre 2. Estimation unidimensionnelle

ce qui permet de construire des intervalles de confiance asymptotiques. A nouveau, les inégali-
tés de Tchebychev et Hoeffding (dans le cas borné) fournissent des intervalles de confiance non
asymptotiques.
Si µ est connu et que l’on veut estimer σ, distinguons deux cas de figure possibles :
— si m 6= 0 : l’estimateur naturel est alors

1
σ̂n = (Ȳn − µ),
m
qui est consistant et vérifie
µ ¶
√ L 2 √ m σ̂n L
n(σ̂n − σ) −−−→ N (0, (σs/m) ) ⇐⇒ n −1 −−−→ N (0, 1),
n→∞ s σ n→∞

d’où l’on déduit des intervalles de confiance asymptotiques.


— Si m = 0, il faut aller à l’ordre 2 : puisque Var(Y ) = E[(Y − µ)2 ] = s2 σ 2 , l’estimateur est
cette fois
n µ ¶
2 1 X Yi − µ 2
σ̂n = ,
n s
i=1

lequel est bien convergent par la loi des grands nombres. Si on suppose de plus l’existence
d’un moment d’ordre 4 pour Y (ou, ce qui est équivalent, pour X), alors
µ ¶
√ L √ s2 σ̂n2 L
n(σ̂n2 2 4
− σ ) −−−→ N (0, σ Var(X )/s ) ⇐⇒ 2 4
n p −1 −−−→ N (0, 1),
n→∞ Var(X 2 ) σ2 n→∞

et on peut à nouveau obtenir des intervalles de confiance asymptotiques.

Comparaison avec les quantiles empiriques


Nous avons vu en Section 2.1.2 des résultats de consistance et de normalité asymptotique pour
le quantile empirique et l’avons illustré sur l’exemple de la médiane d’une loi de Cauchy. Lorsque
médiane et moyenne coïncident, on dispose donc de deux estimateurs de celle-ci, moyenne et
médiane empiriques, que l’on peut chercher à comparer.
Exemple. Supposons (X1 , . . . , Xn ) i.i.d. selon la loi normale N (θ, 1), alors par le TCL 3
√ L
n(X̄n − θ) −−−→ N (0, 1),
n→∞

tandis qu’en notant x1/2 (n) la médiane empirique, on a


√ L
n(x1/2 (n) − θ) −−−→ N (0, π/2).
n→∞

Sur ce cas particulier, la médiane empirique correspond donc à un estimateur un peu moins précis
que la moyenne empirique. Notons que ça n’est pas toujours le cas, il suffit pour s’en convaincre

de considérer une loi de Laplace : l’estimateur de la médiane empirique est asymptotiquement 2
fois plus précis que celui de la moyenne empirique.
Même lorsque, comme dans le cas gaussien, l’estimateur de la médiane empirique est théoriquement
moins bon, cet estimateur peut être intéressant en raison de sa robustesse. Un exemple très simple
permet de comprendre l’idée.
3. Noter que, dans ce cas particulier, il y a en fait égalité en loi pour tout n ≥ 1 puisque X̄n ∼ N (θ, 1/n).

Arnaud Guyader Statistique


2.2. Estimation paramétrique unidimensionnelle 59

Exemple : donnée aberrante. Supposons θ = 0 dans l’exemple précédent, c’est-à-dire les Xi


normales centrées réduites. On dispose de 100 observations, les 99 premières suivant la loi prescrite,
tandis que la dernière, pour une raison ou une autre (erreur de manipulation, etc.), est aberrante
et vaut 50. Alors, sachant que X100 = 50, on a pour la moyenne empirique
99
1 X 1
X̄n = Xi + ∼ N (1/2, 99/104 ).
100 2
i=1

L’écart-type valant à peu près 1/10, il y a environ 95% de chances que X̄n se trouve entre 0.3
et 0.7, tandis qu’en l’absence de valeur aberrante, celle-ci se trouverait entre -0.2 et 0.2, d’où le
problème : une seule valeur erronée a fait dérailler l’estimateur... A contrario, il est clair que celle-
ci n’a quasiment aucune influence sur la médiane empirique. Ainsi la médiane empirique est-elle
beaucoup plus stable que la moyenne empirique face aux données aberrantes : on dit qu’elle est
robuste.
Rappel ! Revenons sur la médiane empirique dans un cadre général. Comme expliqué précédem-
ment, le résultat de normalité asymptotique
µ ¶
√ L 1
n(x1/2 (n) − x1/2 ) −−−→ N 0,
n→∞ 4f (x1/2 )2

est inemployable pour la construction d’intervalles de confiance si on ne connaît pas f (x1/2 ), ce


qui est très souvent le cas. Mais on s’en sort quand même grâce à la ruse du passage par Fn (x1/2 ),
ce qui donne l’intervalle de confiance asymptotique à 95% (en arrondissant 1.96 à 2) :

[X(⌈n/2−√n⌉) , X(⌈n/2+√n⌉) ].

2.2.2 Le maximum de vraisemblance


On considère un modèle statistique (Pθ )θ∈Θ dominé par une mesure ν et on note, pour tout θ ∈ Θ,
gθ = dPθ /dν la densité correspondante. Etant donné une observation X = (X1 , . . . , Xn ), on peut
donc calculer Ln (θ) = gθ (X) et, avec la convention usuelle log 0 = −∞,

ℓn (θ) = log Ln (θ) = log gθ (X),

respectivement appelées vraisemblance et log-vraisemblance associées à θ, et ce pour toute valeur


θ ∈ Θ.

Définition 23 (Maximum de vraisemblance)


Avec les notations précédentes, un estimateur du maximum de vraisemblance (EMV) est, sous
réserve d’existence, une statistique θ̂ = θ̂(X) ∈ Θ qui vérifie

Ln (θ̂) = sup Ln (θ) ⇐⇒ ℓn (θ̂) = sup ℓn (θ).


θ∈Θ θ∈Θ

Dans le cas d’un modèle d’échantillonnage où X = (X1 , . . . , Xn ) avec les Xi i.i.d., autrement dit
gθ (x1 , . . . , xn ) = fθ (x1 ) . . . fθ (xn ), on a donc
n
X
ℓn (θ̂) = sup log fθ (Xi ).
θ∈Θ i=1

Interprétation : sous réserve d’existence et d’unicité, l’EMV θ̂ est donc la valeur de θ qui rend
le jeu d’observations X1 , . . . , Xn le plus vraisemblable. Dès lors, il est logique que θ̂ soit une
variable aléatoire dépendant des Xi .

Statistique Arnaud Guyader


60 Chapitre 2. Estimation unidimensionnelle

Lorsque Θ est fini, le modèle identifiable et les Xi i.i.d., on peut montrer qu’il existe un EMV et
qu’il est asymptotiquement unique et convergent. Mais, en général, ni l’existence ni l’unicité des
EMV ne sont assurées. En fait, à peu près tout peut arriver, comme on pourra s’en rendre compte
sur quelques exemples par la suite.
Supposons que, partant du paramétrage par θ ∈ Θ, on considère une bijection ϕ : Θ → Λ. Il est
alors équivalent de travailler avec les densités (gθ )θ∈Θ ou avec les densités (hλ )λ∈Λ définies par
hλ (x) = gϕ−1 (λ) (x). Sous réserve d’existence, un EMV λ̂ du second paramétrage vérifie alors
hλ̂ (X) = sup hλ (X) = sup gϕ−1 (λ) (X) = sup gθ (X) = gθ̂ (X),
λ∈Λ λ∈Λ θ∈Θ
donc il y a correspondance bijective entre EMV pour les deux paramétrages. Il est ainsi équivalent
de dire que θ̂ est un EMV de θ ou que λ̂ = ϕ(θ̂) est un EMV de λ = ϕ(θ). Par convention, on
étend ce principe au cas où ϕ n’est pas bijective.
Définition 24 (Extension de la notion d’EMV)
Si ϕ est une application définie sur Θ, on dit que ϕ(θ̂) est un estimateur du maximum de vraisem-
blance de ϕ(θ) si θ̂ est un estimateur du maximum de vraisemblance de θ.
Exemple. Considérons un modèle gaussien où les variables Xi sont i.i.d. de loi N (θ, 1). La log-
vraisemblance s’écrit (voir aussi Figure 2.8)
n
n 1X
ℓn (θ) = − log(2π) − (Xi − θ)2 .
2 2
i=1

On vérifie sans problème que l’unique maximum de cette fonction est en θ̂ = X̄n . L’EMV coïncide
donc avec la moyenne empirique. Avec la convention de la définition précédente, nous dirons donc
que l’EMV de θ2 dans ce modèle est (X̄n )2 .

1e−33
1.4
0 Vraisemblance
Données
−50
1.2

−100 1.0

−150
0.8
−200
0.6
−250
0.4
−300

0.2
−350
Log-vraisemblance
−400 Données 0.0
0 1 2 3 4 5 0 1 2 3 4 5

Figure 2.8 – Echantillon de 50 variables i.i.d. de loi N (3, 1), log-vraisemblance et vraisemblance.

Remarque. Pour un modèle (Pθ )θ∈θ ) dominé, l’EMV dépend de la densité choisie ! Reprenons
l’exemple précédent du modèle de translation gaussien, i.e. X ∼ N (θ, 1), mais plutôt que la
2
densité classique fθ (x) = f (x − θ) avec f (x) = (2π)−1/2 e−x /2 , considérons gθ (x) = g(x − θ) où
g(x) = f (x)1x6=1 + 1x=1 . Puisque f et g sont égales presque partout, g est encore une densité par
rapport à la mesure de Lebesgue, de loi associée la gaussienne standard, et le modèle de translation
défini à partir de cette densité est le même que précédemment. Néanmoins, il est facile de voir
que si n = 1, c’est-à-dire que l’on dispose d’une seule observation X ∼ N (θ, 1), l’EMV pour les
densités gθ est θ̃ = X − 1 et non plus θ̂ = X. Dans la suite, on considérera toujours les versions
“classiques” des densités.
Nous présentons maintenant quelques exemples illustrant différents cas de figures.

Arnaud Guyader Statistique


2.2. Estimation paramétrique unidimensionnelle 61

Modèle gaussien. On étend l’exemple précédent au cas où Xi ∼ N (µ, σ 2 ). La log-vraisemblance


s’écrit cette fois comme une fonction de deux variables :
n
n n 1 X
ℓn (µ, σ 2 ) = − log(2π) − log(σ 2 ) − 2 (Xi − µ)2 .
2 2 2σ
i=1

Si σ est connu, tout se passe comme ci-dessus et l’EMV de µ est µ̂ = X̄n . Si µ est connu et si on
cherche l’EMV de σ 2 , la dérivation par rapport à σ 2 (et non par rapport à σ !) donne
n n
n 1 X 2 2 1X
− + (X i − µ) =⇒ σ̂ = (Xi − µ)2 .
2σ 2 2σ 4 n
i=1 i=1

Ainsi, dans les deux cas, les EMV correspondent aux estimateurs obtenus par la méthode des
moments. Notons que la maximisation de ℓn (µ, σ 2 ) par rapport à µ ne dépend pas de la valeur
de σ 2 : c’est toujours µ̂ = X̄n . Donc, si les deux paramètres sont inconnus, l’EMV de σ 2 doit
maximiser
n n
2 n n 2 1 X 2 2 1X
ℓn (X̄n , σ ) = − log(2π) − log(σ ) − 2 (Xi − X̄n ) =⇒ σ̂ = (Xi − X̄n )2 ,
2 2 2σ n
i=1 i=1

qui correspond à la variance empirique.

Loi de Poisson. On passe maintenant à un exemple discret. Si X ∼ P(λ), avec λ > 0, alors
P(X = k) = e−λ λk /k! pour tout entier naturel k. La densité de la loi de Poisson par rapport
à la mesure de comptage sur N est ainsi définie par fλ (x) = e−λ λx /x! pour tout entier naturel
x. Un échantillon i.i.d. (X1 , . . . , Xn ) étant donné, sa log-vraisemblance vaut donc, après quelques
bidouillages,
Xn
ℓn (λ) = n(X̄n log λ − λ) − log(Xi !),
i=1

laquelle se minimise sans difficulté et aboutit à l’EMV λ̂ = X̄n si X̄n > 0. Le cas pathologique où
la moyenne empirique est nulle correspond à la nullité de tous les Xi . Dans ce cas ℓn (λ) = −nλ,
qui n’a pas de maximum, la valeur λ = 0 étant exclue pour une loi de Poisson. Notons cependant
que ceci n’arrive qu’avec probabilité exp(−nλ), qui tend exponentiellement vite vers 0 avec n.

Loi uniforme sur [0, θ]. La densité étant égale à fθ (x) = 1[0,θ] (x)/θ, la vraisemblance vaut
n
1 Y 1
Ln (θ) = n 1[0,θ] (Xi ) = n 1[X(n) ,+∞[ (θ),
θ θ
i=1

où X(n) = max(X1 , . . . , Xn ) est la statistique d’ordre n. La maximisation se voit tout de suite : il


faut garder l’indicatrice égale à 1 et minimiser θn , d’où l’EMV θ̂ = X(n) .
On peut dire beaucoup de choses sur cet estimateur, puisque sa fonction de répartition est tout
simplement Fθ̂ (t) = P(X(n) ≤ t) = (t/θ)n pour tout t ∈ [0, θ], d’où sa densité et son espérance :
n n−1 n
fθ̂ (t) = t 1[0,θ] (t) =⇒ Eθ [θ̂] = θ,
θn n+1
ce qui prouve qu’il est biaisé (biais en O(1/n)). Le moment d’ordre 2 permet de calculer le risque
quadratique :
n 2 h i 2θ2
Eθ [θ̂2 ] = θ =⇒ R(θ̂, θ) = Eθ (θ̂ − θ)2 = .
n+2 (n + 1)(n + 2)

Statistique Arnaud Guyader


62 Chapitre 2. Estimation unidimensionnelle

Grâce à la fonction de répartition, on note que, pour tout α ∈]0, 1[,

Pθ (θ̂ ≤ α1/n θ) = α =⇒ Pθ (θ̂ ≤ θ ≤ α−1/n θ̂) = 1 − α,

ce qui fournit un intervalle de confiance (non asymptotique !) de niveau (1 − α).


Puisque Eθ [X̄n ] = θ/2, un estimateur basé sur la méthode des moments serait θ̃ = 2X̄n , lequel est
nettement moins bon en terme de risque quadratique puisque

θ2
R(θ̃, θ) = Var(2X̄n ) = ,
3n
et ce bien que l’EMV soit biaisé. Par ailleurs, le calcul de la fonction de répartition montre que,
pour tout t ≥ 0,
³ ´ µ ¶ µ ¶
t t n t
Pθ n(θ − θ̂) ≥ t = Fθ̂ θ − = 1− 1[0,nθ] (t) −−−→ e− θ 1[0,∞[ (t),
n θn n→∞

ce qui prouve que


L
n(θ − θ̂) −−−→ E(1/θ).
n→∞

Ainsi, l’EMV θ̂ converge à vitesse 1/n vers θ et la loi limite est une loi exponentielle.

Loi uniforme sur [θ − 1, θ + 1]. Cette fois la vraisemblance s’écrit


n
1 Y 1
Ln (θ) = n 1[θ−1,θ+1] (Xi ) = n 1[X(n) −1,X(1) +1] (θ).
2 2
i=1

Elle ne prend que deux valeurs, 0 et 1/2n , de sorte que tout θ ∈ [X(n) − 1, X(1) + 1] est un EMV 4
C’est donc une situation où il n’y a pas unicité de l’EMV. En calculant les fonctions de répartition
de X(1) et X(n) à l’instar de ce qui a été fait dans l’exemple précédent, on montre facilement que
X(1) tend vers (θ − 1) et X(n) vers (θ + 1). Par conséquent, quel que soit le choix de θ̂n dans
l’intervalle [X(n) − 1, X(1) + 1], on aura convergence vers θ. Une possibilité est de couper la poire
en deux en choisissant le milieu de l’intervalle, i.e. θ̂n = (X(1) + X(n) )/2.

Dérivée de la log-vraisemblance 0
Données
40 −200

−400
20
−600

0 −800

−1000
−20
−1200

−40 −1400
Log-vraisemblance
−1600
Données
0 200 400 600 800 1000 1200 1400 1600 0 200 400 600 800 1000 1200 1400 1600

Figure 2.9 – 10 variables de Cauchy avec θ = 2, dérivée de la log-vraisemblance et log-


vraisemblance.

4. noter que [X(n) − 1, X(1) + 1] est toujours non vide car 0 < X(n) − X(1) < 2.

Arnaud Guyader Statistique


2.2. Estimation paramétrique unidimensionnelle 63

Loi de Cauchy. On considère la loi de Cauchy translatée déjà croisée, à savoir


1
fθ (x) = .
π(1 + (x − θ)2 )

La log-vraisemblance s’écrit
n
X
ℓn (θ) = −n log π − log(1 + (Xi − θ)2 ).
i=1

Elle est continue et tend vers −∞ lorsque θ → ±∞, donc elle admet un (ou plusieurs) EMV. Il
“suffit” pour le(s) trouver d’annuler la dérivée :
n
X Xi − θ
ℓ′n (θ) = 2 .
1 + (Xi − θ)2
i=1

Après réduction au même dénominateur, on obtient au numérateur un polynôme non trivial de


degré (2n−1). Même en cherchant ses racines de façon numérique, il peut y en avoir jusqu’à (2n−1),
ce qui devient prohibitif en temps de calcul en présence d’un échantillon de taille conséquente (voir
aussi Figure 2.9). Bref, on préférera de loin l’estimateur x1/2 (n) de la médiane empirique vu
en Section 2.1.2, lequel se calcule en deux coups de cuillère à pot. Il suffit en effet d’ordonner
l’échantillon et de prendre le point du milieu : x1/2 (n) = X(⌈n/2⌉) .

Un exemple retors. On part de


à !
1 1 1
f (x) = p 1]0,1] (|x|) + 2 1]1,+∞[ (|x|) .
6 |x| x

Ceci définit bien une densité, laquelle présente la particularité d’être discontinue en 0, où elle
explose (mais f (0) = 0). On considère alors la famille de densités (fθ )θ∈R obtenues par translation
de f , c’est-à-dire pour tous réels θ et x,
à !
1 1 1
fθ (x) = f (x − θ) = p 1]0,1] (|x − θ|) + 1 (|x − θ|) . (2.7)
6 |x − θ| (x − θ)2 ]1,+∞[

Pour un n-échantillon (X1 , . . . , Xn ), la log-vraisemblance s’écrit donc


n n
1X X
ℓn (θ) = −n log 6 − log(|Xi − θ|)1]0,1] (|Xi − θ|) − 2 log(|Xi − θ|)1]1,+∞[ (|Xi − θ|).
2
i=1 i=1

Clairement, cette fonction tend vers +∞ dès que θ tend vers l’un des Xi , mais vaut 0 en chacun
des Xi par définition de f . Il n’y a donc pas d’estimateur du maximum de vraisemblance (voir
Figure 2.10). On peut également noter que si X a pour densité fθ , elle n’admet pas d’espérance,
donc la méthode des moments mène elle aussi à une impasse. Pour estimer θ, on peut néanmoins
s’en sortir en passant par la médiane empirique. En effet, la fonction de répartition associée à la
densité f est


 −1/(6x)
√ si x ≤ −1

1/2 − −x/3 si − 1 ≤ x ≤ 0
F (x) = √

 1/2 + x/3 si 0 ≤ x ≤ 1

1 − 1/(6x) si x ≥ 1

Statistique Arnaud Guyader


64 Chapitre 2. Estimation unidimensionnelle

Cette fonction est continue bijective, de médiane 0. Par translation, la médiane de la variable
aléatoire X de densité fθ est donc θ, le paramètre que l’on cherche à estimer. Notant comme
d’habitude x1/2 (n) = X(⌈n/2⌉) la médiane empirique, le résultat de consistance s’applique :
p.s.
x1/2 (n) −−−→ θ.
n→∞

Par contre, la normalité asymptotique telle qu’énoncée en Théorème 8 est hors-sujet puisque
fθ (θ) = 0. Il n’en reste pas moins que l’on peut toujours construire des intervalles de confiance
grâce à la méthode vue et revue du passage par la fonction de répartition empirique : ainsi,
[X(⌈n/2−√n⌉) , X(⌈n/2+√n⌉) ] est un intervalle de confiance asymptotique à 95%.

−40
0 Log-vraisemblance Log-vraisemblance (zoom)
Données
−20 −45

−40 −50

−60
−55
−80
−60
−100
−65
−120
−70
−140

−15 −10 −5 0 5 10 15 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0

Figure 2.10 – Echantillon de 20 variables de loi (2.7) avec θ = 2 et log-vraisemblance “explosive”.

2.3 Comparaison d’estimateurs


On reste dans le cadre précédent, c’est-à-dire celui d’un modèle paramétrique unidimensionnel
(Pθ )θ∈Θ où Θ est un intervalle de R. Lorsque plusieurs estimateurs de θ sont disponibles, lequel
doit-on choisir ? Plus généralement, existe-t-il un estimateur “optimal”, et si oui en quel sens ? Cette
section se propose de donner quelques éléments de réponses.

2.3.1 Principes généraux


Comparaison des risques
Comme on l’a vu, une façon de quantifier la qualité d’un estimateur θ̂ = θ̂(X) de θ est de passer
par son risque quadratique, i.e.
h i
R(θ, θ̂) = Eθ (θ̂(X) − θ)2 ,

où la moyenne se fait par rapport à la loi Pθ de l’observation X. En particulier, pour ce critère, θ̂


sera meilleur que θ̃ si
∀θ ∈ Θ R(θ, θ̂) ≤ R(θ, θ̃).
Cependant, s’il existe θ et θ′ tels que R(θ, θ̂) < R(θ, θ̃) et R(θ′ , θ̂) > R(θ′ , θ̃), on n’est pas plus
avancé. C’est précisément ce qui arrive dans le modèle gaussien déjà croisé où les n variables Xi
sont i.i.d. suivant une loi N (θ, 1) avec θ paramètre réel inconnu. Considérons les deux estimateurs

θ̂ = X̄n et θ̃ = 0, alors R(θ̂, θ) = 1/n et R(θ̃, θ) = θ2 , donc θ̂ est meilleur que θ̃ si |θ| ≥ 1/ n mais
moins bon sinon.

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 65

L’approche minimax consiste, pour un estimateur θ̂, à définir son risque maximal Rmax (θ̂) =
supθ∈Θ R(θ, θ̂), quantité qui ne dépend donc plus de θ, puis à chercher un estimateur θ̌ qui minimise
ce risque maximal, c’est-à-dire tel que
Rmax (θ̌) = inf Rmax (θ̂) = inf sup R(θ, θ̂),
θ̂ θ̂ θ∈Θ

où l’infimum est pris sur tous les estimateurs possibles θ̂ de θ. S’il existe, un tel estimateur θ̌ est dit
minimax : c’est donc un estimateur optimal dans le pire des cas. Dans l’exemple gaussien ci-dessus,
on constate que Rmax (θ̂) = 1/n tandis que Rmax (θ̃) = +∞, donc au sens du critère minimax le
premier estimateur est préférable au second. On peut en fait montrer que, dans ce modèle, θ̂ = X̄n
est un estimateur minimax. De façon plus générale, on peut cependant reprocher à ce critère d’être
trop pessimiste, notamment lorsque l’intervalle Θ n’est pas compact.
Le point de vue bayésien revient quant à lui à mettre une loi a priori Π sur le paramètre θ, dès
lors vu comme une variable aléatoire θ, et à définir le risque de Bayes
h i Z h i
2
RB (Π, θ̂) = E (θ̂(X) − θ) = Eθ (θ̂(X) − θ)2 Π(dθ),
Θ
où le premier symbole d’espérance signifie qu’on moyennise par rapport à X et par rapport à
θ, tandis que le second considère θ fixé à la valeur θ. A nouveau, l’intérêt est que la quantité
RB (Π, θ̂) ne dépend plus de θ. Un estimateur est alors dit de Bayes pour la loi a priori Π et le
risque quadratique s’il minimise le risque de Bayes 5 . Contrairement à un estimateur minimax,
c’est un estimateur qui est optimal en moyenne, ce qui semble un critère plus raisonnable. Cette
solution est attrayante, mais elle dépend tout de même de la loi a priori Π sur θ, laquelle peut être
sujette à débat...
Oublions le cadre bayésien pour revenir à l’approche fréquentiste et considérons la perte quadra-
tique. Sa décomposition biais carré-variance s’écrit
h i ³ ´2 ·³ ´2 ¸
2
R(θ, θ̂) = Eθ (θ̂ − θ) = Eθ [θ̂] − θ + Eθ θ̂ − Eθ [θ̂] ,

et on voit qu’un bon estimateur doit avoir un biais et une variance qui sont tous deux petits.

Quelques mots sur le biais


Dans la plupart des cas, nonobstant une idée largement répandue, le non-biais d’un estimateur ne
saurait être l’objet d’une attention démesurée. Donnons quelques arguments pour étayer ce point
de vue.

Absence d’estimateur non biaisé. Dans certaines situations, ce n’est même pas la peine de
se creuser la tête, il n’existe tout bonnement aucun estimateur sans biais. On observe X suivant
une loi binomiale B(n, 1/λ), où n est connu et λ > 1 est le paramètre que l’on cherche à estimer.
Supposons que λ̂ = λ̂(X) soit un estimateur sans biais de λ. Alors, pour tout λ > 1, on aurait
n µ ¶
X µ ¶
n −k 1 n−k
λ = E[λ̂(X)] = λ 1− λ̂(k).
k λ
k=0

Dans cette écriture, les λ̂(k) ne sont rien de plus que des coefficients réels dépendant de k et
indépendants de λ. L’équation précédente est équivalente à dire que, pour tout λ > 1,
Xn µ ¶
n+1 n
λ − λ̂(k)(λ − 1)n−k = 0.
k
k=0

5. Pour le risque quadratique, on peut montrer que la moyenne a posteriori E[θ|X] est un estimateur de Bayes.

Statistique Arnaud Guyader


66 Chapitre 2. Estimation unidimensionnelle

Un polynôme de degré exactement (n+1) ne pouvant avoir plus de (n+1) racines, ceci est absurde !
Il n’existe donc aucun estimateur sans biais pour ce problème.

Manque de stabilité. Supposons que θ̂ = θ̂(X) soit un estimateur non biaisé de θ et ϕ une
fonction. Hormis lorsque ϕ est affine, il n’y a en général aucune raison pour que E[ϕ(θ̂)] = ϕ(E[θ̂]) =
ϕ(θ), donc en général l’absence de biais n’est pas préservé par transformation. Ceci est limpide
lorsque ϕ est strictement convexe (ou concave), car l’inégalité de Jensen impose alors 6

E[ϕ(θ̂)] > ϕ(E[θ̂]) = ϕ(θ),

donc l’estimateur ϕ(θ̂) est biaisé, alors que θ̂ ne l’était pas.

L’histoire du débiaisage. Supposons qu’on dispose d’un estimateur biaisé mais que ce biais
est facilement rectifiable. Est-ce la meilleure chose à faire pour autant ? Pas forcément... Revenons
à l’exemple d’une loi uniforme sur [0, θ] vu en Section 2.2.2. L’estimateur du maximum de vrai-
semblance était θ̂ = X(n) , qui présentait un biais puisque E[θ̂] = (nθ)/(n + 1). Par ailleurs nous
avions vu que

n 2 h i 2θ2
E[θ̂2 ] = θ =⇒ R(θ̂, θ) = E (θ̂ − θ)2 = .
n+2 (n + 1)(n + 2)

Considérons l’estimateur débiaisé θ̃ = (n + 1)X(n) /n, alors

(n + 1)2 2 θ2
E[θ̃2 ] = θ =⇒ R(θ̃, θ) = Var(θ̃) = E[θ̃2 ] − θ2 = .
n(n + 2) n(n + 2)

On en déduit que R(θ̃, θ) ≤ R(θ̂, θ), donc le débiaisage a amélioré les choses en terme de risque
quadratique. Néanmoins, on peut faire encore mieux. En effet, considérons de façon plus générale
un estimateur de la forme αX(n) , où α est un réel. Son erreur quadratique s’écrit donc
µ ¶
£ 2
¤ 2 n 2 2n
R(αX(n) , θ) = E (αX(n) − θ) =θ α − α+1 .
n+2 n+1

Ce trinôme en α est minimal pour α = (n+2)/(n+1). En terme de risque quadratique, l’estimateur


biaisé θ̌ := (n + 2)X(n) /(n + 1) est donc (un peu) meilleur que l’estimateur non biaisé θ̃ :

θ2 θ2
R(θ̌, θ) = < = R(θ̃, θ).
(n + 1)2 n(n + 2)

Biais et parallélisation. Plaçons-nous du point de vue du risque quadratique. Très souvent 7 ,


les estimateurs que l’on considère sont ou bien non biaisés ou bien biaisés en O(1/n). Leur variance
étant typiquement en O(1/n), le risque quadratique est lui aussi en O(1/n). Autrement dit, dès
que n est assez grand, même si l’estimateur est biaisé, le biais est “invisible” car masqué par
l’écart-type.
Une autre façon de le dire : pour deux estimateurs θ̂n et θ̃n avec biais au plus en O(1/n) et
variance en O(1/n), seules les variances σn2 = σn2 (θ) et s2n = s2n (θ) importent pour la comparaison.
Dès lors, si pour tout θ ∈ Θ, σn2 (θ) ≤ s2n (θ) pour n assez grand, alors on optera pour θ̂n , au moins
asymptotiquement.
6. si θ̂ n’est pas constant, mais cette situation serait sans intérêt.
7. mais pas toujours, par exemple l’EMV X(n) pour la loi U[0,θ] ne rentre pas dans ce cadre, bref passons.

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 67

Il existe cependant une situation qui peut changer radicalement la donne. Supposons que θ̂n pré-
sente un biais
bn (θ) = E[θ̂n ] − θ = O(1/n),
tandis que θ̃n est non biaisé. Supposons que le nombre n de données soit immense mais qu’on
dispose aussi d’un très grand nombre de processeurs de façon à pouvoir paralléliser les calculs.

Pour simplifier les notations, on va considérer N = n processeurs, chacun traitant un ensemble
(1) (N )
de N données. On a donc N estimateurs partiels θ̂N , . . . , θ̂N desquels on déduit l’estimateur
global par moyennisation
(1) (N )
θ̂ + · · · + θ̂N
T̂n = N .
N
Les estimateurs partiels étant i.i.d., les propriétés de T̂n sont immédiates :
2 (θ)
σN σ 2 (θ)
E[T̂n ] = bN (θ) et Var(T̂n ) = =⇒ R(T̂n , θ) = bN (θ)2 + N .
N N

Suivant la même démarche, l’estimateur non biaisé θ̃n mène à l’estimateur global

s2N (θ) s2 (θ)


E[T̃n ] = 0 et Var(T̃n ) = =⇒ R(T̂n , θ) = N .
N N
2 (θ) = σ 2 (θ)/N et s2 (θ) = s2 (θ)/N , alors
Si bN (θ) = b(θ)/N , σN N

b(θ)2 + σ 2 (θ) s2 (θ)


R(T̂n , θ) = et R(T̃n , θ) = .
n n

Donc si b(θ)2 + σ 2 (θ) > s2 (θ), il faudra désormais privilégier le second estimateur. On voit que la
parallélisation des calculs a fait émerger le biais du premier estimateur de façon décisive !

L’approche asymptotique
Il est souvent plus simple de comparer les choses de façon asymptotique, i.e. lorsque n tend vers
l’infini. Le premier critère est bien entendu celui de la vitesse de convergence vers 0. Si, pour tout
θ ∈ Θ, on a R(θ̂n , θ) = o(R(θ̃n , θ)) lorsque n → ∞, on préférera θ̂n à θ̃n .
Exemples :
1. Si l’on revient à l’exemple où les n variables Xi sont i.i.d. suivant une loi N (θ, 1) en
considérant les deux estimateurs θ̂n = X̄n et θ̃n = 0 de risques quadratiques respectifs
R(θ̂n , θ) = 1/n et R(θ̃n , θ) = θ2 . Nous avons vu que, à n fixé, l’estimateur “raisonnable” θ̂n
n’est pas toujours meilleur que l’estimateur “stupide” θ̃n , cela dépend de la valeur de θ. Si
maintenant on regarde les choses d’un point de vue asymptotique, alors on voit que, pour
tout réel θ, R(θ̂n , θ) = o(R(θ̃n , θ)). Ceci corrobore l’intuition selon laquelle, entre ces deux
estimateurs, c’est bien sûr θ̂n qu’il faut privilégier.
2. Reprenons l’exemple de la loi uniforme sur [0, θ], où l’estimateur du maximum de vraisem-
blance est θ̂n = X(n) . L’estimateur issu de la méthode des moments est θ̃n = 2X̄n et a pour
risque quadratique θ2 /(3n). Puisque, pour tout θ > 0,
µ ¶
2θ2 θ2
R(θ̂n , θ) = =o ,
(n + 1)(n + 2) 3n

on choisira l’EMV, et ce malgré son biais.

Statistique Arnaud Guyader


68 Chapitre 2. Estimation unidimensionnelle

Ce dernier exemple n’est cependant pas représentatif de la situation typique : en général, les risques
quadratiques convergent à vitesse 1/n vers 0. Plus précisément, si l’on dispose pour les estimateurs
θ̂n et θ̃n de résultats de normalité asymptotique de la forme
√ ³ ´
L √ ³ ´
L
n θ̂n − θ −−−→ N (0, σ 2 (θ)) et n θ̃n − θ −−−→ N (0, s2 (θ)),
n→∞ n→∞

avec σ 2 (θ) ≤ s2 (θ) pour tout θ ∈ Θ, alors on préférera θ̂n à θ̃n . En effet, en arrondissant 1.96 à 2,
on a par exemple
µ¯ ¯ 2σ(θ) ¶ µ¯ ¯ 2s(θ) ¶
¯ ¯ ¯ ¯
P ¯θ̂n − θ¯ ≤ √ −−−→ 95% et P ¯θ̃n − θ¯ ≤ √ −−−→ 95%
n n→∞ n n→∞

donc pour un même niveau de confiance asymptotique, le premier estimateur donne un encadrement
plus précis.

A première vue, on n’a fait que reporter le problème, puisque la comparaison des variances asymp-
totiques soulève les mêmes difficultés que la comparaison des risques quadratiques. On peut en
effet très bien imaginer θ et θ′ tels que σ 2 (θ) < s2 (θ) et σ 2 (θ′ ) > s2 (θ′ ). Comme nous allons le
voir, l’intérêt de la théorie asymptotique est que, sous certaines conditions, il existe une variance
asymptotique optimale et des estimateurs atteignant celle-ci 8 .

Rappel. La normalité asymptotique ne permet pas de contrôler le risque quadratique. Dans le


modèle des lois de Poisson P(1/θ), θ > 0, l’estimateur θ̂n = 1/X̄n est asymptotiquement normal
(méthode Delta), mais de risque quadratique infini puisque P(X̄n = 0) > 0.

2.3.2 Information de Fisher


In fine, notre objectif est de préciser ce que l’on peut attendre au mieux d’un estimateur de θ.
Un critère d’optimalité est spécifié par l’information de Fisher. Pour préciser cette notion, il faut
cependant commencer par circonscrire la classe des modèles sur lesquels on travaille.

Sans même rentrer dans les détails techniques, ceci n’a rien d’étonnant : dans la plupart des
exemples croisés jusqu’ici, les estimateurs sont asymptotiquement normaux et de risque quadra-
tique en 1/n. Un cas très particulier est celui de l’estimateur du maximum de vraisemblance pour
le modèle uniforme (U[0,θ] )θ>0 , c’est-à-dire X(n) : il n’est pas asymptotiquement normal et son
risque quadratique est en 1/n2 . Bref, il est tout à fait atypique et nous allons préciser en quel sens,
à savoir qu’il n’est pas régulier.

Nous commençons par rappeler la notion d’absolue continuité d’une fonction. Celle-ci est bien
entendu liée à l’absolue continuité d’une mesure par rapport à une autre, vue au Chapitre 1. Pour
plus de détails sur ce thème, on pourra consulter [12], Chapitre VI, paragraphe 4, ou [2], Chapitre
6, Section 31.

La question initiale est la suivante : quand peut-on dire qu’une fonction dérivable presque partout
est l’intégrale indéfinie de sa dérivée ? Clairement ce n’est pas toujours vrai, comme le montre la
fonction f (x) = 1[0,∞[ (x). Il y a plusieurs caractérisations équivalentes de l’absolue continuité,
nous adopterons la suivante 9 .

8. Tuons le suspense : la variance optimale sera l’inverse de l’information de Fisher, asymptotiquement atteinte
par l’estimateur du maximum de vraisemblance (sous les hypothèses idoines).
9. La définition classique est : f est absolument continue surP [a, b] si ∀ε > 0, ∃δ > 0 tel Pque ∀n > 0, pour toute
famille d’intervalles deux à deux disjoints (ak , bk )1≤k≤n tels que nk=1 (b k − a k ) ≤ δ, on a n
k=1 |f (bk ) − f (ak )| ≤ ε.

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 69

Définition 25 (Absolue continuité)


On dit qu’une fonction f définie sur un intervalle ouvert I de R est absolument continue sur I s’il
existe une fonction intégrable, notée f ′ et appelée dérivée de f , telle que pour tout segment [a, b]
de I, on ait
Z b
f (b) − f (a) = f ′ (x)dx.
a

Remarque. Ainsi, pour faire le lien avec la Section 1.1.5, il est équivalent de dire que la loi d’une
variable aléatoire définit une mesure absolument continue par rapport à la mesure de Lebesgue
sur R, ou que la fonction de répartition associée à cette loi est absolument continue au sens de la
définition ci-dessus.
En terme de régularité, la notion d’absolue continuité est plus forte que celle d’uniforme continuité,
mais plus faible que celle de lipschitziannité. En particulier, toute fonction absolument continue
est continue (par le théorème de convergence dominée) mais la réciproque est fausse. Une fonction
peut même être continue sur I, dérivable presque partout sur I, sans être pour autant absolument
continue : l’escalier du diable en est un exemple typique. Par ailleurs, avec la définition précédente,
la fonction f ′ n’est définie que presque partout. Le résultat suivant précise les choses. On rappelle
qu’une fonction f est dérivable au sens usuel en x0 s’il existe ℓ0 ∈ R tel que

f (x0 + h) − f (x0 )
−−−→ ℓ0 .
h h→0

Théorème 9 (Théorème de dérivation de Lebesgue)


Si f est absolument continue sur I, alors il existe un ensemble I ′ ⊆ I avec I \ I ′ de mesure de
Lebesgue nulle tel que f est dérivable au sens usuel sur I ′ , de dérivée f ′ .

Dans la suite, pour définir sans ambiguïté la dérivée au sens de l’absolue continuité, nous consi-
dérons que f ′ est la dérivée au sens usuel quand celle-ci existe, et 0 sinon. Avec cette convention,
lorsque f est absolument continue et positive sur I, alors f (x) = 0 implique f ′ (x) = 0. En effet, ou
bien f est dérivable au sens usuel en x, mais alors puisque x est un minimum de f ≥ 0, nécessai-
rement f ′ (x) = 0. Ou bien f n’est pas dérivable au sens usuel en x, auquel cas par la convention
précédente on a encore f ′ (x) = 0. Pour la suite, la conséquence de ceci est l’égalité

∀x ∈ I f ′ (x) = f ′ (x)1f (x)>0 . (2.8)

Si f est absolument continue sur I, alors elle est continue sur I et à variation bornée sur tout
segment de I. De plus, si f et g sont absolument continues sur I, alors f g l’est aussi, de dérivée
égale à f ′ g + f g ′ presque partout.
Dans tout ce qui suit, nous considérons sur E un modèle statistique dominé de la forme (Pθ )θ∈Θ =
(gθ · µ)θ∈Θ où Θ est un intervalle ouvert de R et µ une mesure de référence. Par ailleurs, les
symboles de dérivation au sens de l’absolue continuité le seront toujours par rapport au paramètre
θ, c’est-à-dire que, sous réserve d’existence, nous noterons pour x ∈ E et θ ∈ Θ :

∂ ∂2
gθ′ (x) = gθ (x) et gθ′′ (x) = gθ (x).
∂θ ∂θ2
Si l’on note ℓθ (X) = log gθ (X) le logarithme de la densité calculé en X avec X ∼ Pθ , on appelle
score la variable aléatoire
∂ g ′ (X)
ℓ′θ (X) = log gθ (X) = θ .
∂θ gθ (X)
Attention ! Il y a ici une subtilité : lorsque X = (X1 , . . . , Xn ) ∼ Pθ∗ , nous avons précédemment
noté ℓn (θ) = log gθ (X) la log-vraisemblance de l’échantillon (cf. Section 2.2.2), fonction définie

Statistique Arnaud Guyader


70 Chapitre 2. Estimation unidimensionnelle

pour toute valeur θ ∈ Θ et avons défini l’estimateur du maximum de vraisemblance comme une
valeur de θ maximisant cette fonction. A contrario, dans toute la présente section, X est supposé
suivre la loi Pθ . En particulier, lorsque nous parlerons des moments du score ℓ′θ (X), il faut bien
avoir en tête que X ∼ Pθ .
Il existe plusieurs façons de définir un modèle régulier. Celle que nous proposons n’est pas la plus
classique, mais présente l’avantage d’être très générale.

Définition 26 (Modèle régulier, score et information de Fisher)


Le modèle (Pθ )θ∈Θ = (gθ · µ)θ∈Θ est dit régulier si :
— pour µ presque tout x ∈ E, l’application θ 7→ gθ (x) est absolument continue sur Θ ;
— pour tout θ0 ∈ Θ, il existe E0 ⊆ E avec µ(E \ E0 ) = 0 tel que pour tout x ∈ E0 , l’application
θ 7→ gθ′ (x) est continue en θ0 ;
— pour tout θ ∈ Θ, le score doit admettre un moment d’ordre 2 et l’application
Z
£ ¤ gθ′ (x)2
θ 7→ I(θ) = Eθ (ℓ′θ (X))2 = 1 µ(dx) (2.9)
E gθ (x) gθ (x)>0

doit être continue sur Θ.


La quantité I(θ) est alors appelée information de Fisher du modèle.

Ainsi, pour qu’un modèle soit régulier, la fonction (θ, x) 7→ gθ (x) doit respecter une condition
de continuité/dérivabilité par rapport à θ, et une condition d’intégrabilité par rapport à x. Par
ailleurs, si elle existe, il est clair que l’information de Fisher est toujours supérieure ou égale à 0.
A retenir : si pour µ presque tout x ∈ E, la fonction θ 7→ gθ (x) est C 1 , alors les deux premiers
points sont clairement vérifiés 10 . A contrario, si pour µ presque tout x ∈ E, la fonction θ 7→ gθ (x)
possède (au moins) une discontinuité, le modèle n’est pas régulier puisque le premier point n’est
pas vérifié.
Exemples :
1. Loi exponentielle : considérons X ∼ E(θ) avec θ ∈ Θ =]0, +∞[, alors

gθ (x) = θe−θx et µ(dx) = 1x≥0 dx,

donc :
— pour tout x ≥ 0, l’application θ 7→ gθ (x) est C ∞ sur Θ donc les deux premiers points
sont clairs ;
— pour tout θ > 0,
1
ℓθ (X) = log θ − θX =⇒ ℓ′θ (X) = − X.
θ
Puisque Eθ [X] = 1/θ et Varθ (X) = 1/θ2 , on en déduit que
"µ ¶2 #
£ ¤ 1 h i
Eθ (ℓ′θ (X))2 = Eθ −X = Eθ (X − E[X])2 = Varθ (X) = 1/θ2
θ

continue sur Θ =]0, +∞[. Ainsi le modèle défini par ces lois exponentielles est bien
régulier, d’information de Fisher égale à I(θ) = 1/θ2 .
10. Ceux-ci comprennent néanmoins des modèles plus généraux : par exemple, comme nous le verrons plus loin,
le modèle de translation pour la loi de Laplace défini par gθ (x) = 12 exp(−|x − θ|) est régulier. Pour le second point,
il suffit en effet de prendre E0 = R \ {θ0 }, lequel est bien de mesure de Lebesgue pleine.

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 71

2. Loi de Bernoulli : soit X ∼ B(θ) avec θ ∈ Θ =]0, 1[, alors µ = δ0 + δ1 est la mesure de
comptage sur {0, 1}, avec

gθ (0) = 1 − θ et gθ (1) = θ,

donc :
— pour tout x ∈ {0, 1}, l’application θ 7→ gθ (x) est C ∞ sur Θ donc les deux premiers
points sont satisfaits ;
— Pour le dernier, on peut écrire pour tout x ∈ {0, 1}

X−θ
gθ (x) = θx (1 − θ)1−x =⇒ ℓθ (X) = X log θ + (1 − X) log(1 − θ) =⇒ ℓ′θ (X) =
θ(1 − θ)

et puisqu’une variable de Bernoulli de paramètre θ a pour moyenne θ et pour variance


θ(1 − θ), on en déduit
"µ ¶2 #
£ ′ ¤ X − E θ [X] Varθ (X) 1
Eθ (ℓθ (X))2 = Eθ = 2
=
θ(1 − θ) (θ(1 − θ)) θ(1 − θ)

continue sur Θ =]0, 1[. Par conséquent ce modèle est régulier, d’information de Fisher
égale à I(θ) = 1/(θ(1 − θ)).
3. Loi uniforme : supposons maintenant que X ∼ U[0,θ] avec θ ∈ Θ =]0, +∞[. Pour tout réel
x ≥ 0 (fixé !), la fonction
1 1
θ 7→ gθ (x) = 1[0,θ] (x) = 1[x,+∞[ (θ)
θ θ
est discontinue au point x, donc ce modèle n’est pas régulier. Ceci est en accord avec ce que
nous avons annoncé en préambule. Par conséquent, rien de ce qui suit ne s’appliquera à ce
modèle.

4. On pourrait penser que si pour tout x de E la fonction θ 7→ gθ (x) est continue et C 1 par
morceaux sur Θ, alors les deux premiers points de la Définition 26 sont automatiquement
vérifiés. Ce n’est pas le cas, comme le montre l’exemple suivant : soit 0 < θ < 1, U une
variable de loi uniforme sur [0, 1], et X définie par : X = 1U ≤θ/2 si 0 < θ ≤ 1/2 et
X = 1U ≤θ−1/4 si 1/2 < θ < 1. Que x soit égal à 0 ou 1, la fonction θ 7→ gθ′ (x) n’est pas
continue en θ = 1/2 et il est donc impossible de définir ce que serait l’information de Fisher
en ce point. Ce modèle n’est donc pas régulier.
On va maintenant donner un résultat de dérivation sous le signe somme. Au préalable, précisons
qu’une application θ 7→ ϕ(θ) est localement bornée sur Θ si

∀θ0 ∈ Θ, ∃ε = ε(θ0 ) > 0 sup |ϕ(θ)| < +∞.


θ0 −ε<θ<θ0 +ε

Clairement, une fonction continue sur Θ est localement bornée. Une fonction bornée sur Θ est a
fortiori localement bornée, la réciproque étant fausse : il suffit de considérer ϕ(θ) = θ sur Θ = R.
Pour tomber sur une fonction non localement bornée, il faut le faire exprès : c’est par exemple le
cas de la fonction définie sur R par ϕ(0) = 0 et ϕ(θ) = 1/θ si θ 6= 0, laquelle n’est pas localement
bornée à l’origine.
Bref, pour la suite, on retiendra que l’hypothèse “telle fonction est localement bornée” n’est pas
bien contraignante. Sa raison d’être est de permettre la dérivation sous le signe somme, comme
dans le résultat suivant.

Statistique Arnaud Guyader


72 Chapitre 2. Estimation unidimensionnelle

Proposition 10 (Dérivation sous le signe somme)


Soit un modèle régulier sur Θ et T (X) une statistique telle que la fonction θ 7→ Eθ [T (X)2 ] soit
localement bornée, alors l’application θ 7→ Eθ [T (X)] est C 1 de dérivée
Z Z · ¸
∂ ∂ g ′ (X)
Eθ [T (X)] = T (x)gθ (x)µ(dx) = T (x)gθ′ (x)µ(dx) = Eθ T (X) θ = Eθ [T (X)ℓ′θ (X)].
∂θ ∂θ E E g θ (X)
Autrement dit, on peut dériver sous le signe somme.

Preuve. Fixons θ0 ∈ Θ et h > 0 tel que [θ0 , θ0 +h] ⊂ Θ. Alors, par absolue continuité de θ 7→ gθ (x)
pour µ presque tout x de E, on a
Z Z µZ θ0 +h ¶

Eθ0 +h [T (X)] − Eθ0 [T (X)] = T (x)(gθ0 +h (x) − gθ0 (x))µ(dx) = T (x) gθ (x)dθ µ(dx).
E E θ0

Pour pouvoir inverser l’ordre d’intégration, il faut commencer par vérifier l’absolue intégrabilité.
La propriété (2.8) et l’inégalité de Cauchy-Schwarz donnent :
Z θ0 +h µZ ¶ Z θ0 +h ÃZ p ′ (x)|
!
|g
|T (x)gθ′ (x)|µ(dx) dθ = |T (x)| gθ (x) pθ 1g (x)>0 µ(dx) dθ
θ0 E θ0 E gθ (x) θ
Z θ0 +h sZ Z ′
2
gθ (x)2
≤ T (x) gθ (x)µ(dx) 1gθ (x)>0 µ(dx) dθ
θ0 E E gθ (x)
Z θ0 +h p
≤ Eθ [T (X)2 ]I(θ) dθ.
θ0

Le modèle étant régulier et la fonction θ 7→ Eθ [T (X)2 ] localement bornée, le terme de droite est
fini pour h assez petit et on peut donc appliquer le théorème de Fubini dans l’égalité initiale :
Z θ0 +h µZ ¶

Eθ0 +h [T (X)] − Eθ0 [T (X)] = T (x)gθ (x)µ(dx) dθ.
θ0 E

Pour montrer que l’application Rθ 7→ Eθ [T (X)] est C 1 avec la dérivée de l’énoncé, il suffit ainsi de
prouver que l’application θ 7→ E T (x)gθ′ (x)µ(dx) est continue en tout θ0 , c’est-à-dire que pour
toute suite (θn ) de limite θ0 , on a bien
Z Z
T (x)gθ′ n (x)µ(dx) −−−→ T (x)gθ′ 0 (x)µ(dx),
E n→∞ E

ou, de façon équivalente, que


Z Z q
p gθ′ n (x) g ′ (x)
T (x) gθn (x) p 1gθn (x)>0 µ(dx) −−−→ T (x) gθ0 (x) pθ0 1g (x)>0 µ(dx).
E gθn (x) n→∞ E gθ0 (x) θ0
p g ′ (x)
En notant ϕn (x) = T (x) gθn (x) et ψn (x) = √θn 1gθn (x)>0 , le but est donc de prouver que
gθn (x)
Z
(ϕn (x)ψn (x) − ϕ0 (x)ψ0 (x))µ(dx) −−−→ 0.
E n→∞

Si ∆ϕn (x) = ϕn (x) − ϕ0 (x) et ∆ψn (x) = ψn (x) − ψ0 (x), il vient


¯Z ¯ ¯Z Z ¯
¯ ¯ ¯ ¯
¯ (ϕn (x)ψn (x) − ϕ0 (x)ψ0 (x))µ(dx)¯ = ¯ ϕn (x)∆ψn (x)µ(dx) + ∆ϕn (x)ψ0 (x)µ(dx)¯¯
¯ ¯ ¯
E
ZE ¯ZE
¯
¯ ¯
≤ |ϕn (x)∆ψn (x)|µ(dx) + ¯ ∆ϕn (x)ψ0 (x)µ(dx)¯¯ .
¯
E E
(2.10)

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 73

Pour démontrer que le second terme de (2.10) tend vers 0, on adopte un raisonnement de type
intégrabilité uniforme, en remarquant que pour tout a > 0 on peut écrire :
Z Z
∆ϕn (x)ψ0 (x)µ(dx) = ∆ϕn (x)ψ0 (x)1|∆ϕn (x)|≤a|ψ0 (x)| µ(dx)
E E
Z
+ ∆ϕn (x)ψ0 (x)1|∆ϕn (x)|>a|ψ0 (x)| µ(dx). (2.11)
E

Concernant le premier terme de (2.11), puisque pour µ presque tout x ∈ E, l’application θ 7→ gθ (x)
est absolument continue, elle est en particulier continue en θ0 , donc la fonction sous l’intégrale tend
vers 0 pour µ presque tout x. Elle est de plus majorée en valeur absolue par la fonction x 7→ aψ0 (x)2 ,
laquelle est intégrable par rapport à µ, d’intégrale aI(θ0 ). Le théorème de convergence dominée
assure donc que Z
∆ϕn (x)ψ0 (x)1|∆ϕn (x)|≤a|ψ0 (x)| µ(dx) −−−→ 0.
E n→∞

Pour le second terme de (2.11), via l’inégalité classique (u − v)2


≤ 2u2 + 2v 2 , on a
¯Z ¯ Z
¯ ¯ 2¡ ¢
¯ ∆ϕn (x)ψ0 (x)1|∆ϕ (x)|>a|ψ (x)| µ(dx)¯ ≤ 1 ∆ϕn (x)2 µ(dx) ≤ Eθn [T (X)2 ] + Eθ0 [T (X)2 ] .
¯ n 0 ¯ a a
E E

Puisque la fonction θ 7→ Eθ [T (X)2 ] est localement bornée, elle est bornée au voisinage de θ0 et il
existe c indépendant de a tel que lim supn→∞ Eθn [T (X)2 ] ≤ c. Cette borne étant également valide
en remplaçant θn par θ0 , il vient
¯Z ¯
¯ ¯ 2c
lim sup ¯ ∆ϕn (x)ψ0 (x)1|∆ϕn (x)|>a|ψ0 (x)| µ(dx)¯¯ ≤ .
¯
n→∞ E a
Puisque a peut être choisi arbitrairement, on a bien établi que
Z
∆ϕn (x)ψ0 (x)1|∆ϕn (x)>a|ψ0 (x)| µ(dx) −−−→ 0.
E n→∞

Au total, nous venons de prouver que le second terme de (2.10) tend vers 0. Pour le premier terme,
l’inégalité de Cauchy-Schwarz donne
Z sZ
q
|ϕn (x)∆ψn (x)|µ(dx) ≤ Eθn [T (X)2 ] × ∆ψn (x)2 µ(dx).
E E

Puisque lim supn→∞ Eθn [T (X)2 ] ≤ c, la preuve sera complète une fois établi que le terme de droite
tend vers 0. Pour ce faire, on écrit
Z Z
2
∆ψn (x) µ(dx) = I(θn ) − I(θ0 ) − 2 ψ0 (x)∆ψn (x)µ(dx).
E E

Puisque l’information de Fisher est continue, I(θn ) tend vers I(θ0 ) et il suffit donc de prouver que
le dernier terme tend vers 0. Une façon de procéder consiste à considérer la décomposition (2.11)
en remplaçant ∆ϕn par ∆ψn et à voir que, mutatis mutandis, les arguments précédents passent
encore. En particulier, le théorème de convergence dominée s’applique à nouveau en remarquant
que Z Z ³ ´
ψ0 (x)∆ψn (x)µ(dx) = ψ0 (x) ψn (x)1gθ0 (x)>0 − ψ0 (x) µ(dx).
E E
Le modèle étant régulier, il existe un ensemble E0 de µ mesure pleine tel que pour tout x ∈ E0 ,
g ′ (x) g ′ (x)
ψn (x)1gθ0 (x)>0 = pθn 1gθn (x)>0 1gθ0 (x)>0 −−−→ pθ0 1g (x)>0 = ψ0 (x).
gθn (x) n→∞ gθ0 (x) θ0

Statistique Arnaud Guyader


74 Chapitre 2. Estimation unidimensionnelle

¥
Dans la Proposition 10, le cas particulier T (X) = 1 assure que le score est centré, c’est-à-dire
Eθ [ℓ′θ (X)] = 0. Ceci donne une nouvelle formule pour l’information de Fisher, que nous avons en
fait déjà rencontrée sur les modèles des lois exponentielles et de Bernoulli.

Corollaire 3 (Information de Fisher et variance du score)


Si le modèle est régulier, alors
I(θ) = Varθ (ℓ′θ (X)),
c’est-à-dire que l’information de Fisher est égale à la variance du score.

Preuve. Prenons T (X) = 1 dans la Proposition 10, alors θ 7→ Eθ [T (X)2 ] = 1 est bien localement
bornée, donc · ′ ¸
∂ gθ (X) £ ¤
0= Eθ [1] = Eθ = Eθ ℓ′θ (X) .
∂θ gθ (X)
D’où l’on déduit, en partant de l’équation (2.9),
£ ¤ £ ¤ ¡ £ ¤¢2
I(θ) = Eθ (ℓ′θ (X))2 = Eθ (ℓ′θ (X))2 − Eθ ℓ′θ (X) = Varθ (ℓ′θ (X)).
¥
On peut donner une nouvelle formulation de l’information de Fisher, mais elle nécessite des hypo-
thèses supplémentaires. Nous dirons qu’une famille de fonctions ϕθ (x) intégrables par rapport à x
pour la mesure µ est localement dominée dans L1 (µ) si

∀θ0 ∈ Θ, ∃ε = ε(θ0 ) > 0 sup |ϕθ (x)| ∈ L1 (µ).


θ0 −ε<θ<θ0 +ε

Si l’on considère pour µ la mesure de Lebesgue sur R, un exemple de famille non localement
dominée dans L1 (µ) est donné par ϕθ (x) = exp(−|θx|) si θ 6= 0 et ϕ0 (x) = 0 lorsque θ = 0. Toutes
les fonctions x 7→ ϕθ (x) sont intégrables sur R, mais si l’on prend θ0 = 0, il est clair que pour tout
réel x et tout ε > 0, sup−ε<θ<ε |ϕθ (x)| = 1, qui n’est pas intégrable sur R.
Quoi qu’il en soit, ce qu’on a en tête avec ce genre d’hypothèse est clair : pouvoir appliquer les
résultats de continuité et de dérivabilité de Lebesgue. Une façon “classique” de définir un modèle
régulier est la suivante 11 .

Lemme 4 (Version plus forte de la régularité)


Supposons les hypothèses suivantes :
— l’ensemble S = {x ∈ E, gθ (x) > 0} est indépendant de θ ;
— pour µ presque tout x, l’application θ 7→ gθ (x) est C 1 sur Θ ;
— la famille (gθ′ )2 /gθ est localement dominée dans L1 (µ).
Alors le modèle est régulier au sens de la Définition 26.

Preuve. Considérons

E ′ = {x ∈ E, gθ (x) > 0} ∩ {x ∈ E, θ 7→ gθ (x) est C 1 sur Θ}.

Les deux premières hypothèses assurent que, dans la Définition 26, on peut remplacer E par E ′
et µ par 1E ′ · µ. Ceci fait de gθ (x) une application strictement positive et C 1 en θ. On peut alors
appliquer le théorème de continuité de Lebesgue à la fonction
Z
gθ′ (x)2
I(θ) = µ(dx).
E ′ gθ (x)

11. On notera cependant qu’elle est plus restrictive et pas plus simple à vérifier que celle de la Définition 26.

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 75

En tout point θ0 de Θ, la fonction θ 7→ gθ′ (x)2 /gθ (x) est continue. De plus, il existe un voisinage
]θ0 − ε, θ0 + ε[ tel que
gθ′ (x)2
0≤ sup ≤ ψ(x),
θ0 −ε<θ<θ0 +ε gθ (x)

avec ψ ∈ L1 (µ). Ceci assure que I est continue en θ0 . Celui-ci étant arbitraire, la fonction I est
continue sur Θ.
¥

En ajoutant une hypothèse du même tonneau, on aboutit à une nouvelle expression pour l’infor-
mation de Fisher.

Proposition 11 (Information de Fisher et dérivée seconde)


Conservons les hypothèses du Lemme 4 et supposons de plus que :
— pour µ presque tout x, l’application θ 7→ gθ (x) est C 2 sur Θ ;
— la famille gθ′′ est localement dominée dans L1 (µ).
Alors l’information de Fisher s’écrit encore
£ ¤
I(θ) = −Eθ ℓ′′θ (X) .

Preuve. On commence par noter que, pour µ presque tout x,

gθ′′ (x) gθ′ (x)2


ℓ′′θ (x) = (log gθ (x))′′ = − .
gθ (x) gθ (x)2

Or on a vu en (2.9) que · ¸
£ ¤ gθ′ (X)2
I(θ) = Eθ (ℓ′θ (X))2 = Eθ .
gθ (X)2
Pour l’autre terme, il vient · ¸ Z
gθ′′ (X)
Eθ = gθ′′ (x)µ(dx).
gθ (X) E′

Soit x ∈ E ′ fixé. En tout point θ0 de Θ, la fonction θ 7→ ϕθ (x) = gθ′ (x) est dérivable, de dérivée
gθ′′0 (x). De plus, par hypothèse, il existe un voisinage ]θ0 − ε, θ0 + ε[ tel que

sup |gθ′′ (x)| ≤ ψ(x),


θ0 −ε<θ<θ0 +ε

avec ψ ∈ L1 (µ). Le théorème de dérivabilité de Lebesgue implique donc que la fonction Φ définie
sur Θ par Z
Φ(θ) = ϕθ (x)µ(dx)
E′
est dérivable en θ0 , de dérivée
Z Z · ′′ ¸
gθ′′0 (x) gθ0 (X)
Φ′ (θ0 ) = gθ′′0 (x)µ(dx) = gθ (x)µ(dx) = Eθ0 .
E′ E′ gθ0 (x) 0 gθ0 (X)
Ainsi Φ est dérivable sur Θ, de dérivée
· ¸
′ gθ′′ (X)
Φ (θ) = Eθ .
gθ (X)
Or, comme on l’a vu dans la preuve du Corollaire 3, Φ est identiquement nulle sur Θ, donc il en
va de même pour sa dérivée.
¥

Statistique Arnaud Guyader


76 Chapitre 2. Estimation unidimensionnelle

Exemple : illustrons ce résultat sur l’exemple des lois exponentielles. Quel que soit θ > 0, le
support est [0, +∞[ donc indépendant de θ. Par ailleurs, on a vu que pour tout x ≥ 0, l’application
θ 7→ gθ (x) est C ∞ sur Θ =]0, +∞[. Pour tout θ0 > 0 et ε > 0 tel que θ0 − ε > 0, on a pour tout
x≥0:

gθ′ (x)2 (1 − θx)2 −θx gθ′ (x)2 (1 + (θ0 + ε)x)2 −(θ0 −ε)x
= e =⇒ 0 ≤ sup ≤ ψ(x) = e ,
gθ (x) θ θ0 −ε<θ<θ0 +ε gθ (x) θ0 − ε

avec clairement Z +∞
ψ(x) dx < +∞.
0
De la même façon,

gθ′′ (x) = (θx − 2)xe−θx =⇒ sup |gθ′′ (x)| ≤ φ(x) = ((θ0 + ε)x + 2)xe−(θ0 −ε)x ,
θ0 −ε<θ<θ0 +ε

avec clairement Z +∞
φ(x) dx < +∞.
0
Le modèle est donc régulier au sens de Fisher et on peut appliquer la formule de la Proposition 11
pour retrouver l’information de Fisher :
1 1 £ ¤ 1
ℓ′θ (x) = − x =⇒ ℓ′′θ (x) = − 2 =⇒ I(θ) = −Eθ ℓ′′θ (X) = 2 .
θ θ θ
Nous allons maintenant donner quelques propriétés de l’information de Fisher. La première d’entre
elles concerne la mesure dominante µ, laquelle n’a aucune importance.

Lemme 5 (Information de Fisher et mesure dominante)


Soit (Pθ )θ∈Θ un modèle dominé. La régularité de ce modèle et la valeur de l’information de Fisher
ne dépendent pas de la mesure dominante choisie.

Preuve. Considérons deux mesures dominantes µ et ν, de sorte que


dPθ dPθ
gθ (x) = (x) et hθ (x) = (x).
dµ dν
La mesure λ = µ + ν dominant à la fois µ et ν, on peut définir la densité de µ par rapport à λ,
que l’on convient de noter
dµ dPθ
ϕ(x) = (x) =⇒ (x) = gθ (x)ϕ(x) =: kθ (x).
dλ dλ
Comme ϕ ne dépend pas de θ, la régularité en θ de kθ est la même que celle de gθ . Quant à
l’intégration par rapport à x,
Z ′ Z ′ Z ′
kθ (x)2 gθ (x)2 ϕ(x)2 gθ (x)2
1kθ (x)>0 λ(dx) = 1kθ (x)>0 λ(dx) = 1gθ (x)>0 µ(dx),
E kθ (x) E gθ (x)ϕ(x) E gθ (x)

et l’information de Fisher est la même dans les deux cas. Le raisonnement valant aussi entre ν et
λ, le débat est clos.
¥

Si l’information de Fisher n’est pas sensible au changement de mesure dominante, elle l’est par
contre au changement de paramètre.

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 77

Proposition 12 (Information de Fisher et paramétrage)


Soit (gθ )θ∈Θ un modèle régulier d’information de Fisher I(θ) et η = ϕ(θ) un changement de
paramètre bijectif tel que ψ = ϕ−1 soit C 1 . Alors le modèle paramétré par η est encore régulier,
d’information de Fisher
J(η) = ψ ′ (η)2 I(ψ(η)).

Preuve. Notons hη (x) = gψ(η) (x). Le modèle initial étant régulier et ψ étant C 1 , on en déduit
que ϕ est elle-même continue bijective, et on peut montrer que pour µ presque tout x, la fonction
η 7→ hη (x) est absolument continue sur l’intervalle ouvert ϕ(Θ), de dérivée

h′η (x) = ψ ′ (η)gψ(η)



(x).

De cette relation on déduit que, pour tout η ∈ ϕ(Θ),


Z Z g ′ (x)2
h′η (x)2 ψ(η)
J(η) = 1 µ(dx) = ψ ′ (η)2 1gψ(η) (x)>0 µ(dx) = ψ ′ (η)2 I(ψ(η)),
E hη (x) hη (x)>0 E gψ(η) (x)

qui correspond à une fonction continue sur ϕ(Θ) puisque ψ est C 1 et le modèle initial régulier.
¥

Voyons ce que ceci donne sur les deux exemples les plus classiques de changements de paramètres.
Exemples :
1. Translation : si on pose η = θ − θ0 avec θ0 fixé, alors

J(η) = I(θ0 + η).

2. Changement d’échelle : si on pose η = θ/σ avec σ fixé non nul, alors

J(η) = σ 2 I(ση).

Lorsqu’on dispose d’un échantillon i.i.d., l’information de Fisher croît linéairement avec la taille
de l’échantillon. En d’autres termes, l’information apportée par n observations i.i.d. est n fois plus
grande que l’information apportée par une seule.

Proposition 13 (Information de Fisher d’un échantillon)


Soit X = (X1 , . . . , Xn ) un échantillon i.i.d., où Xi a pour densité marginale fθ par rapport à la
mesure µ. Si le modèle (fθ )θ∈Θ est régulier d’information de Fisher I(θ) = I1 (θ), alors le modèle
produit, de densité
n
Y
gθ (x) = gθ (x1 , . . . , xn ) = fθ (xi )
i=1

par rapport à la mesure µ⊗n , est encore régulier et d’information de Fisher In (θ) = nI1 (θ).

Remarque : Ce résultat est une conséquence du suivant : si (Pθ )θ∈Θ = (gθ · µ)θ∈Θ et (Qθ )θ∈Θ =
(hθ · ν)θ∈Θ sont deux modèles réguliers d’informations respectives I1 (θ) et I2 (θ), alors le modèle
produit, de densité
kθ (x, y) = gθ (x)hθ (y)
par rapport à la mesure µ⊗ν sur E ×F , est régulier et d’information de Fisher I(θ) = I1 (θ)+I2 (θ).
Avec des mots : l’information d’un couple de variables indépendantes est la somme des deux
informations.

Statistique Arnaud Guyader


78 Chapitre 2. Estimation unidimensionnelle

Preuve. Nous allons démontrer le résultat de la remarque, celui de la proposition s’en déduisant
par récurrence. Tout d’abord, on note que la régularité de la fonction

θ 7→ kθ (x, y) = gθ (x)hθ (y)

se déduit de celles de θ 7→ gθ (x) et θ 7→ hθ (y). Le produit de deux fonctions absolument continues


étant lui-même absolument continu, on en conclut que pour µ ⊗ ν presque tout couple (x, y),

kθ′ (x, y) = gθ′ (x)hθ (y) + gθ (x)h′θ (y),

d’où
kθ′ (x, y)2 = gθ′ (x)2 hθ (y)2 + 2(gθ′ (x)gθ (x))(h′θ (y)hθ (y)) + gθ (x)2 h′θ (y)2 ,

et sur l’ensemble Sθ = {(x, y), gθ (x)hθ (y) > 0} où l’on calculera l’intégrale d’intérêt, on a donc

kθ′ (x, y)2 g ′ (x)2 h′ (y)2


= θ hθ (y) + 2gθ′ (x)h′θ (y) + gθ (x) θ .
kθ (x, y) gθ (x) hθ (y)

De là il ressort que l’intégrale définissant l’information de Fisher


ZZ
kθ′ (x, y)2
I(θ) = µ(dx)µ(dy)
kθ (x, y)

est la somme de trois termes, le premier et le dernier étant comparables. Le premier s’écrit (l’in-
tégration se faisant sur Sθ )
ZZ µZ ¶ µZ ¶
gθ′ (x)2 gθ′ (x)2
hθ (y)µ(dx)µ(dy) = µ(dx) hθ (y)µ(dy) = I1 (θ),
gθ (x) gθ (x)

puisque pour tout θ, y 7→ hθ (y) est une densité, donc d’intégrale 1. De même, le troisième terme
vaut I2 (θ). Reste à montrer que celui du milieu est nul, or
ZZ µZ ¶ µZ ¶
gθ′ (x)h′θ (y)µ(dx)µ(dy) = gθ′ (x)µ(dx) h′θ (y)µ(dy) = 0,

ces deux intégrales étant nulles via la Proposition 10 : les scores sont des variables centrées. Les
fonctions I1 et I2 étant toutes deux continues, le résultat est établi.
¥

Si l’on admet que le modèle produit est régulier, alors le résultat de la Proposition 13 découle tout
simplement du fait que, dans le cas indépendant, la variance de la somme correspond à la somme
des variances. Avec un abus de notations :
n
Y n
X n
X
gθ (X) = fθ (Xi ) =⇒ ℓθ (X) = ℓθ (Xi ) =⇒ In (θ) = Varθ (ℓ′θ (X)) = Varθ (ℓ′θ (Xi )) = nI1 (θ).
i=1 i=1 i=1

Exemples
La Proposition 13 nous dit que l’information de Fisher d’un échantillon i.i.d. se déduit de celle
d’une seule variable. C’est pourquoi, dans tout ce qui suit, nous ne noterons plus x et X, mais x
et X qui représentent donc des quantités réelles, discrètes ou continues, et fθ (x) au lieu de gθ (x)
pour les densités. Commençons par quelques lois classiques.

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 79

1. Loi binomiale : si X ∼ B(n, θ) avec 0 < θ < 1 inconnu et n ∈ N⋆ connu, alors ce modèle
est régulier pour les mêmes raisons que le modèle de Bernoulli. Cette fois, pour tout x ∈
{0, . . . , n}, on a
µ ¶
n x x − nθ n
fθ (x) = θ (1 − θ)n−x =⇒ ℓ′θ (x) = =⇒ I(θ) = Var(ℓ′θ (X)) = .
x θ(1 − θ) θ(1 − θ)

On note que cette information est égale à n fois celle du modèle de Bernoulli. Sans rentrer
dans les détails : on sait qu’une variable binomiale B(n, θ) correspond en loi à la somme de
n variables i.i.d. X1 , . . . , Xn de Bernoulli B(θ), or on peut montrer que cette somme est une
statistique exhaustive du vecteur (X1 , . . . , Xn ), c’est-à-dire grosso modo que la somme est
un résumé sans perte de toute l’information sur le paramètre θ contenue dans le vecteur. Or
la Proposition 13 nous assure justement que l’information de Fisher du modèle à n variables
est égale à n fois l’information du modèle à 1 variable, laquelle vaut comme on l’a vu sur le
modèle de Bernoulli I1 (θ) = 1/(θ(1 − θ)).
2. Loi de Poisson : si X ∼ P(λ), avec λ > 0 paramètre inconnu, la vraisemblance vaut, pour
tout λ > 0 et tout x ∈ N,

ℓλ (x) = log Pλ (X = x) = −λ + x log λ − log(x!).

Pour tout x ∈ N, la fonction λ 7→ ℓλ (x) est C 1 sur ]0, ∞[ donc les deux premiers points
de la Définition 26 sont satisfaits. Il reste à vérifier que le moment d’ordre 2 du score
ℓ′λ (X) = X/λ − 1 est une fonction continue en λ. Rappelons qu’une variable de Poisson
P(λ) a pour moyenne et pour variance λ, donc

1 1 1
Eλ [ℓ′λ (X)2 ] = Eλ [(X/λ − 1)2 ] = 2
Eλ [(X − λ)2 ] = 2 Varλ (X) = .
λ λ λ
1
Puisque λ 7→ λ est continue sur ]0, ∞[, ce modèle est régulier d’information I(λ) = λ1 .
3. Loi gaussienne : si X ∼ N (µ, σ 2 ), le logarithme de la densité s’écrit

1 1
log f (x) = − log(2πσ 2 ) − 2 (x − µ)2 .
2 2σ

Si X ∼ N (µ, σ 2 ), alors Y = (X − µ)/σ ∼ N (0, 1), avec E[Y 2 ] = 1 et Var[Y 2 ] = 2.


— Si le paramètre est µ ∈ R (i.e. σ 2 connu) : pour tout réel x, la fonction µ 7→ ℓµ (x) =
log f (x) est C 1 sur R. De plus

1 1 1
Eµ [ℓ′µ (X)2 ] = 2
Eµ [((X − µ)/σ)2 ] = 2 Eµ [Y 2 ] = 2 .
σ σ σ

Le modèle (fµ )µ∈R est donc régulier, d’information de Fisher constante I(µ) = 1/σ 2 .
— Si le paramètre est σ 2 > 0 (i.e. µ connu) : pour tout réel x, la fonction σ 2 7→ ℓσ2 (x) =
log f (x) est C 1 sur ]0, ∞[. De plus

1 h© ª2 i 1 1
Eσ2 [ℓ′σ2 (X)2 ] = 4
Eσ 2 ((X − µ)/σ) 2
− 1 = 4 Varσ2 (Y 2 ) = 4 .
4σ 4σ 2σ

Le modèle (fσ2 )σ2 >0 est donc régulier, d’information de Fisher I(σ 2 ) = 1/(2σ 4 ). No-
ter que si on considère σ > 0 comme paramètre, alors la Proposition 12 donne pour
information de Fisher J(σ) = 2/σ 2 .

Statistique Arnaud Guyader


80 Chapitre 2. Estimation unidimensionnelle

Interprétation. Revenons sur le modèle gaussien de moyenne µ inconnue. Intuitivement, l’infor-


mation de Fisher peut s’interpréter comme la quantité d’information apportée par une observation
pour estimer le paramètre inconnu. En ce sens, plus l’écart-type σ est petit, plus la variable
X ∼ N (µ, σ 2 ) a des chances de tomber près de la moyenne µ que l’on cherche, donc plus on aura
“d’information” sur celle-ci grâce à celle-là : ceci est cohérent avec le fait que I(µ) = 1/σ 2 . Avec
cette interprétation, il est tout aussi logique que I(µ) ne dépende pas de µ : que la moyenne vaille
0 ou 50, l’information sur cette moyenne apportée par une observation est clairement la même.
Ceci est en fait vrai pour tous les modèles de translation réguliers, comme nous allons le voir
maintenant.

Modèles de translation
Nous considérons ici une densité f (x) par rapport à la mesure de Lebesgue sur R, indépendante
de θ, et le modèle de translation associé

(fθ (x))θ∈R = (f (x − θ))θ∈R .

Comme on peut s’y attendre, la régularité de ce modèle ne dépend que de f . Rappelons qu’une
fonction définie sur un segment [a, b] est dite continue et C 1 par morceaux si elle est continue et s’il
existe une subdivision a0 = a < a1 < · · · < an = b telle que chaque restriction de f à ]ai , ai+1 [ se
prolonge en une fonction de classe C 1 sur [ai , ai+1 ] 12 . Une fonction définie sur R est dite continue
et C 1 par morceaux si elle l’est sur tout segment contenu dans cet intervalle. Ainsi, l’ensemble des
points où f n’est pas dérivable est au plus dénombrable, donc de mesure de Lebesgue nulle. Il est
facile de voir qu’une telle fonction est absolument continue.

Proposition 14 (Régularité d’un modèle de translation)


Si la densité f est continue sur R et C 1 par morceaux, avec
Z
f ′ (x)2
I := 1 dx < +∞,
R f (x) f (x)>0

alors le modèle de translation (fθ (x))θ∈R est régulier, d’information de Fisher constante égale à
I(θ) = I pour tout θ.

Preuve. Pour tout x, la fonction θ 7→ fθ (x) = f (x − θ) hérite des propriétés de régularité de f .


En notant D l’ensemble au plus dénombrable de points où f n’est pas dérivable, les deux premiers
points de la Définition 26 se vérifient facilement :
— pour tout x, la fonction θ 7→ fθ (x) = f (x − θ) étant continue et C 1 par morceaux, elle est
absolument continue sur Θ ;
— pour tout θ0 , notons N0 = θ0 + D, alors N0 est négligeable pour la mesure de Lebesgue et
pour tout x ∈ E0 = R \ N0 , la fonction θ 7→ fθ′ (x) = −f ′ (x − θ) est continue au point θ0 .
L’information de Fisher est alors triviale via le changement de variable y = x − θ :
Z Z Z
fθ′ (x)2 f ′ (x − θ)2 f ′ (y)2
I(θ) = 1 dx = 1 dx = 1 dy = I.
R fθ (x) fθ (x)>0 R f (x − θ) f (x−θ)>0 R f (y) f (y)>0

Une application constante étant continue, le modèle est régulier.


¥
12. La fonction f : [−1, 1] → R définie par f (x) = x2 sin(1/x)1x6=0 est un exemple de fonction dérivable sur [−1, 1]
mais non C 1 par morceaux car f ′ (x) n’admet pas de limite à droite en 0 (ni à gauche du reste). Elle est cependant
absolument continue puisqu’elle est 3-lipschitzienne.

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 81

Remarque : Le modèle gaussien de moyenne inconnue est clairement un cas particulier de ce


résultat en prenant pour f la densité d’une gaussienne centrée de variance σ 2 .
Donnons quelques exemples pour fixer les idées et voir la différence entre la Définition 26 que nous
avons adoptée et celle, plus classique mais plus restrictive, du Lemme 4.
Exemples :
1. Loi de Laplace : partons de la densité f (x) = 12 e−|x| . Celle-ci est continue sur R et, hormis
en l’origine, dérivable de dérivée continue (cf. Figure 2.11) :
Z
′ 2 1 −2|x| f ′ (x)2 1 −|x| f ′ (x)2
∀x 6= 0 f (x) = e =⇒ = e =⇒ dx = 1.
4 f (x) 2 R f (x)

Le modèle de translation (fθ (x))θ∈R est donc régulier, d’information de Fisher égale à 1.
On remarque au passage que ce modèle ne satisfait pas la condition de régularité requise
par le Lemme 4 puisque, quel que soit x, la fonction θ 7→ fθ (x) = f (x − θ) n’est pas C 1 sur
Θ = R (problème en θ = x).
2. Loi exotique : on considère cette fois la densité de classe C 1 (cf. Figure 2.11)
1 + cos x − sin x f ′ (x)2 1 − cos x
f (x) = 1[−π,π] (x) =⇒ f ′ (x) = 1[−π,π] (x) =⇒ = 1[−π,π] (x)
2π 2π f (x) 2π
donc le modèle de translation associé est régulier et a pour information de Fisher
Z π
1
I= (1 − cos x)dx = 1.
2π −π
Ici, le modèle ne satisfait pas la condition de support du Lemme 4, puisque le support de
fθ (x) est égal à [θ − π, θ + π], donc dépendant de θ.
3. Contre-exemple de la loi uniforme : si fθ (x) = 1[0,1] (x − θ), on voit que, pour tout réel
x, la fonction θ 7→ fθ (x) présente deux discontinuités, en x − 1 et en x. Le premier point
de la Définition 26 n’est pas vérifié et ce modèle de translation n’est donc pas régulier. On
retrouve ici le même problème que pour le modèle (U[0,θ] )θ∈R mentionné en début de section.

0.5
0.3

0.4
0.2
0.3

0.2 0.1

0.1
0.0
−2 −1 0 1 2 −4 −2 0 2 4

Figure 2.11 – Loi de Laplace (à gauche) et loi "exotique" (à droite).

2.3.3 Inégalité de l’Information et borne de Cramér-Rao


Supposons qu’on veuille estimer θ à partir de l’observation X dans un modèle régulier. Peut-on
avoir une idée du risque quadratique ? Le résultat suivant permet de le minorer. Rappelons que le
fait de supposer une fonction localement bornée n’est pas très restrictif.

Statistique Arnaud Guyader


82 Chapitre 2. Estimation unidimensionnelle

Proposition 15 (Inégalité de l’Information)


Soit (fθ )θ∈Θ un modèle régulier, θ̂(X) un estimateur de θ dont le risque quadratique est localement
borné, de biais noté b(θ) = Eθ [θ̂(X)] − θ. Alors on a la minoration suivante du risque quadratique :
si I(θ) > 0,
·³ ´2 ¸ (1 + b′ (θ))2
R(θ̂(X), θ) = Eθ θ̂(X) − θ ≥ b(θ)2 + .
I(θ)

Remarque : De façon plus générale, si ϕ̂(X) est un estimateur de ϕ(θ) de risque quadratique
localement borné, avec ϕ de classe C 1 , de biais b(θ) = Eθ [ϕ̂(X)] − ϕ(θ), alors si I(θ) > 0, on a
h i (ϕ′ (θ) + b′ (θ))2
Eθ (ϕ̂(X) − ϕ(θ))2 ≥ b(θ)2 + .
I(θ)

Preuve. Puisque (a + b)2 ≤ 2(a2 + b2 ) pour tous réels a et b, il vient


n o n h i o
θ̂(X)2 ≤ 2 (θ̂(X) − θ)2 + θ2 =⇒ Eθ [θ̂(X)2 ] ≤ 2 Eθ (θ̂(X) − θ)2 + θ2 .

Les deux membres de droite étant localement bornés, il en va de même pour celui de gauche.
On peut donc appliquer la Proposition 10 à la statistique θ̂(X), ce qui assure que la fonction
θ 7→ Eθ [θ̂(X)] est de classe C 1 sur Θ, de dérivée

∂ h i
Eθ [θ̂(X)] = Eθ θ̂(X)ℓ′θ (X) .
∂θ
Or on sait que le score est centré, i.e. Eθ [ℓ′θ (X)] = 0, donc l’équation précédente s’écrit encore

∂ h i
Eθ [θ̂(X)] = Eθ (θ̂(X) − Eθ [θ̂(X)])ℓ′θ (X) .
∂θ
L’inégalité de Cauchy-Schwarz donne alors
µ ¶2

Eθ [θ̂(X)] ≤ Varθ (θ̂(X)) × I(θ). (2.12)
∂θ

Il reste à voir que, pour le membre de gauche, Eθ [θ̂(X)] = b(θ) + θ. La fonction θ 7→ Eθ [θ̂(X)]
étant de classe C 1 , le biais l’est aussi et
µ ¶2

Eθ [θ̂(X)] = (1 + b′ (θ))2 .
∂θ

On peut de plus appliquer au membre de droite la décomposition classique du risque quadratique :


·³ ´2 ¸
Varθ (θ̂(X)) = Eθ θ̂(X) − θ − b(θ)2 .

On arrive ainsi au résultat souhaité, si tant est que I(θ) soit strictement positif.
¥

Remarque : Dans la preuve précédente, la variance apparaît dans l’inégalité (2.12). On voit que
si I(θ0 ) = 0, tout s’écroule et on perd toute information sur la variance de θ̂(X) en θ0 .
Donnons maintenant la version la plus connue de l’inégalité précédente : elle est due à Fréchet,
Darmois, Cramér et Rao, mais l’usage n’a conservé que les deux derniers auteurs.

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 83

Corollaire 4 (Borne de Cramér-Rao)


Si θ̂(X) un estimateur sans biais de θ dont la variance est localement bornée et si I(θ) > 0, alors

1
Varθ (θ̂(X)) ≥ .
I(θ)
Pour un modèle d’échantillonnage régulier où X = (X1 , . . . , Xn ) et pour un estimateur sans biais
θ̂n (X), cette borne devient
1
Varθ (θ̂n (X)) ≥ .
nI1 (θ)
Un estimateur atteignant cette borne est dit efficace.

Remarque : Pour un estimateur non biaisé ϕ̂n (X) de ϕ(θ), la borne de Cramér-Rao s’écrit donc
h i ϕ′ (θ)2
2
Eθ (ϕ̂n (X) − ϕ(θ)) = Varθ (ϕ̂n (X)) ≥ .
nI1 (θ)

Exemple. Reprenons l’exemple du cas gaussien où la variance σ 2 > 0 est inconnue, en supposant
pour simplifier que la moyenne est nulle (ça ne change rien), c’est-à-dire
i.i.d.
(X1 , . . . , Xn ) ∼ N (0, σ 2 ).

Ce modèle est régulier, d’information de Fisher I1 (σ 2 ) = 1/(2σ 4 ), d’où In (σ 2 ) = n/(2σ 4 ). Consi-


dérons l’estimateur du maximum de vraisemblance (cf. Section 2.2.2)
n
1X 2
σ̂ 2 = Xi .
n
i=1

Il est clairement non biaisé et de variance 13


Var(X12 ) E[X14 ] − (E[X12 ])2 2σ 4
Var(σ̂ 2 ) = = = ,
n n n
qui est précisément la borne de Cramér-Rao : c’est donc un estimateur efficace.
A ce stade, on serait tenté de dire que la notion d’efficacité est pertinente pour caractériser l’opti-
malité d’un estimateur. Il se trouve que non. En forçant le trait, on pourrait même dire qu’elle est
à peu près sans intérêt et il y a au moins deux raisons à cela. La première est que, comme on l’a
vu en Section 2.3.1, les estimateurs sans biais, lorsqu’ils existent, ne sont pas nécessairement les
plus intéressants en terme d’erreur quadratique. La seconde vient de ce qu’un estimateur efficace
ne peut exister que dans des conditions très particulières et clairement identifiées (estimateur “li-
néaire” dans un modèle exponentiel). En fait, la plupart des problèmes d’estimation n’admettent
pas d’estimateur efficace.
Exemple. Reprenons le cas des lois exponentielles (E(λ))λ>0 . Le calcul de l’information de Fisher
a déjà été fait : I1 (λ) = 1/λ2 . Lorsque
i.i.d.
X = (X1 , . . . , Xn ) ∼ E(λ),

l’estimateur au maximum de vraisemblance (ou de la méthode des moments) est 1/X̄n . Il est
biaisé : en effet, nX̄n ∼ Γ(n, λ), or un calcul facile montre que
λ
Z ∼ Γ(n, λ) =⇒ E[1/Z] = ,
n−1
13. Rappelons que si X ∼ N (0, 1), alors E[X 4 ] = 3, cas particulier de la formule générale : E[X 2n ] = (2n)!/(2n n!).

Statistique Arnaud Guyader


84 Chapitre 2. Estimation unidimensionnelle

d’où l’on déduit que Eλ [1/X̄n ] = nλ/(n − 1). Considérons alors l’estimateur sans biais
n−1
λ̂n = λ̂n (X) = .
nX̄n
Puisqu’un calcul du même type que celui mentionné plus haut assure que

λ2
Z ∼ Γ(n, λ) =⇒ E[1/Z 2 ] = ,
(n − 1)(n − 2)
on en déduit que
λ2 1 λ2
Varλ (λ̂n ) = > = .
n−2 nI1 (λ) n
La borne de Cramér-Rao n’est pas atteinte et cet estimateur n’est pas efficace. Néanmoins, on voit
qu’asymptotiquement
1 1
nVarλ (λ̂n ) −−−→ 2 = .
n→∞ λ I1 (λ)
Ce genre de phénomène, tout à fait typique, incite naturellement à introduire le concept d’efficacité
asymptotique.
Remarque : Avant de passer à l’efficacité asymptotique, revenons aux lois exponentielles, que
nous définissons cette fois pour tout θ > 0 par 14
1 x
fθ (x) = e− θ 1x≥0 .
θ
A partir d’un échantillon X = (X1 , . . . , Xn ) i.i.d. suivant cette loi, l’estimateur naturel (maximum
de vraisemblance ou méthode des moments) est donc maintenant θ̂n = θ̂n (X) = X̄n . Il est non
biaisé et de variance
Varθ (X1 ) θ2
Varθ (θ̂n ) = = .
n n
Or l’information de Fisher vaut, via le changement de paramètre λ = ψ(θ) = 1/θ :
1 n 1
J1 (θ) = ψ ′ (θ)2 I1 (1/θ) = 2
=⇒ Jn (θ) = 2 = ,
θ θ Varθ (θ̂n )
et on a cette fois un estimateur efficace ! Ceci montre qu’un simple changement de paramètre, aussi
régulier soit-il, modifie la propriété d’efficacité.

2.3.4 Efficacité asymptotique


La borne inférieure donnée par l’Inégalité de l’Information vue en Proposition 15 n’est pas satis-
faisante en ce sens qu’elle minore le risque quadratique en un seul point. Or on peut trouver un
estimateur trivial qui est imbattable à ce jeu-là !
Exemple. En effet, considérons pour simplifier Θ = R et l’estimateur constant θ̃(X) = 0 pour
toute observation X. Le biais et sa dérivée sont élémentaires :

b(θ) = Eθ [θ̃(X)] − θ = −θ =⇒ b′ (θ) = −1.

Par ailleurs, sa variance est nulle, d’où le risque


·³ ´2 ¸ (1 + b′ (θ))2
Eθ θ̃(X) − θ = θ2 = b(θ)2 = b(θ)2 + ,
I(θ)
14. C’est d’ailleurs la définition donnée dans beaucoup d’ouvrages et considérée par certains logiciels.

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 85

et on a égalité dans l’Inégalité de l’Information. Dirait-on pour autant que cet estimateur est
optimal ? Clairement non, il est même désastreux dès que le vrai paramètre θ est loin de l’origine.
Le problème de l’exemple précédent vient de ce qu’on a minimisé le terme de variance (en l’annu-
lant) sans contrôler le terme de biais. Or on sait qu’un bon estimateur doit avoir un biais et une
variance qui sont tous deux petits. Pour évacuer ce genre d’estimateur sans intérêt et arriver à nos
fins, une idée est de contrôler uniformément le risque quadratique. Le résultat suivant va dans ce
sens.

Théorème 10 (Inégalité de l’Information uniforme)


Soit un modèle régulier (fθ )θ∈Θ d’information de Fisher I(θ) = I1 (θ) et J un segment de Θ de
longueur 2r sur lequel I est majorée par I¯ = supθ∈J I(θ) et ne s’annule pas. Si l’on dispose d’un
échantillon X = (X1 , . . . , Xn ) i.i.d. selon fθ , alors pour tout estimateur θ̂n (X), on a
·³ Ã !2
´2 ¸ 1 1
sup Eθ θ̂n (X) − θ ≥ ¯× .
θ∈J nI 1+ √1
r nI¯

Exemple. Pour l’estimation de la moyenne dans le modèle (N (µ, 1))µ∈R , nous avons vu que
l’information est constante égale à I(µ) = 1, donc elle ne s’annule sur aucun intervalle J = [−r, r]
et est majorée par 1. L’inégalité précédente nous apprend que, pour tout estimateur µ̂n (X),
à !2
h i 1 1
sup Eµ (µ̂n (X) − µ)2 ≥ × .
−r≤µ≤r n 1 + r√1 n

En particulier, on voit que l’estimateur trivial µ̃(X) = µ̃n (X) = 0 proposé ci-dessus n’est plus du
tout optimal puisque h i
sup Eµ (µ̃n (X) − µ)2 = r2 ,
−r≤µ≤r

tandis que la borne inférieure tend vers 0 à vitesse 1/n. Tout ça est rassurant.
Preuve. Afin d’alléger les notations, convenons de noter le risque quadratique
·³ ´2 ¸
R(θ) = Eθ θ̂n (X) − θ .

Nous cherchons donc à minorer le supremum sur J de R(θ). S’il n’est pas borné, l’inégalité est
évidente. S’il est borné sur un intervalle ouvert contenant J, il est localement borné sur J et on
peut appliquer l’Inégalité de l’Information en tout point θ de J, à savoir

(1 + b′ (θ))2
R(θ) ≥ b(θ)2 + .
nI(θ)

Introduisons un coefficient de réglage c ∈]0, 1[. Deux cas de figure sont alors envisageables :
— ou bien il existe θ0 ∈ J tel que |b′ (θ0 )| ≤ c, alors en ce point l’Inégalité de l’Information
nous dit que

(1 + b′ (θ0 ))2 (1 + b′ (θ0 ))2 (1 − c)2 (1 − c)2


R(θ0 ) ≥ b(θ0 )2 + ≥ ≥ ≥ ,
nI(θ0 ) nI(θ0 ) nI(θ0 ) nI¯

et a fortiori
(1 − c)2
sup R(θ) ≥ R(θ0 ) ≥ .
θ∈J nI¯

Statistique Arnaud Guyader


86 Chapitre 2. Estimation unidimensionnelle

— ou bien |b′ (θ)| > c pour tout θ ∈ J. Puisqu’elle est continue (cf. preuve de la Proposition
15), la fonction b′ a donc un signe constant sur J et la variation de b sur J est minorée par
2cr :
sup b(θ) − inf b(θ) ≥ 2cr =⇒ sup |b(θ)| ≥ cr
θ∈J θ∈J θ∈J
et, toujours par l’Inégalité de l’Information,
sup R(θ) ≥ sup b(θ)2 ≥ (cr)2 .
θ∈J θ∈J

Quoi qu’il en soit, on a établi que


µ 2

2 (1 − c)
∀c ∈]0, 1[ sup R(θ) ≥ min (cr) , ,
θ∈J nI¯
d’où, en équilibrant les deux termes,
à !2
1 1 1
c= √ =⇒ sup R(θ) ≥ ¯ × ,
1 + r nI¯ θ∈J nI 1+ √1
r nI¯

ce qui est le résultat voulu. Il reste à voir que si R est borné sur J = [m − r, m + r] mais non
localement borné sur un intervalle ouvert contenant J, il suffit d’appliquer ce raisonnement aux
intervalles de la forme [m − r + ε, m + r − ε] puis de faire tendre ε vers 0. Le résultat passe à la
limite grâce à la continuité de I sur Θ, donc sur J.
¥
Remarques :
1. L’astuce consistant à choisir c de façon à égaliser les deux termes est un grand classique
en statistique : elle revient simplement à équilibrer le biais (au carré) et la variance. En
statistique non paramétrique, on la retrouve par exemple pour le choix de la fenêtre dans
les estimateurs à noyaux ou le nombre de voisins dans la méthode des plus proches voisins.
2. On peut généraliser l’inégalité de la Proposition 10 à un estimateur ϕ̂n (X) de ϕ(θ) tel que
ϕ soit C 1 de dérivée ne s’annulant pas sur Θ. En notant
I(θ)
I¯ϕ = sup ′ 2 et ∆(ϕ) = sup ϕ(θ) − inf ϕ(θ)
θ∈J ϕ (θ) θ∈J θ∈J

on peut en effet montrer que, sous les mêmes hypothèses,


 2
h i 1 1
sup Eθ (ϕ̂n (X) − ϕ(θ))2 ≥ ¯ ×  2
 .
θ∈J n Iϕ 1+ √
∆(ϕ) nI¯ϕ

Exemple. Revenons au résultat du Théorème 10. Pour un modèle de translation régulier, on a vu


que l’information de Fisher est constante égale à I, donc I¯ = I. En faisant tendre r vers l’infini,
on en déduit que ·³ ´2 ¸ 1
sup Eθ θ̂n (X) − θ ≥ .
θ∈R nI
Ce minorant n’est rien d’autre que la borne de Cramér-Rao, mais le point remarquable est qu’elle
est valable pour tous les estimateurs de θ, pas uniquement pour les estimateurs sans biais !
Inversement, on peut s’intéresser au comportement local de cette inégalité. Pour ce faire, considé-
rons maintenant J = Jn = [θ0 − rn , θ0 + rn ] avec (rn ) une suite tendant 0, alors la continuité de la
fonction I implique que
I¯ = I¯n = sup I(θ) −−−→ I(θ0 ).
θ0 −rn ≤θ≤θ0 +rn n→∞

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 87

Ainsi, pour toute suite (rn ) de limite nulle, on a à la fois I¯n qui tend vers I(θ0 ) et
 2
1 1
sup nR(θ̂n , θ) ≥ ¯ ×   .
θ0 −rn ≤θ≤θ0 +rn I n 1 + √1
rn nI¯n

Cette minoration est en particulier vérifiée dans le pire des cas pour le minorant, c’est-à-dire lorsque

celui-ci est de limite la plus grande possible : il suffit pour ça de choisir rn de sorte que rn n tende
vers l’infini (par exemple rn = n−1/4 ), ce qui donne

1
lim inf sup nR(θ̂n , θ) ≥ .
n→∞ θ −rn ≤θ≤θ +rn
0 0
I(θ0 )

Autrement dit, le risque d’un estimateur θ̂n de θ ne peut être asymptotiquement meilleur que
1/(nI(θ0 )) au voisinage de θ0 . Ceci laisse à penser que pour un estimateur θ̂n asymptotiquement
normal de θ0 , c’est-à-dire tel que
√ ³ ´
L
n θ̂n − θ0 −−−→ N (0, σ 2 (θ0 )),
n→∞

la plus petite valeur possible pour σ 2 (θ0 ) serait 1/I(θ0 ). En généralisant comme toujours via une
fonction ϕ, la borne serait en ϕ′ (θ0 )2 /(nI(θ0 )). La définition de l’efficacité asymptotique part de
ce constat.

Définition 27 (Efficacité asymptotique)


Soit un modèle régulier (fθ )θ∈Θ d’information de Fisher I(θ) = I1 (θ), ϕ̂n (X) un estimateur de
ϕ(θ) où ϕ est C 1 de dérivée ne s’annulant pas sur Θ. Cet estimateur est dit asymptotiquement
efficace si, lorsque X = (X1 , . . . , Xn ) est un échantillon i.i.d. selon fθ , on a

√ L ϕ′ (θ)2
n (ϕ̂n (X) − ϕ(θ)) −−−→ N (0, σ 2 (θ)) avec σ 2 (θ) ≤
n→∞ I(θ)

pour tout θ tel que I(θ) > 0.

En ce sens, sous les hypothèses adéquates, l’information de Fisher permet bien de préciser ce que
l’on peut attendre de mieux d’un estimateur. C’est ce que voulait dire, en tout début de Section
2.3.2, la phrase : “Un critère d’optimalité est spécifié par l’information de Fisher”. Avant de donner
des exemples d’estimateurs asymptotiquement efficaces, quelques remarques s’imposent.
Remarques :
1. Prenons ϕ(θ) = θ, qui est bien C 1 de dérivée ϕ′ (θ) = 1 ne s’annulant pas sur Θ. Sous les
mêmes hypothèses, un estimateur θ̂n (X) de θ est dit asymptotiquement efficace si on a
√ ³ ´
L 1
n θ̂n (X) − θ −−−→ N (0, σ 2 (θ)) avec σ 2 (θ) ≤
n→∞ I(θ)

pour tout θ tel que I(θ) > 0.


2. Conséquence : si θ̂n (X) est un estimateur asymptotiquement efficace de θ et si ϕ vérifie
les hypothèses ci-dessus, alors la méthode Delta assure que ϕ̂n (X) = ϕ(θ̂n (X)) est un
estimateur asymptotiquement efficace de ϕ(θ).
3. Estimateur de Hodges : on considère le modèle de translation gaussien N (θ, 1), d’infor-
mation de Fisher constante I(θ) = 1. Si X = (X1 , . . . , Xn ) est un échantillon i.i.d. selon

Statistique Arnaud Guyader


88 Chapitre 2. Estimation unidimensionnelle

cette loi, alors par les propriétés classiques des variables gaussiennes, l’estimateur X̄n vérifie
pour tout n
√ ¡ ¢ 1
n X̄n − θ ∼ N (0, 1) avec 1= ,
I(θ)
donc c’est un estimateur asymptotiquement efficace. Etant donné que Eθ [X̄n ] = θ et
Varθ (X̄n ) = 1/n, il est d’ailleurs également efficace. L’estimateur de Hodges θ̂n s’obtient en
annulant ce premier estimateur lorsqu’il est proche de 0, à savoir

θ̂n = X̄n 1|X̄n |≥n−1/4 .

Autrement dit, si la moyenne empirique est proche de 0 alors on estime θ par 0, sinon on
garde la moyenne empirique. Etudions la normalité asymptotique de cet estimateur.
— Si θ = 0, alors X̄n ∼ N (0, 1/n) et pour tout ε > 0,
³¯√ ¯ ´ ³¯√ ¯ ´ ³¯ ¯ ´ ³¯ ¯ ´
¯ ¯ ¯ ¯ ¯ ¯
P ¯ nθ̂n ¯ ≥ ε = P ¯ nX̄n 1|X̄n |≥n−1/4 ¯ ≥ ε ≤ P ¯X̄n ¯ ≥ n−1/4 = P ¯n1/4 X̄n ¯ ≥ 1 ,

or, par le Lemme de Slutsky,


√ L
n1/4 X̄n = n−1/4 × ( nX̄n ) −−−→ 0 × N (0, 1) = 0,
n→∞

d’où l’on déduit que n1/4 X̄n tend en probabilité vers 0, et idem pour nθ̂n . Ainsi, lorsque
θ = 0,
√ ³ ´
L 1
n θ̂n − θ −−−→ N (0, 0) avec 0<1= .
n→∞ I(0)
— Lorsque θ 6= 0,
√ ³ ´ √ ³ ´ √ ¡ ¢ √
n θ̂n − θ = n X̄n 1|X̄n |≥n−1/4 − θ = n X̄n − θ − nX̄n 1|X̄n |<n−1/4 .

Cette fois, pour tout ε > 0,


³¯√ ¯ ´ ³¯ ¯ ´ ³ ¯ ¯ ´
¯ ¯
P ¯ nX̄n 1|X̄n |<n−1/4 ¯ ≥ ε ≤ P ¯X̄n ¯ < n−1/4 = P n1/4 ¯X̄n ¯ < 1 ,
¯ ¯
or par la Loi des Grands Nombres et le théorème de continuité, ¯X̄n ¯ tend presque
¯ ¯
sûrement vers |θ|, donc n1/4 ¯X̄n ¯ tend presque sûrement vers +∞ et le théorème de
convergence dominée permet de conclure :
³ ¯ ¯ ´ h i
P n1/4 ¯X̄n ¯ < 1 = E 1n1/4 |X̄n |<1 −−−→ 0,
n→∞

c’est-à-dire que
√ P
nX̄n 1|X̄n |≤n−1/4 −−−→ 0,
n→∞
et par Slutsky
√ ³ ´
L 1
n θ̂n − θ −−−→ N (0, 1) avec 1= .
n→∞ I(θ)
Autrement dit, l’estimateur de Hodges a une variance asymptotique en 1/I(θ) pour tout
θ 6= 0 et une variance asymptotique strictement plus petite pour θ = 0 : on dit qu’il est
super-efficace. On peut toutefois montrer que pour tout n, l’erreur quadratique moyenne
R(θ̂n , θ) est détériorée localement autour de 0 par rapport à celle de la moyenne empirique
R(X̄n , θ) = 1/n. Précisément, il existe une constante c > 0 indépendante de n et de θ telle

que sup|θ|≤n−1/4 R(θ̂n , θ) ≥ c/ n. Ce comportement, parfois appelé phénomène de Hodges,
est illustré Figure 2.12.

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 89

15

10

−2 −1 0 1 2
θ

Figure 2.12 – Phénomène de Hodges : risques quadratiques normalisés θ 7→ nR(X̄n , θ) = 1 en


rouge, et θ 7→ nR(θ̂n , θ) pour n = 10 (· · · ), n = 100 (- - -) et n = 1000 (trait plein noir).

4. Un résultat (difficile) dû à Le Cam assure néanmoins qu’on ne peut avoir super-efficacité,


i.e. σ 2 (θ) < 1/I(θ), que sur un ensemble Θ0 de mesure de Lebesgue nulle. On retient : en
général, un estimateur asymptotiquement efficace de θ est donc un estimateur asymptoti-
quement normal de variance asymptotique 1/I(θ) pour tout θ tel que I(θ) > 0.

Exemples :
1. Revenons au cas des lois exponentielles (E(λ))λ>0 , modèle régulier d’information de Fisher
I1 (λ) = 1/λ2 strictement positive pour tout λ > 0. Nous avons vu que l’estimateur naturel
λ̃n (X) = 1/X̄n n’est pas efficace : d’une part il est biaisé, d’autre part même si on le
débiaise on n’atteint pas la borne de Cramér-Rao. Néanmoins, quel que soit λ > 0, si
X = (X1 , . . . , Xn ) est un échantillon i.i.d. selon fλ , le Théorème Central Limite nous dit
que µ ¶
√ 1 L
n X̄n − −−−→ N (0, 1/λ2 ).
λ n→∞
La méthode Delta donne alors
√ ³ ´
L 1
n λ̃n (X) − λ −−−→ N (0, λ2 ) avec λ2 = ,
n→∞ I(λ)

donc cet estimateur est asymptotiquement efficace.


2. Voyons ce qui peut se passer lorsque l’information de Fisher s’annule. On effectue un chan-
gement de paramètre dans l’exemple des gaussiennes translatées en considérant le modèle
(N (θ3 , 1))θ∈R , où θ ∈ R est le paramètre inconnu que l’on cherche à estimer. Avec les nota-
tions de la Proposition 12, on a la bijection µ = θ3 = ψ(θ) avec ψ de classe C 1 . Ce modèle
est donc régulier, d’information de Fisher

J(θ) = ψ ′ (θ)2 I(ψ(θ)) = 9θ4 ,

qui est strictement positive si et seulement si θ est non nul. L’estimateur naturel (moments
ou EMV) est
µ ¶
1/3 X1 + · · · + Xn 1/3
θ̂n (X) = X̄n = .
n
On sait que
√ ¡ ¢ L
n X̄n − θ3 −−−→ N (0, 1)
n→∞

Statistique Arnaud Guyader


90 Chapitre 2. Estimation unidimensionnelle

donc la méthode Delta telle qu’énoncée en Proposition 6 assure que, si θ 6= 0,


√ ³ ´
L 1 1
n θ̂n (X) − θ −−−→ N (0, 1/(9θ4 )) avec 4
= ,
n→∞ 9θ J(θ)

ce qui prouve l’efficacité asymptotique. Si θ = 0, alors nX̄n ∼ N (0, 1). Soit Z une variable
aléatoire distribuée selon une loi normale centrée réduite, alors on a les égalités en loi
suivantes :
√ loi loi
nX̄n = Z =⇒ n1/6 θ̂n (X) = Z 1/3 .
Ou encore, de façon équivalente : notons Y une variable telle que Y 3 ∼ N (0, 1), alors
³ ´
loi
n1/6 θ̂n (X) − 0 = Y.

La variable Y n’est pas gaussienne : elle est bimodale (voir Figure 2.13), sa densité f (y)
pouvant se calculer comme suit

3 y6
F (y) = P(Y ≤ y) = P(Y 3 ≤ y 3 ) = Φ(y 3 ) =⇒ f (y) = √ y 2 e− 2 .

Bref, on a toujours convergence en loi, mais la limite n’est plus gaussienne et la vitesse
de convergence n’est plus en n−1/2 , mais en n−1/6 , donc bien plus lente 15 . Cependant,
l’estimateur θ̂n est asymptotiquement efficace puisque, pour tout θ tel que J(θ) 6= 0, il
est asymptotiquement normal de variance limite 1/J(θ). Cet exemple permet simplement
de constater que, en un point où l’information de Fisher s’annule, le comportement d’un
estimateur asymptotiquement efficace peut être complètement différent de ce qui se passe

partout ailleurs : ici, lorsque J(θ) = 0, i.e. lorsque θ = 0, la vitesse n’est plus en 1/ n et la
loi limite n’est plus gaussienne.

1.00

0.6
0.75

0.50 0.4

0.25 0.2

0.00 0.0
−2 −1 0 1 2 −2 −1 0 1 2

Figure 2.13 – Fonction de répartition et densité de la variable Y telle que Y 3 ∼ N (0, 1).

Modulo une hypothèse de domination, on peut montrer (mais nous l’admettrons 16 ) un résultat
général assurant l’efficacité asymptotique de l’estimateur du maximum de vraisemblance dans un
modèle régulier.

√ √
15. Pour voir que n(θ̂n (X) − θ) = nθ̂n (X) ne converge pas en loi, il suffit de noter que, pour tout réel t, on a

P( nθ̂n (X) ≤ t) = P(N (0, 1) ≤ t /n) = Φ(t3 /n) → 1/2 quand n → ∞, ce qui exclut l’existence d’une fonction de
3

répartition F telle que la limite précédente coïncide avec F en tout point de continuité de celle-ci.
16. Voir [6] pour une preuve.

Arnaud Guyader Statistique


2.3. Comparaison d’estimateurs 91

Théorème 11 (EMV et efficacité asymptotique)


Soit un modèle régulier (fθ )θ∈Θ d’information de Fisher I(θ), soit θ0 ∈ Θ vérifiant I(θ0 ) > 0 et
X = (X1 , . . . , Xn ) un échantillon i.i.d. selon fθ0 . S’il existe une suite (θ̂n (X))n≥n0 d’estimateurs
du maximum de vraisemblance consistante pour θ0 et h > 0 tel que
" #
Eθ0 sup ℓ′θ (X1 )2 < ∞, (2.13)
θ0 −h≤θ≤θ0 +h

alors
√ ³ ´
L
n θ̂n (X) − θ0 −−−→ N (0, 1/I(θ0 )),
n→∞

c’est-à-dire qu’on a efficacité asymptotique.

Exemple : Dans le modèle régulier déjà mentionné où X ∼ E(θ), nous avons vu que I(θ) = I1 (θ) =
1/θ2 > 0 pour tout θ > 0. Considérons θ0 > 0 fixé et un échantillon X = (X1 , . . . , Xn ) i.i.d. selon la
loi E(θ0 ). L’estimateur du maximum de vraisemblance est θ̂n = 1/X̄n et la loi des grands nombres
montre qu’il est consistant. Nous avons même vérifié qu’il est en fait asymptotiquement efficace.
On peut retrouver ce dernier point grâce au résultat général précédent. En effet, prenons h = θ0 /2,
alors un calcul déjà fait donne ℓ′θ (X1 ) = (1/θ − X1 ) donc, pour tout θ ∈ [θ0 /2; 3θ0 /2],
µ ¶2 ¯ ¯2 µ ¶2 µ ¶2
1 ¯1 ¯ 1 2
ℓ′θ (X1 )2 = − X1 = ¯¯ − X1 ¯¯ ≤ + X1 ≤ + X1 ,
θ θ θ θ0

et puisque X1 ∼ E(θ0 ) admet un moment d’ordre 2, on a bien


" # "µ ¶2 #
′ 2 2
Eθ0 sup ℓθ (X1 ) ≤ Eθ0 + X1 < ∞,
θ0 −h≤θ≤θ0 +h θ0

donc d’après le Théorème 11 l’EMV θ̂n = 1/X̄n est asymptotiquement efficace. Sur cet exemple
élémentaire, on constate néanmoins que la vérification directe par le TCL et la méthode Delta
permettent de conclure plus rapidement.
Bilan : Pour reprendre la question posée en début de section : “Existe-t-il un estimateur optimal,
et si oui en quel sens ?” on peut dire que, du point de vue asymptotique dans le cadre des modèles
réguliers, c’est l’estimateur du maximum de vraisemblance qui répond au problème (sous les ré-
serves qui s’imposent : existence d’un EMV consistant, hypothèse de domination (2.13), non-nullité
de l’information de Fisher). Encore faut-il pouvoir le calculer, ce qui n’est pas toujours chose facile.
De plus, comme nous l’avons vu, l’EMV souffre d’un manque de robustesse aux données aberrantes
ou à une mauvaise spécification du modèle.
Notant θ0 la vraie valeur du paramètre, le Théorème 11 signifie que plus l’information de Fisher
en ce point est grande, plus on peut estimer précisément θ0 , en particulier par l’estimateur au max
de vraisemblance. Dit autrement, plus I(θ0 ) est grande, plus l’information moyenne apportée par
une donnée est importante : on peut par exemple écrire
à !
2 2
Pθ0 θ̂n − p ≤ θ0 ≤ θ̂n + p −−−→ 0.95.
nI(θ0 ) nI(θ0 ) n→∞

On notera au passage que ceci ne correspond pas à un intervalle de confiance asymptotique à 95% :
puisqu’on ne connaît pas θ0 , en général on ne connaît pas non plus I(θ0 ). Néanmoins, puisque la
fonction I est continue, si l’on dispose d’une formule explicite pour celle-ci, il suffit de remplacer
I(θ0 ) par I(θ̂n ) pour en déduire un intervalle de confiance asymptotique.

Statistique Arnaud Guyader


92 Chapitre 2. Estimation unidimensionnelle

Par ailleurs, on peut donner une interprétation graphique de l’information de Fisher grâce au lien
avec la théorie de l’information 17 . On se contente d’en donner l’idée en considérant que tous les
objets sont bien définis et suffisamment réguliers. Si f et g sont deux densités, on appelle divergence
de Kullback-Leibler, ou entropie relative, de g par rapport à f la quantité
Z µ ¶
f (x)
D(f k g) = log f (x)dx.
g(x)
L’inégalité de Jensen assure que celle-ci est toujours positive, et nulle si et seulement si f et g sont
égales presque partout. Stricto sensu, cette divergence ne peut cependant s’interpréter comme une
distance puisque ni la symétrie ni l’inégalité triangulaire ne sont en général vérifiées. En terme
d’inférence statistique, supposons que θ0 soit la vraie valeur du paramètre, alors pour une autre
valeur θ, la divergence de fθ à fθ0 peut encore s’écrire

D(fθ0 k fθ ) = −Eθ0 [ℓθ (X) − ℓθ0 (X)].

D(fθ0 k fθ )

D(fθ0 k fθ )
θ θ
θ0 θ0

Figure 2.14 – Divergence et information de Fisher, avec I(θ0 ) plus grande à droite qu’à gauche.

Sous les hypothèses de régularité ad hoc, on a donc au voisinage de θ0

ℓθ (X) ≈ ℓθ0 (X) + ℓ′θ0 (X)(θ − θ0 ) + 12 ℓ′′θ0 (X)(θ − θ0 )2 .

Passant à l’espérance, puisque le score est centré, on en déduit que

D(fθ0 k fθ ) ≈ 12 I(θ0 )(θ − θ0 )2 .

Autrement dit, l’information de Fisher en θ0 correspond à la courbure de la divergence de Kullback-


Leibler au voisinage de θ0 . Plus cette courbure est importante, plus il est facile de discriminer entre
la vraie valeur θ0 et une valeur voisine, et inversement. La Figure 2.14 illustre ce point de vue.
L’interprétation précédente permet également de comprendre pourquoi l’estimation au maximum
de vraisemblance apparaît de façon naturelle dans ce cadre. Le but est en effet de trouver la valeur
de θ qui minimise la divergence

D(fθ0 k fθ ) = Eθ0 [ℓθ0 (X)] − Eθ0 [ℓθ (X)],

c’est-à-dire qui maximise la fonction θ 7→ Eθ0 [ℓθ (X)], dite fonction de contraste. Celle-ci étant hors
d’atteinte, l’idée est de maximiser sa version empirique : en effet, par la Loi des Grands Nombres,
si les Xi sont i.i.d. de densité fθ0 , alors
n
1X p.s.
ℓθ (Xi ) −−−→ Eθ0 [ℓθ (X)].
n n→∞
i=1

Or maximiser le terme de gauche, c’est justement ce que fait l’estimateur au maximum de vrai-
semblance.
17. voir [5] pour une introduction à ce domaine, en particulier le chapitre Information Theory and Statistics.

Arnaud Guyader Statistique


Chapitre 3

Le modèle linéaire gaussien

Introduction
Le principe de la régression est de modéliser une variable y, dite variable à expliquer ou variable
réponse, comme une fonction de p variables 1 x = [x1 , . . . , xp ]′ , dites variables explicatives :
y = g(x) = g(x1 , . . . , xp ).
On dispose d’un échantillon de taille n de couples (xi , yi )1≤i≤n et le but est de retrouver la fonction
g. Le modèle le plus simple est celui d’une relation linéaire, c’est-à-dire qu’on suppose l’existence
d’un vecteur de paramètres β = [β1 , . . . , βp ]′ tel que
y = x ′ β = β 1 x1 + · · · + β p xp .
En pratique, ceci ne marche pas, ou bien parce que ce modèle est approché (la liaison n’est pas
réellement linéaire) ou bien en raison des erreurs de mesure. L’idée est alors de voir y comme la
réalisation d’une variable aléatoire Y tenant compte de cette inadéquation. Concrètement, ceci
revient à réécrire le modèle sous la forme
Y = x′ β + ε = β1 x1 + · · · + βp xp + ε,
où la variable aléatoire ε est supposée centrée et de variance inconnue σ 2 . On parle alors de modèle
de régression linéaire. Partant de notre échantillon, l’objectif est ainsi d’estimer le paramètre β
ainsi que la variance σ 2 de l’erreur ε. On a donc affaire à un problème d’inférence statistique,
paramétrique au sens de la Définition 7. Les exemples d’applications de la régression linéaire
foisonnent, on se contente ici d’en mentionner quelques-uns :
1. Concentration de l’ozone : dans ce domaine, on cherche à expliquer le maximum jour-
nalier de la concentration en ozone, notée O3 (en µg/m3 ), en fonction de la température à
midi T . Le nuage de points de la Figure 3.1 (à gauche) correspond à 112 données relevées
durant l’été 2001 à Rennes. On propose le modèle :
O3 = β1 + β2 T + ε.
Lorsqu’il n’y a, comme ici, qu’une “vraie” variable explicative (la température), on parle de
régression linéaire simple. On peut affiner ce modèle en tenant compte de la nébulosité 2 N
à midi et de la projection V du vecteur vitesse du vent sur l’axe Est-Ouest, ce qui donne
O3 = β1 + β2 T + β3 V + β4 N + ε,
et on parle alors de régression linéaire multiple.
1. Dans tout ce chapitre, le symbole ′ correspond à la transposition.
2. Celle-ci prend des valeurs entières de 0 à 8, pour un ciel allant de très dégagé à très couvert.

93
94 Chapitre 3. Le modèle linéaire gaussien

160
25

120

Hauteur
maxO3

20

80
15

40
15 20 25 30 30 40 50 60 70
T12 Circonférence

Figure 3.1 – Nuages de points pour l’ozone et les eucalyptus.

2. Hauteur d’un eucalyptus : la Figure 3.1 (à droite) correspond à environ 1400 couples
(xi , yi ) où xi correspond à la circonférence du tronc à 1 mètre du sol (en centimètres) et
yi à la hauteur de l’arbre (en mètres). Au vu de ce nuage de points, on peut proposer le
modèle √
Y = β1 + β2 x + β3 x + ε.
On voit sur cet exemple que le modèle de régression linéaire est linéaire en les paramètres
inconnus βj , non en la variable x !
3. Modèle de Cobb-Douglas : énoncé en 1928 dans l’article A Theory of Production, le
principe est de décrire, sur l’ensemble des Etats-Unis, la production P en fonction du capital
K (valeur des usines, etc.) et du travail T (nombre de travailleurs). Les auteurs proposèrent
le modèle suivant
P = α 1 K α2 T α3 .
En passant au logarithme, en notant (β1 , β2 , β3 ) = (log α1 , α2 , α3 ) et en tenant compte de
l’erreur du modèle, on aboutit donc à

log P = β1 + β2 log K + β3 log T + ε.

A partir de données sur 24 années consécutives, de 1899 à 1922, ils estimèrent α2 = 1/4
et α3 = 3/4. Ici, partant d’un modèle de régression non-linéaire en α2 et α3 , on a pu le
linéariser grâce à une simple transformation logarithmique. Ce n’est bien sûr pas toujours
le cas...

3.1 Régression linéaire multiple


3.1.1 Modélisation
Nous supposons que les données collectées suivent le modèle suivant :

Yi = β1 xi1 + β2 xi2 + · · · + βp xip + εi , i = 1, . . . , n (3.1)

où :
— les Yi sont des variables aléatoires dont on observe les réalisations yi ;
— les xij sont connus, non aléatoires, la variable xi1 valant souvent 1 pour tout i ;

Arnaud Guyader Statistique


3.1. Régression linéaire multiple 95

— les paramètres βj du modèle sont inconnus, mais non aléatoires ;


— les εi sont des variables aléatoires inconnues, i.e. non observées contrairement aux Yi .
Remarque : comme la constante appartient généralement au modèle, beaucoup d’auteurs l’écrivent
plutôt sous la forme

Yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + εi , i = 1, . . . , n

de sorte que p correspond toujours au nombre de “vraies” variables explicatives. Avec notre conven-
tion d’écriture (3.1), si xi1 vaut 1 pour tout i, p est le nombre de paramètres à estimer, tandis que
le nombre de variables explicatives est, à proprement parler, (p − 1).
En adoptant une écriture matricielle pour (3.1), nous obtenons la définition suivante :

Définition 28 (Modèle de régression linéaire multiple)


Un modèle de régression linéaire est défini par une équation de la forme :

Y = Xβ + ε

où :
— Y est un vecteur aléatoire de dimension n,
— X est une matrice de taille n × p connue, appelée matrice du plan d’expérience,
— β est le vecteur de dimension p des paramètres inconnus du modèle,
— ε, de dimension n, est le vecteur aléatoire et inconnu des erreurs.

Les hypothèses concernant le modèle sont


½
(H1 ) : rg(X) = p
(H)
(H2 ) : les εi sont i.i.d. avec E[εi ] = 0 et Var(εi ) = σ 2

L’hypothèse (H1 ) assure que le modèle est identifiable, nous y reviendrons en Section 3.2 pour
l’étude du modèle gaussien. Pour l’instant, contentons-nous de noter qu’elle implique p ≤ n et
qu’elle est équivalente à supposer la matrice carrée X ′ X inversible. Supposons en effet X de rang
p : puisque rg(X) ≤ min(n, p), ceci implique bien p ≤ n. De plus, s’il existait un vecteur α de
Rp tel que (X ′ X)α = 0, on aurait kXαk2 = α′ (X ′ X)α = 0, donc Xα = 0, d’où α = 0 puisque
rg(X) = p. La réciproque est claire : si X ′ X est inversible, alors une matrice et sa transposée ayant
le même rang, il vient

p = rg(X ′ X) ≤ min(rg(X ′ ), rg(X)) = rg(X) ≤ min(n, p) ⇒ rg(X) = p ≤ n.

Concrètement, si rg(X) < p, ceci signifie que (au moins) l’une des colonnes de la matrice X du
plan d’expérience est combinaison linéaire des autres, c’est-à-dire que la variable correspondant à
cette colonne n’apporte (linéairement) aucune information supplémentaire : elle est donc inutile.
Remarque. La matrice X ′ X est symétrique et on vient de voir que, sous l’hypothèse (H1 ), pour
tout α ∈ Rp non nul, on a α′ (X ′ X)α = kXαk2 > 0. Autrement dit, la matrice X ′ X est symétrique
définie positive.
En (H2 ), supposer les erreurs centrées est naturel : si tel n’était pas le cas, leur moyenne m passerait
dans la partie déterministe du modèle, quitte éventuellement à ajouter un paramètre β0 = m si la
constante n’est pas déjà présente dans le modèle. Par ailleurs, dans toute cette section 3.1, nous
pourrions en fait nous contenter de supposer que les erreurs εi sont décorrélées, centrées et de
même variance σ 2 (on parle alors d’homoscédasticité).
Notation. On notera X = [X1 | . . . |Xp ], où Xj est le vecteur colonne de taille n correspondant
à la j-ème variable. La i-ème ligne de la matrice X sera quant à elle notée x′i = [xi1 , . . . , xip ] et

Statistique Arnaud Guyader


96 Chapitre 3. Le modèle linéaire gaussien

elle correspond au i-ème “individu” de l’échantillon. La matrice X du plan d’expérience est aussi
appelée matrice “individus × variables”. Par conséquent, l’équation (3.1) s’écrit encore

Yi = x′i β + εi ∀i ∈ {1, . . . , n},

et de façon matricielle on peut aussi écrire

Y = Xβ + ε = β1 X1 + · · · + βp Xp + ε.

3.1.2 Estimateurs des Moindres Carrés


Notre but est tout d’abord d’estimer β. Mathématiquement, l’estimateur le plus simple à calculer
et à étudier est celui dit des Moindres Carrés. Lorsque les erreurs εi sont gaussiennes, il correspond
d’ailleurs à celui du maximum de vraisemblance, comme nous le verrons en Section 3.2.4.

Définition 29 (Estimateur des Moindres Carrés)


L’estimateur des moindres carrés β̂ est défini comme suit :
 2 ° °2
n p n ° p °
X X X ¡ ¢ 2 ° X °
β̂ = argmin Yi − αj xij  = argmin Yi − xi α = argmin °

° Y − αj Xj °
°
α∈Rp i=1 j=1 α∈Rp i=1 α∈Rp ° j=1 °
= argmin kY − Xαk2 .
α∈Rp

Pour déterminer β̂, il suffit de raisonner géométriquement. La matrice X = [X1 | . . . |Xp ] du plan
d’expérience est formée de p vecteurs colonnes dans Rn (la première étant généralement constituée
de 1). Le sous-espace de Rn engendré par ces p vecteurs colonnes est appelé espace image, ou
espace des solutions, et noté

MX = Im(X) = Vect(X1 , . . . , Xp ).

Il est de dimension p par l’hypothèse (H1 ) et tout vecteur de cet espace est de la forme Xα, où α
est un vecteur de Rp :
Xα = α1 X1 + · · · + αp Xp .

M⊥
X
Y

Y − Ŷ

Ŷ = X β̂ = PX Y

MX

Figure 3.2 – Interprétation de Ŷ = X β̂ comme projeté orthogonal de Y sur MX .

Selon le modèle de la Définition 28, le vecteur Y est la somme d’un élément Xβ de MX et d’une
erreur ε, laquelle n’a aucune raison d’appartenir à MX . Minimiser kY − Xαk2 revient à chercher

Arnaud Guyader Statistique


3.1. Régression linéaire multiple 97

l’élément de MX qui soit le plus proche de Y au sens de la norme euclidienne. Cet élément, unique
puisque MX est un convexe fermé de Rn , est par définition le projeté orthogonal de Y sur MX
(voir Figure 3.2). Il sera noté Ŷ = PX Y , où PX est la matrice de projection orthogonale sur MX . Il
peut aussi s’écrire sous la forme Ŷ = X β̂, où β̂ est l’estimateur des moindres carrés de β. L’espace
orthogonal à MX , noté M⊥ X , est souvent appelé espace des résidus. En tant que supplémentaire
orthogonal, il est de dimension
dim(M⊥ n
X ) = dim(R ) − dim(MX ) = n − p.

Les expressions de β̂ et PX données maintenant sont sans aucun doute les plus importantes de
tout ce chapitre, puisqu’on peut quasiment tout retrouver à partir de celles-ci.

Proposition 16 (Expression de β̂)


L’estimateur β̂ des moindres carrés a pour expression :

β̂ = (X ′ X)−1 X ′ Y,
et la matrice PX de projection orthogonale sur MX s’écrit :
PX = X(X ′ X)−1 X ′ .

Preuve. On peut montrer ce résultat de plusieurs façons.


1. Par projection : il suffit de dire que le projeté orthogonal Ŷ = X β̂ est défini comme l’unique
vecteur tel que (Y − Ŷ ) soit orthogonal à MX . Puisque MX est engendré par les vecteurs
X1 , . . . , Xp , ceci revient à dire que (Y − Ŷ ) est orthogonal à chacun des Xi :
 ′
 hX1 , Y − X β̂i = X1 (Y − X β̂) = 0

..
 .

hXp , Y − X β̂i = Xp′ (Y − X β̂) = 0

Ces p équations se regroupent en une seule : X ′ (Y −X β̂) = 0, d’où l’on déduit bien l’expres-
sion de β̂ = (X ′ X)−1 X ′ Y . Puisque par définition Ŷ = PX Y = X β̂ = X(X ′ X)−1 X ′ Y et
comme cette relation est valable pour tout Y ∈ Rn , on en déduit que PX = X(X ′ X)−1 X ′ .
2. Par différentiation : on cherche α ∈ Rp qui minimise la fonction
S(α) = kY − Xαk2 = α′ (X ′ X)α − 2Y ′ Xα + kY k2 .
Or S est de type quadratique en α, avec X ′ X symétrique définie positive, donc le problème
admet une unique solution β̂ : c’est le point où le gradient de S est nul. Géométriquement,
en dimension 2, c’est le sommet du paraboloïde défini par S. Ceci s’écrit :
∇S(β̂) = 2β̂ ′ X ′ X − 2Y ′ X = 0 ⇐⇒ (X ′ X)β̂ = X ′ Y.
La matrice X ′ X étant inversible par (H1 ), ceci donne β̂ = (X ′ X)−1 X ′ Y et par le même
raisonnement que ci-dessus il s’ensuit que PX = X(X ′ X)−1 X ′ .
¥

Remarques :
1. Puisque Y = Xβ + ε, l’estimateur β̂ s’écrit encore
β̂ = β + (X ′ X)−1 X ′ ε. (3.2)
Vu que β et ε sont inconnus, cette expression ne permet en rien de calculer β̂. Néanmoins,
elle peut s’avérer utile pour établir certaines propriétés de cet estimateur : en particulier,
elle montre que β̂ est une transformation affine du vecteur aléatoire ε.

Statistique Arnaud Guyader


98 Chapitre 3. Le modèle linéaire gaussien

2. Dire que la matrice X n’est pas de rang p signifie que le sous-espace MX engendré par
ses colonnes est strictement inférieur à p, ou encore que le noyau de l’application linéaire
α ∈ Rp 7→ Xα ∈ Rn n’est pas réduit à 0. La projection Ŷ sur MX reste bien définie, mais
on perd l’unicité de l’estimateur des moindres carrés puisque si β̂ permet d’atteindre le
minimum, celui-ci est encore atteint pour tout vecteur de la forme β̂ + α avec α appartenant
au noyau de X.

Exemples.
1. La droite des moindres carrés pour le modèle expliquant le maximum journalier de l’ozone
en fonction de la température à midi est superposée au nuage de points en Figure 3.3 à
gauche.
2. Pour l’exemple des eucalyptus, la courbe des moindres carrés, de la forme y = β̂1 + β̂2 x +

β̂3 x, est représentée Figure 3.3 à droite.

160

25

120
Hauteur
maxO3

20

80
15

40
15 20 25 30 30 40 50 60 70
T12 Circonférence

Figure 3.3 – Droite et courbe des moindres carrés pour l’ozone et les eucalyptus.

Dorénavant nous noterons PX = X(X ′ X)−1 X ′ la matrice de projection orthogonale sur MX et


PX ⊥ = (In − PX ) la matrice de projection orthogonale sur M⊥
X . La décomposition

Y = Ŷ + (Y − Ŷ ) = PX Y + (In − PX )Y = PX Y + PX ⊥ Y

n’est donc rien de plus qu’une décomposition orthogonale de Y sur MX et M⊥


X.
Achtung ! La décomposition

Ŷ = X β̂ = β̂1 X1 + · · · + β̂p Xp

signifie que les β̂i sont les coordonnées de Ŷ dans la base (X1 , . . . , Xp ) de MX . Il ne faudrait pas
croire pour autant que les β̂i sont les coordonnées des projections de Y sur les Xi : ceci n’est vrai
que si la base (X1 , . . . , Xp ) est orthogonale, ce qui n’est pas le cas en général.
Rappels sur les projecteurs : soit P une matrice carrée de taille n. On dit que P est une
matrice de projection si P 2 = P . Ce nom est dû au fait que pour tout vecteur x de Rn , P x est la
projection de x sur Im(P ) parallèlement à Ker(P ). Si en plus de vérifier P 2 = P , la matrice P est
symétrique (i.e. P ′ = P ), alors P x est la projection orthogonale de x sur Im(P ) parallèlement à
Ker(P ), c’est-à-dire qu’on a la décomposition

x = P x + (x − P x) avec P x ⊥ x − P x.

Arnaud Guyader Statistique


3.1. Régression linéaire multiple 99

C’est ce cas de figure qui nous concernera dans ce cours. Toute matrice symétrique réelle étant
diagonalisable en base orthonormée, il existe une matrice orthogonale Q (i.e. QQ′ = In , ce qui
signifie que les colonnes de Q forment une base orthonormée de Rn ) et une matrice diagonale ∆
telles que P = Q∆Q′ . On voit alors facilement que la diagonale de ∆ est composée de p “1” et de
(n − p) “0”, où p est la dimension de Im(P ), espace sur lequel on projette. En particulier la trace
de P , qui est égale à celle de ∆, vaut tout simplement p.
Revenons à nos moutons : on a vu que PX = X(X ′ X)−1 X ′ . On vérifie bien que PX2 = PX et que
PX est symétrique. Ce qui précède assure également que Tr(PX ) = p et Tr(PX ⊥ ) = n − p. Cette
dernière remarque nous sera utile pour construire un estimateur sans biais de σ 2 . D’autre part, la
matrice PX est souvent notée H (comme Hat) dans la littérature anglo-saxonne, car elle met un
chapeau sur le vecteur Y : PX Y = HY = Ŷ .
Nous allons maintenant nous intéresser au biais et à la matrice de covariance de l’estimateur β̂ des
moindres carrés. On rappelle que la matrice de covariance du vecteur aléatoire β̂, ou matrice de
variance-covariance, ou matrice de dispersion, est par définition :

Cov(β̂) = E[(β̂ − E[β̂])(β̂ − E[β̂])′ ] = E[β̂ β̂ ′ ] − E[β̂]E[β̂]′ .

Puisque β est de dimension p, elle est de dimension p × p. Elle est symétrique semi-définie positive,
mais pas nécessairement définie positive. De plus, pour pour toute matrice A de taille m × p et
tout vecteur b de dimension m déterministes, on a

E[Aβ̂ + b] = AE[β̂] + b et Cov(Aβ̂ + b) = ACov(β̂)A′ .

Ces propriétés élémentaires seront très souvent appliquées dans la suite, et en particulier dans le
résultat suivant.

Proposition 17 (Biais et matrice de covariance)


L’estimateur β̂ des moindres carrés est sans biais, i.e. E[β̂] = β, et sa matrice de covariance est

Cov(β̂) = σ 2 (X ′ X)−1 .

Preuve. D’après (3.2), β̂ est une transformation affine du vecteur aléatoire ε. Puisque E[ε] = 0,
il vient
E[β̂] = E[β + (X ′ X)−1 X ′ ε] = β + (X ′ X)−1 X ′ E[ε] = β.
Pour la covariance, vu que Cov(ε) = σ 2 In , on procède de même :

Cov(β̂) = Cov(β + (X ′ X)−1 X ′ ε) = (X ′ X)−1 X ′ Cov(ε)X(X ′ X)−1 = σ 2 (X ′ X)−1 .


¥
Comme Y = Xβ + ε et Xβ ∈ MX , il est clair que PX ⊥ Y = PX ⊥ ε. Ceci donne plusieurs formula-
tions pour le vecteur des résidus que nous définissons maintenant (voir Figure 3.4) et qui va nous
permettre d’estimer σ 2 .

Définition 30 (Résidus)
On appelle vecteur des résidus le vecteur aléatoire de taille n défini par

ε̂ = [ε̂1 , . . . , ε̂n ]′ = Y − X β̂ = Y − Ŷ = (In − PX )Y = PX ⊥ Y = PX ⊥ ε.

On appelle Somme des Carrés Résiduelle le carré de la norme euclidienne de ce vecteur :


n
X n
X
2
SCR = kε̂k = ε̂2i = (Yi − Ŷi )2 .
i=1 i=1

Statistique Arnaud Guyader


100 Chapitre 3. Le modèle linéaire gaussien

M⊥
X
Y = Xβ + ε

ε̂ = Y − Ŷ = PX ⊥ Y = PX ⊥ ε

Ŷ = X β̂ = PX Y = Xβ + PX ε

MX

Figure 3.4 – Interprétation de ε̂ comme projeté orthogonal de Y sur M⊥


X.

Noter que dans la définition précédente, la dernière expression ε̂ = PX ⊥ ε ne permet pas, contrai-
rement aux autres, de calculer les résidus puisque le vecteur des erreurs ε est inconnu. A nouveau,
cette formule est néanmoins utile dans certains cas. Par ailleurs, si β̂ estime bien β, alors d’une
certaine façon les résidus ε̂ = Y − X β̂ estiment bien les erreurs ε = Y − Xβ, donc un estimateur
“naturel” de la variance résiduelle σ 2 est donné par :
n n
1X 1X 2 1 SCR
(Yi − Ŷi )2 = ε̂i = kε̂k2 = .
n n n n
i=1 i=1

En fait, comme on va le voir, cet estimateur est biaisé. Ce biais est néanmoins facilement corri-
geable, comme le montre le résultat suivant.

Proposition 18 (Estimateur de la variance)


La statistique
kε̂k2 SCR
σ̂ 2 = =
n−p n−p
est un estimateur sans biais de σ 2 .

Remarque : ceci suppose bien entendu qu’on a en fait p < n. Ceci n’a rien d’étonnant : si p = n
avec rg(X) = p, alors Y ∈ MX donc Y = Ŷ = X β̂ et ε̂ = 0. Du point de vue des données, tout
se passe comme s’il n’y avait pas de terme d’erreur ε dans le modèle initial Y = Xβ + ε. Cette
situation ne nous intéressera pas dans ce chapitre.
Preuve. Nous calculons tout bonnement la moyenne de la somme des carrés résiduelle, en tenant
compte du fait que PX ⊥ est un projecteur orthogonal :
 
X
E[kε̂k2 ] = E[kPX ⊥ εk2 ] = E[ε′ PX′ ⊥ PX ⊥ ε] = E[ε′ PX ⊥ ε] = E  PX ⊥ (i, j)εi εj  ,
1≤i,j≤n

Par linéarité de l’espérance et indépendance des erreurs, il vient :


X X
E[kε̂k2 ] = PX ⊥ (i, j)E [εi εj ] = σ 2 PX ⊥ (i, i) = σ 2 Tr(PX ⊥ ).
1≤i,j≤n 1≤i≤n

Et comme PX ⊥ projette sur un sous-espace de dimension (n − p), on a bien :


E[kε̂k2 ] = (n − p)σ 2 .

Arnaud Guyader Statistique


3.2. Le modèle gaussien 101

¥
On déduit de cet estimateur de σ̂ 2 de la variance résiduelle σ 2 un estimateur sans biais de la
matrice de covariance de β, valant comme on l’a vu Cov(β̂) = σ 2 (X ′ X)−1 :
2
d β̂) = σ̂ 2 (X ′ X)−1 = kε̂k (X ′ X)−1 = SCR (X ′ X)−1 .
Cov(
n−p n−p

En particulier, un estimateur de l’écart-type de l’estimateur β̂j du j-ème coefficient de la régression


est tout simplement q
σ̂β̂j = σ̂ [(X ′ X)−1 ]jj .
Afin d’alléger les notations, on écrira parfois σ̂j pour σ̂β̂j .
£ ¤
Attention ! L’écriture (X ′ X)−1 jj signifie “le j-ème terme diagonal de la matrice (X ′ X)−1 ”, et
non “l’inverse du j-ème terme diagonal£ de la ¤matrice (X ′ X)”. Afin d’alléger les écritures, nous
−1

écrirons souvent (X X)jj au lieu de (X X)−1 jj .

Exercice. On considère le modèle Yi = β1 + εi avec les εi i.i.d. centrées de même variance σ 2


et on applique la méthode précédente pour estimer β1 et σ 2 . Vérifier que β̂1 = Ȳn (moyenne
empirique des observations Yi ) et que σ̂ 2 est l’estimateur sans biais de la variance dans le modèle
d’échantillonnage, à savoir :
n
2 1 X
σ̂ = (Yi − Ȳn )2 .
n−1
i=1

3.2 Le modèle gaussien


Rappelons le contexte de la section précédente. Nous avons supposé un modèle de la forme :

Yi = x′i β + εi = β1 xi1 + β2 xi2 + · · · + βp xip + εi , i = 1, . . . , n

que nous avons réécrit en termes matriciels :

Yn×1 = Xn×p βp×1 + εn×1

où les dimensions sont indiquées en indices. Les hypothèses concernant le modèle étaient :
½
(H1 ) : rg(X) = p
(H)
(H2 ) : les εi sont i.i.d. avec E[ε] = 0 et Var(ε) = σ 2 In

Nous allons désormais faire une hypothèse plus forte, à savoir celle de gaussianité des résidus. Nous
supposerons donc jusqu’à la fin de ce chapitre :
½
(H1 ) : rg(X) = p
(H)
(H2 ) : ε ∼ N (0, σ 2 In )

L’intérêt de supposer les résidus gaussiens est de pouvoir en déduire les lois de nos estimateurs,
donc de construire des régions de confiance et des tests d’hypothèses. Par ailleurs, même si l’on
peut bien entendu trouver des exemples ne rentrant pas dans ce cadre, modéliser les erreurs par
une loi gaussienne n’est généralement pas farfelu au vu du Théorème Central Limite.
Remarque : Contrairement à tous les exemples des Chapitre 1 et 2, nous ne sommes plus dans un
modèle d’échantillonnage puisque toutes les variables Yi n’ont pas la même loi : Yi ∼ N (x′i β, σ 2 ),
c’est-à-dire qu’elles ont même variance mais pas même moyenne. Elles sont néanmoins indépen-
dantes puisque les erreurs εi le sont.

Statistique Arnaud Guyader


102 Chapitre 3. Le modèle linéaire gaussien

3.2.1 Quelques rappels


Commençons par quelques rappels sur les vecteurs gaussiens. Un vecteur aléatoire Y de Rn est dit
gaussien si toute combinaison linéaire de ses composantes est une variable aléatoire gaussienne. Ce
vecteur admet alors une espérance µ = E[Y ] et une matrice de variance-covariance ΣY = Cov(Y ) =
E[(Y − µ)(Y − µ)′ ] qui caractérisent complètement sa loi. On note dans ce cas Y ∼ N (µ, ΣY ).
Plusieurs aspects rendent les vecteurs gaussiens particulièrement sympathiques. Le premier concerne
leur stabilité par transformation affine : Si A et b sont respectivement une matrice et un vecteur
déterministes de tailles adéquates, alors

Y ∼ N (µ, ΣY ) =⇒ AY + b ∼ N (Aµ + b, AΣY A′ ).

Remarque : Si l’on reprend la Définition 6 d’une expérience statistique, l’objet aléatoire est ici le
vecteur Y = Xβ + ε de Rn , de loi normale N (Xβ, σ 2 In ). En accord avec la Définition 8, le modèle
statistique
(Pθ )θ∈Θ = (N (Xβ, σ 2 In ))β∈Rp ,σ2 >0
n’est cependant identifiable que si l’application (β, σ 2 ) 7→ N (Xβ, σ 2 In ) est injective, or ceci n’est
vrai que si X est injective, donc de rang p, d’où l’hypothèse (H1 ).
Le second point agréable est la facilité avec laquelle on peut vérifier l’indépendance : en effet, les
composantes d’un vecteur gaussien Y = [Y1 , · · · , Yn ]′ sont indépendantes si et seulement si ΣY est
diagonale. Dit crûment, dans le cadre vecteur gaussien, indépendance équivaut à décorrélation.
Disons enfin un mot de la densité. Soit Y ∼ N (µ, ΣY ) un vecteur gaussien. Il admet une densité
f sur Rn si et seulement si sa matrice de dispersion ΣY est inversible (i.e. symétrique définie
positive), auquel cas :

1 1 ′ −1
f (y) = p e− 2 (y−µ) ΣY (y−µ) . (3.3)
(2π)n/2 det(ΣY )

La non-inversibilité de ΣY signifie que le vecteur Y ne prend ses valeurs que dans un sous-espace
affine de dimension n0 < n, sur lequel il est distribué comme un vecteur gaussien n0 -dimensionnel.
Certaines lois classiques en statistique sont définies à partir de la loi normale.

Définition 31 (Lois du khi-deux, de Student et de Fisher)


Soit X1 , . . . , Xd des variables aléatoires i.i.d. suivant une loi normale centrée réduite, autrement
dit le vecteur X = [X1 , . . . , Xd ]′ est gaussien N (0, Id ).
— La loi de la variable S = kXk2 = X12 + · · · + Xd2 est dite loi du khi-deux à d degrés de liberté,
ce que l’on note S ∼ χ2d .
— Si Y ∼ N (0, 1) est indépendante de S ∼ χ2d , on dit que T = √Y suit une loi de Student
S/d
à d degrés de liberté et on note T ∼ Td .
S1 /d1
— Si S1 ∼ χ2d1 est indépendante de S2 ∼ χ2d2 , on dit que F = S2 /d2 suit une loi de Fisher à
(d1 , d2 ) degrés de liberté, noté F ∼ Fdd21 ou F ∼ F(d1 , d2 ).

Rappelons que si X ∼ N (0, 1), alors pour tout entier naturel n,

(2n)!
E[X 2n+1 ] = 0 et E[X 2n ] =
2n n!
d’où l’on déduit que si S ∼ χ2d alors

E[S] = d et Var(S) = 2d.

Arnaud Guyader Statistique


3.2. Le modèle gaussien 103

0.04

0.03

0.02

0.01

0.00

0 25 50 75 100

Figure 3.5 – Densités d’un χ250 (en noir) et d’une N (50, 100) (en rouge).

Par ailleurs, lorsque d est grand, on sait par le Théorème Central Limite que S suit approximative-
ment une loi normale de moyenne d et de variance 2d : √ S ≈ N (d, 2d).
√ Ainsi, pour d grand, environ
95% des valeurs de S se situent dans l’intervalle [d − 2 2d, d + 2 2d]. Ceci est illustré Figure 3.5
pour d = 50 ddl. Notons enfin le lien avec la loi Gamma : dire que S ∼ χ2d est équivalent à dire
que S ∼ Γ(d/2, 1/2), ce qui donne l’expression de sa densité, laquelle ne sera par ailleurs d’aucune
utilité dans ce qui suit.

0.4

0.3

0.2

0.1

0.0

−5.0 −2.5 0.0 2.5 5.0

Figure 3.6 – Densités d’une T10 (en noir) et d’une N (0, 1) (en rouge).

Concernant la loi de Student : lorsque d = 1, T suit une loi de Cauchy et n’a donc pas d’espérance
(ni, a fortiori, de variance). Pour d = 2, T est centrée mais de variance infinie. Pour d ≥ 3 (le cas
d
qui nous intéresse), T est centrée et de variance d−2 . D’autre part, lorsque d devient grand, en
notant Sd au lieu de S et puisque E[Sd ] = d et Var(Sd ) = 2d, l’inégalité de Tchebychev assure que
la suite de variables aléatoires (Sd /d) tend vers 1 en probabilité : en effet, pour tout ε > 0,
µ¯ ¯ ¶
¯ Sd ¯ Var(Sd /d) 2
P ¯ ¯ ¯
− 1¯ ≥ ε ≤ = 2 −−−→ 0.
d ε 2 dε d→∞
De fait, par le Lemme de Slutsky, lorsque d tend vers l’infini, T tend en loi vers une gaussienne
centrée réduite : T ≈ N (0, 1). Ceci est illustré Figure 3.6 pour d = 10 ddl. Par conséquent, lorsque
d est grand, les quantiles d’une loi de Student Td sont très proches de ceux d’une loi N (0, 1).
Une remarque enfin sur la loi de Fisher : dans la suite, typiquement, d2 sera grand, de sorte qu’à
nouveau S2 /d2 tend vers 1 en probabilité. Dans ce cas, F peut se voir comme un khi-deux normalisé
par son degré de liberté : F ≈ χ2d1 /d1 . Ceci est illustré Figure 3.7 pour d1 = 2 et d2 = 10.

Statistique Arnaud Guyader


104 Chapitre 3. Le modèle linéaire gaussien

1.00

0.75

0.50

0.25

0.00

0 2 4 6

2 (en noir) et d’un χ22


Figure 3.7 – Densités d’une F10 2 (en rouge).

Proposition 19 (Vecteur gaussien et Loi du χ2 )


Soit Y ∼ N (µ, ΣY ) un vecteur gaussien dans Rn . Si ΣY est inversible, alors
(Y − µ)′ Σ−1 2
Y (Y − µ) ∼ χn

loi du khi-deux à n degrés de liberté.


Preuve. Puisque ΣY est symétrique définie positive, elle est diagonalisable en base orthonormée,
c’est-à-dire sous la forme ΣY = Q∆Q′ , avec Q′ = Q−1 et ∆ matrice diagonale de coefficients
diagonaux δ1 ,√. . . , δn tous√strictement positifs. Notons ∆−1/2 la matrice diagonale de coefficients
diagonaux 1/ δ1 , . . . , 1/ δn . Alors
−1/2 −1/2
ΣY = Q∆Q′ =⇒ Σ−1 −1 ′
Y = Q∆ Q = (Q∆
−1/2 ′
Q )(Q∆−1/2 Q′ ) =: ΣY ΣY .
Par conséquent
−1/2 −1/2
(Y − µ)′ Σ−1
Y (Y − µ) = (ΣY (Y − µ))′ (ΣY (Y − µ)).
Or par stabilité des vecteurs gaussiens par transformations affines, on a
−1/2
Y ∼ N (µ, ΣY ) =⇒ ΣY (Y − µ) ∼ N (0, In ),
−1/2
donc le vecteur V = [V1 , . . . , Vn ]′ = ΣY (Y − µ) est gaussien standard et
(Y − µ)′ Σ−1 2 2 2 2
Y (Y − µ) = kV k = V1 + · · · + Vn ∼ χn ,

loi du khi-deux à n degrés de liberté.


¥
Remarque : dans la preuve précédente, passer du vecteur Y au vecteur V = Σ−1/2 (Y − µ) revient
à centrer et réduire Y , exactement comme on le fait en dimension 1.
Rappel : si X et Y sont deux vecteurs aléatoires de tailles respectives m et p dont toutes les
composantes sont de carré intégrable, la covariance de (X, Y ) est la matrice m × p définie par
ΣX,Y = Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])′ ] = E[XY ′ ] − E[X]E[Y ]′ = Cov(Y, X)′ = Σ′Y,X ,
c’est-à-dire de terme générique ΣX,Y (i, j) = Cov(Xi , Yj ). Dans le cas où le vecteur (X, Y ) est
gaussien, les vecteurs X et Y sont indépendants si et seulement si cette matrice est nulle.
Le Théorème de Cochran, très utile dans la suite, assure que la décomposition d’un vecteur gaussien
à composantes indépendantes et de même variance sur des sous-espaces orthogonaux donne des
vecteurs indépendants dont on peut expliciter les lois. Il peut ainsi être vu comme une version
aléatoire du Théorème de Pythagore (voir Figure 3.8).

Arnaud Guyader Statistique


3.2. Le modèle gaussien 105

M⊥
Y ∼ N (0, In )

χ2
n

k2
kP⊥ Y k2 ∼ χ2n−p

kY
P Y ∼ N (0, P )
kP Y k2 ∼ χ2p

Figure 3.8 – Interprétation géométrique du Théorème de Cochran lorsque Y ∼ N (0, In ).

Théorème 12 (Cochran)
Soit Y ∼ N (µ, σ 2 In ), M un sous-espace de Rn de dimension p, P la matrice de projection or-
thogonale sur M et P⊥ = In − P la matrice de projection orthogonale sur M⊥ . Nous avons les
propriétés suivantes :
(i) P Y ∼ N (P µ, σ 2 P ) et P⊥ Y ∼ N (P⊥ µ, σ 2 P⊥ ) ;
(ii) les vecteurs P Y et P⊥ Y = (Y − P Y ) sont indépendants ;
2 2
(iii) kP (Yσ−µ)k
2 ∼ χ2p et kP⊥ (Yσ2−µ)k ∼ χ2n−p .

Preuve.
(i) Ce premier point est clair par stabilité des vecteurs gaussiens par transformation linéaire
et puisque P et P⊥ sont des projections.
(ii) Toujours par stabilité, le vecteur de taille 2n obtenu en empilant P Y et P⊥ Y est lui
aussi gaussien. Pour prouver que P Y et P⊥ Y sont indépendants, il suffit donc de montrer
que leur covariance est nulle. Or, puisque P⊥′ = P⊥ , on a tout simplement

Cov(P Y, P⊥ Y ) = E[P Y (P⊥ Y )′ ] − E[P Y ]E[P⊥ Y ]′ = P Cov(Y )P⊥ = σ 2 P P⊥ = 0.

(iii) D’après le premier point, P (Y − µ) ∼ N (0, σ 2 P ). Par ailleurs, il existe une ma-
trice orthogonale Q telle que P = Q∆Q′ où ∆ est une matrice diagonale dont les p
premiers éléments diagonaux valent 1 et les (n − p) suivants valent 0. Soit maintenant
X = [X1 , . . . , Xn ]′ vecteur aléatoire dont les p premières composantes sont des variables
gaussiennes indépendantes centrées et réduites tandis que les (n − p) dernières valent 0. Le
vecteur X ainsi construit est gaussien, avec X ∼ N (0, ∆), donc σQX est aussi gaussien,
avec σQX ∼ N (0, σ 2 P ). Autrement dit, les vecteurs aléatoires σQX et P (Y − µ) ont même
loi, donc les variables aléatoires σ 2 kQXk2 et kP (Y − µ)k2 aussi. Or
n
X p
X
2 ′ ′ ′
kQXk = X Q QX = X X = Xi2 = Xi2 ∼ χ2p .
i=1 i=1

Statistique Arnaud Guyader


106 Chapitre 3. Le modèle linéaire gaussien

Remarque : Si on projette un vecteur gaussien sur deux sous-espaces orthogonaux, les vecteurs
aléatoires obtenus seront par définition orthogonaux, mais ils n’ont en général aucune raison d’être
indépendants. Il suffit de considérer 3 gaussiennes i.i.d. standards (W1 , W2 , W3 ) et, dans R2 , le
vecteur aléatoire [X, Y ]′ = [W1 + W2 , W1 + W3 ]′ . La projection sur l’axe des abscisses (respective-
ment des ordonnées) est le vecteur V1 = [X, 0]′ (respectivement V2 = [0, Y ]′ ), or ces deux vecteurs
ne sont pas indépendants puisque leur covariance n’est pas nulle :
· ¸
0 1
Cov(V1 , V2 ) = .
0 0

L’hypothèse cruciale dans le Théorème de Cochran est la forme de la matrice de covariance du


vecteur initial, proportionnelle à l’identité.
Nous allons voir en section suivante comment le résultat de Cochran s’applique dans notre cadre.

3.2.2 Lois des estimateurs et domaines de confiance


En effet, pour ce qui nous concerne, la gaussianité des résidus implique celle du vecteur Y :

ε ∼ N (0, σ 2 In ) =⇒ Y = Xβ + ε ∼ N (Xβ, σ 2 In ).

Dès lors, les estimateurs β̂ et σ̂ 2 peuvent être vus à partir de projections de vecteurs gaussiens sur
des sous-espaces orthogonaux.
Propriétés 1 (Lois des estimateurs avec variance connue)
Sous les hypothèses (H), nous avons :
(i) β̂ est un vecteur gaussien : β̂ ∼ N (β, σ 2 (X ′ X)−1 ) ;
(ii) β̂ et σ̂ 2 sont indépendants ;
2
(iii) (n − p) σ̂σ2 ∼ χ2n−p .

Preuve.
(i) D’après (3.2), β̂ = β + (X ′ X)−1 X ′ ε, or par hypothèse ε ∼ N (0, σ 2 In ) est un vecteur
gaussien. On en déduit que β̂ est lui aussi un vecteur gaussien, sa loi est donc entière-
ment caractérisée par sa moyenne et sa matrice de dispersion, lesquelles ont été établies en
Proposition 17.
(ii) Comme précédemment, notons MX le sous-espace de Rn engendré par les p colonnes
de X et PX = X(X ′ X)−1 X ′ la projection orthogonale sur ce sous-espace. On peut noter
que :
β̂ = (X ′ X)−1 X ′ Y = (X ′ X)−1 X ′ (X(X ′ X)−1 X ′ )Y = (X ′ X)−1 X ′ PX Y,
donc β̂ est un vecteur aléatoire fonction (déterministe !) de PX Y , tandis que :

kε̂k2 kY − PX Y k2 kPX ⊥ Y k2
σ̂ 2 = = =
n−p n−p n−p

est une variable aléatoire fonction (déterministe !) de PX ⊥ Y . Par le théorème de Cochran,


les vecteurs PX Y et PX ⊥ Y sont indépendants, il en va donc de même pour toutes fonctions
déterministes de l’un et de l’autre.
(iii) Puisque ε̂ = PX ⊥ ε avec ε ∼ N (0, σ 2 In ), le théorème de Cochran assure que :

σ̂ 2 kPX ⊥ εk2 kPX ⊥ (ε − E[ε])k2


(n − p) 2
= 2
= ∼ χ2n−p .
σ σ σ2

Arnaud Guyader Statistique


3.2. Le modèle gaussien 107

Remarque : Le point (iii) et la moyenne du χ2n−p permettent de retrouver le résultat de la


Proposition 18, stipulant que σ̂ 2 est un estimateur non biaisé de σ 2 . Mieux, connaissant la variance
du χ2n−p , on en déduit celle de σ̂ 2 , donc son erreur quadratique moyenne :
µ ¶
σ̂ 2 2σ 4 2σ 4
Var (n − p) 2 = 2(n − p) =⇒ Var(σ̂ 2 ) = =⇒ R(σ̂ 2 , σ 2 ) = .
σ n−p n−p

Par conséquent, pour un modèle donné (i.e. des paramètres β = [β1 , . . . , βp ] et σ 2 fixés) et une
taille n d’échantillon croissante, on a

P
σ̂ 2 = σ̂n2 −−−→ σ 2 ,
n→∞

ce qui est rassurant...


Bien entendu, le premier point de la Proposition 1 n’est pas satisfaisant pour obtenir des régions
de confiance sur β car il suppose la variance σ 2 connue, ce qui n’est pas le cas en général. La
proposition suivante permet de résoudre le problème.

Proposition 20 (Lois des estimateurs avec variance inconnue)


Sous les hypothèses (H) :
(i) pour j = 1, . . . , p, nous avons

β̂j − βj β̂j − βj
Tj := q = ∼ Tn−p .
σ̂ [(X ′ X)−1 ]jj σ̂β̂j

(ii) On a par ailleurs

1 p
F := (β̂ − β)′ (X ′ X)(β̂ − β) ∼ Fn−p .
pσ̂ 2

Preuve :
(i) D’après la proposition précédente, on sait d’une part que β̂j ∼ N (βj , σ 2 (X ′ X)−1
jj ),
2
d’autre part que (n − p) σ̂σ2 ∼ χ2n−p et enfin que β̂j et σ̂ 2 sont indépendants. Il ne reste plus
qu’à écrire Tj sous la forme
β̂ −βj
qj
σ (X ′ X)−1
jj
Tj = σ̂
σ

pour reconnaître une loi de Student Tn−p .


(ii) Puisque β̂ est un vecteur gaussien de moyenne β et de matrice de covariance σ 2 (X ′ X)−1 ,
la Proposition 19 assure que

1
(β̂ − β)′ (X ′ X)(β̂ − β) ∼ χ2p .
σ2
2
Il reste à remplacer σ 2 par σ̂ 2 en se souvenant que (n − p) σσ̂2 ∼ χ2n−p et du fait que β̂ et σ̂ 2
sont indépendants. On obtient bien alors la loi de Fisher annoncée.
¥

Statistique Arnaud Guyader


108 Chapitre 3. Le modèle linéaire gaussien

Remarque : La matrice (X ′ X) étant symétrique définie positive, c’est aussi le cas pour son inverse
(X ′ X)−1 . Or si S est symétrique définie positive, tous ses coefficients diagonaux sont strictement
positifs puisque si ej désigne le j e vecteur de la base canonique, alors Sjj = e′j Sej > 0. Dès lors,
q
la division par (X ′ X)−1 jj dans la définition de Tj ne pose pas problème.

Les variables Tj et F du résultat précédent sont des exemples de variables pivotales. Ce ne sont
pas des statistiques au sens de la Définition 10 du Chapitre 1, car elles font intervenir les paramètres
β et σ 2 du modèle. Néanmoins leur loi est, elle, bel et bien indépendante de ce paramètre. Comme
nous le verrons, l’avantage des variables pivotales est de permettre la construction de domaines de
confiance. Auparavant, illustrons sur un exemple le second point de la Proposition 20.
Exemple : régression linéaire simple. Considérons le cas p = 2, de sorte que
· ¸
β̂1 − β1
(β̂ − β) = .
β̂2 − β2
Si la constante fait partie du modèle, nous sommes dans le cadre d’une régression linéaire simple
avec, pour tout i ∈ {1, . . . , n}, Yi = β1 + β2 x + εi . Dans ce cas, β̂1 et β̂2 sont respectivement
l’ordonnée à l’origine et la pente de la droite des moindres carrés. X est la matrice n × 2 dont la
première colonne est uniquement composée de 1 et la seconde des xi , si bien que
· P ¸ · ¸
′ n x i n nx̄
XX= P P 2 = P 2 ,
xi xi nx̄ xi
et le point (ii) de la Proposition 20 s’écrit
1 ³ 2
X
2 2
´
2
n( β̂ 1 − β 1 ) + 2nx̄( β̂ 1 − β 1 )( β̂ 2 − β 2 ) + x i ( β̂ 2 − β 2 ) ∼ Fn−2 ,
2σ̂ 2
ce qui nous permettra de construire une ellipse de confiance pour β = (β1 , β2 ). Plus généralement,
pour p > 2, (ii) donnera des hyper-ellipsoïdes de confiance pour β centrés en β̂. Par ailleurs, ce
résultat est à la base de la distance de Cook en validation de modèle.
Les logiciels donnent usuellement des intervalles de confiance pour les paramètres βj pris séparé-
ment. Cependant, ces intervalles de confiance ne tiennent pas compte de la dépendance entre les
βj , laquelle incite plutôt à étudier des domaines de confiance. Nous allons donc traiter les deux
cas, en considérant σ 2 inconnue, ce qui est généralement le cas en pratique.

Corollaire 5 (Intervalles et Régions de Confiance)


(i) Pour tout j ∈ {1, . . . , p}, un intervalle de confiance de niveau (1 − α) pour βj est :
· q q ¸
′ −1 ′ −1
β̂j − tn−p (1 − α/2)σ̂ (X X)jj , β̂j + tn−p (1 − α/2)σ̂ (X X)jj ,

où tn−p (1 − α/2) est le quantile d’ordre (1 − α/2) d’une loi de Student Tn−p .
(ii) Un intervalle de confiance de niveau (1 − α) pour σ 2 est :
· ¸
(n − p)σ̂ 2 (n − p)σ̂ 2
, ,
cn−p (1 − α/2) cn−p (α/2)
où cn−p (α/2) et cn−p (1 − α/2) sont les quantiles d’ordres α/2 et (1 − α/2) d’une loi χ2n−p .
(iii) Une région de confiance de niveau (1 − α) pour β est l’intérieur de l’hyper-ellipsoïde
défini par
½ ¾
p 1 ′ ′ p
β∈R : (β̂ − β) (X X)(β̂ − β) ≤ fn−p (1 − α) . (3.4)
pσ̂ 2
p p
où fn−p (1 − α) est le quantile d’ordre (1 − α) d’une loi de Fisher Fn−p .

Arnaud Guyader Statistique


3.2. Le modèle gaussien 109

Preuve. Il suffit d’appliquer le point (iii) des Propriétés 1 et les résultats de la Proposition 20.
¥

Rappel : soit (x0 , y0 ) un point de R2 , c2 > 0 une constante et S une matrice 2 × 2 symétrique
définie positive, alors l’ensemble des points (x, y) du plan tels que
· ¸
x − x0
[x − x0 , y − y0 ] S ≤ c2 ⇐⇒ s11 (x − x0 )2 + 2s12 (x − x0 )(y − y0 ) + s22 (y − y0 )2 ≤ c2
y − y0

est l’intérieur d’une ellipse centrée en (x0 , y0 ) dont les axes correspondent aux directions données
par les vecteurs propres de S. Il suffit pour s’en convaincre de considérer la diagonalisation S =
Q∆Q′ , avec ∆ diagonale de coefficients diagonaux δ12 et δ22 , et le changement de coordonnées
· ¸ · ¸ · ¸
u ′ x − x0 x − x0
=Q =⇒ [x − x0 , y − y0 ] S = δ1 u2 + δ2 v 2 ≤ c 2 .
v y − y0 y − y0

Exemple : reprenons le cas de la régression linéaire simple où p = 2. Un domaine de confiance de


niveau (1 − α) pour (β1 , β2 ) est défini par l’équation :
½ ¾
2 1 ³ 2
X
2 2
´
2
(β1 , β2 ) ∈ R : n(β1 − β̂1 ) + 2nx̄(β1 − β̂1 )(β2 − β̂2 ) + xi (β2 − β̂2 ) ≤ fn−2 (1 − α) .
2σ̂ 2

Cette région de confiance est donc l’intérieur d’une ellipse centrée en (β̂1 , β̂2 ) et d’axes donnés par
les vecteurs propres de la matrice X ′ X, laquelle est bien définie positive grâce à (H1 ). Considérons
maintenant les intervalles de confiance Iˆ1 et Iˆ2 de niveau (1 − α) pour β1 et β2 donnés par le point
(i) et le rectangle R̂ = Iˆ1 × Iˆ2 . La borne de l’union implique

P((β1 , β2 ) ∈ / Iˆ1 } ∪ {β2 ∈


/ R̂) = P({β1 ∈ / Iˆ2 }) ≤ P(β1 ∈
/ Iˆ1 ) + P(β2 ∈
/ Iˆ2 ) ≤ 2α,

et R̂ est un domaine de confiance de niveau (1 − 2α) seulement... Pour obtenir un rectangle de


confiance de niveau (1 − α), il faut partir d’intervalles de confiance de niveau (1 − α/2). La Figure
3.9 permet de faire le distinguo entre intervalles de confiance considérés séparément pour β1 et β2
et région de confiance simultanée pour (β1 , β2 ).

3.2.3 Prévision
Une fois le modèle de régression construit, c’est-à-dire une fois les paramètres β et σ 2 estimés à
partir des n observations (x′i , Yi )1≤i≤n , on peut bien entendu s’en servir pour faire de la prévision.
Soit donc x′n+1 = [xn+1,1 , · · · , xn+1,p ] une nouvelle valeur pour laquelle nous voudrions prédire
Yn+1 . Cette variable réponse est définie par Yn+1 = x′n+1 β + εn+1 , avec εn+1 ∼ N (0, σ 2 ) indépen-
dant des (εi )1≤i≤n . La méthode naturelle est de prédire la valeur correspondante grâce au modèle
(p)
ajusté, soit Ŷn+1 = x′n+1 β̂. L’erreur de prévision est alors définie par

(p) (p)
ε̂n+1 = Yn+1 − Ŷn+1 = x′n+1 (β − β̂) + εn+1 .

Deux types d’erreurs vont alors entacher cette prévision : la première, incompressible, due à l’aléa
de εn+1 , l’autre à l’incertitude inhérente à l’estimateur β̂, cette dernière décroissant typiquement
avec le nombre n de données.
(p) (p)
Attention ! La prévision Ŷn+1 et l’erreur de prévision ε̂n+1 ne jouent pas le même rôle que les
valeurs ajustées (Ŷi )1≤i≤n et les résidus (ε̂i )1≤i≤n , d’où la différence de notations.

Statistique Arnaud Guyader


110 Chapitre 3. Le modèle linéaire gaussien

6.5
6.0
5.5
5.0
4.5

−50 −40 −30 −20 −10

Figure 3.9 – Ellipse et rectangle de confiance (pointillés) à 95% pour β̂ = (β̂1 , β̂2 ) sur l’exemple
de l’ozone.

Proposition 21 (Erreur de prévision)


(p) (p)
L’erreur de prévision ε̂n+1 = (Yn+1 − Ŷn+1 ) suit une loi normale, à savoir

(p)
ε̂n+1 ∼ N (0, σ 2 (1 + x′n+1 (X ′ X)−1 xn+1 )).

(p)
Preuve. Pour quantifier l’erreur de prévision (Yn+1 − Ŷn+1 ), on utilise la décomposition :

(p)
Yn+1 − Ŷn+1 = x′n+1 (β − β̂) + εn+1 ,

qui est la somme de deux variables gaussiennes indépendantes puisque β̂ est construit à partir des
(p)
(εi )1≤i≤n . On en déduit que (Yn+1 − Ŷn+1 ) est une variable gaussienne, dont il ne reste plus qu’à
calculer moyenne et variance. Comme E[εn+1 ] = 0 et puisque β̂ est un estimateur sans biais de β,
il est clair que

(p)
E[ε̂n+1 ] = E[x′n+1 (β − β̂) + εn+1 ] = x′n+1 (β − E[β̂]) + E[εn+1 ] = 0.

Autrement dit, en moyenne, notre estimateur ne se trompe pas. Calculons la variance de l’er-
reur de prévision. Puisque β̂ dépend uniquement des variables aléatoires (εi )1≤i≤n , dont εn+1 est
indépendante, il vient :
³ ´
(p)
Var ε̂n+1 = Var(εn+1 + x′n+1 (β − β̂)) = σ 2 + x′n+1 Cov(β̂)xn+1
= σ 2 (1 + x′n+1 (X ′ X)−1 xn+1 ).
¥

Nous retrouvons bien l’incertitude d’observation σ 2 à laquelle vient s’ajouter l’incertitude d’esti-
mation. On peut prouver qu’en présence de la constante, cette incertitude est minimale au centre
de gravité des variables explicatives, c’est-à-dire lorsque

x′n+1 = [x̄1 , x̄2 , . . . , x̄p ] = [1, x̄2 , . . . , x̄p ],

Arnaud Guyader Statistique


3.2. Le modèle gaussien 111

et qu’elle vaut σ 2 (1 + 1/n). Ceci est facile à voir en régression linéaire simple : en effet, dans ce
cas, en écrivant x′n+1 = [1, x], un calcul élémentaire montre que la variance de prédiction s’écrit
encore ³ ´ µ ¶ µ ¶
(p) 2 1 (x − x̄)2 2 1
Var ε̂n+1 = σ 1 + + P ≥σ 1+ ,
n (xi − x̄)2 n
avec égalité si et seulement si x = x̄. Ainsi la variance augmente lorsque xn+1 s’éloigne du centre
de gravité du nuage. Autrement dit, faire de la prévision lorsque xn+1 est “loin” de x̄ est périlleux,
puisque la variance de l’erreur de prévision peut être très grande ! Ceci s’explique intuitivement
par le fait que plus une observation xn+1 est éloignée de la moyenne x̄ et moins on a d’information
sur elle.
Revenons au cadre de la Proposition 21. L’étape suivante consiste à préciser un intervalle de
confiance pour Yn+1 = x′n+1 β + εn+1 . Comme d’habitude, le résultat de la Proposition 21 est
inutilisable en l’état puisqu’il fait intervenir la variance σ 2 , inconnue. Comme d’habitude, il suffit
de la remplacer par son estimateur.

Proposition 22 (Intervalle de prédiction)


Un intervalle de confiance, dit intervalle de prédiction, de niveau (1 − α) pour Yn+1 est donné par :
h q q i
x′n+1 β̂ − tα σ̂ 1 + x′n+1 (X ′ X)−1 xn+1 ; x′n+1 β̂ + tα σ̂ 1 + x′n+1 (X ′ X)−1 xn+1 ,

où tα = tn−p (1 − α/2) est le quantile d’ordre (1 − α/2) d’une loi de Student Tn−p .

Preuve. D’après ce qui a été dit auparavant, on a


(p)
Yn+1 − Ŷn+1
q ∼ N (0, 1).
σ 1 + x′n+1 (X ′ X)−1 xn+1

En faisant intervenir σ̂, il en découle naturellement


(p)
Yn+1 −Ŷn+1
(p) √
Yn+1 − Ŷn+1 σ 1+x′n+1 (X ′ X)−1 xn+1
q = σ̂
.
σ̂ 1 + x′n+1 (X ′ X)−1 xn+1 σ

Le numérateur suit une loi normale centrée réduite, le dénominateur est la racine d’un khi-deux à
(n−p) ddl divisé par (n−p). Il reste à s’assurer que numérateur et dénominateur sont indépendants,
(p)
or Yn+1 − Ŷn+1 = x′n+1 (β − β̂) + εn+1 et σ̂ est indépendant à la fois de β̂ (conséquence de Cochran,
cf. Propriétés 1) et de εn+1 (puisque σ̂ ne dépend que des (εi )1≤i≤n ). On en conclut que
(p)
Yn+1 − Ŷn+1
q ∼ Tn−p ,
σ̂ 1 + x′n+1 (X ′ X)−1 xn+1

d’où se déduit l’intervalle de confiance de l’énoncé.


¥
(p)
Dans le cadre de la régression linéaire simple mentionné ci-dessus, en notant Ŷn+1 = β̂1 + β̂2 x la
valeur prédite, ceci donne
" s s #
(p) 1 (x − x̄)2 (p) 1 (x − x̄)2
Ŷn+1 − tn−2 (1 − α/2)σ̂ 1 + + P ; Ŷ + tn−2 (1 − α/2)σ̂ 1 + + P .
n (xi − x̄)2 n+1 n (xi − x̄)2

Statistique Arnaud Guyader


112 Chapitre 3. Le modèle linéaire gaussien

200

150

maxO3
100

50

15 20 25 30
T12

Figure 3.10 – Hyperbole de prédiction pour l’exemple de l’ozone.

on retrouve ainsi la remarque déjà faite : plus le point à prévoir admet pour abscisse x une valeur
éloignée de x̄, plus l’intervalle de confiance sera grand.
Plus précisément, la courbe décrite par les limites de ces intervalles de confiance lorsque xn+1
varie est une hyperbole d’axes x = x̄ et y = β̂1 + β̂2 x. Pour s’en persuader, il suffit d’effectuer le
changement de variables ½
X = x − x̄
Y = y − (β̂1 + β̂2 x)
d’où il ressort qu’un point (X, Y ) est dans la région de confiance ci-dessus si et seulement si

Y 2 X2
− 2 ≤ 1,
b2 a
avec ½ ¡ ¢P
a2 = ¡ 1 + n1 ¢ (xi − x̄)2
b2 = 1 + n1 (tn−2 (1 − α/2)σ̂)2
ce qui définit bien l’intérieur d’une hyperbole. En particulier, le centre de cette hyperbole est tout
bonnement le centre de gravité du nuage de points (voir Figure 3.10).

3.2.4 Estimateurs du Maximum de Vraisemblance


Dans le modèle gaussien, on peut faire le lien entre les estimateurs des moindres carrés β̂ et σ̂ 2 et
les estimateurs du maximum de vraisemblance. En Section 2.2.2, nous avons défini l’estimation au
maximum de vraisemblance pour un paramètre θ réel. Ici le paramètre θ est le couple (β, σ 2 ) ∈
Rp × R⋆+ , mais le principe est rigoureusement le même : il s’agit de trouver le jeu de paramètres
qui maximisent la vraisemblance des observations.
Rappelons que le vecteur Y des observations est gaussien : Y ∼ N (Xβ, σ 2 In ) avec σ 2 In inversible.
D’après la formule (3.3), il admet donc pour densité en un point y de Rn
µ ¶n · ¸
1 − 12 (y−Xβ)′ (σ 2 In )−1 (y−Xβ) 1 1 2
f (y) = p e = √ exp − 2 ky − Xβk .
(2π)n/2 det(σ 2 In ) 2πσ 2 2σ

Arnaud Guyader Statistique


3.2. Le modèle gaussien 113

La vraisemblance de l’observation Y = [Y1 , . . . , Yn ]′ par rapport à la mesure de Lebesgue sur Rn


s’écrit donc µ ¶n · ¸
2 1 1 2
Ln (β, σ ) = √ exp − 2 kY − Xβk .
2πσ 2 2σ
D’où l’on déduit la log-vraisemblance
n n 1
ℓn (β, σ 2 ) = − log 2π − log σ 2 − 2 kY − Xβk2 .
2 2 2σ
2 qui maximisent cette log-vraisemblance. Il est clair qu’il faut
On cherche les estimateurs β̂mv et σ̂mv
2
minimiser la quantité kY − Xβk , ce qui est justement le principe des moindres carrés ordinaires,
donc
β̂mv = β̂ = (X ′ X)−1 X ′ Y.
Une fois ceci fait, on veut maximiser sur R∗+ une fonction de la forme ϕ(x) = a + b log x + xc , ce
qui ne pose aucun souci en passant par la dérivée :
∂ℓn (β̂, σ 2 ) n 1
= − + 4 kY − X β̂k2 ,
∂σ 2 2σ 2 2σ
d’où il vient, si Y 6= X β̂,
2 kY − X β̂k2
σ̂mv = .
n
Le cas très particulier où Y = X β̂ revient à dire que Y ∈ M(X), auquel cas on convient de définir
l’estimateur du maximum de vraisemblance par la même formule σ̂mv 2 = kY − X β̂k2 /n = 0. Quoi

qu’il en soit, si l’on compare à l’estimateur σ̂ 2 = kY − X β̂k2 /(n − p) obtenu précédemment, nous
avons donc :
2 n−p 2
σ̂mv = σ̂ .
n
On en déduit que l’estimateur σ̂mv 2 du maximum de vraisemblance est biaisé, mais d’autant moins

que le nombre de variables explicatives est petit devant le nombre n d’observations.


Remarque : Historiquement, le premier estimateur étudié n’est pas celui des moindres carrés
mais celui des “moindres déviations” (Least Absolute Deviations), introduit par Boscovich (1757) et
analysé par Laplace (1793). En régression linéaire simple, il revient à chercher la droite qui minimise
la somme des distances verticales (et non leurs carrés) entre celle-ci et les points de l’échantillon.
On peut facilement l’interpréter en terme d’estimation au maximum de vraisemblance comme suit :
considérons le même modèle que ci-dessus mais en supposant les erreurs de modélisation εi i.i.d.
selon une loi de Laplace centrée et de de variance σ 2 , c’est-à-dire qu’elles ont pour densité
à √ !
1 2
f (t) = √ exp − |t| .
2σ σ
Dans ce cas, les observations Yi étant indépendantes et de densités fi (yi ) = f (yi − x′i β), la vrai-
semblance s’écrit
n
à √ n !
Y 1 2 X
Ln (β, σ) = f (Yi − x′i β) = n/2 n exp − |Yi − x′i β| .
2 σ σ
i=1 i=1

On voit que, dans ce modèle, P l’estimateur β̂mv du maximum de vraisemblance est la valeur de
β qui minimise la quantité ni=1 |Yi − x′i β|. Il présente l’avantage d’être plus robuste à d’éven-
tuels outliers ou à une mauvaise spécification du modèle, mais l’inconvénient de ne pas être aussi
simple que celui des moindres carrés : il n’a pas de formule explicite et nécessite de résoudre
numériquement un problème d’optimisation. Face à ce constat, Legendre (1805) et Gauss (1823)
ont proposé de privilégier l’estimateur des moindres carrés, lequel correspond donc, dans le cas
d’erreurs gaussiennes, à l’estimateur du maximum de vraisemblance.

Statistique Arnaud Guyader


Bibliographie

[1] Peter J. Bickel and Kjell A. Doksum. Mathematical Statistics. Prentice Hall, 1976.
[2] Patrick Billingsley. Probability and Measure. John Wiley & Sons Inc., 3ème edition, 1995.
[3] Lucien Birgé. Statistique mathématique. Polycopié UPMC, 2014.
[4] Alexandr Alekseevich Borovkov. Mathematical Statistics. Gordon and Breach Science Publi-
shers, 1998.
[5] Thomas M. Cover and Joy A. Thomas. Elements of information theory. John Wiley & Sons
Inc., 1991.
[6] Bernard Delyon. Estimation paramétrique. Format électronique, 2022.
[7] Benoît Cadre et Céline Vial. Statistique mathématique - Master 1 et Agrégation. Ellipses,
2012.
[8] Bernard Bercu et Djalil Chafaï. Modélisation stochastique et simulation. Dunod, 2007.
[9] Pierre-André Cornillon et Eric Matzner-Lober. Régression avec R. Springer, 2010.
[10] Vincent Rivoirard et Gilles Stoltz. Statistique mathématique en action. Vuibert, 2012.
[11] Jean Jacod et Philip Protter. L’essentiel en théorie des probabilités. Cassini, 2003.
[12] Andreï Kolmogorov et Sergeï Fomine. Eléments de la théorie des fonctions et de l’analyse
fonctionnelle. Ellipses, Mir, 3ème edition, 1994.
[13] Dominique Fourdrinier. Statistique inférentielle. Dunod, 2002.
[14] Michel Lejeune. Statistique - La théorie et ses applications. Springer, 2005.
[15] Christian Robert. Le choix bayésien. Springer, 2010.
[16] Mark J. Schervish. Theory of Statistics. Springer-Verlag, 1995.
[17] Jun Shao. Mathematical Statistics - Exercises and Solutions. Springer, 2005.
[18] Larry Wasserman. All of Statistics - A Concise Course in Statistical Inference. Springer,
2004.
[19] Jan Wretman. A Simple Derivation of the Asymptotic Distribution of a Sample Quantile.
Scand. J. Statist., 5(2) :123–124, 1978.

Vous aimerez peut-être aussi