0% ont trouvé ce document utile (0 vote)
71 vues108 pages

Stat Math Poly 2013

Ce document est un polycopié sur la statistique mathématique destiné aux étudiants ayant des connaissances préalables en intégration, probabilité et statistique. Il couvre les principes de l'inférence statistique, l'estimation et les tests statistiques, avec des sections détaillées sur l'échantillonnage, la méthode empirique, et les tests d'hypothèses. Les notions abordées incluent l'estimation ponctuelle, les intervalles de confiance et la théorie de l'information de Fisher.

Transféré par

Eric Kambiré
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
71 vues108 pages

Stat Math Poly 2013

Ce document est un polycopié sur la statistique mathématique destiné aux étudiants ayant des connaissances préalables en intégration, probabilité et statistique. Il couvre les principes de l'inférence statistique, l'estimation et les tests statistiques, avec des sections détaillées sur l'échantillonnage, la méthode empirique, et les tests d'hypothèses. Les notions abordées incluent l'estimation ponctuelle, les intervalles de confiance et la théorie de l'information de Fisher.

Transféré par

Eric Kambiré
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistique Mathématique

O. Wintenberger
ii

Préambule
Ce polycopié s’adresse aux étudiants ayant suivi un cours d’intégration, un pre-
mier cours de probabilité et un premier cours de statistique. Les notions d’algèbre
linéaire et de probabilités requises sont dans le fascicule "Rappels utiles au cours
de statistique mathématique" disponible à l’adresse http ://wintenberger.fr/ens.
La première partie présente les notions fondamentales de l’inférence statistique, à
savoir les notions d’échantillonnage, d’empirique et d’information. La seconde par-
tie traite de l’estimation, ponctuelle ou par intervalle de confiance. La troisième
partie introduit la notion de test statistique.
Table des matières

I Premiers principes de l’inférence statistique 3


1 L’échantillon aléatoire 5
1.1 Population de taille finie . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Expérience renouvelable . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 L’échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 La méthode empirique 9
2.1 La moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 L’espérance de la moyenne empirique . . . . . . . . . . . . . 11
2.1.2 La matrice de variance-covariance de X n . . . . . . . . . . . 11
2.1.3 Loi de la moyenne empirique . . . . . . . . . . . . . . . . . . 12
2.1.4 La loi asymptotique de la moyenne empirique . . . . . . . . 13
2.2 La matrice de variance-covariance empirique . . . . . . . . . . . . . 13
2.2.1 L’espérance de Sn2 . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 La variance de Sn2 lorsque q = 1 . . . . . . . . . . . . . . . . 14
2.2.3 La loi de Sn2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4 La loi asymptotique de Sn2 . . . . . . . . . . . . . . . . . . . 17
2.3 Le couple (X n , Sn2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 L’espérance de (X n , Sn2 ) . . . . . . . . . . . . . . . . . . . . 18
2.3.2 La loi de (X n , Sn2 ) . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.3 La loi asymptotique de (X n , Sn2 ) . . . . . . . . . . . . . . . . 19
2.4 Moments empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 L’espérance du moment empirique . . . . . . . . . . . . . . . 20
2.4.2 Loi asymptotique du moment empirique . . . . . . . . . . . 20
2.5 Fonction de répartition empiriques . . . . . . . . . . . . . . . . . . 20
2.5.1 La loi de Fn (x) avec x ∈ R fixé . . . . . . . . . . . . . . . . 21
2.5.2 La loi asymptotique de Fn (x) avec x ∈ R fixé . . . . . . . . 21

3 Théorie de l’information de Fisher 23


3.1 Propriétés des statistiques . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.1 Définition de la statistique . . . . . . . . . . . . . . . . . . . 23

iii
iv TABLE DES MATIÈRES

3.1.2 Statistique d’ordre . . . . . . . . . . . . . . . . . . . . . . . 24


3.1.3 Statistique paramétrique . . . . . . . . . . . . . . . . . . . . 25
3.1.4 Statistique exhaustive et statistique libre . . . . . . . . . . . 26
3.2 Information au sens de Fisher . . . . . . . . . . . . . . . . . . . . . 28
3.3 Lien entre l’information au sens de Fisher et la statistique . . . . . 31

II L’estimation statistique 33
4 Approche non asymptotique 37
4.1 Critères de comparaison d’estimateurs . . . . . . . . . . . . . . . . 37
4.1.1 Le risque quadratique . . . . . . . . . . . . . . . . . . . . . . 37
4.1.2 Décomposition biais-variance du risque . . . . . . . . . . . . 38
4.1.3 Comparaison des variances des estimateurs sans biais . . . . 38
4.1.4 Modèles réguliers et efficacité d’estimateurs . . . . . . . . . 39
4.2 Modèles de la famille exponentielle . . . . . . . . . . . . . . . . . . 40
4.2.1 Définitions et premières propriétés . . . . . . . . . . . . . . . 41
4.2.2 Notion d’identifiabilité . . . . . . . . . . . . . . . . . . . . . 41
4.3 Estimation non asymptotique dans la famille exponentielle . . . . . 44
4.3.1 Théorème de Lehmann-Scheffé . . . . . . . . . . . . . . . . . 44
4.4 Efficacité et modèles de la famille exponentielle . . . . . . . . . . . 45

5 Approche asymptotique 47
5.1 Critères asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.1 Estimateur asymptotiquement sans biais . . . . . . . . . . . 47
5.1.2 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . 48
5.1.3 Efficacité asymptotique d’un estimateur . . . . . . . . . . . 48
5.2 Les Z-estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2.1 Les moments empiriques . . . . . . . . . . . . . . . . . . . . 51
5.2.2 La méthode des moments . . . . . . . . . . . . . . . . . . . 51
5.2.3 La méthode des moments généralisés . . . . . . . . . . . . . 52
5.2.4 Extension : les quantiles empiriques . . . . . . . . . . . . . . 52
5.3 Les M -estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.3.1 Paramètre de localisation . . . . . . . . . . . . . . . . . . . . 54
5.3.2 Estimateur des moindres carrés . . . . . . . . . . . . . . . . 54
5.3.3 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . 55
5.4 Comparaison des Z et M -estimateurs . . . . . . . . . . . . . . . . . 57

6 La racine de l’équation de vraisemblance 61


6.1 Conditions du premier et second ordre . . . . . . . . . . . . . . . . 61
6.2 Propriétés non asymptotiques de la REV . . . . . . . . . . . . . . . 63
TABLE DES MATIÈRES v

6.2.1 Exhaustivité et reparamétrisation . . . . . . . . . . . . . . . 63


6.2.2 Cas d’un modèle de la famille exponentielle . . . . . . . . . 64
6.3 Propriétés asymptotiques de la REV . . . . . . . . . . . . . . . . . 65
6.4 Conclusion sur l’estimation ponctuelle . . . . . . . . . . . . . . . . 68

7 Régions de confiance 71
7.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Fonctions pivotales . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3 Régions de confiance asymptotiques . . . . . . . . . . . . . . . . . . 75
7.4 Fonctions pivotales asymptotiques usuelles . . . . . . . . . . . . . . 76

III Tests d’hypothèses 79


8 Introduction aux tests paramétriques 81
8.1 Problématique de test . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.1.1 Premières définitions . . . . . . . . . . . . . . . . . . . . . . 81
8.1.2 Risques des tests . . . . . . . . . . . . . . . . . . . . . . . . 82
8.1.3 Approche de Neyman et niveau d’un test . . . . . . . . . . . 83
8.1.4 p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8.1.5 Dualité entre régions de confiance et tests . . . . . . . . . . 85
8.2 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.2.1 Niveau asymptotique . . . . . . . . . . . . . . . . . . . . . . 87
8.2.2 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . 88
8.2.3 Test du score . . . . . . . . . . . . . . . . . . . . . . . . . . 89

9 Test du Rapport de Vraisemblance 91


9.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
9.2 Propriétés non asymptotiques . . . . . . . . . . . . . . . . . . . . . 91
9.2.1 Lemme de Neyman-Pearson . . . . . . . . . . . . . . . . . . 91
9.2.2 Rapport de vraisemblance monotone . . . . . . . . . . . . . 93
9.3 TRV : cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

10 Tests du χ2 99
10.1 Tests du χ2 non paramétriques . . . . . . . . . . . . . . . . . . . . . 99
10.1.1 Test d’adéquation du χ2 à une loi . . . . . . . . . . . . . . . 99
10.1.2 Test d’adéquation du χ2 à un modèle . . . . . . . . . . . . . 101
vi TABLE DES MATIÈRES
TABLE DES MATIÈRES 1

Introduction
La science des statistiques comporte 2 aspects :
1. Les statistiques descriptives qui consistent à synthétiser, résumer, struc-
turer l’information contenue dans les données (cf monographie d’"Introduction
à la méthode statistique" de Goldfarb et Pardoux),
2. La statistique mathématique qui consiste à traduire en langage mathé-
matique la démarche d’inférence statistique.
L’inférence statistique :

L’inférence statistique est le fait de fournir à partir d’une propriété observée


dans des cas particuliers des caractéristiques de la propriété en général. Par essence
cette démarche est risquée et s’oppose à la démarche déductive (non risquée) qui
applique les caractéristiques d’une propriété en général à des cas particuliers et
qu’on rencontre généralement en mathématique.

Sous des hypothèses probabilistes spécifiques issues de la modélisation du pro-


blème, il est possible de traduire l’inférence statistique en langage mathématique.
Dans ce cours on étudie le traitement mathématique de deux démarches inféren-
tielles spécifiques : l’estimation et le test.
2 TABLE DES MATIÈRES
Première partie

Premiers principes de l’inférence


statistique

3
Chapitre 1

L’échantillon aléatoire

A partir de l’observation d’une propriété sur des cas particuliers (en nombre
fini) le statisticien infère des caractèristiques de la propriété en général. La sta-
tistique mathématique se divise selon deux approches : l’approche bayésienne qui
suppose que cette propriété est aléatoire et l’approche fréquentiste qui suppose que
cette propriété est déterministe. Nous nous restreignons dans ce cours au cadre fré-
quentiste.

Deux cas de figure sont possibles :


– Soit la propriété est observée sur un sous ensemble de taille n d’une popula-
tion mère de taille finie N avec N >> n,
– Soit la propriété est observée sur un ensemble fini d’expériences issues du
renouvellement de la même expérience.
On consacre cette section à la notion d’échantillon aléatoire, notion commune aux
deux cas de figures.

1.1 Population de taille finie


Soit E un ensemble, que nous appellerons population mère (des individus, un
parc automobile), contenant un nombre fini N d’éléments. Le statisticien s’inté-
resse plus particulièrement à une propriété X de la population (l’âge, le prix),
appelée propriété statistique. L’objectif du statisticien est de déterminer les prin-
cipales caractéristiques de X.

S’il est possible d’effectuer un recensement, c’est-à-dire interroger ou inspecter


tous les éléments de E, les caractéristiques de la propriété X sont parfaitement
connues. Si on note ei chaque élément de E, E = {e1 , . . . , eN }, on observe alors
(x1 , . . . , xN ) l’ensemble des valeurs de X mesurées sur les éléments de E.

5
6 CHAPITRE 1. L’ÉCHANTILLON ALÉATOIRE

L’inférence statistique n’est pas utile dans le cas d’un recensement mais lorsque
X est observée uniquement sur un sous-ensemble de E (pour des raisons de coût,
de commodité,..) notée En de taille n << N : En = {ei1 , . . . , ein } où 1 ≤ ik ≤ N
et 1 ≤ k ≤ n. Nous supposons avoir procédé à la sélection de l’échantillon En de
manière aléatoire et avec remise : on sélectionne au hasard un élément de E puis il
est “remis” dans la population et peut être de nouveau sélectionné ultérieurement.
De fait, il peut y avoir un couple (k, k 0 ) tel que ik = ik0 . On est alors dans le
cas d’un tirage aléatoire avec remise. Il est clair qu’il existe dans ce cas N n /n!
différentes possibilités pour choisir En . L’inférence statistique est effectuée à partir
d’observations de la propriété X sur En . On note X1 , . . . , Xn les valeurs de X
correspondant aux éléments de En . Ce sont des valeurs aléatoires car En a été tiré
aléatoirement et le vecteur (X1 , . . . , Xn ) est l’échantillon.

1.2 Expérience renouvelable


Les modèles où la population est de taille finie ne couvrent pas toutes les situa-
tions. Prenons le cas de la propriété X égale à “la fréquence, mesurée en minutes,
de départ du métro de la ligne 2 à la station Porte Dauphine”. Il est clair que X
est une variable aléatoire puisqu’on ne peut exactement prédire la fréquence. En
revanche,on ne peut pas appliquer les notions de population finie et d’échantillon-
nage aléatoire ici car le nombre d’observations dépend du temps qu’on passe à
observer le métro. On parle plutôt ici d’expérience que l’on peut renouveler théo-
riquement autant de fois que l’on veut.

On considère le cas d’une expérience aléatoire renouvelée plusieurs fois indé-


pendamment. On note X la propriété statistique associé à l’expérience et dont les
caractéristiques sont inconnues du statisticien. Alors X1 correspond à la propriété
X observée sur la première expérience. L’expérience est renouvelée n fois afin d’ob-
tenir les observations X1 , . . . , Xn puis le statisticien infère à partir de ces données
pour déduire des caractéristiques sur la propriété X.

1.3 L’échantillon
Afin de donner à l’échantillon un cadre mathématique commun, on suppose
que la propriété X appartient à un espace euclidien X (Rq avec q ≥ 1) muni de sa
norme euclidienne k · k. On suppose aussi que l’ensemble des caractéristiques de la
propriété X sont décrites par une mesure de probabilité P inconnue. Alors X est
un élément aléatoire (e.a.) à valeur dans X de loi P . C’est donc une application
1.3. L’ÉCHANTILLON 7

mesurable de (Ω, A) dans (X , B), où B est la tribu des Boréliens et (Ω, A, P) est
l’ensemble des événements possibles muni d’une mesure de probabilité, vérifiant
P(X ∈ B) = P (B) pour tout B ∈ B.
Définition 1.3.1 L’échantillon aléatoire (X1 , . . . , Xn ) de taille n est le vecteur
aléatoire à valeur dans l’espace produit (X , B)n = (X n , Bn ) de loi P ⊗n où
– Xn = X | × .{z
. . × X} est le produit cartésien de l’espace X ,
n fois
– Bn est la tribu des Boréliens de X n ,
– P ⊗n = P ⊗ · · · ⊗ P le produit tensoriel de P n-fois.
Pour tout 1 ≤ i ≤ n la ième observation Xi est un e.a. de même loi P que X. Les
observations sont indépendantes entre elles.
On note X1 , . . . , Xn ∼ P ou ∼ F , F étant la fonction de répartition de X. Par
définition du produit tensoriel, on a
Yn
⊗n
P (B1 × · · · × Bn ) = P (Bj ),
j=1

pour tout B1 , . . . , Bn ∈ B. Dans le cas continu où P admet une densité f (relative-


ment à la mesure de Lebesgue), l’échantillon (X1 , . . . , Xn ) admet aussi une densité
donnée par la formule :
n
Y
f(X1 ,...,Xn ) (x1 , . . . , xn ) = f (xj )
j=1

pour tout x1 , . . . , xn ∈ X .
Remarque 1 Dans le cas d’une population de taille finie E, étant donné que la
propriété X prend les valeurs {x1 , . . . , xN } de manière équitable, c’est à dire avec
probabilité identique, on trouve
P (X = xl ) = 1/N, ∀ l = 1, . . . , N.
On appelle cette loi la loi Uniforme Discrète sur l’ensemble {x1 , . . . , xN }. On note
X1 , . . . , Xn les observations de X sur En , un échantillon aléatoire de taille n de E.
La notation X1 , . . . , Xn ne signifie en aucun cas que les n premiers éléments de la
population ont été observés. on vérifie bien que X1 , . . . , Xn ∼ P car le tirage avec
remise assure que les observations sont iid.
Définition 1.3.2 Une réalisation (x1 , . . . , xn ) de l’échantillon aléatoire (X1 , . . . , Xn )
est le résultat des mesures associées à un événement A ∈ A :
(x1 , . . . , xn ) = (X1 (A), . . . , Xn (A)).
C’est un élément déterministe de X n . La réalisation xi de la i-ème observation
sera appelée plus simplement la i-ème réalisation.
8 CHAPITRE 1. L’ÉCHANTILLON ALÉATOIRE
Chapitre 2

La méthode empirique

Le statisticien veut inférer sur une caractéristique précise de la propriété statis-


tique X à partir de l’échantillon (X1 , . . . , Xn ). Cette caractéristique peut s’écrire
comme une fonction ϕ de la loi inconnue P de X et s’écrit donc ϕ(P ). La méthode
empirique consiste à substituer à P inconnue la mesure empirique Pn fournit à
partir de l’échantillon (X1 , . . . , Xn ) (donc connue) par la relation
n
1X
Pn = δX
n i=1 i

où δa est la mesure de Dirac au point a ∈ X : P(δa = a) = 1.

Remarque 2 La mesure empirique Pn est la loi uniforme discrète sur l’ensemble


des observations {X1 , . . . , Xn }.

Ce chapitre étudie différentes caractéristiques empiriques ϕ(Pn ) correspondant à


différents choix de ϕ, plus spécifiquement
n
1X
– La moyenne empirique Xi notée X n ,
n i=1
n
1X
– La matrice de variance-covariance empirique (Xi − X n )(Xi − X n )T no-
n i=1
tée Sn2 .
Dans le cas réel X = R, on étudie aussi
n
1X r
– Le moment empirique d’ordre r ∈ N, X noté Mnr ,
n i=1 i
n
∗ 1
X
– Le moment empirique centré d’ordre r ∈ N , (Xi − X n )r noté Mnr 0 ,
n i=1

9
10 CHAPITRE 2. LA MÉTHODE EMPIRIQUE

– La fonction de répartition empirique notée Fn qui dans le cas X = R est la


n
1X
fonction qui à x ∈ R associe la valeur 1X ≤x .
n i=1 i
Pour faire appel aux théorèmes limites probabilistes, on a besoin de la notion
suivante :

Définition 2.0.3 Dans le cas d’une expérience renouvelable, lorsqu’on suppose


pouvoir renouveler l’expérience autant de fois que l’on veut, i.e. faire tendre n →
∞, on parle du cadre asymptotique.

Ce cadre idéal permet d’appliquer les théorèmes classiques de convergence tels que
la LFGN et le TLC. Dans ce cours, on étudiera principalement les résultats de
type TLC :

Définition 2.0.4 Une suite de vecteurs aléatoires (Xi ) vérifie un TLC lorsqu’il
existe un vecteur gaussien centré N et un vecteur déterministe µ tel que
√ L
n(X n − µ) −→ N quand n → ∞.

Bien que la convergence en loi soit un mode de convergence plus faible que la
convergence p.s., le TLC implique la LFGN

Proposition 2.0.1 Si une suite de vecteurs aléatoires (Xn ) satisfait le TLC alors
p.s.
X n −→ µ asymptotiquement.

Démonstration : Sans perte de généralité on pose µ = 0. On utilise le lemme de


Borel-Cantelli qui assure que si la série (P(kX n k > ε)) est convergente pour tout
p.s.
ε > 0 alors X n −→ 0 asymptotiquement. On raisonne par équivalence (cas q = 1)

√ √ ∞
x2 
Z
1 
P(kX n k > ε) = P( n|X n | > ε n) ∼n→∞ 2 √
exp − 2 dx =: un .
ε n 2π 2σ

Or, (un ) est majorée pour n suffisamment grand par une suite convergente :
r Z ∞ r
2 1 2 √
un ≤ √
exp(−x)dx = exp(−ε n).
π ε n 2π π

Par croissance comparée, (un ) est une série convergente ainsi que (P(kX n k > ε))
et le résultat souhaité découle du lemme de Borel-Cantelli.
2.1. LA MOYENNE EMPIRIQUE 11

2.1 La moyenne empirique


Définition 2.1.1 La moyenne empirique de l’échantillon est l’e.a.
n
1X
Xn = Xj .
n j=1

Même pour cette caractéristique très simple (la moyenne), la loi de la version
empirique X n n’est pas connue pour tous choix possibles de P . Par contre, on
peut calculer des caractéristiques de l’e.a. X n telles que E(X n ) et Var (X n ) dans
un cadre général.

2.1.1 L’espérance de la moyenne empirique


Proposition
R 2.1.1 Si l’e.a. X est intégrable, i.e. la loi P est telle que E(kXk) =
kxkdP (x) < ∞ alors
E(X n ) = µ
R
où µ = E(X) = xdP (x) est la moyenne.

Démonstration : Application immédiate de la linéarité de l’intégrale. 2

Exemple 2.1.1 Dans le cas d’une population E de taille finie N , on calcule


Z N N
X 1 X
µ= xdP (x) = x` P (X = x` ) = xj
`=1
N j=1

et on obtient
N
1 X
E(X n ) = xj = xN .
N j=1

2.1.2 La matrice de variance-covariance de X n


Proposition
R 2.1.2 Si l’e.a. X est de carré intégrable, i.e. la loi P est telle que
2 2
E(kXk ) = kxk dP (x) < ∞ alors

Σ2
Var (X n ) =
n
où Σ2 = E((X − E(X))(X − E(X))T ) = E(XX T ) − E(X)E(X)T est la matrice de
variance-covariance.
12 CHAPITRE 2. LA MÉTHODE EMPIRIQUE

Démonstration : Les Xj étant des e.a. iid, on a


n
1 X
Var (X n ) = 2 Var (Xj )
n j=1

et Var (Xi ) = Σ2 pour tout ∀ j = 1, . . . , n. 2

Exemple 2.1.2 Dans le cas d’une population E de taille finie N , on calcule


N
2 1 X
σ = (xj − µ)2 ,
N j=1

et on obtient PN
− xN )2
j=1 (xj
Var (X n ) = .
Nn

2.1.3 Loi de la moyenne empirique


Nous donnons ici deux cas, i.e. deux choix de P , où la loi de X n est connue, le
cas Gaussien et le cas Bernoulli. Le cas de population finie E est difficile à traiter.

Cas Gaussien On suppose ici que P = Nq (µ, Σ2 ) (voir définition p.26 dans les
rappels) avec µ ∈ Rq et Σ2 une matrice symétrique définie positive de taille q × q.
Alors l’échantillon (X1 , . . . , Xn ) suit une loi normale ((µ, . . . , µ)T , Σ2n ) où Σ2n est la
matrice nq × nq de la forme
 2
0 ··· 0

Σ
. . . . . . .. 
 0 . 

2
Σn = · · ·  . . .
 .. .. ... 0 
0 · · · 0 Σ2

Par stabilité de la loi normale par transformation affine, on sait que X n , qui est bien
une transformation affine de l’échantillon (X1 , . . . , Xn ), suit aussi une loi normale

X n ∼ Nq (E(X n ), Var (X n )) = Nq (µ, n−1 Σ2 ).

Cas Bernoulli On suppose ici que P = B(p) avec 0 < p < 1. Alors on a

nX n ∼ B(n, p)

par indépendance des Xi et par définition de la loi Binomiale.


2.2. LA MATRICE DE VARIANCE-COVARIANCE EMPIRIQUE 13

2.1.4 La loi asymptotique de la moyenne empirique


Dans le cadre d’une expérience renouvelable, on peut idéalement faire appel à
l’asymptotique et, en utilisant le TLC, on obtient directement sous la condition
que X soit de carré intégrable E(kXk2 ) < ∞ :
√ −1 L
nΣ (X n − µ) −→ Nq (0q , Iq ).
Pour n suffisamment grand (n ≥ 100 en général) on utilise l’approximation normale :
L
X n ≈ Nq (µ, n−1 Σ2 ).

2.2 La matrice de variance-covariance empirique


La matrice de variance-covariance empirique est donnée par l’expression
n
1X
Sn2 = (Xj − X n )(Xj − X n )T .
n j=1

En particulier dans le cas X = R2 , i.e. X = (X (1) , X (2) ), on a


 2 (1) 
2 Sn (X ) qX (1) ,X (2)
Sn =
qX (1) ,X (2) Sn2 (X (2) )
où, pour tout Y1 , . . . , Yn ∼ P et Z1 , . . . , Zn ∼ P 0 dans R on a la notation
n n
1X 1X
Sn2 (Y )= (Yj − Y n )2 et qY,Z = (Yj − Y n )(Zj − Z n ).
n j=1 n j=1

On appelle qY,Z la covariance empirique entre X et Y (rappelons que Cov (Y, Z) =


E((Y − E(Y ))(Z − E(Z)))).

L’e.a. Sn2 est une matrice aléatoire de taille q × q, de nature plus complexe que
le vecteur aléatoire X n . Nous allons commencer par étudier son espérance, puis sa
variance dans le cas réel q = 1 avant d’en déduire sa loi (uniquement dans le cas
normal).

2.2.1 L’espérance de Sn2


Proposition 2.2.1 Si X est de carré intégrable, alors
n−1 2
E(Sn2 ) = Σ.
n
14 CHAPITRE 2. LA MÉTHODE EMPIRIQUE

Démonstration : Montrons qu’une variante de la formule de Huygens donne la


décomposition de Sn2 suivante
n
1X
Sn2 = (Xj − µ)(Xj − µ)T − (X n − µ)(X n − µ)T (2.1)
n j=1

où µ est la vraie moyenne. En effet sachant (X1 , . . . , Xn ) soit l’e.a. discret Y


uniformément distribuée sur {X1 − µ, . . . , Xn − µ}, i.e. telle que P(Y = Xi − µ) =
n−1 . Alors le calcul donne E(Y ) = X n − µ et Var (Y ) = E(Y − E(Y ))2 = Sn2 et la
formule de Huygens appliquée à Y donne le résultat souhaité.
D’après la décomposition (2.1) on a

E(Sn2 ) = Σ2 − Var (X n ).

La variance de la moyenne empirique vaut n−1 Σ2n d’où le résultat. 2

Remarque 3 L’espérance de la variance empirique n’est pas égale à la vraie va-


0
riance Σ2 . La matrice de variance-covariance empirique corrigée Sn2 est définit par
n
0 n 1 X
Sn2 = Sn2 = (Xj − X n )(Xj − X n )T
n−1 n − 1 j=1

0
et vérifie bien que E(Sn2 ) = Σ2 .

2.2.2 La variance de Sn2 lorsque q = 1


Nous ne traitons pas ici la notion de “variance ”pour les matrices aléatoires
telles que Sn2 . On se restreint au cas réel X = R ; la variance de Sn2 est donnée par
la proposition suivante

Proposition 2.2.2 Si X 4 est intégrable, i.e. E(X 4 ) < ∞, alors

n−1
Var (Sn2 ) = 4

(n − 1)µ 4 − (n − 3)σ
n3
où µ4 = E((X − µ)4 ) est appelé moment centré d’ordre 4 et σ 4 = Var (X)2 .

Démonstration : Rappelons d’abord que d’après la décomposition (2.1) on a

1X
Sn2 = (Xj − µ)2 − (X n − µ)2 .
n j=1
2.2. LA MATRICE DE VARIANCE-COVARIANCE EMPIRIQUE 15

Posons Yj = (Xj − µ)2 . On décompose


n
1 2X
Var (Sn2 ) = Var (Y1 ) − Cov (Yj , (X n − µ)2 ) + Var ((X n − µ)2 )
n n j=1
1
= Var (Y1 ) − 2Cov (Y1 , (X n − µ)2 ) + Var ((X n − µ)2 )
n
= un − 2vn + wn . On a d’abord
1 µ4 − σ 4
un = (E[(X1 − µ)4 ] − E2 [(X1 − µ)2 ]) = .
n n
D’autre part,
vn = E[(X1 − µ)2 (X n − µ)2 ] − E[(X1 − µ)2 ]E[(X n − µ)2 ]
σ4
= E[(X1 − µ)2 (X n − µ)2 ] − avec
n
n
X
2 1 2
E[(X1 − µ) (X n − µ) ] = E[(X1 − µ)2 (Xi − µ)2 ]
n2 i=1
X 
2
+ E[(X1 − µ) (Xj − µ)(Xk − µ)]
j6=k
 n 
1 4
X
2 2
= E[(X1 − µ) ] + E[(X1 − µ) (Xj − µ) ] + 0
n2 i=2
µ4 + (n − 1)σ 4
=
n2
d’où
µ4 + (n − 1)σ 4 σ 4
vn = −
n2 n
µ4 − σ 4
= .
n2
Enfin
σ4
IIIn = V ar((X n − µ)2 ) = E[(X n − µ)4 ] − où
n2
n
X 
14 4
X
E[(X n − µ) ] = E[(Xi − µ) ] + C42 2 2
E[(Xj − µ) (Xk − µ) ] + 0
n4 i=1 j<k
4
nµ4 + 3n(n − 1)σ
=
n4
4
µ4 − 3σ 3σ 4
= + 2.
n3 n
16 CHAPITRE 2. LA MÉTHODE EMPIRIQUE

Il s’ensuit que

µ4 − σ 4 µ4 − σ 4 µ4 − 3σ 4 2σ 4
Var (Sn2 ) = −2 + + 2
n n2 n3 n
µ4 − σ 4 2(µ4 − 2σ 4 ) µ4 − 3σ 4
= − +
n n2 n3
n−1
(n − 1)µ4 − (n − 3)σ 4 .2

= 3
n

Remarque 4 Au premier ordre,

µ4 − σ 4
V ar(Sn2 ) ≈ lorsque n → ∞.
n

2.2.3 La loi de Sn2


Du fait de la complexité de Sn2 comparativement à X n , seul le cas Gaussien
réel (X = R) est envisageable. Supposons donc que X1 , . . . , Xn ∼ N (µ, σ 2 ). On a
alors la proposition suivante

Théorème 2.2.1 Dans le cas Gaussien réel, la loi de la variance empirique est
déterminée par la formule :
n 2
S ∼ χ2n−1
σ2 n
Démonstration : La démonstration repose sur l’application du Théorème de Co-
chran (c.f. p. 27 du fascicule "Rappels utiles au cours de statistique mathéma-
tique") sur le vecteur Gaussien isotrope (X1 − µ, . . . , Xn − µ) et sur un s.e.v. E de
Rn bien choisi. Étant donné que les Xi sont iid de loi N (µ, σ 2 ), on vérifie bien que
X = (X1 −µ, . . . , Xn −µ) est un vecteur Gaussien de Rn et de loi N (0n , σ 2 In ). C’est
donc bien un vecteur Gaussien isotrope. On s’intéresse la transformation affine qui
à X associe X0 = (X1 − X n , . . . , Xn − X n ). Si on écrit 1n la matrice de dimension
n×n qui ne contient que des coefficients 1, alors on vérifie que X0 = (In −n−1 1n )X.

Pour prouver que cette transformation T = In − n−1 1n est bien une projection
πE on vérifie que T 2 = (In − n−1 1n )2 est bien égal à T lui-même en utilisant les
relations élémentaires In2 = In , 1n In = In 1n et 12n = n1n . On en déduit que ses
valeurs propres sont soit égales à 0 soit égales à 1 et donc que le rang de T est la
somme de ses valeurs propres, égal à sa trace la somme de ses éléments diagonaux.
Ainsi
n−1 n−1
Rg(T ) = Tr(T ) = + ··· + = n − 1.
n n
2.2. LA MATRICE DE VARIANCE-COVARIANCE EMPIRIQUE 17

On en déduit que la dimension du s.e.v. E tel que T = PE vaut n−1. On peut alors
appliquer le Théorème de Cochrane et on trouve directement le résultat souhaité :
n
X
(Xi − X n )2 = kX0 k2 = kPE (X)k2 ∼ χ2n−1 .2
i=1

Remarque 5 Ce résultat est cohérent avec le calcul de la variance de la variance


empirique. En effet, on sait que E(Y ) = n−1 et Var (Y ) = 2(n−1) pour Y ∼ χ2n−1
et donc
2σ 4 (n − 1)
Var (Sn2 ) = .
n2
On vérifie bien la relation précédente
n−1
Var (Sn2 ) = (n − 1)µ4 − (n − 3)σ 4

n 3

car dans le cas d’un loi normale on a µ4 = 3σ 4 . Cette relation vient du calcul du
moment d’ordre 4 d’une loi normale centrée réduite (par IPP) qui donne E(N 4 ) =
3, puis on centre et on réduit la variable X ∼ N (µ, σ 2 ) :

X −µ L
=N
σ
et en prenant le moment d’ordre 4 de cette variable on a
" 4 #
µ4 X −µ
4
E = E(N 4 ) = 3
σ σ

2.2.4 La loi asymptotique de Sn2


Comme dans le cas de la moyenne empirique, le recours au cadre asymptotique
(idéal) permet de donner une approximation normale simple pourvu que n est
suffisamment grand (en général n ≥ 100). Pour simplifier on se restreint au cas
X = R, on a alors le résultat asymptotique :

Théorème 2.2.2 Soit X1 , . . . , Xn ∼ P avec P telle que E(|X|4 ) < ∞ alors on a


√ L
n(Sn2 − σ 2 ) −→ N (0, µ4 − σ 4 )

avec µ4 = E(X − µ)4 .

Démonstration : On commence par appliquer le TLC aux vecteurs (Xi − µ)2 iid
pour tout 1 ≤ i ≤ n, d’espérance σ 2 et de variance Var (Xi − µ)2 = E(Xi − µ)4 −
18 CHAPITRE 2. LA MÉTHODE EMPIRIQUE

(E(Xi − µ)2 )2 d’après la formule de Huygens, soit Var (Xi − µ)2 = µ4 − σ 4 . On


obtient donc !
n
√ 1X L
n (Xi − µ)2 − σ 2 −→ N (0, µ4 − σ 4 ).
n i=1
D’après la décomposition (2.1) de Sn2 = (X − µ)2 n − (X n − µ)2 on a
√ √ √ √
n(Sn2 −σ 2 ) = n((X − µ)2 n −(X n −µ)2 −σ 2 ) = n((X − µ)2 n −σ 2 )− n(X n −µ)2 .
Reste à prouver que le dernier terme est négligeable. On sait par le TLC classique
que
√ L
n(X n − µ) −→ N (0, σ 2 ).
p.s. P √ P
On conclut en utilisant Slutsky avec X n −→ µ =⇒ X n −→ µ que n(X n −µ)2 −→
0 ce qui est suffisant pour prouver le résultat. 2
On déduit de cette convergence en loi l’approximation normale
L
Sn2 ≈ Nq (σ 2 , n−1 (µ4 − σ 4 ))
valable pour n grand (n ≥ 100 en général).

2.3 Le couple (X n, Sn2 )


La moyenne et la variance empirique jouent un rôle primordiale en statistique.
Nous étudions ici les propriétés du couple (X n , Sn2 ) dans le cas X = R.

2.3.1 L’espérance de (X n , Sn2 )


Par définition de l’espérance d’un couple, on trouve simplement E(X n , Sn2 ) =
(µ, n/(n − 1)σ 2 ).

2.3.2 La loi de (X n , Sn2 )


Dans le cas Gaussien X1 , . . . , Xn ∼ N (µ, σ 2 ), on admet le résultat suivant
indispensable pour déterminer la densité (et donc la loi) du couple (X n , Sn2 ) :
Théorème 2.3.1 (Fisher) Dans le cas Gaussien, X n et Sn2 sont des v.a. indé-
pendantes.
On en déduit que la densité du couple et le produit des densités de X n (den-
sité d’une loi normale N (µ, σ 2 /n)) et de Sn2 (densité d’une loi gamma γ((n −
1)/2, n/(2σ 2 ))) soit
1  n n/2
(n−3)/2
 n
2

f(X n ,Sn2 ) (x, y) = √ y exp − 2 ((x − µ) + y) 1y>0 .
Γ n−1
2
2π 2σ 2 2σ
2.4. MOMENTS EMPIRIQUES 19

Remarque 6 Hors cas Gaussien X n et Sn2 ne sont pas nécessairement des v.a.
indépendantes.

2.3.3 La loi asymptotique de (X n , Sn2 )


En faisant appel au cadre asymptotique on simplifie le problème et on peut
déterminer la loi (asymptotique) du couple (X n , Sn2 ) pour un grand nombre de lois
P dont l’échantillon est issu, i.e. X1 , . . . , Xn ∼ P .

Théorème 2.3.2 Si P est telle que E(|X|4 ) < ∞ alors on a


      2 
Xn µ L σ µ3
n − −→ N2 02 ,
Sn2 σ2 µ3 µ4 − σ 4

avec µ3 = E(X − µ)3 .

Remarque 7 Ce n’est pas parce qu’on a prouvé un "TLC" sur X n et sur Sn2
séparément qu’un "TLC" a forcément lieu sur le couple (X n , Sn2 ).

Démonstration : On applique le TLC classique sur (Xi , (Xi − µ)2 )i≥0 une suite
iid de vecteurs aléatoires (bien que Xi et (Xi − µ)2 ne soient pas iid). Comme
E((Xi , (Xi − µ)2 )) = (µ, σ 2 ) et de matrice de variance covariance (finie)
   2 
2 Var θ (X) Cov θ (X, (X − µ)2 ) σ µ3
Σ = =
Cov θ (X, (X − µ)2 ) Var θ ((X − µ)2 ) µ3 µ4 − σ 4

car Cov (X, (X − µ)2 ) = E(X(X − µ)2 ) − µE((X − µ)2 ). On obtient alors


   
X n µ L
n 1
Pn 2 − 2 −→ N2 (02 , Σ2 ).
n i=1 (Xi − µ) σ

On conclut comme dans la preuve du théorème sur la loi asymptotique de la


variance empirique, à savoir un utilisant la décomposition (2.1) de Sn2 et que
√ p.s.
n(X n − µ)2 −→ 0. 2

2.4 Moments empiriques


Dans le cas X = R il est possible de généraliser les notions de moyenne et de
variance empiriques, ce qui donne lieu à la notion des moments empiriques.
20 CHAPITRE 2. LA MÉTHODE EMPIRIQUE

Définition 2.4.1 Soient X1 , . . . , Xn ∼ P et r ∈ N∗ , alors le moment d’ordre r


vaut E(X r ) et sont notés mr . Le moment centrés d’ordre r vaut E((X − µ)r ) où
µ = m1 est la vraie moyenne. Ils ont des équivalent empiriques :
n n
1X r 1X
Mnr = X et Mnr 0 = (Xj − X n )r
n j=1 j n j=1

appelés le moment empirique d’ordre r et le moment empirique centré d’ordre r.

Moyenne et variance en sont des cas particuliers car µ = m1 et σ 2 = µ2 , d’où les


0
versions empiriques Mn1 = X n et Mn2 = Sn2 . Le moment centré d’ordre 1 µ1 vaut
toujours 0.

2.4.1 L’espérance du moment empirique


La linéarité de l’espérance nous garantit que E(Mnr ) = mr . Par contre E(Mnr 0 ) 6=
0
µr et on peut corriger le moment empirique centré (c.f. cas r = 2 où Mn2 = Sn2 ).

2.4.2 Loi asymptotique du moment empirique


Une application du TLC nous donne la loi asymptotique des moments (centrés
ou non) :

Proposition 2.4.1 Si E(X 2r ) < +∞, i.e. m2r existe, alors


√ L
n(Mnr − mr ) −→ N (0, m2r − m2r )
√ L
n(Mnr 0 − µr ) −→ N (0, µ2r − µ2r ).

démonstration : Application directe du TLC à Xir pour le cas Mnr .


Application du TLC à (Xi − m1 )r dans le cas Mnr 0 puis Slustky en utilisant la LGN
P
X n −→ m1 . 2
1 20 2
Dans le cas Mn = X n et Mn = Sn on retrouve les résultats trouvés précédem-
ment.

2.5 Fonction de répartition empiriques


Dans le cas X = R la fonction de répartition empirique empirique est définie
par :
2.5. FONCTION DE RÉPARTITION EMPIRIQUES 21

Définition 2.5.1 Soit X1 , . . . , Xn ∼ P . La fonction de répartition empirique Fn


est définie par la fonction qui à x ∈ R asocie
n
1X
Fn (x) = 1X ≤x .
n j=1 j

On a donc Fn : R → [0; 1] qui est croissante, continue à droite et admettant une


limite à gauche (cadlag) par définition.

Remarquons que Fn est la fonction de répartition de la loi U({X1 , . . . , Xn }). Fn est


donc une fonction aléatoire dont l’étude de la loi dépasse le cadre de ce cours. On
se restreint donc à l’étude de la loi de Fn (x) avec x ∈ R fixé qui est une variable
aléatoire.

2.5.1 La loi de Fn (x) avec x ∈ R fixé


Pour tout x ∈ R fixé, on effectue le changement de variable aléatoire en consi-
dérant Yi = 1Xi ≤x . Il est facile de voir que Fn (x) = Y n et que Y = 1X≤x est une
variable aléatoire valant soit 0 soit 1, donc Y ∼ B(p) avec p = P(Y = 1) = E(Y ).
Ici on trouve facilement p = E(1X≤x ) = P(X ≤ x) = F (x). on en déduit, d’après
l’étude de la loi de la moyenne empirique dans le cas Bernoulli que nFn (x) ∼
B(n, F (x)). De plus,

E(Fn (x)) = E(Y n ) = E(Y ) = F (x) et


F (x)(1 − F (x))
Var (Fn (x)) = Var (Fn (x)) = n−1 Var (Y ) = .
n

2.5.2 La loi asymptotique de Fn (x) avec x ∈ R fixé


En appliquant le TLC aux Yi = 1Xi ≤x , on trouve :

Théorème 2.5.1 Soit F = FX la fonction de répartition de X alors ∀ x ∈ R


√ L
n(Fn (x) − F (x)) −→ N (0, F (x)(1 − F (x)).

Remarque 8 En tant que fonction, Fn : x 7→ Fn (x) est une fonction aléatoire


constante par morceau en x qui a des sauts de hauteur n−1 en chacun de ses
points de discontinuité (X1 , . . . , Xn ) (le saut peut être double en un point Xi = Xj
pour j 6= i). La “densité empirique” est sa “dérivée au sens des distribution” , i.e.
la mesure empirique Pn = n−1 ni=1 δXi .
P
22 CHAPITRE 2. LA MÉTHODE EMPIRIQUE
Chapitre 3

Théorie de l’information de Fisher

Soit X1 . . . , Xp ∼ P un échantillon d’observations iid à valeurs dans X (Rq


pour q ≥ 1) muni de sa tribu des Boréliens B. Pour inférer sur les caractéristiques
d’une propriété X inconnue, le statisticien utilise des fonctions de l’échantillon :
Tn = T (X1 , . . . , Xn ). Ces éléments aléatoires sont appelés des statistiques. La
statistique Tn doit contenir autant d’information que l’échantillon (X1 , . . . , Xn )
pour l’inférence du caractère inconnu. La théorie de l’information de Fisher four-
nit un cadre mathématique pour quantifier l’information contenue par l’échantillon
(X1 , . . . , Xn ). Mais commençons par étudier les différentes propriétés de la statis-
tique Tn .

3.1 Propriétés des statistiques


3.1.1 Définition de la statistique
Soit (Y, C) l’espace des caractéristiques que l’on souhaite inférer sur la loi P à
partir des observations (X1 , . . . , Xn ).
Définition 3.1.1 Soit T une application mesurable de X n dans Y ne dépendant
pas des caractéristiques inconnues de la loi P dont est issu l’échantillon, i.e.
T : X n → Y. Alors Tn = T (X1 , . . . , Xn ) est un élément aléatoire de Y appelé
statistique.
Exemple 3.1.1 – Toutes les caractéristiques empiriques Tn = ϕ(Pn ) sont des
statistiques.
– La moyenne empirique X n est une statistique, i.e. peut s’écrire T (X1 , . . . , Xn )
avec T : X n → Y = X ,
– Pour d ∈ N tel que X = Rq la variance empirique Sn2 est une statistique, i.e.
peut s’écrire T (X1 , . . . , Xn ) avec T : X → Y = Sd+ (R) où Sd+ (R) est l’espace
des matrices symétriques positives,

23
24 CHAPITRE 3. THÉORIE DE L’INFORMATION DE FISHER

– Pour X = R les moments empiriques (centrés) d’ordres quelconques sont


tous des statistiques à valeurs dans Y = R,
– Pour X = R la fonction de répartition empirique Fn est une statistique à
valeur dans Y = D, l’ensemble des fonctions càdlàg de R dans R.
Exemple 3.1.2 (Statistique de Student) Pour X = R et X1 , · · · , Xn ∼ P la
statistique de Student est la quantité

n(X̄n − m)
T (m) = p 0 .
Sn2
Si P = N (µ, σ 2 ) alors T (µ) suit une loi de Student à (n − 1) degrés de liberté (ce
résultat découle directement de la définition de la loi de Students et du théorème
de Fisher).

3.1.2 Statistique d’ordre


Dans le cas X = R, certaines statistiques ne dépendent de l’échantillon que
lorsque celui-ci est ordonné en ordre croissant :
Définition 3.1.2 L’échantillon ordonné dans l’ordre croissant, noté (X(1) , . . . , X(n) ),
est défini tel que X(k) soit la k-ème plus petite valeur de l’échantillon (X1 , . . . , Xn ).
Alors Tn = T (X(1) , . . . , X(n) ) est une statistique d’ordre.
Exemple 3.1.3
– Pour tout j, X(j) est une statistiques d’ordre appelée statistique d’ordre de
rang j.
– X(1) = min(X1 , . . . , Xn ) et X(n) = max(X1 , . . . , Xn ) sont des statistiques
d’ordre.
Contrairement à l’échantillon (X1 , . . . , Xn ), l’échantillon ordonné n’est pas iid.
Dans le cas où X est absolument continue (admet une densité notée f ), on peut
toutefois spécifier la loi de l’échantillon ordonné :
Théorème 3.1.1 Le vecteur ordonné (X(1) , . . . , X(n) ) a pour densité
gn (z1 , . . . , zn ) = n!f (z1 ) . . . f (zn ) si z1 ≤ . . . ≤ zn
= 0 sinon.
Démonstration : Soit σ une permutation aléatoire suivant la loi U({permutations
de {1, . . . , n}}) indépendante de (X1 , . . . , Xn ). Par indépendance, on obtient
P((Xσ(1) , . . . , Xσ(1) ) ∈]xσ(1) − h, xσ(1) ] × · · · ×]xσ(n) − h, xσ(n) ])
n n
1 X Y Y
(F (xi ) − F (xi − h)) = (F (xi ) − F (xi − h)).
n! permutations i=1 i=1
3.1. PROPRIÉTÉS DES STATISTIQUES 25

D’autre part

P((Xσ(1) , . . . , Xσ(1) ) ∈]xσ(1) − h, xσ(1) ] × · · · ×]xσ(n) − h, xσ(n) ])


= P((X(1) , . . . , X(n) ) ∈]x(1) −h, x(1) ]×· · · ×]x(n) −h, x(n) ]) | σ(·) = (·))P(σ(·) = (·)).

Comme la loi de (X1 , . . . , Xn ) est elle aussi absolument continue, on se restreint


au cas xi 6= xj pour i 6= j. Il existe alors une unique permutation σ 0 telle que
xσ0 (1) < . . . < xσ0 (n) . Pour h suffisamment petit, σ 0 (·) = (·) p.s.. Cette permutation
σ 0 ne dépend que de (x1 , . . . , xn ), elle est indépendante de (X1 , . . . , Xn ). De même,
pour h suffisamment petit, l’événement {σ(·) = (·)} = {σ = σ 0 } est indépendant
de (X1 , . . . , Xn ) car σ l’est par définition. On obtient

P((Xσ(1) , . . . , Xσ(n) ) ∈]xσ(1) − h, xσ(1) ] × · · · ×]xσ(n) − h, xσ(n) ])


= P((X(1) , . . . , X(n) ) ∈]x(1) − h, x(1) ] × · · · ×]x(n) − h, x(n) ]))P(σ = σ 0 ).

Par définition de la loi uniforme, P(σ = σ 0 ) = 1/n! et en posant zi = x(i) le résultat


est prouvé. 2

On en déduit les lois de chaque marginale de l’échantillon ordonnée X(k) . Re-


marquons que les X(k) ne sont pas identiquement distribués, leurs densité dépend
de k :

Théorème 3.1.2 Si F est la fonction de répartition de X, alors a statistique


d’ordre X(k) a pour densité

n!
hk (x) = f (x)F (x)k−1 (1 − F (x))n−k .
(k − 1)!(n − k)!

De plus, X(i) dépend de X(j) pour i 6= j, leur densité jointe n’est pas le produit
de leurs densités :

Théorème 3.1.3 La loi jointe du couple (X(i) , X(j) ), i < j admet pour densité

n!
f(X(i) ,X(j) ) (x, y) = F i−1 (x)f (x) × [F (y) − F (x)]j−i−1
(i − 1)!(j − i − 1)!(n − j)!
× (1 − F (y))n−j f (y) 1x≤y .

3.1.3 Statistique paramétrique


Soit une statistique Tn ∈ Y, deux cas sont possibles :
– Soit Y est un ensemble inclus dans un espace de dimension fini : il existe
d ∈ N pour lequel Y ⊆ Rd ,
26 CHAPITRE 3. THÉORIE DE L’INFORMATION DE FISHER

– Soit Y n’est inclus dans aucun espace de dimension fini.


Dans le premier cas Tn ∈ Rd est appelée une statistique paramétrique de dimen-
sion d. Dans le second cas la statistique Tn est de dimension infinie ; c’est une
statistique non paramétrique.

Définition 3.1.3 On appelle modèle paramétrique de paramètre θ ∈ Θ pour un


certain espace de dimension fini Θ ⊆ Rd , d ≥ 1, le couple (Pθ , Θ), où Pθ est la
loi de probabilité de X qui dépend du paramètre θ inconnu et Θ est l’ensemble des
paramètres θ envisageables.

On notera simplement X1 , . . . , Xn ∼ Pθ l’échantillon issue du modèle paramétrique


(Pθ , Θ) en spécifiant bien l’espace des paramètres Θ.

Exemple 3.1.4 Cas de l’expérience succès-echec : X1 , . . . , Xn ∼ B(θ) avec 0 <


θ < 1 veut dire qu’on se place dans le cadre d’un échantillon issu de l’expérience
X qui a pour valeur 0 ou 1 (loi de Bernoulli), que cette loi dépend uniquement
de la probabilité de succès (X = 1) notée θ, que cette caractéristique est inconnue
est qu’on recherche à inférer dessus à partir de l’échantillon (X1 , . . . , Xn ). Dans
ce cas Θ =]0; 1[.

Exemple 3.1.5
– les statistiques X n , Sn2 , Mnr , Mnr 0 et Fn (x) avec x ∈ R fixé sont des statistiques
paramétriques,
– la statistique Fn est non-paramétrique.

Dans toute la suite de ce cours on se limitera au cadre d’un échantillon (X1 , . . . , Xn )


issu d’un modèle paramétrique, où la caractéristique à inférer est le paramètre θ.

3.1.4 Statistique exhaustive et statistique libre


Soit le modèle paramétrique X1 , . . . , Xn ∼ Pθ avec θ ∈ Θ.

Définition 3.1.4 La statistique Tn sera dite exhaustive pour θ si la loi condi-


tionnelle de l’échantillon (X1 , . . . , Xn ) sachant Tn = t n’est pas une fonction du
paramètre θ :

Pθ ((X1 , . . . , Xn ) ∈ · | Tn = t) ne dépend pas de θ.

Remarque 9 Lorsque la valeur prise par la statistique exhaustive Tn est connue


(égale à t), alors l’échantillon (X1 , . . . , Xn ) ne fournit plus d’information sur le pa-
ramètre inconnu θ car sa loi ne dépend plus de θ. La statistique exhaustive contient
toute l’information nécessaire à l’inférence de θ.
3.1. PROPRIÉTÉS DES STATISTIQUES 27

On notera f (x, θ) la densité de Pθ relativement à une mesure dominante et σ−finie,


ν. On va se restreindre au cas où ν est la mesure de Lebesgue (variables aléatoires
de loi absolument continue) et on retrouve la densité f notée fθ ou la mesure de
comptage (variables aléatoires de loi discrète) et on retrouve le système Pθ (X = x).
L’indice θ est ajouté aux notation usuelles f et P pour faire remarquer que la loi des
observations Xi dépend de ce paramètre inconnu. L’existence d’une densité permet
de trouver facilement une statistique exhaustive grâce au théorème suivant :
Théorème 3.1.4 (Théorème de factorisation) Soit T une fonction mesurable
de (X n , Bn ) → (Y, C). Alors Tn = T (X1 , . . . , Xn ) est une statistique exhaustive
pour θ si et seulement s’il existe deux fonctions mesurables g : Y × Θ → R+ et
h : X n → R+ telles que la densité f (x1 , . . . , xn ; θ) de l’échantillon (X1 , . . . , Xn ) se
mette sous la forme
f (x1 , . . . , xn ; θ) = h(x1 , . . . , xn )g(T (x1 , . . . , xn ), θ).
Démonstration : On ne montre que l’implication “densité factorisée” implique “iden-
tification d’une statistique exhaustive”.

Soit ` la densité conditionnelle de (X1 , . . . , Xn ) sachant que T (X1 , . . . , Xn ) = t.


Soit T −1 (t) = {(x1 , . . . , xn ) ∈ Rn / T (x1 , . . . , xn ) = t}. On peut alors écrire
f (x1 , . . . , xn ; θ)1T (x1 ,...,xn )=t
`(x1 , . . . , xn ) = R
T −1 (t)
f (x1 , . . . , xn ; θ)dν ⊗n (x1 , . . . , xn )
h(x1 , . . . , xn )g(t, θ)
= R
g(t, θ) T −1 (t) h(x1 , . . . , xn )dν ⊗n (x1 , . . . , xn )
h(x1 , . . . , xn )
= R .
T −1 (t)
h(x1 , . . . , xn )dν ⊗n (x1 , . . . , xn )
La fonction ` ne dépend plus de θ donc le résultat est prouvé. 2

Exemple 3.1.6
– Soit X1 , . . . , Xn ∼ U[0, θ]. On a
1
f (x1 , . . . , xn ; θ) = 10≤min1≤i≤n xi 1sup1≤i≤n xi ≤θ .
θn
En posant
1
h(x) = 10≤min1≤i≤n xi et g(T (x1 , . . . , xn ), θ) = 1T (x1 ,...,xn )≤θ
θn
on déduit que T (X1 , . . . , Xn ) = max1≤j≤n Xj = X(n) est une statistique
(d’ordre) exhaustive pour θ.
28 CHAPITRE 3. THÉORIE DE L’INFORMATION DE FISHER

– Soit X, . . . , Xn ∼ E(θ). On a
n
!
X
f (x1 , . . . , xn , θ) = θn exp −θ xj
j=1

et donc n
X
T (X1 , . . . , Xn ) = Xj
j=1

est bien une statistique exhaustive pour θ.


– Soit X1 , . . . , Xn ∼ P(θ). On a
Pn
−nθ θ j=1 xj
f (x1 , . . . , xn ; λ) = e Qn
j=1 xj !

et donc n
X
T (X1 , . . . , Xn ) = Xj
j=1

est bien une statistique exhaustive pour θ.


– Soit X1 , . . . , Xn ∼ N (µ, σ 2 ). Alors la statistique
n n
!
1X 1X 2
T (X1 , . . . , Xn ) = Xj , X
n j=1 n j=1 j

est une statistique exhaustive pour θ = (µ, σ 2 ).

La statistique libre est l’opposé de la statistique exhaustive : c’est une statis-


tique qui ne contient pas d’information pour l’inférence du paramètre θ.
Définition 3.1.5 Une statistique T d’un modèle paramétrique est dite libre si sa
loi ne dépend pas du paramètre θ.
N’apportant aucune information pour l’estimation du paramètre θ, une statistique
libre est ce qu’on appelle un paramètre de nuisance.

3.2 Information au sens de Fisher


On définit dans cette section une quantité mathématique mesurant l’informa-
tion contenue dans un modèle statistique. On verra dans la section suivante que
cette définition d’information due à Fisher concorde avec l’heuristique faite sur
les notions de statistique exhaustive et de statistique libre, à savoir la première
3.2. INFORMATION AU SENS DE FISHER 29

contient toute l’information de l’échantillon (X1 , . . . , Xn ) pour inférer sur θ, la se-


conde ne contient au contraire aucune d’information pour inférer sur θ.

Soit le modèle paramétrique (Pθ , Θ). La définition de l’information de Fisher


dépend de la notion de Score. Pour que cette notion soit bien définie, on suppose
que les hypothèses suivantes sur la densité f (x, θ) de Pθ relativement à la mesure
dominante ν sont satisfaites. On se place dans le contexte d’un modèle régulier :
Définition 3.2.1 Soit (Pθ , Θ) un modèle paramétrique. On note f (x, θ) la densité
de Pθ relativement à la mesure dominante ν (mesure de comptage ou mesure de
Lebesgue). Le modèle (Pθ , Θ) est régulier si les 4 hypothèses suivantes sont satis-
faites :
(H1) L’ensemble des paramètres Θ est un ouvert de Rd pour d fini et

f (x, θ) > 0 ⇐⇒ f (x, θ0 ) > 0, ∀θ, θ0 ∈ Θ.

(H2) Pour ν presque tout x, les fonctions θ 7→ f (x, θ) et θ 7→ log f (x, θ) sont
deux fois continûment dérivables sur Θ.
(H3) Pour tout θ∗ ∈ Θ il existe un ouvert Uθ∗ ⊆ Θ contenant θ∗ et une fonction
borélienne Λ(x) tels que

k∇θ (log f (x, θ))k ≤ Λ(x) et kHθ (log f (x, θ))k ≤ Λ(x)

pour tout θ ∈ Uθ∗ et ν-presque tout x ∈ X , et


Z
Λ(x) sup f (x, θ)dν(x) < ∞.
θ∈Uθ∗

(H4) La matrice −Eθ [Hθ (log f (X, θ)] de taille d×d est symétrique définie positive
pour tout θ ∈ Θ.

Exemple 3.2.1 Les modèles de Poisson (P(θ), θ > 0), exponentiel (E(λ), λ > 0)
et Gaussien (N (µ, σ 2 ), R×R∗+ ) sont réguliers mais le modèle Uniforme (U[0, θ], θ >
0) ne vérifie pas (H1).

Supposons par la suite que le modèle paramétrique (X , Pθ ) soit régulier. Alors on


peut définir la notion de vecteur score :
Définition 3.2.2 On appelle score pour une expérience aléatoire X ∼ Pθ le vec-
teur aléatoire S(X, θ) définit par
 T
∂ log f (X, θ) ∂ log f (X, θ)
S(X, θ) = ∇θ (log f (X, θ)) = , ..., .
∂θ1 ∂θd
30 CHAPITRE 3. THÉORIE DE L’INFORMATION DE FISHER

Propriété 1
– Le score est un vecteur aléatoire centré

Eθ (S(X, θ)) = 0.

Notons que l’espérance Eθ est prise par rapport à Pθ , où θ à la même valeur


que dans l’expression S(X, θ).
– Le vecteur score est additif : soient X et Y deux variables aléatoires indépen-
dantes associées aux modèles statistiques (X , Pθ ) et (Y, Qθ ). Alors S(X, θ)
et S(Y, θ) sont indépendants

S((X, Y ), θ) = S(X, θ) + S(Y, θ), ∀θ ∈ Θ.

Ici (X, Y ) est associé au modèle statistique (X × Y, Pθ ⊗ Qθ ).

A partir du vecteur score on définit facilement l’information de Fisher :

Définition 3.2.3 L’information de Fisher d’un modèle paramétrique régulier (Pθ , Θ)la
fonction qui à toute valeur du paramètre inconnu θ ∈ Θ ⊆ Rd associe une matrice
de taille d × d I(θ) vérifiant

I(θ) = Eθ S(X, θ)S(X, θ)T


 
  2  h i 
∂ log f (X,θ) ∂ log f (X,θ) ∂ log f (X,θ)
 Eθ ∂θ1
· · · Eθ ∂θ1 ∂θd 
 
=  .
. . . .
. .
 
. .  . 
 h i  2 
 ∂ log f (X,θ) ∂ log f (X,θ) ∂ log f (X,θ) 
Eθ ∂θ1 ∂θd
· · · E θ ∂θd

On a les propriétés suivantes


Propriété 2 Par définition, l’information de Fisher est une matrice symétrique
définie positive en tant que matrice de variance-covariance du vecteur score (car
le vecteur score est centré). Pour tout 1 ≤ i, j ≤ d
 2 
∂ log f (X, θ)
Iij (θ) = −Eθ .
∂θi ∂θj
Donc I(θ) = −E[Hθ (log f (X, θ)] est une matrice symétrique définie positive sous
l’hypothèse (H4).

Exemple 3.2.2 Soit X ∼ N (µ, σ 2 ), alors


 1 
2 σ2
0
I(µ, σ ) = 1 .
0 2σ 4
3.3. LIEN ENTRE L’INFORMATION AU SENS DE FISHER ET LA STATISTIQUE31

En effet,
1 1 1
log f (x, µ, σ 2 ) = − log 2π − log σ 2 − 2 (x − µ)2 ,
2 2 2σ
∂ 2 log f (x, µ, σ 2 )
 2
∂ log f (X, µ, σ 2 )

1 1
2
= − 2 ⇒ −Eθ 2
= 2
∂µ σ ∂µ σ

∂ 2 log f (x, µ, σ 2 )
 2
∂ log f (X, µ, σ 2 )

1 1 2 1
2 2
= 4 − 6 (x − µ) ⇒ −Eθ 2
= 4
(∂σ ) 2σ σ (∂σ2) 2σ

∂ 2 log f (x, µ, σ 2 )
 2
∂ log f (X, µ, σ 2 )

µ−x
= ⇒ Eθ = 0.
∂µ∂σ 2 σ4 ∂µ∂σ 2
Pour l’échantillon (X1 , . . . , Xn ), le vecteur score S((X1 , . . . , Xn ), θ) sera noté
Sn (θ) et l’information de Fisher associée sera notée In (θ). Par indépendance, on a
n
! n
X X
Sn (θ) = ∇θ log f (Xi , θ) = S(Xj , θ).
i=1 j=1

Or les vecteurs scores S(X1 , θ), . . . , S(Xn , θ) sont iid (de même loi que S(X, θ)).
On a donc la relation
Xn
In (θ) = Var θ (Sn (θ)) = Var θ S(Xj , θ) = nI(θ).
j=1

Enfin, remarquons que le TLC appliqué aux S(Xi , θ) donne immédiatement la loi
asymptotique du score. Pour tout θ ∈ Θ on a :
1 L
√ Sn (θ) −→ Nd (0, I(θ)) .
n

3.3 Lien entre l’information au sens de Fisher et la


statistique
Le résultat suivant établit le lien étroit qui existe entre les notions de statis-
tique et d’information au sens de Fisher. Il valide la notion d’information choisie
par Fisher. Soit In (θ) = nI(θ) l’information de Fisher de l’échantillon (X1 , . . . , Xn )
issu du modèle paramétrique régulier (Pθ , Θ).

Considérons Tn une statistique T (X1 , . . . , Xn ). Soit PθTn la loi de la statistique


Tn associé à X1 , . . . , Xn ∼ Pθ et soit ITn (θ) l’information contenue dans le modèle
régulier (PθTn , Θ) (on suppose qu’il vérifie aussi (H1)-(H4)). On rappelle que pour
deux matrices A et B on a A ≤ B ⇔ B − A est une matrice symétrique positive.
32 CHAPITRE 3. THÉORIE DE L’INFORMATION DE FISHER

Théorème 3.3.1 Pour toute statistique Tn on a la relation suivante

ITn (θ) ≤ In (θ)

et
ITn (θ) = In (θ) ⇔ Tn est exhaustive, ITn (θ) = 0 ⇔ Tn est libre.

Exemple 3.3.1 Soit X1 , . . . , Xn ∼ N (µ, σ 2 ) et considérons la statistique


n
1X
Tn = Sn2 = (Xi − X n )2 .
n j=1

On sait que
n
2
Tn ∼ χ2n−1 .
σ
2
Etant donné que χn−1 = γ((n − 1)/2, 1/2), on utilise la stabilité de la loi Gamma
pour obtenir Tn ∼ γ((n − 1)/2, n/(2σ 2 )) de densité

n − 1  n  n−1
 
2 n−3 nt
2
fTn (t, σ ) = Γ 2
t 2 e− 2σ2 1t≥0 .
2 2σ

Calcul de l’information de Fisher ITn (σ 2 ) :


nt n−1 n
log fTn (t, σ 2 ) = − + log + cste(t)
2σ 2 2 σ2
où cste(t) est une constante qui ne dépend pas de σ. D’où la dérivée seconde

∂ 2 log fTn (t, σ 2 ) nt n − 1


2 2
=− 6 +
∂(σ ) σ 2σ 4
d’où
n n−1 n−1 n−1 n−1
ITn (σ 2 ) = 6
E(Tn ) − 4
= 4
− 4
= .
σ 2σ σ 2σ 2σ 4
D’autre part, on sait que l’information de Fisher sur σ 2 contenue dans l’échantillon
X1 , . . . , Xn vaut
n
In (σ 2 ) = nI(σ 2 ) = (par additivité de l’information).
2σ 4
Il s’en suit que pour une taille d’échantillon finie n, la variance empirique Tn = Sn2
n’est pas exhaustive pour σ 2 puisque ITn (σ 2 ) < In (σ 2 ).
Deuxième partie

L’estimation statistique

33
35

Préambule
Soit X un e.a. à valeurs dans (X , B) avec X ⊆ Rq issue du modèle statistique
(Pθ , Θ) avec Θ ⊆ Rd .

Définition 3.3.1 Le paramètre d’intérêt θ détermine complètement la loi Pθ , i.e.


θ est le vecteur composée de tous les paramètres inconnus du statisticien.

La densité de Pθ par rapport à une mesure dominante σ- finie ν (mesure de comp-


tage dans le cas d’une loi discrète, la mesure de Lebesgue dans le cas d’une loi
absolument continue) sera notée f (x, θ).

Dans le cadre de l’estimation ponctuelle, l’objectif du statisticien est de dé-


terminer la vraie valeur du paramètre θ de la loi Pθ dont est issu l’échantillon
(X1 , . . . , Xn ). A partir de l’information fournie par cet échantillon (X1 , . . . , Xn ) le
statisticien utilise des statistiques Tn ∈ Y pour approcher θ, donc Y = Θ et Tn ne
doit pas dépendre de θ inconnu.

Définition 3.3.2 Toute statistique Tn ∈ Y telle que Y = Θ est appelée un estimateur


(ponctuel) du paramètre θ ∈ Θ.

Un estimateur Tn = T (X1 , . . . , Xn ) est donc un e.a. de Θ. Une réalisation T (x1 , . . . , xn )


de Tn sera appelée une estimation de θ et notée θ̂n . Par abus, la notation θ̂n désigne
aussi souvent l’estimateur. Nous étudions dans le prochain chapitre l’approche non
asymptotique pour une certaine famille de modèle. Puis dans un second chapitre
nous traiterons de l’approche asymptotique dans un cadre plus général. Dans un
troisième chapitre nous traiterons d’un autre type d’estimation : l’estimation par
régions de confiance.
36
Chapitre 4

Approche non asymptotique

4.1 Critères de comparaison d’estimateurs


Nous allons donner des critères non asymptotiques de la qualité d’un estima-
teur. Soit Tn et Tn0 deux estimateurs de θ. Ce sont des e.a. de Θ ⊆ Rd pour d ≥ 1.
On munit Rd de la norme k · k associée au produit scalaire usuel.

4.1.1 Le risque quadratique


On doit donc choisir un critère qui permettra au statisticien de comparer dif-
férents estimateurs. Un bon critère est le risque quadratique :

Rn (Tn , θ) = Eθ kTn − θk2 .

On en déduit la définition suivante

Définition 4.1.1 Si, pour tout θ ∈ Θ on a

Rn (Tn , θ) ≤ Rn (Tn0 , θ),

et si il existe un θ0 ∈ Θ tel que

Rn (Tn , θ0 ) < Rn (Tn0 , θ0 ),

alors Tn est un meilleur (préférable) estimateur que Tn0 et Tn0 est un estimateur
inadmissible.
Un estimateur Tn est dit admissible si il n’existe pas d’estimateur meilleur que Tn .

L’erreur quadratique moyenne de Tn se décompose en deux termes, le biais et


variance de l’estimateur Tn .

37
38 CHAPITRE 4. APPROCHE NON ASYMPTOTIQUE

4.1.2 Décomposition biais-variance du risque


Définition 4.1.2 On appelle biais de l’estimateur Tn la quantité bθ (Tn ) = Eθ (Tn )−
θ. Un estimateur Tn de θ est dit sans biais ou non-biaisé si

bθ (Tn ) = 0 soit Eθ (Tn ) = θ.

Exemple 4.1.1 Soit le modèle (Pθ , θ = (µ, σ 2 ) ∈ R × R∗+ ) tel que Eθ (X) = µ et
0
Var θ (X) = σ 2 . Alors Tn = (X n , Sn2 )T est un estimateur sans biais de (µ, σ 2 ).

Remarque 10 La définition du biais nécessite l’intégrabilité de Tn : Eθ kTn k < ∞.

Lorsque de plus Tn est de carré intégrable, i.e. Eθ kTn k2 < ∞, on a la décom-


position biais-variance du risque quadratique :

Eθ [kTn − θk2 ] = Eθ [kTn − θ − bθ (Tn ) + bθ (Tn )k2 ]


= Eθ [kTn − θ − bθ (Tn )k2 ] + kbθ (Tn )k2
= Eθ (Tn − θ − bθ (Tn ))T (Tn − θ − bθ (Tn )) + kbθ (Tn )k2
= Tr(Var θ (Tn − θ)) + kbθ (Tn )k2 = Tr(Var θ (Tn )) + kbθ (Tn )k2 .

où Var (Tn ) est la matrice variance-covariance de Tn . Cette décomposition permet


de se ramener à une discussion sur la variance pour les estimateurs sans biais.

4.1.3 Comparaison des variances des estimateurs sans biais


D’après la décomposition biais-variance, la comparaison d’estimateurs sans
biais revient à la comparaison de leurs variances ; on parle alors d’efficacité. Dans
cette section, on se limite donc au cas où Tn et Tn0 sont deux estimateurs sans biais
de θ.

Définition 4.1.3 L’estimateur Tn est dit plus efficace que Tn0 s’il est meilleur au
sens de la variance :

Var θ (Tn ) ≤ Var θ (Tn0 ), ∀ θ ∈ Θ et ∃θ0 ∈ Θ, Var θ0 (Tn ) < Var θ0 (Tn0 ).

On dit que l’estimateur sans biais Tn est de variance minimale si Var θ (Tn ) ≤
Var θ (Tn0 ) pour tout estimateur sans biais Tn0 et pour tout θ ∈ Θ.

On rappelle que pour deux matrices A et B on a A ≤ B ⇔ B − A est une matrice


symétrique positive et que A > B lorsque A − B est symétrique positive non
nulle. La notation Var θ marque bien la dépendance de la variance du modèle Pθ
et donc du paramètre inconnu θ ∈ Θ. Le critère d’efficacité n’a de sens que pour
discriminer les estimateur sans biais.
4.1. CRITÈRES DE COMPARAISON D’ESTIMATEURS 39

4.1.4 Modèles réguliers et efficacité d’estimateurs


Dans le cadre d’un modèle régulier, c.f. Définition 3.2.1, l’information de Fisher
est bien définie (il n’y a plus de problème d’intégrabilité). De plus, comme toute
matrice symétrique définie positive, elle est inversible. Il est alors possible de donner
un critère absolu pour les estimateurs de variance minimale en fonction de l’inverse
de l’information de Fisher.

Théorème 4.1.1 Soit Tn = T (X1 , ..., Xn ) un estimateur sans biais de θ, θ ∈ Θ


de carré intégrable Eθ kTn k2 < ∞. Alors on a

1 −1
Var θ (Tn ) ≥ In−1 (θ) = I (θ).
n
La quantité In−1 (θ) est appelée la borne de Cramér-Rao.

Démonstration : On note S = S((X1 , . . . Xn ), θ) = ∇θ log f ((X1 , . . . , Xn ), θ) le


vecteur score. On sait que Eθ (S) = 0 et Var θ (S) = In (θ) pour tout θ ∈ Θ. D’autre
part, Tn étant un estimateur sans biais de θ, on a Eθ (Tn ) = θ donc en dérivant
Z
Tn (x1 , . . . , xn )(∇θ f ((x1 , . . . , xn ), θ))T dν(x) = Id .
Xn

Le vecteur score s’écrit f ((x1 , . . . , xn ), θ)S((x1 , . . . , xn ), θ) = ∇θ f ((x1 , . . . , xn ), θ)


et on obtient Eθ (Tn S T ) = Id (= Eθ (STnT )).
En utilisant ce qui précède et le fait que InT = In pour tout θ, on a

Var θ (In−1 S − Tn ) = In−1 Var θ (Sn )In−1 − In−1 Eθ (STnT ) − Eθ (Tn S T )In−1 + Var (Tn )
= Var (Tn ) − In−1 .

Comme Var (Tn ) − In−1 s’exprime aussi comme une matrice de variance-covariance
(positive), le théorème est prouvé. 2

Définition 4.1.4 Un estimateur sans biais Tn dont la matrice de variance-covariance


satisfait l’égalité
Var θ (Tn ) = In−1 (θ)
est appelé un estimateur efficace.

Remarque 11
– Le critère d’efficacité n’a de sens que pour discriminer les estimateur sans
biais.
– Un estimateur efficace est de variance minimale.
40 CHAPITRE 4. APPROCHE NON ASYMPTOTIQUE

– Rien ne garantit l’existence d’un estimateur dont la variance atteint la borne


de Cramér-Rao.
– Un estimateur peut être sans biais, de variance minimale, mais ne pas at-
teindre la borne de Cramer-Rao, donc ne pas être efficace.
– L’efficacité est une notion qui fait le lien entre la théorie de l’information
et l’estimation : plus l’information de Fisher est grande et plus la borne de
Cramer Rao est petite, i.e. plus on a une chance de trouver un estimateur
sans biais de faible variance.

Exemple 4.1.2 Soit le modèle paramétrique régulier (N (µ, σ 2 ), θ = µ ∈ R) .


Alors on calcule
n
In (µ) = 2 .
σ
D’autre part (cf. Chapitre 2)

σ2
Var (X n ) = ,
n
donc la moyenne empirique est un estimateur efficace pour µ.

Remarque 12 La variance de Sn2 est plus petite que la borne de Cramer-Rao :


Var θ (Sn2 ) = 2σ 4 (n − 1)/n2 < 2σ 4 /n = In (σ 2 )−1 . Ce n’est pas en contradiction avec
0
le théorème de Cramer-Rao car Sn2 est biaisé ! L’estimateur Sn2 , non biaisé, n’est
0
lui pas efficace car de variance plus grande Var θ (Sn2 ) = 2σ 4 /(n − 1) > 2σ 4 /n =
0
In (σ 2 )−1 . Pour comparer Sn2 , biaisé et de variance plus petite, et Sn2 non biaisé et
de variance plus grande, il faut comparer leurs risques quadratiques. On trouve
 2 2
2σ 4 (n − 1) σ 2σ 4 σ 4
R(Sn2 , σ 2 ) = Var θ (Sn2 ) 2 2
+ bn (σ ) = + = − 2
n2 n n n
4
2σ 0 0
< = Var θ (Sn2 ) = R(Sn2 , σ 2 ).
n−1
0
Dans le modèle gaussien, Sn2 est donc un meilleur estimateur que Sn2 .

4.2 Modèles de la famille exponentielle


Dans le cadre de l’estimation ponctuelle, l’objectif du statisticien est d’obte-
nir le meilleur estimateur possible du paramètre inconnu θ ∈ Θ. Le critère non
asymptotique de la variance minimale garantit l’optimalité d’un estimateur sans
biais parmi la classe des estimateurs sans biais. Il est possible de construire de tels
estimateurs pour les modèles de la famille exponentielle.
4.2. MODÈLES DE LA FAMILLE EXPONENTIELLE 41

4.2.1 Définitions et premières propriétés


La plupart des lois usuelles font partie de ce qu’on appelle la famille exponen-
tielle.

Définition 4.2.1 Un modèle (Pθ , θ ∈ Θ) est un modèle de la famille exponentielle


s’il existe des fonctions à valeurs réelles θ 7→ αj (θ), θ 7→ c(θ), x 7→ Tj (x) et
x 7→ h(x) telles que la densité de Pθ soit de la forme
r
!
X
f (x, θ) = c(θ)h(x) exp αj (θ)Tj (x) .
j=1

Exemple 4.2.1 Le modèle (N (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R × R∗+ ) est de la famille


exponentielle :

(x − µ)2
 
1
f (x, µ, σ) = √ exp −
2πσ 2σ 2
µ2 x2
   
1 1 µ
= √ exp − 2 exp − 2 + 2 x
2π σ 2σ 2σ σ

µ2
 
1 1
avec c(θ) = exp − 2 , h(x) = √ ,
σ 2σ 2π
µ 1
α1 (θ) = 2 , α2 (θ) = − 2 , T1 (x) = x, et T2 (x) = x2 .
σ 2σ

4.2.2 Notion d’identifiabilité


Dans le cadre de l’estimation statistique, la notion d’identifiabilité du modèle
paramétrique est une condition naturelle, voir remarque ci-dessous. A l’étape de
modélisation du problème, il faut autant que possible la respecter.

Définition 4.2.2 Un modèle paramétrique (Pθ , θ ∈ Θ) est identifiable ssi l’appli-


cation θ 7→ Pθ est injective.

La notion d’identifiabilité dépend de la paramétrisation choisie :

Exemple 4.2.2 Le modèle gaussien (N (0, σ 2 ), θ = σ ∈ R \ {0}) n’est pas iden-


tifiable car à partir de la loi suivie par l’échantillon on ne distingue pas les cas
θ = σ et θ = −σ. Par contre pour la paramétrisation usuelle θ = |σ| > 0 (l’écart
type) il est bien identifiable (c.f. ci dessous pour une méthode effective pour prouver
l’identifiabilité).
42 CHAPITRE 4. APPROCHE NON ASYMPTOTIQUE

Remarque 13 L’hypothèse d’intifiabilité est équivalente à, pour tous θ, θ0 ∈ Θ,

ν(x ∈ X : f (x, θ) = f (x, θ0 )) > 0 =⇒ θ = θ0 .

Supposons que (Pθ , θ ∈ Θ) ne soit pas identifiable. Alors il existe θ 6= θ0 2 para-


mètres distincts tels que Pθ = Pθ0 . Soit l’échantillon X1 , . . . , Xn ∼ Pθ où θ inconnu
est le paramètre à estimer. Comme Pθ = Pθ0 , l’information apportée par l’échan-
tillon ne permet pas de distinguer θ de θ0 .

Pour un modèle paramétrique donné l’identifiabilité n’est pas facile à vérifier. Dans
le cas de la famille exponentielle, il est possible de vérifier facilement qu’un modèle
est identifiable avec le résultat suivant :

Proposition 4.2.1 Si (Pθ , Θ) est un modèle de la famille exponentielle tel que la


famille de fonctions (Tj (x))1≤j≤r (définies sur le support {x ∈ X / f (x, θ) > 0})
soit affinement indépendante et tel que α : θ → (α1 (θ), . . . , αr (θ)) soit injective
alors ce modèle est identifiable.

Remarque 14
– Les famille de fonctions (αj ) et (Tj ) ne sont pas déterminée de manière
unique : on les identifie par rapport à l’expression de la densité. On choisit
ces familles les plus simples possibles de manière à ce que le modèle soit
identifiable.
– La famille de fonctions (f1 , ..., fk ) est dite affinement indépendante ssi

a1 f1 + · · · + ak fk = ak+1 =⇒ a1 = · · · = ak = ak+1 = 0.

– Une famille réduite à une fonction (f ) est affinement indépendante dès que
f n’est pas constante sur leur domaine de définition.
– Une fonction α est injective si elle est continûment différentiable (C 1 ) et que
sa matrice Jacobienne (∂αi /∂θj )1≤i≤r,1≤j≤d est continue et de rang d (r ≥ d)
en tout point θ ∈ Θ. On dit alors que α est C 1 de Jacobienne de plein rang.
– Une fonction à valeur réelle α est injective si elle est continûment dérivable
de dérivée non nulle.

Proposition 4.2.2 Soit X1 , . . . , Xn ∼ Pθ un échantillon issu d’un modèle de la


famille exponentielle régulier vérifiant les hypothèses de la Propostion 4.2.1, alors
n
X n
X 
Tn = T1 (Xi ), . . . , Tr (Xi )
i=1 i=1

est une statistique exhaustive appelée la statistique exhaustive complète. Elle est
unique à un facteur multiplicatif près.
4.2. MODÈLES DE LA FAMILLE EXPONENTIELLE 43

Démonstration : La densité de l’échantillon est de la forme :


n r n
!
Y X X
f ((x1 , . . . , xn ), θ) = c(θ)n h(xi ) exp αj (θ) Tj (xi ) .
i=1 j=1 i=1

D’après le théorème de factorisation, on trouve donc la statistique exhaustive Tn


pour le paramètre θ. Elle est unique à un facteur multiplicatif près car sinon on
est en contradiction avec l’hypothèse d’indépendance affine. 2
Tous les modèles classiques munis de leur paramétrisation classique sont iden-
tifiables :

Exemple 4.2.3
– Dans le modèle gaussien (N (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R × R∗+ ), on est dans la
famille exponentielle avec

µ 1
α1 (θ) = , α2 (θ) = − , T1 (x) = x, et T2 (x) = x2 .
σ2 2σ 2
On vérifie que (T1 , T2 ) est une famille de fonctions affinements indépendantes
(en choisissant par exemple x = 0, 1 et −1). De plus α est C 1 car de Jaco-
bienne
− σµ4
1 
σ 2
J(α(θ)) = ,
0 2σ1 4
matrice de déterminant σ −6 /2 non nulle donc de rang 2 donc de plein rang.
Le modèle (Pθ , Θ) est donc identifiable et la statistique exhaustive complète
vaut
X n n
X 
Tn = Xi , Xi2 .
i=1 i=1

– Dans le modèle gaussien (N (µ, σ 2 ), θ = σ 2 > 0) (µ est connu) on a la densité

1  (x − µ)2 
f (x, θ) = √ exp − .
2πθ 2θ

On reconnaît un modèle de la famille exponentiel avec α1 (θ) = −1/(2θ)


et T1 (x) = (x − µ)2 (valable car µ est connu). Ces 2 fonctions sont non
constantes et α est différentiable injective donc le modèlePest bien identifiable.
La statistique exhaustive complète du modèle est Tn = ni=1 (Xi − µ)2 .
– Soit (B(m, p), 0 < θ = p < 1), on a alors
  p 
x
f (x, θ) = Cm (1 − p)m exp x log .
1−p
44 CHAPITRE 4. APPROCHE NON ASYMPTOTIQUE

On reconnaît un modèle de la famille exponentielle avec c(θ) = (1 − θ)m ,


x
h(x) = Cm , T1 (x) = x et α1 (θ) = log(p/(1 − p)). La fonction T1 n’est pas
constante et la fonction α1 est dérivable de dérivée continue 1/(p(1 − p)) 6= 0
donc de rang 1 donc de plein rang.PLe modèle (Pθ , Θ) est identifiable et sa
statistique exhaustive complète est ni=1 Xi .
– Soit (γ(α, β), θ = (α, β) ∈]0, ∞[2 ), alors pour x > 0, on a :
βα
f (x, θ) = exp (−β x + log(x)(α − 1)) .
Γ(α)
On est bien dans la famille exponentielle où on identifie α(θ) = (−β, α − 1)
et (T1 , T2 )(x) = (x, log(x)). Comme Jθ (α(θ)) = Id2 continue de plein rang
le modèle (Pθ , Θ) est identifiable et sa statistique exhaustive complète est
n
X n
X 
Tn = Xi , log(Xi ) .
i=1 i=1

4.3 Estimation non asymptotique dans la famille


exponentielle
4.3.1 Théorème de Lehmann-Scheffé
Il est possible de déterminer un estimateur sans biais de variance minimale
dans un modèle de la famille exponentielle identifiable. Soit (Pθ , Θ) un modèle de
la famille exponentielle identifiable. Rappelons que
n n
!
X X
Sn = T1 (Xi ), . . . , Tr (Xi )
i=1 i=1

est une statistique exhaustive. Afin de pouvoir parler de variance, nous allons
supposer le modèle régulier :
Proposition 4.3.1 Un modèle de la famille exponentielle vérifiant les hypothèses
de la Proposition 4.2.1 et tel que α est 2 fois continûment différentiable et Eθ (Tj2 (X)) <
∞ pour tout 1 ≤ j ≤ r alors le modèle (Pθ , Θ) est identifiable et régulier.
Le principal résultat de ce chapitre est le suivant
Théorème 4.3.1 (Théorème de Lehmann-Scheffé) Soit un modèle de la fa-
mille exponentielle identifiable et régulier vérifiant les hypothèses de la Proposition
4.3.1. L’ unique estimateur de θ sans biais de variance minimale est l’unique fonc-
tion de la statistique exhaustive complète Tn sans biais.
4.4. EFFICACITÉ ET MODÈLES DE LA FAMILLE EXPONENTIELLE 45

Exemple 4.3.1
– Dans le modèle gaussien (N (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R×R∗+ ) on déduit du Théo-
0
rème de Lehmann-Scheffé que (X n , Sn2 ), fonction de Tn = ( ni=1 Xi , ni=1 Xi2 ),
P P
est l’estimateur sans biais de variance minimale.
– Dans le modèle gaussien (N (µ, σ 2 ), θ = σ 2 > 0) (µ est connu), l’estima-
teur (X − µ)2 n estPl’unique estimateur sans biais de variance minimale car
fonction de Tn = ni=1 (Xi − µ)2 .
– Soit (B(m, p), 0 < θ = p < 1) identifiable avec ni=1 Xi la statistique exhaus-
P
tive complète. Donc X n est l’estimateur de variance minimale.

4.4 Efficacité et modèles de la famille exponentielle


Dans un modèle de la famille exponentiel identifiable et régulier l’information
de Fisher est bien définie ainsi que la borne de Cramer-Rao. Il est donc naturel
de comparer la variance d’un estimateur avec cette borne. Si elle sont égales,
l’estimateur est efficace et c’est aussi l’unique estimateur sans biais de variance
minimale. Si ce n’est pas le cas, l’estimateur peut tout de même être de variance
minimale ; le modèle n’admet alors pas d’estimateur efficace.

Exemple 4.4.1 Dans le cas gaussien (N (µ, σ 2 ), θ = σ 2 > 0) :


0
– Dans le modèle gaussien (N (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R×R∗+ ) identifiable (X n , Sn2 )
est l’estimateur sans biais de variance minimale. Il n’est pas efficace car

0 2σ 2 2σ 2
Var θ (Sn2 ) = > = (In−1 (θ))2,2 .
n−1 n
– Dans le modèle gaussien (N (µ, σ 2 ), θ = σ 2 > 0) (µ est connu) identi-
fiable (X − µ)2 n est l’estimateur de variance minimale. Il est efficace car
Var θ ((X − µ)2 n ) = (µ4 − θ2 )/n = 2θ2 /n.
– Soit (B(m, p), 0 < θ = p < 1) identifiable avec X n l’estimateur de variance
minimale de variance mθ(1 − θ)/n = In−1 (θ) donc efficace.

La notion d’efficacité est souvent trop forte et n’est utile que dans un petit
nombre de modèles. On lui préfère celle de variance minimale dans le cas d’un
modèle de la famille exponentielle ou celle d’efficacité asymptotique dans le cas
d’un modèle régulier, c.f. chapitre suivant.
46 CHAPITRE 4. APPROCHE NON ASYMPTOTIQUE
Chapitre 5

Approche asymptotique

5.1 Critères asymptotiques


Nous allons voir que l’asymptotique simplifie souvent la comparaison de divers
estimateurs. En particulier ce cadre permet de s’affranchir du cadre d’estimateur
sans biais.

5.1.1 Estimateur asymptotiquement sans biais


Définition 5.1.1 Un estimateur Tn de θ est dit asymptotiquement sans biais si

lim bθ (Tn ) = 0 soit lim E(Tn ) = θ.


n→∞ n→∞

De nombreux estimateurs biaisé sont asymptotiquement sans biais. Cette hypo-


thèse est souvent plus réaliste dans des cas pratiques.

Exemple 5.1.1 Supposons que X soit de carré intégrable, i.e. Var (X) = Σ2 < ∞.
La variance empirique
n
1X
Sn2 = (Xj − X n )(Xj − X n )T
n j=1

est un estimateur biaisé de σ 2 qui est asymptotiquement sans biais :


n−1 2
E(Sn2 ) = Σ → Σ2 lorsque n → ∞.
n
Dans le cadre asymptotique, différents modes de convergence de l’e.a. Tn vers θ sont
envisageables. Le biais n’est pas un mode de convergence classique en probabilité,
on lui préfère les convergences en probabilité ou presque sûrement.

47
48 CHAPITRE 5. APPROCHE ASYMPTOTIQUE

5.1.2 Estimateur convergent


Définition 5.1.2 Un estimateur Tn est convergent (ou consistant) s’il converge
en probabilité vers θ

lim Pθ (kTn − θk > ) = 0, ∀  > 0.


n→∞

P
On notera Tn −→ θ (en omettant l’indice θ pour la loi P ).

Cette notion est souvent plus forte que la notion d’asymptotiquement sans biais :
Proposition 5.1.1 Un estimateur Tn asymptotiquement sans biais qui vérifie en
plus Tr(Var θ (Tn )) → 0 est convergent en moyenne quadratique (dans L2 ), i.e. son
risque quadratique R(Tn , θ) tend vers 0.
Réciproquement, un estimateur Tn convergent et tel qu’il existe X intégrable véri-
fiant kTn k ≤ X est asymptotiquement sans biais.
Démonstration : Pour le premier point, d’après la décomposition biais variance,
l’estimateur Tn est donc convergent par comparaison des modes de convergence.
Pour le second point, on utilise le théorème de convergence dominé.
Définition 5.1.3 Un estimateur Tn est fortement convergent (ou consistant) s’il
converge presque sûrement (p.s.) vers θ

Pθ ( lim Tn = θ) = 1.
n→∞

p.s.
On notera Tn −→ θ.
Un estimateur fortement convergent est convergent d’après la comparaison des
différents modes de convergence.

5.1.3 Efficacité asymptotique d’un estimateur


Cette notion n’est valable que pour les estimateurs asymptotiquement sans
biais (donc pour la plupart des estimateurs convergents et, a fortiori, fortement
convergents).
Lorsqu’on compare deux estimateurs convergents dans un cadre asymptotique,
il est naturel de comparer les variances de leurs lois asymptotiques respectives, qui
est en générale la loi normale :
Définition 5.1.4 Un estimateur Tn de θ est asymptotiquement normal si il satis-
fait un TLC : il existe Σ2 (θ) une matrice symétrique positive de dimension d × d
telle que
√ L
n(Tn − θ) −→ Nd (0d , Σ2 (θ)).
5.1. CRITÈRES ASYMPTOTIQUES 49

La matrice de variance-covariance Σ ne dépend pas de n. On l’appelle abusivement


la variance asymptotique de Tn .

Proposition 5.1.2 Un estimateur asymptotiquement normal est nécessairement


fortement convergent.

Démonstration : Soit Tn un estimateur asymptotiquement normal de variance


asymptotique définie positive, i.e. tel que
√ L
nΣ(θ)−1 (Tn − θ) −→ Nd (0d , Id ).

Or, la convergence en loi étant stable par transformation continue, si on applique


la fonction x → kxk2 = xT x continue on obtient, comme Z = kN k2 ∼ χ2d si
N ∼ Nd (0d , Id ) par définition :
L
n(Tn − θ)T Σ2 (θ)−1 (Tn − θ) −→ χ2d .

La convergence en loi implique pour tout  > 0 l’équivalence pour n grand


√ √
P( n(Tn − θ)T Σ2 (θ)−1 (Tn − θ) ≥ ) ≈ P(kN k2 ≥ n).

Mais d’après la densité d’une χ2d on a pour n grand


√ √ √
P(N 2 ≥ n) ≤ ( n)d/2−1 exp(− nd/2)

qui est elle même une série convergente. Par le théorème de convergence dominée,
on trouve donc pour tout  > 0
X √
P( n(Tn − θ)T Σ2 (θ)−1 (Tn − θ) ≥ ) < +∞
n≥0

√ p.s.
et on conclut par Borel-Cantelli que n(Tn − θ)T Σ2 (θ)−1 (Tn − θ) −→ 0. Enfin,
il est facile de voir que pour tout θ on a Nθ (u) = uT Σ2 (θ)−1 u qui est une norme
vectorielle sur Rd . Comme toutes les normes sont équivalentes, la convergence p.s.
vers 0 du vecteur Tn − θ pour cette norme implique sa convergence p.s. vers 0 pour
la norme usuelle, autrement dit Tn est bien fortement convergent.

Définition 5.1.5 Soient Tn et Tn0 2 estimateurs asymptotiquement normaux de


θ. Alors Tn est asymptotiquement plus efficace que Tn0 si, notant Σ et Σ0 leurs
variances asymptotiques respectives, on a

Σ(θ) ≤ Σ0 (θ), ∀ θ ∈ Θ et ∃θ0 ∈ Θ, Σ(θ0 ) < Σ0 (θ0 ).


50 CHAPITRE 5. APPROCHE ASYMPTOTIQUE

Définition 5.1.6 Un estimateur est asymptotiquement efficace lorsqu’il est asymp-


totiquement normal et que sa matrice de variance covariance limite Σ(θ) = I −1 (θ),
i.e. il atteint la borne de Cramer-Rao asymptotique.

Exemple 5.1.2 Dans le modèle paramétrique régulier (N (µ, σ 2 ), θ = (µ, σ 2 ) ∈


R × R∗+ ), la variance empirique Sn2 est un estimateur asymptotiquement efficace
de σ 2 . En effet, l’information de Fisher pour σ 2 , notée In (σ 2 ) vaut In (θ)(2,2) , soit
nI(θ)(2,2) = n/(2σ 4 ). D’autre part, on a vu que dans le cas gaussien Var θ (Sn2 ) =
0 0
2σ 4 (n−1)/n2 . D’où le résultat pour Sn2 . Il en va de même pour Sn2 car Var θ (Sn2 ) =
0
n2 /(n − 1)2 Var θ (Sn2 ). Il n’est pas possible de distinguer Sn2 et Sn2 selon un critère
asymptotique : ils sont tous les 2 aussi bons, à savoir asymptotiquement efficaces.

Remarque 15
– La convergence en loi n’entraîne pas nécessairement la convergence des ma-
trices de variance-covariance donc un estimateur peut être asymptotiquement
efficace sans pour autant avoir

lim nVar θ (Tn )I(θ) = Var θ (Tn )In (θ) = Id .


n→∞

En particulier il existe des estimateurs dont la matrice de variance-covariance


asymptotique est plus petite que la borne de Cramer-Rao asymptotique.
– Un estimateur efficace pour nn0 avec n0 fixé est asymptotiquement efficace.

5.2 Les Z-estimateurs


Les Z-estimateurs sont des généralisations des moments empiriques. On donne
la définition formelle puis on étudie des cas particuliers.

Définition 5.2.1 Soit une fonction

Φ : X × Θ → Rd

intégrable par rapport à Pθ pour tout θ ∈ Θ et telle que

Eθ (Φ(X, θ)) = 0d .

Tout estimateur Tn = T (X1 , . . . , Xn ) qui vérifie


n
1X
Φ(Xi , Tn ) = 0d
n i=1

est appelé un Z-estimateur.


5.2. LES Z-ESTIMATEURS 51

5.2.1 Les moments empiriques


Le paramètre inconnu θ est un moment lorsque θ = Eθ (X r ) dans le cas X =
R. Les moments empiriques d’ordre r sont des Z-estimateurs pour la fonction
Φ(x, θ) = xr − θ.

5.2.2 La méthode des moments


Supposons qu’il existe une fonction g : Θ → Rd inversible et d-moments (non
centrés) mij , 1 ≤ j ≤ d tels que
g(θ) = (mi1 , . . . , mid )T .
L’estimateur obtenu par la méthode des moments (MM) est alors donné par la
formule
Tn = g −1 (Mni1 , . . . , Mnid ).
C’est un Z-estimateur car solution du système
n
1X
Φ(Xi , Tn ) = 0d
n i=1

avec Φ(x, θ) = (xi1 , . . . , xid )T − g(θ).


Exemple 5.2.1 Soit le modèle exponentiel (E(θ), ]0, ∞[). On sait que Eθ (X) =
θ−1 et que Eθ (X 2 ) = 2θ−2 . La méthode des moments fournit donc 2 estimateurs
distincts Tn1 et Tn2 de θ, selon qu’on utilise le moment d’ordre 1 avec g1 (x) = x−1
ou le moment d’ordre 2 avec g2 (x) = 2x−2 . On obtient
1 2
Tn1 = g1−1 (Mn1 ) = et Tn2 = g2−1 (Mn2 ) = p .
Xn X 2n
Ce sont 2 estimateurs biaisés, pour les comparer il faut comparer leurs risques
quadratiques respectifs.
La méthode des moments permet très facilement de construire des estimateurs
pour des lois qui ont des bonnes propriétés de moments. Elle ne peut pas être
utilisée si X ∼ Pθ n’est pas intégrable :
Exemple 5.2.2 Soit le modèle de Cauchy (Pθ , R) tel que
1
f (x, θ) = .
π(1 + (x − θ)2 )
Alors xf (x, θ) ≈ θ(x − θ)−2 au voisinage de θ 6= 0, ou xf (x, θ) ≈ 1/x si θ = 0
n’est pas intégrable sur R. On en déduit que X n’est pas intégrable, mr pour r ≥ 1
n’existent pas et la méthode des moments est inutilisable.
52 CHAPITRE 5. APPROCHE ASYMPTOTIQUE

5.2.3 La méthode des moments généralisés


Tout Z-estimateur qui n’est pas obtenu par la méthode des moments est un
estimateur obtenu par la méthode dite méthode des moments généralisés (MMG).
Reprenons l’exemple du modèle de Cauchy
Exemple 5.2.3 Soit le modèle de Cauchy (Pθ , R) tel que
1
f (x, θ) = .
π(1 + (x − θ)2 )
On remarque que, ou signe(x) = 1 ssi x > 0, signe(x) = −1 sinon, on a
Z Z ∞ Z −θ 
1 du du
Eθ (signe(X)) = signe(x)f (x, θ)dx = −
R π −θ 1 + u2 −∞ 1 + u
2

en posant les changement de variables u = x − θ. Comme la primitive de (1 + u2 )−1


est Arctan(u), on trouve
1 hπ πi
Eθ (signe(X)) = − arctan(−θ) − arctan(−θ) − = 2 arctan(θ)/π.
π 2 2
En posant Φ(x, θ) = signe(x) − 2 arctan(θ)/π on trouve le Z-estimateur de θ :
π X n 
Tn = tan signe(Xi ) .
2n i=1

5.2.4 Extension : les quantiles empiriques


On rappelle la définition d’un quantile :
Définition 5.2.2 Le quantile d’ordre α ∈]0, 1[ de X est noté qα et est donné par
la formule
qα = inf{x ∈ R tel que FX (x) ≥ α}.
Remarque 16 Dans le cas discret X ∈ {xi }i∈I = X alors qα = inf{xi , i ∈
I | F (xi ) ≥ α}. En particulier qα ∈ X .
Soit un modèle paramétrique tel que le paramètre d’intérêt inconnu soit θ = qα .
On a qα qui est le plus petit réel tel que Fθ (qα ) ≥ α qu’on réécrit :
Eθ ( 1X≤θ ) ≥ α.
En posant Φ(x, θ) = 1x≤θ − α, on obtient que θ est l’infimum des points a qui
vérifient
Eθ Φ(X, a) ≥ 0.
Contrairement au cas des Z-estimateurs, l’égalité n’a pas forcément lieu.
5.3. LES M -ESTIMATEURS 53

Exemple 5.2.4 Soit le modèle P = B(p) avec p ∈]0, 1[ inconnu, on s’intéresse à


θ = q0,5 la médiane. Si 1 > p > 1/2 alors par définition θ = 1 et Eθ Φ(X, θ) = 1 6=
0, 5.
Par extension, on estime qα par Tn qui réalise l’infimum des a
n
1X
1X ≤a ≥ α.
n i=1 i

On appelle Tn le quantile empirique :


Définition 5.2.3 Le quantile empirique vaut Tn = X(dnαe) où (X(1) , . . . , X(n) ) est
l’échantillon ordonné et dye est le plus petit entier plus grand que y.
Le quantile empirique est une statistique d’ordre.

Dans le cas où F est absolument continue, le quantile empirique Tn est un


estimateur fortement convergent et asymptotiquement normal :
Théorème 5.2.1 Soient (Pθ , θ = qα ∈ R) un modèle paramétrique tel que Pθ soit
absolument continue, i.e. admette une densité notée fθ par rapport à la mesure
de Lebesgue. Soit α ∈]0, 1[ et soit Tn le quantile empirique d’ordre α, alors il est
asymptotiquement normal

 
L α(1 − α)
n(Tn − θ) −→ N 0, .
fθ2 (θ)

5.3 Les M -estimateurs


On commence par donner la définition formelle des M -estimateurs puis on
étudie des cas particuliers.
Définition 5.3.1 Soit une fonction
Ψ:X ×Θ→R
intégrable par rapport à Pθ pour tout θ ∈ Θ et telle qu’on ait
arg max Eθ (Ψ(X, a)) = θ.
a∈Θ

Tout estimateur Tn = T (X1 , . . . , Xn ) qui vérifie


n n
1X 1X
Ψ(Xi , Tn ) = max Ψ(Xi , a)
n i=1 a∈Θ n
i=1

est un M -estimateur.
54 CHAPITRE 5. APPROCHE ASYMPTOTIQUE

5.3.1 Paramètre de localisation


Soit (Pθ , θ ∈ Θ = R) telle que θ soit le paramètre de localisation : il existe une
fonction de répartition F telle que
– si X ∼ Pθ alors Pθ (X ≤ x) = F (x − θ) pour tout x ∈ X = R et tout θ ∈ R,
– si X ∼ F alors E(X) = 0 et E(X 2 ) < ∞.

Exemple 5.3.1 Dans le cas du modèle Gaussien N (µ, σ 2 ), µ est le paramètre de


localisation quelque soit la valeur de σ 2 .

On a a 7→ Eθ (X − a)2 qui est bien définie et de dérivée première −2Eθ (X) + 2a,
de dérivée seconde
R 2. C’est Rune fonction convexe qui a un unique minimum en
a = Eθ (X) = R xdPθ (x) = R (x + θ)dP (x) = θ. En notant Ψ(x, θ) = −(x − θ)2
on obtient ainsi un M -estimateur Tn de θ vérifiant
n
X n
X
2
(Tn − Xi ) = max (a − Xi )2 .
a∈R
i=1 i=1

Remarque 17 On obtient Tn = X n comme estimateur de Eθ (X) = θ. Attention,


dans le cas du modèle exponentiel E(λ) alors Eλ (X) = 1/λ n’est pas un paramètre
de localisation car il n’existe pas de fonction F telle que Pλ (X ≤ x) = F (x − 1/λ).

5.3.2 Estimateur des moindres carrés


On se place dans le cadre d’un modèle appelé modèle linéaire (simple) où X =
R2 , et on note les couples d’observations (Xi , Yi )1≤i≤n issus du couple (X, Y ) de
carré intégrable et qui satisfait la relation

Y = b1 + b2 X + ε,

avec ε une v.a. centrée de variance σ 2 et indépendant de X. Les couples (Xi , Yi )


sont indépendants entre eux mais les Yi dépendent de Xi ! Le paramètre d’intérêt
(1) (2)
est θ = (b1 , b2 ) ∈ Θ = R2 qu’on estime avec Tn = (Tn , Tn )T obtenu par la
méthode des moindres carrés :
n
X n
X
(Yi − Tn(1) − Tn(2) Xi )2 = min (Yi − a1 − a2 Xi )2 .
(a1 ,a2 )∈R2
i=1 i=1

Tn est un M -estimateur associé à la fonction Ψ((x, y), (b1 , b2 )) = −(y − b1 − b2 x)2


en vérifiant bien que le critère (a1 , a2 ) 7→ Eθ (Y − a1 − a2 X)2 est minimal pour
(a1 , a2 ) = θ = (b1 , b2 ).
5.3. LES M -ESTIMATEURS 55

5.3.3 Maximum de vraisemblance


C’est le plus important des M -estimateurs car il est associé à un choix de
Ψ en accord avec la théorie
Pn de l’information, i.e. qui assure qu’en choisissant le
−1
maximum pour Ψ = n i=1 Ψ(a, Xi ) on garde le maximum d’information (voir
les propriétés du maximum de vraisemblance dans le chapitre suivant).
Définition 5.3.2 On appelle vraisemblance de l’échantillon X1 , . . . , Xn ∼ Pθ en
a ∈ Θ la v.a. à valeurs dans R+ définie par
Ln (a) = f ((X1 , . . . , Xn ), a),
i.e. la densité f ((x1 , . . . , xn ), a) exprimée en les observations Xi ∼ Pθ .
Les variables Xj , j = 1, . . . , n étant iid, on a
n
Y
f (X1 , . . . , Xn , a) = f (Xj , a).
j=1

Définition 5.3.3 Soit Ln (a) la vraisemblance au point a ∈ Θ. On appelle esti-


mateur du maximum de vraisemblance (EMV) la statistique Tn = T (X1 , . . . , Xn )
telle que
Ln (Tn ) = max Ln (a).
a∈Θ

Sous cette forme générale, l’EMV n’est pas un M -estimateur dans le sens où le
critère à maximiser s’écrit sous forme d’un produit et non d’une somme. On déduit
des propriétés de l’EMV de sa définition :
Propriété 3
1. L’EMV n’existe pas toujours.
2. Il n’y aucune raison pour que l’EMV soit sans biais.
3. L’EMV n’a aucune raison d’être unique.
Exemple 5.3.2 Soit (U[0, θ], θ > 0) alors
n
Y 1 1 1
Ln (θ) = 1 [0,θ] (Xj ) = 1 0≤X(1) ≤X(n) ≤θ = 1[ sup1≤j≤n Xj ,∞[ (θ)
j=1
θ θn θn

et donc on trouve l’EMV Tn = sup1≤j≤n Xj directement car 10≤inf 1≤j≤n Xj = 1 p.s..


On peut montrer que Tn /θ ∼ Beta(n, 1), i.e. la loi de la variable aléatoire Tn admet
pour densité
ny n−1
f (y, θ) = 10≤y≤θ .
θ
Il s’en suit que Eθ (Tn /θ) = n/(n + 1) et bθ (Tn ) = E(Tn ) − θ = −θ/(n + 1) 6= 0
donc l’EMV est ici biaisé.
56 CHAPITRE 5. APPROCHE ASYMPTOTIQUE

Exemple 5.3.3 Soient (U[θ, θ + 1], θ > 0) alors tout estimateur Tn compris entre
sup1≤i≤n Xi − 1 et inf 1≤i≤n Xi est un EMV de θ .

Proposition 5.3.1 Si le modèle (Pθ , Θ) vérifie l’hypothèse (H1) alors l’EMV est
un M -estimateur avec Ψ(x, a) = log f (x, a).

Démonstration : L’hypothèse (H1) étant satisfaite, le support S = {x ∈ X / f (x, θ) >


0} ne dépend pas de θ. Par définition du support, les observations Xi ∈ S car
Xi ∼ Pθ et donc f (X Qi , a) > 0 pour tout 1 ≤ i ≤ n. Pour tout a ∈ Θ la vrai-
semblance Ln (a) = ni=1 f (Xi , a) est donc strictement positive. On peut donc
passer au logarithme, le logarithme étant croissante, l’EMV est aussi le maximum
de Ψ(x, θ). Reste à vérifier que Eθ (Ψ(x, a)) réalise un maximum global en θ. Soit
a ∈ Θ, par définition
Z
Eθ (Ψ(x, a)) = Eθ (log f (X, a)) = log f (x, a)f (x, θ)dν(x),
X

d’où Z  
f (x, θ)
Eθ (Ψ(X, θ)) − Eθ (Ψ(X, a)) = log f (x, θ)dν(x).
X f (x, a)
La fonction x 7→ − log(x) étant convexe, on utilise l’inégalité de Jensen et on
trouve
Z 
f (x, a)
Eθ (Ψ(X, θ)) − Eθ (Ψ(X, a)) ≥ − log f (x, θ)dν(x) = − log(1) = 0
X f (x, θ)

donc θ est un maximum global. 2

L’EMV est un M -estimateur qui maximise la fonction qui à a associe


1X
log f (Xi , a).
n i=1

Définition 5.3.4 On appelle fonction de log-vraisemblance la fonction ln qui à


a ∈ Θ associe
1X
ln (a) = − log f (Xi , a).
n i=1

L’EMV est le minimisateur de la fonction de log-vraisemblance, issue du critère


a 7→ −Eθ (log f (X, a)). Par définition, si le modèle est régulier, l’espérance de la
matrice Hessienne de la fonction de log-vraisemblance au point θ est l’information
de Fisher :
Eθ [Hθ (ln (θ))] = I(θ) > 0.
5.4. COMPARAISON DES Z ET M -ESTIMATEURS 57

5.4 Comparaison des Z et M -estimateurs


Sous des hypothèse de dérivabilité de la fonction Ψ, on remarque que tout M -
estimateur est un Z-estimateur associé à la fonction Φ(x, θ) = ∇θ Ψ(x, θ). Nous
nous bornons donc à l’étude asymptotique des Z-estimateurs.

Les propriétés asymptotiques des Z-estimateurs (convergence, normalité asymp-


totique) sont donnés sous des les hypothèses loi limite des Z-estimateurs. On ap-
pelle Φ : X × Θ → Rd une fonction vérifiant
Eθ (Φ(X, θ)) = 0d pour tout θ ∈ Θ.
(i) Pour tout θ ∈ Θ, on a Eθ supa∈Θ kΦ(a, X)k < ∞,
(ii) Pour tout  > 0, inf ka−θk> kEθ (Φ(X, a))k > 0
(iii) Pour tout a ∈ Θ il existe un ouvert Va ⊆ Θ contenant a et une fonction
borélienne g(x) tels que, pour tout a ∈ Va
kJa Φ(x, a)k ≤ g(x), kda (Ja Φ(x, a))k ≤ g(x) et Eθ (g(X)) < ∞,
où da (Ja Φ(x, a)) est la différentielle de la matrice Jacobienne de a 7→ Φ(x, a) ∈
Rd .
(iv) Pour tout θ ∈ Θ, on a Eθ (kΦ(X, θ)k2 ) < ∞.

Théorème 5.4.1Pn Sous les conditions de loi limite des Z-estimateurs, le Z-estimateur
Tn solution de i=1 Φ(Xi , Tn ) = 0d est asymptotiquement normal
√ L
n(Tn − θ) −→ Nd (0d , VΦ (θ))
avec
T
VΦ (θ) = (Eθ [Jθ Φ(X, θ)])−1 Var θ [Φ(X, θ)](Eθ [Jθ Φ(X, θ)])−1 .

Remarque 18
1. Si la fonction θ 7→ ∇θ Ψ(x, θ) vérifie les conditions de loi limite des Z-
estimateurs, alors le M -estimateur correspondant est asymptotiquement nor-
mal √ L
n(Tn − θ) −→ Nd (0d , VΨ (θ))
avec
T
VΨ (θ) = (Eθ [Hθ Ψ(X, θ)])−1 Var θ [∇θ Ψ(X, θ)](Eθ [Hθ Ψ(X, θ)])−1 .

2. Par abus de notation, on note parfois Tn = θ̂nM M l’estimateur et l’estimation


obtenus par la MM, Tn = θ̂nGM M l’estimateur et l’estimation obtenus par la
MM généralisés et Tn = θ̂nM V l’estimateur et l’estimation obtenus par le MV.
58 CHAPITRE 5. APPROCHE ASYMPTOTIQUE

Dans de nombreux exemples, il est préférable d’utiliser les résultats connus sur
les statistiques empiriques (c.f. chapitre 2) qui interviennent dans les Z-estimateurs
de type moments ou moments généralisés :

Exemple 5.4.1 Soit le modèle Gamma (γ(p, λ), θ = (p, λ) ∈]0, ∞[2 ). On sait que
p p(p + 1)
Eθ (X) = m1 = et Eθ (X 2 ) = m2 =
λ λ2
et donc Φ(x, θ) = (x − p/λ, x2 − p(p + 1)/λ2 )T . On résout le système et on trouve
p = m21 /(m2 − m21 ) et λ = m1 /(m2 − m21 ) d’où

(X n )2 X n
 
Tn = , 2 .
Sn2 Sn
On utilise directement les résultats sur la moyenne et la variance empirique plutôt
que de vérifier les conditions de loi limite des Z-estimateurs. On sait que

      2 
Xn µ L σ µ3
n − −→ N2 02 , .
Sn2 σ2 µ3 µ4 − σ 4

Reste à calculer µ3 et µ4 dans le cas Gamma. On a facilement les moments (non


centrés) m3 = E(X 3 ) = p(p + 1)(p + 2)/λ3 et m4 = p(p + 1)(p + 2)(p + 3)/λ4 .
En développant le polynôme d’ordre 3 ou 4 dans l’expression de µ3 et µ4 et après
simplification, on obtient
2p 3p2 + 6p
µ3 = et µ4 =
λ3 λ4
et l’expression de la variance limite
 
2 p/λ2 2p/λ3
Σ = .
2p/λ3 (2p2 + 6p)/λ4

En appliquant la δ-méthode à la fonction g telle que (x, y) 7→ (x2 /y, x/y) differen-
tiable sur R × R∗+ de Jacobienne
 
2x/y −x2 /y 2
Jg(x, y) = .
1/y −x/y 2
D’où

Jg(p/λ, p/λ2 )Σ2 Jg(p/λ, p/λ2 )T =


   
2λ −λ2 p/λ2 2p/λ3 2λ λ2 /p
λ2 /p −λ3 /p 2p/λ3 (2p2 + 6p)/λ4 −λ2 −λ3 /p
5.4. COMPARAISON DES Z ET M -ESTIMATEURS 59

et on obtient finalement


  
L 2p(p + 1) 2λ(p + 1)
n(Tn − θ) −→ N2 02 , λ2 .
2λ(p + 1) p
(3 + 2p)

Sous les conditions de loi limite, tout Z-estimateur, et donc tout M -estimateur,
est asymptotiquement normale. Comparer 2 tels estimateurs (si ils existent) revient
donc à comparer leurs variances asymptotiques.

Théorème 5.4.2 Sous les conditions de loi limite des Z-estimateurs, tout Z-
estimateur Tn solution de
n
1X
Φ(Xi , Tn ) = 0d
n i=1

est moins efficace asymptotiquement que l’EMV (si il existe).

Démonstration : D’après le théorème de convergence des Z-estimateurs, on sait


que Tn est asymptotiquement normal de variance asymptotique
T
VΦ (θ) = (Eθ [Jθ Φ(X, θ)])−1 Var θ [Φ(X, θ)](Eθ [Jθ Φ(X, θ)])−1 .

Or, dans le cas de l’EMV Φ = ∇θ log f (X, θ) est le vecteur score. En utilisant les
propriétés de celui-ci (cf. Chapitre 3) on obtient facilement

VΨ (θ) = −(Eθ [Hθ log f (X, θ)])−1 = I(θ)−1 .

L’EMV est donc asymptotiquement efficace. il suffit de prouver que VΦ (θ) ≥ I −1 (θ)
pour tout θ ∈ Θ. Par définition d’un Z-estimateur, on a θ 7→ Eθ (Φ(X, θ)) = 0d
comme fonction définie sur Θ. En dérivant terme à terme, on obtient
Z Z
0= Jθ (Φ(x, θ))f (x, θ)dν(x) + Φ(x, θ)Jθ f (x, θ)dν(x)
X Z X Z
= Jθ (Φ(x, θ))f (x, θ))dν(x) + Φ(x, θ)[∇θ log(f (x, θ))]T f (x, θ)dν(x)
X X

autrement dit, en faisant apparaître le vecteur score S(X, θ)

Eθ [Jθ Φ(X, θ)] = −Eθ [Φ(X, θ)S(X, θ)T ].

Pour simplifier les notations, on note par des majuscules les différents e.a. J =
Jθ Φ(X, θ), Φ = Φ(X, θ) et S = S(X, θ) et on a obtenu Eθ (J) = −Eθ (ΦS T ). Par
60 CHAPITRE 5. APPROCHE ASYMPTOTIQUE

passage au complémentaire, on a aussi Eθ (J T ) = −Eθ (ΦT S). On rappelle qu’avec


ces notations, VΦ (θ) = Eθ (J)−1 Var θ (Φ)(Eθ (J)−1 )T = Var θ (Eθ (J)−1 Φ). D’où

Var θ (I −1 (θ)S + Eθ (J)−1 Φ) = I −1 (θ)Var θ (S)I −1 (θ)


+ I −1 (θ)Eθ (SΦT )(Eθ (J)−1 )T + Eθ (J)−1 Eθ (ΦS T )I −1 (θ) + VΦ (θ).

Par définition, I −1 (θ)Var θ (S)I −1 (θ) = I −1 (θ) et d’après l’identité obtenue précé-
demment

I −1 (θ)Eθ (SΦT )(Eθ (J)−1 )T = Eθ (J)−1 Eθ (ΦS T )I −1 (θ) = −I −1 (θ)

d’où Var θ (I −1 (θ)S + Eθ (J)−1 Φ) = VΦ (θ) − I −1 (θ) ≥ 0 comme toute matrice de


variance-covariance. 2

Remarque 19 La borne de Cramer-Rao asymptotique est la variance asympto-


tique minimale pour l’ensemble des Z- et M - estimateurs sous les conditions de loi
limites. Il existe toutefois des estimateurs dont la variance asymptotique est plus
petite que la borne de Cramer-Rao asymptotique. Ce ne sont pas des Z- ni des M -
estimateurs.
Chapitre 6

La racine de l’équation de
vraisemblance

Dans le chapitre précédent, on a vu que, lorsqu’il existe, l’EMV est l’estima-


teur le plus efficace asymptotiquement parmi les M - et Z- estimateurs sous des
conditions de loi limite sur la fonction de log-vraisemblance ln . Pour étudier l’exis-
tence de l’EMV dans un modèle régulier, il est plus simple d’étudier l’existence
de l’estimateur de la racine de l’équation de vraisemblance, appelée REV et noté
θ̂nRV ou plus simplement θ̂n (c.f. définition ci-dessous).

6.1 Conditions du premier et second ordre


Soit (Pθ , Θ) un modèle régulier. La fonction de log-vraisemblance ln est bien
définie par
n
1X
ln (θ) = − log f (Xi , θ).
n i=1

De plus, étant donné les conditions (H2) de dérivabilité satisfaites, l’EMV θ̂nM V ∈ Θ
avec Θ ouvert est un Z-estimateur pour la fonction θ 7→ ∇θ ln (θ) :
n
1X
∇θ ln (θ̂nM V ) = − ∇θ log f (Xi , θ̂nM V ) = 0 (6.1)
n i=1

Cette équation est appelée la condition du premier ordre ou condition nécéssaire


ou équation de vraisemblance (EV).

L’EMV est aussi par définition un minimiseur local de la fonction de log-


vraisemblance ln . D’où la condition du second ordre qui est une condition suffi-

61
62 CHAPITRE 6. LA RACINE DE L’ÉQUATION DE VRAISEMBLANCE

sante : n
1X
Hθ (ln (θ̂nM V )) =− Hθ log f (Xi , θ̂nM V ) > 0 (6.2)
n i=1
c’est à dire la matrice Hessienne de la fonction de log-vaisemblance est définie po-
sitive.

Définition 6.1.1 L’estimateur de la racine de l’équation de vraisemblance ou REV,


noté θ̂n , est, si elle existe, une solution de l’EV.

Remarque 20
1. Si l’EMV existe, alors il coïncide avec une REV. L’existence de l’EMV et
celle de la REV sont donc liée, la seconde étant plus facile à étudier car ayant
lieu sous des conditions plus générales.
2. Si la REV existe et vérifie la condition du second ordre, alors il est un mi-
nimiseur local de la fonction de log-vraisemblance, i.e. un maximiseur local
de la vraisemblance. Mais ce n’est pas forcément l’EMV (voir discussion ci-
après).
3. L’hypothèse d’intégrabilité (H3) et la LFGN nous assure que
n
1X p.s.
− ∇θ log f (Xj , θ) −→ −Eθ [∇θ log f (X, θ)] = −Eθ [S(X, θ)] = 0,
n j=1
n
1X p.s.
− Hθ log f (Xj , θ) −→ −Eθ [Hθ log f (X, θ)] = I(θ).
n j=1

donc sous (H4) et pour n suffisamment grand, les conditions du premier et


du second ordre ont des chances d’être réalisées dans un voisinage de la vraie
valeur inconnue θ qui régit la loi Pθ dont est issu l’échantillon (X1 , . . . , Xn ).

Le théorème suivant donne des conditions suffisantes pour que REV et EMV coïn-
cident :
Théorème 6.1.1 Si Θ est un intervalle ouvert de la forme ]θ, θ[ pour θ, θ ∈ (R ∪
{±∞})d alors une unique REV qui vérifie la condition du second ordre coïncide
avec l’unique EMV.
Démonstration : Comme la REV θ̂n vérifie la condition du second ordre, elle réa-
lise un minimum local de ln . Montrons que si Θ est un intervalle alors c’est un
maximum global. La fonction θ 7→ ∇θ ln (θ) s’annule en un unique point θ̂n de Θ.
C’est une fonction continue donc elle est de signe constant de par et d’autre de θ̂n
6.2. PROPRIÉTÉS NON ASYMPTOTIQUES DE LA REV 63

sur l’intervalle Θ. Autrement dit θ̂n est un extremum global de ln . Mais c’est aussi
un minimum local, donc c’est un minimal global et donc un EMV. Enfin, si il y
avait un autre EMV, ce serait aussi une REV distinct ce qui est en contradiction
avec l’énoncé donc l’EMV est unique. 2

6.2 Propriétés non asymptotiques de la REV


6.2.1 Exhaustivité et reparamétrisation
On s’intéresse ici aux propriétés non asymptotiques de l’EMV. Dans un modèle
paramétrique (Pθ , Θ) pas forcément régulier on suppose que l’EMV θ̂nM V de θ existe
et est unique : c’est l’unique maximiseur global de la vraisemblance Ln .

Théorème 6.2.1 Si Tn est une statistique exhaustive pour θ alors l’EMV θ̂nM V est
une fonction de Tn .

Démonstration : D’après le critère de factorisation, on peut trouver deux fonctions


positives h et g telles que

Ln (θ) = f ((X1 , . . . , Xn ), θ) = h(X1 , . . . , Xn )g(Tn , θ).

L’EMV θ̂nM V satisfait par définition Ln (θ̂nM V ) ≥ Ln (θ) soit g(Tn , θ̂nM V ) ≥ g(Tn , θ)
pour tout θ ∈ Θ. Comme tout estimateur, θ̂nM V ne doit pas dépendre de θ et que
le critère à maximiser ne dépend que de Tn et θ, θ̂nM V est forcément fonction de
Tn . 2

Remarque 21 l’EMV lui-même n’est pas forcément une statistique exhaustif.

On prouve aussi que l’EMV est invariant par reparamétrisation.

Théorème 6.2.2 (Théorème de Zehna) Pour n’importe quelle application ϕ de Θ


dans Θ, si θ̂nM V est unique alors l’estimateur ϕ(θ̂nM V ) est un EMV de ϕ(θ).

Démonstration : On définit pour tout η ∈ ϕ(Θ) la fonction de vraisemblance de


η:

L∗n (η) = sup Ln (θ).


θ:ϕ(θ)=η

On a supposé que l’EMV était le maximiseur global de Ln d’où

sup L∗n (η) = sup Ln (θ) = Ln (θ̂nM V ).


η∈ϕ(Θ) θ∈Θ
64 CHAPITRE 6. LA RACINE DE L’ÉQUATION DE VRAISEMBLANCE

Or,
Ln (θ̂nM V ) = sup Ln (θ) = L∗n (ϕ(θ̂nM V )).
MV )
θ∈Θ / ϕ(θ)=ϕ(θ̂n

Il vient que supη∈ϕ(Θ) L∗n (η) = L∗n (ϕ(θ̂n )) et donc ϕ(θ̂n ) (qui est clairement dans
ϕ(Θ)) est bien un maximiseur de L∗n (pas nécéssairement unique). C’est donc un
EMV de ϕ(θ). 2

6.2.2 Cas d’un modèle de la famille exponentielle


Considérons un modèle de la famille exponentielle identifiable (Pθ , Θ) :
r
! r
!
X X
f (x, θ) = c(θ)h(x) exp αj (θ)Tj (x) = h(x) exp αj (θ)Tj (x) + log(c(θ)) .
j=1 j=1

Si α ∈ C 2 et Eθ (Tj (X)2 ) < ∞ pour tout 1 ≤ j ≤ r alors le modèle est régulier


et on vérifie automatiquement que la fonction θ 7→ log c(θ) ∈ C 2 . On peut donc
calculer la REV θ̂n de θ, solution de la condition du premier ordre :

Théorème 6.2.3 Soit (Pθ , Θ) un modèle de la famille exponentielle identifiable


et tel que Eθ (Tj (X)2 ) < ∞ pour tout 1 ≤ j ≤ r. Alors si la REV θ̂n de θ existe
et qu’elle est sans biais alors elle coïncide aussi avec l’estimateur de variance
minimale.

Démonstration : On écrit l’EV dans le cas de la famille exponentielle :


n n X r
!
Y X
Ln (θ) = h(Xi ) exp αj (θ)Tj (Xi ) + n log c(θ)
i=1 i=1 j=1
n r
1 XX
ln (θ) = cste − αj (θ)Tj (Xi ) − log c(θ)
n i=1 j=1
n n
∂ log c(Wn ) 1 X ∂αj (θ) X
∇θ ln (Wn ) = 0 ⇔ =− Tj (Xi ) 1 ≤ k ≤ r.
∂θk n j=1 ∂θk i=1

Cette équation ne dépend que de la statistique exhaustive complète


n n
!
X X
Sn = T1 (Xi ), . . . , Tr (Xi )
i=1 i=1

donc si la REV existe elle s’exprime en fonction de Sn et la dernière propriété


découle du théorème de Lehman-Scheffé. 2
6.3. PROPRIÉTÉS ASYMPTOTIQUES DE LA REV 65

Exemple 6.2.1
– Soit (N (µ, σ 2 ), θ = µ ∈ R) alors l’EV fournit une unique REV θ̂n = X n qui
est aussi l’unique EMV car Θ est un intervalle et ln00 (θ̂n ) = 1/(2σ 2 ) > 0. De
plus, il est sans biais, c’est donc aussi l’estimateur sans biais de variance
minimale (unique d’après le théorème de Lehman-Scheffé).
– Soit (N (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R × R∗+ ) alors l’EV correspond au système

µ̂ − X n
=0



 2σ̂ 2
2
 
 1 1 (X n − µ̂)
− =0


2 σ̂ 2 σ̂ 4

d’où l’unique REV θ̂n = (µ̂, σ̂ 2 ) = (X n , Sn2 ) qui est aussi l’unique EMV car
Θ est un intervalle ouvert et la condition du second ordre est satisfaite :
 1 
2σ̂ 2 0
Hθ (ln (θ̂n )) = > 0.
0 2σ̂1 4

Par contre, Sn2 étant biaisé, θ̂n est biaisé et ne coïncide pas avec l’estimateur
0
sans biais de variance minimale (X n , Sn2 ).

6.3 Propriétés asymptotiques de la REV


Soit (Pθ , Θ) un modèle régulier qui n’appartient pas forcément à la famille
exponentielle. Dans ce contexte, il faut faire appel à l’asymptotique pour étudier
l’existence de la REV θ̂n et en déduire celle de l’EMV.

Théorème 6.3.1 Soit (Pθ , Θ) un modèle régulier identifiable, i.e. la fonction


θ 7→ Pθ est injective, alors à partir d’un certain rang il existe une suite de REV
θ̂n qui est asymptotiquement efficace :
√ L
n(θ̂n − θ) −→ Nd (0d , I −1 (θ)).

Démonstration : La preuve se décompose en 2 parties. Dans la première partie, on


va montrer qu’à partir d’un certain rang il existe une suite de REV convergeant
vers θ. On montrera que celle-ci est alors nécessairement asymptotiquement effi-
cace dans un deuxième temps.

On note ψn (a) = log(Ln (a)/Ln (θ)) telle que

∇θ ln (θ) = 0 ⇔ ∇θ ψn (θ) = 0.
66 CHAPITRE 6. LA RACINE DE L’ÉQUATION DE VRAISEMBLANCE

D’après la loi forte des grands nombres


n    
ψn (a) 1X f (Xi , a) p.s. f (X, a)
= log −→ Eθ log = −K(θ, a),
n n j=1 f (Xi , θ) f (X, θ)

ou −K(θ, a) ≤ 0 d’après l’inégalité de Jensen appliquée à la fonction convexe x 7→


− log(x). De plus, on montre que K(θ, a)= 0 si et seulement si f (X, a) = f (X, θ)
avec probabilité 1, soit, en utilisant l’identifiabilité du modèle, θ = a. Donc pour
tout ε > 0 suffisamment petit pour que [θ − ε; θ + ε]d ⊆ Θ, il existe Nε tel qu’on
ait :

Pθ (∀ n > Nε , ψn (θ ± ε) < 0) = 1.

La fonction ψn (a) étant continue, elle atteint son maximum sur [θ − ε, θ + ε]d
compact. Soit θ̂n le point le plus proche de θ pour lequel ce maximum est atteint.
Par définition ψ(θ̂n ) ≥ ψn (θ) = 0 donc θ̂n ne peut être égal ni à θ − ε ni à θ + ε
puisque ψn (θ ± ε) < 0. Le maximum est réalisé en θ̂n à l’intérieur de l’intervalle et
θ̂n vérifie la condition du premier ordre sur ψn et donc aussi celle sur la fonction
de log-vraisemblance : c’est bien une REV. On a donc ∀ε > 0 suffisamment petit,
∃Nε ∈ N tel que
 
Pθ ∀ n > Nε , ∃ une REV θ̂n et kθ̂n − θk <  = 1.

En particulier, dès que [θ0 − ε; θ0 + ε]d ⊆ Θ (toujours possible car Θ est ouvert)
on a  
Pθ ∀ n > Nε , ∃ une REV θ̂n = 1,

donc à partir du rang Nε il existe une suite de REV θ̂n . Remarquons que par
construction cette suite de REV, étant choisi comme étant la plus proche de θ,
ne dépend pas de ε (seul le rang Nε dépend de ε). Donc pour tout  > 0 on a en
particulier  
lim Pθ kθ̂n − θk <  = 1
n→∞

(la suite est même égale à 1 à partir du rang Nε ). Donc à partir d’un certain rang
il existe bien une suite de REV θ̂n qui converge vers θ.

Montrons que cette suite de REV θ̂n convergente est aussi asymptotiquement
efficace pour θ. On définit pour tout a ∈ Θ la fonction
Pn n
j=1 S(Xj , a) 1X
ϕn (a) = = ∇θ (log f )(Xj , a).
n n j=1
6.3. PROPRIÉTÉS ASYMPTOTIQUES DE LA REV 67

Soit 1 ≤ j ≤ d un indice quelconque. D’après le développement de Taylor à l’ordre


1 de la fonction ϕn au point θ, il existe θn = (θn,i )01≤i≤d vérifiant

0 = ϕn,j (θ̂n ) = ϕn,j (θ) + ∇(ϕn,j )(θn )T (θ̂n − θ) et θn,i ∈ [min(θi , θ̂n,i ), max(θi , θ̂n,i )],

soit T
Ij (θ) − Ij (θ) − ∇ϕn,j (θn ) (θ̂n − θ) = ϕn,j (θ)
où Ij est le j-ème vecteur colonne de I. On sait que l’ensemble C(K) des fonctions
continues définies sur le compact K = {a ∈ Θ; ka − θk ≤ ε} et muni de la norme
uniforme k·kK est un espace de Banach. Sous (H3), on vérifie pour tout1 ≤ i, j ≤ d
que
Eθ k∂ 2 log f (x, a)/∂θi θj kK < ∞.
Si ∇i est la dérivée par rapport à la i-ème coordonnée θi et Ii,j et le coefficient i, j
de l’information de Fisher, en appliquant la LFGN on obtient
 
Pθ lim k∇i ϕn,j (a) + Ii,j (a)kK = 0 = 1.
n→∞

Mais la convergence uniforme sur K et la continuité de a → ∇i ϕn,j (a) entraîne la


continuité de a → Ii,j (a) sur K.
P
Par hypothèse, on sait que θn −→ θ. En particulier, k∇i ϕn,j (θn ) + Ii,j (θ)k ≤
P
k∇i ϕn,j (θn ) + Ii,j (θ̂n )k + εn avec εn −→ 0 donc

k∇i ϕn,j (θn ) + Ii,j (θ)k ≤ k∇i ϕn,j (θn ) − Ii,j (θn )k + εn
P
≤ k∇i ϕn,j (a) − Ii,j (a)kK + εn −→ 0.

Il s’en suit que pour tout 1 ≤ j ≤ d on a

(Ij (θ) + oP (1))T (θ̂n − θ) = ϕn,j (θ0 )

où oP (1) est un terme aléatoire qui tend vers 0 en probabilité.


√ En écrivant la forme
vectorielle de ce système d’équation et en multipliant par n, on trouve
√ √
n(I(θ) + oP (1))(θ̂n − θ) = nϕn (θ)
√ L
On conclut par le TCL appliqué aux vecteurs scores qui donne nϕn (θ0 ) −→
N (0, I(θ0 )), le théorème de Slutsky et la δ-méthode sous (H4). 2

Remarque 22 On vient de construire une suite de REV asymptotiquement effi-


cace comme étant le maximum local le plus proche de θ. La construction théorique
de cette suite fait donc appel à la connaissance de θ inconnu ! En pratique on ne
peut donc pas utiliser cette suite de REV, d’où le corollaire suivant.
68 CHAPITRE 6. LA RACINE DE L’ÉQUATION DE VRAISEMBLANCE

Corollaire 6.3.1 Soit (Pθ , Θ) un modèle régulier identifiable. Si, à partir d’un
certain rang, il existe une unique REV θ̂n alors elle est asymptotiquement efficace.

Démonstration : Dans la preuve du théorème 6.3.1 on construit une suite de REV


qui est asymptotiquement efficace. Comme la REV θ̂n est supposée unique, elle
coïncide nécessairement avec celle construite précédemment et est donc asympto-
tiquement efficace. 2

Exemple 6.3.1 Soit le modèle régulier (E(θ), θ > 0) de vraisemblance


Pn
Ln (θ) = θn e−θ j=1 Xj

et de fonction de log-vraisemblance
n
1 X
ln (θ) = θ Xj − log θ.
n j=1

On trouve une unique REV θ̂n = (X n )−1 . Soit on vérifie que le modèle régulier
et identifiable, et d’après le corollaire 6.3.1 cette suite coïncide avec l’EMV car
Θ =]0, +∞[ et la condition du second ordre est satisfaite et comme I(θ) = θ−2 on
obtient l’efficacité asymptotique de l’EMV
√ L
n(θ̂n − θ) −→ N (0, θ2 ).

Soit on utilise le TLC et la δ-méthode pour obtenir la normalité asymptotique


√ L
n(θ̂n − θ) −→ N (0, θ2 )

et on remarque que la variance asymptotique atteint la borne de Cramer-Rao


asymptotique.

6.4 Conclusion sur l’estimation ponctuelle


En pratique, supposons que la modélisation de l’expérience renouvelable fournit
un modèle régulier identifiable (Pθ , Θ) tel que θ 7→ Pθ soit connu et tel que l’échan-
tillon observé (X1 , . . . , Xn ) soit issu de la loi Pθ où θ est le paramètre d’intérêt
inconnu. On écrit alors l’équation de la vraisemblance.
1. Si on obtient l’expression d’une racine de ce système, alors on vérifie que
cette racine coïncide bien avec le maximum de la vraisemblance et on calcule
le biais et la variance de cet estimateur.
6.4. CONCLUSION SUR L’ESTIMATION PONCTUELLE 69

(a) Si l’EMV est biaisé, on le corrige pour obtenir un estimateur sans biais
puis calculer la variance de cet estimateur sans biais. Si l’estimateur
corrigé à une variance plus petite que la somme du biais au carré et de
la variance de l’EMV, on le préfère à l’EMV.
i. Si on est dans un modèle de la famille exponentielle c’est l’estima-
teur de variance minimale.
ii. Si on n’est pas dans un modèle de la famille exponentielle on com-
pare sa variance avec la borne de Cramer-Rao pour voir si il n’est
pas efficace.
(b) Si l’EMV est sans biais, on reprend les points i. et ii.
2. Si on n’obtient pas l’expression de la REV, alors on essaie la méthode des mo-
ments (généralisés ou non). Il faut vérifier que l’estimateur obtenu est asymp-
totiquement normal et comparer sa variance asymptotique avec la borne de
Cramer-Rao asymptotique. Si l’estimateur est asymptotiquement efficace, on
reprend les points (a) et (b).
Exemple 6.4.1 Soit le modèle Gamma (γ(p, λ), θ = (p, λ) ∈]0, ∞[2 ), on peut
vérifier que c’est un modèle régulier de la famille exponentielle. la fonction de
log-vraisemblance vaut
n
X n
X
ln (θ) = λ Xi − (p − 1) log(Xi ) − np log(λ) + n log(Γ(p))
i=1 i=1

et l’équation de vraisemblance est le système :


(
− ni=1 log(Xi ) − log(λ) + nΓ0 (p)/Γ(p) = 0
P
Pn
i=1 Xi − np/λ = 0

On peut vérifier que ce système admet une unique solution qui est l’EMV. Tou-
tefois, celle-ci n’a pas d’expression analytique car l’inverse de la fonction Gamma
n’en a pas. On utilise donc l’estimateur obtenu par la méthode des moments
(X n )2 X n
 
Tn = , 2
Sn2 Sn
qui est asymptotiquement normal

  
L 2p(p + 1) 2λ(p + 1)
n(Tn − θ) −→ N2 02 , λ2 .
2λ(p + 1) p
(3 + 2p)
D’après le théorème de comparaison des M - et Z- estimateurs, on sait que cette
variance asymptotique est plus grande que la Borne de Cramer Rao asymptotique
I −1 (θ).
70 CHAPITRE 6. LA RACINE DE L’ÉQUATION DE VRAISEMBLANCE
Chapitre 7

Régions de confiance

On se place comme précédemment dans le cadre d’un modèle paramétrique


(Pθ , Θ) où le paramètre d’intérêt θ est inconnu. A partir de l’échantillon (X1 , . . . , Xn )
issu de la loi Pθ on veut inférer sur le paramètre θ. Plutôt que de donner une valeur
approximative de θ, on cherche désormais à trouver un sous-ensemble de Θ dans
lequel le paramètre inconnu θ a une forte probabilité d’appartenir. Pour cela, on
utilise une statistique Tn ∈ Y qui n’est plus un estimateur Y = 6 Θ mais un sous
ensemble de Θ : Y = P(Θ). On notera Tn = Cn pour différencier avec l’estimation
ponctuelle.

7.1 Définition
Soit 0 < α < 1 un niveau de risque fixé par le statisticien.

Définition 7.1.1 La statistique Cn ∈ Y = P(Θ) est une région de confiance de


niveau (de confiance) 1 − α pour θ si elle ne dépend pas du paramètre inconnu θ
et si,
Pθ (θ ∈ Cn ) ≥ 1 − α, pour tout θ ∈ Θ.
La statistique Cn est une région de confiance de taille 1 − α pour θ lorsque

Pθ (θ ∈ Cn ) = 1 − α, pour tout θ ∈ Θ.

Remarque 23
– Par passage au complémentaire, le niveau de risque α correspond à une ma-
joration de la probabilité que le vrai paramètre θ ne soit pas dans Cn .
– La région de confiance Cn dépend de α qui est connu par le statisticien, c’est
lui qui fixe le niveau de risque.

71
72 CHAPITRE 7. RÉGIONS DE CONFIANCE

La région de confiance Cn est une statistique non paramétrique car l’ensemble des
sous ensembles de Θ noté P(Θ) est de dimension infinie (hormis le cas où Θ est
fini). On se ramène à une statistique paramétrique en ne considérant que des sous
ensembles de forme particulière de Θ :
– dans le cas unidimensionnel Θ ⊆ R (d = 1), on choisit Cn de la forme
Cn = [An , Bn ] où An et Bn sont deux estimateurs de θ vérifiant An ≤ Bn .
La région de confiance obtenue est appelée intervalle de confiance.
– dans le cas multidimensionnel Θ ⊆ Rd avec d ≥ 1, on choisit Cn de la forme
d’une ellipsoïde :

Cn = {a ∈ Θ / kPn (a − Wn )k2 ≤ Mn }

où Wn est un estimateur de θ, Pn est une matrice aléatoire ne dépendant


pas de θ correspondant à un changement de base et Mn ≥ 0 pour 1 ≤ i ≤ d
est une statistique ne dépendant pas de θ donnant la largeur de la région de
confiance dans cette nouvelle base.

Remarque 24 Dans le cas unidimensionnelle, un intervalle de confiance est cen-


tré en l’estimateur Wn lorsqu’il est déterminé par les relations An = Wn − Mn et
Bn = Wn + Mn avec Mn > 0.

Avant d’étudier la construction de telles régions de confiance, nous en donnons


un exemple connu :

Exemple 7.1.1 Soit le modèle Gaussien (N (µ, σ 2 ), θ = µ ∈ R) avec σ > 0


connu. On
N
√ considère alors l’intervalle de confiance centré en X n de largeur Mn =
σq1−α/2 / n > 0 :
σ N σ N
Cn = [X n − √ q1−α/2 , X n + √ q1−α/2 ]
n n
N N
où q1−α/2 est le quantile d’ordre α/2 de la loi normale centrée réduite, i.e. FN (q1−α/2 )=
1 − α/2 avec N ∼ N (0, 1).

7.2 Fonctions pivotales


Pour construire une région de confiance de taille 1−α, on utilise une fonction pivotale
(réelle) :

Définition 7.2.1 La fonction aléatoire Qn (θ) ∈ R du paramètre θ dont on veut


déterminer une région de confiance est une fonction pivotale si c’est une fonction
de θ dont la loi est connue.
7.2. FONCTIONS PIVOTALES 73

Une fonction pivotale n’est pas unique, en pratique on utilise la fonction pivo-
tale la plus simple possible.
Exemple 7.2.1 Dans le cas du modèle Gaussien multidimensionnel (Nd (θ, Σ2 ), θ ∈
Rd ) avec Σ2 connu, d’après le théorème de Cochran la statistique

Qn (θ) = nkΣ−1 (X n − θ)k2 ∼ χ2d

est une fonction pivotale dite du χ2 .


Une fois la fonction pivotale réelle obtenue et 0 < α < 1 fixé on détermine la région
de confiance de taille 1 − α grâce à la proposition suivante :
Proposition 7.2.1 Soit Qn (θ) une fonction pivotale dont la loi est absolument
continue et soit 0 < α < 1 fixé. Alors pour tout 0 ≤ γ ≤ α on obtient une région
de confiance de taille 1 − α de la forme
Qn Qn
Cn (γ) = Sn−1 ([qγQn , q1−α+γ ]) = {a ∈ Θ / qγQn ≤ Sn (a) ≤ q1−α+γ },

où qγQn est le quantile d’ordre γ de la loi de Qn (θ) :

Pθ (Qn (θ) ≤ qγQn ) = γ.

Par définition de la fonction pivotale, la loi de Qn (θ) ne dépend pas de θ donc qγSn
est bien définie : le quantile ne dépend pas non plus de θ (qui reste inconnu).
Démonstration : Il suffit de vérifier que

Pθ (θ ∈ Cn (γ)) = 1 − α

soit par passage au complémentaire


Qn
Pθ (θ ∈ / [qγQn , q1−α+γ
/ Cn (γ)) = α = Pθ (Qn (θ) ∈ ])
Qn
= Pθ (Qn (θ) < qγQn ) + 1 − Pθ (Qn (θ) ≤ q1−α+γ )

par définition de Cn et par définition des quantiles. 2

Remarque 25
– Pour chaque γ choisit correspond une région de confiance Cn (γ). En théorie,
il faut choisir γ qui correspond à la région Cn (γ) d’aire la plus petite possible.
En pratique, si la loi de la fonction pivotale est presque symétrique par rap-
port à son axe modal (la verticale passant par son mode) et par symétrie on
choisit γ = α/2. Sinon on choisit γ = 0 ou γ = α pour simplifier l’expression
de la région de confiance en comparant les aires de Cn (0) et Cn (α). Un loi
du χ2k est presque symétrique par rapport à son axe modale si k est grand
(k ∝ n) et ne l’est plus si k est petit (k ∝ d).
74 CHAPITRE 7. RÉGIONS DE CONFIANCE

– Dans le cas où la fonction pivotale Qn (θ) est réelle discrète, alors on ne peut
pas systématiquement obtenir des régions de confiance de taille 1 − α car
par définition des quantiles on peut avoir Pθ (Qn (θ) < qγSn ) 6= γ. Par contre,
avec un procédé similaire il est toujours possible de trouver une région de
confiance de niveau 1 − α même dans ce cas.

Exemple 7.2.2
– Dans le cas Gaussien (N (µ, σ 2 ), θ = µ ∈ R) avec σ 2 > 0 connu, la fonction
pivotale vaut

Qn (θ) = nσ −1 (X n − θ) ∼ N (0, 1).
Par symétrie de la loi normale, on choisit γ = α/2 d’où l’intervalle de
confiance centré
σ N σ N
Cn = [X n − √ q1−α/2 , X n + √ q1−α/2 ].
n n

– Dans le cas Gaussien multidimensionnel Nd (θ, Σ2 ), θ ∈ Rd ) avec Σ2 connu,


on a
Qn (θ) = nkΣ−1 (X n − θ)k2 ∼ χ2d .
Dans un cas multidimensionnel comme celui-ci, on choisit γ = 0 de manière
χ2
à simplifier l’expression de Cn car qγSn = q0 d = 0, d’où la région de confiance
centrée en X n
−1 χ2
Cn = {a ∈ Rd / n(X n − a)T Σ2 (X n − a) ≤ q1−α
d
}.

– Dans le cas Gaussien unidimensionnel (N (µ, σ 2 ), θ = (µ, σ 2 ∈ R) avec σ 2 >


0 connu, on peut aussi utiliser la fonction pivotale

n(X n − a)2
2
∼ χ21
σ
et choisir, comme la loi χ21 n’est pas symétrique par rapport à son axe modal,
l’intervalle de confiance
q q
2 2 χ1
2 σ χ21 σ χ21
Cn = {a ∈ Θ / n(X n − a) ≤ σ q1−α } = [X n − √ q1−α , X n + √ q1−α ].
n n

Cet intervalle de confiance étant centré en X n et de taille 1 − α, c’est le


même que q celui précédemment obtenu. On peut effectivement vérifier que
N χ2
q1−α/2 = q1−α
1
car N 2 = χ21 .
7.3. RÉGIONS DE CONFIANCE ASYMPTOTIQUES 75

– Soit le modèle exponentiel (E(θ), θ > 0) alors Y = 2Xθ ∼ χ22 . D’où


n
X
Qn (θ) = 2θ Xi = 2nθX n ∼ χ22n .
i=1

Pour n grand (n ≥ 50), comme 2n 2 2


P
i=1 Ni ∼ χ2n avec Ni ∼ N (0, 1), l’ap-
proximation normale pour la somme partielle à lieu
L
χ22n ≈ N (2n, 4n).

Lorsque l’approximation normale a lieu, la loi est quasi-symétrique par rap-


port à l’axe modal car toute loi normale est symétrique par rapport à l’axe
modal. On choisit donc γ = α/2 et comme
χ2 χ2
Pθ (qα/2
2n
≤ 2nθX n ≤ q1−α/2
2n
)=1−α

et on en déduit l’intervalle de confiance de taille 1 − α :


 2 
χ2n χ22n
q q
 α/2 , 1−α/2  .
2nX n 2nX n

– Dans le cas Gaussien unidimensionnel (N (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R × R∗+ ) on


peut utiliser la fonction pivotale de Student

n(X n − µ)
p 0 ∼ tn−1
Sn2
où tn−1 est la loi de Student à n−1 degrés de liberté. Comme la loi de Student
est symétrique par rapport à son axe modal, on a une RC de taille 1 − α
" p 0 p 0 #
Sn2 tn−1 Sn2 tn−1
Cn = X n − √ q1−α/2 , X n + √ q1−α/2 × R∗+ .
n n

Cette RC est d’aire infini mais l’IC correspondant sur µ de niveau 1−α est de
longueur fini. Elle donne donc un encadrement précis du paramètre µ inconnu
ceci indépendamment de la valeur de σ 2 . On parle d’IC sur µ avec σ 2 inconnu
de taille 1 − α.

7.3 Régions de confiance asymptotiques


Il n’est pas toujours possible de construire une région de confiance de taille fixé
lorsqu’aucune fonction pivotale n’est pas connue.
76 CHAPITRE 7. RÉGIONS DE CONFIANCE

Exemple
√ −1 7.3.1 Soit le modèle (Pθ , θ = Eθ (X) ∈ R) avec σ 2 > 0 connu. Alors
nσ (X n − θ) n’est pas une fonction pivotale car la forme de Pθ n’étant pas
spécifiée on ne connaît pas la loi de X n .
On utilise alors une fonction pivotale asymptotique :
Définition 7.3.1 La fonction aléatoire Qn (θ) ∈ R du paramètre θ dont on veut
déterminer une région de confiance est une fonction pivotale asymptotique si c’est
une fonction de θ dont la loi limite ne dépend pas du paramètre inconnu θ ∈ Θ,
L
i.e. Qn (θ) −→ Y où la loi de Y est connue.
Exemple 7.3.2 √ Soit le modèle (Pθ , θ = Eθ (X) ∈ R) avec Var θ (X) = σ 2 > 0
connu. Alors nσ −1 (X n − θ) est une fonction pivotale asymptotique de loi limite
N (0, 1) d’après le TCL.
En suivant le schéma de construction de la section précédente, on obtient alors des
régions de confiances de taille asymptotique 1 − α :
Définition 7.3.2 La statistique Cn est une RC de niveau (taille) asymptotique
1 − α pour θ lorsque
lim Pθ (θ ∈ Cn ) ≤ (=) 1 − α, pour tout θ ∈ Θ.
n→∞

Exemple 7.3.3 √ Soit le modèle (Pθ , θ = Eθ (X) ∈ R) avec Var θ (X) = σ 2 > 0
−1
connu. Alors nσ (X n − θ) est une fonction pivotale asymptotique de loi limite
N (0, 1) d’après le TCL. On en déduit Cn l’intervalle de confiance centré en X n de
taille asymptotique 1 − α de la forme
σ N σ N
Cn = [X n − √ q1−α/2 , X n + √ q1−α/2 ].
n n

7.4 Fonctions pivotales asymptotiques usuelles


Dans un modèle paramétriques (Pθ , Θ) l’existence d’une fonction pivotale asymp-
totiques découle de l’existence d’un estimateur Tn asymptotiquement normal.
Théorème 7.4.1 Soit un modèle paramétrique (Pθ , Θ) pour lequel il existe un
estimateur asymptotiquement normal
√ L
n(Tn − θ) −→ Nd (0d , V (θ)) ∀θ ∈ Θ
où V (θ) est la variance asymptotique lorsque X1 , . . . , Xn ∼ Pθ . On suppose connue
la fonction V continue de Θ dans l’ensemble des matrices d × d symétrique définie
positive. Alors
n(Tn − θ)T V −1 (θ)(Tn − θ) et n(Tn − θ)T V −1 (Tn )(Tn − θ)
sont des fonctions pivotales réelles pour θ de loi limite une χ2d .
7.4. FONCTIONS PIVOTALES ASYMPTOTIQUES USUELLES 77

Démonstration : Une application du théorème √ de Cochrane nous montre que la


loi limite de n(Tn − θ)T V −1 (θ)(Tn − θ) = k nV√−1/2 (θ)(Tn − θ)k2 est une χ2d qui
ne dépend pas de θ. Pour la seconde qui vaut nkV −1/2 (Tn )(Tn − θ)k2 , il suffit
P
de remarquer que Tn −→ θ comme tout estimateur asymptotiquement normal et
P −1/2 P −1/2
donc V (Tn ) −→ V (θ) par continuité. Ainsi
√ V −1/2(Tn ) −→ V 2 (θ) et on conclut
en utilisant Slutsky que la loi limite de nkV (Tn )(Tn − θ)k est une χ2d . 2

Remarque 26 La seconde fonction pivotale asymptotique √ nkV −1/2 (Tn )(Tn −
θ)k2 est toujours inversible en θ. Elle est plus souvent utile que nkV −1/2 (θ)(Tn −
θ)k2 qui n’est valable que lorsque la fonction V de Θ dans l’ensemble des matrices
d × d symétrique définie positive est inversible (en tant que fonction et non en tant
que matrice).
Définition 7.4.1 La fonction pivotale asymptotique de Wald vaut
PnW (θ) = n(θ̂n − θ)T I(θ̂n )(θ̂n − θ) = (θ̂n − θ)T In (θ̂n )(θ̂n − θ).
Une application du théorème 7.4.1 fournit la loi limite de QW
n (θ) :

Corollaire 7.4.1 Si le modèle (Pθ , Θ) est régulier et identifiable et la REV θ̂n


unique à partir d’un certain rang alors la loi limite de QW 2
n (θ) est une χd où d est
la dimension de θ, i.e. Θ ⊆ Rd .
Démonstration : On applique le théorème 7.4.1 en remarquant que les hypo-
thèses de régularité du modèle assure que l’information de Fisher soit une fonction
continue. 2

A partir de cette fonction pivotale asymptotique, il est facile de construire des


régions de confiance de taille asymptotique 1 − α.
Exemple 7.4.1 Soit le modèle Gaussien (N (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R × R∗+ ) alors
l’unique REV vaut θ̂n = (X n , Sn2 ) et l’information de Fisher vaut
 1 
σ 2 0
I(θ) = .
0 2σ1 4
La fonction pivotale asymptotique de Wald vaut donc
(X n − µ)2 (Sn2 − σ 2 )2
 
W
Qn (θ) = n +
Sn2 2(Sn2 )2
Ainsi, la région de confiance de taille asymptotique 1 − α est fournie par
χ22
( )
2 2 2
(X n − x) (S − y) q
(x, y) ∈ R2 / + n 2 2 ≤ 1−α .
Sn2 2(Sn ) n

C’est l’intérieur d’une ellipse dans le plan, centrée en (X n , Sn2 ).


78 CHAPITRE 7. RÉGIONS DE CONFIANCE
Troisième partie

Tests d’hypothèses

79
Chapitre 8

Introduction aux tests


paramétriques

8.1 Problématique de test


Soit un modèle paramétrique (Pθ , Θ) où le paramètre θ est inconnu. Le sta-
tisticien ne cherche pas directement à inférer la valeur θ mais plutôt de savoir si
θ appartient à un ensemble de paramètres Θ0 ( Θ : l’objectif d’un test est de
décider si θ ∈ Θ0 , ou pas.

Exemple 8.1.1 Une des premières applications de la théorie des tests était liée
au problème militaire de détection de la présence d’un missile à l’aide d’un radar.
L’écho d’un radar est "grand" si un missile est présent et il est "petit" dans le cas
contraire. Supposons qu’on observe un échantillon (X1 , . . . , Xn ) d’échos de radar
aux instants successifs 1, . . . , n. Le caractère aléatoire de ces échos est lié aux effets
de bruit de propagation d’ondes, des erreurs de mesure, etc... On se place dans le
cadre d’un modèle paramétrique où (X1 , . . . , Xn ) est issu d’un modèle Pθ avec θ
inconnu et soit Θ0 l’ensemble des paramètres correspondant à un écho suffisamment
"grand". Le problème est alors de décider à partir de l’échantillon si oui ou non
θ ∈ Θ0 , i.e. si oui ou non un missile est présent.

8.1.1 Premières définitions


Soit Θ0 ( Θ et Θ1 = Θ \ Θ0 (alors Θ0 et Θ1 forment une partition de Θ). On
utilise l’écriture symbolique suivante pour définir le problème de test
H0 : θ ∈ Θ0 H1 : θ ∈ Θ1
où H0 est l’hypothèse nulle et H1 l’hypothèse alternative. Chacune de ces hypo-
thèses peut être de deux natures :

81
82 CHAPITRE 8. INTRODUCTION AUX TESTS PARAMÉTRIQUES

Définition 8.1.1 Pour i = 0 ou = 1 si Hi correspond à un ensemble Θi réduit


à un singleton {θi } alors l’hypothèse Hi est dite simple. Dans le cas contraire,
l’hypothèse est composite.
Etant donné l’hypothèse nulle H0 : θ ∈ Θ0 construire une procédure de test
revient à construire à partir de l’échantillon (X1 , . . . , Xn ) une règle de décision φn
qui indique si oui ou non H0 est vérifiée. Formellement, on a la définition
Définition 8.1.2 Un test simple est une fonction mesurable φn : X n → {0, 1} qui
ne dépend pas de θ. On accepte l’hypothèse nulle H0 lorsque φn = 0 et on la rejette
lorsque φn = 1, i.e. on accepte l’hypothèse alternative H1 .

Un test randomisé est une fonction mesurable φn : X n → [0, 1] qui ne dépend


pas de θ. Lorsque φn ∈ {0, 1}, les règles de décision sont les mêmes que pour les
tests (si φn = 0 on accepte l’hypothèse nulle, si φn = 1 on la rejette). Lorsque
φn ∈]0, 1[, on rejette l’hypothèse nulle avec la probabilité φn et on l’accepte donc
avec probabilité 1 − φn .
Un test simple φn est une v.a. ne prenant que 2 valeurs, 0 ou 1, c’est donc une va-
riable de Bernoulli. On appelle zone de rejet du test l’ensemble Rn = {φn ((X1 , . . . , Xn )) =
1}, i.e. la zone des observations qui conduisent à rejeter l’hypothèse nulle. Evidem-
ment, construire un test simple est équivalent à donner une zone de rejet Rn car
alors le test s’écrit de manière unique φn (X1 , . . . , Xn ) = 1Rn (X1 , . . . , Xn ).
Remarque 27 Par définition d’une statistique exhaustive Tn , elle contient toute
l’information de l’échantillon pour inférer θ. On recherche donc une zone de rejet
R sous la forme R = {Tn ∈ Cn } pour un ensemble Cn à déterminer.

8.1.2 Risques des tests


Ayant construit un test, on prend la décision d’accepter ou non H0 à partir de
l’échantillon observé (X1 , . . . , Xn ). Il y a 4 possibilités :
– On accepte à raison H0 , i.e. φn (X1 , . . . , Xn ) = 0 et θ ∈ Θ0 ,
– On rejette à raison H0 , i.e. φn (X1 , . . . , Xn ) = 1 et θ ∈ Θ1 ,
– On rejette à tort H0 , i.e. φn (X1 , . . . , Xn ) = 1 et θ ∈ Θ0 ,
– On accepte à tort H0 , i.e. φn (X1 , . . . , Xn ) = 0 et θ ∈ Θ1 .
On parlera dans les 2 derniers cas d’erreurs de tests lié au fait qu’on prend une
décision sur le paramètre θ inconnu à partir des observations (X1 , . . . , Xn ) unique-
ment. Rejeter à tort H0 correspond à l’erreur de premier espèce et accepter à tort
H0 l’erreur de second espèce.

Le but du statisticien est de construire un test qui conduit à une erreur dans
le moins de cas possibles.
8.1. PROBLÉMATIQUE DE TEST 83

Définition 8.1.3
– Le risque de première espèce d’un test φn vaut supθ∈Θ0 Eθ (φn ).
– La fonction puissance d’un test est la fonction π : Θ → [0, 1] définie par la
relation π(θ) = Eθ (φn ) pour tout θ ∈ Θ1 .
– Le risque de seconde espèce d’un test φn vaut supθ∈Θ1 1 − π(θ).
– La puissance d’un test φn est la fonction π(θ) restreinte à l’ensemble Θ1 .

Remarque 28 Dans le cas d’un test simple φn = 1Rn alors le risque de première
espèce est la plus grande probabilité de rejeter à tort (commettre une erreur de
première espèce), i.e. supθ∈Θ0 Pθ (Rn ) = supH0 Pθ ("On rejette H0 "). Le risque de
seconde espèce est la plus grande probabilité d’accepter à tort (commettre une erreur
de seconde espèce), i.e. supθ∈Θ1 1 − Pθ (Rn ) = supH1 Pθ ("On accepte H0 ").

Le but du statisticien est donc de construire un test dont les risques de première
et seconde espèce sont les plus faibles possibles (ou de manière équivalente un test
dont le risque de première espèce est faible et la puissance est forte).

8.1.3 Approche de Neyman et niveau d’un test


Réduire le risque de première espèce conduit malheureusement souvent à aug-
menter le risque de seconde espèce. Ainsi, le test φn = 1∅ qui accepte toujours H0
ne commet jamais d’erreur de première espèce car il ne rejette jamais. Par contre,
sa fonction puissance π est nulle sur Θ1 et donc son risque de seconde espèce vaut
1 : quand l’hypothèse alternative H1 est satisfaite, on commet une erreur de se-
conde espèce systématique en acceptant H0 .

Le principe de Neyman est de se fixer un seuil de tolérance sur le risque de


première espèce appelé niveau :
Définition 8.1.4 On dit qu’un test φn est de niveau α ∈ [0, 1] si son risque de
première espèce est inférieur ou égal à α, i.e. supθ∈Θ0 Eθ (φn ) ≤ α. Le test φn est
de taille α si son risque de première espèce est égal à α, i.e. supθ∈Θ0 Eθ (φn ) = α.
On note alors Rn (α) la zone de rejet du test simple φn de taille α :
φn = 1Rn (α) ⇔ sup Pθ (Rn (α)) = α
θ∈Θ0

Parmi les tests d’un niveau α fixé il faut ensuite choisir celui qui a la plus grande
puissance π, i.e. le plus petit risque de second espèce.
Définition 8.1.5 Soit α ∈ [0, 1] et doit un test φn de niveau α. Le test φn est
sans biais si π(θ) ≥ α pour tout θ ∈ Θ1 . Il est uniformément plus puissant (UPP)
si pour tout test φ0n de niveau α et de puissance π 0 on a π(θ) ≥ π 0 (θ) pour tout
θ ∈ Θ1 .
84 CHAPITRE 8. INTRODUCTION AUX TESTS PARAMÉTRIQUES

Le principe de Neyman est de trouver un test UPP pour un niveau α qui est fixé
par le statisticien.

Exemple 8.1.2 On reprend l’exemple des missiles où on suppose que l’écho d’un
radar suit le modèle Gaussien (N (θ, 1), θ ∈ R). On veut tester si il y a un missile
ou non soit

H0 : "Il y a un missile" : θ ≥ θ∗ H1 : "Il n’y a pas de missile" : θ < θ∗

où θ∗ est connu avec un niveau de 5%. Les deux hypothèses sont composites. On
sait que X n est une statistique exhaustive pour θ (c’est aussi l’EMV sans biais de
variance minimale). On construit un test simple dont la zone de rejet est Rn =
{X n < C} où C est une constante à déterminer. Comme X n ∼ N (θ, n−1 ), on
calcule :
√ √
Pθ (R) = Pθ (X n < C) = Pθ (θ + N/ n < C) = Φ( n(C − θ))

où N ∼ N (0, 1) et Φ est la fonction de répartition associée. Pour que le test


φn = 1{X n <C} est un niveau α = 0.05, il faut donc la relation

sup Φ( n(C − θ)) ≤ 0.05.
θ∈Θ0

Comme toute fonction de répartition, Φ est croissante donc de manière équivalente


√ √ √
sup N
n(C − θ) ≤ q0.05 ⇔ n(C − θ∗ ) ≤ −1.64 ⇔ C ≤ θ∗ − 1.64/ n.
θ>θ∗


Parmi tous les tests φn = 1{X n <C} de niveau 0.05 (qui vérifient C ≤ θ∗ − 1.64/ n)
√celui qui est le plus puissant. On calcule la fonction puissance π(θ) =
on va choisir
Pθ (R) = Φ( n(C − θ)) qui est croissante avec C. Donc le test qui a la plus grande
puissance parmi les tests de la forme φn = 1{X n <C} est celui qui est associé à la
plus grande valeur de C qui assure un niveau 0.05 soit

φn = 1{X n <θ∗ −1.64/√n} .

8.1.4 p-valeur
En pratique, accepter ou rejeter l’hypothèse nulle n’a que peu de valeur scien-
tifique : il suffit de baisser la valeur du niveau α jusqu’à accepter le test (le seul
test de risque de premier espèce égal à 0 est le test φ = 0 qui accepte toujours
l’hypothèse nulle !). D’où la définition suivante
8.1. PROBLÉMATIQUE DE TEST 85

Définition 8.1.6 La p-valeur d’une famille de tests de zones de rejet Rn (α), 0 <
α < 1, est le plus petit niveau α∗ pour lequel on rejette H0 , i.e si (x1 , . . . , xn ) est une
réalisation de (X1 , . . . Xn ) alors la p-valeur vaut α∗ = inf{α ∈]0, 1[ / (x1 , . . . , xn ) ∈
Rn (α)}.
La p-valeur (p-value en anglais) est fournie en sortie des procédures de tests dans
le logiciel R.
Remarque 29
1. Si la p-valeur est plus petite que 1%, on rejette H0 pour tous les niveaux de
tests "classiques" (en général α est choisi parmi 1, 5 ou 10%). Si la p-valeur
est comprise entre 1% et 5% on a tendance à rejeter H0 , si elle est entre
5% et 10%, on rejette H0 prudemment. Dans tous ces cas, on dit que le test
est significatif car il permet de prendre une décision (rejeter H0 ) avec une
grande probabilité que H1 soit vérifiée.
2. On a tendance à accepter H0 si la p-valeur est supérieure à 10%. Mais alors
H0 n’est pas forcément vérifiée avec grande probabilité : il peut y avoir des
"faux positifs" c’est à dire des cas où on accepte H0 alors que H1 est véri-
fiée. La p-valeur (risque de première espèce) ne suffit pas pour prendre une
décision vraie avec grande probabilité lorsque celle-ci est grande (supérieur à
10%). On dit alors qu’on accepte H0 mais que le test n’est pas significatif.
Le calcul du risque de second espèce (ou de la puissance) nous permet de
quantifier cette erreur de second espèce.

8.1.5 Dualité entre régions de confiance et tests


Il existe une dualité entre régions de confiance et tests. Elle permet de construire
facilement des tests d’un niveau donné à partir des régions de confiance classiques.
Par contre elle ne donne aucun renseignement sur la puissance du test (ni son
risque de seconde espèce).

On rappelle qu’une région de confiance Cn de niveau 1 − α est définie par la


relation
Pθ (θ ∈ Cn ) ≥ 1 − α, ∀θ ∈ Θ.
Soit alors le problème de test hypothèse simple-hypothèse composite de la forme

H0 : θ = θ0 H1 : θ 6= θ0

pour θ0 ∈ Θ connu.
Proposition 8.1.1 Le test simple φn associé à la zone de rejet Rn = {θ0 ∈
/ Cn }
est un test de niveau α.
86 CHAPITRE 8. INTRODUCTION AUX TESTS PARAMÉTRIQUES

Démonstration : Il suffit de calculer le risque de première espèce


sup Pθ (θ0 ∈
/ Cn ) = Pθ0 (θ0 ∈
/ Cn ) = 1 − Pθ0 (θ0 ∈ Cn ) ≤ α
θ∈Θ0

par définition de la région de confiance. 2


Exemple 8.1.3 Soit le modèle Gaussien (N (θ, σ 2 ), θ ∈ R) avec σ 2 > 0 connu,
alors on a l’intervalle de confiance de taille 1 − α
 
σ N σ N
Cn = X n − √ q1−α/2 , X n + √ q1−α/2 .
n n
On en déduit immédiatement un test φn de niveau α pour le problème hypothèse
simple-hypothèse composite
H0 : θ = θ0 H1 : θ 6= θ0
de zone de rejet  
σ N
|X n − θ0 | > √ q1−α/2 .
n
On peut généraliser le problème de test à celui de (θi )i∈I = (θ0,i )i∈I contre (θi )i∈I 6=
(θ0,i )i∈I où (θi )i∈I est un ensemble de coordonnées de θ. Pour cela on utilise une
RC pour (θi )i∈I avec les paramètres (θi )i∈I
/ inconnus.

Exemple 8.1.4 Soit le modèle Gaussien (N (θ, σ 2 ), θ = (µ, σ 2 ) ∈ R) × R∗+ avec le


problème de test portant uniquement sur µ = θ1 de la forme
H0 : µ = µ0 et H1 : µ 6= µ0 .
Remarquons qu’on peut réécrire le problème de test sous la forme
H0 : θ = µ0 × R∗+ et H1 : θ 6= µ0 × R∗+ .
C’est donc un test hypothèse nulle composite contre hypothèse alternative compo-
site. Un test est construit à partir de l’IC de taille 1 − α pour µ avec θ2 = σ 2
inconnu de la forme
" p 0 p 0 #
Sn2 Tn−1 Sn2 Tn−1
Cn = X n − √ q1−α/2 , X n + √ q1−α/2 .
n n

On en déduit le test φn de niveau α déterminé par la zone de rejet


( p 0 )
Sn2 Tn−1
|X n − θ0 | > √ q1−α/2 .
n

On parle alors du test de Student.


8.2. TESTS ASYMPTOTIQUES 87

8.2 Tests asymptotiques


Tout comme pour les régions de confiance, il n’est pas toujours possible de
construire un test de taille α donné. On fait alors appel à l’asymptotique.

8.2.1 Niveau asymptotique


Définition 8.2.1 Soit α ∈ [0, 1], la suite de test (φn ) est de niveau (taille) asymp-
totique α si
∀θ ∈ Θ0 , lim sup Pθ (φn = 1) ≤ (=) α.
n→∞

La suite de test (φn ) est convergente si sa puissance asymptotique vaut 1 :

∀θ ∈ Θ1 , lim Pθ (φn = 1) = 1.
n→∞

La p-valeur asymptotique d’une famille de tests de zones de rejet Rn (α), 0 < α < 1,
est le plus petit niveau asymptotique α∗ pour lequel on rejette H0 .

Asymptotiquement, il n’y a pas de tests plus puissants qu’un test convergent.

Exemple 8.2.1 Soit le modèle (Pθ , θ = Eθ (X) ∈ R) avec le problème de test


H0 : θ = θ0 contre H1 : θ 6= θ0 .
– Si Var θ (X) = σ 2 est connu, alors on est dans un cas d’hypothèse nulle
simple, on peut utiliser la dualité entre tests et régions de confiance. On a
σ N σ N
Cn = [X n − √ q1−α/2 , X n + √ q1−α/2 ]
n n

qui est de taille asymptotique 1 − α donc la suite des tests φn de zone de rejet
√ N
Rn = {| nX n − θ0 | > σq1−α/2 }

est de niveau asymptotique α. La puissance de ce test converge vers 1 pour


tout θ ∈ θ1 :
√ N

Pθ n|X n − θ0 | > σq1−α/2 → 1,
P
car la LFGN implique que X n − θ0 −→ θ − θ0 6= 0. Donc la suite de tests est
convergente.
– Si Var θ (X) = σ 2 est inconnue alors on obtient une suite de tests avec
p les
mêmes propriétés que précédemment en remplaçant simplement σ par Sn2 ,
un estimateur consistant de la variance.
88 CHAPITRE 8. INTRODUCTION AUX TESTS PARAMÉTRIQUES

Nous allons donner 2 exemples de tests asymptotiques convergents dans le pro-


blème
H0 : g(θ) = 0k H1 : g(θ) 6= 0k
où la fonction g : Θ → Rk evec 1 ≤ k ≤ d est connue est satisfait
(HG) La fonction g est continûment différentiable telle que sa Jacobienne Jθ g(θ)
soit de plein rang k.
On retrouve les tests à hypothèse nulle simple avec k = d et g(θ) = θ − θ0 .

8.2.2 Test de Wald


Soit un modèle régulier identifiable dans lequel il existe une unique REV θ̂n .

Le test de Wald est construit à partir de l’efficacité asymptotique de (θ̂n ). En


effet, en appliquant la δ-méthode à g, on trouve
√ L
n(g(θ̂n ) − g(θ)) −→ Nk (0k , Jθ g(θ)I −1 (θ)Jθ g(θ)T ).

On a donc un estimateur asymptotiquement normal de g(θ) et en utilisant le


théorème 7.4.1 on trouve que
L
n(g(θ̂n ) − g(θ))T (Jθ g(θ̂n )I −1 (θ̂n )Jθ g(θ̂n )T )−1 (g(θ̂n ) − g(θ)) −→ χ2k .

Sous H0 , comme g(θ) = 0 on en déduit alors que


L
ζnW := ng(θ̂n )T (Jθ g(θ̂n )I −1 (θ̂n )Jθ g(θ̂n )T )−1 g(θ̂n ) −→ χ2k ,

où ζnW est appelé la statistique de Wald. Ce résultat asymptotique nous permet de


construire une suite de tests de niveau asymptotique α :

Théorème 8.2.1 Soit un modèle régulier identifiable dans lequel il existe une
unique REV θ̂n , alors la suite de tests (φn ) de zone de rejet
χ2
Rn = {ζnW > q1−α
k
}

est de niveau asymptotique α et convergente.

Démonstration : Par construction la suite (φn ) est de niveau asymptotique 1 − α.


P
Nous montrons que sous H1 on a ζnW −→ +∞ ce qui implique que lim Pθ (ζnW >
χ2k
q1−α ) = 1 ∀θ ∈ Θ1 et donc que le test et convergent.
8.2. TESTS ASYMPTOTIQUES 89

Soit V (θ) = Jθ g(θ)I −1 (θ)Jθ g(θ)T la variance asymptotique de g(θ̂n ). Alors on


peut écrire
ζnW = ng(θ̂n )T V −1 (θ̂n )g(θ̂n ) = T1,n + T2,n + T3,n
avec

T1,n = ng(θ)T V −1 (θ̂n )g(θ), T2,n = n(g(θ̂n ) − g(θ))T V −1 (θ̂n )(g(θ̂n ) − g(θ)),
T3,n = 2n(g(θ̂n ) − g(θ))T V −1 (θ̂n )g(θ).

Comme g(θ̂n ) est asymptotiquement normal pour g(θ), il est aussi fortement
p.s.
convergent donc T2,n /T1,n = g(θ̂n ) − g(θ))T M (θ̂n )g(θ̂n ) − g(θ)) −→ 0 car la ma-
trice k × k M (θ̂n ) ∈ Rk converge p.s. par continuité vers M (θ) < ∞. De même,
p.s.
T3,n /T1,n = (g(θ̂n ) − g(θ))T K(θ̂n ) −→ 0 car le vecteur K(θ̂n ) ∈ Rk converge p.s.
par continuité vers K(θ) < ∞. En réécrivant ζnW = T1,n (1 + T2,n /T1,n + T3,n /T1,n )
p.s.
et comme g(θ)T V −1 (θ̂n )g(θ) −→ g(θ)T V −1 (θ)g(θ) > 0 car g(θ) 6= 0 sous H1 et
V −1 (θ) > 0, on a finalement que
p.s.
ζnW = ng(θ)T V −1 (θ̂n )g(θ)(1 + T2,n /T1,n + T3,n /T1,n ) −→ ∞.2

8.2.3 Test du score


Le principe du test du score provient de la remarque suivante : pour construire
une suite de tests d’un niveau asymptotique donné, le comportement asymptotique
sous H0 suffit. On va donc se placer dans le modèle contraint (Pθ , Θ0 ) supposer
qu’il existe un unique EMV contraint θ̂n0 .
Remarque 30 Si l’hypothèse nulle est simple Θ0 = {θ0 } alors nécessairement
θ̂n0 = θ0 . Si Θ0 est un intervalle, θ̂n0 est l’unique solution du système suivant,
appelé l’EV contrainte :
∇θ,λ Hn (θ̂n0 , λ̂0n ) = 0
issu de la dérivation du Lagrangien Hn (θ, λ) = ln (θ) − λT g(θ) où λ ∈ Rk et θ̂n0
vérifie la condition du second ordre.
Comme g(θ̂n0 ) = 0 car θ̂n0 ∈ Θ0 on ne peut pas utiliser le même raisonnement que
pour le test de Wald directement. On rappelle la définition du vecteur score de
l’échantillon
Sn (θ) = ∇θ log(Ln (θ))
et on définit la statistique du score

ζnS := n−1 Sn (θ̂n0 )T I −1 (θ̂n0 )Sn (θ̂n0 ).

Cette statistique ne nécessite que le calcul de l’EMV contraint θ̂n0 et on a


90 CHAPITRE 8. INTRODUCTION AUX TESTS PARAMÉTRIQUES

Théorème 8.2.2 Soit un modèle régulier identifiable dans lequel il existe un unique
EMV contraint θ̂n , alors la suite de tests (φn ) de zone de rejet
χ2
Rn = {ζnS > q1−α
k
}

est de niveau asymptotique α et convergente.

Démonstration : Pour tout θ ∈ Θ, la loi asymptotique du score vaut :


1 L
√ Sn (θ) −→ Nd (0, I(θ))
n

Donc √1 I(θ)−1/2 Sn (θ) converge vers un vecteur gaussien isotrope de Rd . On montre


n
que √1 I(θ̂ 0 )−1/2 Sn (θ̂ 0 ) est la projection orthogonale de ce vecteur sur Θ0 de di-
n n n
mension k. Donc en appliquant le Théorème de Cochran on obtient
L
n−1 Sn (θ̂n0 )I(θ̂n0 )−1 Sn (θ̂n0 )T −→ χk2 .

Le niveau asymptotique de la zone de rejet en découle facilement.

Sous (H1), comme θ̂n est fortement convergent et que θ ∈


/ Θ0 on a lim inf kθ̂n −
θ̂n0 k
≥ ε pour ε > 0. Comme par définition on a les relations ∇ln (θ̂n ) = 0 et
n∇ln (θ) = −Sn (θ) on obtient

Sn (θ̂n0 ) = nHθ (ln (θ̂n0 ))(θ̂n − θ̂n0 ) + o(θ̂n − θ̂n0 ).

Le comportement asymptotique de ζnS est donc le même que

n(θ̂n − θ̂n0 )T Hθ (ln (θ̂n0 ))I(θ̂n0 )−1 Hθ (ln (θ̂n0 ))(θ̂n − θ̂n0 )
p.s.
et ζnS ∼ n(θ̂n − θ̂n0 )T I(θ̂n0 )(θ̂n − θ̂n0 ) −→ +∞ en appliquant la loi forte des grands
nombres uniforme à θ → S(Xi , θ) car d’après (H4) : I(θ̂n0 ) > 0 pour tout n ∈ N.
On conclut que le test est convergent en suivant le même raisonnement que pour
le test de Wald. 2
Chapitre 9

Test du Rapport de Vraisemblance

9.1 Définition
Dans ce chapitre nous étudions le Test du Rapport de Vraisemblance (TRV)
et ses propriétés (non-)asymptotiques pour la problématique de test H0 : θ ∈ Θ0
contre H1 : θ ∈ Θ1 . Pour se faire, on suppose que le modèle paramétrique (Pθ , Θ =
Θ0 ∪Θ1 ) satisfait l’hypothèse usuelle (H1) satisfaite : le support de la loi ne dépend
pas de θ.
Définition 9.1.1 On appelle TRV tout test construit à l’aide du rapport de vrai-
semblance (RV) définit en tous points a ∈ Θ0 et b ∈ Θ1 par la relation
Ln (b)
Va,b = si Ln (a) 6= 0, Va,b = 0 sinon.
Ln (a)
Remarque 31 Le RV est bien défini car sous (H1) on a Ln (a) = 0 ⇒ Ln (b) = 0.

9.2 Propriétés non asymptotiques


Nous avons vu comment obtenir des tests d’un niveau donné et des tests d’un
niveau asymptotique donné convergent. Nous allons étudié la construction de tests
d’un niveau donné UPP d’un niveau α donné. Ce problème complexe n’a pas
toujours de solution, il faut spécifier dans quel problématique de test on se place.

9.2.1 Lemme de Neyman-Pearson


On se place dans un problème de test hypothèse nulle simple Θ0 = {θ0 } contre
hypothèse alternative simple Θ1 = {θ1 } (par définition Θ = {θ0 } ∪ {θ1 }). Le RV
s’écrit
Vθ0 ,θ1 = Ln (θ1 )/Ln (θ0 )1Ln (θ0 )6=0

91
92 CHAPITRE 9. TEST DU RAPPORT DE VRAISEMBLANCE

Pour cette problématique de test on appelle test du rapport de vraisemblance (abrégé


en TRV) tout test φC,c de la forme
– φC,c = 1 si Ln (θ1 ) > CLn (θ0 ),
– φC,c = 0 si Ln (θ1 ) < CLn (θ0 ) et
– φC,c = c ∈]0, 1[ si Ln (θ1 ) = CLn (θ0 ).
pour C > 0 et c ∈ [0, 1] à fixer.

Remarque 32 En pratique, on rejettera toujours H0 lorsque θ1 est plus vraisem-


blable que θ0 , i.e. Ln (θ1 ) > Ln (θ0 ) donc on choisira C ≥ 1.

On a alors le résultat fondamental suivant

Lemme 9.2.1 (Neyman-Person) Soit α ∈]0, 1[ alors il existe des constantes


C, c telles que le TRV φC,c soit de taille α et ce test est alors UPP de niveau α.

Démonstration : On calcule le risque de premier espèce du TRV randomisé Eθ0 (φC,c ).


On considère F la fonction de répartition de la variable aléatoire positive Ln (θ1 )/Ln (θ0 )
sous H0 et on note C son quantile d’ordre 1 − α. On distingue deux cas :
– Soit Pθ0 (Ln (θ1 ) = CLn (θ0 )) = 0 et on considère le TRV simple φC,0 . On a
directement Eθ0 (φC,0 ) = Pθ0 (φC,0 = 1) = 1 − F (C) = α.
– Soit Pθ0 (Ln (θ1 ) = CLn (θ0 )) > 0 et on considère le TRV randomisé φC,c avec
c vérifiant
α + F (C) − 1
c= .
Pθ0 (Ln (θ1 ) = CLn (θ0 ))
On a bien c > 0 car F (C) ≥ 1 − α par définition et

Eθ0 (φC,c ) = Pθ0 (φC,0 = 1) + cPθ0 (φC,0 = c)


α + F (C) − 1
= 1 − F (C) + Pθ (Ln (θ1 ) = CLn (θ0 )) = α
Pθ0 (Ln (θ1 ) = CLn (θ0 )) 0

On montre maintenant que φC,c est UPP. Soit φ un test de niveau α, i.e. tel que
Eθ0 (φ) ≤ α, on montre que Eθ1 (φC,c − φ) ≥ 0, i.e. que la puissance de φ est plus
faible que celle du TRV φC,c . Notons que

∆ = Eθ1 (φC,c − φ) − CEθ0 (φC,c − φ) = (Ln (θ1 )/Ln (θ0 ) − C)Eθ0 (φC,c − φ) .

Si φC,c (x) = 0 alors par définition Ln (θ1 )/Ln (θ0 ) − C < 0 et φC,c (x) − φ ≤ 0, et
si φk,c (x) = 1 alors Ln (θ1 )/Ln (θ0 ) − C > 0 et φC,c (x) − φ ≥ 0 car φ ∈ [0, 1]. Dans
tous les cas ∆ ≥ 0 et le résultat est prouvé. 2

Remarque 33 Si le modèle est absolument continu, i.e. admet une densité par
rapport à la mesure de Lebesgue, alors le TRV simple φC,0 de taille α est UPP.
9.2. PROPRIÉTÉS NON ASYMPTOTIQUES 93

Exemple 9.2.1
– Cas du modèle gaussien (N (θ, 1), θ ∈ R) alors
n
!
1X
Ln (θ) = (2π)−n/2 exp − (Xi − θ)2 .
2 i=1

Pour simplifier on passe au logarithme (croissant) car (H1) est vérifiée et on


obtient
n
Ln (θ1 ) X n
log = (θ1 − θ0 ) Xi − (θ12 − θ02 ).
Ln (θ0 ) i=1
2

Si θ1 > θ0 , c’est une fonction croissante de X n = n1 ni=1 Xi et on rejette


P
N

l’hypothèse nulle θ = θ0 dès que X n > C. On choisit alors C = θ0 + q1−α / n
afin que le risque de premier espèce soit égal à α et un test UPP est donné
par la zone de rejet
N

X n > θ0 + q1−α / n.
Si θ0 > θ1 , on trouve un test UPP avec la zone de rejet
N

X n < θ0 − q1−α / n.

– Cas du modèle de Bernoulli (B(θ), 0 < θ < 1), si on pose Tn = X1 + · · · + Xn


la statistique exhaustive alors
 n   Tn
Ln (θ1 ) 1 − θ1 θ1 1 − θ1
= .
Ln (θ0 ) 1 − θ0 θ0 1 − θ0

C’est une fonction croissante de Tn lorsque θ1 > θ0 , donc la zone de rejet


est de la forme Tn ≥ k. Comme Tn ∼ B(n, θ) discrète à valeur entière,
le TRV φC,c peut être randomisé avec C qui est le plus petit entier tel que
α̃ := Pθ0 (Tn ≤ C) ≥ 1 − α et c = (α − α̃)/Pθ0 (Tn = C). C’est le test UPP de
niveau α.

9.2.2 Rapport de vraisemblance monotone


Nous avons obtenu dans la section précédente des tests UPP, i.e. préférables à
tous les tests de niveau α dans le cas hypothèse simple contre hypothèse simple.
Ce cadre théorique n’a que peu de valeurs en pratique car il réduit l’ensemble des
paramètres à Θ = {θ0 } ∪ {θ1 }. Nous allons nous placer dans des problèmes de tests
hypothèse composites contre hypothèse composites de la forme H0 : θ ≤ θ∗ (ou
θ ≥ θ∗ ) contre H1 : θ > θ∗ (ou θ < θ∗ ). On définit
94 CHAPITRE 9. TEST DU RAPPORT DE VRAISEMBLANCE

Définition 9.2.1 Le modèle est à rapport de vraisemblance monotone en une sta-


tistique Tn ∈ R (RVM en Tn ) lorsque Va,b est une fonction croissante de Tn , i.e. il
existe une fonction V croissante en sa première variable telle qu’on ait

Va,b = V (Tn , a, b) ∀a ∈ Θ0 , b ∈ Θ1 .

On définit le test randomisé φC,c (appelé aussi TRV) de la forme


– φC,c = 1 lorsque Tn > C,
– φC,c = 0 lorsque Tn < C,
– φC,c (x) = c lorsque Tn = C
pour C ∈ R et c ∈ [0, 1].

Remarque 34 Si Tn est une v.a. absolument continue alors Pθ (Tn = C) = 0 et


on considère les tests simples φC,0 = 1Tn >c .

Théorème 9.2.1 (Karlin-Rubin) Soit un modèle paramétrique à RVM en Tn


((H1) satisfaite) et soit le niveau α ∈]0, 1[ alors il existe des constantes C, c telles
que α = supθ∈Θ0 Eθ (φC,c ) et le TRV φC,c est UPP de niveau α.

La preuve de ce théorème est de même nature que celle du lemme 9.2.1.

Exemple 9.2.2 Reprenons l’exemple de la détection des missiles. Nous avions vu


que le test
φn = 1{X n <θ∗ −1.64/√n}
était plus puissant que les tests de la forme φn = 1{X n ≤C} . Il est en fait UPP de
niveau α car le modèle est à RVM en Tn = −X n car

Va,b = exp((b − a)nX n − n/2(b2 − a2 )), b − a < 0.

Le test φn est de la forme d’un TRV φC,c et son risque de première espèce supθ∈Θ0 Eθ (φn )
est égal à α.

Voici un autre exemple de problème de test où un test UPP existe. Soit le


problème de la forme Θ0 = {θ ∈ Θ| θ ≤ θ1 ou θ ≥ θ2 } pour θ1 < θ2 et Θ1 =]θ1 , θ2 [
On définit alors

Exemple 9.2.3 On définit le modèle exponentiel généralisé (Pθ , Θ ⊂ R) de la


forme
f (x, θ) = c(θ)h(x) exp (α(θ)T (x))
pour des fonctions h ≥ 0, c ∈ R, T ∈ R non constant et θ 7→ α(θ) une fonction
strictement croissante.
9.3. TRV : CAS GÉNÉRAL 95

Théorème 9.2.2 (Lehmann) Dans le modèle exponentiel généralisé, si on note


Tn = ni=1 T (Xi ) alors un test UPP de niveau α est défini par φ = 1 pour Tn ∈
P
]t1 , t2 [, φ = 0 pour Tn ∈ / [t1 , t2 ], et φ = ci pour Tn = ti lorsque i = 1, 2. Les
constantes ti , ci vérifient les relations Eθi (φ) = α pour i = 1, 2.

Exemple 9.2.4 Soit le cas Gaussien (N (θ, 1), R) avec Θ0 = {θ ∈ Θ| θ ≤ θ1 ou θ ≥


θ2 } pour θ1 < θ2 et Θ1√=]θ1 , θ2 [. Alors le test de zone de rejet {|X − (θ1 + θ2 )/2| <
(θ2 − θ1 )/2 + ϕ1−α/2 / n} est UPP de niveau α.

Il n’existe pas d’autre exemple de problème de test pour lesquels un test UPP d’un
niveau donné existe.
Exemple 9.2.5 Il existe un test de même nature défini par φ = 1 pour Tn ∈ /
[t1 , t2 ], φ = 0 pour Tn ∈]t1 , t2 [, et φ = ci pour Tn = ti lorsque i = 1, 2 (et de
niveau exactement α) pour le test bilatère d’hypothèse H0 : θ ∈ [θ1 , θ2 ] contre H1 :
θ∈ / [θ1 , θ2 ] (en particulier H0 : θ = θ∗ contre H1 : θ 6= θ∗ ).
Attention, ce test n’est pas UPP de niveau α. Il n’est plus puissant que parmi les
tests sans biais de niveau α.

9.3 TRV : cas général


On se place désormais dans un modèle régulier (Pθ , Θ) identifiable et dans la
problématique de test général H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 . Le but de cette
section est de construire un test du rapport de vraisemblance dans ce contexte
général. On pose
supθ∈Θ1 Ln (θ)
V = . (9.1)
supθ∈Θ0 Ln (θ)
Définition 9.3.1 Le TRV simple consiste à rejeter l’hypothèse nulle H0 pour des
grandes valeurs de V , i.e. Rn = {V > C}.
Ce test coïncide avec le TRV φC,0 dans les cas d’hypothèses simple, de rapports
de vraisemblance monotones ou de modèles exponentiels généralisés. On sait donc
qu’il est UPP dans de nombreux cas.

Un tel test est difficile à mettre en place en général car la loi de V est inconnue.
On considère plutôt :
Proposition 9.3.1 On suppose qu’il existe un unique EMV θ̂n pour le modèle
(Pθ , Θ) et un unique EMV contraint θ̂n0 pour le modèle contraint (Pθ , Θ0 ). Le TRV
simple φC,n dans le problème H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 a pour zone de rejet

Rn : ζnRV > C, avec ζnRV := 2n(ln (θ̂n0 ) − ln (θ̂n )) et C > 0.


96 CHAPITRE 9. TEST DU RAPPORT DE VRAISEMBLANCE

Démonstration : On remarque que le test φ = 1V >C de taille α est équivalent à


φ0 = 1V 0 >C 0 de taille α avec

supθ∈Θ Ln (θ) Ln (θ̂n )


V0 = = .
supθ∈Θ0 Ln (θ) Ln (θ̂n0 )

Comme ζnRV = 2 log V 0 = 2n(ln (θ̂n0 ) − ln (θ̂n )) avec x → 2 log(x) croissante le fait
de rejeter H0 lorsque V 0 est trop grand revient à rejeter H0 lorsque 2 log(V 0 ) est
trop grand et on obtient l’équivalence de φ0 et de φC,n . 2

On sait donc que le TRV simple φn,C est UPP dans les problèmes à hypothèses
simples, de RVM ou de modèles exponentiels généralisés. De plus il est optimal
asymptotiquement pour le problème de test H0 : g(θ) = 0 contre H1 : g(θ) 6= 0
avec g : Θ 7→ Rk qui satisfait l’hypothèse (HG) (donc k ≥ d). Plus précisément on
a le résultat suivant :
χ2
Proposition 9.3.2 Si on choisit C = q1−α k
alors la suite des TRV (φC,n ) est de
niveau asymptotique α et convergente. On appelle ces tests les TRV asymptotiques.

Démonstration : On rappelle la normalité asymptotique du vecteur score obtenu


sous H0 équivaut à
L
n(θ̂n − θ̂n0 )I(θ̂n0 )(θ̂n − θ̂n0 ) −→ χ2k .
On effectue alors un développement de Taylor d’ordre 2 de ln (θ̂n0 ) au point θ̂n et
on obtient, en remarquant que ∇θ ln (θ̂n ) = 0

Hθ ln (θ̃n ) 0
ζnRV = 2n(ln (θ̂n0 ) − ln (θ̂n )) = 2n(θ̂n0 − θ̂n )T (θ̂n − θ̂n )
2

où θ̃n est un point entre θ̂n0 et θ̂n . Par la LFGN (uniforme) on sait que kHθ ln −
p.s.
IkK −→ 0 où k · kK est la norme uniforme sur un compact au voisinage de θ,
comme θ̂n0 et θ̂n sont tous les 2 fortement convergents vers θ, ils appartiennent à K
à partir d’un certain rang, d’où θ̃n appartient aussi à K pour n suffisamment grand
p.s. L
et Hθ ln (θ̃n ) − I(θ̂n0 ) −→ 0. On conclut par le théorème de Slutsky que ζnRV −→ χ2k
et ainsi que la suite (φC 0 ,n ) est bien de niveau asymptotique α.

On montre que la suite est convergente de la même manière que pour le test
du score. 2
Il n’est pas toujours facile de déterminer la loi de ζnRV et on peut alors faire
appel à l’asymptotique. Une autre méthode possible est de trouver une statistique
Tn plus simple telle que ζnRV > C ⇔ Tn > C 0 , i.e. telle que ζnRV = φ(Tn ) avec φ
strictement croissante puis de raisonner directement sur la loi de Tn .
9.3. TRV : CAS GÉNÉRAL 97

Exemple 9.3.1 On considère le modèle gaussien (N (µ, σ 2 ), (µ, σ 2 ) ∈ R × R∗+ ) et


on cherche à tester l’hypothèse nulle composite µ = µ0 contre l’hypothèse alterna-
tive composite µ 6= µ0 avec µ0 connu. On sait que
n
!
1 1 X
Ln (θ) = √ exp − 2 (Xi − µ)2
(σ 2π) n 2σ i=1

admet une unique REV θ̂n = (X n , Sn2 ) qui vérifie les conditions du second ordre.
Comme Θ est un intervalle ouvert, c’est l’unique EMV.
Le modèle contraint (N (µ, σ 2 ), Θ = {µ0 } × R∗+ ) admet lui aussi un unique EMV
θ̂n0 = (µ0 , (X − µ0 )2 n ) car
n n
!
∂ X 1 1 X n
log f (Xi , θ) = (Xi − µ0 )2 − 2 .
∂σ 2 i=1 2 σ 4 i=1 σ
 
On obtient après calcul que ζnRV 2 2
= n log (X − µ0 ) n /Sn . En remarquant qu’on
peut décomposer la variance empirique comme
n
1X
Sn2 = (Xi − µ0 )2 − (X n − µ0 )2
n i=1

on obtient directement
(X n − µ0 )2
 
ζnRV = n log 1 + .
Sn2
On en déduit la zone de rejet de niveau asymptotique α de la forme
 
|X n − µ0 |
n o q
RV χ21 χ21
ζn > q1−α ⇔ > exp(q1−α /n) − 1 .
Sn

On remarque que dans ce cadre gaussien on connaît la loi de |X n − µ0 |/Sn : à une


transformation croissante près c’est un loi de Student à n − 1 degrés de liberté.
On peut ainsi construire un zone de rejet de niveau (non asymptotique) α pour le
TRV différente de la précédente :
( p )
Sn2 Tn−1
|X n − µ0 | > √ q .
n − 1 1−α/2

On retrouve le test de Student qui est donc un TRV préférable au TRV asymptotique
car son risque de premier espèce est exactement α. En utilisant l’approximation
normale sur la loi du χ2 on vérifie bien que les 2 tests coïncident asymptotiquement.
98 CHAPITRE 9. TEST DU RAPPORT DE VRAISEMBLANCE
Chapitre 10

Tests du χ2

Dans ce chapitre on présente succinctement différents tests fondés sur la sta-


tistique du χ2 .

10.1 Tests du χ2 non paramétriques


On se place dans le cadre du modèle qualitatif à N classes décrit par une va-
riable qualitative X qui prend des valeurs {1, . . . , N } et de loi P telle que

P (X = k) = pk k ∈ {1, . . . , N }.

Le modèle est dit non paramétrique car la loi P n’appartient pas nécessairement
PN p = (p1 , . . . , pN ) décrit com-
à une loi classique. On sait seulement que le vecteur
plètement la loi de X et il vérifie 0 ≤ pk ≤ 1 et k=1 pk = 1.

Exemple 10.1.1 Soit Y un e.a. de Y de loi P 0 inconnue quelconque. Le statisti-


cien peut toujours se ramener au cadre précédent en se fixant un entier N et une
partition de Y à N éléments : {Ak }1≤k≤N . On considère alors la variable discrète
X qui vaut k lorsque Y ∈ Ak . Alors par définition pk = P 0 (Y ∈ Ak ).

10.1.1 Test d’adéquation du χ2 à une loi


Soit (X1 , . . . , Xn ) un échantillon issu du modèle qualitatif à d classes caractérisé
par p = (p1 , . . . , pN ). On veut savoir si cette échantillon est en adéquation avec
le modèle qualitatif à N classes caractérisé par q = (q1 , . . . , qN ), q étant connu
(par exemple q peut correspondre au modèle binomial B(N, θ) avec θ connu). On
a donc la problématique de test suivante

H0 : p = q contre H1 : p 6= q.

99
100 CHAPITRE 10. TESTS DU χ2

Définition 10.1.1 Pour l’adéquation à une loi, on appelle statistique du χ2 et on


note χ̂2n la v.a.
N
2
X (p̂k,n − qk )2
χ̂n = n
k=1
qk

où p̂k,n est la fréquence empirique p̂k,n = n−1 ni=1 1k (Xi ).


P

Remarquons que χ̂2n ne dépend que des observations et de q connus par le statis-
ticien. Remarquons aussi que sous H0 , la fréquence empirique p̂k,n est la moyenne
empirique des (1k (Xi )) ∼ B(qk ) car pk = qk . On admettra le résultat suivant

Proposition 10.1.1 Sous H0 , la statistique du χ2 vérifie le résultat asymptotique


L
χ̂2n −→ χ2N −1 .

On en déduit une suite de tests φn de niveau asymptotique α et convergent de zone


de rejet
χ2N −1
n o
2
Rn = χ̂n > q1−α .

Exemple 10.1.2 Dans sa célèbre expérience, Mendel a étudié l’hérédité de 4 classes


distinctes de pois notées 1, . . . , 4. Selon que les gènes correspondants soient domi-
nants ou récessifs, il obtient théoriquement une répartition (9/16, 3/16, 3/16, 1/16).
Il veut tester avec un niveau d’erreur de 5% la validité de sa théorie génétique sur
556 observations où les effectifs de classes sont (315, 101, 108, 32). On est dans le
cadre d’un test d’adéquation à une loi décrite par q = (9/16, 3/16, 3/16, 1/16). On
calcule la statistique χ̂2n correspondante et on obtient
315 9 2 101 3 2
− − ( 108 − 3 2 32
− 1 2

( 556 ) ( 556 ) ) ( 556 )
χ̂2n = 556 9
16
+ 3
16
+ 556
3
16
+ 1
16
= 0, 47
16 16 16 16

χ2 χ2
que l’on compare à q0,95
3
= 0, 7815. Puisque χ̂2n ≤ q0,95
3
il valide sa théorie génétique
avec un risque de première espèce asymptotique de 5%. On calcule la p-valeur
asymptotique de ce test, c’est à dire le plus petit niveau de risque asymptotique α
χ23
pour lequel on rejette H0 . Comme on rejette H0 lorsque 0, 47 > q1−α il suffit de
trouver le plus petit α vérifiant la relation α > 1 − F (0, 47), F étant ici la fonction
de répartition d’une χ23 . La p-valeur vaut donc 1 − F (0, 47) = 0, 93 donc on accepte
H0 mais le test n’est pas significatif. On sait que le test est convergent donc que sa
puissance tend vers 1 (son risque de second espèce tend vers 0). Il faudrait calculer
la puissance de ce test pour n = 556 fixé pour accepter significativement H0 mais
la loi sous H1 n’est pas spécifiée.
10.1. TESTS DU χ2 NON PARAMÉTRIQUES 101

10.1.2 Test d’adéquation du χ2 à un modèle


On se place toujours dans le cadre non paramétrique où (X1 , . . . , Xn ) est un
échantillon issu du modèle qualitatif à N classes caractérisé par p = (p1 , . . . , pN ).
On veut tester si l’échantillon appartient à un modèle paramétrique (Pθ , Θ) à N
classes décrit par p(θ) = (p1 (θ), . . . , pN (θ)). On est dans la problématique de test
suivante

H0 : ∃θ ∈ Θ / p = p(θ) contre H1 : ∀θ ∈ Θ / p 6= p(θ).

Contrairement au cas précédent, sous l’hypothèse nulle le modèle dépend d’un pa-
ramètre inconnu θ (par exemple q peut correspondre au modèle binomial B(N, θ)
avec 0 < θ < 1 inconnu).

On rappelle que pour construire un test d’un niveau (asymptotique) α donné,


il suffit de se placer sous l’hypothèse nulle H0 , i.e. dans le modèle paramétrique
(Pθ , Θ) ici. Sous H0 , on sait donc estimer le paramètre inconnu θ. On suppose
pour simplifier le propos que (Pθ , Θ) est un modèle régulier et identifiable et qu’il
existe une unique REV θ̂n . On sait que θ̂n est un "bon" estimateur : elle est
asymptotiquement efficace et si elle est sans biais elle est de variance minimale
(dans un modèle de la famille exponentielle). On peut ainsi raisonnablement se
ramener au test d’adéquation à la loi q = p(θ̂n ) :

Définition 10.1.2 Pour l’adéquation à un modèle, on appelle statistique du χ2 et


on note χ̂2n la v.a.
N
2
X (p̂k,n − pk (θ̂n ))2
χ̂n = n .
k=1 pk (θ̂n )

On rappelle que dans un modèle paramétrique Θ ⊂ Rd . On a alors la proposition


suivante admise

Proposition 10.1.2 Si d < N − 1 et si la fonction θ → p(θ) est différentiable


alors sous H0 la statistique du χ2 vérifie le résultat asymptotique
L
χ̂2n −→ χ2N −d−1 .

On en déduit une suite de tests φn de niveau asymptotique α et convergent de zone


de rejet
χ2N −d−1
n o
Rn = χ̂2n > q1−α .
102 CHAPITRE 10. TESTS DU χ2

Bibliographie
• Livres pour revoir les bases....

– Baillargeon, B. Probabilités, statistiques et techniques de régression. SMG.


– Bercu, B., Pamphile, P. et Azoulay, E. Probabilités et Applications - Cours
Exercices. Edisciences.
– Dress, F. Probabilités et Statistique. Dunod.
– Lecoutre, J.-P. Statistiques et Probabilités. Dunod.
• Théorie de la mesure et applications aux probabilités

– Ansel et Ducel, Exercices corrigés en théorie de la mesure et de l’intégration,


Ellipses.
– Barbe, P. et Ledoux, M., Probabilités, Belin.
– Dacunha-Castelle, D. et Duflo, M., Probabilités et Statistiques (I), Masson
– Jacod, J., Cours d’intégration, http ://www.proba.jussieu.fr/pageperso/jacod.html.
– Jacod, J., Cours de Probabilités, http ://www.proba.jussieu.fr/pageperso/jacod.html.
– Toulouse, P. Thèmes de probabilités et statistiques, Masson.
• Statistiques inférentielles

– Dacunha-Castelle, D. et Duflo, M., Probabilités et Statistiques (I), Masson.


– Fourdrinier, D., Statistique inférentielle, Dunod.
– Lecoutre, J.-M. et Tassi, P., Statistique non paramétrique et robustesse, Eco-
nomica.
– Milhaud, X., Statistique, Belin.
– Monfort, A., Cours de statistique mathématique, Economica.
– Saporta, G., Probabilités, analyse des données et statistiques. Technip.
– Tsybakov, A. Introduction à la statistique non-paramétrique. Collection : Ma-
thématiques et Applications, Springer.

Vous aimerez peut-être aussi