Stat Math Poly 2013
Stat Math Poly 2013
O. Wintenberger
ii
Préambule
Ce polycopié s’adresse aux étudiants ayant suivi un cours d’intégration, un pre-
mier cours de probabilité et un premier cours de statistique. Les notions d’algèbre
linéaire et de probabilités requises sont dans le fascicule "Rappels utiles au cours
de statistique mathématique" disponible à l’adresse http ://wintenberger.fr/ens.
La première partie présente les notions fondamentales de l’inférence statistique, à
savoir les notions d’échantillonnage, d’empirique et d’information. La seconde par-
tie traite de l’estimation, ponctuelle ou par intervalle de confiance. La troisième
partie introduit la notion de test statistique.
Table des matières
2 La méthode empirique 9
2.1 La moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 L’espérance de la moyenne empirique . . . . . . . . . . . . . 11
2.1.2 La matrice de variance-covariance de X n . . . . . . . . . . . 11
2.1.3 Loi de la moyenne empirique . . . . . . . . . . . . . . . . . . 12
2.1.4 La loi asymptotique de la moyenne empirique . . . . . . . . 13
2.2 La matrice de variance-covariance empirique . . . . . . . . . . . . . 13
2.2.1 L’espérance de Sn2 . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 La variance de Sn2 lorsque q = 1 . . . . . . . . . . . . . . . . 14
2.2.3 La loi de Sn2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4 La loi asymptotique de Sn2 . . . . . . . . . . . . . . . . . . . 17
2.3 Le couple (X n , Sn2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 L’espérance de (X n , Sn2 ) . . . . . . . . . . . . . . . . . . . . 18
2.3.2 La loi de (X n , Sn2 ) . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.3 La loi asymptotique de (X n , Sn2 ) . . . . . . . . . . . . . . . . 19
2.4 Moments empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 L’espérance du moment empirique . . . . . . . . . . . . . . . 20
2.4.2 Loi asymptotique du moment empirique . . . . . . . . . . . 20
2.5 Fonction de répartition empiriques . . . . . . . . . . . . . . . . . . 20
2.5.1 La loi de Fn (x) avec x ∈ R fixé . . . . . . . . . . . . . . . . 21
2.5.2 La loi asymptotique de Fn (x) avec x ∈ R fixé . . . . . . . . 21
iii
iv TABLE DES MATIÈRES
II L’estimation statistique 33
4 Approche non asymptotique 37
4.1 Critères de comparaison d’estimateurs . . . . . . . . . . . . . . . . 37
4.1.1 Le risque quadratique . . . . . . . . . . . . . . . . . . . . . . 37
4.1.2 Décomposition biais-variance du risque . . . . . . . . . . . . 38
4.1.3 Comparaison des variances des estimateurs sans biais . . . . 38
4.1.4 Modèles réguliers et efficacité d’estimateurs . . . . . . . . . 39
4.2 Modèles de la famille exponentielle . . . . . . . . . . . . . . . . . . 40
4.2.1 Définitions et premières propriétés . . . . . . . . . . . . . . . 41
4.2.2 Notion d’identifiabilité . . . . . . . . . . . . . . . . . . . . . 41
4.3 Estimation non asymptotique dans la famille exponentielle . . . . . 44
4.3.1 Théorème de Lehmann-Scheffé . . . . . . . . . . . . . . . . . 44
4.4 Efficacité et modèles de la famille exponentielle . . . . . . . . . . . 45
5 Approche asymptotique 47
5.1 Critères asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.1 Estimateur asymptotiquement sans biais . . . . . . . . . . . 47
5.1.2 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . 48
5.1.3 Efficacité asymptotique d’un estimateur . . . . . . . . . . . 48
5.2 Les Z-estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2.1 Les moments empiriques . . . . . . . . . . . . . . . . . . . . 51
5.2.2 La méthode des moments . . . . . . . . . . . . . . . . . . . 51
5.2.3 La méthode des moments généralisés . . . . . . . . . . . . . 52
5.2.4 Extension : les quantiles empiriques . . . . . . . . . . . . . . 52
5.3 Les M -estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.3.1 Paramètre de localisation . . . . . . . . . . . . . . . . . . . . 54
5.3.2 Estimateur des moindres carrés . . . . . . . . . . . . . . . . 54
5.3.3 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . 55
5.4 Comparaison des Z et M -estimateurs . . . . . . . . . . . . . . . . . 57
7 Régions de confiance 71
7.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Fonctions pivotales . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3 Régions de confiance asymptotiques . . . . . . . . . . . . . . . . . . 75
7.4 Fonctions pivotales asymptotiques usuelles . . . . . . . . . . . . . . 76
10 Tests du χ2 99
10.1 Tests du χ2 non paramétriques . . . . . . . . . . . . . . . . . . . . . 99
10.1.1 Test d’adéquation du χ2 à une loi . . . . . . . . . . . . . . . 99
10.1.2 Test d’adéquation du χ2 à un modèle . . . . . . . . . . . . . 101
vi TABLE DES MATIÈRES
TABLE DES MATIÈRES 1
Introduction
La science des statistiques comporte 2 aspects :
1. Les statistiques descriptives qui consistent à synthétiser, résumer, struc-
turer l’information contenue dans les données (cf monographie d’"Introduction
à la méthode statistique" de Goldfarb et Pardoux),
2. La statistique mathématique qui consiste à traduire en langage mathé-
matique la démarche d’inférence statistique.
L’inférence statistique :
3
Chapitre 1
L’échantillon aléatoire
A partir de l’observation d’une propriété sur des cas particuliers (en nombre
fini) le statisticien infère des caractèristiques de la propriété en général. La sta-
tistique mathématique se divise selon deux approches : l’approche bayésienne qui
suppose que cette propriété est aléatoire et l’approche fréquentiste qui suppose que
cette propriété est déterministe. Nous nous restreignons dans ce cours au cadre fré-
quentiste.
5
6 CHAPITRE 1. L’ÉCHANTILLON ALÉATOIRE
L’inférence statistique n’est pas utile dans le cas d’un recensement mais lorsque
X est observée uniquement sur un sous-ensemble de E (pour des raisons de coût,
de commodité,..) notée En de taille n << N : En = {ei1 , . . . , ein } où 1 ≤ ik ≤ N
et 1 ≤ k ≤ n. Nous supposons avoir procédé à la sélection de l’échantillon En de
manière aléatoire et avec remise : on sélectionne au hasard un élément de E puis il
est “remis” dans la population et peut être de nouveau sélectionné ultérieurement.
De fait, il peut y avoir un couple (k, k 0 ) tel que ik = ik0 . On est alors dans le
cas d’un tirage aléatoire avec remise. Il est clair qu’il existe dans ce cas N n /n!
différentes possibilités pour choisir En . L’inférence statistique est effectuée à partir
d’observations de la propriété X sur En . On note X1 , . . . , Xn les valeurs de X
correspondant aux éléments de En . Ce sont des valeurs aléatoires car En a été tiré
aléatoirement et le vecteur (X1 , . . . , Xn ) est l’échantillon.
1.3 L’échantillon
Afin de donner à l’échantillon un cadre mathématique commun, on suppose
que la propriété X appartient à un espace euclidien X (Rq avec q ≥ 1) muni de sa
norme euclidienne k · k. On suppose aussi que l’ensemble des caractéristiques de la
propriété X sont décrites par une mesure de probabilité P inconnue. Alors X est
un élément aléatoire (e.a.) à valeur dans X de loi P . C’est donc une application
1.3. L’ÉCHANTILLON 7
mesurable de (Ω, A) dans (X , B), où B est la tribu des Boréliens et (Ω, A, P) est
l’ensemble des événements possibles muni d’une mesure de probabilité, vérifiant
P(X ∈ B) = P (B) pour tout B ∈ B.
Définition 1.3.1 L’échantillon aléatoire (X1 , . . . , Xn ) de taille n est le vecteur
aléatoire à valeur dans l’espace produit (X , B)n = (X n , Bn ) de loi P ⊗n où
– Xn = X | × .{z
. . × X} est le produit cartésien de l’espace X ,
n fois
– Bn est la tribu des Boréliens de X n ,
– P ⊗n = P ⊗ · · · ⊗ P le produit tensoriel de P n-fois.
Pour tout 1 ≤ i ≤ n la ième observation Xi est un e.a. de même loi P que X. Les
observations sont indépendantes entre elles.
On note X1 , . . . , Xn ∼ P ou ∼ F , F étant la fonction de répartition de X. Par
définition du produit tensoriel, on a
Yn
⊗n
P (B1 × · · · × Bn ) = P (Bj ),
j=1
pour tout x1 , . . . , xn ∈ X .
Remarque 1 Dans le cas d’une population de taille finie E, étant donné que la
propriété X prend les valeurs {x1 , . . . , xN } de manière équitable, c’est à dire avec
probabilité identique, on trouve
P (X = xl ) = 1/N, ∀ l = 1, . . . , N.
On appelle cette loi la loi Uniforme Discrète sur l’ensemble {x1 , . . . , xN }. On note
X1 , . . . , Xn les observations de X sur En , un échantillon aléatoire de taille n de E.
La notation X1 , . . . , Xn ne signifie en aucun cas que les n premiers éléments de la
population ont été observés. on vérifie bien que X1 , . . . , Xn ∼ P car le tirage avec
remise assure que les observations sont iid.
Définition 1.3.2 Une réalisation (x1 , . . . , xn ) de l’échantillon aléatoire (X1 , . . . , Xn )
est le résultat des mesures associées à un événement A ∈ A :
(x1 , . . . , xn ) = (X1 (A), . . . , Xn (A)).
C’est un élément déterministe de X n . La réalisation xi de la i-ème observation
sera appelée plus simplement la i-ème réalisation.
8 CHAPITRE 1. L’ÉCHANTILLON ALÉATOIRE
Chapitre 2
La méthode empirique
9
10 CHAPITRE 2. LA MÉTHODE EMPIRIQUE
Ce cadre idéal permet d’appliquer les théorèmes classiques de convergence tels que
la LFGN et le TLC. Dans ce cours, on étudiera principalement les résultats de
type TLC :
Définition 2.0.4 Une suite de vecteurs aléatoires (Xi ) vérifie un TLC lorsqu’il
existe un vecteur gaussien centré N et un vecteur déterministe µ tel que
√ L
n(X n − µ) −→ N quand n → ∞.
Bien que la convergence en loi soit un mode de convergence plus faible que la
convergence p.s., le TLC implique la LFGN
Proposition 2.0.1 Si une suite de vecteurs aléatoires (Xn ) satisfait le TLC alors
p.s.
X n −→ µ asymptotiquement.
√ √ ∞
x2
Z
1
P(kX n k > ε) = P( n|X n | > ε n) ∼n→∞ 2 √
exp − 2 dx =: un .
ε n 2π 2σ
Or, (un ) est majorée pour n suffisamment grand par une suite convergente :
r Z ∞ r
2 1 2 √
un ≤ √
exp(−x)dx = exp(−ε n).
π ε n 2π π
Par croissance comparée, (un ) est une série convergente ainsi que (P(kX n k > ε))
et le résultat souhaité découle du lemme de Borel-Cantelli.
2.1. LA MOYENNE EMPIRIQUE 11
Même pour cette caractéristique très simple (la moyenne), la loi de la version
empirique X n n’est pas connue pour tous choix possibles de P . Par contre, on
peut calculer des caractéristiques de l’e.a. X n telles que E(X n ) et Var (X n ) dans
un cadre général.
et on obtient
N
1 X
E(X n ) = xj = xN .
N j=1
Σ2
Var (X n ) =
n
où Σ2 = E((X − E(X))(X − E(X))T ) = E(XX T ) − E(X)E(X)T est la matrice de
variance-covariance.
12 CHAPITRE 2. LA MÉTHODE EMPIRIQUE
et on obtient PN
− xN )2
j=1 (xj
Var (X n ) = .
Nn
Cas Gaussien On suppose ici que P = Nq (µ, Σ2 ) (voir définition p.26 dans les
rappels) avec µ ∈ Rq et Σ2 une matrice symétrique définie positive de taille q × q.
Alors l’échantillon (X1 , . . . , Xn ) suit une loi normale ((µ, . . . , µ)T , Σ2n ) où Σ2n est la
matrice nq × nq de la forme
2
0 ··· 0
Σ
. . . . . . ..
0 .
2
Σn = · · · . . .
.. .. ... 0
0 · · · 0 Σ2
Par stabilité de la loi normale par transformation affine, on sait que X n , qui est bien
une transformation affine de l’échantillon (X1 , . . . , Xn ), suit aussi une loi normale
Cas Bernoulli On suppose ici que P = B(p) avec 0 < p < 1. Alors on a
nX n ∼ B(n, p)
L’e.a. Sn2 est une matrice aléatoire de taille q × q, de nature plus complexe que
le vecteur aléatoire X n . Nous allons commencer par étudier son espérance, puis sa
variance dans le cas réel q = 1 avant d’en déduire sa loi (uniquement dans le cas
normal).
E(Sn2 ) = Σ2 − Var (X n ).
0
et vérifie bien que E(Sn2 ) = Σ2 .
n−1
Var (Sn2 ) = 4
(n − 1)µ 4 − (n − 3)σ
n3
où µ4 = E((X − µ)4 ) est appelé moment centré d’ordre 4 et σ 4 = Var (X)2 .
1X
Sn2 = (Xj − µ)2 − (X n − µ)2 .
n j=1
2.2. LA MATRICE DE VARIANCE-COVARIANCE EMPIRIQUE 15
Il s’ensuit que
µ4 − σ 4 µ4 − σ 4 µ4 − 3σ 4 2σ 4
Var (Sn2 ) = −2 + + 2
n n2 n3 n
µ4 − σ 4 2(µ4 − 2σ 4 ) µ4 − 3σ 4
= − +
n n2 n3
n−1
(n − 1)µ4 − (n − 3)σ 4 .2
= 3
n
µ4 − σ 4
V ar(Sn2 ) ≈ lorsque n → ∞.
n
Théorème 2.2.1 Dans le cas Gaussien réel, la loi de la variance empirique est
déterminée par la formule :
n 2
S ∼ χ2n−1
σ2 n
Démonstration : La démonstration repose sur l’application du Théorème de Co-
chran (c.f. p. 27 du fascicule "Rappels utiles au cours de statistique mathéma-
tique") sur le vecteur Gaussien isotrope (X1 − µ, . . . , Xn − µ) et sur un s.e.v. E de
Rn bien choisi. Étant donné que les Xi sont iid de loi N (µ, σ 2 ), on vérifie bien que
X = (X1 −µ, . . . , Xn −µ) est un vecteur Gaussien de Rn et de loi N (0n , σ 2 In ). C’est
donc bien un vecteur Gaussien isotrope. On s’intéresse la transformation affine qui
à X associe X0 = (X1 − X n , . . . , Xn − X n ). Si on écrit 1n la matrice de dimension
n×n qui ne contient que des coefficients 1, alors on vérifie que X0 = (In −n−1 1n )X.
Pour prouver que cette transformation T = In − n−1 1n est bien une projection
πE on vérifie que T 2 = (In − n−1 1n )2 est bien égal à T lui-même en utilisant les
relations élémentaires In2 = In , 1n In = In 1n et 12n = n1n . On en déduit que ses
valeurs propres sont soit égales à 0 soit égales à 1 et donc que le rang de T est la
somme de ses valeurs propres, égal à sa trace la somme de ses éléments diagonaux.
Ainsi
n−1 n−1
Rg(T ) = Tr(T ) = + ··· + = n − 1.
n n
2.2. LA MATRICE DE VARIANCE-COVARIANCE EMPIRIQUE 17
On en déduit que la dimension du s.e.v. E tel que T = PE vaut n−1. On peut alors
appliquer le Théorème de Cochrane et on trouve directement le résultat souhaité :
n
X
(Xi − X n )2 = kX0 k2 = kPE (X)k2 ∼ χ2n−1 .2
i=1
car dans le cas d’un loi normale on a µ4 = 3σ 4 . Cette relation vient du calcul du
moment d’ordre 4 d’une loi normale centrée réduite (par IPP) qui donne E(N 4 ) =
3, puis on centre et on réduit la variable X ∼ N (µ, σ 2 ) :
X −µ L
=N
σ
et en prenant le moment d’ordre 4 de cette variable on a
" 4 #
µ4 X −µ
4
E = E(N 4 ) = 3
σ σ
Démonstration : On commence par appliquer le TLC aux vecteurs (Xi − µ)2 iid
pour tout 1 ≤ i ≤ n, d’espérance σ 2 et de variance Var (Xi − µ)2 = E(Xi − µ)4 −
18 CHAPITRE 2. LA MÉTHODE EMPIRIQUE
Remarque 6 Hors cas Gaussien X n et Sn2 ne sont pas nécessairement des v.a.
indépendantes.
√
2
Xn µ L σ µ3
n − −→ N2 02 ,
Sn2 σ2 µ3 µ4 − σ 4
Remarque 7 Ce n’est pas parce qu’on a prouvé un "TLC" sur X n et sur Sn2
séparément qu’un "TLC" a forcément lieu sur le couple (X n , Sn2 ).
Démonstration : On applique le TLC classique sur (Xi , (Xi − µ)2 )i≥0 une suite
iid de vecteurs aléatoires (bien que Xi et (Xi − µ)2 ne soient pas iid). Comme
E((Xi , (Xi − µ)2 )) = (µ, σ 2 ) et de matrice de variance covariance (finie)
2
2 Var θ (X) Cov θ (X, (X − µ)2 ) σ µ3
Σ = =
Cov θ (X, (X − µ)2 ) Var θ ((X − µ)2 ) µ3 µ4 − σ 4
car Cov (X, (X − µ)2 ) = E(X(X − µ)2 ) − µE((X − µ)2 ). On obtient alors
√
X n µ L
n 1
Pn 2 − 2 −→ N2 (02 , Σ2 ).
n i=1 (Xi − µ) σ
23
24 CHAPITRE 3. THÉORIE DE L’INFORMATION DE FISHER
D’autre part
n!
hk (x) = f (x)F (x)k−1 (1 − F (x))n−k .
(k − 1)!(n − k)!
De plus, X(i) dépend de X(j) pour i 6= j, leur densité jointe n’est pas le produit
de leurs densités :
Théorème 3.1.3 La loi jointe du couple (X(i) , X(j) ), i < j admet pour densité
n!
f(X(i) ,X(j) ) (x, y) = F i−1 (x)f (x) × [F (y) − F (x)]j−i−1
(i − 1)!(j − i − 1)!(n − j)!
× (1 − F (y))n−j f (y) 1x≤y .
Exemple 3.1.5
– les statistiques X n , Sn2 , Mnr , Mnr 0 et Fn (x) avec x ∈ R fixé sont des statistiques
paramétriques,
– la statistique Fn est non-paramétrique.
Exemple 3.1.6
– Soit X1 , . . . , Xn ∼ U[0, θ]. On a
1
f (x1 , . . . , xn ; θ) = 10≤min1≤i≤n xi 1sup1≤i≤n xi ≤θ .
θn
En posant
1
h(x) = 10≤min1≤i≤n xi et g(T (x1 , . . . , xn ), θ) = 1T (x1 ,...,xn )≤θ
θn
on déduit que T (X1 , . . . , Xn ) = max1≤j≤n Xj = X(n) est une statistique
(d’ordre) exhaustive pour θ.
28 CHAPITRE 3. THÉORIE DE L’INFORMATION DE FISHER
– Soit X, . . . , Xn ∼ E(θ). On a
n
!
X
f (x1 , . . . , xn , θ) = θn exp −θ xj
j=1
et donc n
X
T (X1 , . . . , Xn ) = Xj
j=1
et donc n
X
T (X1 , . . . , Xn ) = Xj
j=1
(H2) Pour ν presque tout x, les fonctions θ 7→ f (x, θ) et θ 7→ log f (x, θ) sont
deux fois continûment dérivables sur Θ.
(H3) Pour tout θ∗ ∈ Θ il existe un ouvert Uθ∗ ⊆ Θ contenant θ∗ et une fonction
borélienne Λ(x) tels que
k∇θ (log f (x, θ))k ≤ Λ(x) et kHθ (log f (x, θ))k ≤ Λ(x)
(H4) La matrice −Eθ [Hθ (log f (X, θ)] de taille d×d est symétrique définie positive
pour tout θ ∈ Θ.
Exemple 3.2.1 Les modèles de Poisson (P(θ), θ > 0), exponentiel (E(λ), λ > 0)
et Gaussien (N (µ, σ 2 ), R×R∗+ ) sont réguliers mais le modèle Uniforme (U[0, θ], θ >
0) ne vérifie pas (H1).
Propriété 1
– Le score est un vecteur aléatoire centré
Eθ (S(X, θ)) = 0.
Définition 3.2.3 L’information de Fisher d’un modèle paramétrique régulier (Pθ , Θ)la
fonction qui à toute valeur du paramètre inconnu θ ∈ Θ ⊆ Rd associe une matrice
de taille d × d I(θ) vérifiant
En effet,
1 1 1
log f (x, µ, σ 2 ) = − log 2π − log σ 2 − 2 (x − µ)2 ,
2 2 2σ
∂ 2 log f (x, µ, σ 2 )
2
∂ log f (X, µ, σ 2 )
1 1
2
= − 2 ⇒ −Eθ 2
= 2
∂µ σ ∂µ σ
∂ 2 log f (x, µ, σ 2 )
2
∂ log f (X, µ, σ 2 )
1 1 2 1
2 2
= 4 − 6 (x − µ) ⇒ −Eθ 2
= 4
(∂σ ) 2σ σ (∂σ2) 2σ
∂ 2 log f (x, µ, σ 2 )
2
∂ log f (X, µ, σ 2 )
µ−x
= ⇒ Eθ = 0.
∂µ∂σ 2 σ4 ∂µ∂σ 2
Pour l’échantillon (X1 , . . . , Xn ), le vecteur score S((X1 , . . . , Xn ), θ) sera noté
Sn (θ) et l’information de Fisher associée sera notée In (θ). Par indépendance, on a
n
! n
X X
Sn (θ) = ∇θ log f (Xi , θ) = S(Xj , θ).
i=1 j=1
Or les vecteurs scores S(X1 , θ), . . . , S(Xn , θ) sont iid (de même loi que S(X, θ)).
On a donc la relation
Xn
In (θ) = Var θ (Sn (θ)) = Var θ S(Xj , θ) = nI(θ).
j=1
Enfin, remarquons que le TLC appliqué aux S(Xi , θ) donne immédiatement la loi
asymptotique du score. Pour tout θ ∈ Θ on a :
1 L
√ Sn (θ) −→ Nd (0, I(θ)) .
n
et
ITn (θ) = In (θ) ⇔ Tn est exhaustive, ITn (θ) = 0 ⇔ Tn est libre.
On sait que
n
2
Tn ∼ χ2n−1 .
σ
2
Etant donné que χn−1 = γ((n − 1)/2, 1/2), on utilise la stabilité de la loi Gamma
pour obtenir Tn ∼ γ((n − 1)/2, n/(2σ 2 )) de densité
n − 1 n n−1
2 n−3 nt
2
fTn (t, σ ) = Γ 2
t 2 e− 2σ2 1t≥0 .
2 2σ
L’estimation statistique
33
35
Préambule
Soit X un e.a. à valeurs dans (X , B) avec X ⊆ Rq issue du modèle statistique
(Pθ , Θ) avec Θ ⊆ Rd .
alors Tn est un meilleur (préférable) estimateur que Tn0 et Tn0 est un estimateur
inadmissible.
Un estimateur Tn est dit admissible si il n’existe pas d’estimateur meilleur que Tn .
37
38 CHAPITRE 4. APPROCHE NON ASYMPTOTIQUE
Exemple 4.1.1 Soit le modèle (Pθ , θ = (µ, σ 2 ) ∈ R × R∗+ ) tel que Eθ (X) = µ et
0
Var θ (X) = σ 2 . Alors Tn = (X n , Sn2 )T est un estimateur sans biais de (µ, σ 2 ).
Définition 4.1.3 L’estimateur Tn est dit plus efficace que Tn0 s’il est meilleur au
sens de la variance :
Var θ (Tn ) ≤ Var θ (Tn0 ), ∀ θ ∈ Θ et ∃θ0 ∈ Θ, Var θ0 (Tn ) < Var θ0 (Tn0 ).
On dit que l’estimateur sans biais Tn est de variance minimale si Var θ (Tn ) ≤
Var θ (Tn0 ) pour tout estimateur sans biais Tn0 et pour tout θ ∈ Θ.
1 −1
Var θ (Tn ) ≥ In−1 (θ) = I (θ).
n
La quantité In−1 (θ) est appelée la borne de Cramér-Rao.
Var θ (In−1 S − Tn ) = In−1 Var θ (Sn )In−1 − In−1 Eθ (STnT ) − Eθ (Tn S T )In−1 + Var (Tn )
= Var (Tn ) − In−1 .
Comme Var (Tn ) − In−1 s’exprime aussi comme une matrice de variance-covariance
(positive), le théorème est prouvé. 2
Remarque 11
– Le critère d’efficacité n’a de sens que pour discriminer les estimateur sans
biais.
– Un estimateur efficace est de variance minimale.
40 CHAPITRE 4. APPROCHE NON ASYMPTOTIQUE
σ2
Var (X n ) = ,
n
donc la moyenne empirique est un estimateur efficace pour µ.
(x − µ)2
1
f (x, µ, σ) = √ exp −
2πσ 2σ 2
µ2 x2
1 1 µ
= √ exp − 2 exp − 2 + 2 x
2π σ 2σ 2σ σ
µ2
1 1
avec c(θ) = exp − 2 , h(x) = √ ,
σ 2σ 2π
µ 1
α1 (θ) = 2 , α2 (θ) = − 2 , T1 (x) = x, et T2 (x) = x2 .
σ 2σ
Pour un modèle paramétrique donné l’identifiabilité n’est pas facile à vérifier. Dans
le cas de la famille exponentielle, il est possible de vérifier facilement qu’un modèle
est identifiable avec le résultat suivant :
Remarque 14
– Les famille de fonctions (αj ) et (Tj ) ne sont pas déterminée de manière
unique : on les identifie par rapport à l’expression de la densité. On choisit
ces familles les plus simples possibles de manière à ce que le modèle soit
identifiable.
– La famille de fonctions (f1 , ..., fk ) est dite affinement indépendante ssi
a1 f1 + · · · + ak fk = ak+1 =⇒ a1 = · · · = ak = ak+1 = 0.
– Une famille réduite à une fonction (f ) est affinement indépendante dès que
f n’est pas constante sur leur domaine de définition.
– Une fonction α est injective si elle est continûment différentiable (C 1 ) et que
sa matrice Jacobienne (∂αi /∂θj )1≤i≤r,1≤j≤d est continue et de rang d (r ≥ d)
en tout point θ ∈ Θ. On dit alors que α est C 1 de Jacobienne de plein rang.
– Une fonction à valeur réelle α est injective si elle est continûment dérivable
de dérivée non nulle.
est une statistique exhaustive appelée la statistique exhaustive complète. Elle est
unique à un facteur multiplicatif près.
4.2. MODÈLES DE LA FAMILLE EXPONENTIELLE 43
Exemple 4.2.3
– Dans le modèle gaussien (N (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R × R∗+ ), on est dans la
famille exponentielle avec
µ 1
α1 (θ) = , α2 (θ) = − , T1 (x) = x, et T2 (x) = x2 .
σ2 2σ 2
On vérifie que (T1 , T2 ) est une famille de fonctions affinements indépendantes
(en choisissant par exemple x = 0, 1 et −1). De plus α est C 1 car de Jaco-
bienne
− σµ4
1
σ 2
J(α(θ)) = ,
0 2σ1 4
matrice de déterminant σ −6 /2 non nulle donc de rang 2 donc de plein rang.
Le modèle (Pθ , Θ) est donc identifiable et la statistique exhaustive complète
vaut
X n n
X
Tn = Xi , Xi2 .
i=1 i=1
1 (x − µ)2
f (x, θ) = √ exp − .
2πθ 2θ
est une statistique exhaustive. Afin de pouvoir parler de variance, nous allons
supposer le modèle régulier :
Proposition 4.3.1 Un modèle de la famille exponentielle vérifiant les hypothèses
de la Proposition 4.2.1 et tel que α est 2 fois continûment différentiable et Eθ (Tj2 (X)) <
∞ pour tout 1 ≤ j ≤ r alors le modèle (Pθ , Θ) est identifiable et régulier.
Le principal résultat de ce chapitre est le suivant
Théorème 4.3.1 (Théorème de Lehmann-Scheffé) Soit un modèle de la fa-
mille exponentielle identifiable et régulier vérifiant les hypothèses de la Proposition
4.3.1. L’ unique estimateur de θ sans biais de variance minimale est l’unique fonc-
tion de la statistique exhaustive complète Tn sans biais.
4.4. EFFICACITÉ ET MODÈLES DE LA FAMILLE EXPONENTIELLE 45
Exemple 4.3.1
– Dans le modèle gaussien (N (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R×R∗+ ) on déduit du Théo-
0
rème de Lehmann-Scheffé que (X n , Sn2 ), fonction de Tn = ( ni=1 Xi , ni=1 Xi2 ),
P P
est l’estimateur sans biais de variance minimale.
– Dans le modèle gaussien (N (µ, σ 2 ), θ = σ 2 > 0) (µ est connu), l’estima-
teur (X − µ)2 n estPl’unique estimateur sans biais de variance minimale car
fonction de Tn = ni=1 (Xi − µ)2 .
– Soit (B(m, p), 0 < θ = p < 1) identifiable avec ni=1 Xi la statistique exhaus-
P
tive complète. Donc X n est l’estimateur de variance minimale.
0 2σ 2 2σ 2
Var θ (Sn2 ) = > = (In−1 (θ))2,2 .
n−1 n
– Dans le modèle gaussien (N (µ, σ 2 ), θ = σ 2 > 0) (µ est connu) identi-
fiable (X − µ)2 n est l’estimateur de variance minimale. Il est efficace car
Var θ ((X − µ)2 n ) = (µ4 − θ2 )/n = 2θ2 /n.
– Soit (B(m, p), 0 < θ = p < 1) identifiable avec X n l’estimateur de variance
minimale de variance mθ(1 − θ)/n = In−1 (θ) donc efficace.
La notion d’efficacité est souvent trop forte et n’est utile que dans un petit
nombre de modèles. On lui préfère celle de variance minimale dans le cas d’un
modèle de la famille exponentielle ou celle d’efficacité asymptotique dans le cas
d’un modèle régulier, c.f. chapitre suivant.
46 CHAPITRE 4. APPROCHE NON ASYMPTOTIQUE
Chapitre 5
Approche asymptotique
Exemple 5.1.1 Supposons que X soit de carré intégrable, i.e. Var (X) = Σ2 < ∞.
La variance empirique
n
1X
Sn2 = (Xj − X n )(Xj − X n )T
n j=1
47
48 CHAPITRE 5. APPROCHE ASYMPTOTIQUE
P
On notera Tn −→ θ (en omettant l’indice θ pour la loi P ).
Cette notion est souvent plus forte que la notion d’asymptotiquement sans biais :
Proposition 5.1.1 Un estimateur Tn asymptotiquement sans biais qui vérifie en
plus Tr(Var θ (Tn )) → 0 est convergent en moyenne quadratique (dans L2 ), i.e. son
risque quadratique R(Tn , θ) tend vers 0.
Réciproquement, un estimateur Tn convergent et tel qu’il existe X intégrable véri-
fiant kTn k ≤ X est asymptotiquement sans biais.
Démonstration : Pour le premier point, d’après la décomposition biais variance,
l’estimateur Tn est donc convergent par comparaison des modes de convergence.
Pour le second point, on utilise le théorème de convergence dominé.
Définition 5.1.3 Un estimateur Tn est fortement convergent (ou consistant) s’il
converge presque sûrement (p.s.) vers θ
Pθ ( lim Tn = θ) = 1.
n→∞
p.s.
On notera Tn −→ θ.
Un estimateur fortement convergent est convergent d’après la comparaison des
différents modes de convergence.
qui est elle même une série convergente. Par le théorème de convergence dominée,
on trouve donc pour tout > 0
X √
P( n(Tn − θ)T Σ2 (θ)−1 (Tn − θ) ≥ ) < +∞
n≥0
√ p.s.
et on conclut par Borel-Cantelli que n(Tn − θ)T Σ2 (θ)−1 (Tn − θ) −→ 0. Enfin,
il est facile de voir que pour tout θ on a Nθ (u) = uT Σ2 (θ)−1 u qui est une norme
vectorielle sur Rd . Comme toutes les normes sont équivalentes, la convergence p.s.
vers 0 du vecteur Tn − θ pour cette norme implique sa convergence p.s. vers 0 pour
la norme usuelle, autrement dit Tn est bien fortement convergent.
Remarque 15
– La convergence en loi n’entraîne pas nécessairement la convergence des ma-
trices de variance-covariance donc un estimateur peut être asymptotiquement
efficace sans pour autant avoir
Φ : X × Θ → Rd
Eθ (Φ(X, θ)) = 0d .
est un M -estimateur.
54 CHAPITRE 5. APPROCHE ASYMPTOTIQUE
On a a 7→ Eθ (X − a)2 qui est bien définie et de dérivée première −2Eθ (X) + 2a,
de dérivée seconde
R 2. C’est Rune fonction convexe qui a un unique minimum en
a = Eθ (X) = R xdPθ (x) = R (x + θ)dP (x) = θ. En notant Ψ(x, θ) = −(x − θ)2
on obtient ainsi un M -estimateur Tn de θ vérifiant
n
X n
X
2
(Tn − Xi ) = max (a − Xi )2 .
a∈R
i=1 i=1
Y = b1 + b2 X + ε,
Sous cette forme générale, l’EMV n’est pas un M -estimateur dans le sens où le
critère à maximiser s’écrit sous forme d’un produit et non d’une somme. On déduit
des propriétés de l’EMV de sa définition :
Propriété 3
1. L’EMV n’existe pas toujours.
2. Il n’y aucune raison pour que l’EMV soit sans biais.
3. L’EMV n’a aucune raison d’être unique.
Exemple 5.3.2 Soit (U[0, θ], θ > 0) alors
n
Y 1 1 1
Ln (θ) = 1 [0,θ] (Xj ) = 1 0≤X(1) ≤X(n) ≤θ = 1[ sup1≤j≤n Xj ,∞[ (θ)
j=1
θ θn θn
Exemple 5.3.3 Soient (U[θ, θ + 1], θ > 0) alors tout estimateur Tn compris entre
sup1≤i≤n Xi − 1 et inf 1≤i≤n Xi est un EMV de θ .
Proposition 5.3.1 Si le modèle (Pθ , Θ) vérifie l’hypothèse (H1) alors l’EMV est
un M -estimateur avec Ψ(x, a) = log f (x, a).
d’où Z
f (x, θ)
Eθ (Ψ(X, θ)) − Eθ (Ψ(X, a)) = log f (x, θ)dν(x).
X f (x, a)
La fonction x 7→ − log(x) étant convexe, on utilise l’inégalité de Jensen et on
trouve
Z
f (x, a)
Eθ (Ψ(X, θ)) − Eθ (Ψ(X, a)) ≥ − log f (x, θ)dν(x) = − log(1) = 0
X f (x, θ)
Théorème 5.4.1Pn Sous les conditions de loi limite des Z-estimateurs, le Z-estimateur
Tn solution de i=1 Φ(Xi , Tn ) = 0d est asymptotiquement normal
√ L
n(Tn − θ) −→ Nd (0d , VΦ (θ))
avec
T
VΦ (θ) = (Eθ [Jθ Φ(X, θ)])−1 Var θ [Φ(X, θ)](Eθ [Jθ Φ(X, θ)])−1 .
Remarque 18
1. Si la fonction θ 7→ ∇θ Ψ(x, θ) vérifie les conditions de loi limite des Z-
estimateurs, alors le M -estimateur correspondant est asymptotiquement nor-
mal √ L
n(Tn − θ) −→ Nd (0d , VΨ (θ))
avec
T
VΨ (θ) = (Eθ [Hθ Ψ(X, θ)])−1 Var θ [∇θ Ψ(X, θ)](Eθ [Hθ Ψ(X, θ)])−1 .
Dans de nombreux exemples, il est préférable d’utiliser les résultats connus sur
les statistiques empiriques (c.f. chapitre 2) qui interviennent dans les Z-estimateurs
de type moments ou moments généralisés :
Exemple 5.4.1 Soit le modèle Gamma (γ(p, λ), θ = (p, λ) ∈]0, ∞[2 ). On sait que
p p(p + 1)
Eθ (X) = m1 = et Eθ (X 2 ) = m2 =
λ λ2
et donc Φ(x, θ) = (x − p/λ, x2 − p(p + 1)/λ2 )T . On résout le système et on trouve
p = m21 /(m2 − m21 ) et λ = m1 /(m2 − m21 ) d’où
(X n )2 X n
Tn = , 2 .
Sn2 Sn
On utilise directement les résultats sur la moyenne et la variance empirique plutôt
que de vérifier les conditions de loi limite des Z-estimateurs. On sait que
√
2
Xn µ L σ µ3
n − −→ N2 02 , .
Sn2 σ2 µ3 µ4 − σ 4
En appliquant la δ-méthode à la fonction g telle que (x, y) 7→ (x2 /y, x/y) differen-
tiable sur R × R∗+ de Jacobienne
2x/y −x2 /y 2
Jg(x, y) = .
1/y −x/y 2
D’où
et on obtient finalement
√
L 2p(p + 1) 2λ(p + 1)
n(Tn − θ) −→ N2 02 , λ2 .
2λ(p + 1) p
(3 + 2p)
Sous les conditions de loi limite, tout Z-estimateur, et donc tout M -estimateur,
est asymptotiquement normale. Comparer 2 tels estimateurs (si ils existent) revient
donc à comparer leurs variances asymptotiques.
Théorème 5.4.2 Sous les conditions de loi limite des Z-estimateurs, tout Z-
estimateur Tn solution de
n
1X
Φ(Xi , Tn ) = 0d
n i=1
Or, dans le cas de l’EMV Φ = ∇θ log f (X, θ) est le vecteur score. En utilisant les
propriétés de celui-ci (cf. Chapitre 3) on obtient facilement
L’EMV est donc asymptotiquement efficace. il suffit de prouver que VΦ (θ) ≥ I −1 (θ)
pour tout θ ∈ Θ. Par définition d’un Z-estimateur, on a θ 7→ Eθ (Φ(X, θ)) = 0d
comme fonction définie sur Θ. En dérivant terme à terme, on obtient
Z Z
0= Jθ (Φ(x, θ))f (x, θ)dν(x) + Φ(x, θ)Jθ f (x, θ)dν(x)
X Z X Z
= Jθ (Φ(x, θ))f (x, θ))dν(x) + Φ(x, θ)[∇θ log(f (x, θ))]T f (x, θ)dν(x)
X X
Pour simplifier les notations, on note par des majuscules les différents e.a. J =
Jθ Φ(X, θ), Φ = Φ(X, θ) et S = S(X, θ) et on a obtenu Eθ (J) = −Eθ (ΦS T ). Par
60 CHAPITRE 5. APPROCHE ASYMPTOTIQUE
Par définition, I −1 (θ)Var θ (S)I −1 (θ) = I −1 (θ) et d’après l’identité obtenue précé-
demment
La racine de l’équation de
vraisemblance
De plus, étant donné les conditions (H2) de dérivabilité satisfaites, l’EMV θ̂nM V ∈ Θ
avec Θ ouvert est un Z-estimateur pour la fonction θ 7→ ∇θ ln (θ) :
n
1X
∇θ ln (θ̂nM V ) = − ∇θ log f (Xi , θ̂nM V ) = 0 (6.1)
n i=1
61
62 CHAPITRE 6. LA RACINE DE L’ÉQUATION DE VRAISEMBLANCE
sante : n
1X
Hθ (ln (θ̂nM V )) =− Hθ log f (Xi , θ̂nM V ) > 0 (6.2)
n i=1
c’est à dire la matrice Hessienne de la fonction de log-vaisemblance est définie po-
sitive.
Remarque 20
1. Si l’EMV existe, alors il coïncide avec une REV. L’existence de l’EMV et
celle de la REV sont donc liée, la seconde étant plus facile à étudier car ayant
lieu sous des conditions plus générales.
2. Si la REV existe et vérifie la condition du second ordre, alors il est un mi-
nimiseur local de la fonction de log-vraisemblance, i.e. un maximiseur local
de la vraisemblance. Mais ce n’est pas forcément l’EMV (voir discussion ci-
après).
3. L’hypothèse d’intégrabilité (H3) et la LFGN nous assure que
n
1X p.s.
− ∇θ log f (Xj , θ) −→ −Eθ [∇θ log f (X, θ)] = −Eθ [S(X, θ)] = 0,
n j=1
n
1X p.s.
− Hθ log f (Xj , θ) −→ −Eθ [Hθ log f (X, θ)] = I(θ).
n j=1
Le théorème suivant donne des conditions suffisantes pour que REV et EMV coïn-
cident :
Théorème 6.1.1 Si Θ est un intervalle ouvert de la forme ]θ, θ[ pour θ, θ ∈ (R ∪
{±∞})d alors une unique REV qui vérifie la condition du second ordre coïncide
avec l’unique EMV.
Démonstration : Comme la REV θ̂n vérifie la condition du second ordre, elle réa-
lise un minimum local de ln . Montrons que si Θ est un intervalle alors c’est un
maximum global. La fonction θ 7→ ∇θ ln (θ) s’annule en un unique point θ̂n de Θ.
C’est une fonction continue donc elle est de signe constant de par et d’autre de θ̂n
6.2. PROPRIÉTÉS NON ASYMPTOTIQUES DE LA REV 63
sur l’intervalle Θ. Autrement dit θ̂n est un extremum global de ln . Mais c’est aussi
un minimum local, donc c’est un minimal global et donc un EMV. Enfin, si il y
avait un autre EMV, ce serait aussi une REV distinct ce qui est en contradiction
avec l’énoncé donc l’EMV est unique. 2
Théorème 6.2.1 Si Tn est une statistique exhaustive pour θ alors l’EMV θ̂nM V est
une fonction de Tn .
L’EMV θ̂nM V satisfait par définition Ln (θ̂nM V ) ≥ Ln (θ) soit g(Tn , θ̂nM V ) ≥ g(Tn , θ)
pour tout θ ∈ Θ. Comme tout estimateur, θ̂nM V ne doit pas dépendre de θ et que
le critère à maximiser ne dépend que de Tn et θ, θ̂nM V est forcément fonction de
Tn . 2
Or,
Ln (θ̂nM V ) = sup Ln (θ) = L∗n (ϕ(θ̂nM V )).
MV )
θ∈Θ / ϕ(θ)=ϕ(θ̂n
Il vient que supη∈ϕ(Θ) L∗n (η) = L∗n (ϕ(θ̂n )) et donc ϕ(θ̂n ) (qui est clairement dans
ϕ(Θ)) est bien un maximiseur de L∗n (pas nécéssairement unique). C’est donc un
EMV de ϕ(θ). 2
Exemple 6.2.1
– Soit (N (µ, σ 2 ), θ = µ ∈ R) alors l’EV fournit une unique REV θ̂n = X n qui
est aussi l’unique EMV car Θ est un intervalle et ln00 (θ̂n ) = 1/(2σ 2 ) > 0. De
plus, il est sans biais, c’est donc aussi l’estimateur sans biais de variance
minimale (unique d’après le théorème de Lehman-Scheffé).
– Soit (N (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R × R∗+ ) alors l’EV correspond au système
µ̂ − X n
=0
2σ̂ 2
2
1 1 (X n − µ̂)
− =0
2 σ̂ 2 σ̂ 4
d’où l’unique REV θ̂n = (µ̂, σ̂ 2 ) = (X n , Sn2 ) qui est aussi l’unique EMV car
Θ est un intervalle ouvert et la condition du second ordre est satisfaite :
1
2σ̂ 2 0
Hθ (ln (θ̂n )) = > 0.
0 2σ̂1 4
Par contre, Sn2 étant biaisé, θ̂n est biaisé et ne coïncide pas avec l’estimateur
0
sans biais de variance minimale (X n , Sn2 ).
∇θ ln (θ) = 0 ⇔ ∇θ ψn (θ) = 0.
66 CHAPITRE 6. LA RACINE DE L’ÉQUATION DE VRAISEMBLANCE
Pθ (∀ n > Nε , ψn (θ ± ε) < 0) = 1.
La fonction ψn (a) étant continue, elle atteint son maximum sur [θ − ε, θ + ε]d
compact. Soit θ̂n le point le plus proche de θ pour lequel ce maximum est atteint.
Par définition ψ(θ̂n ) ≥ ψn (θ) = 0 donc θ̂n ne peut être égal ni à θ − ε ni à θ + ε
puisque ψn (θ ± ε) < 0. Le maximum est réalisé en θ̂n à l’intérieur de l’intervalle et
θ̂n vérifie la condition du premier ordre sur ψn et donc aussi celle sur la fonction
de log-vraisemblance : c’est bien une REV. On a donc ∀ε > 0 suffisamment petit,
∃Nε ∈ N tel que
Pθ ∀ n > Nε , ∃ une REV θ̂n et kθ̂n − θk < = 1.
En particulier, dès que [θ0 − ε; θ0 + ε]d ⊆ Θ (toujours possible car Θ est ouvert)
on a
Pθ ∀ n > Nε , ∃ une REV θ̂n = 1,
donc à partir du rang Nε il existe une suite de REV θ̂n . Remarquons que par
construction cette suite de REV, étant choisi comme étant la plus proche de θ,
ne dépend pas de ε (seul le rang Nε dépend de ε). Donc pour tout > 0 on a en
particulier
lim Pθ kθ̂n − θk < = 1
n→∞
(la suite est même égale à 1 à partir du rang Nε ). Donc à partir d’un certain rang
il existe bien une suite de REV θ̂n qui converge vers θ.
Montrons que cette suite de REV θ̂n convergente est aussi asymptotiquement
efficace pour θ. On définit pour tout a ∈ Θ la fonction
Pn n
j=1 S(Xj , a) 1X
ϕn (a) = = ∇θ (log f )(Xj , a).
n n j=1
6.3. PROPRIÉTÉS ASYMPTOTIQUES DE LA REV 67
0 = ϕn,j (θ̂n ) = ϕn,j (θ) + ∇(ϕn,j )(θn )T (θ̂n − θ) et θn,i ∈ [min(θi , θ̂n,i ), max(θi , θ̂n,i )],
soit T
Ij (θ) − Ij (θ) − ∇ϕn,j (θn ) (θ̂n − θ) = ϕn,j (θ)
où Ij est le j-ème vecteur colonne de I. On sait que l’ensemble C(K) des fonctions
continues définies sur le compact K = {a ∈ Θ; ka − θk ≤ ε} et muni de la norme
uniforme k·kK est un espace de Banach. Sous (H3), on vérifie pour tout1 ≤ i, j ≤ d
que
Eθ k∂ 2 log f (x, a)/∂θi θj kK < ∞.
Si ∇i est la dérivée par rapport à la i-ème coordonnée θi et Ii,j et le coefficient i, j
de l’information de Fisher, en appliquant la LFGN on obtient
Pθ lim k∇i ϕn,j (a) + Ii,j (a)kK = 0 = 1.
n→∞
k∇i ϕn,j (θn ) + Ii,j (θ)k ≤ k∇i ϕn,j (θn ) − Ii,j (θn )k + εn
P
≤ k∇i ϕn,j (a) − Ii,j (a)kK + εn −→ 0.
Corollaire 6.3.1 Soit (Pθ , Θ) un modèle régulier identifiable. Si, à partir d’un
certain rang, il existe une unique REV θ̂n alors elle est asymptotiquement efficace.
et de fonction de log-vraisemblance
n
1 X
ln (θ) = θ Xj − log θ.
n j=1
On trouve une unique REV θ̂n = (X n )−1 . Soit on vérifie que le modèle régulier
et identifiable, et d’après le corollaire 6.3.1 cette suite coïncide avec l’EMV car
Θ =]0, +∞[ et la condition du second ordre est satisfaite et comme I(θ) = θ−2 on
obtient l’efficacité asymptotique de l’EMV
√ L
n(θ̂n − θ) −→ N (0, θ2 ).
(a) Si l’EMV est biaisé, on le corrige pour obtenir un estimateur sans biais
puis calculer la variance de cet estimateur sans biais. Si l’estimateur
corrigé à une variance plus petite que la somme du biais au carré et de
la variance de l’EMV, on le préfère à l’EMV.
i. Si on est dans un modèle de la famille exponentielle c’est l’estima-
teur de variance minimale.
ii. Si on n’est pas dans un modèle de la famille exponentielle on com-
pare sa variance avec la borne de Cramer-Rao pour voir si il n’est
pas efficace.
(b) Si l’EMV est sans biais, on reprend les points i. et ii.
2. Si on n’obtient pas l’expression de la REV, alors on essaie la méthode des mo-
ments (généralisés ou non). Il faut vérifier que l’estimateur obtenu est asymp-
totiquement normal et comparer sa variance asymptotique avec la borne de
Cramer-Rao asymptotique. Si l’estimateur est asymptotiquement efficace, on
reprend les points (a) et (b).
Exemple 6.4.1 Soit le modèle Gamma (γ(p, λ), θ = (p, λ) ∈]0, ∞[2 ), on peut
vérifier que c’est un modèle régulier de la famille exponentielle. la fonction de
log-vraisemblance vaut
n
X n
X
ln (θ) = λ Xi − (p − 1) log(Xi ) − np log(λ) + n log(Γ(p))
i=1 i=1
On peut vérifier que ce système admet une unique solution qui est l’EMV. Tou-
tefois, celle-ci n’a pas d’expression analytique car l’inverse de la fonction Gamma
n’en a pas. On utilise donc l’estimateur obtenu par la méthode des moments
(X n )2 X n
Tn = , 2
Sn2 Sn
qui est asymptotiquement normal
√
L 2p(p + 1) 2λ(p + 1)
n(Tn − θ) −→ N2 02 , λ2 .
2λ(p + 1) p
(3 + 2p)
D’après le théorème de comparaison des M - et Z- estimateurs, on sait que cette
variance asymptotique est plus grande que la Borne de Cramer Rao asymptotique
I −1 (θ).
70 CHAPITRE 6. LA RACINE DE L’ÉQUATION DE VRAISEMBLANCE
Chapitre 7
Régions de confiance
7.1 Définition
Soit 0 < α < 1 un niveau de risque fixé par le statisticien.
Pθ (θ ∈ Cn ) = 1 − α, pour tout θ ∈ Θ.
Remarque 23
– Par passage au complémentaire, le niveau de risque α correspond à une ma-
joration de la probabilité que le vrai paramètre θ ne soit pas dans Cn .
– La région de confiance Cn dépend de α qui est connu par le statisticien, c’est
lui qui fixe le niveau de risque.
71
72 CHAPITRE 7. RÉGIONS DE CONFIANCE
La région de confiance Cn est une statistique non paramétrique car l’ensemble des
sous ensembles de Θ noté P(Θ) est de dimension infinie (hormis le cas où Θ est
fini). On se ramène à une statistique paramétrique en ne considérant que des sous
ensembles de forme particulière de Θ :
– dans le cas unidimensionnel Θ ⊆ R (d = 1), on choisit Cn de la forme
Cn = [An , Bn ] où An et Bn sont deux estimateurs de θ vérifiant An ≤ Bn .
La région de confiance obtenue est appelée intervalle de confiance.
– dans le cas multidimensionnel Θ ⊆ Rd avec d ≥ 1, on choisit Cn de la forme
d’une ellipsoïde :
Cn = {a ∈ Θ / kPn (a − Wn )k2 ≤ Mn }
Une fonction pivotale n’est pas unique, en pratique on utilise la fonction pivo-
tale la plus simple possible.
Exemple 7.2.1 Dans le cas du modèle Gaussien multidimensionnel (Nd (θ, Σ2 ), θ ∈
Rd ) avec Σ2 connu, d’après le théorème de Cochran la statistique
Par définition de la fonction pivotale, la loi de Qn (θ) ne dépend pas de θ donc qγSn
est bien définie : le quantile ne dépend pas non plus de θ (qui reste inconnu).
Démonstration : Il suffit de vérifier que
Pθ (θ ∈ Cn (γ)) = 1 − α
Remarque 25
– Pour chaque γ choisit correspond une région de confiance Cn (γ). En théorie,
il faut choisir γ qui correspond à la région Cn (γ) d’aire la plus petite possible.
En pratique, si la loi de la fonction pivotale est presque symétrique par rap-
port à son axe modal (la verticale passant par son mode) et par symétrie on
choisit γ = α/2. Sinon on choisit γ = 0 ou γ = α pour simplifier l’expression
de la région de confiance en comparant les aires de Cn (0) et Cn (α). Un loi
du χ2k est presque symétrique par rapport à son axe modale si k est grand
(k ∝ n) et ne l’est plus si k est petit (k ∝ d).
74 CHAPITRE 7. RÉGIONS DE CONFIANCE
– Dans le cas où la fonction pivotale Qn (θ) est réelle discrète, alors on ne peut
pas systématiquement obtenir des régions de confiance de taille 1 − α car
par définition des quantiles on peut avoir Pθ (Qn (θ) < qγSn ) 6= γ. Par contre,
avec un procédé similaire il est toujours possible de trouver une région de
confiance de niveau 1 − α même dans ce cas.
Exemple 7.2.2
– Dans le cas Gaussien (N (µ, σ 2 ), θ = µ ∈ R) avec σ 2 > 0 connu, la fonction
pivotale vaut
√
Qn (θ) = nσ −1 (X n − θ) ∼ N (0, 1).
Par symétrie de la loi normale, on choisit γ = α/2 d’où l’intervalle de
confiance centré
σ N σ N
Cn = [X n − √ q1−α/2 , X n + √ q1−α/2 ].
n n
n(X n − a)2
2
∼ χ21
σ
et choisir, comme la loi χ21 n’est pas symétrique par rapport à son axe modal,
l’intervalle de confiance
q q
2 2 χ1
2 σ χ21 σ χ21
Cn = {a ∈ Θ / n(X n − a) ≤ σ q1−α } = [X n − √ q1−α , X n + √ q1−α ].
n n
Cette RC est d’aire infini mais l’IC correspondant sur µ de niveau 1−α est de
longueur fini. Elle donne donc un encadrement précis du paramètre µ inconnu
ceci indépendamment de la valeur de σ 2 . On parle d’IC sur µ avec σ 2 inconnu
de taille 1 − α.
Exemple
√ −1 7.3.1 Soit le modèle (Pθ , θ = Eθ (X) ∈ R) avec σ 2 > 0 connu. Alors
nσ (X n − θ) n’est pas une fonction pivotale car la forme de Pθ n’étant pas
spécifiée on ne connaît pas la loi de X n .
On utilise alors une fonction pivotale asymptotique :
Définition 7.3.1 La fonction aléatoire Qn (θ) ∈ R du paramètre θ dont on veut
déterminer une région de confiance est une fonction pivotale asymptotique si c’est
une fonction de θ dont la loi limite ne dépend pas du paramètre inconnu θ ∈ Θ,
L
i.e. Qn (θ) −→ Y où la loi de Y est connue.
Exemple 7.3.2 √ Soit le modèle (Pθ , θ = Eθ (X) ∈ R) avec Var θ (X) = σ 2 > 0
connu. Alors nσ −1 (X n − θ) est une fonction pivotale asymptotique de loi limite
N (0, 1) d’après le TCL.
En suivant le schéma de construction de la section précédente, on obtient alors des
régions de confiances de taille asymptotique 1 − α :
Définition 7.3.2 La statistique Cn est une RC de niveau (taille) asymptotique
1 − α pour θ lorsque
lim Pθ (θ ∈ Cn ) ≤ (=) 1 − α, pour tout θ ∈ Θ.
n→∞
Exemple 7.3.3 √ Soit le modèle (Pθ , θ = Eθ (X) ∈ R) avec Var θ (X) = σ 2 > 0
−1
connu. Alors nσ (X n − θ) est une fonction pivotale asymptotique de loi limite
N (0, 1) d’après le TCL. On en déduit Cn l’intervalle de confiance centré en X n de
taille asymptotique 1 − α de la forme
σ N σ N
Cn = [X n − √ q1−α/2 , X n + √ q1−α/2 ].
n n
Tests d’hypothèses
79
Chapitre 8
Exemple 8.1.1 Une des premières applications de la théorie des tests était liée
au problème militaire de détection de la présence d’un missile à l’aide d’un radar.
L’écho d’un radar est "grand" si un missile est présent et il est "petit" dans le cas
contraire. Supposons qu’on observe un échantillon (X1 , . . . , Xn ) d’échos de radar
aux instants successifs 1, . . . , n. Le caractère aléatoire de ces échos est lié aux effets
de bruit de propagation d’ondes, des erreurs de mesure, etc... On se place dans le
cadre d’un modèle paramétrique où (X1 , . . . , Xn ) est issu d’un modèle Pθ avec θ
inconnu et soit Θ0 l’ensemble des paramètres correspondant à un écho suffisamment
"grand". Le problème est alors de décider à partir de l’échantillon si oui ou non
θ ∈ Θ0 , i.e. si oui ou non un missile est présent.
81
82 CHAPITRE 8. INTRODUCTION AUX TESTS PARAMÉTRIQUES
Le but du statisticien est de construire un test qui conduit à une erreur dans
le moins de cas possibles.
8.1. PROBLÉMATIQUE DE TEST 83
Définition 8.1.3
– Le risque de première espèce d’un test φn vaut supθ∈Θ0 Eθ (φn ).
– La fonction puissance d’un test est la fonction π : Θ → [0, 1] définie par la
relation π(θ) = Eθ (φn ) pour tout θ ∈ Θ1 .
– Le risque de seconde espèce d’un test φn vaut supθ∈Θ1 1 − π(θ).
– La puissance d’un test φn est la fonction π(θ) restreinte à l’ensemble Θ1 .
Remarque 28 Dans le cas d’un test simple φn = 1Rn alors le risque de première
espèce est la plus grande probabilité de rejeter à tort (commettre une erreur de
première espèce), i.e. supθ∈Θ0 Pθ (Rn ) = supH0 Pθ ("On rejette H0 "). Le risque de
seconde espèce est la plus grande probabilité d’accepter à tort (commettre une erreur
de seconde espèce), i.e. supθ∈Θ1 1 − Pθ (Rn ) = supH1 Pθ ("On accepte H0 ").
Le but du statisticien est donc de construire un test dont les risques de première
et seconde espèce sont les plus faibles possibles (ou de manière équivalente un test
dont le risque de première espèce est faible et la puissance est forte).
Parmi les tests d’un niveau α fixé il faut ensuite choisir celui qui a la plus grande
puissance π, i.e. le plus petit risque de second espèce.
Définition 8.1.5 Soit α ∈ [0, 1] et doit un test φn de niveau α. Le test φn est
sans biais si π(θ) ≥ α pour tout θ ∈ Θ1 . Il est uniformément plus puissant (UPP)
si pour tout test φ0n de niveau α et de puissance π 0 on a π(θ) ≥ π 0 (θ) pour tout
θ ∈ Θ1 .
84 CHAPITRE 8. INTRODUCTION AUX TESTS PARAMÉTRIQUES
Le principe de Neyman est de trouver un test UPP pour un niveau α qui est fixé
par le statisticien.
Exemple 8.1.2 On reprend l’exemple des missiles où on suppose que l’écho d’un
radar suit le modèle Gaussien (N (θ, 1), θ ∈ R). On veut tester si il y a un missile
ou non soit
où θ∗ est connu avec un niveau de 5%. Les deux hypothèses sont composites. On
sait que X n est une statistique exhaustive pour θ (c’est aussi l’EMV sans biais de
variance minimale). On construit un test simple dont la zone de rejet est Rn =
{X n < C} où C est une constante à déterminer. Comme X n ∼ N (θ, n−1 ), on
calcule :
√ √
Pθ (R) = Pθ (X n < C) = Pθ (θ + N/ n < C) = Φ( n(C − θ))
√
Parmi tous les tests φn = 1{X n <C} de niveau 0.05 (qui vérifient C ≤ θ∗ − 1.64/ n)
√celui qui est le plus puissant. On calcule la fonction puissance π(θ) =
on va choisir
Pθ (R) = Φ( n(C − θ)) qui est croissante avec C. Donc le test qui a la plus grande
puissance parmi les tests de la forme φn = 1{X n <C} est celui qui est associé à la
plus grande valeur de C qui assure un niveau 0.05 soit
8.1.4 p-valeur
En pratique, accepter ou rejeter l’hypothèse nulle n’a que peu de valeur scien-
tifique : il suffit de baisser la valeur du niveau α jusqu’à accepter le test (le seul
test de risque de premier espèce égal à 0 est le test φ = 0 qui accepte toujours
l’hypothèse nulle !). D’où la définition suivante
8.1. PROBLÉMATIQUE DE TEST 85
Définition 8.1.6 La p-valeur d’une famille de tests de zones de rejet Rn (α), 0 <
α < 1, est le plus petit niveau α∗ pour lequel on rejette H0 , i.e si (x1 , . . . , xn ) est une
réalisation de (X1 , . . . Xn ) alors la p-valeur vaut α∗ = inf{α ∈]0, 1[ / (x1 , . . . , xn ) ∈
Rn (α)}.
La p-valeur (p-value en anglais) est fournie en sortie des procédures de tests dans
le logiciel R.
Remarque 29
1. Si la p-valeur est plus petite que 1%, on rejette H0 pour tous les niveaux de
tests "classiques" (en général α est choisi parmi 1, 5 ou 10%). Si la p-valeur
est comprise entre 1% et 5% on a tendance à rejeter H0 , si elle est entre
5% et 10%, on rejette H0 prudemment. Dans tous ces cas, on dit que le test
est significatif car il permet de prendre une décision (rejeter H0 ) avec une
grande probabilité que H1 soit vérifiée.
2. On a tendance à accepter H0 si la p-valeur est supérieure à 10%. Mais alors
H0 n’est pas forcément vérifiée avec grande probabilité : il peut y avoir des
"faux positifs" c’est à dire des cas où on accepte H0 alors que H1 est véri-
fiée. La p-valeur (risque de première espèce) ne suffit pas pour prendre une
décision vraie avec grande probabilité lorsque celle-ci est grande (supérieur à
10%). On dit alors qu’on accepte H0 mais que le test n’est pas significatif.
Le calcul du risque de second espèce (ou de la puissance) nous permet de
quantifier cette erreur de second espèce.
H0 : θ = θ0 H1 : θ 6= θ0
pour θ0 ∈ Θ connu.
Proposition 8.1.1 Le test simple φn associé à la zone de rejet Rn = {θ0 ∈
/ Cn }
est un test de niveau α.
86 CHAPITRE 8. INTRODUCTION AUX TESTS PARAMÉTRIQUES
∀θ ∈ Θ1 , lim Pθ (φn = 1) = 1.
n→∞
La p-valeur asymptotique d’une famille de tests de zones de rejet Rn (α), 0 < α < 1,
est le plus petit niveau asymptotique α∗ pour lequel on rejette H0 .
qui est de taille asymptotique 1 − α donc la suite des tests φn de zone de rejet
√ N
Rn = {| nX n − θ0 | > σq1−α/2 }
Théorème 8.2.1 Soit un modèle régulier identifiable dans lequel il existe une
unique REV θ̂n , alors la suite de tests (φn ) de zone de rejet
χ2
Rn = {ζnW > q1−α
k
}
T1,n = ng(θ)T V −1 (θ̂n )g(θ), T2,n = n(g(θ̂n ) − g(θ))T V −1 (θ̂n )(g(θ̂n ) − g(θ)),
T3,n = 2n(g(θ̂n ) − g(θ))T V −1 (θ̂n )g(θ).
Comme g(θ̂n ) est asymptotiquement normal pour g(θ), il est aussi fortement
p.s.
convergent donc T2,n /T1,n = g(θ̂n ) − g(θ))T M (θ̂n )g(θ̂n ) − g(θ)) −→ 0 car la ma-
trice k × k M (θ̂n ) ∈ Rk converge p.s. par continuité vers M (θ) < ∞. De même,
p.s.
T3,n /T1,n = (g(θ̂n ) − g(θ))T K(θ̂n ) −→ 0 car le vecteur K(θ̂n ) ∈ Rk converge p.s.
par continuité vers K(θ) < ∞. En réécrivant ζnW = T1,n (1 + T2,n /T1,n + T3,n /T1,n )
p.s.
et comme g(θ)T V −1 (θ̂n )g(θ) −→ g(θ)T V −1 (θ)g(θ) > 0 car g(θ) 6= 0 sous H1 et
V −1 (θ) > 0, on a finalement que
p.s.
ζnW = ng(θ)T V −1 (θ̂n )g(θ)(1 + T2,n /T1,n + T3,n /T1,n ) −→ ∞.2
Théorème 8.2.2 Soit un modèle régulier identifiable dans lequel il existe un unique
EMV contraint θ̂n , alors la suite de tests (φn ) de zone de rejet
χ2
Rn = {ζnS > q1−α
k
}
n(θ̂n − θ̂n0 )T Hθ (ln (θ̂n0 ))I(θ̂n0 )−1 Hθ (ln (θ̂n0 ))(θ̂n − θ̂n0 )
p.s.
et ζnS ∼ n(θ̂n − θ̂n0 )T I(θ̂n0 )(θ̂n − θ̂n0 ) −→ +∞ en appliquant la loi forte des grands
nombres uniforme à θ → S(Xi , θ) car d’après (H4) : I(θ̂n0 ) > 0 pour tout n ∈ N.
On conclut que le test est convergent en suivant le même raisonnement que pour
le test de Wald. 2
Chapitre 9
9.1 Définition
Dans ce chapitre nous étudions le Test du Rapport de Vraisemblance (TRV)
et ses propriétés (non-)asymptotiques pour la problématique de test H0 : θ ∈ Θ0
contre H1 : θ ∈ Θ1 . Pour se faire, on suppose que le modèle paramétrique (Pθ , Θ =
Θ0 ∪Θ1 ) satisfait l’hypothèse usuelle (H1) satisfaite : le support de la loi ne dépend
pas de θ.
Définition 9.1.1 On appelle TRV tout test construit à l’aide du rapport de vrai-
semblance (RV) définit en tous points a ∈ Θ0 et b ∈ Θ1 par la relation
Ln (b)
Va,b = si Ln (a) 6= 0, Va,b = 0 sinon.
Ln (a)
Remarque 31 Le RV est bien défini car sous (H1) on a Ln (a) = 0 ⇒ Ln (b) = 0.
91
92 CHAPITRE 9. TEST DU RAPPORT DE VRAISEMBLANCE
On montre maintenant que φC,c est UPP. Soit φ un test de niveau α, i.e. tel que
Eθ0 (φ) ≤ α, on montre que Eθ1 (φC,c − φ) ≥ 0, i.e. que la puissance de φ est plus
faible que celle du TRV φC,c . Notons que
∆ = Eθ1 (φC,c − φ) − CEθ0 (φC,c − φ) = (Ln (θ1 )/Ln (θ0 ) − C)Eθ0 (φC,c − φ) .
Si φC,c (x) = 0 alors par définition Ln (θ1 )/Ln (θ0 ) − C < 0 et φC,c (x) − φ ≤ 0, et
si φk,c (x) = 1 alors Ln (θ1 )/Ln (θ0 ) − C > 0 et φC,c (x) − φ ≥ 0 car φ ∈ [0, 1]. Dans
tous les cas ∆ ≥ 0 et le résultat est prouvé. 2
Remarque 33 Si le modèle est absolument continu, i.e. admet une densité par
rapport à la mesure de Lebesgue, alors le TRV simple φC,0 de taille α est UPP.
9.2. PROPRIÉTÉS NON ASYMPTOTIQUES 93
Exemple 9.2.1
– Cas du modèle gaussien (N (θ, 1), θ ∈ R) alors
n
!
1X
Ln (θ) = (2π)−n/2 exp − (Xi − θ)2 .
2 i=1
Va,b = V (Tn , a, b) ∀a ∈ Θ0 , b ∈ Θ1 .
Le test φn est de la forme d’un TRV φC,c et son risque de première espèce supθ∈Θ0 Eθ (φn )
est égal à α.
Il n’existe pas d’autre exemple de problème de test pour lesquels un test UPP d’un
niveau donné existe.
Exemple 9.2.5 Il existe un test de même nature défini par φ = 1 pour Tn ∈ /
[t1 , t2 ], φ = 0 pour Tn ∈]t1 , t2 [, et φ = ci pour Tn = ti lorsque i = 1, 2 (et de
niveau exactement α) pour le test bilatère d’hypothèse H0 : θ ∈ [θ1 , θ2 ] contre H1 :
θ∈ / [θ1 , θ2 ] (en particulier H0 : θ = θ∗ contre H1 : θ 6= θ∗ ).
Attention, ce test n’est pas UPP de niveau α. Il n’est plus puissant que parmi les
tests sans biais de niveau α.
Un tel test est difficile à mettre en place en général car la loi de V est inconnue.
On considère plutôt :
Proposition 9.3.1 On suppose qu’il existe un unique EMV θ̂n pour le modèle
(Pθ , Θ) et un unique EMV contraint θ̂n0 pour le modèle contraint (Pθ , Θ0 ). Le TRV
simple φC,n dans le problème H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 a pour zone de rejet
Comme ζnRV = 2 log V 0 = 2n(ln (θ̂n0 ) − ln (θ̂n )) avec x → 2 log(x) croissante le fait
de rejeter H0 lorsque V 0 est trop grand revient à rejeter H0 lorsque 2 log(V 0 ) est
trop grand et on obtient l’équivalence de φ0 et de φC,n . 2
On sait donc que le TRV simple φn,C est UPP dans les problèmes à hypothèses
simples, de RVM ou de modèles exponentiels généralisés. De plus il est optimal
asymptotiquement pour le problème de test H0 : g(θ) = 0 contre H1 : g(θ) 6= 0
avec g : Θ 7→ Rk qui satisfait l’hypothèse (HG) (donc k ≥ d). Plus précisément on
a le résultat suivant :
χ2
Proposition 9.3.2 Si on choisit C = q1−α k
alors la suite des TRV (φC,n ) est de
niveau asymptotique α et convergente. On appelle ces tests les TRV asymptotiques.
Hθ ln (θ̃n ) 0
ζnRV = 2n(ln (θ̂n0 ) − ln (θ̂n )) = 2n(θ̂n0 − θ̂n )T (θ̂n − θ̂n )
2
où θ̃n est un point entre θ̂n0 et θ̂n . Par la LFGN (uniforme) on sait que kHθ ln −
p.s.
IkK −→ 0 où k · kK est la norme uniforme sur un compact au voisinage de θ,
comme θ̂n0 et θ̂n sont tous les 2 fortement convergents vers θ, ils appartiennent à K
à partir d’un certain rang, d’où θ̃n appartient aussi à K pour n suffisamment grand
p.s. L
et Hθ ln (θ̃n ) − I(θ̂n0 ) −→ 0. On conclut par le théorème de Slutsky que ζnRV −→ χ2k
et ainsi que la suite (φC 0 ,n ) est bien de niveau asymptotique α.
On montre que la suite est convergente de la même manière que pour le test
du score. 2
Il n’est pas toujours facile de déterminer la loi de ζnRV et on peut alors faire
appel à l’asymptotique. Une autre méthode possible est de trouver une statistique
Tn plus simple telle que ζnRV > C ⇔ Tn > C 0 , i.e. telle que ζnRV = φ(Tn ) avec φ
strictement croissante puis de raisonner directement sur la loi de Tn .
9.3. TRV : CAS GÉNÉRAL 97
admet une unique REV θ̂n = (X n , Sn2 ) qui vérifie les conditions du second ordre.
Comme Θ est un intervalle ouvert, c’est l’unique EMV.
Le modèle contraint (N (µ, σ 2 ), Θ = {µ0 } × R∗+ ) admet lui aussi un unique EMV
θ̂n0 = (µ0 , (X − µ0 )2 n ) car
n n
!
∂ X 1 1 X n
log f (Xi , θ) = (Xi − µ0 )2 − 2 .
∂σ 2 i=1 2 σ 4 i=1 σ
On obtient après calcul que ζnRV 2 2
= n log (X − µ0 ) n /Sn . En remarquant qu’on
peut décomposer la variance empirique comme
n
1X
Sn2 = (Xi − µ0 )2 − (X n − µ0 )2
n i=1
on obtient directement
(X n − µ0 )2
ζnRV = n log 1 + .
Sn2
On en déduit la zone de rejet de niveau asymptotique α de la forme
|X n − µ0 |
n o q
RV χ21 χ21
ζn > q1−α ⇔ > exp(q1−α /n) − 1 .
Sn
On retrouve le test de Student qui est donc un TRV préférable au TRV asymptotique
car son risque de premier espèce est exactement α. En utilisant l’approximation
normale sur la loi du χ2 on vérifie bien que les 2 tests coïncident asymptotiquement.
98 CHAPITRE 9. TEST DU RAPPORT DE VRAISEMBLANCE
Chapitre 10
Tests du χ2
P (X = k) = pk k ∈ {1, . . . , N }.
Le modèle est dit non paramétrique car la loi P n’appartient pas nécessairement
PN p = (p1 , . . . , pN ) décrit com-
à une loi classique. On sait seulement que le vecteur
plètement la loi de X et il vérifie 0 ≤ pk ≤ 1 et k=1 pk = 1.
H0 : p = q contre H1 : p 6= q.
99
100 CHAPITRE 10. TESTS DU χ2
Remarquons que χ̂2n ne dépend que des observations et de q connus par le statis-
ticien. Remarquons aussi que sous H0 , la fréquence empirique p̂k,n est la moyenne
empirique des (1k (Xi )) ∼ B(qk ) car pk = qk . On admettra le résultat suivant
χ2 χ2
que l’on compare à q0,95
3
= 0, 7815. Puisque χ̂2n ≤ q0,95
3
il valide sa théorie génétique
avec un risque de première espèce asymptotique de 5%. On calcule la p-valeur
asymptotique de ce test, c’est à dire le plus petit niveau de risque asymptotique α
χ23
pour lequel on rejette H0 . Comme on rejette H0 lorsque 0, 47 > q1−α il suffit de
trouver le plus petit α vérifiant la relation α > 1 − F (0, 47), F étant ici la fonction
de répartition d’une χ23 . La p-valeur vaut donc 1 − F (0, 47) = 0, 93 donc on accepte
H0 mais le test n’est pas significatif. On sait que le test est convergent donc que sa
puissance tend vers 1 (son risque de second espèce tend vers 0). Il faudrait calculer
la puissance de ce test pour n = 556 fixé pour accepter significativement H0 mais
la loi sous H1 n’est pas spécifiée.
10.1. TESTS DU χ2 NON PARAMÉTRIQUES 101
Contrairement au cas précédent, sous l’hypothèse nulle le modèle dépend d’un pa-
ramètre inconnu θ (par exemple q peut correspondre au modèle binomial B(N, θ)
avec 0 < θ < 1 inconnu).
Bibliographie
• Livres pour revoir les bases....