0% ont trouvé ce document utile (0 vote)

85 vues100 pages

M1 Stat

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

85 vues100 pages

M1 Stat

Transféré par

عبدالفتاح العمري لعياضي

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistiques - Notes de cours - M1

Elisabeth Gassiat
Table des matières
1 Introduction 5
1.1 Estimation et régions de confiance . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Construction d’estimateurs 13
2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Méthode des moments. Estimation empirique . . . . . . . . . . . . . . . . 14
2.3 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3 Fonction de répartition et théorème de Glivenko-Cantelli 21

4 Construction de tests 25
4.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.2 Optimalité dans le cas de deux hypothèses simples . . . . . . . . . 26
4.2 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.3 Test du chi-deux d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4 Lien entre tests et régions de confiance . . . . . . . . . . . . . . . . . . . . 28

5 Vecteurs gaussiens 31

6 Modèle linéaire gaussien 35

6.1 Définition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.2.1 Estimation de m et σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.2.2 Estimation de β et σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.3 Tests d’hypothèses linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4 Régions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.1 Région de confiance pour m . . . . . . . . . . . . . . . . . . . . . . 39
6.4.2 Région de confiance pour β . . . . . . . . . . . . . . . . . . . . . . 40
6.4.3 Région de confiance pour σ 2 . . . . . . . . . . . . . . . . . . . . . . 41

7 Eléments de théorie de la décision 43

7.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.2 Affinité de test et minoration du risque maximum . . . . . . . . . . . . . . 43
7.3 Distance et affinité de Hellinger . . . . . . . . . . . . . . . . . . . . . . . . 46
7.4 Vitesse de séparation pour le test de deux hypothèses simples . . . . . . . 50
7.5 Divergence de Kullback . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3
7.6 Estimation bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.6.1 Estimateurs admissibles et estimateurs bayésiens . . . . . . . . . . 54
7.6.2 Notion de loi conditionnelle . . . . . . . . . . . . . . . . . . . . . . 56
7.6.3 Calcul d’estimateurs bayésiens . . . . . . . . . . . . . . . . . . . . 58

8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson 63

8.1 Extension de la notion de test . . . . . . . . . . . . . . . . . . . . . . . . . 63
8.2 Cas de deux hypothèses simples . . . . . . . . . . . . . . . . . . . . . . . . 64
8.3 Tests d’hypothèses multiples . . . . . . . . . . . . . . . . . . . . . . . . . . 66

9 Etude des estimateurs sans biais 71

9.1 Exhaustivité et estimateurs UVMB . . . . . . . . . . . . . . . . . . . . . . 71
9.1.1 Exemple du modèle de Bernoulli . . . . . . . . . . . . . . . . . . . 71
9.1.2 Exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
9.1.3 Estimateurs UVMB . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.1.4 Modèle exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
9.2 Efficacité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.2.1 Score et information de Fisher . . . . . . . . . . . . . . . . . . . . 80
9.2.2 Inégalité de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . 82
9.2.3 Cas des modèles produit . . . . . . . . . . . . . . . . . . . . . . . . 83
9.2.4 Modèles exponentiels . . . . . . . . . . . . . . . . . . . . . . . . . . 84
9.3 Limites des estimateurs sans biais et de l’efficacité . . . . . . . . . . . . . 84

10 Eléments de statistique asymptotique 87

10.1 Etude asymptotique de l’estimateur du maximum de vraisemblance . . . . 87
√
10.2 Amélioration d’un estimateur n-consistant . . . . . . . . . . . . . . . . . 91
10.3 Consistance de l’estimateur du maximum de vraisemblance . . . . . . . . 92
10.4 Asymptotique du test du rapport de vraisemblance . . . . . . . . . . . . . 94
10.5 Généralisations multidimensionnelles . . . . . . . . . . . . . . . . . . . . . 95
10.6 Constructions de régions de confiance asymptotiques . . . . . . . . . . . . 96
10.7 Retour sur le test du chi-deux d’ajustement . . . . . . . . . . . . . . . . . 97
1 Introduction
En probabilité, on étudie les propriétés de variables aléatoires connaissant leur loi.
En statistique, on cherche à trouver de l’information sur la loi connaissant les variables
aléatoires.

Voici une idée de la démarche sur un exemple simple, celui du sondage.

On souhaite avoir une idée de la proportion p de personnes qui préfèrent l’option A à
l’option B dans une population de N individus (deux options possibles). Pour cela, on
interroge n personnes. On se dit que considérer, parmi ces n personnes, la proportion pb
de personnes qui préfèrent l’option A à l’option B donne une idée de p.
Bon, mais si on refait un sondage, on ne va pas retrouver la même valeur pour pb : c’est
une variable aléatoire, l’aléa vient du choix des n parmi les N . Ah oui, mais si on choisit
ces n “au hasard”, on se dit qu’on va trouver une valeur proche. Mais alors : tout le
temps ? Non ce n’est pas possible, même au hasard, on peut tomber sur un ”mauvais”
échantillon. Et une valeur proche comment ? Cela dépend de si on veut que ce résultat
arrive ”souvent”.
Essayons de formaliser tout cela. On va noter Xi = 1 si la i-ème personne interrogée
répond A et Xi = 0 si la i-ème personne interrogée répond PnB. On note alors Zn le nombre
de personnes qui ont répondu A parmi les n, soit Zn = i=1 Xi . La proportion observée
est donc pb = n1 Zn . Dire que l’on choisit n personnes au hasard parmi N , c’est dire que le
tirage de l’ensemble de ces n personnes suit la loi uniforme sur tous les sous-ensembles à
n éléments parmi les N possibles, et Zn suit alors la loi hypergéométrique de paramètre
(n, p, N ). On sait que si N est très grand par rapport à n, cette loi est approximativement
la loi binomiale B(n; p), qui est celle que l’on obtient avec un tirage avec remise (les Xi
sont alors des variables aléatoires indépendantes de même loi de Bernoulli de paramètre
p). Du coup, le fait que pb soit proche de p, et avec quelle probabilité, va pouvoir être
quantifié.
Dans cette démarche, il y a une part de modélisation qui consiste à dire quelque chose
sur la loi possible de la variable aléatoire considérée. Ici, la modélisation porte sur la loi
de Zn par l’intermédiaire de ”au hasard” et l’approximation N >> n.

On a X variable aléatoire de loi P inconnue, et la modélisation fixe P, ensemble de

lois possibles pour P , autrement dit, on a une information a priori qui est : P ∈ P.

1.1 Estimation et régions de confiance

Reprenons la situation où l’on dispose de X1 , . .P
. , Xn indépendantes de loi de Ber-
noulli B(θ), et que l’on cherche à estimer θ par n1 ni=1 Xi . On dit que X1 , . . . , Xn est

5
1 Introduction

l’observation et que n1 ni=1 Xi est un estimateur de θ. Ce vocabulaire dit seulement

P
que c’est une quantité qui ne dépend que de l’observation. C’est une variable aléatoire.
Comment savoir si cette variable aléatoire est proche de θ ?

Rappels :
— LFGN On suppose que (Xk )k≥1 est une suite de variables aléatoires réelles indépendantes
P même loi P , telle que E(|X1 |) est finie. Alors la suite de variables aléatoires
et de
( n1 ni=1 Xi )n≥1 converge presque sûrement vers E(X1 ).
— LGN On suppose que (Xk )k≥1 est une suite de variables aléatoires réelles indépendantes
et Pde même loi, telle que E(|X1 |) est finie. Alors la suite de variables aléatoires
( n1 ni=1 Xi )n≥1 converge en probabilité vers E(X1 ).
Reprendre les définitions de convergence p.s. et en probabilité qui permettent de voir
que, en ce qui concerne la question de quantifier les probabilités des écarts, la LFGN est
seulement qualitative, et que ce qui nous intéresse est la LGN.

Souvent on note X n = n1 ni=1 Xi la moyenne empirique.

P
Dans notre exemple, on a E(X1 ) = θ, donc X n semble être un ”bon” estimateur de θ.
Pour évaluer ses performances, il faut noter qu’il y a deux types d’erreurs, si on utilise
X n : |X n − θ| (l’écart entre l’estimateur X n et la valeur cible θ), et, si l’on veut préciser
cette erreur pour avoir |X n − θ| ≤ la probabilité que cette affirmation soit fausse.
On voit que ces deux erreurs varient de manière inverse : si l’on augmente la précision
(si l’on diminue ), on diminue la probabilité que l’affirmation soit vraie. On va donc
construire des fourchettes que l’on associe à des niveaux de confiance, c’est ce que l’on
appelle un intervalle de confiance : on va chercher à évaluer P (|X n − θ| ≥ ), et si
c’est inférieur ou égal à α, on dira que [X n − , X n + ] est un intervalle de confiance
pour θ de niveau de confiance 1 − α.

Il y a plusieurs choses à remarquer. D’abord, la loi P des Xi est inconnue. Elle dépend
de θ, on va donc la noter Pθ . Ensuite, l’intervalle de confiance est un intervalle aléatoire.
Si on renouvelle l’expérience, il change. Et ce que l’on veut contrôler, on souhaite que
cela soit valide bien que l’on ne connaisse pas la loi, puisque justement c’est l’objectif,
donc que ce soit vrai quel que soit θ.

Définition 1.1.1. Soit α ∈ [0, 1]. On dit que I est un intervalle de confiance pour
θ ∈ Θ de niveau de confiance 1 − α si et seulement si
— I est un intervalle aléatoire, dont les bornes sont des variables aléatoires fonction
de l’observation
—
∀θ ∈ Θ, Pθ (θ ∈ I) ≥ 1 − α.
Dans l’exemple, Θ = [0, 1]. Noter que dans l’événement ”θ ∈ I” c’est I qui est
aléatoire, pas θ qui est une quantité fixe (mais inconnue). Reprendre l’exemple pour
lire la définition.

6
1.1 Estimation et régions de confiance

On veut donc évaluer P (|X n − θ| ≥ ). Outils ?

Rappels :
— Inégalité de Markov Si Z est une variable aléatoire réelle positive ou nulle, alors

E(Z)
∀t > 0, P (|Z| ≥ t) ≤ .
t
(Ceci n’a un intérêt que si E(Z) est finie).
— Inégalité de BT Si Z est une variable aléatoire réelle admettant une espérance
et une variance, alors

V ar(Z)
∀t > 0, P (|Z − E(Z)| ≥ t) ≤ .
t2
Se rappeler les preuves.
Sur l’exemple : V ar(X n ) = θ(1−θ)n (bien détailler pourquoi), et donc ∀θ ∈ [0, 1],
θ(1−θ)
Pθ (|X n − θ| ≥ ) ≤ n2 . Par ailleurs, par l’étude de la fonction θ 7→ θ(1 − θ), on
voit que ∀θ ∈ [0, 1], θ(1 − θ) ≤ 1/4. On a donc
1
∀θ ∈ [0, 1], Pθ |X n − θ| ≥ ≤ .
4n2
ceci se réécrit en (détailler les étapes)
1
∀θ ∈ [0, 1], Pθ X n − < θ < X n + ≥ 1 − ,
4n2

ce qui montre que l’intervalle I =]X n − ; X n + [ est un intervalle de confiance pour

1
θ ∈ Θ de niveau de confiance 1 − 4n 2 . Si l’on fixe α et que l’on veut un intervalle de
√
niveau de confiance 1 − α, il faut choisir = 1/2 nα. En ce qui concerne n, on voit que
la probabilité d’erreur décroit en 1/n. Dans ce cas, on peut utiliser une inégalité plus
performante, qui donne une décroissance exponentielle en n.

Proposition 1.1.1 (Inégalité de Cramer-Chernoff.). Soient X1 , . . . , Xn des variables

aléatoires réelles indépendantes et de même loi P telle que pour tout λ > 0, ψ(λ) soit
fini en posant
ψ(λ) = log E eλ(X1 −E(X1 )) .

Alors
∀ > 0, ∀λ > 0, P X n − E(X1 ) ≥ ≤ e−n(λ−ψ(λ)) .

Preuve : On a pour tout λ > 0

1X n −E(X1 )≥ = 1λ(X n −E(X1 ))≥λ

≤ exp λ(X n − E(X1 )) − λ

7
1 Introduction

donc en prenant l’espérance

P X n − E(X1 ) ≥ ≤ E exp λ(X n − E(X1 )) − λ
n
Y λ
= e−λ E[e n (Xi −E(X1 )) ]
i=1

car les Xi sont indépendants. Puis comme ils ont même loi, pour tout i = 1, . . . , n,
λ
log E[e n (Xi −E(X1 )) ] = ψ( nλ ), donc pour tout λ > 0
λ
P X n − E(X1 ) ≥ ≤ e−λ+nψ( n )

et l’on obtient la proposition en posant λ̃ = λ/n.

Lemme 1.1.1 (Lemme de Hoeffding.). Soit Y une variable aléatoire réelle de loi P telle
que, pour des réels a et b, a ≤ Y ≤ b, et telle que E(Y ) = 0. Alors
h i λ2 (b − a)2
∀λ ∈ R, log E eλY ≤ .
8
Preuve :
On a
b−a a+b b−a
− ≤Y − ≤
2 2 2
donc
a + b 2 (b − a)2

Y − ≤ .
2 4
Du coup, si Q est une probabilité sur [a, b], on a (dire pourquoi !)

(b − a)2
V arQ (Y ) ≤ .
4

Prenons maintenant pour tout réel λ, dQλ (y) = eλy−φ(λ) dP (y), en posant φ(λ) =
log EP eλy (dire pourquoi ça existe). Maintenant, on obtient facilement que φ est deux
fois dérivable (dire pourquoi et faire les calculs !) et que pour tout λ,

φ00 (λ) = V arQλ (Y ) .

Donc
(b − a)2
∀λ ∈ R, φ00 (λ) ≤ .
4
En intégrant entre 0 et λ,

λ(b − a)2
∀λ ∈ R, φ0 (λ) − φ0 (0) ≤ ,
4

8
1.1 Estimation et régions de confiance

mais φ0 (0) = EP (Y ), donc en intégrant de nouveau entre 0 et λ,

λ(b − a)2
∀λ ∈ R, φ(λ) − φ(0) ≤ ,
4
et enfin φ(0) = 1.

Conséquence pour notre exemple :

Proposition 1.1.2. Soient X1 , . . . , Xn des variables aléatoires réelles indépendantes et

de même loi Pθ = B(θ). Alors
2
∀ > 0, ∀θ ∈ [0, 1], Pθ |X n − θ| ≥ ≤ 2e−2n .

Preuve : On fixe > 0 et θ ∈ [0, 1].

En appliquant le lemme de Hoeffding à chaque Xi (avec a = −θ et b = 1 − θ, donc
b − a = 1) puis l’inégalité de Cramer-Chernoff, on obtient pour tout λ > 0
λ2
Pθ X n − θ ≥ ≤ e−n(λ− 8 ) .

Donc
λ2
Pθ X n − θ ≥ ≤ e−n supλ>0 (λ− 8 ) .

λ2
Mais supλ>0 (λ − 8 ) = 22 , donc
2
Pθ X n − θ ≥ ≤ e−2n .

Par ailleurs, les θ − Xi , i = 1, . . . , n sont aussi des variables aléatoires indépendantes

centrées de même loi et telles que θ − 1 ≤ θ − Xi ≤ θ donc le même raisonnement donne
2
Pθ θ − X n ≥ ≤ e−2n

et l’on termine par Pθ |X n − θ| ≥ = Pθ X n − θ ≥ + Pθ θ − X n ≥ .

On peut aussi penser, pour contrôler Pθ |X n − θ| ≥ à des résultats asymptotiques.

Rappel TLC : On suppose que (Xk )k≥1 est une suite de variables aléatoires réelles
indépendantes et de même loi, admettant une espérance et une variance. Alors la suite
!!
√ X n − E(X1 )
n p
V ar(X1 ) n≥1

converge en loi vers U , variable aléatoire réelle de loi N (0, 1).

Se rappeler la définition de convergence en loi et les différents critères équivalents de
convergence en loi.

9
1 Introduction

Retour à l’exemple : lorsque (Xk )k≥1 est une suite de variables aléatoires réelles
indépendantes et de même loi Pθ = B(θ), on a par le TLC
! Z +∞
√ Xn − θ 1 u2
∀θ ∈ [0, 1], ∀ > 0, lim Pθ n p ≥ =2 √ e− 2 du
n→+∞ θ(1 − θ) 2π

par parité de la densité de la loi N (0, 1), soit (écrire les détails)
p p !
θ(1 − θ) θ(1 − θ)
∀θ ∈ [0, 1], ∀ > 0, lim Pθ Xn − √ ≤ θ ≤ Xn + √ = 2F () − 1
n→+∞ n n

en notant F la fonction
p de répartition de la loi N (0, 1).
1
Comme pour tout θ, θ(1 − θ) ≤ 2 ,
p p !
θ(1 − θ) θ(1 − θ)
∀θ ∈ [0, 1], ∀ > 0, Pθ Xn − √ ≤ θ ≤ Xn + √
n n

≤ Pθ X n − √ ≤ θ ≤ X n + √
2 n 2 n
et on a

∀θ ∈ [0, 1], ∀ > 0, lim inf Pθ Xn − √ ≤ θ ≤ Xn + √ ≥ 2F () − 1.
n→+∞ 2 n 2 n

On obtient ainsi que

Xn − √ ; Xn + √
2 n 2 n
est un intervalle de confiance pour θ ∈ Θ asymptotiquement de niveau de confiance 1−α,
si l’on a choisi de sorte que F () = 1 − α/2. On note u1−α/2 un tel .
Par exemple, pour α = 0.05, on obtient u1−α/2 ≈ 1.96, donc pour avoir une préxcision
de 0.01 (largeur de l’intervalle de confiance) il faut n ≈ 104 .

Définition 1.1.2. Soit α ∈ [0, 1]. Soit (Xk )k≥1 une suite de variables aléatoires réelles
indépendantes et de même loi Pθ . On dit que In est un intervalle de confiance pour
θ ∈ Θ asymptotiquement de niveau de confiance 1 − α si et seulement si
— In est un intervalle aléatoire, dont les bornes sont des variables aléatoires fonction
de l’observation X1 , . . . , Xn
—
∀θ ∈ Θ, lim inf Pθ (θ ∈ In ) ≥ 1 − α.
n→+∞

1.2 Tests
Imaginons que le sondage soit fait dans un contexte de contrôle de qualité, et que θ
soit la proportion de pièces défectueuses dans la production.

10
1.2 Tests

La question à laquelle le statisticien s’intéresse ici est de savoir si cette proportion est,
par exemple, bien inférieure à 5%. Autrement dit, étant donné une valeur θ0 fixée, il
s’agit de décider si θ ≤ θ0 au vu du résultat du sondage.
Une approche naı̈ve pourrait être de décider que oui, en effet, θ ≤ θ0 si l’observation
est telle que X n ≤ θ0 et non, ce n’est pas le cas, si l’observation est telle que X n > θ0 .
En réfléchissant un peu, on voit que ce n’est pas la bonne méthode, car alors, si en fait
θ = θ0 , et que l’on ”devrait” décider que oui, en effet, θ ≤ θ0 et bien la probabilité de se
tromper en décidant que ce n’est pas le cas, est proche de 1/2 pour n grand.
Par contre, il semble que décider que oui, en effet, θ ≤ θ0 si l’observation est telle
que X n ≤ t et non, ce n’est pas le cas, si l’observation est telle que X n > t soit une
bonne procédure. Toute la question est de choisir le seuil de décision t. Pour cela, on va
quantifier les erreurs de décision. Il y a deux erreurs de décision possible : décider que
θ ≤ θ0 alors qu’en fait θ > θ0 , et décider que θ > θ0 alors qu’en fait θ ≤ θ0 . Notons

α = sup Pθ X n > t .
θ≤θ0

α est appelée erreur de première espèce, elle quantifie la probabilité maximum de

l’erreur que l’on fait en décidant que θ > θ0 alors qu’en fait θ ≤ θ0 .
Si l’on note maintenant
β = sup Pθ X n ≤ t ,
θ>θ0

β est appelée erreur de deuxième espèce, elle quantifie la probabilité maximum de

l’erreur que l’on fait en décidant que θ ≤ θ0 alors qu’en fait θ > θ0 .
On souhaite choisir le seuil t de sorte que ces deux erreurs soient petites.
Proposition 1.2.1. Soient X1 , . . . , Xn des variables aléatoires réelles indépendantes
et
de même loi Pθ = B(θ). Alors, pour t fixé, la fonction θ 7→ Pθ X n > t est croissante,

et pour toute valeur θ0 , pour tout t, supθ≤θ0 Pθ X n > t + supθ>θ0 Pθ X n ≤ t = 1.
Preuve : Soient U1 , . . . , Un des variables aléatoires réelles indépendantes et de même
loi uniforme sur [0, 1]. Pour tout θ ∈ [0, 1], 1U1 ≤θ est de loi B(θ), et donc
n
!
1X
Pθ X n > t = P 1Ui ≤θ > t .
n
i=1

Mais θ 7→ 1Ui ≤θ est une fonction croissante, donc θ 7→ P n1 ni=1 1Ui ≤θ > t est aussi
P

une fonction croissante. Donc

P son maximum pour θ ∈ [0, θ0 ] est atteint en θ0 . De même,
Pθ X n ≤ t = 1 − P n1 ni=1 1Ui ≤θ > t est une fonction décroissante de θ, c’est une
fonction continue de θ (car polynomiale ; l’écrire
!) donc son maximum
pour θ ∈]θ0, 1]
est en θ0 . On a donc supθ≤θ0 Pθ X n > t + supθ>θ0 Pθ X n ≤ t = Pθ0 X n > t +

Pθ0 X n ≤ t = 1.

Comment choisir t ? Si l’on cherche à rendre α petit, il faut choisir t assez grand, mais
alors β = 1 − α ne sera pas petit.
Si l’on choisit t = θ0 , alors pour n grand α et β sont proches de 1/2, ce qui n’est pas

11
1 Introduction

satisfaisant dans un contexte de contrôle de qualité.

Ce que l’on peut faire, c’est choisir t de sorte que α soit petit, et que, lorsque θ1 > θ0 ,
pour θ1 pas trop proche de θ0 on ait supθ>θ1 Pθ X n ≤ t petit.

Introduisons maintenant la notion de test statistique.

Définition 1.2.1. Soient Θ0 et Θ1 deux sous-ensembles disjoints de Θ.

Un test statistique de l’hypothèse H0 : “θ ∈ Θ000 contre l’alternative H1 : “θ ∈ Θ001
est une variable aléatoire φ fonction mesurable de l’observation et à valeur dans {0, 1}.
On appelle région de rejet l’ensemble des valeurs de l’observation pour lesquelles φ = 1.
La taille du test est supθ∈Θ0 Eθ φ.
On appelle puissance du test la fonction θ 7→ Eθ φ.
On dit que le test est de niveau α si sa taille est majorée par α, ou autrement dit si la
fonction puissance, pour θ ∈ Θ0 , est majorée par α.

Un test est une procédure de décision : si φ = 1, on décide H1 , on dit aussi que l’on
rejette H0 . Si φ = 0, on décide H0 , on dit aussi que l’on accepte H0 .

Reprenons l’exemple.
Allure de la fonction puissance, qui croit de 0 à 1 sur [0, 1].

De même que pour les intervalles de confiance, on peut parler de test asymptotique-
ment de niveau α si (φn ) est une suite de tests de H0 : “θ ∈ Θ000 contre H1 : “θ ∈ Θ001
tel que
∀θ ∈ Θ0 , lim sup Eθ φn ≤ α.
n→+∞

En utilisant le théorème de limite centrale, on voit que si l’on choisit comme seuil, dans
l’exemple, p
u1−α θ0 (1 − θ0 )
tn = θ 0 + √
n
alors le test φn = 1X n ≥tn est asymptotiquement de niveau α pour tester H0 : “θ ≤ θ000
contre H1 : “θ > θ000 . √
u1−α θ0 (1−θ0 )
Aussi, en prenant θ1 = θ0 + 2 √
n
, on obtient

∀θ ≥ θ1 , lim sup Eθ φn ≥ 1 − α,
n→+∞

soit
∀θ ≥ θ1 , lim sup Pθ X n ≤ tn ≤ α.
n→+∞

12
2 Construction d’estimateurs

2.1 Généralités
On considère le modèle statistique avec l’observation X, à valeurs dans X muni d’une
tribu A, et une famille de probabilités (Pθ )θ∈Θ sur (X , A).
Si Θ ⊂ Rk pour un entier k, on dit que le modèle est paramétrique.
Si Θ est une partie d’un espace de dimension infinie (par exemple : l’ensemble des
probabilités ayant une densité sur R), on dit que le modèle est non paramétrique.
Soit g une fonction de Θ dans un ensemble Y muni d’une tribu B. Un estimateur de
g(θ) est une variable aléatoire T (X), où T est une fonction mesurable de X dans Y.
On appelle biais la quantité g(θ) − Eθ [T (X)]. (Rappel : on note Eθ l’espérance prise
sour la probabilité Pθ , c’est à dire pour X de loi Pθ ). Noter que le biais est une fonction
de θ.
On dit que T (X) est un estimateur sans biais de g(θ) si et seulement si

∀θ ∈ Θ, Eθ [T (X)] = g(θ).

Pour évaluer la qualité d’un estimateur, on introduit une fonction de perte :

L : Y × Y → R+

vérifiant : ∀y ∈ Y, L(y, y) = 0, ∀(y, y 0 ) ∈ Y 2 , L(y, y 0 ) = L(y 0 , y) (L est symétrique), de

sorte que L(g(θ), T (X)) évalue un écart entre l’estimateur et la valeur cible.

On appelle risque de l’estimateur T (X) la fonction

θ 7→ Eθ [L(g(θ), T (X))] .

On cherche alors des estimateurs qui rendent ce risque petit. (C’est une fonction, donc
il faut choisir le sens de “petit”, on y reviendra !).
Exemples :
— Risque quadratique : lorsque Y = R, et L(y, y 0 ) = (y − y 0 )2 , le risque est
Eθ [(g(θ) − T (X))2 ].
On a la décomposition “biais-variance” : risque quadratique=carré du biais +
variance

Eθ [(g(θ) − T (X))2 ] = (g(θ) − Eθ [T (X)])2 + V arθ [T (X)].

Ecrire la preuve.

13
2 Construction d’estimateurs

— Risque de test/ de classification : lorque L(y, y 0 ) = 1y6=y0 , le risque est

Eθ [1T (X)6=g(θ) ] = Pθ (T (X) 6= g(θ)) .

Lorsque l’on considère une suite d’expériences statistiques, de sorte que pour tout
entier n, on dispose d’une observation (X1 , . . . , Xn ) et d’une famille de probabilités
(Pθ,n )θ∈Θ sur (X n , An ) (par exemple, à partir d’une suite de variables i.i.d., de sorte que
Pθ,n = Pθ⊗n ), si (Tn (X1 , . . . , Xn ))n≥1 est une suite d’estimateurs de g(θ), on dira que :
— Tn est un estimateur fortement consistant de g(θ) si et seulement si

∀θ ∈ Θ, lim Tn (X1 , . . . , Xn ) = g(θ) Pθ − p.s..

n→+∞

— Tn est un estimateur consistant de g(θ) si et seulement si

∀θ ∈ Θ, Tn (X1 , . . . , Xn ) →n→+∞ g(θ) en Pθ − probabilité,

autrement dit, si Y ⊂ Rm et si k·k est une norme (par exemple la norme euclidienne)
sur Rm ,

∀θ ∈ Θ, ∀ > 0, lim Pθ,n (kTn (X1 , . . . , Xn ) − g(θ)k ≥ ) = 0.

n→+∞

Remarque : par abus de notation, j’utiliserai Tn pour Tn (X1 , . . . , Xn ) (comme fait

ci-dessus).

2.2 Méthode des moments. Estimation empirique

On considère (Xn )n≥1 une suite de variable aléatoires indépendantes identiquement
distribuées sur X .
Soit φ : X → R une fonction telle que pour tout θ ∈ Θ, φ ∈ L1 (Pθ ).
Soit g : Θ → R donnée par

∀θ ∈ Θ, g(θ) = Eθ [φ(X)].

L’estimateur de g(θ) obtenu par la méthode des moments est

n
1X
Tn = φ(Xi ).
n
i=1

Alors, Tn est un estimateur sans biais et consistant de g(θ).

Exemple : le sondage vu au premier chapitre.

Plus généralement, on parle de méthode des moments lorsque l’on construit un esti-
mateur avec des moyennes empiriques.

14
2.3 Maximum de vraisemblance

Exemple du modèle gaussien : Soit (Xn )n≥1 une suite de variable aléatoires
indépendantes identiquement distribuées sur R, de loi N (m, σ 2 ).
Le modèle est alors, pour la loi de X1 , (Pθ )θ∈Θ avec θ = (m, σ 2 ) et Θ = R × R+,∗ . Un
estimateur de θ obtenu par la méthode des moments est θbn = (m c2 n ) avec
b n, σ
n n n
!2
1X c2 n = 1 X
2 1 X
m
bn = Xi , σ Xi − Xi .
n n n
i=1 i=1 i=1

Il est consistant (dire pourquoi). Est-il sans biais ? (calculer le biais).

La méthode des moments est une méthode qui utilise donc des moments calculés avec
la mesure empirique Pn , qui est une mesure de probabilité aléatoire qui met en chaque
Xi la masse 1/n :
n
1X
Pn = δXi .
n
i=1
Dans l’exemple précédent,
Z Z Z 2
2 2
b n = xdPn (x), σ n = x dPn (x) −
m c xdPn (x) .

Tous les moments empiriques sont des estimateurs consistants de l’espérance de la

fonction, la méthode fonctionne car Pn est un bon estimateur de Pθ . En quel sens ? Au
moins en ce qui concerne la fonction de répartition, c’est ce que l’on verra au prochain
chapitre (voir Théorème de Glivenko-Cantelli).

2.3 Maximum de vraisemblance

On dit que le modèle statistique est un modèle dominé si il existe une mesure posi-
tive µ su (X , A) telle que : pour tout θ ∈ Θ, Pθ est absolument continue par rapport à
µ.
Se rappeler la définition de “absolument continue”.

En ce cas, pour tout θ ∈ Θ, il existe une fonction mesurable fθ de X dans R telle que
Pθ = fθ µ, c’est la densité de Pθ par rapport à µ.
On appelle alors vraisemblance la variable aléatoire fonction de θ :

L(θ) = fθ (X),

et log-vraisemblance la variable aléatoire fonction de θ :

`(θ) = log fθ (X).

Pour estimer θ, on peut choisir la valeur de θ qui rend la densité maximale en la valeur de
l’observation, c’est ce que l’on appelle l’estimateur du maximum de vraisemblance :

θb = argmaxθ∈Θ L(θ) = argmaxθ∈Θ `(θ).

15
2 Construction d’estimateurs

Se posent alors les questions d’existence et d’unicité.

Lorsque le modèle statistique est celui de n variables aléatoires indépendantes X1 , . . . , Xn

de loi Pθ , θ ∈ Θ, si le modèle est dominé (par la mesure µ), alors le modèle (Pθ⊗n )θ∈Θ
est dominé par µ⊗n . Si pour tout θ ∈ Θ, Pθ = fθ µ, alors la vraisemblance est
n
Y
Ln (θ) = fθ (Xi ),
i=1

et la log-vraisemblance est :
n
X
`n (θ) = log fθ (Xi ).
i=1
Exemples
— Modèle de Bernoulli. Soit (X1 , . . . , Xn ) i.i.d. de loi de Bernoulli B(θ), θ ∈ [0, 1].
La loi de Bernoulli est absolument continue par rapport à µ = δ0 + δ1 . Une façon
X 1−X . On a alors en notant
Pnd’écrire la vraisemblance est L(θ) = θ (1 − θ)
pratique
Sn = i=1 Xi :
`n (θ) = Sn log θ + (n − Sn ) log(1 − θ).
Le maximum de vraisemblance est θbn = Sn /n. (Le démontrer).
— Modèle Gaussien. Soit (X1 , . . . , Xn ) i.i.d. de loi N (m, σ 2 ), m ∈ R, σ 2 ∈ R+,∗ .
La loi gaussienne N (m, σ 2 ) est absolument continue par rapport à Lebesgue, de
2 2
densité σ√12π e−(x−m) /2σ , donc
n
X (Xi − m)2 n
`n (m, σ 2 ) = − − log(2πσ 2 ).
2σ 2 2
i=1

Le maximum de vraisemblance est

n n n
!2
1X c2 n = 1
X 1X
m
bn = Xi , σ Xi2 − Xi .
n n n
i=1 i=1 i=1

(Le démontrer).
Il est clair que si l’on change de mesure dominante, la vraisemblance change (le voir
sur les deux exemples). Que se passe-t-il alors pour l’estimateur du maximum de vrai-
semblance ? On peut voir sur les deux exemples que, en changeant de mesure dominante,
on ne change pas l’estimateur du maximum de vraisemblance (Le faire ! Et voir ce qui
change et ce qui ne change pas !). En fait, c’est un résultat général, qui justifie la notion
(intrinsèque) d’estimateur du maximum de vraisemblance.
Proposition 2.3.1. Si un modèle (X , A, (Pθ )θ∈Θ ) est dominé, alors il existe une pro-
babilité Q qui domine le modèle et qui vérifie

∀A ∈ A, Q(A) = 0 ⇐⇒ ∀θ ∈ Θ, Pθ (A) = 0.

On dit alors que Q est une dominante privilégiée du modèle.

16
2.3 Maximum de vraisemblance

Remarque : il n’y a pas unicité de la dominante privilégiée, toute autre mesure de

probabilité équivalente à Q est une dominante privilégiée.

Preuve : Soit µ une mesure dominante. On commence par construire une probabilité
P équivalente à µ et qui domine le modèle. La mesure µ est sigma-finie, donc il existe
une collection au plus dénombrable d’ensembles mesurables An , n ∈ N , qui forme une
P de X et tels que pour tout n, µ(An ) < +∞. On choisit (λn )n∈N des réels tels
partition
que n∈N λn = 1 et tels que

∀n ∈ N, µ(An ) > 0 ⇐⇒ λn > 0.

On pose P telle que

dP X λn
(x) = 1A (x).
dµ µ(An ) n
n∈N

On a pour tout ensemble mesurable A,

X λn µ(A ∩ An )
P (A) =
µ(An )
n∈N

ce qui montre que P est une probabilité absolument continue par rapport à µ, et que si
P (A) = 0, alors pour tout n ∈ N , µ(A ∩ An ) = 0, donc µ(A) = 0 et µ est absolument
continue par rapport à P . Du coup aussi, pour tout θ ∈ Θ, Pθ est absolument continue
par rapport à P .
Notons maintenant Fθ = dPθ /dP . L’ensemble Aθ = {Fθ > 0} est mesurable. Soit C la
collection des réunions au plus dénombrables d’ensembles Aθ , et posons

M = sup P (C).
C∈C

On a M ≤ 1. Soit Cn une suite d’éléments de C tels que P (Cn ) ≥ M − 1/n. Soit

C ? = ∪n≥1 Cn . C ? ∈ C, et P (C ? ) ≥ M , donc P (C ? ) = M . Comme C ? ∈ C, il existe
une collection au plus dénombrable (θj )j∈J d’éléments P de Θ tels que C ? = ∪j∈J Aθj . Soit
ensuite (λj )j∈J des réels strictement positifs tels que j∈J λj = 1, et soit Q la mesure
telle que
dQ X
(x) = λj Fθj (x).
dP
j∈J
P
On a pour tout ensemble mesurable A, Q(A) = j∈J λj Pθj (A), donc Q est une proba-
bilité telle que si A est tel que, pour tout θ ∈ Θ, Pθ (A) = 0, alors Q(A) = 0. Il s’agit
maintenant de montrer la réciproque.
Démontrons tout d’abord que

∀θ ∈ Θ, P (Aθ ) = P (Aθ ∩ C ? ).

En effet, si ce n’était pas le cas, pour un θ de Θ, on aurait P (Aθ ∩ (C ? )c ) > 0, donc

P (Aθ ∪ C ? ) > M : contradiction.

17
2 Construction d’estimateurs

Soit maintenant A tel que Q(A) = 0. Pour tout θ ∈ Θ, on a P (Aθ ∩ (C ? )c ) = 0, et donc

Z Z
? c
Pθ (A ∩ (C ) ) = Fθ dP = Fθ dP = 0.
A∩(C ? )c A∩(C ? )c ∩Aθ

Donc Z Z
Pθ (A) = Pθ (A ∩ C ? ) = Fθ dP = Fθ dP.
A∩C ? A∩Aθ ∩C ?
On en déduit que
Z XZ XZ Fθ
Pθ (A) = Fθ dP ≤ Fθ dP = dPθj .
A∩Aθ ∩(∪j∈J Aθj ) A∩Aθ ∩Aθj A∩Aθ ∩Aθj Fθj
j∈J j∈J

Fθ
R
Mais comme Q(A) = 0, on a pour tout j ∈ J, Pθj (A) = 0, donc A∩Aθ ∩Aθj Fθj dPθj = 0,
et donc Pθ (A) = 0.

Corollaire 2.3.1. L’estimateur du maximum de vraisemblance ne dépend pas du choix

de mesure dominante.
Preuve : Soient µ une mesure dominante. Notons L(θ) la vraisemblance obtenue avec
µ. Soit Q une dominante privilégiée. Alors Q est absolument continue par rapport à µ,
et l’on a, en notant LQ (θ) = dP
dQ (X) :
θ

dQ
L(θ) = LQ (θ) (X).
dµ

Par ailleurs, dQ
dµ (X) > 0 Pθ -p.s. pour tout θ. Donc θ maximise L(θ) si et seulement si θ
maximise LQ (θ), qui est une quantité qui ne dépend pas de µ.

On va maintenant justifier l’usage du maximum de vraisemblance dans une situation

très simple et en considérant le risque de test.
On se place dans la situation où Θ est réduit à deux points, que l’on peut noter Θ =
{0, 1}. Le modèle est alors réduit à deux probabilités P0 et P1 , et c’est donc un modèle
dominé. Une dominante privilégiée est µ = P0 +P 2 . Alors :
1

Proposition 2.3.2. L’estimateur du maximum de vraisemblance minimise la moyenne

du risque de test en 0 et en 1.
Preuve : On considère donc la fonction de perte 1t6=θ , et pour tout estimateur T le
risque R(T, θ) = Pθ (T 6= θ). Soit alors S(T ) la moyenne 12 (R(T, 0) + R(T, 1)). On a,
comme T (X) ∈ {0, 1},
Z Z
1
S(T ) = T (x)f0 (x)dµ(x) + (1 − T (x))f1 (x)dµ(x)
2
Z
1 1
= + T (x)(f0 (x) − f1 (x))dµ(x).
2 2

18
2.3 Maximum de vraisemblance

Soit θb l’estimateur du maximum de vraisemblance. On a alors

Z
1
S(T ) − S(θ) =
b (T (x) − θ(x))(f
b 0 (x) − f1 (x))dµ(x).
2

Mais si f0 (x)−f1 (x) < 0, alors θ(x)

b = 1, et T (x)− θ(x)
b ≤ 0. Et si f0 (x)−f1 (x) > 0, alors
θ(x)
b = 0, et T (x) − θ(x)
b ≥ 0. Donc dans tous les cas, (T (x) − θ(x))(f
b 0 (x) − f1 (x)) ≥ 0,
et donc S(T ) − S(θ) ≥ 0.
b

On va calculer la moyenne du risque pour l’estimateur du maximum de vraisemblance,

et pour cela introduire la distance en variation.
Définition 2.3.1. Si P et Q sont deux probabilités sur (X , A), la distance en varia-
tion totale entre P et Q est définie par

d (P ; Q) = sup |P (A) − Q(A)|.

A∈A

Ceci définit une distance sur l’ensemble des probabilités sur (X , A)

En effet, on vérifie la symétrie, le fait que si d (P ; Q) = 0, alors P = Q, et l’inégalité
triangulaire.

On a alors
Proposition 2.3.3. Si µ domine P et Q, alors la distance en variation totale entre P
et Q vérifie
1 dP dQ
d (P ; Q) = −
2 dµ dµ L1 (µ)
= P (A) − Q(A)
dQ
où A = {x : dP
dµ (x) ≥ dµ (x)}.
La distance en variation totale entre P et Q est alors notée kP − QkV T .
dP dQ
Remarque : au passage, on a montré que dµ − dµ L1 (µ) est une quantité qui ne
dépend pas de la mesure dominante choisie.

Preuve : Tout d’abord, en posant

dP dQ
A = {x : (x) ≥ (x)},
dµ dµ
on a Z Z
dP dQ dP dQ dP dQ
− = − dµ − − dµ.
dµ dµ L1 (µ) A dµ dµ Ac dµ dµ
Par ailleurs, Z Z
dP dQ dP dQ
− dµ + − dµ = 0,
A dµ dµ Ac dµ dµ

19
2 Construction d’estimateurs

donc Z
dP dQ dP dQ
− =2 − dµ.
dµ dµ L1 (µ) A dµ dµ
Puis on a par définition P (A) − Q(A) ≤ d (P ; Q). Maintenant, si B ∈ A,

P (B) − Q(B) = P (B ∩ A) + P (B ∩ Ac ) − Q(B ∩ A) − Q(B ∩ Ac )

Z Z
dP dQ dP dQ
= − dµ + − dµ
A∩B dµ dµ Ac ∩B dµ dµ
Z
dP dQ
≤ − dµ
A∩B dµ dµ
Z
dP dQ
≤ − dµ = P (A) − Q(A),
A dµ dµ

et de la même manière
Z
dP dQ
P (B) − Q(B) ≥ − dµ = −[P (A) − Q(A)],
Ac dµ dµ

donc pour tout B ∈ A,

|P (B) − Q(B)| ≤ P (A) − Q(A),
et en prenant le supremum en B ∈ A on obtient d(P, Q) = P (A) − Q(A).

On obtient maintenant, dans le cadre précédent :

Proposition 2.3.4. Si Θ = {0, 1}, la valeur minimale de la moyenne du risque de test

en 0 et en 1, atteinte par le maximum de vraisemblance, vaut
1
(1 − kP0 − P1 kV T ) .
2

20
3 Fonction de répartition et théorème de
Glivenko-Cantelli
Soit X une variable aléatoire réelle.

Définition 3.0.1. La fonction de répartition FX de X est la fonction de R dans

[0, 1] donnée par
∀t ∈ R, FX (t) = P (X ≤ t) .

On a les propriétés suivantes. (Rappeler les preuves).

— FX est une fonction croissante, continue à droite, telle que

lim FX (t) = 0
t→−∞

et
lim FX (t) = 1;
t→+∞

— Si on note FX (t−) la limite à gauche de FX au point t (dire pourquoi elle existe),

FX (t−) = P (X < t) et FX (t) − FX (t−) = P (X = t).
— La fonction de répartition caractérise la loi. Autrement dit, si deux variables
aléatoires ont même fonction de répartition, alors elles ont même loi.
Par ailleurs, la première propriété est caractéristique des fonctions de répartition.

Proposition 3.0.1. Si F est une fonction de R dans [0, 1] qui est croissante, continue
à droite, telle que limt→−∞ F (t) = 0 et limt→+∞ F (t) = 1, alors il existe une variable
aléatoire réelle X telle que F est la fonction de répartition de X.

(Rappeler la preuve)

Définition 3.0.2. Toute fonction de répartition F admet une inverse généralisée (ou
pseudo-inverse) définie par :

∀u ∈]0, 1[, F − (u) = inf {x ∈ R : F (x) ≥ u} .

On dit aussi que F − est la fonction quantile et que F − (u) est le quantile de u.

On a alors :

Proposition 3.0.2. Pour tout x ∈ R et tout u ∈]0, 1[,

u ≤ F (x) ⇐⇒ F − (u) ≤ x.

21
3 Fonction de répartition et théorème de Glivenko-Cantelli

F − est une fonction croissante qui vérifie

∀u ∈]0, 1[, F (F − (u)) ≥ u,

et
∀x ∈ R, si F (x) ∈]0, 1[, F − (F (x)) ≤ x.
Preuve :Commencer par regarder des exemples de cas F discontinue et F avec un
plateau.
Soit u ∈]0, 1[, on note I = {x ∈ R : F (x) ≥ u}. Comme u < 1, I est non vide. Sinon on
aurait pour tout réel x, P (X ≤ x) < u < 1).
Par ailleurs comme F est croissante, si x ∈ I et si y ≥ x, alors y ∈ I.
Donc I est un intervalle semi-infini à droite, notons x0 sa borne inférieure. I = (x0 , +∞[.
Montrons alors que x0 ∈ I. En effet, pour tout t > 0, x0 + t ∈ I, donc F (x0 + t) ≥ u
et comme F est continue à droite, F (x0 ) ≥ u. Donc I = [x0 , +∞[ et donc F − (u) = x0 .
L’équivalence de la proposition s’en déduit.
La croissance de F − en découle. Puis en prenant x = F − (u) on obtient la première
inégalité, et en prenant u = F (x) on obtient la deuxième inégalité.

La fonction quantile permet de simuler une variable aléatoire de fonction de répartition

connue à partir d’une variable aléatoire de loi uniforme sur [0, 1].
Théorème 3.0.1. Si U est une variable aléatoire de loi uniforme sur [0, 1], alors F − (U )
est une variable aléatoire de fonction de répartition F .
Preuve : En effet, pour tout réel x, en utilisant la proposition précédente on a

P F − (U ) ≤ x = P (U ≤ F (x)) = F (x).

Soit maintenant (Xn )n≥1 une suite de variables aléatoires indépendantes de même
loi que X. On note Pn la mesure empirique et Fn la fonction de répartition empirique
donnée par :
n Z
1X
∀t ∈ R, Fn (t) = 1Xi ≤t = 1x≤t dPn (x).
n
i=1
On a alors :
Théorème 3.0.2 (Théorème de Glivenko-Cantelli). La fonction de répartition empi-
rique converge P-presque sûrement uniformément vers la fonction de répartition, i.e.

P − p.s., lim sup |Fn (t) − F (t)| = 0

n→+∞ t∈R

Preuve : Soit N un entier strictement positif.

− j
Notons pour 1 ≤ j ≤ N − 1, xj,N = F N , et x0,N = −∞ et xN,N = +∞.
On convient Fn (x0,N ) = 0, F (x0,N ) = 0, Fn (xN,N ) = 1 et F (xN,N ) = 1. On a alors pour
tout j tel que 0 ≤ j ≤ N − 1,

∀t ∈ [xj,N ; xj+1,N [, Fn (xj,N ) ≤ Fn (t) ≤ Fn (xj+1,N −) et F (xj,N ) ≤ F (t) ≤ F (xj+1,N −).

22
Donc

∀t ∈ [xj,N ; xj+1,N [, Fn (xj,N ) − F (xj+1,N −) ≤ Fn (t) − F (t) ≤ Fn (xj+1,N −) − F (xj,N ).

Comme xj,N = F − Nj , on a F (xj,N −) ≤ Nj ≤ F (xj,N ) pour tout j (vérifier que aussi
pour j = 0 et j = N ), de sorte que
1 1
∀t ∈ [xj,N ; xj+1,N [, Fn (xj,N )−F (xj,N )− ≤ Fn (t)−F (t) ≤ Fn (xj+1,N −)−F (xj+1,N −)+ .
N N
Donc
1
sup |Fn (t) − F (t)| ≤ + max {|Fn (xj,N ) − F (xj,N )|; |Fn (xj,N −) − F (xj,N −)|} .
t∈R N 1≤j≤N −1

Par la loi forte des grands nombres, pour tout j, Fn (xj,N ) − F (xj,N ) tend vers 0 P -p.s.
et Fn (xj,N −) − F (xj,N −) tend vers 0 P -p.s. Si pour tout N on note AN l’événement

1
AN = lim sup sup |Fn (t) − F (t)| ≤
n→+∞ t∈R N

on a donc P (AN ) = 1 (préciser comment cela découle des LFGN citées précédemment).
Alors, P (∩N ≥1 AN ) = 1, et
\
AN ⊂ lim sup |Fn (t) − F (t)| = 0 .
n→+∞ t∈R
N ≥1

On va maintenant s’intéresser au cas où la fonction de répartition F est continue.

Proposition 3.0.3. Si F est continue, pour tout u ∈]0, 1[, F (F − (u)) = u.
Si X est de fonction de répartition F continue, alors F (X) est de loi uniforme sur [0, 1].
Preuve : Reste à voir qu’alors F (F − (u)) ≤ u. Pour tout δ > 0, on a F − (u) − δ <
F − (u), donc, par contraposition de l’équivalence de la proposition 3.0.6, F (F − (u)−δ) <
u. Comme F est continue, on peut passer à la limite quand δ tend vers 0 et obtenir
F (F − (u)) ≤ u.
Si maintenant X est de fonction de répartition F continue, X a même loi que F − (U ) où
U est de loi uniforme sur [0, 1], donc F (X) a même loi que F (F − (U )) = U .

On a aussi :
Théorème 3.0.3. Si F est une fonction de répartition continue, si X1 , . . . , Xn sont n
variables aléatoires indépendantes de fonction de répartition F et si Fn est la fonction
de répartition empirique, alors la loi de

Dn = sup |Fn (t) − F (t)|

t∈R

ne dépend pas de F .

23
3 Fonction de répartition et théorème de Glivenko-Cantelli

Preuve : Soit U1 , . . . , Un des variables aléatoires indépendantes de loi uniforme sur

[0, 1]. Alors (X1 , . . . , Xn ) a même loi que (F − (U1 ), . . . , F − (Un )), et donc Dn a même loi
que
Xn
0
Dn = sup 1F − (Ui )≤t − F (t) .
t∈R i=1

Mais on a alors, comme l’événement (F − (Ui ) ≤ t) est égal à l’événement (F (t) ≥ Ui )

n
X
Dn0 = sup 1Ui ≤F (t) − F (t)
t∈R i=1

et comme F est continue croissante sur R, avec limite 0 en −∞ et limite 1 en +∞,

F (R) = (0, 1) (l’intervalle est ouvert ou semi-ouvert ou fermé), donc en posant u = F (t),
n
X
Dn0 = sup 1Ui ≤u − u .
u∈]0,1[ i=1

Application : construction de bandes de confiance pour F : La loi de Dn0 peut

être tabulée, donc si dn,α est tel que

P Dn0 ≥ dn,1−α ≤ α,

alors si Fc désigne l’ensemble des fonctions de répartition continues, on a, en utilisant le

théorème précédent,

∀F ∈ Fc , PF (kFn − F k∞ ≤ dn,1−α ) ≥ 1 − α

et l’ensemble des fonctions comprises, pour tout t, entre Fn (t) − dn,1−α et Fn (t) + dn,1−α
est une ”bande de confiance” pour F de niveau de confiance 1 − α.

24
4 Construction de tests
Se rappeler la notion de test, avec la définition 1.2.1.
La méthode indiquée par l’exemple du sondage est : choisir une statistique de test,
c’est-à-dire une variable aléatoire, dont la loi est différente selon que l’hypothèse nulle
H0 est vraie ou selon que c’est l’hypothèse alternative H1 qui est vraie, choisir une région
de rejet qui est conforme à ce changement qualitatif, et la calibrer en fonction du niveau
souhaité (revoir cela avec l’exemple du sondage).

4.1 Test du rapport de vraisemblance

4.1.1 Généralités
Soit un modèle statistique dominé (X , A, (Pθ )θ∈Θ ).
Soient Θ0 et Θ1 deux sous-ensembles disjoints de Θ. On veut tester H0 : ”θ ∈ Θ0 ” contre
H1 : ”θ ∈ Θ1 ”.
Le test du rapport de vraisemblance consiste à prendre la décision en fonction de la
valeur de la vraisemblance sur chacun des ensembles définissant l’hypothèse nulle (Θ0 )
et l’hypothèse alternative (Θ1 ). Soit donc µ une mesure dominante, et pour tout θ ∈ Θ,
fθ la densité de Pθ par rapport à µ. On note L(θ) la vraisemblance. Soit

supθ∈Θ1 L(θ)
T (X) = .
supθ∈Θ0 L(θ)

Le test du rapport de vraisemblance est de la forme

φ(X) = 1T >s

pour un seuil s fixé. Si on se fixe un niveau α ∈]0, 1[, alors on définit

Cα = inf C > 0 : sup Pθ (T > C) ≤ α .
θ∈Θ0

On a :

Proposition 4.1.1. Pour tout α ∈]0, 1[, si l’ensemble C > 0 : supθ∈Θ0 Pθ (T > C) ≤ α
est non vide, alors le test du rapport de vraisemblance 1T >Cα est de niveau α.

Preuve : Soit θ ∈ Θ0 . Pour tout C > Cα , on a Pθ (T > C) ≤ α. Comme la fonc-

tion C 7→ Pθ (T > C) est continue à droite, on a en faisant tendre C vers Cα à droite,
Pθ (T > Cα ) ≤ α. Comme ceci est vrai pour tout θ ∈ Θ0 , on en déduit que le test du

25
4 Construction de tests

rapport de vraisemblance 1T >Cα est de niveau α.

Exemple : modèle binomial et test de H0 : ”θ ≤ θ0 ” contre H1 : ”θ > θ0 ”. Montrer

que le test du rapport de vraisemblance prend la forme 1Sn ≥sn,α pour un sn,α bien choisi.

4.1.2 Optimalité dans le cas de deux hypothèses simples

On considère le cas où Θ0 = {θ0 } et Θ1 = {θ1 }, θ0 6= θ1 .
On note f0 (resp. f1 ) la densité de Pθ0 (resp. Pθ1 ) par rapport à la mesure dominante.
Le test du rapport de vraisemblance est de la forme

φ(X) = 1f1 (X)>sf0 (X)

et le seuil s est choisi en fonction du niveau souhaité α du test.

La taille du test est Pθ0 (f1 (X) > sf0 (X)), sa puissance est Pθ1 (f1 (X) > sf0 (X)). On a
le résultat d’optimalité suivant.

Proposition 4.1.2. Si le test du rapport de vraisemblance est de taille α alors il est

plus puissant que n’importe quel test de niveau α de H0 : ”θ = θ0 ” contre H1 : ”θ = θ1 ”.

Preuve : Soient s et α tels que Pθ0 (f1 (X) > sf0 (X)) = α. Posons φ(X) = 1f1 (X)>sf0 (X) .
Soit ψ un test de niveau α de ”θ = θ0 ” contre H1 : ”θ = θ1 ”. On a
Z
Eθ1 [φ − ψ] − sEθ0 [φ − ψ] = (f1 (x) − sf0 (x)) (φ(x) − ψ(x)) dµ(x)
≥ 0

car la fonction (f1 (x) − sf0 (x)) (φ(x) − ψ(x)) est toujours positive ou nulle (le voir en
distinguant les différents cas de signe possibles pour f1 (x) − sf0 (x)).
Donc

Eθ1 [φ] − Eθ1 [ψ] ≥ s (Eθ0 [φ] − Eθ0 [ψ])

≥ s (α − Eθ0 [ψ])
≥ 0

car φ est de taille α (donc Eθ0 [φ] = α) et ψ est de niveau α (donc Eθ0 [ψ] ≤ α).
Reprendre le cas du test de rapport de vraisemblance pour le modèle binomial.

4.2 Test de Kolmogorov-Smirnov

On considère le modèle statistique (Rn , B(Rn ), (PF⊗n )F ∈F ), où F est l’ensemble des
fonctions de répartition sur R. Si F0 est une fonction de répartition fixée, on veut tester
H0 : ”F = F0 ” contre H1 : ”F 6= F0 ”. L’idée est de se baser sur la fontion de répartition
empirique Fn . On a alors :

26
4.2 Test de Kolmogorov-Smirnov

Théorème 4.2.1. Si F0 est continue, le test

φ = 1kFn −F0 k∞ ≥dn,1−α

est de niveau α.

On a déjà vu que si F0 est continue, la loi de kFn −F0 k∞ sous PF⊗n

0
ne dépend pas de F0 .
La preuve du théorème est alors immédiate. On appelle ce test test de Kolmogorov-
Smirnov et Dn = kFn − F0 k∞ statistique de Kolmogorov.
Le calcul de Dn est simple. On a (le démontrer) :

i−1 i−1
Dn = max − F0 (X(i−1) ) ; − F0 (X(i) ) ∨ F0 (X(1) ) ∨ 1 − F0 (X(n) )
2≤i≤n n n

en notant (X(i) )1≤i≤n la statistique de rang de (Xi )1≤i≤n c’est-à- dire

X(1) ≤ X(2) ≤ · · · ≤ X(n) .
La loi de Dn sous PF⊗n0
est continue. (Le démontrer en l’écrivant avec la loi uniforme).

Si F 6= F0 , on a pour tout t, Fn (t) − F0 (t) = Fn (t) − F (t) + F (t) − F0 (t), donc

kFn − F0 k∞ ≥ kF − F0 k∞ − kFn − F k∞

et donc, si F est continue et kF − F0 k∞ ≥ 2dn,1−α

1 − EF [φ] ≤ PF (kFn − F k∞ ≥ kF − F0 k∞ − dn,1−α ) ≤ α,

c’est-à-dire que si F est continue et kF − F0 k∞ ≥ 2dn,1−α , la puissance en F est ≥ 1 − α.

√
On peut montrer que dn,1−α est d’ordre 1/ n quand n tend vers l’infini (en montrant
√
que sous F0 continue, nkFn − F0 k∞ converge en loi).

On peut chercher à comparer la loi inconnue à F0 en précisant sa ”position” par

rapport à F0 . Par exemple, si l’on veut tester H0 : ”∀t, F (t) ≤ F0 (t)” contre H1 :
”∃t, F (t) > F0 (t)” , on utilisera la statistique de Smirnov

Dn+ = sup (Fn (t) − F0 (t)) .

t∈R

On peut montrer que si F0 est continue, la loi de Dn+ lorsque F = F0 ne dépend pas de
F0 , et peut donc être tabulée. On peut donc choisir d+
n,1−α tel que le test 1Dn
+
≥d+ soit
n,1−α
de niveau α. (Démontrer tout cela, et comment calculer Dn+ avec la statistique de rang).

Noter que lorsque pour tout t, F (t) ≤ F0 (t), l’observation a tendance à être plus
grande sous PF que sous PF0 .

27
4 Construction de tests

4.3 Test du chi-deux d’ajustement

On vient de voir un test d’ajustement pour décider si une loi est une loi donnée conti-
nue. Il s’agit d’un test non paramétrique.
Que faire pour tester la même chose pour des lois discrètes ? On va y répondre dans le
cas paramétrique.
On se place dans le cas où X = {1, . . . , k}. On note P l’ensemble des probabilités
p = (p(1), . . . , p(k)) sur X , et Pp la loi sur X induite par p. Le modèle statistique est
alors (X n , A, (Pp⊗n )p∈P ).

On se donne p0 ∈ P tel que p0 (j) > 0, j = 1, . . . , k, et on veut tester H0 : ”p = p0 ”

contre H1 : ”p 6= p0 ”.
On dispose de X1 , . . . , Xn . Pour tout j = 1, . . . , k, on note
n
X
Nj = 1Xi =j
i=1

la statistique de comptage (remarquer qu’elle dépend de n et X1 , . . . , Xn même si la

N
notation ne l’indique pas). On se dit que nj est un bon estimateur de p(j), donc que
N
pour tester ”p = p0 ” contre ”p 6= p0 ” on pourrait se baser sur les différences nj − p0 (j).
On pose :
k
X (Nj − np0 (j))2
Zn = .
np0 (j)
j=1

On va avoir besoin de lois du Chi-deux.

Définition 4.3.1. Soit m un entier. La loi du Chi-deux à m degrés de liberté est la loi
de la somme des carrés de m variables aléatoires indépendantes de loi N (0, 1). On note
cette loi χ2 (m).

On a alors :

Théorème 4.3.1. Sous Pp0 , Zn converge en loi quand n tend vers +∞ vers une variable
aléatoire de loi χ2 (k − 1) (loi du Chi-deux à k − 1 degrés de liberté).

On démontrera ce théorème au chapitre suivant.

A partir de ce théorème, on peut construire un test qui soit asymptotiquement de

niveau α et de puissance 1 (Le faire ! Démontrer les résultats de niveau et puissance !).

4.4 Lien entre tests et régions de confiance

Lorsqu’on a construit des tests, on est souvent parti du même point de départ que
lorsqu’on a construit des régions de confiance ; on est parti d’un estimateur de ce qui est
testé ou estimé, et fait ensuite des calculs analogues. Y a-t-il quelque chose de général

28
4.4 Lien entre tests et régions de confiance

qui relie les deux procédures statistiques ?

Dire la définition d’une région de confiance R(X) pour θ, pas forcément un intervalle
de R.

Proposition 4.4.1. Soit R(X) une région de confiance pour θ de niveau de confiance
1 − α. Alors, pour tout θ0 ∈ Θ,

φ(X) = 1θ0 ∈R(X)

est un test de niveau α de H0 : ”θ = θ0 ” contre H1 : ”θ 6= θ0 ”

Preuve : Fixons θ0 ∈ Θ. On a alors Pθ0 (θ0 ∈ R(X)) ≥ 1 − α puisque R(X) une région
de confiance pour θ de niveau de confiance 1 − α, et donc

Eθ0 [φ(X)] = Pθ0 (θ0 ∈

/ R(X)) = 1 − Pθ0 (θ0 ∈ R(X)) ≤ α.

Proposition 4.4.2. On suppose que pour tout θ0 ∈ Θ, φθ0 (X) est un test de niveau α
de H0 : ”θ = θ0 ” contre H1 : ”θ 6= θ0 ”, et que la fonction de Θ × X dans R qui, à tout
(θ, X) associe φθ (X) est mesurable. Alors

R(X) = {θ ∈ Θ : φθ (X) = 0}

est une région de confiance pour θ de niveau de confiance 1 − α.

Preuve : Soit θ0 quelconque fixé dans Θ. Puisque φθ0 (X) est un test de niveau α de
H0 : ”θ = θ0 ” contre H1 : ”θ 6= θ0 ”, on a Eθ0 [φ(X)] ≤ α, soit Pθ0 (φθ0 (X) = 0) ≥ 1 − α.
Autrement dit,
Pθ0 (θ0 ∈ R(X)) ≥ 1 − α.
Ceci étant vrai pour tout θ0 ∈ Θ cela prouve que R(X) est une région de confiance pour
θ de niveau de confiance 1 − α.

Exemples :
— Modèle binomial : construire un test de H0 : ”θ = θ0 ” contre H1 : ”θ 6= θ0 ” à partir
de la région de confiance vue en introduction.
— Revisiter le test de Kolmogorov et la bande de confiance pour la fonction de
répartition.
— A partir du test du chi-deux d’ajustement, construire une région de confiance pour
la probabilité (p1 , . . . , pk ) dans le modèle multinomial.

29
5 Vecteurs gaussiens
Ce qui suit sont surtout des rappels !

Définition 5.0.1. La loi gaussienne N (m, σ 2 ), où m ∈ R et σ 2 ∈ R+ est la probabilité

de densité par rapport à Lebesgue

(x − m)2

1
√ exp − .
σ 2π 2σ 2

Un vecteur aléatoire X à valeurs dans Rk est un vecteur gaussien si et seulement si

toute combinaison linéaire de ses coordonnées est une variable aléatoire rélle gaussienne,
autrement dit, si et seulement si, pour tout U ∈ Rk , il existe m ∈ R et σ 2 ∈ R+ tels que
U T X soit de loi N (m, σ 2 ).

Si X est un vecteur gaussien, on peut alors définir E(X) le vecteur des espérances des
coordonnées de X, et V ar(X) la matrice k ×k de variance de X. (Rappeler sa définition).

La fonction caractéristique φ du vecteur gaussien d’espérance m ∈ Rk et de

matrice de variance Σ est donnée par

k T 1 T
∀t ∈ R , φ (t) = exp im t − t Σt .
2

(Rappeler la preuve.)
En particulier, la loi d’un vecteur gaussien est complètement déterminée par son espérance
m ∈ Rk et sa matrice de variance Σ, on note alors la loi Nk (m; Σ). Si Σ est inversible,
la densité par rapport à Lebesgue sur Rk est

1 1 T −1
p exp − (x − m) Σ (x − m) .
(2π)k/2 det(Σ) 2

Proposition 5.0.1. Si X est un vecteur gaussien de loi Nk (m; Σ) et si A est une matrice
p × k, alors AX est un vecteur gaussien de loi Np (Am; AΣAT ).

(Rappeler la preuve.)

Proposition 5.0.2. Si X est un vecteur gaussien et si sa variance est diagonale par

blocs, alors les blocs de coordonnées correspondants forment des vecteurs gaussiens indépendants.

31
5 Vecteurs gaussiens

(Rappeler la preuve.)

Définition 5.0.2. Un n-échantillon gaussien est un vecteur gaussien de loi Nn (0; Id),
c’est-à-dire un vecteur dont les n composantes sont des variables aléatoires indépendantes
de loi gaussienne centrée réduite.

Proposition 5.0.3. Lorsqu’on fait un changement de base orthonormée, un n-échantillon

gaussien reste un n-échantillon gaussien.

(Rappeler la preuve.)

Théorème 5.0.1 (Théorème de Cochran). Soit X un n-échantillon gaussien, et soient

E1 , . . . , Ep des sous-espaces vectoriels de Rn orthogonaux, dont la somme est égale à
Rn . Notons Πj la projection orthogonale de Rn sur Ej , j = 1, . . . , p et kj = dim(Ej ),
j = 1, . . . , p.
Alors les vecteurs Πj (X), j = 1, . . . , p, sont des vecteurs gaussiens indépendants, et pour
j = 1, . . . , p, kΠj (X)k2 suit la loi χ2 (kj ).

Preuve : Soit (ei,j )1≤i≤p,1≤j≤ki la base orthonormée de Rn telle que, pour tout i =
1, . . . , p, (ei,j )1≤j≤ki est une base orthonormée de Ei . Soit A la matrice de changement
de base associée, de sorte que si Y = AX, Y1 , . . . , Yn sont les coordonnées de X dans la
nouvelle base. Par les deux propositions qui précèdent, Y est un n-échantillon gaussien.
Par ailleurs, pour tout i = 1, . . . , p, en notant k0 = 0 :
ki
X
Πi (X) = Yk1 +...+ki−1 +j ei,j .
j=1

Donc
ki
X
kΠi (X)k2 = Yk21 +...+ki−1 +j
j=1

et kΠi (X)k2 suit donc la loi χ2 (ki ). Par ailleurs, (Πi (X))1≤i≤p est un vecteur gaussien de
matrice de variance diagonale, donc les Πj (X), j = 1, . . . , p, sont des vecteurs gaussiens
indépendants

Théorème 5.0.2 (Théorème de limite centrale multidimensionnel). Soit (Xn )n≥1 une
suite de variables aléatoires à valeurs dans Rk , indépendantes et de même loi de variance
finie. Alors
n
!
√ 1X
n Xi − E(X1 )
n
i=1

converge en loi vers une variable U de loi Nk (E(X1 ), V ar(X1 )).

32
(Rappeler la preuve à partir du TLC unidimensionnel.)

Preuve du Théorème 4.3.1 : On a X1 , . . . , Xn i.i.d. de loi Pp0 sur {1, . . . , k}. Pour
j = 1, . . . , k, on note
Xn
Nj = 1Xi =j
i=1
et
k
X (Nj − np0 (j))2
Zn = .
np0 (j)
j=1

Soit Wn le vecteur de Rk de j-ième coordonnée

!
1 Nj − np0 (j)
√ p .
n p0 (j)
p
Notons D le vecteur de Rk de j-ième coordonnée p0 (j).
Par le TLC multidimensionnel, le vecteur Wn converge en loi sous Pp0 vers une variable
U de loi Nk (0, Id − DDT ). Donc, par image continue, Zn = kWn k2 converge en loi sous
Pp0 vers kU k2 . Maintenant, A = Id − DDT est la matrice de projection orthogonale sur
l’orthogonal de la droite engendrée par D. Donc AAT = A, et U a même loi que AV ,
où V est de loi Nk (0, Id). Donc kU k2 a même loi que kAV k2 , qui est de loi χ2 (k − 1)
d’après le Théorème de Cochran.

33
6 Modèle linéaire gaussien

6.1 Définition et exemples

Le modèle linéaire gaussien est (Rn , B(Rn ), (Pθ )θ∈Θ ), où θ = (m, σ 2 ), Pθ = Nn (m, σ 2 Id),
et Θ = V × R∗+ , V étant un sous-espace vectoriel de Rn .

Si l’observation est Y , on peut écrire

Y = m + ε, m ∈ V, ε ∼ Nn (0, σ 2 Id),

ou encore
Yi = mi + εi , i = 1, . . . , n,
εi , i = 1, . . . , n, i.i.d. de loi N (0, σ 2 ). Remarquer qu’ici, les εi ne sont pas observés, et
que les Yi n’ont pas même loi.
Dans ce modèle, il y a deux parties :
— La modélisation de la variance : ε ∼ Nn (0, σ 2 Id), les εi ont même variance, ils
sont indépendants, ils sont gaussiens.
— La modélisation de l’espérance : choix du sous-espace vectoriel V tel que m ∈ V
(modèle linéaire).
Une façon d’écrire la modélisation de l’espérance est d’écrire que V est l’image de X
pour une matrice X n × p, et donc qu’il existe β ∈ Rp tel que

m = Xβ.

Si X est injective, ou encore si V est de dimension p, alors ce β est unique et l’on écrit
le modèle
Y = Xβ + ε, β ∈ Rp , ε ∼ Nn (0, σ 2 Id).
Ici, X est connu (car V est connu), et l’on pose θ = (β, σ 2 ), Pθ = Nn (Xβ, σ 2 Id),
Θ = Rp × R∗+ .

Exemples : Pour chaque exemple, expliciter le modèle sous ses deux formes, avec V
et avec X.
1. Régression : On a des mesures Yi , on veut les expliquer par des variables connues.
Par exemple : par le temps, si les mesures sont faites à des temps ti , on peut chercher
à ajuster une parabole :

Yi = a + bti + ct2i + εi , i = 1, . . . , n.

35
6 Modèle linéaire gaussien

Ou bien par des données socio-culturelles :

(1) (k)
Yi = a0 + a1 Xi + . . . + ak Xi + εi , i = 1, . . . , n.

(voir en quoi le modèle est linéaire)

2. Analyse de la variance à un facteur : n individus, p traitements, ni individus
soumis au traitement i, n = n1 + . . . + np , Yi,j : efficacité du traitement i sur le
j-ième individu traité par i :

Yi,j = µi + εi,j , i = 1, . . . , p, j = 1, . . . , ni .

Etude statistique :
Ce que l’on va étudier :
Les questions statistiques concernent θ, c’est à dire m ou β et σ 2 . On va donc s’intéresser
à l’estimation des paramètres, et à des tests sur ces paramètres.
Ce que l’on ne va pas étudier :
En choisissant pour analyser le problème posé le modèle linéraire gaussien, il convient
de vérifier que l’on n’a pas eu tort de choisir ce modèle. Il s’agit de construire des tests
de validation du modèle, par exemple pour tester que :
— Les i ont même variance
— Les i sont indépendants
— Les i sont gaussiens.
Il faut noter que si le modèle est validé, cela ne signifie pas qu’il est vrai : un modèle
est toujours faux !, cela signifie que la variabilité de l’expérience est correctement prise
en compte.
En statistique, une question centrale est celle du choix de modèle : si on choisit un
modèle trop compliqué, on a beaucoup de paramètres à estimer, et on cumule beaucoup
d’erreurs d’estimation, si on choisit un modèle trop simple, on reflète mal l’expérience.
Le choix de modèle est un véritable sujet de mathématique !

6.2 Estimation des paramètres

6.2.1 Estimation de m et σ 2
Le modèle est dominé. On peut écrire la vraisemblance et démontrer que l’estimateur
du maximum de vraisemblance est donné par (le démontrer !) :
1
b = ΠV (Y ) , σ˜2 = kY − ΠV (Y ) k2 ,
m
n
où ΠV est la projection orthogonale sur V . Par Cochran, on obtient facilement les lois, et
que E kY − ΠV (Y ) k2 = n − p, avec p = dim(V ), donc on préfère choisir l’estimateur
sans biais
c2 = 1 kY − ΠV (Y ) k2
σ
n−p
On a

36
6.2 Estimation des paramètres

Théorème 6.2.1. L’estimateur du maximum de vraisemblance m b suit la loi Nn (m, σ 2 ΠV ),

c2 /σ 2 suit la loi χ2 (n − p).
c2 , et (n − p)σ
il est indépendant de σ

Preuve : par le théorème de Cochran (écrire la preuve.)

6.2.2 Estimation de β et σ 2
Pour obtenir l’estimateur du maximum de vraisemblance, on cherche β ∈ Rp qui
minimise kY − Xβk2 . On peut faire le calcul par calcul différentiel, et obtenir (le faire)
qu’un tel β vérifie
(X T X)β = X T Y.

On a

Lemme 6.2.1. Si X est injective, alors X T X est inversible, et la projection orthogonale

sur V , image de X, est
ΠV = X(X T X)−1 X T .

Preuve : X(X T X)−1 X T est symétrique, idempotente, et si Y ∈ V , X(X T X)−1 X T Y =

Théorème 6.2.2. L’estimateur du maximum de vraisemblance est

βb = (X T X)−1 X T Y,

sa loi est Np (β, σ 2 (X T X)−1 ), et il est indépendant de σ

c2 .

Retour sur les exemples 1, 2.

Analyse de la variance : On obtient (faire le calcul !) :

ni
1 X
µ
bi = Yi,j , i = 1, . . . , p
ni
j=1

et
i p n
1 XX
c2 =
σ bi )2 .
(Yi,j − µ
n−p
i=1 j=1

Régression affine : il s’agit du modèle

Yi = a + bti + εi , i = 1, . . . , n.

Ecrire X et β, et calculer b
a et bb.

37
6 Modèle linéaire gaussien

6.3 Tests d’hypothèses linéaires

Dans les exemples de modèles linéaires vus en introduction, on peut se poser des
questions comme :
— Si l’on ajuste une parabole (exemple 1), passe-t-elle par l’origine ? C’est-à-dire :
a-t-on a = 0 ? Ou bien, la courbe est-elle en fait une droite ? C’est-à- dire : a-t-on
b = 0?
— Parmi les variables explicatives, certaines n’interviennent pas ? C’est-à-dire : a-t-
on, pour certains i, ai = 0 ?
— Y a-t-il une différence entre les traitements ? C’est-à-dire : a-t-on µ1 = . . . = µp ?
Ces questions là se formulent sous forme d’hypothèses linéaires, c’est-à-dire sous la
forme ”m ∈ W ” pour un sous-espace vectoriel W de V (Le faire sur les 3 exemples
indiqués !)

Soit donc W un sous-espace vectoriel de V . Notons p = dim(V ) et q = dim(W ), q < p

(sinon W = V et il n’y a rien à tester). On souhaite tester

H0 : ”m ∈ W ”

contre
H1 : ”m ∈ V \ W ”.
La statistique du test du rapport de vraisemblance est, si l’on note L(m, σ 2 ) la vraisem-
blance :
supm∈V \W,σ2 >0 L(m, σ 2 )
T =
supm∈W,σ2 >0 L(m, σ 2 )
Et l’on obtient (le calculer !) :
n
kY − ΠW (Y )k
T = .
kY − ΠV (Y )k
Pour cela, on utilise le fait que, comme W est un sous-espace de dimension q < p, pour
tout m ∈ V et σ 2 > 0,
P(m,σ2 ) (ΠV (Y ) ∈ W ) = 0.
(Le démontrer, en utilisant que sous P(m,σ2 ) , ΠV (Y ) suit la loi Nn (m, ΠV )).

Par Pythagore,

kY − ΠV (Y )k2 + kΠV (Y ) − ΠW (Y )k2 = kY − ΠW (Y )k2 ,

et donc n/2
kΠV (Y ) − ΠW (Y )k2

T = 1+ .
kY − ΠV (Y )k2
Le test du rapport de vraisemblance est donc celui qui décide H0 si kΠVkY(Y−Π
)−ΠW (Y )k
V (Y )k
est
plus grand qu’un seuil. Reste à fixer ce seuil pour avoir un test de niveau α.

38
6.4 Régions de confiance

Définition 6.3.1. Soit Z une variable aléatoire. On dit que Z suit la loi de Fisher à
m et l degrés de liberté si Z a même loi que

U1 /m
U2 /l

où U1 et U2 sont des variables aléatoires indépendantes, U1 de loi χ2 (m) et U2 de loi

χ2 (l). On note F (m, l) cette loi.

On appelle test de Fisher de H0 : ”m ∈ W ” contre H1 : ”m ∈ V \ W ” le test qui

rejette H0 lorsque

kΠV (Y ) − ΠW (Y )k2 /(p − q)

≥ fp−q,n−p,1−α
kY − ΠV (Y )k2 /(n − p)

en notant fp−q,n−p,1−α le 1 − α-quantile de la loi F (p − q, n − p).

Théorème 6.3.1. Le test du rapport de vraisemblance de H0 : ”m ∈ W ” contre

H1 : ”m ∈ V \ W ” est le test de Fisher, et il est de niveau α.

(Ecrire la preuve !)
Retour sur les exemples.

Analyse de la variance : Le test du rapport de vraisemblance de H0 : ”µ1 = . . . =

µp ” contre H1 : ”∃i, j : µi 6= µj ” est le test qui rejette H0 lorsque
Pp
ni (Y − n1i nj=1 Yi,j )2 /(p − 1)
P i
i
Pp Pni 1 Pni 2
≥ fp−1,n−p,1−α
i=1 j=1 (Yi,j − ni j=1 Yi,j ) /(n − p)

en notant
p i n
1 XX
Y = Yi,j .
n
i=1 j=1

(Le démontrer !)

Régression affine : Ecrire le test de H0 : ”a = 0” contre H1 : ”a 6= 0” .

6.4 Régions de confiance

6.4.1 Région de confiance pour m
L’idée est de partir de ΠV (Y ) qui est un estimateur de m, de loi Nn (m, σ 2 ΠV ).

Y −m
ΠV (Y ) − m = σΠV
σ

39
6 Modèle linéaire gaussien

et donc par le théorème de Cochran, kΠV (Y ) − mk2 /σ 2 suit la loi χ2 (p). Si l’on connait
σ 2 , cela permet de construire une région de confiance pour m (le faire !). Que faire si on
ne connait pas σ 2 ? L’idée est de le remplacer par un estimateur, et de considérer
kΠV (Y ) − mk2
.
kY − ΠV (Y )k2 /(n − p)
On écrit
σ 2 kΠV Y −m
2
kΠV (Y ) − mk2 /p σ k /p
= 2 Y −m Y −m
,
kY − ΠV (Y )k2 /(n − p)

σ k σ − ΠV σ k2 /(n − p)
qui, en utilisant le théorème de Cochran, suit la loi F (p, n − p). (L’écrire !). On a donc
kΠV (Y ) − mk2 /p

2
∀m ∈ V, ∀σ > 0, P(m,σ2 ) ≤ fp,n−p,1−α ≥ 1 − α.
kY − ΠV (Y )k2 /(n − p)
Donc
m ∈ V : kΠV (Y ) − mk2 ≤ pfp,n−p,1−α kY − ΠV (Y )k2 /(n − p)

est une région de confiance pour m de niveau de confiance

p 1 − α. C’est, dans V , une
sphère centrée en ΠV (Y ) et de rayon kY − ΠV (Y )k pfp,n−p,1−α /(n − p).

Remarque : si m0 est un vecteur fixé de V , on peut donc maintenant écrire un test de

H0 : m = m0 contre H1 : ”m 6= m0 ”. (Le faire !).

6.4.2 Région de confiance pour β

On part de l’estimateur de β :
βb = (X T X)−1 X T Y ∼ Np β, σ 2 (X T X)−1 .

On a alors !
βb − β
(X T X)1/2 ∼ Np (0, Id) ,
σ
et donc
1 b T
T

b − β ∼ χ2 (p).
β − β (X X) β
σ2
Comme βb est indépendant de σ c2 , on a que
T b T b
β−β T X) β−β
βb − β (X T X) βb − β /p σ (X σ /p
= c2
c2
σ (n−p)σ
σ2
/(n − p)
suit la loi F (p, n − p). Donc, si fp,n−p,1−α est le quantile d’ordre 1 − α et F (p, n − p) :
 T 
βb − β (X T X) βb − β /p
∀β ∈ Rp , ∀σ 2 > 0, P(β,σ2 )  ≤ fp,n−p,1−α  = 1 − α
 
σ
c 2

40
6.4 Régions de confiance

et donc T
β ∈ Rp , βb − β (X T X) βb − β ≤ pσ
c2 fp,n−p,1−α

est une région de confiance pour β de niveau de confiance 1 − α.

6.4.3 Région de confiance pour σ 2

On part de l’estimateur
1
b2 =
σ kY − ΠV Y k2
n−p
2
pour lequel on sait que (n − p) σσb2 suit la loi χ2 (n − p). On a donc :

b2

2 2 σ 2
∀m ∈ V, ∀σ > 0, P(m,σ2 ) χn−p,α/2 ≤ (n − p) 2 ≤ χn−p,1−α/2 ≥ 1 − α.
σ

Donc " #
(n − p)bσ 2 (n − p)b
σ2
;
χ2n−p,1−α/2 χ2n−p,α/2

est un intervalle de confiance pour σ 2 de niveau de confiance 1 − α.

41
7 Eléments de théorie de la décision

7.1 introduction
Soit (X , A, (Pθ )θ∈Θ ) un modèle statistique, et X l’observation.

Soit g : Θ → Rd , et L une fonction de perte, c’est-à-dire une fonction de Rd × Rd dans

R+ . Si T (X) est un estimateur de g(θ), la fonction de risque est

θ 7→ Eθ [L (g(θ), T (X))] := R(θ, T ).

Pour comparer des estimateurs, on va comparer les risques. On peut penser à deux façons
de faire :
— Comparer la valeur maximale du risque, c’est l’approche minimax
— Comparer une valeur moyenne du risque, ce sera l’approche bayésienne.
Dans l’approche minimax, on cherche un estimateur T (X) qui soit proche (voire réalise)
la valeur minimale, parmi tous les estimateurs possibles, du risque maximal. On appelle
risque minimax la quantité
inf sup R(θ, T ).
T θ∈Θ

On va voir qu’il y a des limitations intrinsèques liées au modèle statistique et au choix

de fonction de perte.

7.2 Affinité de test et minoration du risque maximum

Revoir la distance en variation totale, définition et propriétés.

Définition 7.2.1. Soient P et Q deux probabilités définies sur un même espace. On

appelle affinité de test entre P et Q la quantité

π(P, Q) = 1 − kP − QkV T .

Proposition 7.2.1. Si µ domine P et Q, et si dP = f dµ et dQ = gdµ, alors

Z
π(P, Q) = (f ∧ g)dµ.

43
7 Eléments de théorie de la décision

Preuve :
On a
Z
π(P, Q) = 1 − (f − g) dµ
f ≥g
Z Z
= f dµ − (f − g) dµ
f ≥g
Z Z
= f dµ + gdµ
f <g f ≥g
Z
= (f ∧ g)dµ.

Sous l’hypothèse que la fonction de perte vérifie une inégalité de type triangulaire, on
va voir une minoration du risque minimax.
Théorème 7.2.1 (Théorème de Le Cam). On suppose qu’il existe C > 0 tel que, pour
tous u, v, w dans Rd ,
L(u, v) ≤ C [L(u, w) + L(v, w)] .
Alors pour tout estimateur T (X),
1
sup Eθ [L (g(θ), T (X))] ≥ sup [L (g(θ1 ), g(θ2 )) π (Pθ1 , Pθ2 )] .
θ∈Θ 2C (θ1 ,θ2 )∈Θ2

Preuve : Soient θ1 et θ2 de Θ. Posons µ = Pθ1 + Pθ2 , dPθ1 = fθ1 dµ et dPθ2 = fθ2 dµ.
On a par l’hypothèse sur L
L (g(θ1 ), g(θ2 )) ≤ C [L (g(θ1 ), T (X)) + L (g(θ2 ), T (X))]
et donc
Z
L (g(θ1 ), g(θ2 )) (fθ1 (x) ∧ fθ2 (x))dµ(x) ≤
Z
C [L (g(θ1 ), T (x)) + L (g(θ2 ), T (x))] (fθ1 (x) ∧ fθ2 (x))dµ(x).

Mais
Z Z
L (g(θ1 ), T (x)) (fθ1 (x) ∧ fθ2 (x))dµ(x) ≤ L (g(θ1 ), T (x)) fθ1 (x)dµ(x)

et Z Z
L (g(θ2 ), T (x)) (fθ1 (x) ∧ fθ2 (x))dµ(x) ≤ L (g(θ2 ), T (x)) fθ2 (x)dµ(x)

ce qui donne
Z
L (g(θ1 ), g(θ2 )) (fθ1 (x) ∧ fθ2 (x))dµ(x) ≤
Z Z
C L (g(θ1 ), T (x)) fθ1 (x)dµ(x) + L (g(θ2 ), T (x)) fθ2 (x)dµ(x) .

44
7.2 Affinité de test et minoration du risque maximum

Autrement dit : pour tout (θ1 , θ2 ) ∈ Θ2 ,

L (g(θ1 ), g(θ2 )) π (Pθ1 , Pθ2 ) ≤ C {Eθ1 [L (g(θ1 ), T (X))] + Eθ2 [L (g(θ2 ), T (X))]} .

Le deuxième membre de l’inégalité est majoré par

2C sup Eθ [L (g(θ), T (X))] ,

θ∈Θ

et il suffit alors de prendre le supremum en (θ1 , θ2 ) ∈ Θ2 pour obtenir le théorème.

Proposition 7.2.2. Si d(·, ·) est une distance et si p ≥ 1, alors L(u, v) = (d(u, v))p
vérifie l’hypothèse du théorème de Le Cam avec C = 2p−1 .

Preuve : On a pour tous u, v, w, par l’inégalité triangulaire

d(u, v)p ≤ (d(u, w) + d(v, w))p .

Mais si p ≥ 1, la fonction x 7→ xp est convexe, donc pour tous x et y,

p
xp + y p

x+y
≤ ,
2 2

et donc
p
d(u, w)p + d(v, w)p

d(u, w) + d(v, w)
(d(u, w) + d(v, w))p = 2p ≤ 2p = 2p−1 (d(u, w)+d(v, w)).
2 2

En particulier, avec p = 2, on a la minoration du risque quadratique : pour tout

estimateur T (X),

1
sup Eθ kg(θ) − T (X)k2 ≥ kg(θ1 ) − g(θ2 )k2 π (Pθ1 , Pθ2 ) .

sup
θ∈Θ 4 (θ1 ,θ2 )∈Θ2

Ce qui nous intéressera en particulier, c’est de comprendre comment évolue le minorant

en fonction de n dans une expérience statistique de variables i.i.d. Lorsque le modèle est
(X n , An , (Pθ⊗n )θ∈Θ ), et que la fonction de perte L vérifie l’hypothèse du théorème de Le
Cam, on a : pour tout estimateur Tn (X1 , . . . , Xn ),

1 h i
sup Eθ [L (g(θ), Tn (X1 , . . . , Xn ))] ≥ sup L (g(θ1 ), g(θ2 )) π Pθ⊗n , P ⊗n
θ2 .
θ∈Θ 2C (θ1 ,θ2 )∈Θ2
1

(7.1)
Il s’agit alors de comprendre comment évolue π Pθ⊗n
1
, Pθ⊗n
2
en fonction de n.

45
7 Eléments de théorie de la décision

7.3 Distance et affinité de Hellinger

On va définir une distance entre deux probabilités à partir de leurs densités par rap-
port à une mesure dominante. On commence par voir que cette quantité ne dépend pas
de la mesure dominante choisie – comme on a vu pour la distance en variation.

Soient P et Q deux probabilités sur un espace probabilisable (Ω, A). Soit µ une mesure
sur Ω qui domine P et Q. On note f la densité de P par rapport à µ et g la densité de
Q par rapport à µ. Si maintenant on pose ν = P +Q 2 , p la densité de P par rapport à ν
et q la densité de Q par rapport à ν, on a
dµ dµ
p=f et q = g .
dν dν
On a donc
√ 2 √ √
Z p Z
f − g dµ = ( p − q)2 dν

et cette quantité ne dépend donc pas de la mesure dominante choisie.

Définition 7.3.1. On appelle distance de Hellinger la quantité h(P, Q) telle que

√ 2
Z
2 1 p
h (P, Q) = f − g dµ.
2

On appelle affinité de Hellinger la quantité ρ(P, Q) telle que

√
Z p
ρ(P, Q) = f gdµ.

Il est clair que la distance de Hellinger est une distance. Par ailleurs,
√ 2 p √
Z p Z
f − g dµ = f + g − 2 f g dµ
√
Z p
= 2−2 f gdµ

et donc
h2 (P, Q) = 1 − ρ(P, Q).
Ceci a pour conséquence que

0 ≤ h2 (P, Q) ≤ 1 et 0 ≤ ρ(P, Q) ≤ 1.

On va maintenant relier distance de Hellinger et distance en variation. Commençons

par comparer affinté de test et affinité de Hellinger. On a

Proposition 7.3.1. Pour toutes probabilités P et Q,

π(P, Q) ≤ ρ(P, Q) et (1 − π(P, Q))2 ≤ 1 − ρ2 (P, Q).

46
7.3 Distance et affinité de Hellinger

Preuve : On a
Z
π(P, Q) = f ∧ g dµ
√ 2
Z p
= f ∧ g dµ
√ p √
Z p
≤ f∧ g f ∨ g dµ
√
Z p
= f g dµ = ρ(P, Q).

Par ailleurs, par Cauchy-Schwarz

Z Z
ρ2 (P, Q) ≤ (f ∧ g) dµ (f ∨ g) dµ.

Mais f + g = f ∧ g + f ∨ g, ce qui donne

Z Z Z Z
(f ∧ g) dµ (f ∨ g) dµ = (f ∧ g) dµ (f + g − f ∧ g) dµ
= π(P, Q) (2 − π(P, Q))
= 1 − (1 − π(P, Q))2

donc
(1 − π(P, Q))2 ≤ 1 − ρ2 (P, Q).
On déduit de cette proposition le fait que ces deux distances sont comparables, mais ne
sont pas équivalentes.
Théorème 7.3.1. Pour toutes probabilités P et Q,
√
kP − QkV T ≤ 2h(P, Q)

et
h2 (P, Q) ≤ kP − QkV T .
Preuve : La première inégalité découle du fait que

kP − Qk2V T = (1 − π(P, Q))2 ≤ (1 + ρ(P, Q)) (1 − ρ(P, Q)) ≤ 2 (1 − ρ(P, Q)) .

La deuxième inégalité découle de

h2 (P, Q) = 1 − ρ(P, Q) ≤ 1 − π(P, Q) = kP − QkV T .

On s’intéresse maintenantQà la distance entre P ⊗n et QQ ⊗n , n un entier. La densité de

P ⊗n par rapport à µ est i=1 f (xi ), celle de Q est ni=1 g(xi ). On a par Fubini
⊗n n ⊗n

v v
Z u n u n n Z p
uY uY Y
t f (xi )t g(xi )dµ⊗n =
p
f (xi ) g(xi )dµ,
i=1 i=1 i=1

47
7 Eléments de théorie de la décision

et donc
ρ(P ⊗n , Q⊗n ) = (ρ(P, Q))n .
On en déduit
Proposition 7.3.2. Pour toutes probabilités P et Q,

h2 (P ⊗n , Q⊗n ) ≤ nh2 (P, Q).

Preuve : On a n
h2 (P ⊗n , Q⊗n ) = 1 − 1 − h2 (P, Q) .
Par ailleurs, pour tout entier n ≥ 1 et tout u ∈ [0, 1], par le théorème des accroissements
finis, il existe ũ ∈ [0, u] tel que 1 − (1 − u)n = n(1 − ũ)n−1 u, donc pour tout u ∈ [0, 1],
1 − (1 − u)n ≤ nu.

On peut maintenant obtenir le comportement de π(P ⊗n , Q⊗n ) en fonction de n.

Théorème 7.3.2. Pour toutes probabilités P et Q,
√ 2
1 − 2nh(P, Q) ≤ π(P ⊗n , Q⊗n ) ≤ e−nh (P,Q) .

Preuve : Montrons la majoration. On a

π(P ⊗n , Q⊗n ) ≤ ρ(P ⊗n , Q⊗n ) = exp[n log(1 − h2 (P, Q))].

Mais pour tout u > 0, log(1 + u) ≤ u, donc exp[n log(1 − h2 (P, Q))] ≤ exp[−nh2 (P, Q))].
Montrons maintenant la minoration. On a
2
1 − π(P ⊗n , Q⊗n ) ≤ 1 − ρ2 (P ⊗n , Q⊗n ) = 1 − (ρ(P, Q))2n .

Mais pour tout u ∈ [0, 1], 1 − u2n ≤ 2n(1 − u). Donc

2
1 − π(P ⊗n , Q⊗n ) ≤ 2n (1 − ρ(P, Q)) = 2nh2 (P, Q).

Dans la minoration du risque maximum du théorème de Le-Cam avec n observa-

tions i.i.d., on doit avoir un minorant > 0 de π(Pθ⊗n , Pθ⊗n ). On voit que cela nécessite
√ √ 1 2
d’avoir h(Pθ1 , Pθ2 ) ≤ c/ n pour un c < 1/ 2. Par ailleurs, le théorème montre que si
√
h(Pθ1 , Pθ2 ) ≥ c/ n, alors π(Pθ⊗n
1
, Pθ⊗n
2
) ≤ exp(−c2 ).

On va maintenant s’intéresser au risque maximum lorsque la fonction de perte est une

puissance de la distance de Hellinger. On se donne p ≥ 1. On se place dans le modèle
(X n , An , (Pθ⊗n )θ∈Θ ). pour tout estimateur Tn (X1 , . . . , Xn ),
√
Théorème 7.3.3. On suppose qu’il existe c < 1/ 2 tel que pour tout entier n, il existe
√
θ1 et θ2 dans Θ tels que h(Pθ1 , Pθ2 ) = c/ n. Alors il existe γ(p) > 0 tel que pour tout
estimateur Tn (X1 , . . . , Xn ), pour tout entier n,

sup Eθ hp Pθ , PTn (X1 ,...,Xn ) ≥ γ(p)n−p/2 .

θ∈Θ

48
7.3 Distance et affinité de Hellinger

En vitesse de Hellinger, la vitesse de convergence la meilleure possible est

√
1/ n.

Preuve : On applique l’inégalité (7.1) avec la fonction de perte l(u, v) = h(Pu , Pv )p ,

et l’on obtient
1 h √ i
sup Eθ hp Pθ , PTn (X1 ,...,Xn ) ≥ p sup hp (Pθ1 , Pθ2 ) 1 − 2nh(Pθ1 , Pθ2 ) ,

θ∈Θ 2 (θ1 ,θ2 )∈Θ2
√
puis on choisit θ1 et θ2 dans Θ tels que h(Pθ1 , Pθ2 ) = c/ n pour obtenir
p
√

1 c
sup Eθ hp Pθ , PTn (X1 ,...,Xn ) ≥ p

√ 1 − 2c ,
θ∈Θ 2 n

1 p
√
et l’on obtient le résultat avec γ(p) = 2p c (1 − 2c).

Sinon de manière générale, l’inégalité (7.1) se réécrit

1 h √ i
sup Eθ [L (g(θ), Tn (X1 , . . . , Xn ))] ≥ sup L (g(θ1 ), g(θ2 )) 1 − 2nh(Pθ1 , Pθ2 ) .
θ∈Θ 2C (θ1 ,θ2 )∈Θ2
(7.2)
En particulier, le risque quadratique vérifie :
h i 1 h √ i
sup Eθ (Tn (X1 , . . . , Xn ) − θ)2 ≥ sup (θ1 − θ2 )2 1 − 2nh(Pθ1 , Pθ2 ) . (7.3)
θ∈Θ 4 (θ1 ,θ2 )∈Θ2

Exemple 1 : modèle gaussien de moyenne inconnue et de variance 1. Θ = R, Pθ =

N (θ, 1). On a (faire le calcul !) :

(θ1 − θ2 )2

ρ (Pθ1 , Pθ2 ) = exp − ,
8

donc, comme pour tout u ≥ 0, 1 − exp(−u) ≤ u,

(θ1 − θ2 )2
h2 (Pθ1 , Pθ2 ) ≤ .
8
L’inégalité (7.3) donne alors : pour tout estimateur Tn (X1 , . . . , Xn ),

√ |θ1 − θ2 |
h i 1
2 2
sup Eθ (Tn (X1 , . . . , Xn ) − θ) ≥ sup (θ1 − θ2 ) 1 − n .
θ∈R 4 (θ1 ,θ2 )∈R2 2
√
En prenant par exemple |θ1 −θ2 | = 1/ n on obtient : pour tout estimateur Tn (X1 , . . . , Xn ),
h i 1
sup Eθ (Tn (X1 , . . . , Xn ) − θ)2 ≥ .
θ∈R 8n

49
7 Eléments de théorie de la décision

1 Pn
Par ailleurs, l’estimateur Tn (X1 , . . . , Xn ) = n i=1 Xi = X vérifie que pour tout θ ∈ R,
Eθ [(X − θ)2 ] = 1/n, donc
 !2 
n
1X  = 1.
sup Eθ  Xi − θ
θ∈R n n
i=1

Exemple 2 : modèle uniforme. Θ = R∗+ , Pθ est la loi uniforme sur [0, θ]. On a (faire
le calcul !) :
|θ1 − θ2 | 1/2

ρ (Pθ1 , Pθ2 ) = 1 − .
θ1 ∨ θ 2
√
Si x ∈ [0, 1], 1 − x ≤ 1 − x, on a

|θ1 − θ2 |
h2 (Pθ1 , Pθ2 ) ≤ .
θ1 ∨ θ2

L’inégalité (7.3) donne alors : pour tout estimateur Tn (X1 , . . . , Xn ),

  s 
h i 1 |θ
(θ1 − θ2 )2 1 − 2n 1 − θ |
2 
sup Eθ (Tn (X1 , . . . , Xn ) − θ)2 ≥ sup .
θ∈]0,1] 4 (θ1 ,θ2 )∈]0,1]2 θ 1 ∨ θ 2

En prenant par exemple |θ1 − θ2 | = c/n et θ1 = 1 on obtient : pour tout estimateur

Tn (X1 , . . . , Xn ),
h i c2 (1 − √c)
2
sup Eθ (Tn (X1 , . . . , Xn ) − θ) ≥ .
θ∈R 8n2
Si l’on pose Tn (X1 , . . . , Xn ) = max{X1 , . . . , Xn }, on a (faire le calcul !) :
h i 2θ2 2
Eθ (Tn (X1 , . . . , Xn ) − θ)2 = ≤ 2
(n + 1)(n + 2) n

lorsque θ ∈]0, 1].

7.4 Vitesse de séparation pour le test de deux hypothèses

simples
Etant donné un n-échantillon X1 , . . . , Xn de loi P , on considère le test du rapport
de vraisemblance pour tester ”P = P0 ” contre ”P = P1 ”. Comme pour l’estimation, le
test s’améliore si n augmente : à niveau fixé la puissance augmente. Une autre façon de
voir l’apport d’information lorsque n augmente est de se demander jusqu’à quel point
P0 et P1 peuvent être proches pour avoir malgré tout les deux erreurs (de première et
de deuxième espèce) majorées par α.

50
7.4 Vitesse de séparation pour le test de deux hypothèses simples

Soit donc µ une mesure dominant P0 et P1 , f0 (resp. f1 ) la densité de P0 (resp. P1 )

par rapport à µ. Le test du rapport de vraisemblance s’écrit
φ = 1Pn log
f1 (Xi )
≥ncn
i=1 f0 (Xi )

pour un seuil ncn à fixer en fonction du niveau souhaité. Evaluons maintenant les erreurs
de première et de deuxième espèce. On a pour tout λ > 0 (le démontrer)
f (X )
n
−λncn λ log f1 (X1 )
EP0 [φ] ≤ e EP0 e 0 1 .

En prenant λ = 1/2 on obtient

f (X )

λ log f1 (X1 )
EP0 e 0 1 = ρ (P0 , P1 ) = 1 − h2 (P0 , P1 ) ,

ce qui donne
2 (P ,P ))
EP0 [φ] ≤ e−ncn /2 en log(1−h 0 1
,
et donc
2 (P
EP0 [φ] ≤ e−n[cn /2+h 0 ,P1 )]
.
Par ailleurs
n
!
X f1 (Xi )
EP1 [1 − φ] = P1 log ≤ ncn
f0 (Xi )
i=1
n
!
X f0 (Xi )
= P1 log ≥ −ncn
f1 (Xi )
i=1

et donc, comme par la même méthode que précédemment,

2 (P
EP1 [1 − φ] ≤ e−n[−cn /2+h 0 ,P1 )]
.
Pour avoir
EP0 [φ] ≤ α,
il suffit de choisir
2 2 1
cn = −2h (P0 , P1 ) + log .
n α
On a alors
1 −2nh2 (P0 ,P1 )]
EP1 [1 − φ] ≤ e ,
α
et donc on a EP1 [1 − φ] ≤ α dès que

1
nh2 (P0 , P1 ) ≥ log .
α
En distance de Hellinger, la vitesse de séparation de deux hypothèses
simples pour obtenir un test du rapport de vraisemblance dont les deux
√
erreurs sont majorées par α est 1/ n.

51
7 Eléments de théorie de la décision

7.5 Divergence de Kullback

On va définir une quantité qui va être comparable à la distance de Hellinger entre deux
probabilités. Soient donc P et Q deux probabilités sur un espace probabilisable (Ω, A).
Soit µ une mesure sur Ω qui domine P et Q. On note f la densité de P par rapport à µ
et g la densité de Q par rapport à µ. Si P est absolument continue par rapport à Q, on
dP
a f = g dQ et si f > 0 alors g > 0 µ-p.s. (c’est-à-dire µ{x : f (x) > 0 et g(x) = 0} = 0).
On a en ce cas
Z Z
dP dP f
log dQ = log dP
dQ dQ f >0,g>0 g
Z Z
f g
= log dP − log dP.
f >g>0 g g>f >0 f
R dP
Montrons que g>f >0 log fg dP est finie, de sorte que dP
R
dQ log dQ dQ est bien défini

(quitte à valoir +∞ si f >g>0 log fg dP = +∞).
R

Si P ({g > f > 0}) = 0, alors g>f >0 log fg dP = 0. Si P ({g > f > 0}) > 0, par
R

l’inégalité de Jensen,
Z
1 g Q({g > f > 0})
log dP ≤ log < +∞.
P ({g > f > 0}) g>f >0 f P ({g > f > 0})
On peut donc introduire la définition suivante.
Définition 7.5.1. On appelle divergence de Kullback entre P et Q la quantité
( R
dP dP
dQ log dQ dQ si P Q
K (P, Q) =
+∞ sinon.
Remarque : la divergence de Kullback n’est pas une distance car elle n’est pas
symétrique : en général, K(P, Q) 6= K(Q, P ). Par contre, elle est bien positive ou nulle,
et nulle si et seulement si les probabilités sont égales, c’est une conséquence de l’inégalité
qui suit.
Proposition 7.5.1. On a
K (P, Q) ≥ 2h2 (P, Q) .
Preuve : Supposons P Q, sinon l’inégalité est immédiate. On a
Z
f
K (P, Q) = log dP
f >0,g>0 g
Z r
g
= −2 log dP
f >0,g>0 f
Z r
g
≥ −2 − 1 dP
f >0,g>0 f

52
7.5 Divergence de Kullback

R pour tout x > −1, log(1 + x) ≤ x. Puis, comme µ-p.s., {f > 0} = {f > 0, g > 0}, on
car
a f >0,g>0 dP = 1, et donc
Z r Z
g p
− 1 dP = f gdµ − 1
f >0,g>0 f f >0,g>0
= ρ (P, Q) − 1
= −h2 (P, Q) .
Cette proposition permet un nouveau minorant dans le théorème de Le Cam : si la
fonction de perte vérifie les hypothèses du théorème de Le Cam, pour tout estimateur
T (X),

1
q
sup Eθ [L (g(θ), T (X))] ≥ sup L (g(θ1 ), g(θ2 )) 1 − K(Pθ1 , Pθ2 ) . (7.4)
θ∈Θ 2C (θ1 ,θ2 )∈Θ2

Pour utiliser ce résultat avec n observations indépendantes, on a un calcul simple de

la divergence de Kullback entre produits tensoriels.
Proposition 7.5.2. Soient, pour i = 1, . . . , n, Pi et Qi deux probabilités sur un espace
probabilisable (Ωi , Ai ). Alors
n
X
K (⊗ni=1 Pi , ⊗ni=1 Qi ) = K (Pi , Qi )
i=1

En particulier :
K P ⊗n , Q⊗n = nK (P, Q) .

Preuve : l’écrire !.

Application au modèle linéaire gaussien.

Considérons le modèle
Y = Xβ +
avec X = (x1 , . . . , xn )T ∈ Rn , β ∈ R, ∼ Nn (0, σ 2 Id) et θ = (β, σ 2 ). On s’intéresse
au risque quadratique minimax pour estimer β. On a en appliquant (7.4), pour tout
estimateur T (Y ),
h i 1 q
2 2
sup Eθ (T (Y ) − β) ≥ sup (β1 − β2 ) 1 − K(Pθ1 , Pθ2 )
θ∈R×{σ 2 } 4 (θ1 ,θ2 )

avec Pθ = ⊗ni=1 N (xi β, σ 2 ). On a donc

n
X
K N (xi β1 , σ 2 ), N (xi β2 , σ 2 ) .

K(Pθ1 , Pθ2 ) =
i=1

Puis (faire le calcul !) :

x2
K N (xi β1 , σ 2 ), N (xi β2 , σ 2 ) = i2 (β1 − β2 )2

2σ

53
7 Eléments de théorie de la décision

et donc
  v 
u
2 n
h i 1 (β1 − β2 ) X
sup Eθ (T (Y ) − β)2 ≥ sup (β1 − β2 )2 1 − t
u
2
x2i  .
2
θ∈R×{σ } 4 (θ1 ,θ2 ) 2σ
i=1

En prenant pour un c ∈]0, 1],

2cσ 2
(β1 − β2 )2 = Pn 2
i=1 xi

on obtient
h i σ 2 c(1 − √c)
2
sup Eθ (T (Y ) − β) ≥ .
2 ni=1 x2i
P
θ∈R×{σ 2 }

L’estimateur du maximum de vraisemblance est

Pn
xi Yi
β = Pi=1
b
n 2
i=1 xi

pour lequel, pour tout θ ∈ R × {σ 2 },

σ2
2
Eθ βb − β = Pn 2,
i=1 xi

et βb est un estimateur minimax à constante près.

7.6 Estimation bayésienne

7.6.1 Estimateurs admissibles et estimateurs bayésiens
On veut estimer g(θ), et on se fixe une fonction de perte L. Les définitions qui suivent
s’entendent relativement à la fonction de perte fixée. Soient T (X) et T 0 (X) deux esti-
mateurs.

Définition 7.6.1. On dit que T est aussi bon que T 0 si

∀θ ∈ Θ, R(θ, T ) ≤ R(θ, T 0 ).

On dit que T est meilleur que T 0 si T est aussi bon que T 0 et que en outre,

∃θ0 ∈ Θ, R(θ0 , T ) < R(θ0 , T 0 ).

On dit que T est admissible si il n’existe pas d’estimateur T 0 meilleur que T .

Théorème 7.6.1. Un estimateur admissible et de risque constant est minimax.

54
7.6 Estimation bayésienne

Preuve : Soit T un estimateur admissible et tel que pour une constante C, pour tout
θ ∈ Θ, R(θ, T ) = C. Alors supθ∈Θ R(θ, T ) = C. Si T 0 est un autre estimateur, il n’est
pas meilleur que T . Donc ou bien T est aussi bon que T 0 , auquel cas supθ∈Θ R(θ, T ) ≤
supθ∈Θ R(θ, T 0 ), ou bien il existe θ tel que R(θ, T 0 ) < R(θ, T ), mais alors il existe θ0 tel
que R(θ0 , T 0 ) > R(θ0 , T ) = C, auquel cas

sup R(θ, T 0 ) > C = sup R(θ, T ).

θ∈Θ θ∈Θ

Donc T est bien minimax.

On suppose maintenant Θ mesurable, et on munit alors Θ d’une probabilité ν, appelée

alors loi a priori. Les définitions qui suivent s’entendent relativement à la fonction de
perte fixée et à la loi a priori fixée.

Définition 7.6.2. On appelle risque de Bayes de l’estimateur T la quantité

Z
Rν (T ) = R(θ, T )dν(θ).
Θ

On dit que T est un estimateur bayésien si

— Pour tout θ ∈ Θ, R(θ, T ) est fini.
— Pour tout estimateur T 0 , Rν (T ) ≤ Rν (T 0 ).

Autrement dit, un estimateur bayésien minimise le risque bayésien. On va voir que

sous certaines conditions, pour trouver des estimateurs admissibles, il suffit de trouver
des estimateurs bayésiens. Si en outre leur risque est constant, ils sont minimax.

Théorème 7.6.2. Soit T un estimateur bayésien. Supposons que l’une des conditions
suivantes est réalisée :
1. T est unique au sens suivant : si T 0 est un estimateur bayésien, alors pour tout
θ ∈ Θ, T = T 0 Pθ -p.s.
2. Θ est dénombrable et ν charge tous les points de Θ.
3. Θ est une partie de Rk , ν charge tous les ouverts de Θ, et si T 0 est tel que R(θ, T 0 )
est fini pour tout θ ∈ Θ, alors θ 7→ R(θ, T 0 ) est continue.
Alors T est admissible.

Preuve : On va raisonner par l’absurde. Soit T un estimateur bayésien, et supposons

qu’il n’est pas admissible. Alors il existe un estimateur T 0 meilleur que T , donc tel que

∀θ ∈ Θ, R(θ, T 0 ) ≤ R(θ, T )

et
∃θ0 ∈ Θ, R(θ0 , T 0 ) < R(θ, T ).

55
7 Eléments de théorie de la décision

Supposons 1. Alors Rν (T 0 ) = Rν (T ), car T est bayésien. Donc pour tout θ ∈ Θ, T = T 0

Pθ -p.s. et donc pour tout θ ∈ Θ, R(θ, T 0 ) = R(θ, T ) : contradiction.
Supposons 2. Alors
X
Rν (T ) − Rν (T 0 ) = R(θ, T ) − R(θ, T 0 ) ν({θ})

θ∈Θ
R(θ0 , T ) − R(θ0 , T 0 ) ν({θ0 })

≥
> 0 : contradiction.

Supposons 3. Alors la fonction θ 7→ R(θ, T ) − R(θ, T 0 ) est continue. Soit ε = R(θ0 , T ) −

R(θ0 , T 0 ). Par continuité, il existe un ouvert U contenant θ0 tel que
ε
∀θ ∈ U, |R(θ, T ) − R(θ, T 0 ) − ε| ≤ ,
2
et donc tel que
ε
∀θ ∈ U, R(θ, T ) − R(θ, T 0 ) ≥ .
2
On a alors
Z
0
R(θ, T ) − R(θ, T 0 ) dν(θ)

Rν (T ) − Rν (T ) =
ZΘ
R(θ, T ) − R(θ, T 0 ) dν(θ)

≥
U
ε
≥ ν(U )
2
> 0 : contradiction.

7.6.2 Notion de loi conditionnelle

La formule
Z Z Z
Rν (T ) = L(g(θ), T (x))dPθ (x) dν(θ) = L(g(θ), T (x))dPθ (x)dν(θ)
θ X θ×X

peut être lue en considérant que le couple (τ, X) (paramètre et observation) est une
variable aléatoire, de loi jointe dν(θ)dPθ (x). Le point de vue bayésien est de munir l’en-
semble des paramètres d’une loi a priori ν, et de considérer que, conditionnellement au
fait que le paramètre τ soit θ, l’observation est de loi Pθ . A condition que ce que l’on
vient de dire ait un sens, c’est à dire que l’on puisse effectivement parler de loi condi-
tionnelle. C’est ce que l’on va étudier ici.

Si (X, Y ) est un couple de variables aléatoires dans X × Y, de loi PX,Y , on sait que si
X et Y sont des variables indépendantes, on peut écrire, par Fubini : pour toute fonction
φ mesurable ≥ 0,
Z Z Z Z
E [φ(X, Y )] = φ(x, y)dPY (y) dPX (x) = φ(x, y)dPX (x) dPY (y).
X Y Y X

56
7.6 Estimation bayésienne

On souhaite écrire une formule analogue lorsque X et Y ne sont pas des variables
indépendantes, en faisant intervenir une loi conditionnelle :
Z Z
E [φ(X, Y )] = φ(x, y)dPY (y|X = x) dPX (x) (7.5)
X Y

On va montrer que c’est possible sous certaines conditions. On suppose ici que X ⊂ Rk
et Y ⊂ Rp .

Proposition 7.6.1. Soit µ (resp. ν) une mesure positive sur X (resp. Y). On suppose
que P(X,Y ) est absolument continue par rapport à µ ⊗ ν de densité f (x, y). Alors (7.5)
est vraie si l’on définit

dPY (y|X = x) = f (y|X = x)dν(y),

avec
f (x, y)
f (y|X = x) = 1
g(x) g(x)>0
R
où g(x) est la densité par rapport à µ de la loi de X (g(x) = Y f (x, y)dν(y)).

dPY (y|X = x) est une version de la loi conditionnelle de Y sachant X = x.

Noter l’analogie avec la formule définissant les probabilités conditionnelles.

Preuve : Soit φ une fonction mesurable ≥ 0. On a

Z Z Z Z
f (x, y)
φ(x, y)f (y|X = x)dν(y) dPX (x) = φ(x, y) 1g(x)>0 dν(y) g(x)dµ(x)
X Y X Y g(x)
Z Z
= φ(x, y)f (x, y)dν(y) dµ(x)
X Y

car si g(x) = 0, alors f (x, y) = 0 ν-p.p. Puis par Fubini

Z Z Z
φ(x, y)f (x, y)dν(y) dµ(x) = φ(x, y)f (x, y)dν(y)dµ(x)
X Y X ×Y
= E [φ(X, Y )] .

Cette ”loi conditionnelle” permet-elle alors de calculer les espérances conditionnelles

comme les espérances ?

Quelques rappels sur les espérances conditionnelles par rapport à une tribu ; par rap-
port à une variable aléatoire ; la notation espérance conditionnelle à X = x.

Proposition 7.6.2. Si (7.5) est vraie, alors pour toute fonction ψ ∈ L1 (PY ),
Z
E [ψ(Y )|X = x] = ψ(y)dPY (y|X = x).
Y

57
7 Eléments de théorie de la décision

Preuve : Notons Z
ρ(x) = ψ(y)dPY (y|X = x).
Y

On veut montrer que pour toute fonction h mesurable bornée,

E [ψ(Y )h(X)] = E [ρ(X)h(X)] .

Soit donc h mesurable bornée. On a

Z Z
E [ρ(X)h(X)] = ψ(y)dPY (y|X = x) h(x)dPX (x)
X Y
Z Z
= ψ(y)h(x)dPY (y|X = x) dPX (x)
X Y
= E [ψ(Y )h(X)]

car (7.5).

7.6.3 Calcul d’estimateurs bayésiens

On suppose que le modèle (X , A, (Pθ )θ∈Θ ) est dominé. Soit µ une mesure dominante,
et pour tout θ ∈ Θ, fθ la densité de Pθ par rapport à µ. On suppose aussi que la loi a
priori a une densité ρ par rapport à une mesure π sur Θ : dν(θ) = ρ(θ)dπ(θ). On a alors
Z
Rν (T ) = L(g(θ), T (x))fθ (x)ρ(θ)dµ(x)dπ(θ).
Θ×X

Autrement dit, si (τ, X) est une variable aléatoire sur Θ × X de loi de densité h(θ, x) =
fθ (x)ρ(θ) par rapport à π ⊗ µ, on a

Rν (T ) = E [L(g(τ ), T (X))] .

On peut donc appliquer les résultats précédents sur les lois conditionnelles, et l’on a
Z Z
Rν (T ) = L(g(θ), T (x))ρ(θ|X = x)dπ(θ) h(x)dµ(x),
X Θ
R
où h est la densité de la loi marginale de X, c’est-à-dire h(x) = Θ fθ (x)ρ(θ)dπ(θ), et où
ρ(θ|X = x) est la densité de la loi conditionnelle de τ sachant X = x, donnée par

fθ (x)ρ(θ)
ρ(θ|X = x) = 1h(x)>0 .
h(x)

On appelle ρ(θ|X)dπ(θ) loi a posteriori.

Il est clairR qu’alors, pour minimiser Rν (T ), il suffit pour tout x de choisir T (x) qui
minimise Θ L(g(θ), T (x))ρ(θ|X = x)dπ(θ). On va voir deux exemples typiques dans le
cas où ce que l’on cherche à estimer est à valeurs rélles, c’est-à-dire quand g : Θ → R.

58
7.6 Estimation bayésienne

[Link] Cas de la perte quadratique

On considère L(u, v) = (u − v)2 . Alors un estimateur bayésien est l’espérance a

posteriori T (X) donnée par
Z
T (x) = g(θ)ρ(θ|X = x)dπ(θ),
Θ

et T est unique hdµ-p.s. (Démontrer ces deux affirmations).

Si tout ensemble négligeable pour hdµ l’est pour Pθ pour tout θ, alors T est admissible.
(Ecrire ce que cela signifie, indiquer des conditions suffisantes pour obtenir ce résultat).

Exemple : modèle de Bernoulli avec a priori Beta.

Le modèle est ({0, 1}n , P({0, 1}n ), (B(θ)⊗n )θ∈[0,1] ). L’observation est X1 , . . . , Xn . On
choisit la loi a priori Beta B(a, b), avec a > 0 et b > 0, de densité par rapport à
Lebesgue
Γ(a + b) a−1
θ (1 − θ)b−1 10<θ<1 .
Γ(a)Γ(b)
R +∞
(Rappel : Γ(z) = 0 xz−1 e−x dx).
La loi a posteriori est alors la loi Beta B(a + ni=1 Xi ; b + n − ni=1 Xi ). (Le démontrer).
P P
L’espérance a posteriori est

a + ni=1 Xi
P
T (X1 , . . . , Xn ) = ,
a+b+n

et T est admissible. (Démontrer ces deux affirmations).

Exemple : modèle gaussien avec a priori gaussien.

Le modèle est (Rn , B({Rn ), (N (θ, 1)⊗n )θ∈R ). L’observation est X1 , . . . , Xn . On choisit la
loi a priori N (0, σ 2 ). La loi a posteriori est alors la loi

n
!
σ2 X σ2
N Xi ; .
1 + nσ 2 1 + nσ 2
i=1

(Le démontrer).
L’espérance a posteriori est

n
σ2 X
T (X1 , . . . , Xn ) = Xi ,
1 + nσ 2
i=1

et T est admissible. (Démontrer ces deux affirmations).

59
7 Eléments de théorie de la décision

[Link] Cas de la perte valeur absolue

On considère L(u, v) = |u−v|. Alors un estimateur bayésien est T (X) où T (x) minimise
pour tout x Z
|θ − T (x)| dν(θ|X = x).
Θ

On va voir qu’ un estimateur bayésien est la médiane a posteriori T (X) qui vérifie

1 1
ν (τ ≤ T (X)|X) ≥ et ν (τ ≥ T (X)|X) ≥ .
2 2
Pour cela, nous allons définir, pour α ∈]0, 1[, le quantile d’ordre α d’une loi de probabilité,
et appliquer cela au quantile d’ordre 1/2 appelé médiane. Soit Z une variable
aléatoire de loi P .

Définition 7.6.3. On dit que q est un quantile d’ordre α de Z (ou de la loi de Z) si

et seulement si
P (Z ≤ q) ≥ α et P (Z ≥ q) ≥ 1 − α.

Proposition 7.6.3. Si F est la fonction de répartition de Z, alors F − (α) est un quantile

d’ordre α de Z.

Remarque : il peut y avoir plusieurs quantiles d’ordre α.

Preuve : rappeler la définition de la fonction quantile et ses propriétés, voir que la

proposition en est une conséquence.

Proposition 7.6.4. q est un quantile d’ordre α de Z si et seulement si q minimise la

fonction
u 7→ αE [(Z − u)+ ] + (1 − α)E [(Z − u)− ] .

Preuve : Notons

h(u) = αE [(Z − u)+ ] + (1 − α)E [(Z − u)− ] .

Remarquons que l’on a aussi

h(u) = E [(Z − u)+ ] + (1 − α)E [(u − Z)] = E [(Z − u)− ] + αE [(Z − u)] .

On montre alors que pour tous u et v,

h(u) − h(v) ≥ (v − u) [P (Z ≥ v) − (1 − α)]

(en utilisant la première formulation) et

h(v) − h(u) ≥ (v − u) [P (Z ≤ u) − α]

60
7.6 Estimation bayésienne

(en utilisant la deuxième formulation).

Si q minimise h, alors pour tout v > q on a h(q) − h(v) ≤ 0, donc P (Z ≥ v) ≤ 1 − α, soit
P (Z < v) ≥ α, donc P (Z ≤ q) ≥ α en faisant tendre v vers q. Aussi, pour tout u < q,
h(q) − h(u) ≤ 0, donc P (Z ≤ u) ≤ α, donc P (Z < q) ≤ α en faisant tendre u vers q et
donc P (Z ≥ q) ≥ 1 − α.
Réciproquement, si P (Z ≤ q) ≥ α, alors pour tout v > q on a h(q) − h(v) ≤ 0, et si
P (Z ≥ q) ≥ 1 − α, pour tout u < q, h(q) − h(u) ≤ 0.

Exemple : dans le cas du modèle gaussien avec a priori gaussien, la médiane a pos-
teriori est égale à l’espérance a posteriori

61
8 Tests du rapport de vraisemblance et
théorie de Neyman-Pearson

8.1 Extension de la notion de test

On considère le modèle statistique (X , A, (Pθ )θ∈Θ ), Θ0 et Θ1 deux parties de Θ telles
que Θ0 ∩ Θ1 = ∅.
On veut tester H0 : ”θ ∈ Θ0 ” contre H1 : ”θ ∈ Θ1 ”.
Se rappeler ce qu’est un test φ(X), et toutes les notions liées.

On va étendre la notion de test, en particulier de façon à obtenir des tests de taille α

dans tous les cas.

Définition 8.1.1. Un test statistique de l’hypothèse H0 : “θ ∈ Θ000 contre l’alter-

native H1 : “θ ∈ Θ001 est une variable aléatoire φ fonction mesurable de l’observation
et à valeur dans [0, 1]. La règle de décision est la suivante : on rejette H0 avec probabi-
lité φ(X). En pratique, on génère une variable aléatoire U indépendante de X et de loi
uniforme sur [0, 1], et on rejette H0 si U ≤ φ(X).

On peut aussi considérer le test randomisé ψ(X, U ) = 1U ≤φ(X) , qui lui est à valeurs
dans {0, 1} et tel que φ(X) = E[ψ|X]. Le démontrer.

Définition 8.1.2. La taille du test est supθ∈Θ0 Eθ φ.

On appelle puissance du test la fonction θ 7→ Eθ φ.
On dit que le test est de niveau α si sa taille est majorée par α, ou autrement dit si la
fonction puissance, pour θ ∈ Θ0 , est majorée par α.

Démontrer que ces notions sont identiques si on les applique au test ou au test rando-
misé.

On va maintenant, comme pour les méthodes d’estimation, chercher des critères d’op-
timalité. De même qu’on a comparé les risques des estimateurs, on va comparer les
puissances des tests.

Définition 8.1.3. Le test φ est dit uniformément le plus puissant parmi les tests
de niveau α, soit UPP(α), si et seulement si φ est de niveau α et si pour tout test ψ
de niveau α, on a
∀θ ∈ Θ1 , Eθ ψ ≤ Eθ φ.

63
8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson

8.2 Cas de deux hypothèses simples

On étudie le cas où Θ0 = {θ0 } et Θ1 = {θ1 }. Soit µ une mesure dominant Pθ0 et Pθ1 ,
dP dP
et notons f0 = dµθ0 et f1 = dµθ1 .

Rappelons la notion de tests du rapport de vraisemblance (TRV). On l’avait défini

comme valant 1 lorsque f1 (X) > Cα f0 (X), avec

Cα = inf {C : Pθ0 (f1 (X) > Cf0 (X)) ≤ α} .

Rappeler pourquoi cet ensemble de C est de la forme [Cα , +∞[.

Lorsque le test est à valeurs dans {0, 1} cela suffit à le définir. Il vaut alors 0 sur
l’événement complémentaire.
On généralise la notion de test du rapport de vraisemblance en disant que c’est un test
tel que : il existe un réel sα tel que
— Le test vaut 1 sur l’événement ”supθ∈Θ1 fθ (X) > sα supθ∈Θ0 fθ (X),
— Le test vaut 0 sur l’événement ”supθ∈Θ1 fθ (X) < sα supθ∈Θ0 fθ (X),
— Et sur l’événement ”supθ∈Θ1 fθ (X) = sα supθ∈Θ0 fθ (X), le test vaut γ(X) ∈ [0, 1].

Proposition 8.2.1. Pour tout α ∈]0, 1[, il existe un test du rapport de vraisemblance
de taille α pour tester H0 :”θ = θ0 ” contre H1 :”θ = θ1 ” qui est

φα = 1f1 (X)>Cα f0 (X) + γ 1f1 (X)=Cα f0 (X)

avec γ = 0 si Pθ0 (f1 (X) = Cα f0 (X)) = 0 et

α − Pθ0 (f1 (X) > Cα f0 (X))

γ= ∈ [0, 1]
Pθ0 (f1 (X) = Cα f0 (X))

si Pθ0 (f1 (X) = Cα f0 (X)) > 0.

Preuve : On a Pθ0 (f1 (X) > Cα f0 (X)) ≤ α, et si C < Cα , Pθ0 (f1 (X) > Cf0 (X)) > α.
Donc en faisant tendre C vers Cα , on obtient

Pθ0 (f1 (X) ≥ Cα f0 (X)) ≥ α,

c’est à dire
Pθ0 (f1 (X) > Cα f0 (X)) + Pθ0 (f1 (X) = Cα f0 (X)) ≥ α,
ce qui prouve que γ ∈ [0, 1]. Puis

Eθ0 [φα ] = Pθ0 (f1 (X) > Cα f0 (X)) + γPθ0 (f1 (X) = Cα f0 (X))
= Pθ0 (f1 (X) > Cα f0 (X)) + α − Pθ0 (f1 (X) > Cα f0 (X)) = α.

64
8.2 Cas de deux hypothèses simples

Lemme 8.2.1 (Lemme de Neyman-Pearson). Soit α ∈]0, 1[. On suppose Pθ0 (f1 (X) >
0) > α. Alors φ est UPP(α) pour tester H0 :”θ = θ0 ” contre H1 :”θ = θ1 ” si et seulement
si φ est un test du rapport de vraisemblance de taille α. On dit alors que φ est NP(α).

Preuve : Soit ψ un test de niveau α. On a toujours (le vérifier région par région)

(ψ − φα ) (f1 − Cα f0 ) ≤ 0

donc en intégrant Z
(ψ − φα ) (f1 − Cα f0 ) dµ ≤ 0

soit
Eθ1 (ψ − φα ) ≤ Cα Eθ0 (ψ − φα ) ≤ 0
car Eθ0 ψ ≤ α et Eθ0 φα = α, et donc Eθ1 ψ ≤ Eθ1 φα , et donc φα est UPP(α).
Supposons maintenant que ψ est UPP(α). Alors Eθ1 ψ = Eθ1 φα , et donc

Cα Eθ0 (ψ − φα ) ≥ 0

et donc Cα Eθ0 (ψ − φα ) = 0 Comme Cα > 0 (puisque Pθ0 (f1 (X) > 0) > α) on obtient
Eθ0 ψ = Eθ0 φα = α. Du coup
Z Z
(ψ − 1) (f1 − Cα f0 ) dµ + (ψ) (f1 − Cα f0 ) dµ = 0,
f1 >Cα f0 f1 <Cα f0

ce qui montre que ψ = 1 sur l’événement ”f1 (X) > Cα f0 (X)” et ψ = 0 sur l’événement
”f1 (X) < Cα f0 (X)”, donc ψ est un test du rapport de vraisemblance de taille α.

Exemple : modèle gaussien. Ici Pθ = N (µ, 1)⊗n , θ = µ et Θ = R. Soient µ0 et µ1

deux réels. On montre facilement (le faire !) que :

Si µ1 > µ0 , le TRV(α) pour tester H0 : ”µ = µ0 ” contre H1 : ”µ = µ1 ” est

φα = 1X−µ0 >u1−α /√n

1 Pn
en notant X = n i=1 Xi et avec u1−α le quantile d’ordre 1 − α de N (0, 1).

De même si µ1 < µ0 , le TRV(α) pour tester H0 : ”µ = µ0 ” contre H1 : ”µ = µ1 ” est

ψα = 1X−µ0 <uα /√n

On remarque que ces tests ne dépendent de µ1 qu’à travers le signe de µ1 − µ0 . On

peut alors montrer que :

φα est UPP(α) pour tester H0 : ”µ = µ0 ” contre H1 : ”µ > µ0 ”,

65
8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson

ψα est UPP(α) pour tester H0 : ”µ = µ0 ” contre H1 : ”µ < µ0 ”,

et il n’existe pas de test UPP(α) pour tester H0 : ”µ = µ0 ” contre H1 : ”µ 6= µ0 ”.

(Ecrire la preuve de ces affirmations !).

Si l’on veut tester H0 : ”µ = µ0 ” contre H1 : ”µ 6= µ0 ”, on peut considérer le test

hα = 1X−µ0 >u1−α/2 /√n + 1X−µ0 <uα/2 /√n .

Faire la représentation graphique des courbes de puissance des trois tests φα , ψα et

hα . On pourra commencer par écrire les fonctions puissance de chacun des tests à l’aide
de la fonction de répartition de N (0, 1), et alors montrer que la fonction puissance de
φα est croissante et celle de ψα est décroissante.

8.3 Tests d’hypothèses multiples

On ne suppose plus que Θ0 et Θ1 sont réduits à un point. Existe-t-il alors un test
UPP(α) ? On vient de voir que non en général, mais que si l’on pouvait écrire le rap-
port de vraisemblance d’une certaine manière monotone on pouvait montrer que le test
UPP(α) pour des hypothèses simples le restait pour un test unilatère. On va généraliser
l’exemple gaussien.

On se place dans le cadre où : Θ est un intervalle de R, le modèle est dominé par une
mesure µ, et on note, pour tout θ, fθ = dP
dµ .
θ

Définition 8.3.1. On dit que la famille {fθ , θ ∈ Θ} est une famille à rapport mono-
tone si et seulement si il existe une statistique T (X), c’est à dire T : X → R mesurable
telle que : pour tout (θ1 , θ0 ) ∈ Θ2 tel que θ1 > θ0 , il existe une fonction Ψθ1 ,θ0 croissante
de R dans R telle que pour tout x tel que fθ0 (x) > 0 ou fθ1 (x) > 0 :
fθ1
(x) = Ψθ1 ,θ0 (T (x)) .
fθ0

Remarquons que quitte à considérer −T (X), on ne perd pas en généralité en ne

considérant que des fonctions croissantes. Noter aussi que si θ1 < θ0 ,
fθ1 1
(x) =
fθ0 Ψθ0 ,θ1 (T (x))

qui est une fonction décroissante de T (x).

Théorème 8.3.1. Soit α ∈]0, 1[ et {fθ , θ ∈ Θ} une famille à rapport monotone. Soit
θ0 ∈ Θ et soit θ0 ∈ Θ tel que θ0 > θ0 . Alors
1. Le TRV(α) de H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 ” ne dépend pas de θ0 .On peut le
noter φθ0 ,α .

66
8.3 Tests d’hypothèses multiples

2. La fonction θ 7→ Eθ [φθ0 ,α ] est croissante.

3. Le test φθ0 ,α est UPP(α) pour tester H0 : ”θ ≤ θ0 ” contre H1 : ”θ > θ0 .
Si maintenant θ0 ∈ Θ est tel que θ0 < θ0 , alors
1bis. Le TRV(α) de H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 ” ne dépend pas de θ0 .On peut
le noter ψθ0 ,α .
2bis. La fonction θ 7→ Eθ [ψθ0 ,α ] est décroissante.
3bis. Le test ψθ0 ,α est UPP(α) pour tester H0 : ”θ ≥ θ0 ” contre H1 : ”θ < θ0 .

Preuve : Montrons 1. Soit φ un TRV(α) de H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 ”. Alors,

il existe sα tel que :
— φ(X) = 1 si fθ0 (X) > sα fθ0 (X),
— φ(X) = 0 si fθ0 (X) < sα fθ0 (X),
— Eθ0 [φ(X)] = α.
Maintenant, comme {fθ , θ ∈ Θ} est une famille à rapport monotone, il existe un réel cα
et un réel γ tel que
φ = 1T (X)>cα + γ 1T (X)=cα
est un TRV(α) de H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 ”. On peut par exemple choisir

cα = inf{c : Pθ0 (T (X) > c) ≤ α},

puis γ = 0 si Pθ0 (T (X) = cα ) = 0 et

α − Pθ0 (T (X) > cα )

γ=
Pθ0 (T (X) = cα )

si Pθ0 (T (X) = cα ) > 0. cα et γ ne dépendent que de θ0 et α. On a donc montré 1.

Montrons maintenant 2. Soient θ1 et θ2 deux éléments de Θ tels que θ1 < θ2 . Alors

φθ0 ,α est un test du rapport de vraisemblance de H0 : ”θ = θ1 ” contre H1 : ”θ = θ2 ”
(dire pourquoi) de taille

a = Pθ1 (T (X) > cα ) + γPθ1 (T (X) = cα ) = Eθ1 [φθ0 ,α (X)].

Donc il est NP(a) et UPP(a) pour tester H0 : ”θ = θ1 ” contre H1 : ”θ = θ2 ”, et donc il

est plus puissant que le test constant égal à a, donc Eθ2 [φθ0 ,α (X)] ≥ a, soit

Eθ1 [φθ0 ,α (X)] ≤ Eθ2 [φθ0 ,α (X)]

et on a ainsi montré 2.
Montrons enfin 3. Tout d’abord, pour tout θ ≤ θ0 , Eθ [φθ0 ,α (X)] ≤ Eθ0 [φθ0 ,α (X)] = α et
donc φθ0 ,α est un test de taille α pour tester H0 : ”θ ≤ θ0 ” contre H1 : ”θ > θ0 . Soit φ
un test de niveau α pour tester H0 : ”θ ≤ θ0 ” contre H1 : ”θ > θ0 . Alors, si θ0 > θ0 , φ
est un test de niveau α pour tester H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 . Mais φθ0 ,α est
UPP(α) pour tester H0 : ”θ = θ0 ” contre H1 : ”θ = θ0 , donc Eθ0 [φ(X)] ≤ Eθ0 [φθ0 ,α (X)].
Ceci étant vrai pour tout θ0 > θ0 , on a montré que φθ0 ,α est UPP(α) pour tester H0 :

67
8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson

”θ ≤ θ0 ” contre H1 : ”θ > θ0 .
Les preuves de 1bis, 2bis, 3bis sont analogues.

Revenons maintenant à la question concernant le test bilatère. On a vu dans le cas

gaussien qu’il n’existait pas de test UPP(α). Par les mêmes arguments, pour une famille
à rapport monotone, pour tout θ0 , il n’existe pas de test UPP(α) de ”θ = θ0 ” contre
”θ 6= θ0 ”. On va néanmoins montrer, dans le cas gaussien, qu’en se restreignant aux tests
dont la puissance est au moins égale à la taille, on a un test optimal.

Définition 8.3.2. On dit que le test φ de H0 : ”θ ∈ Θ0 ” contre H1 : ”θ ∈ Θ1 ” est un

test sans biais si et seulement si

sup Eθ [φ(X)] ≤ inf Eθ [φ(X)].

θ∈Θ0 θ∈Θ1

Proposition 8.3.1. Un test UPP est sans biais.

Preuve : car il est plus puissant que le test constant égal à sa taille.

Définition 8.3.3. Le test φ est dit uniformément le plus puissant parmi les tests
sans biais de niveau α, soit UPPB(α), pour tester H0 contre H1 si et seulement si
φ est un test sans biais et de niveau α pour tester H0 contre H1 tel que, si ψ est un test
sans bais de niveau α pour tester H0 contre H1 , alors Eθ1 φ ≥ Eθ1 ψ.

Revenons au modèle gaussien, et considérons le test de H0 : ”µ = µ0 ” contre H1 :

”µ 6= µ0 ” donné par

hα = 1X−µ0 >u1−α/2 /√n + 1X−µ0 <uα/2 /√n .

On a pour tout µ, en notant π(µ) = Eµ (hα ), F la fonction de répartition de N (0, 1) et

u = u1−α/2 = −uα/2 :
√ √
π(µ) = F (−u − n(µ − µ0 )) + 1 − F (u − n(µ − µ0 ))

(Le démontrer), et donc la dérivée de π est (faire le calcul !)

√
√ √

0 n 1 2 1 2
π (µ) = √ exp[− (u − n(µ − µ0 )) ] − exp[− (u + n(µ − µ0 )) ] ,
2π 2 2

et donc (le vérifier) π 0 (µ) ≤ 0 pour µ ≤ µ0 et π 0 (µ) ≥ 0 pour µ ≥ µ0 , donc π est

minimum en µ = µ0 et donc hα est un test sans biais de H0 : ”µ = µ0 ” contre H1 :
”µ 6= µ0 ”.

Proposition 8.3.2. Le test hα est UPPB(α) pour tester H0 : ”µ = µ0 ” contre H1 :

”µ 6= µ0 ”.

68
8.3 Tests d’hypothèses multiples

Preuve :
Tout d’abord, quitte à considérer θ = µ − µ0 , on peut considérer que µ0 = 0 sans perte
de généralité.
Soit φ un test sans biais pour tester H0 : ”µ = 0” contre H1 : ”µ 6= 0”. On a alors

E0 [φ] ≤ α et ∀µ ∈ R, Eµ [φ] ≥ α.
R
Mais la fonction µ 7→ Eµ [φ(X)] est dérivable, de dérivée φ(x1 , . . . , xn )ṗµ (x1 , . . . , xn )dx1 · · · dxn ,
où l’on note pµ (x1 , . . . , xn ) la densité de N (µ, 1)⊗n par rapport à Lebesgue et ṗµ (x1 , . . . , xn )
sa dérivée par rapport à µ. (Démontrer cette affirmation). La fonction µ 7→ Eµ [φ(X)]
ayant un minimum en 0, sa dérivée s’y annule, et donc pour tout test φ sans biais de
H0 : ”µ = 0” contre H1 : ”µ 6= 0” on a
Z
φ(x1 , . . . , xn )ṗ0 (x1 , . . . , xn )dx1 · · · dxn = 0. (8.1)

En particulier, E0 [φ] = α par continuité.

On va maintenant montrer que pour tout réel µ, il existe des réels k1 > 0 et k2 > 0
tels que

hα (x1 , . . . , xn ) = 0 ⇐⇒ pµ (x1 , . . . , xn ) − k1 p0 (x1 , . . . , xn ) − k2 ṗ0 (x1 , . . . , xn ) ≤ 0. (8.2)

Notons tout d’abord que

Pn
i=1 xi
√
hα (x1 , . . . , xn ) = 0 ⇐⇒ ≤ u.
n

Soit µ un réel fixé, et notons f (x; k1 , k2 ) la fonction telle que

Pn
i=1 xi
√
pµ (x1 , . . . , xn )−k1 p0 (x1 , . . . , xn )−k2 ṗ0 (x1 , . . . , xn ) = p0 (x1 , . . . , xn )f ; k1 , k2 .
n

On a √ n 2 √
f (x; k1 , k2 ) = exp nµx − µ − k1 + k2 nx,
2
dont la dérivée (en tant que fonction de x) est
√ √ n √
f 0 (x; k1 , k2 ) = nµ exp nµx − µ2 + k2 n.
2
On voit que si µ et k2 sont non nuls et de signe contraire, alors f est décroissante puis
croissante, et pour que (8.2) soit vérifié, il suffit que u et −u soient les deux zéros de f .
Autrement dit, il suffit de trouver k1 et k2 tels que f (u; k1 , k2 ) = 0 et f (−u; k1 , k2 ) = 0
et k2 de signe contraire de µ. Or, f (u; k1 , k2 ) = 0 et f (−u; k1 , k2 ) = 0 si et seulement si
√ √ n
k1 − k2 nu = exp nµu − µ2
2

69
8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson

et √ √ n
k1 + k2 nu = exp − nµu − µ2
2
qui a une solution unique (k1 , k2 ) qui vérifie bien le fait que k2 est de signe contraire de
µ. (Faire le calcul pour le vérifier). Par ailleurs, k1 > 0. (Faire le calcul pour le vérifier).
Maintenant, si φ est un test sans biais de H0 : ”µ = 0” contre H1 : ”µ 6= 0” on a dans
tous les cas
(hα − φ) (pµ − k1 p0 − k2 ṗ0 ) ≥ 0,
et donc en utilisant (8.1)

Eµ [hα − φ] ≥ k1 E0 [hα − φ] = 0,

et donc Eµ [hα ] ≥ Eµ [φ].

Ceci étant vrai pour tout réel µ, on a bien montré que hα est UPPB(α).

70
9 Etude des estimateurs sans biais
Soit le modèle (X , A, (Pθ )θ∈Θ ), et X l’observation.
Soit g une fonction de Θ dans Rk .
On va s’intéresser aux estimateurs sans biais U (X) de g(θ), c’est-à-dire qui vérifient

∀θ ∈ Θ, Eθ [U (X)] = g(θ).

9.1 Exhaustivité et estimateurs UVMB

On cherche à résumer l’information sur le modèle contenue dans l’observation par
une statistique T (X), i.e. à voir si il existe une telle statistique telle que toute bonne
procédure d’estimation ou de test soit fonction de cette statistique. (Se rappeler les
méthodes vues précédemment).

9.1.1 Exemple du modèle de Bernoulli

Ici le modèle est donné par X = {0, 1}n , Pθ = B(θ)⊗n , θ ∈ [0, 1], X = (X1 , . . . , Xn ).
Toutes lesP procédures que l’on a vues pour estimer ou tester θ étaient fonction de
T (X) = ni=1 Xi .

Soit U (X) un estimateur, pour obtenir à partir de U un estimateur T (X)-mesurable,

on peut considérer
V (X) = Eθ [U (X)|T (X)].
Si U (X) est un estimateur sans biais de g(θ), alors V (X) vérifie Eθ [V (X)] = g(θ)
(l’écrire). Mais pour que ce soit vrai pour tout θ, il faut que V (X) ne dépende pas de θ,
ce qui n’a a priori aucune raison d’être vrai.

Ici, pour calculer V (X), on peut procéder à l’aide de la loi conditionnelle comme vu
au chapitre précédent (Rappeler pourquoi/comment). On a, pour tout (x1 , . . . , xn ) ∈ X ,
pour tout k ∈ {0, . . . , n} (Le démontrer) :

si Pni=1 xi 6= k
 P
 0

 1  n
Pθ ((X1 , . . . , Xn ) = (x1 , . . . , xn )|T (X) = k) = si i=1 xi = k
 
n 
k


On obtient alors que Eθ [U (X)|T (X)] ne dépend pas de θ.

On peut alors conclure que, si U (X) est un estimateur sans biais de g(θ), alors V (X) =
Eθ [U (X)|T (X)] est un estimateur sans biais de g(θ). De plus, pour le risque quadratique,

71
9 Etude des estimateurs sans biais

V (X) est aussi bon que U (X), et meilleur que U (X) si U (X) n’est pas T (X)-mesurable
(Le démontrer).

On va maintenant construire un cadre qui généralise cette situation.

9.1.2 Exhaustivité
On va maintenant construire un cadre qui généralise cette situation. On suppose main-
tenant que le modèle est dominé. Soit µ une mesure dominante.

Définition 9.1.1. Une statistique T (X) est dite statistique exhaustive si, pour tout
ensemble mesurable A, il existe une version de Eθ (1A (X)|T (X)) qui ne dépend pas de
θ.
Autrement dit, pour tout ensemble mesurable A, il existe une fonction φA telle que

∀θ ∈ Θ, Eθ (1A (X)|T (X)) = φA (T (X)) Pθ − p.s.

Cette notion est intrinsèque au modèle et ne dépend pas de ce que l’on cherche à
estimer.
Si on peut définir une loi de X conditionnelle à T (X), et que cette loi conditionnelle ne
dépend pas de θ, alors T (X) est une statistique exhaustive.

Dans cette définition, il se pourrait que l’événement sur lequel l’égalité est vérifiée (et
qui est de mesure 1 pour Pθ ) dépende de θ. Mais on va montrer qu’il n’y a en fait aucune
dépendence en θ.
Pour cela, on considère une dominante privilégiée P comme on a construit au chapitre
2, c’est à dire une probabilité P qui s’écrit
X
P = αθ Pθ (9.1)
θ∈D

où D est une partie au plus dénombrable de Θ, et où les αθ sont > 0 et de somme
totale égale à 1, telle que P domine tous les Pθ et telle que pour tout événement A,
P (A) = 0 ⇐⇒ ∀θ ∈ Θ, Pθ (A) = 0.
Alors, ”pour tout θ, Pθ -p.s. équivaut à P -p.s.”.

Lemme 9.1.1. Si T (X) est une statistique exhaustive, et P dominante privilégiée de

forme (9.1), alors pour tout ensemble mesurable A

∀θ ∈ Θ, Eθ (1A (X)|T (X)) = EP (1A (X)|T (X)) P − p.s.

Preuve : Pour tout ensemble mesurable A, notons φA la fonction telle que

∀θ ∈ Θ, Eθ (1A (X)|T (X)) = φA (T (X)) Pθ − p.s..

72
9.1 Exhaustivité et estimateurs UVMB

Pour toute fonction h mesurable bornée on a

X
EP (φA (T (X))h(T (X))) = αθ Eθ (φA (T (X))h(T (X)))
θ∈D

αθ Eθ (1A (X)h(T (X)))

X
=
θ∈D
= EP (1A (X)h(T (X)))
On va maintenant montrer que l’exhausitivité se lit sur la vraisemblance. Pour cela
on va avoir besoin de l’outil général suivant.
Lemme 9.1.2 (Lemme de changement de loi). Soient P et Q deux probabilités définies
sur un même espace probabilisable et telles que Q << P . Soit Y une variable aléatoire
Q-intégrable. Alors
1. On a
dQ
EQ (Y ) = EP Y ,
dP
2. Et pour toute variable aléatoire T ,

EP Y dQdP |T
EQ (Y |T ) = 1E dQ |T >0 .
P ( dP )

dQ
EP dP |T

Preuve :
Pour le point 1., on écrit EQ (Y ) = ydQ(y) = y dQ dQ
R R
dP (y)dP (y) = EP Y dP .
Montrons maintenant le point 2. Notons alors

EP Y dQdP |T
φ(T ) = 1E dQ |T >0 .
P ( dP )

dQ
EP dP |T

Commençons par montrer que φ(T ) est Q-intégrable. En utilisant le point 1. on a

dQ
EQ (|Y ]) = EP |Y |
dP
puis

dQ
EQ (|Y ]) = EP EP |Y | |T
dP

dQ
≥ EP |EP Y |T |
dP

dQ
≥ EP |φ(T )|EP |T
dP

dQ
= EP |φ(T )|
dP
= EQ (|φ(T )|).

73
9 Etude des estimateurs sans biais

On va maintenant montrer que pour toute fonction mesurable bornée h, EQ (h(T )φ(T )) =
EQ (Y h(T ).
Soit donc h une fonction mesurable bornée quelqconque.
On a en utilisant le point 1

dQ
EQ (h(T )φ(T )) = EP h(T )φ(T ) .
dP

en utilisant de nouveau le point 1. Mais

et donc
1EP ( dQ |T )>0 = 1 Q − p.s.
dP

On a donc h i
EQ h(T )Y 1EP ( dQ |T )>0 = EQ [h(T )Y ]
dP

et l’on a bien montré que EQ (h(T )φ(T )) = EQ (Y h(T ).

Théorème 9.1.1 (Théorème de factorisation). Soit T (X) une statistique et P domi-

nante privilégiée de forme (9.1). Les trois assertions suivantes sont équivalentes

74
9.1 Exhaustivité et estimateurs UVMB

— (i) T (X) est une statistique exhaustive.

— (ii) Pour tout θ, dPdP est T (X)-mesurable.
θ

— (iii) Il existe une fonction mesurable ` et pour tout θ, une fonction mesurable hθ
tel que
dPθ
∀θ ∈ Θ, (x) = hθ (T (x))`(x).
dµ
Preuve :
Montrons (ii) =⇒ (iii). La dominante privilégiée P vérifie P << µ, et donc
dPθ dPθ dP
= .
dµ dP dµ
Montrons maintenant (iii) =⇒ (i). Supposons donc qu’il existe une fonction mesurable
` et pour tout θ, une fonction mesurable hθ tel que
dPθ
∀θ ∈ Θ, (x) = hθ (T (x))`(x).
dµ
On commence par construire ν une probabilité telle que µ << ν. (Proposer une telle
˜ = `(x) dµ (x),
construction). On a alors, en notant `(x) dν

dPθ ˜
∀θ ∈ Θ, (x) = hθ (T (x))`(x).
dν
Soit A un ensemble mesurable quelconque. Par le lemme de changement de loi, on a

Eν dν 1A (X)|T (X)
dPθ

Eθ (1A (X)|T (X)) = 1Eν dPθ |T (X)>0

dPθ
Eν dν |T (X) dν

˜
Eν `(X) 1A (X)|T (X)
= 1hθ (T (X))Eν (`(X)|T
˜ (X))>0 .
˜
Eν `(X)|T (X)

Mais Z
dPθ dPθ
Pθ (hθ (T (X)) = 0) ≤ Pθ = 0 = dP dν = 0,
dν θ =0 dν
dν

et donc Pθ (hθ (T (X)) > 0) = 1, et donc Pθ -p.s.

˜
Eν `(X) 1A (X)|T (X)
Eθ (1A (X)|T (X)) = 1Eν (`(X)|T
˜ (X))>0
˜
Eν `(X)|T (X)

et donc

˜
Eν `(X) 1A (X)|T (X)
Eθ (1A (X)|T (X)) = 1Eν (`(X)|T
˜ (X))>0 P − p.s.
˜
Eν `(X)|T (X)

75
9 Etude des estimateurs sans biais

Montrons enfin (i) =⇒ (ii). On suppose que T (X) est une statistique exhaustive. Soit A
un ensemble mesurable quelconque. On a

Pθ (A) = Eθ (Eθ (1A |T (X)))

dPθ
= EP Eθ (1A |T (X))
dP

dPθ
= EP EP (1A |T (X))
dP
car T (X) est une statistique exhaustive. Mais

dPθ dPθ
EP EP (1A |T (X)) = EP EP ( |T (X))1A .
dP dP
On a donc montré que pour tout ensemble mesurable A,

dPθ
Pθ (A) = EP EP ( |T (X))1A ,
dP
ce qui montre que
dPθ dPθ
= EP ( |T (X))
dP dP
dPθ
c’est-à-dire que dP est T (X)-mesurable.
Proposition 9.1.1. Si T (X) est une statistique exhaustive et U (X) une variable aléatoire
Pθ -intégrable, alors Eθ [U (X)|T (X)] ne dépend pas de θ.
dPθ
Preuve : Par le théorème de factorisation, pour tout θ, dP est T (X)-mesurable et
donc il existe une fonction mesurable hθ telle que
dPθ
∀θ ∈ Θ, (x) = hθ (T (x)).
dP
Par le lemme de changement de loi, on a

EP dP dP
θ
U (X)|T (X)
Eθ (U (X)|T (X)) = 1 dPθ
dPθ EP dP |T (X) >0
EP dP |T (X)
= EP (U (X)|T (X)) 1hθ (T (X))>0 .

Mais Z
dPθ dPθ
Pθ (hθ (T (X)) = 0) ≤ Pθ = 0 = dP dP = 0,
dP θ =0 dP
dP

et donc Pθ (hθ (T (X)) > 0) = 1, et donc Pθ -p.s.

Eθ (U (X)|T (X)) = EP (U (X)|T (X))

et donc
Eθ (U (X)|T (X)) = EP (U (X)|T (X)) P − p.s.

76
9.1 Exhaustivité et estimateurs UVMB

Théorème 9.1.2. On considère une fonction de perte L donnée par L(u, v) = ψ(u −
v) où ψ est une fonction convexe. Si T (X) est une statistique exhaustive et U (X) un
estimateur de g(θ), alors

∀θ ∈ Θ, R(θ, U ) ≥ R(θ, Eθ [U |T ]),

et si ψ est strictement convexe et si U (X) n’est pas T (X)-mesurable, alors

∀θ ∈ Θ, R(θ, U ) > R(θ, Eθ [U |T ]).

On en déduit que V (X) = Eθ [U |T ] est un estimateur de g(θ) aussi bon que U , et

meilleur que U si ψ est strictement convexe et si U (X) n’est pas T (X)-mesurable.

Preuve : Par l’inégalité de Jensen,

∀θ ∈ Θ, Eθ [ψ(U − g(θ))|T ] ≥ ψ(Eθ [U − g(θ)|T ]),

et l’on obtient la première inégalité du théorème en prenant l’espérance de cette inégalité.

Dans l’inégalité de Jensen, on a égalité si et seulement si

U − g(θ) = Eθ [U − g(θ)|T ] Pθ − p.s.

9.1.3 Estimateurs UVMB

On suppose ici que g(θ) est un réel, que la perte est la perte quadratique, i.e. L(u, v) =
(u − v)2 . On a alors pour tout estimateur U (X), par la décomposition biais/variance :

R(θ, U ) = V arθ (U ) + (Eθ (U ) − g(θ))2 .

Définition 9.1.2. Un estimateur U (X) de g(θ) est dit Uniformément de Variance

Minimale parmi les estimateurs sans Biais (UVMB) si et seulement si il est sans
biais, et aussi bon que tout estimateur sans biais, c’est-à-dire :

∀θ ∈ Θ, Eθ (U ) = g(θ)

et si V (X) est un estimateur sans biais de g(θ), alors

∀θ ∈ Θ, R(θ, U ) ≤ R(θ, V ).

Remarquons qu’il n’existe pas toujours d’estimateur sans biais. Par exemple, si Θ =
R∗+ et Pθ est la loi exponentielle de paramètre θ, dire que U est un estimateur sans biais
de θ signifie Z +∞
∀θ > 0, U (x)θe−θx dx = θ
0
soit Z +∞
∀θ > 0, U (x)e−θx dx = 1.
0

77
9 Etude des estimateurs sans biais

R +∞ R +∞
Si l’on pose pour θ > 0, h(θ) = 0 U (x)e−θx dx, on a |h(θ)| ≤ 0 |U (x)|e−θx dx. Par
Beppo-Levi, on a Z +∞
lim |U (x)|e−θx dx = 0,
θ→+∞ 0

donc limθ→+∞ h(θ) = 0.

Si U (X) est un estimateur sans biais de g(θ) et que T (X) est une statistique exhaus-
tive, alors Eθ (U |T ) (qui ne dépend pas de θ) est un estimateur sans biais de g(θ) aussi
bon que U (de risque quadratique majoré par celui de U ). Est-il UVMB ?
Définition 9.1.3. On suppose Θ ⊂ Rd , pas nécessairement avec d = 1.
Une statistique T (X) est une statistique complète si, pour toute fonction mesurable
φ à valeurs dans R telle que φ(T (x)) ∈ L1 (Pθ ) pour tout θ ∈ Θ, vérifiant

∀θ ∈ Θ, Eθ [φ(T (X))] = 0,

on a
∀θ ∈ Θ, φ(T (X)) = 0 Pθ − p.s.
Proposition 9.1.2. Si T (X) est une statistique exhaustive et complète, alors il existe
au plus un estimateur de g(θ) qui soit sans biais et fonction de T (X).
Preuve : Soient U1 et U2 des estimateurs sans biais de g(θ) qui sont fonction de T (X).
Alors U1 − U2 est fonction de T (X), donc il existe une fonction mesurable φ telle que
U1 − U2 = φ(T (X)). Mais

∀θ ∈ Θ, Eθ [φ(T (X))] = Eθ (U1 ) − Eθ (U2 ) = g(θ) − g(θ) = 0

car U1 et U2 sont des estimateurs sans biais de g(θ), et donc

∀θ ∈ Θ, φ(T (X)) = 0 Pθ − p.s.

car T (X) est complète, et donc

∀θ ∈ Θ, U1 = U2 = Eθ (U1 |T (X)) Pθ − p.s.

ne dépend pas de θ car T (X) est exhaustive.

Théorème 9.1.3. On suppose que T (X) est une statistique exhaustive et complète, et
qu’il existe un estimateur sans biais de g(θ) U (X). Alors V = Eθ [U |T ] est l’unique
UVMB de g(θ).
Preuve : Soit U 0 un estimateur sans biais de g(θ). Alors par le Théorème 9.1.2, on a

∀θ ∈ Θ, R(θ, U 0 ) ≥ R(θ, Eθ [U 0 |T ]).

Mais par la proposition précédente, V = Eθ [U |T ] est l’unique estimateur sans biais de

g(θ) donc Eθ [U 0 |T ] = Eθ [U |T ] et donc

∀θ ∈ Θ, R(θ, U 0 ) ≥ R(θ, V ).

78
9.1 Exhaustivité et estimateurs UVMB

9.1.4 Modèle exponentiel

On considère le modèle donné par
dPθ
(x) = h(x) exp {hQ(θ), T (x)i − ψ(θ)}
dµ

où Q : Θ → Rk , T : X → Rk est mesurable, et

Z
∀θ ∈ Θ, ψ(θ) = log h(x) exp {hQ(θ), T (x)i} dµ(x) .

Quitte à poser dν = hdµ, on peut supposer sans perte de généralité que h(x) = 1,
autrement dit que
dPθ
(x) = exp {hQ(θ), T (x)i − ψ(θ)} (9.2)
dµ
et Z
∀θ ∈ Θ, ψ(θ) = log exp {hQ(θ), T (x)i} dµ(x) . (9.3)

On a

Théorème 9.1.4. Dans le modèle donné par (9.2), si Q(Θ) est d’intérieur non vide,
alors T (X) est une statistique exhaustive et complète.

Preuve : Tout d’abord, T (X) est une statistique exhaustive par le Théorème de
factorisation.
Puis, soit φ une fonction mesurable telle que pour tout θ ∈ Θ, φ(T (x)) ∈ L1 (Pθ ), et que

∀θ ∈ Θ, Eθ [φ(T (X))] = 0.

On a alors
Z Z
∀θ ∈ Θ, φ(T (x))+ exp {hQ(θ), T (x)i − ψ(θ)} dµ(x) = φ(T (x))− exp {hQ(θ), T (x)i − ψ(θ)} dµ(x)
X X

et donc
Z Z
∀θ ∈ Θ, φ(T (x))+ exp {hQ(θ), T (x)i} dµ(x) = φ(T (x))− exp {hQ(θ), T (x)i} dµ(x).
X X

On note µ+T la mesure positive de densité φ+ par rapport à la mesure image de µ par T ,
et µ−
T la mesure positive de densité φ− par rapport à la mesure image de µ par T . On a
alors Z Z
∀θ ∈ Θ, exp {hQ(θ), ti} dµ+T (t) = exp {hQ(θ), ti} dµ−
T (x).
Rk Rk
−
Par le lemme 9.1.3 qui suit, comme Q(Θ) est d’intérieur non vide, on obtient µ+T = µT ,
donc φ(T (x))+ = φ(T (x))− µ-p.p., soit φ(T (x)) = 0 µ-p.p., et donc φ(T (x)) = 0 Pθ -p.s.
pour tout θ ∈ Θ, et T (X) est une statistique exhaustive et complète.

79
9 Etude des estimateurs sans biais

Lemme 9.1.3. Soient µ et ν deux mesures positives sur Rk . On suppose qu’il existe un
ouvert A de Rk tel que
Z Z
∀s ∈ A, exp {hs, xi} dµ(x) = exp {hs, xi} dν(x).

Alors, µ = ν.

Preuve : Soit s0 un point de A, et δ > 0 tel que la boule centrée en s0 et de rayon

2δ soit incluse dans A. Tout d’abord, on a
Z Z
exp {hs0 , xi} dµ(x) = exp {hs0 , xi} dν(x) = C0 ,

donc en notant P la probabilité de densité exp {hs0 , xi} /C0 par rapport à µ et Q la
probabilité de densité exp {hs0 , xi} /C0 par rapport à ν, on a pour tout u ∈ Rk tel que
kuk ≤ 2δ, Z Z
exp {hu, xi} dP (x) = exp {hu, xi} dQ(x).

Soit t ∈ RRk quelconque non nul. On note h la fonction de la variable complexe z définie
par z 7→ exp {zht, xi} dP (x). Alors la fonction h est holomorphe sur le domaine {z ∈
C : |Re(z)| ≤ δ/ktk} (Le démontrer
R !). De même, si g est la fonction de la variable
complexe z définie par z 7→ exp {zht, xi} dQ(x), la fonction g est holomorphe sur le
domaine {z ∈ C : |Re(z)| ≤ δ/ktk}. Par ailleurs, h et g coincident sur l’ensemble des z
réels dans ] − δ/ktk δ/ktk[. Donc h = g sur le domaine {z ∈ C : |Re(z)| < δ/ktk}, et donc
en particulier sur l’ensemble des imaginaires purs, et donc en particulier pour z = i, et
donc Z Z
exp {iht, xi} dP (x) = exp {iht, xi} dQ(x).

Ceci est vrai pour tout t ∈ Rk , donc P et Q ont même fonction caractéristique, donc
P = Q et donc µ = ν.

Exemples : dans chacun des cas suivant montrer qu’il s’agit d’un modèle exponentiel,
identifier θ, Q(θ), T (X), dire si il s’agit d’une statistique exhaustive complète.
— Modèle de Bernoulli
— Modèle de Poisson
— Modèle linéaire gaussien

9.2 Efficacité
9.2.1 Score et information de Fisher
Soit (X , A, (Pθ )θ∈Θ ), Θ ⊂ Rk , un modèle dominé et µ une mesure dominante. On note
fθ = dP
dµ . On suppose :
θ

— (S) : ∀θ ∈ Θ, ∀x ∈ X , fθ (x) > 0.

80
9.2 Efficacité

Sous cette hypothèses, les probabilités Pθ sont équivalentes (= mutuellement absolu-

ment continues).
On peut alors définir
`θ = log fθ .

Si pour tout x ∈ X , θ 7→ fθ (x) est différentiable, on pose

T
∂`θ ∂`θ
`˙θ = ;···;
∂θ1 ∂θk

le vecteur gradient, que l’on appelle fonction score ou simplement score.

Remarquons que le score ne dépend pas de la mesure dominante : si P est une domi-
nante privilégiée, P est absolument continue par rapport à µ, donc

dPθ dP
`θ = log + log
dP dµ

et donc le score est, pour toute mesure dominante µ, le gradient de log dP

dP .
θ

Par ailleurs, on a, en notant f˙θ le gradient (vecteur des dérivées partielles) de fθ par
rapport à la variable θ,
f˙θ
`˙θ = .
fθ

On a donc, si `˙θ ∈ L1 (Pθ ),

Z
Eθ [`˙θ (X)] = f˙θ (x)dµ(x).

R
Comme la fonction θ 7→ fθ (x)dµ(x) est une fonction constante (égale à 1), on voit que si
on peut échanger dérivation et intégration (dériver sous le signe somme), Eθ [`˙θ (X)] = 0
(le score est centré).

Définition 9.2.1. On suppose (S), que Eθ [`˙θ (X)] = 0 et que Eθ [k`˙θ (X)k2 ] < ∞. Alors
la matrice de variance de `˙θ est appelée information de Fisher en θ et notée Iθ , on
a, comme le score est centré,

Iθ = Eθ [`˙θ (X)`˙Tθ (X)].

C’est une matrice k × k.

Remarquons que, comme toute matrice de variance, Iθ est semi-définie positive.

81
9 Etude des estimateurs sans biais

9.2.2 Inégalité de Cramer-Rao

On considère maintenant que l’on veut estimer g(θ) où g est une fonction de Θ dans R.

R est un estimateur sans biais de g(θ), on a pour tout θ ∈ Θ, Eθ (U (X)) =

Si U (X)
g(θ) = U (x)fθ (x)dµ(x). Pour simplifier, regardons le cas où k = 1, et supposons g
dérivable.R Si on peut dériver sous
R le signe somme, on a
g 0 (θ) = U (x)f˙θ (x)dµ(x) = U (x)`˙θ (x)fθ (x)dµ(x) = Eθ [U (X)`˙θ (X)]. Comme `˙θ (X)
est centré, on a aussi g 0 (θ) = Eθ [(U (X) − g(θ))`˙θ (X)], et par Cauchy-Schwarz,
2
g 0 (θ) ≤ V arθ (U (X)) Iθ ,
et donc, si Iθ > 0, V arθ (U (X)) ≥ (g 0 (θ))2 /Iθ .
On peut généraliser cela en dimension k quelconque. On note ∇g(θ) le vecteur gradient
de g(θ).
Théorème 9.2.1 (Inégalité de Cramer-Rao). On suppose que Θ est un ouvert de Rk ,
et on suppose (S). On suppose que pour tout x ∈ X , θ 7→ fθ (x) est différentiable, et que
pour tout θ ∈ Θ
— Eθ [`˙θ (X)] = 0,
— Eθ [k`˙θ (X)k2 ] < ∞,
— l’information de Fisher Iθ est inversible.
On suppose que θ 7→ g(θ) est différentiable, et que U (X) est un estimateur sans biais de
g(θ) tel que pour tout θ ∈ Θ, ∇g(θ) = Eθ [U (X)`˙θ (X)]. Alors
∀θ ∈ Θ, V arθ (U (X)) ≥ ∇g(θ)T Iθ−1 ∇g(θ).
Preuve : Soit a ∈ Rk tel que a 6= 0. On a
∇g(θ)T a = Eθ [(U (X)`˙θ (X))T a]
= Eθ [(U (X)`˙θ (X))T a] − g(θ)Eθ [`˙θ (X)T a]
= Eθ [(U (X) − g(θ))`˙θ (X)T a]
car le score est centré. Donc par Cauchy-Schwarz,
2
∇g(θ)T a ≤ V arθ (U (X))Eθ [(`˙θ (X)T a)2 ].
Mais
Eθ [(`˙θ (X)T a)2 ] = aT Iθ a > 0
(Dire pourquoi) car Iθ inversible. On a donc montré
2
k ∇g(θ)T a
∀a ∈ R : a 6= 0, V arθ (U (X)) ≥
aT Iθ a
et en prenant a = Iθ−1 ∇g(θ) le théorème s’en déduit.

On peut montrer que l’on a obtenu la meilleur borne inférieure possible, c’est à dire
que le supremum en a de la borne inférieure est atteint en a = Iθ−1 ∇g(θ) en appliquant
le lemme suivant avec S = Iθ et v = ∇g(θ).

82
9.2 Efficacité

Lemme 9.2.1. Si S est une matrice k × k définie positive et si v est un vecteur de Rk ,

alors
(v T a)2
sup T
= v T S −1 v.
a∈Rk ,a6=0 a Sa

Preuve : On commence par montrer que a 7→ x = S 1/2 a est une bijection de Rk dans
Rk de sorte que l’on obtient

(v T a)2 xT Ax
sup T
= sup T
a∈Rk ,a6=0 a Sa x∈Rk ,x6=0 x x

avec A = S −1/2 vv T S −1/2 , de sorte que le supremum recherché est la plus grande valeur
propre de A. Mais en posant
S −1/2 v
w= ,
kS −1/2 vk
on voit que
A = kS −1/2 vk2 wwT .

wwT est la matrice de projection orthogonale sur la droite engendrée par w, donc de plus
grande valeur propre 1, donc la plus grande valeur propre de A est kS −1/2 vk2 = v T S −1 v.

Définition 9.2.2. L’estimateur sans biais U (X) est dit efficace si

∀θ ∈ Θ, V arθ (U (X)) = ∇g(θ)T Iθ−1 ∇g(θ).

9.2.3 Cas des modèles produit

On considère le modèle (X n , An , (Pθ⊗n )θ∈Θ ).
On suppose que le modèle (X , A, (Pθ )θ∈Θ ) satisfait aux hypothèses du Théorème de
l’inégalité de Cramer-Rao, avec score `˙θ et information de Fisher Iθ .

Alors, dans le modèle (X n , An , (Pθ⊗n )θ∈Θ ), le score est

n
X
`˙θ,n (x1 , . . . , xn ) = `˙θ (xi ),
i=1

on a Eθ [`˙θ,n (X1 , . . . , Xn )] = 0 et la matrice de variance de `˙θ,n (X1 , . . . , Xn ), sous Pθ , est

nIθ (Démontrer ces affirmations).
On a donc, si U (X1 , . . . , Xn ) est un estimateur sans biais de g(θ) tel que ∇g(θ) =
Eθ [U (X1 , . . . , Xn )`˙θ (X1 , . . . , Xn )],

1
V arθ (U (X1 , . . . , Xn )) ≥ ∇g(θ)T Iθ−1 ∇g(θ).
n

83
9 Etude des estimateurs sans biais

9.2.4 Modèles exponentiels

On considère le modèle exponentiel écrit sous forme canonique, c’est à dire avec θ
choisi de sorte que
dPθ
(x) = exp{hθ, T (x)i − ψ(θ)}, (9.4)
dµ
avec T : X → Rk mesurable, θ ∈ Θ, sous-ensemble de Rk défini par
Z
Θ = θ ∈ Rk : exp{hθ, T (x)i}dµ(x) < +∞

et ψ : Θ → R donnée par
Z
ψ(θ) = log exp{hθ, T (x)i}dµ(x).

On a
R
Proposition 9.2.1. La fonction θ 7→ log exp{hθ, T (x)i}dµ(x) est indéfiniment dérivable
sur l’intérieur de Θ et se dérive sous le signe somme.
Preuve : La faire.

On peut alors montrer que sur l’intérieur de Θ, ∇ψ(θ) = Eθ [T (X)], le score est
T − ∇ψ(θ) et est centré, l’information de Fisher est
Iθ = V arθ [T (X)] = D2 ψ(θ),
la matrice hessienne de ψ en θ. T (X) est une statistique exhaustive complète, qui estime
sans biais ∇ψ(θ), et en est un UVMB et un estimateur efficace si Θ ⊂ R. P
Donc dans le modèle avec n observations i.i.d. d’un modèle canonique, c’est n1 ni=1 T (Xi )
qui estime sans biais ∇ψ(θ), et en est un UVMB et un estimateur efficace si Θ ⊂ R.
(Démontrer toutes ces affirmations).

Exemples : : écrire sous forme canonique le modèle de Bernoulli, le modèle de Pois-

son, le modèle linéaire gaussien, et voir comment se traduisent ces affirmations.

Si l’on reprend le modèle exponentiel sous sa forme générale (9.2) et Q deux fois
dérivable, calculer score, information de Fisher — dans le cas k = 1–, et montrer que,
1 Pn
0
si Q (θ) 6= 0, n i=1 T (Xi ) est un estimateur sans biais de ψ 0 (θ)/Q0 (θ), et en est un
UVMB et un estimateur efficace.

9.3 Limites des estimateurs sans biais et de l’efficacité

Il n’existe pas toujours d’estimateur sans biais (voir l’exemple du modèle des lois ex-
ponentielles).

84
9.3 Limites des estimateurs sans biais et de l’efficacité

Il n’existe pas toujours d’estimateur efficace ou UVMB : par exemple, dans le modèle
N (m, σ 2 )⊗n , il n’existe pas d’estimateur efficace de σ 2 (voir T.D.).

On peut parfois gagner sur le risque quadratique en autorisant un biais. Considérons

le modèle N (0, σ 2 )⊗n dans lequel on veut estimer σ 2 . Il s’agit d’un modèle
par exemple P
exponentiel, ni=1 Xi2 est une statistique exhaustive complète, et
n
2 1X 2
σ
b = Xi
n
i=1

est un estimateur sans biais UVMB de σ 2 . Son risque quadratique est

2σ 4
R(σ 2 , σ
b2 ) := Eσ (b
2
σ − σ 2 )2 = .
n
Si l’on considère maintenant l’estimateur

σ2,
Tλ = λb

son risque quadratique est, par la décomposition biais-variance :

2
2 2λ
R(σ 2 , Tλ ) = V arσ (Tλ ) + Eσ (Tλ ) − σ 2 = σ 4 + (λ − 1)2 .
n
2
L’étude de la fonction λ 7→ 2λn + (λ − 1)2 montre qu’elle admet un minimum strict en
1/(1 + n2 ), et que
∀σ > 0, R(σ 2 , T1/(1+ 2 ) ) < R(σ 2 , σ
b2 ).
n

b2 n’est pas admissible, T1/(1+ 2 ) est meilleur que σ

L’estimateur σ b2 .
n

Enfin, sous des hypothèses faibles, si un modèle admet un estimateur efficace T de g(θ),
pour θ ∈ Θ, Θ intervalle de R, alors le modèle est un modèle exponentiel de statistique
exhaustive complète T , ce qui restreint l’existence d’estimateurs efficaces essentiellement
aux modèles exponentiels, et pour estimer l’espérance de la statistique exhaustive uni-
quement.
Montrons cela. On suppose donc que les hypothèses du Théorème de l’inégalité de
Cramer-Rao sont vérifiées pour le modèle et pour T , et que

g 0 (θ)2
∀θ ∈ Θ, Eθ (T ) = g(θ), V arθ (T ) = .
Iθ
Comme
g 0 (θ) = Eθ ((T − g(θ))`˙θ ),
on a 2
Covθ (T, `˙θ ) = V arθ (T )V arθ (`˙θ )

85
9 Etude des estimateurs sans biais

et donc, pour tout θ, ou bien T = Eθ (T ), ou bien il existe λθ tel que `˙θ = λθ (T −Eθ (T )).,
Pθ -p.s.
Si il existe θ0 tel que T = Eθ0 (T ) Pθ0 -p.s., alors T est constant µ-p.p., donc T = Eθ (T )
Pθ -p.s. pour tout θ, et g(θ) est constant, cas peu intéressant.
Sinon, pour tout θ ∈ Θ, il existe λθ tel que `˙θ = λθ (T − Eθ (T )), Pθ -p.s. On a donc, θ0
étant un point fixé de Θ
Z θ
∀θ ∈ Θ, log fθ = log fθ0 + λs (T − Es (T ))ds,
θ0

soit Z θ Z θ
fθ
∀θ ∈ Θ, log =T λs ds − λs Es (T )ds,
fθ0 θ0 θ0

c’est-à-dire
∀θ ∈ Θ, fθ = fθ0 exp[Q(θ)T − ψ(θ)]
avec Z θ Z θ
Q(θ) = λs ds, ψ(θ) = λs Es (T )ds.
θ0 θ0

86
10 Eléments de statistique asymptotique
La borne de Cramer-Rao nous dit que, si T (X) est un estimateur sans biais de g(θ),
0 (θ))2
alors pour tout θ, Eθ [(T (X) − g(θ)]2 ≥ (gI(θ) . Mais si T a un biais, que dit la borne de
Cramer-Rao ? Si on note b(θ) = Eθ (T (X)) − g(θ), comme T estime sans biais b(θ) + g(θ)
et que le risque quadratique est la somme de la variance et du carré du biais, on a
(b0 (θ) + g 0 (θ))2
Eθ [(T (X) − g(θ)]2 ≥ b2 (θ) +

.
I(θ)
Mais ceci n’est pas une borne intrinsèque puisqu’elle dépend de T (par l’intermédiaire
de b).
Par ailleurs, la notion d’efficacité stricte concerne exclusivement les modèles exponen-
tiels.
Ceci dit, on a vu que l’on pouvait obtenir des minorations intrinsèques, en considérant
non pas le risque ponctuel, mais le risque maximum (théorème de Le Cam).

On se demande si on peut obtenir des analogues asymptotiques de l’efficacité, dans le

contexte des suites d’observations i.i.d.. Par exemple, peut-on garantir que, pour tout θ,
si θbn est une suite d’estimateurs de θ,
h i 1
lim inf Eθ n(θbn − θ)2 ≥ ?
n→+∞ I(θ)
La réponse est non, mais en renforçant légèrement, on obtient quelque chose comme
h i 1
lim lim inf sup Eθ n(θbn − θ)2 ≥ .
c→+∞ n→+∞ |θ−θ |≤ √c
0
I(θ0 )
n

Cela fait partie de ce que l’on étudie en M2.

On se demande alors si, sans supposer le modèle exponentiel,

h il est
i possible de trouver
1
une suite d’estimateurs θbn de θ tels que limn→+∞ Eθ n(θbn − θ)2 = I(θ) , ou bien tels
√ b 1
que n(θn − θ) converge en loi sous Pθ vers N (0, I(θ) ) ? La réponse est oui, et c’est
l’estimateur du maximum de vraisemblance qui le permet.

10.1 Etude asymptotique de l’estimateur du maximum de

vraisemblance
L’objectif ici est de montrer que sous de bonnes hypothèses, moins restrictives que de
se trouver dans un modèle exponentiel, l’estimateur du maximum de vraisemblance θbn

87
10 Eléments de statistique asymptotique

√ 1
vérifie que n(θbn − θ) converge en loi sous Pθ vers N (0, I(θ) ). Revenons tout d’abord au
cadre du modèle exponentiel en dimension 1.
Soit Θ ouvert de R, µ une mesure sur R et (Pθ )θ∈Θ tel que dP dµ (x) = exp(θT (x)−ψ(θ)),
θ

Pθ la loiP d’une suite de variables aléatoires réelles i.i.d. de loi Pθ , g(θ) = ψ 0 (θ) = Eθ T (X).
Tn = n ni=1 T (Xi ) est un estimateur efficace de g(θ) et UVMB. Sa variance est V arθ (Tn ) =
1
(ψ 00 (θ)2 ψ 00 (θ) √
nI(θ) = n . Par le théorème de limite centrale, n(Tn − ψ 0 (θ)) converge en loi sous
00 2
Pθ vers N (0, (ψ (θ) ). Qu’en est-il pour l’estimateur du maximum de vraisemblance θbn ?
I(θ)
La log-vraisemblance est

`n (θ) = θ(T (X1 ) + · · · + T (Xn )) − nψ(θ).

ψ est strictement convexe, car ψ 00 > 0 (c’est la variance d’une variable aléatoire non
constante), donc `n est strictement concave et admet donc un unique maximum. ψ 0 est
strictement croissante, et si le maximum de `n est atteint à l’intérieur de Θ, il annule la
dérivée, donc Tn = ψ 0 (θbn ). Pour simplifier, on va supposer que ψ 0 (Θ) = R, et alors

θbn = (ψ 0 )−1 (Tn ).

Pour obtenir la convergence en loi, on va utiliser la méthode delta.

Théorème 10.1.1. Soit (Tn )n≥1 une suite de variables aléatoires à valeur dans I in-
√
tervalle de R et telle que n(Tn − m) converge en loi vers N (0; σ 2 ). Soit g : I → R une
√
fonction dérivable. Alors n(g(Tn ) − g(m)) converge en loi vers N (0; g 0 (m)2 σ 2 ).

On applique le théorème 10.1.1 avec g(x) = (ψ 0 )−1 (x). g est dérivable de dérivée
= ψ00 ((ψ01)−1 (x)) . On a m = ψ 0 (θ), donc g(m) = θ.
g 0 (x)
2
(ψ 00 (θ))2

1 1 1
g 0 (m)2 = g 0 (m)2 ψ 00 (θ) = ψ 00 (θ) = = ,
I(θ) ψ 00 (θ) ψ 00 (θ) I(θ)
√ 1
donc n(θbn − θ) converge en loi sous Pθ vers N (0, I(θ) ). Et en appliquant une nouvelle
√
fois le théorème 10.1.1, si φ : Θ → R est dérivable, n(φ(θbn ) − φ(θ)) converge en loi sous
0 (θ))2
Pθ vers N (0, (φI(θ) ).

Preuve du Théorème 10.1.1 (rappel) : on écrit le développement de Taylor

g(x) = g(m) + (x − m)g 0 (m) + (x − m)α(x − m),

où α(·) est une fonction qui vérifie α(u) = o(1) au voisinage de 0. On a alors
√ √ √
n(g(Tn ) − g(m)) = n(Tn − m)g 0 (m) + n(Tn − m)α(Tn − m).

Puis Tn − m tend en probabilité vers 0 : en effet, pour tout > 0, P(|Tn − m| ≥ ) =

√ √ √
P(| n(Tn − m)| ≥ n) ≤ P(| n(Tn − m)| ≥ M ) dès que n ≥ ( M )2 . Donc si F est la
fonction de répartition de la gaussienne centrée réduite, lim supn→+∞ P(|Tn − m| ≥ ) ≤

88
10.1 Etude asymptotique de l’estimateur du maximum de vraisemblance

On peut maintenant énoncer un théorème de convergence en loi du maximum de

vraisemblance dans un cadre plus général. On considère un modèle dominé {Pθ , θ ∈ Θ},
où Θ est un intervalle de R. On note fθ la densité de Pθ par rapport à la mesure
dominante, et Pθ la loi d’une suite de variables aléatoires réelles i.i.d. de loi Pθ . On
note Θ◦ l’intérieur de Θ et on se place dans le cadre où l’on a défini fonction score et
information de Fisher :
— (A1) ∀θ ∈ Θ, ∀x ∈ X , fθ (x) > 0,
— (A2) ∀x ∈ X , θ 7→ fθ (x) est dérivable sur Θ◦ , et on note `˙θ (x) la fonction score
(dérivée par rapport à θ de log fθ (x)),
— (A3) ∀θ ∈ Θ◦ , Eθ `˙θ (X) = 0 et Eθ k`˙θ (X)k2 < +∞. On note I(θ) l’information de
Fisher (matrice de variance de `˙θ (X)).

Théorème 10.1.2. On suppose (A1), (A2) et (A3). Soit θbn l’estimateur du maximum
de vraisemblance obtenu avec n observations X1 , . . . , Xn . On suppose :
— ∀θ ∈ Θ◦ , I(θ) > 0,
f 00
— ∀x ∈ X , θ 7→ fθ (x) est de classe C 2 sur Θ◦ et ∀θ ∈ Θ◦ , Eθ fθθ (X) = 0,
— ∀θ ∈ Θ◦ , il existe V , voisinage de θ et hθ ∈ L1 (Pθ ) tels que

∂2
∀s ∈ V, | (log fs )| ≤ hθ
∂θ2

— ∀θ ∈ Θ, θbn converge en Pθ probabilité vers θ.

√
Alors, pour tout θ dans Θ◦ , n(θbn − θ) converge en loi sous Pθ vers N (0, I(θ)
1
).

Preuve du Théorème 10.1.2.

Soit θ dans Θ◦ . Puisque θbn converge en Pθ probabilité vers θ, avec une probabilité qui
tend vers 1, θbn ∈ Θ◦ , et θbn annule la dérivée de la log-vraisemblance. On va noter An
l’événement “θbn ∈ Θ◦ ”. Sur An , on a
n
X
`˙θbn (Xi ) = 0.
i=1

89
10 Eléments de statistique asymptotique

Par ailleurs, le développement de Taylor s’écrit (en notant `00θ la dérivée seconde de log fθ )
pour tout x ∈ X et s ∈ Θ :
Z 1
`˙s (x) − `˙θ (x) = (s − θ) `00θ+t(s−θ) (x)dt.
0

Donc pour tout s ∈ Θ :

n
X n
X n
X
`˙s (Xi ) − `˙θ (Xi ) = (s − θ) `00θ (Xi ) + nRn (s)
i=1 i=1 i=1

avec
Z 1 n
1 X 00
Rn (s) = (`θ+t(s−θ) (Xi ) − `00θ (Xi ))dt.
0 n
i=1

Donc en utilisant cela avec s = θbn , sur An ,

n
" n #
1 X˙ √ 1 X
00 √
−√ `θ (Xi ) = n(θbn − θ) `θ (Xi ) + n(θbn − θ)Rn (θbn ).
n n
i=1 i=1

Calcul et loi des grands nombres montrent que n1 ni=1 `00θ (Xi ) converge en Pθ -probabilité
P
vers −I(θ).
Par le théorème de limite centrale, sous Pθ , √1n ni=1 `˙θ (Xi ) converge en loi vers N (0, I(θ)).
P

Enfin, Rn (θbn ) converge en Pθ -probabilité vers 0. En effet, si l’on note r(, x) = sup |`00 (x)− |s−θ]≤ s
`00θ (x)|, pour suffisamment petit (tel que l’intervalle centré en θ et de largeur 2 soit
dans V ), on a 0 ≤ r(, x) ≤ hθ (x), et lim→0 r(, x) = 0, donc par convergence dominée
lim→0 Eθ r(, X) = 0. Puis pour tout δ > 0 et tout > 0,
n
1 X
Pθ (|Rn (θbn )| ≥ δ) ≤ Pθ (|θbn − θ| ≥ ) + Pθ ( r(, Xi ) ≥ δ)
n
i=1
Pn
1
Par l’inégalité de Markov, Pθ ( n1 ni=1 r(, Xi ) ≥
P
car sup|s−θ|≤ |Rn (s)| ≤ n i=1 r(, Xi ).
δ) ≤ Eθ r(,X)
δ , et donc lim supn→+∞ Pθ (|Rn (θbn )| ≥ δ) ≤ Eθ r(,X)
δ , et en prenant la limite
quand tend vers 0 on obtient limn→+∞ Pθ (|Rn (θn )| ≥ δ) = 0. Récapitulons :
b
h√ i h√ i
Zn n(θbn − θ) = Un 1An + Zn n(θbn − θ) (1 − 1An ),

avec Zn qui converge en Pθ -probabilité vers −I(θ) et Un qui converge en hloi sous Pθ vers
√ b i
N (0, I(θ)). Par ailleurs, 1An converge vers 1 en Pθ -probabilité, et donc Zn n(θn − θ) (1−
h√ i
1An ) converge vers 0 en Pθ -probabilité (car pour tout > 0, Pθ (|Zn n(θbn − θ) (1 −
1An )| ≥ ) ≤ Pθ (1An = 0) tend vers 0 quand n tend vers l’infini). On termine en utilisant
le lemme de Slutzky.

90
√
10.2 Amélioration d’un estimateur n-consistant
√
10.2 Amélioration d’un estimateur n-consistant
Comment calculer l’estimateur du maximum de vraisemblance ? Algorithme d’annu-
lation du gradient : et si beaucoup de maxima locaux, et donc beaucoup de zéros du
gradient ? Partir d’un bon point initial et faire ensuite l’algorithme de Newton ?
√
On dispose d’une suite d’estimateurs Tn tels que pour tout θ, n(Tn − θ) converge
1
en loi sous Pθ vers N (0, σ 2 (θ)), avec σ 2 (θ) > I(θ) . On se dit que Tn n’est pas loin de
Pn ˙
l’estimateur du maximum de vraisemblance qui annule la fonction s 7→ i=1 `s (Xi ).
On peut alors chercher à améliorer l’estimation en cherchant le zéro de la fonction par
l’algorithme de Newton partant de Tn . En faisant un pas de cet algorithme, c’est à dire
en se déplaçant sur la droite tangente en Tn au graphe de la fonction, jusqu’au point où
cette tangente traverse l’axe des abscisses (qui annule l’ordonnée) [voir sur un dessin],
on obtient un nouvel estimateur :
Pn ˙
`Tn (Xi )
θ̃n = Tn − Pi=1n 00 . (10.1)
i=1 `Tn (Xi )

On se place dans le même cadre que pour le Théorème 10.1.2. On obtient alors
Théorème 10.2.1. On suppose (A1), (A2) et (A3). On suppose aussi que pour tout
√ √
θ ∈ Θ◦ , n(Tn − θ) converge en loi sous Pθ . Alors, pour tout θ ∈ Θ◦ , n(θ̃n − θ)
1
converge en loi sous Pθ vers N (0, I(θ) ), avec θ̃n df́eini par (10.1).
Preuve du Théorème 10.2.1.
Soit θ dans Θ◦ . On a avec les notations de la preuve du Théorème 10.1.2
n
X n
X n
X
`˙Tn (Xi ) = `˙θ (Xi ) + (Tn − θ) `00θ (Xi ) + n(Tn − θ)Rn (Tn )
i=1 i=1 i=1
Xn
= `˙θ (Xi ) + n(Tn − θ)Wn
i=1

où Wn converge en PθP -probabilité vers −I(θ) (comme dans la preuve du Théorème
10.1.2). Aussi, Zn = n1 ni=1 `00Tn (Xi ) converge en probabilité vers −I(θ). En effet,
n n
1 X 00 1 X 00
Zn = `θ (Xi ) + (`Tn (Xi ) − `00θ (Xi )),
n n
i=1 i=1

et si |Tn − θ| ≤ , alors | n1 ni=1 (`00Tn (Xi ) − `00θ (Xi ))| ≤ n1 ni=1 r(, Xi ). Mais Tn − θ
P P
converge en Pθ -probabilité vers 0, donc pour tout > 0 et tout δ > 0,
n n
1 X 00 1X
Pθ (| (`Tn (Xi ) − `00θ (Xi ))| ≥ δ) ≤ Pθ (|Tn − θ| ≥ ) + Pθ ( r(, Xi ) ≥ δ)
n n
i=1 i=1
Eθ (r(, X1 ))
≤ Pθ (|Tn − θ| ≥ ) +
δ

91
10 Eléments de statistique asymptotique

par Markov, et donc en prenant laPlimite quand n tend vers l’infini, puis quand tend
vers 0, on obtient limn→+∞ Pθ (| n1 ni=1 (`00Tn (Xi ) − `00θ (Xi ))| ≥ δ) = 0. On a donc :
Pn ˙ √
√1 n(Tn − θ)Wn
√ √ n i=1 `θ (Xi ) +
n(θ̃n − θ) = n(Tn − θ) −
Zn
n
!
√

Wn 1 1 X˙
= n(Tn − θ) 1 − + √ `θ (Xi ) .
Zn Zn n
i=1

√
converge en Pθ -probabilité vers 0, et Z1n √1n ni=1 `˙θ (Xi )
Wn P
Par Slutzky, n(Tn −θ) 1 − Zn
1 √
converge en loi sous Pθ vers N (0, I(θ) ). Donc encore par Slutzky, n(θ̃n − θ) converge
1
en loi sous Pθ vers N (0, I(θ) ).

10.3 Consistance de l’estimateur du maximum de

vraisemblance
Il s’agit ici de voir comment réaliser la consistance de l’estimateur du maximum de
vraisemblance (hypothèse des théorèmes de loi asymptotique), et de voir que les hy-
pothèses qui permettent de l’obtenir ne sont plus locales mais globales.

Si on note `n (θ) la log-vraisemblance, et si log fθ (x) ∈ L1 (Pθ ), alors par la loi des
grands nombres n1 `n (θ) converge en probabilité sous Pθ vers Eθ [log fθ (X1 )], et pour tout
s ∈ Θ, si log fs (x) ∈ L1 (Pθ ), n1 [`n (θ) − `n (s)] converge en probabilité sous Pθ vers
Z
fθ (x)
log dPθ (x) = K (Pθ , Ps ) .
fs (x)

Maximiser en s `n (s) c’est minimiser en s n1 [`n (θ) − `n (s)], et l’on souhaite que asymp-
totiquement le maximum soit en θ, donc que le minimum de s 7→ K (Pθ , Ps ) soit atteint
pour s = θ. Or K (Pθ , Ps ) est la divergence de Kullback entre Pθ et Ps , donc on sait que
pour tout s, K (Pθ , Ps ) ≥ 0 et que K (Pθ , Ps ) = 0 si et seulement si Ps = Pθ . On va donc
demander que cela implique s = θ, autrement dit que le modèle soit identifiable, c’est à
dire que la fonction θ 7→ Pθ soit injective.

Théorème 10.3.1. On suppose le modèle (Pθ )θ∈Θ dominé, et l’on note θbn l’estimateur
du maximum de vraisemblance obtenu avec X1 , . . . , Xn i.i.d. On suppose de plus que :
— le modèle est identifiable,
— Θ est un sous-ensemble compact de Rk ,
— pour tout x ∈ X , la fonction θ 7→ log fθ (x) est continue (fθ est la densité de Pθ
par rapport à la mesure dominante), et si l’on note h(x) = sups∈Θ | log fs (x)|, pour
tout θ ∈ Θ, h ∈ L1 (Pθ ).
Alors θbn est consistant, c’est à dire que pour tout θ ∈ Θ, θbn converge en probabilité sous
Pθ vers θ.

92
10.3 Consistance de l’estimateur du maximum de vraisemblance

Remarquer que si θ 7→ log fθ (x) est continue a fortiori fθ (x) 6= 0.

Preuve du Théorème 10.3.1.
Notons, pour tout x ∈ X et α > 0,
g(α, x) = sup | log fθ1 (x) − log fθ2 (x)|.
kθ1 −θ2 k≤α

Fixons θ ∈ Θ. On a alors g(α, x) ≤ 2h(x) et g(α, ·) ∈ L1 (Pθ ). De plus, θ 7→ log fθ (x) est
uniformément continue sur le compact Θ, donc pour tout x ∈ X , limα→0 g(α, x) = 0, et
par convergence dominée,
lim Eθ g(α, X1 ) = 0.
→0
Soit > 0 quelconque. L’ensemble A = {s ∈ Θ : ks − θk ≥ } est compact (fermé dans
un compact), donc pour tout α > 0, on peut le recouvrir par un nombre fini Nα de boules
de rayon α, centrées en θi , i = 1, . . . , Nα . Pour tout s ∈ A , il existe i ∈ {1, . . . , Nα } tel
que ks − θi k ≤ α, et | log fs (x) − log fθi (x)| ≤ g(α, x). On a alors
n
X
sup `n (s) ≤ max{`n (θi ), i = 1, . . . , Nα } + g(α, Xi ).
s∈A i=1

Donc

Pθ kθn − θk ≥
b ≤ Pθ sup `n (s) ≥ `n (θ)
s∈A
n
!
1 1X 1
≤ Pθ max{ `n (θi ), i = 1, . . . , Nα } + g(α, Xi ) ≥ `n (θ)
n n n
i=1

Maintenant, max{`n (θi ) − `n (θ), i = 1, . . . , Nα } converge en probabilité sous Pθ vers

max{−K (Pθ , Pθi ) , i = 1, . . . , Nα } (car nombre fini de variables aléatoires),
et max{−K (Pθ , Pθi ) , i = 1, . . . , Nα } ≤ − inf s∈A K (Pθ , Ps ). Par ailleurs, s 7→ K (Pθ , Ps )
est continue (par convergence dominée) et atteint son minimum sur le compact A en
un point, donc par identifiabilité, inf s∈A K (Pθ , Ps ) = δ > 0. On a alors
n
!
1 δ 1 X δ
Pθ kθbn − θk ≥ ≤ Pθ max{ (`n (θi ) − `n (θ)), i = 1, . . . , Nα } ≥ − + Pθ g(α, Xi ) ≥
n 2 n 2
i=1

1 δ 2Eθ g(α, X1 )
≤ Pθ max{ (`n (θi ) − `n (θ)), i = 1, . . . , Nα } ≥ − + .
n 2 δ
Mais
1 δ
lim Pθ max{ (`n (θi ) − `n (θ)), i = 1, . . . , Nα } ≥ − =0
n→+∞ n 2
car − max{−K (Pθ , Pθi ) , i = 1, . . . , Nα } − δ2 ≥ δ2 . Donc
2E g(α, X )
θ 1
lim sup Pθ kθbn − θk ≥ ≤
n→+∞ δ

et en faisant tendre α vers 0, on obtient limn→+∞ Pθ kθbn − θk ≥ = 0.

93
10 Eléments de statistique asymptotique

10.4 Asymptotique du test du rapport de vraisemblance

On veut tester H0 : “θ = θ0 ” contre H1 : “θ 6= θ0 ” avec le test du rapport de vraisem-
blance. Ce test s’écrit
ϕn = 1supθ∈Θ `n (θ)−`n (θ0 )≥s

pour un seuil s à déterminer, de sorte que lim supn→+∞ Eθ0 φn ≤ α, niveau donné. Pour
fixer le seuil, il s’agit donc de déterminer la loi asymptotique de supθ∈Θ `n (θ) − `n (θ0 ).

Théorème 10.4.1. On suppose (Pθ )θ∈Θ dominé, Θ ⊂ R, on note fθ la densité de Pθ

par rapport à la mesure dominante, et l’on suppose que pour tous x et θ, fθ (x) > 0. On
note θbn l’estimateur du maximum de vraisemblance. Soit θ0 ∈ Θ◦ . On suppose que :
— θbn converge en Pθ0 probabilité vers θ0 .
f 00 f0
— ∀x ∈ X , θ 7→ fθ (x) est de classe C 2 en θ0 , Eθ0 fθθ0 (X) = 0, Eθ0 fθθ0 (X) = 0 et
0 0
0 2
fθ
Eθ0 fθ0 (X) < +∞ (où l’on note fθ0 0 (x) et fθ000 (x) les dérivées de fθ (x) par
0

rapport à θ en θ0 ).
— I(θ0 ) > 0,
— Il existe V , voisinage de θ0 et h ∈ L1 (Pθ0 ) tels que

∂2
∀θ ∈ V, | (log fθ )| ≤ h.
∂θ2

Alors 2[`n (θbn ) − `n (θ0 )] converge en loi sous Pθ0 vers χ2 (1) (loi du chi-deux à un degré
de liberté).

Preuve du Théorème 10.4.1

En reprenant le Théorème 10.1.2 on a

n
√ 1 1 X˙
n(θbn − θ0 ) = ·√ `θ0 (Xi ) + n (10.2)
I(θ0 ) n
i=1

où n tend en Pθ0 -probabilité vers 0. θ 7→ `n (θ) est de classe C 2 en θ0 , on a donc

∂ (θbn − θ0 )2 ∂ 2
`n (θbn ) = `n (θ0 ) + (θbn − θ0 ) `n (θ0 ) + `n (θn ) (10.3)
∂θ 2 ∂θ2

pour un θn ∈ (θ0 ; θbn ). Noter que θn est aléatoire. Comme dans la preuve du Théorème
10.1.2, on obtient que
1 ∂2
`n (θn ) = −I(θ0 ) + Un (10.4)
n ∂θ2

94
10.5 Généralisations multidimensionnelles

où Un tend en Pθ0 -probabilité vers 0. En reportant (10.2) et (10.4) dans (10.3), on obtient

n n
! !
1 1 X˙ 1 X˙
`n (θbn ) − `n (θ0 ) = √ `θ0 (Xi ) + n √ `θ0 (Xi )
I(θ0 ) n n
i=1 i=1
n
!2
1 1 X˙
+ √ `θ0 (Xi ) + n (−I(θ0 ) + Un )
2I(θ0 )2 n
i=1
n
!2 n
!
1 1 X˙ n (1 + Un − I(θ0 )) 1 X˙
= √ `θ0 (Xi ) + √ `θ0 (Xi )
2I(θ0 ) n I(θ0 ) n
i=1 i=1
2n
+ (−I(θ0 ) + Un ) .
2I(θ0 )
2
n −I(θ0 ))
Par Slutzky, n (1+U n
Pn ˙
√1
I(θ0 ) n i=1 `θ0 (Xi ) + 2I(θ 0)
(−I(θ0 ) + Un ) tend en Pθ0 -probabilité
vers 0. Par ailleurs,

n
!2 n
!2
1 1 X˙ 1 X `˙θ0 (Xi )
√ `θ0 (Xi ) = √ p ,
I(θ0 ) n n I(θ0 )
i=1 i=1

Pn `˙θ0 (Xi )
√1 √ converge en loi sous Pθ0 vers une gaussienne centrée réduite par le
n i=1 I(θ0 )
2
`˙θ0 (Xi )
théorème de limite centrale, donc par image continue, √1n ni=1 √
P
converge en
I(θ0 )
loi sous Pθ0 vers χ2 (1) et le théorème s’en suit par Slutzky.

On a alors, si u1−α/2 est le quantile d’ordre 1−α/2 de la loi gaussienne centrée réduite,
u21−α/2est le quantile d’ordre 1 − α/2 de la loi χ2 (1) (car P (U 2 ≥ u2 ) = P (|U | ≥ u)), et
donc le test
ϕn = 1supθ∈Θ `n (θ)−`n (θ0 )≥u2
1−α/2

est de niveau asymptotique α pour tester H0 : “θ = θ0 ” contre H1 : “θ 6= θ0 ”.

10.5 Généralisations multidimensionnelles

On va écrire les résultats que l’on obtient dans le cas où Θ ⊂ Rk , les preuves se
déroulent de manière analogue au cas k = 1 (le faire en exercice !).
Soit (Pθ )θ∈Θ un modèle dominé, Θ ⊂ Rk , on note fθ (x) la densité de Pθ par rapport à
la mesure dominante, et Pθ la loi d’une suite de variables aléatoires i.i.d. de loi Pθ .
On note θbn l’estimateur du maximum de vraisemblance obtenu avec n observations
X1 , . . . , Xn .
Soit θ0 ∈ Θ◦ . On suppose que :
— θbn converge en Pθ0 probabilité vers θ0 .

95
10 Eléments de statistique asymptotique

D2 fθ0 ∇fθ0
— ∀x ∈ X , θ 7→ fθ (x) est de classe C 2 en θ0 , Eθ0 fθ0 (X) = 0, Eθ0 fθ0 (X) = 0 et
2
fθ0
Eθ0 fθ0 (X)
0
< +∞ (où l’on a noté ∇fθ0 (x) le gradient de fθ (x) par rapport à θ
en θ0 et D2 fθ0 (x) la matrice hessienne de fθ (x) par rapport à θ en θ0 ).
∇f
— I(θ0 ) est définie positive (I(θ0 ) est la matrice de variance de fθθ0 (X1 ) sous Pθ0 ,
0
— Il existe V , voisinage de θ0 et h ∈ L1 (Pθ0 ) tel que pour tous i, j = 1, . . . , k,
∂2
∀θ ∈ V, | (log fθ )| ≤ h.
∂θi ∂θi
Alors
n
√ 1 X ∇fθ0
nI(θ0 ) θbn − θ0 − √ (Xi )
n fθ0
i=1
converge en Pθ0 -probabilité vers 0,
√ b
n θn − θ0 converge en loi sous Pθ0 vers Nk (0, I(θ0 )−1 ), et

n n
" #
X X
2 log fθbn (Xi ) − log fθ0 (Xi )
i=1 i=1

converge en loi sous Pθ0 vers un χ2 (k) (loi du chi-deux à k degrés de liberté).

10.6 Constructions de régions de confiance asymptotiques

A partir d’estimateurs asymptotiquement efficaces : soit Tn tel que pour tout θ,
√
n (Tn − θ) converge en loi sous Pθ vers Nk (0, I(θ)−1 ),. On a donc si Bkk est√
un borélien de
R tel que, si U suit la loi Nk (0, Ik ), alors P (U ∈ Bk ) = α, alors θ ∈ R : nI(θ)1/2 (Tn − θ) ∈ Bk
k

est une région de confiance pour θ asymptotiquement de niveau de confiance 1 − α. Mais

I(θ) dépend de θ inconnu, et il n’est pas forcément facile de déterminer cet ensemble
(voir sur des exemples).
Une solution est d’estimer l’information de Fisher. Si Ibn est un estimateur consistant de
√ 1/2
I(θ), alors par Slutzky, nIbn (Tn − θ) converge en loi sous Pθ vers Nk (0, Ik ), et
n √ o
Rn = θ ∈ Rk : nIbn1/2 (Tn − θ) ∈ Bk

est une région de confiance pour θ asymptotiquement de niveau de confiance 1 − α. Si

k = 1, on peut choisir B1 = [−u1−α/2 ; u1−α/2 ], où u1−α/2 est le quantile d’ordre 1 − α/2
de la loi gaussienne centrée réduite, et si k = 1,
 
u1−α/2 u1−α/2
Rn = Tn − q ; Tn − q 
√ √
n Inb n Ibn

est un intervalle de confiance pour θ asymptotiquement de niveau de confiance 1 − α.

On peut par exemple choisir :

96
10.7 Retour sur le test du chi-deux d’ajustement

— Ibn = I(T n ) (plug-in), consistant dès que θ 7→ I(θ) est continue,

1 Pn
— In = n i=1 `˙Tn `˙TTn , consistant sous les hypothèses du Théorème 10.1.2 par exemple.
b
On peut aussi utiliser le test du rapport de vraisemblance. Si on note ϕθn0 le test du
rapport de vraisemblance de H0 : “θ = θ0 ” contre H1 : “θ 6= θ0 ” asymptotiquement de
niveau α, alors {θ0 : ϕθn0 = 0} est une région de confiance pour θ asymptotiquement de
niveau de confiance 1 − α. Donc en utilisant le Théorème 10.4.1,

k 2
Sn = θ0 ∈ R : sup `n (θ) − `n (θ0 ) ≤ u1−α/2
θ∈Θ

est une région de confiance pour θ asymptotiquement de niveau de confiance 1 − α.

10.7 Retour sur le test du chi-deux d’ajustement

On revient sur le modèle où X = {1, . . . , k},
 
 k−1
X 
Θ = θ = (θ1 , . . . , θk−1 ) ∈ Rk−1 , θj ≥ 0, j = 1, . . . , k, θj ≤ 1 ,
 
j=1

et Pθ est la loi sur X donnée par : Pθ (X = j) = θj , j = 1, . . . , k − 1 et Pθ (X = k) =

1 − k−1
P
j=1 , que l’on notera alors θk .

Soient X1 , . . . , Xn i.i.d., on note pour j = 1, . . . , k

n
X
Nj = 1Xi =j .
i=1

La log-vraisemblance est `n (θ) = kj=1 Nj log θj , et l’estimateur du maximum de vrai-

semblance est θbn tel que

Nj
θbn = , j = 1, . . . , k.
j n
On a vu que si pour tout j, θj > 0 et si l’on note
2
Nj
X n − θj
k
Tn = n ,
θj
j=1

alors sous Pθ , Tn converge en loi quand n tend vers l’infini vers un χ2 (k − 1). On l’a
démontré en utilisant : le théorème de limite centrale et le théorème de Cochran.
Peut-on relier ce résultat au Théorème 10.4.1 ?
Proposition 10.7.1. On suppose que pour tout j = 1, . . . , k, θj > 0. Alors
h i
2 `n (θbn ) − `n (θ) = Tn + n

où n converge en Pθ -probabilité vers 0.

97
10 Eléments de statistique asymptotique

Preuve de la Proposition 10.7.1.

On a
k
h i X Nj
2 `n (θn ) − `n (θ) = 2
b Nj log
nθj
j=1
k Nj
" !#
X − θ j
= 2 Nj log 1 + n
θj
j=1
k Nj
! k Nj
!2
n − θj − θj
X X
n
= 2 Nj − Nj + Zn
θj θj
j=1 j=1

u2
en utilisant log(1 + u) = u − 2 + u2 ε(u), où ε(u) tend vers 0 quand u tend vers 0, et
avec !2
k Nj Nj
!
X
n − θj n − θj
Zn = 2 Nj ε .
θj θj
j=1

On a
k Nj k Nj k Nj
! ! !
X Nj n − θj X
n − θj X
n − θj
Tn = n −n θj = Nj ,
n θj θj θj
j=1 j=1 j=1

Pk Pk
car j=1 Nj = n et j=1 θj = 1, et
2
!2 Nj
k
X Nj
− θj
k
X Nj

n − θj
n
Nj =n = Tn + Un
θj nθj θj
j=1 j=1

avec
√n( Nj − θ ) 2

k j
X Nj n
Un = −1 .
nθj θj
j=1

On a alors h i
2 `n (θbn ) − `n (θ) = Tn + Zn − Un .

Mais par Slutzky, Un converge en Pθ -probabilité vers 0, et par Slutzky et image continue,
k Nj
!!2 Nj
!
√ − θj − θj

X Nj n n
Zn = 2 n ε .
n θj θj
j=1

converge en Pθ -probabilité vers 0.

On considère maintenant que l’on veut tester un sous-modèle décrit ainsi. Soit Θ ⊂ Rq ,
avec q < k − 1, et π : Θ → Rk−1 , π(θ) = (π1 (θ), . . . , πk−1 (θ) de sorte que Pθ (X = j) =

98
10.7 Retour sur le test du chi-deux d’ajustement

πj (θ), j = 1, . . . , k − 1. Si l’on note p = (P (X = 1), . . . , P (X = k − 1)), on veut donc

N
tester H0 :“p ∈ π(Θ)” contre H1 :“p ∈ π(Θ)”. On va donc regarder l’écart entre ( nj )j
et (πj (θ̂))j pour un estimateur consistant de θ. Considérons par exemple l’estimateur
du maximum de vraisemblance θbn . Regardons quand les théorèmes asymptotiques s’ap-
pliquent.

Comme X est un ensemble fini, les hypothèses d’intégrabilité et de domination sont

Pk−1 dès que les quantités sont finies. On note comme tout à l’heure πk (θ) = 1 −
vérifiées
j=1 πj (θ). Donc pour la consistance, il suffit de supposer que
— (H1) π est injective, continue sur Θ qui est compact, et pour tout j = 1, . . . , k,
pour tout θ ∈ Θ, inf θ∈Θ πj (θ) > 0.
Pour la normalité asymptotique, on a besoin de plus que
— (H2) Pour tout j = 1, . . . , k, θ 7→ π(θ) est de classe C 2 , et l’information de Fisher
I(θ) est inversible.
Théorème 10.7.1. On suppose (H1) et (H2). On note
2
Nj
Xk
n − π j ( θ
bn )
Tn = n .
j=1 πj (θbn )

Alors si p ∈ π(Θ)◦ , Tn converge en loi sous Pp vers un χ2 (k − 1 − q).

La conséquence de ce théorème est que le test qui rejette H0 lorsque Tn ≥ χ2k−1−q;1−α
est asymptotiquement de niveau α. Il est aussi asymptotiquement de puissance 1 pour
tout p ∈
/ π(Θ). En effet, dans ce cas, Tn converge en probabilité vers +∞ (l’écrire).

Preuve du Théorème 10.7.1.

On note Zn le vecteur de Rk de coordonnées
Nj
!
√ np− πj (θ)
Zn,j = n , j = 1, . . . , k
πj (θ)

et Yn le vecteur de Rk de coordonnées
!
√ πj (θbn ) − πj (θ)
Yn,j = n p , j = 1, . . . , k.
πj (θ)

πj (θ)
Si on note Dn la matrice diagonale des , on a
πj (θbn )

Tn = kDn (Zn − Yn )k2 ,

et par Slutzky, la consistance de l’e.m.v., et le théorème de Cochran, il suffit donc de

montrer que Zn − Yn converge en loi sous Pθ vers Nk (0, Ik − R) où R est la matrice de
projection orthogonale sur un sous-espace de Rk de dimension q + 1.

99
10 Eléments de statistique asymptotique

Notons ∆ la matrice diagonale k × k des πj (θ), dπ la matrice k × q qui possède en lignes

les ∇πj (noter que la somme des coordonnées de ∇πj est nulle puisque la somme des
k √ k
π
pj (θ) est constante égale à 1), π le vecteur de R des πj (θ), π le vecteur de R des
πj (θ).
Comme pour i = 1, . . . , q,
k
X 1 ∂πj (θ)
(`˙θ (x))i = 1x=j ,
πj (θ) ∂θi
j=1

pour i, m = 1, . . . , q
k
X 1 ∂πj (θ) ∂πj (θ)
I(θ)i,m = ,
πj (θ) ∂θi ∂θm
j=1

I(θ) = (dπ)T ∆−1 (dπ), et dire que I(θ) est inversible c’est dire que les q vecteur de Rk
∂πj (θ)
(√ 1 ∂θi )1≤j≤k , pour i = 1, . . . , q, sont linéairement indépendants. On a (généralisation
πj (θ)
multidimensionnelle de la preuve du Théorème 10.1.2) :
n
√ I(θ)−1 X ˙
n θbn − θ = √ `θ (Xi ) + n
n
i=1
N
= I(θ)−1 (dπ)T ∆−1 √ + n
n
√

N
= I(θ)−1 (dπ)T ∆−1 n − π + n
n
où n tend en Pθ -probabilité vers 0, et où l’on a noté N le vecteur de Rk de coordonnées
Nj .
Par la méthode delta, on obtient
√ √
n π(θbn ) − π(θ) = dπ n θbn − θ + ˜n

T −1 √

−1 N
= dπI(θ) (dπ) ∆ n − π + ¯n
n
où ˜n et ¯n tendent en Pθ -probabilité vers 0. En multipliant à gauche par ∆−1/2 on
obtient
Yn = ∆−1/2 dπI(θ)−1 (dπ)T ∆−1/2 Zn + Un
où Un tend en Pθ -probabilité vers 0. Donc Zn − Yn = (Ik − Q)Zn − Un avec Q =
√ √ T
∆−1/2 dπI(θ)−1 (dπ)T ∆−1/2 , et Zn converge en loi sous Pθ vers Nk (0, Ik − π π ). Donc
Zn − Yn converge en loi sous Pθ vers Nk (0, Σ) avec
√ √ T √ √ T
Σ = (Ik − Q) Ik − π π (Ik − Q)T = Ik − Q + π π

car Q est une matrice de projection orthogonale de rang q (le rang de dπ) (QT = Q, Q2 =
√ √ T √ √ T
Q) telle que Q π π = 0, et Q + π π est une matrice de projection orthogonale
sur un espace de dimension q + 1.

100

Vous aimerez peut-être aussi

Introduction à la Statistique Mathématique
Pas encore d'évaluation
Introduction à la Statistique Mathématique
107 pages
Cours Pierre Ribereau
100% (1)
Cours Pierre Ribereau
100 pages
Statistique Inferentielle L 2
Pas encore d'évaluation
Statistique Inferentielle L 2
55 pages
Statistique Inférentielle DataScience
Pas encore d'évaluation
Statistique Inférentielle DataScience
58 pages
Stat Math Poly 2013
Pas encore d'évaluation
Stat Math Poly 2013
108 pages
Statistique
Pas encore d'évaluation
Statistique
175 pages
STAT 4 LICENCE Yode
Pas encore d'évaluation
STAT 4 LICENCE Yode
75 pages
Principes de Statistique Inférentielle
Pas encore d'évaluation
Principes de Statistique Inférentielle
145 pages
Poly Stat Inf
Pas encore d'évaluation
Poly Stat Inf
69 pages
Stat Licence 2
Pas encore d'évaluation
Stat Licence 2
75 pages
Cours de Que Que
Pas encore d'évaluation
Cours de Que Que
409 pages
StatM1 Poly P Doukhan
Pas encore d'évaluation
StatM1 Poly P Doukhan
111 pages
Statistique Inferentielle Licence 2
Pas encore d'évaluation
Statistique Inferentielle Licence 2
75 pages
Statistique Inférentielle Avancée
Pas encore d'évaluation
Statistique Inférentielle Avancée
135 pages
Statistique Inférentielle Avancée
Pas encore d'évaluation
Statistique Inférentielle Avancée
63 pages
Définition de l'inférence statistique
Pas encore d'évaluation
Définition de l'inférence statistique
40 pages
STAT XPoly - Marchoffman
Pas encore d'évaluation
STAT XPoly - Marchoffman
225 pages
Rammah2 PDF
Pas encore d'évaluation
Rammah2 PDF
225 pages
Statistique Mathématique et Modélisation
Pas encore d'évaluation
Statistique Mathématique et Modélisation
56 pages
Fondements de la Statistique Mathématique
Pas encore d'évaluation
Fondements de la Statistique Mathématique
129 pages
Introduction à la Statistique Mathématique
Pas encore d'évaluation
Introduction à la Statistique Mathématique
87 pages
A7 Cours Non Param PDF
Pas encore d'évaluation
A7 Cours Non Param PDF
69 pages
SNP MH
Pas encore d'évaluation
SNP MH
77 pages
TDM
Pas encore d'évaluation
TDM
5 pages
Biostatistique L3 An-B
Pas encore d'évaluation
Biostatistique L3 An-B
19 pages
Cours Statistiques
Pas encore d'évaluation
Cours Statistiques
119 pages
Principes Et Méthodes Statistiques: Ensimag - 1 Année
Pas encore d'évaluation
Principes Et Méthodes Statistiques: Ensimag - 1 Année
129 pages
Statistique: Anne Gégout-Petit Master 1 IMOI Université de Lorraine 7 Mai 2019
Pas encore d'évaluation
Statistique: Anne Gégout-Petit Master 1 IMOI Université de Lorraine 7 Mai 2019
121 pages
Poly Copie Partie 1
Pas encore d'évaluation
Poly Copie Partie 1
125 pages
Estimation par Maximum de Vraisemblance
Pas encore d'évaluation
Estimation par Maximum de Vraisemblance
47 pages
Poly Osad 2025
Pas encore d'évaluation
Poly Osad 2025
51 pages
Complement de Cours Sur L'estimation
Pas encore d'évaluation
Complement de Cours Sur L'estimation
64 pages
Cours de Statistique Inférentielle
100% (1)
Cours de Statistique Inférentielle
131 pages
Polycope Cours Echant
Pas encore d'évaluation
Polycope Cours Echant
64 pages
SI Cours
Pas encore d'évaluation
SI Cours
95 pages
Estimation Statistique et Lois de Probabilité
Pas encore d'évaluation
Estimation Statistique et Lois de Probabilité
51 pages
Statistiques Avancées pour Économistes
Pas encore d'évaluation
Statistiques Avancées pour Économistes
80 pages
Cours de Statistique Mathématique
Pas encore d'évaluation
Cours de Statistique Mathématique
119 pages
Cours de Statistique GIL
Pas encore d'évaluation
Cours de Statistique GIL
53 pages
CM de Statistique 2015
100% (1)
CM de Statistique 2015
26 pages
Cours de Statistique Mathématique
Pas encore d'évaluation
Cours de Statistique Mathématique
49 pages
Statistique Inférentielle L2
Pas encore d'évaluation
Statistique Inférentielle L2
42 pages
Analyse des Données Statistiques
Pas encore d'évaluation
Analyse des Données Statistiques
274 pages
Cours Statistiques et Analyse Données 2007
Pas encore d'évaluation
Cours Statistiques et Analyse Données 2007
274 pages
Tssi0 Dvi
Pas encore d'évaluation
Tssi0 Dvi
125 pages
Fomulaire Examen
Pas encore d'évaluation
Fomulaire Examen
11 pages
M1 G Turinici Statnonp v3 3
Pas encore d'évaluation
M1 G Turinici Statnonp v3 3
156 pages
Param
Pas encore d'évaluation
Param
145 pages
Probabilit E Et Statistiques.: Licence 2' Eme Ann Ee
Pas encore d'évaluation
Probabilit E Et Statistiques.: Licence 2' Eme Ann Ee
73 pages
Proba3 Limelise Chap1-5
Pas encore d'évaluation
Proba3 Limelise Chap1-5
81 pages
Statistique Inférentielle Avancée
Pas encore d'évaluation
Statistique Inférentielle Avancée
39 pages
Estimation ISSP 2023-2024 v2
Pas encore d'évaluation
Estimation ISSP 2023-2024 v2
100 pages
Statistiques Fondamentales
100% (1)
Statistiques Fondamentales
98 pages
Exos 1
Pas encore d'évaluation
Exos 1
3 pages
Serie N5 Equations Non Lin F2020
Pas encore d'évaluation
Serie N5 Equations Non Lin F2020
5 pages
Examen Final: Equations de La Physique Math Ematique
Pas encore d'évaluation
Examen Final: Equations de La Physique Math Ematique
3 pages
Analyse de Fourier et Ondelette - Examen
Pas encore d'évaluation
Analyse de Fourier et Ondelette - Examen
1 page
Examen d'EDP: Exercice 1
100% (1)
Examen d'EDP: Exercice 1
3 pages
Resume Anafonc
Pas encore d'évaluation
Resume Anafonc
9 pages
Variables Aleatoires Discretes
Pas encore d'évaluation
Variables Aleatoires Discretes
18 pages
Analyse de régression et ajustement statistique
Pas encore d'évaluation
Analyse de régression et ajustement statistique
13 pages
Exercices Élémentaires de Géométrie Affine
100% (2)
Exercices Élémentaires de Géométrie Affine
95 pages
Série 2 - Les Matrices
Pas encore d'évaluation
Série 2 - Les Matrices
3 pages
Tableaux et Formules dans Numbers
Pas encore d'évaluation
Tableaux et Formules dans Numbers
22 pages
Amélioration Tribologique des Céramiques Techniques
Pas encore d'évaluation
Amélioration Tribologique des Céramiques Techniques
150 pages
TD Mcanique Des Fluides 201314pdf - Compress
Pas encore d'évaluation
TD Mcanique Des Fluides 201314pdf - Compress
2 pages
Cnam Java Rapport Final
Pas encore d'évaluation
Cnam Java Rapport Final
49 pages
Erreurs Et Incertitudes
100% (1)
Erreurs Et Incertitudes
11 pages
Stabilisation des Talus Routiers
Pas encore d'évaluation
Stabilisation des Talus Routiers
43 pages
Tarif Master Trade Janvier 2025 (37960)
Pas encore d'évaluation
Tarif Master Trade Janvier 2025 (37960)
165 pages
Massflowmeter Mfmu B052 Bro FR Rev2
Pas encore d'évaluation
Massflowmeter Mfmu B052 Bro FR Rev2
2 pages
HPLC: Séparation et Analyse des Composés
Pas encore d'évaluation
HPLC: Séparation et Analyse des Composés
12 pages
Travaux - Dirigés - 1 - Terminale - F3 - MA
100% (3)
Travaux - Dirigés - 1 - Terminale - F3 - MA
5 pages
Rapport Technique Jasper
Pas encore d'évaluation
Rapport Technique Jasper
12 pages
Transformation D'helmertz
Pas encore d'évaluation
Transformation D'helmertz
2 pages
14 TD14
Pas encore d'évaluation
14 TD14
6 pages
Exercices JSP pour Développeurs Web
Pas encore d'évaluation
Exercices JSP pour Développeurs Web
4 pages
Didacticiel sur l'électricité domestique
Pas encore d'évaluation
Didacticiel sur l'électricité domestique
119 pages
CNA2
Pas encore d'évaluation
CNA2
24 pages
Polycopié II Des TP Biochimie Structurale - S3!20!21
Pas encore d'évaluation
Polycopié II Des TP Biochimie Structurale - S3!20!21
37 pages
# Métré - DQE V9.1
Pas encore d'évaluation
# Métré - DQE V9.1
60 pages
Contrôle Maths 3ème: Évaluation et Problèmes
Pas encore d'évaluation
Contrôle Maths 3ème: Évaluation et Problèmes
2 pages
Mark Way - La Perspective Dans Le Dessin
100% (7)
Mark Way - La Perspective Dans Le Dessin
94 pages
Gestion des erreurs dans Matlab
Pas encore d'évaluation
Gestion des erreurs dans Matlab
2 pages
Préparation Du Plan de Coffrage
Pas encore d'évaluation
Préparation Du Plan de Coffrage
3 pages
Identification des Chocs Structurels SVAR
Pas encore d'évaluation
Identification des Chocs Structurels SVAR
3 pages
Onduleurs Photovoltaiques Raccordes Au Reseau
Pas encore d'évaluation
Onduleurs Photovoltaiques Raccordes Au Reseau
49 pages
Seminaire Gamme D'usinage
Pas encore d'évaluation
Seminaire Gamme D'usinage
79 pages
Modèl Osi Vs TCP Ip
Pas encore d'évaluation
Modèl Osi Vs TCP Ip
2 pages
Introduction aux fonctions en Python
Pas encore d'évaluation
Introduction aux fonctions en Python
5 pages
Introduction au Tableur Excel
100% (1)
Introduction au Tableur Excel
8 pages

M1 Stat

Transféré par

M1 Stat

Transféré par

Statistiques - Notes de cours - M1

3 Fonction de répartition et théorème de Glivenko-Cantelli 21

6 Modèle linéaire gaussien 35

7 Eléments de théorie de la décision 43

8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson 63

9 Etude des estimateurs sans biais 71

10 Eléments de statistique asymptotique 87

Voici une idée de la démarche sur un exemple simple, celui du sondage.

On a X variable aléatoire de loi P inconnue, et la modélisation fixe P, ensemble de

1.1 Estimation et régions de confiance

l’observation et que n1 ni=1 Xi est un estimateur de θ. Ce vocabulaire dit seulement

Souvent on note X n = n1 ni=1 Xi la moyenne empirique.

On veut donc évaluer P (|X n − θ| ≥ ). Outils ?

ce qui montre que l’intervalle I =]X n − ; X n + [ est un intervalle de confiance pour

Proposition 1.1.1 (Inégalité de Cramer-Chernoff.). Soient X1 , . . . , Xn des variables

Preuve : On a pour tout λ > 0

1X n −E(X1 )≥ = 1λ(X n −E(X1 ))≥λ

donc en prenant l’espérance

et l’on obtient la proposition en posant λ̃ = λ/n.

φ00 (λ) = V arQλ (Y ) .

mais φ0 (0) = EP (Y ), donc en intégrant de nouveau entre 0 et λ,

Conséquence pour notre exemple :

Proposition 1.1.2. Soient X1 , . . . , Xn des variables aléatoires réelles indépendantes et

Preuve : On fixe  > 0 et θ ∈ [0, 1].

Par ailleurs, les θ − Xi , i = 1, . . . , n sont aussi des variables aléatoires indépendantes

converge en loi vers U , variable aléatoire réelle de loi N (0, 1).

On obtient ainsi que  

α est appelée erreur de première espèce, elle quantifie la probabilité maximum de

β est appelée erreur de deuxième espèce, elle quantifie la probabilité maximum de

une fonction croissante. Donc

satisfaisant dans un contexte de contrôle de qualité.

Introduisons maintenant la notion de test statistique.

Définition 1.2.1. Soient Θ0 et Θ1 deux sous-ensembles disjoints de Θ.

Pour évaluer la qualité d’un estimateur, on introduit une fonction de perte :

vérifiant : ∀y ∈ Y, L(y, y) = 0, ∀(y, y 0 ) ∈ Y 2 , L(y, y 0 ) = L(y 0 , y) (L est symétrique), de

On appelle risque de l’estimateur T (X) la fonction

Eθ [(g(θ) − T (X))2 ] = (g(θ) − Eθ [T (X)])2 + V arθ [T (X)].

— Risque de test/ de classification : lorque L(y, y 0 ) = 1y6=y0 , le risque est

Eθ [1T (X)6=g(θ) ] = Pθ (T (X) 6= g(θ)) .

∀θ ∈ Θ, lim Tn (X1 , . . . , Xn ) = g(θ) Pθ − p.s..

— Tn est un estimateur consistant de g(θ) si et seulement si

∀θ ∈ Θ, Tn (X1 , . . . , Xn ) →n→+∞ g(θ) en Pθ − probabilité,

∀θ ∈ Θ, ∀ > 0, lim Pθ,n (kTn (X1 , . . . , Xn ) − g(θ)k ≥ ) = 0.

Remarque : par abus de notation, j’utiliserai Tn pour Tn (X1 , . . . , Xn ) (comme fait

2.2 Méthode des moments. Estimation empirique

L’estimateur de g(θ) obtenu par la méthode des moments est

Alors, Tn est un estimateur sans biais et consistant de g(θ).

Exemple : le sondage vu au premier chapitre.

Il est consistant (dire pourquoi). Est-il sans biais ? (calculer le biais).

Tous les moments empiriques sont des estimateurs consistants de l’espérance de la

2.3 Maximum de vraisemblance

et log-vraisemblance la variable aléatoire fonction de θ :

`(θ) = log fθ (X).

θb = argmaxθ∈Θ L(θ) = argmaxθ∈Θ `(θ).

Se posent alors les questions d’existence et d’unicité.

Lorsque le modèle statistique est celui de n variables aléatoires indépendantes X1 , . . . , Xn

Le maximum de vraisemblance est

On dit alors que Q est une dominante privilégiée du modèle.

Remarque : il n’y a pas unicité de la dominante privilégiée, toute autre mesure de

∀n ∈ N, µ(An ) > 0 ⇐⇒ λn > 0.

On pose P telle que

On a pour tout ensemble mesurable A,

On a M ≤ 1. Soit Cn une suite d’éléments de C tels que P (Cn ) ≥ M − 1/n. Soit

En effet, si ce n’était pas le cas, pour un θ de Θ, on aurait P (Aθ ∩ (C ? )c ) > 0, donc

Soit maintenant A tel que Q(A) = 0. Pour tout θ ∈ Θ, on a P (Aθ ∩ (C ? )c ) = 0, et donc

Corollaire 2.3.1. L’estimateur du maximum de vraisemblance ne dépend pas du choix

On va maintenant justifier l’usage du maximum de vraisemblance dans une situation

Proposition 2.3.2. L’estimateur du maximum de vraisemblance minimise la moyenne

Soit θb l’estimateur du maximum de vraisemblance. On a alors

Mais si f0 (x)−f1 (x) < 0, alors θ(x)

On va calculer la moyenne du risque pour l’estimateur du maximum de vraisemblance,

d (P ; Q) = sup |P (A) − Q(A)|.

Ceci définit une distance sur l’ensemble des probabilités sur (X , A)

Preuve : Tout d’abord, en posant

P (B) − Q(B) = P (B ∩ A) + P (B ∩ Ac ) − Q(B ∩ A) − Q(B ∩ Ac )

donc pour tout B ∈ A,

On veut donc évaluer P (|X n − θ| ≥ ). Outils ?

ce qui montre que l’intervalle I =]X n − ; X n + [ est un intervalle de confiance pour

1X n −E(X1 )≥ = 1λ(X n −E(X1 ))≥λ

Preuve : On fixe > 0 et θ ∈ [0, 1].

On obtient ainsi que

∀θ ∈ Θ, ∀ > 0, lim Pθ,n (kTn (X1 , . . . , Xn ) − g(θ)k ≥ ) = 0.

Preuve : Soit N un entier strictement positif.