0% ont trouvé ce document utile (0 vote)
78 vues56 pages

Statistique Mathématique et Modélisation

Ce document traite de la modélisation statistique et contient des définitions et exemples sur les modèles statistiques, les modèles paramétriques et non paramétriques, les modèles d'échantillonnage, l'identification des modèles et l'homogénéité des modèles.

Transféré par

Lewi jordan Mélèdje
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
78 vues56 pages

Statistique Mathématique et Modélisation

Ce document traite de la modélisation statistique et contient des définitions et exemples sur les modèles statistiques, les modèles paramétriques et non paramétriques, les modèles d'échantillonnage, l'identification des modèles et l'homogénéité des modèles.

Transféré par

Lewi jordan Mélèdje
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

STATISTIQUE MATHÉMATIQUE

Dr KOUAKOU Kouamé Florent


Table des matières

1 Modélisation statistique 3
1.1 Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Modèles identifiables, homogènes . . . . . . . . . . . . . . . . 4
1.3 Moments empiriques et convergences . . . . . . . . . . . . . . 6
1.4 Méthode delta . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Problème statistiques . . . . . . . . . . . . . . . . . . . . . . . 9

2 Théorie de la décision 10
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Classement des règles de décision . . . . . . . . . . . . . . . . 11
2.2.1 Risque . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Règles admissibles . . . . . . . . . . . . . . . . . . . . 13
2.2.3 Approche minimax . . . . . . . . . . . . . . . . . . . . 13
2.2.4 Approche bayésienne . . . . . . . . . . . . . . . . . . . 14
2.3 Biais et absence de biais . . . . . . . . . . . . . . . . . . . . . 16

3 Exhaustivité 18
3.1 Statistiques exhaustives . . . . . . . . . . . . . . . . . . . . . 18
3.2 Statistiques exhaustives minimales . . . . . . . . . . . . . . . 21
3.3 Statistiques libres . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 Statistiques totales ou complètes . . . . . . . . . . . . . . . . . 22
3.5 Famille exponentielle . . . . . . . . . . . . . . . . . . . . . . . 24
3.6 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . 26

4 Estimateurs 29
4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . 29
4.2.1 Propriétés asymptotiques . . . . . . . . . . . . . . . . . 29
4.2.2 Propriétés non asymptotiques . . . . . . . . . . . . . . 30
4.3 Estimation sans biais . . . . . . . . . . . . . . . . . . . . . . . 32
4.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3.2 Amélioration d’un estimateur sans biais . . . . . . . . . 32

1
[Link] Théorème de Rao-Blackwell . . . . . . . . . . 32
[Link] Théorème de Lehman-Scheffé . . . . . . . . . 33
4.4 Méthodes d’estimation . . . . . . . . . . . . . . . . . . . . . . 33
4.4.1 Méthode du maximum de vraisemblance . . . . . . . . 33
4.4.2 Méthode des moments . . . . . . . . . . . . . . . . . . 35
4.4.3 Méthode des moindres carrées ordinaires . . . . . . . . 36

5 Estimation par région de confiance 37


5.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.2 Construction d’un intervalle de confiance . . . . . . . . . . . 38
5.2.1 Fonction pivotale . . . . . . . . . . . . . . . . . . . . . 38
5.2.2 Approche non asymptotique : intervalle de confiance bi-
latéral . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.2.3 Approche asymptotique . . . . . . . . . . . . . . . . . 38

6 Tests d’hypothèses 40
6.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.2 Pratique des tests statistiques . . . . . . . . . . . . . . . . . . 42
6.3 Hypothèse simple contre hypothèse simple . . . . . . . . . . . 43
6.4 Tests Uniformément plus puissant . . . . . . . . . . . . . . . . 48
6.4.1 Tests U.P.P. pour les hypothèses composites . . . . . . 48
6.4.2 Famille à rapport de vraisemblance monotone . . . . . 49
[Link] Tests U.P.P.S.B. . . . . . . . . . . . . . . . . 51
6.5 Tests et régions de confiance . . . . . . . . . . . . . . . . . . . 52
6.6 Tests de Wald, du Score et du Rapport de vraisemblance . . . 52
6.6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . 52
6.7 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.7.1 Test du score . . . . . . . . . . . . . . . . . . . . . . . 54
6.7.2 Test du rapport de vraisemblance . . . . . . . . . . . . 54

2
Chapitre 1

Modélisation statistique

1.1 Modèles statistiques


Un problème de statistique peut être défini de la façon suivante : on dispose
d’une observation x ∈ E, résultat de l’observation d’un phénomène aléatoire.
La modélisation statistique consiste à faire l’hypothèse que cette observation x
est la réalisation d’une variable aléatoire X à valeurs dans l’espace mesurable
(E, B) où B est une tribu sur E. Formellement, il existe un espace probabilisé
(Ω, A, P) tel que :

X : (Ω, A, P) −→ (E, B)
ω 󰀁−→ X(ω).

La loi de X est la mesure image de P par X, notée PX et définie par :

PX (A) = P[X −1 (A)] ∀A ∈ B.

En statistique, PX est inconnue. L’inférence statistique a pour objectif d’obte-


nir des informations sur PX en se basant sur les résultats de l’observation de
X. On supposera que PX ∈ P où P est une famille de lois de probabilité.

Définition 1.1.1. On appelle modèle statistique engendré par X le triplet


(E, B, P).

󰁱 󰁲
Définition 1.1.2. Une famille de lois de probabilité P = Pθ , θ ∈ Θ sur
(E, B), indexée par un paramètre θ ∈ Θ est dite paramétrique si Θ ⊂ Rd
où d ∈ N∗ et chaque loi Pθ est connue dès que θ est connu. L’ensemble Θ est
appelé espace des paramètres et d est la dimension de Θ. Dans le cas contraire,
le modèle est non paramétrique.

3
Dans un modèle paramétrique, la loi est décrite par un nombre fini de para-
mètres. Le modèle est dit semi-paramétrique lorsque la loi n’est pas paramétrée
par un vecteur de dimension finie et que l’inférence porte sur un vecteur de
dimension finie.
Exemple 1.1.1. On suppose que X est une variable aléatoire de loi de proba-
bilité admettant une densité de probabilité inconnue f
󰁱 󰁲
⊲ si f ∈ f0 (x, θ); θ ∈ Θ ⊂ Rk avec f0 connue⇒modèle paramétrique
⊲ si f ∈ F, espace fonctionnel ⇒modèle non paramétrique
Pour étudier un phénomène aléatoire, on a souvent intérêt à observer plu-
sieurs réalisations indépendantes de celui-ci. On parle alors de modèle d’échan-
tillonnage.
Définition 1.1.3. On appelle échantillon de taille n issu de la loi Pθ un n-uplet
(X1 , . . . , Xn ) où les variables aléatoires (Xi )1≤i≤n sont indépendantes identi-
quement distribuées selon la loi de probabilité Pθ . Le modèle correspondant,
appelé modèle d’échantillonnage, est (E n , B ⊗n , {P⊗n θ , θ ∈ Θ}) où
- E n = E × . . . × E,
- B ⊗n = B ⊗ . . . ⊗ B est la tribu,

- P⊗n
θ est la loi du vecteur aléatoire (X1 , . . . , Xn ) .
Exemple 1.1.2. • Modèle de Bernoulli :

({0, 1}n , P({0, 1}n ), {B ⊗n (1, θ); θ ∈ [0, 1]})

• Modèle gaussien :

(Rn , B ⊗n (R), {N ⊗n (µ, σ 2 ); θ = (µ, σ 2 ) ∈ R × R∗+ })

On utilisera toujours les majuscules pour les variables aléatoires et les mi-
nuscules pour leurs réalisations.

1.2 Modèles identifiables, homogènes


Pour un modèle statistique donné, il peut exister des valeurs distinctes du
paramètre, θ1 et θ2 telles que Pθ1 = Pθ2 . Pour éviter cette difficulté, on requiert
qu’un modèle soit identifiable.
Définition 1.2.1. Le modèle statistique (E, B, {Pθ , θ ∈ Θ}) est identifiable si
l’application θ 󰀁−→ Pθ définie sur Θ est injective, c’est à dire,

Pθ 1 = Pθ 2 ⇒ θ 1 = θ 2 .

4
Exemple 1.2.1. Le modèle statistique {N (m, σ 2 ); m ∈ R, σ > 0} est identi-
fiable, mais {N (m, σ 2 ); m ∈ R, σ ∕= 0} n’est pas identifiable car N (m, σ 2 ) =
N (m, (−σ)2 ).
Définition 1.2.2. Un modèle (E, B, {Pθ , θ ∈ Θ}) est dit dominé s’il existe
une mesure positive σ-finie µ telle que

∀θ ∈ Θ Pθ ≪ µ,

c’est à dire
∀A ∈ B, µ(A) = 0 =⇒ Pθ (A) = 0.
D’après le Théorème de Radon-Nikodym, il existe alors une fonction mesurable
positive f (·, θ) définie µ-presque partout par la relation
󰁝
Pθ (A) = f (x, θ)dµ(x) ∀A ∈ B.
A

Dans ce cas, la loi de probabilité Pθ est identifiée par sa densité f (·, θ). On
distingue généralement deux cas :
- Si E est discret alors E est au plus dénombrable et B = P(E), l’en-
semble des parties de E ; la mesure dominante µ est la mesure de comp-
tage sur E. Dans ce cas,

f (x, θ) = Pθ (X = x).

- Si E ⊂ Rp et µ est la mesure de Lebesgue alors f (·, θ) est la densité de


probabilité de la variable aléatoire X sous Pθ .
Définition 1.2.3. Le support de Pθ est l’ensemble

∆θ = {x : f (x, θ) > 0} .

Définition 1.2.4. On appelle vraisemblance au point x ∈ E, la fonction

L(x, ·) : Θ −→ R+
θ 󰀁−→ L(x, θ) = f (x, θ)

Pour un modèle d’échantillonnage, la vraisemblance est


n
󰁜
L(x1 , . . . , xn , θ) = f (xi , θ)
i=1

Définition 1.2.5. Le modèle (E, B, {Pθ , θ ∈ Θ}) est dit homogène si

∀θ1 , θ2 ∈ Θ, Pθ 1 ≪ Pθ 2 Pθ 2 ≪ Pθ 1 .

5
Autrement dit, toutes les probabilités sont équivalentes. Elles admettent toutes
les mêmes ensembles négligeables. En d’autres termes, f (x, θ) > 0 µ-presque
partout, pour tout θ ∈ Θ. Ainsi, le support ∆θ de Pθ ne dépend pas de θ.
Exemple 1.2.2. Le modèle gaussien (σ 2 > 0) et le modèle de Bernouilli
(θ ∈]0, 1[) sont homogènes.
Exemple 1.2.3. le modèle uniforme U [0, θ] avec θ > 0, dominé par la mesure
de Lebesgue, n’est pas homogène car
′ ′
U [0, θ] ≪ U [0, θ ] ⇐⇒ θ ≤ θ .

1.3 Moments empiriques et convergences


Soit (X1 , . . . , Xn ) un échantillon issu d’une loi admettant pour espérance
µ et pour variance σ 2 .
Définition 1.3.1. On appelle moyenne empirique de l’échantillon (X1 , . . . , Xn )
la statistique X n définie par
n
1󰁛
Xn = Xi .
n i=1

σ2
Propriété 1.3.1. Nous avons E[X n ] = µ et var(X n ) = .
n
Théorème 1.3.1. On suppose que les variables Xi sont de carré intégrable,
c’est à dire E(X12 ) < ∞. Alors, on a
n
1󰁛 P
Xi −→ µ.
n i=1

Ce théorème est encore vraie si on ne suppose que l’existence du moment


d’ordre 1. Cependant, l’hypothèse E(X12 ) < ∞ permet une preuve facile.
Démonstration. Pour tout ε > 0,
󰀓󰀏 1 󰁛n 󰀏 󰀔 1 󰀓1 󰁛n 󰀔
󰀏 󰀏
0≤P 󰀏 Xi − E(X1 )󰀏 ≥ ε ≤ 2 var Xi
n i=1 ε n i=1
var(X1 ) E(X12 )
= ≤ .
nε2 nε2
var(X1 )
Comme tend vers 0 quand n tend vers l’infini, on obtient le résultat
nε2
par le théorème des gendarmes.

6
Théorème 1.3.2. On suppose que E(|X1 |) < ∞. Alors, on a
n
1󰁛 p.s.
Xi −→ µ.
n i=1

Démonstration. Admise.
Théorème 1.3.3. Nous avons

n(X n − µ) L
−→ N (0, 1).
σ
Théorème 1.3.4. (Théorème Central limite multidimensionnel)
Soit (Xn )n∈N une suite de vecteurs aléatoires à valeurs dans Rd , indépen-
dants et identiquement distribués, telle que Σ, la matrice de covariance de
chaque Xi existe, et µ = E(Xi ). Alors

n(X n − µ) −→ Nd (0, Σ).

1.4 Méthode delta


√ L
Soient Tn une variable aléatoire et g : Rd → Rk . Si n(Tn −θ) −−−−→ X, a-
n→+∞
√ L
t-on n(g(Tn ) − g(θ)) −−−−→ Y ? Si oui, sous quelles conditions ? La méthode
n→+∞
delta permet de répondre à cette question.
Théorème 1.4.1. On suppose que g est différentiable en θ et rn est une suite
de nombres positifs tendant vers +∞. Si
L
rn (Tn − θ) −−−−→ X
n→+∞

alors
L
rn (g(Tn ) − g(θ)) −−−−→ Dg(θ)X,
n→+∞
avec 󰀳 󰀴
∂g
∂θ1
Dg(θ) = 󰁃 ... 󰁄
󰁅 󰁆
∂g
∂θd

Remarque 1.4.1. En particulier, si


√ L
n(Tn − θ) −−−−→ N (0, V )
n→+∞

alors √ L ′
n(g(Tn ) − g(θ)) −−−−→ N (0, Dg(θ)V (Dg(θ)) )
n→+∞

7
Pour la preuve du Théorème 1.4.1, nous avons besoin des résultats suivants :

Lemme 1.4.1. 1. Si une suite de variables (Xn ) converge en loi vers une
constante a ∈ Rd , elle converge aussi en probabilité vers a.
2. Soit rn une suite de réels positifs tendant vers l’infini. Si la suite rn Xn
converge en loi vers W , alors Xn converge vers 0 en probabilité.

Lemme 1.4.2. Soit une suite de variables aléatoires Xn convergente en pro-


babilité vers 0 dans Rd , et g une fonction de Rd dans Rs vérifiant g(0) = 0.
Si g est continue en 0, alors g(Xn ) tend vers 0 en probabilité.
Plus généralement, si pour p ≥ 0, g(h) = o(󰀂h󰀂p ) quand h → 0, alors
g(Xn ) = Yn 󰀂Xn 󰀂p pour une suite Yn tendant vers 0 en probabilité.

Corollaire 1.4.1. d = k = 1.
Si la suite de variables aléatoires réelle (Yn ) est asymptotiquement normale,
telle qu’il existe y et σy2 avec
√ L
n(Yn − y) −−−−→ N (0, σy2 )
n→+∞

et si g : R → R est une fonction de classe C 1 alors g(Yn ) est asymptotiquement


normal √ L ′
n(g(Yn ) − g(y)) −−−−→ N (0, σy2 (g (y))2 ).
n→+∞

1.5 Échantillons gaussiens


Définition 1.5.1. Soit X1 , . . . , Xn des variables aléatoires indépendantes iden-
󰁛n
tiquement distribuées de loi N (0, 1). Alors la variable aléatoire Xi2 suit une
i=1
loi appelée loi du khi-deux à n dégrés de liberté, notée χ2 (n).

Proposition 1.5.1. Si T1 ↩→ χ2 (n1 ), T2 ↩→ χ2 (n2 ), T1 et T2 indépendantes,


alors T1 + T2 ↩→ χ2 (n1 + n2 ).

Théorème 1.5.1. Soit X1 , . . . , Xn des variables aléatoires indépendantes de


même loi N (µ, σ 2 ) avec σ 2 > 0.. Alors, nous avons

(n − 1)Sn2
2
↩→ χ2 (n − 1)
σ
où n
1 󰁛󰀃 󰀄2
Sn2 = Xi − X̄n .
n − 1 i=1

8
Définition 1.5.2. Soient X et Y deux variable aléatoires indépendantes sui-
vant respectivement les lois χ2 (n) et χ2 (m). La variable aléatoire YX/n
/m
suit une
loi appelée loi de Fisher-Snedecor à (n, m) dégrés de liberté et notée
F (n, m).
1
Proposition 1.5.2. Si Z ↩→ F (n1 , n2 ) alors ↩→ F (n2 , n1 ).
Z
Définition 1.5.3. Soient X et Y deux variables aléatoires indépendantes sui-
vant respectivement N (0, 1) et χ2 (n). On appelle loi de Student n dégrés
X
de liberté la loi suivie par le rapport Tn = 󰁴 .
Y
n

L’allure de la loi de Student est similaire à celle d’une loi normale centrée-
réduite avec un étalement un peu plus fort, cette différence s’estompant rapi-
dement lorsque n s’accroît et devenant négligeable pour n > 200.
Pour n = 1 la loi de Student T (1) est la loi de Cauchy.

Théorème 1.5.2. Soit X1 , . . . , Xn des variables aléatoires indépendantes de


même loi N (µ, σ 2 ). Alors

n(X n − µ)
↩→ T (n − 1).
Sn

1.6 Problème statistiques


Étant donné le modèle statistique (E, B, {Pθ , θ ∈ Θ}) engendré par une ob-
servation X, nous considérerons dans ce document, trois types de problèmes :
- Estimation ponctuelle : il s’agit de deviner la valeur de θ ou plus
généralement une fonction g(θ) avec g connue, en se basant sur l’obser-
vation X ∼ Pθ . On cherche donc une bonne adéquation du paramètre
d’intérêt par une fonction de l’observation X (indépendante de θ).
- Intervalle de confiance ou estimation ensembliste : ici, on veut
connaître avec une certaine assurance, un endroit où se trouve le para-
mètre d’intérêt en se basant sur l’observation X.
- Test d’hypothèses : Il s’agit par exemple de décider si le paramètre
θ appartient à une partie Θ0 ⊂ Θ ou à Θ1 ⊂ Θ0 = Θ/Θ0 .

9
Chapitre 2

Théorie de la décision

2.1 Introduction
On dispose d’un modèle statistique (E, B, {Pθ , θ ∈ Θ ⊂ Rd }) engendré par
une observation X. On souhaite prendre une décision concernant θ ou plus
généralement g(θ) où g est une fonction définie sur Θ. Une décision statistique
est une action effectuée après observation de X. On note D, l’ensemble des
décisions et D une tribu sur D.
Pour comparer différentes décisions, nous introduisons un outil qui mesure
la perte encourue en prenant une décision d lorsque la valeur du paramètre
inconnu est θ.
Définition 2.1.1. On appelle fonction de perte, toute fonction mesurable L :
D × Θ −→ R+ vérifiant
˜
L(d, θ) = 0 ⇐⇒ d = d(θ)
˜ est une bonne décision.
où d(θ)
Exemple 2.1.1. Estimation ponctuelle.
1. Fonction de perte quadratique :
L(d, θ) = (d − θ)2 .
󰀏 󰀏p
󰀏 󰀏
2. L(d, θ) = w(θ)󰀏d − θ󰀏 où p ≥ 1 et w(·) est une fonction poids.
Exemple 2.1.2. Test d’hypothèses. Soient Θ0 et Θ1 deux sous-ensembles
de Θ tels que Θ0 ∩ Θ1 = ∅. Le problème est de choisir une des hypothèses
H0 : θ ∈ Θ0 ou H1 : θ ∈ Θ1 . L’espace des décisions est D = {0, 1} où
0 correspond au choix de H0 et 1 à celui de H1 . La pénalité associée à une
décision est 0 si la réponse est correcte et 1 sinon. On a donc la fonction de
perte suivante :
L(d, θ) = 1Id=0 1Iθ∈Θ1 + 1Id=1 1Iθ∈Θ0 .

10
Définition 2.1.2. On appelle règle de décision pure ou procédure, une
fonction mesurable δ : (E, B) −→ (D, D).
Utiliser la procédure δ(X) signifie que si X = x, d = δ(x) est la décision prise.
Ainsi, une règle de décision fournit une façon de décider pour toute observation
possible. Une règle de décision est une quantité aléatoire car dépendant de la
variable aléatoire X.
Définition 2.1.3. Une règle de décision mixte (ou aléatoire) est une appli-
cation mesurable δ définie sur E × D à valeurs dans l’ensemble des lois de
probabilité sur D.
Pour tout A ∈ D, δ(·, A) est une fonction borélienne et pour tout x ∈ E,
δ(x, ·) est une mesure de probabilité sur (D, D). Pour choisir une décision
d ∈ D, lorsqu’une règle aléatoire δ est utilisée, nous avons besoin de simuler
un élément de D selon la loi de probabilité δ(x, ·).
L’ensemble des règles mixtes contient les règles pures. En effet, si δ est une
règle de décision pure, nous avons

δ(x, {d}) = 1I{a} (δ(x)) ∀d ∈ D ∀x ∈ E.

L’élargissement de la notion de règle de décision pure à la notion de règle de


décision aléatoire a essentiellement un intérêt mathématique. L’ensemble des
règles aléatoire est en effet convexe et certains problèmes d’optimisation sont
plus faciles à résoudre sur des ensembles convexes. Cependant, du point de vue
pratique, il est sans intérêt de fournir au demandeur d’une étude statistique
une réponse aléatoire.

2.2 Classement des règles de décision


2.2.1 Risque
Le risque d’une règle de décision pure est défini par :
Définition 2.2.1. La fonction de risque de la procédure δ est définie

R(δ, θ) = Eθ [L(δ(X), θ)] .

Eθ désigne l’espérance mathématique lorsque la probabilité est Pθ .


R(δ, θ) est une mesure de la performance de la procédure δ(X).
Exemple 2.2.1. Risque quadratique

R(δ, θ) = Eθ (δ(X) − g(θ))2


= varθ (δ(X)) + (Eθ (δ(X) − g(θ))2

11
Exemple 2.2.2. Le risque pour une procédure δ est donnée par
R(δ, θ) = Pθ (δ(X) = 0)1Iθ∈Θ1 + Pθ (δ(X) = 1)1Iθ∈Θ0
󰀫
Pθ (δ(X) = 0) si θ ∈ Θ1
=
Pθ (δ(X) = 1) si θ ∈ Θ0
La fonction de perte pour une règle de décision aléatoire δ est définie par :
󰁝
L(δ, θ, x) = L(a, θ)dδ(x, a).
D

Définition 2.2.2. Le risque d’une règle aléatoire δ est défini par


󰁝 󰁝
Rδ (θ) = L(a, θ)dδ(x, a)dPθ .
E D

Pour comparer deux procédures δ1 et δ2 données, on peut introduire la


relation d’ordre suivante.
Définition 2.2.3. On dit que δ1 est préférable à δ2 si R(δ1 , θ) ≤ R(δ2 , θ), pour
toute valeur de θ ∈ Θ, l’inégalité étant stricte pour au moins une valeur de θ.
Malheureusement, la relation d’ordre ci-dessus est une relation d’ordre partiel.
Exemple 2.2.3. On suppose que X ↩→ N (θ, 1) avec θ ∈ R, g(θ) = θ et
L(d, θ) = (d − θ)2 . Soient δ1 (X) = X et δ2 (X) = 1. Puisque
R(δ1 , θ) = Eθ (X − θ)2 = varθ (X) = 1
R(δ2 , θ) = Eθ (1 − θ)2 = (1 − θ)2
nous avons alors
R(δ1 , θ) − R(δ2 , θ) = θ(2 − θ).
Si θ ∈] − ∞, 0[∪]2, +∞ alors
R(δ1 , θ) < R(δ2 , θ).
Si θ ∈]0, 2[ alors
R(δ1 , θ) > R(δ2 , θ).
Les procédures δ1 et δ2 ne sont pas comparables.
Définition 2.2.4. La procédure δ ∗ est dite optimale si pour tout θ ∈ Θ
R(δ ∗ , θ) = inf R(δ, θ). (2.2.1)
δ

L’infimum est pris sur l’ensemble de toutes les procédures δ possibles.


D’après l’Exemple 2.2.3, la procédure δ ∗ vérifiant (2.2.1) n’existe pas toujours.
Dans ce cours, nous considérons trois concepts d’optimalité : admissibilité,
l’approche minimax et l’approche bayésienne.

12
2.2.2 Règles admissibles
Définition 2.2.5. Une règle de décision δ ∗ est dite admissible s’il n’existe
aucune autre règle qui lui soit préférable.

Remarque 2.2.1. Une règle de décision non admissible ne devrait pas être
considérée du tout. Cependant, une règle de décision admissible n’est pas né-
cessairement une "bonne" décision.

Proposition 2.2.1. i) Si δ ∗ est optimal alors δ ∗ est admissible.


ii) Si δ ∗ est optimal et δ0 est admissible alors δ0 est aussi optimal. δ0 est
équivalent à δ ∗ .
iii) S’il existe deux règles de décision admissibles qui ne soient pas équiva-
lentes alors il n’existe aucune règle de décision optimal.

Exemple 2.2.4. Pour n ≥ 2, soit X1 , . . . , Xn des variables aléatoires indépen-


dantes identiquement distribuées avec µ = E(X1 ) et var(X1 ) = 1. Soit la fonc-
tion de perte L(d, θ) = (d − θ)2 , δ1 (X1 , . . . , Xn ) = X n et δ2 (X1 , . . . , Xn ) = X1 .
Alors
1
∀θ ∈ Θ, R(δ1 , θ) = R(δ2 , θ) = 1.
n
Par suite δ2 n’est pas une procédure admissible.

Exemple 2.2.5. Posons L(d, θ) = |d − θ|p avec p ≥ 1. Posons δ(X) = θ0


où θ0 est une valeur fixée. Supposons que Pθ ≪ Pθ0 ∀θ ∈ Θ. Alors δ(X) est
admissible. En effet, supposons qu’il existe une procédure δ1 (X) préférable à
δ(X). Alors, nous avons

Eθ0 |θ0 − δ1 (X)|p ≤ Eθ0 |θ0 − δ(X)|p = 0.

Ainsi,
δ1 (X) = θ0 Pθ0 − p.s,
c’est à dire,

Pθ (δ1 (X) ∕= θ0 ) = 0 ∀θ.


Par suite, ∀θ ∈ Θ, δ1 (X) = θ0 Pθ0 - p.s et R(δ1 , θ) = R(δ, θ) pour tout θ. Ce
qui est absurde ; δ(X) est une procédure admissible.

2.2.3 Approche minimax


L’approche minimax vise à minimiser le risque dans le cas le moins favo-
rable. Ce critère de minimaxité est une assurance contre le pire. De plus, iI
permet d’instaurer sur l’espace des procédures une relation d’ordre total.

13
Définition 2.2.6. Pour une procédure δ, le risque maximal sur Θ est définie
par
sup R(δ, θ).
θ∈Θ

Définition 2.2.7. On dit que δ1 est préférable à δ2 si

sup R(δ1 , θ) < sup R(δ2 , θ).


θ∈Θ θ∈Θ

Définition 2.2.8. On appelle risque minimax la quantité :

R̄ = inf sup R(δ, θ).


δ θ

Une procédure δ ∗ est dite minimax si

sup R(δ∗, θ) = R̄.


θ∈Θ

Exemple 2.2.6. Θ = R, L(d, θ) = (d − θ)2 , X ↩→ N (θ, 1).

D = {δk = kX, k ≥ 1}.


󰀫
1 si k = 1
sup R(δk , θ) = sup(θ2 (k − 1)2 + k 2 ) =
θ∈R θ∈R +∞ si k ∕= 1
inf sup R(δk , θ) = 1 = sup R(δ1 , θ).
k∈R+ θ∈R θ∈R

Par suite, δ1 est minimax.

2.2.4 Approche bayésienne


L’approche bayésienne se différencie de l’approche classique dans le sens
où le paramètre θ n’est plus considéré comme étant totalement inconnu. Elle
propose de prendre en compte ce que l’on sait sur le paramètre θ avant l’obser-
vation x. Cette information a priori fait du paramètre θ une variable aléatoire
dont la loi de probabilité Π définie sur l’espace probabilisable (Θ, C), où C est
une tribu sur Θ, est appelée loi a priori.
Dans la suite, on supposera que Π admet une densité par rapport à une mesure
σ-finie ν :
dΠ(θ) = π(θ)dν(θ).

Définition 2.2.9. On appelle modèle bayésien la donnée d’un modèle (E, B, {Pθ , θ ∈
Θ}) et d’une loi a priori Π sur le paramètre θ.

14
On supposera le modèle dominé par une mesure σ-finie µ. D’après le Théo-
rème de Radon-Nikodym, Pθ admet une densité par rapport à µ :
dPθ
f (x | θ) = (x).

La fonction θ 󰀁→ f (x | θ) est appelée vraisemblance du modèle. C’est la loi
conditionnelle de X sachant θ.
La loi jointe de (X, θ) est :

ϕ(x, θ) = π(θ)f (x | θ).

La loi marginale de X est


󰁝
m(x) = π(θ)f (x | θ)dν(θ).
Θ

La loi a posteriori de θ est donnée par


π(θ)f (x | θ) π(θ)f (x | θ)
π(θ | x) = 󰁕 = .
Θ
π(θ)f (x | θ)dν(θ) m(x)

C’est l’actualisation de la loi a priori π(θ) au vu de l’observation x. La fonction


m(x) est une constante de normalisation de la loi a priori.
Définition 2.2.10. Le risque bayésien d’une procédure δ est défini par

r(π, δ) = Eπ (R(δ, θ)).

Définition 2.2.11. Le risque a posteriori d’une procédure δ est défini par :

ρ(π, δ | x) = Eπ (L(δ(X), θ) | X = x).

Théorème 2.2.1. Une règle de décision δ ∗ minimisant le risque r(π, δ) est


obtenu par sélection, pour chaque x ∈ E, de la valeur de δ ∗ (x) qui minimise
le risque a posteriori ρ(π, δ | x).
Démonstration. En effet,
󰁝 󰁝
r(π, δ) = L(δ(x), θ)f (x | θ)π(θ)dν(θ)dµ(x)
Θ E
󰁝 󰀓󰁝 󰀔
= L(δ(x), θ)π(θ | x)dν(θ) m(x)dµ(x)
󰁝E Θ

= ρ(π, δ | x)m(x)dµ(x)
E

15
Ce résultat mène à la définition suivante :

Définition 2.2.12. Une règle de décision de Bayes associée à une loi a priori
π et une fonction de perte L est une procédure δ π minimisant r(π, δ). Pour
chaque x ∈ E, cette règle de décision est définie par

δ π = arg min ρ(π, d | x).


d

Exemple 2.2.7. La perte quadratique : L(d, θ) = (d − θ)2 . Comme

ρ(π, d | x) = Eπ (θ2 | x) − 2dEπ (θ | x) + d2 .

Le minimum du risque a posteriori est atteint pour δ π (x) = Eπ (θ | x). La règle


de Bayes associée à la loi a priori π et à la perte quadratique est la moyenne
a posteriori
δ π (x) = Eπ (θ | x).

Exemple 2.2.8. La perte 0 − 1. La pénalité associée à une règle de décision


δ est 0 si la réponse est correcte et 1 sinon.
Soit le test de H0 : θ ∈ Θ0 contre H1 : θ ∕∈ Θ0 . Alors D = {0, 1} où 0 représente
l’acceptation de H0 et 1 est l’acceptation de H1 . La fonction de perte est donnée
par
L(δ(X), θ) = 1Iδ(X)=0 1Iθ∈Θ1 + 1Iδ(X)=1 1Iθ∈Θ0 .
Le risque a postériori est

ρ(π, d | X) = 1Iδ(X)=0 Pπ (θ ∈ Θ1 | X) + 1Iδ(X)=1 Pπ (θ ∈ Θ0 | X).

La procédure de Bayes est donnée par


󰀫
1 si Pπ (θ ∈ Θ1 | X) > Pπ (θ ∈ Θ0 | X)
δ π (X) =
0 sinon

2.3 Biais et absence de biais


Toutes les procédures ne présentant pas le même interêt, il sera intéressant
d’étudier une classe particulière de procédures (possédant une ou plusieurs
propriétés intéressantes), et de chercher dans cette classe si elle existe une
procédure qui soit optimale.

Définition 2.3.1. Une règle de décision δ(X) est dite sans biais si

Eθ (L(δ(X), θ) ≤ Eθ (L(δ(X), θ )

pour tout θ, θ ∕= θ.

16
Remarque 2.3.1. En d’autre terme,

min Eθ (L(δ(X), v) = Eθ (L(δ(X), θ)


v∈Θ

c’est à dire que δ(X) est en moyenne proche du paramètre inconnu θ que de
tout autre élément de Θ.

Exemple 2.3.1. On considère le risque quadratique :

h(v) = Eθ L(δ(X), v) = Eθ (δ(X) − v)2 = v 2 − 2vEθ (δ(X)) + Eθ (δ 2 (X))



h (v) = 2v − 2Eθ (δ(X)) = 0 ⇔ v = Eθ (δ(X))
′′
h (v) = 2 > 0.

Le minimum est donc atteint en v = Eθ (δ(X)). Ainsi, dans le cas de la perte


quadratique, la procédure δ(X) est dite sans biais si Eθ (δ(X)) = θ.

17
Chapitre 3

Exhaustivité

3.1 Statistiques exhaustives


Une des premières choses à faire quand on étudie les données est de réduire
le nombre des données sans pour autant perdre de l’information utile. Ainsi,
on veut savoir s’il est possible de remplacer l’observation X par une fonction
T (X) plus simple mais qui contient suffisamment d’informations.

Définition 3.1.1. On appelle statistique T (X), toute fonction mesurable ne


dépendant que de l’observation X.

Définition 3.1.2. Soit (E, B, {Pθ , θ ∈ Θ}) un modèle statistique engendré par
une observation X et T (X) une statistique. T (X) est dite exhaustive pour θ
si la loi conditionnelle de X sachant T (X) ne dépend pas de θ.

Remarque 3.1.1. Cela signifie que sachant T (X), la connaissance de X n’ap-


porte pas d’information supplémentaire sur le paramètre inconnu θ. Toute l’in-
formation relative à θ est contenue dans T (X).

Exemple 3.1.1. Soit X = (X1 , . . . , Xn ) un échantillon de taille n d’une loi de


󰁛 n
Poisson P(θ). Montrons que la statistique T (X) = Xi est une statistique
i=1
exhaustive pour θ.
󰁓
P(X1 = x1 , . . . , Xn = xn , ni=1 Xi = t)
P(X1 = x1 , . . . , Xn = xn /T (X) = t) = 󰁓
P( ni=1 Xi = t)
󰁓
P(X1 = x1 , . . . , Xn−1 = xn−1 , Xn = t − n−1i=1 xi )
= 󰁓n
P( i=1 Xi = t)
󰁔n−1 󰁓
i=1 P(Xi = 󰁓 xi )P(Xn = t − n−1 i=1 xi )
= n
P( i=1 Xi = t)

18
󰀓󰁔 󰀔󰀕 t−
󰁓n−1
x
󰀖
n−1 e−θ θ xi e−θ θ󰁓 i=1 i
i=1 xi ! (t− n−1 x
i=1 i )!
= e−nθ (nθ)t
t!
t!
= 󰁓n−1
nt x 1 ! . . . xn−1 !(t − i=1 xi )!

Comme X1 , . . . ,󰁓
Xn sont indépendantes, identiquement distribuées de loi P(θ)
alors T (X n ) = ni=1 Xi suit une loi de Poisson P(nθ). La probabilité condi-
tionnelle est indépendante de θ, donc T (X n ) est une statistique exhaustive
pour θ.

Théorème 3.1.1. (Critère de factorisation)


Soit (E, B, {Pθ , θ ∈ Θ}) un modèle statistique engendré par une observation X.
On suppose que ce modèle est dominé par une mesure σ-finie µ. La statistique
T (X) à valeurs dans (V, V) est dite exhaustive pour θ si et seulement si

dPθ (x)
f (x, θ) = = g(T (x), θ)h(x)

pour des fonctions boréliennes g : V × Θ → R+ et h : E → R+ .

La démonstration de ce théorème est difficile dans le cas général. On donne ici


une version le cas où la famille {Pθ , θ ∈ Θ} est composée de lois discrètes.

Démonstration. Condition nécessaire.


Supposons S exhaustive. Alors Pθ (X = x | T (X) = T (x)) ne dépend pas
de θ. On peut écrire

f (x, θ) = Pθ (X = x)
= Pθ ({X = x} ∩ {T (X) = T (x)})
= Pθ (T (X) = T (x))Pθ (X = x | T (X) = T (x))

Il suffit de poser

g(T (x), θ) = Pθ (T (X) = T (x))


h(x) = Pθ (X = x | T (X) = T (x))

Condition suffisante. On suppose que

Pθ (X = x) = g(T (x), θ)h(x).

19
On a
Pθ (X = x, T (X) = t)
Pθ (X = x | T (X) = t) =
Pθ (T (X) = t)
󰀻
󰁁
󰁁 0 si T (x) ∕= t
󰀿
Pθ (X = x)
= 󰁛 si T (x) = t
󰁁
󰁁 P θ (X = x)
󰀽
y:T (y)=t
󰀻
󰁁
󰁁 0 si T (x) ∕= t
󰀿
g(T (x), θ)h(x)
= 󰁛 si T (x) = t
󰁁
󰁁 g(T (y), θ)h(y)
󰀽
y:T (y)=t
󰀻
󰁁
󰁁 0 si T (x) ∕= t
󰀿
h(x)
= 󰁛 si T (x) = t
󰁁
󰁁 h(y)
󰀽
y:T (y)=t

qui ne dépend pas de θ. La statistique T (X) est donc exhaustive pour θ.


Exemple 3.1.2. 1. Soit X n = (X1 , . . . , Xn ) un échantillon de taille n
d’une loi de Poisson P(θ). Nous avons
n 󰁓n
󰁜 e−nθ θ i=1 xi
f (x1 , . . . , xn , θ) = f (xi , θ) = 1INn (x1 , . . . , xn ).
i=1
x 1 ! . . . x n !
n
󰁛
La statistique T (X1 , . . . , Xn ) = Xi est une statistique exhaustive.
i=1
󰁱 󰁲
2. Considérons le modèle uniforme U[0,θ] , θ > 0 . La densité de l’échan-
tillon (X1 , . . . , Xn ) est
1
f (x1 , . . . , xn , θ) = 1I max x ≤ θ} 1I{ min x ≥ 0} .
θn {1≤i≤n i
1≤i≤n
i

La statistique T (X1 , . . . , Xn ) = max Xi est une statistique exhaustive.


1≤i≤n

Proposition 3.1.1. Soient T1 et T2 deux statistiques telles que T1 = ϕ(T2 )


p.s où ϕ est une fonction mesurable. Si T1 est exhaustive pour θ alors T2 est
exhaustive pour θ.
Démonstration. Si T1 est exhaustive pour θ alors le théorème de factorisation
implique
f (x, θ) = g(T1 (x), θ)h(x).

20
Comme T1 = ϕ(T2 ), on en déduit que

f (x, θ) = g ∗ (T2 (x), θ)h(x)

où g ∗ (T2 (x), θ) = g(ϕ(T2 (x)), θ).


Le théorème de factorisation permet de conclure.

3.2 Statistiques exhaustives minimales


Définition 3.2.1. La statistique T ∗ est dite exhaustive minimale si elle est
exhaustive pour θ et si pour toute autre statistique exhaustive T , il existe une
fonction mesurable ϕ telle que T ∗ = ϕ(T ) p.s.
Remarque 3.2.1. Une statistique exhaustive minimale est une statistique qui
a supprimé le maximum d’information ne concernant pas θ (conservé toute
l’information sur θ). Une réduction supplémentaire engendrerait alors une
perte d’information sur θ.
Proposition 3.2.1. Deux statistiques exhaustives minimales pour θ sont en
liaison bijective.
Démonstration. Considérons deux statistiques exhaustives minimales T et T ∗ .
Alors il existe deux fonctions mesurables ϕ et ϕ∗ telles que T = ϕ(T ∗ ) p.s
et T ∗ = ϕ(T ) p.s. Alors pour tout x ∈ E, T (x) = ϕ(T ∗ (x)) p.s et T ∗ (x) =
ϕ(T (x)) p.s. Ceci implique que ϕ−1 = ϕ∗ .
Théorème 3.2.1. Soit T une statistique telle l’équivalence suivante est véri-
fiée :
f (x, θ)
T (x) = T (y) ⇔ le rapport ne dépend pas de θ.
f (y, θ)
Alors T est une statistique exhaustive minimale.
Démonstration. 1. Montrons que T est exhaustive. Pour tout z ∈ T (E),
considérons T −1 ({z}) = {x : T (x) = z}. Ainsi pour tout x ∈ E, on
associe xz pour un z donné. Ainsi, pour tout x, par construction T (x) =
f (x, θ)
T (xT (x) ). Alors le rapport h(x) = ne dépend pas de θ. Ainsi,
f (xT (x) )

f (x, θ) = h(x)f (xT (x) , θ) = h(x)f (T (x), θ)

et d’après le théorème de factorisation, T est exhaustive.


2. Montrons que T est minimale. Soit T ∗ une autre statistique exhaustive
pour θ. Alors, nous pouvons écrire
′ ′
f (y, θ) = g (T ∗ (y), θ)h (y) ∀y.

21
Soient x et y tels que T ∗ (x) = T ∗ (y). Alors

f (x, θ) h (x)
= ′
f (y, θ) h (y)
ne dépend pas de θ. Donc T (x) = T (y). Ce qui implique que T est une
fonction de T ∗ . La statistique T est donc minimale.

Exemple 3.2.1. Soit (X1 , . . . , Xn ) un échantillon issu de la loi normale N (µ, σ 2 )


avec µ et σ 2 inconnus. Nous avons
1 󰀓 n(x̄ − µ)2 + ns2 󰀔
n x
f (x1 , . . . , xn , µ, σ 2 ) = n exp −
(2πσ 2 ) 2 2σ 2
n n
1󰁛 1󰁛 󰁛
avec x̄n = xi et s2x = n (xi − x̄n )2 . Alors
n i=1 n i=1 i=1

f (x1 , . . . , xn , µ, σ 2 ) 󰀓 n(x̄n − µ)2 − n(ȳn − µ)2 + ns2 − ns2 󰀔


x y
2
= exp − 2
f (y1 , . . . , yn , µ, σ ) 2σ

ne dépend pas de µ si et seulement si x̄n = ȳn . Par suite X̄n est une statistique
exhaustive minimale pour µ.

3.3 Statistiques libres


Définition 3.3.1. La statistique T est libre si sa loi sous Pθ ne dépend pas de
θ.
Remarque 3.3.1. Cela signifie que T n’apporte pas d’informations sur θ alors
qu’une statistique exhaustive conserve toute l’information.
Remarque 3.3.2. Une statistique libre est à l’opposée d’une statistique ex-
haustive : elle ne contient aucune information sur le paramètre θ. Une statis-
tique libre contient donc de l’information parasite par rapport à une décision
sur le paramètre. Une bonne décision statistique ne doit pas dépendre, même
en partie de statistique libre.

3.4 Statistiques totales ou complètes


Définition 3.4.1. La statistique T (X) est totale (ou complète) si pour toute
fonction borélienne g telle que E(g(T (X))) < ∞, on ait

{∀ θ ∈ Θ, Eθ [g(T )] = 0} =⇒ g(T ) = 0 Pθ − p.s.

22
Proposition 3.4.1. Toute statistique exhaustive et totale T est une statistique
exhaustive minimale.
Démonstration. Soit S une statistique exhaustive minimale. Il existe une fonc-
tion mesurable ψ telle que S = ψ(T ). Posons
Y = T − Eθ (T /S).
Alors, il existe une fonction mesurable φ telle que Y = φ(T ) et on a pour tout
θ∈Θ
Eθ (Y ) = Eθ (φ(T )) = 0.
Comme T est totale, on a φ(T ) = 0, Pθ - p.s et T = Eθ (T /S). Ainsi T est fonc-
tion d’une statistique exhaustive minimale. Par conséquent T est exhaustive
minimale.

󰁓n 3.4.1. Montrons que pour le modèle de Bernouilli, la statistique


Exemple
S = i=1 Xi est totale. Soit g une fonction numérique bornée telle que pour
tout θ ∈]0, 1[,
󰁛n 󰀕 󰀖k 󰀕 󰀖
θ θ
0 = Eθ (g(S)) = (1 − θ) n k
Cn g(k) n
= (1 − θ) Q .
k=0
1−θ 1−θ
La fonction x → Q(x) est un polynôme de dégré n, nul pour x ∈]0, ∞[. Les
coefficients de ce polynôme sont donc nuls. Cela implique que g(k) = 0 pour
tout k ∈ {0, . . . , n}. On en déduit que g(S) = 0. La statistique S est donc
totale.
Une statistique exhaustive et totale est une statistique qui s’est débarrassée
de toute statistique libre : c’est le Théorème de Basu.
Théorème 3.4.1. Théorème de Basu.
Soient S(X) et T (X) deux statistiques avec S(X) exhaustive et totale. Si T (X)
est libre, alors S(X) et T (X) sont Pθ -indépendantes pour tout θ ∈ Θ.
Démonstration. La liberté de T (X) est équivalente à :
pour toute fonction h, positive Eθ (h(T (X))) = E(h(T (X))). On a aussi pour
tout θ
Eθ (h(T (X))) = Eθ (Eθ (h(T (X))/S(X)))
= Eθ (E(h(T (X))/S(X)))
Eθ (h(T (X))/S(X)) ne dépend pas de θ puisque S(X) est exhaustive.
Par suite, nous obtenons
Eθ (E(h(T (X))/S(X)) − E(h(T (X)))) = 0 =⇒ E(h(T (X))/S(X)) = E(h(T (X)))
pour toute fonction h, positive. Ainsi, T (X) et S(X) sont indépendantes.
Théorème 3.4.2. Soient (E, B, {Pθ , θ ∈ Θ}) un modèle homogène et S(X) et
T (X) deux statistiques. Si S(X) est une statistique exhaustive pour θ et S(X)
et T (X) sont indépendantes, alors T (X) est une statistique libre.

23
3.5 Famille exponentielle
Définition 3.5.1. Soit (E, B, {Pθ , θ ∈ Θ}) un modèle statistique dominé par
une mesure σ-finie µ. Le modèle est dit exponentiel s’il existe un entier k tel
que
󰀣 k 󰀤
dPθ 󰁛
f (x, θ) = (x) = h(x) exp gj (θ)Tj (x) − C(θ) (3.5.1)
dµ j=1

• Tj : E −→ R mesurable, indépendante de θ, pour j = 1, . . . , k ;


• gj : Θ −→ R, pour j = 1, . . . , k ;
󰀓 󰁝 +∞ 󰀓󰁛 k 󰀔 󰀔
• C(θ) = log h(x) exp gj (θ)Tj (x) dµ(x) ;
−∞ j=1

• h : E −→ R mesurable, strictement positive et indépendante de θ.

La représentation (3.5.1) n’est pas unique. En effet, il suffit par exemple de


changer la mesure dominante pour changer la représentation.
Pour tout A ∈ B, posons
󰁝
ν(A) = h(x)dµ(x).
A

Alors, nous avons


󰀣 k 󰀤
dPθ 󰁛
(x) = exp gj (θ)Tj (x) − C(θ) .
dν j=1

Cette représentation implique qu’il existe une mesure non nulle ν telle que
dPθ
(x) > 0 ∀x ∈ E, ∀θ ∈ Θ

Exemple 3.5.1. Considérons la famille de lois uniformes {Pθ = U (0, θ), θ >
0}. Si {U (0, θ), θ > 0} est une famille exponentielle, alors il existe une mesure
non nulle ν telle que ∀x, ∀θ,
dPθ
(x) > 0.

Pour tout t > 0, il existe θ < t tel que Pθ ([t, +∞[) = 0. Ce qui implique alors
ν([t, +∞[) = 0. Aussi, pour tout t ≤ 0, Pθ ((−∞, t]) = 0. Ce qui implique
alors ν((−∞, t]) = 0. Par suite, nous avons ν ≡ 0. Ainsi, la famille {Pθ =
U (0, θ), θ > 0} n’est pas une famille exponentielle.

24
Le théorème de factorisation permet d’établir le résultat suivant :

Proposition 3.5.1. La statistique (T1 (X), . . . , Tk (X)) est exhaustive pour θ.

Proposition 3.5.2. Considérons l’ensemble

C = {(g1 (θ), . . . , gk (θ)) : θ ∈ Θ} ⊂ Rk .

Supposons que dim(C) = k. Alors la statistique (T1 (X), . . . , Tk (X)) est totale.

Posons λj = gj (θ) et notons λ = (λ1 , . . . , λk ). Alors, on a C(θ) = K(λ). La


fonction ci-dessus
󰀣 k 󰀤
󰁛
f ∗ (x, λ) = K(λ)h(x) exp λj Tj (x)
j=1

est appelée forme canonique du modèle exponentiel. L’espace


󰀫 󰁝 󰀣 k 󰀤 󰀬
󰁛
Λ = λ ∈ Rk : D(λ) := exp λj Tj (x) h(x)dx < +∞
E j=1

est appelé espace naturel des paramètres.

Théorème 3.5.1. Supposons que l’intérieur de Λ est non vide. Alors la sta-
tistique T (X) = (T1 (X), . . . , Tk (X)) est totale.

Exemple 3.5.2. Modèle gaussien : X ↩→ N (µ, σ 2 ).


󰀕 󰀖
2 1 1 2
f (x, µ, σ ) = √ exp − 2 (x − µ)
2πσ 2σ
󰀕 󰀖 󰀕 󰀖
1 µ2 x2 µx
=√ exp − 2 exp − 2 + 2 .
2πσ 2σ 2σ σ

Nous obtenons donc


µ 1
h(x) = 1, g1 (µ, σ 2 ) = 2
, g2 (µ, σ 2 ) = − 2 , T1 (x) = x, T2 (x) = x2 .
σ 2σ
µ 1 λ1 1
En posant λ1 = 2
, λ2 = − 2 soit µ = − , σ2 = − .
σ 2σ 2λ2 2λ2
Ainsi, nous obtenons la forme canonique suivante
󰁵 󰀕 2󰀖
−λ2 λ1 󰀃 󰀄
f (x, λ1 , λ2 ) = exp 2
exp λ1 x + λ2 x2 .
π 4λ2

25
3.6 Information de Fisher
On considère un modèle statistique (E, B, {Pθ , θ ∈ Θ}) engendré par une
observation X. On suppose que ce modèle est dominé par une mesure σ-finie
µ et on note
dPθ (x) = f (x, θ)dµ(x)
(H1 ) Θ est un ouvert non vide de Rd
(H2 ) Le modèle est homogène
󰀳 ∂f (x,θ) 󰀴
∂θ1 󰀓 ∂ 2 f (x, θ) 󰀔
󰁅
(H3 ) ∇θ f (x, θ) = 󰁃 .. 󰁆
et ∇ 2
existent ∀x ∈
. 󰁄 f (x, θ) =
∂θ ∂θ
i j 1≤i,j≤d
∂f (x,θ)
∂θd
E, ∀θ ∈ Θ.
󰁝
(H4 ) Pour tout B ∈ B, l’application θ 󰀁→ f (x, θ)dµ(x) est dérivable sous
B
le signe d’intégration par rapport aux composantes de θ et on a
󰁝 󰁝
∂ ∂f (x, θ)
f (x, θ)dµ(x) = dµ(x) j = 1, . . . , d
∂θj B B ∂θj
󰁝
(H5 ) Pour tout B ∈ B, l’application θ 󰀁→ f (x, θ)dµ(x) est deux fois déri-
B
vable sous le signe d’intégration par rapport aux composantes de θ et
on a :
󰁝 󰁝 2
∂2 ∂ f (x, θ)
f (x, θ)dµ(x) = dµ(x) i, j ∈ {1, . . . , d}
∂θi ∂θj B B ∂θi ∂θj

Définition 3.6.1. On appelle score le vecteur


󰀳 ∂ ln f (X,θ) 󰀴
∂θ1
󰁅
S(X, θ) = ∇ ln(f (X, θ) = 󰁃 .. 󰁆
. 󰁄.
∂ ln f (X,θ)
∂θd

Définition 3.6.2. On appelle information de Fisher au point θ la matrice de


variance-covariance du
󰀕 󰀗 󰀘󰀖
∂ ln(f (X, θ)) ∂ ln(f (X, θ))
I(θ) = Eθ
∂θi ∂θj i,j=1,...,d

Définition 3.6.3. Un modèle (E, B, {Pθ , θ ∈ Θ ⊆ Rd }) est dit régulier si les


hypothèses H1 , H2 , H3 et H4 sont vérifiées et la matrice d’information de fisher
I(θ) existe et est une matrice définie positive pour chaque θ ∈ Θ.

26
Proposition 3.6.1. Soit le modèle statistique (E, B, {Pθ , θ ∈ Θ ⊆ Rd }) telle
que les hypothèses H1 , H2 , H3 et H5 sont vérifiées. Alors, on a
󰀕 󰀗 2 󰀘󰀖
∂ ln(f (X, θ))
I(θ) = − Eθ .
∂θi ∂θj i,j=1,...,d

Démonstration. Pour tous i, j ∈ {1, . . . , d}, nous avons :


󰀗 󰀘
∂ 2 ln(f (X, θ)) ∂ ∂ ln(f (X, θ))
=
∂θi ∂θj ∂θi ∂θj
󰀗 󰀘
∂ 1 ∂f (X, θ)
=
∂θi f (X, θ) ∂θj
1 ∂ 2 f (X, θ) 1 ∂f (X, θ) 1 ∂f (X, θ)
= −
f (X, θ) ∂θi ∂θj f (X, θ) ∂θi f (X, θ) ∂θj
1 ∂ 2 f (X, θ) ∂ ln(f (X, θ)) ∂ ln(f (X, θ))
= − .
f (X, θ) ∂θi ∂θj ∂θi ∂θj

Démonstration. Puisque
󰀗 󰀘 󰁝 2
1 ∂ 2 f (X, θ) ∂ f (x, θ) ∂2
Eθ = dx = 1 = 0,
f (X, θ) ∂θi ∂θj E ∂θi ∂θj ∂θi ∂θj

Remarque 3.6.1. Soit T (X) une statistique et on note PθT la loi de probabilité
de T (X). On suppose que PθT est dominée par une mesure σ-finie ν et on a
dPθ (t) = fT (t, θ)dν(t). Si fT (·, θ) vérifie les hypothèses H1 , H2 , H3 et H5 ,
l’information de Fisher apportée par T (X) sur le paramètre θ est définie par
I T (θ) = (IijT (θ))i,j=1,...,d

󰀗 󰀘 󰀗 2 󰀘
∂ ln(fT (T, θ)) ∂ ln(fT (T, θ)) ∂ ln(fT (T, θ))
IijT (θ) = Eθ = −Eθ .
∂θi ∂θj ∂θi ∂θj
Proposition 3.6.2. 1 I(θ) est une matrice symétrique positive.
2 Additivité. Si X et Y sont deux statistiques indépendantes, on a, en
notant IX (θ), IY (θ) et I (X,Y ) (θ) les informations fournies par X, Y et
le couple (X, Y ) respectivement :
I (X,Y ) (θ) = IX (θ) + IY (θ)
Ainsi, l’information de Fisher fournie par un échantillon (X1 , . . . , Xn )
est
In (θ) = nIX1 (θ)

27
Proposition 3.6.3. 3 Soit T (X) une statistique et I T (θ) la matrice d’in-
formation de Fisher associée à T (X). Alors

I T (θ) = 0 ∀θ ∈ Θ ⇐⇒ T (X) est libre.

4 Dégradation de l’information : Soit T (X) une statistique et I T (θ)


la matrice d’information de Fisher associée à T (X). Alors IT (θ) ≤ I(θ),
c’est à dire I(θ) − IT (θ) est symétrique positive. De plus,

IT (θ) = I(θ) ⇐⇒ T (X) est exhaustive

Proposition 3.6.4. Un modèle exponentiel de densité


󰀓󰁛
k 󰀔
f (x, θ) = h(x) exp θj Tj (x) + A(θ) θΘ
j=1

où Θ est un ouvert de Rk est identifiable si I(θ) est inversible pour tout θ ∈ Θ.

Théorème 3.6.1. Soit θ ∈ R. Si les hypothèses H1 , H2 et H3 sont vérifiées


et si en plus on peut dériver K(θ0 , θ) au moins deux fois par rapport à θ sous
le signe intégration alors

∂ 2 K(θ0 , θ)
|θ=θ0 = Iij (θ0 )
∂θi ∂θj

où I(θ0 ) est l’information de Fisher.

28
Chapitre 4

Estimateurs

4.1 Définitions
On considère un échantillon󰀳 Xn ) issu de la loi Pθ avec θ ∈ Θ ⊆ Rd .
(X1 , . . . ,󰀴
g1 (θ)
󰁅 .. 󰁆
L’objectif est d’estimer g(θ) = 󰁃 . 󰁄 où g est une application définie sur
gp (θ)
R à valeurs dans R
d p

Définition 4.1.1. On appelle estimateur de g(θ), toute statistique θn∗ = θ∗ (X1 , . . . , Xn )


à valeurs dans g(Θ).

On a 󰀳 󰀴

θn,1
θn∗ = 󰁃 ... 󰁄 .
󰁅 󰁆

θn,p
On appelle estimation de g(θ) la valeur θ∗ (x1 , . . . , xn ) calculée à partir d’une
réalisation (x1 , . . . , xn ) de (X1 , . . . , Xn ). Une estimation de g(θ) est une ap-
proximation de g(θ) basée sur l’échantillon (X1 , . . . , Xn ).

4.2 Propriétés des estimateurs


4.2.1 Propriétés asymptotiques
Lorsque l’on augmente la taille de l’échantillon, on augmente la quantité
d’information dont on dispose sur le phénomène aléatoire étudié. Aussi, il est
assez naturel de souhaiter qu’un estimateur ait tendance à s’approcher de la
valeur qu’il estime, lorsque la taille de l’échantillon croît.

29
Définition 4.2.1. Un estimateur θn∗ de g(θ) est dit consistant si
P
θn∗ −−−θ−→ g(θ) ∀θ ∈ Θ.
n→+∞

Définition 4.2.2. Un estimateur θn∗ de g(θ) est dit fortement consistant si


p.s
θn∗ −−−−→ g(θ) ∀θ ∈ Θ.
n→+∞

Définition 4.2.3. Un estimateur θn∗ de g(θ) est dit asymptotiquement normal


si √ L
n (θn∗ − g(θ)) −−−−→ N (0, Σθ ) ∀θ ∈ Θ,
n→+∞

où la matrice Σθ est à déterminer.

4.2.2 Propriétés non asymptotiques


On suppose que le modèle est régulier et que dPθ (x) = f (x, θ)dµ(x), où µ
est une mesure σ-finie.

Définition 4.2.4. Un estimateur sans biais T (X) est régulier si


(i) Eθ (󰀂T (X)󰀂2 ) < +∞ quelque soit θ ∈ Θ
󰁝
(ii) la fonction θ 󰀁−→ T (x)f (x, θ)dµ(x) est dérivable et on a
E
󰁝 󰁝
∂ ∂f (x, θ)
T (x)f (x, θ)dµ(x) = T (x) dµ(x).
∂θ E E ∂θ

Théorème 4.2.1. On suppose que le modèle est régulier. Soit T (X) un esti-
mateur sans biais régulier de g(θ). Alors, on a

V arθ (T (X)) ≥ ∆(θ)I −1 (θ)∆t (θ)

c’est à dire V arθ (T (X)) − ∆(θ)I −1 (θ)∆t (θ) est une matrice symétrique posi-
tive, où V arθ (T (X)) est la matrice de variance-covariance de T (X) et
󰀵 ∂g1 (θ) ∂g1 (θ) 󰀶
∂θ1
··· ∂θd
∆(θ) = 󰀷 ... .. .. 󰀺
󰀹
. . 󰀸
∂gp (θ) ∂gp (θ)
∂θ1
··· ∂θd

La matrice BCR(θ) = ∆(θ)I −1 (θ)∆t (θ) est appelée borne de Cramer-Rao pour
l’estimation sans biais de g(θ).

30
Corollaire 4.2.1. Dans le cas où p = d = 1, pour un modèle régulier, la borne
de Cramer-Rao est 󰀓 󰀔 2
∂g(θ)
∂θ
BCR(θ) = .
I(θ)
Preuve. T (X) est un estimateur sans biais de g(θ) i.e. Eθ (T (X)) = g(θ).
Alors
󰀕 󰀖2 󰀕 󰀖2
∂g(θ) ∂
= Eθ (T (X))
∂θ ∂θ
󰀕󰁝 󰀖2
∂f (x, θ)
= T (x) dx
E ∂θ
󰀕 󰀗 󰀘󰀖2
∂ ln f (X, θ)
= Eθ (T (X) − g(θ) + g(θ))
∂θ
󰀥󰀕 󰀖2 󰀦
󰀅 󰀆 ∂ ln f (X, θ)
≤ Eθ (T (X) − g(θ))2 Eθ .
∂θ

Par suite 󰀕 󰀖2
∂g(θ)
≤ V arθ (T (X)) I(θ).
∂θ
D’où le résultat.
Définition 4.2.5. Dans un modèle régulier, un estimateur régulier sans biais
de g(θ) est efficace si sa matrice de variance-covariance est égale à la borne de
Cramer-Rao.
Théorème 4.2.2. L’estimateur régulier T (X) est efficace si et seulement si
la densité f (x, θ) peut s’écrire
󰀥 p 󰀦
󰁛
f (x, θ) = h(x) exp Qj (θ)Tj (x) + b(θ)
j=1

où les fonctions Qt (θ) = (Q1 (θ), . . . , Qp (θ)) et b sont telles que


(a) Q et b sont dérivables
(b) la matrice 󰀵 󰀶
∂g1 (θ) ∂g1 (θ)
∂θ1
··· ∂θp
󰀹 . .. .. 󰀺
A(θ) = 󰀹 . . 󰀺
󰀷 . . 󰀸
∂gp (θ) ∂gp (θ)
∂θ1
··· ∂θp

est inversible
∂b(θ)
(c) g(θ) = −A−1 (θ) .
∂θ

31
4.3 Estimation sans biais
On considère un échantillon (X1 , . . . , Xn ) issu d’une loi de probabilité Pθ
avec θ ∈ Θ ⊂ Rd . On s’intéresse à l’estimation de g(θ) où g est une fonction
définie sur Rd à valeurs dans R.

4.3.1 Définitions
Définition 4.3.1. On appelle biais d’un estimateur Tn de g(θ) la quantité
bn (θ) = Eθ (Tn ) − g(θ).
Un estimateur est dit sans biais si bn (θ) = 0 i.e. Eθ (Tn ) = g(θ).
Remarque 4.3.1. Le biais nous indique la valeur moyenne de l’erreur d’es-
timation Tn − g(θ).
Définition 4.3.2. Un estimateur est dit asymptotiquement sans biais si bn (θ)
converge vers 0 quand n tend vers l’infini.

4.3.2 Amélioration d’un estimateur sans biais


[Link] Théorème de Rao-Blackwell
Le Théorème de Rao-Blackwell fournit une méthode pour améliorer un
estimateur sans biais donné.
Théorème 4.3.1. On considère une statistique exhaustive Sn pour θ et un
estimateur Tn∗ sans biais de g(θ), alors la variable aléatoire TS∗n = Eθ (Tn∗ /Sn )
vérifie les propriétés suivantes :
i) TS∗n est un estimateur sans biais de g(θ).
ii) varθ (TS∗n ) ≤ varθ (Tn∗ ) ∀θ ∈ Θ.
Démonstration. - TS∗n est bien un estimateur car, comme Sn est exhaus-
tive, l’espérance conditionnelle qui définit TS∗n ne dépend pas de θ.
- TS∗n est bien sans biais car
󰀃 󰀄
Eθ TS∗n = Eθ (Eθ (Tn∗ /Sn )) = Eθ (Tn∗ ) = g(θ)
De plus, nous avons pour tout θ ∈ Θ
󰀃 󰀄2
varθ (TS∗n ) = Eθ TS∗n − g(θ)
= Eθ (Eθ (Tn∗ − g(θ)/Sn ))2
󰀃 󰀄
≤ Eθ Eθ (Tn∗ − g(θ))2 /Sn
= Eθ (Tn∗ − g(θ))2 = varθ (Tn∗ ).

32
[Link] Théorème de Lehman-Scheffé
Le Théorème de Lehman-Scheffé permet d’obtenir l’estimateur uniformé-
ment meilleur dans l’ensemble des estimateurs sans biais de g(θ). Il donne une
condition d’existence et d’unicité d’un tel estimateur.
Théorème 4.3.2. Soient Sn une statistique exhaustive et totale, et Tn∗ un
estimateur sans biais de g(θ). Alors TS∗n = Eθ (Tn∗ /Sn ) est optimal pour g(θ)
dans la classe des estimateurs sans biais, de variance finie. De plus, TS∗n est
unique.
Démonstration. D’après le théorème de Rao-Balckwell, TS∗n est un estimateur
sans biais de g(θ). Soit Tn un autre estimateur sans biais de g(θ). Alors, nous
avons

Eθ (TS∗n − TSn ) = Eθ (Eθ (Tn∗ /Sn ) − Eθ (Tn /Sn ))


= Eθ (Eθ (Tn∗ − Tn /Sn ))
= Eθ (Tn∗ ) − Eθ (Tn ) = 0.

Puisque Sn est totale, nous avons TS∗n = TSn . D’où l’unicité. Le reste de la
démonstration est identique à la précédente.

4.4 Méthodes d’estimation


4.4.1 Méthode du maximum de vraisemblance
On considère le modèle statistique (E, B, {Pθ ∈ Θ ⊂ Rd }) engendré par
une observation X. On suppose :
(A0 ) Pθ1 = Pθ2 =⇒ θ1 = θ2
(Aµ ) Il existe une mesure µ, σ-finie sur (E, B) telle que Pθ ≪ µ ; Pθ admet
alors une densité L(·, θ) par rapport à la mesure µ et
󰁝
Pθ (B) = L(x, θ)dµ(x).
B

Dans ce cours, nous avons E = Rm avec m ≥ 1.

Définition 4.4.1. On appelle estimateur du maximum de vraisemblance de θ,


la statistique θ̂(X) défini par

θ̂(X) = arg max L(X, θ).


θ∈Θ

Si le paramètre d’intérêt est g(θ), on a le résultat suivant

33
Proposition 4.4.1. Soit θ̂(X) un estimateur du maximum de vraisemblance
de θ et g une fonction bijective, mesurable de Θ vers g(Θ). L’estimateur du
maximum de vraisemblance de η = g(Θ) est

η̂ = g(θ̂(X)).

Remarque 4.4.1. Ce résultat est vrai pour une fonction g mesurable quel-
conque et on posera donc comme définition que l’estimateur du maximum de
vraisemblance de g(θ) est g(θ̂(X)).

Considérons un échantillon (X1 , . . . , Xn ) issu de la loi de X. La vraisem-


blance de l’échantillon est donnée par
n
󰁜
Ln (X1 , . . . , Xn , θ) = L(Xi , θ).
i=1

On note θ̂n l’estimateur du maximum de vraisemblance de θ basé sur un échan-


tillon (X1 , . . . , Xn ) :

θ̂n = arg max Ln (X1 , . . . , Xn , θ).


θ∈Θ

La fonction x 󰀁→ ln(x) étant croissante, nous avons :


n
󰁛
θ̂n = arg max ln(Ln (X1 , . . . , Xn , θ)) = arg max ln(L(Xi , θ).
θ∈Θ θ∈Θ
i=1

Soit θ0 la vraie valeur du paramètre inconnu. Posons

1 󰁛 󰀓 L(Xi , θ) 󰀔
n
Ψn (θ) = ln
n i=1 L(Xi , θ0 )
󰁫 󰀓 L(X , θ) 󰀔󰁬
i
Ψ(θ) = Eθ0 ln .
L(Xi , θ0 )
Nous avons
θ̂n = arg max Ψn (θ).
θ∈Θ

D’après la loi des grands nombres, nous avons :



0
Ψn (θ) −−−− → Ψ(θ). (4.4.1)
n→+∞


Sous quelles conditions a-t-on θ̂n −−−−
0
→ θ0 ? La quantité Ψ(θ) est appelée dis-
n→+∞
tance de Kullback-Leiber entre Pθ et Pθ0 .

34
Lemme 4.4.1. Sous l’hypothèse (A0 ), la fonction Ψ(θ) atteint son maximum
uniquement en θ0 .

Démonstration.
Nous avons donc Ψ(θ0 ) = 0. De 4.4.1

Théorème 4.4.1. On suppose que pour tout ε > 0

0

sup 󰀂Ψn (θ) − Ψ(θ)󰀂 −−−− → 0,
θΘ n→+∞

inf 󰀂Ψ(θ)󰀂 > 0 = 󰀂Ψ(θ0 )󰀂.


θ:d(θ,θ0 )≥ε

Alors

0
θ̂n −−−− → θ0 .
n→+∞

Théorème 4.4.2. On suppose que le modèle est identifiable et les hypothèses


(H1 ), . . . (H5 ) sont vérifiées. On a quand n tend vers +∞
p.s
θ̂n −→ θ

Théorème 4.4.3. On suppose que le modèle est identifiable et les hypothèses


(H1 ), . . . (H5 ) sont vérifiées. De plus, on suppose I(θ) est inversible pour tout
∂ 2 L(x, θ)
θ ∈ Θ et que (x, θ) 󰀁→ est continue, On a alors :
∂θ2
√ L
n(θ̂ − θ) −→ Np (0, I −1 (θ)).

L’estimateur du maximum de vraisemblance est donc asymptotiquement gaus-


sien et efficace.

4.4.2 Méthode des moments


Supposons qu’il existe une fonction h bijective et continue de Θ ⊂ Rp vers
h(Θ) ⊂ Rp , une fonction mesurable g de E vers Rp telle que Eθ (g(X)) existe
et h(θ) = Eθ (g(X)) pour tout θ ∈ Θ.
La méthode des moments consiste alors à estimer θ par
󰀓1 󰁛
n 󰀔
−1
θ̂n = h g(Xi )
n i=1

Théorème 4.4.4. Supposons que la fonction réciproque h−1 soit dérivable et


telle que l’estimateur θ̂n par la méthode des moments soit de carré intégrable.

35
Alors θ̂n est fortement consistant et asymptotiquement gaussien. Plus précisé-
ment,
√ L
n(θ̂n − θ) −→ Np (0, Jh−1 Σg(X1 ) (θ)JhT−1 )
Σg(X1 ) (θ) est la matrice de covariance de g(X1 ) et Jh−1 est la jacobienne de la
fonction h−1 . En dimension 1, on a
√ L ′
n(θ̂n − θ) −→ N (0, var(g(X1 ))((h−1 ) (θ))2 )

4.4.3 Méthode des moindres carrées ordinaires


On considère le modèle de régression

Yi = g(β, Xi ) + εi i = 1, . . . , n

où les variables aléatoires ε1 , . . . , εn sont indépendantes et de même loi π,


centrée, β ∈ Rd et les variables X1 , . . . , Xn sont déterministes.
La méthode des moindres carrés consiste à choisir comme estimateur de β,
la statistique
󰁛n
β̂ = arg min (Yi − g(β, Xi ))2 .
β∈Rd
i=1

36
Chapitre 5

Estimation par région de confiance

5.1 Définitions
Soit X = (X1 , X2 , . . . , Xn ) un échantillon aléatoire issu d’une loi Pθ de
densité f (x, θ). Nous supposons que θ ∈ Θ ⊂ R.
Définition 5.1.1. Soit α ∈]0, 1[ ; on appelle intervalle de confiance pour le pa-
ramètre θ de niveau de confiance égale à 1−α, l’intervalle aléatoire [T1 (X), T2 (X)]
tel que
Pθ ([T1 (X), T2 (X)] ∋ θ) = 1 − α
où T1 (X) et T2 (X) désignent deux statistiques à valeurs dans Θ.
Définition 5.1.2. L’intervalle aléatoire [T1 (X), T2 (X)] est un intervalle de
confiance pour le paramètre θ de niveau de confiance asymptotique égale à
1 − α si
lim Pθ ([T1 (X), T2 (X)] ∋ θ) = 1 − α.
n→+∞

Dans certaines situations, on peut n’être intéressé qu’à établir une borne infé-
rieure ou une borne supérieure pour θ, T1 (X) ou T2 (X) étant rejeté à l’infini.
On parle alors d’intervalle de confiance unilatéral par opposition au cas bila-
téral exposé ci-dessus.
Remarque 5.1.1. La quantité l = T2 (X) − T1 (X) est la longueur de l’inter-
valle de confiance. A α fixé, l’intervalle de confiance est d’autant meilleur que
l est petit.
Définition 5.1.3. Soit X une variable aléatoire réelle de fonction de réparti-
tion F (x) = P(X ≤ x). Pour α ∈]0, 1[, on appelle quantile (ou fractile) d’ordre
α de la loi de X le nombre
qα = inf {x ∈ R, F (x) ≥ α} .
Lorsque la fonction de répartition F est continue et strictement croissante, elle
est inversible d’inverse F −1 et pour tout α ∈]0, 1[, on a qα = F −1 (α).

37
5.2 Construction d’un intervalle de confiance
5.2.1 Fonction pivotale
Définition 5.2.1. On appelle fonction pivot pour θ toute fonction de l’échan-
tillon et de θ, φ(X, θ) dont la loi ne dépend pas de θ.
Définition 5.2.2. Une fonction asymptotiquement pivotale pour θ est une
variable aléatoire, φ(X, θ) qui converge vers une variable aléatoire dont la loi
ne dépend pas de θ.

5.2.2 Approche non asymptotique : intervalle de confiance


bilatéral
- Soit φ(X, θ) une fonction pivot pour θ.
- Pour un seuil α ∈]0, 1[ fixé, soient q1 et q2 tels que
󰁫 󰁬
Pθ q1 ≤ φ(X, θ) ≤ q2 = 1 − α

c’est à dire
󰁫 󰁬
Pθ φ(X, θ) ≤ q1 = α1
󰁫 󰁬
Pθ φ(X, θ) ≥ q2 = α2

avec α1 + α2 = α.
- La double inéquation

q1 ≤ φ(X, θ) ≤ q2 (5.2.1)

peut se résoudre (ou "pivoter") en θ selon

T1 (X) ≤ θ ≤ T2 (X),

on en déduit immédiatement un intervalle de confiance bilatéral pour θ


de niveau de confiance 1 − α.

5.2.3 Approche asymptotique


- Soit Tn un estimateur de θ tel que
Tn − θ L
−−−−→ N (0, 1)
sn (θ) n→+∞

où sn (θ) est une fonction continue de θ.

38
Tn − θ
- Si la fonction pivote pour isoler θ, on obtient l’intervalle de
sn (θ)
confiance approchée.
- Sinon Tn étant convergeant, moyennant la continuité de sn (quelque
soit n), on obtient
Tn − θ L
−−−−→ N (0, 1).
sn (Tn ) n→+∞
Le pivotement est alors immédiat.

Exemple 5.2.1. Dans un modèle régulier, on peut utiliser cette idée pour
construire des intervalles de confiance asymptotiques pour θ à partir de l’esti-
mateur du maximum de vraisemblance. En effet, l’estimateur du maximum de
vraisemblance θ̂n est asymptotiquement efficace, c’est à dire
󰀕 󰀖
√ L 1
n(θ̂n − θ) −−−−→ N 0,
n→+∞ I(θ)

Si la fonction I est continue, on peut estimer I(θ) par l’estimateur convergent


I(θ̂n ). On en déduit que
󰁴
L
nI(θ̂n )(θ̂n − θ) −−−−→ N (0, 1).
n→+∞

Définition 5.2.3. Une densité de probabilité f sur R est unimodale autour


d’un mode s’il existe x∗ un mode tel que f croissante sur ] − ∞, x∗ ] et f
décroissante sur [x∗ , +∞[.

Proposition 5.2.1. Soit f une densité unimodale et [a, b] unintervalle satis-


faisant
󰁝 b
i) f (x)dx = 1 − α
a
ii) f (a) = f (b) > 0
iii) a ≤ x∗ ≤ b où x∗ est le mode de f .
Alors [a, b] est l’intervalle le plus court parmi tous les intervalles satisfaisant
i).

39
Chapitre 6

Tests d’hypothèses

6.1 Définitions
On considère un échantillon (X1 , . . . , Xn ) issu d’une loi de probabilité Pθ
admettant une densité f (·, θ) par rapport à une mesure σ-finie, pour tout
θ ∈ Θ. Soient Θ0 et Θ1 deux sous-ensembles de Θ tels que Θ1 ⊂ Θc0 .
L’objectif est de tester une hypothèse H0 : θ ∈ Θ0 dite "hypothèse nulle"
contre une autre H1 : θ ∈ Θ1 dite "hypothèse alternative", c’est à dire, décider
si H0 ou H1 est vraie. Les hypothèses H0 et H1 sont telles que une et une seule
est vraie.
Un test est une règle de décision qui permet de trancher entre les deux hypo-
thèses en se basant sur l’ échantillon (X1 , . . . , Xn ).
Définition 6.1.1. On appelle test toute statistique ψn (X1 , . . . , Xn ) à valeurs
dans [0, 1]. On rejette H0 avec la probabilité ψn (X1 , . . . , Xn ) et on rejette H1
avec la probabilité 1 − ψn (X1 , . . . , Xn ).
Définition 6.1.2. Un test ψn est dit pur si
ψn (X1 , . . . , Xn ) = 1IW (X1 , . . . , Xn )
où W est appelée région critique du test :
- si (X1 , . . . , Xn ) ∈ W alors on rejette H0 et on accepte H1
- si (X1 , . . . , Xn ) ∕∈ W alors on accepte H0 et on rejette H1 .
Un test pur est un cas particulier de test aléatoire.
Dans un problème de test, l’on peut commettre deux types d’erreur :
• l’erreur de première espèce : rejeter H0 alors que H0 est vraie
• l’erreur de deuxième espèce : rejeter H1 alors que H1 est vraie.
Les conséquences de ces deux erreurs peuvent être d’importances diverses. La
qualité d’un test ψn (X1 , . . . , Xn ) est caractérisée par les risques de première
et de deuxième espèce.

40
Définition 6.1.3. On appelle risque de première espèce du test ψn (X1 , . . . , Xn )
la fonction définie sur Θ0 à valeurs dans [0, 1] par
󰁫 󰁬
αψn (θ) = Eθ ψn (X1 , . . . , Xn ) .

C’est la probabilité de rejeter H0 alors que H0 est vraie.

Définition 6.1.4. On appelle risque de deuxième espèce du test ψn (X1 , . . . , Xn )


la fonction définie sur Θ1 à valeurs dans [0, 1] par :
󰁫 󰁬
βψn (θ) = Eθ 1 − ψn (X1 , . . . , Xn ) .

C’est la probabilité de rejeter H1 alors que H1 est vraie.

L’idéal est de trouver un test qui minimise les deux risques d’erreur en même
temps.

Définition 6.1.5. Un test ψ1 (X1 , . . . , Xn ) est préférable à ψ2 (X1 , . . . , Xn ) si

αψ1 (θ) ≤ αψ2 (θ) ∀θ ∈ Θ0

βψ1 (θ) ≤ βψ2 (θ) ∀θ ∈ Θ1


les inégalités étant strictes pour au moins une valeur de θ.

Cependant, il n’est pas toujours possible de comparer les tests en utilisant ce


critère (relation d’ordre partiel).

Définition 6.1.6. Le seuil de signification ou niveau du test ψ(X1 , . . . , Xn )


est défini par 󰁫 󰁬
sup Eθ ψ(X1 , . . . , Xn ) .
θ∈Θ0

Le test est dit de niveau α si

sup αψ (θ) ≤ α.
θ∈Θ0

Le test est dit de niveau asymptotique α si

lim sup αψ (θ) ≤ α.


n→+∞ θ∈Θ0

Dans la pratique des tests statistiques, l’on utilise l’approche de Neyman-


Pearson qui consiste à chercher le meilleur test dans la famille des tests de
niveau (ou de seuil) α.

41
Définition 6.1.7. On appelle puissance du test ψ(X1 , . . . , Xn ) la fonction
définie sur Θ1 à valeurs dans [0, 1] par
󰁫 󰁬
Eθ ψ(X1 , . . . , Xn ) .

C’est la probabilité d’accepter H1 si H1 est vraie.

La valeur de α est fixée en fonction de la gravité des conséquences de l’erreur


de première espèce.

Définition 6.1.8. Le test ψ est dit sans biais si

inf Eθ (ψ(X1 , . . . , Xn )) ≥ sup Eθ (ψ(X1 , . . . , Xn )).


θ∈Θ1 θ∈Θ0

Ainsi, un test de niveau α est sans biais si pour tout θ ∈ Θ1

Eθ (ψ(X1 , . . . , Xn )) ≥ α.

Définition 6.1.9. Le test ψ ∗ est dit Uniformément le Plus Puissant (U.P.P.)


au niveau α pour tester H0 contre H1 si pour tout autre test ψ de niveau α,
on a
Eθ (ψ ∗ (X1 , . . . , Xn )) ≥ Eθ (ψ(X1 , . . . , Xn )) ∀ θ ∈ Θ1 .

6.2 Pratique des tests statistiques


Dans la pratique des tests statistiques, la règle de décision choisie, est
généralement un test pur, c’est à dire de la forme

ψ ∗ (X1 , . . . , Xn ) = 1IW (X1 , . . . , Xn )

où W est la région critique. Dans ce cas


󰁫 󰁬
- le risque de première espèce est Pθ W , θ ∈ Θ0
󰁫 󰁬
- le risque de deuxième espèce est Pθ W c , θ ∈ Θ1
󰁫 󰁬
- la puissance de première est Pθ W , θ ∈ Θ1 .
Dans l’approche de Neyman-Pearson, la résolution d’un problème de test d’hy-
pothèses suit les étapes suivantes :
1. Formulation des hypothèses H0 et H1 .
2. Choix du seuil du test α.
3. Détermination de la région critique W

42
4. Conclusion du test : rejet ou acceptation de H0 selon que l’on soit ou
non dans la région critique.
5. Calcul de la puissance du test.

Remarque 6.2.1. La détermination de la région critique W passe par la re-


cherche d’une statistique dont on connaît la loi sous l’hypothèse H0 . La condi-
tion 󰁫 󰁬
sup Pθ W = α
θ∈Θ0

permet alors de trouver tous les éléments qui entrent dans la constitution de
la région critique W .

Remarque 6.2.2. En pratique, plutôt que de calculer la région critique en


fonction de α, on préfère donner un seuil critique de α∗ appelée p-value, qui
est telle que
- si α∗ < α, on rejette H0
- si α < α∗ , on accepte H0 .
Les logiciels statistiques calculent et présentent les p-valeurs qui sont souvent
difficiles à obtenir sans moyen de calcul approprié.

6.3 Hypothèse simple contre hypothèse simple


Soient θ0 et θ1 deux éléments de Θ tels que θ0 ∕= θ1 . L’objectif est de tester
H0 : θ = θ0 contre H1 : θ = θ1 au niveau α. Posons
n
󰁜
Ln (θ) = f (Xi , θ).
i=1

Théorème 6.3.1. Neyman-Pearson. Pour tout α ∈]0, 1[, il existe kα ∈ R+ ,


δα ∈ [0, 1] tels que le test le plus puissant au seuil α est donné
󰀻
󰁁
󰁁 Ln (θ1 )
󰁁
󰁁 1 si > kα
󰁁
󰁁 Ln (θ0 )
󰀿 Ln (θ1 )
ψ(X1 , . . . , Xn ) = δα si = kα
󰁁
󰁁 Ln (θ0 )
󰁁
󰁁 Ln (θ1 )
󰁁
󰁁
󰀽0 si < kα .
Ln (θ0 )

Les constantes kα et δα sont déterminées par l’équation

Eθ0 [ψ(X1 , . . . , Xn )] = α.

43
Démonstration. 1. On cherche les constantes kα et δα telle que
󰀗 󰀘 󰀗 󰀘
Ln (θ1 ) Ln (θ1 )
Eθ (ψ(X1 , . . . , Xn )) = Pθ0 > k α + δ α Pθ 0 = kα = α.
Ln (θ0 ) Ln (θ0 )
Pour tout t ∈ R, posons
󰀗 󰀘
Ln (θ1 )
F (t) = Pθ0 ≤t
Ln (θ0 )
et 󰀗 󰀘
Ln (θ1 )
G(t) = 1 − F (t) = Pθ0 >t .
Ln (θ0 )
La fonction G(t) est décroissante, continue à droite. Ainsi, nous avons
󰀗 󰀘
Ln (θ1 )
Pθ 0 = c = G(c− ) − G(c+ ) = G(c− ) − G(c),
Ln (θ0 )
avec
G(c− ) = lim G(c) G(c+ ) = lim G(c).
t→c t→c
t<c t>c

De plus, pour tout α ∈]0, 1[, il existe c0 ≥ 0 telle que G(c0 ) ≤ α ≤


0 ). En effet,
G(c−
• ou bien G(c0 ) = G(c− 0 ), c’est à dire que c0 est un point de continuité
de G, et alors G(c0 ) = α et on prend kα = c0 , δα = 0 et nous avons
󰀫
1 si LLnn (θ 1)
(θ0 )
> c0
ψ(X1 , . . . , Xn ) =
0 si LLnn (θ 1)
(θ0 )
< c0

le test est de niveau α car

Eθ0 (ψ(X1 , . . . , Xn )) = G(c0 ) + 0 = α;

• ou bien c0 est un point de discontinuité de G et on prend kα = c0 et


on pose
α − G(c0 )
δα = ∈ [0, 1];
G(c− 0 ) − G(c0 )
le test est de niveau α.
2. Montrons que le test ψ est le plus puissant. Supposons que φ est
un autre test tel que Eθ0 φ(X1 , . . . , Xn ) ≤ α. Alors

Eθ0 (φ(X1 , . . . , Xn ) − ψ(X1 , . . . , Xn )) ≥ 0.

De la définition de ψ, on tire :

44
- si Ln (θ1 ) − δα Ln (θ0 ) > 0 alors ψ(X1 , . . . , Xn ) = 1 ≥ φ(X1 , . . . , Xn )
et donc ψ(X1 , . . . , Xn ) − φ(X1 , . . . , Xn ) ≥ 0
- si Ln (θ1 ) − δα Ln (θ0 ) < 0 alors ψ(X1 , . . . , Xn ) = 0 ≤ φ(X1 , . . . , Xn )
et donc ψ(X1 , . . . , Xn ) − φ(X1 , . . . , Xn ) ≤ 0
C’est pourquoi pour tout t ∈ Rn

(ψ(t) − φ(t))(Ln (t, θ1 ) − δα fn (t, θ0 )) ≥ 0,


󰁝
(ψ(t) − φ(t))(fn (t, θ1 ) − δα fn (t, θ0 ))dt ≥ 0
󰁝 󰁝
(ψ(t) − φ(t))fn (t, θ1 )dt ≥ δα (ψ(t) − φ(t))fn (t, θ0 )dt.

La dernière inégalité s’écrit :

Eθ1 (ψ(X1 , . . . , Xn )) − Eθ1 (φ(X1 , . . . , Xn )) ≥

δα (Eθ0 (ψ(X1 , . . . , Xn )) − Eθ0 (φ(X1 , . . . , Xn ))) .


Ainsi Eθ1 (ψ(X1 , . . . , Xn )) ≥ Eθ1 (φ(X1 , . . . , Xn )) et le test ψ est plus
puissant que φ.

Exemple 6.3.1. On considère un échantillon (X1 , . . . , Xn ) issu d’une loi de


Bernouilli B(1, θ) avec θ ∈]0, 1[. On veut tester H0 : θ = θ0 contre H1 : θ = θ1
au seuil α = 0.05.
Nous avons
󰀓 θ 󰀔󰁓ni=1 Xi
Ln (θ) = (1 − θ) n
1I{0,1}n (X1 , . . . , Xn )
1−θ
Pour (X1 , . . . , Xn ) ∈ {0, 1}n
󰀕 󰀖󰁓ni=1 Xi 󰀕 󰀖n
Ln (θ1 ) θ1 (1 − θ0 ) 1 − θ1
=
Ln (θ0 ) θ0 (1 − θ1 ) 1 − θ0
Par exemple, si θ0 = 1/4 et θ1 = 1/2, nous obtenons
Ln (1/2) 󰁓n
= 3 i=1 Xi (2/3)n
Ln (1/4)
Ainsi, nous avons
Ln (1/2) 󰁓n
> kα ⇔ 3 i=1 Xi (2/3)n > kα
Ln (1/4)
n 󰀃 󰀄
󰁛 ln ( 32 )n kα
⇔ Xi > = Kα .
i=1
ln(3)

45
D’après le lemme de Neyman-Pearson, le meilleur test est de la forme :
󰀻 n
󰁁 󰁛
󰁁1 si
󰁁 X i > Kα
󰁁
󰁁
󰁁
󰁁 i=1
󰁁
󰀿 󰁛 n
ψ(X1 , . . . , Xn ) = δα si X i = Kα
󰁁
󰁁
󰁁
󰁁 i=1
󰁁
󰁁 󰁛n
󰁁0 si
󰁁 X i < Kα .
󰀽
i=1

Les constantes Kα et δα sont déterminées par


󰀥 n 󰀦 󰀥 n 󰀦
󰁛 󰁛
E1/4 [ψ(X1 , . . . , Xn )] = α ⇔ P1/4 Xi > Kα + δα P1/4 Xi = Kα = α.
i=1 i=1
n
󰁛
Approche non asymptotique : Sous l’hypothèse nulle H0 , Xi suit une
i=1
loi B(n, 1/4). 󰀥 󰀦
n
󰁛
S’il existe K0 telle que P1/4 Xi > K0 = α, on prend Kα = K0 et δα = 0.
i=1
Sinon, il existe K0 tel que
󰀥 n 󰀦 󰀥 n 󰀦
󰁛 󰁛
P1/4 Xi > K0 < α < P1/4 X i > K0 − 1
i=1 i=1

i.e. 󰀥 󰀦 󰀥 󰀦
n
󰁛 n
󰁛
P1/4 Xi ≤ K0 − 1 < 1 − α < P1/4 X i ≤ K0
i=1 i=1
alors on prend Kα = K0 et
󰀥 n
󰀦
󰁛
α − P1/4 X i > K0
i=1
δα = 󰀥 n
󰀦 .
󰁛
P1/4 X i = K0
i=1

Par exemple si α = 0.05, n = 20 alors


󰀥 20 󰀦 󰀥 20 󰀦
󰁛 󰁛
P1/4 Xi ≤ 7 = 0.8982 < 0.95 < P1/4 Xi ≤ 8 = 0.9591;
i=1 i=1

K0 = 8 et 0.05 = 0.049 + δ(0.9591 − 0.8982) et


0.05 − 0.49
δ= = 0.01727116.
0.951 − 0.8982

46
Le test optimal est :
󰀻 20
󰁁
󰁁 󰁛
󰁁
󰁁 1 si Xi > 8
󰁁
󰁁
󰁁
󰁁 i=1
󰁁
󰀿 20
󰁛
ψ(X1 , . . . , X20 ) = 0.017 si Xi = 8
󰁁
󰁁
󰁁
󰁁 i=1
󰁁
󰁁 󰁛20
󰁁
󰁁
󰀽0 si
󰁁 Xi < 8.
i=1

n
󰁛
Sous l’alternative H1 , Xi suit la loi binomiale B(20, 1/2) et la puissance
i=1
du test est donnée par
󰀥 20
󰀦 󰀥 20
󰀦
󰁛 󰁛
γ = P1/2 Xi > 8 + 0.017P1/2 Xi = 8
i=1 i=1
= 0.7483 + 0.017 ∗ 0.1201.

Approche asymptotique : Si la taille de l’échantillon est suffisamment grand


(n > 30), nous pouvons utiliser le Théorème Central Limite qui permet d’ap-
󰁛n
proximer la loi de Xi par la loi normale N (np, np(1 − p)). Par suite, l’évè-
󰀫 n i=1 󰀬
󰁛
nement Xi = Kα est négligeable et le test optimal est de la forme
i=1

󰀻 n
󰁛
󰁁
󰁁
󰀿1
󰁁 si X i > Kα
i=1
ψ(X1 , . . . , Xn ) = 󰁛n
󰁁
󰁁
󰁁
󰀽0 si X i < Kα
i=1

n
󰁛
Détermination de Kα . Sous H0 , Xi suit approximativement la loi normale
i=1

47
󰀕 󰀖
n 3n
N , et nous avons
4 16
󰀥 n
󰀦
󰁛
α = P1/4 X i > Kα
i=1
󰀵 n 󰀶
󰁛 n
󰀹 Xi − 󰀺
󰀹 i=1 4 Kα − n4 󰀺
󰀹
= P1/4 󰀹 󰁴 > 󰁴 󰀺
󰀺
󰀷 3n
16
3n
16
󰀸

󰀳 󰀴
n
Kα −
= 1 − Φ󰁃 󰁴 󰁄. 4
3n
16

Soit u1−α le quantile d’ordre 1 − α de N (0, 1). Alors, nous


󰁵
Kα − n4 3n n
u1−α = 󰁴 ⇔ Kα = u1−α + .
3n 16 4
16

n
󰁛 󰀓n n󰀔
Sous l’alternative Xi suit la loi N , . La puissance du test est donnée
i=1
2 4
par
󰀥 n
󰀦
󰁛
γn = P1/2 X i > Kα
i=1
󰀵 n 󰀶
󰁛 n
󰀹 Xi − 󰀺
󰀹 i=1 2 Kα − n 󰀺
= P1/2 󰀹
󰀹 󰁳n > 󰁳n 2 󰀺
󰀺
󰀷 4 4 󰀸

󰀣√ √ 󰀤
3u1−α − n
=1−Φ
2

On remarque que lim γn = 1.


n→+∞

6.4 Tests Uniformément plus puissant


6.4.1 Tests U.P.P. pour les hypothèses composites
On supposera que Θ ⊂ R. On s’intéressera aux problèmes classiques de
tests suivants :

48
1. H0 : θ ≤ θ0 contre H1 : θ > θ0
2. H0 : θ ≥ θ0 contre H1 : θ < θ0
3. H0 : θ = θ0 contre H1 : θ ∕= θ0 .
Sous certaines conditions, il existe des tests U.P.P. pour les problèmes 1 et 2.
La situation est moins favorable pour le problème 3.

6.4.2 Famille à rapport de vraisemblance monotone


Posons n
󰁜
fn (X1 , . . . , Xn , θ) = f (Xi ; θ).
i=1

Définition 6.4.1. La famille {Pθ , θ ∈ Θ ⊂ R} est dite à rapport de vraisem-


blance monotone si
1. D = {x : f (x, θ) > 0} est indépendant de θ
2. il existe une statistique S(X1 , . . . , Xn ) telle que pour tout (x1 , . . . , xn ) ∈
fn (x1 , . . . , xn , θ2 )
Dn et θ1 < θ2 , est une fonction monotone de S(x1 , . . . , xn )
fn (x1 , . . . , xn , θ1 )
Proposition 6.4.1. Si f (·, θ) est une densité de type exponentiel

f (x, θ) = h(x) exp{a(θ)U (x) + V (θ)}.

- Si a(·) est croissante alors


󰁓n la famille est à rapport de vraisemblance
monotone croissant en i=1 U (Xi ).
- Si a(·) est décroissante alors
󰁓n la famille est à rapport de vraisemblance
monotone décroissant en i=1 U (Xi ).
Démonstration. Nous avons
n
󰁜 󰁓n
f (x1 , . . . , xn , θ) = h(xi )ea(θ) i=1 U (xi )+nV (θ)
.
i=1
󰁔n
Sur l’ensemble de points (x1 , . . . , xn ) où i=1 h(xi ) > 0, on a

′ f (x1 , . . . , xn , θ” ) ′ 󰁓
(a(θ ” )−a(θ )) n ” ′
R(x1 , . . . , xn , θ , θ” ) = = e i=1 U (xi )+n(V (θ )−V (θ )) .
f (x1 , . . . , xn , θ′ )
Le résultat se déduit aisément.
Théorème 6.4.1. Soit (X1 , . . . , Xn ) un échantillon issu d’une loi de densité
f (·, θ), θ ∈ Θ ⊂ R. Soit θ0 ∈ Θ fixé. On considère le problème de test suivant

H0 : θ ≤ θ0 contre H1 : θ > θ0

49
au seuil α ∈]0, 1[.
Supposons qu’il s’agit d’une famille à rapport de vraisemblance croissant en
S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par
󰀻
󰀿1 si S(X1 , . . . , Xn ) > C
󰁁
ψ(X1 , . . . , Xn ) = δ si S(X1 , . . . , Xn ) = C (6.4.1)
󰁁
󰀽
0 si S(X1 , . . . , Xn ) < C

où les constantes δ et C > 0 sont déterminées par Eθ0 (ψ(X1 , . . . , Xn )) = α.


Théorème 6.4.2. Soit (X1 , . . . , Xn ) un échantillon issu d’une loi de densité
f (·, θ), θ ∈ Θ ⊂ R. Soit θ0 ∈ Θ fixé. On considère le problème de test suivant

H0 : θ ≤ θ0 contre H1 : θ > θ0

au seuil α ∈]0, 1[.


Supposons qu’il s’agit d’une famille à rapport de vraisemblance décroissant
en S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par
󰀻
󰀿1 si S(X1 , . . . , Xn ) < C
󰁁
ψ(X1 , . . . , Xn ) = δ si S(X1 , . . . , Xn ) = C (6.4.2)
󰁁
󰀽
0 si S(X1 , . . . , Xn ) > C

où les constantes δ et C > 0 sont déterminées par Enθ0 (ψ(X n )) = α.


Théorème 6.4.3. Soit (X1 , . . . , Xn ) un échantillon issu d’une loi de densité
f (·, θ), θ ∈ Θ ⊂ R. Soit θ0 ∈ Θ fixé. On considère le problème de test suivant

H0 : θ ≥ θ0 contre H1 : θ < θ0

au seuil α ∈]0, 1[.


Supposons qu’il s’agit d’une famille à rapport de vraisemblance décroissant
en S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par
󰀻
󰀿1 si S(X1 , . . . , Xn ) > C
󰁁
ψ(X1 , . . . , Xn ) = δ si S(X1 , . . . , Xn ) = C (6.4.3)
󰁁
󰀽
0 si S(X1 , . . . , Xn ) < C

où les constantes δ et C > 0 sont déterminées par

Enθ0 (ψ(X1 , . . . , Xn )) = α.

Théorème 6.4.4. Soit (X1 , . . . , Xn ) un échantillon issu d’une loi de densité


f (·, θ), θ ∈ Θ ⊂ R. Soit θ0 ∈ Θ fixé. On considère le problème de test suivant

H0 : θ ≥ θ0 contre H1 : θ < θ0

50
au seuil α ∈]0, 1[.
Supposons qu’il s’agit d’une famille à rapport de vraisemblance croissant en
S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par
󰀻
󰀿1 si S(X1 , . . . , Xn ) < C
󰁁
ψ(X1 , . . . , Xn ) = δ si S(X1 , . . . , Xn ) = C (6.4.4)
󰁁
󰀽
0 si S(X1 , . . . , Xn ) > C

où les constantes δ et C > 0 sont déterminées par Eθ0 (ψ(X n )) = α.

[Link] Tests U.P.P.S.B.


On considère le problème de test de l’hypothèse H0 : θ = θ0 contre H1 :
θ ∕= θ0 au niveau α ∈]0, 1[. Pour ce problème, il n’existe pas de test U.P.P. En
effet, pour être U.P.P., un test doit être le plus puissant pour tester H0 : θ = θ0
contre H1 : θ = θ1 pour tout θ1 ∕= θ0 . Cependant, selon le Lemme de Neyman-
Pearson, la forme des tests les plus puissants diffère selon que θ1 > θ0 ou
θ1 < θ0 .

Théorème 6.4.5. Soit (X1 , . . . , Xn ) un échantillon issu d’une loi de probabi-


lité de densité de type exponentiel

f (x, θ) = h(x) exp {θU (x) + V (θ)} .

Pour tout α ∈]0, 1[.


Il existe un test U.P.P.S.B. de niveau α donné par
󰀻
󰁁
󰁁 1 si S(X1 , . . . , Xn ) < C1 ou S(X1 , . . . , Xn ) > C2
󰁁
󰀿δ si S(X , . . . , X ) = C
1 1 n 1
ψ(X1 , . . . , Xn ) =
󰁁
󰁁
󰁁 δ2 si S(X1 , . . . , Xn ) = C2
󰀽
0 si C1 < S(X1 , . . . , Xn ) < C2

où les constantes δ1 , δ2 , C1 et C2 sont déterminées par les équations

Eθ0 [ψ(X1 , . . . , Xn )] = α

Eθ0 [S(X1 , . . . , Xn )ψ(X1 , . . . , Xn )] = αEθ0 [S(X1 , . . . , Xn )] .


n
󰁛
On rappelle que S(X1 , . . . , Xn ) = U (Xi ).
i=1

51
6.5 Tests et régions de confiance
On considère un échantillon (X1 , . . . , Xn ) un échantillon de la loi Pθ avec
θ ∈ Θ. Pour θ0 ∈ Θ, soit, au seuil α, le problème de test :
H0 : θ = θ0 contre H1 : θ ∕= θ0 .
On note A(θ0 ) la région d’acceptation de H0 .
Théorème 6.5.1. Posons
C(X1 , . . . , Xn ) = {θ ∈ Θ : (X1 , . . . , Xn ) ∈ A(θ)}.
Alors C(X1 , . . . , Xn ) est un intervalle de confiance pour θ de niveau 1 − α.
Théorème 6.5.2. Soit C(X1 , . . . , Xn ) un intervalle de confiance pour θ de
niveau 1 − α. Pour tout θ0 ∈ Θ, on définit
A(θ0 ) = {(X1 , . . . , Xn ) : θ0 ∈ C(X1 , . . . , Xn )}.
Alors A(θ0 ) est la région d’acceptation d’un test de seuil α pour le problème
de test ci-dessus.

6.6 Tests de Wald, du Score et du Rapport de


vraisemblance
6.6.1 Introduction
Nous énonçons un résultat de probabilité qui est à la base de la construction
des statistiques de test dans ce chapitre.
Lemme 6.6.1. Soit (Yn )n≥1 une suite de variables aléatoires à valeurs dans
Rk avec k ≥ 1 telle que
L
Yn −−−−−→ Y
n → +∞

où Y ↩→ N (0, Σ) et Σ est une matrice symétrique, définie positive. Alors


L
YnT Σ−1 Yn −−−−−→ χ2 (k).
n → +∞

Remarque 6.6.1. Dans un modèle régulier, si on note θ̂n l’estimateur du


maximum de vraisemblance de θ alors
√ L
n(θ̂n − θ) −−−−−→ N (0, I −1 (θ))
n → +∞

où I(θ) est la matrice d’information de Fisher.


D’après le Lemme 6.6.1, on a
L
n(θ̂n − θ)T I(θ)(θ̂n − θ) −−−−−→ χ2 (k).
n → +∞

52
6.7 Test de Wald
Pour tester H0 : θ = θ0 contre H1 : θ ∕= θ0 , une idée naturelle consiste
à vérifier si θ̂n est proche de θ0 . La quantité (θ̂n − θ0 )T I(θ0 )(θ̂n − θ0 ) est une
mesure de la proximité de θ̂n à θ0 .
Dans le cas du test de Wald, la statistique de test est donnée par
Tn(1) = n(θ̂n − θ0 )T I(θ0 )(θ̂n − θ0 )
qui converge vers la loi χ2 (k) sous l’hypothèse H0 .
La suite de tests ψn de zone de rejet
󰁱 󰁲
(1) 2
Rn = Tn > χ1−α (k)

où χ21−α (k) est le quantile d’ordre 1 − α de la loi χ2 (k), est de niveau asymp-
totique α et convergent.
Remarque 6.7.1. Plus généralement, on suppose que le modèle est régulier,
identifiable. L’information de Fisher I(θ) est une fonction continue en θ, in-
versible et d’inverse continue. On note θ̂n l’estimateur du maximum de vrai-
semblance de θ.
On veut tester H0 : g(θ) = 0 contre H1 : g(θ) ∕= 0 où g : Rp → Rk est de classe
C 1 . On suppose que la matrice
󰀳 󰀴
∂g1 (θ) ∂g1 (θ)
∂θ1
. . . ∂θp
∂g 󰁅 . . .. 󰁆
󰁅
=󰁃 . . .
. . 󰁆
∂θ 󰁄
∂gk (θ) ∂gk (θ)
∂θ1
. . . ∂θp

est de rang k pour tout θ ∈ Θ.


La statistique de test est donnée par :
󰀓 󰀔T 󰁫󰀓 ∂g 󰀔 󰀓 ∂g 󰀔T 󰁬󰀓 󰀔
(1) −1
Tn = n g(θ̂n ) (θ̂n ) I (θ̂n ) (θ̂n ) g(θ̂n ) .
∂θ ∂θ
Sous l’hypothèse H0 , on a
L
Tn(1) −−−−−→ χ2 (k).
n → +∞

Sous l’hypothèse H1 , on a
p.s
Tn(1) −−−−−→ +∞.
n → +∞

Le test ψn de zone de rejet


󰁱 󰁲
Rn = Tn(1) > χ21−α (k)

où χ21−α (k) est le quantile d’ordre 1 − α de la loi χ2 (k), est de niveau asymp-
totique α et convergent.

53
6.7.1 Test du score
Posons 󰀳 ∂ ln f (x,θ) 󰀴
∂θ1
󰁅 .. 󰁆
θ ∈ Θ ⊂ Rk .
S(x, θ) = 󰁃 . 󰁄
∂ ln f (x,θ)
∂θk

Théorème 6.7.1. Sous les conditions usuelles de régularité, on a


n
√ 1 󰁛 −1
n(θ̂n − θ0 ) = √ I (θ0 )S(Xi , θ0 ) + op (1)
n i=1

où op (1) désigne un terme qui tends vers 0 en probabilité.


Par conséquent, la statistique de test du test de Wald
Tn(1) = n(θ̂n − θ0 )T I(θ0 )(θ̂n − θ0 )
a la même limite que
1󰁫󰁛 󰁬 󰁫󰁛 󰁬
n n
Tn(2) = (S(Xi , θ0 ))T I −1 (θ0 ) S(Xi , θ0 )
n i=1 i=1

Théorème 6.7.2. La suite de tests ψn de zone de rejet


󰁱 󰁲
Rn = Tn(2) > χ21−α (k)

où χ21−α (k) est le quantile d’ordre 1 − α de la loi χ2 (k), est de niveau asymp-
totique α et convergent.

6.7.2 Test du rapport de vraisemblance


On s’intéresse au problème de test H0 : θ ∈ Θ0 ⊂ Θ ⊂ Rk contre H1 : θ ∈
/
Θ0 au niveau α.
Définition 6.7.1. La statistique du test de rapport de vraisemblances est don-
née par
sup fn (X1 , . . . , Xn , θ)
θ∈Θ0
λn = .
sup f (X1 , . . . , Xn , θ)
θ∈Θ

On accepte H1 pour de petites valeurs de λn .


Définition 6.7.2. Le test du rapport des vraisemblances est de la forme
ψ(X1 , . . . , Xn ) = 1I{λn <Kα } .
Pour déterminer Kα , il faut connaître la loi de λn sous H0 .

54
On considère le problème de test de l’hypothèse H0 : θ = θ0 contre H1 :
θ ∕= θ0 au niveau α. Supposons qu’il existe une statistique θ̂n telle que

fn (X1 , . . . , Xn , θ̂n ) = sup fn (X1 , . . . , Xn , θ).


θ∈Θ

On a alors
fn (X1 , . . . , Xn , θ0 )
λn = .
fn (X1 , . . . , Xn , θ̂n )
Par suite, on obtient

Tn(3) = −2 ln(λn )
󰁫1 󰁛n
1󰁛
n 󰁬
= 2n ln(f (Xi , θ̂n ) − ln(f (Xi , θ0 )
n n i=1
󰁫 i=1 󰁬
= 2n Ln (θ̂n ) − Ln (θ0 )

où n
1󰁛
Ln (θ) = ln(f (Xi , θ).
n i=1

Sous des conditions de régularités, on a L̇n (θ̂n ) = 0, L̈n (θ̂n ) est une matrice
définie négative et sous l’hypothèse H0 ,
p.s
L̈n (θ̂n ) −−−−−→ −I(θ0 ).
n → +∞

Par un développement de Taylor à l’ordre 2 au voisinage de θ̂n , on obtient

Tn(3) = Tn(1) + oP (1).


(3) (1)
Par conséquent, Tn a la même loi asymptotique que Tn .

Proposition 6.7.1. Sous l’hypothèse H0 , on a


L
Tn(3) −−−−−→ χ2 (k).
n → +∞

Par conséquent, le test pur

φn (X1 , . . . , Xn ) = 1I{Tn(3) >χ2


1−α (k)}

est asymptotiquement de niveau α pour tester H0 contre H1 . ‘

55

Vous aimerez peut-être aussi