Statistique Mathématique et Modélisation
Statistique Mathématique et Modélisation
1 Modélisation statistique 3
1.1 Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Modèles identifiables, homogènes . . . . . . . . . . . . . . . . 4
1.3 Moments empiriques et convergences . . . . . . . . . . . . . . 6
1.4 Méthode delta . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Problème statistiques . . . . . . . . . . . . . . . . . . . . . . . 9
2 Théorie de la décision 10
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Classement des règles de décision . . . . . . . . . . . . . . . . 11
2.2.1 Risque . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Règles admissibles . . . . . . . . . . . . . . . . . . . . 13
2.2.3 Approche minimax . . . . . . . . . . . . . . . . . . . . 13
2.2.4 Approche bayésienne . . . . . . . . . . . . . . . . . . . 14
2.3 Biais et absence de biais . . . . . . . . . . . . . . . . . . . . . 16
3 Exhaustivité 18
3.1 Statistiques exhaustives . . . . . . . . . . . . . . . . . . . . . 18
3.2 Statistiques exhaustives minimales . . . . . . . . . . . . . . . 21
3.3 Statistiques libres . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 Statistiques totales ou complètes . . . . . . . . . . . . . . . . . 22
3.5 Famille exponentielle . . . . . . . . . . . . . . . . . . . . . . . 24
3.6 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . 26
4 Estimateurs 29
4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . 29
4.2.1 Propriétés asymptotiques . . . . . . . . . . . . . . . . . 29
4.2.2 Propriétés non asymptotiques . . . . . . . . . . . . . . 30
4.3 Estimation sans biais . . . . . . . . . . . . . . . . . . . . . . . 32
4.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3.2 Amélioration d’un estimateur sans biais . . . . . . . . . 32
1
[Link] Théorème de Rao-Blackwell . . . . . . . . . . 32
[Link] Théorème de Lehman-Scheffé . . . . . . . . . 33
4.4 Méthodes d’estimation . . . . . . . . . . . . . . . . . . . . . . 33
4.4.1 Méthode du maximum de vraisemblance . . . . . . . . 33
4.4.2 Méthode des moments . . . . . . . . . . . . . . . . . . 35
4.4.3 Méthode des moindres carrées ordinaires . . . . . . . . 36
6 Tests d’hypothèses 40
6.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.2 Pratique des tests statistiques . . . . . . . . . . . . . . . . . . 42
6.3 Hypothèse simple contre hypothèse simple . . . . . . . . . . . 43
6.4 Tests Uniformément plus puissant . . . . . . . . . . . . . . . . 48
6.4.1 Tests U.P.P. pour les hypothèses composites . . . . . . 48
6.4.2 Famille à rapport de vraisemblance monotone . . . . . 49
[Link] Tests U.P.P.S.B. . . . . . . . . . . . . . . . . 51
6.5 Tests et régions de confiance . . . . . . . . . . . . . . . . . . . 52
6.6 Tests de Wald, du Score et du Rapport de vraisemblance . . . 52
6.6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . 52
6.7 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.7.1 Test du score . . . . . . . . . . . . . . . . . . . . . . . 54
6.7.2 Test du rapport de vraisemblance . . . . . . . . . . . . 54
2
Chapitre 1
Modélisation statistique
X : (Ω, A, P) −→ (E, B)
ω −→ X(ω).
Définition 1.1.2. Une famille de lois de probabilité P = Pθ , θ ∈ Θ sur
(E, B), indexée par un paramètre θ ∈ Θ est dite paramétrique si Θ ⊂ Rd
où d ∈ N∗ et chaque loi Pθ est connue dès que θ est connu. L’ensemble Θ est
appelé espace des paramètres et d est la dimension de Θ. Dans le cas contraire,
le modèle est non paramétrique.
3
Dans un modèle paramétrique, la loi est décrite par un nombre fini de para-
mètres. Le modèle est dit semi-paramétrique lorsque la loi n’est pas paramétrée
par un vecteur de dimension finie et que l’inférence porte sur un vecteur de
dimension finie.
Exemple 1.1.1. On suppose que X est une variable aléatoire de loi de proba-
bilité admettant une densité de probabilité inconnue f
⊲ si f ∈ f0 (x, θ); θ ∈ Θ ⊂ Rk avec f0 connue⇒modèle paramétrique
⊲ si f ∈ F, espace fonctionnel ⇒modèle non paramétrique
Pour étudier un phénomène aléatoire, on a souvent intérêt à observer plu-
sieurs réalisations indépendantes de celui-ci. On parle alors de modèle d’échan-
tillonnage.
Définition 1.1.3. On appelle échantillon de taille n issu de la loi Pθ un n-uplet
(X1 , . . . , Xn ) où les variables aléatoires (Xi )1≤i≤n sont indépendantes identi-
quement distribuées selon la loi de probabilité Pθ . Le modèle correspondant,
appelé modèle d’échantillonnage, est (E n , B ⊗n , {P⊗n θ , θ ∈ Θ}) où
- E n = E × . . . × E,
- B ⊗n = B ⊗ . . . ⊗ B est la tribu,
′
- P⊗n
θ est la loi du vecteur aléatoire (X1 , . . . , Xn ) .
Exemple 1.1.2. • Modèle de Bernoulli :
• Modèle gaussien :
On utilisera toujours les majuscules pour les variables aléatoires et les mi-
nuscules pour leurs réalisations.
Pθ 1 = Pθ 2 ⇒ θ 1 = θ 2 .
4
Exemple 1.2.1. Le modèle statistique {N (m, σ 2 ); m ∈ R, σ > 0} est identi-
fiable, mais {N (m, σ 2 ); m ∈ R, σ ∕= 0} n’est pas identifiable car N (m, σ 2 ) =
N (m, (−σ)2 ).
Définition 1.2.2. Un modèle (E, B, {Pθ , θ ∈ Θ}) est dit dominé s’il existe
une mesure positive σ-finie µ telle que
∀θ ∈ Θ Pθ ≪ µ,
c’est à dire
∀A ∈ B, µ(A) = 0 =⇒ Pθ (A) = 0.
D’après le Théorème de Radon-Nikodym, il existe alors une fonction mesurable
positive f (·, θ) définie µ-presque partout par la relation
Pθ (A) = f (x, θ)dµ(x) ∀A ∈ B.
A
Dans ce cas, la loi de probabilité Pθ est identifiée par sa densité f (·, θ). On
distingue généralement deux cas :
- Si E est discret alors E est au plus dénombrable et B = P(E), l’en-
semble des parties de E ; la mesure dominante µ est la mesure de comp-
tage sur E. Dans ce cas,
f (x, θ) = Pθ (X = x).
∆θ = {x : f (x, θ) > 0} .
L(x, ·) : Θ −→ R+
θ −→ L(x, θ) = f (x, θ)
∀θ1 , θ2 ∈ Θ, Pθ 1 ≪ Pθ 2 Pθ 2 ≪ Pθ 1 .
5
Autrement dit, toutes les probabilités sont équivalentes. Elles admettent toutes
les mêmes ensembles négligeables. En d’autres termes, f (x, θ) > 0 µ-presque
partout, pour tout θ ∈ Θ. Ainsi, le support ∆θ de Pθ ne dépend pas de θ.
Exemple 1.2.2. Le modèle gaussien (σ 2 > 0) et le modèle de Bernouilli
(θ ∈]0, 1[) sont homogènes.
Exemple 1.2.3. le modèle uniforme U [0, θ] avec θ > 0, dominé par la mesure
de Lebesgue, n’est pas homogène car
′ ′
U [0, θ] ≪ U [0, θ ] ⇐⇒ θ ≤ θ .
σ2
Propriété 1.3.1. Nous avons E[X n ] = µ et var(X n ) = .
n
Théorème 1.3.1. On suppose que les variables Xi sont de carré intégrable,
c’est à dire E(X12 ) < ∞. Alors, on a
n
1 P
Xi −→ µ.
n i=1
6
Théorème 1.3.2. On suppose que E(|X1 |) < ∞. Alors, on a
n
1 p.s.
Xi −→ µ.
n i=1
Démonstration. Admise.
Théorème 1.3.3. Nous avons
√
n(X n − µ) L
−→ N (0, 1).
σ
Théorème 1.3.4. (Théorème Central limite multidimensionnel)
Soit (Xn )n∈N une suite de vecteurs aléatoires à valeurs dans Rd , indépen-
dants et identiquement distribués, telle que Σ, la matrice de covariance de
chaque Xi existe, et µ = E(Xi ). Alors
√
n(X n − µ) −→ Nd (0, Σ).
alors
L
rn (g(Tn ) − g(θ)) −−−−→ Dg(θ)X,
n→+∞
avec
∂g
∂θ1
Dg(θ) = ...
∂g
∂θd
alors √ L ′
n(g(Tn ) − g(θ)) −−−−→ N (0, Dg(θ)V (Dg(θ)) )
n→+∞
7
Pour la preuve du Théorème 1.4.1, nous avons besoin des résultats suivants :
Lemme 1.4.1. 1. Si une suite de variables (Xn ) converge en loi vers une
constante a ∈ Rd , elle converge aussi en probabilité vers a.
2. Soit rn une suite de réels positifs tendant vers l’infini. Si la suite rn Xn
converge en loi vers W , alors Xn converge vers 0 en probabilité.
Corollaire 1.4.1. d = k = 1.
Si la suite de variables aléatoires réelle (Yn ) est asymptotiquement normale,
telle qu’il existe y et σy2 avec
√ L
n(Yn − y) −−−−→ N (0, σy2 )
n→+∞
(n − 1)Sn2
2
↩→ χ2 (n − 1)
σ
où n
1 2
Sn2 = Xi − X̄n .
n − 1 i=1
8
Définition 1.5.2. Soient X et Y deux variable aléatoires indépendantes sui-
vant respectivement les lois χ2 (n) et χ2 (m). La variable aléatoire YX/n
/m
suit une
loi appelée loi de Fisher-Snedecor à (n, m) dégrés de liberté et notée
F (n, m).
1
Proposition 1.5.2. Si Z ↩→ F (n1 , n2 ) alors ↩→ F (n2 , n1 ).
Z
Définition 1.5.3. Soient X et Y deux variables aléatoires indépendantes sui-
vant respectivement N (0, 1) et χ2 (n). On appelle loi de Student n dégrés
X
de liberté la loi suivie par le rapport Tn = .
Y
n
L’allure de la loi de Student est similaire à celle d’une loi normale centrée-
réduite avec un étalement un peu plus fort, cette différence s’estompant rapi-
dement lorsque n s’accroît et devenant négligeable pour n > 200.
Pour n = 1 la loi de Student T (1) est la loi de Cauchy.
9
Chapitre 2
Théorie de la décision
2.1 Introduction
On dispose d’un modèle statistique (E, B, {Pθ , θ ∈ Θ ⊂ Rd }) engendré par
une observation X. On souhaite prendre une décision concernant θ ou plus
généralement g(θ) où g est une fonction définie sur Θ. Une décision statistique
est une action effectuée après observation de X. On note D, l’ensemble des
décisions et D une tribu sur D.
Pour comparer différentes décisions, nous introduisons un outil qui mesure
la perte encourue en prenant une décision d lorsque la valeur du paramètre
inconnu est θ.
Définition 2.1.1. On appelle fonction de perte, toute fonction mesurable L :
D × Θ −→ R+ vérifiant
˜
L(d, θ) = 0 ⇐⇒ d = d(θ)
˜ est une bonne décision.
où d(θ)
Exemple 2.1.1. Estimation ponctuelle.
1. Fonction de perte quadratique :
L(d, θ) = (d − θ)2 .
p
2. L(d, θ) = w(θ)d − θ où p ≥ 1 et w(·) est une fonction poids.
Exemple 2.1.2. Test d’hypothèses. Soient Θ0 et Θ1 deux sous-ensembles
de Θ tels que Θ0 ∩ Θ1 = ∅. Le problème est de choisir une des hypothèses
H0 : θ ∈ Θ0 ou H1 : θ ∈ Θ1 . L’espace des décisions est D = {0, 1} où
0 correspond au choix de H0 et 1 à celui de H1 . La pénalité associée à une
décision est 0 si la réponse est correcte et 1 sinon. On a donc la fonction de
perte suivante :
L(d, θ) = 1Id=0 1Iθ∈Θ1 + 1Id=1 1Iθ∈Θ0 .
10
Définition 2.1.2. On appelle règle de décision pure ou procédure, une
fonction mesurable δ : (E, B) −→ (D, D).
Utiliser la procédure δ(X) signifie que si X = x, d = δ(x) est la décision prise.
Ainsi, une règle de décision fournit une façon de décider pour toute observation
possible. Une règle de décision est une quantité aléatoire car dépendant de la
variable aléatoire X.
Définition 2.1.3. Une règle de décision mixte (ou aléatoire) est une appli-
cation mesurable δ définie sur E × D à valeurs dans l’ensemble des lois de
probabilité sur D.
Pour tout A ∈ D, δ(·, A) est une fonction borélienne et pour tout x ∈ E,
δ(x, ·) est une mesure de probabilité sur (D, D). Pour choisir une décision
d ∈ D, lorsqu’une règle aléatoire δ est utilisée, nous avons besoin de simuler
un élément de D selon la loi de probabilité δ(x, ·).
L’ensemble des règles mixtes contient les règles pures. En effet, si δ est une
règle de décision pure, nous avons
11
Exemple 2.2.2. Le risque pour une procédure δ est donnée par
R(δ, θ) = Pθ (δ(X) = 0)1Iθ∈Θ1 + Pθ (δ(X) = 1)1Iθ∈Θ0
Pθ (δ(X) = 0) si θ ∈ Θ1
=
Pθ (δ(X) = 1) si θ ∈ Θ0
La fonction de perte pour une règle de décision aléatoire δ est définie par :
L(δ, θ, x) = L(a, θ)dδ(x, a).
D
12
2.2.2 Règles admissibles
Définition 2.2.5. Une règle de décision δ ∗ est dite admissible s’il n’existe
aucune autre règle qui lui soit préférable.
Remarque 2.2.1. Une règle de décision non admissible ne devrait pas être
considérée du tout. Cependant, une règle de décision admissible n’est pas né-
cessairement une "bonne" décision.
Ainsi,
δ1 (X) = θ0 Pθ0 − p.s,
c’est à dire,
13
Définition 2.2.6. Pour une procédure δ, le risque maximal sur Θ est définie
par
sup R(δ, θ).
θ∈Θ
Définition 2.2.9. On appelle modèle bayésien la donnée d’un modèle (E, B, {Pθ , θ ∈
Θ}) et d’une loi a priori Π sur le paramètre θ.
14
On supposera le modèle dominé par une mesure σ-finie µ. D’après le Théo-
rème de Radon-Nikodym, Pθ admet une densité par rapport à µ :
dPθ
f (x | θ) = (x).
dµ
La fonction θ → f (x | θ) est appelée vraisemblance du modèle. C’est la loi
conditionnelle de X sachant θ.
La loi jointe de (X, θ) est :
= ρ(π, δ | x)m(x)dµ(x)
E
15
Ce résultat mène à la définition suivante :
Définition 2.2.12. Une règle de décision de Bayes associée à une loi a priori
π et une fonction de perte L est une procédure δ π minimisant r(π, δ). Pour
chaque x ∈ E, cette règle de décision est définie par
Définition 2.3.1. Une règle de décision δ(X) est dite sans biais si
′
Eθ (L(δ(X), θ) ≤ Eθ (L(δ(X), θ )
′
pour tout θ, θ ∕= θ.
16
Remarque 2.3.1. En d’autre terme,
c’est à dire que δ(X) est en moyenne proche du paramètre inconnu θ que de
tout autre élément de Θ.
17
Chapitre 3
Exhaustivité
Définition 3.1.2. Soit (E, B, {Pθ , θ ∈ Θ}) un modèle statistique engendré par
une observation X et T (X) une statistique. T (X) est dite exhaustive pour θ
si la loi conditionnelle de X sachant T (X) ne dépend pas de θ.
18
t−
n−1
x
n−1 e−θ θ xi e−θ θ i=1 i
i=1 xi ! (t− n−1 x
i=1 i )!
= e−nθ (nθ)t
t!
t!
= n−1
nt x 1 ! . . . xn−1 !(t − i=1 xi )!
Comme X1 , . . . ,
Xn sont indépendantes, identiquement distribuées de loi P(θ)
alors T (X n ) = ni=1 Xi suit une loi de Poisson P(nθ). La probabilité condi-
tionnelle est indépendante de θ, donc T (X n ) est une statistique exhaustive
pour θ.
dPθ (x)
f (x, θ) = = g(T (x), θ)h(x)
dµ
pour des fonctions boréliennes g : V × Θ → R+ et h : E → R+ .
f (x, θ) = Pθ (X = x)
= Pθ ({X = x} ∩ {T (X) = T (x)})
= Pθ (T (X) = T (x))Pθ (X = x | T (X) = T (x))
Il suffit de poser
19
On a
Pθ (X = x, T (X) = t)
Pθ (X = x | T (X) = t) =
Pθ (T (X) = t)
0 si T (x) ∕= t
Pθ (X = x)
= si T (x) = t
P θ (X = x)
y:T (y)=t
0 si T (x) ∕= t
g(T (x), θ)h(x)
= si T (x) = t
g(T (y), θ)h(y)
y:T (y)=t
0 si T (x) ∕= t
h(x)
= si T (x) = t
h(y)
y:T (y)=t
20
Comme T1 = ϕ(T2 ), on en déduit que
21
Soient x et y tels que T ∗ (x) = T ∗ (y). Alors
′
f (x, θ) h (x)
= ′
f (y, θ) h (y)
ne dépend pas de θ. Donc T (x) = T (y). Ce qui implique que T est une
fonction de T ∗ . La statistique T est donc minimale.
ne dépend pas de µ si et seulement si x̄n = ȳn . Par suite X̄n est une statistique
exhaustive minimale pour µ.
22
Proposition 3.4.1. Toute statistique exhaustive et totale T est une statistique
exhaustive minimale.
Démonstration. Soit S une statistique exhaustive minimale. Il existe une fonc-
tion mesurable ψ telle que S = ψ(T ). Posons
Y = T − Eθ (T /S).
Alors, il existe une fonction mesurable φ telle que Y = φ(T ) et on a pour tout
θ∈Θ
Eθ (Y ) = Eθ (φ(T )) = 0.
Comme T est totale, on a φ(T ) = 0, Pθ - p.s et T = Eθ (T /S). Ainsi T est fonc-
tion d’une statistique exhaustive minimale. Par conséquent T est exhaustive
minimale.
23
3.5 Famille exponentielle
Définition 3.5.1. Soit (E, B, {Pθ , θ ∈ Θ}) un modèle statistique dominé par
une mesure σ-finie µ. Le modèle est dit exponentiel s’il existe un entier k tel
que
k
dPθ
f (x, θ) = (x) = h(x) exp gj (θ)Tj (x) − C(θ) (3.5.1)
dµ j=1
Cette représentation implique qu’il existe une mesure non nulle ν telle que
dPθ
(x) > 0 ∀x ∈ E, ∀θ ∈ Θ
dν
Exemple 3.5.1. Considérons la famille de lois uniformes {Pθ = U (0, θ), θ >
0}. Si {U (0, θ), θ > 0} est une famille exponentielle, alors il existe une mesure
non nulle ν telle que ∀x, ∀θ,
dPθ
(x) > 0.
dν
Pour tout t > 0, il existe θ < t tel que Pθ ([t, +∞[) = 0. Ce qui implique alors
ν([t, +∞[) = 0. Aussi, pour tout t ≤ 0, Pθ ((−∞, t]) = 0. Ce qui implique
alors ν((−∞, t]) = 0. Par suite, nous avons ν ≡ 0. Ainsi, la famille {Pθ =
U (0, θ), θ > 0} n’est pas une famille exponentielle.
24
Le théorème de factorisation permet d’établir le résultat suivant :
Supposons que dim(C) = k. Alors la statistique (T1 (X), . . . , Tk (X)) est totale.
Théorème 3.5.1. Supposons que l’intérieur de Λ est non vide. Alors la sta-
tistique T (X) = (T1 (X), . . . , Tk (X)) est totale.
25
3.6 Information de Fisher
On considère un modèle statistique (E, B, {Pθ , θ ∈ Θ}) engendré par une
observation X. On suppose que ce modèle est dominé par une mesure σ-finie
µ et on note
dPθ (x) = f (x, θ)dµ(x)
(H1 ) Θ est un ouvert non vide de Rd
(H2 ) Le modèle est homogène
∂f (x,θ)
∂θ1 ∂ 2 f (x, θ)
(H3 ) ∇θ f (x, θ) = ..
et ∇ 2
existent ∀x ∈
. f (x, θ) =
∂θ ∂θ
i j 1≤i,j≤d
∂f (x,θ)
∂θd
E, ∀θ ∈ Θ.
(H4 ) Pour tout B ∈ B, l’application θ → f (x, θ)dµ(x) est dérivable sous
B
le signe d’intégration par rapport aux composantes de θ et on a
∂ ∂f (x, θ)
f (x, θ)dµ(x) = dµ(x) j = 1, . . . , d
∂θj B B ∂θj
(H5 ) Pour tout B ∈ B, l’application θ → f (x, θ)dµ(x) est deux fois déri-
B
vable sous le signe d’intégration par rapport aux composantes de θ et
on a :
2
∂2 ∂ f (x, θ)
f (x, θ)dµ(x) = dµ(x) i, j ∈ {1, . . . , d}
∂θi ∂θj B B ∂θi ∂θj
26
Proposition 3.6.1. Soit le modèle statistique (E, B, {Pθ , θ ∈ Θ ⊆ Rd }) telle
que les hypothèses H1 , H2 , H3 et H5 sont vérifiées. Alors, on a
2
∂ ln(f (X, θ))
I(θ) = − Eθ .
∂θi ∂θj i,j=1,...,d
Démonstration. Puisque
2
1 ∂ 2 f (X, θ) ∂ f (x, θ) ∂2
Eθ = dx = 1 = 0,
f (X, θ) ∂θi ∂θj E ∂θi ∂θj ∂θi ∂θj
Remarque 3.6.1. Soit T (X) une statistique et on note PθT la loi de probabilité
de T (X). On suppose que PθT est dominée par une mesure σ-finie ν et on a
dPθ (t) = fT (t, θ)dν(t). Si fT (·, θ) vérifie les hypothèses H1 , H2 , H3 et H5 ,
l’information de Fisher apportée par T (X) sur le paramètre θ est définie par
I T (θ) = (IijT (θ))i,j=1,...,d
où
2
∂ ln(fT (T, θ)) ∂ ln(fT (T, θ)) ∂ ln(fT (T, θ))
IijT (θ) = Eθ = −Eθ .
∂θi ∂θj ∂θi ∂θj
Proposition 3.6.2. 1 I(θ) est une matrice symétrique positive.
2 Additivité. Si X et Y sont deux statistiques indépendantes, on a, en
notant IX (θ), IY (θ) et I (X,Y ) (θ) les informations fournies par X, Y et
le couple (X, Y ) respectivement :
I (X,Y ) (θ) = IX (θ) + IY (θ)
Ainsi, l’information de Fisher fournie par un échantillon (X1 , . . . , Xn )
est
In (θ) = nIX1 (θ)
27
Proposition 3.6.3. 3 Soit T (X) une statistique et I T (θ) la matrice d’in-
formation de Fisher associée à T (X). Alors
∂ 2 K(θ0 , θ)
|θ=θ0 = Iij (θ0 )
∂θi ∂θj
28
Chapitre 4
Estimateurs
4.1 Définitions
On considère un échantillon Xn ) issu de la loi Pθ avec θ ∈ Θ ⊆ Rd .
(X1 , . . . ,
g1 (θ)
..
L’objectif est d’estimer g(θ) = . où g est une application définie sur
gp (θ)
R à valeurs dans R
d p
On a
∗
θn,1
θn∗ = ... .
∗
θn,p
On appelle estimation de g(θ) la valeur θ∗ (x1 , . . . , xn ) calculée à partir d’une
réalisation (x1 , . . . , xn ) de (X1 , . . . , Xn ). Une estimation de g(θ) est une ap-
proximation de g(θ) basée sur l’échantillon (X1 , . . . , Xn ).
29
Définition 4.2.1. Un estimateur θn∗ de g(θ) est dit consistant si
P
θn∗ −−−θ−→ g(θ) ∀θ ∈ Θ.
n→+∞
Théorème 4.2.1. On suppose que le modèle est régulier. Soit T (X) un esti-
mateur sans biais régulier de g(θ). Alors, on a
c’est à dire V arθ (T (X)) − ∆(θ)I −1 (θ)∆t (θ) est une matrice symétrique posi-
tive, où V arθ (T (X)) est la matrice de variance-covariance de T (X) et
∂g1 (θ) ∂g1 (θ)
∂θ1
··· ∂θd
∆(θ) = ... .. ..
. .
∂gp (θ) ∂gp (θ)
∂θ1
··· ∂θd
La matrice BCR(θ) = ∆(θ)I −1 (θ)∆t (θ) est appelée borne de Cramer-Rao pour
l’estimation sans biais de g(θ).
30
Corollaire 4.2.1. Dans le cas où p = d = 1, pour un modèle régulier, la borne
de Cramer-Rao est 2
∂g(θ)
∂θ
BCR(θ) = .
I(θ)
Preuve. T (X) est un estimateur sans biais de g(θ) i.e. Eθ (T (X)) = g(θ).
Alors
2 2
∂g(θ) ∂
= Eθ (T (X))
∂θ ∂θ
2
∂f (x, θ)
= T (x) dx
E ∂θ
2
∂ ln f (X, θ)
= Eθ (T (X) − g(θ) + g(θ))
∂θ
2
∂ ln f (X, θ)
≤ Eθ (T (X) − g(θ))2 Eθ .
∂θ
Par suite 2
∂g(θ)
≤ V arθ (T (X)) I(θ).
∂θ
D’où le résultat.
Définition 4.2.5. Dans un modèle régulier, un estimateur régulier sans biais
de g(θ) est efficace si sa matrice de variance-covariance est égale à la borne de
Cramer-Rao.
Théorème 4.2.2. L’estimateur régulier T (X) est efficace si et seulement si
la densité f (x, θ) peut s’écrire
p
f (x, θ) = h(x) exp Qj (θ)Tj (x) + b(θ)
j=1
est inversible
∂b(θ)
(c) g(θ) = −A−1 (θ) .
∂θ
31
4.3 Estimation sans biais
On considère un échantillon (X1 , . . . , Xn ) issu d’une loi de probabilité Pθ
avec θ ∈ Θ ⊂ Rd . On s’intéresse à l’estimation de g(θ) où g est une fonction
définie sur Rd à valeurs dans R.
4.3.1 Définitions
Définition 4.3.1. On appelle biais d’un estimateur Tn de g(θ) la quantité
bn (θ) = Eθ (Tn ) − g(θ).
Un estimateur est dit sans biais si bn (θ) = 0 i.e. Eθ (Tn ) = g(θ).
Remarque 4.3.1. Le biais nous indique la valeur moyenne de l’erreur d’es-
timation Tn − g(θ).
Définition 4.3.2. Un estimateur est dit asymptotiquement sans biais si bn (θ)
converge vers 0 quand n tend vers l’infini.
32
[Link] Théorème de Lehman-Scheffé
Le Théorème de Lehman-Scheffé permet d’obtenir l’estimateur uniformé-
ment meilleur dans l’ensemble des estimateurs sans biais de g(θ). Il donne une
condition d’existence et d’unicité d’un tel estimateur.
Théorème 4.3.2. Soient Sn une statistique exhaustive et totale, et Tn∗ un
estimateur sans biais de g(θ). Alors TS∗n = Eθ (Tn∗ /Sn ) est optimal pour g(θ)
dans la classe des estimateurs sans biais, de variance finie. De plus, TS∗n est
unique.
Démonstration. D’après le théorème de Rao-Balckwell, TS∗n est un estimateur
sans biais de g(θ). Soit Tn un autre estimateur sans biais de g(θ). Alors, nous
avons
Puisque Sn est totale, nous avons TS∗n = TSn . D’où l’unicité. Le reste de la
démonstration est identique à la précédente.
33
Proposition 4.4.1. Soit θ̂(X) un estimateur du maximum de vraisemblance
de θ et g une fonction bijective, mesurable de Θ vers g(Θ). L’estimateur du
maximum de vraisemblance de η = g(Θ) est
η̂ = g(θ̂(X)).
Remarque 4.4.1. Ce résultat est vrai pour une fonction g mesurable quel-
conque et on posera donc comme définition que l’estimateur du maximum de
vraisemblance de g(θ) est g(θ̂(X)).
1 L(Xi , θ)
n
Ψn (θ) = ln
n i=1 L(Xi , θ0 )
L(X , θ)
i
Ψ(θ) = Eθ0 ln .
L(Xi , θ0 )
Nous avons
θ̂n = arg max Ψn (θ).
θ∈Θ
Pθ
Sous quelles conditions a-t-on θ̂n −−−−
0
→ θ0 ? La quantité Ψ(θ) est appelée dis-
n→+∞
tance de Kullback-Leiber entre Pθ et Pθ0 .
34
Lemme 4.4.1. Sous l’hypothèse (A0 ), la fonction Ψ(θ) atteint son maximum
uniquement en θ0 .
Démonstration.
Nous avons donc Ψ(θ0 ) = 0. De 4.4.1
0
Pθ
sup Ψn (θ) − Ψ(θ) −−−− → 0,
θΘ n→+∞
Alors
Pθ
0
θ̂n −−−− → θ0 .
n→+∞
35
Alors θ̂n est fortement consistant et asymptotiquement gaussien. Plus précisé-
ment,
√ L
n(θ̂n − θ) −→ Np (0, Jh−1 Σg(X1 ) (θ)JhT−1 )
Σg(X1 ) (θ) est la matrice de covariance de g(X1 ) et Jh−1 est la jacobienne de la
fonction h−1 . En dimension 1, on a
√ L ′
n(θ̂n − θ) −→ N (0, var(g(X1 ))((h−1 ) (θ))2 )
Yi = g(β, Xi ) + εi i = 1, . . . , n
36
Chapitre 5
5.1 Définitions
Soit X = (X1 , X2 , . . . , Xn ) un échantillon aléatoire issu d’une loi Pθ de
densité f (x, θ). Nous supposons que θ ∈ Θ ⊂ R.
Définition 5.1.1. Soit α ∈]0, 1[ ; on appelle intervalle de confiance pour le pa-
ramètre θ de niveau de confiance égale à 1−α, l’intervalle aléatoire [T1 (X), T2 (X)]
tel que
Pθ ([T1 (X), T2 (X)] ∋ θ) = 1 − α
où T1 (X) et T2 (X) désignent deux statistiques à valeurs dans Θ.
Définition 5.1.2. L’intervalle aléatoire [T1 (X), T2 (X)] est un intervalle de
confiance pour le paramètre θ de niveau de confiance asymptotique égale à
1 − α si
lim Pθ ([T1 (X), T2 (X)] ∋ θ) = 1 − α.
n→+∞
Dans certaines situations, on peut n’être intéressé qu’à établir une borne infé-
rieure ou une borne supérieure pour θ, T1 (X) ou T2 (X) étant rejeté à l’infini.
On parle alors d’intervalle de confiance unilatéral par opposition au cas bila-
téral exposé ci-dessus.
Remarque 5.1.1. La quantité l = T2 (X) − T1 (X) est la longueur de l’inter-
valle de confiance. A α fixé, l’intervalle de confiance est d’autant meilleur que
l est petit.
Définition 5.1.3. Soit X une variable aléatoire réelle de fonction de réparti-
tion F (x) = P(X ≤ x). Pour α ∈]0, 1[, on appelle quantile (ou fractile) d’ordre
α de la loi de X le nombre
qα = inf {x ∈ R, F (x) ≥ α} .
Lorsque la fonction de répartition F est continue et strictement croissante, elle
est inversible d’inverse F −1 et pour tout α ∈]0, 1[, on a qα = F −1 (α).
37
5.2 Construction d’un intervalle de confiance
5.2.1 Fonction pivotale
Définition 5.2.1. On appelle fonction pivot pour θ toute fonction de l’échan-
tillon et de θ, φ(X, θ) dont la loi ne dépend pas de θ.
Définition 5.2.2. Une fonction asymptotiquement pivotale pour θ est une
variable aléatoire, φ(X, θ) qui converge vers une variable aléatoire dont la loi
ne dépend pas de θ.
c’est à dire
Pθ φ(X, θ) ≤ q1 = α1
Pθ φ(X, θ) ≥ q2 = α2
avec α1 + α2 = α.
- La double inéquation
q1 ≤ φ(X, θ) ≤ q2 (5.2.1)
T1 (X) ≤ θ ≤ T2 (X),
38
Tn − θ
- Si la fonction pivote pour isoler θ, on obtient l’intervalle de
sn (θ)
confiance approchée.
- Sinon Tn étant convergeant, moyennant la continuité de sn (quelque
soit n), on obtient
Tn − θ L
−−−−→ N (0, 1).
sn (Tn ) n→+∞
Le pivotement est alors immédiat.
Exemple 5.2.1. Dans un modèle régulier, on peut utiliser cette idée pour
construire des intervalles de confiance asymptotiques pour θ à partir de l’esti-
mateur du maximum de vraisemblance. En effet, l’estimateur du maximum de
vraisemblance θ̂n est asymptotiquement efficace, c’est à dire
√ L 1
n(θ̂n − θ) −−−−→ N 0,
n→+∞ I(θ)
39
Chapitre 6
Tests d’hypothèses
6.1 Définitions
On considère un échantillon (X1 , . . . , Xn ) issu d’une loi de probabilité Pθ
admettant une densité f (·, θ) par rapport à une mesure σ-finie, pour tout
θ ∈ Θ. Soient Θ0 et Θ1 deux sous-ensembles de Θ tels que Θ1 ⊂ Θc0 .
L’objectif est de tester une hypothèse H0 : θ ∈ Θ0 dite "hypothèse nulle"
contre une autre H1 : θ ∈ Θ1 dite "hypothèse alternative", c’est à dire, décider
si H0 ou H1 est vraie. Les hypothèses H0 et H1 sont telles que une et une seule
est vraie.
Un test est une règle de décision qui permet de trancher entre les deux hypo-
thèses en se basant sur l’ échantillon (X1 , . . . , Xn ).
Définition 6.1.1. On appelle test toute statistique ψn (X1 , . . . , Xn ) à valeurs
dans [0, 1]. On rejette H0 avec la probabilité ψn (X1 , . . . , Xn ) et on rejette H1
avec la probabilité 1 − ψn (X1 , . . . , Xn ).
Définition 6.1.2. Un test ψn est dit pur si
ψn (X1 , . . . , Xn ) = 1IW (X1 , . . . , Xn )
où W est appelée région critique du test :
- si (X1 , . . . , Xn ) ∈ W alors on rejette H0 et on accepte H1
- si (X1 , . . . , Xn ) ∕∈ W alors on accepte H0 et on rejette H1 .
Un test pur est un cas particulier de test aléatoire.
Dans un problème de test, l’on peut commettre deux types d’erreur :
• l’erreur de première espèce : rejeter H0 alors que H0 est vraie
• l’erreur de deuxième espèce : rejeter H1 alors que H1 est vraie.
Les conséquences de ces deux erreurs peuvent être d’importances diverses. La
qualité d’un test ψn (X1 , . . . , Xn ) est caractérisée par les risques de première
et de deuxième espèce.
40
Définition 6.1.3. On appelle risque de première espèce du test ψn (X1 , . . . , Xn )
la fonction définie sur Θ0 à valeurs dans [0, 1] par
αψn (θ) = Eθ ψn (X1 , . . . , Xn ) .
L’idéal est de trouver un test qui minimise les deux risques d’erreur en même
temps.
sup αψ (θ) ≤ α.
θ∈Θ0
41
Définition 6.1.7. On appelle puissance du test ψ(X1 , . . . , Xn ) la fonction
définie sur Θ1 à valeurs dans [0, 1] par
Eθ ψ(X1 , . . . , Xn ) .
Eθ (ψ(X1 , . . . , Xn )) ≥ α.
42
4. Conclusion du test : rejet ou acceptation de H0 selon que l’on soit ou
non dans la région critique.
5. Calcul de la puissance du test.
permet alors de trouver tous les éléments qui entrent dans la constitution de
la région critique W .
Eθ0 [ψ(X1 , . . . , Xn )] = α.
43
Démonstration. 1. On cherche les constantes kα et δα telle que
Ln (θ1 ) Ln (θ1 )
Eθ (ψ(X1 , . . . , Xn )) = Pθ0 > k α + δ α Pθ 0 = kα = α.
Ln (θ0 ) Ln (θ0 )
Pour tout t ∈ R, posons
Ln (θ1 )
F (t) = Pθ0 ≤t
Ln (θ0 )
et
Ln (θ1 )
G(t) = 1 − F (t) = Pθ0 >t .
Ln (θ0 )
La fonction G(t) est décroissante, continue à droite. Ainsi, nous avons
Ln (θ1 )
Pθ 0 = c = G(c− ) − G(c+ ) = G(c− ) − G(c),
Ln (θ0 )
avec
G(c− ) = lim G(c) G(c+ ) = lim G(c).
t→c t→c
t<c t>c
De la définition de ψ, on tire :
44
- si Ln (θ1 ) − δα Ln (θ0 ) > 0 alors ψ(X1 , . . . , Xn ) = 1 ≥ φ(X1 , . . . , Xn )
et donc ψ(X1 , . . . , Xn ) − φ(X1 , . . . , Xn ) ≥ 0
- si Ln (θ1 ) − δα Ln (θ0 ) < 0 alors ψ(X1 , . . . , Xn ) = 0 ≤ φ(X1 , . . . , Xn )
et donc ψ(X1 , . . . , Xn ) − φ(X1 , . . . , Xn ) ≤ 0
C’est pourquoi pour tout t ∈ Rn
45
D’après le lemme de Neyman-Pearson, le meilleur test est de la forme :
n
1 si
X i > Kα
i=1
n
ψ(X1 , . . . , Xn ) = δα si X i = Kα
i=1
n
0 si
X i < Kα .
i=1
i.e.
n
n
P1/4 Xi ≤ K0 − 1 < 1 − α < P1/4 X i ≤ K0
i=1 i=1
alors on prend Kα = K0 et
n
α − P1/4 X i > K0
i=1
δα = n
.
P1/4 X i = K0
i=1
46
Le test optimal est :
20
1 si Xi > 8
i=1
20
ψ(X1 , . . . , X20 ) = 0.017 si Xi = 8
i=1
20
0 si
Xi < 8.
i=1
n
Sous l’alternative H1 , Xi suit la loi binomiale B(20, 1/2) et la puissance
i=1
du test est donnée par
20
20
γ = P1/2 Xi > 8 + 0.017P1/2 Xi = 8
i=1 i=1
= 0.7483 + 0.017 ∗ 0.1201.
n
1
si X i > Kα
i=1
ψ(X1 , . . . , Xn ) = n
0 si X i < Kα
i=1
n
Détermination de Kα . Sous H0 , Xi suit approximativement la loi normale
i=1
47
n 3n
N , et nous avons
4 16
n
α = P1/4 X i > Kα
i=1
n
n
Xi −
i=1 4 Kα − n4
= P1/4 >
3n
16
3n
16
n
Kα −
= 1 − Φ . 4
3n
16
n
n n
Sous l’alternative Xi suit la loi N , . La puissance du test est donnée
i=1
2 4
par
n
γn = P1/2 X i > Kα
i=1
n
n
Xi −
i=1 2 Kα − n
= P1/2
n > n 2
4 4
√ √
3u1−α − n
=1−Φ
2
48
1. H0 : θ ≤ θ0 contre H1 : θ > θ0
2. H0 : θ ≥ θ0 contre H1 : θ < θ0
3. H0 : θ = θ0 contre H1 : θ ∕= θ0 .
Sous certaines conditions, il existe des tests U.P.P. pour les problèmes 1 et 2.
La situation est moins favorable pour le problème 3.
′ f (x1 , . . . , xn , θ” ) ′
(a(θ ” )−a(θ )) n ” ′
R(x1 , . . . , xn , θ , θ” ) = = e i=1 U (xi )+n(V (θ )−V (θ )) .
f (x1 , . . . , xn , θ′ )
Le résultat se déduit aisément.
Théorème 6.4.1. Soit (X1 , . . . , Xn ) un échantillon issu d’une loi de densité
f (·, θ), θ ∈ Θ ⊂ R. Soit θ0 ∈ Θ fixé. On considère le problème de test suivant
H0 : θ ≤ θ0 contre H1 : θ > θ0
49
au seuil α ∈]0, 1[.
Supposons qu’il s’agit d’une famille à rapport de vraisemblance croissant en
S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par
1 si S(X1 , . . . , Xn ) > C
ψ(X1 , . . . , Xn ) = δ si S(X1 , . . . , Xn ) = C (6.4.1)
0 si S(X1 , . . . , Xn ) < C
H0 : θ ≤ θ0 contre H1 : θ > θ0
H0 : θ ≥ θ0 contre H1 : θ < θ0
Enθ0 (ψ(X1 , . . . , Xn )) = α.
H0 : θ ≥ θ0 contre H1 : θ < θ0
50
au seuil α ∈]0, 1[.
Supposons qu’il s’agit d’une famille à rapport de vraisemblance croissant en
S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par
1 si S(X1 , . . . , Xn ) < C
ψ(X1 , . . . , Xn ) = δ si S(X1 , . . . , Xn ) = C (6.4.4)
0 si S(X1 , . . . , Xn ) > C
Eθ0 [ψ(X1 , . . . , Xn )] = α
51
6.5 Tests et régions de confiance
On considère un échantillon (X1 , . . . , Xn ) un échantillon de la loi Pθ avec
θ ∈ Θ. Pour θ0 ∈ Θ, soit, au seuil α, le problème de test :
H0 : θ = θ0 contre H1 : θ ∕= θ0 .
On note A(θ0 ) la région d’acceptation de H0 .
Théorème 6.5.1. Posons
C(X1 , . . . , Xn ) = {θ ∈ Θ : (X1 , . . . , Xn ) ∈ A(θ)}.
Alors C(X1 , . . . , Xn ) est un intervalle de confiance pour θ de niveau 1 − α.
Théorème 6.5.2. Soit C(X1 , . . . , Xn ) un intervalle de confiance pour θ de
niveau 1 − α. Pour tout θ0 ∈ Θ, on définit
A(θ0 ) = {(X1 , . . . , Xn ) : θ0 ∈ C(X1 , . . . , Xn )}.
Alors A(θ0 ) est la région d’acceptation d’un test de seuil α pour le problème
de test ci-dessus.
52
6.7 Test de Wald
Pour tester H0 : θ = θ0 contre H1 : θ ∕= θ0 , une idée naturelle consiste
à vérifier si θ̂n est proche de θ0 . La quantité (θ̂n − θ0 )T I(θ0 )(θ̂n − θ0 ) est une
mesure de la proximité de θ̂n à θ0 .
Dans le cas du test de Wald, la statistique de test est donnée par
Tn(1) = n(θ̂n − θ0 )T I(θ0 )(θ̂n − θ0 )
qui converge vers la loi χ2 (k) sous l’hypothèse H0 .
La suite de tests ψn de zone de rejet
(1) 2
Rn = Tn > χ1−α (k)
où χ21−α (k) est le quantile d’ordre 1 − α de la loi χ2 (k), est de niveau asymp-
totique α et convergent.
Remarque 6.7.1. Plus généralement, on suppose que le modèle est régulier,
identifiable. L’information de Fisher I(θ) est une fonction continue en θ, in-
versible et d’inverse continue. On note θ̂n l’estimateur du maximum de vrai-
semblance de θ.
On veut tester H0 : g(θ) = 0 contre H1 : g(θ) ∕= 0 où g : Rp → Rk est de classe
C 1 . On suppose que la matrice
∂g1 (θ) ∂g1 (θ)
∂θ1
. . . ∂θp
∂g . . ..
= . . .
. .
∂θ
∂gk (θ) ∂gk (θ)
∂θ1
. . . ∂θp
Sous l’hypothèse H1 , on a
p.s
Tn(1) −−−−−→ +∞.
n → +∞
où χ21−α (k) est le quantile d’ordre 1 − α de la loi χ2 (k), est de niveau asymp-
totique α et convergent.
53
6.7.1 Test du score
Posons ∂ ln f (x,θ)
∂θ1
..
θ ∈ Θ ⊂ Rk .
S(x, θ) = .
∂ ln f (x,θ)
∂θk
où χ21−α (k) est le quantile d’ordre 1 − α de la loi χ2 (k), est de niveau asymp-
totique α et convergent.
54
On considère le problème de test de l’hypothèse H0 : θ = θ0 contre H1 :
θ ∕= θ0 au niveau α. Supposons qu’il existe une statistique θ̂n telle que
On a alors
fn (X1 , . . . , Xn , θ0 )
λn = .
fn (X1 , . . . , Xn , θ̂n )
Par suite, on obtient
Tn(3) = −2 ln(λn )
1 n
1
n
= 2n ln(f (Xi , θ̂n ) − ln(f (Xi , θ0 )
n n i=1
i=1
= 2n Ln (θ̂n ) − Ln (θ0 )
où n
1
Ln (θ) = ln(f (Xi , θ).
n i=1
Sous des conditions de régularités, on a L̇n (θ̂n ) = 0, L̈n (θ̂n ) est une matrice
définie négative et sous l’hypothèse H0 ,
p.s
L̈n (θ̂n ) −−−−−→ −I(θ0 ).
n → +∞
55