Cours
Cours
Thibault Modeste
1
Chapitre 1
Contents
1.1 Echantillon, statistique et estimateur . . . . . . . . . . . . . . . . . . . 2
1.1.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Estimation d’un paramètre . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Propriétés d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Biais d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Consistance d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Robustesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Famille d’estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Estimateur par la méthode des moments . . . . . . . . . . . . . . . . . . 6
1.3.2 Estimation par la vraisemblance . . . . . . . . . . . . . . . . . . . . . . 7
La statistique inférentielle est une branche de la statistique qui se concentre sur la déduction de
propriétés d’une population à partir d’un échantillon. Contrairement à la statistique descriptive,
qui se contente de résumer et d’organiser des données, la statistique inférentielle vise à tirer des
conclusions, à faire des prédictions et à prendre des décisions basées sur des données observées.
Qθ = P⊗n
θ , avec Pθ une mesure de probabilité sur H.
Exemple 1.3. 1. On cherche à estimer une proportion inconnue p∗ , e.g. proportion de boules
rouges dans une urne, résultat d’un sondage, le modèle s’écrit alors dans le cas de n obser-
vations indépendantes
H = {0, 1} et P = (B(p))p∈[0,1] .
2
2. On observe des réalisations indépendantes de durées de vie d’ampoules électriques, même
marque et même modèle. On modélise généralement cette durée de vie par une loi exponen-
tielle E(λ) avec λ > 0. On rappelle que cette loi est caractérisée par la propriété d’absence
de mémoire. Dans ce cas le modèle s’écrit
3. Un professeur, pour gagner du temps, note aléatoirement et de manière uniforme ses élèves
entre 0 et 20. Il n’aime pas mettre des 20/20. On notera par θ∗ la note maximale qu’il
accepte de mettre. Ici, le modèle statistique est
Définition 1.4. — Un modèle statistique est dit identifiable si la fonction θ 7→ Qθ est injec-
tive, i.e. si θ ̸= ν alors Qθ ̸= Qν .
— le modèle est dit paramétrique si l’ensemble des paramètres Θ est inclus dans Rd pour
d ∈ N.
Dans la suite, on se placera dans ces situations. L’identifiabilité d’un modèle permet de confondre
le paramètre θ avec la mesure de probabilité Qθ associée. Le cadre paramètrique signifie que l’on
se place dans un cadre où l’on estime qu’un nombre fini de paramètres.
Définition 1.5. Un échantillon de loi Qθ est le vecteur aléatoire canonique (X1 , . . . , Xn ) sur Hn ,
Xi : (x1 , . . . , xn ) 7→ xi .
Cette définition peut paraître lourde, et c’est le cas. Mais ce formalisme permettra l’écriture
rigoureuse de futur résultat. Avec ce formalisme, si on se place dans le cadre i.i.d., les questions
que l’on se posera serait du genre est-ce que nos observations (x1 , . . . , xn ) peuvent provenir de
(X1 , . . . , Xn ) lorsque l’on munit H de Pθ ?
Exemple 1.7. On se place dans le modèle ({0, 1}n , (B(p)⊗n )p∈[0,1] ). La variable X̄n := (X1 +
. . . + Xn )/n est un estimateur alors que Zn = 0.5p + 0.5X̄n n’est pas un estimateur.
bn (θ) := Eθ [θ̂n ] − θ.
On dit que l’estimateur θ̂n est sans biais si pour tout θ ∈ Θ, bn (θ) = 0, et asymptotiquement sans
biais si
∀θ ∈ Θ, bn (θ) → 0.
Remarque 1.9. La définition se fait pour tout θ ∈ Θ et non uniquement pour le vrai paramètre
θ∗ . En effet, comme on ne connait pas sa valeur, c’est bien d’avoir un estimateur ayant une bonne
propriété quelque soit le monde dans lequel on est.
Exemple 1.10. 1. Soit le modèle (Hn , (P⊗
θ )θ∈Θ ), supposons que pour θ ∈ Θ,
Eθ [X1 ] = θ,
i.e. le paramètre est le moment d’ordre 1 de la mesure Pθ , alors l’estimateur X̄n est sans
biais. En effet, par linéarité de l’espérance
" n # n
1X 1X
Eθ [X̄n ] = Eθ Xi = Eθ [Xi ] = nθ/n = θ.
n i=1 n i=1
Définition 1.11. Soit θ̂n un estimateur, on appelle risque quadratique de θ̂n sous Qθ
Le risque quadratique correspond à l’erreur quadratique moyenne lorsque l’on estime θ par θ̂n .
Cette quantité possède une réécriture beaucoup plus simple à calculer.
Proposition 1.12 (décomposition biais/variance). Soit θ̂n un estimateur, on a
p(1 − p)
R(p̂n ; p) = 02 + .
n
On remarque que l’erreur diminue avec l’augmentation du nombre d’observations.
(1) (2)
Définition 1.14. — On dit que θ̂n est préférable à un autre estimateur θ̂n si
La Loi des Grands Nombres (LGN) est un résultat majeur en Probabilité pour obtenir la forte
consistance de nos estimateurs.
Exemple 1.17. Dans le cadre du point 1 de l’Exemple 1.10, la moyenne empirique est fortement
consistance d’après la LGN.
Définition 1.18. On dit qu’un estimateur θ̂n est de vitesse (νn )n∈N avec (νn )n une suite stricte-
ment croissante de réels positifs qui tend vers +∞ si pour tout θ ∈ Θ, il existe une loi l(θ) ̸= δc
tel que
νn (θ̂n − θ) ⇝ l(θ).
Cette fois-ci, c’est le Théorème Central Limite (TCL) qui permettra d’obtenir des vitesses √ de
certains estimateurs. Par exemple, d’après le TCL, la vitesse de la moyenne empirique est ( n)n .
On peut interpréter la vitesse comme le développement asymptotique de l’erreur lorsque l’on
estime le paramètre θ par l’estimateur θ̂n . Par exemple, le TCL nous dit que
√
n(X̄n − µ) ⇝ N (0, σ 2 ),
où µ est la moyenne que l’on essaye d’estimer et σ 2 la variance que l’on connait. On peut
interpréter ce théorème de la manière suivante : lorsqu’on estimer µ par X̄n pour n grand, la
LGN nous dit que cette estimation est proche du vrai paramètre,√mais que veut dit proche ? Ici,
l’écart entre l’estimation et le vrai paramètre est de l’ordre de ε/ n avec ε ∼ N (0, σ 2 ).
Proposition 1.19. Si un estimateur θ̂n possède une vitesse alors il est consistant.
1.2.3 Robustesse
De nombreux autres critères existent pour mesurer la qualité d’un estimateur. Pour finir cette
section, nous parlons rapidement d’une notion importante : la robustesse. Elle peut être définie
intuitivement comme la faible sensibilité à des déviations des hyptohèses de bases, à des valeurs
aberrantes. Nous allons voir en TD un exercice donnant un cadre plus théorique à cette définition.
Exemple 1.20. Considérons l’échantillon suivant : 1, 2, 3, 4, 4. Supposons qu’il y ait une erreur
de saisie, par exemple une mauvaise unité, et que l’on considère l’échantillon 1, 2, 3, 4000, 4. La
moyenne empirique passe de 2.8 à 802, ainsi la moyenne n’est pas robuste face à cette erreur.
Alors que la médiane n’est pas embêtée par ce problème.
Proposition 1.23. L’estimateur θ̂M M est fortement consistant et admet une limite.
Exemple 1.25. Prenons n = 3 et H = {0, 1} avec Pp ∼ B(p) pour p ∈ {1/3, 2/3}. On observe
les résultats 0, 0, 1, quelle est la vraisemblance de cette observation ? On calcule
221 4 2
Q1/3 (X1 = 0, X2 = 0, X3 = 1) = = et Q2/3 (X1 = 0, X2 = 0, X3 = 1) = .
333 27 27
Définition 1.26. Un estimateur du maximum de vraisemblance (EMV) est un estimateur θ̂n
vérifiant
Ln (X1 , . . . , Xn ; θ̂n ) = sup Ln (X1 , . . . , Xn ; θ).
θ∈Θ
Remarque 1.27. — Ni l’existence, ni l’unicité de l’EMV est garanti dans un modèle quel-
conque. Le maximum peut avoir une forme explicite mais il est parfois nécessaire de
recourir à des méthodes d’optimisation numérique pour le déterminer, par exemple avec
une descente de gradient.
— En pratique, on considère la log-vraisemblance car il est plus simple d’étudier une somme
qu’un produit. Dans la suite, on notera log pour le logarithme népérien.
Exemple 1.28. 1. Dans l’Exemple 1.25, l’estimateur de maximum de vraisemblance vaut
1/3.
2. Dans le modèle plus général du Pile-Face ({0, 1}n , B(p)⊗n ) avec p ∈ (0, 1). Dans ce cas là,
la vraisemblance pour x1 , . . . , xn ∈ {0, 1} et p ∈ (0, 1),
n
Y
Ln (x1 , . . . , xn ; p) = pxi (1 − p)1−xi .
i=1
Cette fonction est plus facile à étudier en passant au logarithme, et fixons les observations
et considérons la fonction
h(p) = log Ln (x1 , . . . , xn ; p) = nx̄n log p + n(1 − x̄n ) log(1 − p),
1
Pn
où x̄n = n i=1 xi . L’objectif est de maximiser cette fonction. Dérivons la fonction,
nx̄n n(1 − x̄n ) n(x̄n − p)
h′ (p) = − = .
p 1−p p(1 − p)
Une étude du signe de la dérivée montre qu’un maximum est atteint en p = x̄n . Ainsi,
l’EMV de ce modèle est p̂M V = X̄n . On peut vérifier qu’il s’agit aussi d’un estimateur
obtenu par la méthode du moment.
Chapitre 2
Contents
2.1 Information d’un modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Divergence de Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.3 Modèle régulier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Propriétés remarquables de l’EMV . . . . . . . . . . . . . . . . . . . . 11
2.3 Borne de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Dans le chapitre précédent, nous avons introduit un estimateur intuitivement intéressent, l’esti-
mateur de maximum de vraisemblance. Il est plus difficile à l’oeil nu de déterminer si cet esti-
mateur est performant, voir l’estimateur obtenu dans le point 3 de l’Exemple 1.28. Pour étudier
leur performance, nous allons introduire une nouvelle quantité représentant l’information d’un
modèle. Nous verrons ensuite si nos estimateurs utilisent bien cette information. On se place ici
dans des modèles discret ou à densité.
9
Proposition 2.3. Pour α, θ ∈ Θ, on a κn (α, θ) ⩾ 0 et si le modèle est identifiable alors
κn (α, θ) = 0 ⇐⇒ α = θ.
L’information de Fisher est donc une matrice permettant de mesure la courbure de la divergence
de KL. Elle précise donc sa capacité à discriminer des mesures de probabilité. Dans le cas d = 1,
une grande valeur de In (θ) traduit une variation importante de la divergence et donc une variation
importante de la nature des mesures (Qθ )θ∈Θ .
Exemple 2.5. Pour le cadre du Pile-Face, nous avons pour x1 , . . . , xn ∈ {0, 1},
n2 n
In (θ) = 2 2
Varθ (X̄n ) = ,
p (1 − p) p(1 − p)
car les observations X1 , . . . , Xn sont indépendantes. Dans ce modèle, l’incertitude est faible pour
p proche de 0 ou 1.
Proposition 2.6. Soit I l’information de Fisher du modèle à une observation (H, (Pθ )θ ), l’in-
formation de Fisher du même modèle avec n observations i.i.d. est
In (θ) = nI(θ).
Le théorème suivant est le résultat le plus important de ce chapitre. Il permet de relier l’infor-
mation de Fisher et l’erreur quadratique vue dans le chapitre précédent.
R(θ̂n ; θ) ⩾ In (θ)−1 .
Le minorant In (θ)−1 s’appelle borne de Cramer-Rao. Ainsi, l’erreur quadratique d’un estimateur
ne pas être plus faible que cette borne. On voit que si l’information de Fisher est importante
alors cette borne est très faible. Ce qui permet d’avoir potentiellement des estimateurs avec une
faible erreur quadratique. Inversement, si l’information de Fisher est faible, il ne peut pas exister
d’estimateur d’estimateur sans biais ayant une erreur quadratique négligeable.
Définition 2.15. Un estimateur sans biais est dit efficace s’il atteint la borne de Cramer-Rao.
Exemple 2.16. Dans le cas du modèle Pile-Face, nous avons déjà calculé l’erreur quadratique
de la moyenne empirique, Exemple 1.13 et l’information de Fisher du modèle, Exemple 2.5. On
avait trouvé pour p ∈ (0, 1),
p(1 − p) n
R(X̄n ; p) = et In (p) = .
n p(1 − p)
Comme la moyenne empirique est sans biais, on a bien que cet estimateur est efficace.
Chapitre 3
Contents
3.1 Principe général d’intervalle de confiance . . . . . . . . . . . . . . . . 13
3.1.1 Intervalle de confiance dans le cadre gaussien . . . . . . . . . . . . . . . 14
3.1.2 Intervalle de confiance asymptotique . . . . . . . . . . . . . . . . . . . . 15
3.2 Tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.1 Principe général des tests . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.2 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Mise en pratique d’un test pur . . . . . . . . . . . . . . . . . . . . . . 20
3.3.1 Test bilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3.2 Test unilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3.3 La p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 Tests du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4.1 Distribution du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.4.2 Test d’adéquation à une loi discrète . . . . . . . . . . . . . . . . . . . . . 23
3.4.3 Extension à une famille de distributions . . . . . . . . . . . . . . . . . . 24
3.4.4 Test d’indépendance du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . 25
Nous avons vu dans les chapitres précédents des manières d’estimer un paramètre inconnu θ∗ .
Malheureusement, il est quasi impossible que nos estimations θ̂n soient parfaitement égales à
θ∗ . L’idée de ce chapitre est d’introduire des estimateurs essayant de prendre en compte cette
incertitude.
Définition 3.1. Soit α ∈ (0, 1), un intervalle de confiance pour θ de niveau de confiance (resp.
confiance par excès) 1 − α est une statistique I à valeur dans les intervalles de R telle que pour
chaque θ ∈ Θ,
Qθ (I ∋ θ) = 1 − α (resp. ⩾ 1 − α).
Attention, il faut interpréter cette propriété comme la probabilité que notre intervalle de
confiance contienne le paramètre θ sous Qθ est de 1 − α, et non que la probabilité que notre
paramètre soit dedans est de 1 − α. Ces formulations sont équivalentes, mais la première fait
porter l’aléatoire sur I alors que la seconde sur θ. On rappelle que θ n’est pas aléatoire.
Pour essayer de construire de tel intervalle, il nous faut connaître deux quantités,
— le comportement approximative de l’estimateur θ̂n ;
13
— les quantiles d’ordre de ce comportement.
Définition 3.2. Soit F une fonction de répartition d’une mesure de probabilité ν sur R. On
appelle quantile d’ordre r ∈ (0, 1),
qr := inf{t ∈ R | F (t) ⩾ r},
noté aussi F ← (r).
Remarque 3.3. 1. Si F est continue alors F (qr ) = r.
2. Si F est en plus strictement croissante alors qr = F −1 (r).
3. Dans le cas où ν est à densité par rapport à la mesure de Lebesgue, le quantile d’ordre
s’interprète comme le plus petit t tel que l’aire sous la courbe entre −∞ et t vaut r.
4. Dans le cas où la densité est pair, l’aire entre −∞ et q1−r est égale à l’aire entre −q1−r/2 et
q1−r/2 . C’est le cas, par exemple, de la densité de la distribution gaussienne.
√ X̄n − m
σq1−α/2 σq1−α/2
n ∈ [−q1−α/2 , q1−α/2 ] ⇔ X̄n − m ∈ − √ ,+ √
σ n n
σq1−α/2 σq1−α/2
⇔ −m ∈ −X̄n − √ , −X̄n + √
n n
σq1−α/2 σq1−α/2
⇔ m ∈ X̄n − √ , X̄n + √
n n
Pour la dernière équivalence, lorsque l’on multiplie par −1, il faut bien penser à changer l’ordre
des bornes car en multipliant par un réel négatif, on doit changer le sens des inégalités !
h i
σq1−α/2 σq1−α/2
Un intervalle de confiance possible pour le paramètre inconnu m est donc X̄n − √
n
, X̄n + √
n
.
Sous Qm , cet intervalle a une probabilité 1 − α de contenir le paramètre m. Analysons un peu la
taille de cet intervalle. Lorsque le nombre d’observations augmente, la taille de l’intervalle dimi-
nue, i.e. avec plus d’observations, les estimations du paramètre sont plus précises. Inversement,
si la variance σ 2 du phénomène augmente, alors l’estimation devient plus vague.
Estimation de m lorsque σ 2 est inconnu
Dans ce cas, on ne peut pas considérer le même intervalle, car il contiendrait un terme inconnu.
Nous allons donc le remplacer par une estimation. On prendra l’estimateur non biaisé
n
1 X
Sn2 = (Xi − X̄n )2 ,
n − 1 i=1
Théorème 3.4 (de Fisher). Dans le modèle (Rn , (N (m, σ 2 )⊗n )m,σ2 ), on a les résultats suivants,
√
1. n X̄nσ−m ∼ N (0, 1) ;
2
2. n Sσn ∼ χ2 (n − 1) ;
√
3. n X̄√n −m
2
∼ T (n − 1).
Sn
Le point 1 a déjà été détaillé dans le paragraphe précédent. Le point 2 permet d’obtenir un
intervalle de confiance lorsque l’on essaye d’estimer la variance. Le point 3 sert à estimer le
paramètre m lorsque σ nous est inconnus. La loi de Student est aussi une distribution centrée et
(n−1)
symétrique, ainsi en notant par t1−α/2 le quantile d’ordre 1 − α/2 de T (n − 1), on a
√
X̄n − m (n−1)
Qm n ⩽ t1−α/2 = 1 − α.
Sn2
Ainsi, en faisant les mêmes calculs que dans le paragraphe précédent, un intervalle de confiance
de niveau de confiance 1 − α du paramètre m est
" (n−1) (n−1) #
Sn2 t1−α/2 Sn2 t1−α/2
X̄n − √ , X̄n + √ .
n n
Situation typique lorsque l’on ne connait que le comportement de l’estimateur de manière asymp-
totique, par exemple l’EMV sous des hypothèses de régularité ou la moyenne empirique avec le
TCL. On rappelle plusieurs définitions équivalentes de la convergence en loi.
Définition 3.6. Soit (Xn )n une suite de variables aléatoires et X une variable aléatoire. On dit
que la suite converge en loi vers la variable X si l’un des points suivants (équivalents) est vérifié
— pour toutes fonctions f continues bornées,
— En notant par (Fn )n et F les fonctions de répartitions de ces variables, pour tous points
de continuité t de F , on a Fn (t) → F (t)
— pour tous boréliens A avec P(X ∈ ∂A) = 0,
Ainsi, la probabilité que cet intervalle contient le paramètre sous Qθ vaut asymptotiquement
1 − α. On aurait pu simplifier les calculs en utilisant le lemme de Stlusky. En effet, comme
θ/X̄n → 1, on a par ce lemme
θ √ X̄n − θ/2
12n ⇝ N (0, 1) × 1.
X̄n θ
Avec des calculs similaires que dans la Section 3.1.1, on a l’intervalle est un IC asymptotique de
niveau 1 − α,
X̄n q1−α/2 X̄n q1−α/2
X̄n − √ , X̄n + √ .
2 3n 2 3n
Théoriquement, cet intervalle est moins précis car le lemme de Slutsky rajoute des approxima-
tions.
Dans un cadre plus général, lorsque l’on essaye d’estimer la moyenne, la méthode la plus simple
est d’utiliser le TCL pour construire un intervalle de confiance asymptotique. En effet,
√ X̄n − m
n p ⇝ N (0, 1),
Sn2
donc par la définition de la convergence en loi, on a
!
√ X̄n − m
lim Qm n p ∈ [−q1−α/2 , +q1−α/2 ] = 1 − α.
n→+∞ Sn2
Donc en inversant l’intervalle, on obtient l’IC asymptotique suivant
" p p #
Sn2 q1−α/2 Sn2 q1−α/2
X̄n − √ , X̄n + √ .
n n
Remarque 3.8. Nous avons introduit dans cette section uniquement des intervalles de confiance
dit bilatéral, c’est à dire que l’on a utilisé au départ pour construire notre intervalle de confiance
l’intervalle [±q1−α/2 ]. On aurait pu utiliser ] − ∞, q1−α ] ou [−q1−α , +∞[. On aurait alors eu des
intervalles de confiance complètement différent que l’on caractérise d’unilatéral. On verra dans
la suite quel type d’intervalle est utile en fonction du problème que l’on considère.
Qθ ∈ P0 7→ Eθ [T ] = Qθ (T = 1) ∈ [0, 1],
i.e. la probabilité que notre test rejette à tord dans le cas où l’on se situe dans Qθ . Lorsque
la borne supérieure de cette fonction vaut α, on dira que le risque de 1ere espèce maximale
vaut α ou que le test est de niveau α.
2. Le risque de deuxième espèce est l’application
Qθ ∈ P1 7→ 1 − Eθ [T ] = Qθ (T = 0),
i.e. la probabilité de ne pas rejeter alors qu’on aurait dû rejeter. En pratique, on considère
plutôt l’application
Qθ ∈ P1 7→ Eθ [T ] = Qθ (T = 1),
et on appelle puissance sa borne inférieure.
Un bon test doit un niveau faible et une puissance importante. Malheureusement, on ne peut
pas optimiser les deux en même. Lorsque l’on voudra faire baisser le niveau, on diminuera auto-
matiquement la puissance. En effet, pour avoir un niveau faible, il faut pouvoir facilement de ne
pas rejeter, ce qui est incompatible avec une puissance importante.
Exemple 3.13. Prenons le modèle (Rn , (N (θ, 1)⊗n )θ∈R ), pour θ0 ∈ R, étudions les hypothèses
Pour n >> 1, on a θ1 ∈ Rn et posons le test T (X1 , . . . , Xn ) = 1(X1 ,...,Xn )∈Rn . Ainsi, si notre
observation (x1 , . . . , xn ) tombe dans Rn , on rejette sinon on ne rejette pas. Est-ce que ce choix
fonctionne ?
Pour le modèle Gaussien, on connait le comportement de la moyenne empirique, on a
√
Qθ0 (T (X1 , . . . , Xn ) = 0) = Qθ0 | n(X̄n − θ0 )| ⩽ q1−α/2
√
= Qθ0 (−q1−α/2 ⩽ n(X̄n − θ0 ) ⩽ q1−α/2 )
= 1 − α/2 − α/2 = 1 − α,
√
car sous (H0 ), on a n(X̄n − θ0 ) ∼ N (0, 1). Ainsi, si le vrai paramètre (inconnu) vaut bien θ0 ,
la probabilité de rejeter à tord est α. On voit aussi que si θ1 ≈ θ0 , θ1 ne sera pas dans la zone de
rejet. Raison de plus pour dire, ne pas rejeter à la place d’accepter.
On remarque que le test construit dans cet exemple s’inspire énormément de la forme de l’in-
tervalle de confiance trouvé pour l’estimation de la moyenne lorsque σ 2 est connu. En effet,
lorsque l’on possède un intervalle de confiance de niveau α, on peut construire des tests lorsque
l’hypothèse nulle est un singleton.
Exemple 3.14. Plaçons nous dans le cas où l’on confronte les deux hypothèses suivantes
(H0 ) : ”θ∗ = θ0 ” V s (H1 ) : ”θ∗ ̸= θ0 ”.
Supposons que l’on possède un intervalle de confiance I(X1 , . . . , Xn ), i.e. pour tout θ ∈ Θ,
Qθ (I(X1 , . . . , Xn ) ∋ θ) = 1 − α.
On peut alors vérifier que le test suivant
(
0 si θ0 ∈ I(X1 , . . . , Xn )
T (X1 , . . . , Xn ) = ,
1 sinon
est bien un test de niveau α car la probabilité de rejeter à tord lorsque (H0 ) est vraie est de α.
Définition 3.15. Un test T de niveau α est dit sans biais si sa puissance est supérieur à α,
∀Qθ ∈ P0 , Eθ [T ] ⩾ α.
Cette propriété signifie que si l’hypothèse (H1 ) est vraie, alors de manière asymptotique, on est
sûr de rejeter. Ca peut être le cas d’un test utilisant une statistique ayant un bon comportement
sous (H0 ) et qui explose sous (H1 ), voir Section 3.4.2.
Remarque 3.18. L’Exemple 3.14 peut s’adapter facilement au cas d’intervalle de confiance
asymptotique pour construire un test asymptotique. Cette vérification est laissée en exercice au
lecteur.
Exemple 3.19. Concentrons dans cette exemple sur le cadre Pile-Face, nous allons montrer que
le test asymptotique construit à l’aide du TCL est convergent. Prenons le modèle déjà présenté
dans l’Exemple 1.25, et confrontons les hypothèses
(H0 ) : ”p∗ = 1/2” V s (H1 ) : ”p∗ ̸= 1/2”.
On peut vérifier à l’aide du TCL que
√
2 n(X̄n − 1/2) ⇝ N (0, 1),
sous (H0 ) car Var(X1 ) = 1/4. Donc par la définition de la convergence en loi,
√
Q1/2 (2 n|X̄n − 1/2| ⩾ q1−α/2 ) → 1 − α.
Avec la zone de rejet, √
Rn = {x ∈ Rn | 2 n|x̄n − 1/2| ⩾ q1−α/2 },
on construit un test asymptotiquement de niveau α en prenant T (X1 , . . . , Xn ) = 1(X1 ,...,Xn )∈Rn .
Maintenant pour étudier la convergence, il faut se placer dans (H1 ), prenons p ̸= 1/2, alors on a
dans le cas des tests purs
√
√ q1−α/2
Ep [Tn ] = Qp (Tn = 1) = Qp (2 n|X̄n − 1/2| ⩾ q1−α/2 ) = Qp X̄n ∈ 1/2 ± √
2 n
h i
| | | |
0 1/2 p 1
L’intervalle autour de 1/2 se rétrécit lorsque n → +∞, donc à partir d’un certains rang, p sort
de cet intervalle. De plus, par la LGN, la moyenne empirique converge vers p, donc pour n grand,
on sait que √
q1−α/2
X̄n ̸∈ 1/2 ± √ ,
2 n
d’où la convergence du test.
La zone de rejet dépendra de l’alternative. Si l’alternative est à droite de l’hypothèse nulle alors
on mettra la zone de rejet à droite. Dans ce schéma la zone de rejet sera
R = {x ∈ Rn | x̄n ⩾ θ0 + δn }.
Exemple 3.20. Le temps de réaction X d’un médicament administré à une souris suit une
loi normale centrée en 19 (minutes). On suppose que l’on connait σ 2 = 1. On expérimente un
nouveau produit pour lequel on observe les temps de réaction suivants : 15, 14, 21, 12, 17, 19, 18.
La réaction est-elle plus rapide avec le nouveau produit ?
1. Formulation du problème
On va mettre en hypothèse nulle le fait que le nouveau produit n’est pas plus efficace. Pour
simplifier la calibration du niveau du test, on va réduire l’hypothèse nulle à un singleton.
On considère alors la confrontation suivante
Ces trois zones de rejet permettent bien de construire un test de niveau 1 − α mais les
tests ne sont pas tous pertinent de la même manière au vue de l’hypothèse alternative.
Visualisons ces zones de rejet
h i
|
−∞ (1)
Rn 19 Rn
(1) +∞
i
|
−∞ 19 (2)
Rn +∞
h
|
−∞ Rn
(3) 19 +∞
Intuitivement, au vue de l’hypothèse alternative (H1 ) : ”m < 19”, la meilleur zone de rejet
(3)
est Rn . Sous (H1 ), on a m < 19 donc
√ √
n(X̄n − 19) ∼ N ( n(m − 19), 1),
| {z }
→−∞
∀α ⩽ β, R(α) ⊂ R(β),
Définition 3.21. Soit x = (x1 , . . . , xn ) une observation, on appelle p-valeur, p-value en anglais,
de l’observation la quantité
i.e. la valeur α correspondant à la plus petite zone de rejet contenant notre observation.
R(0.05)i i iR(0.03)
i
| ×
−∞ θ0 R(0.01) +∞
R(0.1)
Ainsi, si p(x) = 0.03, on rejette si α = 0.05 mais on ne rejette pas si α = 0.01. Cette quantité me
donne plus d’information que rejeter ou ne pas rejeter. La convention autour de cette quantité
est la suivante
— p ⩽ 0.01 : très forte présomption contre (H0 )
— 0.01 < p ⩽ 0.05 : forte présomption contre (H0 )
— 0.05 < p ⩽ 0.1 : faible présomption contre (H0 )
— p > 0.1 : pas de présomption contre (H0 )
On peut interpréter la p-valeur comme la probabilité p(x) d’observer un événement plus contra-
dictoire que l’observation x lorsque l’hypothèse (H0 ) est vraie. Attention, il ne faut surtout
pas interpréter la p-valeur comme la probabilité que l’hypothèse nulle soit vraie !
3.4 Tests du χ2
Nous allons voir dans cette dernière section plusieurs tests basés sur la distribution du χ2 .
3.4.1 Distribution du χ2
Définition 3.22. Pour d ∈ N∗ , soit Z1 , . . . , Zd , d variables gaussiennes centrées réduites indé-
pendantes. On dit que X suit une loi du χ2 à d degrés de liberté si X a la même loi que
Z12 + . . . + Zd2 .
Plus le degré de liberté d est grand, plus la distribution a tendance à charger les grandes va-
leurs. Ces distributions sont des distributions possédant une densité par rapport à la mesure de
Lebesgue.
Une autre manière d’observer ce phénomène est de regarder les quantiles d’ordre. Fixonx α = 5%,
on a (d=1)
q1−α = 3.84
i.e. P(X ⩽ 3.84) = 0.95 si X ∼ χ2 (1)
(d=3)
q1−α = 7.81 i.e. P(X ⩽ 7.81) = 0.95 si X ∼ χ2 (3)
(d=10)
q1−α = 18.31 i.e. P(X ⩽ 18.31) = 0.95 si X ∼ χ2 (10)
i.e. est-ce que notre phénomène est régi par ri=1 pi δai ? Par exemple, avec le contexte du dé, on
P
peut se demander si notre dé est truqué, donc pi = 1/6. Pour tester cette hypothèse, on dispose
d’observations i.i.d. (X1 , . . . , Xn ). Notons par Nj le nombre de fois où aj a été observé. On sait
que d’après la LGN, sous (H0 ),
Nj p.s.
fj = p̂j = → pj ,
n
i.e. la fréquence empirique d’apparition de aj tend vers la probabilité théorique. On va donc
comparer le vecteur empirique (p̂1 , . . . , p̂r ) au vecteur π. Sous (H0 ), ces deux vecteurs doivent
être proche. Pour quantifier la notion de proche, nous allons utiliser la statistique suivante,
ressemblant à une distance,
r
X (pj − p̂j )2
Dn = .
i=1
pj
Ainsi, sous (H0 ), cette quantité doit tendre vers 0 et donc être très petit. Pour calibrer la notion
de petit ou de grand, nous allons utiliser le théorème suivant
Théorème 3.23. Dans le cas où les observations (X1 , . . . , Xn ) sont i.i.d., nous avons
1. sous (H0 ), Un = nDn ⇝ χ2 (r − 1) ;
p.s.
2. sous (H1 ), Un → +∞.
(r−1)
Ainsi, c’est la loi du χ2 (r − 1) qui va nous servir pour la calibrer la notion de grand. Notons q1−α
(r−1)
le quantile d’ordre 1 − α de χ2 (r − 1), si Un est plus petit que q1−α , on va considérer que notre
observation de Un est en accord avec (H0 ), on ne va donc pas rejeter. Alors que si Un est plus
grand que ce quantile, on considère qu’il est peu probable d’observer ceci sous (H0 ), on rejette
alors l’hypothèse nulle.
Remarque 3.24. 1. Le deuxième point nous assure que si on est sous (H1 ) alors forcément
on rejettera l’hypothèse nulle lorsque n sera très grand.
2. On effectue une approximation ! Cela fonctionne bien à condition que npj ⩾ 5, où pj est la
probabilité théorique. Si ce n’est pas le cas, il faut fusionner des classes.
3. On peut adapter ce test à des lois non discrètes infinies, en faisant des groupes. Par exemple,
si on veut tester si Pθ est une loi normale N (0, 1), on découpe R en un nombre fini de cases.
−2 −0.75 0 0.75 2
On peut par exemple diviser l’ensemble N∗ en 8 sous-ensembles, mais cela dépend du nombre
d’observations (cf point 2). Mais maintenant, si l’on souhaite confronter les alternatives
(H0 ) : ”Pθ est une loi géométrique” Vs (H1 ) : ”Pθ n’est pas une loi géométrique”,
on ne peut plus utiliser directement l’astuce précédente. En effet, dans ce cas, quelles sont les
probabilités théoriques que l’on doit utiliser ? L’idée de cette extension est d’estimer le paramètre
p de la loi géométrique à l’aide de l’EMV p̂M V puis tester si Pθ est la distribution G(p̂M V ).
De manière plus générale, notons pour j ∈ {1, . . . , r}, π̂j la probabilité de la classe j pour la
distribution Pθ̂M V . On considère alors la statistique suivante comparant les probabilités empirico-
théoriques (π̂j )rj=1 et les probabilités empiriques (p̂j )rj=1
r
X (π̂j − p̂j )2
Dn = .
j=1
π̂ j
Alors en notant q le nombre de paramètres estimés à l’aide de l’EMV, nous avons une générali-
sation du Théorème 3.23.
Théorème 3.25. Dans le cas où les observations (X1 , . . . , Xn ) sont i.i.d., nous avons
1. sous (H0 ), Un = nDn ⇝ χ2 (r − 1 − q) ;
p.s.
2. sous (H1 ), Un → +∞.
En remplaçant, les probabilités théoriques (pj )rj=1 par des probabilités empirico-théoriques (π̂j )rj=1 ,
la variable Dn peut plus facilement être petite car ces probabilités ont été construites avec l’EMV
pour coller aux données, et donc aux probabilités empiriques (p̂j )rj=1 . Pour prendre en compte ce
sur-ajustement, on diminue le degré de liberté de la distribution du χ2 pour qu’il soit plus facile
d’être grand.
On rappelle que les deux phénomènes sont indépendants si et seulement si pi,j = p•,j pi,• . Ainsi
théoriquement, si il y a bien indépendance alors
où fi,j est la fréquence empirique d’apparition de (ai , bj ), et f•,j et fi,• sont les fréquences d’ap-
parition de bj et ai . Nous allons utiliser une statistique proche des précédentes pour quantifier
l’approximation de l’équation (3.4),
s X r
X (fi,j − fi,• f•,j )2
Dn = .
j=1 i=1
fi,• f•,j
Théorème 3.26. Dans le cas où les observations (Y1 , Z1 ), . . . , (Yn , Zn ) sont i.i.d., nous avons
1. sous (H0 ), Un = nDn ⇝ χ2 ((r − 1)(s − 1)) ;
p.s.
2. sous (H1 ), Un → +∞.
Ainsi la procédure du test est identique que pour les tests d’adéquation, si Un est petit alors on
ne rejette pas sinon on rejette. La distribution qui cette fois va calibrer la notion de grand est la
loi χ2 ((r − 1)(s − 1)).