0% ont trouvé ce document utile (0 vote)
63 vues26 pages

Cours

Ce document présente une introduction à la statistique inférentielle, qui se concentre sur la déduction de propriétés d'une population à partir d'un échantillon. Il couvre des concepts clés tels que les modèles statistiques, l'estimation des paramètres, les propriétés des estimateurs, ainsi que les intervalles de confiance et les tests statistiques. Le contenu est structuré en chapitres détaillant les méthodes et les théories sous-jacentes à l'estimation et à l'inférence statistique.

Transféré par

El-Mehdi Farah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
63 vues26 pages

Cours

Ce document présente une introduction à la statistique inférentielle, qui se concentre sur la déduction de propriétés d'une population à partir d'un échantillon. Il couvre des concepts clés tels que les modèles statistiques, l'estimation des paramètres, les propriétés des estimateurs, ainsi que les intervalles de confiance et les tests statistiques. Le contenu est structuré en chapitres détaillant les méthodes et les théories sous-jacentes à l'estimation et à l'inférence statistique.

Transféré par

El-Mehdi Farah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction à la Statistique Inférentielle

Thibault Modeste

Année scolaire 2024-2025

CY Tech - Campus de Pau


Table des matières

1 Modèle et estimation statistique 2


1.1 Echantillon, statistique et estimateur . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Propriétés d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Famille d’estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Vraisemblance et information de Fisher 9


2.1 Information d’un modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Propriétés remarquables de l’EMV . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Borne de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3 Intervalle de confiance et test statistique 13


3.1 Principe général d’intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3 Mise en pratique d’un test pur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4 Tests du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1
Chapitre 1

Modèle et estimation statistique

Contents
1.1 Echantillon, statistique et estimateur . . . . . . . . . . . . . . . . . . . 2
1.1.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Estimation d’un paramètre . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Propriétés d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Biais d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Consistance d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Robustesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Famille d’estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Estimateur par la méthode des moments . . . . . . . . . . . . . . . . . . 6
1.3.2 Estimation par la vraisemblance . . . . . . . . . . . . . . . . . . . . . . 7

La statistique inférentielle est une branche de la statistique qui se concentre sur la déduction de
propriétés d’une population à partir d’un échantillon. Contrairement à la statistique descriptive,
qui se contente de résumer et d’organiser des données, la statistique inférentielle vise à tirer des
conclusions, à faire des prédictions et à prendre des décisions basées sur des données observées.

1.1 Echantillon, statistique et estimateur


1.1.1 Notation
Définition 1.1. Un modèle statistique pour n observations est un couple (Hn , Q) où H est un
espace topologique où vit nos observations (par exemple R, Z ou {0, 1}) et Q est une famille de
mesures de probabilités sur (Hn , B(Hn )) de la forme Q = (Qθ )θ∈Θ et parmi laquelle on cherche
la loi inconnue Q∗ régissant nos n observations.

Remarque 1.2. On se placera généralement dans le cadre de n observations indépendantes et


identiquement distribuées (i.i.d.). Ainsi, nos mesures auront la forme

Qθ = P⊗n
θ , avec Pθ une mesure de probabilité sur H.

On note P la famille (Pθ )θ∈Θ .

Exemple 1.3. 1. On cherche à estimer une proportion inconnue p∗ , e.g. proportion de boules
rouges dans une urne, résultat d’un sondage, le modèle s’écrit alors dans le cas de n obser-
vations indépendantes
H = {0, 1} et P = (B(p))p∈[0,1] .

2
2. On observe des réalisations indépendantes de durées de vie d’ampoules électriques, même
marque et même modèle. On modélise généralement cette durée de vie par une loi exponen-
tielle E(λ) avec λ > 0. On rappelle que cette loi est caractérisée par la propriété d’absence
de mémoire. Dans ce cas le modèle s’écrit

(Rn+ , (E(λ)⊗n )λ>0 ).

3. Un professeur, pour gagner du temps, note aléatoirement et de manière uniforme ses élèves
entre 0 et 20. Il n’aime pas mettre des 20/20. On notera par θ∗ la note maximale qu’il
accepte de mettre. Ici, le modèle statistique est

H = [0, 20] et Pθ = U([0, θ]) avec θ ∈ [0, 20[.

Définition 1.4. — Un modèle statistique est dit identifiable si la fonction θ 7→ Qθ est injec-
tive, i.e. si θ ̸= ν alors Qθ ̸= Qν .
— le modèle est dit paramétrique si l’ensemble des paramètres Θ est inclus dans Rd pour
d ∈ N.

Dans la suite, on se placera dans ces situations. L’identifiabilité d’un modèle permet de confondre
le paramètre θ avec la mesure de probabilité Qθ associée. Le cadre paramètrique signifie que l’on
se place dans un cadre où l’on estime qu’un nombre fini de paramètres.

1.1.2 Estimation d’un paramètre


Comme dit en introduction, le but de la statistique fréquentiste est de déterminer à l’aide des
observations un paramètre θ∗ inconnu et fixe. Selon le cadre, il est plus pertinent d’estimer non
pas θ∗ mais g(θ∗ ) avec g une fonction. Dans ce cours, on restera dans le cadre simple où g vaut
l’identité, i.e. on estime uniquement θ∗ . Pour estimer ce paramètre, nous avons à notre disposition

Définition 1.5. Un échantillon de loi Qθ est le vecteur aléatoire canonique (X1 , . . . , Xn ) sur Hn ,

Xi : (x1 , . . . , xn ) 7→ xi .

Le vecteur (X1 , . . . , Xn ) a pour loi Qθ lorsque l’on munit Hn de la loi Qθ .

Cette définition peut paraître lourde, et c’est le cas. Mais ce formalisme permettra l’écriture
rigoureuse de futur résultat. Avec ce formalisme, si on se place dans le cadre i.i.d., les questions
que l’on se posera serait du genre est-ce que nos observations (x1 , . . . , xn ) peuvent provenir de
(X1 , . . . , Xn ) lorsque l’on munit H de Pθ ?

Définition 1.6. — Une statistique est une variable aléatoire sur Hn .


— Un estimateur de θ∗ est une statistique qui s’exprime indépendamment de θ et à valeur
dans Θ.

Exemple 1.7. On se place dans le modèle ({0, 1}n , (B(p)⊗n )p∈[0,1] ). La variable X̄n := (X1 +
. . . + Xn )/n est un estimateur alors que Zn = 0.5p + 0.5X̄n n’est pas un estimateur.

1.2 Propriétés d’un estimateur


1.2.1 Biais d’un estimateur
Pour S une statistique, on notera Eθ [S] l’espérance de S lorsque Hn est muni de Qθ .
Définition 1.8. Soit θ̂n un estimateur de θ∗ . On appelle biais de θ̂n la fonction

bn (θ) := Eθ [θ̂n ] − θ.

On dit que l’estimateur θ̂n est sans biais si pour tout θ ∈ Θ, bn (θ) = 0, et asymptotiquement sans
biais si
∀θ ∈ Θ, bn (θ) → 0.
Remarque 1.9. La définition se fait pour tout θ ∈ Θ et non uniquement pour le vrai paramètre
θ∗ . En effet, comme on ne connait pas sa valeur, c’est bien d’avoir un estimateur ayant une bonne
propriété quelque soit le monde dans lequel on est.
Exemple 1.10. 1. Soit le modèle (Hn , (P⊗
θ )θ∈Θ ), supposons que pour θ ∈ Θ,

Eθ [X1 ] = θ,

i.e. le paramètre est le moment d’ordre 1 de la mesure Pθ , alors l’estimateur X̄n est sans
biais. En effet, par linéarité de l’espérance
" n # n
1X 1X
Eθ [X̄n ] = Eθ Xi = Eθ [Xi ] = nθ/n = θ.
n i=1 n i=1

Dans la suite, la moyenne empirique fera référence à cet estimateur.


2. Prenons le modèle (Rn , (N (µ, σ 2 )⊗n )µ∈R,σ2 ∈R∗+ ). Supposons que l’on souhaite estimer uni-
quement la variance. Considérons l’estimateur suivant
n
1X
Sn2 = (Xi − X̄n )2 .
n i=1

On peut montrer que


n−1 2
E(µ,σ2 ) [Sn2 ] = σ ,
n
donc cet estimateur est un estimateur biaisé de la variance. Pour être plus précis, on sous
estime la vrai variance en utilisant Sn2 . Ce fait est assez naturel car la dispersion des Xi n’est
pas estimé à partir de la vraie moyenne µ mais avec l’estimation X̄n qui dépend déjà des Xi .
Toutefois, cet estimateur est non biaisé de manière asymptotique. Selon le cadre, on pourra
considérer deux estimateurs différentes de la variance, la variance empirique classique Sn2
et la variance empirique non biaisée
n n
Sn,c = Sn2 .
n−1

Définition 1.11. Soit θ̂n un estimateur, on appelle risque quadratique de θ̂n sous Qθ

R(θ̂n ; θ) = Eθ [∥θ̂n − θ∥2 ].

Le risque quadratique correspond à l’erreur quadratique moyenne lorsque l’on estime θ par θ̂n .
Cette quantité possède une réécriture beaucoup plus simple à calculer.
Proposition 1.12 (décomposition biais/variance). Soit θ̂n un estimateur, on a

R(θ̂n ; θ) = ∥Eθ [θ̂n ] − θ∥2 + Varθ (θ̂n ),

où la variance d’un vecteur est

Varθ (θ̂n ) = Eθ [∥θ̂n − Eθ [θ̂n ]∥2 ]


On remarque donc que pour avoir un risque quadratique faible, il faut avoir un biais faible ainsi
qu’une variance faible, i.e. centré autour du paramètre que l’on essaye d’estimer et une incertitude
faible autour de l’estimation. Le risque est un bon critère intuitif pour comparer des estimateurs.

Exemple 1.13. 1. Soit X1 , . . . , X7 un échantillon suivant une loi normale de moyenne µ et


2
de variance σ inconnues. Le problème est d’estimer µ. On considère les deux estimateurs
suivants
1 1
µ̂1 = (X1 + . . . , X7 ) et µ̂2 = (X1 − X3 + 2X5 ).
7 2
On peut vérifier que ces deux estimateurs sont sans biais. Mais y-a-t-il un plus performant ?
En calculant la variance de chaque estimateur, on trouve que

µ̂1 ∼ N (µ, σ 2 /7) et µ̂2 ∼ N (µ, 3σ 2 /2).

Ainsi µ̂1 est plus concentré autour de µ que µ̂2 .


2. Dans le modèle du Pile-Face ({0, 1}n , B(p)⊗n ) avec p ∈ (0, 1), prenons l’estimateur de
la moyenne empirique p̂n = X̄n pour estimer le paramètre p∗ . D’après le point 1 de
l’Exemple 1.10, cet estimateur est sans biais et sa variance vaut par l’indépendance des
observations
n
!
Varp ( ni=1 Xi )
P
1X
Varp (p̂n ) = Varp Xi =
n i=1 n2
Pn
Varp (Xi ) p(1 − p)
= i=1 2 = ,
n n
car la variance d’une variable de loi B(p) est p(1−p). Ainsi par la décomposition biais/variance
de l’erreur quadratique, on en déduit que

p(1 − p)
R(p̂n ; p) = 02 + .
n
On remarque que l’erreur diminue avec l’augmentation du nombre d’observations.
(1) (2)
Définition 1.14. — On dit que θ̂n est préférable à un autre estimateur θ̂n si

∀θ ∈ Θ, R(θ̂n(1) ; θ) ⩽ R(θ̂n(2) ; θ).


(1)
— On dit qu’un estimateur sans biais θ̂n est de variance uniformément minimale parmi les
estimateurs sans biais (VUMSB) si l’estimateur est préférable à tout autre estimateur.
(1) (2)
Proposition 1.15. Soit deux estimateurs θ̂n et θ̂n VUMSB alors

∀θ ∈ Θ, θ̂n(1) = θ̂n(2) , Pθ − p.s.

1.2.2 Consistance d’un estimateur


Définition 1.16. On dit qu’un estimateur θ̂n est consistance, ou convergeant, si
θ P
∀θ ∈ Θ, θ̂n −→ θ,

et fortement consistant lorsque


θ P −p.s.
∀θ ∈ Θ, θ̂n −→ θ.

La Loi des Grands Nombres (LGN) est un résultat majeur en Probabilité pour obtenir la forte
consistance de nos estimateurs.
Exemple 1.17. Dans le cadre du point 1 de l’Exemple 1.10, la moyenne empirique est fortement
consistance d’après la LGN.

Définition 1.18. On dit qu’un estimateur θ̂n est de vitesse (νn )n∈N avec (νn )n une suite stricte-
ment croissante de réels positifs qui tend vers +∞ si pour tout θ ∈ Θ, il existe une loi l(θ) ̸= δc
tel que
νn (θ̂n − θ) ⇝ l(θ).

Cette fois-ci, c’est le Théorème Central Limite (TCL) qui permettra d’obtenir des vitesses √ de
certains estimateurs. Par exemple, d’après le TCL, la vitesse de la moyenne empirique est ( n)n .
On peut interpréter la vitesse comme le développement asymptotique de l’erreur lorsque l’on
estime le paramètre θ par l’estimateur θ̂n . Par exemple, le TCL nous dit que

n(X̄n − µ) ⇝ N (0, σ 2 ),

où µ est la moyenne que l’on essaye d’estimer et σ 2 la variance que l’on connait. On peut
interpréter ce théorème de la manière suivante : lorsqu’on estimer µ par X̄n pour n grand, la
LGN nous dit que cette estimation est proche du vrai paramètre,√mais que veut dit proche ? Ici,
l’écart entre l’estimation et le vrai paramètre est de l’ordre de ε/ n avec ε ∼ N (0, σ 2 ).

Proposition 1.19. Si un estimateur θ̂n possède une vitesse alors il est consistant.

1.2.3 Robustesse
De nombreux autres critères existent pour mesurer la qualité d’un estimateur. Pour finir cette
section, nous parlons rapidement d’une notion importante : la robustesse. Elle peut être définie
intuitivement comme la faible sensibilité à des déviations des hyptohèses de bases, à des valeurs
aberrantes. Nous allons voir en TD un exercice donnant un cadre plus théorique à cette définition.

Exemple 1.20. Considérons l’échantillon suivant : 1, 2, 3, 4, 4. Supposons qu’il y ait une erreur
de saisie, par exemple une mauvaise unité, et que l’on considère l’échantillon 1, 2, 3, 4000, 4. La
moyenne empirique passe de 2.8 à 802, ainsi la moyenne n’est pas robuste face à cette erreur.
Alors que la médiane n’est pas embêtée par ce problème.

1.3 Famille d’estimateurs


1.3.1 Estimateur par la méthode des moments
Il s’agit d’une méthode simple et classique qui fournit des estimateurs de façon immédiate lorsque
les moments des mesures de probabilité s’écrivent en fonction des paramètres à estimer. Ces
estimateurs ne seront pas forcément très performant mais héritera tout de même des propriétés
de consistances des moments empiriques. Cette méthode fonctionnera très bien dans un modèle
Gaussie, loi de Poisson, loi exponentielle, loi géométrique, loi Bernoulli, loi Gammma,. . ., car les
différents paramètres de ces lois s’écrivent en fonction des moments.
Notation : Étant donné un échantillon (X1 , . . . , Xn ) issu d’un modèle (Hn , (P⊗n
θ )θ ), on considère
les quantités suivantes lorsqu’elles existent
— moment théorique d’ordre p : mp (θ) = Eθ [X1p ]
— moment théorique centré d’ordre p : µp (θ)P= Eθ [(X1 − Eθ [X1 ])p ]
— moment empirique d’ordre p : Up (n) = n1 ni=1 XP p
i
— moment empirique centré d’ordre p : Wp (n) = n1 ni=1 (Xi − X̄n )p
Définition 1.21. On appelle estimateur de θ ∈ Θ par la méthode des moments (EMM) la solution
θ̂M M , quand elle existe et est unique, d’un sous-système du système suivant


 U1 (n) = m1 (θ̂M M )

U2 (n) = m2 (θ̂M M )



W2 (n) = µ2 (θ̂M M ) .


 .
..



Wp (n) = µp (θ̂M M )

Exemple 1.22. 1. Prenons le modèle (Rn+ , (E(θ)⊗n )θ>0 ), on a


1
m1 (θ) = .
θ
Pour trouver l’estimateur par la méthode des moments, on remplace les moments théoriques
(dans cet exemple, il n’y en a qu’un seul) et on remplace les paramètres par les estimateurs,
on obtient donc
1
U1 (n) = .
θ̂M M
Ainsi en remplaçant U1 (n) par sa forme plus usuelle, on obtient θ̂M M = 1/X̄n .
2. Prenons un modèle avec deux paramètres à estimer, (Rn+ , (γ(a, b)⊗n )a,b>0 ), où γ(a, b) est
une loi dont la densité vaut
be−bx
∀x ∈ R, f (x; a, b) = xa−1 1x>0 .
Γ(a)
On peut montrer que (
m1 (a, b) = a/b
.
µ2 (a, b) = a/b2
Ainsi en remplaçant les moments théoriques (m1 , µ2 ) par leurs versions empiriques (X̄n , Sn2 ),
on doit résoudre le système (
X̄n = âM M /b̂M M
.
Sn2 = âM M /b̂2M M
X̄n2 X̄n
On trouve après calcul, âM M = Sn2 et b̂M M = Sn2 .

Proposition 1.23. L’estimateur θ̂M M est fortement consistant et admet une limite.

1.3.2 Estimation par la vraisemblance


Prenons le cadre simpliste où Θ = {θ1 , θ2 } et où les deux mesures du modèle Pθ1 , Pθ2 sont à
densité. Imaginons que, nous observons après une mesure la valeur 2. Dans ce cas-ci, intuitivement
quel paramètre choisit-on ?
Idée : On estime θ∗ , ou Pθ∗ , par le paramètre associé au modèle rendant le plus crédible nos
observations. Dans cet exemple, on choisirait θ̂ = θ1 , car la densité de la mesure Pθ1 est plus
importante en 2. Attention, on ne choisit pas le modèle le plus crédible car d’un point de vue
fréquentiste, ça n’a pas de sens ! Mais bien le modèle où l’on a le plus de chance de voir notre
observation.
Dans la suite, on adoptera une notation commune pour le cas continu et discret. Pour une variable
aléatoire X, on notera par f (x; θ)
— pour le cas discret : f (x; θ) = Pθ (X1 = x)
— dans le cas continue : f (x; θ) est la densité de la mesure Pθ .
Ainsi pour µ = η (mesure de comptage) ou µ = λ (mesure de Lebesgue), on a pour un borélien
A, Z
Pθ (X1 ∈ A) = f (x; θ) dµ(x).
A

Définition 1.24. Dans le cas où Qθ = P⊗n


θ , on appelle vraisemblance du modèle, la fonction
pour x1 , . . . , xn ∈ H,
n
Y
L(x1 , . . . , xn ; θ) = f (xi ; θ).
i=1

Exemple 1.25. Prenons n = 3 et H = {0, 1} avec Pp ∼ B(p) pour p ∈ {1/3, 2/3}. On observe
les résultats 0, 0, 1, quelle est la vraisemblance de cette observation ? On calcule
221 4 2
Q1/3 (X1 = 0, X2 = 0, X3 = 1) = = et Q2/3 (X1 = 0, X2 = 0, X3 = 1) = .
333 27 27
Définition 1.26. Un estimateur du maximum de vraisemblance (EMV) est un estimateur θ̂n
vérifiant
Ln (X1 , . . . , Xn ; θ̂n ) = sup Ln (X1 , . . . , Xn ; θ).
θ∈Θ

Remarque 1.27. — Ni l’existence, ni l’unicité de l’EMV est garanti dans un modèle quel-
conque. Le maximum peut avoir une forme explicite mais il est parfois nécessaire de
recourir à des méthodes d’optimisation numérique pour le déterminer, par exemple avec
une descente de gradient.
— En pratique, on considère la log-vraisemblance car il est plus simple d’étudier une somme
qu’un produit. Dans la suite, on notera log pour le logarithme népérien.
Exemple 1.28. 1. Dans l’Exemple 1.25, l’estimateur de maximum de vraisemblance vaut
1/3.
2. Dans le modèle plus général du Pile-Face ({0, 1}n , B(p)⊗n ) avec p ∈ (0, 1). Dans ce cas là,
la vraisemblance pour x1 , . . . , xn ∈ {0, 1} et p ∈ (0, 1),
n
Y
Ln (x1 , . . . , xn ; p) = pxi (1 − p)1−xi .
i=1

Cette fonction est plus facile à étudier en passant au logarithme, et fixons les observations
et considérons la fonction
h(p) = log Ln (x1 , . . . , xn ; p) = nx̄n log p + n(1 − x̄n ) log(1 − p),
1
Pn
où x̄n = n i=1 xi . L’objectif est de maximiser cette fonction. Dérivons la fonction,
nx̄n n(1 − x̄n ) n(x̄n − p)
h′ (p) = − = .
p 1−p p(1 − p)
Une étude du signe de la dérivée montre qu’un maximum est atteint en p = x̄n . Ainsi,
l’EMV de ce modèle est p̂M V = X̄n . On peut vérifier qu’il s’agit aussi d’un estimateur
obtenu par la méthode du moment.
Chapitre 2

Vraisemblance et information de Fisher

Contents
2.1 Information d’un modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Divergence de Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.3 Modèle régulier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Propriétés remarquables de l’EMV . . . . . . . . . . . . . . . . . . . . 11
2.3 Borne de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Dans le chapitre précédent, nous avons introduit un estimateur intuitivement intéressent, l’esti-
mateur de maximum de vraisemblance. Il est plus difficile à l’oeil nu de déterminer si cet esti-
mateur est performant, voir l’estimateur obtenu dans le point 3 de l’Exemple 1.28. Pour étudier
leur performance, nous allons introduire une nouvelle quantité représentant l’information d’un
modèle. Nous verrons ensuite si nos estimateurs utilisent bien cette information. On se place ici
dans des modèles discret ou à densité.

2.1 Information d’un modèle


2.1.1 Divergence de Kullback-Leibler
Un outil important pour introduire l’information d’un modèle est la divergence de Kullback-
Leibler.
Définition 2.1. Supposons que log Ln (·; α) ∈ L1 (Pθ ) pour tout α, θ ∈ Θ. La divergence de
Kullback-Leibler entre les mesures Pα et Pθ est définie par
 
Ln (X1 ; α)
κn (α; θ) = −Eθ log .
Ln (X1 ; θ)
L’information de Kullback-Leibler est une mesure de dissimilarité entre deux mesures de pro-
babilités. Si la quantité κ(α, θ) est grande alors les vraisemblances du monde α et du monde θ
sont très différentes. Ainsi les observations obtenues dans ces mondes ne se ressemblent pas, il
est donc peu probable d’estimer α par θ avec la méthode du maximum de vraisemblance.
Exemple 2.2. Reprenons le modèle du Pile-Face de l’Exemple 1.28. Pour α, θ ∈ (0, 1),
α 1−α
κn (α, θ) = −Eθ [nX̄n log
+ n(1 − X̄n ) log ]
θ 1−θ
α 1−α
= nθ log + n(1 − θ) log .
θ 1−θ
On peut vérifier que κn (α, θ) = 0 si et seulement si α = θ.

9
Proposition 2.3. Pour α, θ ∈ Θ, on a κn (α, θ) ⩾ 0 et si le modèle est identifiable alors

κn (α, θ) = 0 ⇐⇒ α = θ.

2.1.2 Information de Fisher


La divergence de Kullback-Leibler permet de quantifier la différence entre la vraisemblance du
monde Qα et le monde Qθ . Plus ces vraisemblances sont différentes, plus les observations prove-
nant de ces mondes sont différentes. Ainsi, si le vrai monde est Qθ , il est peu probable d’observer
un échantillon maximisant la vraisemblance Ln (·; α). Une quantité utile est donc de savoir la vi-
tesse de changement de θ 7→ Qθ . Pour θ ∈ Θ, on voudrait déterminer les variations de la fonction
K : α 7→ κn (α, θ). Sous des conditions de régularité, la formule de Taylor-Young nous donne que

κn (α, θ) = K ′′ (θ)(α − θ)2 + o(α − θ)2 .

Dérivons la fonction K en s’autorisant toutes les opérations,


Définition 2.4. Supposons que Θ est une ouvert et que ∇ log Ln (·; θ) ∈ L2 (Qθ ) pour chaque
θ ∈ Θ. L’information de Fisher est la quantité

In (θ) = Varθ (∇ log Ln (X1 , . . . , Xn ; θ))


= (covθ (∂i log Ln (X1 , . . . , Xn ; θ), ∂j log Ln (X1 , . . . , Xn ; θ)))1⩽i,j⩽d

L’information de Fisher est donc une matrice permettant de mesure la courbure de la divergence
de KL. Elle précise donc sa capacité à discriminer des mesures de probabilité. Dans le cas d = 1,
une grande valeur de In (θ) traduit une variation importante de la divergence et donc une variation
importante de la nature des mesures (Qθ )θ∈Θ .
Exemple 2.5. Pour le cadre du Pile-Face, nous avons pour x1 , . . . , xn ∈ {0, 1},

Ln (x1 , . . . , xn ; p) = pnx̄n (1 − p)n(1−x̄n ) .

Donc en passant au log et en dérivant


nx̄n n(1 − x̄n ) n n
∇ log Ln (x1 , . . . , xn ; p) = − = + x̄n .
p 1−p 1 − p p(1 − p)
On rappelle que la variance d’une variable X ∼ B(p) est p(1 − p), donc

n2 n
In (θ) = 2 2
Varθ (X̄n ) = ,
p (1 − p) p(1 − p)
car les observations X1 , . . . , Xn sont indépendantes. Dans ce modèle, l’incertitude est faible pour
p proche de 0 ou 1.
Proposition 2.6. Soit I l’information de Fisher du modèle à une observation (H, (Pθ )θ ), l’in-
formation de Fisher du même modèle avec n observations i.i.d. est

In (θ) = nI(θ).

2.1.3 Modèle régulier


Définition 2.7. Un modèle statistique est dit régulier si les propriétés suivantes sont vérifiées
pour chaque θ ∈ Θ,
1. son information de Fisher est inversible, i.e. In (θ) ∈ GLd (R)
2. EΘ [∇ log Ln (X1 , . . . , Xn ; θ)] = 0
3. In (θ) = −Eθ [Hess(log Ln (X1 , . . . , Xn ; θ))].
La plupart des modèles que l’on va considérer seront réguliers. En effet, nous travaillerons géné-
ralement avec des distributions provenant d’une famille de lois assez grandes.
Définition 2.8. Un modèle (R, (Pθ )θ ) est un modèle de la famille exponentielle si la densité par
rapport à la mesure η ou λ est de la forme pour x ∈ R et θ ∈ Θ,
Xm
f (x; θ) = c(θ)h(x) exp( αi (θ)Ti (x)),
i=1

avec c, h, αi et Ti des fonctions mesurables.


Cette famille comprend le modèle Bernoulli, Gaussien, Exponentielle, Gamma, Binomiale, Poisson. . .
Par contre, la loi uniforme ne fait pas partie de cette famille !
Théorème 2.9. Si la fonction θ 7→ (α1 (θ), . . . , αm (θ)) est injective et deux fois différentiables,
(x 7→ Ti (x))m 2
i=1 sont affinement indépendants et dans L (Pθ ), alors le modèle de la famille expo-
nentielle est régulier.
On ne montrera jamais qu’un modèle régulier.

2.2 Propriétés remarquables de l’EMV


Nous voyons dans cette partie plusieurs théorèmes assez généraux sont la qualité des EMV. Cette
section est hors-programme. On n’utilisera jamais les résultats dans cette partie pour montrer la
consistance ou la vitesse de cet estimateur.
Théorème 2.10. Soit (Hn , (P⊗n θ )θ∈Θ ) un modèle identifiable avec Θ compact. Si l’EMV existe,
il est consistant sous les conditions suivantes
1. pour tout x ∈ H, log Ln (x; ·) est continue sur Θ ;
2. pour tout θ ∈ Θ, il existe un voisinage V de θ vérifiant
∀x ∈ H, ∀α ∈ V, ∃H ∈ L1 (Pθ ), | log Ln (x; α)| ⩽ H(x)
Les conditions pour vérifier ce théorème sont assez lourdes et souvent pas vérifiées en pratique,
par exemple Θ compact est trop restrictif. Il est plus simple de vérifier à la main lorsque l’on a
une forme explicite de l’EMV.
Théorème 2.11. Supposons que (Hn , (P⊗n
θ )θ∈Θ ) un modèle régulier et que pour tout θ ∈ Θ, il
existe un voisinage V de θ vérifiant
∀x ∈ H, ∀α ∈ V, ∃H ∈ L1 (Pθ ), | log Ln (x; α)| ⩽ H(x),
alors si l’EMV est consistant alors pour tout θ ∈ Θ,

n(θ̂M V − θ) ⇝ N (0, I(θ)−1 )
Attention, la normalité asymptotique de l’EMV n’est pas toujours vérifiée. Prenons l’exemple
suivant basé sur un modèle non régulier.
Exemple 2.12. Pour le modèle uniforme (Rn+ , (U([0, θ])⊗n )θ>0 ), nous avons montré en TD que
l’EMV était
θ̂M V = max(X1 , . . . , Xn ).
Pour t ∈ R et θ > 0, on a
t n
 
Qθ (n(θ̂M V − θ) ⩽ t) = 1 + ,

si t ∈ [−nθ, 0] et 0 sinon. Ainsi, l’EMV vérifie
n(θ̂M V − θ) ⇝ −E(1/θ).
2.3 Borne de Cramer-Rao
On se place dans le cas où Θ ⊂ R. On rappelle que la mesure µ fait référence soit à la mesure de
comptage η soit la mesure de Lebesgue λ.

Définition 2.13. L’estimateur θ̂n est dit régulier si


Z Z
θ̂n (x1 , . . . , xn )∂θ Ln (x1 , . . . , xn ; θ) dµ = ∂θ θ̂n (x1 , . . . , xn )Ln (x1 , . . . , xn ; θ) dµ.
Hn Hn

Le théorème suivant est le résultat le plus important de ce chapitre. Il permet de relier l’infor-
mation de Fisher et l’erreur quadratique vue dans le chapitre précédent.

Théorème 2.14. Pour un estimateur régulier et sans biais, on a pour θ ∈ Θ,

R(θ̂n ; θ) ⩾ In (θ)−1 .

Le minorant In (θ)−1 s’appelle borne de Cramer-Rao. Ainsi, l’erreur quadratique d’un estimateur
ne pas être plus faible que cette borne. On voit que si l’information de Fisher est importante
alors cette borne est très faible. Ce qui permet d’avoir potentiellement des estimateurs avec une
faible erreur quadratique. Inversement, si l’information de Fisher est faible, il ne peut pas exister
d’estimateur d’estimateur sans biais ayant une erreur quadratique négligeable.

Définition 2.15. Un estimateur sans biais est dit efficace s’il atteint la borne de Cramer-Rao.

Exemple 2.16. Dans le cas du modèle Pile-Face, nous avons déjà calculé l’erreur quadratique
de la moyenne empirique, Exemple 1.13 et l’information de Fisher du modèle, Exemple 2.5. On
avait trouvé pour p ∈ (0, 1),

p(1 − p) n
R(X̄n ; p) = et In (p) = .
n p(1 − p)

Comme la moyenne empirique est sans biais, on a bien que cet estimateur est efficace.
Chapitre 3

Intervalle de confiance et test statistique

Contents
3.1 Principe général d’intervalle de confiance . . . . . . . . . . . . . . . . 13
3.1.1 Intervalle de confiance dans le cadre gaussien . . . . . . . . . . . . . . . 14
3.1.2 Intervalle de confiance asymptotique . . . . . . . . . . . . . . . . . . . . 15
3.2 Tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.1 Principe général des tests . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.2 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Mise en pratique d’un test pur . . . . . . . . . . . . . . . . . . . . . . 20
3.3.1 Test bilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3.2 Test unilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3.3 La p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 Tests du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4.1 Distribution du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.4.2 Test d’adéquation à une loi discrète . . . . . . . . . . . . . . . . . . . . . 23
3.4.3 Extension à une famille de distributions . . . . . . . . . . . . . . . . . . 24
3.4.4 Test d’indépendance du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . 25

Nous avons vu dans les chapitres précédents des manières d’estimer un paramètre inconnu θ∗ .
Malheureusement, il est quasi impossible que nos estimations θ̂n soient parfaitement égales à
θ∗ . L’idée de ce chapitre est d’introduire des estimateurs essayant de prendre en compte cette
incertitude.

3.1 Principe général d’intervalle de confiance


Soit (Hn , (Qθ )θ∈Θ ) un modèle statistique.

Définition 3.1. Soit α ∈ (0, 1), un intervalle de confiance pour θ de niveau de confiance (resp.
confiance par excès) 1 − α est une statistique I à valeur dans les intervalles de R telle que pour
chaque θ ∈ Θ,
Qθ (I ∋ θ) = 1 − α (resp. ⩾ 1 − α).

Attention, il faut interpréter cette propriété comme la probabilité que notre intervalle de
confiance contienne le paramètre θ sous Qθ est de 1 − α, et non que la probabilité que notre
paramètre soit dedans est de 1 − α. Ces formulations sont équivalentes, mais la première fait
porter l’aléatoire sur I alors que la seconde sur θ. On rappelle que θ n’est pas aléatoire.
Pour essayer de construire de tel intervalle, il nous faut connaître deux quantités,
— le comportement approximative de l’estimateur θ̂n ;

13
— les quantiles d’ordre de ce comportement.
Définition 3.2. Soit F une fonction de répartition d’une mesure de probabilité ν sur R. On
appelle quantile d’ordre r ∈ (0, 1),
qr := inf{t ∈ R | F (t) ⩾ r},
noté aussi F ← (r).
Remarque 3.3. 1. Si F est continue alors F (qr ) = r.
2. Si F est en plus strictement croissante alors qr = F −1 (r).
3. Dans le cas où ν est à densité par rapport à la mesure de Lebesgue, le quantile d’ordre
s’interprète comme le plus petit t tel que l’aire sous la courbe entre −∞ et t vaut r.
4. Dans le cas où la densité est pair, l’aire entre −∞ et q1−r est égale à l’aire entre −q1−r/2 et
q1−r/2 . C’est le cas, par exemple, de la densité de la distribution gaussienne.

3.1.1 Intervalle de confiance dans le cadre gaussien


On se place dans le modèle (Rn , (N (m, σ 2 )⊗n )m,σ2 ).

Estimation de m lorsque σ 2 est connu


Pour estimer la moyenne dans le cas gaussien, nous avons vu que la moyenne empirique était un
bon estimateur. Sous la loi Qm = P⊗n 2
m , on a X̄n ∼ N (m, σ /n). En effet, si X et Y sont deux
2
variables gaussiennes indépendantes centrées en mX et mY et de variance σX et σY2 alors leur
2
somme est encore une variable gaussienne centrée en mX + mY et de variance σX + σY2 .
Donc on connait exactement le comportement de l’estimateur X̄n et les quantiles de la loi normale
sont très bien connus. En normalisant la moyenne empirique pour se ramener à une gaussienne
centrée réduite,
√ X̄n − m
n× ∼ N (0, 1) sous Qm .
σ
Ainsi pour m ∈ R, on a en notant q1−α/2 le quantile d’ordre 1 − α/2 de la distribution gaussienne
centrée réduite, on a
√ X̄n − m
 
Qm n ⩽ q1−α/2 = 1 − α.
σ

Donc sous Qm , la probabilité que que n X̄nσ−m ∈ [−q1−α/2 , q1−α/2 ] est de 1 − α. Il suffit donc
pour trouver un intervalle de confiance d’inverser le précédent intervalle, i.e. isoler le paramètre
m et faire rentrer le reste dans l’intervalle.

√ X̄n − m
 
σq1−α/2 σq1−α/2
n ∈ [−q1−α/2 , q1−α/2 ] ⇔ X̄n − m ∈ − √ ,+ √
σ n n
 
σq1−α/2 σq1−α/2
⇔ −m ∈ −X̄n − √ , −X̄n + √
n n
 
σq1−α/2 σq1−α/2
⇔ m ∈ X̄n − √ , X̄n + √
n n
Pour la dernière équivalence, lorsque l’on multiplie par −1, il faut bien penser à changer l’ordre
des bornes car en multipliant par un réel négatif, on doit changer le sens des inégalités !
h i
σq1−α/2 σq1−α/2
Un intervalle de confiance possible pour le paramètre inconnu m est donc X̄n − √
n
, X̄n + √
n
.
Sous Qm , cet intervalle a une probabilité 1 − α de contenir le paramètre m. Analysons un peu la
taille de cet intervalle. Lorsque le nombre d’observations augmente, la taille de l’intervalle dimi-
nue, i.e. avec plus d’observations, les estimations du paramètre sont plus précises. Inversement,
si la variance σ 2 du phénomène augmente, alors l’estimation devient plus vague.
Estimation de m lorsque σ 2 est inconnu
Dans ce cas, on ne peut pas considérer le même intervalle, car il contiendrait un terme inconnu.
Nous allons donc le remplacer par une estimation. On prendra l’estimateur non biaisé
n
1 X
Sn2 = (Xi − X̄n )2 ,
n − 1 i=1

car il permettra d’avoir les résultats suivants

Théorème 3.4 (de Fisher). Dans le modèle (Rn , (N (m, σ 2 )⊗n )m,σ2 ), on a les résultats suivants,

1. n X̄nσ−m ∼ N (0, 1) ;
2
2. n Sσn ∼ χ2 (n − 1) ;

3. n X̄√n −m
2
∼ T (n − 1).
Sn

Le point 1 a déjà été détaillé dans le paragraphe précédent. Le point 2 permet d’obtenir un
intervalle de confiance lorsque l’on essaye d’estimer la variance. Le point 3 sert à estimer le
paramètre m lorsque σ nous est inconnus. La loi de Student est aussi une distribution centrée et
(n−1)
symétrique, ainsi en notant par t1−α/2 le quantile d’ordre 1 − α/2 de T (n − 1), on a


 
X̄n − m (n−1)
Qm n ⩽ t1−α/2 = 1 − α.
Sn2

Ainsi, en faisant les mêmes calculs que dans le paragraphe précédent, un intervalle de confiance
de niveau de confiance 1 − α du paramètre m est
" (n−1) (n−1) #
Sn2 t1−α/2 Sn2 t1−α/2
X̄n − √ , X̄n + √ .
n n

À noter qu’il s’agit aussi d’un IC dans le cas où σ est connu !

3.1.2 Intervalle de confiance asymptotique


Définition 3.5. Pour α ∈ (0, 1) , on appelle intervalle de confiance asymptotique de niveau de
confiance 1 − α, la suite d’intervalle de confiance In ⊂ Θ vérifiant

∀θ ∈ Θ, lim Qθ (In (X1 , . . . , Xn ) ∋ θ) = 1 − α.


n→+∞

Situation typique lorsque l’on ne connait que le comportement de l’estimateur de manière asymp-
totique, par exemple l’EMV sous des hypothèses de régularité ou la moyenne empirique avec le
TCL. On rappelle plusieurs définitions équivalentes de la convergence en loi.

Définition 3.6. Soit (Xn )n une suite de variables aléatoires et X une variable aléatoire. On dit
que la suite converge en loi vers la variable X si l’un des points suivants (équivalents) est vérifié
— pour toutes fonctions f continues bornées,

E[f (Xn )] → E[f (X)]

— En notant par (Fn )n et F les fonctions de répartitions de ces variables, pour tous points
de continuité t de F , on a Fn (t) → F (t)
— pour tous boréliens A avec P(X ∈ ∂A) = 0,

lim P(Xn ∈ A) = P(X ∈ A).


Attention, la convergence en loi est une convergence sur les distributions des variables aléatoires
et pas vraiment sur la variable en tant que telle. On rappelle aussi que cette convergence ne
possède pas les mêmes propriétés de linéarité que les convergences classiques vues durant votre
jeunesse. On interprète la convergence en loi comme le fait que le phénomène ayant comme
distribution PXn ressemble énormément au phénomène régit par PX .
Exemple 3.7. Cette fois-ci considérons le modèle uniforme (Rn+ , (U([0, θ])⊗n )θ>0 ). Pour θ > 0,
on rappelle que l’espérance de cette loi est θ/2. D’après le TCL, on a
√ X̄n − θ/2
n √ ⇝ N (0, 1),
σ2
θ2
où σ 2 = 12
. Ainsi pour n >> 1, on a

 
X̄n − θ/2
Qθ 12n ∈ [−q1−α/2 , +q1−α/2 ] ≈ 1 − α.
θ
Il faut donc inverser l’intervalle pour isoler le paramètre

 
X̄n − θ/2 X̄n 1 q1−α/2
12n ∈ [−q1−α/2 , +q1−α/2 ] ⇔ ∈ ±√
θ θ 2 12n
   
X̄n 1 q1−α/2 1 q1−α/2
⇔ ∈ max 0, − √ , + √
θ 2 2 3n 2 2 3n

 
1 2 3n 1
⇔θ∈ √ ,  √  .
X̄n 3n + q1−α/2 X̄n max 0, √ 2 3n
3n−q1−α/2

Ainsi, la probabilité que cet intervalle contient le paramètre sous Qθ vaut asymptotiquement
1 − α. On aurait pu simplifier les calculs en utilisant le lemme de Stlusky. En effet, comme
θ/X̄n → 1, on a par ce lemme
θ √ X̄n − θ/2
12n ⇝ N (0, 1) × 1.
X̄n θ
Avec des calculs similaires que dans la Section 3.1.1, on a l’intervalle est un IC asymptotique de
niveau 1 − α,  
X̄n q1−α/2 X̄n q1−α/2
X̄n − √ , X̄n + √ .
2 3n 2 3n
Théoriquement, cet intervalle est moins précis car le lemme de Slutsky rajoute des approxima-
tions.

Dans un cadre plus général, lorsque l’on essaye d’estimer la moyenne, la méthode la plus simple
est d’utiliser le TCL pour construire un intervalle de confiance asymptotique. En effet,
√ X̄n − m
n p ⇝ N (0, 1),
Sn2
donc par la définition de la convergence en loi, on a
!
√ X̄n − m
lim Qm n p ∈ [−q1−α/2 , +q1−α/2 ] = 1 − α.
n→+∞ Sn2
Donc en inversant l’intervalle, on obtient l’IC asymptotique suivant
" p p #
Sn2 q1−α/2 Sn2 q1−α/2
X̄n − √ , X̄n + √ .
n n
Remarque 3.8. Nous avons introduit dans cette section uniquement des intervalles de confiance
dit bilatéral, c’est à dire que l’on a utilisé au départ pour construire notre intervalle de confiance
l’intervalle [±q1−α/2 ]. On aurait pu utiliser ] − ∞, q1−α ] ou [−q1−α , +∞[. On aurait alors eu des
intervalles de confiance complètement différent que l’on caractérise d’unilatéral. On verra dans
la suite quel type d’intervalle est utile en fonction du problème que l’on considère.

3.2 Tests statistiques


3.2.1 Principe général des tests
Le but est de confronter deux hypothèses, l’une dite hypothèse nulle (H0 ) et l’autre dite alterna-
tive (H1 ), contradictoire avec (H0 ). À l’issu d’un test,
— soit on rejette (H0 ) ;
— soit on accepte (H0 ), on préférera la formulation ne pas rejeter (H0 ).
Il existe ainsi 4 cas possibles
Réalité
(H0 ) est vraie (H0 ) est fausse
Décision
non rejet bonne décision erreur de 2e espèce
rejet erreur de 1ere espèce bonne décision
Exemple 3.9. On testera en exercice généralement des hypothèses de la forme
— (H0 ) : "le médicament est efficace" Vs (H1 ) : "le médicament n’est pas efficace" ;
— (H0 ) : "le dé est truqué" Vs (H1 ) : "le dé n’est pas truqué" ;
— (H0 ) : "θ = 0" Vs (H1 ) : "θ < 0".
À noter que (H1 ) n’est pas forcément le complémentaire de l’hypothèse nulle.
Remarque 3.10. On verra dans la suite qu’il y a une asymétrie entre les deux hypothèses.
L’hypothèse nulle sera favorisée dans le sens qu’elle sera considéré comme vraie jusqu’à preuve
du contraire. C’est le même principe que pour la justice avec la présomption d’innocence. On
met généralement dans (H1 ) un fait que l’on essaye de découvrir. Un autre fait à retenir est
l’utilisation de la formulation non rejet au lieu de acceptation. C’est un peu le même principe
qu’en physique, nos observations ne peuvent pas prouver une théorie mais peut la réfuter ou ne
pas la réfuter. Observer un stylo tombé ne prouve pas la théorie de la gravité de Newton mais
permet juste de ne pas la rejeter car la chute de ce stylo est en accord avec les prédictions de
la théorie newtonienne. Dans le 3e point de l’exemple précédent, le test permettra de vérifier si
notre estimation du paramètre θ avec θ̂ est compatible avec le fait que θ = 0, mais en aucun cas
prouvera que le vrai paramètre est nul !
Définition 3.11. 1. Un test pur est une statistique T définie sur un modèle (Hn , (Qθ )θ∈Θ ) à
valeur dans {0, 1}. L’hypothèse (H0 ) sera rejetée si T (x) = 1 pour x ∈ Hn et pas rejeter
dans le cas contraire. L’ensemble {x ∈ Hn | T (x) = 1} s’appelle zone de rejet.
2. Un test stochastique est une statistique T : Hn → [0, 1] tel que pour une observation x, on
rejette l’hypothèse nulle avec probabilité T (x).
Dans la suite, on ne considérera que les tests purs. Ainsi, nos tests auront tous la forme T (x) = 1x∈R .
L’ensemble R sera appelé zone de rejet. Si notre observation tombe dans cette zone, on conclura
que l’observation est en désaccord (ou est peu probable) avec l’hypothèse nulle. De manière
générale, nos tests auront la forme
(H0 ) : ”Qθ∗ ∈ P0 ” V s (H1 ) : ”Qθ∗ ∈ P1 ”,
avec P0 , P1 ⊂ {Qθ , θ ∈ Θ} et P0 ∩ P1 = ∅. Avec les mains, on peut reformuler ces tests par la
question de savoir si notre monde appartient à P0 ou P1 . Lorsque ces deux ensembles sont des
singletons, on dira que le test est simple et composé dans le cas contraire.
Définition 3.12. 1. Le risque de première espèce d’un test pur est l’application

Qθ ∈ P0 7→ Eθ [T ] = Qθ (T = 1) ∈ [0, 1],

i.e. la probabilité que notre test rejette à tord dans le cas où l’on se situe dans Qθ . Lorsque
la borne supérieure de cette fonction vaut α, on dira que le risque de 1ere espèce maximale
vaut α ou que le test est de niveau α.
2. Le risque de deuxième espèce est l’application

Qθ ∈ P1 7→ 1 − Eθ [T ] = Qθ (T = 0),

i.e. la probabilité de ne pas rejeter alors qu’on aurait dû rejeter. En pratique, on considère
plutôt l’application
Qθ ∈ P1 7→ Eθ [T ] = Qθ (T = 1),
et on appelle puissance sa borne inférieure.

Un bon test doit un niveau faible et une puissance importante. Malheureusement, on ne peut
pas optimiser les deux en même. Lorsque l’on voudra faire baisser le niveau, on diminuera auto-
matiquement la puissance. En effet, pour avoir un niveau faible, il faut pouvoir facilement de ne
pas rejeter, ce qui est incompatible avec une puissance importante.

Exemple 3.13. Prenons le modèle (Rn , (N (θ, 1)⊗n )θ∈R ), pour θ0 ∈ R, étudions les hypothèses

(H0 ) : ”θ∗ = θ0 ” V s (H1 ) : ”θ∗ ̸= θ0 ”.


h i
| |
−∞ θ0 θ1 +∞

Posons la zone de rejet,


√ √
Rn := {x ∈ Rn | | n(x̄n − θ0 )| ⩾ q1−α/2 } = {x ∈ Rn | x̄n ∈ R \ [θ0 ± q1−α2 / n]}.

Pour n >> 1, on a θ1 ∈ Rn et posons le test T (X1 , . . . , Xn ) = 1(X1 ,...,Xn )∈Rn . Ainsi, si notre
observation (x1 , . . . , xn ) tombe dans Rn , on rejette sinon on ne rejette pas. Est-ce que ce choix
fonctionne ?
Pour le modèle Gaussien, on connait le comportement de la moyenne empirique, on a
√ 
Qθ0 (T (X1 , . . . , Xn ) = 0) = Qθ0 | n(X̄n − θ0 )| ⩽ q1−α/2

= Qθ0 (−q1−α/2 ⩽ n(X̄n − θ0 ) ⩽ q1−α/2 )
= 1 − α/2 − α/2 = 1 − α,

car sous (H0 ), on a n(X̄n − θ0 ) ∼ N (0, 1). Ainsi, si le vrai paramètre (inconnu) vaut bien θ0 ,
la probabilité de rejeter à tord est α. On voit aussi que si θ1 ≈ θ0 , θ1 ne sera pas dans la zone de
rejet. Raison de plus pour dire, ne pas rejeter à la place d’accepter.

On remarque que le test construit dans cet exemple s’inspire énormément de la forme de l’in-
tervalle de confiance trouvé pour l’estimation de la moyenne lorsque σ 2 est connu. En effet,
lorsque l’on possède un intervalle de confiance de niveau α, on peut construire des tests lorsque
l’hypothèse nulle est un singleton.
Exemple 3.14. Plaçons nous dans le cas où l’on confronte les deux hypothèses suivantes
(H0 ) : ”θ∗ = θ0 ” V s (H1 ) : ”θ∗ ̸= θ0 ”.
Supposons que l’on possède un intervalle de confiance I(X1 , . . . , Xn ), i.e. pour tout θ ∈ Θ,
Qθ (I(X1 , . . . , Xn ) ∋ θ) = 1 − α.
On peut alors vérifier que le test suivant
(
0 si θ0 ∈ I(X1 , . . . , Xn )
T (X1 , . . . , Xn ) = ,
1 sinon
est bien un test de niveau α car la probabilité de rejeter à tord lorsque (H0 ) est vraie est de α.
Définition 3.15. Un test T de niveau α est dit sans biais si sa puissance est supérieur à α,
∀Qθ ∈ P0 , Eθ [T ] ⩾ α.

3.2.2 Tests asymptotiques


Comme pour les intervalles de confiance, il n’est pas forcément possible de construire un test
avec un niveau exacte à n fixé. On introduit alors la notion de niveau asymptotique d’un test.
Définition 3.16. Un test Tn est asymptotiquement de niveau α si
sup lim Eθ [Tn ] = α.
Qθ ∈P0 n→+∞

Attention, on ne peut pas forcément intervertir l’ordre la borne supérieure et de la limite.


Définition 3.17. Un test sera dit convergeant si pour tout Qθ ∈ P1 ,
lim Eθ [Tn ] = 1.
n→+∞

Cette propriété signifie que si l’hypothèse (H1 ) est vraie, alors de manière asymptotique, on est
sûr de rejeter. Ca peut être le cas d’un test utilisant une statistique ayant un bon comportement
sous (H0 ) et qui explose sous (H1 ), voir Section 3.4.2.
Remarque 3.18. L’Exemple 3.14 peut s’adapter facilement au cas d’intervalle de confiance
asymptotique pour construire un test asymptotique. Cette vérification est laissée en exercice au
lecteur.
Exemple 3.19. Concentrons dans cette exemple sur le cadre Pile-Face, nous allons montrer que
le test asymptotique construit à l’aide du TCL est convergent. Prenons le modèle déjà présenté
dans l’Exemple 1.25, et confrontons les hypothèses
(H0 ) : ”p∗ = 1/2” V s (H1 ) : ”p∗ ̸= 1/2”.
On peut vérifier à l’aide du TCL que

2 n(X̄n − 1/2) ⇝ N (0, 1),
sous (H0 ) car Var(X1 ) = 1/4. Donc par la définition de la convergence en loi,

Q1/2 (2 n|X̄n − 1/2| ⩾ q1−α/2 ) → 1 − α.
Avec la zone de rejet, √
Rn = {x ∈ Rn | 2 n|x̄n − 1/2| ⩾ q1−α/2 },
on construit un test asymptotiquement de niveau α en prenant T (X1 , . . . , Xn ) = 1(X1 ,...,Xn )∈Rn .
Maintenant pour étudier la convergence, il faut se placer dans (H1 ), prenons p ̸= 1/2, alors on a
dans le cas des tests purs

√ q1−α/2
  
Ep [Tn ] = Qp (Tn = 1) = Qp (2 n|X̄n − 1/2| ⩾ q1−α/2 ) = Qp X̄n ∈ 1/2 ± √
2 n
h i
| | | |
0 1/2 p 1

L’intervalle autour de 1/2 se rétrécit lorsque n → +∞, donc à partir d’un certains rang, p sort
de cet intervalle. De plus, par la LGN, la moyenne empirique converge vers p, donc pour n grand,
on sait que √
q1−α/2
 
X̄n ̸∈ 1/2 ± √ ,
2 n
d’où la convergence du test.

3.3 Mise en pratique d’un test pur


3.3.1 Test bilatéral
Il s’agit de la forme des tests vus juste avant. La zone de rejet construite à l’aide des intervalles
de confiance se situe des deux côtés de la valeur que l’on teste. On trouve de tel test pour des
confrontations de la forme
(H0 ) : ”θ∗ = θ0 ” V s (H1 ) : ”θ∗ ̸= θ0 ”.

3.3.2 Test unilatéral


Dans certains cas, l’alternative est différente de (H1 ) : ”θ∗ ̸= θ0 ”. Il se peut que l’on essaye de
savoir si le vrai paramètre est plus grand ou plus petit qu’une certaine valeur.


”θ < θ0 ”

(H0 ) : ”θ∗ = θ0 ” V s (H1 ) : ”θ∗ > θ0 ” .

 ∗
”θ = θ1 ”
i
| |
−∞ θ0 θ1 +∞

La zone de rejet dépendra de l’alternative. Si l’alternative est à droite de l’hypothèse nulle alors
on mettra la zone de rejet à droite. Dans ce schéma la zone de rejet sera
R = {x ∈ Rn | x̄n ⩾ θ0 + δn }.
Exemple 3.20. Le temps de réaction X d’un médicament administré à une souris suit une
loi normale centrée en 19 (minutes). On suppose que l’on connait σ 2 = 1. On expérimente un
nouveau produit pour lequel on observe les temps de réaction suivants : 15, 14, 21, 12, 17, 19, 18.
La réaction est-elle plus rapide avec le nouveau produit ?
1. Formulation du problème
On va mettre en hypothèse nulle le fait que le nouveau produit n’est pas plus efficace. Pour
simplifier la calibration du niveau du test, on va réduire l’hypothèse nulle à un singleton.
On considère alors la confrontation suivante

(H0 ) : ”m = 19” V s (H1 ) : ”m < 19”.


Avec un tel test, on ne peut pas différentier si le produit agit de manière identique ou
plus lentement. Ici, on souhaite se prémunir en priorité du risque de déclarer à tord que le
produit est plus rapide. On a envie de rejeter l’hypothèse nulle si X̄n est très à gauche de
19.
2. Choix du seuil
On choisit α ∈ (0, 1). Généralement, on prendra α = 0.05 = 5%.
3. Choix de la statistique du test et de la zone de rejet
Cette partie est direction liée l’étape 1 sur la formulation du problème. Il y a trois formes
naturelles de test basées sur les trois égalités suivantes

Q19 ( n|X̄n − 19| ⩽ q1−α/2 ) = 1 − α (3.1)

Q19 ( n(X̄n − 19) ⩽ q1−α ) = 1 − α (3.2)

Q19 ( n(X̄n − 19) ⩾ −q1−α ) = 1 − α (3.3)

Pour retrouver ces résultats, on rappelle que n(X̄n − 19) ∼ N (0, 1) sous (H0 ). Il faut
maintenant déterminer laquelle de ces égalités nous allons utiliser en regardant les zones
de rejet associées
  h
q1−α/2
i
(1) √


 Q 19 X̄ n ∈ 19 ± √
n
=1−α ⇝ Rn = {x ∈ Rn | x̄n ̸∈ [19 ± q1−α/2 / n]}
  i
q1−α
i
(2) √
Q19 X̄n ∈ −∞, 19 + n √ = 1 − α ⇝ Rn = {x ∈ Rn | x̄n ̸∈] − ∞, 19 + q1−α / n]} .
  h
Q19 X̄n ∈ 19 − q√
 h
(3) √
1−α
, +∞ = 1 − α ⇝ Rn = {x ∈ Rn | x̄n ̸∈ [19 − q1−α / n, +∞[}

n

Ces trois zones de rejet permettent bien de construire un test de niveau 1 − α mais les
tests ne sont pas tous pertinent de la même manière au vue de l’hypothèse alternative.
Visualisons ces zones de rejet
h i
|
−∞ (1)
Rn 19 Rn
(1) +∞
i
|
−∞ 19 (2)
Rn +∞
h
|
−∞ Rn
(3) 19 +∞

Intuitivement, au vue de l’hypothèse alternative (H1 ) : ”m < 19”, la meilleur zone de rejet
(3)
est Rn . Sous (H1 ), on a m < 19 donc
√ √
n(X̄n − 19) ∼ N ( n(m − 19), 1),
| {z }
→−∞

donc sous (H1 ), on peut montrer que


(
Qm (T3 (X1 , . . . , Xn ) = 0) < Qm (T1 (X1 , . . . , Xn ) = 0)
,
Qm (T3 (X1 , . . . , Xn ) = 0) < Qm (T2 (X1 , . . . , Xn ) = 0)
(i)
où l’on note Ti le test associé à la zone de rejet Rn . Ainsi, le test 3 possède une meilleur
puissance, i.e. si (H1 ) est vraie, le test 3 a moins de chance de ne pas rejeter à tord.
4. Décision
On a observé X̄n = 16 et n = 8. On choisit de prendre un seuil α = 5%, donc q1−α = 1.645,
donc on rejette si la moyenne empirique est inférieur à

19 − 1.645/ 8 = 18.418.
5. Conclusion
On rejette l’hypothèse nulle en faveur de l’hypothèse alternative, donc le nouveau produit
est plus efficace que l’ancien produit.
3.3.3 La p-valeur
Lors de la conclusion, on rejette ou non. Mais peut on quantifier à quel point on rejette ? Plus
précisément, si on change le niveau de confiance, comment évolue la réponse ? Pour α ∈ (0, 1), le
test de niveau α avait la forme
Tα (x1 , . . . , xn ) = 1x∈R(α) ,
où R(α) était la zone de rejet. Dans nos exemples, ces régions étaient croissantes en α,

∀α ⩽ β, R(α) ⊂ R(β),

i.e. lorsque α diminue, la zone de rejet aussi.


i → lorsque α dminue ←

h h
| |
−∞ θ0 +∞ −∞ θ0 +∞
Un test avec un très faible niveau a forcément une petite zone de rejet, car on souhaite à tout
prix éviter de rejeter à tord, donc on prend la stratégie de rejeter difficilement.

Définition 3.21. Soit x = (x1 , . . . , xn ) une observation, on appelle p-valeur, p-value en anglais,
de l’observation la quantité

p(x) = sup {α | x ̸∈ R(α)} = inf {α | x ∈ R(α)},

i.e. la valeur α correspondant à la plus petite zone de rejet contenant notre observation.

Soit x une observation et p(x) sa p-valeur, si on fait un test au niveau α,


— on rejette si p(x) < α ;
— on ne rejette pas si p(x) > α ;
— convention à choisir si p(x) = α (mais cas impossible si on manipule des quantités conti-
nues)

R(0.05)i i iR(0.03)
i
| ×
−∞ θ0 R(0.01) +∞
R(0.1)

Ainsi, si p(x) = 0.03, on rejette si α = 0.05 mais on ne rejette pas si α = 0.01. Cette quantité me
donne plus d’information que rejeter ou ne pas rejeter. La convention autour de cette quantité
est la suivante
— p ⩽ 0.01 : très forte présomption contre (H0 )
— 0.01 < p ⩽ 0.05 : forte présomption contre (H0 )
— 0.05 < p ⩽ 0.1 : faible présomption contre (H0 )
— p > 0.1 : pas de présomption contre (H0 )
On peut interpréter la p-valeur comme la probabilité p(x) d’observer un événement plus contra-
dictoire que l’observation x lorsque l’hypothèse (H0 ) est vraie. Attention, il ne faut surtout
pas interpréter la p-valeur comme la probabilité que l’hypothèse nulle soit vraie !

3.4 Tests du χ2
Nous allons voir dans cette dernière section plusieurs tests basés sur la distribution du χ2 .
3.4.1 Distribution du χ2
Définition 3.22. Pour d ∈ N∗ , soit Z1 , . . . , Zd , d variables gaussiennes centrées réduites indé-
pendantes. On dit que X suit une loi du χ2 à d degrés de liberté si X a la même loi que
Z12 + . . . + Zd2 .
Plus le degré de liberté d est grand, plus la distribution a tendance à charger les grandes va-
leurs. Ces distributions sont des distributions possédant une densité par rapport à la mesure de
Lebesgue.

Une autre manière d’observer ce phénomène est de regarder les quantiles d’ordre. Fixonx α = 5%,
on a  (d=1)
q1−α = 3.84
 i.e. P(X ⩽ 3.84) = 0.95 si X ∼ χ2 (1)
(d=3)
q1−α = 7.81 i.e. P(X ⩽ 7.81) = 0.95 si X ∼ χ2 (3)
 (d=10)

q1−α = 18.31 i.e. P(X ⩽ 18.31) = 0.95 si X ∼ χ2 (10)

3.4.2 Test d’adéquation à une loi discrète


On se place dans le cas où notre phénomène est discret fini, i.e.
H = {a1 , . . . , ar },
et on considère l’ensemble des lois possibles suivant P = { ri=1 pi δai |
P P
pi = 1, pi > 0}. On se
demande maintenant si pour π = (p1 , . . . , pr ) ∈]0, 1[r ,
r
X r
X
(H0 ) : ”Pθ = pi δai ” Vs (H1 ) : ”Pθ ̸= pi δai ”,
i=1 i=1

i.e. est-ce que notre phénomène est régi par ri=1 pi δai ? Par exemple, avec le contexte du dé, on
P
peut se demander si notre dé est truqué, donc pi = 1/6. Pour tester cette hypothèse, on dispose
d’observations i.i.d. (X1 , . . . , Xn ). Notons par Nj le nombre de fois où aj a été observé. On sait
que d’après la LGN, sous (H0 ),
Nj p.s.
fj = p̂j = → pj ,
n
i.e. la fréquence empirique d’apparition de aj tend vers la probabilité théorique. On va donc
comparer le vecteur empirique (p̂1 , . . . , p̂r ) au vecteur π. Sous (H0 ), ces deux vecteurs doivent
être proche. Pour quantifier la notion de proche, nous allons utiliser la statistique suivante,
ressemblant à une distance,
r
X (pj − p̂j )2
Dn = .
i=1
pj
Ainsi, sous (H0 ), cette quantité doit tendre vers 0 et donc être très petit. Pour calibrer la notion
de petit ou de grand, nous allons utiliser le théorème suivant
Théorème 3.23. Dans le cas où les observations (X1 , . . . , Xn ) sont i.i.d., nous avons
1. sous (H0 ), Un = nDn ⇝ χ2 (r − 1) ;
p.s.
2. sous (H1 ), Un → +∞.
(r−1)
Ainsi, c’est la loi du χ2 (r − 1) qui va nous servir pour la calibrer la notion de grand. Notons q1−α
(r−1)
le quantile d’ordre 1 − α de χ2 (r − 1), si Un est plus petit que q1−α , on va considérer que notre
observation de Un est en accord avec (H0 ), on ne va donc pas rejeter. Alors que si Un est plus
grand que ce quantile, on considère qu’il est peu probable d’observer ceci sous (H0 ), on rejette
alors l’hypothèse nulle.
Remarque 3.24. 1. Le deuxième point nous assure que si on est sous (H1 ) alors forcément
on rejettera l’hypothèse nulle lorsque n sera très grand.
2. On effectue une approximation ! Cela fonctionne bien à condition que npj ⩾ 5, où pj est la
probabilité théorique. Si ce n’est pas le cas, il faut fusionner des classes.
3. On peut adapter ce test à des lois non discrètes infinies, en faisant des groupes. Par exemple,
si on veut tester si Pθ est une loi normale N (0, 1), on découpe R en un nombre fini de cases.

0.02 0.21 0.27 0.27 0.21 0.02

−2 −0.75 0 0.75 2

Par exemple, ici on a découpé R en 6 parties de taille différentes.


(r−1)
4. Pour déterminer la p-valeur de ce test, on cherche le plus petit α ∈ (0, 1) tel que Un > q1−α .
Par la continuité et la stricte croissance de la fonction de répartition des lois du χ2 , on
(r−1)
cherche α vérifiant Un = q1−α . Par exemple, si on observe Uobs = 7.96, la p-valeur dépendra
du nombre de degré de liberté de notre distribution :
— si r = 4 et donc r −1 = 3, la p-valeur est inférieur à 5%, on a donc une forte présomption
contre (H0 ) ;
— si r = 17 et donc r − 1 = 16, la p-valeur vaut 95%, donc aucune présomption contre
(H0 ).
Cette exemple s’interprète comme 7.96 est une grande valeur lorsque r = 4 mais petit si
r = 17.

3.4.3 Extension à une famille de distributions


Avec le point 3 de la Remarque 3.24, on peut confronter les alternatives

(H0 ) : ”Pθ = G(1/2)” Vs (H1 ) : ”Pθ ̸= G(1/2)”.

On peut par exemple diviser l’ensemble N∗ en 8 sous-ensembles, mais cela dépend du nombre
d’observations (cf point 2). Mais maintenant, si l’on souhaite confronter les alternatives

(H0 ) : ”Pθ est une loi géométrique” Vs (H1 ) : ”Pθ n’est pas une loi géométrique”,
on ne peut plus utiliser directement l’astuce précédente. En effet, dans ce cas, quelles sont les
probabilités théoriques que l’on doit utiliser ? L’idée de cette extension est d’estimer le paramètre
p de la loi géométrique à l’aide de l’EMV p̂M V puis tester si Pθ est la distribution G(p̂M V ).
De manière plus générale, notons pour j ∈ {1, . . . , r}, π̂j la probabilité de la classe j pour la
distribution Pθ̂M V . On considère alors la statistique suivante comparant les probabilités empirico-
théoriques (π̂j )rj=1 et les probabilités empiriques (p̂j )rj=1
r
X (π̂j − p̂j )2
Dn = .
j=1
π̂ j

Alors en notant q le nombre de paramètres estimés à l’aide de l’EMV, nous avons une générali-
sation du Théorème 3.23.

Théorème 3.25. Dans le cas où les observations (X1 , . . . , Xn ) sont i.i.d., nous avons
1. sous (H0 ), Un = nDn ⇝ χ2 (r − 1 − q) ;
p.s.
2. sous (H1 ), Un → +∞.

En remplaçant, les probabilités théoriques (pj )rj=1 par des probabilités empirico-théoriques (π̂j )rj=1 ,
la variable Dn peut plus facilement être petite car ces probabilités ont été construites avec l’EMV
pour coller aux données, et donc aux probabilités empiriques (p̂j )rj=1 . Pour prendre en compte ce
sur-ajustement, on diminue le degré de liberté de la distribution du χ2 pour qu’il soit plus facile
d’être grand.

3.4.4 Test d’indépendance du χ2


On considère maintenant des vecteurs i.i.d. (Y1 , Z1 ), . . . , (Yn , Zn ) de loi commune L(Y, Z) à valeurs
dans {a1 , . . . , ar } × {b1 , . . . , bs }. On note la loi inconnue du couple par p = (pi,j )1⩽i⩽r,1⩽⩽s ainsi
que les lois marginales
s
X r
X
pi,• = pi,j et p•,j = pi,j .
j=1 i=1

Nous allons tester

(H0 ) : ”les deux phénomènes sont indépendants” Vs (H1 ) : (H0 )c .

On rappelle que les deux phénomènes sont indépendants si et seulement si pi,j = p•,j pi,• . Ainsi
théoriquement, si il y a bien indépendance alors

fi,j ≈ fi,• f•,j , (3.4)

où fi,j est la fréquence empirique d’apparition de (ai , bj ), et f•,j et fi,• sont les fréquences d’ap-
parition de bj et ai . Nous allons utiliser une statistique proche des précédentes pour quantifier
l’approximation de l’équation (3.4),
s X r
X (fi,j − fi,• f•,j )2
Dn = .
j=1 i=1
fi,• f•,j

Théorème 3.26. Dans le cas où les observations (Y1 , Z1 ), . . . , (Yn , Zn ) sont i.i.d., nous avons
1. sous (H0 ), Un = nDn ⇝ χ2 ((r − 1)(s − 1)) ;
p.s.
2. sous (H1 ), Un → +∞.

Ainsi la procédure du test est identique que pour les tests d’adéquation, si Un est petit alors on
ne rejette pas sinon on rejette. La distribution qui cette fois va calibrer la notion de grand est la
loi χ2 ((r − 1)(s − 1)).

Vous aimerez peut-être aussi