0% ont trouvé ce document utile (0 vote)
72 vues75 pages

STAT 4 LICENCE Yode

Ce document est un cours de statistique inférentielle destiné aux étudiants de Licence 2 à l'UFHB, UFRMI, dirigé par le professeur Armel Yodé. Il couvre des sujets tels que les théorèmes limites, la modélisation statistique, l'estimation, les tests d'hypothèses, et les méthodes d'estimation. Le contenu est structuré en chapitres avec des sections détaillant les concepts et méthodes statistiques clés.

Transféré par

sarraouattara
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
72 vues75 pages

STAT 4 LICENCE Yode

Ce document est un cours de statistique inférentielle destiné aux étudiants de Licence 2 à l'UFHB, UFRMI, dirigé par le professeur Armel Yodé. Il couvre des sujets tels que les théorèmes limites, la modélisation statistique, l'estimation, les tests d'hypothèses, et les méthodes d'estimation. Le contenu est structuré en chapitres avec des sections détaillant les concepts et méthodes statistiques clés.

Transféré par

sarraouattara
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistique inférentielle

UFHB, UFRMI
Licence 2

prof. armel yodé


Table des matières

1 Rappels et compléments 4
1.1 Convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Théorème Central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Théorème de Slusky et méthode delta . . . . . . . . . . . . . . . . . . . . 6
1.3 Cas gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Modélisation statistique 8
2.1 Echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Exhaustivité 11
3.1 Vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4 Information de Fisher 14
4.1 Définition et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

5 Estimateurs 16
5.1 Principe général de l’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.1.1 Propriétés à distance finie . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
[Link] Loi exacte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
[Link] Biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
[Link] Risque quadratique . . . . . . . . . . . . . . . . . . . . . . . . . 18
[Link] Borne de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . 19
5.1.2 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
[Link] Convergence ou consistance . . . . . . . . . . . . . . . . . . . . 20
[Link] Normalité asymptotique . . . . . . . . . . . . . . . . . . . . . . 20

6 Méthodes d’estimation 22
6.1 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.2 Methode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 23

7 Estimation par intervalle de confiance 28


7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7.2 Construction d’un intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . 29
7.2.1 Fonction pivotale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
7.2.2 Construction d’un intervalle de confiance bilateral . . . . . . . . . . . . 29

2
TABLE DES MATIÈRES 3
[Link] Méthode non asymptotique . . . . . . . . . . . . . . . . . . . . 29
[Link] Méthode asymptotique . . . . . . . . . . . . . . . . . . . . . . . 30
7.2.3 Densité de probabilité unimodale . . . . . . . . . . . . . . . . . . . . . . . 30
7.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
7.3.1 Intervalle de confiance pour la moyenne d’une loi normale . . . . . . . 32
7.3.2 Intervalle de confiance pour la variance d’une loi normale . . . . . . . . 34
7.3.3 Intervalle de confiance pour une proportion . . . . . . . . . . . . . . . . 35
7.3.4 Intervalle de confiance pour la moyenne d’une loi quelconque . . . . . . 36

8 Généralités sur les tests d’hypothèses 37


8.1 Principe des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
8.2 Etapes des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
8.3 Construction d’un test d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . 39
8.4 La p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

9 Test d’hypothèse simple contre hypothèse simple 41


9.1 Théorème de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
9.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
9.2.1 Test sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
9.2.2 Test sur la moyenne d’un échantillon gaussien . . . . . . . . . . . . . . . 43

10 Tests de Student : un échantillon 44


10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
10.2 H0 : m ∑ m 0 contre H1 : m > m 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
10.2.1 On suppose que la variance æ2 est connue. . . . . . . . . . . . . . . . . . 44
10.2.2 On suppose æ2 est inconnue . . . . . . . . . . . . . . . . . . . . . . . . . . 46
10.3 H0 : m ∏ m 0 contre H1 : m < m 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
10.3.1 On suppose que la variance æ2 est connue. . . . . . . . . . . . . . . . . . 47
10.3.2 On suppose que la variance æ2 est inconnue. . . . . . . . . . . . . . . . . 47
10.4 H0 : m = m 0 contre H1 : m 6= m 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
10.4.1 On suppose que la variance æ2 est inconnue. . . . . . . . . . . . . . . . . 49

11 Tests de Student : deux échantillons 50


11.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
11.2 Test de Fisher de comparaison des variances . . . . . . . . . . . . . . . . . . . . 51
11.3 Test de Student de comparaison des moyennes . . . . . . . . . . . . . . . . . . . 51
11.3.1 Résolution du test lorsque les variances connues . . . . . . . . . . . . . . 52
11.3.2 Résolution du test lorsque les variances sont inconnues . . . . . . . . . 52

12 Tests de comparaison des proportions 55


12.1 Test sur la valeur d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . 55
12.2 Test de comparaison de deux proportions . . . . . . . . . . . . . . . . . . . . . . 56

13 Tests du ¬2 59
13.1 Test d’adéquation à une loi donnée . . . . . . . . . . . . . . . . . . . . . . . . . . 59
13.1.1 Cas d’une loi discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
13.1.2 Cas d’une loi continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
13.2 Test d’adéquation à une famille de lois . . . . . . . . . . . . . . . . . . . . . . . . 60
13.3 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

14 Exercices avec solutions 63


Chapitre

1 Rappels et compléments

1.1 Convergences
On considère une suite de variables aléatoires réelles ( X n )n∏1 définies sur le même espace
probabilisé (≠, A , P). On note F X n la fonction de répartition de X n et F X celle de X .
Définition 1.1.1. On dit que la suite ( X n )n∏1 converge en loi vers la variable aléatoire X et
L
on note X n °°°°°! X si
n!+1
lim F X n ( x) = F X ( x)
n!+1
en tout point x où F X est continue.
Définition 1.1.2. On dit que la suite ( X n )n∏1 converge en probabilité vers un réelle a et on
P
note X n °°°°°! X , si quelque soit " > 0,
n!+1

lim P {| X n ° X | ∏ "} = 0.
n!+1

Remarque 1.1.1. La convergence en probabilité implique la convergence en loi :


P L
X n °°°°°! X ) X n °°°°°! X .
n!+1 n!+1

Cependant si X = a où a est une constant, alors il y a équivalence entre les deux modes de
convergence
P L
X n °°°°°! a , X n °°°°°! a.
n!+1 n!+1
8
<E( X n ) °°°°°! a
n!+1 P
Proposition 1.1.1. Soit a 2 R. Si alors X n °°°°°! a.
:Var( X n ) °°°°°! 0 n!+1
n!+1

1.2 Théorèmes limites


Soient X 1 , . . . , X n des variables aléatoires indépendantes identiquement distribuées de
moyenne m et de variance æ2 > 0. Posons
1X n
Xn = X i.
n i=1

Nous nous intéressons à deux résultats importants concernant la moyenne empirique X n de


variables aléatoires indépendantes identiquement distribuées.

4
1.2. THÉORÈMES LIMITES 5
1.2.1 Lois des grands nombres
Théorème 1.2.1. Soient ( X n )n∏1 une suite de variables aléatoires réelles indépendantes iden-
tiquement distribuées telles que E( X 1 ) = m < +1 et V ar ( X n ) = æ2 . Alors, nous avons

P
X n °! E( X 1 ) = m.

Ce qu’il y a de remarquable dans la loi des grand nombres, c’est que ce résultat s’applique
quelle que soit la loi des variables aléatoires X n . Ce résultat signifie que lorsque n devient
grand, la moyenne empirique X n se réduit ”presque” à la moyenne théorique m.

Illustration de la loi des grands nombres

Générer un échantillon de taille ( X 1 , . . . , X 5000 ) de la loi exponentielle E (2)


0.5
0.4
Z2

0.3
0.2
0.1

0 1000 2000 3000 4000 5000

1:length(Z2)

1X n
1
On remarque la convergence de X i vert 2 qui est la moyenne de la loi exponentielle
n i=1
E (2).

1.2.2 Théorème Central limite


Le théorème central limite permet d’étudier la convergence en loi de la moyenne empi-
rique X n .
6 CHAPITRE 1. RAPPELS ET COMPLÉMENTS
Théorème 1.2.2. Soient ( X n )n∏1 une suite de variables aléatoires réelles indépendantes iden-
tiquement distribuées telles que E( X 1 ) = m < +1 et æ2 = var( X 1 ) > 0. Alors, nous avons
p
n( X n ° m) L p
n( X n ° m) °°°°°! N (0, æ2 ).
L
°°°°°! N (0, 1) ()
æ n!+1 n!+1

Illustration du théorème central limite


Poisson lambda= 1 n= 1 Poisson lambda= 1 n= 2

0.8
dpois(1:10, 1)

0.0 0.2 0.4


Density

Density
0.2

0.4
0.0

0.0
2 4 6 8 10 −1 0 1 2 3 4 −1 1 2 3 4

Index Z Z

Poisson lambda= 1 n= 4 Poisson lambda= 1 n= 8 Poisson lambda= 1 n= 20


0.4

0.4
0.4
Density

Density

Density
0.2

0.2
0.2
0.0

0.0

0.0
−2 0 1 2 3 −2 0 1 2 3 −2 0 1 2 3

Z Z Z

Poisson lambda= 1 n= 30 Poisson lambda= 1 n= 50 Poisson lambda= 1 n= 100


0.4

0.4
0.4
Density

Density

Density
0.2

0.2
0.2
0.0

0.0

0.0

−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3

Z Z Z
p
Autrement dit, quand n est assez grand n( Xæn °m) converge vers la loi noemale centrée
réduite N (0≥ , 1), c’est
¥ à dire que la moyenne empirique X n suit approximativement une loi
2
normale N µ, æn . En pratique, l’approximation est fréquemment réalisée dès que n ∏ 30.

1.2.3 Théorème de Slusky et méthode delta


Soit ( X n )n2N une suite suite de variables. Quel est le comportement asymptotique de
g( X n ) où g est une fonction ? Nous introduisons deux outils pour étudier le comportement
de g( X n ). Le premier est le Théorème de Slusky :
Théorème 1.2.3. Soient X n et Yn deux suites de variables aléatoires telles que :
L
X n °°°°°! X
n!+1

P
Yn °°°°°! c
n!+1
où c est une constante non nul. Alors
L
X n + Yn °°°°°! X + c
n!+1
1.3. CAS GAUSSIENS 7
L
X n Yn °°°°°! cX
n!+1

Xn L X
°°°°°! .
Yn n!+1 c
L’on peut généraliser ces résultats. Quelle condition doit vérifier une fonction g pour
que g( X n ) converge en loi (ou en probabilité) vers g( X ) dès que X n converge en loi (ou en
probabilité) ves X . Le résultat suivant permet de répondre à cette question.
Théorème 1.2.4. Soit g est une fonction continue. Alors
L L
- X n °°°°°! X =) g( X n ) °°°°°! g( X ).
n!+1 n!+1
P P
- X n °°°°°! X =) g( X n ) °°°°°! g( X ).
n!+1 n!+1

Le second outil est la méthode delta. Si


p
n(Yn ° y) °°°°°! N (0, æ2y ),
L
n!+1
p
quel est la loi asymptotique de la variable aléatoire n( g(Yn ) ° g( y)) ? C’est à dire,
p L
n( g(Yn ) ° g( y)) °°°°°! ?
n!+1

Quelles sont les conditions sur la fonction g ? La méthode delta permet de répondre à ce
type de préoccupations.
Théorème 1.2.5. Si la suite de variables aléatoires (Yn ) est asymptotiquement normale, telle
qu’il existe y et æ2y avec
p
n(Yn ° y) °°°°°! N (0, æ2y )
L
n!+1

et si g est une fonction de classe C 1 alors g(Yn ) est asymptotiquement normal


p 0
n( g(Yn ) ° g( y)) °°°°°! N (0, æ2y ( g ( y))2 ).
L
n!+1

1.3 Cas gaussiens


Théorème 1.3.1. Soient X 1 , . . . , X n des variables aléatoires indépendantes identiquement dis-
tribuées de loi normale N (m, æ2 ) avec µ 2 R et æ2 > 0. Posons

1 X n
S 2n = ( X i ° X n )2 .
n ° 1 i=1

Alors nous avons :


1. S 2n et X n sont indépendantes
µ ∂
æ2
2. X n ,! N m, .
n
( n ° 1)S 2n
3. ,! ¬2 ( n ° 1) (loi de Khi-deux à n ° 1 degrés de liberté).
æ2
p ≥ ¥
n Xn °m
4. ,! T ( n ° 1) (loi de Student à n ° 1 degrés de liberté).
Sn
Chapitre

2 Modélisation statistique

On souhaite étudier X un caractère sur une population donnée. On supposera que le


caracère X est quantitatif.

2.1 Echantillonnage
Exemple 2.1.1. Une entreprise de l’industrie textile souhaite étudier le poids et la taille des
ivoiriens et ivoiriennes de plus de 18 ans (population) afin d’ajuster au mieux ses produits
à la morphologie de ses clients.

Pour mener à bien cette étude, l’entreprise a deux solutions : le recensement ou l’échan-
tillonnage.

Recensement : il consiste à mesurer le caractère X de facon exhaustive pour tous les in-
dividus de la population. Le recensement n’est bien évidemment applicable que lorsque la
taille de la population étudiée est relativement faible.

Dans le cas où la taille de la population est grande, il faut recourir à l’échantillonnage.
L’échantillonnage se définit comme la méthode de construction d’un échantillon.

Echantillon : c’est un sous-ensemble de la population ; le nombre d’individus sélection-


nés dans l’échantillon correspond à la taille de l’échantillon, notée n ; on parle alors de
n-échantillon.

Quel est l’intérêt de constituer un échantillon ? L’idée est d’étudier le caractère pour les
individus sélectionnés dans l’échantillon afin d’en tirer de l’ information sur ce caractère
pour l’ensemble de la population. Par conséquent, d’un côté la taille n de l’échantillon doit
être suffisamment importante pour que l’on puisse obtenir une information fiable sur la po-
pulation, mais d’un autre côté elle doit être la plus petite possible afin de limiter le coût de
l’enquête.
Une question se pose alors : comment choisir les individus qui composent l’échantillon ?
On distingue deux grandes méthodes d’échantillonnage. La première repose sur un choix
déterministe des individus. On parle dans ce cas d’échantillon déterministe (ou certain) :
les individus de l’échantillon ne sont pas choisis au hasard. En pratique la méthode la plus
utilisée est celle de l’échantillonnage aléatoire.

8
2.2. MODÈLES STATISTIQUES 9
Echantillon aléatoire : c’est un échantillon dont les individus sont tirés au hasard parmi
la population. Le tirage de l’échantillon peut se faire avec remise (un même individu de la
population peut apparaı̂tre plusieurs fois dans l’échantillon) ou sans remise (chaque individu
de la population ne peut apparaı̂tre qu’une seule fois dans l’échantillon).
On considère deux situations di↵érentes conduisant à un échantillon :
- la répétition d’une expérience aléatoire
Exemple 2.1.2. On lance n fois une pièce. On note
(
1 si le lancer i est pile
Xi =
0 si lancer i est face.

S’il s’agit de la même pièce et qu’on ne modifie pas la manière dont on lance, alors on
peut dire que les X i sont indépendantes et identiquement distribuées de loi commune
la loi de Bernoulli B (1, µ ). Le paramètre µ représente la probabilité du succès, c’est à
dire la probabilité d’obtenir pile.
- la considération d’un échantillon au sein d’une population
Exemple 2.1.3. Deux candidats Kouko et Yao sont en présence d’une élection. n
personnes sont tirées au hasard parmi les électeurs et interrogées sur leurs intentions
de vote. On note (
1 si l’individu i vote Kouko
Xi =
0 si l’individu i vote Yao.
Les valeurs observées sont considérées comme étant les réalisations de variables aléa-
toires X 1 , . . . , X n indépendantes et identiquement distribuées selon la distribution fi-
nale des voix, c’est à dire la loi de Bernoulli B (1, µ ). Le paramètre µ représente la
probabilité du succès, c’est à dire la probabilité de voter pour Kouko.

2.2 Modèles statistiques


Soit X une variable aléatoire réelle (discrète ou continue) dont la loi de probabilité Pµ
dépend d’un paramètre inconnu µ .

Définition
n 2.2.1.
o On appelle modèle statistique la donnée d’une famille de lois de probabilité
d
Pµ , µ 2 £ Ω R ; £ est appelé espace des paramètre.

Définition 2.2.2. Un échantillon de X de taille n est un n-uplet ( X 1 , . . . , X n ) de variables


aléatoires indépendantes de même loi que X .

Remarque 2.2.1. Attention ! Il ne faut pas confondre l’échantillon aléatoire (collection de


variables aléatoires indiquées par une lettre majuscule) et la réalisation de cet échantillon
(notée avec des lettres minuscules) :

Echantillon : (X1, . . . , X n)

Réalisation : ( x1 , . . . , xn )

Définition 2.2.3. On appelle statistique toute variable aléatoire ne dépendant que de l’échan-
tillon ( X 1 , . . . , X n ).

Remarque 2.2.2. Une statistique est un résumé de l’échantillon.


10 CHAPITRE 2. MODÉLISATION STATISTIQUE
La statistique inférentielle a pour objectif d’avoir des informations sur le paramètre inconnu
µ en se basant sur l’échantillon ( X 1 , . . . , X n ). On part de l’échantillon pour avoir une meilleure
connaissance de la population.
Si X est une variable aléatoire réelle, alors on note :
— f ( x, µ ) si X est une variable aléatoire à densité
— f ( x, µ ) = Pµ ( X = x) si X est une variable aléatoire discrète.
n o
Exemple 2.2.1. 1. Modèle de Bernouilli : B (1, µ ), µ 2 £ =]0, 1[Ω R :

f ( x, µ ) = Pµ ( X = x) = µ (1 ° µ )1{0,1} ( x).
n o
2. Modèle gaussien : N (µ, æ2 ), µ = (µ, æ2 ) 2 £ = R £ R§+ Ω R2 :

1 ≥ 1 ¥
f ( x, µ, æ2 ) = p exp ° 2 ( x ° µ)2 .
2ºæ 2æ
n o
3. Modèle exponentiel : E (µ ), µ 2 £ = R§+ Ω R :

f ( x, µ ) = µ e°µ x 1R+ ( x).


n o
4. Modèle de Poisson : P (µ ), µ 2 £ = R§+ Ω R :

µx
f ( x, µ ) = e°µ 1N ( x).
x!
Définition 2.2.4. Le support de Pµ est l’ensemble { x : f ( x, µ ) > 0} .

Définition 2.2.5. Si toutes les lois Pµ , µ 2 £ ont un


n support commun
o alors le modèle est dit
homogène. Cela signifie que pour chaque µ 2 £, x : f ( x, µ ) > 0 ne dépend pas de µ .

Exemple
n 2.2.2.
o 1. Le modèle de Bernouilli est un modèle homogène car son support
0, 1 est indépendant de µ .
2. Le modèle uniforme {U [0,µ] , µ > 0} n’est pas homogène. En e↵et, la densité de la loi
1
uniforme sur [0, µ ] étant f ( x, µ ) = 1[0,µ] ( x), son support [0, µ ] dépendant du paramètre.
µ
Définition 2.2.6. Le modèle statistique {Pµ , µ 2 £} est identifiable lorsque l’application µ 7°!
Pµ est injective.

Exercice 2.2.1. Une élection entre deux candidats A et B a lieu : on e↵ectue un sondage à
la sortie des urnes. On interroge n votants, n étant considéré comme petit devant le nombre
total de votants, et on récolte les nombres n A et n B de voix pour A et B respectivement
( n A + n B = n, en ne tenant pas compte des votes blancs ou nuls pour simplifier).
1. Décrire l’observation associée à cette expérience et le modèle statistique engendré par
cette observation.
2. Montrer que le modèle statistique engendré par cette observation est identifiable. Ex-
hiber sa vraisemblance.
Chapitre

3 Exhaustivité

On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de probabilité dépendant d’un


paramètre inconnu µ 2 R.

3.1 Vraisemblance
Définition 3.1.1. On appelle vraisemblance d’un échantillon ( X 1 , . . . , X n ) la fonction définie
par

L ( x1 , . . . , x n , · ) : £ ! R+
n
Y
µ 7! L( x1 , . . . , xn , µ ) = f ( x i , µ ).
i =1

Exemple 3.1.1. Soit l’échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, µ ) avec µ 2
]0, 1[. X 1 suit une loi de Bernouilli B (1, µ ) si
(
x 1° x µ x (1 ° µ )1° x si x 2 {0, 1}
f ( x, µ ) = µ (1 ° µ ) 1{0,1} ( x) =
0 sinon.

La vraisemblance est
n
Y
L( x1 , . . . , xn , µ ) = f ( xi , µ)
i =1
Y n
= µ x i (1 ° µ )1° x i 1{0,1} ( x i )
i =1
≥ µ ¥P n x i
= (1 ° µ )n
i =1
1{0,1}n ( x1 , . . . , xn )
8 1 ° µ P
≥ ¥ n
x
< i =1 i
(1 ° µ )n 1°µ µ si ( x1 , . . . , xn ) 2 {0, 1}n
=
:0 sinon

Exemple 3.1.2. Soit un échantillon ( X 1 , . . . , X n ) issu d’une loi exponentielle E (µ ) avec µ > 0.
X 1 suit la loi exponentielle E (µ ) si
(
°µ x µ e°µ x si x 2 R§+
f ( x, µ ) = µ e 1R§+ ( x) =
0 sinon

11
12 CHAPITRE 3. EXHAUSTIVITÉ
La vraisemblance est
n
Y
L( x1 , . . . , xn , µ ) = µ e°µ x i 1R§+ ( x i )
i =1
Pn
= µ n e°µ i=1 x i 1(R§+ )n ( x1 , . . . , xn ).
( Pn
µ n e°µ i=1 x i si ( x1 , . . . , xn ) 2 (R§+ )n
=
0 sinon

Exemple 3.1.3. Soit un échantillon ( X 1 , . . . , X n ) issu d’une loi normale N (m, æ2 ) avec m 2 R
et æ > 0. X 1 suit la loi normale N (m, æ2 ) si
1 ° 1 ( x ° m )2
f ( x, m, æ2 ) = p e 2æ 2
2ºæ

La vraisemblance est
n
Y 1 ° 1 ( x ° m )2
L( x1 , . . . , xn , m, æ2 ) = p e 2æ 2
i =1 2ºæ
≥ 1 ¥n Pn
° 1 ( x ° m )2
= p e 2æ2 i=1 i
2ºæ

Exercice 3.1.1. 1. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de Poisson


P (µ ) avec µ > 0. Ecrire la vraisemblance.
2. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi uniforme U ([0, µ ] avec µ > 0.
Ecrire la vraisemblance.
3. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi Gamma G (Æ, Ω ) avec Æ, Ω > 0.
Ecrire la vraisemblance.

3.2 Exhaustivité
Un échantillon nous apporte une certaine information sur le paramètre µ . Lorsque l’on
résume cet échantillon par une statistique, il s’agit de ne pas perdre cette information. Une
statistique qui conserve l’information contenue dans l’échantillon sera dite exhaustive.

Définition 3.2.1. La statistique T ( X 1 , . . . , X n ) est dite exhaustive pour µ si la loi conditionnelle


de ( X 1 , . . . , X n ) sachant T ( X 1 , . . . , X n ) ne dépend pas de µ .

Le théorème ci-dessus appelé théorème de factorisation permet de trouver une statistique


exhaustive ou de justifier qu’une statistique est exhaustive.

Théorème 3.2.1. La statistique T ( X 1 , . . . , X n ) est exhaustive pour µ si et seulement si la


vraisemblance peut se factoriser sous la forme

L( x1 , . . . , xn , µ ) = g(T ( x1 , . . . , xn ), µ ) h( x1 , . . . , xn ).

Exemple 3.2.1. Soit l’échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, µ ) avec µ 2
]0, 1[.
La vraisemblance est
≥ µ ¥Pn x i
L( x1 , . . . , xn , µ ) = (1 ° µ )n
i =1
1{0,1}n ( x1 , . . . , xn )
1°µ
3.2. EXHAUSTIVITÉ 13
Nous avons
≥X
n ¥ ≥ µ ¥Pn x i
x i , µ = (1 ° µ )n
i =1
g
i =1 1 ° µ
h( x1 , . . . , xn ) = 1{0,1}n ( x1 , . . . , xn ).
Pn
Grâce au théorème de factorisation, on déduit que la statistique i =1 X i est exhaustive pour
µ.

Exemple 3.2.2. Soit un échantillon ( X 1 , . . . , X n ) issu d’une loi exponentielle E (µ ) avec µ > 0.
La vraisemblance est
Pn
L( x1 , . . . , xn , µ ) = µ n e°µ x
i =1 i 1(R§+ )n ( x1 , . . . , xn ).

Nous avons
≥X
n ¥ Pn
g x i , µ = µ n e°µ i=1 x i
i =1
h( x1 , . . . , xn ) = 1(R§+ )n ( x1 , . . . , xn ).
Pn
Grâce au théorème de factorisation, on déduit que la statistique i =1 X i est exhaustive pour
µ.

Exemple 3.2.3. Soit un échantillon ( X 1 , . . . , X n ) issu d’une loi normale N (m, æ2 ) avec m 2 R
connue et æ > 0 inconnue. La vraisemblance est
≥ 1 ¥n Pn
° 1 ( x ° m )2
L( x1 , . . . , xn , æ2 ) = p e 2æ2 i=1 i
2ºæ

Nous avons
≥X
n ¥ ≥ 1 ¥n Pn
° 1 ( x ° m )2
g ( x i ° m)2 , æ2 = p e 2æ2 i=1 i
i =1 2ºæ
h( x1 , . . . , xn ) = 1.
Pn 2
Grâce au théorème de factorisation, on déduit que la statistique i =1 ( x i ° m) est exhaustive
pour æ2 .
Exercice 3.2.1. 1. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de Poisson
P (µ ) avec µ > 0. Déterminer une statistique exhaustive pour µ .
2. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi uniforme U ([0, µ ]) avec µ > 0.
Déterminer une statistique exhaustive pour µ .
3. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi normale N (m, æ2 ) avec m 2
R, æ2 > 0. Déterminer une statistique exhaustive pour ( m, æ2 ).
Chapitre

4 Information de Fisher

4.1 Définition et propriétés


On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de probabilité Pµ admettant une
densité ou de fonction de masse f (·, µ ) avec µ 2 £ Ω R. On note
n
Y
L ( x1 , . . . , x n , µ ) = f ( xi , µ)
i =1

la vraisemblance de l’échantillon. Pour mesurer l’information contenue dans un échantillon


( X 1 , . . . , X n ), Ronald Aylmer Fisher (1890-1962) a défini la quantité ci-dessous.
Définition 4.1.1. On appelle information de Fisher au point µ apportée par l’échantillon
( X 1 , . . . , X n ) la quantité ∑≥ ¥ ∏
@ ln(L( X 1 , . . . , X n , µ )) 2
I n (µ ) = Eµ

La proposition ci-dessus donne quelques propriétés de l’information de Fisher.
Proposition 4.1.1. Nous avons :
1. I n (µ ) ∏ 0, 8µ 2 £.
2. Si X et Y sont indépendantes de lois respectives Pµ et Qµ . Notons I X (µ ), I Y (µ ) et
I ( X ,Y ) (µ ) les informations de Fisher au point µ respectivement apportées par X , Y , et
( X , Y ). Alors, nous avons :Alors, nous avons :

I ( X ,Y ) (µ ) = I X (µ ) + I Y (µ ).

Comme conséquence, l’information de Fisher I n (µ ) au point µ fournie par l’échan-


tillon ( X 1 , . . . , X n ) vérifie
I n (µ ) = nI X 1 (µ )
où I X 1 (µ ) l’information de Fisher au point µ fournie par X 1 .
3. T ( X 1 , . . . , X n ) est exhautive() I n (µ ) = I T (µ ) 8µ 2 £ où I T (µ ) est l’information de
Fisher au point µ fournie par T ( X 1 , . . . , X n ). Cette propriété permet donc d’établir
l’exhaustivité d’une statistique.
Théorème 4.1.1. Si le support de X 1 ne dépend pas de µ et si la vraisemblance µ 7! L( x1 , . . . , xn , µ )
est deux fois dérivable, alors
∑ ∏
@2 ln(L( X 1 , . . . , X n , µ ))
I n (µ ) = °Eµ .
@µ 2

14
4.2. EXEMPLES 15

4.2 Exemples
Exemple 4.2.1. Soit l’échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, µ ) avec µ 2
]0, 1[. Le support de la loi de Bernouilli {0, 1} est indépendant de µ . La vraisemblance
≥ µ ¥Pn x i
L( x1 , . . . , xn , µ ) = (1 ° µ )n
i =1
1{0,1}n ( x1 , . . . , xn )
1°µ
Pour tout ( x1 , . . . , xn ) 2 {0, 1}n , L( x1 , . . . , xn , µ ) > 0 et µ 7! L( x1 , . . . , xn , µ ) est deux fois dérivable.
La log-vraisemblance est donc
n
X n
X
ln L( x1 , . . . , xn , µ ) = x i ln(µ ) + ( n ° x i ) ln(1 ° µ )
i =1 i =1
Pn P
@2 ln L( x1 , . . . , xn , µ ) ° i =1 x i n ° ni=1 x i
= °
@µ 2 µ2 (1 ° µ )2

Ainsi, nous avons :


∑ ∏
@2 ln L( X 1 , . . . , X n , µ ) n
I n (µ ) = °Eµ = .
@µ 2 µ (1 ° µ )

Exemple 4.2.2. Soit un échantillon ( X 1 , . . . , X n ) issu d’une loi normale N (m, æ2 ) avec m 2 R
et æ > 0. La vraisemblance est
≥ 1 ¥n Pn
° 1 ( x ° m )2
L( x1 , . . . , xn , m) = p e 2æ2 i=1 i
2ºæ

Le support de la loi normale est R qui est indépendant de m. De plus la vraisemblance


m 7! L( x1 , . . . , xn , m) est infiniment dérivable. La log-vraisemblance est :
≥ ¥ p 1 Xn
ln L( x1 , . . . , xn , m) = ° n ln( 2ºæ) ° 2 ( x i ° m)2 .
2æ i=1

@2 ln L( x1 , . . . , xn , m) n
=° .
@ m2 æ2
Ainsi, nous avons : ∑ ∏
@2 ln L( X 1 , . . . , X n , m) n
I n ( m) = °Em = .
@ m2 æ2
On en déduit que l’information est d’autant plus grande que la variance est plus petite.
Exercice 4.2.1. Soit un échantillon ( X 1 , . . . , X n ) issu d’une loi normale N (m, æ2 ) avec m 2 R
et æ > 0. Déterminer l’information de Fisher au point æ2 fournie par ( X 1 , . . . , X n ).

Exercice 4.2.2. Soit X une variable aléatoire suivant une loi gamma °(a, Ω ). Nous disposons
de ( X 1 , . . . , X n ), un échantillon aléatoire de taille n de loi parente X . Déterminer l’informa-
tion de Fisher pour Ω fournie par ( X 1 , . . . , X n ).
Chapitre

5 Estimateurs

5.1 Principe général de l’estimation


On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de probabilité Pµ où µ 2 £ Ω R est
inconnu. L’objectif est d’estimer µ en se basant sur l’échantillon ( X 1 , . . . , X n ).
Définition 5.1.1. Un estimateur µbn du paramètre µ est une statistique

µbn = T ( X 1 , . . . , X n )

à valeurs dans un domaine acceptable pour µ .


— Si ( x1 , . . . , xn ) est une observation de ( X 1 , . . . , X n ), T ( x1 , . . . , xn ) est appelée estimation
de µ .
— Il faut faire la distinction entre l’estimateur de µ (qui est une variable aléatoire réelle)
et l’estimation de µ qui est une grandeur numérique.
Bien évidemment, cette statistique T ( X 1 , . . . , X n ) n’est pas choisie au hasard ! L’idée est de
trouver une statistique de sorte à fournir une bonne estimation du paramètre d’intérêt µ .
Exemple 5.1.1. Supposons que les variables aléatoires ( X 1 , . . . , X n ) un échantillon issu d’une
loi de moyenne m et de variance æ2 .
P
• La moyenne empirique X n = n1 ni=1 X i est un ”bon” estimateur de la moyenne m. On
verra dans la suite ce qu’en entend par ”bon estimateur”.
1X n
• La variance empirique Vn2 = ( X i ° X n )2 est un estimateur de la variance æ2 .
n i=1

La question est de savoir ce qu’est un ”bon estimateur”. Quelles propriètés doit satisfaire
un estimateur pour être considéré comme ”bon”? Nous devons distinguer deux cas suivant
la taille d’échantillon n :
• propriétés à distance finie (pour n fixé)
• propriétés asymptotiques (pour n ! +1).

5.1.1 Propriétés à distance finie


[Link] Loi exacte
Définition 5.1.2. La loi à distance finie (ou loi exacte) d’un estimateur correspond à la loi
valable pour toute valeur de la taille de l’échantillon n 2 N.

16
5.1. PRINCIPE GÉNÉRAL DE L’ESTIMATION 17
Remarque 5.1.1. En dehors du modèle gaussien, il est souvent difficile de déterminer la loi
exacte des estimateurs.

[Link] Biais

Définition 5.1.3. Le biais d’un estimateur µbn de µ est défini par

b n (µ ) = Eµ (µbn ) ° µ = Eµ (µbn ° µ ).

Le biais de l’estimateur est la moyenne des écarts systématiques entre µbn et µ . L’absence
d’un écart systématique entre µbn et µ se traduit par un biais nul.

Définition 5.1.4. Un estimateur µbn de µ est dit sans biais lorsque pour tout µ 2 £

Eµ (µbn ) = µ .

Dans le cas contraire, l’estimateur µbn est dit biaisé.

Exercice 5.1.1. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de moyenne m et de


variance æ2 inconnues. Montrer que :
- X n est un estimateur sans biais de m.
Le biais de X n est donné par

b ( m) = E m ( X n ) ° m
≥1 X
n ¥ 1X n
Em ( X n ) = Em Xi = Em ( X i )
n i=1 n i=1
Comme Em ( X 1 ) = . . . = Em ( X n ) = m alors nous pouvons ecrire
≥1 X
n ¥ 1X n 1X n nm
Em ( X n ) = Em Xi = Em ( X i ) = m= =m
n i=1 n i=1 n i=1 n

Finalement, nous obtenons

Em ( X n ) = m () b( m) = Em ( X n ) ° m = 0 8 m 2 R.

1X n
- La variance empirique Vn2 = ( X i ° X n )2 est un estimateur biaisé de æ2 . En déduire
n i=1
1 X n
que S 2n = ( X i ° X n )2 est un estimateur sans biais de æ2
n ° 1 i=1
n°1 2
Eæ2 (Vn2 ) = æ 6= æ2 .
n
Cependant
n°1 2
Eæ2 (Vn2 ) =
æ °! æ2
n
n n°1 2 n ≥ n ¥
æ2 = æ = Eæ2 (Vn2 ) = Eæ2 Vn2 = Eæ2 (S 2n ).
n°1 n n°1 n°1
Exercice 5.1.2. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi densité :
x ° x /µ
f ( x, µ ) = e 1R§+ ( x) µ > 0.
µ2
18 CHAPITRE 5. ESTIMATEURS
On cherche un estimateur sans biais de µ et on considère X n comme un premier essai.
Montrer que X n est biaisé, et montrez comment modifier cet estimateur pour en obtenir un
qui ne l’est pas.

Comme Eµ ( X 1 ) = . . . = Eµ ( X n )
≥1 X
n¥ 1X n Z+1
nEµ ( X 1 )
Eµ ( X n ) = Eµ Xi = Eµ ( X i ) = = Eµ ( X 1 ) = x f ( x, µ ) dx.
n i=1 n i=1 n °1
Z+1 Z Zu
x 1 +1 2 ° x/µ 1
= x 2 e° x/µ 1R§+ ( x) dx = 2 x e dx = 2 lim x2 e° x/µ dx
°1 µ µ 0 µ u!+1 0
Exercice 5.1.3. Deux recherches indépendantes font état d’échantillonnages e↵ectués auprès
d’une même population. Les seules données présentées sont les moyennes X 1 et X 2 et les
tailles des échantillons n1 et n2 . Déterminer la valeur k telle que k( X 1 ° X 2 )2 est un esti-
mateur sans biais de la variance æ2 de la population.

V ar ( X ) = E( X 2 ) ° (E( X ))2 =) E( X 2 ) = var ( X ) + (E( X ))2

[Link] Risque quadratique


On mesure la précision d’un estimateur par son risque quadratique.
Définition 5.1.5. Pour un estimateur µbn de µ , le risque quadratique est défini par
R (µbn , µ ) = Eµ (µbn ° µ )2
= var µ (µbn ) + ( b n (µ ))2

Définition 5.1.6. Soient µbn et µen deux estimateurs de µ . On dit que µbn est préférable à µen si
R (µbn , µ ) ∑ R (µen , µ ) 8µ 2 £ () R (µbn , µ ) ° R (µen , µ ) ∑ 0 µ 2 £.

Un estimateur optimal au sens du risque quadratique est l’estimateur qui a le plus petit
risque quadratique pour toute valeur de µ 2 £. Il est souvent difficile, voire impossible, de
trouver un estimateur optimal.
Remarque 5.1.2. Pour un estimateur sans biais µbn de µ , le risque quadratique est défini par
R (µbn , µ ) = var µ (µbn )

Définition 5.1.7. Soient µbn et µen deux estimateurs sans biais de µ . On dit que µbn est préférable
à µen si
var µ (µbn ) ∑ var µ (µen ) 8µ 2 £ () var µ (µbn ) ° var µ (µen ) ∑ 0 µ 2 £.
Exercice 5.1.4. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi uniforme U ([0, µ ]).
considérons les deuxestimateurs suivants : µb1 = 2 X n et µb2 = max( X 1 , . . . , X n ).
1. Montrer que µb1 est un estimateur sans biais de µ .
2. Montrer que µb2 est un estimateur biaisé de µ ; déterminer son biais ; déterminec c tel
que µb3 = cµb2 soit un estimateur sans biais de µ .
3. Déterminer la variance de µb1 et la variance de µb3 et dites lequel des deux estimateurs
est meilleur.

Etudier le signe de la fonction suivante


µ 7! var µ (µb1 ) ° var µ (µb3 )

sur l’espace £ = R§+


5.1. PRINCIPE GÉNÉRAL DE L’ESTIMATION 19
[Link] Borne de Cramer-Rao
Le résultat suivant indique que le risque quadratique d’un estimateur sans biais (i.e. sa
variance) ne peut être inférieure à une certaine borne qui dépend de l’information de Fisher.
Théorème 5.1.1. On suppose que l’information de Fisher sur µ apportée par ( X 1 , . . . , X n )
existe et est strictement positive pour tout µ . Soit µbn un estimateur sans biais de µ . Alors
nous avons
1
var µ (µbn ) ∏ 8µ 2 £.
I n (µ )
1
La borne BRC (µ ) = est appelée borne de Cramer-Rao.
I n (µ )
Remarque 5.1.3. Si µbn est un estimateur sans biais de h(µ ) alors
( h0 (µ ))2
var µ (µbn ) ∏ .
I n (µ )
Dans ce cas, la borne de Cramer-Rao pour l’estimation sans biais de h(µ ) est :
( h0 (µ ))2
BCR (µ ) = .
I n (µ )
Exemple 5.1.2. Soit l’échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, µ ) avec µ 2
]0, 1[. L’information de Fisher est
n
I n (µ ) = .
µ (1 ° µ )
Ainsi la borne de Cramer-Raopour l’estimation sans biais de µ est :
1 µ (1 ° µ )
BCR (µ ) = = .
I n (µ ) n
Exemple 5.1.3. Soit un échantillon ( X 1 , . . . , X n ) issu d’une loi normale N (m, æ2 ) avec m 2 R
inconnue et æ > 0 connue. L’information de Fisher est
n
I n ( m) = .
æ2
Ainsi la borne de Cramer-Rao pour l’estimation sans biais de m est :
1 æ2
BCR ( m) = = .
I n ( m) n
Définition 5.1.8. Un estimateur µbn de µ est dit efficace si
- µbn est sans biais
° ¢
- var µ µbn = BCR (µ ).
Exercice 5.1.5. Soit un échantillon ( X 1 , . . . , X n ) issu d’une loi normale N (m, æ2 ) avec m 2 R
1X n
inconnue et æ > 0 connue. Montrer que X n = X i est un estimateur efficace de m.
n i=1

Il suffit de montrer que


— Em ( X n ) = m
≥ ¢ 1 æ2
— var m X n = =
I n ( m) n
≥ ¢ ≥1 Xn ¢ 1 ≥X n ¢ 1 ≥X
n ¥
var m X n = var m X i = 2 var m Xi = 2 var m ( X i )
n i=1 n i =1 n i=1
car les varibales X 1 , . . . , X n sont indépendantes.
20 CHAPITRE 5. ESTIMATEURS
5.1.2 Propriétés asymptotiques
[Link] Convergence ou consistance
Définition 5.1.9. Un estimateur µbn de µ est dit asymptotiquement sans biais lorsque pour
tout µ ,
Eµ (µbn ) °°°°°! µ .
n!+1

Définition 5.1.10. µbn est un estimateur convergent (ou consistant) de µ si


P
µbn °°°°°! µ lorsque n ! +1
n!+1

c’est à dire ≥Ø Ø ¥
Ø Ø
8" > 0 lim P صbn ° µ Ø ∏ " = 0.
n!+1

Interprétation : La convergence est une des propriétés les plus importantes pour un estima-
teur. On a la garantie qu’à un rang n assez grand et avec grande probabilité, µbn soit proche
du paramètre µ .
Exercice 5.1.6. Considerons un échantillon ( X 1 , . . . , X n ) issu d’une loi de moyenne m et
1X n
variance æ2 > 0. Montrer la moyenne empirique X n = X i est un estimateur convergent
n i=1
de m.
Solution 1. loi des grands nombres.
Solution 2. Inégalité de Bienaymé-Tchebythcev + Théorème des gendarmes. Pour tout
">0
≥Ø Ø ¥ ≥Ø Ø ¥ var ( X )
Ø Ø Ø Ø m n
0 ∑ Pm Ø X n ° mØ > " = Pm Ø X n ° Em ( X n )Ø > " ∑
"2

Solution 3. Comme Em ( X n ) = m, il suffit de montrer que var m ( X n ) °! 0 pour conclure.

[Link] Normalité asymptotique


Définition 5.1.11. Un estimateur µbn de µ est dit asymptotiquement normal si
p ° ¢ L
n µbn ° µ °°°°°! N (0, æ2µ ) n ! +1
n!+1

où æ2µ est à déterminer.


Interprétation : La normalité asymptotique est une propriété plus précise qui indique que
la fluctuation de l’estimateur autour de µ est approximativement normale.
Exemple 5.1.4. Considerons un échantillon ( X 1 , . . . , X n ) issu d’une loi de moyenne m et
1X n
variance æ2 > 0. Montrer la moyenne empirique X n = X i est un estimateur asymptoti-
n i=1
quement normal de m.
Solution. Le Théorème Central Limite permet de répondre à cette question.
Exemple 5.1.5. Considerons un échantillon ( X 1 , . . . , X n ) issu d’une loi de moyenne m et
2
≥1 X
n ¥2
variance æ2 > 0. Montrer la moyenne empirique X n = Xi est un estimateur asymp-
n i=1
totiquement normal de m2 .
Solution. Pour repondre à la question, on utlise la delta-method.
5.1. PRINCIPE GÉNÉRAL DE L’ESTIMATION 21
• D’après le Théorème Central Limite, nous avons
p
n( X n ° m) °°°°°! N (0, æ2 )
L
n!+1

• En posant g( x) = x2 , g0 ( x) = 2 x et g est classe C 1 sur £ = R et on a


p 2
n( X n ° m2 ) °°°°°! N (0, æ2 £ (2 m)2 ) = N (0, 4 m2 æ2 ).
L
n!+1

C’est à dire p 2
n( X n ° m2 ) °°°°°! N (0, 4 m2 æ2 )
L
n!+1
Chapitre

6 Méthodes d’estimation

On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de probabilité Pµ avec µ inconnu.

6.1 Méthode des moments


Principe de la méthode :
— Trouver des fonctions g et q telles que

E( g( X 1 ) = q(µ ). (6.1.1)

Il faudrait choisir de préférence q bijective.


— Remplacer dans (6.1.1), la moyenne théorique par la moyenne empirique :

1X n
g ( X i ) = q (µ ) (6.1.2)
n i=1

— Résoudre (6.1.2) ; si q est bijective alors l’estimateur par la méthode des moments
est donné par :
≥1 X
n ¥
µbn = q°1 g( X i ) .
n i=1

Exemple 6.1.1. Considérons l’échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, µ )


avec µ 2]0, 1[.
1. Etape 1 : Eµ ( X 1 ) = µ ; g( X 1 ) = X 1 et q(µ ) = µ .
2. Etape 2 : X n = µ .
3. Etape 3 : On conclut que l’estimateur est µbn = X n

Exemple 6.1.2. Considérons l’échantillon ( X 1 , . . . , X n ) issu d’une loi exponentielle E (µ ) avec


µ > 0.
1. Etape 1 : Eµ ( X 1 ) = µ1 ; g( X 1 ) = X 1 et q(µ ) = µ1 . est bijective.
2. Etape 2 : X n = µ1 .
1
3. Etape 3 : On conclut que l’estimateur est µbn =
Xn

Exemple 6.1.3. Considérons l’échantillon ( X 1 , . . . , X n ) issu d’une loi exponentielle E (µ ) avec


µ > 0.

22
6.2. METHODE DU MAXIMUM DE VRAISEMBLANCE 23
1. Etape 1 :
1 1
Eµ ( X 12 ) = var µ ( X 1 ) + (E µ ( X 1 ))2 = +
µ2 µ2
g( x) = x2 et q(µ ) = µ22 est bijective.
P
2. Etape 2 : n1 ni=1 X i2 = µ22 .
3. Etape 3 :
s
2
µ= 1 Pn 2
n i =1 X i

On conclut que l’estimateur est


s
2
µbn = 1 Pn 2
n i =1 X i

Exercice 6.1.1. Pendant une année, un assureur a enregistré les montants de sinistres sui-
vants
{500, 1000, 1500, 2500, 4500}.

Il décide de modéliser ces données par une loi Log-normale(µ, æ2 ). En utilisant la méthode
des moments, estimer les paramètres µ et æ2 . Calculer ensuite la probabilité d’avoir un si-
nistre supérieur à 4 500.

Les montants sont en milliers de francs.

Exercice 6.1.2. Soit ( X 1 , . . . , X n ) un échantillon d’une population de loi uniforme sur [µ , 1].
Déterminer par la méthode des moments l’estimateur de µ . Etudier ses propriétés.

Exercice 6.1.3. Soit ( X 1 , . . . , X n ) un échantillon d’une population de loi gamma °(2, Ω ) avec Ω
inconnu. Déterminer par la méthode des moments l’estimateur de Ω . Etudier ses propriétés.

6.2 Methode du maximum de vraisemblance


La vraisemblance de l’échantillon ( X 1 , . . . , X n ) est donnée par
n
Y
L n ( x1 , . . . , x n , µ ) = f ( x i , µ ).
i =1

Dans le cas d’une loi discrète


n
Y
L n ( x1 , . . . , x n , µ ) = Pµ ( X i = x i ).
i =1

Pour un échantillon de taille 1


L 1 ( x, µ ) = Pµ ( X 1 = x).

Principe de la méthode : Choisir comme estimateur la statistique µbn , la valeur de µ qui


maximise la vraisemblance L n ( X 1 , . . . , X n , µ ) :

Définition 6.2.1. µbn est un estimateur du maximum de vraisemblance de µ si

8µ 2 £ L n ( X 1 , . . . , X n , µbn ) ∏ L n ( X 1 , . . . , X n , µ ).
24 CHAPITRE 6. MÉTHODES D’ESTIMATION
La recherche d’un maximum de la vraisemblance n’est pas forcément réduite à un simple
calcul des zéros de la dérivée de L. Cependant, ce cas étant le plus fréquent, il est logique
de poser les deux hypothèses suivantes :
— le support X (≠) ne dépend pas de µ .
— la vraisemblance L est deux fois continûment dérivable par rapport µ .
Alors µbn est solution du système :
8
> @L n ( X 1 , . . . , X n , µ )
>
> (µ̂n ) = 0
>
> @µ
<
>
>
>
> 2
> @ L n ( X 1 , . . . , X n , µ)
: (µ̂n ) < 0.
@µ 2
Puisque la fonction logarithme est croissante, vu la forme de L, il est aussi aisé d’utiliser
le logarithme de la vraisemblance si f ( x, µ ) > 0, 8 x 2 X (≠), 8µ . Un estimateur du maximum
de vraisemblance maximise le logarithme de la vraisemblance L n ( X 1 , . . . , X n , µ ) :
n
X
ln(L n ( X 1 , . . . , X n , µ )) = ln( f ( X i , µ ).
i =1

Un estimateur du maximum de vraisemblance µ̂n est alors solution du système


8
> @ ln(L n ( X 1 , . . . , X n , µ ))
>
> (µ̂n ) = 0
>
> @µ
<
>
>
>
> 2
: @ ln(L n ( X 1 , . . . , X n , µ )) (µ̂n ) < 0.
>
@µ 2
Proposition 6.2.1. Si T ( X 1 , . . . , X n ) est une statistique exhaustive pour µ , l’estimateur du
maximum de vraisemblance µbn en dépend.
Proposition 6.2.2. Si µbn est un estimateur du maximum de vraisemblance de µ alors h(µbn )
est un estimateur du maximum de vraisemblance de h(µ ).
Exemple 6.2.1. Soit l’échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, µ ) avec µ 2
]0, 1[. La vraisemblance de ( x1 , . . . , xn ) issu d’une loi de Bernouilli est :
n
Y
L( x1 , . . . , xn , µ ) = µ x i (1 ° µ )1° x i 1{0,1} ( x i )
i =1
≥ µ ¥Pn x i
= (1 ° µ )n
i =1
1{0,1}n ( x1 , . . . , xn ).
1°µ
Pour tout ( x1 , . . . , xn ) 2 {0, 1}n , la log-vraisemblance est donnée
n
X n
X
ln L( x1 , . . . , xn , µ ) = x i ln(µ ) + ( n ° x i ) ln(1 ° µ )
i =1 i =1
Pn Pn
i =1 x i n° i =1 x i
@ ln L( x1 , . . . , xn , µ ) 1X n
= ° = 0 () µ = xi = xn
@µ µ (1 ° µ ) n i=1
2
@ ln L( x1 , . . . , xn , µ ) ° nx n n ° nx n
(xn ) = ° < 0.
@µ 2 x2n (1 ° x n )2

L’estimateur du maximum de vraisemblance de µ est donné par

µ̂n = X n .
6.2. METHODE DU MAXIMUM DE VRAISEMBLANCE 25
Etude des propriétés de µ̂n .

1. D’après la loi des grands nombres, X n est un estimateur convergent de µ .


2. D’après le Théorème Central limite X n est asymptotiquement normal :
p L
n( X n ° µ ) °°°°°! N (0, µ (1 ° µ )).
n!+1

3. X n est un estimateur efficace de µ .

Exemple 6.2.2. Soit un échantillon ( X 1 , . . . , X n ) issu d’une loi exponentielle de paramètre


µ > 0. La vraisemblance de ( x1 , . . . , xn ) est
n
Y
L( x1 , . . . , xn , µ ) = µ exp(°µ x i )1IR§+ ( x i )
i =1
≥ n
X ¥
= µ n exp ° µ x i 1(R§+ )n ( x1 , . . . , xn ).
i =1

Pour tout ( x1 , . . . , xn ) 2 (R§+ )n , on a


n
X
ln(L( x1 , . . . , xn , µ )) = n ln(µ ) ° µ xi
i =1

@ ln L( x1 , . . . , xn , µ ) n Xn 1
= ° x i = 0 () µ =
@µ µ i=1 xn
@2 ln L( x1 , . . . , xn , µ ) ≥ 1 ¥
= ° nx2n < 0.
@µ 2 xn

L’estimateur du maximum de vraisemblance de µ est donné par


1
µ̂n = .
Xn

Pour montrer que µ̂n est biaisé (ou sans biais), il faut calculer
µ ∂ µ ∂ µ ∂
1 n 1
E = E Pn = n £ E Pn
Xn i =1 X i i =1 X i

Comme les variables X i sont indépendantes et de même loi E (µ ) = °(1, µ ), on en déduit que
n
X
Xi °( n, µ ).
i =1

Si X °(a, µ ), Y °( b, µ ) et X et Y sont indépendantes alors

X +Y °(a + b, µ )

n
X
Posons Z = X i , nous avons
i =1

µn
Z °( n, µ ) () f Z ( z, µ ) = z n°1 e°µ z 1R+§ ( z)
°( n)
26 CHAPITRE 6. MÉTHODES D’ESTIMATION
Finalement
µ ∂ µ ∂
1 n
E = E Pn
Xn i =1 X i
µ ∂
1
= n £ E Pn
i =1 X i
µ ∂ n
1 X
= n£E Z= Xi
Z i °1
Z+1
1
= f Z ( z, µ ) dz
°1 z
Z
µn +1
= z n°2 e°µ z dz
°( n) 0
Z+1
µn
= z(n°1)°1 e°µ z dz
°( n) 0
µn °( n ° 1)
= £
°( n) µ n°1
Utiliser la formule suivante :

Z+1
°(a)
= xa°1 e°Ω x dx
Ωa 0
°( n) = ( n ° 1)°( n ° 1) n entier ∏ 1
Z+1
°(a) = xa°1 e° x dx.
0

Après les calculs, on obtiendra


µ ∂
1 n
E = µ 6= µ .
Xn n°1

Etude des propriétés de µ̂n .


1. D’après la loi des grands nombres, on a :
P 1
X n °°°°°! .
n!+1 µ
Comme, l’application x 7! 1x est continue sur R§+ , alors
1 P
°°°°°! µ .
Xn n!+1

2. D’après le Théorème Central limite X n est asymptotiquement normal :


p ≥ 1¥ L ≥ 1¥
n Xn ° °°°°°! N 0, 2 .
µ n!+1 µ
1 0
Comme, l’application g : x 7! x est dérivable sur R§+ et g ( x) = ° x12 , on obtient par la
delta-méthode : ≥ 1 0 ¥
p
n( g( X n ) ° g(1/µ )) °°°°°! N 0, 2 ( g (1/µ ))2 .
L
n!+1 µ
c’est à dire
p ≥ 1 ¥
° µ °°°°°! N (0, µ 2 ).
L
n
Xn n !+1
6.2. METHODE DU MAXIMUM DE VRAISEMBLANCE 27
3. µ̂n est un estimateur biaisé de µ . Il ne peut donc pas être efficace.
Exercice 6.2.1. Soit X la variable aléatoire représentant le montant d’un sinistre. On suppose
X 7! E (∏). Pour des contrats d’assurance comportant une franchise forfaitaire de 100 $ et une
limite supérieure de 3 000 $, les montants de sinistres suivants ont été payés par l’assureur :

{100, 200, 250, 425, 515, 630, 1000, 1500, 2900, 2900}.

Estimer le montant espéré d’un sinistre par la méthode du maximum de vraisemblance.

Exercice 6.2.2. Soit ( X 1, . . . , X n ) un échantillon issu d’une population de loi géométrique de


paramètre p. Déterminer par la méthode du maximum de vraisemblance l’estimateur de p.
Etudier ses propriétés.
Exercice 6.2.3. Soit ( X 1, . . . , X n ) un échantillon issu d’une population de loi uniforme U ([0, µ ])
avec µ > 0. Déterminer par la méthode du maximum de vraisemblance l’estimateur de µ . Etu-
dier ses propriétés.
Chapitre

Estimation par intervalle de


7 confiance

En estimation ponctuelle, on ne propose qu’une seule valeur pour le paramètre d’intérêt.


Il n’y a quasiment aucune chance que cette valeur soit la vraie valeur. L’objectif de ce
chapitre est de proposer une fourchette de valeurs possibles, tout un intervalle, ni trop gros,
pour qu’il soit assez informatif, ni trop petit, pour qu’on soit raisonnablement sûr qu’il
contienne la vraie valeur.

7.1 Introduction
Définition 7.1.1. Soit Æ 2]0, 1[ ; on appelle intervalle de confiance pour le paramètre µ de
niveau de confiance égale à 1 ° Æ, un intervalle aléatoire I ( X 1 , . . . , X n ) Ω £ tel que

Pµ ( I ( X 1 , . . . , X n ) 3 µ ) = 1 ° Æ.

Définition 7.1.2. On dira que un intervalle aléatoire I ( X 1 , . . . , X n ) est un intervalle de confiance


pour le paramètre µ de niveau de confiance asymptotique égale à 1 ° Æ si

lim Pµ ( I ( X 1 , . . . , X n ) 3 µ ) = 1 ° Æ.
n!+1

Lorsque
I ( X 1 , . . . , X n ) = [T n§ ( X 1 , . . . , X n ), T n§§ ( X 1 , . . . , X n )]
où T n§ ( X 1 , . . . , X n ) et T n§§ ( X 1 , . . . , X n ) sont des statistiques à valeurs dans £, on parle d’inter-
valle de confiance bilatéral. Dans le cas où

I ( X 1 , . . . , X n ) = [T n§ ( X 1 , . . . , X n ), +1[

ou
I ( X 1 , . . . , X n ) =] ° 1, T n§ ( X 1 , . . . , X n )],
on parle d’intervalle de confiance unilatéral.
Remarque 7.1.1. Dans l’univers des échantillons possibles, pour une proportion au moins
1 ° Æ d’entre eux, on obtient un intervalle qui contient µ .

Remarque 7.1.2. A Æ fixé, l’intervalle de confiance est d’autant meilleur que sa longueur est
petite.
Remarque 7.1.3. On doit comprendre un intervalle de confiance de niveau 1 ° Æ comme un
intervalle aléatoire qui a une probabilité 1 ° Æ de contenir le vrai parametre µ .

28
7.2. CONSTRUCTION D’UN INTERVALLE DE CONFIANCE 29
Définition 7.1.3. Soit X une variable aléatoire réelle de fonction de répartition F ( x) = P( X ∑
x). Pour Æ 2]0, 1[, on appelle quantile (ou fractile) d’ordre Æ de la loi de X le nombre

q Æ = inf { x 2 R, F ( x) ∏ Æ} .

Lorsque la fonction de répartition F est continue et strictement croissante, elle est inversible
d’inverse F °1 et pour tout Æ 2]0, 1[, on a qÆ = F °1 (Æ).

7.2 Construction d’un intervalle de confiance


1. Construction de la fonction pivot (ou pivotale)
2. Détermination des constantes
3. Pivotement

7.2.1 Fonction pivotale


Définition 7.2.1. On appelle fonction pivotale pour µ toute fonction de l’échantillon et de µ ,
¡( X 1 , . . . , X n , µ ) dont la loi ne dépend pas de µ .

Définition 7.2.2. Une fonction asymptotiquement pivotale pour µ est une variable aléatoire,
¡( X 1 , . . . , X n , µ ) qui converge en loi vers une variable aléatoire dont la loi ne dépend pas de
µ.

7.2.2 Construction d’un intervalle de confiance bilateral


[Link] Méthode non asymptotique
1. Soit ¡( X 1 , . . . , X n , µ ) une fonction pivotale pour µ .
2. Pour un seuil Æ 2]0, 1[ fixé, soient q1 et q2 tels que
h i
Pµ q 1 ∑ ¡ ( X 1 , . . . , X n , µ ) ∑ q 2 = 1 ° Æ

c’est à dire
h i
Pµ ¡( X 1 , . . . , X n , µ ) ∑ q 1 = Æ1
h i
Pµ ¡( X 1 , . . . , X n , µ ) ∏ q 2 = Æ2

avec Æ1 + Æ2 = Æ.
3. La double inéquation

q 1 ∑ h( X 1 , . . . , X n , µ ) ∑ q 2 (7.2.1)

peut se résoudre (ou ”pivoter”) en µ selon

T1 ( X 1 , . . . , X n ) ∑ µ ∑ T2 ( X 1 , . . . , X n ),

on en déduit immédiatement un intervalle de confiance bilatéral pour µ de niveau de


confiance 1 ° Æ.
30 CHAPITRE 7. ESTIMATION PAR INTERVALLE DE CONFIANCE
[Link] Méthode asymptotique

- Soit T n un estimateur de µ tel que

Tn ° µ L
°°°°°! N (0, 1)
s n (µ ) n!+1

où s n (µ ) est une fonction continue de µ .


Tn ° µ
- Si la fonction pivote pour isoler µ , on obtient l’intervalle de confiance appro-
s n (µ )
chée.
- Sinon T n étant convergeant, moyennant la continuité de s n (quelque soit n), on
obtient
Tn ° µ L
°°°°°! N (0, 1).
s n (T n ) n!+1

Le pivotement est alors immédiat.

Remarque 7.2.1. Pour les intervalles de confiance unilatéraux, on utilise la méthode ci-
dessus.

7.2.3 Densité de probabilité unimodale


Définition 7.2.3. Une densité de probabilité f sur R est unimodale autour d’un mode s’il
existe x§ un mode tel que f croissante sur ] ° 1, x§ ] et f décroissante sur [ x§ , +1[.

Proposition 7.2.1. Soit f une densité unimodale et [a, b] unintervalle satisfaisant


Zb
i) f ( x) dx = 1 ° Æ
a

ii) f (a) = f (b) > 0


iii) a ∑ x§ ∑ b où x§ est le mode de f .
Alors [a, b] est l’intervalle le plus court parmi tous les intervalles satisfaisant i).

Exemple 7.2.1. 1. La loi normale centrée-réduite. L’intervalle le plus court est de la


Æ
forme [°b, b] où b = z1° Æ2 est le quantile d’odre 1 ° de N (0, 1).
2
En e↵et, f (a) = f ( b) , a = °b et si X ,! N (0, 1)

Æ
P(° b ∑ X ∑ b) = 1 ° Æ , P( X ∑ b) = 1 ° .
2

2. La loi de Student T (n). L’intervalle le plus court est de la forme [°b, b] où b = t(1n°) Æ
2
Æ
est le quantile d’odre 1 ° de T (n).
2

Loi normale centrée-réduite

> curve(dnorm(x),-3,3)
7.2. CONSTRUCTION D’UN INTERVALLE DE CONFIANCE 31

0.4
0.3
dnorm(x)

0.2
0.1
0.0

−3 −2 −1 0 1 2 3

x
32 CHAPITRE 7. ESTIMATION PAR INTERVALLE DE CONFIANCE
Loi de Student

0.4
0.3
dnorm(x)

0.2
0.1
0.0

−3 −2 −1 0 1 2 3

Proposition 7.2.2. Nous avons le résultat suivant :

L
T ( n) °°°°°! N (0, 1)
n!+1

7.3 Exemples

7.3.1 Intervalle de confiance pour la moyenne d’une loi normale


Considérons un échantillon ( X 1 , . . . , X n ) issu d’une loi normale N (µ, æ2 ) avec µ = (µ, æ2 ).

Si X ,! N (µ, æ2 ) alors
X °m
,! N (0, 1)
æ

1. æ2 connue et estimation de µ. Nous savons que X n est un estimateur efficace de µ.


De plus
µ ∂ p
æ2 n ( X n ° µ) X n ° µ
X n ,! N µ, , = p ,! N (0, 1).
n æ æ/ n
7.3. EXEMPLES 33
p
n ( X n ° µ)
Par suite est une fonction pivot. Ainsi, nous obtenons
æ
√ p !
n ( X n ° µ)
P ° z1° ∑
Æ ∑ z1° = 1 ° Æ
Æ
2 æ 2

soit µ æ z1° Æ æ z1° Æ ∂


P Xn ° p 2 ∑ µ ∑ Xn + p 2 = 1°Æ
n n
i.e.

L’intervalle de confiance de niveau 1 ° Æ de la moyenne µ lorsque æ2 est connue est


∑ ∏
æ æ
Xn ° z1° Æ p , Xn + z1° Æ p
2 n 2 n

où z1° Æ2 est le quantile d’ordre 1 ° Æ2 de la loi normale centrée réduite N (0, 1)

Remarque 7.3.1. On appelle marge d’erreur la quantité


æ
ME = z1° Æ p .
2 n

Taille d’échantillon. Fixons " > 0. Nous cherchons à choisir une taille d’échantillon
telle que ME ∑ ". Ainsi, on cherche la taille n d’échantillon tel que
æ
|µ ° X̄ n | ∑ z1° Æ p ∑ "
2 n

c’est à dire
æ2 z12° Æ
2
n∏ .
"2

2. æ2 inconnue et estimation de µ. Nous avons le résultat suivant


p ≥ ¥
n Xn °µ 1 X n
,! T ( n ° 1) avec S2 = ( X i ° X n )2 .
S n ° 1 i=1

Cette variable aléatoire est une fonction pivotale pour µ. De plus la densité de la loi
de Student vérifie les hypothèses de la Proposition 7.2.1. Ainsi,
0 p ≥ ¥ 1
n Xn °µ
P @° t 1° Æ ∑ ∑ t 1° Æ A = 1 ° Æ
2 S 2

où t1° Æ2 est le quantile d’ordre 1 ° Æ2 de la loi de Student à n ° 1 degrés de liberté. Il


s’ensuit que
µ ∂
S S
P Xn °t 1° Æ2 p ∑ µ ∑ X n + t 1° 2 p = 1 ° Æ.
Æ
n n
34 CHAPITRE 7. ESTIMATION PAR INTERVALLE DE CONFIANCE
L’intervalle de confiance pour µ de niveau 1 ° Æ lorsque æ2 est inconnue est
h S S i
X n ° t 1° Æ p , X n + t 1° Æ p
2 n 2 n

où z1° Æ2 est le quantile d’ordre 1 ° Æ2 de la loi de Student à n ° 1 degrés de liberté T (n ° 1)


S
Nous remarquons que |µ ° X̄ n | ∑ t1° Æ2 p .
n
Remarque 7.3.2. On appelle marge d’erreur la quantité

S
ME = t 1° Æ p .
2 n

Taille d’échantillon. Fixons " > 0. Nous cherchons à choisir une taille d’échantillon
telle que ME ∑ ". Ainsi, on cherche la taille n d’échantillon tel que

S
|µ ° X̄ n | ∑ t 1° Æ p ∑ "
2 n

c’est à dire
S 2 t21° Æ
2
n∏ .
"2

7.3.2 Intervalle de confiance pour la variance d’une loi normale


1X n
1. µ connue et estimation de æ2 . Nous savons que V 2 = ( X i ° µ)2 est un bon esti-
n i=1
mateur de æ2 . On déduit alors que

nV 2
,! ¬2 ( n).
æ2

Ainsi, nous avons


µ ∂
nV 2
P a ∑ 2 ∑ b = 1°Æ
æ
µ 2 ∂ µ ∂
nV nV 2
P < a + P > b = Æ.
æ2 æ2

Ainsi a = ¬(Æn2) et b = ¬(1n°)Æ1 avec Æ1 + Æ2 = Æ. On déduit que

L’intervalle de confiance de niveau 1 ° Æ pour æ2 lorsque la moyenne µ est connue est :


" #
nV 2 nV 2
, n .
¬(1n°)Æ ¬Æ2
1

2. µ inconnue et estimation de æ2 . Nous avons

( n ° 1)S 2
,! ¬2 ( n ° 1).
æ2
7.3. EXEMPLES 35
Ainsi, nous avons
µ ∂
( n ° 1)S 2
P q1 ∑ ∑ q 2 = 1°Æ
æ2
h ( n ° 1)S 2 i h ( n ° 1)S 2 i
P < q1 + P > q 2 = Æ.
æ2 æ2
Ainsi q1 = ¬(Æn2°1) et q2 = ¬(1n°°Æ1)1 avec Æ1 + Æ2 = Æ. On déduit que

L’intervalle de confiance de niveau 1 ° Æ pour æ2 lorsque la moyenne µ est inconnue est :


h ( n ° 1)S 2 ( n ° 1)S 2 i
, .
¬(1n°°Æ1) ¬(Æn1°1)
2

7.3.3 Intervalle de confiance pour une proportion


On considère un échantillon ( X 1 , . . . , X n ) issu de la loi de Bernouilli B (1, p), p 2]0, 1[.
D’après le Théorème Central limite, nous avons :
p
n( X n ° p ) L
p °°°°°! N (0, 1).
p(1 ° p) n!+1

p q
On remplace alors le numérateur p(1 ° p) et X n (1 ° X n ) et on obtient toujours
p
n( X n ° p ) L
q °°°°°! N (0, 1).
n!+1
X n (1 ° X n )

Pour n assez grand,


h p i
n( X n ° p )
P ° z1° ∑ q
Æ ∑ z1° Æ
2 2
X n (1 ° X n )
s s
h X n (1 ° X n ) X n (1 ° X n ) i
= P X n ° z1° Æ ∑ p ∑ X n + z1° Æ
2 n 2 n
= 1 ° Æ.

où z1° Æ2 est quantile d’ordre 1 ° Æ2 de la loi normale centrée-réduite.

L’intervalle de confiance pour la proportion p de niveau de confiance 1 ° Æ est :


s s
h X n (1 ° X n ) X n (1 ° X n ) i
X n ° z1° Æ , X n + z1° Æ
2 n 2 n

La marge d’erreur est donc


s
X n (1 ° X n ) 1
ME = z1° Æ ∑ z1° Æ p
2 n 2 2 n
36 CHAPITRE 7. ESTIMATION PAR INTERVALLE DE CONFIANCE
car pour tout x 2 [0, 1], on a
p 1
x(1 ° x) ∑ .
2
Pour déterminer la taille n telle que ME ∑ ", il suffit donc de résoudre
1
z1° Æ p ∑ ".
2 2 n

Ce qui nous donne alors


≥ z1° Æ ¥2
2
n∏ .
2"
Exercice 7.3.1. Une compagnie prélève un échantillon de 50 chèques parmi les 2 500 reçus
en une journée donnée. On suit le parcours des chèques jusqu’au moment de leur dépôt dans
le compte de la compagnie. On constate que 18 des 50 chèques ont mis plus de 5 jours à être
déposés.
1. Déterminer un intervalle de confiance à 95% pour la proportion p de chèques dont le
délai (entre la réception et le dépôt) excède 5 jours.
2. Déterminez un intervalle de confiance à 95% pour le nombre de chèques dont le délai
excède 5 jours.
3. Supposons qu’on veuille faire un échantillonnage sur les chèques de l’année entière
(au nombre de 650 000). À un niveau de 95%, quelle est la taille de l’échantillon qu’il
faudrait prélever dans les conditions suivantes (vous prendrez pour p l’estimation que
vous obtenez avec l’échantillon que vous venez de prélever) ?
(a) si on accepte une marge de 2% dans l’estimation de la proportion ;
(b) si on accepte une marge d’erreur relative (voir le numéro précédent) de 5% de la
proportion réelle ;
(c) si on accepte une marge d’erreur de 10 000 chèques dans l’estimation du nombre
de chèques qui accusent un délai de plus de 5 jours.

7.3.4 Intervalle de confiance pour la moyenne d’une loi quelconque


On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de probabilité admettant une
moyenne m et une variance æ2 . D’après le Théorème central limite, nous avons le résultat
suivant : p
n( X n ° m) L
°°°°°! N (0, 1).
Sn n!+1

L’intervalle de confiance pour m de niveau asymptotique 1 ° Æ est donné par


∑ ∏
Sn Sn
X n ° z1° Æ p , X n + z1° Æ p
2 n 2 n

où z1° Æ2 est le quantile d’ordre 1 ° Æ2 de N (0, 1). Les approximations ci-dessus sont valables
si la taille de l’échantillon est suffisamment grande ( n ∏ 30)
Chapitre

Généralités sur les tests d’hypo-


8 thèses

8.1 Principe des tests


On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi Pµ avec µ 2 £. Soient £0 et £1
deux sous-ensembles de £ tels que £ = £0 [ £1 et £0 \ £1 = ;. Soientles hypothèses :
H0 : µ 2 £0
H1 : µ 2 £1
L’hypothèse H0 est appelée hypothèse nulle et H1 , hypothèse alternative. Une hypothèse
est dite simple si elle est réduite à un singléton. Les deux hypothèses sont telles que une et
une seule est vraie.
Un test statistique est un mécanisme qui permet de trancher entre deux hypothèses à
partir des résultats d’un échantillon. La décision consiste à choisir H0 ou H1 . Il y a quatre
cas qui sont reproduits dans le tableau ci-dessous
H0 vraie H1 vraie
H0 décidée Bonne décision Erreur de deuxième espèce
H1 décidée Erreur de première espèce Bonne décision
Exemple 8.1.1. Contrôle de qualité. Une machine produit des pièces classées soit ”bonnes”
codées par 0, soit ”défectueuses” codées par 1. Le nombre de pièces fabriquées étant gigan-
tesque et l’examen de chaque pièce étant relativement coùteux, on ne peut évaluer la qualité
de sa production que sur un lot de taille n faible au regard de la production. On observe
alors ce lot de n pièces et on note ( x1 , . . . , xn ) les observations.
Modélisation : on suppose que x i est la réalisation d’une variable aléatoire X i de loi de
Bernouilli B (1, p), p 2]0, 1[ ; nous faisons les hypothèses suivantes :
- X 1 , . . . , X n sont indépendantes : on admet que des petites variations aléatoires
pouvant influer sur la qualité des pièces ne se repercutent pas d’une pièce à une
autre.
- X 1 , . . . , X n sont identiquement distribuées : on admet que la production a été
stable durant la période d’observation ; cette stabilité est caractérisée par la constance
de la probabilité p pour chaque pièce produite d’être défectueuse.
Nous considérons le problème de test de H0 : la machine est aux normes contre H1 : la
machine n’est pas aux normes.
- Erreur de première espèce : décider que la machine n’est pas aux normes alors qu’en
réalité elle est aux normes : dépenses inutiles de réparation ou de changement de
matériels.

37
38 CHAPITRE 8. GÉNÉRALITÉS SUR LES TESTS D’HYPOTHÈSES
- Erreur de deuxième espèce : décider que la machine est aux normes alors qu’en
réalité elle n’est pas aux normes : production de mauvaises pièces pouvant aboutir à
un mécontentement de la clientèle, voire à des problèmes de sécurité.

Définition 8.1.1. On appelle test une statistique √( X 1 , . . . , X n ) à valeurs dans {0, 1} telle que

√( X 1 , . . . , X n ) = 0 =) on accepte H0
√( X 1 , . . . , X n ) = 1 =) on accepte H1 .

Définition 8.1.2. On appelle région critique la région d’acceptation de l’hypothèse alternative


H1 : n o
W = ( X 1 , . . . , X n ) : √( X 1 , . . . , X n ) = 1 .

Un test est caractérisé par sa région critique.

Définition 8.1.3. On appelle risque de première espèce du test √( X 1 , . . . , X n ) la probabilité de


l’erreur de première espèce :

Æ√ : £0 °! [0, 1]
µ 7°! Pµ (W ).

Définition 8.1.4. On appelle niveau du test √( X 1 , . . . , X n ) la quantité

sup Æ√ (µ ).
µ 2£

Le test √( X 1 , . . . , X n ) est dit de niveau Æ 2 (0, 1) si

sup Æ√ (µ ) = Æ.
µ 2£

Remarque 8.1.1. Le niveau du test est le plus gros risque de première espèce possible.

Définition 8.1.5. On appelle risque de deuxième espèce du test √( X 1 , . . . , X n ) la probabilité


de l’erreur de deuxième espèce :

Ø√ : £1 °! [0, 1]
µ 7°! Pµ (W ).

L’idéal serait de diminuer les deux risques d’erreur en même temps. Malheureusement,
on montre qu’ils varient en sens inverse. Dans la pratique des tests statistiques, il est de
règle de se fixer Æ, ce qui fait jouer à H0 un rôle prééminent.
Un test est déterminé par sa région critique W . La région critique dépend du niveau Æ et
d’une statistique appelée variable de décision. Pour la déterminer, il est indispensable de
connaı̂tre la loi de la variable de décision sous l’hypothèse H0 . Lorsque ( x1 , . . . , xn ) sont des
valeurs observées de cet échantillon,
- si ( x1 , . . . , xn ) 2 W , alors on rejette H0 et on accepte H1 ;
- si ( x1 , . . . , xn ) 62 W , alors on accepte H0 et on rejette H1 .

Définition 8.1.6. On appelle puissance du test √( X 1 , . . . , X n ) la probabilité d’accepter H1


quand H1 est vraie :

∞√ : £1 °! [0, 1]
µ 7°! Pµ (W ).
8.2. ETAPES DES TESTS 39
La puissance
— croı̂t avec le niveau de signification Æ.
— croı̂t avec la taille del’échantillon
— dépend de la région critique.
Remarque 8.1.2. Nous avons 8µ 2 £1 , ∞√ (µ ) = 1 ° Ø√ (µ ).
Remarque 8.1.3. Un bon test est un test qui, pour un niveau Æ donné, maximise la puissance.
Définition 8.1.7. Un test √( X 1 , . . . , X n ) est sans biais lorsque la puissance du test est supé-
rieure au niveau Æ sur £1 :
∞(µ ) ∏ Æ 8µ 2 £1 .

8.2 Etapes des tests


1. Etape préliminaire : modélisation du problème.
2. Formulation des hypothèses H0 et H1 .
3. Choix du seuil du test Æ.
4. Choix d’une statistique de test T n , dont on connaı̂t la loi sous H0
5. Etude du comportement de T n sous H1 et déduction de la forme de la zone critique.
6. Calcul de cette zone pour le niveau Æ fixé puis confrontation aux données ; et / ou
calcul de la p-valeur du test sur les données
7. Conclusion statistique : conservation ou rejet de l’hypothèe de départ H0 et commen-
taire éventuel sur la p-valeur.
8. Conclusion stratégique : décision que l’on va prendre une fois éclairé par le résultat
statistique.

8.3 Construction d’un test d’hypothèses


Pour construire un test d’hypothèses portant sur la valeur d’un paramètre µ , l’on peut
se fier au bon sens. Si on connaı̂t un estimateur µ̂n de µ , on pourrait procéder de la façon
suivante : soit µ0 une valeur possible de µ .
• Test de H0 : µ ∑ µ0 contre H1 : µ > µ0 .
On rejette H0 si µ̂n est ”trop grand” i.e. la région critique est
© ™
W = µ̂n ° µ0 > l Æ .

• Test de H0 : µ ∏ µ0 contre H1 : µ < µ0 .


On rejette H0 si µ̂n est ”trop petit” i.e. la région critique est
© ™
W = µ̂n ° µ0 < l Æ .

• Test de H0 : µ = µØ0 contreØ H1 : µ 6= µ0 .


On rejette H0 si ص̂n ° µ0 Ø est ”trop grand” i.e. la région critique est
©Ø Ø ™
W = ص̂n ° µ0 Ø > l Æ .

• Test de H0 : µ = µ0 contre H1 : µ = µ1 .
© ™
- W = µ̂n > l Æ si µ1 > µ0
© ™
- W = µ̂n < l Æ si µ1 < µ0 .
Pour déterminer l Æ , il faut résoudre l’équation Pµ0 (W ) = Æ.
40 CHAPITRE 8. GÉNÉRALITÉS SUR LES TESTS D’HYPOTHÈSES

8.4 La p-value
En pratique, plutôt que de calculer la région critique en fonction de Æ, on préfère donner
un seuil critique de Ƨ appelée p-value, qui est telle que
- si Ƨ < Æ, on rejette H0
- si Æ < Ƨ , on accepte H0 .
Les logiciels statistiques calculent et présentent les p-valeurs qui sont difficiles à obtenir sans
moyen de calcul approprié.
Chapitre

Test d’hypothèse simple contre hy-


9 pothèse simple

9.1 Théorème de Neyman-Pearson


Notons L( X 1 , . . . , X n , µ ) la vraisemblance de l’échantillon ( X 1 , . . . , X n ). Soient µ0 et µ1 deux
éléments de £ tels que µ0 6= µ1 . L’objectif est de tester H0 : µ = µ0 contre H1 : µ = µ1 au seuil
Æ.
Théorème 9.1.1. Pour tout Æ 2]0, 1[, il existe une constante kÆ 2 R+ telle que le meilleur test
au niveau Æ a pour région critique
n L ( X 1 , . . . , X n , µ1 ) o
W = (X1, . . . , X n) : > kÆ .
L ( X 1 , . . . , X n , µ0 )
La constante kÆ est déterminé par l’équation
µ ∂
L ( X 1 , . . . , X n , µ1 )
Pµ0 [W ] = Pµ > k Æ = Æ.
L ( X 1 , . . . , X n , µ0 )

9.2 Exemples
9.2.1 Test sur une proportion
On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, p) avec p 2]0, 1[
inconnue. On veut tester H0 : p = 1/4 contre H1 : p = 1/2 au seuil Æ = 0.05.
Le rapport de vraisemblance est : Nous avons
µ ∂Pn µ ∂
L( X 1 , . . . , X n , p 1 ) p 1 (1 ° p 0 ) i=1 X i 1 ° p 1 n
=
L( X 1 , . . . , X n , p 0 ) p 0 (1 ° p 1 ) 1 ° p0
Si p 0 = 1/4 et p 1 = 1/2, nous obtenons
L( X 1 , . . . , X n , 1/2) Pn
= 3 i=1 X i (2/3)n
L( X 1 , . . . , X n , 1/4)
Ainsi, nous avons
L( X 1 , . . . , X n , 1/2) Pn
> k Æ , 3 i=1 X i (2/3)n > k Æ
L( X 1 , . . . , X n , 1/4)
° ¢
X n ln ( 32 )n k Æ
, Xi > = KÆ.
i =1 ln(3)

41
42 CHAPITRE 9. TEST D’HYPOTHÈSE SIMPLE CONTRE HYPOTHÈSE SIMPLE
D’après Neyman-Pearson, la région critique est de la forme :
Ω n æ
X
W= X i > KÆ
i =1

La constante K Æ est déterminée par


" #
n
X
P1/4 X i > K Æ = Æ.
i =1

Si la taille de l’échantillon est suffisamment grand (n > 30), nous pouvons utiliser le Théoréme
n
X
Central Limite qui permet d’approximer la loi de X i par la loi normale N ( np, np(1 ° p)).
i =1
n µ ∂
X n 3n
Détermination de K Æ . Sous H0 , X i suit approximativement la loi normale N ,
i =1 4 16
et nous avons
" #
n
X
Æ = P1/4 X i > KÆ
i =1
2X n 3
n
6 Xi ° n 7
6 i=1 4 KÆ ° 4 7
= P1/4 6 q > q 7
4 3n 3n 5
16 16
2X
n 3
n
6 Xi ° n 7
6 i=1 4 KÆ ° 4 7
= 1 ° P1/4 6 q ∑ q 7
4 3n 3n 5
16 16
0 1
n
K
B Æ ° C
= 1°©@ q 4 A.
3n
16

Ce qui implique
0 1
n
B KÆ ° C 4
©@ q A = 1 ° Æ.
3n
16

Soit u1°Æ le quantile d’ordre 1 ° Æ de N (0, 1). Alors, nous avons


s
KÆ ° n 3n n
u 1°Æ = q 4 () K Æ = u 1°Æ + .
3n 16 4
16

La région critique du test optimal est :


s
n n
X 3n n o
W = (X1, . . . , X n) : X i > u 1°Æ + .
i =1 16 4
9.2. EXEMPLES 43
n
X ≥n n¥
Sous l’alternative X i suit la loi N , . La puissance du test est donnée par
i =1 2 4
" #
n
X
∞n = P1/2 X i > KÆ
i =1
2X n 3
n
6 Xi °
6 i=1 2 K Æ ° n2 7
7
= P1/2 6 q > q 7
4 n n 5
4 4
√p p !
3 u 1°Æ ° n
= 1°©
2

On remarque que lim ∞n = 1. On dit que le test est asymptotiquement puissant :


n!+1

Exercice 9.2.1. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, p)


avec p 2]0, 1[. Tester H0 : p = 1/2 contre H1 : p = 1/4 au seuil Æ = 0.05.

9.2.2 Test sur la moyenne d’un échantillon gaussien


On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi normale N ( m, æ2 ) avec m 2 R
inconnue et æ2 > 0. On veut tester H0 : m = m 0 contre H1 : m = m 1 au niveau Æ = 0.05 avec
m1 > m0 .

Exercice 9.2.2. Tester H0 : m = m 0 contre H1 : m = m 1 au niveau Æ = 0.05 avec m 1 < m 0 .


Exercice 9.2.3. Tester H0 : m = m 0 contre H1 : m = m 1 au niveau Æ = 0.05 avec m 1 > m 0 .
Chapitre

10 Tests de Student : un échantillon

10.1 Introduction
On appelle test de Student un test de comparaison de la moyenne dans un échantillon
gaussien, c’est à dire un échantillon ( X 1 , . . . , X n ) issu de la loi normale N (m, æ2 ). Soit m 0
une valeur possible de m. La moyenne empirique X n est un estimateur efficace de m.
Deux résultats importants :

µ p ≥ ¥
2∂ n Xn °m
æ
X n ,! N m, () ,! N (0, 1).
n æ

p ≥ ¥
n Xn °m
,! T ( n ° 1)
Sn
qui est la loi de Student à n ° 1 dégrés de liberté avec
√ !1/2
1 X n
Sn = ( X i ° X n )2 .
n ° 1 i=1

10.2 H0 : m ∑ m 0 contre H1 : m > m 0


10.2.1 On suppose que la variance æ2 est connue.
En se référant à la Section 8.3, nous obtenons une première forme de la région critique
n o
W = X n ° m0 > l Æ ,

où la constante l Æ est déterminée par (le test étant de niveau Æ)


≥ ¥
Pm0 X n ° m 0 > l Æ .

Sous l’hypothèse H0 ,
µ ∂ p ≥ ¥
æ2 n X n ° m0
X n ,! N m 0 , () ,! N (0, 1).
n æ

44
10.2. H0 : M ∑ M0 CONTRE H1 : M > M0 45
Ce qui implique alors
0p ≥ ¥ 1
n X n ° m0 p
nl ÆA
Pm0 @ > = Æ.
æ æ

Ainsi, on en déduit que p


nl Æ æ
= q 1°Æ , l Æ = p q 1°Æ
æ n
où q1°Æ est le quantile d’ordre 1 ° Æ de N (0, 1).

La région critique au niveau Æ du test H0 : m ∑ m 0 contre H1 : m > m 0 lorsque æ2 est connue


est
Ω æ
æ
W = X n ° m 0 > p q 1°Æ
n
≥ ¥
Ω pn X ° m æ
n 0
= > q 1°Æ (10.2.1)
æ

où q1°Æ est le quantile d’ordre 1 ° Æ de la loi normale centrée-réduite.

Remarque 10.2.1. On accepte H1 au niveau Æ lorsque la di↵érence X n ° m 0 est significative,


æ
c’est à dire strictement supérieure à p q1°Æ .
n
Exercice 10.2.1. Une marque de tablettes de chocolat annonce que ses tablettes contiennent
une teneur en cacao supérieure à 430 g par k g. On e↵ectue un contrôle de qualité sur
un échantillon de 10 tablettes et on obtient les teneurs suivantes en g/k g : 505.1 423.5
462.0 391.9 412.1 487.2 439.0 434.1 441.1 474.2. On admet que chaque mesure suit une loi
normale N (m, æ2 ).
1. Ecrire le modèle et les hypothèses du test qu’on veut faire.
2. On admet dans un premier temps (au vu de contrôles antérieurs) que æ = 24. Que
peut-on conclureau niveau Æ = 0.05 ?
Solution 10.2.1. 1. — Soit X i la teneur en cacao en g/ k g de la tablette i . La variable
aléatoire X i suit une loi normale N (m, æ2 ). On dispose d’un échantillon ( X 1 , . . . , X 10 )
issu d’une loi normale N (m, æ2Ω). æ
— Le modèle statistique est donc N (m, æ2 ) : (m, æ2 ) 2 R £ R§+
— H0 : m ∑ 430 contre H1 : m > 430.
2. Au niveau Æ = 0.05, la région critique du test est :
p ≥ ¥
Ω 10 X ° 430 æ
10
W= > q 0.95
24
où q0.95 = 1.644 est le quantile d’ordre 0.95 de la loi normale centrée-réduite. Par
suite, nous obtenons :
p ≥ ¥
Ω 10 X ° 430 æ
10
W= > 1.644
24
Puisque
1
x10 = (505.1+423.5+462.0+391.9+412.1+487.2+439.0+434.1+441.1+474.2) = 447.02
10
46 CHAPITRE 10. TESTS DE STUDENT : UN ÉCHANTILLON
et
p
10 (447.02 ° 430)
= 2.243 > 1.644,
24

on accepte H1 au niveau Æ = 0.05. Ainsi, on peut conclure que les tablettes de cette
marque contiennent une teneur en cacao supérieure à 430 g par k g.

10.2.2 On suppose æ2 est inconnue


Nous allons remplacer dans (10.2.1), æ par par l’écart-type empirique modifié S n .

La région critique au niveau Æ du test H0 : m ∑ m 0 contre H1 : m > m 0 lorsque æ2 est inconnue


est
≥ ¥
Ω pn X ° m æ
n 0
W= > t 1°Æ,n°1
Sn

où t1°Æ,n°1 est le quantile d’ordre 1 ° Æ de la loi de Student à n ° 1 degrés de liberté T (n ° 1).

Exercice 10.2.2. Une marque de tablettes de chocolat annonce que ses tablettes contiennent
une teneur en cacao supérieure à 430 g par k g. On e↵ectue un contrôle de qualité sur
un échantillon de 10 tablettes et on obtient les teneurs suivantes en g/k g : 505.1 423.5
462.0 391.9 412.1 487.2 439.0 434.1 441.1 474.2. On admet que chaque mesure suit une loi
normale N (m, æ2 ). Que peut-on conclure au niveau Æ = 0.05 ?

Solution 10.2.2. Au niveau Æ = 0.05, nous voulons tester H0 : m ∑ 430 contre H1 : m > 430.
La région critique du test est :
p ≥ ¥
Ω 10 X ° 430 æ
10
W= > t 0.95,9
S 10

où t0.95,9 = 1.833 est le quantile d’ordre 0.95 de la loi de Student à 9 degrés de liberté. Par
suite, nous obtenons :
p ≥ ¥
Ω 10 X ° 430 æ
10
W= > 1.833
35

Puisque

1
x10 = (505.1 + 423.5 + 462.0 + 391.9 + 412.1 + 487.2 + 439.0 + 434.1 + 441.1 + 474.2) = 447.02
10

et
p
10 (447.02 ° 430)
= 1.5378 < 1.833,
35

on rejette H1 au niveau Æ = 0.05. Ainsi, on peut conclure que les tablettes de cette marque
ne contiennent pas une teneur en cacao supérieure à 430 g par k g.
10.3. H0 : M ∏ M0 CONTRE H1 : M < M0 47

10.3 H0 : m ∏ m 0 contre H1 : m < m 0


10.3.1 On suppose que la variance æ2 est connue.

La région critique au niveau Æ du test H0 : m ∏ m 0 contre H1 : m < m 0 lorsque æ2 est connue


est
Ω æ
æ
W = X n < m0 + p qÆ
n
≥ ¥
Ω pn X ° m æ
n 0
= < qÆ (10.3.1)
æ

où qÆ est le quantile d’ordre Æ de la loi normale centrée-réduite.

Exercice 10.3.1. Le département de contrôle de la qualité d’une entreprise détermine que le


poids moyen net d’une boı̂te de céréales ne devrait pas être inférieur à 200 g. L’expérience
a montré que les poids sont approximativement distribués normalement avec un écart-type
de 15 g. Un échantillon de 15 boı̂tes prélevé aléatoirement sur la ligne de production donne
un poids moyen de 195 g. Cela est-il suffisant pour pouvoir affirmer que le poids moyen des
boı̂tes est inférieur à 200 g ?

Solution 10.3.1. 1. Tester H0 : m ∏ 200 contre H1 : m < 200 au niveau Æ = 0.05


2. Au niveau Æ = 0.05, la région critique du test est
Ω æ
15
W = X 15 < 200 + p q 0.05
15

où q0.05 = ° q0.95 = °1.644 est le quantile d’ordre 0.05 de la loi normale centrée-
15
réduite. 200 ° p § 1.64 = 193.65
15
3. Puisque 195 > 193.65, on accepte H0 . Même si x̄ < 200 g, il n’y a pas d’éléments
significatifs indiquant que le poids moyen des boites est inférieure à 200 g.

10.3.2 On suppose que la variance æ2 est inconnue.

La région critique au niveau Æ du test H0 : m ∏ m 0 contre H1 : m < m 0 lorsque æ2 est inconnue


est
≥ ¥
Ω pn X ° m æ
n 0
W= < t Æ,n°1 (10.3.2)
Sn

où tÆ,n°1 est le quantile d’ordre Æ de la loi de Student à n ° 1 degrés de liberté T (n ° 1).

Exercice 10.3.2. Le département de contrôle de la qualité d’une entreprise détermine que le


poids moyen net d’une boı̂te de céréales ne devrait pas être inférieur à 200 g. L’expérience
a montré que les poids sont approximativement distribués normalement. Un échantillon de
15 boı̂tes prélevé aléatoirement sur la ligne de production donne un poids moyen de 195 g
avec un écart-type estimé égal à 15 kg.. Cela est-il suffisant pour pouvoir affirmer que le
poids moyen des boı̂tes est inférieur à 200 g ?
48 CHAPITRE 10. TESTS DE STUDENT : UN ÉCHANTILLON
Solution 10.3.2. 1. Tester H0 : m ∏ 200 contre H1 : m < 200 au niveau Æ = 0.05
2. Au niveau Æ = 0.05, la région critique du test est
p ≥ ¥
Ω 15 X ° 200 æ
15
W= < t 0.05,14
S 15

où t0.05,14 = °1.761 est le quantile d’ordre 0.05 de la loi de Student à 14 degrés de
liberté (T (14)).
p
3. Puisque 15(195 15
°200)
= °1.291 > °1.761, on accepte H0 .Au niveau Æ = 0.05, il n’y a
pas d’éléments significatifs indiquant que le poids moyen des boites est inférieure à
200 g.

10.4 H0 : m = m 0 contre H1 : m 6= m 0

La région critique au niveau Æ du test H0 : m = m 0 contre H1 : m 6= m 0 lorsque æ2 est connue


est
≥ ¥
ΩØ p n X ° m Ø æ
Ø n 0 Ø
W = ØØ Ø>q Æ
Ø 1° 2 (10.4.1)
æ

où q1° Æ2 est le quantile d’ordre 1 ° Æ2 de la loi normale centrée-réduite.

Exercice 10.4.1. Une entreprise de vente par correspondance demande un montant fixe pour
les frais d’envoi, indépendamment du poids du colis. Une étude réalisée il y a quelques
années a montré que le poids moyen d’un colis était de 17.5 kg avec un écart-type de 3.6
kg. La comptabilité soupçonne que le poids moyen est maintenant di↵érent de 17.5 kg. Un
échantillon aléatoire de 100 colis est prélevé et fournit un poids moyen de x̄ = 18.4 kg. On
suppose que les poids des colis sont distribués normalement. Que conclure au niveau Æ = 0.05

Solution 10.4.1. 1. Nous voulons tester l’hypothèse H0 : m = 17.5 contre H1 : m 6= 17.5 au


niveau Æ = 0.05.
2. Au niveau Æ = 0.05, la région critique du test est
≥ ¥
ΩØ p n X ° m Ø æ
Ø n 0 Ø
W = ØØ Ø > q 0.975
Ø
æ
Ω æ Ω æ
æ æ
= X n < m 0 ° p q 0.975 [ X n > m 0 + p q 0.975
n n

où q0.975 = 1.96 est le quantile d’ordre 0.975 de la loi normale centrée-réduite.

æ 3.6
m 0 + p q 1° Æ = 17.5 + p § 1.96 = 18.2056
n 2
100
æ 3.6
m 0 ° p q 1° Æ = 17.5 ° p § 1.96 = 16.7944
n 2
100

3. Puisque x̄ > 18.2056, on rejette H0 i.e le poids moyen des colis a changé.
10.4. H0 : M = M0 CONTRE H1 : M 6= M0 49
2
10.4.1 On suppose que la variance æ est inconnue.

La région critique au niveau Æ du test H0 : m = m 0 contre H1 : m 6= m 0 lorsque æ2 est inconnue


est
≥ ¥
ΩØ p n X ° m Ø æ
Ø n 0 Ø
W = ØØ Ø>t Æ
Ø 1° 2 ,n°1 (10.4.2)
Sn

où t1° Æ2 ,n°1 est le quantile d’ordre 1 ° Æ2 de la loi de Student à n ° 1 degrés de liberté T (n ° 1).

Exercice 10.4.2. Une entreprise de vente par correspondance demande un montant fixe pour
les frais d’envoi, indépendamment du poids du colis. Une étude réalisée il y a quelques années
a montré que le poids moyen d’un colis était de 17.5 kg. La comptabilité soupçonne que le
poids moyen est maintenant di↵érent de 17.5 kg. Un échantillon aléatoire de 100 colis est
prélevé et fournit un poids moyen de x̄ = 18.4 kg avec un écat-type estimé égal à 3.6. On
suppose que les poids des colis sont distribués normalement. Que conclure au niveau Æ = 0.05

Solution 10.4.2. 1. Nous voulons tester l’hypothèse H0 : m = 17.5 contre H1 : m 6= 17.5 au


niveau Æ = 0.05.
2. Au niveau Æ = 0.05, la région critique du test est :
p ≥ ¥
ΩØ 100 X Ø æ
Ø 100 ° 17.5 Ø
W = ØØ Ø > t 0.975,99
Ø
S 100

où t0.975,100 = 1.9842 est le quantile d’ordre 0.975 de la loi de Student à 99 degrés de
liberté T (99).
p
100 (18.4 ° 17.5)
3. Puisque = 2.5 > 1.9842, on rejette H0 i.e le poids moyen des colis
3.6
a changé.
Chapitre

11 Tests de Student : deux échantillons

11.1 Introduction
Soient P1 et P2 deux populations. On étudie un caractère (rendement, chi↵re d’a↵aire,
seuil de perception, etc.) sur ces deux populations. Le caractère a pour espérance m 1 et
pour variance æ21 dans la population P1 et a pour espérance m 2 et pour variance æ22 dans
la population P2 . Pour des raisons techniques, on supposera que le caractère est distribué
selon une loi normale. On dispose alors de deux échantillons ( X 1 , . . . , X n1 ) et (Y1 , . . . , Yn2 ) issus
respectivement de P1 et P2 , tels que X i et Y j sont indépendantes :
- ( X 1 , . . . , X n1 ) est issu de N (m 1 , æ21 )
- (Y1 , . . . , Yn2 ) est issu de N ( m 2 , æ22 ).
Dans cette section, on comparera les moyennes et les variances des deux échantillons. Les
moyennes empiriques, variances empiriques modifiées des deux échantillons sont notées res-
pectivement X n1 , S12 , Y n2 et S22 .

Exemple 11.1.1. Deux groupes d’étudiants de tailles respectives n1 = 25 et n2 = 31 ont suivi le


même cours de statistique et passe le même examen. Les moyennes et écarts-types empiriques
des notes obtenues dans les deux groupes sont respectivement :

moyenne Variance S 2
Groupe 1 12.8 3.4
Groupe 2 11.3 2.9

On suppose que les notes sont reparties dans les deux groupes selon des lois normales et
qu’elles sont toutes independantes. Peut-on considérer que le premier groupe est meilleur que
le deuxième, c’est-à-dire qu’un point et demi d’écart entre les moyennes est significatif d’une
di↵érence de niveau ? La procédure à suivre consiste à tester d’abord l’égalité des variances,
puis l’égalité des moyennes.

Exemple 11.1.2. Deux variétés de blé ont été cultivées chacune sur 8 parcelles (n1 = n2 = 8).
Les rendements observés (en quintaux/hectare) sont regroupés dans le tableau ci-dessus :

moyenne variance æ2
Echantillon 1 80.0 1.00
Echantillon 2 81.5 1.00

50
11.2. TEST DE FISHER DE COMPARAISON DES VARIANCES 51
Si l’on considère que les 16 parcelles, la variété 2 présente en moyenne un rendement su-
périeur (de 1.5 q/ ha) à celui de la variété 1. Peut-on généraliser ce résultat ? Autrement
dit, la di↵érence observée (de 1.5 q/ha) doit être considérée comme une conséquence d’un
rendement moyen di↵érent selon la variété ou, au contraire, est-il fortuit ? Selon un autre
point de vue, la question peut être posée ainsi : la di↵érence de moyenne obervée doit être
imputée au hasard (c’est-à-dire à la variété ”naturelle” dite aussi ”résiduelle” pour exprimer
que l’on ne sait l’expliquer par la statistique) ?

11.2 Test de Fisher de comparaison des variances


Comparer les variances des deux échantillons revient à résoudre par exemple le problème
de test suivant : H0 : æ21 = æ22 contre H1 : æ21 6= æ22 .
Au niveau Æ 2]0, 1[, la région critique du test H0 : æ21 = æ22 contre H1 : æ21 6= æ22 est

( ) ( )
S 12 §
S 12
W= < fÆ [ > f 1§° Æ
S 22 2 S 22 2

où f Ƨ est le quantile d’ordre Æ


2 de la loi de Fisher à (n1 ° 1, n2 ° 1) degrés de liberté, f 1§° Æ
2 2
est le quantile d’ordre 1 ° Æ2 de la loi de Fisher à (n1 ° 1, n2 ° 1) degrés de liberté et
√ !1/2
n1 ≥ ¥2
1 X
S n1 = X i ° X n1
n 1 ° 1 i=1
√ !1/2
n2 ≥ ¥2
1 X
S n2 = Yi ° Y n2 .
n 2 ° 1 i=1

11.3 Test de Student de comparaison des moyennes


On désire maintenant comparer les moyennes. Le test d’égalité des moyennes est :

H0 : m 1 = m 2 contre H0 : m 1 6= m 2 .

Lorsque H0 est vraie, on observe très rarement une parfaite égalité des moyennes. La question
est donc de savoir à partir de quel écart de moyenne va-t-on choisir H1 ?
La région critique est de la forme
nØ Ø o
Ø Ø
W = Ø X n1 ° Y n2 Ø > l Æ .

Pour déterminer l Æ , l’on a besoin de la loi de X n1 ° Y n2 sous l’hypothèse H0 . Nous savons


que
µ ∂
æ2
X n1 ,! N m 1 , n11
µ ∂
æ2
Y n2 ,! N m 2 , n22 .

Comme ces deux variables sont indépendantes, on en déduit que


√ !
æ21 æ22
X n1 ° Y n2 ,! N m 1 ° m 2 , + .
n1 n2
52 CHAPITRE 11. TESTS DE STUDENT : DEUX ÉCHANTILLONS
Ainsi nous avons
( X n1 ° Y n2 ) ° ( m 1 ° m 2 )
V= r ,! N (0, 1).
æ21 æ2
n1 + n22

Par suite, sous H0 , nous obtenons

X n ° Y n2
V= r1 ,! N (0, 1).
æ21 æ2
n1 + n22

11.3.1 Résolution du test lorsque les variances connues

s
ΩØ Ø æ
Ø Ø æ21 æ22
W = Ø X n1 ° Y n2 Ø > u 1° Æ +
2 n1 n2

Exemple 11.3.1. Revenons à l’exemple 11.1.2. Les variances sont connues, æ21 = æ22 = 1,
n 1 = n 2 = 8 et les rendements moyens observés x̄8 = 80 q/ h et ȳ8 = 81.5 q/ h. On suppose que
le seuil du test est Æ = 0.05. De ce fait, u0.975 = 1.96 Nous avons donc
s
1 1
u 0.975 + = 0.98 x̄8 ° ȳ8 = °1.5 < °0.98.
8 8

Nous décidons donc de rejeter H0 . La variété 2 a un rendement moyen di↵érent de celui de


la variété 1.

11.3.2 Résolution du test lorsque les variances sont inconnues


Posons
( n 1 ° 1)S 2n1 ( n 2 ° 1)S 2n2
Z= + .
æ21 æ22

( n 1 ° 1)S 2n1 ( n 2 ° 1)S 2n2


Comme ,! ¬2 ( n 1 ° 1) et ,! ¬2 ( n 2 ° 1) et que ces deux variables sont
æ21 æ22
indépendantes, nous obtenons Z ,! ¬2 (n1 + n2 ° 2). De plus, les variables aléatoires Z et V
sont indépendantes. Par la définition de la loi de Student, nous déduisons que
p
V n 1 + n 2 ° 2( X n1 ° Y n2 ) ° ( m 1 ° m 2 )
T n1 ,n2 = q
Z
= sµ ∂µ ∂ ,! T ( n 1 + n 2 ° 2).
æ21 æ22 ( n 1 °1)S 2n1 ( n 2 °1)S 2n2
n 1 + n 2 °2
n +n 1 2 2 +
æ1 2 æ2

Sous l’hypothèse H0 : m 1 = m 2 , nous avons


p
n 1 + n 2 ° 2( X n1 ° Y n2 )
T n1 ,n2 = sµ ∂µ ∂ ,! T ( n 1 + n 2 ° 2).
æ21 æ22 ( n 1 °1)S 2n1 ( n 2 °1)S 2n2
n1 + n2 2 + 2
æ1 æ2

On note que lorsque n1 et n2 sont grands, le caractère gaussien des observations n’est plus
requis, et que T n1 ,n2 suit approximativement, sous H0 , une loi N (0, 1)..
11.3. TEST DE STUDENT DE COMPARAISON DES MOYENNES 53
Supposons que æ21 = æ22 .

Si le test de Fisher accepte l’égalité des variances ( H0 ), nous avons


s
( n 1 + n 2 ° 2) n 1 n 2 X n1 ° Y n2
T n1 ,n2 = ,! T ( n 1 + n 2 ° 2)
n1 + n2 ( n 1 ° 1)S 2n1 + ( n 2 ° 1)S 2n2

La région critique au niveau Æ 2]0, 1[ est


ΩØ Ø æ
Ø Ø
W = ØT n1 ,n2 Ø > t 1° Æ ,n1 +n2 °2
2

où t1° Æ2 ,n1 +n2 °2 est le quantile d’odre 1 ° Æ2 de la loi de Student T (n1 + n2 ° 2).

Supposons que æ21 6= æ22 .


A priori, si le test de Fisher rejette l’égalité des variances, on ne peut pas appliquer le
test. On estime séparément æ21 et æ22 par leurs estimateurs S12 et S22 . Posons

X n ° Y n2
T n1 ,n2 = r 1 .
S 2n1 S 2n2
n1 + n2

Sous H0 , T n1 ,n2 º T ([∫])


≥ S2 S 2n ¥2
n1 2
n1 + n2
∫= .
S 4n1 S 4n2
+
n21 ( n 1 °1) n22 ( n 2 °1)

La région critique au niveau Æ 2]0, 1[ est


ΩØ Ø æ
Ø Ø
W = ØT n1 ,n2 Ø > q 1° Æ
2

où q1° Æ2 est le quantile d’odre 1 ° Æ2 de la loi de Student [∫] degrés de liberté.
54 CHAPITRE 11. TESTS DE STUDENT : DEUX ÉCHANTILLONS

Figure 11.1 –
Chapitre

Tests de comparaison des propor-


12 tions

12.1 Test sur la valeur d’une proportion


Soient un échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, p) et p 0 une valeur
1X n
possible de p. Nous savons que X n = X i est un estimateur efficace de p. De plus, d’après
n i=1
le théorème central-limite, pour n assez grand, nous avons l’approximation en loi suivante
p ≥ ¥
n Xn ° p
p ,! N (0, 1).
p(1 ° p)

Au niveau Æ 2]0, 1[, la région critique du test H0 : p ∑ p 0 contre H1 : p > p 0 est :


( s )
p 0 (1 ° p 0 )
W = Xn > q 1°Æ + p 0
n

où q1°Æ est le quantile d’ordre 1 ° Æ de loi normale centrée-réduite N (0, 1).

Au niveau Æ 2]0, 1[, la région critique du test H0 : p ∏ p 0 contre H1 : p < p 0 est :


( s )
p 0 (1 ° p 0 )
W = Xn < qÆ + p0
n

où qÆ est le quantile d’ordre Æ de loi normale centrée-réduite N (0, 1).

Au niveau Æ 2]0, 1[, la région critique du test H0 : p = p 0 contre H1 : p 6= p 0 est :


( s ) ( p )
p 0 (1 ° p 0 ) p 0 (1 ° p 0 )
W = X n < p0 ° q 1° Æ [ X̄ n > p 0 + q 1° Æ
n 2 n 2

où q1° Æ2 est le quantile d’ordre 1 ° Æ2 de loi normale centrée-réduite N (0, 1).

55
56 CHAPITRE 12. TESTS DE COMPARAISON DES PROPORTIONS

12.2 Test de comparaison de deux proportions


Le problème se pose quand on veut comparer deux populations selon un critère qui est
une proportion :
- Comparer les performances deux machines au vu de la proportion de pièces défec-
tueuses qu’elles produisent.
- Comparer les proportions de soulards à Yopougon et Cocody pour vérifier les idées
reu̧es.
Mathematiquement, on a une première population de taille n1 et une seconde de taille n2 . On
veut comparer les deux population selon un critère. On note X i et Yi les variables aléatoires
définies respectivement par
(
1 si le i ème individu de la population 1 présente la caractéristique
Xi =
0 sinon
(
1 si le i ème individu de la population 2 présente la caractéristique
Yi =
0 sinon.

On note p 1 la probabilité qu’un individu de la population 1 possède la caractéristique et


p 2 la probabilité qu’un individu de la population 2 possède la caractéristique. On souhaite
comparer p 1 et p 2 . On suppose que
— X 1 , . . . , X n1 sont indépendantes
— Y1 , . . . , Yn2 sont indépendantes
— ( X 1 , . . . , X n1 ) et (Y1 , . . . , Yn2 ) sont indépendants.
n1
X n2
X
Alors X i suit la loi binomiale B ( n 1 , p 1 ) et Yi suit la loi binomiale B ( n 2 , p 2 ).
i =1 i =1
On se contentera ici de supposer que les tailles d’échantillons sont suffisamment grandes
pour que l’on puisse faire l’approximation de la loi binomiale par la loi normale :
— n1 p 1 > 5, n1 (1 ° p 1 ) > 5,
— n2 p 2 > 5 et n2 (1 ° p 2 ) > 5.
n1
X n2
X
Alors on peut considérer que X i et Yi sont des variables aléatoires indépendantes et
i =1 i =1
approximativement de lois normales, respectivement N ( n1 p 1 , n1 p 1 (1° p 1 )) et N (n2 p 2 , n2 p 2 (1°
p 2 )).
n1
1 X
Comme les estimateurs optimaux de p 1 et p 2 sont respectivement X n1 = X i et
n 1 i=1
n2
1 X
Y n2 = Yi , la région critique du test
n 2 i=1

H0 : p 1 = p 2 contre H1 : p 1 6= p 2

est donnée par nØ Ø o


Ø Ø
W = Ø X n1 ° Y n2 Ø > l Æ

où l Æ est déterminé par l’équation


PH0 (W ) = Æ.

Sous les conditions ci-dessus, nous avons alors


µ ∂
p 1 (1 ° p 1 )
X n1 ,! N p 1 ,
n1
12.2. TEST DE COMPARAISON DE DEUX PROPORTIONS 57
µ ∂
p 2 (1 ° p 2 )
Y n2 ,! N p 2 ,
n2

Comme X n1 et Y n2 sont indépendantes, nous déduisons que


µ ∂
p 1 (1 ° p 1 ) p 2 (1 ° p 2 )
X n1 ° Y n2 ,! N p 1 ° p 2 , + .
n1 n2

Sous H0 : p 1 = p 2 = p, nous avons


µ µ ∂∂
1 1
X n1 ° Y n2 ,! N 0, p(1 ° p) +
n1 n2

et s µ ∂
1 1
X n1 ° Y n2 p(1 ° p) + ,! N (0, 1) .
n1 n2

n 1 X n1 + n 2 Y n2
Comme p est inconnu, en remplaçant p par son estimateur p̂ = le résultat
n1 + n2
ci-dessus reste approximativement vrai. En posant
v √ !µ
u ∂
u n1 X n + n2 Y n n 1 X n1 + n 2 Y n2 1 1
æ̂ = t 1 2
1° + ,
n1 + n2 n1 + n2 n1 n2

sous l’hypothèse nulle H0 la statistique

X n1 ° Y n2
U= ,! N (0, 1) .
æ̂

Au niveau Æ 2]0, 1[, la région critique du test H0 : p 1 ∑ p 2 contre H1 : p 1 > p 2 est :


n o
W = U > q 1°Æ

où q1°Æ est le quantile d’ordre 1 ° Æ de loi normale centrée-réduite N (0, 1).

Au niveau Æ 2]0, 1[, a région critique du test H0 : p 1 ∏ p 2 contre H1 : p 1 < p 2 est :


n o
W = U < qÆ

où qÆ est le quantile d’ordre Æ de loi normale centrée-réduite N (0, 1).

Au niveau Æ 2]0, 1[, la région critique du test H0 : p 1 = p 2 contre H1 : p 1 6= p 2 est :


n o
W = |U | > q 1° Æ .
2

où q1° Æ2 est le quantile d’ordre 1 ° Æ


2 de loi normale centrée-réduite N (0, 1).

Exercice 12.2.1. La machine 1 a produit 96 pièces dont 12 défectueuses. La machine 2 a


produit 55 pièces dont 10 défectueuses. Peut-on en conclure que la machine 1 est significa-
tivement plus performante que la machine 2 ?
58 CHAPITRE 12. TESTS DE COMPARAISON DES PROPORTIONS
Exercice 12.2.2. Dans un sondage réalisé entre le 18 avril 2012 sur 2552 personnes, l’Ifop
demande ”si dimanche prochain se déroulait le second tour de l’élection présidentielle, pour
lequel des candidats suivants y aurait-il le plus de chances que vous votiez”. 54% des per-
sonnes interrogées ont choisi Hollande contre 46% Sarkozy. Dans un sondage du CSA, le
17 avril 2012, à la question ”Si le second tour de l’élection présidentielle de 2012 avait lieu
dimanche prochain et que vous aviez le choix entre les deux candidats suivants, pour lequel
y aurait-il le plus de chances que vous votiez ?”, 58% des 886 personnes interrogées avaient
choisi Hollande contre 42% Sarkozy.
1. Y a-t-il une di↵érence significative entre ces deux résultats ?
2. Même question si l’on considère les sondages de la semaine précédente : le 16 avril
2012, l’Ifop publiait les scores de 55.5%-44.5% sur 1808 interrogés et le CSA trouvait
les scores de 57%-43% sur 886 interrogées.
3. Donner la p-valeur des tests asymptotiques précédents.

Exercice 12.2.3. Une étude des décisions rendues par des jurys dans des cas de vols par
e↵raction où l’accusé était de race noire a révélé les faits suivants : parmi les 28 cas où
les victimes étaient de race noire, l’accusé a été trouvé coupable dans 12 cas ; parmi les 36
cas où la victime était de race blanche, l’accusé a été trouvé coupable dans 23 cas. Peut-on
conclure que les jurys ont une plus forte tendance à déclarer coupables ceux qui sont accusés
d’avoir commis des vols contre des Blancs ?
Chapitre

13 Tests du ¬2

13.1 Test d’adéquation à une loi donnée


13.1.1 Cas d’une loi discrète
On observe une variable aléatoire discrète X susceptible de prendre k valeurs
a1 , . . . , a k .

On note P = ( p 1 , . . . , p k ) le vecteur des probabilités définies par


p j = P( X = a j ), j 2 {1, . . . , k}.

On suppose que le vecteur P est inconnu. Soit P § = ( p§1 , . . . , p§k ) un vecteur de probabilités
k
X
connu ( p§j = 1). On veut resoudre le problème de test suivant :
j =1

H0 : P = P § contre H1 : P 6= P § .

Pour j = 1, . . . , k, on note
Nj
pb j =
n
la fréquence empirique de a j ; N j représente le nombre d’obervations de la modalité a j dans
l’échantillon observé de taille n. Le vecteur des fréquences empiriques est
Pb = ( pb1 , . . . , pbk ).

Définition 13.1.1. On appelle distance du ¬2 , la quantité


k ( p̂ j ° p§ )2
X k ( N j ° np§ )2
X
j j
Tn = n = .
j =1 p§j j =1 np§j

T n mesure l’écart entre les e↵ectifs observés et les e↵ectifs ”théoriques” sous l’hypothèse H0

Au niveau Æ 2]0, 1[, la région critique du test


n o
W = T n > ¬21°Æ,k°1

où ¬21°Æ,k°1 est le quantile d’ordre 1 ° Æ de la loi de khi-deux ¬(k ° 1) à k ° 1 degrés de liberté.

59
60 CHAPITRE 13. TESTS DU ¬2
Remarque 13.1.1. En pratique, ce test marche bien si n ∏ 30 et np§j ∏ 5 pour tout j. Si cette
condition n’est pas satisfaite, on peut regrouper les valeurs de a j pour lesquelles p§j est trop
faible.
Exercice 13.1.1. Lors de cent lancers d’un dé à six faces, on observe les résultats suivants :
x 1 2 3 4 5 6
E↵ectif observé 20 13 17 12 23 15
E↵ectif théorique 100/6 100/6 100/6 100/6 100/6 100/6
Tester au niveau 5% l’hypothèse H0 ={le dé n’est pas pipé} contre l’hypothèse H1 ={le dé
est pipé}.

Solution : Posons P § = (1/6, 1/6, 1/6, 1/6, 1/6, 1/6). Il s’ agit ici de tester au niveau 5%

H0 : P = P § contre H1 : P 6= P § .

Pour tout j = 1, . . . , k, nous avons 100 £ p§j ∏ 5 et la taille n = 100 ∏ 30. Les conditions
d’utlisation du test sont respectées.
Au niveau 5%, la région critique du test est
Ω æ
W = T100 > ¬20.95,5

où
6 ( N j ° 100 £ p§ )2
X j
T100 = .
j =1 100 £ p§j

Comme T100 = et ¬20.95,5 = 11.0705

13.1.2 Cas d’une loi continue


On observe X 1 , . . . , X n i.i.d. de même loi issue d’une loi P inconnue, continue. Etant
donnée P § une loi continue, on considère le problème de test d’hypothèses suivant
H0 : P = P § contre H1 : P 6= P § .

Dans cette situation, on doit partitionner R en k classes A j , j = 1, . . . , k. Pour appliquer les


mêmes idées que plus haut, d’une part, k doit être assez grand pour que les lois discrètes,
c’est-à-dire { p j = P ( A j )} et { p§j = P § ( A j )}, soient assez proches des lois continues P et P § .
D’autre part, les probabilités P ( A j ) doivent être suffisamment grandes, pour que l’approxi-
mation asymptotique soit valable.

13.2 Test d’adéquation à une famille de lois


On veut tester si la loi de probabilité inconnue P = ( p 1 , . . . , p k ) sur {a 1 , . . . , a k } est égale à
une loi P § (µ ) = ( p§1 (µ ), . . . , p§k (µ )), où µ = (µ1 , . . . , µs ) est inconnu. On considère donc le problème
de test suivant
H0 : P = P § (µ ) contre H1 : P 6= P § (µ ).
1. Comme précédemment, nous avons
k ( N j ° np§ (µ ))2
X j
T n (µ ) =
j =1 np§j (µ )
13.3. TEST D’INDÉPENDANCE 61
mais la quantité T n (µ ) n’est plus une statistique car µ est inconnu.
2. On estime µ par l’estimateur du maximum de vraisemblance µ̂n . On obtient

k ( N j ° np§ (µ̂ n ))2


X j
T n (µ̂n ) = .
j =1 np§j (µ̂n )

Sous H0 ,nous avons


T n (µ̂n ) °! ¬2 ( k ° s ° 1).
L

Au niveau Æ 2]0, 1[, la région critique du test


n o
W = T n (µ̂n ) > ¬21°Æ,k°s°1

où ¬21°Æ,k°s°1 est le quantile d’ordre 1 ° Æ de la loi de khi-deux ¬(k ° s ° 1) à k ° s ° 1 degrés


de liberté.
Exercice 13.2.1. En se référant aux dates de début du pontificat (dates de consécration) et de
fin (par décès, démission ou inaptitude), la durée d’exercice de chacun des 265 précédents
papes (excepté François) a été calculée en nombre d’années. Les résultats groupés en cinq
tranches sont présentés dans le tableau suivant :

Pontificat Nombre de papes


moins d’une année 46
1 an - 5 ans 76
5 ans - 10 ans 68
10 ans -20 ans 63
20 ans et plus 12

Que penser, au seuil de signification de 5%, de l’hypothèse selon laquelle la distribution du


pontificat des papes serait une distribution exponentielle ?

13.3 Test d’indépendance


On observe un couple ( X , Y ) à valeurs dans { c 1 , . . . , c r } £ {d1 , . . . , d s } et on veut tester si
Y et Z sont indépendantes. On considère un échantillon de taille (( X 1 , Y1 ), . . . , ( X n , Yn )) de
même loi que ( X , Y ).
N i • N• j
X et Y sont indépendantes () N i j =
n
où
s
X r
X
N i• = Ni j N• j = Ni j .
j =1 i =1

La statistique de test est définie par


≥ ¥2
N N
r X
X s N jl ° j•n •l
Tn = N j • N• l
.
j =1 l =1
n

Sous l’hypothèse H0 , la statistique T n converge en loi vers ¬2 (( r ° 1)(s ° 1)).


62 CHAPITRE 13. TESTS DU ¬2
Au niveau Æ 2]0, 1[, la région critique du test
n o
W = T n > ¬21°Æ,(r°1)(s°1)

où ¬21°Æ,(r°1)(s°1) est le quantile d’ordre 1 ° Æ de la loi de khi-deux ¬(r ° 1)( s ° 1)) à (r ° 1)( s ° 1)
degrés de liberté.

Exercice 13.3.1. Une enquête sur l’influence de la ceinture de sécurité a donné les résultats
suivants : sur 10.779 conducteurs ayant subit un accident l’enquête rapporte les e↵ectifs dans
le tableau qui suit selon la gravité et le port au non de la ceinture de sécurité :
Nature des blessures Port de la ceinture Pas de ceinture
Graves ou fatales 5 141
Blessures sérieuses 25 330
Peu ou pas de blessures 1229 9049
La ceinture de sécurité a-t’elle une influence sur la gravité des blessures lors d’un acci-
dent ?
Chapitre

14 Exercices avec solutions

Voici quelques indications concernant la fiche de TD stat 4. Laissez les étudiants exprimer
leurs talents au tableau. Cette fiche ne doit en aucun cas se retrouver dans les mains des
étudiants.

Exercice 1. Afin de mieux gérer les demandes de crédits de ses clients, un directeur d’agence
bancaire réalise une étude relative à la durée de traitement des dossiers, supposée suivre une
distribution normale. Un échantillon de 30 dossiers a donné :

Durée de taitement (en jours) [0, 10[ [10, 20[ [20, 30[ [30, 40[ [40, 50[ [50, 60[
E↵ectif 3 6 10 7 3 1

1. Déterminer les estimateurs de la moyenne m et de la variance æ2 par la méthode du


maximum de vraisemblance. Etudier leurs propriétés.
La vraisemblance de l’échantillon est :
n
Y
L( m, æ2 , X 1 , . . . , X n ) = f ( m, æ2 , X i )
i =1
Y1n ≥ 1 ¥
= p exp ° 2
( X i ° m )2
i =1 æ 2º 2æ
≥ 1 ¥n ≥ 1 X n ¥
= p exp ° 2 ( X i ° m )2
æ 2º 2æ i=1

La méthode du maximum de vraisemblance consiste à trouver la valeur de (m, æ2 ) qui


maximise la vraisemblance. Il s’agit ici de maximiser une fonction à deux variables
à valeurs réelles. Comme la fonction x 7! ln( x) est croissante, nous avons
≥ ¥
c2 ) = arg
b n, æ
(m max ln L( m, æ2 , X 1 , . . . , X n )
n
( m,æ2 )2R£R+
≥ ¥
= arg max ln L( m, æ2 , X 1 , . . . , X n ) .
( m,æ2 )2R£R+

Pour des raisons de simplicité de calcul, on utilise en général la log-vraisemblance. En


e↵et dériver une somme est moins périlleux que dériver un produit. Deux méthodes
à expliquer aux étudiants :

63
64 CHAPITRE 14. EXERCICES AVEC SOLUTIONS
— Méthode 1 : Maximiser une fonction à deux variables à valeurs réelles, c’est à
dire, résoudre le problème de maximisation :
≥ ¥
max ln L( m, æ2 , X 1 , . . . , X n ) .
( m,æ2 )2R£R+

— Méthode 2 : Fixer æ2 et résoudre


≥ ¥
b n = arg max ln L( m, æ2 , X 1 , . . . , X n ) .
m
m2R

Nous avons alors 8æ2 > 0


≥ ¥ ≥ ¥
ln L( m, æ2 , X 1 , . . . , X n ) ∑ ln L( m
b n , æ2 , X 1 , . . . , X n ) .

Puis, résourdre ≥ ¥
c2 = arg max ln L( m
æ b n , æ2 , X 1 , . . . , X n ) .
n
m2R

Nous obtenons alors pour tout (m, æ2 ) 2 R £ R§+ :


≥ ¥ ≥ ¥
ln L( m, æ2 , X 1 , . . . , X n ) ∑ ln L( m c2 , X , . . . , X ) .
b n, æ n 1 n

On obtient :
n
m
bn = Xn c2 = 1 X ( X ° X )2 .
æ n i n
n i=1
Attention : en ce qui concerne la variance, il faut dériver par rapport à
æ2 et non par rapport à æ.

Propriétés des estimateurs : Il existe deux types de propriétés : non asymptotiques


et asymptotiques.
1X n
Intéressons nous à m
bn= Xi :
n i=1

Propriétés non asymptotiques

— E(mb n) = m ) m
b n est un estimateur sans biais de m.
— la variance de mb n est
æ2
V( m
b n) = .
n
— L’information de Fisher apportée par l’échantillon ( X 1 , . . . , X n ) sur le paramètre
m est : ≥ ¥
≥ @2 ln L( m, æ2 , X 1 , . . . , X n ) ¥ n
I n ( m) = °E = 2.
@ m2 æ
æ2 1
b n est un estimateur sans biais de m et V( m
— m b n) = = )m
b n est un esti-
n I n ( m)
mateur efficace de m.
Propriétés asymptotiques
— m
b n est un estimateur convergent de m. On peut le montrer de deux manières :
— soit la définition en utilisant l’inégalité de Bienaymé-Tchebithev
— soit par la loi des grands nombres :
— soit en montrant que E(m b n ) °! m et V( m
b n ) °! 0.
65
— m
b n est un estimateur asymptotiquement normal, c’est à dire,
p loi
b n ° m) °! N (0, æ2 ).
n( m

On le montre en utilisant le Théorème Cenral Limite qui permet d’étudier le


comportement asymptotique de la moyenne empirique pour des variables X 1 , . . . , X n
i.i.d. de moyenne m et de variance æ2 > 0.

n
c2 = 1
X
Intéressons nous æ n (Xi ° Xn )2 .
n i=1
Propriétés non asymptotiques
c2 ) = n ° 1 æ2 6= æ2 ) æ
— E(æ c2 est un estimateur biaisé de æ2 .
n n
n
c
— æn est un estimateur biaisé de æ2 ) æ
2 c2 n’est pas un estimateur efficace de æ2 .
n
(Pas la peine de calculer l’information de Fisher et la borne de Cramer-
Rao, la condition sans biais n’étant pas vérifiée.)
Propriétés asymptotiques
c2 ) = n ° 1 æ2 °! æ2 ) æ
— E(æ c2 est un estimateur asymptotiquement sans biais de æ2 .
n n
n
— Vérifier que la variance V(æc2 ) °! 0 pour assurer la convergence de æ
c2 vers æ2 .
n n
— Pas la peine d’établir la normalité asymptotique ; c’est un peu compli-
qué pour eux je crois ! Si vous trouvez simple, faites moi signe !
2. Donner les estimations ponctuelles de la moyenne m et de la variance æ2 .
Utiliser les centres des intervalles pour faire les estimations :

1X 30 1 X6
X 30 = ci = n j c j.
n i=1 30 j=1

X30 1 X6
d
æ 2 = 1 ( c i ° X 30 )2 = n j ( c j ° X 30 )2 .
30 30 i=1 30 j=1

3. Donner une estimation de m par intervalle de confiance au seuil de risque 5%.


D’après le cours, l’intervalle de confiance pour m de niveau 0.95 est
h S n °1) S n °1) i
X n ° p t(0n.975 , X n + p t(0n.975
n n

où t(0n.975
°1)
est le quantile d’ordre 0.975 de la loi de Student à n ° 1 degrés de liberté et
r
n c2
Sn = æn .
n°1

4. Au seuil de 5%, tester l’hypothèse H0 : m = 30 contre H1 : m < 30. Que pouvez-vous


conclure ?
La région critique du test au seuil Æ = 0.05 est :
n p o
30( X 30 ° 30)
W = ( X 1 , . . . , X 30 ) : < t(29)
0. 05 .
S 30

Rappel du cours : Considérons un échantillon ( X 1 , . . . , X n ) issu de la loi normale


N ( m, æ2 ). Si æ2 est connue :
66 CHAPITRE 14. EXERCICES AVEC SOLUTIONS
Hypothèses Région Critique
n p o
n( X n ° m 0 )
H0 : m ∑ m 0 vs H1 : m > m 0 W = (X1, . . . , X n) : > q 1°Æ
n p æ o
n( X n ° m 0 )
H0 : m ∏ m 0 vs H1 : m < m 0 W = (X1, . . . , X n) : < qÆ
æ
n Ø p n( X ° m ) Ø o
Ø n 0 Ø
H0 : m = m 0 vs H1 : m 6= m 0 W = (X1, . . . , X n) : Ø Ø > q 1° Æ2
æ
Si æ2 est inconnue :
Hypothèses Région Critique
n p o
n( X n ° m 0 )
H0 : m ∑ m 0 vs H1 : m > m 0 W = (X1, . . . , X n) : > t(1n°°Æ1)
p Sn
n n( X n ° m 0 ) o
H0 : m ∏ m 0 vs H1 : m < m 0 W = (X1, . . . , X n) : < t(Æn°1)
Sn
n Ø p n( X ° m ) Ø o
Ø n 0 Ø
H0 : m = m 0 vs H1 : m 6= m 0 W = (X1, . . . , X n) : Ø Ø > t(1n°°Æ1)
Sn 2

Exercice 2. La société ”Votre santé” est une entreprise de vente par correspondance de
produits de beauté dits ”naturels”. Elle gère un fichier de 350000 clients et propose chaque
mois une o↵re promotionnelle accompagnée d’un cadeau. Le taux de réponse à cette o↵re est
généralement de 15%, la marge moyenne par réponse de 340 fcfa. Mlle Claire, nouvellement
en charge de ce fichier, a retenu comme cadeau un abonnement gratuit de six mois, au
mensuel ”Votre beauté Madame”. Elle pense que cela pourrait augmenter le taux de réponse
à la prochaine o↵re ; toutefois cette proposition ne serait rentable que si le taux de réponse
dépassait les 17.5% (avec la même marge moyenne évidemment). Elle envisage de tester
la réalité de ces hypothèses sur un échantillon de clientes. La précision voulue pour son
estimation est de l’ordre de 2%.
1. Quelle taille d’échantillon doit-elle choisir afin d’atteindre la précision voulue (avec
un niveau de confiance de 0.95) ?

— Modélisation (à ne jamais oublier !)


— Population : les 350 000 clients
— Echantillon : Soit X i la variable aléatoire définie par :
(
1 si le ième client achète
Xi =
0 sinon
Nous ( X 1 , . . . , X n ) est un échantillon issu de la loi de Bernouilli B (1, p) où
p s’interprète comme la proportion des clients qui acheteraient si l’o↵re se
généralisait à l’ensemble des clients.
— Détermination de n. Exposer les deux methodes et privilégier ici la
deuxième car on a une idée de X n .
— Méthode pessimiste (majoration de l’écart-type) : L’intervalle de confiance
de niveau 1 ° Æ est donné par
s s
h X n (1 ° X n ) X n (1 ° X n ) i h 1 1 i
X n ° q 1° Æ , X n + q 1° Æ Ω X n ° q 1° Æ p , X n + q 1° Æ p
2 n 2 n 2 2 n 2 2 n

q
puisque X n (1 ° X n ) ∑ 12 . La marge d’erreur est donc :
s
X n (1 ° X n ) 1
ME = q 1° Æ ∑ q 1° Æ p .
2 n 2 2 n
67
Nous déterminons n tel que
1 ≥ q 1° Æ ¥2
2
q 1° Æ p ∑ 0.02 ) n ∏ = 2401.
2 2 n 0.04

— Méthode plus optimiste (on pense que le taux de réponse sera proche
du taux habituel qui est 15%) : L’intervalle de confiance de niveau 1 ° Æ
est donné par
s s
h X n (1 ° X n ) X n (1 ° X n ) i
X n ° q 1° Æ , X n + q 1° Æ
2 n 2 n

avec sans doute X n (1 ° X n ) sans doute proche de son ancienne 0.15(1 ° 0.15).
Nous déterminons alors n tel que
s s
X n (1 ° X n ) 0.15(1 ° 0.15)
ME = q 1° Æ = q 1° Æ ∑ 0.02
2 n 2 n

) n ∏ 1224.51 ) n = 1225.
2. Les résultats d’un sondage sur un échantillon de 1225 clientes vous sont donnés en
annexe.

Donner une estimation par intervalle au niveau 0.95 du pourcentage p de réponses


positives attendues à l’o↵re.
3. Mlle Claire se propose de procéder au test d’hypothèses suivant H0 : p = 17.5% contre
H0 : p > 17.5%. Expliquer pourquoi elle envisage ce test. Calculer la p-value. Qu’en
concluez-vous ?
Si elle rejette son H0 pour H1 alors, elle saura que p 0 > 17.5% et que la nouvelle
promotion est à étudier. En e↵et, on apprend réellement d’un test lorsque H0 est
rejetée !
La région critique du test est :
n p o
1225( X 1225 ° 0.175)
W = ( X 1 , . . . , X 1225 ) : p > q 1°Æ
0.175(1 ° 0.175)

Hypothèses Région Critique


n p o
n( X n ° p 0 )
H0 : p ∑ p 0 vs H1 : p > p 0 W = (X1, . . . , X n) : p > q 1°Æ
p (1 ° p 0 )
n p 0 o
n( X n ° p 0 )
H0 : p ∏ p 0 vs H1 : p < p 0 W = (X1, . . . , X n) : p < qÆ
p 0 (1 ° p 0 )
n Ø p n( X ° p ) Ø o
Ø n 0 Ø
H0 : p = p 0 vs H1 : p 6= p 0 W = (X1, . . . , X n) : Ø p Ø > q 1° Æ2
p 0 (1 ° p 0 )
4. Mlle Claire pense que les nouveaux clients (inscrits depuis moins de 6 mois) ont un
taux de réponse inférieur aux anciens. Confirmer ou infirmer cette hypothèse.
Nous allons faire un test de comparaison des proportions pour répondre à la question
— Modélisation (à ne jamais oublier !) Soient les variables aléatoires définies
par : (
1 si le ième ancien client a répondu
Yi =
0 sinon
68 CHAPITRE 14. EXERCICES AVEC SOLUTIONS
(
1 si le ième ancien client a répondu
Zi =
0 sinon
On dispose ainsi de deux échantillons : (Y1 , . . . , Y850 ) issu d’une loi de Bernouilli
B (1, p anciens ) et ( Z1 , . . . , Z375 ) issu d’une loi de Bernouilli B (1, p nou ) où p anc et
p nou représentent respectivement les taux de réponses dans les deux populations.
— Nous considérons le problème de

H0 : p an = p nou contre H1 : p anc > p nou

La variable de décision est

Y 850 ° Z 375
Tq
1 1
pb(1 ° pb)( 850 + 375 )

où
850 £ Y 850 + 375 £ Z 375
pb = .
850 + 375
La région critique du test est :
n o
W = T > q 1°Æ .

— Pour Æ = 0.05 q0.95 = 1.64 et t = 2.13. On voit que 2.13 > 1.64. Ainsi, au niveau
Æ = 0.05, nous acceptons H1 , c’est à dire que les anciens sont plus recptifs que les
nouveaux.
Théorème 14.0.1. Posons
n 1 X n1 + n 2 X n2
pb = .
n1 + n2
- La région critique du test H0 : p 1 ∑ p 2 contre H1 : p 1 > p 2 est :
8 9
>
< >
=
X n1 ° X n2
W= q > q 1°Æ .
> >
: pb(1 ° pb)( n11 + n12 ) ;

- La région critique du test H0 : p 1 ∏ p 2 contre H1 : p 1 < p 2 est :


8 9
>
< >
=
X n1 ° X n2
W= q < qÆ .
> >
: pb(1 ° pb)( n11 + n12 ) ;

- La région critique du test H0 : p 1 = p 2 contre H1 : p 1 6= p 2 est :


8Ø Ø 9
> Ø Ø >
<Ø X ° X Ø =
Ø n1 n2 Ø
W = Øq Ø > q 1° Æ2 .
>
:ØØ p Ø >
b(1 ° pb)( n11 + n12 ) Ø ;

5. Il s’agit dans cette question de déterminer un intervalle de confiance au niveau 0.95 de


la marge de la campagne promotionnelle. Peut-on considérer que la marge moyenne
attendue de cette campagne sera la même que pour les campagnes précédentes. On
posera cette alternative sous forme de test.
69
— Modélisation : Pour chacune des 258 commandes, soit M i la variable aléatoire
qui donne la marge réalisée pour la commande i . Pour faire simple, nous allons
supposer que ( M1 , . . . , M258 ) est un échantillon issu d’une loi normale N (m, æ2 ).
Ici, m et æ2 sont inconnues.
— Au niveau Æ = 0.05, nous considérons le problème de test de

H0 : m = 340 contre H1 : m < 340

La région critique du test est


n p258( M o
258 ° 340)
W= < t(257)
Æ
S 258

où t(257)
Æ est le quantile d’ordre 0.05 de la loi de Student à 257 degrés de liberté.
On peut utiliser la table de la loi normale centrée réduite car la loi de Student
converge vers la loi normale N (0, 1) lorsque le nombre de degrés de liberté n ! +1
( n > 30 en pratique.)
— On a t = °0.97 et t(257)
Æ = °1.65. Nous avons donc °0.97 > °1.65. Nous en dédui-
sons qu’au niveau 5%, on conerve H0 ,c’est à dire en moyenne, la marge ne di↵ère
pas significativement de 340.

Annexe : résultats du sondage

Nouveaux clients Anciens clients


Nombre d’individus 1225 850
Nombre de réponses 258 193

Marge totale Marge moyenne Ecart-type de la marge


8 514 000 33 000 16 500

Exercice 3. On considère un échantillon ( X 1 , . . . , X n ) issu de la loi exponentielle E (µ ) avec


µ > 0 inconnu.
1. Déterminer l’estimateur µbn par la methode du maximum de vraisemblance.
La vraisemblance de ( X 1 , . . . , X n ) est
n
Y
L( X 1 , . . . , X n , µ ) = µ exp(°µ X i )1R§+ ( X i )
i =1
≥ n
X ¥
= µ n exp ° µ X i 1(R§+ )n ( X 1 , . . . , X n ).
i =1

Pour tout ( X 1 , . . . , X n ) 2 (R§+ )n , on a


n
X
ln(L( X 1 , . . . , X n , µ )) = n ln(µ ) ° µ Xi
i =1
70 CHAPITRE 14. EXERCICES AVEC SOLUTIONS
@ ln L( X 1 , . . . , X n , µ ) n Xn 1
= ° X i = 0 () µ =
@µ µ i=1 Xn
@ ln L( X 1 , . . . , X n , µ ) ≥ 1 ¥
2
2
= ° nX n < 0.
@µ 2 Xn

L’estimateur du maximum de vraisemblance de µ est donné par


1
µ̂n = .
Xn

2. Montrer que µbn peut être obtenu par la methode des moments.
Nous avons
1 1 1
E( X 1 ) = ) Xn = )µ=
µ µ Xn

3. Déterminer les propriétés asymptotiques de µbn .

(a) D’après la loi des grands nombres, on a :

P 1
X n °°°°°! .
n!+1 µ
1
Comme, l’application x 7! est continue sur R§+ , alors
x
1 P
°°°°°! µ .
Xn n!+1

(b) D’après le Théorème Central limite X n est asymptotiquement normal :


p ≥ 1¥ L ≥ 1¥
n Xn ° °°°°°! N 0, 2 .
µ n!+1 µ
0
Comme, l’application g : x 7! 1x est dérivable sur R§+ et g ( x) = ° x12 , on obtient par
la delta-méthode :
p ≥ 1 0 ¥
n( g( X n ) ° g(1/µ )) °°°°°! N 0, 2 ( g (1/µ ))2 .
L
n!+1 µ
c’est à dire
p ≥ 1 ¥
° µ °°°°°! N (0, µ 2 ).
L
n
Xn n !+1

4. Montrer que µbn est un estimateur biaisé de µ . En déduire un estimateur µen sans biais
de µ .
Montrer que
E(µbn ) 6= µ .
Utiliser la linéarité de l’espérance pour tirer µen .
5. L’estimateur µen est-il efficace ?
Je crois que µen n’est pas efficace malgré qu’il soit sans biais. Mais il faut vérifier que
la variance :
V(µen ) > BCR (µ ),
où BCR (µ ) est la borne de Cramer-Rao.
71
Exercice 4. Pour 30 femmes et 20 hommes, on a observé le salaire mensuel. Les résultats
mesurés en euros sont ci-dessous :

Salaire des femmes


1955 1764 1668 1441 1970 1795 1716 1911 1660 2001
1744 1676 1695 1652 1626 1698 1656 1739 1789 1716
1684 1445 1646 1617 1630 1440 1850 1252 1493 1537

Salaire des hommes

2283 2010 1970 2019 1941 2024 2046 1962 1948 2071
2108 1880 2008 2119 2030 2014 1919 1837 2094 2169

Au seuil de 5%, le salaire moyen des hommes est-il significativement supérieur à celui
des femmes ?

Il s’agit ici de faire un test de comparaison des moyennes dans un échantillon gaussien.
— ( X 1 , . . . , X n1 ) est issu de N (m 1 , æ21 )
— (Y1 , . . . , Yn2 ) est issu de N (m 2 , æ22 ).
— ( X 1 , . . . , X n1 ) et (Y1 , . . . , Yn2 ) sont indépendants.
Problème : tester H0 : m 1 = m 2 contre H1 : m 1 6= m 2 au niveau Æ.
La variable de décision dépend du fait que les variances æ21 et æ22 soient égales ou non. Il
faut donc commencer par comparer les variances :

H0 : æ21 = æ22 contre H1 : æ21 6= æ22

La région critique au niveau Æ est donnée


n S2 o n S2 o
1 1
W= > f 1° Æ [ < fÆ
S 22 2 2
S2 2

où f Ø est le quantile d’odre Ø de la loi de Fisher avec n1 ° 1 et n2 ° 1 degrés de liberté. La


région critique du test au niveau Æ :
n o
W = |T | > t 1° Æ ( m)
2

où
m = n 1 + n 2 ° 2 si æ1 = æ2
et ≥ S2
n1 S 2n ¥2
2
n1 + n2
m= si æ1 6= æ2 .
S 4n1 S 4n2
+
n21 ( n 1 °1) n22 ( n 2 °1)
72 CHAPITRE 14. EXERCICES AVEC SOLUTIONS
Année Universitaire 2018-2019
Examen (2 heures)
Enseignant : Prof. YODE Armel

Exercice 1. Une enquête concernant l’utilisation des cartes bancaires (CB) a été e↵ectuée
en septembre 2005 auprès des personnes agées de 18 ans. Les résultats (partiels) de cette
enquête sont présentés dans le tableau ci-dessous :

Description E↵ectif
Personnes interrogées 501
Porteurs de CB 433
ayant e↵ectué au moins un achat par CB 400
ayant e↵ectué au moins un achat par CB sur Internet 144

Dans la suite, on s’intéresse à la proportion p de personnes ayant e↵ectué un achat par


CB sur Internet parmi celles qui ont e↵ectué au moins un achat par CB.

1. Donner le modèle théorique permettant l’étude de p : population, échantillon, variable


aléatoire, loi.

- La population étudiée est l’ensemble des clients ayant e↵ectué au moins un achat
par CB.
- On dispose d’un échantillon de taille 400 issu de cette population.
- Soit X i la variable aléatoire définie par :
(
1 si le client i a e↵ectué au moins un achat par CB sur intenet
Xi =
0 sinon

X i suit une loi de Bernouilli B (1, p). De plus les variables aléatoires X 1 , . . . , X n
sont indépendantes.

2. Donner un estimateur pb de p par la méthode du maximum de vraisemblance. Etudier


les propriétés de l’estimateur pb.
La vraisemblance de l’échantillon ( X 1 , . . . , X n ) est :

n
Y
L( p, X 1 , . . . , X n ) = f ( X i , p)
i =1
Y n
= p X i (1 ° p)1{0,1}
i =1
≥ p ¥P n X i
= (1 ° p)n
i =1
1{0,1}n
1° p

Pour tout p 2]0, 1[, ( X 1 , . . . , X n ) 2 {0, 1}n , L( p, X 1 , . . . , X n ) > 0 et

≥ ¥ X n ≥ p ¥
ln L( p, X 1 , . . . , X n ) = n ln(1 ° p) ° X i ln
i =1 1° p
73
La log-vraisembleance est
n
X n
X
ln L( X 1 , . . . , X n , p) = X i ln( p) + ( n ° X i ) ln(1 ° p)
i =1 i =1
Condition du premier ordre
Pn Pn
i =1 X i n° i =1 X i
@ ln L( X 1 , . . . , X n , p) 1X n
= ° = 0 () p = Xi = X n
@p p (1 ° p) n i=1
Condition du deuxième ordre
@2 ln L( X 1 , . . . , X n , p) ° nX n n ° nX n
(X n) = ° < 0.
@ p2 2
Xn (1 ° X n )2

L’estimateur du maximum de vraisemblance de p est donné par

pbn = X n .

Étude des propriétés asymptotiques de pbn .

(a) D’après la loi des grands nombres, X n est un estimateur convergent de p.


(b) D’après le Théorème Central limite X n est asymptotiquement normal :
p L
n( X n ° p) °°°°°! N (0, p(1 ° p)).
n!+1

Étude des propriétés non asymptotiques de pbn .

(a) E ( pb) = p
(b) L’information de Fisher est :
≥ @2 ln L( X , . . . , X , p) ¥ n
1 n
I n = °E = .
@ p2 p(1 ° p)

La borne de Cramer-Rao est donc :


p(1 ° p)
BCR ( p) = .
n

X n est un estimateur efficace de p car pbn est sans biais et

p(1 ° p)
var ( pbn ) = = BCR ( p).
n

3. Donner une estimation de p.


144
Une estimation de p est = 0.36
400
4. Calculer un intervalle de confiance de niveau de confiance 95% pour p.
L’intervalle de confiance pour p de niveau 1 ° Æ est :
s s
h X n (1 ° X n ) X n (1 ° X n ) i
X n ° q 1° Æ , X n + q 1° Æ =
2 n 2 n
s s
h 0.36(1 ° 0.36) 0.36(1 ° 0.36) i
0.36 ° 1.96 , 0.36 + 1.96 = [0.313, 0.407]
400 400
74 CHAPITRE 14. EXERCICES AVEC SOLUTIONS
5. Si on suppose constant le pourcentage de personnes interrogées ayant e↵ectué au
moins un achat par CB sur Internet, quelle devrait être la taille de l’échantillon pour
connaitre p à 3% près (avec un niveau de confiance de 95%) ?
Nous avons
s
Ø Ø X n (1 ° X n ) q21° Æ X n (1 ° X n )
Ø Ø 2
Ø p ° X n Ø ∑ q 1° Æ2 ∑ 0.03 ) n ∏
n (0.03)2
(1.96)2 § 0.36(1 ° 0.36)
)n∏ = 983.44 ) n = 984.
(0.03)2

6. En janvier 2005, une enquête similaire évaluait à 32% la part de personnes ayant
e↵ectué au moins un achat par CB sur Internet parmi celles ayant e↵ectué au moins
un achat par CB.
(a) Les données de l’enquête de septembre 2005 permettent-elles de conclure à une
augmentation significative de la part de personnes utilisant leur CB sur Internet,
en prenant un risque de première espèce de 1% ?
Il s’agit ici de tester H0 : p ∑ 0.32 contre H1 : p > 0.32 au seuil Æ = 0.01. La région
critique est donc
n p400( p
bn ° 0.32) o
W= p > q 0.99
0.32 § 0.68
où q0.99 = 2.33 est le quantile d’ordre 0.99 de la loi normale centrée réduite.
Comme
p
400( pbn ° 0.32)
p = 1.714 < 2.33, alors au seuil de 1%, les données de septembre
0.32 § 0.68
2005 ne permettent pas de conclure àune augmentation significative de la part des
personnes utilisant leur CB sur internet.
(b) Quelle est la puissance du test lorsque p = 34% ?
La puissance du test au point p = 0.34 est donée par :

≥ p400( p
bn ° 0.32) ¥
∞(3) = P34 p > 2.33
0.32 § 0.68
s
≥ 0.32 § 0.68 ¥
=P p b400 > 2.33 + 0.32
400

≥ p
0.34 § 0.66 ¥ 400( pbn ° 0.34)
Sous l’hypothèse H1 , pbn ª N 0.34, , p ª N (0, 1). Ainsi,
400 0.34 § 0.66
nous obtenons :
s s
≥ p400( p
bn ° 0.34) 400 h 0.32 § 0.68 i¥
∞(3) = P0.34 p > 2.33 + 0.32 ° 0.34
0.34 § 0.66 0.34 § 0.66 400

≥1¥
Exercice 2. On considère un échantillon ( X 1 , . . . , X n ) issu de la loi exponentielle E avec
µ
µ > 0 inconnu.

1. Déterminer l’estimateur µbn par la methode du maximum de vraisemblance.


75
La vraisemblance est :
n
Y
L( X 1 , . . . , X n , µ ) = f ( X i , µ)
i =1
Y
1 n ≥ 1 ¥
= exp ° X i 1R§+
i =1 µ µ
1 ≥ 1X n ¥
= n exp ° X i 1R§+n
µ µ i=1
Pour tout ( X 1 , . . . , X n ) 2 R§+n , µ > 0
1 ≥ 1X n ¥
L( X 1 , . . . , X n , µ ) = exp ° X i > 0.
µn µ i=1
Alors, nous avons :
≥ ¥ 1X n
ln L( X 1 , . . . , X n , µ ) = ° n ln(µ ) ° Xi
µ i=1
Condition du premier ordre :
≥ ¥
@ ln L( X 1 , . . . , X n , µ )
= 0 =) µ = X n .

Condition du second ordre :
≥ ¥
@2 ln L( X 1 , . . . , X n , µ ) n n
2 X
= ° 3 Xi
@µ 2 µ 2 µ i=1
n 2n 1X n
Comme 2
° 2
< 0 alors l’EMV est µbn = Xi
Xn Xn n i=1
2. Vérifier que µbn peut être obtenu par la méthode des moments.
3. L’estimateur µbn est-il efficace ?
4. Déterminer les propriétés asymptotiques de µbn .
5. Déterminer les propriétés asymptotiques de µbn2 .

Exercice 3. Une étude a été réalisée sur le cancer de la gorge. Pour cela, une population
de 1000 personnes a été interrogée. les résultats obtenus sont donnés dans le tableau de
contingences suivant :

Atteint du cancer de la gorge Non atteint du cancer de la gorge


Fumeur 344 258
Non fumeur 160 238

Doit-on rejeter au niveau 5% l’hypothèse d’indépendance des deux caract‘eres : X =(être


fumeur) et Y =(être atteint du cancer de la gorge).

Exercice 4. Sur deux groupes de même taille 9 malades, on expérimente les e↵ets d’un
nouveau médicament. On observe les résultats suivants :

Groupe 1 15 18 17 20 21 18 17 15 19
Groupe 2 12 16 17 18 17 15 18 14 16
1. Comparer au niveau 5% les variances des deux populations
2. Comparer au niveau 5% les moyennes des deux populations

Vous aimerez peut-être aussi