Cours de Probabilités : Échantillonnage et Estimation
Cours de Probabilités : Échantillonnage et Estimation
(2e Partie)
1
Chapitre 1 Distributions d’échantillonnage
1.1 Généralités sur l’échantillonnage
1.1.1 Problématique de l’échantillonnage
Dans notre vie quotidienne, il existe très souvent un désir d’exprimer en terme
quantitatif certains aspects, de déterminer certaines caractéristiques numériques.
Par exemple, on peut vouloir
- déterminer l’âge moyen des étudiants en L2-SEG dans les universités en Afrique,
- estimer le temps moyen passé sur les réseaux sociaux des étudiants en Afrique,
L’idée fondamentale dans ce cas est l’étude d’une population …nie où tous les
individus présentent les mêmes centres d’intérêt. Naturellement, on doit se poser la
question suivante : pourquoi ne pas etudier le caractere en question sur chaque
individu de la population pour obtenir une reponse vraie et exacte?
Malheureusement cela n’est pas toujours possible surtout lorsque l’on a une large
population ou pour certains types d’études. En e¤et, di¤érents types de contraintes
peuvent empêcher une étude exhaustive de la populations. On peut citer ; par
exemple
des contraintes budgétaires. Exemple : Assemblée Nationale, Conseil de Sécurité
des contraintes de réalisabilité . Exemple : Pollution par moto à Ouagadougou
des contraintes d’accès à l’information. Exemple : Enquête sur le sida, la sexua-
lité, le revenu.
Dans un tel contexte, on procède par échantillonnage c’est à dire que l’on restreint
l’étude du caractère à une partie de la population appelée echantillon: La théorie
de l’échantillonnage est l’étude des liens existant entre les caractéristiques de la
population et celles de l’échantillon.
2
1.1.2 Terminologies et exemples
3
2006.
13 730 258 habitants vivaient au Burkina Faso (Burkinabè et étrangers),
dont 51,7% de femmes, 2 295 701 menages.
79,7% en milieu rural, le nombre de citadins a doublé en dix ans, un burkinabé sur 5.
Rapport de masculinité : 94 hommes pour 100 femmes.
Citadinisation croissante (exode rural, communalisation intégrale).
RGPH, normalement chaque dix ans : 1975, 1985, 1996 et 2006.
Source : INSD.
Depuis 2016 est e¤ectué au Burkina Faso un sondage d’opinion à partir d’une
nouvelle plateforme de veille citoyenne, un outil de suivi des politiques gouverne-
mentales. Les données suivantes résultent du dernier sondage, en décembre 2018..
Note de 4,91 sur 10, obtenu par le Président du Faso contre 4,79 e déc.2017
Accès à l’eau potable : 58,3% pas satisfaits, 39,3% satisfaits et 2,4% sans avis.
Gratuité des soins : 49,3% satisfaits ; 49,3% pas satisfaits, 1,4% sont sans avis
Connaître le PNDES : 48,7% oui contre 42,1% non et 9,3% sont « sans avis
Retour de Blaise Compaoré : 58% pour 25% contre et 17% sans avis.
Sources : CGD, Journal, [Link], [Link]/.
4
1) par la première méthode pour une marche à 2 pas, droite
à gauche, bas en haut, 8e ligne et 6e colonne.
2) par la deuxième méthode pour une marche à 3 pas, gauche
à droite, haut en bas, 4e ligne, 7e colonne.
3) par la méthode mixte pour une marche à 1 pas, droite à
gauche, bas en haut, 8e ligne et 6e colonne.
Remarque 1.1
Il existe d’autres méthodes d’échantillonnage aléatoire (voir la théorie du son-
dage). Leur avantage est de nous permettre de juger objectivement de la valeur des
estimations faites sur les caract´eristiques de la population. : Échantillonnage sys-
tématique, échantillonnage strati…é, échantillonnage par grappes, échantillonnage à
plusieurs degrés., échantillonnage à plusieurs phases.
a) Quelques avantages
— Coût moindre.
— Gain de temps.
— C’est la seule méthode qui donne des résultats dans le cas d’un test destructif.
b) Inconvénients
L’échantillonnage a pour but de fournir su¢ samment d’informations pour pou-
voir faire des déductions sur les caractéristiques de la population. Cependant, les
résultats obtenus d’un échantillon à l’autre sont en général di¤érents et di¤érents
également de la valeur de la caractéristique correspondante dans la population. On
dit qu’il y a des ‡uctuations d’échantillonnage. Pour tirer des conclusions valables
dans de tels cas, il faut déterminer les lois de probabilités qui régissent ces ‡uctua-
5
tions à travers les variables d’échantillonnage.
1 11164 36318 75061 37674 26320 75100 20418 19215 91791 76831
2 76831 58678 87054 31687 93205 43685 19732 08468 10438 44482
3 66558 37649 08882 90870 12462 41810 01806 02977 36792 26236
4 33266 66583 60881 97395 20461 36742 02852 50564 73944 04773
5 12032 51414 82384 38370 00249 80709 72605 67497 49563 12872
6 14063 93104 78483 72717 68714 18048 25005 04151 64208 48237
7 41701 73117 33242 42314 83049 21933 92813 04763 51486 72875
8 38605 29341 80749 80749 33835 52602 79147 08868 99756 26360
9 64516 17971 46478 09610 04638 17141 09227 10606 71325 55217
10 13015 72907 00431 45117 33827 33827 92873 02953 85474 65285
11 97198 12138 53010 94601 15838 16805 61004 43516 17020 17264
12 57327 38114 29301 38109 34976 65692 98566 29550 95639 99754
13 31199 92558 68368 04985 51092 37780 40261 14479 61555 76404
14 86210 11808 12841 45147 97439 60022 12645 62000 78137 98768
15 04689 87130 79225 08153 84967 64539 79493 74917 62490 99215
16 84987 28759 19177 14733 24550 28067 68894 38490 2416 63444
17 21283 07044 92729 37284 13211 37485 10415 36457 16975 95428
18 33226 55903 31605 43817 22250 03918 46999 98501 59138 39542
19 71168 57609 91510 77904 74244 50940 31553 62562 29478 59652
20 50414 31966 87912 87154 12944 49862 96566 48825 38712 31512
21 08588 61490 72294 42862 87334 05866 66269 58722 03678 19186
22 69602 34625 75958 56869 17907 81867 11535 26188 69497 51351
23 47799 20477 71786 52560 66827 79419 70886 12893 54048 07255
24 86149 99090 70958 50775 31768 52903 27645 33186 81346 85095
25 37282 85536 72661 32180 40229 19209 74939 79893 29448 88392
26 97198 12138 53010 94601 15838 16805 61004 43516 17020 17264
27 57327 38114 29301 38109 34976 65692 98566 29550 95639 99754
28 13015 72907 80709 72605 67497 49563 12872 02953 85474 65285
29 37282 85536 72661 32180 40229 19209 74939 79893 29448 88392
30 31199 92558 68368 04985 51092 37780 40261 14479 61555 76404
31 12032 51414 82384 38370 00249 80709 72605 67497 49563 12872
32 57327 38114 29301 38109 34976 65692 98566 29550 95639 99754
33 13015 72907 00431 45117 33827 33827 92873 02953 85474 65285
34 80709 72605 67497 49563 12872 75100 20418 197215 91791 76831
35 57327 38114 29301 38109 34976 65692 98566 29550 95639 99754
36 86149 99090 70958 50775 31768 52903 27645 33186 81346 85095
37 71168 57609 91510 77904 74244 50940 31553 62562 29478 59652
38 12032 51414 82384 38370 00249 80709 72605 67497 49563 12872
39 12032 51414 82384 38370 00249 80709 72605 67497 49563 12872
40 14063 93104 78483 72717 68714 18048 25005 04151 64208 48237
0
Cours de Probabilités 3 L2-SEG Promotion 2022 Prof D. BARRO Mai 2024
6
1.2 Variables d’échantillonnage
1.2.1 Notion des distributions d’échantillons
Cet échantillon aléatoire ( X1 ;.::; Xn ) est caractérisé par les statistiques sui-
vantes :_ Pn
X
Xn = i=1 i , la moyenne empirique ou variable des moyennes d’échantillons
n
2 1 Pn 2
Sn = i=1 Xi Xn ; la variance empirique ou variable des variances
n
d’échantillons.
0
Cours de Probabilités II L2-SEG Pr D. BARRO Avril 2023
7
1 PN 2
S~n2 = Xi Xn ; la variance empirique corrigée.
n 1 i=1
Le problème consiste à déterminer les distributions d’échantillons de ces statis-
_
tiques c-à-d déterminer les caractéristiques espérance et variance des variables Xn
et S2n :
8
a) Caractéristiques de la variable Xn
Les variables X1 ; :::; Xn étant i.i.d de loi commune X(m; ); il vient alors que
E (Xi ) = m et V(Xi ) = 2 .
Espérance mathématique de Xn .
X X
Xi E (X i ) /
nm
E Xn = E = = = = m:
n n n n/
donc l’écart-type de la moyenne empirique n’est autre que l’écart-type divisé par
la racine carrée de n ).
Variance de Xn
X X
2
Xi V (Xi ) n/ 2 2
V Xn = V = = = = :
n n2 n2 n2 n
Avec remise ' Tirage non exhaustif ' variables i.i.d ' grd échantillon
Sans remise ' Tirage exhaustif ' variables non i.i.d ' tirage séquentiel
Application
Une population est constituée de temps de 5 étudiants en statistique. Chaque étu-
diant donne le temps hebdomadaire (en heures) consacré à l’étude des statistiques:
Aziz : 8, Benjamine : 5, Cherifa : 7, Donald : 4. Estelle : 6:
TAF : Extraire tous les échantillons de taille 3 de cette population et déterminer
la relation entre la moyenne échantillonale et la véritable moyenne de la population.
9
Eléments de Solution
Taille N = 5,
Population Moyenne m = 6: p
Ecart type = 2:
Taille n = 3,
Echantillon Nombre d’échant. k = {35 = 10:
Moy. et Ecart type (à déterminer)
Tableau des di¤érents échantillons.
Temps
No Echantillons Moyenne xi x2i
d’étude
1 A,B,C 8,5,7 6.67 44:444
2 A,B,D 8,5,4 5.67 32: 149 Les caractéristiques de l’échantillon
3 A,B,E 8,5,6 6.33 40: 069 sont : taille n = 3; moyenne mX = 6 ;
4 A,C,D 8,7,4 6.33 40: 069 écart type : X = [Link] Plus généra
5 A,C,E 8,7,6 7.00 49.00 lement on obtient les
6 A,D,E 8,4,6 6.00 36.00 propriétés suivantes.
7 B,C,D 5,7,4 5.33 28: 409
8 B,C,E 5,7,6 6.00 36.00
9 B,D,E 5,4,6 5.00 25.00
10 C,D,E 7,4,6 5.67 32: 149
Total 60 363: 33
Par conséquent, dans ces deux cas, la variable de la moyenne d’échantillons est
pop pop
normale de moyenne m et d’écart type p i.e X N m; p :
n n
c) Loi de somme de moyennes d’échantillons
Comme dans l’analyse des probabilités, il existe des situations où on a plu-
tôt besoin du comportement aléatoire de la somme de deux variables de moyennes
d’échantillons extraits de deux populations distinctes: Rappelons d’abord ce résultat
10
de probabilité.
Remarque 1.2 :
_ _
1 2
Si X n1 N m1 ; p et X n2
sont des variables de moyennes N m2 ; p
n1 n2
échantillons extraits de deux populations !distinctes, alors la loi de leur somme est :
r 2 2
_ _
1 2
X n1 + X n2 N m1 + m2 ; + , loi de somme de moyennes d’échantillons
n1 n2
r !
_ _ 2 2
1 2
X n1 X n2 N m1 m2 ; + ; loi de di¤érence de moyennes d’échant.
n1 n2
Application 1.3
Lors d’un examen portant sur un grand nombre d’étudiants de la L2, un échantillon
de 200 copies donne une moyenne 8,48 et un écart type de 0,12 pour une matière
A tandis que 320 copies pour la matière B donnent plutôt une moyenne 9,82 et un
écart type de 0,09. Estimer la proportion de l’ensemble des étudiants ayant
i) été exclus à cause de la matière A,
ii) validé la matière B
iii) plus travaillé dans la matière B que dans A.
..........................................................................................................................................................................................
0
Probabilités 2 L2-SEG P.2019 et P.2020 Pr D. Barro Avril-mai 2022
11
1.2.3 Distribution des proportions d’échantillons
a) Position du problème .
Soit une population dont les individus possèdent un caractère avec une probabi-
lité p. A partir d’un échantillon de taille n extrait dans cette population, on cherche
à déterminer la probabilité p qu’un individu véri…e un certain caractère ou la pro-
portion des personnes véri…ant ce caractère). Pour ce faire, on considère les variables
X1 ; ::; Xn où la variable Xi est telle que
Dé…nition 1.3
Déterminer la distribution de la proportion d’échanmtillons c’est trouver les carac
téristiques (moyenne et écart type) de Pn
Application
Une population est constituée de temps de 5 étudiants en statistique. Chaque étu-
diant donne le temps hebdomadaire (en heures) consacré à l’étude des statistiques:
Aziz : 8, Benjamine : 5, Cherifa : 7, Donald : 4. Estelle : 6:
TAF : Extraire tous les échantillons de taille 3 de cette population et déterminer
la relation entre la moyenne échantillonale et la véritable moyenne de la population.
Eléments de Solution
12
Taille N = 5, Taille n = 3,
Population Moyenne m = 6: p Echantillon Nombre d’échant. k = {35 = 10:
Ecart type = 2: Moy. et Ecart type (à déterminer)
Tableau des di¤érents échantillons.
Interpretations:
Application 1.4
Une étude socioéconomique révèle que 27% des agents du ministère M1
possède un véhicule dans un échantillon de 1676 agents sondés contre 621
agents dans un échantillon de 1848 agents sondés dans un autre ministère
M2 . Quelle est la probabilité que
13
1. la proportion des personnes véhiculées du ministère M1 soit entre
22% et 32% ?
2. plus du tiers des agents du ministère M2 soient véhiculés.
3. moins d’agents du ministère M1 soient véhiculés que d’agents de M2 .
Eléments de solution
14
1.2.4 Distribution de la variance d’échantillons
a) Position du problème
On considère un échantillon de variables aléatoires X1 ; ::; Xn indépendantes et
identiques, associées à une population. On suppose que la variable caractéristique X
de la population est telle que E (X) = , l’espérance mathématique et V (X) = 2 la
variance inconnue. Pour avoir une valeur approchée de 2 on associe à cet échantillon
la variance empirique ou variable des variances d’échantillons :
1 Pn 2
Sn2 = Xi Xn dont la réalisation est la variance échantillonale
n i=1
1 Pn
s2n = i=1 (xi )2 :
n
Problème : Quelles sont les caractéristiques E (Sn2 ) et V (Sn2 ) de la variable Sn2 ?
b) Espérance de la variance d’échantillons
Commençons par préciser la relation entre Sn2 et la moyenne de la population.
1X 1X
n n
2 2
Sn2 = Xi Xn = (Xi ) Xn
n i=1 n i=1
1X
n
=) Sn2 = (Xi )2 + (Xn )2 2(Xi )(Xn )
n i=1
" n #
1 X X X
n n
=) Sn2 = (Xi )2 + (Xn )2 2(Xn )(Xi )
n i=1 i=1 i=1
" n !#
1 X X
n
=) Sn2 = (Xi )2 + n(Xn )2 2(Xn ) (Xi )
n i=1 i=1
" n !#
1 X Xn
Xi
=) Sn2 = (Xi )2 + n(Xn )2 2(Xn ) n n )
n i=1 n
" n #i=1
1 X
=) Sn2 = (Xi )2 + n(Xn )2 2n(Xn )2 )
n i=1
" n #
1 X 1P n
=) Sn2 = (Xi )2 n(Xn )2 D0 ou Sn2 = (Xi )2 (Xn )2 :
n i=1 n i=1
15
En utilisant la propriété ci-dessus, le calcul de l’espérance est tel que:
! " n #
1 Xn
1 X h i
2
E(Sn2 ) = E (Xi )2 (Xn )2 = E (Xi )2 E Xn ;
n i=1 n i=1
1 Xn h i
2
= E (Xi )2 E Xn
n i=1
1X
n h i 1X n
2 2
= E (Xi E (Xi )) E Xn E Xn = V ar (Xi ) V ar(Xn ):
n i=1 n i=1
1 X
n
n n n
S~n2 = (Xi Xn )2 = Sn2 =) E(S~n2 ) = E Sn2 = E(Sn2 ):
n 1 i=1
n 1 n 1 n 1
2
- Si les variables Xi sont i:i:d, on a V (Xn ) = et dans ce cas :
n
n n n n 1
E(S~n2 ) = E Sn2 = E(Sn2 ) = : 2
= 2
:
n 1 n 1 n 1 n
16
N (n 1) 2
- mais si les variables Xi ne sont pas i:i:d, on a E (Sn2 ) =
n(N 1)
n n n N (n 1) 2 N 2
E(S~n2 ) = E Sn2 = E(Sn2 ) = : = :
n 1 n 1 n 1 n(N 1) N 1
Remarque : On verra plus loin que S~n2 et S2n sont des estimateurs respectivement
sans biais et asymptotiquement sans biais de 2 :
c) Variance des variances d’échantillonnages V (Sn2 )
La variance des variances d’échantillons est telle que :
2
V (Sn2 ) = E [(Sn2 )2 ] [E(Sn2 )] où E(Sn2 ) dépend du type de tirage (avec ou sans
remise). Dans ce cas
8 2
>
> 2 2 (n 1) 2
< E [(S n ) ] tirage avec remise
2 n
V Sn = 2
>
> N (n 1) 2
: E [(Sn ) ]
2 2
tirage sans remise
n(N 1)
(n 1)2 n 1
V (Sn2 ) = ( 4
4
)+2 4
où k = E(X )k :
n3 n3
Par conséquent, on obtient le résultat suivant.
17
Par conséquent, on obtient le résultat suivant.
Estimation statistique
Une estimation porte sur une grandeur inconnue que l’on cherche à déterminer.
Lors d’une étude statistique portant sur un caractère d’une population, générale-
ment la distribution (ou la loi) exacte de la variable X modélisant ce caractère est
partiellement ou non connue du statisticien. Souvent la loi de X dépend d’un para-
mètre inconnu noté généralement : On cherche à estimer la valeur inconnue d’une
statistique à partir d’un échantillon X1 ; X2 ; :::Xn , prélevé dans la population.
Nous supposons que, par des méthodes de statistique descriptive il est établi que
la loi des variables Xi appartient à une famille de lois paramétrées F ; 2 Rd .
On cherche alors à se faire une idée du paramètre à partir des données observées
sur l’échantillon. Dans ce cas, la réalisation de la variable x = (x1 ; :::; xn ) est régie
par ce paramètre:
Exemples.
Une population de pygmés d’un endroit donné en Afrique centrale est régie par la
taille moyenne m.
Une population de commerçants est régie par le volume de commerce (vente, im-
portations, exportations).
Pour des chercheurs sur une thématique donnée, le paramètre central est sans
doute le résultat de recherche (nombre et la qualité de travaux réalisés, publi-
cations, brevets, études ménées).
En particulier pour le premier exemple (pygmés), on peut associer à cette po-
pulation un échantillon X1 ; :::; Xn d’observations de la taille, toute réalisation
x = (x1 ; :::; xn ) dépendra de la population et donc du paramètre m ; on note
f (x= ) ou f (x) la fonction densité de cette variable où = m: Il faut procéder
0
Cours de Probabilités 3 L2-SEG Promotion 2022 Prof D. BARRO Mai 2024
18
à une estimation du paramètre vrai m qui se traduit par la valeur m̂.
Dé…nition 2.1
Remarques
Souvent, il est plus judicieux d’estimer une fonction de , comme l’espérance ou
la variance.
Ne pas confondre prévision et estimation. En e¤et, toute estimation a un carac-
tère incertain et porte sur un paramètre inconnu mais qui existe, alors que la
prédiction est la "devinette" d’une observation future.
[Link] Problématique
Il faut noter qu’il est possible d’utiliser plusieurs estimateurs pour un même
paramè[Link] exemple, pour la moyenne m d’une population, on peut citer :
xi
m^ = ; la moyenne arithmétique de l’ensemble des valeurs.
n
m^ = mediane fxi g ; la médiane de la série
m^ = mode fxi g ; la valeur modale
Dans ce cas, on peut alors se poser la question suivante : quel est le meilleur
estimateur de la moyenne ? Répondre à cette question c’est déterminer la qualité de
l’estimateur. Pour cela, on se sert de plusieurs critères pour comparer les estimateurs.
On dispose de quatre résultats théoriques pour identi…er cet estimateur.
Dé…nition 2.2
Le biais d’un estimateur ^ est la quantité B (n; )=E ^ - ; écart entre l’espé-
rance mathématique et la valeur vraie du paramètre.
Un estimateur ^ est dit sans biais de ou centré lorsque, son biais est nul
() E(^) = .
X
Xi
Pour la moyenne d’échantillons, on a : Xn = , on a : E(Xn ) = m:
n
19
La variable des moyennes d’échantillons est un estimateur sans biais de la
moyenne de la population
X
Xi
Pour la variable des proportions d’échantillons, Pn = , on a : E(Pn ) = p:
n
La variable des proportions d’échantillons est un estimateur sans biais de la
proportion de la population.
1 P n
Pour la variance empirique corrigée S~n2 = (Xi X)2 ; on a établi que
n 1 i=1
lorsque, le tirage est e¤ectué avec remise, on a : E S~n2 = 2 :
La variance empirique corrigée S~n2 est un estimateur sans biais de la variance
de la variance 2 de la population.
Dé…nition 2.3
Un estimateur ^ est dit asymptotiquement sans biais si le biais diminue
lorsque la taille de l’échantillon augmente.
^ asymptotiquement sans biais () lim E(^) = .
n !+1
b) Exemples
1P n
Pour la variance d’échantillonnage Sn2 = (Xi Xn )2 , rapelons que
n i=1
8
> (n1) 2
< tirage e¤ectué avec remise
E Sn2 = n
> N (n 1) 2
: tirage exhaustif
n(N 1)
:
Par conséquent, si le tirage est e¤ectué
2
(n 1)
- avec remise alors : lim E (Sn2 ) = lim = 2
n !+1 n !+1 n
- sans remise, on a :
N (n 1) 2 (n 1) 2
lim E Sn2 = lim lim = lim = 2
n !+1 N !+1 n !+1 n(N 1) n !+1 n
car N est plus grand que n et lorsque n tend vers l’in…ni lim E (Sn2 ) = 2
:
n !+1
Conclusion :
S 2n est donc un estimateur asymptotiquement sans biais de 2 . C’est
à dire que la variable des variances d’échantillons est un estimateur
asymptotiquement sans biais de la variance de la population.
0
Cours de Probabilités 3 L2-SEG Promotion 2022 Prof D. BARRO Mai 2024
20
2.4. ESTIMATEUR EXHAUSTIF 23
où f (:; ) est la densité de la variable aléatoire X1 et IP(Xi = xi ; ) est la probabilité de l’événement fXi = xi g
paramétrée par .
Soit Tn une statistique fonction de X1 ; : : : ; Xn de loi g (t; ) (densité dans le cas continu, P (T = t) dans le cas
discret).
Définition 2.4.2. La statistique T est exhaustive pour si
Propriété 2.4.1. (i) Si le domaine de définition de la loi de l’échantillon ne dépend pas de , In () = nI1 ()
(ii) Si la loi de l’échantillon est une loi normale de variance connue, ( = ), alors I1 () = 12
2
(iii) en notant IT () = E lng(t;) l’information de Fisher apportée par la statistique T , avec g (t; ) la
densité de T , on a IT () In (). On a égalité si T est exhaustive, et réciproquement si le domaine de
définition de la loi de l’échantillon est indépendant de .
La propriété 1 dit que chaque observation a la même importance, ce qui n’est pas le cas lorsque le domaine de
définition dépend de , comme pour une loi uniforme sur [0; ℄, où la plus grande valeur de l’échantillon apporte
plus d’information que les autres sur .
La propriété 2 nous assure l’information apportée par une observation est d’autant plus grande que la dispersion est
petite.
Théorème 2.5.1 (Unicité). S’il existe un estimateur de sans biais de variance minimale, il est unique presque
sûrement.
Théorème 2.5.2 (Rao-Blackwell). Soit T un estimateur sans biais de et U une statistique exhaustive pour .
Alors T = E [T jU ℄ est un estimateur sans biais de au moins aussi bon que T (d’un point de vue variance).
Théorème 2.5.3. S’il existe une statistique exhaustive U , alors l’unique estimateur T de sans biais de variance
minimale ne dépend que de U .
Exemple. Le nombre de bug informatique par semaine d’un logiciel donné suit une loi de Poisson de paramètre
. On cherche à évaluer la probabilité de n’avoir aucune panne pendant une semaine P (X = 0) = e . Que
proposez-vous ?
Le résultat suivant nous indique une borne à laquelle ne peut être inférieure la variance d’un estimateur.
1
V (T )
In ()
et si T est un estimateur sans biais de h()
[h0 ()℄2
V (T )
In ()
Définition 2.5.2. Un estimateur qui atteint la borne de Cramer-Rao est dit efficace. Autrement dit, un estimateur
est efficace s’il n’est pas possible de trouver un estimateur sans biais de variance plus faible.
Théorème 2.5.6 (efficacité). — la borne de Cramer-Rao ne peut être atteinte que si la loi de l’échantillon
est de la famille exponentielle :
— dans ce cas il n’existe qu’une seule fonction du paramètre (à une transformation linéaire près) qui
puisse être estimée efficacement, c’est
0 ()
h() = 0 ()
L’estimateur de h() est alors
n
1X
T= a(Xi )
n i=1
et la variance minimale est
h0 ()
V (T ) =
n 0 ()
Exemple. Donner un estimateur de l’écart-type d’une loi normale de moyenne connue.
La recherche d’estimateur sans biais de variance minimale passe donc par la recherche d’estimateur exhaustif.
Or cette recherche peut ne pas aboutir, et elle est de plus assez lourde. La méthode du maximum de vraisemblance
est une méthode systématique permettant de trouver des estimateurs.
lnL(X1; : : : ; Xn ; ) = 0
2 lnL(X ; : : : ; X ; ^) < 0. Un certain nombre de propriété nous prouve l’intérêt de cette estimateur.
vérifiant 2 1 n
Propriété 2.6.1. (i) S’il existe une statistique exhaustive U , alors l’EMV en dépend.
(ii) Si ^ est l’EMV, f (^) est l’EMV de f ()
(iii) Il existe une suite ^n de racines de l’équation de vraisemblance qui converge presque sûrement vers . de
plus, il existe un rang à partir duquel le maximum est atteint.
(iv) ^n
L! N (;
In () ).
1
La dernière propriété nous assure que l’EMV est asymptotiquement efficace. Il est donc important d’avoir un
échantillon important pour utiliser cet estimateur.
Lorsque le modèle comporte plusieurs paramètres 1 ; : : : ; p , il sera nécessaire de résoudre le système d’équation
simultanées
i
lnL = 0 81 i p
Remarque 2.6.1. — L’équation de vraisemblance n’a pas nécessairement une unique racine.
— La solution de l’équation de vraisemblance n’est pas toujours calculable analytiquement. Dans ce cas,
des algorithmes de recherche de maximum (de type Newton) peuvent être utilisés.
Toute estimation résulte d’un calcul e¤ectué sur les valeurs observées dans l’échan-
tillon. Dans cette sous-section, nous nous intéresserons à l’estimation des caractéris-
tiques principales d’une variable dans une population : la moyenne, la proportion et
l’écart type.
Moyenne
Fréquence ou proportion
Ecart type
a) Présentation
La vraisemblance d’un modèle (X; P ) et d’un échantillon fX1 ; X2 ; :::Xn g corres-
pond à la probabilité d’avoir obtenu cet échantillon lorsqu’on a ce modèle. e principe
de l’estimation par maximum de vraisemblance est de se dire que plus la probabilité
d’avoir obtenu les observations est forte, plus le modèle est proche de la réalité. La
méthode va consister alors à trouver la valeur numérique la plus vraisemblable pour
le paramètre ou à rechercher la valeur de qui rend maximale la probabilité d’appa-
rition de l’échantillon fx1 ; :::; xn g. On suppose que le modèle est P , la vraisemblance
des observations x1 ; :::; xn s’´ecrit sous la forme L(x1 ; :::; xn ; ) = P (x1 ; :::; xn ) où L
23
est appelée fonction de vraisemblance. En particulier, les variables étant i.i.d, on
obtient
8 n
< P (x1 ):::P (xn ) = P (x1 ) pour une loi discrète.
i=1
L(x1 ; :::; xn ; ) = n
: f (x ):::f (x ) = f (x ) pour des v.a continues.
1 n 1
i=1
Dé…nition 2.6
On appelle estimateur du maximum de vraisemblance d’un paramètre
^n = arg max $( ; fx1 ; :::; xn g);
la valeur ^ qui rend maximum la fonction de vraisemblance.
Propriété 2.4
Un
8 EMV doit véri…er le système d’équations di¤érentielles suivant :
> @LnL (x; )
< =0
2
@
: @ LnL (x; ) < 0
>
@ 2
Par conséquent, on véri…e la propriété suivante :
0
Cours de Probabilités 3 L2-SEG Promotion 2022 Prof D. BARRO Mai 2024
24
Remarque
Il faut toujours raisonner avec x1 ; :::; xn sans chercher à remplacer
par les valeurs observées. Cette étape ne doit intervenir qu’à la …n,
lorsque l’expression de l’estimateur.
La théorie nous dit que la solution de cette équation nous donne
toujours un maximum. On obtient ^n sous la forme ^n = g(x1 ; :::; xn ).
1 X
n
1
=) log L (x; m) = n log p 2
(xi m)2
2 2 i=1
EMV de la moyenne m
n
Pour déterminer l’EMV de m, on pose L(x1 ; :::; xn ) = L (x; m)) = f (xi ; m).
i=1
" # " #
@ log L (x; m) @ Xn
1 @ Xn
= 1
2 2
(xi m)2 = 2 @m
x2i 2xi m + m2
@m @m i=1
2
" n # i=1 " n #
X 1 X
=) @ log @m
L(x;m))
= 212 ( 2xi + 2m) = 2 xi + nm :
i=1 i=1
1 X
n
1
=) log L (x; ) = n log p 2
(xi m)2
2 2 i=1
" # " #
1 X 1 X
n n
@ log L (x; ) @ p 1
=) = n log 2 2
(xi m)2 = 2
(xi m)2 -n
@ @ 2 i=1 i=1
25
1X
n
@ 2
ln [L( ; xi ; :::; xn )] = 0 =) = (xi )2 (3)
@ n i=1
De plus :
!
3 X 1X
n n
@ 2 log L (x; ) n n
= (xi )2 = 2
3 (xi )2
@2 4
i=1
4 n i=1
2
@ log L (x; ) n 2 2 2n
=) 2
= 4 3 = 2
< 0:
@
s
1X
n
c’est la variance empirique et donc ^ = (xi m)2 :
n i=1
s
1X
n
Conclusion : L’EMV pour est l’écart type empirique ^ = (xi m)2 :
n i=1
X
n X
n
=) log L (x; ) = n+ xi log log (xi !)
i=1 i=1
" #
@ log L (x; ) @ X
n X
n
1X
n
=) = n+ xi log log (xi !) = n+ xi
@ @ i=1 i=1 i=1
X
n
xi
@ log L (x; ) X
n
i=1
1
Par conséquent : = 0 () n+ xi = 0 =) = =
@ i=1
n
xn :
1X
n
Conclusion : L’EMV du paramètre est la moyenne d’échantillons Xn = xi :
n i=1
26
La log-vraisemblance vaut :
X
L(p; fx1 ; :::; xn g) = n log(p) + ( xi n) log(1 p)
Conclusion
1
L’EMV du paramètre p est l’inverse de la moyenne d’échantillons i.e p^n =
Xn
La méthode des moments est relativement intuitive et utilise les moments d’une
loi par leur version empirique. Par exemple,
L’espérance E (X) correspond à une moyenne théorique et peut être estimée
P
par la moyenne observée : Xn = n1 Xi
La variance : V ar(X) = E(X E (X))2 = E(X 2 ) [E (X)]2 peut être estimée
par la variance observée :
1X 1X 2
Sn2 = (Xi Xn )2 = Xi (Xn )2 :
n n
Lorsque l’on souhaite estimer un paramètre ,
i) on essaie de l’exprimer en fonction de E (X) et de V ar(X) : = g(E (X) ; V ar(X)):
ii) On sait ensuite que E (X)et de V ar(X) peuvent être estimés respectivement
par Xn et Sn2
iii) On propose donc d’estimer par ^ = g(Xn ; Sn2 ): Ce principe se généralise
avec l’ensemble des moments d’ordre p; p 2 N .
Exemples :
1
Si X1 ; :::Xn sont de loi Géométique de paramètre p, alors, E (Xi ) = .
p
1
L’estimateur des moments de p est donc p^n = .
Xn
a+b
Si X1 ; :::Xn sont de loi uniforme sur l’intervalle [a; b] alors : E (Xi ) = et
2
(b a)2
V ar(Xi ) = .
12
p p
Par conséquent a = E (Xi ) 3var(Xi ) et b = E (Xi ) + 3var(Xi ): Les esti-
p p
mateurs des moments de a et b sont donc : a ^n = Xn 3Sn2 et ^bn = Xn + 3Sn2
Remarques
27
De manière générale, l’estimation par la méthode des moments est plus rapide
que l’estimation par méthode de vraisemblance.
Les deux approches ne donnent pas toujours le même résultat. Par exemple, voir
le cas de la loi uniforme.
De plus la méthode du maximum de vraisemblance présente des avantages théo-
riques, qui ne seront pas détaillés ici, qui assurent un bon comportement des
estimateurs.
Par exemple, un intervalle [T1 ; T2 ] de niveau 95% pour , signi…e qu’il y a une
probabilité de 95% que soit bien compris entre T1 et T2 .
Dé…nitions
Remarques
Les niveaux de con…ance les plus fréquemment utilisés sont 90%, 95%, 99% cor-
respondant aux risques 10%, 5% et 1% respectivement.
Plus le niveau de con…ance est élevé, plus la certitude est grande que l’intervalle
contient la vraie valeur du paramètre et plus l’intervalle augmente d’amplitude.
28
1.5.2 Intervalle de con…ance pour une moyenne
On envisage deux cas selon que la variable aléatoire mesurée est normale ou pas.
a) Cas où la variance est connue
Lorsque la variable aléatoire mesurée est de loi normale et le nombre de réa-
lisations est quelconque et si la variance 2 de la population est donnée, alors la
variables des moyennes d’échantillons Xn est telle que :
Xn m
Xn N m; p () T = N (0; 1) :
n p
n
Problème
On se …xe un seuil 2]0,1[ et on construit un intervalle [m1 ; m2 ] tel
que la moyenne m de la population véri…e : P [m1 m m2 ] = 1 .
Solution
Rappelons que la fonction F de la loi N(0; 1) est bijective de R dans [0; 1] : Par
conséquent, toute valeur de [0; 1] a son antécédent dans R. En particulier, puisque
1 2 2]0; 1[ et tenant compte de la symétrie de F, il existe un nombre t 2 tel que
Symetrie
F t 2 = P N (0; 1) t2 = 1 =) P t2 N (0; 1) t2 = 1 :
2
Par exemple :
0:05 table de N(0,1)
- pour = 5%, on a : F t 2 = 1 = 0:975 =) t 2 = [Link]
2
0:03 table de N(0,1)
- pour = 3%, on a : F t 2 = 1 = 0:985 =) t 2 = [Link]
2
Plus généralement, le tableau suivant donne les trois valeurs usuelles de t 2 :
Valeurs de 1% 5% 10%
:
Valeurs de t 2 2:58 1:96 1,65
() P t2 p Xn m t2 p =1
n n
() P Xn t2 p m Xn + t 2 p =1
n n
() P Xn t2 p m Xn + t 2 p =1 :
n n
Par conséquent, les bornes m19et m2 cherchées sont telles que :
m1 = Xn t 2 p > =
n l’intervalle cherché est IC (m) = xn t 2 p ; xn + t 2 p
m2 = Xn + t 2 p > ; n n
n
29
où xn est la valeur de la moyenne obtenue
h sur l’iéchantillon.
On note plus simplement : IC (m) = xn t pn : D’où le résultat suivant.
30
" # " #
2 t2 2 t2 2
On prend n0 = +1 = + 1 la taille minimale de l’échantillon
E "
où [:] est la fonction partie entière. On obtient alors la propriété suivante.
sn sn
IC (m) = xn t1 p ; xn + t1 p ;
2
n 1 2
n 1
où xn est une réalisation de l’échantillon.
31
1.5.3 Intervalle de con…ance de la proportion
a) Position du problème
Soit p la proportion de la population véri…ant un caractère. On note X la va-
riable aléatoire représentant le nombre d’individus véri…ant ce caractère dans un
échantillon
X de taille n, assez grande,n 30: On sait que X B(n; p): On pose :
Xi
Pn = la fréquence empirique ou distribution d’échantillonnage de la propor-
n
tion. On véri…e que, si p̄ est la proportion échantillonnale, on a :
r !
p (1 p) Pn p
Pn N p; et donc T = r N (0; 1)
n p (1 p)
n
Remarques
r r
p (1 p) N n
Pour un tirage e¤ectué sans remise, on établit que : p = :
n N 1
c) Cas de somme de proportions
Comme dans le cas de la moyenne la construction d’un intervalle de con…ance
peut porter sur la somme de proportions des individus satisfaisant à un critère
32
donné dans deux populations distinctes à un seuil de signi…cation donné.
Comme dans le cas de la moyenne, on distinguera deux cas selon que la moyenne
est donnée ou pas.
a) Cas où la moyenne est connue
2
P Soit X1 ; :::; Xn un échantillon de taille n d’une population. On rappelle que Sn =
Xi Xn
; la distribution des variances d’échantillons.
n
a) Problème
33
Dé…nition
Soit n un entier non nul. En statistique et en théorie des probabilités, la loi
du Khi-deux à n degrés de liberté est la loi de la somme de carrés de n lois
2
normales centrées réduites indépendantes. On note Z (n) « khi carré »
Si Z1 ; Z2 ; :::; Zn est une série de variables X
alors Zi2 2
(n):
aléatoires i.i.d telles que Zi N (0; 1)
Espérance et Variance
Espérance X X
n
E (Z) = E Zi2 = E (Zi2 ) : Or les Zi N (0; 1) donc E(Zi ) = 0 et
i=1
V(Zi ) = 1 avec V(Zi )= E (Zi2 )E (Zi ) : Par suite E (Zi2 ) = V (Zi ) + E 2 (Zi ) = 1
2
X Xn Xn
et donc : E (Z) = E (Zi2 )
= E (Z) = E Zi2 = 1 = n:
i=1 i=1
Variance : On établit que V (Z) = 2n, d’où le résultat suivant.
Propriété :
2
Si Z (n) alors les caractéristiques sont : E(Z) = n et Var(Z) = 2n
Approximation
Si n est assez grand ( np 30) le théorème de la limite centrale permet d’appro-
p
ximer la variable T = 2Z 2n 1 par la loi normale standard,
Comme pour la loi normale, les valeurs de la loi de Khi-deux sont consignées
dans une table statistique.
Quantiles et Table
Pour un risque ; 2 [0; 1] le quantile n ( ) de la loi de Khi-deux associé
2
à est tel que P( (n) n ( )) = soit P( 2 (n) n ( )) = 1- .
34
et
35
c) Application à la construction de l’IC
Lorsque la moyenne est connue, on estime la variance par la variance empirique
1X X Xi Xn 2
n
2 2 Xi Xn
Sn = Xi Xn : On a : T = N (0; 1) =) suit
n i=1
X Xi Xn 2 nS 2
2
une loi de (n) avec = 2n :
nSn2 2 2 2
Par suite, la variable 2
suit une loi (n): En notant 1 et 2 les quantiles
X
liés à 1 et 2 avec 1 + 2 = 1 on établit que :
L’intervalle de con…ance bilatéral pour la variance d’une loi normale s’écrit donc
au niveau 1 sous la forme suivante :
36
Chapitre 2 Introduction aux tests d’hypothèses
2.1 Généralités sur les tests
2.1.1 Présentation des tests d’hypothèses
Un test d’hypothèse (ou test statistique) est une démarche qui a pour but de fournir
une règle de décision permettant, sur la base de résultats d’échantillon, de faire un
choix entre deux hypothèses statistiques.
Un test d’hypothèses est un procédé d’inférence permettant de contrôler (accepter
ou rejeter) à partir de l’étude d’un ou plusieurs échantillons aléatoires, la validité d’hy-
pothèses relatives à une ou plusieurs populations.
a) Choix de l’hypothèse
L’hypothèse nulle ou préférentielle H0
C’est l’hypothèse que l’on désire contrôler : elle consiste à dire qu’il n’existe pas
de di¤érence entre les paramètres (ou les distributions) comparés ou que la di¤érence
observée n’est pas signi…cative au risque …xé. C’est H0 qui est soumise au test et toute
la démarche du test s’e¤ectue en considérant cette hypothèse comme vraie.
L’hypothèse alternative H1 ou ou contre-hypothèse
Toute autre hypothèse qui di¤ère de l’hypothèse H0 s’appelle l’hypothèse al-
ternative (contre-hypothèse) et est notée H1 . C’est la "négation" de H0 , elle est
équivalente à dire « H0 est fausse » . La décision de rejeter H0 signi…e que H1 est
réalisée ou H1 est vraie.
37
b) Les risques d’erreurs
La prise de décision dans un test d’hypothèses consiste à rejeter ou ne pas rejeter
l’hypothèse préférentielle (H0 ) qui peut s’avèrer par la suite vraie ou fausse. On peut
distinguer deux types de risques.
Risque d’erreur de première espèce
Le risque d’erreur de première espèce est la probabilité de rejeter H0 alors
qu’elle est vraie ou accepter H1 alors qu’elle est fausse. Par conséquent, est la
probabilité d’avoir un faux positif (rejeter à tort une hypothèse).
=Probabilité (Rejeter H 0 / H 0 vraie) =Probabilité (Accepter H 1 / H 1 fausse)
Cette probabilité est aussi appelée seuil de signi…cation du test. Sa valeur est gé-
néralement …xée à priori par le statisticien et ne dépend pas des données. Valeurs
usuelles : 1% ; 5%, 10%
Risque d’erreur de deuxième espèce
Le risque d’erreur de deuxième espèce est la probabilité d’accepter H0 alors
qu’elle est fausse ou rejeter H1 alors qu’elle est vraie. Par conséquent est la pro-
babilité d’avoir un faux négatif (ne pas rejeter une hypothèse qui s’avère fausse par
la suite).
38
[Link] Les di¤érents types de tests
Selon la particularité de l’hypothèse on peut distinguer deux types de tests d’hy-
pothèses : le test bilatéral et le test unilatéral.
a) Test bilatéral
Le test est bilatéral lorsqu’on ne peut pas spéci…er la direction particulière pour
l’hypothèse H1 :
40
A partir des données fournies par l’échantillon, on calcule la valeur de la statis-
tique T.
Étape 6 : Prendre une décision.
En analysant la valeur de T obtenue à l’étape 5 et à la lumière des règles établies
à l’étape 4, on prend la décision pertinente
a) Problème
On veut savoir si, à un risque …xé, la moyenne m d’une population est égale,
inférieure ou supérieure à une valeur standard m0 ; à partir de la moyenne obtenue
sur un échantillon.
b) Mécanisme du test
Lorsque est connu, la distribution d’échantillonnage des moyennes est une loi
normale ou approximativement normale Xn N m; pn car soit la population est
normale ou/et taille n est assez grande (n 30). Dans cette situation, le test sur
une moyenne se fait de la façon suivante.
Étape 1 : Formuler les hypothèses H0 et H1 selon la nature du test
Types de tests Test bilatéral Test unilatéral droit Test unilatéral gauche
H0 : m = m 0 H0 : m = m 0 H0 : m = m 0
Hypothèses
H1 : m 6= m0 H1 : m m 0 H1 : m m 0
F 1 1 2
, test bilatéral
Étape 3 : On détermine le quantile associé à par : t 2 =
F 1 (1 ) ; test unilatéral
Étape 4 : Rappeler la règle de décision selon la nature du test
xn m0
Étape 5 : Sous l’hypothèse H0 ; on a : T = N (0; 1) :
X
Étape 6 : Prendre une décision concernant H0 posée et faire une interprétation
Remarque :
41
On peut utiliser l’intervalle de con…ance de la moyenne pour prendre la décision
du test
Nature du test Acceptation l’hypothèse H0 Rejeter l’hypothèse H0
h i
Test bilatéral Si X 2 m0 t n ; m0 + t n
p p Si X 62 m0 t p
n
unilatéral droit Si X m0 + t p Si X m0 + t p
n n
unilatéral gauche Si X m0 t p Si X m0 t p
n n
Application Dans l’aplication sur le revenu de 150 travaielleurs.
1. Peut-on comparer, au risque de 1%, le revenu moyen des agents à 360000 F ?
2. Le risque de 5% est-il signi…catif pour dire que le revenu moyen de ces agents
n’excède pas 290000F ?
a) Problème
On veut savoir si, à un risque …xé, la proportion p d’une population est égale,
inférieure ou supérieure à une valeur standard p0 à partir de la proportion obtenue
sur un échantillon de taille n.
b) Mécanisme du test
Formuler l’hypothèse nulle et l’hypothèse alternative selon que le test est bila-
téral (1) ; unilatéral gauche (2) ou droite (3). :
H0 : p = p0 ; proportion egale a la valeur standard H0 : p p0 = 0
(1) ()
H1 : p 6= p0 la proportion n’est pas egale a p0 H1 : p p0 6= 0
H0 : p p0 = 0 égale à la proportion standard H0 : p p0 = 0
(2) ()
H1 : p p0 < 0; inférieure à lproportion standard H1 : p p0 < 0
- si X t on accepte l’hypothèse H 0
Droit
- sinon on rejette l’hypothèse H 0 et on accepte l’hypothèse H 1
(
- si p p0 t p
on accepte l’hypothèse H 0
n
- sinon on rejette l’hypothèse H 0 et on accepte l’hypothèse H 1
- si X t on accepte l’hypothèse H 0
- sinon on rejette l’hypothèse H 0 et on accepte l’hypothèse H 1
Types de tests Test bilatéral Test unilatéral droit Test unilatéral gauche
H0 : m 1 = m 2 H0 : m 1 = m 2 H0 : m 1 = m 2
Hypothèses
H1 : m1 6= m2 H1 : m 1 m 2 H1 : m 1 m 2
- Si les variances ne sont pas connues et on suppose que les deux populations ont
la même variance : 21 = 22 = 2 (homoscédasticité) on obtient
43
X1 X2
T = v
u 0 1 suit une loi de Student à (n1 + n2 2) degré de liberté. Sous
u
u 2@
1 1
t + A
n1 n2
l’hypothèse H0 et puisque la variance n’est pas connue alors on calcule T
m1 m2 2 n1 2e1 + n2 2e2
par T = v u 0 1 où ^ = est l’estimation de la variance
u 2@ 1
u 1 n1 + n2 2
t^ + A
n1 n2
commune 2 ; les écarts type e1 et e2 étant obtenues sur les échantillons
- Si les variances ne sont pas connues, leurs estimations sont di¤érentes et les
X1 X2
échantillons sont importants (n1 et n2 30) et T = v u
u 2 2
u e1 e2
t +
n1 1 n2 1
N (0; 1) si les écarts type e1 et e2 sont obtenues sur les échantillons.
Tableau récapitulatif
a) Problématique
On souhaite comparer, à un risque …xé, les proportionss p1 et p2 de deux
populations véri…ant un caractère donné, à partir des moyennes p1 et p2 obtenues sur
des échantillons extraits de ces populations. On adopte les mécanismes précédents
en utilisant les propriétés des lois de la di¤érence de variables des moyennes de
fréquences.
b) Mécanisme
Hypothèses (pour un test bilatéral par exemple).
Types de tests Test bilatéral Test unilatéral droit Test unilatéral gauche
H 0 : p 1 = p2 H 0 : p 1 = p2 H0 : p1 = p2
Hypothèses
H1 : p 1 6= p2 H1 : p 1 p2 H1 : p 1 p 2
Distributions
44
Les variables de proportions d’échantillons extraits de deux populations distinctes
Pn1 et Pn2 sont telles que
0 s 1
p1 (1 p1 ) p1 (1 p1 ) A
Pn1 Pn2 N @p 1 p 2 +
n1 n1
p1 p
Par suite T= v
u s N (0; 1) lorsque H0 est véri…ée c’est à
u p1 (1 p1 ) p1 (1 p1 )
t +
n1 n1
p^1 p^2 n1 p1 + n2 p2
dire p1 = p2 et dans ce cas T = v
u 0 1 où p =
u
u 1 1 n1 + n2
tp(1 p) @ + A
n1 n2
Le risque étant donné, on détermine le quantile t 2 selon la nature du test
p^1 p^2 n1 p1 + n2 p2
On calcule la statistique T par T = v u 0 1 où p = ,
u
u 1 1 n1 + n2
tp(1 p)@ + A
n1 n2
moyenne arithmétique des proportions échantillonales
Règles de décisions : On prend une décision selon la nature du test.
a) Objectif
Les tests d’adéquation ou test d’ajustement sont destinés à véri…er si un échan-
tillon peut être considéré comme extrait d’une population donnée par rapport à
sa distribution observée (tests d’ajustement). On souhaite déterminer si la distri-
bution F des données d’une population peut être ajuster par une loi de probabilité
F0 donnée c’est à dire que toutes les données considérées dérivent de la même loi
de probabilité i.e que la distribution observée n0est pas di¤érente de la distribution
théorique que l0 on souhaite tester.
b) Mécanisme
45
On formule les hypothèses
x a
Rappelons que la loi uniforme sur un intervalle [a; b] est telle que F (x) =
b a
si x 2 [a; b], la fonction des probabilités. Par conséquent la probabilité p1 de la
46
75 65
première classe [65; 75] est p1 = 145 65
= 0:125 : Plus généralement, on obtient le
tableau de calcul suivant
(ni npi )2
Classes ni pi npi (ni npi )2
npi
65-75 15 0:125 12:5 6:2 5 0: 5
75-93 24 0:225 22:5 1: 5623 0.1
93-125 32 0:4 40 64 1.6
125-137 18 0:15 15 9 0.67
137-145 11 0:1 10 1 0.1
2
Total 100 1 100 ////////// cal = 2:9
Pn
(n np )2
. A partir du tableau on calcule la statistique 2cal = i=1 npi i i = [Link]
. Par ailleurs, on a tous les npi 5 donc le ddl est k = 5 1 = 4: Or d’après la
table de khi-deux, pour un risque = 1% on a : 24 (0:01) = 13; 277:
Par conséquent 2cal < 2obs alors H0 est acceptée.
Conclusion : Au risque de 1% on peut admettre que la distribution
de revenus est uniformément répartie.
2) Pour la loi normale en considérant les Pcentres xi des classes, on obtient les
n
nx
paramètres échantillonnaux suivants : X = i=1n i i = 10463 = 104:63 et X =
q Pn q 100
n x 2
i=1 i i 1150600 2
n
X2 = 100
(104:63) = 23 :634: Par conséquent la moyenne
et l’écart type de q la population sont respectivement m = X = 104:630 et =
p n
X n 1
= 23 :634 100
99
' 23: 75:
R m
Rappelons que si R N (m; ) alors T = N (0; 1) de fonction de
R 104:63
répartition F. Par conséquent selon H0 ; on a : T = : Par ailleurs, puisque
23: 75
la loi normale est dé…nie sur tout alors la probabilité p1 de la première classe [65; 75]
est celle de R 75:
p1 = P (R 75) = p R [Link]
75 104:63
23: 75
= P (T 1: 25) = F ( 1: 25) =
1 0:8944 = 0:106
Plus généralement, on obtient le tableau de calcul suivant
(ni npi )2
Classe ni pi npi ni npi
npi
Moins de 75 15 0:106 10:6 4.4 1: 826 4
75-93 24 0:206 20:6 3.4 0:561 17
93-125 32 0:493 49:3 -17.3 6: 070 8
125-137 18 0:108 10:8 7.2 4: 8
Plus de 137 11 0:087 8:7 2: 3 0:608 05
Total 100 1 100 ////// 13: 866
47
Pn
(n np )2
A partir du tableau on calcule la statistique 2cal = i=1 npi i i = 13: 866:
Par ailleurs, on a tous les npi 5 donc le ddl est k = 5 2 = 3: D’après la
table de khi-deux, pour un risque = 5% ou pour un taux de con…ance de 95%, on
a : 23 (0:95) = 7; 815 = 2obs : Par conséquent 2cal 2
obs alors H0 n’est pas acceptée.
a) Problématique
Dans ce cas, la loi théorique du paramètre est inconnue au niveau des popula-
tions. On peut ajouter à cette catégorie le test d’indépendance qui cherche à tester
l’indépendance entre deux caractères, généralement qualitatifs.
b) Mécanisme
Soient X et Y deux variables aléatoires dé…nies sur la même population mesurant
deux caractères (X et Y peuvent être variable qualitives).
On formule les hypothèses suivantes
P
l P
k P
p P
k P
l
On a : ni = nij et n j = nij et ni: = nij = n:
j=1 i=1 i=1 i=1j=1
Sous l’hypothèse H 0 , pour chaque couple (Ci ; Dj ) l’e¤ectif théorique est notée
ni n j
tij = :
n
Pi=k Pj=l
2 i=1 j=1 (nij tij )2
On calcule la statistique : cal =
tij
48
2
Pour un risque …xé, on observe sur la table de khi-deux la valeur : obs =
2
(k 1)(l 1) ( ) où le nombre de degré de liberté est (k 1) (l 1) :
Règle de décision
2 2
- Si la valeur calculée est supérieure à la valeur critique ( cal obs ) on rejette
H0 :
2 2
- Si la valeur calculée est inférieure à la critique cal < obs alors H0 est acceptée
Applications
a) Application 1
50