Cours de Statistique Descriptive
Professeur : Mohamed Iguernane
[Link]@[Link]
1
Informations pratiques:
•Cours magistral 1h30min
❑Questions à la fin du cours
•TD 2h
❑Présence obligatoire
❑Faire (ou essayer de faire) les exercices avant de
venir en TD
Bon courage
Professeur : Mohamed Iguernane
[Link]@[Link]
2
Bibliographie
Tenenhaus Michel: « Statistique: Méthodes pour décrire, expliquer et prévoir »;
DUNOD, 2006.
Chauvat Gérard, REAU jean Philipe « Statistiques descriptives », ARMAND
COLIN, 2002.
LETHIELLEUX Maurice, « Statistiques descriptives », DUNOD, 2003.
MONINO jean-Louis, KOSIANSKI Jean-Michel LE CORNU François « statistiques
descriptives –travaux dirigés » DUNOD, 2000.
GOLDFARB Bernard, PARDOUX Catherine « Introduction à la méthode statistique
» DUNOD, 2003.
PY BERNARD « Statistique descriptive » ECONOMICA dernière édition.
PY BERNARD « Exercices corrigés de statistique descriptives », ECONOMICA.
[Link], [Link] «Précis de mathématiques; probabilités-statistiques»
Bréal, Rosny 2004.
Professeur : Mohamed Iguernane
[Link]@[Link]
3
Chapitre 1 : Vocabulaire de la
statistique descriptive
1-1 Introduction
Le mot statistique a été créé au 18ème siècle par le Professeur allemand
GOTTERIED ACHENWAL. Mais la statistique était utilisée bien avant l’invention du
terme. En effet, les dénombrements de population humaine et de terre été réalisés
depuis la plus haute antiquité pour des besoins de la guerre et de l’impôt.
Au 19ème siècle, il y a eu l’apparition du calcul des probabilités qui est étroitement
lié aux jeux de hasard. Ceci a donné naissance à une discipline appelée statistique
mathématique. Durant cette période, le belge ADOLPHE QUETELET transposa le
calcul des probabilités à l’économie et à la démographie.
Professeur : Mohamed Iguernane
[Link]@[Link]
4
L’essor de la statistique a eu lieu au cours du 20ème siècle, et ce grâce à la
naissance et au développement de l’informatique qui a provoqué une extension
considérable des possibilités d’utilisation des méthodes statistiques et du champ
d’application de ces méthodes.
La statistique joue un rôle de plus en plus important dans tous les domaines de
l’activité humaine. Elle intervient aujourd’hui dans l’agriculture, la biologie, les
affaires, la chimie, les communications, l’économie, l’éducation, l’électronique, la
médecine, la pharmacie, la physique, les sciences politiques, la psychologie, la
sociologie, et dans d’autre branche encore de la science et de la technologie.
On désigne par exemple par économétrie, l’application de la statistique à
l’économie, par sociométrie, psychométrie et biométrie l’application de la
statistique respectivement à la sociologie, à la psychologie et à la biologie.
Professeur : Mohamed Iguernane
[Link]@[Link]
5
1-2 Définition du champ de la statistique descriptive
On divise généralement l'étude de la statistique générale en deux parties :
• La statistique descriptive, qui est l’ensemble des méthodes à partir
desquelles on recueille, ordonne, réduit, et condense les données.
• La statistique mathématique, dont l'objet est de formuler des lois à partir de
l'observation d'échantillons, c'est-à-dire de tirages limités effectués au sein d’une
population.
Professeur : Mohamed Iguernane
[Link]@[Link]
6
1-3 Terminologie
1-3-1 Population et unités statistiques
En statistique, la population désigne un ensemble d'unités statistiques. Les unités
statistiques sont les entités abstraites qui représentent des personnes, des
populations d'animaux ou des objets. "Individu" est parfois employé comme
synonyme du terme "unité statistique".
La statistique sert à décrire l'ensemble des unités statistiques qui composent la
population. On commence par compter ces unités. La première information
statistique que l'on tire d'une population est en effet le nombre de ses unités.
Professeur : Mohamed Iguernane
[Link]@[Link]
7
1-3-2 Echantillons
On parle d’échantillon d’une population statistique pour désigner le prélèvement, au
hasard ou selon une méthode qui permet d’assurer la représentativité par rapport à
la population totale, d’un petit nombre d’unités statistiques au sein de la population.
Population
Echantillon
E
Professeur : Mohamed Iguernane
[Link]@[Link]
8
1-3-3 Critères de classification
On distingue deux sortes de critères :
• Les critères quantitatifs
• Les critères qualitatifs
➢ Les critères quantitatifs sont les critères qui sont représentés par des nombres
et sur lesquels les opérations arithmétiques de base ont un sens.
Les critères quantitatifs sont souvent appelés variables.
On distingue deux sortes de variables quantitatives :
❖ Variable statistique discrète: L’ensemble de ses modalités est fini ou
dénombrable. Exemple : nombre d’enfant par ménage, nombre de pièces par
appartement,...
❖ Variable statistique continue: Elle peut prendre n’importe quelle valeur dans un
intervalle donné. Autrement dit, si l’ensemble de ses modalités n’est pas
dénombrable. Exemples: L’âge, la taille, le poids d’un individu,…
Professeur : Mohamed Iguernane
[Link]@[Link]
9
➢ Les critères qualitatifs sont tous les critères qui ne sont pas représentés par des
nombres. Pour les distinguer des critères quantitatifs , on les appelle des
«caractères», (parfois « variables »).
Un caractère qualitatif peut être:
❖ Ordinal : si ses modalités peuvent être naturellement ordonnées exemple :
satisfaction plus ou moins grande après l’achat d’un produit.
❖ Nominal : si ses modalités ne peuvent être naturellement ordonnées exemple :
état matrimoniale, couleur des yeux,...
Professeur : Mohamed Iguernane
[Link]@[Link]
10
Professeur : Mohamed Iguernane
[Link]@[Link]
11
1-3-4 Modes de regroupement des unités statistiques
Les unités statistiques d’une population peuvent être représentées sous forme d’une
série simple ou regroupées. Lorsqu’elles sont regroupées on les appelle des
distributions.
Les unités d’une population peuvent être distribuées par valeurs (lorsque le critère
de regroupement est numérique) ou distribuées par modalités (lorsque le critère de
regroupement n’est pas numérique). On peut aussi effectuer des regroupements par
catégories (ou classes) de valeurs ou par catégories (ou classes) de modalités.
Lorsqu’on effectue une distribution par catégories ou classes de valeurs, on peut
choisir des classes d’égales amplitudes ou des classes d’inégales amplitudes.
L’amplitude de classe est la différence entre la valeur supérieure et la valeur
inférieure de la classe. Le centre de classe est égal à la somme de la valeur inférieure
et de la valeur supérieure, divisée par deux.
Professeur : Mohamed Iguernane
[Link]@[Link]
12
Chapitre 2 : Réduction des données
2-1 Les tableaux et les graphiques
Dans ce paragraphe on va détailler comment résumer l’information contenue dans
une série de données soit par des tableaux ou par des graphiques.
2-1-1 Cas de variables qualitatives.
On va considérer deux exemples où on a des variables qualitatives observées sur
un échantillon et suivre le traitement possible de ces données.
Exemple 1 : On a pris un échantillon de 50 achats de boissons non-alcoolisées
achetées dans une grande surface, en notant par :
CC=Coca-Cola; S=Sprite; CL=Coke-Light; P=Perrier; PC=Pepsi-Cola.
On a obtenu les résultats suivants.
Professeur : Mohamed Iguernane
[Link]@[Link]
13
CC S PC CL CC CC PC CL CC CL CC CC CC CL PC CC CC P P S CC CL PC CL P
PC CC PC PC CC PC CC CC PC P PC PC S CC CC CC S P CL PC CC PC S CC CL
Alors ici la variable est X=Boisson non-alcoolisée, qui est une variable qualitative
nominale.
Pour présenter ces données sous forme de tableau, on dresse un tableau, dans la
première colonne on énumère les cinq modalités de la variable, dans la seconde
colonne on donne la fréquence absolue ou l’effectif de chacune des modalités
(c'est-à-dire le nombre de fois que cette modalité se répète dans l’échantillon) et
dans la troisième colonne, on donne la fréquence relative de chacune des
modalités.
La fréquence relative d’une modalité étant égale à sa fréquence absolue divisée
par la taille de l’échantillon.
Ce qui donne :
Professeur : Mohamed Iguernane
[Link]@[Link]
14
Tableau des fréquences des boissons non-alcoolisées
X=Boisson Fréquences absolues Fréquences relatives
CC 19 0,38
CL 8 0,16
PC 13 0,26
P 5 0,10
S 5 0,10
Total n=50 1
Source : données fictives.
Ce tableau s’appelle tableau de fréquences de la variable.
Remarque : Pour une présentation complète des tableaux et graphiques, on doit mettre le
titre en haut et la source des données en bas.
Professeur : Mohamed Iguernane
[Link]@[Link]
15
En ce qui concerne la représentation graphique, on va donner deux graphiques qui
résument la même information contenue dans le tableau des fréquences.
• Le diagramme à barres (horizontales ou verticales). Où on met sur un axe les
modalités de la variable et sur l’autre axe les fréquences absolues ou les
fréquences relatives.
Répartition des ventes des boissons non alcoolisées selon la marque
Professeur : Mohamed Iguernane
[Link]@[Link]
16
Remarque : Les largeurs des barres doivent être les mêmes pour une belle
esthétique du graphique, ainsi que la distance entre les bandes. On peut aussi
ajouter les fréquences relatives au dessus des bandes.
• Le deuxième graphique qu’on peut faire est le diagramme à secteurs (ou
circulaire) qui est une sorte de tarte où chaque modalité occupe une partie qui
reflète sa fréquence relative.
Diagramme circulaire
donnant la répartition
des boissons non alcoolisées
selon la marque
Professeur : Mohamed Iguernane
[Link]@[Link]
17
Exemple 2: Lors d’une enquête de satisfaction de la clientèle, une compagnie de
courtage a demandé à un échantillon de 60 clients d’indiquer leur degré de
satisfaction vis-à-vis de leur conseiller financier, sur une échelle de 1 à 7, le 1
correspondant à <<pas du tout satisfait>> et le 7 correspondant à << extrêmement
satisfait>>. On a obtenu les résultats suivants :
5 7 6 6 7 5 5 7 3 6 7 7 6 6 6 5 5 6 7 7
6 6 4 4 7 6 7 6 7 6 5 7 5 7 6 4 7 5 7 6
5 3 7 7 6 6 6 6 5 5 6 6 7 7 5 6 6 6 6
Ici la variable, ``degré de satisfaction`` est une variable qualitative ordinale. On
peut résumer l’information contenue dans ces données sous forme d’un tableau de
fréquences ce qui donne :
Professeur : Mohamed Iguernane
[Link]@[Link]
18
Tableau des fréquences du degré de satisfaction des clients.
Degré de satisfaction Fréquences absolues Fréquences relatives
1 0 0,0000
2 0 0,0000
3 2 0,0333
4 3 0,0500
5 12 0,2000
6 25 0,4167
7 18 0,3000
Total n=60 1,0000
Source : Données fictives.
En ce qui concerne la représentation graphique, les mêmes graphiques qu’on a utilisés
pour une variable qualitative nominale font l’affaire. Par exemple pour le diagramme à
barres horizontales:
Professeur : Mohamed Iguernane
[Link]@[Link]
19
Répartition du degré de satisfaction des clients
D
e
g
r
é
d
e
s
a
t
i
s
f
a
c
t
i
o
n
Professeur : Mohamed Iguernane
[Link]@[Link]
20
2-1-2 Cas de variables quantitatives.
Le traitement des variables quantitatives discrètes étant différent de celui des
variables quantitatives continues:
2-1-2-1 Cas des variables quantitatives discrètes.
Soit X une variable quantitative discrète dont le nombre de modalités n’est pas
trop grand. Alors on peut dresser un tableau des fréquences comme celui utilisé
pour les variables qualitatives auquel on peut ajouter une colonne supplémentaire
où on met les fréquences relatives cumulées au fur et à mesure qu’on ajoute une
modalité de la variable. En ce qui concerne la représentation graphique, un seul
graphique s’associe avec les variables quantitatives discrètes : le diagramme à
bâtons.
Exemple 3: Un inspecteur en contrôle de qualité a extrait de sa base de données,
un échantillon de 40 semaines où il a noté X, le nombre d’accidents de travail
enregistrés par semaine. Il a obtenu les résultats suivants :
2 0 4 2 2 1 3 2 0 5 4 3 2 4 5 6 6 4 2 0
3 4 4 2 6 2 4 3 0 4 3 4 3 3 5 5 4 2 2 1
On peut donc dresser le tableau des fréquences suivant.
Professeur : Mohamed Iguernane
[Link]@[Link]
21
On peut donc dresser le tableau des fréquences suivant:
Tableau des fréquences du nombre d’accidents par semaine
Le nombre Fréquences absolues Fréquences relatives Fréquences relatives
d’accidents par cumulées
semaine.
0 4 0,100 0,100
1 2 0,050 0,150
2 10 0,250 0,400
3 7 0,175 0,575
4 10 0,250 0,825
5 4 0,100 0,925
6 3 0,075 1,000
Total n=40 1,000
Professeur : Mohamed Iguernane
[Link]@[Link]
22
Quant au diagramme à bâtons, on obtient quelque chose comme :
Distribution des semaines selon le nombre d'accidents
0 1 2 3 4 5 6
X
Le nombre d’accidents par semaine
Remarque : Les bâtons ne doivent pas avoir d’épaisseur, car la variable prend exactement les
valeurs 0, 1, 2,…On peut ajouter les effectifs ou les fréquences relatives sur les bâtons.
Professeur : Mohamed Iguernane
[Link]@[Link]
23
Professeur : Mohamed Iguernane
[Link]@[Link]
24
Professeur : Mohamed Iguernane
[Link]@[Link]
25
Ce qui donne le tableau des fréquences suivant,
où les classes sont des intervalles fermés à gauche et ouverts à droite sauf le
dernier qui est un intervalle fermé des deux côtés.
Répartition des 40 semaines selon les recettes hebdomadaires du dépanneur
X=les recettes Fréquences Fréquences Fréquences
absolues relatives relatives cumulées
[10 ; 100[ 5 0,125 0,125
[100 ;190[ 3 0,075 0,200
[190 ;280[ 11 0,275 0,475
[280 ;370[ 6 0,150 0,625
[370 ;460[ 11 0,275 0,900
[460 ;550[ 3 0,075 0,975
[550 ;640] 1 0,025 1,000
Total n=40 1,000
Professeur : Mohamed Iguernane
[Link]@[Link]
26
Quand aux graphiques, on va ici privilégier trois graphiques pour les variables
quantitatives continues.
• L’histogramme, qui est une suite de rectangles juxtaposés les uns aux autres
dressés au-dessus de chacune des classes, dont la largeur est égale à l’amplitude de
la classe (prise comme unité de mesure) et dont la surface reflète la fréquence
relative de la classe qu’il représente.
Histogramme donnant des 40 semaines en fonction des recettes hebdomadaires
Fréquences
relatives
Professeur : Mohamed Iguernane
[Link]@[Link]
27
• Le polygone des fréquences, qui consiste à joindre le milieux des sommets des
rectangles d’un histogramme par une ligne en zig-zag et cette ligne se ferme en
ajoutant aux deux extrémités deux classes fictives de même amplitude que les autres,
comme ça la surface délimitée par l’histogramme est identique à celle délimitée par
le polygone des fréquences.
Polygone des fréquences donnant la répartition des 40 semaines selon les recettes hebdomadaires
Professeur : Mohamed Iguernane
[Link]@[Link]
28
• La courbe des fréquences cumulées (Ogive).
Comme son nom l’indique, elle consiste à tracer le graphique des fréquences
cumulées, en mettant les limites des classes sur l’axe horizontal et les fréquences
cumulées sur l’axe vertical, ces dernières se cumulant à la fin de chacune des
classes. Ce graphique aura l’allure d’une courbe croissante variant entre 0 et 1.
Ogive de la répartition des 40 semaines selon les recettes
1.0
0.8
[Link]
0.6
0.4
0.2
0.0
100 300 500 700
Recettes
Professeur : Mohamed Iguernane
[Link]@[Link]
29
2-2 Les mesures de tendance centrale
On appelle mesures de tendance centrale, des valeurs de la variable susceptibles de
nous donner une idée sur la donnée qui occupe le centre d’une série statistique. On va
décrire dans ce paragraphe, les trois plus importantes mesures de tendance centrale
que sont le mode, la moyenne et la médiane.
2-2-1 : Le mode
On appelle le mode d’une variable X, la valeur de la variable qui a la plus grande
fréquence et on le note Mo(X). Le mode est une importante mesure de tendance
centrale pour les variables qualitatives nominales.
Remarque : Une distribution peut avoir un seul mode et on dit qu’elle est unimodale,
ou plusieurs modes et on dit qu’elle est multimodale.
Professeur : Mohamed Iguernane
[Link]@[Link]
30
Exemple 5: Si on reprend l’exemple des boissons non-alcoolisées, on avait le
tableau des fréquences suivant
Tableau des fréquences des boissons non-alcoolisées
X=Boisson Fréquences absolues Fréquences relatives
CC 19 0,38
CL 8 0,16
PC 13 0,26
P 5 0,10
S 5 0,10
Total n=50 1
Alors, le mode de cette variable est Mo(X)=Coca-Cola (CC), cela signifie que dans cet
échantillon, la boisson la plus fréquemment achetée est Coca-Cola.
Professeur : Mohamed Iguernane
[Link]@[Link]
31
Exemple 6: En reprenant l’exemple des recettes quotidiennes d’un petit magasin,
on avait le tableau des fréquences suivant :
Répartition des 40 semaines selon les recettes hebdomadaires du dépanneur
X=les recettes Fréquences absolues Fréquences relatives
[10 ; 100[ 5 0,125
[100 ;190[ 3 0,075
[190 ;280[ 11 0,275
[280 ;370[ 6 0,150
[370 ;460[ 11 0,275
[460 ;550[ 3 0,075
[550 ;640] 1 0,025
Total n=40 1,000
Ici, on voit qu’il y a deux classes qui ont les plus hautes fréquences, on les appelle
des classes modales. Alors on est en présence d’une distribution de données
bimodale, et les deux modes sont les milieux des deux classes modales, à savoir
Mo(X)=235 et Mo(X)=415.
Professeur : Mohamed Iguernane
[Link]@[Link]
Professeur : Mohamed Iguernane
[Link]@[Link]
33
Professeur : Mohamed Iguernane
[Link]@[Link]
34
Tableau des fréquences du nombre d’accidents par semaine
Le nombre d’accidents par semaine. Fréquences absolues
0 4
1 2
2 10
3 7
4 10
5 4
6 3
Total n=40
Professeur : Mohamed Iguernane
[Link]@[Link]
35
Professeur : Mohamed Iguernane
[Link]@[Link]
36
Fréquences absolues X=les recettes
55 5 [10 ; 100[
145 3 [100 ;190[
235 11 [190 ;280[
325 6 [280 ;370[
415 11 [370 ;460[
505 3 [460 ;550[
595 1 [550 ;640]
n=40 Total
Professeur : Mohamed Iguernane
[Link]@[Link]
Professeur : Mohamed Iguernane
[Link]@[Link]
Professeur : Mohamed Iguernane
[Link]@[Link]
39
Tableau des fréquences du degré de satisfaction des clients.
Fréquences absolues Degré de satisfaction
0 1
0 2
2 3
3 4
12 5
25 6
18 7
n=60 Total
Professeur : Mohamed Iguernane
[Link]@[Link]
40
Professeur : Mohamed Iguernane
[Link]@[Link]
41
Tableau des fréquences du nombre d’accidents par semaine
Nombre d’accidents par semaine Fréquences absolues
0 4
1 2
2 10
3 7
4 10
5 4
6 4
Total n=41
Professeur : Mohamed Iguernane
[Link]@[Link]
Professeur : Mohamed Iguernane
[Link]@[Link]
X=les recettes Fréquences Fréquences Fréquences
absolues relatives relatives cumulées
[10 ; 100[ 5 0,125 0,125
[100 ;190[ 3 0,075 0,200
[190 ;280[ 11 0,275 0,475
[280 ;370[ 6 0,150 0,625
[370 ;460[ 11 0,275 0,900
[460 ;550[ 3 0,075 0,975
[550 ;640] 1 0,025 1,000
Total n=40 1,000
Professeur : Mohamed Iguernane
[Link]@[Link]
Professeur : Mohamed Iguernane
[Link]@[Link]
Remarque: Le calcul de la médiane est basé sur l’ordre des observations et non sur
leur valeur. Contrairement à la moyenne, la médiane est insensible aux données
extrêmes. Dans le cas où les données sont très différentes, la médiane est une
meilleure mesure de tendance centrale.
Remarque: Si pour une variable X quantitative les 3 mesures de tendance centrale
sont presque égales, on dit alors que la variable est symétrique et alors n’importe
laquelle de ces mesures peut être utilisée comme mesure de cette tendance
centrale. S’il y a un grand écart entre ces mesures alors c’est la médiane qu’on doit
privilégier.
Professeur : Mohamed Iguernane
[Link]@[Link]
2-3 Les mesures de position.
On a déjà parlé de la médiane comme mesure de tendance centrale, mais elle est
aussi une mesure de position car elle permet de diviser une série d’observations en
deux groupes chacun contenant 50% de données. On va définir d’autres mesures de
position qui permettent d’autres découpages d’une série d’observations.
2-3-1: Les quartiles.
Lorsqu’on veut diviser les données en quatre groupes, chacun contenant 25% des
observations, on utilise des mesures appelées quartiles.
𝑄1 = le 1er quartile, à sa gauche il y a 25% des observations.
𝑄2 = le 2ème quartile, coincide avec la médiane.
𝑄3 = le 3ème quartile, à sa gauche il y a 75% des observations.
On va décrire la façon de les calculer, dans les 3 cas possibles pour une variable
quantitative.
Professeur : Mohamed Iguernane
[Link]@[Link]
47
2-3-1-1: Les données en vrac.
On suit les étapes suivantes.
Étape 1 : On ordonne les données par ordre croissant.
Étape 2 : On calcule l’indice 𝑙 = 𝑖% ∗ 𝑛 où 𝑖 est le pourcentage correspondant à la
mesure voulue et 𝑛 est le nombre d’observations.
Étape 3 : (a) si 𝑙 n’est pas un entier, alors le ième quartile est égal à l’observation
occupant la position immédiatement supérieure à 𝑙.
(b) Si 𝑙 est un entier, alors le ième quartile est la moyenne des observations occupant
les positions 𝑙 et (𝑙 + 1).
Exemple 15 :
n=12 et les observations sont :
-2 -3 10 12 120 11 4 8 6 13 130 200.
Étape 1 : -3 -2 4 6 8 10 11 12 13 120 130 200.
Étape 2 : Si on veut déterminer 𝑄1 , on calcule 𝑙1 = 25% ∗ 𝑛 = 3.
Si on veut déterminer 𝑄2 , on calcule 𝑙2 = 50% ∗ 𝑛 = 6.
Si on veut déterminer 𝑄3 , on calcule 𝑙3 = 75% ∗ 𝑛 = 9.
Professeur : Mohamed Iguernane
[Link]@[Link]
48
𝑙𝑎 3ème 𝑜𝑏𝑠+𝑙𝑎 4ème 𝑜𝑏𝑠 4+6
Étape 3 : Puisque 𝑙1 est un entier alors 𝑄1 = = = 5.
2 2
𝑙𝑎 6ème 𝑜𝑏𝑠+𝑙𝑎 7ème 𝑜𝑏𝑠 10+11
Puisque 𝑙2 est un entier alors 𝑄2 = = = 10.5.
2 2
𝑙𝑎 9ème 𝑜𝑏𝑠+𝑙𝑎 10ème 𝑜𝑏𝑠 13+120
Puisque 𝑙3 est un entier alors 𝑄3 = = = 66.5.
2 2
Exemple 16 :
n=10 et les observations sont :
3 10 12 8 6 100 15 6 3 14.
Étape 1 : 3 3 6 6 8 10 12 14 15 100
Étape 2 : Si on veut déterminer 𝑄1 , on calcule 𝑙1 = 25% ∗ 𝑛 = 2.5.
Si on veut déterminer 𝑄2 , on calcule 𝑙2 = 50% ∗ 𝑛 = 5.
Si on veut déterminer 𝑄3 , on calcule 𝑙3 = 75% ∗ 𝑛 = 7.5.
Étape 3 : Puisque 𝑙1 n’est pas un entier alors 𝑄1 = 𝑙𝑎 3ème 𝑜𝑏𝑠 = 6.
𝑙𝑎 5ème 𝑜𝑏𝑠+𝑙𝑎 6ème 𝑜𝑏𝑠 8+10
Puisque 𝑙2 est un entier alors 𝑄2 = = =9
2 2
Puisque 𝑙3 n’est pas un entier alors 𝑄3 = 𝑙𝑎 8ème 𝑜𝑏𝑠 = 14.
Professeur : Mohamed Iguernane
[Link]@[Link]
49
Remarque : La procédure décrite pour trouver les quartiles est une convention parmi
d’autres. Il n’y a pas d’accord général sur la méthode à utiliser pour déterminer les
quartiles.
2-3-1-2: Les données groupées par valeurs.
On suit la même démarche que dans le cas des données en vrac, sauf l’étape 1 qui
devient inutile, puisque les données sont en général déjà ordonnées par ordre
croissant.
Exemple 17: En reprenant le tableau de l’exemple 3, déterminer les 3 quartiles de la
variable X=le nombre d’accidents par semaine.
Professeur : Mohamed Iguernane
[Link]@[Link]
50
Tableau des fréquences du nombre d’accidents par semaine
X Fréquences absolues
0 4
1 2
2 10
3 7
4 10
5 4
6 4
Total n=41
Réponse :
Étape 2 : Si on veut déterminer 𝑄1 , on calcule 𝑙1 = 25% ∗ 𝑛 = 10.25.
Si on veut déterminer 𝑄2 , on calcule 𝑙2 = 50% ∗ 𝑛 = 20.5.
Si on veut déterminer 𝑄3 , on calcule 𝑙3 = 75% ∗ 𝑛 = 30.75.
Étape 3 : Puisque 𝑙1 n’est pas un entier alors 𝑄1 = 𝑙𝑎 11ème 𝑜𝑏𝑠 = 2.
Puisque 𝑙2 n’est pas un entier alors 𝑄2 = 𝑙𝑎 21ème 𝑜𝑏𝑠 = 3.
Puisque 𝑙3 n’est pas un entier alors 𝑄3 = 𝑙𝑎 31ème 𝑜𝑏𝑠 = 4.
Professeur : Mohamed Iguernane
[Link]@[Link]
51
2-3-1-3 Les données groupées par classes.
On suit la même démarche utilisée pour calculer la médiane quand les données sont
groupées par classes. On détermine la classe où on a dépassé le pourcentage relatif à
chaque quartile et on fait une interpolation à l’intérieur de cette classe. On aboutit à la
même formule que celle de la médiane où seul le pourcentage est à adapter.
Exemple 18: En reprenant les données de l’exemple sur les recettes quotidiennes ,
déterminer les 3 quartiles de la variable X, soit les recettes quotidiennes d’un petit
dépanneur, et interpréter ces mesures.
Professeur : Mohamed Iguernane
[Link]@[Link]
52
X=les recettes Fréquences Fréquences Fréquences
absolues relatives relatives cumulées
[10 ; 100[ 5 0,125 0,125
[100 ;190[ 3 0,075 0,200
[190 ;280[ 11 0,275 0,475
[280 ;370[ 6 0,150 0,625
[370 ;460[ 11 0,275 0,900
[460 ;550[ 3 0,075 0,975
[550 ;640] 1 0,025 1,000
Total n=40 1,000
Réponse :
(a) Pour déterminer le premier quartile, les fréquences relatives cumulées ont dépassé
25% pour la première fois au niveau de la classe [190 ; 280[, donc
(0.25−0.20)
𝑄1 = 190 + *90=206.36 DH.
0.275
Ce qui signifie que dans cet échantillon de données, 25% des journées, les recettes
quotidiennes de ce petit magasin ont été de 206,36 DH ou moins.
Professeur : Mohamed Iguernane
[Link]@[Link]
53
(b) Pour déterminer le deuxième quartile (on refait ce qu’on a déjà fait pour calculer la
médiane), les fréquences relatives cumulées ont dépassé 50% pour la première fois au
niveau de la classe [280 ; 370[, donc
(0.5−0.475)
𝑄2 = 280 + *90=295 DH.
0.150
Ce qui signifie que dans cet échantillon de données, 50% des journées, les recettes
quotidiennes de ce petit magasin ont été de 295 DH ou moins.
(c) Pour déterminer le troisième quartile, les fréquences relatives cumulées ont
dépassé 75% pour la première fois au niveau de la classe [370 ; 460[, donc
(0.75−0.625)
𝑄3 = 370 + *90=410.91 DH.
0.275
Ce qui signifie que dans cet échantillon de données, 75% des journées, les recettes
quotidiennes de ce petit magasin ont été de 410,91 DH ou moins.
Professeur : Mohamed Iguernane
[Link]@[Link]
54
2-3-2: Les autres mesures de position.
Quelques fois, on doit découper une série d’observations en cinq, en dix ou en cents
groupes contenant chacun le même pourcentage d’observations. Dans le cas de cinq
groupes, on parle alors des quintiles 𝑉1 , 𝑉2 , 𝑉3 et 𝑉4 . Entre deux quintiles consécutifs,
il y a 20% d’observations. Dans le cas de dix groupes, on parle des déciles 𝐷1 , 𝐷2 , … , 𝐷9
et entre deux déciles consécutifs, il y a 10% d’observations. Dans le cas de cent
groupes, on parle des centiles 𝐶1 , 𝐶2 , … , 𝐶99 et entre deux centiles consécutifs, il y a
1% des observations. Le calcul de ces différentes mesures de position est identique à
ce qu’on a fait pour déterminer les quartiles, il n’y a que le pourcentage de la mesure à
adapter à chaque fois. On va donner un exemple dans le cas où les données sont
groupées par classes.
Exemple 19: En reprenant les données de l’exemple 18, déterminer le deuxième
quintile, le septième décile et le quatre vingt quinzième centile de la variable X, les
recettes quotidiennes d’un petit dépanneur et interprétez chacune de ces mesures.
Professeur : Mohamed Iguernane
[Link]@[Link]
55
X=les recettes Fréquences Fréquences Fréquences
absolues relatives relatives cumulées
[10 ; 100[ 5 0,125 0,125
[100 ;190[ 3 0,075 0,200
[190 ;280[ 11 0,275 0,475
[280 ;370[ 6 0,150 0,625
[370 ;460[ 11 0,275 0,900
[460 ;550[ 3 0,075 0,975
[550 ;640] 1 0,025 1,000
Total n=40 1,000
Réponse :
(a) Les fréquences cumulées dépassent pour la première fois 40% au niveau de la
classe [190 ; 280[ ainsi le deuxième quintile est égal à
(0.40−0.20)
𝑉2 = 190 + *90=255.45 DH.
0.275
Ceci signifie que dans cet échantillon de données, 40% des journées, les recettes
quotidiennes de ce petit magasin ont été de 255,45 DH ou moins.
Professeur : Mohamed Iguernane
[Link]@[Link]
56
(b) Les fréquences relatives cumulées dépassent pour la première fois 70% au niveau
de la classe [370 ; 460[, ainsi le septième décile est égal à
(0.70−0.625)
𝐷7 = 370 + *90=394.55 DH.
0.275
Ce qui signifie que dans cet échantillon de données, 70% des journées, les recettes
quotidiennes de ce petit magasin ont été de 394,55 DH ou moins.
(c) Les fréquences relatives cumulées dépassent pour la première fois 95% au niveau
de la classe [460 ; 550[, ainsi le quatre vingt quinzième centile est égal à
(0.95−0.90)
𝐶95 = 460 + *90=520 DH.
0.075
Ce qui signifie que dans cet échantillon de données, 95% des journées, les recettes
quotidiennes de ce petit magasin ont été de 520 DH ou moins.
Professeur : Mohamed Iguernane
[Link]@[Link]
57
2-3 Les mesures de dispersion.
Rappelons qu’on travaille sur des données issues d’un échantillon et que le choix de
cet échantillon est fait au hasard mais sensé refléter ce qui se passe dans la
population. Ce qui fait que le comportement d’une variable diffère d’un échantillon à
l’autre mais on espère qu’il correspond au profil de cette variable dans la population.
Ce qui fait que lorsqu’on manipule une variable mesurable et qu’on se base seulement
sur ses mesures de tendance centrale, on perd de vue la variabilité des données
autour de ces mesures centrales. D’où l’utilité des mesures de dispersion qui, jumelées
avec les mesures de tendance centrale, vont nous donner une idée plus exacte sur
l’ensemble de ce qu’on a observé dans une série échantillonnale. Dans ce paragraphe,
on va décrire quelques unes de ces mesures de dispersion.
Professeur : Mohamed Iguernane
[Link]@[Link]
58
2-3-1 L’étendue.
C’est la mesure de dispersion la plus simple à calculer. Lorsqu’on a une variable
quantitative X, mesurée sur un échantillon de taille n. Alors l’étendue est égale à
𝑬 = 𝒍𝒂 𝒑𝒍𝒖𝒔 𝒈𝒓𝒂𝒏𝒅𝒆 𝒅𝒐𝒏𝒏é𝒆 − 𝒍𝒂 𝒑𝒍𝒖𝒔 𝒑𝒆𝒕𝒊𝒕𝒆 𝒅𝒐𝒏𝒏é𝒆 = 𝑿𝒎𝒂𝒙 − 𝑿𝒎𝒊𝒏
Puisque l’étendue est basée seulement sur les deux observations extrêmes, alors elle
est très peu utilisée dans les applications.
2-3-2 La variance.
La variance d’une variable mesurée sur un échantillon est égale à la moyenne des
carrés des écarts qui séparent chaque observation de la moyenne échantillonnale, son
calcul diffère selon la nature des données.
Professeur : Mohamed Iguernane
[Link]@[Link]
59
2-3-2-1 Les données en vrac.
Soit X une variable quantitative mesurée sur un échantillon de taille n, et dont les
valeurs sont : 𝑥1 , 𝑥2 , … . , 𝑥𝑛 alors la variance de l’échantillon est
𝑛
2
1 2
𝑆𝑋 = 𝑥𝑖 − 𝑥ҧ
𝑛−1
𝑖=1
Exemple 20:
Soit X une variable quantitative mesurée sur un échantillon de taille n=6 et les valeurs
suivantes ont été obtenues : -2 5 10 7 8 8.
Alors 𝑥ҧ = 6 et la variance de cet échantillon sera égale à
2 2 2
−2 − 6 + 5 − 6 + ⋯ + 8 − 6
𝑆𝑋2 = = 18
6−1
Professeur : Mohamed Iguernane
[Link]@[Link]
60
2-3-2-2 Les données groupées par valeurs.
Soit X une variable quantitative mesurée sur un échantillon de taille n, et dont les k
valeurs sont : 𝑥1 , 𝑥2 , … . , 𝑥𝑘 avec des fréquences absolues respectivement égales à
𝑓1 , 𝑓2 , … . , 𝑓𝑘 . Alors la variance de X dans cet échantillon est égale à
𝑘
2
1
𝑆𝑋 = 𝑥𝑖 − 𝑥ҧ 2 𝑓𝑖
𝑛−1
𝑖=1
Exemple 21 :
En reprenant le tableau de l’exemple (nombre d’accidents) précédent, déterminer la
variance de la variable X=le nombre d’accidents par semaine
Professeur : Mohamed Iguernane
[Link]@[Link]
61
Tableau des fréquences du nombre d’accidents par semaine
X Fréquences absolues
0 4
1 2
2 10
3 7
4 10
5 4
6 3
Total n=40
Réponse : On avait trouvé que la moyenne de cette variable est 𝑥ҧ = 3.025 donc sa
variance sera égale à :
0 − 3.025 2 ∗ 4 + 1 − 3.025 2 ∗ 2 + ⋯ + 6 − 3.025 2 ∗ 3
𝑆𝑋2 = = 2.74
39
Professeur : Mohamed Iguernane
[Link]@[Link]
62
2-3-2-3 Les données groupées par classes.
Soit maintenant X, une variable quantitative mesurée sur un échantillon de taille n, et
dont les observations sont groupées en k classes avec des fréquences absolues
respectivement égales à 𝑓1 , 𝑓2 , … . , 𝑓𝑘 et dont les milieux des classes sont
respectivement égaux à 𝑚1 , 𝑚2 , … . , 𝑚𝑘 . Alors la variance de X dans cet échantillon est
égale à
𝑘
2
1
𝑆𝑋 = 𝑚𝑖 − 𝑥ҧ 2 𝑓𝑖
𝑛−1
𝑖=1
Exemple 22 :
En reprenant les données de l’exemple (recettes quotidiennes) précèdent, déterminer
la variance de la variable X, les recettes quotidiennes d’un petit dépanneur.
Professeur : Mohamed Iguernane
[Link]@[Link]
63
Réponse :
On avait trouvé que la moyenne de la variable est 𝑥ҧ = 298 𝐷𝐻
𝒎𝒊 X=les recettes Fréquences absolues
55 [10 ; 100[ 5
145 [100 ;190[ 3
235 [190 ;280[ 11
325 [280 ;370[ 6
415 [370 ;460[ 11
505 [460 ;550[ 3
595 [550 ;640] 1
Total n=40
Alors la variance de cet échantillon est égale à :
55 − 298 2 ∗ 5 + 145 − 298 2 ∗ 3 + ⋯ + 595 − 298 2 ∗ 1
𝑆𝑋2 = = 20021.54
39
Professeur : Mohamed Iguernane
[Link]@[Link]
64
2-3-3 L’écart type.
L’écart type d’une variable quantitative mesurée sur un échantillon est égal à la racine
carrée de sa variance. Son unité de mesure étant la même que celle de la variable,
l’écart type se prête alors aisément à l’interprétation et est considéré comme la
mesure de dispersion par excellence. La variance n’est donc qu’une étape de calcul
pour déterminer l’écart type, quand on faisait les calculs à la main.
Exemple 23 : L’écart type échantillonnal pour les 3 précédents exemples où on a
calculé les variances échantillonnales est respectivement égal à :
𝑆𝑋 = 18 = 4.24. Pour les données de l’exemple 20 où les données sont en vrac.
𝑆𝑋 = 2.74 = 1.655. Pour les données de l’exemple 21 où les données sont groupées
par valeurs.
𝑆𝑋 = 20021.54 = 141.497. Pour les données de l’exemple 22 où les données sont
groupées par classes.
Professeur : Mohamed Iguernane
[Link]@[Link]
65
Une propriété de l’écart type échantiollonnal.
Soit X une variable quantitative dont l’écart type échantillonnal est 𝑆𝑋 et soit Y une
autre variable quantitative telle que 𝑌 = 𝑎 + 𝑏 ∗ 𝑋 où 𝑎 et 𝑏 sont des constantes
réelles. Alors l’écart type échantillonnal de Y sera égal à
𝑆𝑌 = 𝑏 𝑆𝑋
Exemple 24 : Reprenons le contexte de l’exemple précédent, où X est le nombre
d’heures qu’un étudiant travaille à temps partiel par semaine. Supposons qu’à partir
d’un échantillon d’étudiants, on ait pu trouvé que l’écart type du nombre d’heures
travaillées par ces étudiants est égal à 𝑆𝑋 = 3.2 heures/semaine. Si le salaire horaire
est de 10 DH et que les patrons de ces étudiants leur offrent 30 DH par semaine pour
leurs déplacements, quel est l’écart type du gain net hebdomadaire de ces étudiants ?
Posons Y, le gain net hebdomadaire de ces étudiants alors 𝑌 = 30 + 10 ∗ 𝑋, donc
l’écart type du gain net de cet échantillon d’étudiants sera égal à
𝑆𝑌 = 10𝑆𝑋 =32 DH/semaine.
Professeur : Mohamed Iguernane
[Link]@[Link]
66
2-3-4 Le coefficient de variation.
On avait dit que l’unité de l’écart type d’une variable est la même que celles des
données et qu’alors il s’interprète mieux que la variance. Mais si on veut comparer la
dispersion de deux variables ou plus ayant des unités différentes mesurées sur le
même échantillon ou sur des échantillons différents, il nous faut une mesure de
dispersion sans unité. Cette mesure est le coefficient de variation. Pour un échantillon
de données dont la moyenne est non négative, on définit le coefficient de variation
d’une variable X par :
𝑆𝑋
𝐶𝑉𝑋 = 100%
𝑥ҧ
Si on a un seul échantillon de données, alors si le coefficient de variation de X est
inférieur à 15%, on dit que la variable est homogène, sinon elle est dite hétérogène.
Si on a deux échantillons (sur une ou deux variables) ou plus, alors celui (ou celle) qui a
le plus petit coefficient de variation est le (ou la) plus homogène.
Professeur : Mohamed Iguernane
[Link]@[Link]
67
Exemple 25 : On a pris un échantillon de taille n=50 d’hommes d’âge adultes, on a
mesuré leur poids et leur taille. Les résultats sont résumés dans le tableau suivant :
Variable Écart type Moyenne
X=taille 𝑥ҧ = 173.59 𝑐𝑚 𝑆𝑋 = 7.86 𝑐𝑚
Y=poids 𝑦ത = 78.42 𝑘𝑔 𝑆𝑌 = 11.98 𝑘𝑔
Pour comparer l’homogénéité de ces deux variables, on utilise leur coefficient de
variation.
7.86
𝐶𝑉𝑋 = 100% = 4.53%
173.59
11.98
𝐶𝑉𝑌 = 100% = 15.28%
78.42
Donc la taille des hommes adultes est plus homogène que leur poids. Ce qui
correspond à l’intuition. Par exemple il est très rare de voir deux hommes adultes dont
l’un serait deux fois plus grand que l’autre, alors qu’il est fréquent de voir un homme
adulte dont le poids est le double d’un autre.
Professeur : Mohamed Iguernane
[Link]@[Link]
68
2-3-5 La variance et l’écart type dans le cas d’une population.
Variance 𝜎 2 ≡ 𝑉
Série brute : Série groupée ou classée :
1 n 1 k k
V = ( xi - x ) V = n i ( x i - x ) = fi ( x i - x )
2 2 2
n i=1 n i=1 i=1
1 k
V = n i x i2 − x 2 = Moyenne des carrés - Carré de la moyenne
n i=1
Ecart-type σ= V
Professeur : Mohamed Iguernane
[Link]@[Link]
69
Chapitre 3: Analyse statistique de deux
variables quantitatives
3-1 Mesure de la liaison entre deux variables quantitatives
Poids
Nom Taille xi (cm) Poids yi (kg)
95
Pierre 175 73
90
Arantxa 168 56
….. ….. ….. 85
Martin 185 87 80
75
70
La connaissance de la taille x apporte 65
Taille
60
une certaine information sur le poids y 55
50
150 160 170 180 190 200
Il existe une relation de dépendance entre x et y
Professeur : Mohamed Iguernane
[Link]@[Link]
70
La connaissance de x permet de
La connaissance de x n’apporte
connaître exactement la valeur de
aucune certaine information sur y
y
x et y sont indépendantes
Il existe une relation fonctionnelle
entre x et y
Professeur : Mohamed Iguernane
[Link]@[Link]
71
Covariance :
1 n
Cov ( x,y ) = ( x i -x )( y i -y )
n i=1
Propriétés :
Cov ( x,y ) 0 x et y varient dans le même sens
Cov ( x,y ) 0 x et y varient en sens contraire
Cov ( x,y ) = Cov ( y,x )
Cov ( x,x ) = V(x)
Cov ( a x + b y , z ) = a Cov ( x,z ) + b Cov ( y,z )
Professeur : Mohamed Iguernane
[Link]@[Link]
72
Corrélation linéaire:
cov(x,y)
ρ=
σ(x) σ(y)
Propriétés :
−1 ρ 1
ρ = 1 si a > 0
y=ax+b
ρ = -1 si a < 0
ρ = 1 Il existe une relation fonctionnelle entre x et y
ρ = 0 x et y sont indépendantes
0 ρ 1 Il existe une dépendance linéaire d’autant plus forte que |r| est grand
Professeur : Mohamed Iguernane
[Link]@[Link]
73
3-2 Ajustement linéaire.
95
90
y = Poids
85
80
75
70
65
60
55
x = Taille
50
150 160 170 180 190 200
Est-il possible de trouver une fonction numérique f telle que y = f (x) ?
Si une telle fonction existe, on dit que f est un modèle du phénomène étudié.
x est la variable explicative.
y est la variable expliquée.
Professeur : Mohamed Iguernane
[Link]@[Link]
74
95
90
y = Poids
85
80
75
70
65
60
55
x = Taille
50
150 160 170 180 190 200
On désire trouver la droite qui passe « au mieux » à l’intérieur du nuage de points
Professeur : Mohamed Iguernane
[Link]@[Link]
75
« au mieux »
n n
Minimiser S =
e 2
i
Minimiser S' = e'
i=1
2
i
i=1
95 95
90
y = Poids 90
y = Poids
85 85
80 80
e'i
75 ei 75
70 70
65 65
60 60
55 55
x = Taille x = Taille
50 50
150 160 170 180 190 200 150 160 170 180 190 200
Droite de régression de y en x Droite de régression de x en y
Professeur : Mohamed Iguernane
[Link]@[Link]
76
Régression linéaire de Y en X
90
y = Poids
85
80
f(x) = y = ax+b
Droite de régression 75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65
60
55 x = Taille
50
150 155 160 165 170 175 180 185 190
xi
n n
( yi -ax i -b )
2 2
La droite de régression linéaire de y en x, notée Dy/x , minimise S = e =
i
i=1 i=1
n
( x -x )( y -y )
i i
Cov ( x,y )
a= i=1
= b = y - ax
n
( x i -x )
2 V(x)
i=1
Dy/x passe par le point moyen ( x , y )
Professeur : Mohamed Iguernane
[Link]@[Link]
77
95
90
y = Poids
85
f(x) = y = ax+b
Droite de régression 80
linéaire de y en x 75
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65
60
55
x = Taille
50
150 160
xi
170 180 190 200
y = a x + b définit un modèle affine
ŷi = a xi + b = valeur de yi prévue par le modèle
ri = yi - yˆ i = résidu de la ième observation
ei = ri = yi - a x i - b = erreur due au modèle
Professeur : Mohamed Iguernane
[Link]@[Link]
78
Régression linéaire de X en Y
95 ei’ = |xi-a’yi-b’|
90
y = Poids
85
f(y) = x = a’y+b’
Droite de régression y80i
75
linéaire de x en y
70
x = f(y) = a’y + b’
65
60
55
x = Taille
50
150 160
xi
170
a’yi180
+b’ 190 200
n n
( x i -a'yi -b')
2 2
La droite de régression linéaire de x en y, notée Dx/y , minimise S' = e' =i
i=1 i=1
( x -x )( y -y )
i i
Cov ( x,y )
a' = i=1
n
= b' = x - a' y
( yi -y )
2 V(y)
i=1
Dx/y passe par le point moyen ( x , y )
Professeur : Mohamed Iguernane
[Link]@[Link]
79
Liens entre corrélation et droites de régression
Cov ( x,y )
Dy/x : y = ax + b a= b = y - ax
V(x) σ(x) σ(y)
r² = a a’ ρ=a = a'
Cov ( x,y ) σ(y) σ(x)
Dx/y : x = a’y + b’ a' = b' = x - a' y
V(y)
( x, y ) ( x, y )
( x, y )
r² = a a’ = 0 0 r² = a a’ < 1
r² = a a’ = 1
Indépendance linéaire Le degré de dépendance
linéaire se mesure à la proximité Liaison fonctionnelle linéaire
des droites de régression
Professeur : Mohamed Iguernane
[Link]@[Link]
80
3-3 Ajustement à une fonction exponentielle
25,0
xi yi
2,8 0,8 20,0
4,3 1,2 droite de régression
2,7 1,5 15,0 linéaire de y en x
4,2 1,9
4,1 2,3 10,0
…. ….
4,0 3,1 5,0
0,0
0 10 20 30 40 50 60
3
Analyse des résidus
2
1 Les résidus devraient se répartir
0
0 10 20 30 40 50 60
au hasard autour de l’axe des
-1
abscisses:
-2
le modèle affine ne convient
-3
pas
Professeur : Mohamed Iguernane
[Link]@[Link]
81
25,0
Modèle exponentiel
20,0
y = ex exponentielle de base e
15,0
10,0
y = ax exponentielle de base a
5,0 y = b a x Forme exponentielle générale
0,0
0 10 20 30 40 50 60
Changement de variable
ln y = ln b + x ln a
Y=AX+B Y = ln y avec
X=x
A = ln a
L’ajustement affine de Y en fonction de X donne A et B, B = ln b
d ’où a = e A , b = e B, et le modèle y = b a x
Professeur : Mohamed Iguernane
[Link]@[Link]
82
25,00
20,00 Série initiale (xi,yi)
15,00 Série prévue par le modèle ( x i ,yˆ i )
10,00
5,00
0,00
0 10 20 30 40 50 60
1,50
1,00
0,50
Analyse des résidus 0,00
0 10 20 30 40 50 60
-0,50
-1,00 Le modèle exponentiel est mieux
-1,50 adapté que le modèle affine
Professeur : Mohamed Iguernane
[Link]@[Link]
83
Chapitre 4: Variables aléatoires
4-1 Notion de variable aléatoire
4-1-1 Introduction
• Le résultat d’une expérience envisagée est un nombre réel, mais a priori inconnu, que l’on appelle:
variable aléatoire, notée X.
Exemple 1 : lancer deux dés est une expérience aléatoire
→ 36 événements possibles et équiprobables (1/36)
Ω= {ω1;ω2;ω3;… ω36}={(1,1);(1,2);(1,3);…(6,6)}
→ 11 résultats possibles si on additionne les nombres obtenus sur les deux faces supérieures,
X(Ω)={2,3,4,5,6,7,8,9,10,11,12} avec
X(ω1)=X(1,1)=2
X(ω2)=X(1,2)=3
X(ω3)=X(1,3)=4
Professeur : Mohamed Iguernane
[Link]@[Link]
84
• Variable aléatoire discrète.
– Une variable est dite discrète finie si ses résultats possibles sont finis (limités, cf jeu de 2 dés)
– Une variable est dite discrète infinie si ses résultats possibles sont infinis dénombrables
(illimités)
• Variable aléatoire continue
– Une variable aléatoire est dite continue si l’ensemble de ses résultats possibles forment un
intervalle de valeurs
– on n’a plus de nombres ponctuels et les résultats sont infiniment divisibles
4-1-2 Distributions (ou lois) de probabilité
➢ Définition:
– La distribution de probabilité d’une variable aléatoire décrit comment sont réparties les
probabilités en fonction des valeurs de la variable aléatoire
Professeur : Mohamed Iguernane
[Link]@[Link]
85
– Les variables aléatoires discrètes et continues se différencient par le calcul des probabilités
• Cas discret
– La distribution de probabilité est définie par une fonction de probabilité notée f(x)
– Donne la probabilité de chaque valeur que peut prendre la variable aléatoire
f(x)= proba(X=xi) on la note pi avec
0 pi 1
n
pi
i =1
Exemple 2:
Valeur de X 2 3 4 5 6 7 8 9 10 11 12
Proba(X=xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
Professeur : Mohamed Iguernane
[Link]@[Link]
86
• Cas continu
– La distribution de probabilité est définie par une fonction de densité de probabilité notée f(x)
– Ne fournit pas directement les probabilités
– C’est l’aire sous le graphique de f(x) correspondant à un intervalle particulier qui donne la
probabilité pour qu’une variable aléatoire continue X prenne une valeur dans cet intervalle
– On la note :
b
prob(a X b) = f ( x)dx 0
a
Professeur : Mohamed Iguernane
[Link]@[Link]
87
➢ Représentation graphique :
• Cas discret
Proba(X=x)
0,18 0,17
0,16
0,14 0,14
0,14
0,12 0,11 0,11
0,1 0,08 0,08
Proba(X=x)
0,08
0,06 0,06
0,06
0,04 0,03 0,03
0,02
0
0
1 2 3 4 5 6 7 8 9 10 11 12
Professeur : Mohamed Iguernane
[Link]@[Link]
88
• Cas continu b
prob(a X b) = f ( x)dx = F (b) − F (a )
f(x) a
a b
x
Professeur : Mohamed Iguernane
[Link]@[Link]
89
Professeur : Mohamed Iguernane
[Link]@[Link]
90
4-1-3 Fonction de répartition d’une variable aléatoire
➢ Définition
- La probabilité pour que X soit inférieure ou égale à une valeur x , notée F(x)=P(X≤x), est la
fonction de répartition de la variable aléatoire X.
- Elle est toujours définie sur l’intervalle [0;1]
• Cas d’une VA discrète
– Ecriture F ( x) = f ( x) = proba( X x)
X x
• Cas d’une VA continue :
– Ecriture :
x
F ( x) =
−
f (t ) dt
Professeur : Mohamed Iguernane
[Link]@[Link]
91
➢ Représentation graphique :
• Cas discret
Valeur de X 2 3 4 5 6 7 8 9 10 11 12
Proba(X=x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
P(X≤x) 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 34/36 1
1,00
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
1 2 3 4 5 6 7 8 9 10 11 12
Professeur : Mohamed Iguernane
[Link]@[Link]
92
• Cas continu
1,00
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
1 2 3 4 5 6 7 8 9 10 11 12
Professeur : Mohamed Iguernane
[Link]@[Link]
93
4-1-4 Les principaux indicateurs des variables aléatoires
• Les lois (ou distributions) de probabilité se caractérisent par 3 caractéristiques fondamentales :
– La tendance centrale (l’espérance mathématique)
– La dispersion (la variance et l’écart-type)
– La forme (l’asymétrie et l’aplatissement)
• L’espérance mathématique d’une VA X, appelée encore moyenne ou valeur moyenne de X , notée
μ n
– Cas discret = E ( X ) = xi pi
i =1
– Cas continu
+
= E ( X ) = x f ( x ) dx
−
– Exemple cas discret (dés) :
E(X)=2*1/36+3*2/36+4*3/36+5*4/36+6*5/36+7*6/36+8*5/36+9*4/36+10*3/36+11*2/36+
12*1/36=7
Professeur : Mohamed Iguernane
[Link]@[Link]
94
• La variance d’une VA X est
l’espérance mathématique du 2 = Var ( X ) = EX − 2
carré de la VA centrée (associée à
X) et s’écrit :
VA centrée
– Propriété : 2 = Var ( X ) = E ( X 2 ) − E ( X )2
L’écart type d’une VA X se définit
comme la racine carré de la
variance de cette VA :
= Var( X )
Professeur : Mohamed Iguernane
[Link]@[Link]
95
Cas discret : n
= Var( X ) = ( xi − ) pi
2 2
i =1
+
Cas continu :
= Var( X ) = ( x − ) f ( x) dx
2 2
−
Ecart-type dans les 2 cas :
= Var(X )
Professeur : Mohamed Iguernane
[Link]@[Link]
96
• Les caractéristiques de forme d’une distribution de probabilité
❖ La skewness étudie l’asymétrie de la distribution par rapport à la moyenne
– Le coefficient de skewness mesure le degré d’asymétrie de la distribution :
S=
E ( X − )
3
=
E( X − ) 3
E( X − ) 2
3
3
Professeur : Mohamed Iguernane
[Link]@[Link]
97
- Coefficient d’asymétrie nul (S=0): la distribution est symétrique (cas loi normale)
f(x)
Professeur : Mohamed Iguernane
[Link]@[Link]
98
– Coefficient d’asymétrie positif (S>0): la distribution est asymétrique à droite (queue de
distribution étalée vers la droite)
f(x)
Queue étalée vers la droite :
trop de données observées sur
la droite par rapport « à la
normale »
Professeur : Mohamed Iguernane
[Link]@[Link]
99
– Coefficient d’asymétrie négatif (S<0): la distribution est asymétrique à droite (queue de
distribution étalée vers la gauche)
f(x)
x
Queue étalée vers la gauche : trop de
données observées sur la gauche par
rapport « à la normale »
Professeur : Mohamed Iguernane
[Link]@[Link]
100
❖ Le coefficient de Kurtosis (K) ou coefficient d’aplatissement est une mesure de
l’aplatissement de la distribution de la série.
– La KURTOSIS évalue la dispersion des valeurs « extrêmes » (queues de distribution=FAT TAILS)
par référence à la loi normale
– Le coefficient s’écrit :
K=
E(X − ) 4
−3 =
E( X − )
4
−3
E(X − ) 2
4
4
– Si K>0 alors la distribution est élevée par rapport à la distribution normale (leptokurtique). On
dit également que la distribution est à queue épaisse.
– Si K<0 alors la distribution est aplatie par rapport à la distribution normale (platikurtique).
– Si K=0 alors la distribution est normale
Professeur : Mohamed Iguernane
[Link]@[Link]
101
-Courbes platikurtique, leptokurtique et normale
f(x)
Courbe leptokurtique
Courbe normale
Courbe platikurtique
Queue épaisse Queue épaisse
Professeur : Mohamed Iguernane
[Link]@[Link]
102
4-1-5 Couples de variables aléatoires
Considérons un couple de variables aléatoires défini de la manière suivante :
Z = aX+bY
• Propriétés de l’espérance mathématique
E ( aX ) = aE ( X )
E (c ) = c
E ( aX + bY ) = aE ( X ) + bE (Y )
• Notion de covariance et de corrélation
– Quand on travaille avec un couple de variables aléatoire, on doit automatiquement étudier la
relation entre les deux variables = la covariance/corrélation
– La covariance de X et Y s’écrit :
Cov ( X, Y ) = E( X − E( X )( Y − E( Y )
Cov ( X, Y ) = E( XY ) − E( X ) E( Y )
Professeur : Mohamed Iguernane
[Link]@[Link]
103
Propriétés de la covariance
Cov ( X , X ) = Var ( X )
Propriétés générales Cov ( X , Y ) = Cov ( Y , X )
Cov (aX, bY ) = a b Cov ( X , Y )
Si X et Y sont indépendantes
alors Cov ( X , Y ) = 0
Cas particulier si « c » est une
constante alors
Cov ( X , c) = 0
Si X et Y ne sont pas
indépendantes alors
Cov ( X, Y ) 0
Professeur : Mohamed Iguernane
[Link]@[Link]
104
• On appelle coefficient de corrélation linéaire entre X et Y le rapport suivant :
Cov ( X , Y )
r xy =
( X ) (Y )
– Il est donc nul quand X et Y sont indépendantes
– Il est donc nul quand on étudie X et une constante « c »
• Propriétés de la variance (et écart-type) d’une VA et d’un couple de VA
– Pour une constante on a Var(c) = 0
– Pour un couple de VA on a
Var ( X + Y ) = Var ( X ) + Var ( Y ) + 2 Cov ( X, Y )
Var(aX + bY ) = a 2 Var ( X ) + b 2 Var ( Y ) + 2ab Cov ( X, Y )
OU
Var(aX + bY ) = a 2 Var ( X ) + b 2 Var ( Y ) + 2ab r XY ( X ) ( Y )
– Si X et Y sont indépendantes le terme Cov(X,Y)=0
Professeur : Mohamed Iguernane
[Link]@[Link]
105
4-2 Les distributions ou loi de probabilité spécifiques
4-2-1 Des lois de probabilité discrètes
La loi de Bernouilli:
Une variable aléatoire discrète X qui peut prendre les valeurs 1 ou 0 avec probabilité p et 1-p
(respectivement) est dite variable de Bernouilli de probabilité p.
P(X=1)=p et P(X=0)=1-p
Espérance: E(X)=p
Variance: Var(X)=p(1-p)
Professeur : Mohamed Iguernane
[Link]@[Link]
106
La loi binomiale:
Si on répète n fois une expérience de Bernouilli et qu’on compte le nombre de succès, on définit une
variable aléatoire discrète. Cette variable obéit à une loi de probabilité dite loi binomiale de
paramètres n et p: b(n,p).
Exemple 3: On lance 5 fois une pièce de monnaie équilibrée et on désire connaitre la probabilité que
le nombre de pile soit 3.
Les possibilités d’obtenir cette valeur sont les suivantes:
PPPFF, PPFPF, PPFFP, PFPPF, PFPFP, PFFPP, FPPPF, FPPFP, FPFPP, FFPPP
alors que chacune a une probabilité 𝑝3 1 − 𝑝 2 de se réaliser, soit
p(X=3) = 10 𝑝3 1 − 𝑝 2
d'une manière générale, on a
𝑷 𝑿 = 𝒙 = 𝑪𝒏𝒙 𝒑𝒙 𝒒𝒏−𝒙 = n!/(x!(n-x)!) .𝒑𝒙 𝒒𝒏−𝒙 où q = 1-p
Espérance: E(X) = np
Variance: Var(X) = np(1-p)
Professeur : Mohamed Iguernane
[Link]@[Link]
107
La loi de Poisson:
Si le nombre moyen d'occurrences dans un intervalle de temps fixé est λ, alors la probabilité qu'il
existe exactement k occurrences (k étant un entier naturel, k = 0, 1, 2…) est
𝝀𝒌 −𝝀
𝑷 𝑿=𝒌 = 𝒆
𝒌!
λ est un nombre réel strictement positif.
On dit alors que X suit la loi de Poisson de paramètre λ.
Espérance: E(X) = λ
Variance: Var(X) = λ
Professeur : Mohamed Iguernane
[Link]@[Link]
108
4-2-2 Des lois de probabilité continues
La loi normale:
• Loi normale (loi normale gaussienne ou loi de Laplace-Gauss) : une loi fondamentale
– On dit qu’une VA X, prenant n’importe quelle valeur, suit une loi normale (standard) de
moyenne μ et d’écart-type σ si sa densité de probabilité :
1
1 x −
2
f (x) = exp −
2 2
– On la note : X~N(μ, σ) et elle est représentée par une « courbe en cloche » avec un axe de
symétrie verticale au point X = μ
Espérance: E(X) = µ
Variance: Var(X) = 𝝈𝟐
Professeur : Mohamed Iguernane
[Link]@[Link]
109
– Représentation graphique de la loi normale
0,9000
0,8000
0,7000
0,6000
0,5000
f(x) 0,4000
0,3000
0,2000
0,1000
0,0000
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10
-0,1000
x
N(1;2) N(1;1) N(1;0,5)
Professeur : Mohamed Iguernane
[Link]@[Link]
110
• Cas particulier la loi normale centrée réduite
On dit qu’une VA X suit une loi normale Centrée Réduite lorsque sa moyenne est nulle et son
écart-type est 1 et sa densité de probabilité est donnée par :
1 x 2
f ( x) = exp −
2 2
– On la note : X~N(0,1) et elle est représentée par une « courbe en cloche » avec un axe de
symétrie verticale au point X = 0
– Sa skewness et sa kurtosis sont nulles.
Professeur : Mohamed Iguernane
[Link]@[Link]
111
4-2-3 Des lois dérivées de la loi normale
• La loi du Khi-deux
– Soit X une VA suivant une loi normale centrée réduite.
– Alors le carrée de cette VA, Y=X2, suit une loi du khi deux avec 1 degré de liberté. On la note :
Y = X 2 ~ 2 (1)
E (Y ) = 1
Var(Y ) = 2
– Soit X1, X2…Xn une suite de n VA indépendantes suivant une loi normale centrée réduite. Alors
la somme du carré de ces VA, notée Z, suit une loi du khi deux avec n degré de liberté. On la
note : n
Z = Xi 2
i =1
Z ~ 2 ( n)
E (Z ) = n
Var( Z ) = 2n
Professeur : Mohamed Iguernane
[Link]@[Link]
112
• La loi de Student
– Soit X et Z deux VA indépendantes
– X suit une loi normale centrée réduite : X ~ N(0,1)
– Z suit une loi du khi-deux notée Z ~ χ(n)
– Alors on dit que le ratio :
X
T =
Z
n
suit une loi de Student à n degrés de liberté notée T ~ t(n).
Cette loi est tabulée
Professeur : Mohamed Iguernane
[Link]@[Link]
113
• La loi de Fisher-Snedecor
– Soit Z1, une VA qui suit une loi du khi-deux notée Z1 ~ χ(n1)
– Soit Z2, une VA qui suit une loi du khi-deux notée Z2 ~ χ(n2)
– Z1 et Z2 sont deux VA indépendantes
– Alors on dit que le rapport :
Z1
n1
F =
Z2
n2
suit une loi de Fisher-S. à n1 et n2 degrés de liberté notée F ~ F(n1,n2)
Cette loi est tabulée
Professeur : Mohamed Iguernane
[Link]@[Link]
114
Chapitre 5: Initiation à la théorie
d’échantillonnage, d’estimation et aux
tests d’hypothèses
5-1 Echantillonnage et Estimation
5-1-1 Position du problème
Si la population est trop nombreuse on ne peut étudier toutes les unités statistiques. On prend alors
un échantillon de la population. Le problème est de savoir le degré de confiance que l’on peut
accorder aux résultats obtenus sur cette population partielle.
5-1-2 Définitions
L’échantillonnage consiste connaissant les propriétés sur la population à déterminer les propriétés sur
les échantillons.
Le problème contraire c’est l’estimation.
Professeur : Mohamed Iguernane
[Link]@[Link]
115
5-1-3 Echantillonnage
a) Distribution d’échantillonnage des moyennes:
Soit une population de moyenne µ et d’écart type σ.
Soit 𝑋ഥ la variable aléatoire d’échantillonnage des moyennes.
𝑋ഥ est la variable aléatoire qui à chaque échantillon aléatoire prélevé avec remise et d’effectif n fixé,
associe la moyenne de cet échantillon. Alors:
𝝈
ഥ suit une loi Normale 𝑵 𝝁,
Pour n assez grand, 𝑿 .
𝒏
b) Distribution d’échantillonnage des proportions:
Soit une population dont une proportion p d’éléments vérifie une propriété donnée.
Soit F la variable aléatoire d’échantillonnage des proportions.
F est la variable aléatoire qui à chaque échantillon aléatoire prélevé avec remise et d’effectif n fixé,
associe la proportion dans cet échantillon. Aors:
𝒑 𝟏−𝒑
Pour n assez grand, F suit une loi Normale 𝑵(𝒑, )
𝒏
Professeur : Mohamed Iguernane
[Link]@[Link]
116
5-1-4 Estimation
Le but est d’estimer, à partir d’un échantillon, la ou les valeurs numériques d’un ou
de plusieurs paramètres de la population considérée et de déterminer la précision
de cette ou de ces estimations.
On distingue deux formes d’estimations : l’estimation ponctuelle et l’estimation par
intervalle de confiance.
L’estimation ponctuelle ou l’estimation de point d’un paramètre est la connaissance
de la seule valeur estimée de ce paramètre. Les paramètres les plus recherchés sont
la moyenne, la variance et la proportion.
L’estimation par intervalle de confiance consiste à déterminer autour de la valeur
estimée un intervalle dont on a de fortes chances de croire qu’il contient la vraie
valeur du paramètre recherché.
Professeur : Mohamed Iguernane
[Link]@[Link]
117
5-1-4-1 Estimation de la moyenne d’une population
➢ Estimation ponctuelle
La meilleure estimation de la moyenne µ d’une population, qui puisse être déduite d’un échantillon
ത
aléatoire et simple, est la moyenne de l’échantillon : 𝜇ො = 𝑋.
➢ Estimation par intervalle de confiance
▪ Cas d’une population normale
Si on s’intéresse à la moyenne inconnue µ d’une population normale d’écart type connu ,
l’estimation par intervalle de confiance consiste à déterminer de part et d’autre de l’estimateur 𝑋ത
les bornes 𝑋ത1 et 𝑋ത2 d’un intervalle qui a un niveau de confiance (1-α) de contenir µ.
Les limites 𝑋ത1 et 𝑋ത2 sont telles que : 𝑝(𝑋ത1 ≤ 𝜇 ≤ 𝑋ത2 )=1-α. Les limites de confiances sont donc :
𝝈 𝝈
ഥ 𝟏 =𝑿
𝑿 ഥ − (𝒁 𝜶 ) et ഥ 𝟐 =𝑿
𝑿 ഥ + (𝒁 𝜶 )
𝟏− 𝟐 𝟐 𝟏− 𝟐 𝟐
On notera l’intervalle de confiance :
𝝈
ഥ ± (𝒁 𝜶 )
𝑿 𝟏− 𝟐 𝟐
C’est un intervalle symétrique par rapport à la moyenne.
Professeur : Mohamed Iguernane
[Link]@[Link]
118
▪ Cas d’une population de distribution inconnue
Pour une population de distribution de probabilité inconnue (écart type inconnu), on utilise la
variance de l'échantillon comme estimation de la variance de la population à savoir 𝜎ො = 𝑆.
L’intervalle de confiance de la moyenne sera défini selon les cas:
1) Cas d’un échantillon d’effectif inférieur à 30 (n < 30) :
Dans ce cas, la moyenne d’un échantillon peut toujours être considérée comme une variable T de
Student à (n-1) degré de liberté. La valeur 𝑍1−𝛼 sera remplacée par la valeur 𝑇1−𝛼 à (n-1) degré de
2 2
liberté. L’intervalle de confiance est alors :
𝜎ො
ഥ ± (𝑻 𝜶 )
𝑿 𝟏−
𝟐 𝟐
2) Cas d’un échantillon d’effectif supérieur ou égal à 30 (n 30) :
Dans ce cas, la moyenne d’un échantillon peut toujours être considérée comme une variable
approximativement normale. L’intervalle de confiance est alors :
𝜎ො
ഥ ± (𝒁 𝜶 )
𝑿 𝟏−
𝟐 𝟐
Professeur : Mohamed Iguernane
[Link]@[Link]
119
5-1-4-2 Estimation de la variance d’une population
➢ Estimation ponctuelle
La meilleure estimation de la variance 𝜎 2 d’une population, qui puisse être déduite d’un échantillon
aléatoire et simple, est la variance de l’échantillon : 𝜎ො 2 = 𝑆 2 .
➢ Estimation par intervalle de confiance
Si on s’intéresse à la variance ² d’une population normale, l’estimation par intervalle de confiance
consiste à déterminer les bornes ²1 et ²2 d’un intervalle qui a un niveau de confiance (1-) de
contenir ².
Les limites ²1 et ²2 sont telles que : p(²1 ² ²2) = 1 - .
σ𝑛 ത 2
𝑖=1 𝑥𝑖 −𝑋 σ𝑛 ത 2
𝑖=1 𝑥𝑖 −𝑋
Les limites de confiances sont alors : 𝜎2 1 = et 𝜎2 2 = .
ℵ2 𝛼 ℵ2 𝛼
1− 2 2
2 (𝑛−1)𝜎ො 2 ෝ2
(𝑛−1)𝜎
Ou tout simplement : 𝜎 1 = et 𝜎2 2 =
ℵ2 𝛼 ℵ2 𝛼
1− 2
2
Les valeurs de ℵ21−𝛼 et ℵ2 𝛼 sont à (n-1) degré de liberté.
2 2
Professeur : Mohamed Iguernane
[Link]@[Link]
120
5-1-4-3 Estimation de la proportion d’une population
➢ Estimation ponctuelle
La meilleure estimation de la proportion p d’une population, qui puisse être déduite d’un échantillon
aléatoire et simple, est la fréquence de l’échantillon 𝑓𝑛 .
𝑝Ƹ = 𝑓𝑛
➢ Estimation par intervalle de confiance
Si on s’intéresse à la proportion p, l’estimation par intervalle de confiance consiste à déterminer de
part et d’autre de l’estimateur Fn les bornes p1 et p2 d’un intervalle qui a un niveau de confiance (1-)
de contenir p.
Les limites p1 et p2 sont telles que : p(p1 p p2) = 1 - .
𝑝(1−𝑝) 𝑝(1−𝑝)
Les limites de confiances sont donc : 𝑝1 = 𝑓𝑛 − 𝑍1−𝛼 et 𝑝2 = 𝑓𝑛 + 𝑍1−𝛼
2 𝑛 2 𝑛
𝒑(𝟏−𝒑)
On notera l’intervalle de confiance : 𝒇𝒏 ± 𝒁𝟏−𝜶
𝟐 𝒏
La proportion p de la population sera estimée par la fréquence fn de l’échantillon. On obtient ainsi un
intervalle symétrique par rapport à la proportion.
Professeur : Mohamed Iguernane
[Link]@[Link]
121
5-2 Tests d’hypothèses
5-2-1 Principe d’un test d’hypothèses
Le principe général d’un test d’hypothèse peut s’énoncer comme suit :
• On étudie une population dont les éléments possèdent un caractère (mesurable ou qualitatif) et
dont la valeur du paramètre relative au caractère étudié est inconnue.
• Une hypothèse est formulée sur la valeur du paramètre : cette formulation résulte de
considérations théoriques, pratiques ou encore elle est simplement basée sur un pressentiment.
• On veut porter un jugement sur la base des résultats d’un échantillon prélevé de cette population.
Professeur : Mohamed Iguernane
[Link]@[Link]
122
Pour décider si l’hypothèse formulée est supportée ou non par les observations, il faut une méthode
qui permettra de conclure si l’écart observé entre la valeur de la statistique obtenue dans
l’échantillon et celle du paramètre spécifiée dans l’hypothèse est trop important pour être
uniquement imputable au hasard de l’échantillonnage.
La construction d’un test d’hypothèse consiste en fait à déterminer entre quelles valeurs peut varier
la variable aléatoire, en supposant l’hypothèse vraie, sur la seule considération du hasard de
l’échantillonnage.
Les distributions d’échantillonnage d’une moyenne et d’une proportion que nous avons traitées dans
le paragraphe précédent vont être particulièrement utiles dans l’élaboration des tests statistiques.
Professeur : Mohamed Iguernane
[Link]@[Link]
123
5-2-2 Définition des concepts utiles à l’ élaboration des tests d’hypothèse
➢ Hypothèse statistique
Une hypothèse statistique est un énoncé (une affirmation) concernant les caractéristiques (valeurs
des paramètres, forme de la distribution des observations) d’une population.
➢ Test d’hypothèse
Un test d’hypothèse (ou test statistique) est une démarche qui a pour but de fournir une règle de
décision permettant, sur la base de résultats d’échantillon, de faire un choix entre deux hypothèses
statistiques.
➢ Hypothèse nulle (H0) et hypothèse alternative (H1)
L’hypothèse selon laquelle on fixe à priori un paramètre de la population à une valeur particulière
s’appelle l’hypothèse nulle et est notée H0. N’importe quelle autre hypothèse qui diffère de
l’hypothèse H0 s’appelle l’hypothèse alternative (ou contre-hypothèse) et est notée H1.
C’est l’hypothèse nulle qui est soumise au test et toute la démarche du test s’effectue en considérant
cette hypothèse comme vraie.
Professeur : Mohamed Iguernane
[Link]@[Link]
124
➢ Seuil de signification du test
Le risque, consenti à l’avance et que nous notons α de rejeter à tort l’hypothèse nulle H0 alors qu’elle
est vraie, s’appelle le seuil de signification du test et s’énonce en probabilité ainsi :
α = P( rejeter H0|H0 vraie).
A ce seuil de signification, on fait correspondre sur la distribution d’échantillonnage de la statistique
une région de rejet de l’hypothèse nulle (appelée également région critique). L’aire de cette région
correspond à la probabilité α. Si par exemple , on choisit α = 0.05, cela signifie que l’on admet
d’avance que la variable d’échantillonnage peut prendre, dans 5% des cas, une valeur se situant dans
la zone de rejet de H0, bien que H0 soit vraie et ceci uniquement d’après le hasard de
l’échantillonnage.
Sur la distribution d’échantillonnage correspondra aussi une région complémentaire, dite région
d’acceptation de H0 (ou région de non-rejet) de probabilité 1−α.
Professeur : Mohamed Iguernane
[Link]@[Link]
125
Exemple de formulation d’un test :
Supposons que nous affirmions que la valeur d’un paramètre θ d’une population est égale à la valeur
θ0. On s’intéresse au changement possible du paramètre θ dans l’une ou l’autre direction (soit θ > θ0
soit θ < θ0). On effectue un test bilatéral.
Les hypothèses H0 et H1 sont alors :
𝐻 : 𝜃 = 𝜃0
ቊ 0 .
𝐻1 : 𝜃 ≠ 𝜃0
Si on s’intéresse au changement du paramètre dans une seule direction, on opte pour un test
unilatéral. Les hypothèses H0 et H1 sont alors :
𝐻 : 𝜃 = 𝜃0 𝐻 : 𝜃 = 𝜃0
ቊ 0 ou ቊ 0 .
𝐻1 : 𝜃 > 𝜃0 𝐻1 : 𝜃 < 𝜃0
La région critique est alors localisée uniquement à droite ou uniquement à gauche de la région
d’acceptation.
Professeur : Mohamed Iguernane
[Link]@[Link]
126
5-2-3 Tests sur une moyenne
Nous voulons déterminer si l’échantillon de taille n dont nous disposons appartient à une population
de moyenne 𝜇0 au seuil de signification α. Nous allons dans tous les tests travailler de la même façon,
en procédant en quatre étapes.
1ère étape : formulation des hypothèses
L’échantillon dont nous disposons provient d’une population de moyenne µ.
Nous voulons savoir si µ = µ0. On va donc tester l’hypothèse H0 contre l’hypothèse H1:
𝐻0 : µ = µ0
ቊ
𝐻1 : µ ≠ µ0
2ème étape : Détermination de la fonction discriminante du test et de sa distribution de probabilité.
• On détermine la statistique qui convient pour ce test. Ici, l’estimateur de la moyenne µ, c’est-à-
ത semble tout indiquée.
dire 𝑋,
• On détermine la loi de probabilité de 𝑋ത en se plaçant sous l’hypothèse 𝐻0 . Deux cas peuvent se
produire :
Professeur : Mohamed Iguernane
[Link]@[Link]
127
Premier cas : L’échantillon est de grande taille (n ≥ 30) ou bien la population est normale de variance
σ2 connue.
𝑋ത suit alors une loi normale de moyenne µ0 (puisqu’on se place sous 𝐻0 ) et d’écart-type 𝜎ൗ : 𝑛
ഥ ∼ > N(𝒄, 𝝈ൗ
𝑿 ).
𝒏
ത 0
𝑋−µ
On pose 𝑇 = 𝜎 . Z mesure un écart réduit. Z est aussi appelée fonction discriminante du test.
ൗ 𝑛
T ∼ > N(0,1).
Deuxième cas : L’échantillon est de petite taille (n < 30) prélevé au hasard d’une population normale
de variance σ2 inconnue.
ത 0
𝑋−µ
Dans ce cas la fonction discriminante du test sera : T= 𝑆 . Ici
ൗ 𝑛
T ∼ > t(n-1)
(loi de Student à (n-1) degrés de liberté).
Professeur : Mohamed Iguernane
[Link]@[Link]
128
3ème étape : Détermination des valeurs critiques de T délimitant les zones d’acceptation et de rejet.
On impose toujours à la zone d’acceptation de 𝐻0 concernant l’écart réduit d’être centrée autour de
0. Il nous faut donc déterminer dans la table la valeur maximale 𝑡𝛼 de l’écart réduit imputable aux
2
variations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant :
𝑷(−𝒕𝜶 ≤ 𝑻 ≤ 𝒕𝜶 )=1-α.
𝟐 𝟐
4ème étape : Calcul de la valeur de T prise dans l’échantillon et conclusion du test.
On calcule la valeur t0 prise par T dans l’échantillon.
▪ → Si la valeur t0 se trouve dans la zone de rejet, on dira que l’écart-réduit observé est
statistiquement significatif au seuil α. Cet écart est anormalement élevé et ne permet pas
d’accepter 𝐻0 . On rejette 𝐻0 .
▪ → Si la valeur t0 se trouve dans la zone d’acceptation, on dira que l’écart-réduit observé n’est pas
significatif au seuil α. Cet écart est imputable aux fluctuations d’échantillonnage. On accepte 𝐻0 .
Professeur : Mohamed Iguernane
[Link]@[Link]
129
5-2-4 Tests sur une proportion
Nous nous proposons de tester si la proportion p d’éléments dans la population présentant un certain
caractère qualitatif peut être ou non considérée comme égale à une valeur hypothétique p0. Nous
disposons pour ce faire de la proportion d’éléments possédant ce caractère dans un échantillon de
taille n. Nous allons procéder comme au paragraphe précédent, en quatre étapes.
1ère étape : formulation des hypothèses
L’échantillon dont nous disposons provient d’une population dont la proportion d’éléments
présentant le caractère qualitatif est p. Nous voulons savoir si p = p0.
On va donc tester l’hypothèse H0 contre l’hypothèse H1:
𝐻0 : 𝑝 = 𝑝0
ቊ
𝐻1 : 𝑝 ≠ 𝑝0
2ème étape : Détermination de la fonction discriminante du test et de sa distribution de probabilité.
• On détermine la statistique qui convient pour ce test. Ici, l’estimateur de la proportion p, c’est-à-
dire 𝑓𝑛 , semble tout indiquée.
• On détermine la loi de probabilité de𝑓𝑛 en se plaçant sous l’hypothèse 𝐻0 .
Professeur : Mohamed Iguernane
[Link]@[Link]
130
On suppose que l’on dispose d’un grand échantillon (n ≥ 30) et que « p n’est pas trop petit » (de
manière que l’on ait np≥ 15 et n(1- p)≥15 ).
𝑝0 (1−𝑝0 )
𝑓𝑛 suit alors une loi normale de moyenne p0 (puisqu’on se place sous H0) et d’écart-type :
𝑛
𝒑𝟎 (𝟏−𝒑𝟎 )
𝒇𝒏 ∼ >N(𝒑𝟎 , ).
𝒏
𝑓𝑛 −𝑝0
On pose 𝑇 = . T mesure un écart réduit.
𝑝0 (1−𝑝0 )
𝑛
T est aussi appelée fonction discriminante du test.
T ∼ > N(0,1).
Professeur : Mohamed Iguernane
[Link]@[Link]
131
3ème étape : Détermination des valeurs critiques de T délimitant les zones d’acceptation et de rejet.
On impose toujours à la zone d’acceptation de 𝐻0 concernant l’écart réduit d’être centrée autour de
0. Il nous faut donc déterminer dans la table la valeur maximale 𝑡𝛼 de l’écart réduit imputable aux
2
variations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant :
𝑷(−𝒕𝜶 ≤ 𝑻 ≤ 𝒕𝜶 )=1-α.
𝟐 𝟐
4ème étape : Calcul de la valeur de T prise dans l’échantillon et conclusion du test.
On calcule la valeur t0 prise par T dans l’échantillon.
▪ → Si la valeur t0 se trouve dans la zone de rejet, on dira que l’écart-réduit observé est
statistiquement significatif au seuil α. Cet écart est anormalement élevé et ne permet pas
d’accepter 𝐻0 . On rejette 𝐻0 .
▪ → Si la valeur t0 se trouve dans la zone d’acceptation, on dira que l’écart-réduit observé n’est pas
significatif au seuil α. Cet écart est imputable aux fluctuations d’échantillonnage. On accepte 𝐻0 .
Professeur : Mohamed Iguernane
[Link]@[Link]
132
5-3 Risques de première et de deuxième espèce
Tous les règles de décision que nous avons déterminées acceptaient un risque α qui était le risque de
rejeter à tort l’hypothèse 𝐻0 , c’est-à-dire le risque de rejeter l’hypothèse 𝐻0 , alors que 𝐻0 est vraie.
Ce risque s’appelle aussi le risque de première espèce.
La règle de décision du test comporte également un deuxième risque, à savoir de celui de ne pas
rejeter l’hypothèse nulle 𝐻0 alors que c’est l’hypothèse 𝐻1 qui est vraie. C’est le risque de deuxième
espèce.
Les deux risques peuvent se définir ainsi :
𝜶 = 𝑷(rejeter 𝑯𝟎 |𝑯𝟎 vraie ) = probabilité de commettre une erreur de première espèce
𝜷 = 𝑷(ne pas rejeter𝑯𝟎 |𝑯𝟏 vraie ) = probabilité de commettre une erreur de deuxième espèce
Le risque de première espèce α est choisi à priori. Toutefois le risque de deuxième espèce β dépend
de l’hypothèse alternative 𝐻1 et on ne peut le calculer que si on spécifie des valeurs particulières du
paramètre dans l’hypothèse 𝐻1 que l’on suppose vraie.
Professeur : Mohamed Iguernane
[Link]@[Link]
133
Les risques liés aux tests d’hypothèses peuvent se résumer ainsi :
SITUATION VRAIE
𝑯𝟎 EST VRAIE 𝑯𝟏 EST VRAIE
La décision probabilité de prendre La décision probabilité de prendre cette
est cette décision avant est décision avant expérience
expérience
Accepter Bonne 1−α Fausse β (risque de deuxième
Conclusion 𝑯𝟎 espèce)
du test Rejeter Fausse α (risque de première Bonne 1-β
𝑯𝟎 espèce)
Remarque : La probabilité complémentaire du risque de deuxième espèce (1-β) définit la puissance
du test à l’égard de la valeur du paramètre dans l’hypothèse alternative 𝐻1 . La puissance du test
représente la probabilité de rejeter l’hypothèse nulle 𝐻0 lorsque l’hypothèse vraie est 𝐻1 . Plus β est
petit, plus le test est puissant.
Fin du Cours
Professeur : Mohamed Iguernane
[Link]@[Link]
134