Introduction à la Statistique Descriptive
Introduction à la Statistique Descriptive
STATISTIQUE DESCRIPTIVE
PROF: NADIR EL BOUBKARI
1
Introduction
-La statistique (est une science) désigne l’ensemble des méthodes scientifiques
qui permettent d’analyser quantitativement un ensemble d’informations
cohérente.
Ne pas confondre « La statistique » et « Les statistiques »
◦ La statistique : Cf. définition
◦ Les statistiques : données chiffrées ou les résultats numériques de la statistique.
2
Programme du semestre
Chapitre I: Séries statistiques simples
Chapitre II: Les séries statistiques doubles
Chapitre III: Séries temporelles des indices
3
Chapitre I: Séries statistiques simples
4
Définition 3: Un caractère est un critère relatif auquel on observe les individus d’une population.
- Ainsi, on appelle caractère (ou variable statistique)
A chaque individu, on attribut un ou plusieurs caractères qui peuvent être soit quantitatifs (s’ils sont mesurables;
exemple: salaire, nombre d’enfants par ménage,…) ou qualitatifs (exemple: sexe, état matrimoniale, ...).
- Une valeur que peut prendre un caractère s’appelle modalité.
5
-Un caractère qualitatif peut être soit:
- Ordinal: Si ses modalités peuvent être naturellement ordonnées, exemple:
satisfaction plus ou moins grande après l’achat d’un produit.
- Nominal: Si ses modalités ne peuvent naturellement ordonnées, exemple: état
matrimoniale.
On appelle variable statistique, un caractère quantitatif.
- On distingue deux sortes de variables statistiques:
6
- Les variables statistiques discrètes (notées: V.S.D):
Se sont des variables dont l’ensemble des modalités est un ensemble discret (la variable ne peut prendre que des
valeurs isolées d’un intervalle).
-Exemple: Pour le nombre d’enfants par ménage l’ensemble des modalités peut être {0,1,2,3,4}.
- Les variables statistiques continues (notées: V.S.C):
Dans ce cas, l’ensemble des modalités est continue; la variable peut prendre toutes les valeurs d’un intervalle.
- Exemple: Salaire, âge, taille, poids,…etc.
7
Définition 4: série statistique, la suite des valeurs prises par une variable X sur les unités d’observations.
- Le nombre d’unités d’observation est noté n.
- Les valeurs de la variable X sont notées:
x1, x2, ….....,xn.
Définition 5: L’effectif ni d’une modalité xi est le nombre d’individus ayant cette modalité. L’effectif total (ou taille) d’une population,
noté n, est le nombre d’individus qui composent cette population.
𝑃
On a don: 𝑁 = 𝑖=1 𝑛𝑖
8
Exemple: enquête réalisée auprès de 20 femmes casablancaises nées en 1970 sur le nombre
d’enfants qu’elles ont eus
Nombre d’enfants/femmes
Nombre d’enfants Effectif de femmes
0 1
1 3
2 5
3 5
4 4
5 2
Total 20
9
- On peut choisir de regrouper les différentes valeurs (modalités) de la variable « enfant » en
classes.
Nombre d’enfants/ femmes
10
Lorsque les données sont regroupées en classe, il faut définir les extrémités de classe
Il faut préciser la « borne inférieur » et la « borne supérieur » des classes
Il faut préciser sans ambiguïté si les des extrémités sont inclus ou non dans les classes
Exemple 1: nombre d’enfants par femme
Classe 2 − 4
- « 𝟐 - » signifie que la valeur « 2 » est inclue dans la classe
- « -𝟒 » signifie que la valeur « 4 » est exclue de la classe
Tous les éléments de la population étudiée (femmes) doivent se retrouver dans une et une seule classe.
11
Exemple 2: Salaires mensuels des employés d’une entreprise « X » en DH au 31/12/2006
3 classes de salaires:
De 6000 à moins de 7000 dh: 6000 − 7000
- Cette classe comprendra un employé dont le salaire = 6999 tandis que qu’un salarié
dont le revenu = 7000 s’en trouvera exclu
12
Effectuer aisément des calculs sur les extrémités de classes comme pour le calcul de l’amplitude des
classes et du centre des classes.
13
-Dans le cas où les modalités peuvent être ordonnées, on peut présenter la série statistique dans
l’ordre naturel en notant:
x(1),x(2),x(3),…......,x(n).
-Une telle série est dite série ordonnée. Par exemple, la série ordonnée de la série suivante:
0 1 1 0 3 4 0 4 2 4 3 2 2 0
Est:
0 0 0 01 1 2 2 2 3 3 4 4 4
- Une série statistique relative à une seule variable est dite série statistique simple.
14
Exemple: On observe, au cours d’une semaine, 20 machines selon le nombre de pièces
défectueuses produites:
8-16-9-33-14-5-3-7-10-7-9-9-3-8-3-3-5-14-8-7
L’effectif total de la population est donc:
N=20
15
-En classant ces nombres par ordre croissant, on obtient la série ordonnée:
16
•La modalité 3 a pour effectif n1= 4
•La modalité 5 a pour effectif n2= 2
•La modalité 7 a pour effectif n3= 3
•La modalité 8 a pour effectif n4= 3
•La modalité 9 a pour effectif n5= 3
•La modalité 10 a pour effectif n6= 1
•La modalité 14 a pour effectif n7= 2
•La modalité 16 a pour effectif n8= 1
•La modalité 33 a pour effectif n9= 1
Remarque: 4+2+3+3+3+1+2+1+1=20
17
Définition 6: On appelle fréquence de la modalité xi, la proportion des individus présentant cette modalité. On
écrit:
; i= 1,…..,K
- Remarque:
18
-Définition 7: On appelle distribution d’un caractère X, l’ensemble de couples :
{(x1, n1),(x2, n2), …., (xk, nk)}
-Remarque:
-En terme de fréquence, la distribution de X, s’écrit aussi:
{(x1, f1),(x2, f2), …., (xk, fk)}
Exemple: La distribution des défectuosités des 20 machines est:
{(03;4),(5;2),(7;3),(8;3),(9;3),(10;1),(14;2),(16;1),(33;1)}
Ou
{(3;0,20),(5;0,10),(7;015),(8;0,15)…}
- Pour une meilleure exploitation de la distribution, on a intérêt à la représenter par un tableau
statistique.
19
Exemple: F1= n1/n = 4/20= 0,20 et f6= n6/n= 0,05
-Commentaire:
La proportion des machines ayant produit 3 pièces défectueuses est de 20%; et celle des
machines ayant produit 10 pièces défectueuses est de 5%.
20
II)- Tableaux statistiques
Exemple introductif: supposons que l’on ait fait une enquête auprès de 20 femmes selon 9 caractères:
prénom, nom, jour de naissance, mois de naissance, années de naissance, nombre d’enfants, revenu
annuel du ménage, ville natale, opinion sur la qualité d’un produit alimentaire pour bébé.
Les données ont été reportées sur un bordereau, sous forme d’une matrice de 20 éléments qui
comprennent chacun les 9 données concernant une femme.
21
Cette matrice (série selon plusieurs variables) peut être représentée comme suit:
Prénom Nom Jour Mois Année Nombre d’enfant Revenu Ville opinion
22
Dans cette section, on ne considérera qu’un seul caractère à la fois:
Représentation de la distribution d’un caractère X par un tableau
1)- Cas d’un caractère qualitatif
Soit la distribution d’un caractère qualitatif X étudié sur une population de n individus:
{(x1,n1),(x2,n2),…....., (xk,nk)}
23
Sa représentation par tableau est alors comme suit:
Modalité Effectif Fréquence
xi ni fi
x1 n1 f1
x2 n2 f2
. . .
. . .
. . .
xi ni fi
. . .
. å .n i
å .f i
=1
xk nk fk
Total 𝑘 𝑘
n= 𝑖=1 𝑛𝑖 𝑓𝑖 = 1
𝑖
24
Exemple: on reprend les 20 femmes selon l’opinion « caractère ordinal »:
Ma, Tb, Ma, Ma, Mo, Mo, Bo, Mo, Pa, Mo, Pa, Bo, Bo, Mo, Bo, Pa, Ma, Mo, Tb,
Pa.
-Une fois classées:
Ma, Ma, Ma, Ma, Pa, Pa, Pa, Pa, Mo, Mo, Mo, Mo, Mo, Mo, Bo, Bo, Bo, Bo, Tb,
Tb,
-On a donc 5 modalités (K=5)
-La distribution s’écrit:
-{(Ma;4),(Pa;4),(Mo;6),(Bo;4),(Tb;2)}
25
-La tableau statistique est comme suit:
xi ni fi
Ma 4 0,2
Pa 4 0,2
Mo 6 0,3
Bo 4 0,2
Tb 2 0,1
Total n=20 1
26
2)- Cas du caractère quantitatif:
a)- Variable statistique Discrète (v.s.d)
Soit X le caractère qui désigne le nombre d’enfants par ménage pour les 20 femmes:
4 0 1 1 2 2 2 3 3 4
2 3 3 5 2 1 3 3 4 5
3 3 3 3 3 4 4 4 5 5
27
-Le tableau alors est commet suit:
xi ni fi%
0 1 05
1 3 15
2 5 25
3 6 30
4 3 15
5 2 10
Total 20 100
28
Question: Combien de femmes ont au moins ou au plus 3 enfants?
i) Effectifs et fréquences cumulés:
Effectifs et fréquences cumulés croissants:
Soit Ni le ième effectif cumulé croissant associé à xi.
å
i
Ni= n1+n2+…+ni= j =1
nj
29
-Le tableau complet est comme suit:
xi ni Ni Ni Fi Fi
x1 n1 n1 N f1 1
x2 n2 n1+n2 n2+n3+…+nk f1+f2 f2+f3+…+fk
. . . . . .
. . . . . .
. . . . . .
xi ni n1+n2+…+ni ni+ni+1+...+nk f1+f2+…+fi fi+fi+1+...+fk
. . . . . .
. . . . . .
xk nk N nk 1 fk
Total n - - - -
30
N4= n1+n2+n3+n4= å
4
j =1
nj = 15
0 1 5 1 20 5 100
1 3 15 4 19 20 95
2 5 25 9 16 45 80
3 6 30 15 11 75 55
4 3 15 18 5 90 25
5 2 10 20 2 100 10
F4= f1+f2+f3+f4=å
4
j =1
fj = 75%
31
Effectif et fréquences cumulés décroissants:
En sommant cette fois à partir du ième effectif jusqu’au dernier, on obtient le ième
effectif cumulé décroissant, par exemple:
N3= n3+n4+n5+n6= å
6
j =3
nj = 16
32
-On dit que 16 femmes ont au moins x3=2 enfants.
F3= f3+f4+f5+f6
=å
6
f j = 80%
j =3
33
-Pour notre exemple, on a:
xi ni fi% Ni Ni Fi % Fi%
0 1 5 1 20 5 100
1 3 15 4 19 20 95
2 5 25 9 16 45 80
3 6 30 15 11 75 55
4 3 15 18 5 90 25
5 2 10 20 2 100 10
34
b)- Variable statistique continue (v.s.c)
-Dans le cas d’une v.s.c., les modalités sont regroupées en classes. Soit k le nombre de ces classes:
[e0,e1[; [e1,e2[;….; [e i-1,ei[;…; [ek-1, ek[
e i-1 + ei
xi = Le centre de cette classe.
2
35
N° classe Les classes ni fi
1 [e0,e1[ n1 f1
2 [e1,e2[ n2 f2
. . . .
. . . .
. . . .
I [e i-1,ei[ ni fi
. . . .
. . . .
. . . .
k [ek-1, ek[ nk fk
Total - n 1
36
-Exemple: on relève le revenu des 20 femmes (€)
Revenu X Effectif ni
9000 1 Il est plus commode de regrouper les revenus en classe, par exemple,
10000 2 on choisi 4 classes de même amplitude.
15000 1
18000 1
30000 1 Classes Revenus (m€) Effectif
40000 3
[0,35[ 6
45000 1
50000 1
[35,70[ 9
55000 1
60000 3
80000 2
[70,105[ 4
85000 1
90000 1 [105,140[ ?
120000 1
Total 20 Total 20
37
Complétons notre tableau:
[35,70[ 9 45 75 70
[70,105[ 4 20 95 25
[105,140[ 1 5 100 5
-Interprétation:
Il y a F2=…% des femmes touchent au plus e2=70 m€.
38
-Interprétation:
Il y a F2=75% des femmes touchent au plus
e2=70 m€.
il y a F3= 25% des femmes touchent au moins e2=70 m€.
39
III)- Représentations graphiques
-Le graphique est une traduction visuelle de la formation qu’elle soit qualitative ou quantitative.
1)- Cas du caractère qualitatif:
A)- Graphique en tuyaux d’orgue:
Est formé de rectangles de même base constante et dont les hauteurs sont proportionnelles aux
effectifs (ou fréquences) des modalités associées.
-Un axe horizontal (l’abscisse), sur lequel figurent les valeurs distinctes de la variable X.
-Un axe vertical (l’ordonnée), sur lequel figurent les effectifs (ou fréquences).
40
Exemple: On reprend les 20 femmes
Répartition des 20 femmes selon l’opinion
fi
0,4
0,3
0,2
0,1
0 X
Ma Pa Mo Bo Tb
41
B)- Le diagramme circulaire
C’est une représentation en disque. Chaque secteur est proportionnel à l’effectif (ou fréquence) de la
modalité associée. En terme d’angle, à xi on associe l’angle au centre ai, du secteur i, vérifiant:
Or ai= c fi ; i=1,…,K
k k
åa i
= cå f i Þ 360° = c ´1 Þ c = 360°
i =1 i =1
L’égalité devient:
ai= 360 × fi ; 1,…,K
xi fi% ai
Ma 20 72
Pa 20 72
Mo 30 108
Bo 20 72
Tb 10 36
Total 100 360
Répartition des femmes selon l’opinion
L'opinion en %
36%
72%
Tb 10%
Ma 20%
72%
Ma
Bo 20% Pa
Mo
Pa 20%
Bo
Mo 30% Tb
72%
108%
2)- Cas du caractère quantitatif:
A)- Les V.S.D. on utilise deux types de graphiques selon que l’on considère les effectifs (ou
fréquences) simple ou les effectifs (ou fréquences) cumulés:
i)- Diagramme en bâtons
Il permet de donner une vision d’ensemble des observations réalisées. Il comporte:
-Un axe horizontal (l’abscisse), sur lequel figurent les valeurs distinctes de la variable X.
-Un axe vertical (l’ordonnée), sur lequel figurent les effectifs.
-En face de chaque valeur figure un trait vertical (un bâton), dont la hauteur est proportionnelle à
l’effectif correspondant.
-Exemple: On reprend l’exemple des 20 femmes (nombre d’enfants).
45
Répartition des ménages selon le nombre d’enfants
ni
7
0 xi
0 1 2 3 4 5
ii)- Diagramme cumulatif: Fonction de répartition
C’est un diagramme sert à représenter les fréquences cumulées, ou encore les effectifs cumulés.
Cette représentation se fait au moyen d’une fonction dite fonction de répartition, qui est définie de
R dans l’intervalle 0,1
Par:
-Pour notre exemple, on a:
xi ni fi% Fi %
0 1 5 5
1 3 15 20
2 5 25 45
3 6 30 75
4 3 15 90
5 2 10 100
Total 20 100 Au plus
Exemple: on reprend les 20 femmes
120
100
80
60
40
20
0
0 1 2 3 4 5 6
B)- Les V.S.C: On a souvent recourt à deux types de graphiques:
i)- Histogramme
A chaque classe, on associe un rectangle dont la base est égale à l’amplitude de la classe dont la hauteur est
de telle sorte que sa surface soit proportionnelle à la fréquence de la classe.
La procédure à suivre:
-Toutes les classes ont même amplitude
-Au moins une classe a une amplitude différente des autres: dans ce cas on choisi une amplitude de
référence ar (par exemple la plus petite ou la plus répandu) par suite, on corrige la fréquence des classes
différentes en la divisant par l’amplitude associée et en multipliant:
-Par ar: fi
hi = f i = '
´ ar
ai
- f i 's’appelle densité de fréquence (sans pourcentage).
50
Exemple: On reprend les 20 femmes
Toutes les classes ont même amplitude donc pas besoin de corriger les fréquences.
[35,70[ 35 0,45
[70,105[ 35 0,20
[105,140[ 35 0,05
Total ar=35 1
Répartition des femmes selon le revenu en 1000€
x
Ii- Courbe cumulative:
On construit la courbe de la fréquence cumulée en joignant les points 𝑒𝑖 , 𝐹𝑖 , où 𝑒𝑖 est la borne
supérieure de la ième classe 𝑒𝑖−1 , 𝑒𝑖 , 𝐹𝑖 est la fréquence cumulée de cette même classe. On
note:
(
Fi = P X £ ei )
53
Exemple: On reprend les 20 femmes:
[35,70[ 45 75
[70,105[ 20 95
[105,140[ 5 100
1 k k
X = å ni xi = å f i xi
n i=1 i=1
Où, N est la taille de la population, et les xi sont les modalités dans le cas d’une V.S.D et les centres des
classes dans le cas d’une V.S.C.
Exemple 1: On reprend l’exemple des 20 femmes selon le nb d’enfants.
xi ni n i xi fi fixi
0 1 0 0,05 0
1 3 03 0,15 0,15
2 5 10 0,25 0,50
3 6 18 0,30 0,90
4 3 12 0,15 0,60
5 2 10 0,10 0,50
Total 20 53 1 2,65
- 6
= å ni xi =
1 53
X = 2,65
n i=1 20
Ou
6
x = å f i xi = 2,65
i =1
II- Le mode
1- Définition: Le mode, noté Mo, d’une série statistique est la valeur de cette
série, dont l’effectif (ou la fréquence) est plus grand que les effectifs (ou les
fréquences) des valeurs voisines.
xi ni fi
Mo=3 enfants 0 1 0,05
1 3 0,15
2 5 0,25
3 6 0,30
4 3 0,15
5 2 0,10
Total 20 1
b)- Cas d’une v.s.c.
-Le mode se trouve dans la classe modale, c’est la classe qui correspond à la plus grande
fréquence corrigée.
-On peut démontrer que l’expression algébrique du mode est comme suit:
hi - hi -1
M o = ei -1 + ai
2hi - (hi-1 + hi+1 )
Où 𝑒𝑖−1 , 𝑒𝑖 : est la classe modale
hi=fi’: est la fréquence corrigée de la classe modale (c’est la plus élevée des fréquences)
ai: est l’amplitude de la classe modale
Exemple: On reprend les 20 femmes
h2 - h1
M o = e1 + a2
2h2 - (h1 + h3 )
0, 45 - 0,3
= 35 + 35 ´
0,90 - (0,3 + 0,13)
= 46,17m Î
Classes fi fi’
Classe é0,35é
ë ë 0,30 0,30
modale é35,70é
ë ë 0,45 0,45
é70;140é
ë ë 0,25 0,13
Total 1
III- La médiane
1- Définition: La médiane, notée M, d’une série statistique, est la valeur de la série qui
partage la population en deux parties d’effectifs égaux. Par conséquent, on aura autant
d’observations inférieurs à M que d’observations supérieures à M.
.
2- Détermination de la médiane:
a- Cas d’une série brute:
Soit la série ordonnée (par ordre croissant) de n observations: x1,x2,…,xn.
-Si n est impaire, alors la valeur médiane est l’observation qui occupe le rang n +1 .
2
-Si n est paire, on ne peut plus déterminer exactement la médiane, mais on a un intervalle
médian.
é ù
ê xn , xæ ö ú
ê ç ÷+1 ú
ë 2 è2ø û
n
64
b- Cas d’une distribution
i)- Cas d’une v.s.d:
-Procédure à suivre:
Si i Fi ≠ 0,5; autrement dit, si aucune fréquences cumulée Fi n’est égale à 0,5 , dans ce cas la
médiane est la modalité xi qui correspond à plus petite fréquence cumulée dépassant strictement
0,5.
S’il existe une modalité xi pour laquelle Fi=0,5 dans ce cas on parle d’un intervalle médian: éx , x é
ë i i+1ë
65
Exemple 1: On reprend l’exemple des 20 femmes selon le nb d’enfants.
F3=0,45<0,50<F4 xi fi% Fi %
D’où 0 5 5
1 15 20
2 25 45
M= 3 enfants
3 30 75
4 15 90
5 10 100
Total 100 Au plus
ii)- Cas d’une v.s.c.
Dans le cas continue, la médiane est toujours unique, c’est la valeur qui partage exactement la population
en deux parties égales. En d’autres termes, M est la solution de l’équation.
F(M) = 0,5
Classes fi% Fi %
é0;35é 30 30
ë ë
50 - 30
M = 35+ 35´
é35;70é
ë ë
45 75 45
= 50,56mÎ
é70;140é 25 100
ë ë
Total 1 Au plus
Répartition des femmes selon le revenu en 1000 €
F(x)%
120
100
80
60
40
Médiane graphiquement
20 51
0
0 35 70 105 140
x
Conclusion générale:
-Population hétérogène: la moyenne arithmétique est préférable à la médiane et au mode.
-Présence des valeurs aberrantes (ou extrêmes): la médiane est préférable.
-Résultats d’un concours: la note médiane est la plus significative.
Section 3- Les caractéristiques de dispersion
Les paramètres de dispersion servent à mesurer la dispersion des
observations autour d’une tendance centrale.
e= xmax− xmin
Exemple: e= x6 − x1 = 5 − 0 = 5 enfants
-Cas d’une v.s.c.
e = ek − e0
ième quartile
; ie {1, 2, 3}
i
4
ième quintile
;ie {1, 2,..., 4}
i
5
ième décile
;ie {1, 2,...,9}
i
10
;ie {1, 2,..., 99}
i ième centile
100
1
q1 = x1 ,Þ P( X ≺ q1 ) = = 20%
5
5
2
q2 = x2 ,Þ P( X ≺ q2 ) = = 40%
5
5
3
q3 = x3 ,Þ P( X ≺ q3 ) = = 60%
5
5
4
q4 = x4 ,Þ P( X ≺ q4 ) = = 80%
5
5
- Donc q1, q2,q3 et q4 partagent la population en cinq parties d’effectif = 20% chacune.
e0 q1 q2 q3 q4 ek
3- Déciles: Soient D1, D2,…,D9 ces 9 déciles. Ils partagent la population en dix parties d’effectif = 10%
chacune.
𝑋 1
Par exemple: 𝑃 = 2 = 50%
𝐷5
77
La détermination des quantiles:
i- Détermination graphique: elle est pratiquement la même que celle de la médiane, il suffit
de remplacer 0,5 par α.
ii- Détermination par Interpolation:
xa Î éëei-1;ei éë, elle correspond à la plus petite fréquence cumulée dépassant strictement α.
a - Fi -1
xa = ei -1 + ai
fi
Exemple: On reprend les 20 femmes
Classes fi% Fi %
é0; 35é 30 30
ë ë
é35;70é 45 75
ë ë
é70,140é 25 100
ë ë
25 - F0 F0≲ 25 ≲ F1
Q1 = e0 + a1
f1
25 - 0
= 0 + 35 = 29,17mÎ
30
F2 £ 75 £ F3
75 - F2
Q2=M Q3 = e2 + a3
f3
=50,56 m€ = 70 + 0 = 70m Î
Exemple: Pour les vingt femmes:
10 - F0 F0≤25≤F1
D1 = e0 + a1
f1
10
= 0 + 35 ´ = 11,67m Î
30
F2≤90≤F3
90 - F2
D5=M D9 = e2 + a3
f3
=50,56
90 - 75
= 70 + 70 ´ = 112m Î
25
-Ecart inter quantile: ce sont des paramètres de dispersion, donnés par la différence entre le
premier et le dernier quantile:
i- Ecart interquartile: DQ = Q3 - Q1
ii- Ecart inter quintile: q q4 q1
iii- Ecart inter décile: DD = D9 - D1
II- Ecart type et variance
1- La variance:
Définition: La variance, V(X), d’une distribution statistique {(xi,ni) 1≤i≤k}, est donnée
par:
1 k k
V ( X ) = å ni (xi - x ) = å f i (xi -x) 2
2
n i =1 i =1
Remarque:
- La variance est aussi notée s
2
- Pour une variable statistique continue les xi sont les centres des classes.
2- L’écart type:
1 k k
s x = V (x) = å
n i =1
ni
(xi
- x) 2
= å i i
f (x - x) 2
i=1
3
- Cas d’une v.s.d: Sachant que X = å f i xi = 55,125me
i =1
Y en DH
X ni.
é0,1é
ë ë 4828
é1,5é
ë ë 17510
é5,15é 18088
ë ë
é15,35é 9758
ë ë
Total 50184
Cas des données individuelles:
-Exemple introductif:
Soient X et Y deux variables statistiques définies sur une même population de taille
n. on note par (xi,yi); i=1,2,…,n
le couple de valeurs de X et Y pour le ième individu.
y1 y2 yi yn Total
x1 1 0 0 0 1
x2 0 1 0 0 1
xi 0 0 1 0 1
0 0 0 1 1
xn
1 1 1 1 n
Total
-Le service des études économiques de la société α veut mesurer l’incidence de la
modulation de la pression marketing (variable X: explicative) sur la vente de flacons
de parfums (variable Y: expliquée). Il enregistre, alors, les ventes yi (en milliers de
flacons) ainsi que les dépenses publicitaires xi (en milliers de DH) dans 5 zones.
xi 5 6 9 12 18
yi 25 30 35 45 65
On cherche à étudier la liaison pouvant exister entre les variables X et Y. pour ce, on représente dans un repère
orthogonal les points (xi,yi). L’ensemble de ces points s’appelle « nuages de points ». La forme de ce nuage
nous renseigne sur la nature de la liaison entre X et Y et le type de courbe qui ajustera le mieux, ce nuage. On
s’intéresse au cas où cette courbe est une droite (ajustement linéaire ou droite de régression).
I- Ajustement linéaire:
Pour ajuster un nuage de points, on choisi parmi toutes les courbes connues (exponentielle, logarithme, droite…)
celle qui passera le plus proche de tous les points du nuage.
Dans le cas où le nuage a une forme allongée, il est évident que la droite est plus appropriée. On parle alors
d’un ajustement linéaire.
Y Nuage de points: ventes en fonction de la Pub
70
60
50
40
30
20
10
0
0 5 10 15 20
X
Pour déterminer l’équation de la droite d’ajustement on utilise, très souvent, la méthode des moindres
carrés (M.M.C).
1- Droite d’ajustement:
On appelle la M.M.C. pour déterminer les deux droites de régression:
a- la droite de régression de Y en X: est utilisée pour expliquer Y par X. Cette droite est notée Dy/x pour
équation y= ax + b
où
a =
Cov( X ,Y )
V(X )
et
b = y - ax
æ1 n ö
ç n å xi yi ÷
Cov( X ,Y) = ç ÷ - ( xy)
è i =1 ø
et
1 n
x = å xi
n i =1
et
1 n
y = å yi
n i =1
æ1 n 2ö
V(X) = ç ç nå i ÷ ÷ - 2
x ( x )
è i =1 ø
Revenons à notre exemple
i xi yi xi yi xi 2 yi 2
1 5 25 125 25 625
2 6 30 180 36 900
3 9 35 315 81 1225
4 12 45 540 144 2025
5 18 65 1170 324 4225
Total 50 200 2330 610 9000
å 10 40 466 122 1800
n
La forme du nuage est plus ou moins allongée. On peut donc estimer y à partir de x
grâce à la droite de régression de Y en X.
5
x = å xi =
1 50
= 10mÎ
5 i =1 5
5
y = å yi =
1 200
= 40mflacons
5 i =1 5
æ1 n 2ö
V ( X ) = çç å xi ÷÷ - (x ) =
610
2
-100 = 22
è n i =1 ø 5
æ1 n ö
Cov( X ,Y) = ç ç n å xi yi ÷
÷ - ( xy)
è i =1 ø
æ1 5 ö æ1 5 ö æ1 5 ö
=çç 5 å xi yi ÷
÷-ç ç 5 å xi ÷
÷´ç ç 5 å yi ÷
÷
è i =1 ø è i =1 ø è i =1 ø
1
= ´ 2330 -10 ´ 40 = 66
5
66
Þ a= =3
22
et
b = 40 - 3 ´10 = 10
La droite Dy/x a pour équation:
Y=ax+b
Y = 3 × x + 10
Milliers flacons Flacons DH mDH Milliers flacons
x = a ‘ y + b’
où
Cov( X ,Y )
a = '
V (Y )
et
b' = x - a' y
Remarque: Généralement, on trace les deux droites Dx/y dans un même repère.
Dans ce cas, l’équation de Dx/y s’écrit:
'
1 b
y = ' x- ' Où a’≠ 0
a a
Revenons encore une fois à notre exemple:
æ1 5 2 ö
V (Y) = çç å yi ÷÷ - ( y 2 ) = 1800 -1600 = 200
è 5 i =1 ø
et
66
a' = = 0,33
200
b' = 10 - 0,33´ 40 = -3,2
60
50
y = 3x+10
40
30
G(x,y)
20
10
0
0 5 10 15 20
X
II)- Coefficient de corrélation linéaire:
-Dans le cas d’une liaison entre X et Y, on mesure le degré de cette liaison par le
coefficient de corrélation linéaire.
1- Définition: Le coefficient de corrélation linéaire associé à X et Y, que l’on note r,
est donné par:
D
D
X
Une liaison linéaire totale et négative
Une liaison linéaire relative et
négative
0<r<1
r=0
D’ ×
× ×
×
× ×× × D
D ×
× × × ×
×
×
Cov( X,Y)
66
r= = = 0,99
V( X )V(Y) 66,33
Conclusion:
r est positif et sa valeur est très proche de 1, donc il y a une très
forte corrélation linéaire entre X et Y et est positive. C’est ce que
l’on a constaté graphiquement par la construction des droites D et
D’.
Exercice:
Dans un TP de physique, on a les données suivantes:
La variable mi représente les différentes masses appliquées comme dans le schéma ci-dessous et la variable xi les
hauteurs induits depuis l’état initial.
Xi 0 0,5 1,1 1,5 1,9
mi 0 10 20 30 40
1- Déterminer D(m/x).
2- Déterminer D(x/m).
3- Tracer le nuage de point et les deux droites.
Représenter le point de coordonnée (𝑋, 𝑌).
4- Peut-on déterminer x si m = 51,75 KG?
Solution:
Nous déterminons facilement les moyennes:
𝑋 = 1 𝑒𝑡 𝑌 = 1. 𝐷𝑒 𝑝𝑙𝑢𝑠, 𝑛𝑜𝑢𝑠 𝑎𝑣𝑜𝑛𝑠
Cov(x,m) = 9,6
Après calcul, nous avons aussi:
V(x) = 0,464 et V(m) = 200
Ce qui implique que: 𝜎𝑥 = 0,681 𝑒𝑡 𝜎𝑚 = 14,14
Dans ce cas, les coefficients de la droite sont donnés par
𝐶𝑜𝑣(𝑥,𝑦)
a= = 20,69 et b = 𝑚 − a𝑥= -0,69
𝑉(𝑥)
Notations:
- 𝑉𝑡 est la valeur de la grandeur étudiée au temps t (t est la date courante).
- 𝑉0 est la valeur de la grandeur étudiée au temps 0 ( 0 est la date de référence).
Définitions générales
Définition
L’indice élémentaire d’une grandeur V à la date t base 100 à la date 0 est:
𝑉𝑡
𝐼𝑡 0 = 𝐼𝑡𝑉0 = × 100
𝑉0
Exemple: Quel est l’indice du prix base 100 en 2010 d’un produit valant 250 DH et
300 DH en 2012?
Réponse:
𝑷𝟏𝟐 𝟑𝟎𝟎
𝑰𝑷
𝟏𝟐 = × 𝟏𝟎𝟎 = × 𝟏𝟎𝟎 = 𝟏𝟐𝟎.
𝟏𝟎 𝑷𝟏𝟎 𝟐𝟓𝟎
Comment interpréter la valeur d’un indice?
Interprétation:
Soit 𝐼𝑡 0 l’indice élémentaire d’une valeur V à la date t base 100 à la date 0 et soit: ∆= 𝐈𝐭 − 𝟏𝟎𝟎
𝟎
- ∆> 0 ↔ la valeur V a augmenté de ∆% de la date 0 à la date t.
- ∆< 0 ↔ la valeur V a diminué de ∆% de la date 0 à la date t.
Retour sur exemple:
𝑃
𝐼12 10
=120 ↔ le prix a augmenté de 20% de 2010 à 2012.
- Propriété des indices simples:
a- identité: 𝐼0 = 100
0
−1
b- Réversibilité: 𝐼 𝑡 = 𝐼0 × 100
0 𝑡
c- Circularité ou transférabilité :
𝐼 𝑡𝑛 × 𝐼 𝑡𝑛−1 × ⋯ × 𝐼𝑡1
𝑡𝑛−1 𝑡𝑛−2 𝑡0
𝐼 𝑡𝑛 =
𝑡0 100(𝑛−1)
Exemple 1:
𝑥2 205
𝐼02 𝑋 = × 100 = × 100 = 82
00 𝑥0 250
𝐼02 ×𝐼01 205
×100 ×104
01 00 260
Et → 2−1 = = 82.
(100) 100
Exemple 2:
Le chiffre d’affaire d’une entreprise a augmenté de 30% de 2010 à 2011 et
diminué de 25% de 2011 à 2012. le CA a-t-il diminué ou augmenté de 2010 à
2012.
Formalisation énoncé:
On a 𝐼11 10 = 130 , 𝐼12 11 = 75 et on cherche 𝐼12 10. Par la propriété de circularité:
1
𝐼12 10 = 𝐼12 11 × 𝐼11 10 × 100
130×75
= 100 = 97,5
Autrement dit, le CA a diminué de 2,5% de 2010 à 2012.
Produit de grandeurs
Exemple:
Soit P et Q les prix et quantités d’un produit vendu par une entreprise. Si le prix de ce produit augmente de 60% de 2000 à 2010 et si
les quantités vendues ont diminué de 50% de 2000 à 2010 quelle est l’évolution des recettes de 2000 à 2010?
Formalisation: on a
𝑃 𝑄
𝐼10 00
= 160 et 𝐼10 = 50
00
𝑅
Et on cherche 𝐼10 00
𝑜ù 𝑅 = 𝑃 × 𝑄.
𝑅 𝑃 𝑄 1 160×50
𝑝𝑎𝑟 𝑙𝑎 𝑝𝑟𝑜𝑝𝑟𝑖é𝑡é 𝑝𝑟é𝑐é𝑑𝑒𝑛𝑡𝑒 𝑜𝑛 a 𝐼10 = 𝐼10 × 𝐼10 × = = 80.
00 00 00 100 100
Autrement dit, les recettes ont diminué de 20% de 2000 à 2010.
Définitions et objectifs
Généralités
-Utilisation: étude de grandeurs complexes c-à-d de grandeurs composées de plusieurs grandeurs
simples.
-Exemple: Comprendre l’évolution
•Du prix d’un plat: grandeur composée des prix et quantités de matières premières (farine,
huile,…).
•De la recette globale d’une entreprise: grandeur composée des prix et quantités de l’ensemble
des produits vendus par cette entreprise.
•Du nombre d’entrées au cinéma: grandeur dépendant du nombre de films et du nombre moyen
d’entrées par film pour différents types de films (français, américain,…).
•…
Définition et objectifs
Quelques notations dans un contexte économique
2010 2012
Définition:
Les indices de Laspeyres des prix et des quantités sont respectivement définis par:
𝑖 𝑃𝑖 (𝑡)𝑄𝑖 (0) 𝑄 𝑖 𝑃𝑖 (0)𝑄𝑖 (𝑡)
𝐿𝑃𝑡 0 = × 100 et 𝐿𝑡 = × 100
𝑖 𝑃𝑖 (0)𝑄𝑖 (0) 0 𝑖 𝑃𝑖 (0)𝑄𝑖(0)
2 × 100 + 50 × 40 + 175 × 35
𝐿𝑃12 = × 100 = 136,48
10 1,5 × 100 + 35 × 40 + 130 × 35
𝑄 1,5 × 100 + 35 × 50 + 130 × 40
𝐿12 = × 100 = 116,39
10 1,5 × 100 + 35 × 40 + 130 × 35
Comment interpréter les valeurs 𝐿𝑃12 10 = 136,48 𝑒𝑡
𝑄
𝐿12 = 116,39 ?
10
𝑃 2 × 100 + 50 × 50 + 175 × 40
𝑃12 = × 100 = 136,62
10 1,5 × 100 + 35 × 50 + 130 × 40
𝑄 2 × 100 + 50 × 50 + 175 × 40
𝑃12 = × 100 = 116,52
10 2 × 100 + 50 × 40 + 175 × 35
𝑃 𝑄
Comment interpréter les valeurs 𝑃12 10
= 136,62 et 𝑃12 = 116,52 ?
10
-A quantités fixées en 2012, les prix ont augmenté de 36,62% de 2010 à 2012.
-A prix fixés en 2012, les quantités ont augmenté de 16,52% de 2010 à 2012.
III- Indice de Fisher
Résumé:
Relations entre les différents indices:
Relations entre les différents indices:
Complément: réversibilité des indices synthétiques
Réversibilité:
Réversibilité: