Statistiques et Corrélations Visuelles
Statistiques et Corrélations Visuelles
1
A. DISTRIBUTION STATISTIQUE À UNE VARIABLE
2
I. TABLEAUX STATISTIQUE ET GRAPHIQUES
.V.D
X Effectifs
x1 n1
. .
. .
. .
. .
. .
. .
X Total
. .
Effectifs
3
Total n
.V.C
Classes Effectifs
[…; …[ n1
.
.
.
.
Total
Classes Total
Effectifs n
4
Qualitative
Exemple : taille de vêtement :
5
Représentations graphiques
1. Caractères qualitatifs
1.1. Diagramme en barres (ou en tuyaux d'orgue) :
6
: Diagramme en bâtons .1.2
7
1.3. Diagramme circulaire
8
Graphique figuratif :
9
Pouvoir d'achat du dollar canadien, 1980 à 2000
10
Consommation d’un produit P par sexe et par tranche d’âges
fi
11
Caractères quantitatifs .2
C. Discrets .2.1
:Diagramme en bâtons
12
2.2. Caractères Continus
13
fi
14
Pb. les amplitudes varient d'une classe à une autre !
S1 3 S 2 13 1 S3 9
h1 3 h2 4 h3 4,5
b1 1 b2 3 3 b3 2
15
2.3. Courbe cumulative croissante et décroissante (fct de
répartition) :
VD
16
17
VC
18
19
Autres représentations graphiques .2.4
2.4.1. Pyramides
20
Exemple : Population active dans une société X à une date donnée
21
: Graphiques à coordonnées polaires .2.4.2
Mois Année 2005
Janvier 60
Février 80
Mars 100
Avril 150
Mai 200
Juin 180
Juillet 40
Août 20
Septembre 80
Octobre 100
Novembre 110
22
Décembre 130
Janvier
200
Décembre Fevrier
150
Novembre 100 Mars
50
Octobre 0 Avril
Septembre Mai
Août Juin
Juillet
23
Les graphiques polaires peuvent être subdivisés en :
• Etc
24
II. Paramètres de position et de dispersion
• la tendance centrale
• et la dispersion de la série
25
Paramètres de position .1
1.1. Mode
Le mode d'un échantillon est la valeur qui se répète le plus souvent,
autrement dit celle qui apparaît avec la fréquence la plus élevée. C'est
pour cela qu'elle est parfois aussi appelée dominante.
Le nombre de frères et sœurs des élèves d'une classe est indiqué dans
le tableau suivant
Nbre de frères et sœurs 0 1 2 3 4 5 et plus
Nbre d'élèves 5 25 4 3 2 1
Nombre de salariés 20 50 60 40 20 10
Le mode se trouve dans la classe [7000; 8000[. Pour connaître la valeur modale exacte,
on prend la VALEUR CENTRALE DE LA CLASSE, soit ici 7500.
[7000 ; 8000[ est la classe modale.
Tout d’abord, les valeurs de la variable doivent être rangées par ordre croissant.
Ensuite
si le nombre d’observation est impaire [(2n+1)-observations], alors
Me = (n+1)ième observation
29
0,5 - FMe 1
Me LMe . aMe
f Me
avec
LMe: la limite inférieure de la classe contenant la médiane,
Me 8 25 18
12 8 30 18
Me 8 7
4 12
28
Me 8 10.33
12
31
Graphiquement, la valeur médiane est celle qui correspond au
croisement des courbes des fréquences cumulées croissantes et
décroissante.
Classes en cm ni fi Fi↑ Fi↓
Min Max
155 0 %0 %0
155 à 160 155 160 1 %4 %4 % 100
160 à 165 160 165 6 % 24 % 28 % 96
165 à 170 165 170 6 % 24 % 52 % 72
170 à 175 170 175 5 % 20 % 72 % 48
175 à 180 175 180 2 %8 % 80 % 28
180 à 185 180 185 2 %8 % 88 % 20
185 à 190 185 190 3 % 12 % 100 % 12
190 %0
25 % 100 32
les deux
courbes se
croisent juste
avant 170
Me
33
1.3. Moyenne arithmétique :
Soient n1, n2, n3, .........,np les effectifs correspondants aux modalités x1,
x i
Si on travaille sur toute la population on la note i 1
N 34
Exemples :
Série discrète
Série continue
35
Propriétés de la moyenne:
nS1 x S1 nS2 x S2
x
.
nS1 nS2
cette propriété se généralise par
nS1 x S1 nS2 x S2 ... nSk x Sk
x
nS1 nS2 ... nSk
36
1.4. Moyenne géométrique :
Utilisée dans
• les calculs de certains indices statistiques ;
• calcul de corrélation linéaire;
• la recherche de taux moyens de variation (croissance d’une grandeur économique)
n1 n2 np
MG x 1 x 2 x n x 1 x 2
n n
x p
Exemple : la production d’un article A a été la suivante au cours du 1er trimestre : 1er
mois 200000 unités, 2e mois 250000 unités et au 3e mois 360000 unités. Quel est le
?taux moyen mensuel de croissance
Soit Pi le nombre d’unités à la fin du ie mois et ti le taux d’augmentation entre le mois i
et i+1. Donc on a
P3 (1 t 2 )P2 (1 t 1 )(1 t 2 )P1 (1 t m ) 2 P1
(1 t m ) 2 (1 t 1 )(1 t 2 ) 1 t m (1 t 1 )(1 t 2 )
37
t m (1 t 1 )(1 t 2 ) 1 34.164%
: Moyenne harmonique .1.5
Utilisée dans des cas particuliers : problème de vitesse, de changes
.monétaires, certains indices (indices de Paasche) et problème de prix
1
MH n
1 1
n
i 1 xi
Exemple1 : dans une entreprise de fabrication 3 ouvriers produisent des
pièces. L’ouvrier A met 10 min par pièce, B 15 min par pièce et C 20
min par pièce.
Amenons la production à 60 minutes
A produit 6 pièces : Le temps de production d’une pièce
B produit 4 pièces
10 min6 15min4 20 min3
C produit 3 pièces 13.85min/ pièce
-------------------------- 13 38
pièces 13
: Avec la formule de MH
3
MH 13.85 min/ pièce
1 1 1
10 15 20
Exemple2 : une voiture roule pendant une heure à la vitesse de 80 km/h
et ensuite parcours un tronçon de 60 km à la vitesse de 120 km/h. Quelle
est la vitesse moyenne?
On sait que distance = vitesse x temps
dT= d1 + d2 = 80 + 60 = 140 et tT= 1.5 h
donc vm = 140/1.5 = 93.33 km/h.
Ou bien 80 60
MH 93.33km / h
80 60
80 120 39
Exemple3 : une société marocaine doit régler une dette auprès d’un
fournisseur américain. Elle dispose actuellement de 32000 $ qu’elle a
acquis au cours de 9.25 DH/$. La dette s’élève à 78125$ ce qui nécessite
d’acquérir 46125 $ pour complément dont la contrepartie globale est
440000 DH. A quel cours moyen les opérations de change ont-elles été
réalisées ?
1er change : 32000 X 9.25 = 296000 DH
2e change : 46125 X i = 440000 DH i ≈ 9.54
78125 X im = 736000 DH
donc im = 736000 / 78125 ≈ 9.42 (cours moyen)
9.42 est la moyenne harmonique de 9.25 et 9.54 :
296000 +440000
MH
296000 440000
40
9.25 9.54
: Moyenne quadratique .1.5
n p p
1 1
Q
n i 1
2
xi
n
n x
i 1
i i
2
f
i 1
i x i
2
Remarque
MH MG x Q
41
2. Paramètres de dispersion
But: comparer des séries entre elles en étudiant les variations ou
dispersions des données par rapport à la tendance centrale.
42
Exemple : répartition des salaires dans une entreprise
Classes xic ni fi% ni↑ Fi%
[3500,3700[ 3600 21 10.5 21 10.5
[3700,4100[ 3900 49 24.5 70 35
[4100,4300[ 4200 100 50 170 85
[4300,4700[ 4500 24 12 194 97
[4700,5300[ 5000 6 3 200 100
Calcul de Q1 200 100
3700 Q1 4100 50 21
Q1 3700 (4100 3700) 3936.73
21 50 70 70 21
Calcul de Q2 = Me
4100 Q 2 4300 100 70
Q 2 4100 (4300 4100) 4160
70 100 170 170 70 43
Calcul de Q 3
4100 Q3 4300 75 35
Q3 4100 (4300 4100) 4260
35 75 85 85 35
Calcul de Q4
Valeur telle que 100% des observations lui sont inférieures. Donc il
correspond à la modalité maximale soit Q4 = 5300
Etendue interquartile
EIQ = Q3 – Q1
il contient 50% des observations
On peut effectuer une même analyse par déciles. On les note D1, D2,
…, D10
44
Quelques types de boites de dispersion
A : distribution symétrique
B : distribution symétrique peu dispersée
C : distribution étalée vers les valeurs élevées
D : distribution étalée vers les valeurs faibles
45
2.3. Ecart absolu moyen
est la moyenne arithmétique des écarts par rapport à la tendance
centrale, exprimés en valeur absolue.
1 n
1 p p
Ex
n
x i
x
n
n i
x i x f i x i x
i 1 i 1 i 1
Echantillon :
n 2 p 2 n
1 1 1
x n x
2
s x
2
n i 1
i x
n i 1
i i x
n
x
i 1
i
2
x
Population : on la note V x ou 2 x
46
V
L’écart-type estime la dispersion ‘moyenne’ autour de la moyenne.
s
Echantillon : CV 100%
x
Population : CV 100%
47
3. Quelques caractéristiques de formes et de concentration
Peut on deviner l’allure d’une distribution ?
3.1. La forme d’une distribution
3.1.1. La symétrie Deux moyens existent pour repérer la symétrie
(ou asymétrie) d’une distribution :
[Link]. Comparaison de tendances centrales traditionnelles
• Si Mo = Me = Moyenne alors la distribution est symétrique
• Si Mo > Me alors la distribution est étalée vers la gauche
• Si Mo < Me alors la distribution est étalée vers la droite
Symétrie parfaite Etalement à gauche Etalement à droite
48
[Link]. Calcul des coefficients d’asymétrie
• Le coefficient de Yule
basé sur les écarts de quartiles :
(Q3 Me) ( Me Q1 )
s
Q3 Q1
Si s = 0, alors il y a symétrie;
Si s > 0 la médiane est plus à Q1, alors la courbe des fréquences est
étalée à droite;
Si s < 0 la courbe est étalée à gauche
49
• Le coefficient de Pearson
basée sur les écarts entre Moyennes et Modes :
série
Si p = 0 la série est symétrique x Mo unimodale
p
Si p>0 la série est étalée à droite
Si p<0 la série est étalée à gauche
m4 m4 Echantillon
2 2
4
m 2
s
4 4 Population
2 2 4
2
• Coefficient de Fischer
2 = 2 3
Si β2 = 3 ou γ2 = 0 alors la distribution est mésokurtique
Si β2 > 3 ou γ 2 > 0 alors la distribution est leptokurtique
Si β2 < 3 ou γ 2 < 0 alors la distribution est platikurtique 52
• Coefficient de Kurtosis
0.5 Q 3 Q 2
K
D 9 D1
53
3.2. La Concentration d’une distribution
Elle mesure sa répartition ‘observée’ par rapport à une ‘norme’ de
répartition (la répartition à laquelle on s’attend). Donc il s’agit de
comparer deux séries de fréquences cumulées. Elle est souvent
utilisée dans l’analyse des parts distributives des salaires, des
fortunes, des parts de marché des entreprises, etc…
Exemple :
si on observe une distribution des ménages ainsi qu’une distribution
de leurs revenus, on serait tenté de comparer les deux distributions
pour voir si elles évoluent, par quantile, de la même manière :
Si 30% des ménages détiendraient 30% du total des revenues alors
les revenus sont équitablement réparties, etc ….
Par contre, si 30% des ménages détiennent 80% des revenus alors
les revenus sont très inéquitablement réparties (inégalités).
54
Les indicateurs de concentration
• largement utilisés dans la pratique;
• s’appliquent à des données cumulatives.
la médiale Mle :
elle partage en deux la masse totale (∑nixi) du caractère étudié.
Exemple
Classes Centres xi ni Fi % masses nixi F’i %
[3500 ; 3700[ 3600 21 10.5 75600 9.17
[3700 ; 4100[ 3900 49 35 191100 32.34
[4100 ; 4300[ 4200 100 85 420000 83.27
[4300 ; 4700[ 4500 24 97 108000 96.36
[4700 ; 5300[ 5000 6 100 30000 100
200 824700 55
824700 : total du salaire versé dans l’entreprise
9.17 % représente la part du salaire versé à des salariés touchant une
rémunération comprise entre 3500 et 3700
32.34 % du salaire total est versé à des salariés dont la rémunération est
< 4100
Calcul de la Mle
0.50 - F 'Mel 1
Il est similaire à celle de la médiane Mle L Mle . aMle
f Mle
50 - 32.34
4100 . 200
50.93
4169.35
50 % du salaire total est versé à des individus dont le salaire est < à
4169.35 56
Courbe de concentration (Lorentz)
Elle permet de comparer à une répartition strictement égalitaire, la
répartition d’une série statistique donnée.
Fi
58
Interprétation de la représentation
• Représentation strictement égalitaire :
……
25% des individus détiennent 25% de la masse totale
50% des individus détiennent 50% de la masse totale
etc
• + la courbe de concentration s’éloigne de cette bissectrice, plus la
série des valeurs étudié est inégalitaire et montre une concentration
de plus en plus importante.
Remarque : l’exemple montre une faible concentration.
59
Indice de concentration (coefficient de Gini)
X
A ire A
IG A
A ire OX Z
B
O Z
Remarques :
• 0 ≤ IG ≤ 1
• la concentration est forte lorsque IG → 1
60
Calcul Pratique :
L’aire sous la courbe est décomposé en triangle et trapèzes.
Dans notre exemple on a 1 triangle et 6 trapèzes.
1.43 0.21
Aire triangle 0.15015
2
Aire 1 trapèze
er 0.21 5.71
(14.29 1.43) 38.0656
2
Aire 2 trapèze
e 5.71 22.04
(37.14 14.29) 317.04375
2
Aire 3 trapèze
e 22.04 50.61
(65.72 37.14) 1038.1685
2
Aire 4 trapèze
e 50.61 22.61 77.24
(86.43 65.72) 1323.88675
2
Aire 5e trapèze 719.66575
Aire 6e trapèze 476.775 61
Donc
Aire du carré
Aire A Aire B 5000 3913.7555 1086.2445
2
Et par suite
1086.2445
IG 0.22
5000
62
Hauteurs trapèzes Bases trapèzes
Fi % F’i% (Fi-Fi-1)% (F'i+F'i-1)% (Fi-Fi-1)(F'i+F'i-1) ‰
1,43 0,20
14,29 5,71 12,86 5,92 76,09
37,14 22,04 22,86 27,76 634,40
65,71 50,61 28,57 72,65 2075,80
86,43 77,24 20,71 127,86 2648,47
95,00 90,71 8,57 167,96 1439,65
100,00 100,00 5,00 190,71 953,57
7827,99 7827,99
Aire A 5000 =1086.01
2
Aire A
IG = 0.22 63
5000
B. Distribution statistique à deux Caractères :
Ajustement et Corrélation
64
I. Définitions
Soit X et Y deux variables statistiques quantitatives, discrètes ou continues. .
xi, i = 1, 2, …, I : I modalités (observations)
yj, j = 1, 2, …, J : J observations
x2 n21 n2.
… …
xq nq.
… …
xI nI.
n.j n.1 n.2 n.p n.J n.. 65
nij : l’effectif d’individus qui vérifient la ième modalité de X et la jème
modalité de Y.
ni.: le nombre d’individus pour lesquels X = xi
{(xi, ni.)/ 1≤ i ≤ I} est la distribution marginale de la variable X.
{(yj, n.j)/ 1≤ j ≤ J} est la distribution marginale de la variable Y.
L’effectif marginale ni. de la modalité xi , l’effectif marginale n.j de la
modalité yj et l’effectif total sont donnés respectivement par
J I J I
n i . n ij , n. j n ij et n.. n ij
j 1 i 1 j 1 i 1
66
Fréquences marginales
Y
y1 y2 … yp … yJ fi.
X
x1 f11 f12 f1. ni j
Tableau des fréquences
fij
x2 f21 f2. n..
… …
Fréquences marginales
xq fq.
… …
xI fI.
f.j f.1 f.2 f.p f.J f..=1
67
Les effectifs par (sous)-population
Chaque caractéristique correspond à une (sous)-population
S-P
Y y y … yp … yJ ni.
X 1 2
x n n
1 12 1.
x n n
2 21 2.
S-P … …
x n
q q.
… …
x n
I I.
n n n n n n
.j .1 .2 .p .J ..
68
2. Fréquences conditionnelles :
n ij
f j / X x i : fréquence conditionnelle de la valeur yj sachant xi.
ni .
n ij
f i / Y y j : fréquence conditionnelle de la valeur xi sachant yj.
n. j
Relation entre les fréquences
Somme des fréquences égal à l’unité :
: Fréquences marginales
ni . 1 n. j 1
f i . ni . 1 . j
f n. j 1
i i n.. n.. i j j n.. n.. j
: Fréquences conditionnelles
nij 1 nij 1
fi / j nij 1 f j / i nij 1
i i n. j n. j i j j ni . ni . j
Fréquences partielles
1nij 1
f ij n. j n.. 1
i j n.. n.. j n.. 69
j i
Le produit de la fréquence marginale par la fréquence conditionnelle est
égal à la fréquence partielle
f i. f j /i f ij
3. Critères d'indépendance :
Pour que X et Y seront indépendantes, il faut et il suffit que l'on ait :
ni.n. j
nij , ou bien fij fi. f. j , (i, j) [1, I] × [1, J].
n..
70
II. Tendances centrales et dispersions dans les séries à deux variables
71
1. L’expression de la moyenne et de la variance dans des tableaux à
deux caractères
Moyennes (globales) :
1 1
X . n i .x i Y . n. j y j
n.. i n.. j
Variances (globales) :
1 1
2 2
V (X) . n i . x i X V (Y) . n. j y j Y
n.. i n.. j
72
Les caractéristiques conditionnelles sont les moyenne et variance de x
selon chaque modalité de y (il s’agit de moyenne et de variance locales
de x)
1 1
X. j
n. j
n x
i
ij i Y i.
ni.
n ij yj
j
1
x X 1
2
V (X. j )
n. j
n
i
ij i .j V (Yi . ) n ij ( y j Yi . )2
ni . j
73
2. Relation entre les moyennes
La moyenne marginale est la moyenne pondérée des moyennes conditionnelles.
1 1
X
n..
n .j X. j Y
n..
n Y
i
i. i.
j
i j
n ij (x i X)( y i Y)
i j
n ij x i y i
Cov(X, Y) XY
n.. n..
Propriétés.
75
III. Relations entre variables : régressions et corrélations
76
1. La méthode des moindres carrés (ou encore la régression linéaire)
77
ˆ i bˆ D y / x tel que: y est unmimimum
2
Objectif: choix de yˆ i ax i yˆ i
i
avec x i . y i X.Y
Cov (X,Y)
n
De même
Cov (X,Y)
ˆa ' et bˆ ' X aˆ 'Y
Var (Y)
78
1.2. Coefficient de corrélation et pentes
Cov (X, Y)
r a.a '
1/ 2
[ 1,1]
X . Y
Le taux de corrélation r détermine l’intensité de la corrélation (co-dépendance)
.entre la variable X et la variable Y
79
Remarque.
Si 0,5 < r2 < 1 on peut dire que l'ajustement du modèle y = f(x) est
satisfaisant (plus r2 est proche de 1, meilleur est l'ajustement).
80