L1 SD Poly
L1 SD Poly
S TATISTIQUES D ESCRIPTIVES
Polycopié de cours
Julie Scholler
Table des matières
1
TABLE DES MATIÈRES
2
Chapitre 1
3
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
Définition.
Population : ensemble concerné par une étude statistique.
Individu : tout élément de la population étudiée.
Échantillon : sous-ensemble de la population toute entière.
Taille de la population : nombre d’individus dans la population.
Variable : caractéristique définie sur la population et observée sur la population ou un échantillon,
appelée aussi caractère.
Modalités d’une variable : valeurs que peut prendre la variable.
Données : ensemble des individus observés, ensemble des variables considérées, ainsi que les valeurs
de ces variables pour ces individus.
Remarque.
La première question n’est pas toujours évidente, lorsque la population étudiée est elle-même numérique,
comme par exemple une fréquence d’apparition, ou fré[Link] nous aider à déterminer la population,
on peut se demander la taille de celle-ci.
Définition.
Une variable est dite quantitative si ses modalités sont mesurables, numériques.
On parle de variable quantitative discrète si les modalités éventuelles sont en nombre fini et de variable
quantitative continue si les modalités éventuelles ne sont pas en nombre fini, par exemple si elles
peuvent prendre n’importe quelle valeur dans un intervalle donné.
Définition.
Une variable est dite qualitative si elle n’est pas quantitative.
On parle de variable qualitative ordinale si ses modalités sont ordonnées et de variable qualitative
nominale si ses modalités ne peuvent pas être ordonnées.
4
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
• La durée devant la télévision est une variable quantitative. Les résultats sont exprimés en minutes mais
toutes les valeurs de l’intervalle [0; 1440[ sont possibles (bien qu’on choisisse d’arrondir les résultats à la
minute). Elle est donc quantitative continue.
2. Tableaux synthétiques
Un premier travail pour chaque variable consiste à regrouper les données brutes par modalités.
Genre F H
Effectifs 407 400
Foyer 1 2 3 4 5
Effectifs 277 263 118 94 55
Durées 97 99 101
i ci eu x
102
! 103 104 105 106 107 108 109 110 111 112 113 114 115
d
Effectifs 1 2 4 5 3 1 4 2 6 6 3 5 11 8 12 8 16
Durées
Effectifs
Durées
116
13
133
Non
117
9
134
j u
118
135
7
119
10
136
120
23
137
121
18
138
122
9
139
123
17
140
124
21
141
125
142
21
126
143
19
127
22
144
128
21
145
129
22
146
130
17
147
131
20
148
132
20
149
Effectifs 25 17 15 29 20 27 17 16 21 24 15 13 18 15 14 18 13
Durées 150 151 152 153 154 155 156 157 158 159 160 161 164 166 167 168 171
Effectifs 10 14 11 9 10 2 4 10 6 6 6 5 5 2 1 2 1
Dans ce cas, il est intéressant de regrouper les valeurs dans des classes. On a par exemple ce tableau :
Durées [95; 100[ [100; 105[ [105; 110[ [110; 115[ [115; 120[ [120; 125[ [125; 130[ [130; 135[
Effectifs 3 13 21 44 55 88 105 99
Durées [135; 140[ [140; 145[ [145; 150[ [150; 155[ [155; 160[ [160; 165[ [165; 170[ [170; 175[
Effectifs 108 89 78 54 28 16 5 1
5
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
Notations
De façon générale, on note :
• n la taille de l’échantillon ;
• xi la valeur de la variable pour l’individu no i (i variant de 1 à n).
Dans le cas où la variable est quantitative discrète ou qualitative, on note :
• M le nombre de modalités différentes ;
• m1 , . . . , mM les modalités ;
• ni le nombre d’individus prenant la modalité mi , pour tout i entre 1 et M .
Dans le cas où la variable est quantitative continue (regroupée en classe), on note :
• C le nombre de classes différentes ;
• b0 < b1 < . . . < bC : les bornes des classes avec b0 6 mini∈J1,M K (mi ) et br > maxi∈J1,M K (mi ) ;
• [b0 , b1 [, [b1 , b2 [, . . ., [bC−1 , bC ] : les classes de modalité ;
• nk : nombre d’individus dont la modalité est dans la k e classe.
M
X C
X
On remarque que n = n1 + n2 + · · · + nM = ni ou n = n1 + n2 + · · · + nC = ni .
i=1 i=1
Remarque.
Dans la pratique, on utilise toujours les données brutes pour effectuer l’ensemble des calculs via un logiciel
de statistiques. Les tableaux synthétiques permettent de présenter les résultats, mais à partir de ces seuls
tableaux, on ne peut observer les liens qui peuvent exister entre les variables.
Définition.
La fréquence fi d’une modalité mi est donnée par la relation :
ni
fi =
n
où ni est l’effectif de la modalité mi et n la taille de la population.
Pour des raisons de facilité de lecture, les fréquences sont souvent présentées en pourcentage.
M
X
On remarque que fi = 1.
i=1
Exemple.
• Pour la variable Genre :
Genre F H
Effectifs 407 400
Fréquences 0.504 0.496
6
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
3. Représentations graphiques
Dans ce type de graphique, les angles (et la surface du secteur) sont proportionnels aux fréquences. Les
angles en degré sont obtenus en multipliant par 360 les fréquences ou par 3.6 les fréquences en %.
Exemple.
Toujours pour la variable diplôme :
Brevet 5 %
Aucun Diplôme 26 %
CAP,BEP 26 %
Sup Bac+2 13 %
Bac 19 % Bac+2 11 %
Bien que très répandus, je vous déconseille ce type de graphique car l’information y est plus difficile d’accès
que dans un diagramme en bâtons.
7
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
200
150
Effectifs
100
50
0
Aucun Diplôme Brevet CAP,BEP Bac Bac+2 Sup Bac+2
• pour la variable fsoyer :
Répartition du nombre de personnes par foyer
250
200
Effectifs
150
100
50
1 2 3 4 5
Remarque.
Les « barres » peuvent être élargies pour une meilleure lisibilité. De plus ce type de graphique ne nécessite
pas une origine, on choisit les valeurs min et max de l’axe des abscisses qui permettent d’avoir la meilleure
lisibilité.
3.3. Histogramme
Il est utilisé pour représenter les variables quantitatives continues, en regroupant les données par classe.
Durées [90; 100[ [100; 110[ [110; 120[ [120; 130[ [130; 140[ [140; 150[ [150; 160[ [160; 170[ [170; 180[
Effectifs 3 34 99 193 207 167 82 21 1
8
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
200
150
Effectifs
100
50
Durée
Le principe de l’histogramme est de représenter la fréquence ou l’effectif par des rectangles dont la base est
constituée par les classes positionnées en abscisse. Si les classes ont même amplitude la surface de chaque
rectangle est aussi proportionnelle à la hauteur.
100
40
80
30
Effectifs
Effectifs
Effectifs
60
20
40
10
20
50
0
100 120 140 160 180 100 120 140 160 180 100 120 140 160 180
Remarque.
En regardant les axes des ordonnées on observe des changements d’échelles. En effet en élargissant les
amplitudes pour une même hauteur on obtient une surface plus grande et donc un effectifs plus important. Il
ne faut pas oublier que ce sont les surfaces des rectangles qui correspondent à l’effectif !
9
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
Il peut s’avérer nécessaire de segmenter plus finement une population, et de construire des classes d’amplitudes
différentes. Dans ce cas, l’histogramme ne peut plus être construit de la même façon si on souhaite que les
rectangles restent proportionnels aux effectifs et fréquences.
On rappelle les notations suivantes :
• C le nombre de classes différentes ;
• b0 < b1 < . . . < bC les bornes des classes avec b0 6 mini∈J1,M K (mi ) et br > maxi∈J1,M K (mi ) ;
• [b0 , b1 [, [b1 , b2 [, . . ., [bC−1 , bC ] : les classes de modalité ;
• nk : nombre d’individus dont la modalité est dans la k e classe.
Pour calculer la hauteur des rectangles correspondant à chaque classe, il faut tenir compte de l’amplitude
(largeur) de chaque classe.
On note ak = bk − bk−1 l’amplitude de la k e classe.
Pour chaque classe on détermine la densité de fréquence di définie par :
fi
di =
ai
Durées [95; 100[ [100; 105[ [105; 110[ [110; 115[ [115; 120[ [120; 130[ [130; 140[
Effectifs ni 3 13 21 44 55 193 207
Fréquences fi 0.00372 0.01611 0.02602 0.05452 0.06815 0.23916 0.25651
Densités di 0.00074 0.00322 0.00520 0.01090 0.01363 0.02392 0.02565
Durées [140; 145[ [145; 150[ [150; 155[ [155; 160[ [160; 165[ [165; 170[ [170; 175[
Effectifs ni 89 78 54 28 16 5 1
Fréquences fi 0.11029 0.09665 0.06691 0.03470 0.01983 0.00620 0.00124
Densités di 0.02206 0.01933 0.01338 0.00694 0.00397 0.00124 0.00025
0.030 0.030
0.025 0.025
0.020 0.020
Densités
Densités
0.015 0.015
0.010 0.010
0.005 0.005
0.000 0.000
100 120 140 160 180 100 120 140 160 180
Durées Durées
10
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
Densités
100 120 140 160 180 100 120 140 160 180
Durée TV Durée TV
Définition.
Le ou les mode(s) sont les valeurs les plus fréquentes dans la distribution des variables.
Par exemple, pour la variable Diplôme, le mode est « CAP, BEP ». Pour la variable Foyer, le mode est 5.
Foyer 1 2 3 4 5
Effectifs 277 263 118 94 55
Remarque.
• Le mode n’est pas nécessairement unique.
• Si les données sont regroupées en classe, on parle de classe modale. La classe modale n’est pas le classe
ayant l’effectif ou la fréquence la plus élevée mais celle ayant la densité de fréquence ou d’effectif la plus
élevée.
11
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
4.2. La moyenne
Définition.
La moyenne, notée x, d’une variable quantitative est définie par :
n
1X
x= xi
n i=1
Lorsque les données sont regroupées dans un tableau d’effectifs pour une variable discrète, on utilise la
formule suivante :
M
1X
x= nk mk
n k=1
Exemple.
Calculons la moyenne des durées pour le groupe 1 (hommes célibataires sans diplôme) qui contient 36
individus. Voici les données extraites pour le groupe 1 :
Classes [110, 120[ [120, 130[ [130, 140[ [140, 150[ [150, 160[ [160, 170[ [170, 180[
Effectifs (ni ) 1 1 7 9 13 4 1
Centres de classe (ci ) 115 125 135 145 155 165 175
n i ci 115 125 945 1305 2015 660 175
On obtient donc :
1 1
x' (1 × 115 + 1 × 125 + 7 × 135 . . . + 1 × 175) ' × 5340 ' 148.33 ' 148
36 36
On remarque que les valeurs sont proches mais elles ne sont pas égales. Il faut privilégier la première méthode
lorsque l’on a les données brutes.
12
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
Proposition.
• La somme des écarts des observations à la moyenne (xi − x) est nulle :
n
X
(xi − x) = 0
i=1
• La moyenne d’une somme de caractères est la somme des moyennes de ces caractères.
• La somme des carrés des écarts des observations à la moyenne est inférieure à la somme des carrés
des écarts par rapport à toute autre valeur.
4.3. La médiane
Définition.
La médiane est une valeur qui partage la population de telle façon que la moitié de la population
possédé une valeur du caractère inférieure à la médiane, l’autre moitié supérieure.
Exemple.
Reprenons l’exemple des durées devant la télévision pour le groupe 1 :
Exemple.
Reprenons le cas de la variable foyer :
Foyer 1 2 3 4 5
Effectifs 277 263 118 94 55
Fréquences 0.343 0.326 0.146 0.116 0.068
Fréq. Cum. 0.343 0.669 0.815 0.932 1
13
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
La médiane est 2 car plus de la moitié de la population prend une valeur inférieure ou égale à 2 et plus de la
moitié de la population prend une valeur supérieure ou égale à 2. On peut également lire la valeur de la
médiane sur la représentation graphique des fréquences cumulées.
1.0
Fréquences cumulées
0.8
0.75
0.6
0.50
0.4
0.25
0.2
0.0
Q1 Me Q3
1 2 3 4 5
Exemple.
Étudions maintenant le groupe 2. Et utilisons le tableau des effectifs par classe, on calcule alors les fréquences
et les fréquences cumulées et on obtient le tableau suivant :
Classes [90, 100[ [100, 110[ [110, 120[ [120, 130[ [130, 140[ [140, 150[ [150, 160[ [160, 170[
Effectifs (ni ) 3 33 86 128 97 47 12 1
Fréquences (fi ) 0.0074 0.0811 0.2113 0.3145 0.2383 0.1155 0.0295 0.0025
Fréquences cumulées (Fi ) 0.0074 0.0885 0.2998 0.6143 0.8526 0.9681 0.9976 1.0001
1.0
Fréquences cumulées
0.8
0.6
0.4
0.2
Me
0.0
90 100 110 120 130 140 150 160 170 180
Durée en min
14
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
La lecture graphique, nous permet d’établir que M e ' 125. On peut aussi la déterminer par le calcul en
faisant une interpolation linéaire. On repère tout d’abord l’intervalle dans lequel se trouve la médiane ici
[240, 300[
Dans la pratique, on travaillera avec des données brutes donc on appliquera la première méthode, mais il est
intéressant d’avoir en tête la représentation du diagramme des fréquences cumulées.
Définition.
Pour tout α dans [0; 1], le quantile en α est le plus petit réel, noté xα , tel qu’une proportion α des
valeurs de la variable lui soient inférieures.
On appelle quantiles d’ordre q les (q − 1) valeurs qui divisent les valeurs (ordonnées) de la série en q
parties égales.
Remarque.
• On appelle quartiles les quantiles d’ordre 4 qui correspondent aux quantiles en 0.25, 0.5 et 0.75. Ils
sont notés Q1 , Q2 et Q3 . Q2 correspond à la médiane.
• On appelle déciles les quantiles d’ordre 10 qui correspondent aux quantiles en 0.1, 0.2, . . . , 0.9.
• On appelle centiles les quantiles d’ordre 100 qui correspondent aux quantiles en 0.01, 0.02, . . . , 0.99.
Exemple.
Reprenons l’exemple précédent du groupe 1 en supprimant la dernière valeur.
On veut déterminer le premier quartile Q1 , i.e. le quantile en 0.25. On doit avoir 0.25 × 35 = 8.75 valeurs
inférieures à Q1 , on choisit donc la 9e qui sera la plus petite valeur tel qu’au moins 25% aient une valeur
inférieure : Q1 =139. De même le 3e quartile doit avoir 35 × 0.75 = 26.25 valeurs inférieures, Q3 , correspond
à la 27e valeur soit 154.
15
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
On peut aussi déterminer les quantiles par lecture graphique sur le diagramme des fréquences cumulées
croissantes pour le groupe 2 :
1.0
0.8
0.75
Fréquences Cumulées
0.6
0.4
0.25
0.2
0.0
Q1 Q3
90 100 120 140 160 180
Durée en min
5. Paramètres de dispersion
Nous avons pu constater que les moyenne et médiane permettent de positionner les séries statistiques.
Maintenant il nous faut quantifier la manière dont les valeurs sont dispersées autours de la moyenne ou de la
médiane.
5.1. Étendue
Définition.
On appelle étendue l’écart entre la plus grande et la plus petite valeur de la série de données.
Cette valeur est facile à calculer mais elle est très sensible aux valeurs extrêmes.
Définition.
On appelle écart interquartile la valeur Q3 − Q1 .
Cette valeur est moins sensible aux valeurs extrêmes. Souvent on représente graphiquement l’écart interquartile
et les quartiles à l’aide d’un diagramme en boîte.
Exemple.
Regardons la durée de lectures pour les deux groupes. On a les informations suivantes obtenus à partir des
données brutes. :
16
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
Comparaison G1/G2
Groupe 2
Groupe 1
Durée
• les 50% situés autour de la médiane sont plus dispersés dans le groupe 2 :
Remarque.
L’écart interquartile est particulièrement pertinent pour comparer des groupes entre eux. Le diagramme en
boîte sert aussi à observer une dissymétrie de la répartition de la population.
Pour quantifier la dispersion de la population, un point de vue possible est d’étudier les écarts avec la
moyenne.
Pour l’exemple des durées, on peut centrer les données en soustrayant la moyenne x = 147.86. Lorsque l’on
calcule les écarts à la moyenne, il y a des valeurs positives et des valeurs négatives (voir tableau à la suite).
Leur somme est nulle par définition de la moyenne.
On pourrait prendre la valeur absolue de chacune de ces valeurs et calculer une moyenne, on définit alors
l’écart absolu moyen. Il est plus utile et pratique mathématiquement de prendre le carré des écarts. Il n’y a
plus de problèmes de signes. On définit ainsi la variance.
17
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
Définition.
La variance est la moyenne des carrés des écarts des observations à la moyenne, c’est-à-dire :
n
1X
V (x) = (xi − x)2
n i=1
Proposition.
On a la formule développée suivante
n
!
1 X
V (x) = x2 − x2
n i=1 i
18
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
Exemple.
Ainsi en effectuant la somme de la dernière colonne du tableau précédent on trouve :
36
1 X 1 5262.31
V (x) = (xi − x)2 = (9.85 + · · · + 535.41) = ' 146
36 i=1 36 36
q
σ= V (x) ' 12.1
Dans la pratique on utilise plutôt la 2e formule, on calcule ainsi la somme des carrés :
36
X
xi = 1512 + · · · + 1712 = 792327
i=1
Puis on obtient
792327
V (x) = − (147.86)2 ' 146
36
Lorsque les données sont regroupées par classe ou que l’on n’a pas accès aux données brutes, on calcule la
variance à partir de la formule suivante :
p n
!
1X 1 X
V (x) = ni (mi − x)2 = ni m2i − x2
n i=1 n i=1
Exemple.
Si on reprend le tableau des effectifs des durées du groupe 1, on calcule ainsi :
Classes [110, 120[ [120, 130[ [130, 140[ [140, 150[ [150, 160[ [160, 170[ [170, 180[
Effectifs (ni ) 1 1 7 9 13 4 1
Centres de classe (xi ) 115 125 135 145 155 165 175
ni xi 115 125 945 1305 2015 660 175
ni x2i 13225 15625 127575 189225 312325 108900 30625
On remarque que l’écart entre les deux résultats n’est pas négligeable. On privilégie toujours le calcul à
partir des données brutes.
19
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
• à peu près 99,7% des valeurs sont situées à moins de trois écarts-types de la moyenne.
x−σ x x+σ x − 2σ x x + 2σ
Définition.
Le coefficient de Yule est une mesure de comparaison de l’étalement à gauche et à droite entre les
quartiles d’une série de données :
(Q3 − Q2 ) − (Q2 − Q1 )
Y =
(Q3 − Q2 ) + (Q2 − Q1 )
6. Indicateur de concentration
On peut aussi s’intéresser aux disparités de répartition des valeurs d’une variable entre les individus en
regardant si une faible part des individus concentrent une part importante des unités globales de la variable.
Cette étude peut se faire si la variable d’intérêt vérifie deux critères :
• l’addition des différentes valeurs prises doit avoir un sens ;
• le partage de la masse globale du caractère doit être possible.
Un exemple classique est les salaires d’individus, dans une entreprise ou un pays.
6.1. Exemple
Une entreprise présente la répartition des revenus suivante :
20
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
Densité
Salaire
6.2. Masse
Pour étudier les disparité de répartition (de salaires) par exemple, on introduit le concept de masse.
Définition.
La masse globale d’une variable est la somme de toutes les unités de la variable prises par l’ensemble
des individus de la population :
n
X K
X
xi = nk mk
i=1 k=1
De même, la masse d’une classe correspond à la somme des unités de la variable prises par les
individus de la classe :
nk × mk ou nk × ck
On note gk la part de la masse totale détenue par les individus d’une classe,
nk × mk nk × ck
gk = Pn ou gk ' Pn
x
i=1 i i=1 xi
et on note Gk la part de masse cumulée par les individus de la classe k et des classes inférieures
Gk = g1 + g2 + · · · + gk
Effectifs Fréquence Fréq. cum. Centre de Masses salariale Part de masse Part cum.
Classes
ni fi Fi classe xi ni xi salariale gi Gi
[500; 1500[ 50 0.25 0.25 1 000 50 000 0.125 0.125
[1500; 2500[ 125 0.625 0.875 2 000 250 000 0.625 0.75
[2500; 5500[ 25 0.125 1 4 000 100 000 0.25 1
Total 200 1 400 000 1
Dans le tableau précédent, on peut observer que les 25% des plus faibles salaires touchent 12.5% de la masse
salariale, tandis que 12.5% des plus haut en touchent 25%.
Le salaire maximal que touchent 50% des employés correspond au concept de médiale.
21
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
6.3. Médiale
Définition.
La médiale est la plus petite valeur de la variable telle que les individus prenant une valeur inférieure
au égale à celle-ci représentent 50% de la masse totale de la variable.
Dans notre exemple, la médiale est dans la classe [1500; 2500[. On peut obtenir une valeur approchée par
lecture graphique sur la représentation des parts cumulées de masse. Mais on peut également l’obtenir par
un calcul similaire à celui de la médiane.
Ici on a :
M ` − 1500 0.5 − 0.125 0.375
= ⇔ M ` = 1500 + 1000 × = 2100
2500 − 1500 0.75 − 0.5 0.625
Proposition.
La médiale est toujours supérieure ou égale à la médiane.
En effet, 50 % des effectifs cumulées croissants ne permettent jamais d’atteindre plus de 50% de la masse
totale.
La comparaison des valeurs de la médiale et de la médiane constitue une mesure de la concentration. Il s’agit
de l’écart médiale-médiane.
• Lorsque l’écart entre la médiale et la médiane est important par rapport à l’étendue de la distribution de
la variable, la concentration est forte.
• Si la distribution est égalitaire, la concentration est faible et l’écart entre la médiale et la médiane est
faible.
Cet indicateur de concentration ne prend pas en compte toutes les comparaisons de parts de masse cumulées
et de fréquences cumulées. Pour avoir une information plus globale, on peut représenter les parts de masse
cumulées en fonction des fréquences cumulées.
Définition.
La courbe de concentration ou courbe de Lorenz d’une variable correspond à la représentation
graphique des parts de masse cumulée en fonction des fréquences cumulées.
22
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
Courbe de concentration
1.0
0.8
0.6
Gk
0.4
0.2
0.0
0.8
ite
rfa
pa
é
0.6
it
al
Gk
ég
d’
ite
0.4
ro
D
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Fk
• Répartition 2.
1.0
Tranche 1 Tranche 2
0.8
ite
1 350 e 2 975 e
rfa
Salaires
pa
ité
0.6
al
0.40.405
ro
D
0.2
0.0
0.6
0.0 0.2 0.4 0.6 0.8 1.0
• Répartition 3.
Fk
1.0
Tranche 1 Tranche 2
0.8
ite
850 e 4 683.33 e
rfa
Salaires
pa
é
0.6
it
al
0.4
ro
D
0.2975
0.2
0.0
0.7
0.0 0.2 0.4 0.6 0.8 1.0
23
Fk
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
• Répartition 4.
1.0
Tranche 1 Tranche 2
0.8
it e
500 e 8 000 e
fa
Salaires
r
pa
ité
0.6
l
ga
Effectifs 800 200 Gk
é
d’
te
0.4
i
ro
D
0.2 0.2
0.0
0.8
0.0 0.2 0.4 0.6 0.8 1.0
• Répartition 5.
Fk
1.0
Tranche 1 Tranche 2
0.8
ite
220 e 18 020 e
rfa
Salaires
pa
é
0.6
lit
ga
Effectifs 900 100 Gk
é
d’
ite
0.4
ro
D
0.2
0.099
0.0
0.9
0.0 0.2 0.4 0.6 0.8 1.0
• Répartition 6.
Fk
1.0
Tranche 1 Tranche 2
0.8
ite
20 e 198 020 e
rfa
Salaires
pa
é
0.6
lit
ga
Effectifs 990 10 Gk
é
d’
0.4 ite
ro
D
0.2
0.0
0.0099
0.99
0.0 0.2 0.4 0.6 0.8 1.0
• Répartition 7.
Fk
1.0
Tranche 1 Tranche 2
0.8
ite
2e 1998 002 e
rfa
Salaires
pa
ité
0.6
al
Gk
ég
0.4
i
ro
D
0.2
0.0
0.000999
0.999
0.0 0.2 0.4 0.6 0.8 1.0
Fk
On remarque que la courbe de concentration s’éloigne de la droite d’égalité parfaite lorsque la répartition des
revenus est de plus en plus inégalitaire.
24
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
1.0Courbe de concentration
Dans le graphique ci-contre, la zone hachurée est dé-
0.8
limitée par la droite d’égalité parfaite et la courbe de
concentration. L’aire du triangle sous la droite d’égalité
0.6
parfaite vaut 0.5 donc la zone hachurée a pour aire Gk
au maximum 0.5. En multipliant cette aire par 2, on 0.4
obtient un indice toujours compris entre 0 et 1.
En pratique, on calcule la surface sous l’aire de la 0.2
courbe puis on soustrait celle-ci à 0.5 et on multiplie
par 2. 0.0
0.0 0.2 0.4 0.6 0.8 1.0
Fk
Proposition.
L’indice de Gini vérifie plusieurs propriétés.
• On a toujours 0 6 IG 6 1.
• En cas d’égalité parfaite, on a IG = 0.
• Plus IG est proche de 1, plus l’inégalité est grande (par exemple, cela signifie qu’une grande part
des richesses est détenue par peu d’individus).
L’indice de Gini résume une partie de l’information contenue dans la courbe de concentration. C’est un
premier indicateur de la concentration des unités de la variable (souvent des richesses).
Formule mathématique
G1 + G2
En observant la méthode « graphique » précédente, on remarque que S2 = f2 × .
2
K
Gk−1 + Gk X Gk−1 + Gk
En posant G0 = 0, on obtient la formule suivante Sk = fk et A = fk .
2 k=1
2
Avec K le nombre de classe, fk la fréquence de la ie classe et Gk la part cumulée de la masse de la ie classe,
on obtient
K
X
IG = 1 − 2A = 1 − fk (Gk−1 + Gk )
k=1
25
CHAPITRE 1. STATISTIQUES À UNE VARIABLE
26
Chapitre 2
Statistiques bivariées
2. Notations
Pour X et Y deux variables statistiques, on note :
• x1 , x2 , . . . , xp , les p modalités de X ;
• y1 , x2 , . . . , yq , les q modalités de Y ;
• ni,j l’effectif des individus ayant pour caractère (xi , yj ) ;
• n•j l’effectif des individus prenant la modalité yj pour le caractère Y ;
• ni• l’effectif des individus prenant la modalité xi pour le caractère X ;
• n•• = n l’effectif total de la population.
Exemple.
Ici on a :
n4• = 16418, n4,5 = 22539, n•2 = 148138
27
CHAPITRE 2. STATISTIQUES BIVARIÉES
Ces notations seront utiles plus particulièrement lorsque les variables seront quantitatives pour exprimer les
moyennes, les variances et d’autres valeurs que nous définirons ultérieurement.
On remarque les relations suivantes :
q
X p
X p
X q
X
ni• = nij n•j = nij n= ni• = n•j
j=1 i=1 i=1 i=1
3. Distributions
Le tableau de contingence des effectifs n’est pas toujours aisé à lire. On se ramène souvent aux fréquences.
Définition.
La distribution jointe de (X, Y ) correspond aux fréquences d’observations des différents couples de
modalités. Elle correspond à l’ensemble fréquences suivantes :
ni,j
fi,j =
n
Dans notre exemple, la distribution jointe est donnée par le tableau suivant :
Les colonne et ligne de totaux correspondent aux distributions, dite marginales, des caractères pris indivi-
duellement.
Définition.
La distribution marginale de X correspond à la distribution univariée de X. Elle correspond aux
fréquences suivantes :
ni• ni•
fi = =
n•• n
28
CHAPITRE 2. STATISTIQUES BIVARIÉES
Définition.
La distribution marginale de Y correspond à la distribution univariée de Y . Elle correspond aux
fréquences suivantes :
n•j n•j
f•j = =
n•• n
Dans un second temps, il peut être intéressant de pouvoir comparer les distributions d’une des variables en
fonction de l’autre.
Définition.
La distribution conditionnelle de X sachant Y = yj correspond à la distribution de X parmi
les individus prenant la modalité yj pour la variable Y . Elle correspond aux fréquences suivantes :
ni,j
fi|yj =
n•j
Les distributions conditionnelles des CSP pour chaque filière sont données par le tableau suivant :
Chaque colonne du tableau représentant une distribution conditionnelle de X selon une modalité de Y , on
parle parfois de profils colonne de X. Pour observer les liens entre les deux variables étudiées, on peut
comparer les profils colonne entre eux ou avec la distribution marginale.
Par exemple ici, on remarque que les étudiants dont les parents exercent une profession libérale ou sont
cadres supérieurs sont surreprésentés parmi les étudiants en santé.
On peut présenter ce tableau sous forme de graphique :
29
CHAPITRE 2. STATISTIQUES BIVARIÉES
Retraités, inactifs
Non renseigné
0.6
0.4
0.2
0.0
De la même façon, on peut s’intéresser aux profils ligne. Dans notre exemple, cela correspond aux distributions
des filières universitaires par catégorie socio-professionnelles.
Définition.
La distribution conditionnelle de Y sachant X = xi correspond à la distribution de Y parmi
les individus prenant la modalité xi pour la variable X. Elle correspond aux fréquences suivantes :
nij
fj|xi =
ni•
Les distributions conditionnelles des filières pour chaque CSP sont données par le tableau suivant :
Agriculteurs 12 13 26 23 14 12 100
Artisans, commerçants, 17 14 26 19 14 10 100
chefs d’entreprise
Professions libérales, cadres 16 10 25 20 21 8 100
supérieurs
Professions intermédiaires 12 9 31 22 14 11 100
Employés 14 12 33 21 10 11 100
Ouvriers 12 13 32 22 9 12 100
Retraités, inactifs 15 13 37 18 11 6 100
Non renseigné 10 14 33 17 23 3 100
Ensemble 14 12 30 20 16 9 100
Dans ce tableau, on observe que la dernière ligne correspond à la distribution marginale des filières.
On peut présenter ce tableau sous forme de graphique :
30
CHAPITRE 2. STATISTIQUES BIVARIÉES
0.8
0.6
0.4
0.2
0.0
Agriculteurs
Artisans
Commerçants
Chefs d’entreprise
Professions Libérales
Cadres Supérieurs
Professions
Intermédiaires
Employés
Ouvriers
Retraité Inactifs
Non renseigné
Ensemble
L’observation des distributions jointe, marginales et conditionnelles a été effectuée dans le cas de deux
variables qualitatives mais elle peut être faite avec tout type de variables. Cependant quand au moins une
des deux variables est quantitative d’autres notions peuvent être introduites.
Définition.
On appelle moyenne marginale de X la valeur suivante :
p p
1X X
x= ni• xi = fi• xi
n i=1 i=1
p !
1 X
On a bien sûr toujours VX = ni• x2i − x2 . Il s’agit des simples moyenne et variance de la variable
n i=1
considérée seule. Les fréquences apparaissant dans le calcul sont celles de la distribution marginale. Si on
utilise les fréquences conditionnelles, on obtient les notions de moyennes et variances conditionnelles.
31
CHAPITRE 2. STATISTIQUES BIVARIÉES
Définition.
La moyenne conditionnelle de X conditionnée par Y = yj est la valeur
p p
1 X X
xj = nij xi = fi|yj xi
n•j i=1 i=1
Appliquons cela à l’étude du taux d’hémoglobine dans le sang selon le sexe de l’individu. On considère une
série statistique de 60 taux d’hémoglobine dans le sang (g/L) mesurés chez des adultes (30 hommes et 30
femmes) présumés en bonne santé. La série est rangée par valeurs croissantes du taux.
F F F F F F F F F F F F H F F F F F F F
115 116 118 122 122 123 123 127 128 129 129 132 134 134 134 136 137 137 137 138
H H H F H F F F F F H F F H F H F H H H
140 140 140 140 141 141 141 144 146 148 149 149 149 150 150 151 153 155 155 156
H H H H H H H H H H H F H H H H H H H H
158 159 160 160 161 161 161 164 164 164 165 168 170 172 172 172 175 176 177 183
Homme Femme
]110, 120] 0 3
H ]120, 130] 0 8
]130, 140] 4 9
]140, 150] 3 8
F ]150, 160] 8 1
]160, 170] 8 1
]170, 180] 6 0
120 130 140 150 160 170 180 ]180, 190] 1 0
32
CHAPITRE 2. STATISTIQUES BIVARIÉES
Définition.
On appelle variance intergroupes la variance de X si dans chaque groupe tous les individus prenaient
comme valeur la moyenne au sein du groupe.
p
1X
Vinter = ni• (xi − x)2
n i=1
Rapport de corrélation
Naturellement le ratio entre l’inertie intergroupes et l’inertie totale constitue un indicateur de l’intensité du
lien entre les deux variables.
33
CHAPITRE 2. STATISTIQUES BIVARIÉES
Définition.
On appelle rapport de corrélation entre les variables X quantitative et Y qualitative la valeur
suivante
2 Vinter
ηX|Y =
VX
Cette valeur exprime la proportion que représente la variance expliquée par rapport à la variance totale.
Proposition.
Le rapport de corrélation vérifie les propriétés suivantes.
2
• On a toujours 0 6 ηX|Y 6 1.
2
• Si ηX|Y = 0, alors Vinter = 0 donc tous les groupes ont la même moyenne. Il n’y a pas de différence
entre les groupes. La variance est uniquement due aux disparités au sein de chaque groupe.
2
• Si ηX|Y = 1, alors Vintra = 0. Au sein de chaque groupe il n’y a pas de variation. La variation de
X est entièrement due à la différence entre groupes.
Interprétation.
2
• Plus ηX|Y est proche de 0, plus c’est la variation au sein de chaque groupe et non la différence entre les
groupes qui influe sur les variations de X.
2
• A contrario, plus ηX|Y est proche de 1, plus c’est la différence entre les groupes qui explique la variation
du caractère X.
Toutes les études et observations faites dans les autres cas sont toujours possibles quitte à regrouper en
classes les modalités des variables si ces variables sont continues ou disposent de modalités trop nombreuses.
Lorsque que l’on étudie deux variables quantitatives X et Y , on peut les représenter graphiquement, c’est-
à-dire observer les couples (xi , yi ) dans un repère. Ce type de graphique est appelé nuage de points. Voici
quelques exemples :
10
8
6
Y
Y
5
4
2
0
0
0 5 10 15 20 0 5 10 15 20
X X
34
CHAPITRE 2. STATISTIQUES BIVARIÉES
0 20 40 60 80 100
-10 -8 -6 -4 -2 0
Y
Y
0 5 10 15 20 0 5 10 15 20
X X
5.2. Quantification du lien
Définition.
La covariance de deux séries statistiques X et Y est la quantité notée Cov(X, Y ) définie par :
n
1X
Cov(X, Y ) = (xi − x)(yi − y)
n i=1
Proposition.
On a n
1X
Cov(X, Y ) = (xi yi ) − x × y
n i=1
Voici une série d’exemples permettant de mieux comprendre ce que quantifie la covariance.
+
40 50 60 70 80 90
(xi − x) (yi − y) < 0 (xi − x) (yi − y) > 0 (xi − x) (yi − y) < 0 (xi − x) (yi − y) > 0
+ +++ +
30
++ ++
++
++ + +
+++ +++ +
+ + + ++ +
20
+ + +
+ + + +
+ ++ ++++ +
+
Y
++
+ +
+
++++ +
+ ++
+ + +
+
++
10
++ ++ ++ +
+ ++ ++++ + +
+++ +++
+ +++ +
0
+
(xi − x) (yi − y) > 0 (xi − x) (yi − y) < 0 (xi − x) (yi − y) > 0 (xi − x) (yi − y) < 0
-10
+
10 15 20 25 30 35 40 10 15 20 25 30 35 40
X X
−+
(xi + (yi −+y) < 0 (xi −
x) + +x) (yi − y)
+> 0 + (xi − x) (yi − y) <(x
0 i − x) (yi − y) > 0 +
+ + + + +
-200 0 200 400 600 800
+
+
+ + ++ ++ + ++
++
+
+++ +++++
++
+ + ++ + + + + ++ + ++
+
+ + + + ++ ++ ++ + +
+
+ + + + + +++++
+
+
+++
+++ +
+
+
+
++++++
+ ++ ++ + + +
+++
+++++ + ++
+++
+
++
+++ +
+ +++ +
+ + ++ + +
+++
+++ ++
+
++ ++ + + +++ +++ +++
+ +
++
+++ +++
+++ + ++
+ ++ + +
+ + ++ +++ ++ +
+ + ++ + +
++ + +
Y
+ ++ ++ +++++ +++
+ + + +++ +++ +
+ + + +
+ + + + +++++++++
+
+
+
++ +++
+
+
+
+
+
+++ +++ ++
+
+
++++
+++++
+++
+
+
+
+ ++ + +++++++++ + ++
+
+ ++
++
+ + + ++ +
+ +
+ +
+
+ + + +
+ +
++ + ++ +++ +
+ + ++ +++ ++ +++
+++
++ +
+
++ ++ +
++ +
++++
+
+ +
+
+
+
+
+
+++ +
++
++ +
+ ++
+
+
+ + ++
+ + +
++
+
++
+
+
++
++
+
++
+
+
+
+++
+ + +++
++
+
+ +
+
+
+
+
++ ++
+++
+ + +
++ + +
+ ++ +
+ + + ++ ++
+ + +++ +++
++ + +
++ + +
++ +
+ 0 (x
+ ++ +
+
+
++ ++
+ +
+
+
++
(xi − x) (yi − y) > + i − x) (yi − y) < 0
+
(xi − x) (yi − y) > 0+ +
+ + +
(xi − x) (yi − y) < 0
0
0 10 20 30 40 50 0 10 20 30 40 50
X X
35
CHAPITRE 2. STATISTIQUES BIVARIÉES
Interprétation
• si Cov(x, y) > 0, on dit que les variables sont corrélées positivement : « quand x augmente, y a tendance
à augmenter également ».
• si Cov(x, y) < 0, on dit que les variables sont corrélées négativement : « quand x augmente, y a tendance
à diminuer également ».
Remarques
Définition.
Le coefficient de corrélation de deux séries statistiques quantitatives X et Y est la quantité notée ρx,y
définie par :
Cov(X, Y ) Cov(X, Y )
ρx,y = =p
σX σY V (X)V (Y )
Proposition.
Le coefficient de corrélation linéaire vérifie les propriétés suivantes.
• −1 6 ρx,y 6 1
• La corrélation linéaire est d’autant plus significative que la valeur de ρx,y est proche de 1 en valeur
absolue.
ρ = −0.085 ρ = 0.817
10
15
8
10
6
Y
Y
4
5
2
0
0
0 5 10 15 20 0 5 10 15 20
X X
ρ = −0.943 ρ = 0.147
0 20 40 60 80 100
-8 -6 -4 -2 0
Y
Y
-12
0 5 10 15 20 0 5 10 15 20
X X
36
CHAPITRE 2. STATISTIQUES BIVARIÉES
(yi − axi − b) = 0
i
37
CHAPITRE 2. STATISTIQUES BIVARIÉES
X
(yi − ŷi )2 minimale
i
(y4 − ŷ4 )2
(y5 − ŷ5 )2
Y
(y3 − ŷ3 )2
(y2 − ŷ2 )2
(y1 − ŷ1 )2
Proposition.
Soient (X, Y ) un couple de variables statistiques quantitatives. La droite de régression (des moindres
carrés) est la droite d’équation y = ax + b avec :
Cov(X, Y ) Cov(X, Y )
a= = 2
V(X) σX
b = y − ax
0 0
X vouloir 2expliquer X par Y et rechercher une droite d’équation x = a y + b , et chercher à
On peut aussi
minimiser (xi − x̂i ) on obtient alors
i
Cov(X, Y )
a0 = et b0 = x − a0 y
σY2
38
CHAPITRE 2. STATISTIQUES BIVARIÉES
X
(xi − x̂i )2 minimale
i
(y4 − ŷ4 )2
(y5 − ŷ5 )2
(y3 − ŷ3 )2
(y1 − ŷ1 )2
(y2 − ŷ2 )2
Exemple
Soit deux variables quantitatives X et Y sur une population de 20 individus les données sont regroupées
dans le tableau ci-dessous :
200
180
160
Y
140
120
100
80
20 30 40 50 60
39
CHAPITRE 2. STATISTIQUES BIVARIÉES
D’où
Et finalement on a
Cov(X, Y ) = 296.2239, ρ(X, Y ) = 0.845
200
180
160
Y
140
120
100
80
20 30 40 50 60
Dans les quatre cas, on a le coefficient de régression linéaire qui vaut environ 0.82.
Exemple 1 Exemple 2
12.5
10.0
7.5
5.0
Exemple 3 Exemple 4
12.5
10.0
7.5
5.0
5 10 15 5 10 15
40
CHAPITRE 2. STATISTIQUES BIVARIÉES
X 9 35 23 33 12 39 23 19 4 27
Y 164 548 317 513 192 655 332 238 84 290
Y 422 199 138 532 273 149 380 621 288 197
X 29 16 4 33 21 12 31 36 25 21
Y
300
200
100
5 10 15 20 25 30 35 40
X
On observe que le nuage n’a pas une forme vraiment allongé, mais plutôt incurvé qui suggère le modèle
suivant :
y = β × αx
z = ln(β · αx )
= ln(β) + ln(αx )
= ln(β) + x ln(α)
= b + ax
Ainsi avec ce changement de variable on se ramène à un ajustement linéaire que l’on peut constater :
X 9 35 23 33 12 39 23 19 4 27
Z = ln Y 5.1 6.31 5.76 6.24 5.26 6.48 5.81 5.47 4.43 5.67
X 29 16 4 33 21 12 31 36 25 21
Z = ln Y 6.05 5.29 4.93 6.28 5.61 5 5.94 6.43 5.66 5.28
41
CHAPITRE 2. STATISTIQUES BIVARIÉES
6.5
6.0
5.5
Z
5.0
4.5
5 10 15 20 25 30 35 40
X X X X X
xi = 452 x2i = 12334 zi = 113 zi2 = 644.4 xi zi = 2662.22
i i i i i
2
x = 22.6 z = 5.65 σX = 105.94 σZ2 = 0.29723 Cov(X, Z) = 5.421
a = 0.05117 b = 4.49355 ρ(X, Z) = 0.966
α = ea = 1.0525 β = eb = 89.44
100 200 300 400 500 600 700
Y
0
0 10 20 30 40
42
CHAPITRE 2. STATISTIQUES BIVARIÉES
Autres transformations
En changeant de variable, on peut parfois retrouver une relation linéaire, voici quelques cas courant.
α 1
y= +β y=α +β y = aX + b α = a et β = b
x x
|{z}
X
α 1 1 β 1 b
y= = x+ Y = ax + b α= et β =
x+β y α
|{z} α
|{z} a a
|{z}
Y a b
43