0% ont trouvé ce document utile (0 vote)
49 vues45 pages

L1 SD Poly

Le document est un polycopié de cours sur les statistiques descriptives, destiné aux étudiants en économie pour l'année académique 2020-2021. Il couvre des sujets tels que les statistiques à une variable, les tableaux synthétiques, les représentations graphiques, ainsi que les indicateurs de tendance centrale et de dispersion. Le document inclut également des statistiques bivariées et des analyses de lien entre variables, avec des exemples pratiques et des définitions clés.

Transféré par

mohammed.shimi2
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
49 vues45 pages

L1 SD Poly

Le document est un polycopié de cours sur les statistiques descriptives, destiné aux étudiants en économie pour l'année académique 2020-2021. Il couvre des sujets tels que les statistiques à une variable, les tableaux synthétiques, les représentations graphiques, ainsi que les indicateurs de tendance centrale et de dispersion. Le document inclut également des statistiques bivariées et des analyses de lien entre variables, avec des exemples pratiques et des définitions clés.

Transféré par

mohammed.shimi2
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

L1 É CONOMIE ou AUTRES Année 2020-2021

M ODULE 2 - O UTILS Q UANTITATIFS


ou
M ODULE 3 - É CONOMIE

S TATISTIQUES D ESCRIPTIVES

Polycopié de cours

Julie Scholler
Table des matières

Chapitre 1 - Statistiques à une variable 3


1.1 Descriptions des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Données brutes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Un peu de vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Tableaux synthétiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Tableau d’effectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Tableau de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Diagramme à secteurs circulaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.2 Diagramme en barres ou en bâtons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Indicateur de tendance centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.1 Le(s) mode(s) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2 La moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.3 La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.4 Les quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1 Étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.2 Écart interquartile et diagramme en boite . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.3 Variance et écart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5.4 Autres indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6 Indicateur de concentration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6.2 Masse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.6.3 Médiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6.4 Courbe de concentration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6.5 Interprétation de la courbe de concentration . . . . . . . . . . . . . . . . . . . . . . . . 23
1.6.6 Indice de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Chapitre 2 - Statistiques bivariées 27


2.1 Exemple introductif avec deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.1 Distribution jointe ou conjointe et distributions marginales . . . . . . . . . . . . . . . 28
2.3.2 Distributions conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Cas où au moins une variable est quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4.1 Caractéristiques marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4.2 Caractéristiques conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.3 Analyse de variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5 Étude du lien de deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.1 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.2 Quantification du lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.3 Ajustement linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.5.4 Exemple de régression non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

1
TABLE DES MATIÈRES

2
Chapitre 1

Statistiques à une variable

1. Descriptions des données


1.1. Données brutes
Basons nous sur un exemple factice pour présenter les notions qui vont être étudiées. Il s’agit d’une enquête
réalisée auprès de 807 adultes. Les résultats sont présentés partiellement dans le tableau ci-dessous qui précise
pour chaque individu :
• le genre ;
• le nombre de personnes constituant le foyer ;
• le diplôme ;
• la durée quotidienne moyenne passée devant la télévision.

Numéro Genre Foyers Diplôme Durée TV


1 F 2 Bac 102
2 H 3 Aucun Diplôme 155
3 H 2 Sup Bac+2 144
4 F 1 Bac+2 132
5 F 3 Bac+2 111
6 F 1 Aucun Diplôme 144
7 F 4 Bac 120
8 F 2 Bac+2 119
9 H 3 Aucun Diplôme 143
10 H 1 Sup Bac+2 139
.. .. .. .. ..
. . . . .
807 H 1 Bac+2 122

On peut se poser plusieurs questions lorsque l’on observe ces données.


• Comment organiser les résultats pour avoir une lecture synthétique ?
• Quelle est la proportion de femmes ?
• Quelle est la moyenne des durées passées devant la TV ?
• Comment se répartissent les durées passées devant la TV ?
• Peut-on considérer que la moyenne de durée pour cet échantillon est la même pour l’ensemble de la
population des enfants de 7 ans francophone ?
• Les moyennes de durées sont-elles les mêmes entre hommes et femmes ?
• Les temps passées devant la TV dépendent-elles du type de foyer ?

3
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

1.2. Un peu de vocabulaire


Avant de commencer, précisons un peu de vocabulaire couramment utilisé en statistique.

Définition.
Population : ensemble concerné par une étude statistique.
Individu : tout élément de la population étudiée.
Échantillon : sous-ensemble de la population toute entière.
Taille de la population : nombre d’individus dans la population.
Variable : caractéristique définie sur la population et observée sur la population ou un échantillon,
appelée aussi caractère.
Modalités d’une variable : valeurs que peut prendre la variable.
Données : ensemble des individus observés, ensemble des variables considérées, ainsi que les valeurs
de ces variables pour ces individus.

En début d’étude statistique, on se pose les questions suivantes.


• Quelle est la population étudiée ? On précise alors la taille de l’échantillon/population.
• Quel(s) est (sont) le(s) caractère(s) ou variable(s) étudiée(s) ? Quel est le type de chaque caractère ou
variable ?

Remarque.
La première question n’est pas toujours évidente, lorsque la population étudiée est elle-même numérique,
comme par exemple une fréquence d’apparition, ou fré[Link] nous aider à déterminer la population,
on peut se demander la taille de celle-ci.

Dans l’exemple, on a la situation suivante.


• La population est directement définie dans l’énoncé : 807 adultes.
• Les variables sont citées dans l’énoncé : genre, nombre de personnes dans le foyer, diplôme et durée
devant la télévision.
Ces variables sont de différents types.

Définition.
Une variable est dite quantitative si ses modalités sont mesurables, numériques.
On parle de variable quantitative discrète si les modalités éventuelles sont en nombre fini et de variable
quantitative continue si les modalités éventuelles ne sont pas en nombre fini, par exemple si elles
peuvent prendre n’importe quelle valeur dans un intervalle donné.

Définition.
Une variable est dite qualitative si elle n’est pas quantitative.
On parle de variable qualitative ordinale si ses modalités sont ordonnées et de variable qualitative
nominale si ses modalités ne peuvent pas être ordonnées.

Ici on a les types de variables suivants.


• Le genre est une variable qualitative nominale.
• Le nombre de personnes dans le foyer est une une variable quantitative qui ne peut prendre que des
valeurs entières, elle est donc quantitative discrète.
• Le diplôme est une variable qualitative ordinale.

4
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

• La durée devant la télévision est une variable quantitative. Les résultats sont exprimés en minutes mais
toutes les valeurs de l’intervalle [0; 1440[ sont possibles (bien qu’on choisisse d’arrondir les résultats à la
minute). Elle est donc quantitative continue.

2. Tableaux synthétiques
Un premier travail pour chaque variable consiste à regrouper les données brutes par modalités.

2.1. Tableau d’effectifs


Variables qualitatives ou quantitatives discrètes
Après un travail de comptage automatique informatique, on obtient ce type de tableau :
• Pour la variable Genre :

Genre F H
Effectifs 407 400

• Pour la variable diplôme :

Diplôme Aucun Diplôme Brevet CAP,BEP Bac Bac+2 Sup Bac+2


Effectifs 209 44 206 151 90 107

• Pour la variable Foyer :

Foyer 1 2 3 4 5
Effectifs 277 263 118 94 55

Variable quantitative continue


On peut faire le même type de tableau mais il est peu lisible.

Durées 97 99 101

i ci eu x
102
! 103 104 105 106 107 108 109 110 111 112 113 114 115

d
Effectifs 1 2 4 5 3 1 4 2 6 6 3 5 11 8 12 8 16
Durées
Effectifs
Durées
116
13
133
Non
117
9
134
j u
118

135
7
119
10
136
120
23
137
121
18
138
122
9
139
123
17
140
124
21
141
125

142
21
126

143
19
127
22
144
128
21
145
129
22
146
130
17
147
131
20
148
132
20
149
Effectifs 25 17 15 29 20 27 17 16 21 24 15 13 18 15 14 18 13
Durées 150 151 152 153 154 155 156 157 158 159 160 161 164 166 167 168 171
Effectifs 10 14 11 9 10 2 4 10 6 6 6 5 5 2 1 2 1

Dans ce cas, il est intéressant de regrouper les valeurs dans des classes. On a par exemple ce tableau :

Durées [95; 100[ [100; 105[ [105; 110[ [110; 115[ [115; 120[ [120; 125[ [125; 130[ [130; 135[
Effectifs 3 13 21 44 55 88 105 99
Durées [135; 140[ [140; 145[ [145; 150[ [150; 155[ [155; 160[ [160; 165[ [165; 170[ [170; 175[
Effectifs 108 89 78 54 28 16 5 1

5
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

Notations
De façon générale, on note :
• n la taille de l’échantillon ;
• xi la valeur de la variable pour l’individu no i (i variant de 1 à n).
Dans le cas où la variable est quantitative discrète ou qualitative, on note :
• M le nombre de modalités différentes ;
• m1 , . . . , mM les modalités ;
• ni le nombre d’individus prenant la modalité mi , pour tout i entre 1 et M .
Dans le cas où la variable est quantitative continue (regroupée en classe), on note :
• C le nombre de classes différentes ;
• b0 < b1 < . . . < bC : les bornes des classes avec b0 6 mini∈J1,M K (mi ) et br > maxi∈J1,M K (mi ) ;
• [b0 , b1 [, [b1 , b2 [, . . ., [bC−1 , bC ] : les classes de modalité ;
• nk : nombre d’individus dont la modalité est dans la k e classe.
M
X C
X
On remarque que n = n1 + n2 + · · · + nM = ni ou n = n1 + n2 + · · · + nC = ni .
i=1 i=1

Remarque.
Dans la pratique, on utilise toujours les données brutes pour effectuer l’ensemble des calculs via un logiciel
de statistiques. Les tableaux synthétiques permettent de présenter les résultats, mais à partir de ces seuls
tableaux, on ne peut observer les liens qui peuvent exister entre les variables.

2.2. Tableau de fréquences


J’utiliserai fréquence au sens de fréquence relative, et non de fréquence absolue qui correspond à l’effectif.
Souvent dans les tableaux synthétiques, on présente aussi les fréquences :

Définition.
La fréquence fi d’une modalité mi est donnée par la relation :
ni
fi =
n
où ni est l’effectif de la modalité mi et n la taille de la population.

Pour des raisons de facilité de lecture, les fréquences sont souvent présentées en pourcentage.

M
X
On remarque que fi = 1.
i=1

Exemple.
• Pour la variable Genre :

Genre F H
Effectifs 407 400
Fréquences 0.504 0.496

• Pour la variable Diplôme :

6
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

Diplôme Aucun Diplôme Brevet CAP,BEP Bac Bac+2 Sup Bac+2


Effectifs 209 44 206 151 90 107
Fréquences (%) 25.9 5.5 25.5 18.7 11.2 13.3

3. Représentations graphiques

3.1. Diagramme à secteurs circulaires


Dans l’absolu, il peut être construit pour tous les types de variables. Il permet d’observer les fréquences de
chaque modalités.

Dans ce type de graphique, les angles (et la surface du secteur) sont proportionnels aux fréquences. Les
angles en degré sont obtenus en multipliant par 360 les fréquences ou par 3.6 les fréquences en %.

Exemple.
Toujours pour la variable diplôme :

Diplôme Aucun Diplôme Brevet CAP,BEP Bac Bac+2 Sup Bac+2


Effectifs 209 44 206 151 90 107
Fréquences en pourcentage 0.259 0.055 0.255 0.187 0.112 0.133
Angle 93 20 92 67 40 48

Répartition des diplômes

Brevet 5 %
Aucun Diplôme 26 %

CAP,BEP 26 %

Sup Bac+2 13 %

Bac 19 % Bac+2 11 %

Bien que très répandus, je vous déconseille ce type de graphique car l’information y est plus difficile d’accès
que dans un diagramme en bâtons.

3.2. Diagramme en barres ou en bâtons


Le diagramme en bâtons est adapté pour les variables quantitatives discrètes et les variables qualitatives en
particulier ordinales.
La hauteur des barres ou des bâtons est alors proportionnelle à l’effectif (et à la fréquence).
Voici deux exemples :
• pour la variable diplôme :

7
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

Répartition de la population selon le diplôme

200

150
Effectifs

100

50

0
Aucun Diplôme Brevet CAP,BEP Bac Bac+2 Sup Bac+2
• pour la variable fsoyer :
Répartition du nombre de personnes par foyer

250

200
Effectifs

150

100

50

1 2 3 4 5

Remarque.
Les « barres » peuvent être élargies pour une meilleure lisibilité. De plus ce type de graphique ne nécessite
pas une origine, on choisit les valeurs min et max de l’axe des abscisses qui permettent d’avoir la meilleure
lisibilité.

3.3. Histogramme
Il est utilisé pour représenter les variables quantitatives continues, en regroupant les données par classe.

Classes ayant la même amplitude


Il s’agit du cas le plus fréquent, utilisé par défaut par les logiciels de statistiques. Si on reprend l’exemple des
durées des 807 adultes, en regroupant par des classes d’amplitude 10 :

Durées [90; 100[ [100; 110[ [110; 120[ [120; 130[ [130; 140[ [140; 150[ [150; 160[ [160; 170[ [170; 180[
Effectifs 3 34 99 193 207 167 82 21 1

8
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

On obtient l’histogramme suivant :


250

200

150
Effectifs

100

50

90 100 110 120 130 140 150 160 170 180

Durée

Le principe de l’histogramme est de représenter la fréquence ou l’effectif par des rectangles dont la base est
constituée par les classes positionnées en abscisse. Si les classes ont même amplitude la surface de chaque
rectangle est aussi proportionnelle à la hauteur.

Deux questions se posent.


1. Combien de classes sont nécessaires ?
2. Quel choix doit être fait pour les bornes ?
En effet voici 3 exemples où l’on fait varier l’amplitude.
100 150 200 250 300
50

100
40

80
30
Effectifs

Effectifs

Effectifs
60
20

40
10

20

50
0

100 120 140 160 180 100 120 140 160 180 100 120 140 160 180

Durées Durées Durées

Quelques remarques sur ces 3 histogrammes :


• avec une amplitude de 2, l’histogramme perd en lisibilité, il y a des « cassures » entre certaines classes ;
• le second histogramme comporte 11 classes d’amplitude 5. Il s’agit de celui obtenu par défaut par le
logiciel de statistiques R, qui calcule le nombre de classe avec la formule de Sturges (1 + 3.332 log10 n) ;
• le troisième graphique montre de trop grandes variations entre les classes.

Remarque.
En regardant les axes des ordonnées on observe des changements d’échelles. En effet en élargissant les
amplitudes pour une même hauteur on obtient une surface plus grande et donc un effectifs plus important. Il
ne faut pas oublier que ce sont les surfaces des rectangles qui correspondent à l’effectif !

9
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

Classes ayant des amplitudes différentes

Il peut s’avérer nécessaire de segmenter plus finement une population, et de construire des classes d’amplitudes
différentes. Dans ce cas, l’histogramme ne peut plus être construit de la même façon si on souhaite que les
rectangles restent proportionnels aux effectifs et fréquences.
On rappelle les notations suivantes :
• C le nombre de classes différentes ;
• b0 < b1 < . . . < bC les bornes des classes avec b0 6 mini∈J1,M K (mi ) et br > maxi∈J1,M K (mi ) ;
• [b0 , b1 [, [b1 , b2 [, . . ., [bC−1 , bC ] : les classes de modalité ;
• nk : nombre d’individus dont la modalité est dans la k e classe.
Pour calculer la hauteur des rectangles correspondant à chaque classe, il faut tenir compte de l’amplitude
(largeur) de chaque classe.
On note ak = bk − bk−1 l’amplitude de la k e classe.
Pour chaque classe on détermine la densité de fréquence di définie par :

fi
di =
ai

di nous donnera la hauteur de chaque « rectangle ».


Appliquons avec ces valeurs :

Durées [95; 100[ [100; 105[ [105; 110[ [110; 115[ [115; 120[ [120; 130[ [130; 140[
Effectifs ni 3 13 21 44 55 193 207
Fréquences fi 0.00372 0.01611 0.02602 0.05452 0.06815 0.23916 0.25651
Densités di 0.00074 0.00322 0.00520 0.01090 0.01363 0.02392 0.02565

Durées [140; 145[ [145; 150[ [150; 155[ [155; 160[ [160; 165[ [165; 170[ [170; 175[
Effectifs ni 89 78 54 28 16 5 1
Fréquences fi 0.11029 0.09665 0.06691 0.03470 0.01983 0.00620 0.00124
Densités di 0.02206 0.01933 0.01338 0.00694 0.00397 0.00124 0.00025

0.030 0.030

0.025 0.025

0.020 0.020
Densités

Densités

0.015 0.015

0.010 0.010

0.005 0.005

0.000 0.000

100 120 140 160 180 100 120 140 160 180

Durées Durées

10
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

4. Indicateur de tendance centrale


On souhaite comparer deux groupes extraits de l’enquête :
• groupe 1 : les hommes célibataires sans diplôme ;
• groupe 2 : les femmes.
On construit les histogrammes avec la même échelle en utilisant la densité :
0.00 0.01 0.02 0.03 0.04 0.05

0.00 0.01 0.02 0.03 0.04 0.05


Densités

Densités
100 120 140 160 180 100 120 140 160 180

Durée TV Durée TV

On observe en particulier deux faits :


• l’histogramme du groupe 2 est décalé sur la gauche par rapport au groupe 1, la durée devant la télévision
est globalement plus courte pour le groupe 2, les groupes ne se « positionnent » pas au même « endroit »,
• l’histogramme du groupe 1 est moins étalé que celui du groupe 2 : les résultats du groupe 1 sont moins
dispersés que ceux du groupe 2.
Il est nécessaire de pouvoir quantifier ces différences. Le premier point va faire appel à des indicateurs dits
de position ou de tendance centrale. Le deuxième point correspond à des indicateurs de dispersion.

4.1. Le(s) mode(s)

Définition.
Le ou les mode(s) sont les valeurs les plus fréquentes dans la distribution des variables.

Par exemple, pour la variable Diplôme, le mode est « CAP, BEP ». Pour la variable Foyer, le mode est 5.

Diplôme Aucun Diplôme Brevet CAP,BEP Bac Bac+2 Sup Bac+2


Effectifs 209 44 206 151 90 107

Foyer 1 2 3 4 5
Effectifs 277 263 118 94 55

Remarque.
• Le mode n’est pas nécessairement unique.
• Si les données sont regroupées en classe, on parle de classe modale. La classe modale n’est pas le classe
ayant l’effectif ou la fréquence la plus élevée mais celle ayant la densité de fréquence ou d’effectif la plus
élevée.

11
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

4.2. La moyenne

Définition.
La moyenne, notée x, d’une variable quantitative est définie par :
n
1X
x= xi
n i=1

où n est la taille de la population et xi les valeurs prises par les n individus.

Lorsque les données sont regroupées dans un tableau d’effectifs pour une variable discrète, on utilise la
formule suivante :
M
1X
x= nk mk
n k=1

où M est le nombre de modalités différentes, mi la valeur de la ie modalité et ni le nombre d’individus


prenant pour valeur la ie modalité.
Lorsque l’on souhaite calculer la moyenne d’une variable quantitative continue et que l’on ne dispose que
d’un tableau d’effectif, on ne peut faire qu’un calcul approché de la moyenne.
bk + bk+1
On définit le centre de la classe [bk ; bk+1 [ par ck = . Et en faisant l’hypothèse que les valeurs sont
2
réparties symétriquement autour du centre classe, on a
M
1X
x' nk ck
n k=1

Exemple.
Calculons la moyenne des durées pour le groupe 1 (hommes célibataires sans diplôme) qui contient 36
individus. Voici les données extraites pour le groupe 1 :

115 124 131 132 135 135 136 139 139


141 141 145 145 146 147 148 149 149
150 150 150 151 151 151 152 154 154
156 157 157 158 164 166 166 168 171

On utilise la formule sur les données brutes :


36
X 5323
xi = 115 + 135 + 139 + · · · + 171 = 5324 et on a x = ' 147.8611 ' 148
i=1
36
Lorsque l’on dispose uniquement du tableau avec les données regroupées en classes, on utilise les centres de
classe :

Classes [110, 120[ [120, 130[ [130, 140[ [140, 150[ [150, 160[ [160, 170[ [170, 180[
Effectifs (ni ) 1 1 7 9 13 4 1
Centres de classe (ci ) 115 125 135 145 155 165 175
n i ci 115 125 945 1305 2015 660 175

On obtient donc :
1 1
x' (1 × 115 + 1 × 125 + 7 × 135 . . . + 1 × 175) ' × 5340 ' 148.33 ' 148
36 36
On remarque que les valeurs sont proches mais elles ne sont pas égales. Il faut privilégier la première méthode
lorsque l’on a les données brutes.

12
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

Proposition.
• La somme des écarts des observations à la moyenne (xi − x) est nulle :
n
X
(xi − x) = 0
i=1

• La moyenne d’une somme de caractères est la somme des moyennes de ces caractères.
• La somme des carrés des écarts des observations à la moyenne est inférieure à la somme des carrés
des écarts par rapport à toute autre valeur.

4.3. La médiane

Définition.
La médiane est une valeur qui partage la population de telle façon que la moitié de la population
possédé une valeur du caractère inférieure à la médiane, l’autre moitié supérieure.

Pour déterminer la médiane, on distingue deux cas de figures.


1. On possède les données brutes (que la variable soit 
discrète ou continue), on ordonne les valeurs et :
n+1 e

• si l’effectif est impair, la médiane est la valeur de la série ;
2 e
ne n

• si l’effectif est pair, on prend la moyenne de la et + 1 valeur (ou la première de ces deux
2 2
valeurs).
2. Pour une variable quantitative dont on ne possède que le tableau des effectifs par classe, on doit calculer
les fréquences cumulées et effectuer une interpolation linéaire (voir exemple).

Exemple.
Reprenons l’exemple des durées devant la télévision pour le groupe 1 :

115 124 131 132 135 135 136 139 139


141 141 145 145 146 147 148 149 149
150 150 150 151 151 151 152 154 154
156 157 157 158 164 166 166 168 171
La taille de la population est de 36, la médiane doit partager la population en deux groupes de 18. La 18e
valeur est 149 et la 19e est 150 ainsi :
149 + 150
Me = = 149.5 ou M e = 149
2
Supposons que la dernière valeur 171 soit aberrante et que nous l’excluons de la population. Il reste alors 35
valeurs on choisit alors la 18e valeur 149, et il y a 17 valeurs inférieures et 17 supérieures.

Exemple.
Reprenons le cas de la variable foyer :

Foyer 1 2 3 4 5
Effectifs 277 263 118 94 55
Fréquences 0.343 0.326 0.146 0.116 0.068
Fréq. Cum. 0.343 0.669 0.815 0.932 1

13
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

La médiane est 2 car plus de la moitié de la population prend une valeur inférieure ou égale à 2 et plus de la
moitié de la population prend une valeur supérieure ou égale à 2. On peut également lire la valeur de la
médiane sur la représentation graphique des fréquences cumulées.

1.0
Fréquences cumulées

0.8
0.75

0.6
0.50

0.4
0.25

0.2

0.0
Q1 Me Q3
1 2 3 4 5

Taille des Foyers

Exemple.
Étudions maintenant le groupe 2. Et utilisons le tableau des effectifs par classe, on calcule alors les fréquences
et les fréquences cumulées et on obtient le tableau suivant :

Classes [90, 100[ [100, 110[ [110, 120[ [120, 130[ [130, 140[ [140, 150[ [150, 160[ [160, 170[
Effectifs (ni ) 3 33 86 128 97 47 12 1
Fréquences (fi ) 0.0074 0.0811 0.2113 0.3145 0.2383 0.1155 0.0295 0.0025
Fréquences cumulées (Fi ) 0.0074 0.0885 0.2998 0.6143 0.8526 0.9681 0.9976 1.0001

À partir de celui-ci on trace la courbe cumulative :

1.0
Fréquences cumulées

0.8

0.6

0.4

0.2
Me
0.0
90 100 110 120 130 140 150 160 170 180

Durée en min

14
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

La lecture graphique, nous permet d’établir que M e ' 125. On peut aussi la déterminer par le calcul en
faisant une interpolation linéaire. On repère tout d’abord l’intervalle dans lequel se trouve la médiane ici
[240, 300[

Bornes 120 Me 130


Fréq. cum. 0.2998 0.5 0.6143

On considérant la proportionnalité des accroissements, on a :


M e − 120 0.5 − 0.2998
=
130 − 120 0.6143 − 0.2998
0.2002
M e − 120 = 10 ×
0.3145
M e − 120 ' 6.37
M e ' 120 + 6.37
M e ' 126

Dans la pratique, on travaillera avec des données brutes donc on appliquera la première méthode, mais il est
intéressant d’avoir en tête la représentation du diagramme des fréquences cumulées.

4.4. Les quantiles


La médiane est un quantile particulier celui qui correspond au partage de la population en deux. On peut
définir les quantiles qui partage la population en 4 : les quartiles qui sont associés au seuil 25%, 50% et 75%.
On définit aussi les déciles par tranche de 10%.

Définition.
Pour tout α dans [0; 1], le quantile en α est le plus petit réel, noté xα , tel qu’une proportion α des
valeurs de la variable lui soient inférieures.
On appelle quantiles d’ordre q les (q − 1) valeurs qui divisent les valeurs (ordonnées) de la série en q
parties égales.

Remarque.
• On appelle quartiles les quantiles d’ordre 4 qui correspondent aux quantiles en 0.25, 0.5 et 0.75. Ils
sont notés Q1 , Q2 et Q3 . Q2 correspond à la médiane.
• On appelle déciles les quantiles d’ordre 10 qui correspondent aux quantiles en 0.1, 0.2, . . . , 0.9.
• On appelle centiles les quantiles d’ordre 100 qui correspondent aux quantiles en 0.01, 0.02, . . . , 0.99.

Exemple.
Reprenons l’exemple précédent du groupe 1 en supprimant la dernière valeur.

115 124 131 132 135 135 136 139 139


141 141 145 145 146 147 148 149 149
150 150 150 151 151 151 152 154 154
156 157 157 158 164 166 166 168

On veut déterminer le premier quartile Q1 , i.e. le quantile en 0.25. On doit avoir 0.25 × 35 = 8.75 valeurs
inférieures à Q1 , on choisit donc la 9e qui sera la plus petite valeur tel qu’au moins 25% aient une valeur
inférieure : Q1 =139. De même le 3e quartile doit avoir 35 × 0.75 = 26.25 valeurs inférieures, Q3 , correspond
à la 27e valeur soit 154.

15
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

On peut aussi déterminer les quantiles par lecture graphique sur le diagramme des fréquences cumulées
croissantes pour le groupe 2 :

1.0

0.8
0.75
Fréquences Cumulées

0.6

0.4
0.25

0.2

0.0
Q1 Q3
90 100 120 140 160 180

Durée en min

5. Paramètres de dispersion
Nous avons pu constater que les moyenne et médiane permettent de positionner les séries statistiques.
Maintenant il nous faut quantifier la manière dont les valeurs sont dispersées autours de la moyenne ou de la
médiane.

5.1. Étendue

Définition.
On appelle étendue l’écart entre la plus grande et la plus petite valeur de la série de données.

Cette valeur est facile à calculer mais elle est très sensible aux valeurs extrêmes.

5.2. Écart interquartile et diagramme en boite

Définition.
On appelle écart interquartile la valeur Q3 − Q1 .

Cette valeur est moins sensible aux valeurs extrêmes. Souvent on représente graphiquement l’écart interquartile
et les quartiles à l’aide d’un diagramme en boîte.

Exemple.
Regardons la durée de lectures pour les deux groupes. On a les informations suivantes obtenus à partir des
données brutes. :

16
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

Min Q1 Médiane Q3 Max


Groupe 1 115 139 149.5 154 171
Groupe 2 97 117 126 135 164

À partir de ces données, on obtient les diagrammes en boîte suivants.

Comparaison G1/G2

Groupe 2

Groupe 1

100 120 140 160

Durée

Sur ces graphiques on peut observer que :

• les durées sont plus étendues pour le groupe 2 :

– l’étendue du groupe 1 : e1 = 171 − 115 = 56 ;


– l’étendue du groupe 2 : e2 = 164 − 97 = 67 ;

• les 50% situés autour de la médiane sont plus dispersés dans le groupe 2 :

– l’écart interquartile du groupe 1 est Q3 − Q1 = 154 − 139 = 15 ;


– l’écart interquartile du groupe 2 est Q3 − Q1 = 135 − 117 = 18

Remarque.
L’écart interquartile est particulièrement pertinent pour comparer des groupes entre eux. Le diagramme en
boîte sert aussi à observer une dissymétrie de la répartition de la population.

5.3. Variance et écart type

Pour quantifier la dispersion de la population, un point de vue possible est d’étudier les écarts avec la
moyenne.

Pour l’exemple des durées, on peut centrer les données en soustrayant la moyenne x = 147.86. Lorsque l’on
calcule les écarts à la moyenne, il y a des valeurs positives et des valeurs négatives (voir tableau à la suite).
Leur somme est nulle par définition de la moyenne.
On pourrait prendre la valeur absolue de chacune de ces valeurs et calculer une moyenne, on définit alors
l’écart absolu moyen. Il est plus utile et pratique mathématiquement de prendre le carré des écarts. Il n’y a
plus de problèmes de signes. On définit ainsi la variance.

17
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

Durée xi xi − x (xi − x)2 Durée xi xi − x (xi − x)2


151 3.14 9.85 115 -32.86 1079.85
164 16.14 260.46 148 0.14 0.02
149 1.14 1.3 139 -8.86 78.52
136 -11.86 140.69 150 2.14 4.57
145 -2.86 8.19 131 -16.86 284.3
149 1.14 1.3 132 -15.86 251.57
168 20.14 405.57 150 2.14 4.57
141 -6.86 47.07 154 6.14 37.69
158 10.14 102.8 150 2.14 4.57
135 -12.86 165.41 166 18.14 329.02
157 9.14 83.52 166 18.14 329.02
135 -12.86 165.41 151 3.14 9.85
139 -8.86 78.52 141 -6.86 47.07
147 -0.86 0.74 124 -23.86 569.35
154 6.14 37.69 152 4.14 17.13
151 3.14 9.85 157 9.14 83.52
145 -2.86 8.19 156 8.14 66.24
146 -1.86 3.46 171 23.14 535.41

Définition.
La variance est la moyenne des carrés des écarts des observations à la moyenne, c’est-à-dire :
n
1X
V (x) = (xi − x)2
n i=1

L’écart type est la racine carrée de la variance :



σ= V

On note aussi la variance par σ 2 .

Proposition.
On a la formule développée suivante
n
!
1 X
V (x) = x2 − x2
n i=1 i

18
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

Exemple.
Ainsi en effectuant la somme de la dernière colonne du tableau précédent on trouve :
36
1 X 1 5262.31
V (x) = (xi − x)2 = (9.85 + · · · + 535.41) = ' 146
36 i=1 36 36
q
σ= V (x) ' 12.1

Dans la pratique on utilise plutôt la 2e formule, on calcule ainsi la somme des carrés :
36
X
xi = 1512 + · · · + 1712 = 792327
i=1

Puis on obtient
792327
V (x) = − (147.86)2 ' 146
36

Lorsque les données sont regroupées par classe ou que l’on n’a pas accès aux données brutes, on calcule la
variance à partir de la formule suivante :
p n
!
1X 1 X
V (x) = ni (mi − x)2 = ni m2i − x2
n i=1 n i=1

avec les mêmes notations que précédemment.

Exemple.
Si on reprend le tableau des effectifs des durées du groupe 1, on calcule ainsi :

Classes [110, 120[ [120, 130[ [130, 140[ [140, 150[ [150, 160[ [160, 170[ [170, 180[
Effectifs (ni ) 1 1 7 9 13 4 1
Centres de classe (xi ) 115 125 135 145 155 165 175
ni xi 115 125 945 1305 2015 660 175
ni x2i 13225 15625 127575 189225 312325 108900 30625

En effectuant la somme de la dernière ligne on a :


7
!
1 X
V = ni x2i − x2
36 i=1
13225 + · · · + 30625
= − 148.332
30
797500
= − 148.332
36
= 150.9889
σ ' 12.3

On remarque que l’écart entre les deux résultats n’est pas négligeable. On privilégie toujours le calcul à
partir des données brutes.

Interpréter et comprendre l’écart type


Beaucoup de variables suivent une répartition dite en « cloche », proche de la répartition d’une loi normale.
Lorsqu’une variable statistique suit une loi normale, on a les propriétés suivantes :
• à peu près 68% des valeurs sont situées à moins de un écart type de la moyenne,
• à peu près 95% des valeurs sont situées à moins de deux écarts-types de la moyenne,

19
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

• à peu près 99,7% des valeurs sont situées à moins de trois écarts-types de la moyenne.

' 68% ' 95%

x−σ x x+σ x − 2σ x x + 2σ

5.4. Autres indicateurs


Il existe de nombreux autres indicateurs.
Pour la dispersion, comme l’écart type est sensible à l’unité. On peut utiliser le coefficient de variation
σx
CV = pour comparer entre elles des données d’unités différentes.
x
Il y a d’autres caractéristiques qui sont étudiées comme l’asymétrie des données ou leur aplatissement. Nous
ne parlerons pas de l’aplatissement ici. Pour l’asymétrie, On peut déjà voir des choses sur les diagrammes en
boîte surtout si l’on ajoute la valeur de la moyenne sur le graphique. Mais il existe également de nombreux
indicateurs numériques. Je vous en présente un seul.

Définition.
Le coefficient de Yule est une mesure de comparaison de l’étalement à gauche et à droite entre les
quartiles d’une série de données :

(Q3 − Q2 ) − (Q2 − Q1 )
Y =
(Q3 − Q2 ) + (Q2 − Q1 )

Il vérifie les propriétés suivantes :


• Y = 0 si Q1 et Q3 sont équidistants de Q2 ;
• Y > 0 : si on est en présence d’un étalement à droite ;
• Y < 0 : si on est en présence d’un étalement à gauche.

6. Indicateur de concentration
On peut aussi s’intéresser aux disparités de répartition des valeurs d’une variable entre les individus en
regardant si une faible part des individus concentrent une part importante des unités globales de la variable.
Cette étude peut se faire si la variable d’intérêt vérifie deux critères :
• l’addition des différentes valeurs prises doit avoir un sens ;
• le partage de la masse globale du caractère doit être possible.
Un exemple classique est les salaires d’individus, dans une entreprise ou un pays.

6.1. Exemple
Une entreprise présente la répartition des revenus suivante :

Effectifs Fréquences Amplitude Densité Fréq. Cum.


Classes
ni fi en ke di Fi
[500; 1500[ 50 0.25 1 0.25 0.25
[1500; 2500[ 125 0.625 1 0.625 0.875
[2500; 5500[ 25 0.125 3 0.042 1
Total 200 1

20
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

L’histogramme permet de visualiser la situation.

Répartition des revenus

Densité

1000 2000 3000 4000 5000

Salaire

6.2. Masse
Pour étudier les disparité de répartition (de salaires) par exemple, on introduit le concept de masse.

Définition.
La masse globale d’une variable est la somme de toutes les unités de la variable prises par l’ensemble
des individus de la population :
n
X K
X
xi = nk mk
i=1 k=1

De même, la masse d’une classe correspond à la somme des unités de la variable prises par les
individus de la classe :
nk × mk ou nk × ck

On note gk la part de la masse totale détenue par les individus d’une classe,
nk × mk nk × ck
gk = Pn ou gk ' Pn
x
i=1 i i=1 xi

et on note Gk la part de masse cumulée par les individus de la classe k et des classes inférieures
Gk = g1 + g2 + · · · + gk

Dans notre exemple, on a :

Effectifs Fréquence Fréq. cum. Centre de Masses salariale Part de masse Part cum.
Classes
ni fi Fi classe xi ni xi salariale gi Gi
[500; 1500[ 50 0.25 0.25 1 000 50 000 0.125 0.125
[1500; 2500[ 125 0.625 0.875 2 000 250 000 0.625 0.75
[2500; 5500[ 25 0.125 1 4 000 100 000 0.25 1
Total 200 1 400 000 1

Dans le tableau précédent, on peut observer que les 25% des plus faibles salaires touchent 12.5% de la masse
salariale, tandis que 12.5% des plus haut en touchent 25%.
Le salaire maximal que touchent 50% des employés correspond au concept de médiale.

21
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

6.3. Médiale

Définition.
La médiale est la plus petite valeur de la variable telle que les individus prenant une valeur inférieure
au égale à celle-ci représentent 50% de la masse totale de la variable.

Dans notre exemple, la médiale est dans la classe [1500; 2500[. On peut obtenir une valeur approchée par
lecture graphique sur la représentation des parts cumulées de masse. Mais on peut également l’obtenir par
un calcul similaire à celui de la médiane.
Ici on a :
M ` − 1500 0.5 − 0.125 0.375
= ⇔ M ` = 1500 + 1000 × = 2100
2500 − 1500 0.75 − 0.5 0.625

Proposition.
La médiale est toujours supérieure ou égale à la médiane.

En effet, 50 % des effectifs cumulées croissants ne permettent jamais d’atteindre plus de 50% de la masse
totale.

La comparaison des valeurs de la médiale et de la médiane constitue une mesure de la concentration. Il s’agit
de l’écart médiale-médiane.

• Lorsque l’écart entre la médiale et la médiane est important par rapport à l’étendue de la distribution de
la variable, la concentration est forte.

• Si la distribution est égalitaire, la concentration est faible et l’écart entre la médiale et la médiane est
faible.

Cet indicateur de concentration ne prend pas en compte toutes les comparaisons de parts de masse cumulées
et de fréquences cumulées. Pour avoir une information plus globale, on peut représenter les parts de masse
cumulées en fonction des fréquences cumulées.

6.4. Courbe de concentration

Définition.
La courbe de concentration ou courbe de Lorenz d’une variable correspond à la représentation
graphique des parts de masse cumulée en fonction des fréquences cumulées.

La courbe de concentration est obtenue en plaçant les points de coordonnées (Fk , Gk ).


Dans notre exemple, on obtient :

22
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

Courbe de concentration

1.0
0.8
0.6
Gk

0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0


Fk

6.5. Interprétation de la courbe de concentration


Soit une entreprise ayant une masse salariale totale de 200 000 e et n = 1 000 employés.
• Répartition 1. Si la répartition est égalitaire, chaque employé touche 2 000 e. On obtient alors la courbe
de concentration suivante :
1.0

0.8
ite
rfa
pa
é

0.6
it
al

Gk
ég
d’
ite

0.4
ro
D

0.2

0.0
0.0 0.2 0.4 0.6 0.8 1.0

Fk
• Répartition 2.

1.0
Tranche 1 Tranche 2
0.8
ite

1 350 e 2 975 e
rfa

Salaires
pa
ité

0.6
al

Effectifs 600 400 Gk


ég
d’
ite

0.40.405
ro
D

0.2

0.0
0.6
0.0 0.2 0.4 0.6 0.8 1.0
• Répartition 3.
Fk
1.0
Tranche 1 Tranche 2
0.8
ite

850 e 4 683.33 e
rfa

Salaires
pa
é

0.6
it
al

Effectifs 700 300 Gk


ég
d’
ite

0.4
ro
D

0.2975
0.2

0.0
0.7
0.0 0.2 0.4 0.6 0.8 1.0
23
Fk
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

• Répartition 4.
1.0
Tranche 1 Tranche 2
0.8

it e
500 e 8 000 e

fa
Salaires

r
pa
ité
0.6

l
ga
Effectifs 800 200 Gk

é
d’
te
0.4

i
ro
D
0.2 0.2

0.0
0.8
0.0 0.2 0.4 0.6 0.8 1.0
• Répartition 5.
Fk
1.0
Tranche 1 Tranche 2
0.8

ite
220 e 18 020 e

rfa
Salaires

pa
é
0.6

lit
ga
Effectifs 900 100 Gk

é
d’
ite
0.4

ro
D
0.2
0.099

0.0
0.9
0.0 0.2 0.4 0.6 0.8 1.0
• Répartition 6.
Fk
1.0
Tranche 1 Tranche 2
0.8

ite
20 e 198 020 e

rfa
Salaires

pa
é
0.6

lit
ga
Effectifs 990 10 Gk

é
d’
0.4 ite
ro
D

0.2

0.0
0.0099
0.99
0.0 0.2 0.4 0.6 0.8 1.0
• Répartition 7.
Fk
1.0
Tranche 1 Tranche 2
0.8
ite

2e 1998 002 e
rfa

Salaires
pa
ité

0.6
al

Gk
ég

Effectifs 600 400


d’
te

0.4
i
ro
D

0.2

0.0
0.000999
0.999
0.0 0.2 0.4 0.6 0.8 1.0

Fk
On remarque que la courbe de concentration s’éloigne de la droite d’égalité parfaite lorsque la répartition des
revenus est de plus en plus inégalitaire.

6.6. Indice de Gini


L’indice de Gini permet de quantifier l’éloignement de la courbe de concentration à la droite d’égalité parfaite.
Définition.
L’indice de Gini IG est égal à deux fois l’aire entre la courbe de concentration et la droite d’égalité
parfaite.

24
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

1.0Courbe de concentration
Dans le graphique ci-contre, la zone hachurée est dé-
0.8
limitée par la droite d’égalité parfaite et la courbe de
concentration. L’aire du triangle sous la droite d’égalité
0.6
parfaite vaut 0.5 donc la zone hachurée a pour aire Gk
au maximum 0.5. En multipliant cette aire par 2, on 0.4
obtient un indice toujours compris entre 0 et 1.
En pratique, on calcule la surface sous l’aire de la 0.2
courbe puis on soustrait celle-ci à 0.5 et on multiplie
par 2. 0.0
0.0 0.2 0.4 0.6 0.8 1.0
Fk
Proposition.
L’indice de Gini vérifie plusieurs propriétés.
• On a toujours 0 6 IG 6 1.
• En cas d’égalité parfaite, on a IG = 0.
• Plus IG est proche de 1, plus l’inégalité est grande (par exemple, cela signifie qu’une grande part
des richesses est détenue par peu d’individus).

L’indice de Gini résume une partie de l’information contenue dans la courbe de concentration. C’est un
premier indicateur de la concentration des unités de la variable (souvent des richesses).

Calcul de l’exemple de l’indice de Gini dans notre exemple


1. On détermine l’aire de chaque zone sous la courbe de concen-
Courbe de concentration tration
1.0
0.125
S1 = 0.25 × = 0.015625
0.8 2
0.125 + 0.75
S2 = 0.625 × = 0.2734375
0.6 2
Gk 0.75 + 1
S3 S3 = 0.125 × = 0.109375
2
0.4
S2 2. On en déduit l’aire sous la courbe de concentration :
0.2
A = S1 + S2 + S3 = 0.3984375
0.0 S1

0.0 0.2 0.4 0.6 0.8 1.0 3. On déduit l’indice de Gini :

Fk IG = 2(0.5 − A) = 2(0.5 − 0.398) = 0.203

Formule mathématique
G1 + G2
En observant la méthode « graphique » précédente, on remarque que S2 = f2 × .
2
K
Gk−1 + Gk X Gk−1 + Gk
En posant G0 = 0, on obtient la formule suivante Sk = fk et A = fk .
2 k=1
2
Avec K le nombre de classe, fk la fréquence de la ie classe et Gk la part cumulée de la masse de la ie classe,
on obtient
K
X
IG = 1 − 2A = 1 − fk (Gk−1 + Gk )
k=1

25
CHAPITRE 1. STATISTIQUES À UNE VARIABLE

26
Chapitre 2

Statistiques bivariées

1. Exemple introductif avec deux variables qualitatives


On dispose d’une base de données concernant l’origine des étudiants français dans les principales filières
universitaires en 2013-14. La base de données brutes contient 1 281 689 individus, pour lesquels on connaît
en particulier la catégorie socio-professionnelle (CSP) des parents (X) et la filière universitaire suivie (Y ).
Ce long tableau (1 281 689 lignes) peut être synthétisé dans un tableau de contingence de la façon
suivante :

Droit Économie Lettres Sciences Santé DUT Totaux


Agriculteurs 2574 2848 5605 5079 3169 2650 21925
Artisans, commerçants, 16192 13082 25237 18339 13105 9914 95869
chefs d’entreprise
Professions libérales, cadres 62718 37096 97474 78563 81210 30820 387881
supérieurs
Professions intermédiaires 19585 15454 51583 36759 22539 18269 164189
Employés 21853 18592 52431 34164 16464 17032 160536
Ouvriers 16811 18003 43269 30768 11879 16355 137085
Retraités, inactifs 25757 22299 62962 29685 17982 9625 168310
Non renseigné 15172 20764 47661 24742 32977 4578 145894
Totaux 180662 148138 386222 258099 199325 109243 1281689

2. Notations
Pour X et Y deux variables statistiques, on note :
• x1 , x2 , . . . , xp , les p modalités de X ;
• y1 , x2 , . . . , yq , les q modalités de Y ;
• ni,j l’effectif des individus ayant pour caractère (xi , yj ) ;
• n•j l’effectif des individus prenant la modalité yj pour le caractère Y ;
• ni• l’effectif des individus prenant la modalité xi pour le caractère X ;
• n•• = n l’effectif total de la population.

Exemple.
Ici on a :
n4• = 16418, n4,5 = 22539, n•2 = 148138

27
CHAPITRE 2. STATISTIQUES BIVARIÉES

Ces notations seront utiles plus particulièrement lorsque les variables seront quantitatives pour exprimer les
moyennes, les variances et d’autres valeurs que nous définirons ultérieurement.
On remarque les relations suivantes :
q
X p
X p
X q
X
ni• = nij n•j = nij n= ni• = n•j
j=1 i=1 i=1 i=1

3. Distributions
Le tableau de contingence des effectifs n’est pas toujours aisé à lire. On se ramène souvent aux fréquences.

3.1. Distribution jointe ou conjointe et distributions marginales

Définition.
La distribution jointe de (X, Y ) correspond aux fréquences d’observations des différents couples de
modalités. Elle correspond à l’ensemble fréquences suivantes :
ni,j
fi,j =
n

Dans notre exemple, la distribution jointe est donnée par le tableau suivant :

en % Droit Économie Lettres Sciences Santé DUT Totaux

Agriculteurs 0.2 0.2 0.4 0.4 0.2 0.2 1.7


Artisans, commerçants, 1.3 1 2 1.4 1 0.8 7.5
chefs d’entreprise
Professions libérales, cadres 4.9 2.9 7.6 6.1 6.3 2.4 30.3
supérieurs
Professions intermédiaires 1.5 1.2 4 2.9 1.8 1.4 12.8
Employés 1.7 1.5 4.1 2.7 1.3 1.3 12.5
Ouvriers 1.3 1.4 3.4 2.4 0.9 1.3 10.7
Retraités, inactifs 2 1.7 4.9 2.3 1.4 0.8 13.1
Non renseigné 1.2 1.6 3.7 1.9 2.6 0.4 11.4

Totaux 14.1 11.6 30.1 20.1 15.6 8.5 100

Les colonne et ligne de totaux correspondent aux distributions, dite marginales, des caractères pris indivi-
duellement.

Définition.
La distribution marginale de X correspond à la distribution univariée de X. Elle correspond aux
fréquences suivantes :
ni• ni•
fi = =
n•• n

28
CHAPITRE 2. STATISTIQUES BIVARIÉES

Définition.
La distribution marginale de Y correspond à la distribution univariée de Y . Elle correspond aux
fréquences suivantes :
n•j n•j
f•j = =
n•• n

Dans un second temps, il peut être intéressant de pouvoir comparer les distributions d’une des variables en
fonction de l’autre.

3.2. Distributions conditionnelles

Définition.
La distribution conditionnelle de X sachant Y = yj correspond à la distribution de X parmi
les individus prenant la modalité yj pour la variable Y . Elle correspond aux fréquences suivantes :
ni,j
fi|yj =
n•j

Les distributions conditionnelles des CSP pour chaque filière sont données par le tableau suivant :

en % Droit Économie Lettres Sciences Santé DUT Ensemble

Agriculteurs 1.42 1.92 1.45 1.97 1.59 2.43 1.71


Artisans, commerçants, 8.96 8.83 6.53 7.11 6.57 9.08 7.48
chefs d’entreprise
Professions libérales, cadres 34.72 25.04 25.24 30.44 40.74 28.21 30.26
supérieurs
Professions intermédiaires 10.84 10.43 13.36 14.24 11.31 16.72 12.81
Employés 12.1 12.55 13.58 13.24 8.26 15.59 12.53
Ouvriers 9.31 12.15 11.2 11.92 5.96 14.97 10.7
Retraités, inactifs 14.26 15.05 16.3 11.5 9.02 8.81 13.13
Non renseigné 8.4 14.02 12.34 9.59 16.54 4.19 11.38

Total 100 100 100 100 100 100 100

On remarque que la dernière colonne correspond à la distribution marginale de la variable CSP .

Chaque colonne du tableau représentant une distribution conditionnelle de X selon une modalité de Y , on
parle parfois de profils colonne de X. Pour observer les liens entre les deux variables étudiées, on peut
comparer les profils colonne entre eux ou avec la distribution marginale.

Par exemple ici, on remarque que les étudiants dont les parents exercent une profession libérale ou sont
cadres supérieurs sont surreprésentés parmi les étudiants en santé.
On peut présenter ce tableau sous forme de graphique :

29
CHAPITRE 2. STATISTIQUES BIVARIÉES

1.0 Distributions conditionnelles des CSP selon les filières


Agriculteurs
Artisans, commerçants, chefs d’entreprise
Professions libérales, cadres supérieurs
Professions intermédiaires
Employés
Ouvriers
0.8

Retraités, inactifs
Non renseigné
0.6
0.4
0.2
0.0

Droit Économie Lettres Sciences Santé DUT Ensemble

De la même façon, on peut s’intéresser aux profils ligne. Dans notre exemple, cela correspond aux distributions
des filières universitaires par catégorie socio-professionnelles.

Définition.
La distribution conditionnelle de Y sachant X = xi correspond à la distribution de Y parmi
les individus prenant la modalité xi pour la variable X. Elle correspond aux fréquences suivantes :
nij
fj|xi =
ni•

Les distributions conditionnelles des filières pour chaque CSP sont données par le tableau suivant :

en % Droit Économie Lettres Sciences Santé DUT Sum

Agriculteurs 12 13 26 23 14 12 100
Artisans, commerçants, 17 14 26 19 14 10 100
chefs d’entreprise
Professions libérales, cadres 16 10 25 20 21 8 100
supérieurs
Professions intermédiaires 12 9 31 22 14 11 100
Employés 14 12 33 21 10 11 100
Ouvriers 12 13 32 22 9 12 100
Retraités, inactifs 15 13 37 18 11 6 100
Non renseigné 10 14 33 17 23 3 100

Ensemble 14 12 30 20 16 9 100

Dans ce tableau, on observe que la dernière ligne correspond à la distribution marginale des filières.
On peut présenter ce tableau sous forme de graphique :

30
CHAPITRE 2. STATISTIQUES BIVARIÉES

Distributions conditionnelles des filières selon les CSP


1.0 Droit
Économie
Lettres
Sciences
Santé
DUT

0.8

0.6

0.4

0.2

0.0
Agriculteurs

Artisans
Commerçants
Chefs d’entreprise

Professions Libérales
Cadres Supérieurs

Professions
Intermédiaires

Employés

Ouvriers

Retraité Inactifs

Non renseigné

Ensemble
L’observation des distributions jointe, marginales et conditionnelles a été effectuée dans le cas de deux
variables qualitatives mais elle peut être faite avec tout type de variables. Cependant quand au moins une
des deux variables est quantitative d’autres notions peuvent être introduites.

4. Cas où au moins une variable est quantitative


Si une des variables, par exemple X, est quantitative, on peut poursuivre l’analyse plus loin.
1. On peut déterminer des moyennes conditionnelles pour chaque modalité de Y et des variances condition-
nelles.
2. À partir de ces paramètres, on peut chercher à évaluer l’influence de Y sur la variable X.

4.1. Caractéristiques marginales

Définition.
On appelle moyenne marginale de X la valeur suivante :
p p
1X X
x= ni• xi = fi• xi
n i=1 i=1

On appelle variance marginale de X la valeur suivante :


p p
2 1X X
V X = σX = ni• (xi − x)2 = fi• (xi − x)2
n i=1 i=1

p !
1 X
On a bien sûr toujours VX = ni• x2i − x2 . Il s’agit des simples moyenne et variance de la variable
n i=1
considérée seule. Les fréquences apparaissant dans le calcul sont celles de la distribution marginale. Si on
utilise les fréquences conditionnelles, on obtient les notions de moyennes et variances conditionnelles.

31
CHAPITRE 2. STATISTIQUES BIVARIÉES

4.2. Caractéristiques conditionnelles

Définition.
La moyenne conditionnelle de X conditionnée par Y = yj est la valeur
p p
1 X X
xj = nij xi = fi|yj xi
n•j i=1 i=1

La variance conditionnelle de X conditionnée par Y = yj est la valeur


p p
1 X 2 2
X
Vj = nij xi − xj = fi|yj x2i − x2j
n•j i=1 i=1

Appliquons cela à l’étude du taux d’hémoglobine dans le sang selon le sexe de l’individu. On considère une
série statistique de 60 taux d’hémoglobine dans le sang (g/L) mesurés chez des adultes (30 hommes et 30
femmes) présumés en bonne santé. La série est rangée par valeurs croissantes du taux.
F F F F F F F F F F F F H F F F F F F F
115 116 118 122 122 123 123 127 128 129 129 132 134 134 134 136 137 137 137 138

H H H F H F F F F F H F F H F H F H H H
140 140 140 140 141 141 141 144 146 148 149 149 149 150 150 151 153 155 155 156

H H H H H H H H H H H F H H H H H H H H
158 159 160 160 161 161 161 164 164 164 165 168 170 172 172 172 175 176 177 183

On donne les résultats partiels suivants :


30
X 30
X 30
X 30
X
xi,H = 4785 xi,F = 4066 x2i,H = 767 717 x2i,F = 555 462
i=1 i=1 i=1 i=1
Les notations xi,H (respectivement xi,F ) correspondent aux taux d’hémoglobine des 30 hommes (respec-
tivement des 30 femmes). À partir des données brutes, on obtient les indicateurs synthétiques suivants :
x = 147.52, M e = 148.5 Q1 = 134 Q3 = 161 V = 291.82 σ = 17.1
xH = 159.5, M eH = 160.5 Q1H = 151 Q3H = 165 VH = 150.32 σH = 12.3
xF = 135.53, M eF = 136.5 Q1F = 127 Q3F = 141 VF = 146.12 σH = 12.1
On obtient les diagrammes en boîte suivants. On peut également construire un tableau de contingence après
regroupement en classe des taux d’hémoglobine.

Homme Femme
]110, 120] 0 3
H ]120, 130] 0 8
]130, 140] 4 9
]140, 150] 3 8

F ]150, 160] 8 1
]160, 170] 8 1
]170, 180] 6 0
120 130 140 150 160 170 180 ]180, 190] 1 0

32
CHAPITRE 2. STATISTIQUES BIVARIÉES

4.3. Analyse de variance


Pour approfondir l’étude du lien entre une variable qualitative et une variable quantitative, nous allons voir
un indicateur de lien basé sur les notions de variances intragroupe et de variance intergroupes.

Décomposition de la variance marginale (de la variable quantitative)


Si la population est constituée de plusieurs groupes, la variance totale d’une série de données quantitatives
peut se décomposer en la moyenne des variance au sein des groupes et la variance entre les groupes.
p p
1X 1X
V (X) = ni• Vi (X) + ni• (xi − x)2
n i=1 n i=1
| {z } | {z }
variance intra-groupes variance inter-groupes

La variance marginale représente la variance totale.

Variances intragroupes et intergroupes

Définition.
On appelle variance intergroupes la variance de X si dans chaque groupe tous les individus prenaient
comme valeur la moyenne au sein du groupe.
p
1X
Vinter = ni• (xi − x)2
n i=1

On appelle variance intragroupes la moyenne des variance des sous-groupes.


p
1X
Vintra = ni• Vi (X)
n i=1

La variance intergroupes représente la variance expliquée (par le découpage en groupes) et la variance


intragroupes représente la variance résiduelle.
Effectuons les calculs dans notre exemples (les calculs sont effectués avec les données brutes et non le tableau
de contingence en classes).
On obtient

V (X) = 1323179/60 − 147.522 = 290.83


1
Vintra = (30 × 150.32 + 30 × 146.12) = 148.22
60
1
Vinter = (30 × 159.52 + 30 × 135.532 ) − 147.522 = 142.17
60
En additionnant la variance intra et la variance inter, on constate bien que l’on retrouve la variance totale.
On constate que plus les variables sont liées, plus les groupes déterminés par la variable qualitative sont
homogènes par rapport à la variable quantitative. Donc plus les variables sont liées plus la variance intra est
faible et a fortiori plus la variance inter est grande.

Rapport de corrélation
Naturellement le ratio entre l’inertie intergroupes et l’inertie totale constitue un indicateur de l’intensité du
lien entre les deux variables.

33
CHAPITRE 2. STATISTIQUES BIVARIÉES

Définition.
On appelle rapport de corrélation entre les variables X quantitative et Y qualitative la valeur
suivante
2 Vinter
ηX|Y =
VX

Cette valeur exprime la proportion que représente la variance expliquée par rapport à la variance totale.

Proposition.
Le rapport de corrélation vérifie les propriétés suivantes.
2
• On a toujours 0 6 ηX|Y 6 1.
2
• Si ηX|Y = 0, alors Vinter = 0 donc tous les groupes ont la même moyenne. Il n’y a pas de différence
entre les groupes. La variance est uniquement due aux disparités au sein de chaque groupe.
2
• Si ηX|Y = 1, alors Vintra = 0. Au sein de chaque groupe il n’y a pas de variation. La variation de
X est entièrement due à la différence entre groupes.

Interprétation.
2
• Plus ηX|Y est proche de 0, plus c’est la variation au sein de chaque groupe et non la différence entre les
groupes qui influe sur les variations de X.
2
• A contrario, plus ηX|Y est proche de 1, plus c’est la différence entre les groupes qui explique la variation
du caractère X.

5. Étude du lien de deux variables quantitatives

Toutes les études et observations faites dans les autres cas sont toujours possibles quitte à regrouper en
classes les modalités des variables si ces variables sont continues ou disposent de modalités trop nombreuses.

5.1. Représentation graphique

Lorsque que l’on étudie deux variables quantitatives X et Y , on peut les représenter graphiquement, c’est-
à-dire observer les couples (xi , yi ) dans un repère. Ce type de graphique est appelé nuage de points. Voici
quelques exemples :

Nuage de points dispersé Nuage de points forme allongée


10

10
8
6
Y

Y
5
4
2

0
0

0 5 10 15 20 0 5 10 15 20
X X

34
CHAPITRE 2. STATISTIQUES BIVARIÉES

Nuage de points forme allongée 2 Nuage de points autre relation

0 20 40 60 80 100
-10 -8 -6 -4 -2 0
Y

Y
0 5 10 15 20 0 5 10 15 20
X X
5.2. Quantification du lien

Définition.
La covariance de deux séries statistiques X et Y est la quantité notée Cov(X, Y ) définie par :
n
1X
Cov(X, Y ) = (xi − x)(yi − y)
n i=1

La formule suivante est plus facile à utiliser pour calculer la covariance.

Proposition.
On a n
1X
Cov(X, Y ) = (xi yi ) − x × y
n i=1

Voici une série d’exemples permettant de mieux comprendre ce que quantifie la covariance.

Covariance positive Covariance négative


40

+
40 50 60 70 80 90

(xi − x) (yi − y) < 0 (xi − x) (yi − y) > 0 (xi − x) (yi − y) < 0 (xi − x) (yi − y) > 0
+ +++ +
30

++ ++
++
++ + +
+++ +++ +
+ + + ++ +
20

+ + +
+ + + +
+ ++ ++++ +
+
Y

++
+ +
+
++++ +
+ ++
+ + +
+
++
10

++ ++ ++ +
+ ++ ++++ + +
+++ +++
+ +++ +
0

+
(xi − x) (yi − y) > 0 (xi − x) (yi − y) < 0 (xi − x) (yi − y) > 0 (xi − x) (yi − y) < 0
-10

+
10 15 20 25 30 35 40 10 15 20 25 30 35 40
X X

Covariance nulle Covariance nulle


10 20 30 40 50 60

−+
(xi + (yi −+y) < 0 (xi −
x) + +x) (yi − y)
+> 0 + (xi − x) (yi − y) <(x
0 i − x) (yi − y) > 0 +
+ + + + +
-200 0 200 400 600 800

+
+
+ + ++ ++ + ++
++
+
+++ +++++
++
+ + ++ + + + + ++ + ++
+
+ + + + ++ ++ ++ + +
+
+ + + + + +++++
+
+
+++
+++ +
+
+
+
++++++
+ ++ ++ + + +
+++
+++++ + ++
+++
+
++
+++ +
+ +++ +
+ + ++ + +
+++
+++ ++
+
++ ++ + + +++ +++ +++
+ +
++
+++ +++
+++ + ++
+ ++ + +
+ + ++ +++ ++ +
+ + ++ + +
++ + +
Y

+ ++ ++ +++++ +++
+ + + +++ +++ +
+ + + +
+ + + + +++++++++
+
+
+
++ +++
+
+
+
+
+
+++ +++ ++
+
+
++++
+++++
+++
+
+
+
+ ++ + +++++++++ + ++
+
+ ++
++
+ + + ++ +
+ +
+ +
+
+ + + +
+ +
++ + ++ +++ +
+ + ++ +++ ++ +++
+++
++ +
+
++ ++ +
++ +
++++
+
+ +
+
+
+
+
+
+++ +
++
++ +
+ ++
+
+
+ + ++
+ + +
++
+
++
+
+
++
++
+
++
+
+
+
+++
+ + +++
++
+
+ +
+
+
+
+
++ ++
+++
+ + +
++ + +
+ ++ +
+ + + ++ ++
+ + +++ +++
++ + +
++ + +
++ +
+ 0 (x
+ ++ +
+
+
++ ++
+ +
+
+
++
(xi − x) (yi − y) > + i − x) (yi − y) < 0
+
(xi − x) (yi − y) > 0+ +
+ + +
(xi − x) (yi − y) < 0
0

0 10 20 30 40 50 0 10 20 30 40 50
X X

35
CHAPITRE 2. STATISTIQUES BIVARIÉES

Interprétation

• si Cov(x, y) > 0, on dit que les variables sont corrélées positivement : « quand x augmente, y a tendance
à augmenter également ».
• si Cov(x, y) < 0, on dit que les variables sont corrélées négativement : « quand x augmente, y a tendance
à diminuer également ».

Remarques

• La covariance ne « mesure bien » que les liens linéaires.


• Sa valeur dépend fortement des unités. Son interprétation est donc compliquée. On préfère utiliser le
coefficient de régression linéaire.

Définition.
Le coefficient de corrélation de deux séries statistiques quantitatives X et Y est la quantité notée ρx,y
définie par :
Cov(X, Y ) Cov(X, Y )
ρx,y = =p
σX σY V (X)V (Y )

Proposition.
Le coefficient de corrélation linéaire vérifie les propriétés suivantes.
• −1 6 ρx,y 6 1
• La corrélation linéaire est d’autant plus significative que la valeur de ρx,y est proche de 1 en valeur
absolue.

ρ = −0.085 ρ = 0.817
10

15
8

10
6
Y

Y
4

5
2

0
0

0 5 10 15 20 0 5 10 15 20
X X

ρ = −0.943 ρ = 0.147
0 20 40 60 80 100
-8 -6 -4 -2 0
Y

Y
-12

0 5 10 15 20 0 5 10 15 20
X X

36
CHAPITRE 2. STATISTIQUES BIVARIÉES

5.3. Ajustement linéaire


Soit (xi , yi ) un nuage de points de forme allongée. On cherche une droite qui passerait au « cœur » du nuage
et aurait comme direction l’allongement. Notons D cette droite d’équation y = ax + b. On veut déterminer a
et b tels que l’écart (vertical) quadratique entre les points du nuage et la droite soit minimale. Notons ŷi les
points de la droite de D tels que ŷi = axi + b pour tout i.
On veut minimiser la somme :
(yi − ŷi )2
X

Ce qui revient à déterminer le minimum de la fonction F de deux variables a et b définie par :

(yi − axi − b)2


X
F (a, b) =
i

La résolution de ce type de problème sera effectuée au second semestre :


1. Dérivées partielles.
∂f
 X
 ∂a (a, b) =


 −2xi (yi − axi − b)
i (2.1)
∂f X
 ∂b (a, b) = −2(yi − axi − b)



i

2. Recherche des points critiques.


On doit résoudre
X


 xi (yi − axi − b) = 0
Xi

 (yi − axi − b) = 0


i

La deuxième équation nous donne :


!
X
(yi − axi ) − nb = 0
i
X
nb = (yi − axi )
i
1X 1X
b= yi − a xi
n i n i
= y − ax

En substituant b dans la première équation il vient :


X 
xi yi − ax2i − xi y − axi x = 0
i
!
X X
a (x2i − xi x = (xi yi − xi y)
i i
!
X X X X
a (x2i ) −x xi = (xi yi ) − y xi
i i i i
!
X X
a (x2i ) − nx 2
= (xi yi ) − ny · x
i i
i (xi yi ) − ny · x
P
a= 2 2
− nx
P
i (xi )
Cov(X, Y )
a= 2
σX

37
CHAPITRE 2. STATISTIQUES BIVARIÉES

3. Nature des points critiques.


On détermine la hessienne en ce points.
∂2f X
(a, b) = 2x2i
∂a2 i
∂2f X
(a, b) = 2
∂b2 i
∂2f X
= 2xi
∂a∂b i
X X 
 2x2i 2xi 
i
H = X
 i 

 2xi 2n 
i
X
det(H) = 4(n x2i − n2 x2 ) = 4n2 σX
2
>0
i
On conclut en remarquant que les éléments diagonaux sont positifs donc qu’il s’agit bien d’un minimum.

X
(yi − ŷi )2 minimale
i

(y4 − ŷ4 )2

(y5 − ŷ5 )2

Y
(y3 − ŷ3 )2

(y2 − ŷ2 )2

(y1 − ŷ1 )2

Proposition.
Soient (X, Y ) un couple de variables statistiques quantitatives. La droite de régression (des moindres
carrés) est la droite d’équation y = ax + b avec :

Cov(X, Y ) Cov(X, Y )
a= = 2
V(X) σX
b = y − ax

0 0
X vouloir 2expliquer X par Y et rechercher une droite d’équation x = a y + b , et chercher à
On peut aussi
minimiser (xi − x̂i ) on obtient alors
i
Cov(X, Y )
a0 = et b0 = x − a0 y
σY2

38
CHAPITRE 2. STATISTIQUES BIVARIÉES

X
(xi − x̂i )2 minimale
i

(y4 − ŷ4 )2

(y5 − ŷ5 )2

(y3 − ŷ3 )2

(y1 − ŷ1 )2
(y2 − ŷ2 )2

Exemple
Soit deux variables quantitatives X et Y sur une population de 20 individus les données sont regroupées
dans le tableau ci-dessous :

X 32.1 31.1 29.8 43.8 20.4 45.1 66 56.6 50.3 36.8


Y 128.2 106.1 107.8 124.7 78.6 157.1 215.6 137.1 171.1 137

X 35.2 42.6 55.7 32.4 24.6 33.2 26.4 35.9 40.5 39


Y 141.5 105.4 139.5 104.3 88.6 109.5 79.9 124.1 122.4 131

Observons le nuage de points obtenue :

Nuage de points (xi , yi )


220

200

180

160
Y
140

120

100

80

20 30 40 50 60

On a les résultats partiels suivants :


X X X X X
xi = 777.5, yi = 2509.5, x2i = 32758.63, yi2 = 334283.7, xi yi = 103481.3
i i i i i

39
CHAPITRE 2. STATISTIQUES BIVARIÉES

D’où

x = 38.875, y = 125.475, V (X) = 126.6659, σX = 11.25459, V (Y ) = 970.2079, σY = 31.15

Et finalement on a
Cov(X, Y ) = 296.2239, ρ(X, Y ) = 0.845

Nuage de points (xi , yi )


220

200

180

160
Y
140

120

100

80

20 30 40 50 60

Attention sans la forme du nuage, on obtient rien !

Faire une régression linéaire ou pas ?

Dans les quatre cas, on a le coefficient de régression linéaire qui vaut environ 0.82.

Exemple 1 Exemple 2

12.5

10.0

7.5

5.0

Exemple 3 Exemple 4

12.5

10.0

7.5

5.0

5 10 15 5 10 15

40
CHAPITRE 2. STATISTIQUES BIVARIÉES

5.4. Exemple de régression non linéaire


Lorsque l’on observe un forme du nuage particulière, on peut s’interroger sur l’existence d’un autre modèle.
Lorsque le modèle possède deux paramètres un changement de variable peut parfois le transformer en une
situation où le modèle linéaire s’applique.
Sur une population de 20 individus on a obtenu les données suivantes concernant deux variables statistiques
quantitatives :

X 9 35 23 33 12 39 23 19 4 27
Y 164 548 317 513 192 655 332 238 84 290

Y 422 199 138 532 273 149 380 621 288 197
X 29 16 4 33 21 12 31 36 25 21

Et on obtient le nuage suivant :


600
500
400

Y
300
200
100

5 10 15 20 25 30 35 40

X
On observe que le nuage n’a pas une forme vraiment allongé, mais plutôt incurvé qui suggère le modèle
suivant :

y = β × αx

En appliquant la transformation z = ln y, on obtient le nouveau modèle :

z = ln(β · αx )
= ln(β) + ln(αx )
= ln(β) + x ln(α)
= b + ax

Ainsi avec ce changement de variable on se ramène à un ajustement linéaire que l’on peut constater :

X 9 35 23 33 12 39 23 19 4 27
Z = ln Y 5.1 6.31 5.76 6.24 5.26 6.48 5.81 5.47 4.43 5.67

X 29 16 4 33 21 12 31 36 25 21
Z = ln Y 6.05 5.29 4.93 6.28 5.61 5 5.94 6.43 5.66 5.28

Le nuage est alors ainsi :

41
CHAPITRE 2. STATISTIQUES BIVARIÉES

6.5
6.0
5.5
Z

5.0
4.5

5 10 15 20 25 30 35 40

Déterminons a et b à partir des données suivantes :

X X X X X
xi = 452 x2i = 12334 zi = 113 zi2 = 644.4 xi zi = 2662.22
i i i i i
2
x = 22.6 z = 5.65 σX = 105.94 σZ2 = 0.29723 Cov(X, Z) = 5.421
a = 0.05117 b = 4.49355 ρ(X, Z) = 0.966
α = ea = 1.0525 β = eb = 89.44
100 200 300 400 500 600 700

Y
0

0 10 20 30 40

42
CHAPITRE 2. STATISTIQUES BIVARIÉES

Autres transformations
En changeant de variable, on peut parfois retrouver une relation linéaire, voici quelques cas courant.

Relation Changement Détermination


Réécriture
cherchée de variable des paramètres

α 1
y= +β y=α +β y = aX + b α = a et β = b
x x
|{z}
X

α 1 1 β 1 b
y= = x+ Y = ax + b α= et β =
x+β y α
|{z} α
|{z} a a
|{z}
Y a b

y = βxα ln(y) = α ln(x) + ln(β) Y = aX + b α = a et β = eb


| {z } | {z } | {z }
Y X b

y = βαx ln(y) = ln(α) x + ln(β) Y = ax + b α = ea et β = eb


| {z } | {z } | {z }
Y a b

43

Vous aimerez peut-être aussi