0% ont trouvé ce document utile (0 vote)
55 vues61 pages

POLY2-StatDesc 2023

Ce document présente un cours de statistiques descriptives pour les étudiants de première année en sciences des organisations, dirigé par Katia Meziani. Il couvre des concepts fondamentaux tels que les variables qualitatives et quantitatives, les indicateurs statistiques, ainsi que des exercices pratiques basés sur des jeux de données réelles. Les ressources et outils nécessaires pour l'analyse des données, y compris des macros Excel, sont également mentionnés.

Transféré par

Chaima Cherif
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
55 vues61 pages

POLY2-StatDesc 2023

Ce document présente un cours de statistiques descriptives pour les étudiants de première année en sciences des organisations, dirigé par Katia Meziani. Il couvre des concepts fondamentaux tels que les variables qualitatives et quantitatives, les indicateurs statistiques, ainsi que des exercices pratiques basés sur des jeux de données réelles. Les ressources et outils nécessaires pour l'analyse des données, y compris des macros Excel, sont également mentionnés.

Transféré par

Chaima Cherif
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Partie 2: Statistiques descriptives

Sciences des organisations - 1re année de licence: Statistiques (1LLSOY07)

Responsable de cours: Katia Meziani


Bureau: P207
Email: [email protected]
Lien vers les vidéos de cours:
https:// www.youtube.com/ channel/ UC0i-fDRNfXfkeztGgwlIKpA

Les annales des années précédentes, les informations importantes relatives à cette UE ainsi que
des conseils et consignes pour l’examen final seront mis en ligne sur le canal Teams du module.
Table des matières

1 Introduction aux statistiques descriptives 4


1.1 Introduction générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 A propos des exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Variable qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Variable quantitative discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6 Variable quantitative continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Distributions statistiques univariées : principaux indicateurs 18


2.1 Caractéristiques de tendance centrale et de position . . . . . . . . . . . . . . . . . . . 18
2.1.1 Le mode empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.3 Moyennes géométriques et arithmétiques . . . . . . . . . . . . . . . . . . . . . 19
2.1.4 Les quantiles empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.4.1 Les quantiles empiriques cas de variables continues . . . . . . . . . . 21
2.1.4.2 Les quantiles empiriques : cas de variables discrètes . . . . . . . . . 23
2.2 Caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 L’étendue (empirique) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2 Distance inter-quartiles (empirique) . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3 L’écart absolu moyen (empirique) . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.4 La variance empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.5 L’écart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Représentation graphique : boîte de distribution . . . . . . . . . . . . . . . . . . . . . 26
2.4 Caractéristiques de concentration : Courbe de Lorenz et indice de Gini . . . . . . . . 28
2.5 QQ-plot (graphiques Quantile-Quantile) . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3 Description des distributions statistiques bivariées 41


3.1 Distributions conjointe, marginale et conditionnelle . . . . . . . . . . . . . . . . . . 41
3.1.1 Tableau de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1.2 Distribution conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.3 Distributions marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.4 Distribution conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.1.5 Statistique du Chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Cas particulier des couples de variables quantitatives . . . . . . . . . . . . . . . . . . 49

2
3.2.1 Covariance et coefficient de corrélation linéaire empiriques . . . . . . . . . . . 51
3.2.2 Ajustement linéaire d’un nuage de points . . . . . . . . . . . . . . . . . . . . 55
3.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3
Chapitre 1

Introduction aux statistiques descriptives

1.1 Introduction générale


Supposons que nous disposions d’un ensemble relativement important de données que nous sou-
haitons étudier. En raison du volume important des données, une lecture seule (ligne à ligne) ne
permettrait pas d’en tirer de l’information. Le but de la statistique descriptive (autrement appe-
lée "analyse de données") est de résumer l’information contenue dans ce gros volume de données en
un petit nombre de quantités (moyenne, écart-type, médiane...) ou de représenter de façon concise
les données (sous forme de tableaux ou de graphiques). L’analyse des données en tant que telle ne
nécessite pas d’outils probabilistes mais utilise plutôt des concepts d’algèbre.

Remarque 1.1 :
Un autre point de vue peut-être adopté si on considère les données recueillies comme l’observation
partielle d’une population plus importante généralement supposée de taille infinie. Afin d’induire
des informations sur la population infinie à partir de l’échantillon de données recueillies, il faut
introduire la notion de loi de probabilité.
Ce deuxième point de vue, appelée inférence statistique ou statistique mathématique constitue
le programme de 2ème année.

Dans le programme de 1ère année, nous nous intéressons à la statistique descriptive. Dans le
chapitre 1, nous introduisons d’abord quelques concepts généraux puis nous proposons (chapitre 2)
un catalogue de diverses quantités permettant de résumer l’information contenue dans un jeu de
données. Le chapitre 3 est dédié à l’étude des relations entre deux variables.

1.2 A propos des exercices


Chaque chapitre est complété par des exercices. Certains reposent sur des jeux de données réelles.
Les jeux de données traités dans les exercices sont disponibles sur le site intercours sous un format
.xls ou .csv.
+ Les jeux de données dont le nom de fichier contient le mot INSEE ont été trouvés sur le site de
l’Institut National de la Statistique et des Etudes Economiques (INSEE). 1 .
1. http://www.insee.fr/fr/themes/

4
+ Les données concernant les USA ont été trouvées sur le site de l’US Census Bureau 2 . Celles
concernant les meurtres aux USA proviennent du FBI 3 . Enfin, les informations concernant la
peine de mort ont été collectées sur Wikipédia.
+ Les données dont le nom de fichier contient le mot OCDE proviennent des bases de données de
l’Organisation de Coopération et de Développement Economiques (OCDE).
+ Les données dont le nom de fichier contient le mot ONU proviennent des bases de données de
l’Organisation des Nations Unies.
Notez que depuis très peu de temps, dans un souci de transparence, la France a ouvert le site
http://www.data.gouv.fr/. Ce site met à disposition un grand nombre (toutes ?) de données
officielles. Pour votre culture générale, nous vous invitons à le parcourir.

Dans les exercices, vous devez calculer des indicateurs, tracer des histogrammes, des boîtes de
distribution. Vous pouvez utiliser Excel ou un logiciel de statistiques. Excel n’étant pas un logiciel
de statistiques à proprement parler, les outils statistiques graphiques ne sont pas disponibles par
défaut.
/ Les histogrammes peuvent être tracés en installant la macro complémentaire “Utilitaire d’analy-
se”.
/ Les box-plot peuvent être faites “à la main" mais il semble plus raisonnable d’utiliser les macro
existantes sur le “marché". En particulier nous vous proposons d’utiliser la macro complémentaire
Boxplot.xla de Olivier Martin (Modulad, Numéro 32, janvier 2005). Nous avons mis cette macro
sur MyCourse ainsi que sa notice d’utilisation particulièrement pédagogique.
Plus généralement, d’autres macro peuvent être téléchargées sur le site https://www.rocq.inria.
fr/axis/modulad/excel_macros.htm. Nous vous invitons à parcourir le web pour trouver des outils
pratiques, tout en restant vigilants quant à leur qualité.

Remarque 1.2 :
Notez que dans la dernière version d’Excel, la macro "Utilitaire d’analyse" a été remplacée par le
logiciel StatPlus avec une version libre pour l’instant.

2. http://www.census.gov/compendia/statab/cats/population.html
3. http://www2.fbi.gov/ucr/cius2009/offenses/expanded_information/homicide.html

5
1.3 Vocabulaire
Les notions que l’on abordera dans ce second polycopié intitulé statistiques descriptives sont proches
des notions vues en probabilités. Nous essaierons de faire la correspondance dès que cela est possible
en note de bas de page 4 .

8 Population P :
En statistique, on appelle population un ensemble fini P. Les éléments de P seront appelés indivi-
dus. Cette population peut être de nature très variée : population humaine, agents économiques,
pièces détachées d’un certain type, logements dans une ville donnée, etc.
8 Variable 5 ou caractère(s) statistique(s) X :
Dans la population considérée on s’intéresse à un (ou plusieurs) caractère(s) statistique(s) X
concernant les individus.
8 Modalité Variable 6 mj :
À Chaque individu de la population P est attachée une modalité du caractère X i.e. une valeur
prise par le caractère.

Exemple 1.1
Soit une classe de 10 élèves ! la population P est constituée par les élèves, un individu est 1 élève,
la taille de la population est finie et vaut 10. On s’intéresse maintenant au caractère X = genre, il
y a deux modalités m1 = f eminin et m2 = masculin.

On comprend aisément que le caractère X peut être de deux types : quantitatif (un nombre) ou
qualitatif Le caractère X est dit
‰ Qualitatif 7 s’il ne peut être mesuré. Par exemple, le département de naissance d’un individu,
son sexe, son origine sociale.
‰ Quantitatif 8 s’il est mesurable. Dans ce cas, il peut être
Ê Continu s’il peut prendre n’importe quelle valeur d’un intervalle de R ; par exemple, le poids
et la taille d’un individu sont quantitatifs continus ;
Ê Discret s’il prend un nombre fini de valeurs ; par exemple, le nombre d’enfants par femme est
discret.

Remarque 1.3 :
Il faut prendre ces définitions avec précaution. En effet, la distinction continu / discret est parfois
peu claire.
8 Par exemple, en théorie, l’âge est une caractéristique continue mais en pratique elle est au mieux
mesurée avec une précision d’une journée.
4. Les correspondances seront donnés en note de bas de page précédées de ce symbole ´
5. ´ En probabilité, nous travaillons avec des variables aléatoires X.
6. ´ En probabilité, on ne parle pas de modalités mais de support. Soit X est une variable aléatoire dont le support,
noté SuppX contient toutes les valeurs possibles (c’est-à- dire de probabilité non nulle) de la variable aléatoire X.
Les éléments x 2 SuppX sont tous distincts.
7. ´ En probabilité, ce serait le Chapitre 1
8. ´ En probabilité, ce serait le Chapitre 2

6
8 De même si le nombre de modalités est trop grand, on préfère traiter le caractère X comme
continu.

Dans la suite, on appellera série statistique 9 la suite des valeurs prises par une variable X sur
les unités d’observations. On note n le nombre d’unités d’observation et x1 , . . . , xn les valeurs prises.

Exemple 1.2
Reprenons l’exemple 1.1 où la population P est constituée par les 10 élèves et le caractère observé
est le genre X et les modalités sont au nombre de 2 : m1 =F et m2 =M (respectivement féminin
et masculin). La série statistique observée est résumée dans le tableau suivant où xi est le sexe de
l’individu i

Table 1.1 – default

X = xi x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
F F F M M F M F M F

- Attention de ne pas confondre la série x i (de taille 10) et les modalités (au nombre de 2).

1.4 Variable qualitative


Supposons que la variable X est qualitative et soit J le nombre de modalités de la variable (c’est à
dire le nombre de valeurs différentes que peut prendre la variable).
Dans l’exemple 1.2, le caractère X = "Genre" alors J = 2.

7 Tableau des effectifs et fréquences


Une première étape consiste à classer les données par modalité (ou intervalle de valeurs) et fournir
le tableau des effectifs et fréquences. On note m1 , . . . mJ ces modalités. Soit nj le nombre de fois où
on observe la modalité mj dans la population. fj est la fréquence 10 de la modalité :
nj
fj =
n
On remarque que
n1 + . . . + nJ = n et f1 + . . . fJ = 1
Une première façon de résumer les données brutes est de remplir le tableau des effectifs et fréquences :

Modalités Effectifs Fréquences


m1 n1 f1
.. .. ..
. . .
mJ nJ fJ
Total n 1
9. ´ En probabilité, ce serait des réalisations de la variable aléatoire X.
10. ´ En probabilité, on ne parle pas de fréquence de la modalité mais de la probabilité ponctuelle de la valeurs
x 2 SuppX .

7
Exemple 1.3
Reprenons l’exemple 1.2 où la population P est constituée par les 10 élèves et le caractère observé
est le genre X et les modalités sont au nombre de 2 : m1 =F et m2 =M (respectivement féminin et
masculin). La série statistique observée peut être résumée ainsi

Modalités Effectifs Fréquences


m1 = F n1 = 6 f1 = 6/10 = 3/5
m2 = M n2 = 4 f2 = 4/10 = 2/5
Total n = 10 1

7 Représentation graphique
Dans une deuxième étape, on représente graphiquement la répartition des données au moyen d’un
diagramme circulaire ou d’un histogramme. La méthodologie est propre au type de caractéristique
observée.

Dans le cas d’une variable qualitative, on peut représenter les données graphiquement par :
Ê Un diagramme en barre dans lequel la hauteur de chaque barre est proportionnelle à l’effectif.
La largeur de chaque barre est arbitrairement choisie.
Ê Un diagramme en secteur, dans lequel chaque secteur angulaire est proportionnel à l’effectif.

Exemple 1.4 (Titanic)


On s’intéresse aux voyageurs du Titanic. La variable observée est leur classe qui prend 4 modalités :
1ère classe, 2ème classe, 3ème classe, équipage

Modalités Effectifs Fréquences


1ère Classe 325 0.148
2ème Classe 285 0.129
3ème Classe 706 0.321
Equipage 885 0.402
Total 2201 1

Le diagramme en barre et le diagramme circulaire sont représentés sur la figure 1.1.

8
2nd
800

1st
3rd
600
400
200

Crew
0

1st 2nd 3rd Crew

Figure 1.1 – Voyageurs du Titanic : diagrammes en barre (à g.) et en secteurs (à dr.) des effectifs

1.5 Variable quantitative discrète


Si la variable observée X est discrète, le nombre J de modalités est un entier naturel, en revanche
la valeur mj peut être un réel. Ordonnons les modalités. Notons mj la j-ème modalité :

m1 < m2 < · · · < mJ

nj le nombre de fois où la modalité j a été atteinte et fj sa fréquence d’apparition. Puisque les


modalités sont ordonnées, on peut définir les effectifs et fréquences cumulés 11 , respectivement
notés Nj et Fj :
j
X j
X
N j = n1 + . . . + nj = nj et Fj = f 1 + . . . + f j = fj
k=1 k=1

Nj est alors le nombre d’unités statistiques sur lesquelles la variable prend des valeurs inférieures
ou égales à mj .

7 Tableau des effectifs et fréquences

Modalités Effectifs Eff. cumulés Fréquences Fréq. cumulées


m1 n1 N 1 = n1 f1 F1
m1 n1 N 2 = n1 + n2 f2 F2 = f 1 + f 2
.. .. .. .. ..
. . . . .
mJ nJ n fJ 1
Total n 1

11. ´ En probabilité, on ne parle pas de fréquences cumulées mais de probabilités cumulées, il se cache derrière
cette notion la notion de fonction de répartition.

9
7 Tableau des effectifs et fréquences. Représentation graphique
Ê Il est standard de représenter les effectifs d’une variable discrète par un diagramme en batôn-
nets dont les batônnets (traits) ont pour abscisse la modalité et sont de hauteur proportionnelle
à l’effectif (voir figure 1.2 à gauche).
Ê Par ailleurs, les fréquences cumulées sont représentées par la fonction de répartition empi-
rique 12 définie de la façon suivante :
8
>
< 0 si x < m1
Fn (x) = Fj si mj  x < mj+1
>
: 1 si x mJ

C’est une fonction en escalier, par exemple pour J = 3 modalités on obtient (avec FJ = F3 = 1) :

Fn (x)

F2
F1

0 m1 m2 m3 x

Exemple 1.5 (Insectes)


On s’intéresse aux effets d’un insecticide (McNeil, D. (1977)). Pour cela, on compte le nombre
d’insectes présents sur n = 12 petites surfaces expérimentales. La série statistique est la suivante

x1 x2 x3 x4 x5 x6 x7 x8 x1 x10 x11 x12


0 1 7 2 3 1 2 1 3 0 1 4

Les modalités ordonnées sont m1 = 0 , m2 = 1, m3 = 2, m4 = 3, m5 = 4, m6 = 7. Le tableau des


effectifs et fréquences est le suivant :

Modalités Effectifs Eff. cumulés Fréquences Fréq. cumulées


0 2 2 2/12 2/12
1 4 6 4/12 6/12
2 2 8 2/12 8/12
3 2 10 2/12 10/12
4 1 11 1/12 11/12
7 1 12 1/12 12/12
Total 12 1

Le diagramme en batônnets et la fonction de répartition empirique sont représentés sur la figure


1.2.

12. ´ En probabilité, on parle de fonction de répartition, la construction de la fonction de répartition empirique


est la même que celle de la fonction de répartition en probabilité dans le cas discret du chapitre 2.

10
1.0
4

0.8
3

0.6
2

0.4
1

0.2
0.0
0

0 1 2 3 4 7 0 2 4 6 8

Figure 1.2 – Insectes : diagrammes en batonnets des effectifs (à g.) et fonction de répartition
empirique (à dr.)

Remarque 1.4 :
Si la variable observée est qualitative ordinale (i.e. on peut ordonner naturellement les modalités)
alors les effectifs et fréquences cumulés ainsi que la fonction de répartition empirique ont un sens.

7 Statistique d’ordre ou série ordonnée


Soit une série de taille n : x1 , · · · , xn , telle que xi est la i-ème valeur de la série, on note x(1) , · · · , x(n)
la série ordonnée, telle que x(i) est la i-ème plus grande valeur de la série (x(1)  · · ·  x(n) ). Par
exemple :

x1 x2 x3 x4 x5 x6 x7 x8 x1 x10 x11 x12


0 1 7 2 3 1 2 1 3 0 1 4
x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) x(10) x(11) x(12)
0 0 1 1 1 1 2 2 3 3 4 7

- Ne pas confondre les x (i) et les mj :


– Les x(i) peuvent être égaux, et il y a n x(i) : x(1)  · · ·  x(n) .
– Les mj sont tous distincts et il y en a J  n : m1 < · · · < mJ . Dans l’exemple :

m1 m2 m3 m4 m5 m6
0 1 2 3 4 7

1.6 Variable quantitative continue


Si la variable observée est quantitative continue, alors chaque valeur observée sera atteinte très
probablement une seule fois. Par conséquent, il y aura autant de modalités que d’unités statistiques.
Ainsi la méthodologie utilisée pour les variables qualitatives ou quantitatives discrètes ne permet pas

11
de résumer les données brutes. Dans ce cas, il faut regrouper les données en classes (ou plages de
valeurs). Le tableau des effectifs obtenus à partir de ces classes est appelé distribution groupée.
Supposons que l’on découpe les données en J classes. On note alors
· cj le centre de la j-ème classe
· bj 1 la borne inférieure de la j-ème classe
· bj la borne supérieure de la j-ème classe et la borne inférieure de la j + 1-ème classe (les classes
se "touchent")
· nj l’effectif de la j-ème classe
· Nj son effectif cumulé

7 Le tableau des effectifs est alors le suivant :

Classe Effectifs Eff. cumulés Fréquences Fréq. cumulées


[b0 , b1 [ n1 N1 f1 F1
[b1 , b2 [ n2 N 2 = N 1 + n2 f2 F2 = F1 + f 2
[b2 , b3 [ n3 N 3 = N 2 + n3 f3 F3 = F 2 + f 3
.. .. .. .. ..
. . . . .
[bJ 1 , bJ [ nJ n fJ 1
7 Représentation graphique
Ê Les données d’une variable continue sont représentées graphiquement par un histogramme dont
les rectangles ont pour bornes bj 1 et bj et sont d’une surface proportionnelle à l’effectif (ou à la
fréquence) : la j-ème classe de bornes bj 1 et bj est représentée par un rectangle de hauteur hj
telle que
fj
hj ⇥ (bj bj 1 ) = fj , hj =
bj b j 1
Ê La distribution des données peut aussi être représentée par la fonction de répartition empi-
rique. Sous l’hypothèse d’équirépartition au sein de chaque classe, la fonction de répartition Fn
est linéaire par morceaux d’équation :
8
>
< 0 si x < b0
Fj Fj 1
Fn (x) = Fj 1 + bj bj 1 (x bj 1 ) si x 2 [bj 1 , bj [
>
:
1 si x bJ

Remarque 1.5 :
Puisque les classes sont contiguës, la fonction de répartition est continue de R dans [0, 1]. De plus
s’il n’y a pas de classe vide, elle est strictement croissante donc elle réalise une bijection de [b0 , bJ ]
dans [0, 1].

- En pratique, pour tracer la fonction de répartition empirique, on relie alors par


des segments les points de coordonnées (bj , Fj ) en faisant l’hypothèse d’équirépartition
dans les classes.
C’est une fonction en escalier, par exemple pour J = 3 modalités on obtient (avec FJ = F3 = 1) :

12
Fn (x)

F2
F1

0 b0 b1 b2 b3 x

Exemple 1.6 (Etats-Unis)


Nous considérons le revenu national brut par habitant de chacun des 50 états des Etats Unis
d’Amérique en 1974 (colonne ’Income’ de la table 1.2 voir plus loin) 13 . Nous regroupons les données
en classes de largeur 500 :
[bj 1 , bj [ nj N j f j Fj
[3000; 3500 [ 2 2 0.04 0.04
[3500; 4000 [ 11 13 0.22 0.26
[4000; 4500 [ 11 24 0.22 0.48
[4500; 5000 [ 18 42 0.36 0.84
[5000; 5500 [ 7 49 0.14 0.98
[5500; 6000 [ 0 49 0.00 0.98
[6000; 6500 [ 1 50 0.02 1

L’histogramme des effectifs correspondant aux classes définies précédemment est représenté sur la
figure 1.3 à gauche. Sur la même figure à droite, on a représenté l’histogramme des effectifs dans le
cas où on regroupe les 3 dernières classes. La fonction de répartition empirique correspondant à 7
classes est représentée sur la figure 1.4

13. Le regroupement des données par classes peut aussi être appliqué aux variables quantitatives discrètes quand
le nombre de modalités J est trop grand.

13
6e-04

6e-04
4e-04

4e-04
2e-04

2e-04
0e+00

0e+00
3000 3500 4000 4500 5000 5500 6000 6500 3000 3500 4000 4500 5000 5500 6000 6500

Figure 1.3 – USA : histogrammes des revenus pour 7 classes (à g.) et après avoir regroupé les 3
dernières classes (à dr.)
1.0
0.8
0.6
0.4
0.2
0.0

2000 3000 4000 5000 6000 7500

Figure 1.4 – USA : fonction de répartition pour 7 classes

14
Population Income Illiteracy Life Exp Murder HS Grad Frost Area
Alabama 3615 3624 2.1 69.05 15.1 41.3 20 50708
Alaska 365 6315 1.5 69.31 11.3 66.7 152 566432
Arizona 2212 4530 1.8 70.55 7.8 58.1 15 113417
Arkansas 2110 3378 1.9 70.66 10.1 39.9 65 51945
California 21198 5114 1.1 71.71 10.3 62.6 20 156361
Colorado 2541 4884 0.7 72.06 6.8 63.9 166 103766
Connecticut 3100 5348 1.1 72.48 3.1 56 139 4862
Delaware 579 4809 0.9 70.06 6.2 54.6 103 1982
Florida 8277 4815 1.3 70.66 10.7 52.6 11 54090
Georgia 4931 4091 2 68.54 13.9 40.6 60 58073
Hawaii 868 4963 1.9 73.6 6.2 61.9 0 6425
Idaho 813 4119 0.6 71.87 5.3 59.5 126 82677
Illinois 11197 5107 0.9 70.14 10.3 52.6 127 55748
Indiana 5313 4458 0.7 70.88 7.1 52.9 122 36097
Iowa 2861 4628 0.5 72.56 2.3 59 140 55941
Kansas 2280 4669 0.6 72.58 4.5 59.9 114 81787
Kentucky 3387 3712 1.6 70.1 10.6 38.5 95 39650
Louisiana 3806 3545 2.8 68.76 13.2 42.2 12 44930
Maine 1058 3694 0.7 70.39 2.7 54.7 161 30920
Maryland 4122 5299 0.9 70.22 8.5 52.3 101 9891
Massachusetts 5814 4755 1.1 71.83 3.3 58.5 103 7826
Michigan 9111 4751 0.9 70.63 11.1 52.8 125 56817
Minnesota 3921 4675 0.6 72.96 2.3 57.6 160 79289
Mississippi 2341 3098 2.4 68.09 12.5 41 50 47296
Missouri 4767 4254 0.8 70.69 9.3 48.8 108 68995
Montana 746 4347 0.6 70.56 5 59.2 155 145587
Nebraska 1544 4508 0.6 72.6 2.9 59.3 139 76483
Nevada 590 5149 0.5 69.03 11.5 65.2 188 109889
New Hampshire 812 4281 0.7 71.23 3.3 57.6 174 9027
New Jersey 7333 5237 1.1 70.93 5.2 52.5 115 7521
New Mexico 1144 3601 2.2 70.32 9.7 55.2 120 121412
New York 18076 4903 1.4 70.55 10.9 52.7 82 47831
North Carolina 5441 3875 1.8 69.21 11.1 38.5 80 48798
North Dakota 637 5087 0.8 72.78 1.4 50.3 186 69273
Ohio 10735 4561 0.8 70.82 7.4 53.2 124 40975
Oklahoma 2715 3983 1.1 71.42 6.4 51.6 82 68782
Oregon 2284 4660 0.6 72.13 4.2 60 44 96184
Pennsylvania 11860 4449 1 70.43 6.1 50.2 126 44966
Rhode Island 931 4558 1.3 71.9 2.4 46.4 127 1049
South Carolina 2816 3635 2.3 67.96 11.6 37.8 65 30225
South Dakota 681 4167 0.5 72.08 1.7 53.3 172 75955
Tennessee 4173 3821 1.7 70.11 11 41.8 70 41328
Texas 12237 4188 2.2 70.9 12.2 47.4 35 262134
Utah 1203 4022 0.6 72.9 4.5 67.3 137 82096
Vermont 472 3907 0.6 71.64 5.5 57.1 168 9267
Virginia 4981 4701 1.4 70.08 9.5 47.8 85 39780
Washington 3559 4864 0.6 71.72 4.3 63.5 32 66570
West Virginia 1799 3617 1.4 69.48 6.7 41.6 100 24070
Wisconsin 4589 4468 0.7 72.48 3 54.5 149 54464
Wyoming 376 4566 0.6 70.29 6.9 62.9 173 97203

Table 1.2 –

15
Chapitre 1. Introduction aux statistiques descriptives

Exercice 1.1 Dans le jeu de données ’Adult.csv’ 1 , des données ont été collectées sur 32560 individus aux
Etats Unis d’Amérique. La table suivante est un extrait de ce jeu de données.

Age Statut Genre Revenu


50 Marié(e) Homme <=50K
38 Divorcé(e) Homme <=50K
53 Marié(e) Homme <=50K
28 Marié(e) Femme <=50K
37 Marié(e) Femme <=50K
49 Marié(e) Femme <=50K
52 Marié(e) Homme >50K
31 Jamais marié(e) Femme >50K
42 Marié(e) Homme >50K
37 Marié(e) Homme >50K

1. Décrire la population étudiée, sa taille, un individu, les variables étudiées, ainsi que leur nature.
2. On s’interesse tout d’abord à la variable Statut.

a. Faire un Tableau d’effectifs et de fréquence.

b. Proposer deux représentations graphiques (Sous Excell ou R ou Python)

3. On s’interesse maintenant à la variable Age.

a. Faire un tableau d’effectifs et de fréquences, on regroupera en 8 classes de même taille .


b. Proposer deux représentations graphiques (Sous Excel ou R ou Python)

1 Extrait d’un jeu de données issu de la base de données du Bureau du recensement qui se trouve à http://www.census.gov
Chapitre 2

Distributions statistiques univariées :


principaux indicateurs

Dans le chapitre précédent nous avons présenté les données sous forme de tableau et de graphes
(histogramme, diagrammes et fonctions des répartitions). Nous cherchons maintenant à fournir des
indicateurs permettant de décrire synthétiquement la distribution des données x1 , . . . , xn . Dans une
première partie, nous nous intéressons aux paramètres de position et de tendance centrale. Dans un
second temps, nous considèrerons les indicateurs de dispersion puis de concentration.

Nous insistons sur le fait qu’un indicateur ne peut être pris seul comme description de la distribution
mais doit être comparé aux autres. En outre, les paramètres de position et de dispersion doivent
être mis en regard pour avoir une idée plus complète de la distribution.

´ Dans la suite, les indicateurs seront tous qualifiés d’empiriques car issus de l’étude d’une série
statistique donc d’une expérience, par opposition aux espérances et variances théoriques étudiées
dans la première partie du cours (probabilité). On parlera donc d’espérance empirique, de variance
empirique....

2.1 Caractéristiques de tendance centrale et de position


2.1.1 Le mode empirique
8 Le mode empirique est la modalité qui apparaît le plus fréquemment, c’est-à-dire la modalité
qui a la plus grande fréquence. Le mode (empirique) peut être défini pour toutes les variables qua-
litatives ou quantitatives discrètes. Il n’est pas nécessairement unique.

8 classe modale Dans le cas d’une variable continue dont les valeurs sont regroupées en classe, on
parlera de classe modale. Plus précisemenent, la classe [bi 1 , bi [ est la classe modale si sa fréquence
renormalisée hi est la plus grande, où hi = fi /(bi bi 1 ).

Exemple 2.1
Dans l’exemple 1.4 (Titanic), le mode est la modalité "Equipage". Dans l’exemple 1.5 (Insectes),
le mode est la modalité m2 = 1. Dans l’exemple 1.6 (USA), la classe modale est [4500, 5000[.

18
2.1.2 Moyenne empirique
La moyenne empirique 1 n’a de sens que pour une variable quantitative. Elle est égale à la somme
des valeurs observées divisée par le nombre d’observations n :
n
1X x1 + . . . + xn
mX =x= xi =
n n
i=1

Remarque 2.1 :

1. Dans le cas d’une variable discrète, la moyenne empirique peut aussi s’écrire à partir des
effectifs et modalités :
J J
1X X
x= n j mj = fj mj
n
j=1 j=1

2. Dans le cas d’une variable continue, la moyenne empirique se calcule en prenant pour xi le
b +b
centre de la classe [bj 1 ; bj [ ainsi xi = j 12 j .

Exemple 2.2
Dans l’exemple 1.5 (Insectes), la moyenne empirique du nombre d’insectes vaut 2.08 . Dans l’exemple 1.6
(USA tableau 1.2), la moyenne empirique des revenus vaut 4435.8 US dollars par an.

Remarque 2.2 :
La moyenne 2 empirique est très sensible aux valeurs extrêmes (très grandes ou très petites). Dans
l’exemple 1.5 ( Insectes) si on ajoute une observation qui vaut 15 la moyenne arithmétique est
considérablement modifiée : elle passe de 2.08 à 3.08.

La moyenne présentée ci dessus est la moyenne arithmétique. Celle-ci n’a pas forcément le sens
voulu. Dans certains contextes, nous avons naturellement recours à d’autres types de moyennes.

2.1.3 Digression : moyennes géométriques et arithmétiques


Moyenne géométrique
La moyenne géométrique de la série statistique x1 , . . . , xn est définie par :

n
!1/n
Y
xG = xi
i=1

Remarque 2.3 :
1 Pn
Si tous les xi sont strictement positifs alors log(xG ) = n i=1 log(xi ).
P
1. ´ C’est l’espérance empirique. En probabilité E(X) = x2SuppX xP (X = x), ici les probabilités sont remplacées
P
par la fréquence de la valeur xi égale à 1/n donc l’espérance empirique x = n x 1 . Si au lieu de sommer sur les
PJi=1 i n
xi on somme sur les modalités mj dont la fréquence est égale à fj on a x = j=1 fj mj .
2. Aussi appelée espérance empirique ou moyenne arithmétique

19
Exemple 2.3
Supposons que l’on place 100 e durant 4 années aux taux de 1% la 1ère année, 2% la deuxième
année, 3% la 3ème année, et 4% la 4ème année. Quel est le taux moyen par an de ce placement ?
On entend par "taux moyen" le taux ⌧m tel que si on l’applique 4 années de suite, on obtient le
même rendement.
– Au bout de 4 ans, j’ai sur mon compte 100 ⇥ 1.01 ⇥ 1.02 ⇥ 1.03 ⇥ 1.04 = 110.3550 e.
– Le taux moyen ⌧m est tel que si j’applique ⌧m 4 années de suite j’obtiens la même somme :

100 ⇥ 1.01 ⇥ 1.02 ⇥ 1.03 ⇥ 1.04 = 100 ⇥ (1 + ⌧m )4


1 + ⌧m = (1.01 ⇥ 1.02 ⇥ 1.03 ⇥ 1.04)1/4
⌧m = (1.01 ⇥ 1.02 ⇥ 1.03 ⇥ 1.04)1/4 1 = 0.0249.

d’où dans notre cas


⌧m = 2.49%
ce qui est différent de la moyenne arithmétique des taux qui vaut 1+2+3+4
4 = 2.50%.

Moyenne harmonique :
La moyenne harmonique vaut :
n
xH = Pn 1 .
i=1 xi

Exemple 2.4
Considérons un avion faisant un aller-retour sur la même trajectoire (de longueur d) à 600 km/h à
l’aller et 700 km/h au retour. Quelle est sa vitesse moyenne ?
Pour faire son aller retour, l’avion met un temps T égal à :
1 1
T =d⇥ +d⇥
600 700
heures où d est la distance en km de son trajet aller. Sa vitesse moyenne vm est telle que si on
applique la vitesse moyenne à tout le parcours on met le même temps T pour faire l’aller-retour :
1 1 1
T =d⇥ +d⇥ =2⇥d⇥
600 700 vm
d’où
2
vm = 1 1 = 646.1538.
600 + 700
Cette vitesse moyenne n’est par celle obtenue par la moyenne arithmétique qui vaut 650 km/h.

Comparaison des moyennes arithmétiques, géométriques et harmoniques

Théorème 2.1.1. Soient x1 , . . . , xn , n valeurs strictement positives. Alors on a :

min{x1 , . . . , xn }  xH  xG  x  max{x1 , . . . , xn }

20
2.1.4 Les quantiles empiriques
´ En probabilité, les quantiles 3 d’ordre ↵ 2]0, 1[ sont les valeurs q↵ telles que

P (X  q↵ ) = F (q↵ ) = ↵,

où X est une variable aléatoire de fonction de répartition F (·).

8 Quantiles empiriques : On peut donc définir les quantiles empiriques de la même façon pour un
caractère X et la fonction de répartition empirique Fn (·). Soit ↵ une proportion 2]0, 1[ que l’on se
fixe. Le quantile d’ordre ↵ est tel qu’une proportion ↵ des xi est plus petite que q↵ . Formellement,
q↵ est tel que
Fn (q↵ ) = ↵.
On distinguera le cas continu du cas discret.

Remarque 2.4 :
En effet, en raison de la non-bijectivité de Fn , des définitions différentes peuvent être utilisées dans
les ouvrages et logiciels de statistique descriptive.

2.1.4.1 Les quantiles empiriques cas de variables continues

Comme précédemment, si la fonction de répartition Fn est continue et strictement croissante, alors


elle réalise une bijection de I 2 R sur ]0, 1[ donc q↵ est parfaitement bien défini. Dans le cas d’une
variable continue dont les valeurs ont été regroupées en classes :

Ê On repère la classe médiane telle que Fj 1 < ↵ et Fj ↵, i.e., ↵ 2]Fj 1 , Fj [ .


Traçons juste un morceau de la courbe de la fonction de répartition Fn

Fn (x)

Fj

Fj 1

0 bj 1 q↵ bj x

On a le rapport de pente suivant :


Fj Fj 1 ↵ Fj 1
= .
bj bj 1 q ↵ bj 1

Ê Donc q↵ 2]bj 1 , bj [ et par interpolation linéaire (rapport de pente), q↵ vérifie l’équation

Fj Fj 1
Fj 1 + (q↵ bj 1) = ↵,
bj bj 1

3. Les quantiles sont les abscisses, les antécédents !

21
d’où
(bj bj 1 )(↵ Fj 1) (bj bj 1 )(↵ Fj 1)
q↵ = + bj 1 = + bj 1.
Fj Fj 1 fj

Quantiles empiriques particuliers :

Certaines valeurs de ↵ 2]0, 1[ donnent des quantiles particuliers :

8 Médiane empirique :
Lorsque ↵ = 0.5 = 50%, q0.5 s’appelle la médiane empirique et on la note me . C’ est la valeur de la
série séparant les unités statistiques en deux groupes, de telle façon que la moitié des xi sont plus
petites que me . Elle n’a de sens que dans le cas d’une variable quantitative.

8 Premier, deuxième et troisième quartile :


– Lorsque ↵ = 0.25 = 25%, q0.25 s’appelle le premier quartile et on la note q1 . C’ est la valeur de la
série séparant les unités statistiques en deux groupes, de telle façon qu’un quart des xi sont plus
petits que q1 .
– Lorsque ↵ = 0.75 = 75%, q0.75 s’appelle le troisième quartile et on la note q3 . C’ est la valeur de
la série séparant les unités statistiques en deux groupes, de telle façon que’un quart des xi sont
plus petits que q3 .
– Lorsque ↵ = 0.5 = 50%, q0.5 s’appelle le deuxième quartile ou encore la médiane et on la note q3
ou me .
1.0
0.8
0.6
0.4
0.2
0.0

2000 3000 4000 5000 6000 7500

Figure 2.1 – Lecture de la médiane sur la fonction de répartition empirique (exemple 1.6 (USA)

Exemple 2.5
Reprenons l’exemple 1.6 (USA). D’aprés le tableau des effectifs cumulés associé à cet exemple,
la classe médiane est [4500; 5000[ car pour cette classe Fj = 0.84 0.5 et pour la précédente

22
Fj 1 = 0.48 < 0.5. Par interpolation linéaire, on obtient :

5000 4500
me = 4500 + (0.5 0.48) = 4527.8
0.84 0.48
Remarquons que l’on peut lire les quantiles sur le graphique de la fonction de répartition empirique
(voir figures 2.1).

2.1.4.2 Les quantiles empiriques : cas de variables discrètes

Si Fn n’est pas bijective (par exemple constante par morceaux dans le cas d’une variable discrète),
on adopte le principe suivant : pour ↵ 2]0, 1[, on note x(i) la i-ème plus grande valeur de la série (à
ne pas confondre avec xi qui est la i-ème valeur de la série). Ainsi
– Si n↵ 2 N⇤ , est un nombre entier alors
x(n↵) + x(n↵+1)
q↵ = .
2
– Si n↵ 2/ N⇤ , n’est pas un nombre entier alors considérons dn↵e le plus petit entier supérieur ou
égal à n↵
q↵ = x(dn↵e) .
Par exemple, si x(dn↵e) = x(d7.2e) = x(8) .

Exemple 2.6
Dans l’exemple 1.6 (USA), le premier quartile est q0.25 = 3500 + (0.25 0.04) 40000.223500 = 3977.273.
Le troisième quartile est q0.75 = 4500 + (0.75 0.48) 50000.364500 = 4875

8 Médiane empirique :
Lorsque ↵ = 0.5 = 50%, q0.5 s’appelle la médiane empirique et on la note me et
– Si n est un nombre impair alors la médiane est la valeur centrale :

me = x( n+1 )
2

– Si n est pair, la médiane est la moyenne entre les 2 valeurs centrales :


x( n ) + x( n +1)
2 2
me =
2

Exemple 2.7
Retour sur l’exemple 1.5 (Insectes). D’aprés le tableau des effectifs cumulés associé à cet exemple,
on a un nombre pair d’observations qui sont dans l’ordre

x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) x(10) x(11) x(12)
0 0 1 1 1 1 2 2 3 3 4 7

Ici n = 12 Calculons le premier (q1 ) et le troisième (q3 ) quartile ainsi que la médiane me :

23
Ê Premier quartile : ↵ = 0.25 donc n↵ = 12 ⇥ 0.25 = 3 2 N⇤ alors
x(n↵) + x(n↵+1) x(3) + x(4) 1+1
q1 = q0.25 = = = = 1.
2 2 2
Ê Troisième quartile : ↵ = 0.75 donc n↵ = 12 ⇥ 0.75 = 9 2 N⇤ alors
x(n↵) + x(n↵+1) x(9) + x(10) 3+3
q3 = q0.75 = = = = 3.
2 2 2
Ê Médiane : ↵ = 0.5 donc n↵ = 12 ⇥ 0.5 = 6 2 N⇤ alors
x(n↵) + x(n↵+1) x(6) + x(7) 1+2
me = q0.5 = = = = 1.5.
2 2 2
On peut également lire les valeurs x(i) sur un tableau du type modalités + effectifs cummulés :

mj m1 = 0 m2 = 1 m3 = 2 m4 = 3 m5 = 4 m6 = 7
nj n1 = 2 n2 = 4 n3 = 2 n4 = 2 n5 = 1 n6 = 1
Nj N1 = 2 N2 = 6 N3 = 8 N4 = 10 N5 = 11 N6 = 12

On lit de la façon suivante : la valeur de x(9) est la 9-ième valeur la plus grande, on cherche dans la
ligne Nj où se trouve la valeur 9 : pour N3 < 9 < N4 = 10, donc x(9) = 3.

Remarquons que l’on peut lire les quantiles sur le graphique de la fonction de répartition empirique
(voir figures 2.2).
1.0
0.8
0.6
0.4
0.2
0.0

0 2 4 6 8

Figure 2.2 – Lecture de la médiane sur la fonction de répartition empirique (exemple 1.5 Insectes)

2.2 Caractéristiques de dispersion


2.2.1 L’étendue (empirique)
L’étendue est la différence entre la plus petite valeur et la plus grande valeur de la série :

e = x(n) x(1)

24
Exemple 2.8
Dans l’exemple 1.6 (USA), l’étendue est e = 6315 3098 = 3217

2.2.2 Distance inter-quartiles (empirique)


Les quartiles sont les quantiles d’ordre 25% et 75%. La distance inter-quartile est la différence
entre ces deux valeurs :
IQ = q0.75 q0.25

Exemple 2.9
Dans l’exemple 1.6 (USA), l’étendue est IQ = 897.727

2.2.3 L’écart absolu moyen (empirique)


L’écart absolu moyen est la moyenne des valeurs absolues des différences entre xi et la moyenne
arithmétique x :
n
1X
emoy = |xi x|
n
i=1

2.2.4 La variance empirique


La variance empirique est la moyenne des carrés des différences entre xi et la moyenne arithmétique
x:
n
1X
s2X = (xi x)2
n
i=1

Théorème 2.2.1. (Formule de Koenig) La variance empirique peut aussi s’écrire de la façon sui-
vante :
n
1X 2
s2X = xi (x)2 = x2 (x)2
n
i=1

Dans le cas discret, la variance peut aussi s’écrire à partir des effectifs et des modalités :

J J
1X 1X
s2X = nj (mj x)2 = nj m2j (x)2
n n
j=1 j=1

Remarque 2.5 :
On voit en 2éme année de DEGEAD (UE 44) que si on veut estimer correctement la variance
théorique d’une distribution à partir d’un échantillon x1 , . . . , xn , on utilise la variance corrigée :
n
X
1 n
(s0X )2 = (xi x)2 = s2X
n 1 n 1
i=1

En général, les logiciels de statistiques fournissent la variance corrigée.

Exemple 2.10
Dans l’exemple 1.6 (USA), la variance s2X vaut 370021.8 et la variance corrigée (s0X )2 = 377573.3

25
2.2.5 L’écart type
L’écart type est une mesure de la distance moyenne à la moyenne. C’est la racine carrée de la
variance : q
sX = s2X
De même on définit l’écart type corrigé :
q
s0X = (s0X )2

Remarque 2.6 :
L’écart-type s’exprime dans la même unité que les données.

2.3 Représentation graphique : boîte de distribution


La boîte de distribution (ou boxplot) est une représentation graphique synthétique de la distribution
des données. Elle résume quelques caractéristiques de position et de dispersion du caractére étudié
(médiane, quartiles, minimum, maximum ou déciles). Ce diagramme est utilisé principalement pour
comparer un même caractère dans deux populations de tailles différentes.
Il se construit de la façon suivante :

VE xa xb VE VE

q1 me q3

1. Tracer un rectangle qui s’étend de q0.25 à q0.75 , de largeur quelconque.


2. Séparer le rectangle en deux à la hauteur de la médiane me . On obtient alors une
boîte.
3. On complète ce rectangle par deux segments. Pour cela, calculer

a = q0.25 1.5IQ et b = q0.75 + 1.5IQ

Identifier les valeurs de la série telle que

xa = min{xi |xi a} et xb = max{xi |xi  b}

Ces valeurs a sont appelées valeurs adjacentes. On relie ces valeurs au rectangle par
un segment
4. Les valeurs qui ne sont pas comprises entre les valeurs adjacentes sont représentées
par des points et appelées valeurs extrêmes (VE).
a. En d’autres termes : xa est le plus petit xi parmi les valeurs de la série xi plus grand ou égal à a.
De même xb est le plus grand xi parmi les valeurs de la série xi plus petit ou égal à b.

Notons que la boite de distribution peut être également représentée à la verticale (voir l’exemple 2.12).

26
Exemple 2.11
Retour sur l’exemple 2.7 (Insectes). Nous avions la série ordonnée suivante

x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) x(10) x(11) x(12)
0 0 1 1 1 1 2 2 3 3 4 7

Nous avons obtenu q1 = 1, me = 1.5 et q3 = 3. Pour tracer la boite de distribution, nous devons
calculer :
Ê La distance inter-quartile IQ = q3 q1 = 2.
Ê Les valeurs a = q1 1.5 ⇥ IQ = 2 et b = q3 + 1.5 ⇥ IQ = 6.
Ê Reportons les valeurs a et b dans le tableau :

a x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) x(10) x(11) b x(12)
2 0 0 1 1 1 1 2 2 3 3 4 6 7

Ê On peut aisément lire xa = 0 et xb = 4. Ainsi x(12) = 7 est une valeur extrême.


Ê Traçons la boite de distribution :

0 4 7
1 1.5 3

Exemple 2.12
Dans l’exemple 1.6 (USA) on trouve a = 2630.682 et b = 6221.591. Les valeurs adjacentes sont
xa = 3098 et xb = 5348. La boite de distribution est représentée sur la figure 2.3.
6000
5500
5000
4500
4000
3500
3000

Figure 2.3 – Boîte de distribution pour l’exemple 1.6 (USA)

27
2.4 Caractéristiques de concentration : Courbe de Lorenz et indice
de Gini
Des indicateurs particuliers ont été développés pour mesurer les inégalités de revenus ou de pa-
trimoine. Une société sera parfaitement égalitaire si tous les individus reçoivent le même revenu.
Au contraire, elle est considérée comme parfaitement inégalitaire si un seul individu reçoit tous les
revenus.

On représente ces inégalités :


– Graphiquement par la courbe de Lorenz.
– Analytiquement par l’indice de Gini.

8 Courbe de Lorenz
Soient x1 , · · · , xn les revenus des n individus de la société considérée. Comme précédemment, on
note x(1) , · · · , x(n) les revenus ordonnés par ordre croissant. Le revenu total est la somme S des
revenus :
Xn Xn
S= xk = x(k) .
k=1 k=1

Si la société considérée est égalitaire, les n individus auraient le même revenu, c’est-à-dire

x1 = · · · = xn = x(1) = · · · = x(n) = S/n.

De plus pour tout i 2 {1, · · · , n}, la somme des revenus perçus par i individus vaut i ⇥ S/n. Alors
la proportion de revenus (par rapport au revenu total) perçus par i individus est telle que :

i ⇥ S/n i
= .
S n
Pour mesurer les inégalités de revenus ou de patrimoine, calculons pour des revenus x1 , · · · , xn
quelconques la proportion de revenus (par rapport au revenu total) perçus par les i individus ayant
les i plus petits revenus. Pour cela, pour tout i 2 {1, · · · , n} notons Si la somme des i premiers plus
petit revenus
Xi
Si = x(k) .
k=1

Alors la proportion de revenus (par rapport au revenu total) perçus par les i individus ayant les i
plus petits revenus, notée Qi est telle que :
Pi Pi
Si k=1 x(k) x(k)
Qi = = Pn = k=1 .
S k=1 xk S

Il est évident que pour i = n Pn


Sn x(k)
Qn = = Pk=1
n = 1.
S k=1 xk
Ainsi plus les Qi sont loin des i/n, plus les inégalités sont importantes et inversement. Graphi-
quement cela revient à tracer les points (i/n, Qi )i=0,···,n , on pose Q0 = 0. Plus le nuage de points
(i/n, Qi )i=0,···,n est loin de la première bissectrice, plus les inégalités sont importantes et inversement.

28
De façon équivalente, on trace la courbe qui relie les points (i/n, Qi )i=0,···,n par des segments, cette
courbe s’appelle la courbe de Lorenz. Ainsi à chaque proportion i/n d’individus les moins riches,
on attribue la fraction des revenus totaux dont ils disposent. Pour une série statistique fixée, on
représente la courbe de Lorenz et la diagonale du carré de côté 1. Plus l’écart entre la courbe de
Lorenz et la diagonale est grand et plus la société considérée est inégalitaire.

Remarque 2.7 :
Dans le cas particulier où chaque individu perçoit le même revenu xi = S/n alors Qi = i/n. La
courbe de Lorenz est la droite d’équation y = x

Exemple 2.13
Soit une entreprise de 4 salariés dont les revenus mensuels en euros sont les suivants :

x1 x2 x3 x4
1500 500 12000 2000

Pour tracer la courbe de Lorenz, il faut tout d’abord ordonner la série, puis calculer pour tout
i = 1, · · · 4 :
P
– les Si = ik=1 x(k) , (S4 = S),
– les Qi = Si /S sans oublier de poser Q0 = 0,
– et les i/n = i/4.

x(i) 500 1500 2000 12000


Si 500 2000 4000 16000 = S
Qi 0 0.031 0.125 0.25 1
i/n 0 0.25 0.5 0.75 1

Tracons maintenant la courbe de Lorentz et la première bissectrice (y = x). On remarque que

i/n

y=x
1

0.75

0.25

0 0.031 0.125 0.25 1 Qi

29
l’écart entre la courbe de Lorentz et la première bissectrice (y = x) est grand, les inégalités sont
importantes. Pour quantifier cet écart, celui entre la courbe de Lorentz et la première bissectrice
introduisons l’indice de Gini.

8 Indice de Gini
L’indice de Gini, noté G, permet de quantifier cet écart. Il est égal à 2 fois la surface comprise entre
la courbe de Lorenz et la première bissectrice et on admettra que :

" n
#
1 X
G = 1+ 1 2 Qi
n
i=0

L’indice de Gini est compris en 0 et 1. Il est égal à 0 si tous les revenus sont égaux.

Exemple 2.14
Retour sur l’exemple 2.13, l’indice de Gini vaut

" n
#
1 X
G = 1+ 1 2 Qi
n
i=1
1
= 1+ [1 2 ⇥ (0.031 + 0.125 + 0.25 + 1)]
4
1 1
= 1 + [1 2 ⇥ 1.406] = 1 ⇥ 1.812 = 0.547.
4 4

Donc il semble que les revenus ne soient pas équitablement répartis entre les états.

2.5 QQ-plot (graphiques Quantile-Quantile)


Il existe trois grands domaines distincts en rapport avec cette UE :
8 Le domaine des probabilités dont l’introduction des notions de base a été l’objet du premier
polycopié de cette UE.
8 Le domaine des statistiques descriptives qui est l’objet de ce second polycopié.
8 Le domaine des statistiques mathématiques qui sera introduit en seconde année (DEGEAD 2).

Le lien entre ces domaines est le suivant :


8 En probabilité, on note X ⇠ F0 , c’est-à-dire que X est de loi F0 (fonction de répartition). La
Théorie (un peu développée en DEGEAD 2) des probabilités a pour but d’étudier, étant donnée
la loi de probabilité F0 , le comportement de ses réalisations aléatoires X1 , . . . , Xn .
8 L’objectif des Statistiques mathématiques est inverse de celui de la Théorie des probabilités :
étant données des réalisations aléatoires X1 , . . . , Xn indépendantes et identiquement distribuées
(i.i.d.) de la variable aléatoire X ⇠ F0 , elle essaye de se renseigner sur sa loi de probabilité F0
(inconnue, ou partiellement inconnue) ; par exemple en reconstituant F0 .

30
8 En statistique descriptive, le matériel de départ sont les données, soit la série statistique x1 , . . . , xn .
Du point de vue le plus simple des statistiques mathématiques, ces données x1 , . . . , xn sont la réa-
lisation déterministe (donc non aléatoire) de variables aléatoires X1 , . . . , Xn indépendantes
et identiquement distribuées (i.i.d.) de loi F0 .

P (Xi  xi ) = F0 (xi ) := pi .
On dit que la loi F0 "explique le comportement des données". Il est donc utile d’identifier F0 pour
"expliquer " les données.

En statistique descriptive, on peut par exemple chercher à savoir si la distribution F0 des données,
x1 , . . . , xn , est par exemple gaussienne ou Poissonienne etc. . .

8 QQ-plot
Un outil graphique permettant de visualiser rapidement l’adéquation de la distribution d’une série
numérique à la distribution de référence F0 est le QQ-plot (graphique Quantile-Quantile). Dans ce
graphe, on reporte sur l’axe des ordonnées les fractiles correspondant à la distribution observée et
sur l’axe des abscisses ceux correspondant à la distribution théorique.

8 Construction d’un QQ-plot en pratique


Soit F0 une distribution de référence connue. Par définition d’une fonction de répartition, il existe
une variable aléatoire X telle que pout tout quantile t 2 R, F0 (t) 2 [0, 1] avec

F0 (t) = P (X  t) = p.

On appellera t le quantile théorique d’ordre p.

Ê Calcul des quantiles théoriques


Soit x1 , . . . , xn une série statistique. Soient m1 , . . . , mJ les modalités de la série x1 , . . . , xn que l’on
appellera quantiles observés. On aimerait savoir si les m1 , . . . , mJ sont les réalisations de variables
aléatoires X1 , · · · , XJ de même loi que X ⇠ F0 .
On a pour cela à notre disposition le tableau des fréquences cumulées Fj

mj m1 · · · mJ
Fj F 1 · · · FJ

Notons que si m⇤j , le quantile théorique, est tel que

Fj := F0 (m⇤j ) = P (Xj  m⇤j ),

et si F0 est la "bonne" loi alors les quantiles observés mj et les quantiles théoriques m⇤j devraient
être égaux ou du moins proches 4 (mj ⇡ m⇤j ).

4. Car ce n’est qu’une estimation.

31
Calculons les quantiles théoriques m⇤j associés aux fréquences cumulées Fj (et F0 inversible)

F0 (m⇤j ) = Fj , m⇤j = F0 1 (Fj ) .

En général ce calcul se fait par l’utilisation des tables statistiques (par exemple lorsque F0 est une
gaussienne), la calculatrice ou par un logiciel. On obtient le tableau suivant :

mj m1 · · · mJ
Fj F1 · · · FJ
m⇤j = F0 1 (Fj ) m⇤1 · · · m⇤J

Notons que FJ = 1, ainsi m⇤J = F0 1 (FJ ) = F0 1 (1) = +1, car limt!+1 F0 (t) = 1 par définition de
la fonction de répartition. Ce dernier quantile m⇤J ne sera donc jamais considèrer.

Ê Représentation graphique : le QQ-plot


On reporte dans un graphique le nuage de points (mj , m⇤j )j=1...J , et on trace la première bissectrice,
c’est-à-dire la droite d’équation y = x.
2

2
1

1
0

0
-1

-1
-2

-2

-2 -1 0 1 2 -2 -1 0 1 2
2

2
1

1
0

0
-1

-1
-2

-2

-2 -1 0 1 2 -2 -1 0 1 2

Figure 2.4 – Différents QQ-plots

32
Ê Interprétation du QQ-plot

8 Si les points sont alignés sur la diagonale du carré de côté 1 (1ére bissectrice), alors la loi théorique
proposée (de fonction de répartition F0 ) est adaptée aux observations (figure 2.4 en haut à gauche).

8 Si les points sont alignés sur une droite parallèle à la diagonale du carré de côté 1 on soupçonnera
une erreur sur les paramètres de position de la loi théorique (figure 2.4 en haut à droite).

8 Si les points sont alignés sur une droite passant par l’origine mais inclinée par rapport à la dia-
gonale du carré de côté 1 on soupçonnera une erreur sur les paramètres de dispersion de la loi
théorique (figure 2.4 en bas à gauche).

8 Si les points sont alignés sur une droite ne passant pas par l’origine et inclinée par rapport à
la diagonale du carré de côté 1 on soupçonnera une erreur sur les paramètres de dispersion et de
position de la loi théorique.

8 Si les points ne sont pas alignés sur une droite la loi théorique n’est pas adaptée aux observations
(figure 2.4 en bas à droite).

- Cas des classes de modalité :


Lorsque l’on est dans le cas d’une variable quantitative dont les valeurs sont regroupées en classes
de modalité, on remplit le tableau des fréquences cumulées. Pour chaque fréquence cumulée Fj , on
calcule le quantile théorique m⇤j de la même manière que dans le cas précédent. Seuls les quantiles
observés mj diffèrent dans le sens où ils ne sont pas donnés.On prend comme quantile observé mj
le centre de la classe [bj 1 , bj [
bj 1 + bj
mj = .
2

Classe [b0 , b1 [ [b1 , b2 [ · · · [bJ 1 , bJ [


mj m1 m2 ··· mJ
Fj F1 F2 ... FJ
m⇤j = F0 1 (Fj ) m1 m m⇤2 m
⇤ ··· m⇤J
Puis on reporte dans un graphique le nuage de points (mj , m⇤j )j=1...J et on trace la première bissec-
trice, c’est-à-dire la droite d’équation y = x.

Remarque 2.8 :
• Si l’on dispose des données individuelles d’une variable aléatoire continue, les modalités sont toutes
les valeurs prises par la série (ordonnées) et les fréquences cumulées sont du type ni .
• Les QQ-plot peuvent servir aussi à comparer les distributions de deux séries.

33
Exemple 2.15
On s’intéresse à la distribution du PIB pour les pays du tableau 2.1. On veut comparer leur distri-
bution avec une gaussienne centrée réduite. Le QQ-plot correspondant est représenté sur la figure
2.5. Ce graphe indique que la répartition du PIB est significativement différente d’une loi normale.
4
x 10
8

Quantiles of Input Sample


4

−2

−4
−3 −2 −1 0 1 2 3
Standard Normal Quantiles

Figure 2.5 – QQ-plot pour les données de la Table 2.1

34
Pays PIB par habitant Consommation d’énergie par habitant
(en $ US, en 2004) (en Tonnes d’équivalent pétrole, en 2002)
Afrique du sud 5700 2.502
Algérie 2575 0.985
Bénin 512 0.340
Egypte 976 0.789
Maroc 1505 0.363
Nigeria 541 0.718
Sénégal 637 0.319
Allemagne 33422 4.198
Espagne 25777 3.215
France 33614 4.470
Grèce 19226 2.637
Italie 28909 2.994
Luxembourg 66808 9.112
Norvège 54894 5.843
Portugal 15835 2.546
Royaume-Uni 35193 3.824
Suède 38746 5.718
Suisse 47577 3.723
Arabie Saoudite 9285 5.775
Chine 1258 0.960
Corée du Sud 13929 4.272
Inde 631 0.513
Iran 2350 2.044
Israel 18404 3.191
Japon 36647 4.058
Koweit 21420 9.503
Philippines 948 0.525
Russie 4071 4.288
Turquie 4296 1.083
Vietnam 520 0.530
Argentine 3808 1.543
Brésil 3210 1.093
Canada 30014 7.973
Colombie 2234 0.625
Etats-Unis 39114 7.943
Paraguay 1032 0.709
Venezuela 4203 2.141
Australie 30498 5.732

Table 2.1 – Ces données sont obtenues du 35


site http ://www.statistiques-mondiales.com/
Chapitre 2. Distributions statistiques univariées : principaux indicateurs
Exercice 2.1 Une banque propose 2 placements :
- Le placement A rémunère votre épargne à 3% pendant 5 ans puis 1% pendant 3 ans.
- Le placement B rémunère votre épargne à 2,3% pendant 8 ans.
En comparant les rendements moyens des deux placements, lequel préférez-vous ?

Exercice 2.2 Une voiture effectue le trajet aller de Grenoble à Turin (distance entre Grenoble et Turin est
de 200 km) à la vitesse de 120 km/h, puis, à cause des embouteillages, le trajet retour à 80 km/h.
1. Quelle est la vitesse moyenne du trajet ?
2. Comment s’appelle cette moyenne?

Exercice 2.3 En 2012, le prix d’un litre de carburant était de 1,40 euros.
1. Ce prix a connu une augmentation de 3% entre 2012 et 2013. puis une nouvelle augmentation de 10% entre
2013 et 2014. Quel est le taux moyen d’augmentation du prix d’un litre de carburant entre 2012 et 2014 ?
2. En supposant que, durant les quatre années précédant 2012, le prix d’un litre de carburant a augmenté de
5% par an, calculer le prix d’un litre de carburant en 2008, au centime près (c’est-à-dire 2 chiffres après la
virgule)

Exercice 2.4 On s’intéresse à un jeu de hasard. Il consiste à donner un nombre réel entre ≠20 et 20 de
façon aléatoire et uniforme. On donne n = 100 tirages successifs:

Classe [-20,-10] ]-10,-5] ]-5,0] ]0,10] ]10,20]


Effectifs 30 20 15 20 15

1. Donner la(les) classe(s) modale(s).(Justifier)


2. Calculer le nombre moyen tiré lors de ces 100 tirages. (Justifier)
3. Calculer les fréquences cummulées et tracer la fonction de répartition empirique de X.
4. Calculer la médiane et le 6ème décile. (Jusifier)

Exercice 2.5 On considère les notes d’un groupe de L1 de n étudiants en 2018. Les données sont résumées
dans le tableau suivant:

Note [0, 5[ [5, 9[ [9, 15[ [15, 20]


Effectifs 4 n2 15 4

1. Décrire la population étudiée, donner la taille de cette population en fonction de n2 , ainsi que la variable
étudiée X et sa nature.
2. Calcul de n2 :
Sachant que la moyenne de ce groupe est de 10, déterminer l’effectif n2 ainsi que l’effectif total n. (On
détaillera ici le raisonnement).
3. On donne n2 = 10.
(a) Calculer la (les) classe(s) modale(s).
(b) Tracer la fonction de répartition empirique de la variable " note". (On apportera un soin particulier
au raisonnement).
(c) Calculer premier quartile. (On détaillera ici le raisonnement).
Exercice 2.6 On a relevé les salaires de 500 personnes travaillant dans une entreprise. Les données en
euros sont résumées dans le tableau suivant:

Salaire [800, 1100[ [1100, 1600[ [1600, 2300[ [2300, 4000[


Effectifs 200 150 100 50

1. Quelle est la population, sa taille, le caractère étudié ainsi que sa nature?


2. Tracer la fonction de répartition empirique (Justifier).
3. Calculer les valeurs a1 , a2 et a3 telles que
(a) La moitié des employés gagnent moins de a1 euros.
(b) a2 % des employés gagnent moins de 1000 euros.
(c) a3 % des employés gagnent plus de 2000 euros.

Exercice 2.7 Soit x1 , · · · , xn , avec n = 100 une série de réels. On sait que la moyenne et la variance
empiriques valent x = ≠9.7 et s2x = 2.
1. Calculer le moment d’ordre 2 empirique x2 .
2. On définit la nouvelle série y1 , · · · , yn , où yi = ≠4xi ≠ 3 pour tout i = 1, · · · , n

a. Calculer la moyenne empirique y.

b. Calculer l’écart type empirique sy .

c. Calculer le moment d’ordre 2 empirique y 2 .

Exercice 2.8 Les notes de 30 étudiants de L1 en mathématiques sont les suivantes :

20 9 12 15 4 10 6 11 10 9
6 13 10 8 13 10 15 13 11 8
11 15 9 10 6 4 13 0 10 11

1. Calculer la médiane, le premier quartile et le troisième quartile.


2. Calculer les quantités nécessaires pour tracer les boîtes de distribution.

3. Tracer maintenant la boîte de distribution.

Exercice 2.9 Les notes de 30 étudiants en droit sont les suivantes :

12 10 8 9 8 10 10 12 11 9
10 12 12 11 10 10 11 11 8 11
12 8 9 11 10 8 19 18 1 3

1. Calculer la médiane, le premier quartile et le troisième quartile.

2. Calculer les quantités nécessaires pour tracer les boîtes de distribution.


3. Tracer maintenant la boîte de distribution.
Exercice 2.10 Les notes d’une classe de 54 étudiants sont partiellement résumées dans le tableau suivant

Minimum premier quartile Etendue E : x(2) x(26) x(27) x(28) x(40) x(41) x(42) x(52) x(53)
0 7.75 20 1.5 8.5 9 10 11 12 13.5 18 19.5

1. Quelle est la population étudiée, sa taille, le caractère étudié, sa nature?


2. Calculer le maximum que l’on notera x(54) . (Justifier rigoureusement)

3. On souhaite tracer la boîte de distribution :


(a) Calculer le troisième quartile, la médiane et l’intervalle interquartile.
(b) On souhaite tracer la boîte de distribution, calculer les quantités necessaires manquantes.(Justifier
rigoureusement)
(c) En déduire s’il y en a les valeurs extrêmes.
4. Tracer maintenant la boîte de distribution.
5. Commenter.

Exercice 2.11 Une étude sur le chiffre d’affaires d’une population de PME a permis d’obtenir les résultats
suivants (en milliers d’euro)

minimum 3500 moyenne 4900


Ecart-type 650 mode 4550
Ecart interquartile 1100 médiane 4600
premier quartile 4100 étendue 5000

1. Classer ces paramètres en deux catégries (position,dispersion).


2. Quel est le chiffre d’affaires le plus grand dans cette population de PME ? Calculer le troisième quartile.
3. Calculer les valeurs de a et b (notations du cours).

4. Que vaut la valeur adjacente xa ? On suppose que les trois plus grandes valeurs de la série sont 6000,
6800, 8500. Que vaut xb ?

Exercice 2.12 Des cousins discutent de leur argent de poche annuel. Les sommes reçues par ces n = 4
cousins sont données par la série suivante de taille n = 4 :

190 110 2550 150

1. Rappeler et calculer les quantités nécessaires au tracé de la courbe de Lorenz.


2. La tracer.
3. Calculer l’indice de Gini.
4. Commenter.
Exercice 2.13 Un petit garçon nommé Nesta se voit offrir un paquet avec S bonbons. Il en donne 1/5 à
sa petite soeur Syssa, 1/12 à son cousin Mathys et 1/6 à son cousin Ilyane, il garde le reste pour lui.

1. Quel part du paquet Nesta garde-t-il pour lui?


2. Rappeler et calculer les valeurs nécessaires au tracé de la courbe de Lorentz.
3. Tracer la courbe de Lorentz.
4. Calculer l’indice de Gini. Commenter.

Exercice 2.14 Un couple de statisticiens est parti en week-end à Cannes, pour un budjet total de 1000
euros. Ils avaient réparti leurs dépenses ainsi:

x(i) en euros x(1) x(2) x(3) x(4)


Poste de dépenses Taxis Trains Logement Loisirs

Un couple d’amis leurs demande de détailler leurs points de dépenses (x(1) , · · · x(4) ), mais ils ne s’en souviennent
plus. Ils ne se rappelent que les informations suivantes qu’ils avaient calculé en tant que statisticiens: L’indice
de Gini G = 0.365 et

• Q1 = 0.03 est la proportion de budjet allouée (par rapport au budjet total de 1000 euros) au premier
poste de dépenses ( soit le moins onéreux).
• Q2 = 0.17 est la proportion de budjet allouée (par rapport au budjet total de 1000 euros) aux 2 premiers
postes de dépenses les moins onéreux.

Le but de cet exercice est de retrouver les sommes allouées en euros aux différents postes de dépenses, soit
(x(1) , · · · x(4) ).

1. Donner sans calculs Q4 , la proportion de budjet allouée aux 4 postes de dépenses.


2. Rappeler la formule de l’indice de Gini et en déduire par calcul Q3 , la proportion de budjet allouée aux
3 premiers postes de dépenses les moins onéreux.
3. ’i = 1, · · · , 4, rappeler la formule qui lie les Qi aux Si la somme allouée en euros aux i premiers postes
de dépenses les moins onéraux. En déduire tous les Si .
4. ’i = 1, · · · , 4, rappeler la formule qui lie les Si aux x(i) la somme allouée en euros prévue au i≠ième
poste de dépenses. En déduire tous les x(i) .

Exercice 2.15 1. Soit la série suivante :


≠1.207 0.277 1.084 ≠ 2.346 0.429 0.506 ≠ 0.575 ≠ 0.547
Comparer la distribution de ces données à une loi normale de moyenne m = 0 et de variance ‡ 2 = 1. (Faire
le diagramme quantile-quantile.)
2. Soit la série suivante :
≠5.41 ≠ 2.45 ≠ 0.83 ≠ 7.69 ≠ 2.14 ≠ 1.99 ≠ 4.15 ≠ 4.09 ≠ 4.13 ≠ 4.78
Comparer la distribution de ces données à une loi normale de moyenne m = ≠3 et de variance ‡ 2 = 2. (Faire
le diagramme quantile-quantile.)
3. Soit la série suivante :
-2.15 -1,77 -2.38 -1,81 -2.15 -6.79 -5.93 -2.15 -4.98 -2.38
-5.93 -2.38 -4.98 -6.79 -2.15 -1,81 -4.98 -1,77 -4.98 -1,81

Comparer la distribution de ces données à une loi normale de moyenne m = ≠2 et d’écart type ‡ = 3. (Faire
le diagramme quantile-quantile.)
Exercice 2.16 1. Soit X une variable aléatoire de loi exponentielle de paramètre 4. Donner sa fonction de
répartition, son espérance et sa variance.
2. On considère la série statistique suivante:

0.0848 0.0605 0.438 0.414 0.254

Comparer la distribution de ces données à une loi exponentielle de paramètre 4.

Exercice 2.17 On s’intéresse à la loi de Pareto de paramètre 2 dont la fonction de répartition est
;
1 ≠ t12 si t > 1,
F (t) = P (X Æ t) =
0 sinon.

On considère la série statistique suivante :

1.09 2.00 2.27 3.38 1.28 1.40

Comparer la distribution de ces données à la loi de Pareto de paramètre 2.


Chapitre 3

Description des distributions statistiques


bivariées

Soit une population P de taille n, on s’intéresse dans ce chapitre à deux caractères, le caractère
X et le caractère Y . À chaque individu i de la population, on observe (xi , yi ). La série statistique
(x1 , y1 ), · · · , (xn , yn ) est appelée série statistique bivariée. Notons que chacune des variables X et Y
peut être quantitative ou qualitative.

Dans ce chapitre, on s’intéresse aux relations entre les deux variables X et Y . Dans une première
partie, on s’intéresse à la présentation de ces données et nous proposons un indicateur d’indépen-
dance. Dans une seconde partie nous nous intéressons à la modélisation d’une relation linéaire entre
les deux caractères étudiés.

3.1 Distributions conjointe, marginale et conditionnelle


3.1.1 Tableau de contingence
Les variables X et Y n’ont pas forcément le même nombre de modalités. Notons (mX 1 , · · · , mJ ) les
X

J modalités de X et (m1 , · · · , mK ) les K modalités de Y . Si l’une des deux variables (ou les deux)
Y Y

est quantitative continue,

les mX
1 , · · · , mJ et/ou les m1 , · · · , mK
X Y Y

doivent être remplacées respectivement par les classes modales

0 , b1 [, · · · , [bJ 1 , bJ [ et/ou [b0 , b1 [, · · · , [bK


[bX .
X X X Y Y Y Y
1 , bK [

Les données (x1 , y1 ), · · · , (xn , yn ) peuvent être représentées dans un tableau à double entrée appelé
tableau de contingence : 1 .
1. ´ En probabilité cela correspondrait au tableau de la loi jointe de X et Y où la probabilité P (X = x, Y = y)
serait remplacée par le cardinal de l’événement {X = x, Y = y}.

41
HH
H Y
HH mY1 ... mYk ... mYK Total
X H
mX 1 n11 ... n1k ... n1K n1•
.. .. .. .. ..
. . ... . ... . .
mX j nj1 ... njk ... njK nj•
.. .. .. .. ..
. . ... . ... . .
mX
J nJ1 ... nJk ... nJK nJ•
Total n•1 ... n•k ... n•K n

Les quantités dans le tableau sont définies de la façon suivante :

8 Le nombre njk est le nombre de fois où le couple (X, Y ) prend la modalité (mX j , mk ), c’est-à-dire
Y

que X = mX Y 2
j et Y = mk .
8 Le nombre nj• est le nombre de fois où la variable X prend la valeur mX
j ,c’est-à-dire que X = mj .
X

8 Le nombre n•k est le nombre de fois où la variable Y prend la valeur mYk , c’est-à-dire que Y = mYk .
Les nj• et n•k sont appelés effectifs marginaux. On a
J
X K
X
njk = n•k et njk = nj•
j=1 k=1

De plus
K X
X J J
X K
X
njk = nj• = n•k = n
k=1 j=1 j=1 k=1

Exemple 3.1
Soient X et Y deux caractères observés sur une population P de taille n = 100. La variable Y
admet les K = 3 modalités suivantes :

mY1 = 0, mY2 = 1 et mY
3 = 2.

La variable X admet les J = 2 modalités suivantes :

mX
1 = 1 et mX
2 = 1.

H
HH Y
H 0 1 2 Total
X HH
-1 20 15 5 40
1 15 10 35 60
Total 35 25 40 100
On lit ce tableau de contingence de la façon suivante :
8 Il y a n23 = 35 individus dans la population tels que leur caractère X = 1 et leur caracteère
Y = 2, c’est-à-dire tels que (X = 1, Y = 2) .
8 Il y a n1• = n11 + n12 + n13 = 20 + 15 +5 = 40 individus dans la population tels que leur caractère
X = 1.
2. La valeur de njk se trouve dans le tableau à la j-ième ligne et k-ième colonne.

42
8 Le nombre n•2 = n12 + n22 = 15 + 10 = 25 individus dans la population tels que leur caractère
Y =1
8 De plus la somme de tous les effectifs njk , pour tous j = 1, 2 et k = 1, 2, 3 vaut :

K X
X J 3 X
X 2
njk = njk = 20 + 15 + 5 + 15 + 10 + 35 = 100 = n.
k=1 j=1 k=1 j=1

Remarque 3.1 :
Dans de nombreuses situations, les données individuelles (x1 , y1 ), · · · , (xn , yn ) ne sont pas dispo-
nibles, on a seulement accès aux tableaux de contingence.

3.1.2 Distribution conjointe


Le tableau des fréquences (tableau de distribution empirique) suivant 3 s’obtient en divisant
les effectifs par le nombre d’unités statistiques n.
HH
H Y
mY ... mYk ... mYK Total
X HHH 1
mX 1 f11 ... f1k ... f1K f1•
.. .. .. .. ..
. . ... . ... . .
mX
j fj1 ... fjk ... fjK fj•
.. .. .. .. ..
. . ... . ... . .
mX J fJ1 ... fJk ... fJK fJ•
Total f•1 ... f•k ... f•K 1

Les quantités dans le tableau sont définie de la façon suivante :

8 La fréquence à laquelle le couple (X, Y ) prend la modalité (mX


j , mk ) vaut :
Y

njk
fjk = .
n
8 La fréquence à laquelle la variable X prend la modalité mX
j vaut :

nj•
fj• = .
n
8 La fréquence à laquelle la variable Y prend la modalité mYk vaut :
n•k
f•k = .
n
Les fj• et f•k sont appelées fréquences marginales. On a
J
X K
X
fjk = f•k et fjk = fj• .
j=1 k=1

3. ´ En probabilité cela corresponderait au tableau de la loi jointe de X et Y où la probabilité P (X = x, Y = y)


serait remplacée ici par les fréquences.

43
De plus
K X
X J J
X K
X
fjk = fj• = f•k = 1.
k=1 j=1 j=1 k=1

Exemple 3.2
Retour sur l’exemple 3.1. Soient X et Y deux caractères observés sur une population P de taille
n = 100.
H
HH Y
H 0 1 2 Total
X HH
-1 0.2 0.15 0.05 0.4
1 0.15 0.1 0.35 0.6
Total 0.35 0.25 0.4 1

On lit ce tableau de fréquences de la façon suivante :


8 La fréquence d’apparition du couple de modalités (X = 1, Y = 2) vaut :
n23 35
fjk = = = 0.35.
n 100
8 La fréquence d’apparition de la modalité X = 1 vaut :
n1• 40
f1• = = = 0.4.
n 100
8 La fréquence d’apparition de la modalité Y = 1 vaut :
n•2 25
f•2 = = = 0.25.
n 100
8 De plus la somme de toutes les fréquences fjk , pour tous j = 1, 2 et k = 1, 2, 3 vaut :

K X
X J 3 X
X 2
fjk = fjk = 0.2 + 0.15 + 0.05 + 0.15 + 0.1 + 0.35 = 1.
k=1 j=1 k=1 j=1

3.1.3 Distributions marginales


A partir du tableau de contingence ou du tableau de fréquences , on peut retrouver la distribution
marginale de chacune des variables séparément :

Modalité de Y mY1 . . . mYk . . . mYK total


Fréquence marginale f•1 . . . f•k . . . f•K 1

Modalité de X mX1 . . . mXj . . . mXJ total


Fréquence marginale f1• . . . fj• . . . fJ• 1
Les distributions de X et de Y sont appelées distributions marginales. 4 Pour chaque variable,
on peut calculer les indicateurs habituels (moyenne, variance, écart type si la variable est quantita-
tive. . .). Ces paramètres sont qualifiés d’indicateurs marginaux.
4. ´ En probabilité cela corresponderait aux lois marginales de X et de Y .

44
Exemple 3.3
Retour sur l’exemple 3.2. Soient X et Y deux caractères observés sur une population P de taille
n = 100 alors les tableaux de distributions marginales sont

Modalité de Y 0 1 2 Total
Fréquence marginale f•k 0.35 0.25 0.4 1

Modalité de X 1 -1 Total
Fréquence marginale fj• 0.4 0.6 1

3.1.4 Distribution conditionnelle


´ Le lien avec les formules de probabilité est résumé ainsi :

Probabilités Statistiques descriptives


Distribution de probabilité Distribution empirique
Fonction de répartion F (·) Fonction de répartion empirique Fn (·)
Loi du couple P (X = x, Y = y) Fréquence jointe fjk pour les modalités (mX Y
j , mk )
Loi marginale de X, P (X = x) Fréquence marginale fj• pour la modalité mX j
Loi marginale de Y , P (Y = y) Fréquence marginale f•k pour la modalité mYk
Cardinal Effectif
Loi conditionnelle P (X = x|Y = y) Fréquence conditionnelle fj|k

En probabilité, on parle de probabilités conditionnelles :

P (X = x, Y = y)
P (X = x|Y = y) = .
P (Y = y)

Intuitivement, on comprend que l’on peut parler de fréquences conditionnelles et les définir de la
façon suivante :
fjk njk
fj|k = = .
f•k n•k
La fréquence conditionnelle fj|k peut se lire “fréquence de la modalité mX
j sachant que Y prend
la modalité mk ".On peut alors construire le tableau des profils lignes.
Y

fjk
8 Profils lignes : fj|k = f•k :

HH
HH Y mY ... mYk ... mYK
1
X HH
mX 1 f1|1 ... f1|k ... f1|K
.. .. .. ..
. . ... . ... .
mX
j fj|1 ... fj|k ... fj|K
.. .. .. ..
. . ... . ... .
mX J fJ|1 ... fJ|k ... fJ|K
Total 1 ... 1 ... 1

45
Dans la colonne "Total", on calcule pour toutes les colonnes k = 1, · · · K

J J PJ
X X fjk j=1 fjk f•k
fj|k = = = = 1.
f•k f•k f•k
j=1 j=1

Chaque colonne k = 1, · · · , K correspond à la distribution empirique conditionnelle de la modalité


j sachant que Y prend la modalité mk " :
mX Y

Modalité de X mX1 . . . mXj . . . mXJ Total


Fréquence conditionnelle de (X = mX Y
j |Y = mk ) : fj|k f1|k . . . fj|k . . . fJ|k 1
f
8 Profils lignes : fk|j = fjk
j•
:
De même la fréquence conditionnelle
fjk njk
fk|j = =
fj• nj•

peut se lire “fréquence de la modalité mYk sachant que X prend la modalité mX


j ".

HH
H Y
HH mY1 ... mYk ... mYK Total
X H
mX 1 f1|1 ... fk|1 ... fK|1 1
.. .. .. ..
. . ... . ... . 1
mX
j f1|j ... fk|j ... fK|j 1
.. .. .. ..
. . ... . ... . 1
mX J f1|J ... fk|J ... fK|J 1

Dans la colonne "Total", on calcule pour toutes les lignes j = 1, · · · J

K
X K
X PK
fjk k=1 fjk fj•
fk|j = = = = 1.
fj• fj• fj•
k=1 k=1

Chaque ligne j = 1, · · · J correspond à la distribution empirique conditionnelle de la modalité mYk


sachant que X prend la modalité mX j " :

Modalité de Y mY1 . . . mYk . . . mYK Total


Fréquence conditionnelle de (Y = mYk |X = mX
j ) : fk|j fk|1 . . . fk|j . . . fK|j 1

8 Moyenne et variance conditionnelles empiriques

Si la variable X est quantitative, on peut calculer les moyennes et variances empiriques condi-
tionnelles : pour tout k = 1 . . . K
J
X J
X
mX|Y =k = fj|k mX
j s2X|Y =k = fj|k (mX
j mX|Y =k )2
j=1 j=1

Il s’agit de la moyenne ou de la variance des xi calculées pour les couples dont la variable Y a pour
valeur la k-ième modalité. On peut bien sûr faire de même en échangeant le rôle de X et Y pour
obtenir des moyennes et variances conditionnelles de Y .

46
Exemple 3.4
Retour sur l’exemple 3.3. Soient X et Y deux caractères observés sur une population P de taille
n = 100. Pour calculer les fréquence des modalités mYk sachant que X prend la modalité mX
1 = 1,
nous avons besoin des deux tableaux suivants :
HH
HH Y 0 1 2 Total
X HH
-1 0.2 0.15 0.05 0.4
1 0.15 0.1 0.35 0.6
Total 0.35 0.25 0.4 1

Modalité de X -1 1 Total
Fréquence marginale fj• 0.4 0.6 1

Ainsi le profil ligne :


f1k f1k
fk|1 = = ,
f1• 0.4
avec
f11 0.2
f1|1 = = = 0.5,
f1• 0.4
f12 0.15
f2|1 = = = 0.375,
f1• 0.4
f13 0.05
f3|1 = = = 0.125.
f1• 0.4

Nous pouvons présenter sous forme d’un tableau cette distribution conditionnelle empirique :

Modalité de Y 0 1 2 total
Fréquence conditionnelle de (Y = mYk |X = mX
1 = 1) : f1|1 f2|1 f3|1 Total
fk|j 0.5 0.375 0.125 1

3.1.5 Statistique du Chi-deux


En présence de deux variables, l’un des enjeux principaux est d’étudier (c’est-à-dire quantifier voire
expliquer) la dépendance ou (l’indépendance) entre les deux caractères.
Si on était dans le cadre des probabilités (ce qui n’est pas le cas) deux variables aléatoires X et Y
sont indépendantes si et seulement si pour tout (x, y) 2 SuppX ⇥ SuppY

P (X = x, Y = y) = P (X = x)P (Y = y) , P (X = x, Y = y) P (X = x)P (Y = y) = 0.

On aimerait faire ce même parallèle en statistiques, c’est-à-dire, deux caractères X et Y sont indé-
pendants si et seulement si pour tout j = 1, · · · , J et k = 1, · · · , K

fjk = fj• f•k , fjk fj• f•k = 0.

Le hic, c’est que nous ne sommes pas dans le cadre des probabilités, et les fréquences ne sont pas
des probabilités mais des estimations des probabilités. Ainsi même si les caractères X et Y étaient
indépendants, il est très rare voire presque impossible que fjk fj• f•k = 0 pour tous j = 1, · · · , J

47
et k = 1, · · · , K. En revanche, on peut étudier cette différence et la comparer non pas à zéro mais à
une petite valeur (un seuil) à définir. La théorie des Statistiques matématiques apporte une solution
pour "quantifier" la distance à l’indépendance par la statistique du chi-deux, notée D 2 :

J X
X K
(fjk f•j fk• )2
D 2 = n .
f•j fk•
j=1 k=1

Discussion :
Plusieurs remarques :
8 Tout d’abord, la quantité qui intervient dans D 2 n’est pas la distance fjk fj• f•k mais le carré
de cette distance (fjk fj• f•k )2 , ce qui ne change pas le raisonnement. On veut pour conclure à
l’indépendance que ce carré soit égal à une petite valeur.
8 Toutes les distances (fjk fj• f•k )2 pour j = 1, · · · , J et k = 1, · · · , K interviennent dans D 2
P P
au travers d’une double somme Jj=1 K k=1 , ce qui ne change pas le raisonnement. On veut pour
conclure à l’indépendance toujours une petite valeur. "Petite valeur " dont nous discuterons par
la suite.
f f
8 Dans cette statistique du chi-deux D 2 , on divise par •jn k• > 0 pour des raisons techniques
dont on ne parlera pas ici mais cela ne change rien au raisonnement. On veut pour conclure à
l’indépendance toujours une petite valeur.
Il est facile de prouver (à faire en exercice à la maison) que la statistique du chi-deux peut également
s’écrire en fonction des effectifs :

02 3 1
J X
K
X n2jk
D 2 = n @4 5 1A
nj• n•k
j=1 k=1
J X
X K n•j nk• 2
(njk n )
= n•j nk• ,
j=1 k=1 n

Où J et K sont le nombre de modalités de chacune des 2 variables considérées.

Comment conclure :
8 Soient J et K le nombre de modalités de chacune des 2 variables considérées.
8 On se fixe un seuil ↵ 2]0, 1[ (Exemple : ↵ = 5% = 0.05) "d’erreur acceptable".
8 Chercher dans les tables statistiques, distribuées au premier cours, la loi du 2d (se lit loi du khi2
à d degrés de liberté), où
d = (J 1)(K 1),
est le degré de liberté de la loi (c’est à dire le paramètre de la loi du khi2).
8 Une fois la loi du 2d identifiée, chercher le quantile d’ordre 1 ↵% de cette loi : q1 ↵ (q0,95 dans
notre exemple).

48
Interprétation :
8 Comparer D 2 à q1 ↵ .
8 Si D 2 < q1 ↵ , on conclut que les deux variables sont indépendantes, car la distance D 2 est plus
petite que le seuil que l’on s’est fixé.
8 Si D 2 q1 ↵ , on conclut que les deux variables sont dépendantes.

Exemple 3.5
A partir d’une population de taille 200 , on recense les propriétaires de leur logement et les locataires
selon leur âge, c’est-à-dire qu’ils aient plus ou moins de 30 ans. On obtient les résultats suivants :

Propriétaires Locataires
Âge  30 ans 22 72
Âge > 30 ans 64 42

8 Calcul de la statistique du Chi deux D 2 : Pour cela complétons le tableau de contingence :

Propriétaires Locataires Total


Âge  30 ans 22 72 94
Âge > 30 ans 64 42 104
Total 86 114 200

02 3 1
J X
K
X n2jk
D 2 = n @4 5 1A
nj• n•k
j=1 k=1
✓ ◆
222 722 642 422
= 200 ⇥ + + + 1
94 ⇥ 86 94 ⇥ 114 104 ⇥ 86 104 ⇥ 114
⇡ 30.076.

8 Calcul du quantile :Pour un seuil ↵% = 5%, le quantile 1 ↵ = 0.95 de la loi du 2


d avec
d = (J 1) ⇥ (K 1) = (2 1) ⇥ (2 1) = 1 vaut par lecture de table :
2 2
q1 d ↵ = q0.95
1
= 3.841.

8 Interprétation : Pour un seuil ↵% = 5%, l’interprétation est la suivante : Comme


2
D 2 > q1 d ↵

on conclut à la dépendance des deux caractères, il existe donc un lien, une corrélation entre le fait
d’être ou non propriétaire avec le caractère âge.

3.2 Cas particulier des couples de variables quantitatives


Dans le cas où les caractères X et Y sont des variables quantitatives, nous pouvons (c.f. chapitre2)
calculer à partir des distributions marginales (c.f. la section précédente) :

49
Ê Les moyennes empiriques : x et y de X et de Y .
Ê Les moments empiriques d’ordre deux : x2 et y 2 de X et de Y .
Ê Les variances empiriques : s2X et s2Y de X et de Y .
Ê Les écarts types empiriques : sX et sY de X et de Y .

Ces paramètres sont appelés paramètres marginaux.

´ Le lien avec les formules de probabilité est résumé ainsi :

Probabilités Statistiques descriptives


Variables aléatoires X et Y Caractères X et Y
E(X) et E(Y ) x et y
E(X 2 ) et E(Y 2 ) x2 et y 2
V (X) et V (Y ) s2X et s2Y
p p
V (X) et V (Y ) sX et sY

Propriétés :
Les propriétés vues dans le premier polycopié de probabilités sont "applicables" en statistiques,
ainsi pour tous réels a et b on a :

Probabilités Statistiques descriptives

E(aX + b) = aE(X) + b ax + b = ax + b
E(X + Y ) = E(X) + E(Y ) x+y =x+y
V (aX + b) s2aX+b = a2 s2X
p p
V (aX + b) = |a| V (X) saX+b = |a|sX

Exemple 3.6
Soit (x1 , y1 ), · · · , (xn , yn ) une série statistique bivariée, telle que les moyennes empiriques de X et
Y , la variance empirique de X et l’écart type empirique de Y valent

x= 1, y = 3, s2X = 9 et sY = 2.

Ê Alors, on peut déduire les quantités suivantes :


- La variance empirique de Y : s2Y = (sq 2 2
Y ) = 2 = 4.
p
- L’écart type empirique de X : sX = s2X = 9 = 3.
- Le moment empirique d’ordre deux de X : x2 = s2X + (x)2 = 9 + ( 1)2 = 10.
- Le moment empirique d’ordre deux de Y : y 2 = s2Y + (y)2 = 4 + (3)2 = 13.

Soit maintenant (z1 , w1 ), · · · , (zn , wn ) une nouvelle série statistique bivariée, telle que

8i = 1, · · · , n on a zi = 2 + 5xi et wi = 2 yi .

50
Ê Alors, on peut déduire les quantités suivantes :
- Les moyennes empiriques de Z et W :

z= 2 + 5x = 2 + 5 ⇥ ( 1) = 7 et w = 2 y=2 1 ⇥ (3) = 1.

- Les variances empiriques de Z et W :

s2Z = s2 2+5X = (5)2 ⇥ s2X = 25 ⇥ 9 = 225 et s2W = s22 Y = ( 1)2 ⇥ s2Y = s2Y = 4.

- Les écarts types empiriques de de Z et W :

q p q p
sZ = s2Z = 225 = 15 et sW = s2W = 4 = 2.

- Le moment empirique d’ordre deux de Z : z 2 = s2Z + (z)2 = 225 + ( 7)2 = 274.


- Le moment empirique d’ordre deux de W : w2 = s2W + (w)2 = 4 + ( 1)2 = 5.

3.2.1 Covariance et coefficient de corrélation linéaire empiriques


Il nous reste encore à définir la covariance empirique de X et Y que l’on notera sX,Y et le coefficient
de corrélation empirique de X et Y que l’on notera rX,Y .

8 La covariance empirique est définie par


n
1X
sX,Y = (xi x)(yi y) = xy x ⇥ y,
n
i=1
Pn
où xy = 1
n i=1 xi yi .

8 Le coefficient de corrélation linéaire est :


sX,Y
rX,Y = .
sX sY
´ Le lien avec les formules de probabilité est résumé ainsi :

Probabilités Statistiques descriptives


E(XY ) xy
Cov(X, Y ) sX,Y
⇢X,Y rX,Y

51
Propriétés :
Les propriétés vues dans le premier polycopié de probabilités sont "applicables" en statistiques,
ainsi pour tous réels a, b, c et d on a :

Probabilités Statistiques descriptives


Cov(X, Y ) = Cov(Y, X) sX,Y = sY,X
Cov(X, X) = V (X) sX,X = s2X
V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y ) s2X+Y = s2X + s2Y + 2 sX,Y
Cov(aX + b, cY + d) = a.c Cov(X, Y ) saX+b,cY +d = a.c sX,Y
⇢X,Y 2 [ 1, 1] rX,Y 2 [ 1, 1]

Exemple 3.7
Soit (x1 , z1 ), · · · , (xn , zn ) la série statistique bivariée suivante :

zi 1 -1 1 0 0 -1 1 1 -1 -1 0 1
xi 3 4 3 3 4 3 3 3 4 3 3 4

Nous pouvons résumer cette série sous la forme d’un tableau de contingence ou sous la forme d’un
tableau des fréquences :
HH HH
HH Z -1 0 1 Total HH Z -1 0 1 Total
X HH X HH
3 2 2 4 8 3 2/12 2/12 4/12 8/12
4 2 1 1 4 4 2 1/12 1/12 4/12
Total 4 3 5 12 Total 4/12 3/12 5 /12 1

Table 3.1 – Tableau de contingence Table 3.2 – Tableau des fréquences

Ê Ainsi le caractère X admet J = 2 modalités alors que le caractère Z en admet que K = 3. On


peut calculer les quantités suivantes :
- Les moyennes empiriques de X et de Z :
2 2
X mX
j ⇥ nj•
X 3⇥8+4⇥4 10
x = = mX
j ⇥ fj• = = ,
n 12 3
j=1 j=1
3
X X 3
mZ ⇥ n•k 1⇥4+0⇥3+1⇥5 1
z = k
= mZ
k ⇥ f•k = = .
n 12 12
k=1 k=1

- Les moments empiriques d’ordre 2 de X et de Z :


2 2
X (mX 2
j ) ⇥ nj•
X 32 ⇥ 8 + 4 2 ⇥ 4 34
x2 = = (mX 2
j ) ⇥ fj• = = ,
n 12 3
j=1 j=1
3
X X 3
(mZ
k)
2 ⇥ n•k ( 1)2 ⇥ 4 + 02 ⇥ 3 + 12 ⇥ 5 3
z2 = = (mZ
k ) 2
⇥ f •k = = .
n 12 4
k=1 k=1

52
- On peut donc en déduire les variances empiriques de X et Z :
✓ ◆
34 10 2 2
s2X = x2 2
(x) = = ,
3 3 9
✓ ◆2
3 1 107
s2Z = z2 (z)2 = = .
4 12 144

- La moyenne empirique de XZ :
3 X
2 3 X
2
X njk ⇥ mX Z
j ⇥ mk
X
xz = = fjk ⇥ mX Z
j ⇥ mk
n
k=1 j=1 k=1 j=1
2 ⇥ ( 1) ⇥ 3 + 2 ⇥ 0 ⇥ 3 + 4 ⇥ 1 ⇥ 3 + 2 ⇥ ( 1) ⇥ 4 + 1 ⇥ 0 ⇥ 4 + 1 ⇥ 1 ⇥ 4 1
= = .
12 6

- On peut donc calculer la covariance empirique et le coefficient de corrélation empirique de X et


Z :
1 10 1 1
sX,Z = xz x⇥z = ⇥ = ,
6 3 12 9 p
1
sX,Z sX,Z 2 2
rX,Z = =q =q 9 = p ⇡ 0.273.
sX sZ s2X s2Z 2
⇥ 107 102
9 144

Il n’y a donc pas de dépendance linéaire entre X et Z (voir Autres propriétés de rX,Y au prochain
paragraphe pour l’interprétation).

Autres propriétés de rX,Y :

Statistiques descriptives

• Si xi = yi pour tout i = 1 . . . n, rX,Y = 1.


• Si rX,Y est "assez grand en valeur absolue" et négatif, les points sont globalement alignés sur une
droite décroissante.
• Si rX,Y est "assez grand en valeur absolue" et positif, les points sont globalement alignés sur une
droite croissante.
• Si rX,Y est proche de zéro alors il n’y a pas de dépendance linéaire. Cependant, il peut y avoir
une dépendance autre que linéaire (Y = X 2 par exemple).

53
Exemple 3.8
Sur la figure 3.8 on a représenté des nuages de points et calculé le coefficient de corrélation pour
chacun.
– En haut à gauche, les points sont alignés sur une droite croissante, rX,Y = 1.
– En haut au milieu, les points sont alignés sur une droite décroissante, rX,Y = 1.
– En bas à gauche, les points semblent suivre une droite croissante sans pour autant être alignés,
rX,Y = 0.739.
– En bas au milieu, les points semblent suivre une droite décroissante sans pour autant être alignés,
rX,Y = 0. 774.
– En haut à droite, aucun motif ne se dessine, rX,Y est petit et vaut 0.194.
– En bas à droite, les points sont parfaitement répartis selon une courbe qui n’est pas une droite,
rX,Y est petit.

1 -1 0.194

0.739 -0.774 0.404

Figure 3.1 – Exemple 3.8 : Coefficients de corrélation pour chaque nuage de points.

54
3.2.2 Ajustement linéaire d’un nuage de points
Dans le cas de variables quantitatives, la première chose à faire est de représenter les données
(x1 , y1 ), · · · , (xn , yn ) dans le plan par un nuage de points de coordonnées (xi , yi ).

Exemple 3.9
Dans l’exemple USA, on considère la variable X = "Illiteracy" et la variable Y ="Life Expectation".
Le nuage de points est représenté sur la figure 3.2.
73
72
Life Expectation

71
70
69
68

0.5 1.0 1.5 2.0 2.5

Illiteracy

Figure 3.2 – Nuage de points du jeu de données USA

On peut chercher à expliquer la relation entre X et Y par une transformation linéaire : Y = aX + b.


A partir d’un nuage de points (xi , yi ), i = 1, . . . , n qui semblent alignés, on va chercher la droite
d’équation y = ax + b qui passe au plus près des points du graphe. Passer au plus près, selon la
méthode des moindres carrés, c’est rendre minimale la somme des carrés suivante :
n
X
SC(a, b) = (yi axi b)2
i=1

où (yi axi b)2 représente le carré de la distance verticale du point expérimental (xi , yi ) à la
droite considérée comme la meilleure. Cela revient donc à déterminer les valeurs des paramètres a
et b (respectivement le coefficient directeur de la droite et son ordonnée à l’origine) qui minimisent
la somme SC(a, b), on note
n
X
a, bb) = arg min SC(a, b) = arg min
(b (yi axi b)2 ,
(a,b)2R2 (a,b)2R2
i=1

a, bb) l’argument (c’est-à-dire le couple) (a, b) qui minimise la somme SC(a, b).
et on lit (b

55
Théorème 3.2.1. Soit (xi , yi ) un nuage de points. Le couple (a, b) minimisant le critère des
moindres carrés est
sX,Y
b
a= 2 et bb = y b ax.
sX
a et bb sont appelés estimateurs des moindres carrés de a et b.
b

ax + bb.
On appelle régression linéaire de Y sur X la droite des moindres carrés d’équation y = b

Démonstration. Admis.

8 Et si on expliquait X par Y ? C’est-à-dire quelle est la régression linéaire de X sur Y ? En


appliquant le même raisonnement que précédemment, on chercherait la droite d’équation x = a0 y+b0
qui passe au plus près des points (xi , yi ), i = 1, . . . , n du graphe. Passer au plus près, selon la méthode
des moindres carrés, c’est rendre minimale la somme des carrés suivante :
n
X
SC 0 (a0 , b0 ) = (xi a 0 yi b0 ) 2
i=1

où (xi a0 yi b0 )2 représente le carré de la distance verticale du point expérimental (xi , yi ) à la


droite considérée comme la meilleure. Cela revient donc à déterminer les valeurs des paramètres a0
et b0 (respectivement le coefficient directeur de la droite et son ordonnée à l’origine) qui minimisent
la somme SC 0 (a0 , b0 ), on note
n
X
(ab0 , bb0 ) = arg min SC 0 (a0 , b0 ) = arg min (xi a 0 yi b0 ) 2 ,
(a0 ,b0 )2R2 (a0 ,b0 )2R2
i=1

et on lit (ab0 , bb0 ) l’argument (c’est-à-dire le couple) (a0 , b0 ) qui minimise la somme SC 0 (a0 , b0 ).

Théorème 3.2.2. Soit (xi , yi ) un nuage de points. Le couple (a0 , b0 ) minimisant le critère des
moindres carrés est
sX,Y
ab0 = 2 et bb0 = x ab0 y.
sY
ab0 et bb0 sont appelés estimateurs des moindres carrés de a0 et b0 .

On appelle régression linéaire de X sur Y la droite des moindres carrés d’équation x = ab0 y + bb0 .

Démonstration. Admis.

8 Si on veut tracer les deux droites sur le même graphe, il faut re-exprimer Y en fonction de X.
Les positions relatives de ces deux droites sont étudiées dans l’exercice 3.10.

Le point moyen de coordonnées (x, y) appartient à la droite des moindres carrés d’équation y =
ax + bb. En effet,
b
ax + bb = b
b ax + y b ax = y.
| {z }
b
b
De même, le point moyen de coordonnées (x, y) appartient à la droite des moindres carrés d’équation
x = ab0 y + bb0 . En effet,
ab0 y + bb0 = ab0 y + x ab0 y = x.
| {z }
bb0

56
Exemple 3.10
Dans l’exemple 1.6 (USA), On a obtenu les quantités suivantes :
x = 1.17 y = 70.8786 s2X = 0.3641 s2Y = 1.76598 sX,Y = 0.471882.

73
72
Life Expectation

71
70
69
68

0.5 1.0 1.5 2.0 2.5

Illiteracy

Figure 3.3 – Nuage de points du jeu de données USA

On a tracé la droite des moindres carrés (y = b ax + bb) qui représente la régression linéaire de la
variable Y ="Life Expectation" sur la variable X = "Illiteracy" sur la figure 3.3 où

0.471882 bb = y
b
a= ⇡ 1.296 et b
ax = 70.8786 ( 1.296) ⇥ 1.17 ⇡ 72.395.
0.3641
De plus
sX,Y 0.471882
=p rX,Y = = 0.5884779.
sX sY 0.3641 ⇥ 1.76598
Il n’y a donc pas de dépendance linéaire entre X et Y car rX,Y << 1. Donc même s’il est toujours
possible de tracer la droite des moindres carrés, ce n’est pas toujours pertinent.

8 Prédictions
La droite des moindres carrés permet d’expliquer la relation entre X et Y mais elle permet aussi
de prédire de nouvelles valeurs. Supposons qu’on nous fournisse une nouvelle valeur x? , on pourra
prédire la valeur de Y correspondante par :
(x? bb0 )
ax? + bb
y? = b ou bien par
. y? =
ab0
Inversement, supposons qu’on nous fournisse une nouvelle valeur y ? , on pourra prédire la valeur de
X correspondante par :
(y ? bb)
x? = ab0 y ? + bb0 ou bien par x? = .
b
a

57
Chapitre 3. Description des distributions statistiques bivariées

Exercice 3.1 On considère la série bi-variée (xi , yi )i=1,··· ,n , dont on dispose des données suivantes:

xi 0 0 -1 1 1 -1 0 1 0 0
yi 1 2 1 2 1 3 3 1 1 2

1. Donner la table de contingence.


2. Calculer la statistique du Chi-2 DX 2 .
3. Les variables X et Y sont-elles independentes au seuil de 5%? Justifier votre réponse.
4. Donner (sans justifications) les distributions marginales empiriques de X et Y .
5. Tracer la fonction de répartition empirique de X

Exercice 3.2 Une danse célèbre à deux se passe de la façon suivante:


• Le danseur A est toujours en mouvement: il peut soit avancer (+1) ou reculer (-1) d’un pas.
• Au même moment, le danseur B peut soit avancer (+2) de deux pas, soit reculer (-2) de deux pas, ou soit
rester sur place (0).
On pose: X = "mouvement du danseur A" et Y = "mouvement du danseur B". Le tableau suivant résume les
1000 premiers mouvements.

X\ Y -2 0 2
-1 200 100 100
1 300 150 150

1. Calculater la statistique du Chi-2 DX 2 . Les variables X et Y sont-elles independentes au seuil de 5%?


Justifier votre réponse.
2. Donner la distribution marginale du caractère Y .
3. Donner la distribution conditionnelle de X conditionnellement à Y = 0 (c’est-à-dire le danseur B ne bouge
pas).
4. Calculer x, y, s2X , s2Y , xy et la covariance empirique sX,Y .

Exercice 3.3 Dans la ville de Roseta, une grande fête des fleurs est organisée chaque année. Les 800
habitants doivent pour cela s’acheter:

• Soit des roses au prix de 10 euros, soit des tulipes au prix de 20 euros.

• De plus ils doivent s’acheter soit une tenue rouge au prix de 120 euros , soit une tenue blanche au prix
de 140 euros, soit une tenue noire au prix de 160 euros

Le tableau suivant résume les achats des habitants.

x \ y 120 euros 140 euros 160 euros


10 euros 200 50 50
20 euros 300 100 100
1. Combien d’habitants auront le jour de la fête une tenue noire et des roses?.
2. Quelle est la population étudiée, sa taille, les caractères étudiés, leur nature et leurs modalités.
3. Donner la distribution marginale du caractère x = "au prix des fleurs".(On donnera les résultats sous la
forme de fractions irréductibles)
4. Donner la distribution conditionnelle du prix de la tenue conditionnellement au fait d’avoir acheter des
roses.(On donnera les résultats sous la forme de fractions irréductibles)
5. On voudrait savoir si le choix de la tenue et le choix des fleurs est indépendant (ce qui revient à savoir si y
et x sont indépendants). Interprétez le résultat en justifiant (On prendra 1 ≠ – = 95% et on donnera les
résultats avec une précision de 3 chiffres après la virgule).
6. Calculer les moyennes empiriques x, y, s2x . (On donnera les résultats avec une précision de 4 chiffres après
la virgule)
7. Calculer xy et la covariance empirique sxy .
8. Calculer rxy le coefficient de corrélation empirique de y sur x et conclure.

Exercice 3.4 On s’intéresse au prix d’un bien A au cours du temps. Le tableau suivant donne l’évolution
du prix de ce bien de l’année 2000 à l’année 2007.

• On désigne par X la variable temps, telle que xi correspond à l’année 200i, i = 0, . . . , 7, c’est à dire
telle que l’année 2000 correspond à x0 = 0, l’année 2001 correspond à x1 = 1 ect....
• On désigne par Y la variable prix (donnée en centaine d’euros), telle que yi correspond au prix du
bien A au cours de l’année 200i, i = 0, . . . , 7, c’est à dire telle que en 2000 le bien A valait y0 = 7.32
centaines d’euros, ect....

Année xi 0 1 2 3 4 5 6 7
Prix yi 7.32 8.02 11.55 13.07 15.91 17.33 19.52 19.65

1. Calculer les moyennes empiriques x, y, xy et la covariance empirique sxy .


2. Calculer les moments d’ordre 2 de x et de y: x2 et y 2 . En déduire les valeurs des variances empiriques s2x
et s2y .
3. En utilisant la méthode des moindres carrées, déterminer l’équation de la droite représentant Y en fonction
de X.
4. Calculer le coefficient de corrélation linéaire. Interprétez le résultat.
5. Calculer le prix de ce bien en 2013.

Exercice 3.5 On dispose de 2 séries: (x1 , · · · , xn ) et (y1 , · · · , yn ). On donne les valeurs suivantes:
x = ≠3 y = 2, s2Y = 1.44, âÕ = ≠3, rxy = ≠0.8,
où rxy est le coefficient de correlation empirique de x et y et âÕ est le coefficient directeur de la droite de
régression de x sur y.
1. Calculer sxy la covariance empirique de x et y.
2. Calculer s2x .
3. Calculer l’équation de la droite de régression de y sur x.
4. On défini 2 nouvelles séries: (z1 , · · · , zn ) et (w1 , · · · , wn ) telles que
zi = 1 ≠ 3xi , et wi = 3 ≠ yi
pour tout i = 1 · · · , n.
a. Calculer les moyennes empiriques z et w.
b. Calculer les variances empiriques s2z et s2w .
c. Calculer la covariance empirique de z et w, szw .

d. Calculer le coefficient de corrélation empirique rzw de z et w. Pouvait on s’attendre au résultat ?


e. Donner l’équation de la droite de régression de w sur z

5. On définit 1 nouvelle série: (u1 , · · · , un ) telle que ui = ≠2yi2 ≠ yi , calculer la moyenne empirique u.

Exercice 3.6 On considère deux caractères X et Y correspondant respectivement à la quantité de blé


(donnée en tonnes) et au prix moyen associé par kg (donné en euros).

Blé X 100 120 84 78 87 180 110 95


Prix Y 1.6 1.4 1.95 2.1 1.75 2.25 1.5 1.8

On donne les valeurs suivantes:


q8 q8 q8 q8 q8
i=1 xi = 854, i=1 yi = 14.35, i=1 xi yi = 1548.85, i=1 x2i = 98634 et i=1 yi2 = 26.3475.

1. Calculer les variances empiriques s2X and s2Y (Justifer)


2. Calculer la droite de regression de Y sur X. (Justifier)
3. Calculer le coefficient de correlation linéaire.(Justifier) Interpréter le résultat.

Exercice 3.7 On désigne par X la variable associée à la proportion d’actifs occupés dans le secteur primaire
(donnée en pourcentage) et Y la variable associée à la part du secteur primaire dans le PIB (donnée en
pourcentage) .

Etats Allemagne Belgique Espagne France Grèce Irlande


X 3.4 2.7 11.8 6 24.5 15
Y 2 2 5 4 15 10

On donne les valeurs suivantes:


q6 q6 q6 q6 q6
i=1 xi = 63.4, i=1 yi = 38, i=1 xi yi = 612.7, i=1 x2i = 1019.34 et i=1 yi2 = 374.

1. Donner les coordonnées du point moyen G.


2. En utilisant la méthode des moindres carrés, déterminer l’équation de la droite représentant Y en fonction
de X.
3. Calculer le coefficient de corrélation linéaire. Interpréter le résultat.
4. Une nouvelle donnée a été collectée sur un pays inconnu non européen (x7 , y7 ) = (8, 16). Recalculer le
coefficient de corrélation linéaire. Interpréter le résultat. (On détaillera son raisonnement)
Exercice 3.8 On considère les trois distributions suivantes des tonnages de différentes espèces marines
pêchées en 2002 dans dix pays. Les trois variables sont exprimées en milliers de tonnes. Ainsi par exemple,
on a pour X, la valeur 51 pour l’Argentine correspond a 51 000 tonnes.

Coquilles Saint Jacques Crevettes Autres


X Y Z
Russie 10 37 17
Argentine 51 52 47
France 24 1 1
Etats-Unis 188 148 130
Espagne 0 18 13
Japon 579 28 30
Royaume-Uni 30 2 3
Norvège 1 71 68
Mexique 10 101 99
Uruguay 1 0 0
150

120
100
100

80
Y:Crevettes

Z: Autres

60
50

40
20
0

0 100 200 300 400 500 600 0 50 100 150

X: Coquilles st Jacques Y:Crevettes

Figure 1: Nuage de points (X, Y ) à gauche et Nuage de points (Y, Z) à droite

1. Définir la population, sa taille, les caractères étudiés et leur nature.


2. Que vous suggère la comparaison des deux graphiques de la Figure 1 ? (1 phrase suffit).
3. Calculez le coefficient de corrélation linéaire entre Y et Z. On détaillera tous les étape du calculs pour
avoir tous les points.
4. Commentez.
5. Donner l’équation de la droite de régression de Z sur Y : z = ây + b̂.
Exercice 3.9 On donne les sommes suivantes
q103 q103 q103 q103 q103
n = 103, i=1 xi = 6, i=1 yi = 317.8756, i=1 xi yi = ≠1459.53, i=1 x2i = 974.5 and i=1 yi2 = 4904.989

1.

a. Calculer x, x2 et y, y 2 , les moments empiriques d’ordre 1 et 2 de x et de y. Calculer xy le moment


empirique de xy.

b. Calculer sxy la covariance empirique de x et y et calculer s2x et s2y les variances empiriques de x et y.
c. Calculer rxy le coefficient de correlation empirique de x et y et l’éequation de la droite de réegression
de y sur x.

2. On retire les 3 points suivant: A = (≠4, ≠10), B = (0, 0) et C = (10, 20).

a. Calculer x, x2 et y, y 2 , les moments empiriques d’ordre 1 et 2 de x et de y. Calculer xy le moment


empirique de xy..
b. Calculer sxy la covariance empirique de x et y et calculer s2x et s2y les variances empiriques de x et y.

c. Calculer rxy le coefficient de correlation empirique de x et y et l’équation de la droite de réegression de


y sur x.

Vous aimerez peut-être aussi