POLY2-StatDesc 2023
POLY2-StatDesc 2023
Les annales des années précédentes, les informations importantes relatives à cette UE ainsi que
des conseils et consignes pour l’examen final seront mis en ligne sur le canal Teams du module.
Table des matières
2
3.2.1 Covariance et coefficient de corrélation linéaire empiriques . . . . . . . . . . . 51
3.2.2 Ajustement linéaire d’un nuage de points . . . . . . . . . . . . . . . . . . . . 55
3.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3
Chapitre 1
Remarque 1.1 :
Un autre point de vue peut-être adopté si on considère les données recueillies comme l’observation
partielle d’une population plus importante généralement supposée de taille infinie. Afin d’induire
des informations sur la population infinie à partir de l’échantillon de données recueillies, il faut
introduire la notion de loi de probabilité.
Ce deuxième point de vue, appelée inférence statistique ou statistique mathématique constitue
le programme de 2ème année.
Dans le programme de 1ère année, nous nous intéressons à la statistique descriptive. Dans le
chapitre 1, nous introduisons d’abord quelques concepts généraux puis nous proposons (chapitre 2)
un catalogue de diverses quantités permettant de résumer l’information contenue dans un jeu de
données. Le chapitre 3 est dédié à l’étude des relations entre deux variables.
4
+ Les données concernant les USA ont été trouvées sur le site de l’US Census Bureau 2 . Celles
concernant les meurtres aux USA proviennent du FBI 3 . Enfin, les informations concernant la
peine de mort ont été collectées sur Wikipédia.
+ Les données dont le nom de fichier contient le mot OCDE proviennent des bases de données de
l’Organisation de Coopération et de Développement Economiques (OCDE).
+ Les données dont le nom de fichier contient le mot ONU proviennent des bases de données de
l’Organisation des Nations Unies.
Notez que depuis très peu de temps, dans un souci de transparence, la France a ouvert le site
http://www.data.gouv.fr/. Ce site met à disposition un grand nombre (toutes ?) de données
officielles. Pour votre culture générale, nous vous invitons à le parcourir.
Dans les exercices, vous devez calculer des indicateurs, tracer des histogrammes, des boîtes de
distribution. Vous pouvez utiliser Excel ou un logiciel de statistiques. Excel n’étant pas un logiciel
de statistiques à proprement parler, les outils statistiques graphiques ne sont pas disponibles par
défaut.
/ Les histogrammes peuvent être tracés en installant la macro complémentaire “Utilitaire d’analy-
se”.
/ Les box-plot peuvent être faites “à la main" mais il semble plus raisonnable d’utiliser les macro
existantes sur le “marché". En particulier nous vous proposons d’utiliser la macro complémentaire
Boxplot.xla de Olivier Martin (Modulad, Numéro 32, janvier 2005). Nous avons mis cette macro
sur MyCourse ainsi que sa notice d’utilisation particulièrement pédagogique.
Plus généralement, d’autres macro peuvent être téléchargées sur le site https://www.rocq.inria.
fr/axis/modulad/excel_macros.htm. Nous vous invitons à parcourir le web pour trouver des outils
pratiques, tout en restant vigilants quant à leur qualité.
Remarque 1.2 :
Notez que dans la dernière version d’Excel, la macro "Utilitaire d’analyse" a été remplacée par le
logiciel StatPlus avec une version libre pour l’instant.
2. http://www.census.gov/compendia/statab/cats/population.html
3. http://www2.fbi.gov/ucr/cius2009/offenses/expanded_information/homicide.html
5
1.3 Vocabulaire
Les notions que l’on abordera dans ce second polycopié intitulé statistiques descriptives sont proches
des notions vues en probabilités. Nous essaierons de faire la correspondance dès que cela est possible
en note de bas de page 4 .
8 Population P :
En statistique, on appelle population un ensemble fini P. Les éléments de P seront appelés indivi-
dus. Cette population peut être de nature très variée : population humaine, agents économiques,
pièces détachées d’un certain type, logements dans une ville donnée, etc.
8 Variable 5 ou caractère(s) statistique(s) X :
Dans la population considérée on s’intéresse à un (ou plusieurs) caractère(s) statistique(s) X
concernant les individus.
8 Modalité Variable 6 mj :
À Chaque individu de la population P est attachée une modalité du caractère X i.e. une valeur
prise par le caractère.
Exemple 1.1
Soit une classe de 10 élèves ! la population P est constituée par les élèves, un individu est 1 élève,
la taille de la population est finie et vaut 10. On s’intéresse maintenant au caractère X = genre, il
y a deux modalités m1 = f eminin et m2 = masculin.
On comprend aisément que le caractère X peut être de deux types : quantitatif (un nombre) ou
qualitatif Le caractère X est dit
‰ Qualitatif 7 s’il ne peut être mesuré. Par exemple, le département de naissance d’un individu,
son sexe, son origine sociale.
‰ Quantitatif 8 s’il est mesurable. Dans ce cas, il peut être
Ê Continu s’il peut prendre n’importe quelle valeur d’un intervalle de R ; par exemple, le poids
et la taille d’un individu sont quantitatifs continus ;
Ê Discret s’il prend un nombre fini de valeurs ; par exemple, le nombre d’enfants par femme est
discret.
Remarque 1.3 :
Il faut prendre ces définitions avec précaution. En effet, la distinction continu / discret est parfois
peu claire.
8 Par exemple, en théorie, l’âge est une caractéristique continue mais en pratique elle est au mieux
mesurée avec une précision d’une journée.
4. Les correspondances seront donnés en note de bas de page précédées de ce symbole ´
5. ´ En probabilité, nous travaillons avec des variables aléatoires X.
6. ´ En probabilité, on ne parle pas de modalités mais de support. Soit X est une variable aléatoire dont le support,
noté SuppX contient toutes les valeurs possibles (c’est-à- dire de probabilité non nulle) de la variable aléatoire X.
Les éléments x 2 SuppX sont tous distincts.
7. ´ En probabilité, ce serait le Chapitre 1
8. ´ En probabilité, ce serait le Chapitre 2
6
8 De même si le nombre de modalités est trop grand, on préfère traiter le caractère X comme
continu.
Dans la suite, on appellera série statistique 9 la suite des valeurs prises par une variable X sur
les unités d’observations. On note n le nombre d’unités d’observation et x1 , . . . , xn les valeurs prises.
Exemple 1.2
Reprenons l’exemple 1.1 où la population P est constituée par les 10 élèves et le caractère observé
est le genre X et les modalités sont au nombre de 2 : m1 =F et m2 =M (respectivement féminin
et masculin). La série statistique observée est résumée dans le tableau suivant où xi est le sexe de
l’individu i
X = xi x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
F F F M M F M F M F
- Attention de ne pas confondre la série x i (de taille 10) et les modalités (au nombre de 2).
7
Exemple 1.3
Reprenons l’exemple 1.2 où la population P est constituée par les 10 élèves et le caractère observé
est le genre X et les modalités sont au nombre de 2 : m1 =F et m2 =M (respectivement féminin et
masculin). La série statistique observée peut être résumée ainsi
7 Représentation graphique
Dans une deuxième étape, on représente graphiquement la répartition des données au moyen d’un
diagramme circulaire ou d’un histogramme. La méthodologie est propre au type de caractéristique
observée.
Dans le cas d’une variable qualitative, on peut représenter les données graphiquement par :
Ê Un diagramme en barre dans lequel la hauteur de chaque barre est proportionnelle à l’effectif.
La largeur de chaque barre est arbitrairement choisie.
Ê Un diagramme en secteur, dans lequel chaque secteur angulaire est proportionnel à l’effectif.
8
2nd
800
1st
3rd
600
400
200
Crew
0
Figure 1.1 – Voyageurs du Titanic : diagrammes en barre (à g.) et en secteurs (à dr.) des effectifs
Nj est alors le nombre d’unités statistiques sur lesquelles la variable prend des valeurs inférieures
ou égales à mj .
11. ´ En probabilité, on ne parle pas de fréquences cumulées mais de probabilités cumulées, il se cache derrière
cette notion la notion de fonction de répartition.
9
7 Tableau des effectifs et fréquences. Représentation graphique
Ê Il est standard de représenter les effectifs d’une variable discrète par un diagramme en batôn-
nets dont les batônnets (traits) ont pour abscisse la modalité et sont de hauteur proportionnelle
à l’effectif (voir figure 1.2 à gauche).
Ê Par ailleurs, les fréquences cumulées sont représentées par la fonction de répartition empi-
rique 12 définie de la façon suivante :
8
>
< 0 si x < m1
Fn (x) = Fj si mj x < mj+1
>
: 1 si x mJ
C’est une fonction en escalier, par exemple pour J = 3 modalités on obtient (avec FJ = F3 = 1) :
Fn (x)
F2
F1
0 m1 m2 m3 x
10
1.0
4
0.8
3
0.6
2
0.4
1
0.2
0.0
0
0 1 2 3 4 7 0 2 4 6 8
Figure 1.2 – Insectes : diagrammes en batonnets des effectifs (à g.) et fonction de répartition
empirique (à dr.)
Remarque 1.4 :
Si la variable observée est qualitative ordinale (i.e. on peut ordonner naturellement les modalités)
alors les effectifs et fréquences cumulés ainsi que la fonction de répartition empirique ont un sens.
m1 m2 m3 m4 m5 m6
0 1 2 3 4 7
11
de résumer les données brutes. Dans ce cas, il faut regrouper les données en classes (ou plages de
valeurs). Le tableau des effectifs obtenus à partir de ces classes est appelé distribution groupée.
Supposons que l’on découpe les données en J classes. On note alors
· cj le centre de la j-ème classe
· bj 1 la borne inférieure de la j-ème classe
· bj la borne supérieure de la j-ème classe et la borne inférieure de la j + 1-ème classe (les classes
se "touchent")
· nj l’effectif de la j-ème classe
· Nj son effectif cumulé
Remarque 1.5 :
Puisque les classes sont contiguës, la fonction de répartition est continue de R dans [0, 1]. De plus
s’il n’y a pas de classe vide, elle est strictement croissante donc elle réalise une bijection de [b0 , bJ ]
dans [0, 1].
12
Fn (x)
F2
F1
0 b0 b1 b2 b3 x
L’histogramme des effectifs correspondant aux classes définies précédemment est représenté sur la
figure 1.3 à gauche. Sur la même figure à droite, on a représenté l’histogramme des effectifs dans le
cas où on regroupe les 3 dernières classes. La fonction de répartition empirique correspondant à 7
classes est représentée sur la figure 1.4
13. Le regroupement des données par classes peut aussi être appliqué aux variables quantitatives discrètes quand
le nombre de modalités J est trop grand.
13
6e-04
6e-04
4e-04
4e-04
2e-04
2e-04
0e+00
0e+00
3000 3500 4000 4500 5000 5500 6000 6500 3000 3500 4000 4500 5000 5500 6000 6500
Figure 1.3 – USA : histogrammes des revenus pour 7 classes (à g.) et après avoir regroupé les 3
dernières classes (à dr.)
1.0
0.8
0.6
0.4
0.2
0.0
14
Population Income Illiteracy Life Exp Murder HS Grad Frost Area
Alabama 3615 3624 2.1 69.05 15.1 41.3 20 50708
Alaska 365 6315 1.5 69.31 11.3 66.7 152 566432
Arizona 2212 4530 1.8 70.55 7.8 58.1 15 113417
Arkansas 2110 3378 1.9 70.66 10.1 39.9 65 51945
California 21198 5114 1.1 71.71 10.3 62.6 20 156361
Colorado 2541 4884 0.7 72.06 6.8 63.9 166 103766
Connecticut 3100 5348 1.1 72.48 3.1 56 139 4862
Delaware 579 4809 0.9 70.06 6.2 54.6 103 1982
Florida 8277 4815 1.3 70.66 10.7 52.6 11 54090
Georgia 4931 4091 2 68.54 13.9 40.6 60 58073
Hawaii 868 4963 1.9 73.6 6.2 61.9 0 6425
Idaho 813 4119 0.6 71.87 5.3 59.5 126 82677
Illinois 11197 5107 0.9 70.14 10.3 52.6 127 55748
Indiana 5313 4458 0.7 70.88 7.1 52.9 122 36097
Iowa 2861 4628 0.5 72.56 2.3 59 140 55941
Kansas 2280 4669 0.6 72.58 4.5 59.9 114 81787
Kentucky 3387 3712 1.6 70.1 10.6 38.5 95 39650
Louisiana 3806 3545 2.8 68.76 13.2 42.2 12 44930
Maine 1058 3694 0.7 70.39 2.7 54.7 161 30920
Maryland 4122 5299 0.9 70.22 8.5 52.3 101 9891
Massachusetts 5814 4755 1.1 71.83 3.3 58.5 103 7826
Michigan 9111 4751 0.9 70.63 11.1 52.8 125 56817
Minnesota 3921 4675 0.6 72.96 2.3 57.6 160 79289
Mississippi 2341 3098 2.4 68.09 12.5 41 50 47296
Missouri 4767 4254 0.8 70.69 9.3 48.8 108 68995
Montana 746 4347 0.6 70.56 5 59.2 155 145587
Nebraska 1544 4508 0.6 72.6 2.9 59.3 139 76483
Nevada 590 5149 0.5 69.03 11.5 65.2 188 109889
New Hampshire 812 4281 0.7 71.23 3.3 57.6 174 9027
New Jersey 7333 5237 1.1 70.93 5.2 52.5 115 7521
New Mexico 1144 3601 2.2 70.32 9.7 55.2 120 121412
New York 18076 4903 1.4 70.55 10.9 52.7 82 47831
North Carolina 5441 3875 1.8 69.21 11.1 38.5 80 48798
North Dakota 637 5087 0.8 72.78 1.4 50.3 186 69273
Ohio 10735 4561 0.8 70.82 7.4 53.2 124 40975
Oklahoma 2715 3983 1.1 71.42 6.4 51.6 82 68782
Oregon 2284 4660 0.6 72.13 4.2 60 44 96184
Pennsylvania 11860 4449 1 70.43 6.1 50.2 126 44966
Rhode Island 931 4558 1.3 71.9 2.4 46.4 127 1049
South Carolina 2816 3635 2.3 67.96 11.6 37.8 65 30225
South Dakota 681 4167 0.5 72.08 1.7 53.3 172 75955
Tennessee 4173 3821 1.7 70.11 11 41.8 70 41328
Texas 12237 4188 2.2 70.9 12.2 47.4 35 262134
Utah 1203 4022 0.6 72.9 4.5 67.3 137 82096
Vermont 472 3907 0.6 71.64 5.5 57.1 168 9267
Virginia 4981 4701 1.4 70.08 9.5 47.8 85 39780
Washington 3559 4864 0.6 71.72 4.3 63.5 32 66570
West Virginia 1799 3617 1.4 69.48 6.7 41.6 100 24070
Wisconsin 4589 4468 0.7 72.48 3 54.5 149 54464
Wyoming 376 4566 0.6 70.29 6.9 62.9 173 97203
Table 1.2 –
15
Chapitre 1. Introduction aux statistiques descriptives
Exercice 1.1 Dans le jeu de données ’Adult.csv’ 1 , des données ont été collectées sur 32560 individus aux
Etats Unis d’Amérique. La table suivante est un extrait de ce jeu de données.
1. Décrire la population étudiée, sa taille, un individu, les variables étudiées, ainsi que leur nature.
2. On s’interesse tout d’abord à la variable Statut.
1 Extrait d’un jeu de données issu de la base de données du Bureau du recensement qui se trouve à http://www.census.gov
Chapitre 2
Dans le chapitre précédent nous avons présenté les données sous forme de tableau et de graphes
(histogramme, diagrammes et fonctions des répartitions). Nous cherchons maintenant à fournir des
indicateurs permettant de décrire synthétiquement la distribution des données x1 , . . . , xn . Dans une
première partie, nous nous intéressons aux paramètres de position et de tendance centrale. Dans un
second temps, nous considèrerons les indicateurs de dispersion puis de concentration.
Nous insistons sur le fait qu’un indicateur ne peut être pris seul comme description de la distribution
mais doit être comparé aux autres. En outre, les paramètres de position et de dispersion doivent
être mis en regard pour avoir une idée plus complète de la distribution.
´ Dans la suite, les indicateurs seront tous qualifiés d’empiriques car issus de l’étude d’une série
statistique donc d’une expérience, par opposition aux espérances et variances théoriques étudiées
dans la première partie du cours (probabilité). On parlera donc d’espérance empirique, de variance
empirique....
8 classe modale Dans le cas d’une variable continue dont les valeurs sont regroupées en classe, on
parlera de classe modale. Plus précisemenent, la classe [bi 1 , bi [ est la classe modale si sa fréquence
renormalisée hi est la plus grande, où hi = fi /(bi bi 1 ).
Exemple 2.1
Dans l’exemple 1.4 (Titanic), le mode est la modalité "Equipage". Dans l’exemple 1.5 (Insectes),
le mode est la modalité m2 = 1. Dans l’exemple 1.6 (USA), la classe modale est [4500, 5000[.
18
2.1.2 Moyenne empirique
La moyenne empirique 1 n’a de sens que pour une variable quantitative. Elle est égale à la somme
des valeurs observées divisée par le nombre d’observations n :
n
1X x1 + . . . + xn
mX =x= xi =
n n
i=1
Remarque 2.1 :
1. Dans le cas d’une variable discrète, la moyenne empirique peut aussi s’écrire à partir des
effectifs et modalités :
J J
1X X
x= n j mj = fj mj
n
j=1 j=1
2. Dans le cas d’une variable continue, la moyenne empirique se calcule en prenant pour xi le
b +b
centre de la classe [bj 1 ; bj [ ainsi xi = j 12 j .
Exemple 2.2
Dans l’exemple 1.5 (Insectes), la moyenne empirique du nombre d’insectes vaut 2.08 . Dans l’exemple 1.6
(USA tableau 1.2), la moyenne empirique des revenus vaut 4435.8 US dollars par an.
Remarque 2.2 :
La moyenne 2 empirique est très sensible aux valeurs extrêmes (très grandes ou très petites). Dans
l’exemple 1.5 ( Insectes) si on ajoute une observation qui vaut 15 la moyenne arithmétique est
considérablement modifiée : elle passe de 2.08 à 3.08.
La moyenne présentée ci dessus est la moyenne arithmétique. Celle-ci n’a pas forcément le sens
voulu. Dans certains contextes, nous avons naturellement recours à d’autres types de moyennes.
n
!1/n
Y
xG = xi
i=1
Remarque 2.3 :
1 Pn
Si tous les xi sont strictement positifs alors log(xG ) = n i=1 log(xi ).
P
1. ´ C’est l’espérance empirique. En probabilité E(X) = x2SuppX xP (X = x), ici les probabilités sont remplacées
P
par la fréquence de la valeur xi égale à 1/n donc l’espérance empirique x = n x 1 . Si au lieu de sommer sur les
PJi=1 i n
xi on somme sur les modalités mj dont la fréquence est égale à fj on a x = j=1 fj mj .
2. Aussi appelée espérance empirique ou moyenne arithmétique
19
Exemple 2.3
Supposons que l’on place 100 e durant 4 années aux taux de 1% la 1ère année, 2% la deuxième
année, 3% la 3ème année, et 4% la 4ème année. Quel est le taux moyen par an de ce placement ?
On entend par "taux moyen" le taux ⌧m tel que si on l’applique 4 années de suite, on obtient le
même rendement.
– Au bout de 4 ans, j’ai sur mon compte 100 ⇥ 1.01 ⇥ 1.02 ⇥ 1.03 ⇥ 1.04 = 110.3550 e.
– Le taux moyen ⌧m est tel que si j’applique ⌧m 4 années de suite j’obtiens la même somme :
Moyenne harmonique :
La moyenne harmonique vaut :
n
xH = Pn 1 .
i=1 xi
Exemple 2.4
Considérons un avion faisant un aller-retour sur la même trajectoire (de longueur d) à 600 km/h à
l’aller et 700 km/h au retour. Quelle est sa vitesse moyenne ?
Pour faire son aller retour, l’avion met un temps T égal à :
1 1
T =d⇥ +d⇥
600 700
heures où d est la distance en km de son trajet aller. Sa vitesse moyenne vm est telle que si on
applique la vitesse moyenne à tout le parcours on met le même temps T pour faire l’aller-retour :
1 1 1
T =d⇥ +d⇥ =2⇥d⇥
600 700 vm
d’où
2
vm = 1 1 = 646.1538.
600 + 700
Cette vitesse moyenne n’est par celle obtenue par la moyenne arithmétique qui vaut 650 km/h.
min{x1 , . . . , xn } xH xG x max{x1 , . . . , xn }
20
2.1.4 Les quantiles empiriques
´ En probabilité, les quantiles 3 d’ordre ↵ 2]0, 1[ sont les valeurs q↵ telles que
P (X q↵ ) = F (q↵ ) = ↵,
8 Quantiles empiriques : On peut donc définir les quantiles empiriques de la même façon pour un
caractère X et la fonction de répartition empirique Fn (·). Soit ↵ une proportion 2]0, 1[ que l’on se
fixe. Le quantile d’ordre ↵ est tel qu’une proportion ↵ des xi est plus petite que q↵ . Formellement,
q↵ est tel que
Fn (q↵ ) = ↵.
On distinguera le cas continu du cas discret.
Remarque 2.4 :
En effet, en raison de la non-bijectivité de Fn , des définitions différentes peuvent être utilisées dans
les ouvrages et logiciels de statistique descriptive.
Fn (x)
Fj
↵
Fj 1
0 bj 1 q↵ bj x
Fj Fj 1
Fj 1 + (q↵ bj 1) = ↵,
bj bj 1
21
d’où
(bj bj 1 )(↵ Fj 1) (bj bj 1 )(↵ Fj 1)
q↵ = + bj 1 = + bj 1.
Fj Fj 1 fj
8 Médiane empirique :
Lorsque ↵ = 0.5 = 50%, q0.5 s’appelle la médiane empirique et on la note me . C’ est la valeur de la
série séparant les unités statistiques en deux groupes, de telle façon que la moitié des xi sont plus
petites que me . Elle n’a de sens que dans le cas d’une variable quantitative.
Figure 2.1 – Lecture de la médiane sur la fonction de répartition empirique (exemple 1.6 (USA)
Exemple 2.5
Reprenons l’exemple 1.6 (USA). D’aprés le tableau des effectifs cumulés associé à cet exemple,
la classe médiane est [4500; 5000[ car pour cette classe Fj = 0.84 0.5 et pour la précédente
22
Fj 1 = 0.48 < 0.5. Par interpolation linéaire, on obtient :
5000 4500
me = 4500 + (0.5 0.48) = 4527.8
0.84 0.48
Remarquons que l’on peut lire les quantiles sur le graphique de la fonction de répartition empirique
(voir figures 2.1).
Si Fn n’est pas bijective (par exemple constante par morceaux dans le cas d’une variable discrète),
on adopte le principe suivant : pour ↵ 2]0, 1[, on note x(i) la i-ème plus grande valeur de la série (à
ne pas confondre avec xi qui est la i-ème valeur de la série). Ainsi
– Si n↵ 2 N⇤ , est un nombre entier alors
x(n↵) + x(n↵+1)
q↵ = .
2
– Si n↵ 2/ N⇤ , n’est pas un nombre entier alors considérons dn↵e le plus petit entier supérieur ou
égal à n↵
q↵ = x(dn↵e) .
Par exemple, si x(dn↵e) = x(d7.2e) = x(8) .
Exemple 2.6
Dans l’exemple 1.6 (USA), le premier quartile est q0.25 = 3500 + (0.25 0.04) 40000.223500 = 3977.273.
Le troisième quartile est q0.75 = 4500 + (0.75 0.48) 50000.364500 = 4875
8 Médiane empirique :
Lorsque ↵ = 0.5 = 50%, q0.5 s’appelle la médiane empirique et on la note me et
– Si n est un nombre impair alors la médiane est la valeur centrale :
me = x( n+1 )
2
Exemple 2.7
Retour sur l’exemple 1.5 (Insectes). D’aprés le tableau des effectifs cumulés associé à cet exemple,
on a un nombre pair d’observations qui sont dans l’ordre
x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) x(10) x(11) x(12)
0 0 1 1 1 1 2 2 3 3 4 7
Ici n = 12 Calculons le premier (q1 ) et le troisième (q3 ) quartile ainsi que la médiane me :
23
Ê Premier quartile : ↵ = 0.25 donc n↵ = 12 ⇥ 0.25 = 3 2 N⇤ alors
x(n↵) + x(n↵+1) x(3) + x(4) 1+1
q1 = q0.25 = = = = 1.
2 2 2
Ê Troisième quartile : ↵ = 0.75 donc n↵ = 12 ⇥ 0.75 = 9 2 N⇤ alors
x(n↵) + x(n↵+1) x(9) + x(10) 3+3
q3 = q0.75 = = = = 3.
2 2 2
Ê Médiane : ↵ = 0.5 donc n↵ = 12 ⇥ 0.5 = 6 2 N⇤ alors
x(n↵) + x(n↵+1) x(6) + x(7) 1+2
me = q0.5 = = = = 1.5.
2 2 2
On peut également lire les valeurs x(i) sur un tableau du type modalités + effectifs cummulés :
mj m1 = 0 m2 = 1 m3 = 2 m4 = 3 m5 = 4 m6 = 7
nj n1 = 2 n2 = 4 n3 = 2 n4 = 2 n5 = 1 n6 = 1
Nj N1 = 2 N2 = 6 N3 = 8 N4 = 10 N5 = 11 N6 = 12
On lit de la façon suivante : la valeur de x(9) est la 9-ième valeur la plus grande, on cherche dans la
ligne Nj où se trouve la valeur 9 : pour N3 < 9 < N4 = 10, donc x(9) = 3.
Remarquons que l’on peut lire les quantiles sur le graphique de la fonction de répartition empirique
(voir figures 2.2).
1.0
0.8
0.6
0.4
0.2
0.0
0 2 4 6 8
Figure 2.2 – Lecture de la médiane sur la fonction de répartition empirique (exemple 1.5 Insectes)
e = x(n) x(1)
24
Exemple 2.8
Dans l’exemple 1.6 (USA), l’étendue est e = 6315 3098 = 3217
Exemple 2.9
Dans l’exemple 1.6 (USA), l’étendue est IQ = 897.727
Théorème 2.2.1. (Formule de Koenig) La variance empirique peut aussi s’écrire de la façon sui-
vante :
n
1X 2
s2X = xi (x)2 = x2 (x)2
n
i=1
Dans le cas discret, la variance peut aussi s’écrire à partir des effectifs et des modalités :
J J
1X 1X
s2X = nj (mj x)2 = nj m2j (x)2
n n
j=1 j=1
Remarque 2.5 :
On voit en 2éme année de DEGEAD (UE 44) que si on veut estimer correctement la variance
théorique d’une distribution à partir d’un échantillon x1 , . . . , xn , on utilise la variance corrigée :
n
X
1 n
(s0X )2 = (xi x)2 = s2X
n 1 n 1
i=1
Exemple 2.10
Dans l’exemple 1.6 (USA), la variance s2X vaut 370021.8 et la variance corrigée (s0X )2 = 377573.3
25
2.2.5 L’écart type
L’écart type est une mesure de la distance moyenne à la moyenne. C’est la racine carrée de la
variance : q
sX = s2X
De même on définit l’écart type corrigé :
q
s0X = (s0X )2
Remarque 2.6 :
L’écart-type s’exprime dans la même unité que les données.
VE xa xb VE VE
q1 me q3
Ces valeurs a sont appelées valeurs adjacentes. On relie ces valeurs au rectangle par
un segment
4. Les valeurs qui ne sont pas comprises entre les valeurs adjacentes sont représentées
par des points et appelées valeurs extrêmes (VE).
a. En d’autres termes : xa est le plus petit xi parmi les valeurs de la série xi plus grand ou égal à a.
De même xb est le plus grand xi parmi les valeurs de la série xi plus petit ou égal à b.
Notons que la boite de distribution peut être également représentée à la verticale (voir l’exemple 2.12).
26
Exemple 2.11
Retour sur l’exemple 2.7 (Insectes). Nous avions la série ordonnée suivante
x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) x(10) x(11) x(12)
0 0 1 1 1 1 2 2 3 3 4 7
Nous avons obtenu q1 = 1, me = 1.5 et q3 = 3. Pour tracer la boite de distribution, nous devons
calculer :
Ê La distance inter-quartile IQ = q3 q1 = 2.
Ê Les valeurs a = q1 1.5 ⇥ IQ = 2 et b = q3 + 1.5 ⇥ IQ = 6.
Ê Reportons les valeurs a et b dans le tableau :
a x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) x(10) x(11) b x(12)
2 0 0 1 1 1 1 2 2 3 3 4 6 7
0 4 7
1 1.5 3
Exemple 2.12
Dans l’exemple 1.6 (USA) on trouve a = 2630.682 et b = 6221.591. Les valeurs adjacentes sont
xa = 3098 et xb = 5348. La boite de distribution est représentée sur la figure 2.3.
6000
5500
5000
4500
4000
3500
3000
27
2.4 Caractéristiques de concentration : Courbe de Lorenz et indice
de Gini
Des indicateurs particuliers ont été développés pour mesurer les inégalités de revenus ou de pa-
trimoine. Une société sera parfaitement égalitaire si tous les individus reçoivent le même revenu.
Au contraire, elle est considérée comme parfaitement inégalitaire si un seul individu reçoit tous les
revenus.
8 Courbe de Lorenz
Soient x1 , · · · , xn les revenus des n individus de la société considérée. Comme précédemment, on
note x(1) , · · · , x(n) les revenus ordonnés par ordre croissant. Le revenu total est la somme S des
revenus :
Xn Xn
S= xk = x(k) .
k=1 k=1
Si la société considérée est égalitaire, les n individus auraient le même revenu, c’est-à-dire
De plus pour tout i 2 {1, · · · , n}, la somme des revenus perçus par i individus vaut i ⇥ S/n. Alors
la proportion de revenus (par rapport au revenu total) perçus par i individus est telle que :
i ⇥ S/n i
= .
S n
Pour mesurer les inégalités de revenus ou de patrimoine, calculons pour des revenus x1 , · · · , xn
quelconques la proportion de revenus (par rapport au revenu total) perçus par les i individus ayant
les i plus petits revenus. Pour cela, pour tout i 2 {1, · · · , n} notons Si la somme des i premiers plus
petit revenus
Xi
Si = x(k) .
k=1
Alors la proportion de revenus (par rapport au revenu total) perçus par les i individus ayant les i
plus petits revenus, notée Qi est telle que :
Pi Pi
Si k=1 x(k) x(k)
Qi = = Pn = k=1 .
S k=1 xk S
28
De façon équivalente, on trace la courbe qui relie les points (i/n, Qi )i=0,···,n par des segments, cette
courbe s’appelle la courbe de Lorenz. Ainsi à chaque proportion i/n d’individus les moins riches,
on attribue la fraction des revenus totaux dont ils disposent. Pour une série statistique fixée, on
représente la courbe de Lorenz et la diagonale du carré de côté 1. Plus l’écart entre la courbe de
Lorenz et la diagonale est grand et plus la société considérée est inégalitaire.
Remarque 2.7 :
Dans le cas particulier où chaque individu perçoit le même revenu xi = S/n alors Qi = i/n. La
courbe de Lorenz est la droite d’équation y = x
Exemple 2.13
Soit une entreprise de 4 salariés dont les revenus mensuels en euros sont les suivants :
x1 x2 x3 x4
1500 500 12000 2000
Pour tracer la courbe de Lorenz, il faut tout d’abord ordonner la série, puis calculer pour tout
i = 1, · · · 4 :
P
– les Si = ik=1 x(k) , (S4 = S),
– les Qi = Si /S sans oublier de poser Q0 = 0,
– et les i/n = i/4.
i/n
y=x
1
0.75
0.25
29
l’écart entre la courbe de Lorentz et la première bissectrice (y = x) est grand, les inégalités sont
importantes. Pour quantifier cet écart, celui entre la courbe de Lorentz et la première bissectrice
introduisons l’indice de Gini.
8 Indice de Gini
L’indice de Gini, noté G, permet de quantifier cet écart. Il est égal à 2 fois la surface comprise entre
la courbe de Lorenz et la première bissectrice et on admettra que :
" n
#
1 X
G = 1+ 1 2 Qi
n
i=0
L’indice de Gini est compris en 0 et 1. Il est égal à 0 si tous les revenus sont égaux.
Exemple 2.14
Retour sur l’exemple 2.13, l’indice de Gini vaut
" n
#
1 X
G = 1+ 1 2 Qi
n
i=1
1
= 1+ [1 2 ⇥ (0.031 + 0.125 + 0.25 + 1)]
4
1 1
= 1 + [1 2 ⇥ 1.406] = 1 ⇥ 1.812 = 0.547.
4 4
Donc il semble que les revenus ne soient pas équitablement répartis entre les états.
30
8 En statistique descriptive, le matériel de départ sont les données, soit la série statistique x1 , . . . , xn .
Du point de vue le plus simple des statistiques mathématiques, ces données x1 , . . . , xn sont la réa-
lisation déterministe (donc non aléatoire) de variables aléatoires X1 , . . . , Xn indépendantes
et identiquement distribuées (i.i.d.) de loi F0 .
P (Xi xi ) = F0 (xi ) := pi .
On dit que la loi F0 "explique le comportement des données". Il est donc utile d’identifier F0 pour
"expliquer " les données.
En statistique descriptive, on peut par exemple chercher à savoir si la distribution F0 des données,
x1 , . . . , xn , est par exemple gaussienne ou Poissonienne etc. . .
8 QQ-plot
Un outil graphique permettant de visualiser rapidement l’adéquation de la distribution d’une série
numérique à la distribution de référence F0 est le QQ-plot (graphique Quantile-Quantile). Dans ce
graphe, on reporte sur l’axe des ordonnées les fractiles correspondant à la distribution observée et
sur l’axe des abscisses ceux correspondant à la distribution théorique.
F0 (t) = P (X t) = p.
mj m1 · · · mJ
Fj F 1 · · · FJ
et si F0 est la "bonne" loi alors les quantiles observés mj et les quantiles théoriques m⇤j devraient
être égaux ou du moins proches 4 (mj ⇡ m⇤j ).
31
Calculons les quantiles théoriques m⇤j associés aux fréquences cumulées Fj (et F0 inversible)
En général ce calcul se fait par l’utilisation des tables statistiques (par exemple lorsque F0 est une
gaussienne), la calculatrice ou par un logiciel. On obtient le tableau suivant :
mj m1 · · · mJ
Fj F1 · · · FJ
m⇤j = F0 1 (Fj ) m⇤1 · · · m⇤J
Notons que FJ = 1, ainsi m⇤J = F0 1 (FJ ) = F0 1 (1) = +1, car limt!+1 F0 (t) = 1 par définition de
la fonction de répartition. Ce dernier quantile m⇤J ne sera donc jamais considèrer.
2
1
1
0
0
-1
-1
-2
-2
-2 -1 0 1 2 -2 -1 0 1 2
2
2
1
1
0
0
-1
-1
-2
-2
-2 -1 0 1 2 -2 -1 0 1 2
32
Ê Interprétation du QQ-plot
8 Si les points sont alignés sur la diagonale du carré de côté 1 (1ére bissectrice), alors la loi théorique
proposée (de fonction de répartition F0 ) est adaptée aux observations (figure 2.4 en haut à gauche).
8 Si les points sont alignés sur une droite parallèle à la diagonale du carré de côté 1 on soupçonnera
une erreur sur les paramètres de position de la loi théorique (figure 2.4 en haut à droite).
8 Si les points sont alignés sur une droite passant par l’origine mais inclinée par rapport à la dia-
gonale du carré de côté 1 on soupçonnera une erreur sur les paramètres de dispersion de la loi
théorique (figure 2.4 en bas à gauche).
8 Si les points sont alignés sur une droite ne passant pas par l’origine et inclinée par rapport à
la diagonale du carré de côté 1 on soupçonnera une erreur sur les paramètres de dispersion et de
position de la loi théorique.
8 Si les points ne sont pas alignés sur une droite la loi théorique n’est pas adaptée aux observations
(figure 2.4 en bas à droite).
Remarque 2.8 :
• Si l’on dispose des données individuelles d’une variable aléatoire continue, les modalités sont toutes
les valeurs prises par la série (ordonnées) et les fréquences cumulées sont du type ni .
• Les QQ-plot peuvent servir aussi à comparer les distributions de deux séries.
33
Exemple 2.15
On s’intéresse à la distribution du PIB pour les pays du tableau 2.1. On veut comparer leur distri-
bution avec une gaussienne centrée réduite. Le QQ-plot correspondant est représenté sur la figure
2.5. Ce graphe indique que la répartition du PIB est significativement différente d’une loi normale.
4
x 10
8
−2
−4
−3 −2 −1 0 1 2 3
Standard Normal Quantiles
34
Pays PIB par habitant Consommation d’énergie par habitant
(en $ US, en 2004) (en Tonnes d’équivalent pétrole, en 2002)
Afrique du sud 5700 2.502
Algérie 2575 0.985
Bénin 512 0.340
Egypte 976 0.789
Maroc 1505 0.363
Nigeria 541 0.718
Sénégal 637 0.319
Allemagne 33422 4.198
Espagne 25777 3.215
France 33614 4.470
Grèce 19226 2.637
Italie 28909 2.994
Luxembourg 66808 9.112
Norvège 54894 5.843
Portugal 15835 2.546
Royaume-Uni 35193 3.824
Suède 38746 5.718
Suisse 47577 3.723
Arabie Saoudite 9285 5.775
Chine 1258 0.960
Corée du Sud 13929 4.272
Inde 631 0.513
Iran 2350 2.044
Israel 18404 3.191
Japon 36647 4.058
Koweit 21420 9.503
Philippines 948 0.525
Russie 4071 4.288
Turquie 4296 1.083
Vietnam 520 0.530
Argentine 3808 1.543
Brésil 3210 1.093
Canada 30014 7.973
Colombie 2234 0.625
Etats-Unis 39114 7.943
Paraguay 1032 0.709
Venezuela 4203 2.141
Australie 30498 5.732
Exercice 2.2 Une voiture effectue le trajet aller de Grenoble à Turin (distance entre Grenoble et Turin est
de 200 km) à la vitesse de 120 km/h, puis, à cause des embouteillages, le trajet retour à 80 km/h.
1. Quelle est la vitesse moyenne du trajet ?
2. Comment s’appelle cette moyenne?
Exercice 2.3 En 2012, le prix d’un litre de carburant était de 1,40 euros.
1. Ce prix a connu une augmentation de 3% entre 2012 et 2013. puis une nouvelle augmentation de 10% entre
2013 et 2014. Quel est le taux moyen d’augmentation du prix d’un litre de carburant entre 2012 et 2014 ?
2. En supposant que, durant les quatre années précédant 2012, le prix d’un litre de carburant a augmenté de
5% par an, calculer le prix d’un litre de carburant en 2008, au centime près (c’est-à-dire 2 chiffres après la
virgule)
Exercice 2.4 On s’intéresse à un jeu de hasard. Il consiste à donner un nombre réel entre ≠20 et 20 de
façon aléatoire et uniforme. On donne n = 100 tirages successifs:
Exercice 2.5 On considère les notes d’un groupe de L1 de n étudiants en 2018. Les données sont résumées
dans le tableau suivant:
1. Décrire la population étudiée, donner la taille de cette population en fonction de n2 , ainsi que la variable
étudiée X et sa nature.
2. Calcul de n2 :
Sachant que la moyenne de ce groupe est de 10, déterminer l’effectif n2 ainsi que l’effectif total n. (On
détaillera ici le raisonnement).
3. On donne n2 = 10.
(a) Calculer la (les) classe(s) modale(s).
(b) Tracer la fonction de répartition empirique de la variable " note". (On apportera un soin particulier
au raisonnement).
(c) Calculer premier quartile. (On détaillera ici le raisonnement).
Exercice 2.6 On a relevé les salaires de 500 personnes travaillant dans une entreprise. Les données en
euros sont résumées dans le tableau suivant:
Exercice 2.7 Soit x1 , · · · , xn , avec n = 100 une série de réels. On sait que la moyenne et la variance
empiriques valent x = ≠9.7 et s2x = 2.
1. Calculer le moment d’ordre 2 empirique x2 .
2. On définit la nouvelle série y1 , · · · , yn , où yi = ≠4xi ≠ 3 pour tout i = 1, · · · , n
20 9 12 15 4 10 6 11 10 9
6 13 10 8 13 10 15 13 11 8
11 15 9 10 6 4 13 0 10 11
12 10 8 9 8 10 10 12 11 9
10 12 12 11 10 10 11 11 8 11
12 8 9 11 10 8 19 18 1 3
Minimum premier quartile Etendue E : x(2) x(26) x(27) x(28) x(40) x(41) x(42) x(52) x(53)
0 7.75 20 1.5 8.5 9 10 11 12 13.5 18 19.5
Exercice 2.11 Une étude sur le chiffre d’affaires d’une population de PME a permis d’obtenir les résultats
suivants (en milliers d’euro)
4. Que vaut la valeur adjacente xa ? On suppose que les trois plus grandes valeurs de la série sont 6000,
6800, 8500. Que vaut xb ?
Exercice 2.12 Des cousins discutent de leur argent de poche annuel. Les sommes reçues par ces n = 4
cousins sont données par la série suivante de taille n = 4 :
Exercice 2.14 Un couple de statisticiens est parti en week-end à Cannes, pour un budjet total de 1000
euros. Ils avaient réparti leurs dépenses ainsi:
Un couple d’amis leurs demande de détailler leurs points de dépenses (x(1) , · · · x(4) ), mais ils ne s’en souviennent
plus. Ils ne se rappelent que les informations suivantes qu’ils avaient calculé en tant que statisticiens: L’indice
de Gini G = 0.365 et
• Q1 = 0.03 est la proportion de budjet allouée (par rapport au budjet total de 1000 euros) au premier
poste de dépenses ( soit le moins onéreux).
• Q2 = 0.17 est la proportion de budjet allouée (par rapport au budjet total de 1000 euros) aux 2 premiers
postes de dépenses les moins onéreux.
Le but de cet exercice est de retrouver les sommes allouées en euros aux différents postes de dépenses, soit
(x(1) , · · · x(4) ).
Comparer la distribution de ces données à une loi normale de moyenne m = ≠2 et d’écart type ‡ = 3. (Faire
le diagramme quantile-quantile.)
Exercice 2.16 1. Soit X une variable aléatoire de loi exponentielle de paramètre 4. Donner sa fonction de
répartition, son espérance et sa variance.
2. On considère la série statistique suivante:
Exercice 2.17 On s’intéresse à la loi de Pareto de paramètre 2 dont la fonction de répartition est
;
1 ≠ t12 si t > 1,
F (t) = P (X Æ t) =
0 sinon.
Soit une population P de taille n, on s’intéresse dans ce chapitre à deux caractères, le caractère
X et le caractère Y . À chaque individu i de la population, on observe (xi , yi ). La série statistique
(x1 , y1 ), · · · , (xn , yn ) est appelée série statistique bivariée. Notons que chacune des variables X et Y
peut être quantitative ou qualitative.
Dans ce chapitre, on s’intéresse aux relations entre les deux variables X et Y . Dans une première
partie, on s’intéresse à la présentation de ces données et nous proposons un indicateur d’indépen-
dance. Dans une seconde partie nous nous intéressons à la modélisation d’une relation linéaire entre
les deux caractères étudiés.
J modalités de X et (m1 , · · · , mK ) les K modalités de Y . Si l’une des deux variables (ou les deux)
Y Y
les mX
1 , · · · , mJ et/ou les m1 , · · · , mK
X Y Y
Les données (x1 , y1 ), · · · , (xn , yn ) peuvent être représentées dans un tableau à double entrée appelé
tableau de contingence : 1 .
1. ´ En probabilité cela correspondrait au tableau de la loi jointe de X et Y où la probabilité P (X = x, Y = y)
serait remplacée par le cardinal de l’événement {X = x, Y = y}.
41
HH
H Y
HH mY1 ... mYk ... mYK Total
X H
mX 1 n11 ... n1k ... n1K n1•
.. .. .. .. ..
. . ... . ... . .
mX j nj1 ... njk ... njK nj•
.. .. .. .. ..
. . ... . ... . .
mX
J nJ1 ... nJk ... nJK nJ•
Total n•1 ... n•k ... n•K n
8 Le nombre njk est le nombre de fois où le couple (X, Y ) prend la modalité (mX j , mk ), c’est-à-dire
Y
que X = mX Y 2
j et Y = mk .
8 Le nombre nj• est le nombre de fois où la variable X prend la valeur mX
j ,c’est-à-dire que X = mj .
X
8 Le nombre n•k est le nombre de fois où la variable Y prend la valeur mYk , c’est-à-dire que Y = mYk .
Les nj• et n•k sont appelés effectifs marginaux. On a
J
X K
X
njk = n•k et njk = nj•
j=1 k=1
De plus
K X
X J J
X K
X
njk = nj• = n•k = n
k=1 j=1 j=1 k=1
Exemple 3.1
Soient X et Y deux caractères observés sur une population P de taille n = 100. La variable Y
admet les K = 3 modalités suivantes :
mY1 = 0, mY2 = 1 et mY
3 = 2.
mX
1 = 1 et mX
2 = 1.
H
HH Y
H 0 1 2 Total
X HH
-1 20 15 5 40
1 15 10 35 60
Total 35 25 40 100
On lit ce tableau de contingence de la façon suivante :
8 Il y a n23 = 35 individus dans la population tels que leur caractère X = 1 et leur caracteère
Y = 2, c’est-à-dire tels que (X = 1, Y = 2) .
8 Il y a n1• = n11 + n12 + n13 = 20 + 15 +5 = 40 individus dans la population tels que leur caractère
X = 1.
2. La valeur de njk se trouve dans le tableau à la j-ième ligne et k-ième colonne.
42
8 Le nombre n•2 = n12 + n22 = 15 + 10 = 25 individus dans la population tels que leur caractère
Y =1
8 De plus la somme de tous les effectifs njk , pour tous j = 1, 2 et k = 1, 2, 3 vaut :
K X
X J 3 X
X 2
njk = njk = 20 + 15 + 5 + 15 + 10 + 35 = 100 = n.
k=1 j=1 k=1 j=1
Remarque 3.1 :
Dans de nombreuses situations, les données individuelles (x1 , y1 ), · · · , (xn , yn ) ne sont pas dispo-
nibles, on a seulement accès aux tableaux de contingence.
njk
fjk = .
n
8 La fréquence à laquelle la variable X prend la modalité mX
j vaut :
nj•
fj• = .
n
8 La fréquence à laquelle la variable Y prend la modalité mYk vaut :
n•k
f•k = .
n
Les fj• et f•k sont appelées fréquences marginales. On a
J
X K
X
fjk = f•k et fjk = fj• .
j=1 k=1
43
De plus
K X
X J J
X K
X
fjk = fj• = f•k = 1.
k=1 j=1 j=1 k=1
Exemple 3.2
Retour sur l’exemple 3.1. Soient X et Y deux caractères observés sur une population P de taille
n = 100.
H
HH Y
H 0 1 2 Total
X HH
-1 0.2 0.15 0.05 0.4
1 0.15 0.1 0.35 0.6
Total 0.35 0.25 0.4 1
K X
X J 3 X
X 2
fjk = fjk = 0.2 + 0.15 + 0.05 + 0.15 + 0.1 + 0.35 = 1.
k=1 j=1 k=1 j=1
44
Exemple 3.3
Retour sur l’exemple 3.2. Soient X et Y deux caractères observés sur une population P de taille
n = 100 alors les tableaux de distributions marginales sont
Modalité de Y 0 1 2 Total
Fréquence marginale f•k 0.35 0.25 0.4 1
Modalité de X 1 -1 Total
Fréquence marginale fj• 0.4 0.6 1
P (X = x, Y = y)
P (X = x|Y = y) = .
P (Y = y)
Intuitivement, on comprend que l’on peut parler de fréquences conditionnelles et les définir de la
façon suivante :
fjk njk
fj|k = = .
f•k n•k
La fréquence conditionnelle fj|k peut se lire “fréquence de la modalité mX
j sachant que Y prend
la modalité mk ".On peut alors construire le tableau des profils lignes.
Y
fjk
8 Profils lignes : fj|k = f•k :
HH
HH Y mY ... mYk ... mYK
1
X HH
mX 1 f1|1 ... f1|k ... f1|K
.. .. .. ..
. . ... . ... .
mX
j fj|1 ... fj|k ... fj|K
.. .. .. ..
. . ... . ... .
mX J fJ|1 ... fJ|k ... fJ|K
Total 1 ... 1 ... 1
45
Dans la colonne "Total", on calcule pour toutes les colonnes k = 1, · · · K
J J PJ
X X fjk j=1 fjk f•k
fj|k = = = = 1.
f•k f•k f•k
j=1 j=1
HH
H Y
HH mY1 ... mYk ... mYK Total
X H
mX 1 f1|1 ... fk|1 ... fK|1 1
.. .. .. ..
. . ... . ... . 1
mX
j f1|j ... fk|j ... fK|j 1
.. .. .. ..
. . ... . ... . 1
mX J f1|J ... fk|J ... fK|J 1
K
X K
X PK
fjk k=1 fjk fj•
fk|j = = = = 1.
fj• fj• fj•
k=1 k=1
Si la variable X est quantitative, on peut calculer les moyennes et variances empiriques condi-
tionnelles : pour tout k = 1 . . . K
J
X J
X
mX|Y =k = fj|k mX
j s2X|Y =k = fj|k (mX
j mX|Y =k )2
j=1 j=1
Il s’agit de la moyenne ou de la variance des xi calculées pour les couples dont la variable Y a pour
valeur la k-ième modalité. On peut bien sûr faire de même en échangeant le rôle de X et Y pour
obtenir des moyennes et variances conditionnelles de Y .
46
Exemple 3.4
Retour sur l’exemple 3.3. Soient X et Y deux caractères observés sur une population P de taille
n = 100. Pour calculer les fréquence des modalités mYk sachant que X prend la modalité mX
1 = 1,
nous avons besoin des deux tableaux suivants :
HH
HH Y 0 1 2 Total
X HH
-1 0.2 0.15 0.05 0.4
1 0.15 0.1 0.35 0.6
Total 0.35 0.25 0.4 1
Modalité de X -1 1 Total
Fréquence marginale fj• 0.4 0.6 1
Nous pouvons présenter sous forme d’un tableau cette distribution conditionnelle empirique :
Modalité de Y 0 1 2 total
Fréquence conditionnelle de (Y = mYk |X = mX
1 = 1) : f1|1 f2|1 f3|1 Total
fk|j 0.5 0.375 0.125 1
P (X = x, Y = y) = P (X = x)P (Y = y) , P (X = x, Y = y) P (X = x)P (Y = y) = 0.
On aimerait faire ce même parallèle en statistiques, c’est-à-dire, deux caractères X et Y sont indé-
pendants si et seulement si pour tout j = 1, · · · , J et k = 1, · · · , K
Le hic, c’est que nous ne sommes pas dans le cadre des probabilités, et les fréquences ne sont pas
des probabilités mais des estimations des probabilités. Ainsi même si les caractères X et Y étaient
indépendants, il est très rare voire presque impossible que fjk fj• f•k = 0 pour tous j = 1, · · · , J
47
et k = 1, · · · , K. En revanche, on peut étudier cette différence et la comparer non pas à zéro mais à
une petite valeur (un seuil) à définir. La théorie des Statistiques matématiques apporte une solution
pour "quantifier" la distance à l’indépendance par la statistique du chi-deux, notée D 2 :
J X
X K
(fjk f•j fk• )2
D 2 = n .
f•j fk•
j=1 k=1
Discussion :
Plusieurs remarques :
8 Tout d’abord, la quantité qui intervient dans D 2 n’est pas la distance fjk fj• f•k mais le carré
de cette distance (fjk fj• f•k )2 , ce qui ne change pas le raisonnement. On veut pour conclure à
l’indépendance que ce carré soit égal à une petite valeur.
8 Toutes les distances (fjk fj• f•k )2 pour j = 1, · · · , J et k = 1, · · · , K interviennent dans D 2
P P
au travers d’une double somme Jj=1 K k=1 , ce qui ne change pas le raisonnement. On veut pour
conclure à l’indépendance toujours une petite valeur. "Petite valeur " dont nous discuterons par
la suite.
f f
8 Dans cette statistique du chi-deux D 2 , on divise par •jn k• > 0 pour des raisons techniques
dont on ne parlera pas ici mais cela ne change rien au raisonnement. On veut pour conclure à
l’indépendance toujours une petite valeur.
Il est facile de prouver (à faire en exercice à la maison) que la statistique du chi-deux peut également
s’écrire en fonction des effectifs :
02 3 1
J X
K
X n2jk
D 2 = n @4 5 1A
nj• n•k
j=1 k=1
J X
X K n•j nk• 2
(njk n )
= n•j nk• ,
j=1 k=1 n
Comment conclure :
8 Soient J et K le nombre de modalités de chacune des 2 variables considérées.
8 On se fixe un seuil ↵ 2]0, 1[ (Exemple : ↵ = 5% = 0.05) "d’erreur acceptable".
8 Chercher dans les tables statistiques, distribuées au premier cours, la loi du 2d (se lit loi du khi2
à d degrés de liberté), où
d = (J 1)(K 1),
est le degré de liberté de la loi (c’est à dire le paramètre de la loi du khi2).
8 Une fois la loi du 2d identifiée, chercher le quantile d’ordre 1 ↵% de cette loi : q1 ↵ (q0,95 dans
notre exemple).
48
Interprétation :
8 Comparer D 2 à q1 ↵ .
8 Si D 2 < q1 ↵ , on conclut que les deux variables sont indépendantes, car la distance D 2 est plus
petite que le seuil que l’on s’est fixé.
8 Si D 2 q1 ↵ , on conclut que les deux variables sont dépendantes.
Exemple 3.5
A partir d’une population de taille 200 , on recense les propriétaires de leur logement et les locataires
selon leur âge, c’est-à-dire qu’ils aient plus ou moins de 30 ans. On obtient les résultats suivants :
Propriétaires Locataires
Âge 30 ans 22 72
Âge > 30 ans 64 42
02 3 1
J X
K
X n2jk
D 2 = n @4 5 1A
nj• n•k
j=1 k=1
✓ ◆
222 722 642 422
= 200 ⇥ + + + 1
94 ⇥ 86 94 ⇥ 114 104 ⇥ 86 104 ⇥ 114
⇡ 30.076.
on conclut à la dépendance des deux caractères, il existe donc un lien, une corrélation entre le fait
d’être ou non propriétaire avec le caractère âge.
49
Ê Les moyennes empiriques : x et y de X et de Y .
Ê Les moments empiriques d’ordre deux : x2 et y 2 de X et de Y .
Ê Les variances empiriques : s2X et s2Y de X et de Y .
Ê Les écarts types empiriques : sX et sY de X et de Y .
Propriétés :
Les propriétés vues dans le premier polycopié de probabilités sont "applicables" en statistiques,
ainsi pour tous réels a et b on a :
E(aX + b) = aE(X) + b ax + b = ax + b
E(X + Y ) = E(X) + E(Y ) x+y =x+y
V (aX + b) s2aX+b = a2 s2X
p p
V (aX + b) = |a| V (X) saX+b = |a|sX
Exemple 3.6
Soit (x1 , y1 ), · · · , (xn , yn ) une série statistique bivariée, telle que les moyennes empiriques de X et
Y , la variance empirique de X et l’écart type empirique de Y valent
x= 1, y = 3, s2X = 9 et sY = 2.
Soit maintenant (z1 , w1 ), · · · , (zn , wn ) une nouvelle série statistique bivariée, telle que
8i = 1, · · · , n on a zi = 2 + 5xi et wi = 2 yi .
50
Ê Alors, on peut déduire les quantités suivantes :
- Les moyennes empiriques de Z et W :
z= 2 + 5x = 2 + 5 ⇥ ( 1) = 7 et w = 2 y=2 1 ⇥ (3) = 1.
s2Z = s2 2+5X = (5)2 ⇥ s2X = 25 ⇥ 9 = 225 et s2W = s22 Y = ( 1)2 ⇥ s2Y = s2Y = 4.
q p q p
sZ = s2Z = 225 = 15 et sW = s2W = 4 = 2.
51
Propriétés :
Les propriétés vues dans le premier polycopié de probabilités sont "applicables" en statistiques,
ainsi pour tous réels a, b, c et d on a :
Exemple 3.7
Soit (x1 , z1 ), · · · , (xn , zn ) la série statistique bivariée suivante :
zi 1 -1 1 0 0 -1 1 1 -1 -1 0 1
xi 3 4 3 3 4 3 3 3 4 3 3 4
Nous pouvons résumer cette série sous la forme d’un tableau de contingence ou sous la forme d’un
tableau des fréquences :
HH HH
HH Z -1 0 1 Total HH Z -1 0 1 Total
X HH X HH
3 2 2 4 8 3 2/12 2/12 4/12 8/12
4 2 1 1 4 4 2 1/12 1/12 4/12
Total 4 3 5 12 Total 4/12 3/12 5 /12 1
52
- On peut donc en déduire les variances empiriques de X et Z :
✓ ◆
34 10 2 2
s2X = x2 2
(x) = = ,
3 3 9
✓ ◆2
3 1 107
s2Z = z2 (z)2 = = .
4 12 144
- La moyenne empirique de XZ :
3 X
2 3 X
2
X njk ⇥ mX Z
j ⇥ mk
X
xz = = fjk ⇥ mX Z
j ⇥ mk
n
k=1 j=1 k=1 j=1
2 ⇥ ( 1) ⇥ 3 + 2 ⇥ 0 ⇥ 3 + 4 ⇥ 1 ⇥ 3 + 2 ⇥ ( 1) ⇥ 4 + 1 ⇥ 0 ⇥ 4 + 1 ⇥ 1 ⇥ 4 1
= = .
12 6
Il n’y a donc pas de dépendance linéaire entre X et Z (voir Autres propriétés de rX,Y au prochain
paragraphe pour l’interprétation).
Statistiques descriptives
53
Exemple 3.8
Sur la figure 3.8 on a représenté des nuages de points et calculé le coefficient de corrélation pour
chacun.
– En haut à gauche, les points sont alignés sur une droite croissante, rX,Y = 1.
– En haut au milieu, les points sont alignés sur une droite décroissante, rX,Y = 1.
– En bas à gauche, les points semblent suivre une droite croissante sans pour autant être alignés,
rX,Y = 0.739.
– En bas au milieu, les points semblent suivre une droite décroissante sans pour autant être alignés,
rX,Y = 0. 774.
– En haut à droite, aucun motif ne se dessine, rX,Y est petit et vaut 0.194.
– En bas à droite, les points sont parfaitement répartis selon une courbe qui n’est pas une droite,
rX,Y est petit.
1 -1 0.194
Figure 3.1 – Exemple 3.8 : Coefficients de corrélation pour chaque nuage de points.
54
3.2.2 Ajustement linéaire d’un nuage de points
Dans le cas de variables quantitatives, la première chose à faire est de représenter les données
(x1 , y1 ), · · · , (xn , yn ) dans le plan par un nuage de points de coordonnées (xi , yi ).
Exemple 3.9
Dans l’exemple USA, on considère la variable X = "Illiteracy" et la variable Y ="Life Expectation".
Le nuage de points est représenté sur la figure 3.2.
73
72
Life Expectation
71
70
69
68
Illiteracy
où (yi axi b)2 représente le carré de la distance verticale du point expérimental (xi , yi ) à la
droite considérée comme la meilleure. Cela revient donc à déterminer les valeurs des paramètres a
et b (respectivement le coefficient directeur de la droite et son ordonnée à l’origine) qui minimisent
la somme SC(a, b), on note
n
X
a, bb) = arg min SC(a, b) = arg min
(b (yi axi b)2 ,
(a,b)2R2 (a,b)2R2
i=1
a, bb) l’argument (c’est-à-dire le couple) (a, b) qui minimise la somme SC(a, b).
et on lit (b
55
Théorème 3.2.1. Soit (xi , yi ) un nuage de points. Le couple (a, b) minimisant le critère des
moindres carrés est
sX,Y
b
a= 2 et bb = y b ax.
sX
a et bb sont appelés estimateurs des moindres carrés de a et b.
b
ax + bb.
On appelle régression linéaire de Y sur X la droite des moindres carrés d’équation y = b
Démonstration. Admis.
et on lit (ab0 , bb0 ) l’argument (c’est-à-dire le couple) (a0 , b0 ) qui minimise la somme SC 0 (a0 , b0 ).
Théorème 3.2.2. Soit (xi , yi ) un nuage de points. Le couple (a0 , b0 ) minimisant le critère des
moindres carrés est
sX,Y
ab0 = 2 et bb0 = x ab0 y.
sY
ab0 et bb0 sont appelés estimateurs des moindres carrés de a0 et b0 .
On appelle régression linéaire de X sur Y la droite des moindres carrés d’équation x = ab0 y + bb0 .
Démonstration. Admis.
8 Si on veut tracer les deux droites sur le même graphe, il faut re-exprimer Y en fonction de X.
Les positions relatives de ces deux droites sont étudiées dans l’exercice 3.10.
Le point moyen de coordonnées (x, y) appartient à la droite des moindres carrés d’équation y =
ax + bb. En effet,
b
ax + bb = b
b ax + y b ax = y.
| {z }
b
b
De même, le point moyen de coordonnées (x, y) appartient à la droite des moindres carrés d’équation
x = ab0 y + bb0 . En effet,
ab0 y + bb0 = ab0 y + x ab0 y = x.
| {z }
bb0
56
Exemple 3.10
Dans l’exemple 1.6 (USA), On a obtenu les quantités suivantes :
x = 1.17 y = 70.8786 s2X = 0.3641 s2Y = 1.76598 sX,Y = 0.471882.
73
72
Life Expectation
71
70
69
68
Illiteracy
On a tracé la droite des moindres carrés (y = b ax + bb) qui représente la régression linéaire de la
variable Y ="Life Expectation" sur la variable X = "Illiteracy" sur la figure 3.3 où
0.471882 bb = y
b
a= ⇡ 1.296 et b
ax = 70.8786 ( 1.296) ⇥ 1.17 ⇡ 72.395.
0.3641
De plus
sX,Y 0.471882
=p rX,Y = = 0.5884779.
sX sY 0.3641 ⇥ 1.76598
Il n’y a donc pas de dépendance linéaire entre X et Y car rX,Y << 1. Donc même s’il est toujours
possible de tracer la droite des moindres carrés, ce n’est pas toujours pertinent.
8 Prédictions
La droite des moindres carrés permet d’expliquer la relation entre X et Y mais elle permet aussi
de prédire de nouvelles valeurs. Supposons qu’on nous fournisse une nouvelle valeur x? , on pourra
prédire la valeur de Y correspondante par :
(x? bb0 )
ax? + bb
y? = b ou bien par
. y? =
ab0
Inversement, supposons qu’on nous fournisse une nouvelle valeur y ? , on pourra prédire la valeur de
X correspondante par :
(y ? bb)
x? = ab0 y ? + bb0 ou bien par x? = .
b
a
57
Chapitre 3. Description des distributions statistiques bivariées
Exercice 3.1 On considère la série bi-variée (xi , yi )i=1,··· ,n , dont on dispose des données suivantes:
xi 0 0 -1 1 1 -1 0 1 0 0
yi 1 2 1 2 1 3 3 1 1 2
X\ Y -2 0 2
-1 200 100 100
1 300 150 150
Exercice 3.3 Dans la ville de Roseta, une grande fête des fleurs est organisée chaque année. Les 800
habitants doivent pour cela s’acheter:
• Soit des roses au prix de 10 euros, soit des tulipes au prix de 20 euros.
• De plus ils doivent s’acheter soit une tenue rouge au prix de 120 euros , soit une tenue blanche au prix
de 140 euros, soit une tenue noire au prix de 160 euros
Exercice 3.4 On s’intéresse au prix d’un bien A au cours du temps. Le tableau suivant donne l’évolution
du prix de ce bien de l’année 2000 à l’année 2007.
• On désigne par X la variable temps, telle que xi correspond à l’année 200i, i = 0, . . . , 7, c’est à dire
telle que l’année 2000 correspond à x0 = 0, l’année 2001 correspond à x1 = 1 ect....
• On désigne par Y la variable prix (donnée en centaine d’euros), telle que yi correspond au prix du
bien A au cours de l’année 200i, i = 0, . . . , 7, c’est à dire telle que en 2000 le bien A valait y0 = 7.32
centaines d’euros, ect....
Année xi 0 1 2 3 4 5 6 7
Prix yi 7.32 8.02 11.55 13.07 15.91 17.33 19.52 19.65
Exercice 3.5 On dispose de 2 séries: (x1 , · · · , xn ) et (y1 , · · · , yn ). On donne les valeurs suivantes:
x = ≠3 y = 2, s2Y = 1.44, âÕ = ≠3, rxy = ≠0.8,
où rxy est le coefficient de correlation empirique de x et y et âÕ est le coefficient directeur de la droite de
régression de x sur y.
1. Calculer sxy la covariance empirique de x et y.
2. Calculer s2x .
3. Calculer l’équation de la droite de régression de y sur x.
4. On défini 2 nouvelles séries: (z1 , · · · , zn ) et (w1 , · · · , wn ) telles que
zi = 1 ≠ 3xi , et wi = 3 ≠ yi
pour tout i = 1 · · · , n.
a. Calculer les moyennes empiriques z et w.
b. Calculer les variances empiriques s2z et s2w .
c. Calculer la covariance empirique de z et w, szw .
5. On définit 1 nouvelle série: (u1 , · · · , un ) telle que ui = ≠2yi2 ≠ yi , calculer la moyenne empirique u.
Exercice 3.7 On désigne par X la variable associée à la proportion d’actifs occupés dans le secteur primaire
(donnée en pourcentage) et Y la variable associée à la part du secteur primaire dans le PIB (donnée en
pourcentage) .
120
100
100
80
Y:Crevettes
Z: Autres
60
50
40
20
0
1.
b. Calculer sxy la covariance empirique de x et y et calculer s2x et s2y les variances empiriques de x et y.
c. Calculer rxy le coefficient de correlation empirique de x et y et l’éequation de la droite de réegression
de y sur x.