Statistique
Chapitre 1 : les données statistiques
13 septembre 2023
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 1 / 37
Introduction
Introduction
Le besoin de posséder des données chiffrées s’est fait sentir dans les
sociétés organisées depuis l’Antiquité (relevés des crues du Nil à l’époque
pharaonique), pour des raisons fiscales, militaires, administratives...
Le mot statistique provient du latin status (relatif à l’état) et a été
introduit au 18ème siècle. Il recouvre actuellement deux significations :
les statistiques : ensemble de données disponibles sur un phénomène
déterminé concernant des groupes d’individus ou d’objets, ces données
étant présentées sous forme de tableaux numériques, de graphiques ou
synthétisées par des indicateurs.
Ex : les statistiques du chômage en France en 2015
la statistique : discipline scientifique qui a pour but la collecte et le
traitement (l’analyse) de ces données.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 2 / 37
Introduction
Dans ce cours, statistique descriptive (ou exploratoire)
= on s’intéresse uniquement à décrire et synthétiser les données étudiées
6= statistique inférentielle (ou mathématique ou inductive)
= on cherche à tirer des conclusions générales sur la population concernée
à partir des données collectées sur un échantillon
,→ cours de L2
Démarche du statisticien :
1 Collecter des données (recensement ou échantillon)
2 Description des données (= statistique descriptive)
3 Modélisation (= statistique inférentielle)
4 Interprétation des résultats (experts)
Travail du statisticien : communiquer avec des représentants d’autres
disciplines ,→ rigueur, précision, vulgarisation des résultats
De ces interprétations statistiques découleront des prises de décision !
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 3 / 37
Eléments de vocabulaire
Eléments de vocabulaire
La population
Toute étude porte sur une population d’objets, de personnes,... sur
laquelle on recherche des informations quantifiables. On parle
également d’univers de référence.
Population = ensemble fini d’unités de même nature = individus (ou
unités statistiques).
Si la population est trop grande, étude sur un échantillon (si possible
représentatif), dont la taille sera notée n.
Dans ce cours, on considérera par défaut qu’on a affaire à un
échantillon.
On s’intéresse aux propriétés de la population dans sa globalité : les
caractérisques individuelles ne nous intéressent pas en elles-mêmes.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 4 / 37
Eléments de vocabulaire
Les variables
Pour chaque individu, on relève la valeur d’une ou plusieurs
caractéristiques (= caractères = indicateurs).
Variable statistique (notée X ) = caractéristique “mesurable” à laquelle
on peut attribuer plusieurs valeurs différentes.
Série statistique
Soit X une variable mesurée sur n individus. On appelle série
statistique simple (ou unidimensionnelle) la série des valeurs observées
x1 , x2 , · · · , xn pour les n individus.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 5 / 37
Eléments de vocabulaire
Exemple traité tout le long du cours et en travaux pratiques
On distribue un questionnaire à 526 salariés américains et on relève les
variables suivantes :
Salaire : le salaire horaire (en dollars),
Exper : le nombre total d’années d’expérience professionnelle,
Ancien : le nombre d’années d’ancienneté dans l’entreprise actuelle,
Educ : le nombre d’années d’études,
Nivetud : le niveau d’études (collège, bac, licence, master ou plus),
Sexe : le sexe (M si masculin, F si féminin)
Ncharg : le nombre de personnes à charge,
Région : la région d’habitation (est, ouest, nord ou centre, sud)
Urb : 1 si le salarié habite dans une ville de plus de 50000 hab., 0 sinon
Identifier la population, l’échantillon et les variables.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 6 / 37
Eléments de vocabulaire
Source des données : J.-M. Wooldridge, "Introductory Econometrics : a Modern
Approach", South-Western, Cengage Learning, 5ème édition, 2013.
Tableau de données brutes : sous la forme individus / variables (une
ligne = un individu, une colonne = une variable)
On considère n individus et p variables.
Var. Salaire Ancien Exper Educ Nivetud Sexe Ncharg Region Urb
Ind.
1 3,10 0 2 11 bac F 2 ouest 1
2 3,24 2 22 12 bac F 3 ouest 1
.
.
.
i
.
.
.
525 11,56 1 5 16 master M 0 ouest 0
ou +
526 3,50 4 5 14 licence F 2 ouest 0
Exemple : quelles sont les valeurs de n et p pour ce tableau ?
n = 526 et p = 9
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 7 / 37
Les types de variables
Les types de variables
On distingue plusieurs types de variables.
1 variable quantitative : les réponses correspondent à une quantité
mesurable
variable quantitative discrète : la variable prend ses valeurs dans un
ensemble discret, le plus souvent fini
Ex : nombre d’enfants par ménage, nombre de parts fiscales
variable quantitative continue : la variable peut prendre toute valeur
d’un intervalle de IR
Ex : salaire mensuel en euros, chiffre d’affaires en milliers d’euros
Remarque
Il faut toujours préciser l’unité.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 8 / 37
Les types de variables
2 variable qualitative (= catégorielle) : ses valeurs ne sont pas des
quantités mesurables. Elles appartiennent à un groupe de catégories.
On les appelle des modalités
Ex : sexe, CSP, mention au bac, fréquence d’une activité (jamais,
rarement, parfois, souvent, très souvent)
variable qualitative nominale (le plus courant) : pas de hiérarchie dans
les modalités
Ex : sexe, CSP
variable qualitative ordinale : ordre naturel des modalités
Ex : mention au bac, fréquence d’une activité
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 9 / 37
Les types de variables
Remarque : Une variable qualitative peut être codée numériquement
Homme → 1 ou 0
Ex :
Femme → 2 1
,→ Une variable qualitative codée numériquement en 0/1 s’appelle une
variable indicatrice (dummy variable en anglais)
Remarque : en pratique, la nature d’une variable statistique peut dépendre
du recueil des données et de la précision choisie
Ex : X =âge
X peut être :
quantitative continue si les données sont décimales sans troncature,
quantitative discrète si elle prend peu de valeurs différentes au sein de
la population (âge en années des étudiants d’une université),
qualitative ordinale si la question posée propose des tranches d’âge.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 10 / 37
Les types de variables
Identifier le type des variables de l’exemple du cours :
Salaire :
Exper :
Ancien :
Educ :
Nivetud :
Sexe :
Ncharg :
Région :
Urb :
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 11 / 37
Les types de variables
Salaire : variable quantitative continue,
Exper : variable quantitative discrète,
Ancien : variable quantitative discrète,
Educ : variable quantitative discrète,
Nivetud : variable qualitative ordinale,
Sexe : variable qualitative nominale,
Ncharg : variable quantitative discrète,
Région : variable qualitative nominale,
Urb : variable qualitative nominale (codée numériquement).
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 12 / 37
Analyse descriptive d’une série statistique simple
Analyse descriptive d’une série statistique simple
Soit X une variable. On appelle distribution (empirique) de la variable X la
répartition de l’échantillon suivant les valeurs de X .
Différents outils statistiques pour résumer la distribution de X :
Tableaux de distribution,
Représentations graphiques,
Résumés numériques d’une variable quantitative (cf. chap. suivant).
Les outils à utiliser dépendent de la nature (= type) de la variable à
étudier. Nous distinguerons donc selon les trois types suivants :
variable qualitative,
variable quantitative discrète,
variable quantitative continue.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 13 / 37
Analyse descriptive d’une série statistique simple Variable qualitative
Variable qualitative
Soit X une variable qualitative à k modalités C1 , . . . , Cj , . . . , Ck
nj : effectif (= fréquence absolue) associé à la modalité Cj
= nombre d’individus pour lesquels la variable prend la valeur Cj
Remarque : attention à l’anglais frequency qui est un faux ami.
fj = nj /n : fréquence relative (= proportion) associée à cette modalité
si la variable est qualitative ordinale (et les modalités sont dans
l’ordre "croissant") : Φj = f1 + f2 + · · · + fj
= fréquence relative cumulée pour cette modalité
Remarque : mode de X = la (ou les) catégorie(s) de X d’effectif maximal
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 14 / 37
Analyse descriptive d’une série statistique simple Variable qualitative
Tableau de distribution ou tri à plat
Modalités C1 C2 ... Ck Total
Effectif n1 n2 ... nk n
Proportion f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Proportion Φ1 = f 1 Φ2 = f 1 + f 2 ... Φk = f1 + f2 + · · · + fk = 1
cumulée*
* uniquement pour une variable qualitative ordinale
Exemples :
Compléter le tableau de distribution de la variable Région
Région est nord ou centre sud ouest Total
Effectif 118 132 187 89
Proportion
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 15 / 37
Analyse descriptive d’une série statistique simple Variable qualitative
Région est nord ou centre sud ouest Total
Effectif 118 132 187 89 526
Proportion 0,22 0,25 0,36 0,17 1
118
Exemple d’interprétation : = 0, 22
526
22% des salariés habitent la région Est.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 16 / 37
Analyse descriptive d’une série statistique simple Variable qualitative
Compléter le tableau de distribution de la variable Sexe
Sexe Masculin Féminin Total
Effectif 274 252
Proportion
Compléter le tableau de distribution de la variable Nivetud
Nivetud collège bac licence master ou plus Total
Effectif 57 257 113 99
Proportion
Proportion
cumulée
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 17 / 37
Analyse descriptive d’une série statistique simple Variable qualitative
Sexe Masculin Féminin Total
Effectif 274 252 526
Proportion 0,52 0,48 1
Nivetud collège bac licence master ou plus Total
Effectif 57 257 113 99 526
Proportion 0,11 0,49 0,21 0,19 1
Prop. cum. 0,11 0,60 0,81 1
Exemple d’interprétation :
Φ3 = 0, 81
81% des salariés ont au plus le niveau Licence.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 18 / 37
Analyse descriptive d’une série statistique simple Variable qualitative
Représentations graphiques :
Diagramme en secteurs (ou circulaire) ou “camembert”
Diagramme en colonnes (ou en tuyaux d’orgue)
Remarque : le diagramme en colonnes est plus adapté que le diagramme en
secteurs pour une variable qualitative ordinale car il rend compte de la
structure d’ordre entre les modalités.
Tracer ces diagrammes pour la variable Région
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 19 / 37
Analyse descriptive d’une série statistique simple Variable qualitative
Diagramme circulaire de la variable Région
nord
est
ouest
sud
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 20 / 37
Analyse descriptive d’une série statistique simple Variable qualitative
Graphique en colonnes de la variable Région
0.35
0.30
0.25
Fréquence relative
0.20
0.15
0.10
0.05
0.00
est nord ouest sud
Région
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 21 / 37
Analyse descriptive d’une série statistique simple Variable quantitative discrète
Variable quantitative discrète
Soit un échantillon d’effectif n et X une variable quantitative discrète. On
note v1 < v2 < · · · < vk les k valeurs différentes prises par X (on a k ≤ n).
nj : effectif associé à la valeur vj
= nombre d’individus pour lesquels X est égal à vj
fj = nj /n : fréquence relative associée à la valeur vj
= proportion d’individus pour lesquels X est égal à vj
Φj = f1 + · · · + fj : fréquence relative cumulée associée à vj
= proportion d’individus pour lesquels X ≤ vj
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 22 / 37
Analyse descriptive d’une série statistique simple Variable quantitative discrète
Tableau de distribution
Valeurs vj v1 v2 ... vk Total
Effectif n1 n2 ... nk n
Fréq. relative f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Fréq. relative Φ1 = f 1 Φ2 = f 1 + f 2 ... Φk = f 1 + f 2 + · · · + f k = 1
cumulée
Exemple : compléter le tableau de distribution du nombre de personnes à
charge
Valeurs prises par Ncharg 0 1 2 3 4 5 6 Total
Effectif 252 105 99 45 16 7 2
Fréquence relative
Fréquence relative cumulée
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 23 / 37
Analyse descriptive d’une série statistique simple Variable quantitative discrète
Valeurs de Ncharg 0 1 2 3 4 5 6 Total
Effectif 252 105 99 45 16 7 2 526
Fréq. rel. 0,479 0,200 0,188 0,086 0,030 0,013 0,004 1
Fréq. rel. cum. 0,479 0,679 0,867 0,953 0,983 0,996 1
Exemple d’interprétation :Φ3 = 0, 867
86,7% des salariés ont au plus 2 personnes à charge.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 24 / 37
Analyse descriptive d’une série statistique simple Variable quantitative discrète
Représentations graphiques
diagramme en bâtons
boîte à moustaches (cf. chap. 2)
Diagramme en bâtons
en abscisse : les valeurs vj prises par X (en ordre croissant en
respectant l’échelle des valeurs)
en ordonnée : les effectifs nj associés (ou les fréquences relatives fj
associées)
Le tracer pour la variable Ncharg
Remarque : les variables discrètes à beaucoup de valeurs (>15) seront
traitées comme des variables continues (c’est le cas d’Exper et d’Ancien
dans l’exemple)
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 25 / 37
Analyse descriptive d’une série statistique simple Variable quantitative discrète
Graphique en bâtons de la variable Ncharg
0.4
Fréquence relative
0.3
0.2
0.1
0.0
0 1 2 3 4 5 6
Nombre de personnes à charge
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 26 / 37
Analyse descriptive d’une série statistique simple Variable quantitative continue
Variable quantitative continue
Données brutes : x1 , x2 , · · · , xn : beaucoup de valeurs différentes
,→ diagramme en bâtons illisible
,→ regroupement en classes (classes arbitraires)
k classes (k arbitraire) : [b0 , b1 [, [b1 , b2 [,. . ., [bj−1 , bj [,. . .,[bk−1 , bk [
nj : effectif associé à la j-ième classe [bj−1 , bj [
= nombre d’individus pour lesquels X ∈ [bj−1 , bj [
fj : fréquence relative associée à cette classe
= proportion d’individus pour lesquels X ∈ [bj−1 , bj [
Φj = f1 + · · · + fj : j-ième fréquence relative cumulée (convention :
Φ0 = 0)
aj = bj − bj−1 : amplitude de la classe [bj−1 , bj [
fj
dj = : densité de proportion
aj
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 27 / 37
Analyse descriptive d’une série statistique simple Variable quantitative continue
Tableau de distribution type :
Classes de X [b0 , b1 [ [b1 , b2 [ ... [bk−1 , bk [ Total
Effectif n1 n2 ... nk n
Proportion f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Proportion cumulée Φ1 = f1 Φ2 = f 1 + f 2 ... Φk = 1
Amplitude a1 = b1 − b0 a2 = b2 − b1 ... ak = bk − bk−1
Densité de proportion d1 = f1 /a1 d2 = f2 /a2 ... dk = fk /ak
Rq : la densité de proportion permet de comparer les fréquences des
classes en tenant compte de la taille des classes
,→ outil inutile si toutes les classes ont la même amplitude
Rq : toute l’information des données brutes est-elle contenue dans ce
tableau ? Quel est l’intérêt d’un tel tableau ?
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 28 / 37
Analyse descriptive d’une série statistique simple Variable quantitative continue
Exemple : on s’intéresse à la variable Salaire. Afin de résumer l’information,
on regroupe les 526 observations dans 6 classes.
Compléter le tableau suivant.
Classes de salaire [0 ; 2[ [2 ; 4[ [4 ; 6[ [6 ; 10[ [10 ;15[ [15,25[ Total
Effectif 8 187 134 130 48 19
Proportion
Proportion cumulée
Amplitude
Densité de proportion
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 29 / 37
Analyse descriptive d’une série statistique simple Variable quantitative continue
Classes de salaire [0 ; 2[ [2 ; 4[ [4 ; 6[ [6 ; 10[ [10 ;15[ [15,25[ Total
Effectif 8 187 134 130 48 19 526
Proportion 0,02 0,36 0,25 0,25 0,09 0,04 1,01
Proportion cumulée 0,02 0,38 0,63 0,88 0,97 1,01
Amplitude 2 2 2 4 5 10
Densité de proportion 0,010 0,180 0,125 0,063 0,018 0,004
Exemple de calcul :
0, 36
d2 = = 0, 180
2
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 30 / 37
Analyse descriptive d’une série statistique simple Variable quantitative continue
Représentations graphiques
histogramme
boîte à moustaches (cf. chap 2)
Histogramme
en abscisse : les bornes des classes (en respectant l’échelle des valeurs)
en ordonnée : les densités de proportion
Pour chaque classe, on élève un rectangle de hauteur égale à la densité de
proportion.
Conséquences : que vaut l’aire d’un rectangle ?
Aire du rectangle j = aj × dj = fj
Que vaut l’aire totale de l’histogramme ?
Aire totale de l’histogramme = somme des fj = 1
Tracer l’histogramme du salaire horaire
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 31 / 37
Analyse descriptive d’une série statistique simple Variable quantitative continue
Histogramme de la variable Salaire
0.15
Densité de proportion
0.10
0.05
0.00
0 5 10 15 20 25
Salaire horaire (en dollars)
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 32 / 37
Analyse descriptive d’une série statistique simple Fonction de répartition empirique
Fonction de répartition empirique d’une variable quantitative
Soit la série statistique (x1 , ..., xn ) d’observations d’une variable X
quantitative discrète ou continue. Soit x ∈ IR. On s’intéresse à la
proportion des individus de l’échantillon pour lesquels X ≤ x et on note
cette proportion F (x).
n
1X
On a F (x) = 1I(xi ≤ x).
n
i=1
Notation : 1I(condition)=1 si la condition est vérifiée, 0 sinon.
Exemple : codage en 1, 0 pour la variable sexe.
La fonction F : IR → [0, 1]
x → F (x)
est appelée fonction de répartition empirique de X .
F est une fonction discontinue, croissante sur IR et constante par morceaux
(fonction en escalier).
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 33 / 37
Analyse descriptive d’une série statistique simple Fonction de répartition empirique
Cas d’une variable quantitative discrète
Dans le cas d’une variable discrète qui prend les valeurs v1 , . . . , vj , . . . , vk ,
F peut s’écrire :
si x < v1 F (x) = 0,
si x ∈ [vj , vj+1 [ F (x) = Φj ,
si x > vk F (x) = 1.
Tracer le graphe de F pour la variable Ncharg
On place d’abord les points (vj , Φj ) (cf. tableau de distribution), puis les
“paliers” à partir de ces points.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 34 / 37
Analyse descriptive d’une série statistique simple Fonction de répartition empirique
Graphe de la fdr empirique de la variable Ncharg
1.0
0.8
0.6
F(x)
0.4
0.2
0.0
0 2 4 6
Nombre de personnes à charge
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 35 / 37
Analyse descriptive d’une série statistique simple Fonction de répartition empirique
Cas d’une variable quantitative continue
Exemple : salaire horaire des 57 salariés de niveau collège
Pour tracer F , on ordonne les valeurs observées de la série par ordre
croissant :
1,50 ; 2,00 ; 2,23 ; 2,31 ; 2,38 ; 2,54 ; 2,60 ; 2,70 ; 2,89 ; 2,90 ; 2,90 ; 2,90 ;
2,92 ; 2,92 ; 2,95 ; 3,00 ; 3,00 ; 3,00 ; 3,00 ; 3,00 ; 3,00 ; 3,00 ; 3,00 ; 3,00 ;
3,05 ; 3,10 ; 3,25 ; 3,25 ; 3,35 ; 3,50 ; 3,51 ; 3,71 ; 3,73 ; 3,75 ; 3,76 ; 3,95 ;
4,00 ; 4,00 ; 4,05 ; 4,05 ; 4,17 ; 4,44 ; 4,50 ; 4,95 ; 5,00 ; 5,00 ; 5,00 ; 5,20 ;
5,83 ; 6,00 ; 6,25 ; 7,36 ; 8,43 ; 8,50 ; 9,85 ; 10,00 ; 10,00
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 36 / 37
Analyse descriptive d’une série statistique simple Fonction de répartition empirique
Graphe de F de la variable Salaire pour les salariés de niveau collège
Graphe de la fdr empirique de la variable
Salaire pour les salariés de niveau collège
1.0
0.8
0.6
F(x)
0.4
0.2
0.0
2 4 6 8 10
Salaire horaire (en dollars)
Rq : s’il n’y a pas d’ex æquo, tous les sauts sont égaux à n1 .
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 37 / 37