0% ont trouvé ce document utile (0 vote)
30 vues37 pages

Chap 1

Transféré par

Yahya El Gueddari
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
30 vues37 pages

Chap 1

Transféré par

Yahya El Gueddari
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistique

Chapitre 1 : les données statistiques

13 septembre 2023

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 1 / 37


Introduction

Introduction

Le besoin de posséder des données chiffrées s’est fait sentir dans les
sociétés organisées depuis l’Antiquité (relevés des crues du Nil à l’époque
pharaonique), pour des raisons fiscales, militaires, administratives...
Le mot statistique provient du latin status (relatif à l’état) et a été
introduit au 18ème siècle. Il recouvre actuellement deux significations :
les statistiques : ensemble de données disponibles sur un phénomène
déterminé concernant des groupes d’individus ou d’objets, ces données
étant présentées sous forme de tableaux numériques, de graphiques ou
synthétisées par des indicateurs.
Ex : les statistiques du chômage en France en 2015
la statistique : discipline scientifique qui a pour but la collecte et le
traitement (l’analyse) de ces données.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 2 / 37
Introduction

Dans ce cours, statistique descriptive (ou exploratoire)


= on s’intéresse uniquement à décrire et synthétiser les données étudiées
6= statistique inférentielle (ou mathématique ou inductive)
= on cherche à tirer des conclusions générales sur la population concernée
à partir des données collectées sur un échantillon
,→ cours de L2
Démarche du statisticien :
1 Collecter des données (recensement ou échantillon)
2 Description des données (= statistique descriptive)
3 Modélisation (= statistique inférentielle)
4 Interprétation des résultats (experts)
Travail du statisticien : communiquer avec des représentants d’autres
disciplines ,→ rigueur, précision, vulgarisation des résultats
De ces interprétations statistiques découleront des prises de décision !
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 3 / 37
Eléments de vocabulaire

Eléments de vocabulaire

La population
Toute étude porte sur une population d’objets, de personnes,... sur
laquelle on recherche des informations quantifiables. On parle
également d’univers de référence.
Population = ensemble fini d’unités de même nature = individus (ou
unités statistiques).
Si la population est trop grande, étude sur un échantillon (si possible
représentatif), dont la taille sera notée n.
Dans ce cours, on considérera par défaut qu’on a affaire à un
échantillon.
On s’intéresse aux propriétés de la population dans sa globalité : les
caractérisques individuelles ne nous intéressent pas en elles-mêmes.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 4 / 37
Eléments de vocabulaire

Les variables
Pour chaque individu, on relève la valeur d’une ou plusieurs
caractéristiques (= caractères = indicateurs).
Variable statistique (notée X ) = caractéristique “mesurable” à laquelle
on peut attribuer plusieurs valeurs différentes.
Série statistique
Soit X une variable mesurée sur n individus. On appelle série
statistique simple (ou unidimensionnelle) la série des valeurs observées
x1 , x2 , · · · , xn pour les n individus.

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 5 / 37


Eléments de vocabulaire

Exemple traité tout le long du cours et en travaux pratiques


On distribue un questionnaire à 526 salariés américains et on relève les
variables suivantes :
Salaire : le salaire horaire (en dollars),
Exper : le nombre total d’années d’expérience professionnelle,
Ancien : le nombre d’années d’ancienneté dans l’entreprise actuelle,
Educ : le nombre d’années d’études,
Nivetud : le niveau d’études (collège, bac, licence, master ou plus),
Sexe : le sexe (M si masculin, F si féminin)
Ncharg : le nombre de personnes à charge,
Région : la région d’habitation (est, ouest, nord ou centre, sud)
Urb : 1 si le salarié habite dans une ville de plus de 50000 hab., 0 sinon
Identifier la population, l’échantillon et les variables.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 6 / 37
Eléments de vocabulaire

Source des données : J.-M. Wooldridge, "Introductory Econometrics : a Modern


Approach", South-Western, Cengage Learning, 5ème édition, 2013.
Tableau de données brutes : sous la forme individus / variables (une
ligne = un individu, une colonne = une variable)
On considère n individus et p variables.
Var. Salaire Ancien Exper Educ Nivetud Sexe Ncharg Region Urb
Ind.
1 3,10 0 2 11 bac F 2 ouest 1
2 3,24 2 22 12 bac F 3 ouest 1
.
.
.
i
.
.
.
525 11,56 1 5 16 master M 0 ouest 0
ou +
526 3,50 4 5 14 licence F 2 ouest 0

Exemple : quelles sont les valeurs de n et p pour ce tableau ?


n = 526 et p = 9
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 7 / 37
Les types de variables

Les types de variables

On distingue plusieurs types de variables.


1 variable quantitative : les réponses correspondent à une quantité
mesurable
variable quantitative discrète : la variable prend ses valeurs dans un
ensemble discret, le plus souvent fini
Ex : nombre d’enfants par ménage, nombre de parts fiscales
variable quantitative continue : la variable peut prendre toute valeur
d’un intervalle de IR
Ex : salaire mensuel en euros, chiffre d’affaires en milliers d’euros

Remarque
Il faut toujours préciser l’unité.

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 8 / 37


Les types de variables

2 variable qualitative (= catégorielle) : ses valeurs ne sont pas des


quantités mesurables. Elles appartiennent à un groupe de catégories.
On les appelle des modalités
Ex : sexe, CSP, mention au bac, fréquence d’une activité (jamais,
rarement, parfois, souvent, très souvent)
variable qualitative nominale (le plus courant) : pas de hiérarchie dans
les modalités
Ex : sexe, CSP
variable qualitative ordinale : ordre naturel des modalités
Ex : mention au bac, fréquence d’une activité

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 9 / 37


Les types de variables

Remarque : Une variable qualitative peut être codée numériquement


Homme → 1 ou 0
Ex :
Femme → 2 1
,→ Une variable qualitative codée numériquement en 0/1 s’appelle une
variable indicatrice (dummy variable en anglais)
Remarque : en pratique, la nature d’une variable statistique peut dépendre
du recueil des données et de la précision choisie
Ex : X =âge
X peut être :
quantitative continue si les données sont décimales sans troncature,
quantitative discrète si elle prend peu de valeurs différentes au sein de
la population (âge en années des étudiants d’une université),
qualitative ordinale si la question posée propose des tranches d’âge.

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 10 / 37


Les types de variables

Identifier le type des variables de l’exemple du cours :


Salaire :
Exper :
Ancien :
Educ :
Nivetud :
Sexe :
Ncharg :
Région :
Urb :

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 11 / 37


Les types de variables

Salaire : variable quantitative continue,


Exper : variable quantitative discrète,
Ancien : variable quantitative discrète,
Educ : variable quantitative discrète,
Nivetud : variable qualitative ordinale,
Sexe : variable qualitative nominale,
Ncharg : variable quantitative discrète,
Région : variable qualitative nominale,
Urb : variable qualitative nominale (codée numériquement).

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 12 / 37


Analyse descriptive d’une série statistique simple

Analyse descriptive d’une série statistique simple

Soit X une variable. On appelle distribution (empirique) de la variable X la


répartition de l’échantillon suivant les valeurs de X .
Différents outils statistiques pour résumer la distribution de X :
Tableaux de distribution,
Représentations graphiques,
Résumés numériques d’une variable quantitative (cf. chap. suivant).
Les outils à utiliser dépendent de la nature (= type) de la variable à
étudier. Nous distinguerons donc selon les trois types suivants :
variable qualitative,
variable quantitative discrète,
variable quantitative continue.
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 13 / 37
Analyse descriptive d’une série statistique simple Variable qualitative

Variable qualitative

Soit X une variable qualitative à k modalités C1 , . . . , Cj , . . . , Ck


nj : effectif (= fréquence absolue) associé à la modalité Cj
= nombre d’individus pour lesquels la variable prend la valeur Cj
Remarque : attention à l’anglais frequency qui est un faux ami.
fj = nj /n : fréquence relative (= proportion) associée à cette modalité
si la variable est qualitative ordinale (et les modalités sont dans
l’ordre "croissant") : Φj = f1 + f2 + · · · + fj
= fréquence relative cumulée pour cette modalité

Remarque : mode de X = la (ou les) catégorie(s) de X d’effectif maximal

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 14 / 37


Analyse descriptive d’une série statistique simple Variable qualitative

Tableau de distribution ou tri à plat

Modalités C1 C2 ... Ck Total


Effectif n1 n2 ... nk n
Proportion f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Proportion Φ1 = f 1 Φ2 = f 1 + f 2 ... Φk = f1 + f2 + · · · + fk = 1
cumulée*
* uniquement pour une variable qualitative ordinale
Exemples :
Compléter le tableau de distribution de la variable Région
Région est nord ou centre sud ouest Total
Effectif 118 132 187 89
Proportion

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 15 / 37


Analyse descriptive d’une série statistique simple Variable qualitative

Région est nord ou centre sud ouest Total


Effectif 118 132 187 89 526
Proportion 0,22 0,25 0,36 0,17 1

118
Exemple d’interprétation : = 0, 22
526
22% des salariés habitent la région Est.

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 16 / 37


Analyse descriptive d’une série statistique simple Variable qualitative

Compléter le tableau de distribution de la variable Sexe


Sexe Masculin Féminin Total
Effectif 274 252
Proportion
Compléter le tableau de distribution de la variable Nivetud
Nivetud collège bac licence master ou plus Total
Effectif 57 257 113 99
Proportion
Proportion
cumulée

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 17 / 37


Analyse descriptive d’une série statistique simple Variable qualitative

Sexe Masculin Féminin Total


Effectif 274 252 526
Proportion 0,52 0,48 1

Nivetud collège bac licence master ou plus Total


Effectif 57 257 113 99 526
Proportion 0,11 0,49 0,21 0,19 1
Prop. cum. 0,11 0,60 0,81 1

Exemple d’interprétation :
Φ3 = 0, 81
81% des salariés ont au plus le niveau Licence.

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 18 / 37


Analyse descriptive d’une série statistique simple Variable qualitative

Représentations graphiques :
Diagramme en secteurs (ou circulaire) ou “camembert”
Diagramme en colonnes (ou en tuyaux d’orgue)
Remarque : le diagramme en colonnes est plus adapté que le diagramme en
secteurs pour une variable qualitative ordinale car il rend compte de la
structure d’ordre entre les modalités.

Tracer ces diagrammes pour la variable Région

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 19 / 37


Analyse descriptive d’une série statistique simple Variable qualitative

Diagramme circulaire de la variable Région

nord
est

ouest

sud

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 20 / 37


Analyse descriptive d’une série statistique simple Variable qualitative

Graphique en colonnes de la variable Région

0.35
0.30
0.25
Fréquence relative
0.20
0.15
0.10
0.05
0.00

est nord ouest sud

Région

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 21 / 37


Analyse descriptive d’une série statistique simple Variable quantitative discrète

Variable quantitative discrète

Soit un échantillon d’effectif n et X une variable quantitative discrète. On


note v1 < v2 < · · · < vk les k valeurs différentes prises par X (on a k ≤ n).
nj : effectif associé à la valeur vj
= nombre d’individus pour lesquels X est égal à vj
fj = nj /n : fréquence relative associée à la valeur vj
= proportion d’individus pour lesquels X est égal à vj
Φj = f1 + · · · + fj : fréquence relative cumulée associée à vj
= proportion d’individus pour lesquels X ≤ vj

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 22 / 37


Analyse descriptive d’une série statistique simple Variable quantitative discrète

Tableau de distribution

Valeurs vj v1 v2 ... vk Total


Effectif n1 n2 ... nk n
Fréq. relative f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Fréq. relative Φ1 = f 1 Φ2 = f 1 + f 2 ... Φk = f 1 + f 2 + · · · + f k = 1
cumulée

Exemple : compléter le tableau de distribution du nombre de personnes à


charge
Valeurs prises par Ncharg 0 1 2 3 4 5 6 Total
Effectif 252 105 99 45 16 7 2
Fréquence relative
Fréquence relative cumulée

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 23 / 37


Analyse descriptive d’une série statistique simple Variable quantitative discrète

Valeurs de Ncharg 0 1 2 3 4 5 6 Total


Effectif 252 105 99 45 16 7 2 526
Fréq. rel. 0,479 0,200 0,188 0,086 0,030 0,013 0,004 1
Fréq. rel. cum. 0,479 0,679 0,867 0,953 0,983 0,996 1

Exemple d’interprétation :Φ3 = 0, 867


86,7% des salariés ont au plus 2 personnes à charge.

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 24 / 37


Analyse descriptive d’une série statistique simple Variable quantitative discrète

Représentations graphiques
diagramme en bâtons
boîte à moustaches (cf. chap. 2)
Diagramme en bâtons
en abscisse : les valeurs vj prises par X (en ordre croissant en
respectant l’échelle des valeurs)
en ordonnée : les effectifs nj associés (ou les fréquences relatives fj
associées)
Le tracer pour la variable Ncharg

Remarque : les variables discrètes à beaucoup de valeurs (>15) seront


traitées comme des variables continues (c’est le cas d’Exper et d’Ancien
dans l’exemple)

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 25 / 37


Analyse descriptive d’une série statistique simple Variable quantitative discrète

Graphique en bâtons de la variable Ncharg

0.4
Fréquence relative
0.3
0.2
0.1
0.0

0 1 2 3 4 5 6

Nombre de personnes à charge

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 26 / 37


Analyse descriptive d’une série statistique simple Variable quantitative continue

Variable quantitative continue


Données brutes : x1 , x2 , · · · , xn : beaucoup de valeurs différentes
,→ diagramme en bâtons illisible
,→ regroupement en classes (classes arbitraires)
k classes (k arbitraire) : [b0 , b1 [, [b1 , b2 [,. . ., [bj−1 , bj [,. . .,[bk−1 , bk [
nj : effectif associé à la j-ième classe [bj−1 , bj [
= nombre d’individus pour lesquels X ∈ [bj−1 , bj [
fj : fréquence relative associée à cette classe
= proportion d’individus pour lesquels X ∈ [bj−1 , bj [
Φj = f1 + · · · + fj : j-ième fréquence relative cumulée (convention :
Φ0 = 0)
aj = bj − bj−1 : amplitude de la classe [bj−1 , bj [
fj
dj = : densité de proportion
aj
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 27 / 37
Analyse descriptive d’une série statistique simple Variable quantitative continue

Tableau de distribution type :


Classes de X [b0 , b1 [ [b1 , b2 [ ... [bk−1 , bk [ Total
Effectif n1 n2 ... nk n
Proportion f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Proportion cumulée Φ1 = f1 Φ2 = f 1 + f 2 ... Φk = 1
Amplitude a1 = b1 − b0 a2 = b2 − b1 ... ak = bk − bk−1
Densité de proportion d1 = f1 /a1 d2 = f2 /a2 ... dk = fk /ak

Rq : la densité de proportion permet de comparer les fréquences des


classes en tenant compte de la taille des classes
,→ outil inutile si toutes les classes ont la même amplitude

Rq : toute l’information des données brutes est-elle contenue dans ce


tableau ? Quel est l’intérêt d’un tel tableau ?

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 28 / 37


Analyse descriptive d’une série statistique simple Variable quantitative continue

Exemple : on s’intéresse à la variable Salaire. Afin de résumer l’information,


on regroupe les 526 observations dans 6 classes.
Compléter le tableau suivant.

Classes de salaire [0 ; 2[ [2 ; 4[ [4 ; 6[ [6 ; 10[ [10 ;15[ [15,25[ Total


Effectif 8 187 134 130 48 19
Proportion
Proportion cumulée
Amplitude
Densité de proportion

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 29 / 37


Analyse descriptive d’une série statistique simple Variable quantitative continue

Classes de salaire [0 ; 2[ [2 ; 4[ [4 ; 6[ [6 ; 10[ [10 ;15[ [15,25[ Total


Effectif 8 187 134 130 48 19 526
Proportion 0,02 0,36 0,25 0,25 0,09 0,04 1,01
Proportion cumulée 0,02 0,38 0,63 0,88 0,97 1,01
Amplitude 2 2 2 4 5 10
Densité de proportion 0,010 0,180 0,125 0,063 0,018 0,004
Exemple de calcul :
0, 36
d2 = = 0, 180
2

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 30 / 37


Analyse descriptive d’une série statistique simple Variable quantitative continue

Représentations graphiques
histogramme
boîte à moustaches (cf. chap 2)

Histogramme
en abscisse : les bornes des classes (en respectant l’échelle des valeurs)
en ordonnée : les densités de proportion
Pour chaque classe, on élève un rectangle de hauteur égale à la densité de
proportion.
Conséquences : que vaut l’aire d’un rectangle ?
Aire du rectangle j = aj × dj = fj
Que vaut l’aire totale de l’histogramme ?
Aire totale de l’histogramme = somme des fj = 1
Tracer l’histogramme du salaire horaire
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 31 / 37
Analyse descriptive d’une série statistique simple Variable quantitative continue

Histogramme de la variable Salaire


0.15
Densité de proportion
0.10
0.05
0.00

0 5 10 15 20 25

Salaire horaire (en dollars)

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 32 / 37


Analyse descriptive d’une série statistique simple Fonction de répartition empirique

Fonction de répartition empirique d’une variable quantitative


Soit la série statistique (x1 , ..., xn ) d’observations d’une variable X
quantitative discrète ou continue. Soit x ∈ IR. On s’intéresse à la
proportion des individus de l’échantillon pour lesquels X ≤ x et on note
cette proportion F (x).
n
1X
On a F (x) = 1I(xi ≤ x).
n
i=1
Notation : 1I(condition)=1 si la condition est vérifiée, 0 sinon.
Exemple : codage en 1, 0 pour la variable sexe.

La fonction F : IR → [0, 1]
x → F (x)
est appelée fonction de répartition empirique de X .
F est une fonction discontinue, croissante sur IR et constante par morceaux
(fonction en escalier).
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 33 / 37
Analyse descriptive d’une série statistique simple Fonction de répartition empirique

Cas d’une variable quantitative discrète


Dans le cas d’une variable discrète qui prend les valeurs v1 , . . . , vj , . . . , vk ,
F peut s’écrire :
si x < v1 F (x) = 0,
si x ∈ [vj , vj+1 [ F (x) = Φj ,
si x > vk F (x) = 1.

Tracer le graphe de F pour la variable Ncharg


On place d’abord les points (vj , Φj ) (cf. tableau de distribution), puis les
“paliers” à partir de ces points.

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 34 / 37


Analyse descriptive d’une série statistique simple Fonction de répartition empirique

Graphe de la fdr empirique de la variable Ncharg


1.0
0.8
0.6
F(x)
0.4
0.2
0.0

0 2 4 6

Nombre de personnes à charge

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 35 / 37


Analyse descriptive d’une série statistique simple Fonction de répartition empirique

Cas d’une variable quantitative continue

Exemple : salaire horaire des 57 salariés de niveau collège


Pour tracer F , on ordonne les valeurs observées de la série par ordre
croissant :
1,50 ; 2,00 ; 2,23 ; 2,31 ; 2,38 ; 2,54 ; 2,60 ; 2,70 ; 2,89 ; 2,90 ; 2,90 ; 2,90 ;
2,92 ; 2,92 ; 2,95 ; 3,00 ; 3,00 ; 3,00 ; 3,00 ; 3,00 ; 3,00 ; 3,00 ; 3,00 ; 3,00 ;
3,05 ; 3,10 ; 3,25 ; 3,25 ; 3,35 ; 3,50 ; 3,51 ; 3,71 ; 3,73 ; 3,75 ; 3,76 ; 3,95 ;
4,00 ; 4,00 ; 4,05 ; 4,05 ; 4,17 ; 4,44 ; 4,50 ; 4,95 ; 5,00 ; 5,00 ; 5,00 ; 5,20 ;
5,83 ; 6,00 ; 6,25 ; 7,36 ; 8,43 ; 8,50 ; 9,85 ; 10,00 ; 10,00

(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 36 / 37


Analyse descriptive d’une série statistique simple Fonction de répartition empirique

Graphe de F de la variable Salaire pour les salariés de niveau collège


Graphe de la fdr empirique de la variable
Salaire pour les salariés de niveau collège

1.0
0.8
0.6
F(x)
0.4
0.2
0.0

2 4 6 8 10

Salaire horaire (en dollars)

Rq : s’il n’y a pas d’ex æquo, tous les sauts sont égaux à n1 .
(TSE - UT1 Capitole) Les données statistiques 13 septembre 2023 37 / 37

Vous aimerez peut-être aussi