0% ont trouvé ce document utile (0 vote)
105 vues85 pages

Statistique Descriptive: U C A É E

Le cours de statistique descriptive vise à initier les étudiants aux concepts fondamentaux et aux méthodes de base de la statistique pour favoriser un apprentissage autonome. Il aborde la collecte, l'analyse, et la présentation des données, tout en développant un sens critique pour l'interprétation des résultats. Le document présente également des éléments de vocabulaire, des typologies de données, et des exercices d'application pour renforcer la compréhension des concepts statistiques.

Transféré par

chadi.mouhoubfxt
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
105 vues85 pages

Statistique Descriptive: U C A É E

Le cours de statistique descriptive vise à initier les étudiants aux concepts fondamentaux et aux méthodes de base de la statistique pour favoriser un apprentissage autonome. Il aborde la collecte, l'analyse, et la présentation des données, tout en développant un sens critique pour l'interprétation des résultats. Le document présente également des éléments de vocabulaire, des typologies de données, et des exercices d'application pour renforcer la compréhension des concepts statistiques.

Transféré par

chadi.mouhoubfxt
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

03/05/2023

UNIVERSITÉ CADI AYYAD


ÉCOLE SUPÉRIEURE DE TECHNOLOGIE
ESSAOUIRA

Statistique descriptive

2022/2023
1

Objectifs du cours

o Le cours a pour but d’initier les étudiants aux principes de base de la statistique. Le cours vise
principalement à introduire et faire méditer les concepts fondamentaux et méthodes élémentaires de la
statistique pour permettre un apprentissage autonome ultérieur de méthodes complémentaires.

o On veut développer le sens critique nécessaire lors de la mise en œuvre et de l’interprétation d’un traitement
statistique. Pour cela, on introduira et utilisera un cadre mathématique rigoureux. Nous fournirons autant
d’exemples et de figures nécessaires afin d’obtenir une meilleure compréhension du cours.

o La statistique descriptive a pour but d’étudier un phénomène à partir de données. Cette description se fait à
travers la présentation des données (la plus synthétique possible), leur représentation graphique et le calcul
de résumés numériques.

1
03/05/2023

Principales sources bibliographiques

o Aubert Henry 2011, “Manuel de statistique”, Ellipses Edition.

o Anderson, Sweeney, Williams 2009, “Essentials of Statistics for Business and Economics”, 5th Edition, South

Western, Cengage learning.

o Anderson, Sweeney, Williams 2011, “Statistiques pour l’économie et la gestion”, 3ème Edition, de boeck.

o Barrow 2006, “Statistics for Economics, Accounting and Business Studies”, 4th Edition, Prentice Hall, Harlow.

o Dehon, Droesbeke et Vemandele 2008, “Eléments de statistiques ”, Editions de l’Université de Bruxelles et

ellipses.

o Olivier 2008, “L'essentiel de la statistique descriptive”, Gualino.

Plan du cours

Chapitre 1 : Introduction et concepts de base de la Statistique Descriptive.

Chapitre 2 : Présentations des données sous forme de graphiques et de tableaux.

Chapitre 3 : Indicateurs statistiques.

Chapitre 4 : Séries bi-variées.

2
03/05/2023

Chapitre 1 : Introduction et concepts de base de la Statistique Descriptive

Introduction

Le mot « statistique » désigne à la fois :

Un ensemble de données d'observation

et l'activité qui consiste dans leur recueil, leur traitement et leur interprétation

❑ La statistique est l’étude de la collecte de données, leur analyse, leur traitement, l’interprétation des
résultats et leur présentation afin de rendre les données compréhensibles par tous.

❑ C’est à la fois une science, une méthode et un ensemble de techniques.

3
03/05/2023

Introduction

Plusieurs définitions peuvent être repérées à travers la littérature :

La statistique est l’ensemble des techniques ayant pour objet de décrire,


numériquement et graphiquement des populations (Aubert, 2011).

Les statistiques descriptives sont des résumés d’un ensemble de données sous forme
de tableaux, de graphiques, ou sous forme numérique (Anderson, 2011).

À quoi peut servir la statistique ?

o Analyser et résumer une base de données.

o Prendre des décisions et les justifier en chiffres.

o Présenter des analyses, des rapports et des résultats aux décideurs.

o Fabriquer l’information.

o Entamer une étude statistique

4
03/05/2023

L’analyse des données est utilisée pour d’écrire les phénomènes étudiés, faire des pré- visions et prendre des
décisions à leur sujet. En cela, la statistique est un outil essentiel pour la compréhension et la gestion des
phénomènes complexes.

Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous les champs
disciplinaires et explique pourquoi elle est enseignée dans toutes les filières universitaires, de l’économie à la
biologie en passant par la psychologie et bien sûr les sciences de l’ingénieur. La statistique consiste à :

– Recueillir des données.


– Présenter et résumer ces données.
– Tirer des conclusions sur la population étudiée et d’aider à la prise de décision.
– En présence de données dépendant du temps, nous essayons de faire de la prévision.

Domaines d’application de la statistique

La statistique est employée dans toutes les sciences :

Sciences exactes : physique, biologie, médecine,…

Sciences humaines : sociologie, démographie, psychosociologie,…

Sciences sociales : économie, gestion, sciences politiques,…

10

5
03/05/2023

En statistique, plusieurs types d’analyse des données sont possibles :

Analyse statistique

Uni-variée Bi-variée Multi-variée

On étudie ici la relation


On étudie la répartition
qui peut exister entre S'intéresse à la distribution
d'une population selon
deux variables (entre la conjointe de plusieurs
une variable ( la taille, le
taille et le poids, par variables.
poids ...).
exemple...).

11

Eléments de vocabulaire

Population
Caractère
Echantillon

Individu Modalité

Série statistique
Effectif
Fréquence
recensement

12

6
03/05/2023

Eléments de vocabulaire

Elément de vocabulaire Signification

Statistique descriptive Ensemble des techniques du statisticien pour décrire,


numériquement, les populations.

Population un ensemble d’éléments (au sens mathématique) considéré dans


une étude particulière.

Individus ou unités statistiques les éléments de la population

Taille de la population/Effectif le nombre d’individus ou d’unités statistiques appartenant à la


total population. On appelle taille ou effectif le nombre total
d’éléments de la population

Une variable statistique ou un une valeur numérique ou non qui s’associe à chaque individu de la
caractère population.

13

Eléments de vocabulaire

Elément de vocabulaire Signification

Fréquence (ou proportion) Rapport d’un effectif particulier d’individus à la taille de la


population. (Excel confond parfois fréquence et effectif).

Modalités les valeurs que peut prendre une variable statistique.

Effectif nombre d’individus qui représentent une modalité de la


variable statistique

Echantillon un sous-ensemble de la population

Un recensement un processus de collecte de données relatives à la population


entière.

14

7
03/05/2023

Eléments de vocabulaire

Elément de vocabulaire Signification

Une observation un ensemble de mesures obtenues pour un élément.

Enquêtes d’échantillonnage des enquêtes visant à collecter des données relatives à un


échantillon.

Inférence statistique un processus d’utilisation des données d’un échantillon pour estimer
ou tester des hypothèses sur les caractéristiques d’une population.

Il est fréquent qu'une population soit divisée en sous-ensembles


cohérents construits à partir de critères déterminés de façon à
Classe réduire la taille des tableaux de données et à en faciliter la lecture,
l'analyse et l'interprétation. Cette division induit un regroupement
des individus et la formation de classes rassemblant chacune des
individus présentant des caractères similaires.

15

Eléments de vocabulaire

❖ Exemple :

1. Population :

On considère l’ensemble des étudiants de la filière TM.


➢ Population = ensemble des étudiants.
2. Individu :

Dans l’exemple indiqué ci-dessus :


➢ Un individu est tout étudiant de la filière TM

3. Caractère :

Taille, température, nationalité, couleur des yeux, catégorie socioprofessionnelle ...


4. Modalité :

Variable est " situation familiale "


➢ Modalités sont " célibataire, marié, divorcé ".
16

8
03/05/2023

Typologie des données

Variable
statistique

Quantitative Qualitative

Discrète Continue Nominale Ordinale

17

Typologie des données

Un caractère est dit:

Qualitatif, quand les valeurs ne peuvent être ni ordonnées


Quantitatif, quand les valeurs sont numériques (mesures
ni ajoutées (groupe sanguin, couleur des yeux, vote pour un
physiques, physiologiques, économiques).
candidat);

Mesurées dans une échelle


nominale, les modalités Ordinal, quand les
sont exprimables par des valeurs peuvent être Quantitatif continu s’il peut
Quantitatif discret si le
noms et ne sont pas ordonnées mais pas prendre toutes les valeurs
caractère peut prendre un
hiérarchisées. Un caractère ajoutées (opinions entre deux nombres
nombre fini de valeurs
nominal peut être exprimées sur une donnés.
dichotomique s’il ne peut échelle de valeurs);
prendre que deux modalité

18

9
03/05/2023

Typologie des données

❖ Caractère qualitatif

❖ Exemple :

L’état d’une maison : on peut considérer les modalités suivantes :

– Ancienne.

– Dégradée.

– Nouvelle.

– Rénovée.

19

Typologie des données

❖ Caractère quantitatif

❖ Exemple :

– Le salaire d’employés d’une usine.

Modalités : 10 000 Dhs , 20 000 Dhs

20

10
03/05/2023

Typologie des données

❖ Exemple :

Sur une population de 200 voitures, on étudie :

➢ La couleur de la carrosserie : c'est un caractère qualitatif ;

➢ Si on étudie leur puissance fiscale, c'est un caractère quantitatif discret ;

➢ Si on étudie la taille de leur conducteur, c'est un caractère quantitatif continu

21

Exercice d’application 1

Quelle est la nature des caractères ci-dessous ?

➢ Salaire des employés

➢ Satisfaction des salariés

➢ Nombre d’étudiants par filière

➢ Statut juridique des sociétés

22

11
03/05/2023

Exercice d’application 2

1. La variable statistique "couleur de maisons d’un quartier" est-elle :

❑ qualitative ❑ quantitative
❑ discrète ❑ continue

2. La variable statistique "revenu brut" est-elle :


❑ qualitative ❑ quantitative
❑ discrète ❑ continue

3. La variable statistique "nombre de maisons vendues par ville" est-elle :


❑ qualitative ❑ quantitative
❑ discrète ❑ continue

23

Série d'exercices n°1

❖ Exercice 1

Parmi ces assertions, préciser celles qui sont vraies, celles qui sont fausses :

1. On appelle variable, une caractéristique que l’on étudie.

2. La tâche de la statistique descriptive est de recueillir des données.

3. La tâche de la statistique descriptive est de présenter les données sous forme de tableaux, de graphiques et

d’indicateurs statistiques.

4. En Statistique, on classe les variables selon différents types.

24

12
03/05/2023

Série d'exercices n°1

❖ Exercice 1

5. Les valeurs des variables sont aussi appelées modalités.

6. Pour une variable qualitative, chaque individu statistique ne peut avoir qu’une seule modalité.

7. Pour faire des traitements statistiques, il arrive qu’on transforme une variable quantitative en variable qualitative.

8. La variable quantitative poids d’automobile peut être reclassée en compacte, intermédiaire et grosse.

9. En pratique, lorsqu’une variable quantitative discrète prend un grand nombre de valeurs distinctes, on la traite

comme continue.

25

Série d'exercices n°1

❖ Exercice 2

• Proposer des exemples de variable quantitative transformée en variable qualitative.


• Préciser les modalités de cette dernière.

Variable quantitative
Hauteur

Poids
Rendement
CA
Cylindre

26

13
03/05/2023

Série d'exercices n°1

❖ Exercice 3

- L’ESTE veut faire une étude statistique concernant les étudiants inscrits en S1.
- Cette étude concernera les options du BAC des étudiants.
Répartition des étudiants selon l’option du BAC
Option du BAC Nombre d’étudiants
Sciences économiques 1 140
Sciences expérimentales 505
Sciences mathématiques A 45
Lettres modernes 26
Ensemble 1 716

Il s’agit d’identifier la population étudiée, sa taille, les unités statistiques ou individus, la variable
statistique, les modalités du caractère et l’effectif de la modalité “sciences expérimentales”, et l’effectif des
deux dernières modalités.
27

Il ne faut pas confondre entre la population et les unités statistiques. La population c’est l’ensemble des éléments
observés, ces éléments portent le nom d’unités statistiques.

" La population est un ensemble bien délimité, sa définition doit être parfaitement claire.

" La population n’est jamais un nombre, c’est un ensemble. Exemples : des pièces fabriquées par une machine, les
véhicules dans un parking, les étudiants dans une faculté…

" Les unités statistiques peuvent être des êtres humains, des objets, des entités géographiques…c’est des éléments de
la population.

" Il ne faut pas confondre entre unités statistiques et modalités.

" Il ne faut pas confondre entre la variable statistique et les modalités (de la variable ou du caractère).

" La variable est un aspect particulier des unités statistiques (individus), auquel on s’intéresse, une caractéristique qui
peut varier d’un individu à l’autre. La variable porte aussi le nom de caractère. L’ensemble des observations d’une
variable statistique forme l’ensemble des modalités de ce caractère
28

14
03/05/2023

" A chaque individu (unité statistique) doit être associée une modalité unique. C’est-à-dire « au moins une » et « au
plus une ».

Au plus une: il ne doit pas être possible d’associer à un même individu deux modalités. Les modalités sont
incompatibles (parfaitement distinctes les unes des autres).

Au moins une : il ne doit pas être possible qu’un individu ne soit associé à aucune modalité. Tous les aspects de la
variable doivent être présents dans la liste des modalités.

29

Chapitre 2 : Présentations des données sous forme de graphiques et de tableaux

30

15
03/05/2023

Symboles et notations

1. Notation indicée

❖ Les méthodes statistiques s'appliquent à des populations comportant un grand nombre d'individus. Il est

indispensable de pouvoir représenter symboliquement la valeur de la variable étudiée correspondant à chacun

des n individus de cette population.

❖ On distingue par la valeur de la variable x relative à l'individu i. La lettre i est appelée indice. Elle peut prendre

n'importe laquelle des valeurs : 1, 2, ..., i, ..., n

auxquelles correspondent les valeurs de la variable : x1, x2, x3,…, xi, …, xn

31

Symboles et notations

2. Notation symbolique de « Somme »

❖ Pour symboliser la somme des valeurs xi de la variable x, on utilise la lettre S ou ∑ (Lettre grecque : Sigma
majuscule)

❖ Par définition

❖ Propriétés

❖ Soit « a » une constante

32

16
03/05/2023

Présentations des données sous forme de graphiques et de tableaux

1. Effectif

➢ Le nombre d’individus représentant la modalité est nommé l’effectif. On souligne que l’effectif d’une modalité « i

» est noté ni .

➢ S’il y a k modalités de la variable, les effectifs sont donc notés : n1 , n2 ………………., nk La somme des effectifs (ou

l’effectif total) est égale au nombre total d’individus :

33

Présentations des données sous forme de graphiques et de tableaux

2. Fréquence

➢ La fréquence (fi) associée à une modalité, ou à un ensemble de modalités regroupées en classes indique la

proportion d’individus présentant cette modalité (ou cet ensemble de modalités) par rapport à l’ensemble des

individus.

𝒏𝒊
✓ La fréquence d’une modalité « i » : 𝒇𝒊 = 𝒏

✓ La somme des fréquences : σ𝒌𝒊=𝟏 𝒇𝒊 = 𝟏


𝒏𝒊 𝒏𝒊
✓ La fréquence de la modalité 𝑴𝒊 est définie par le rapport : 𝒇𝒊 = =
𝒏 σ𝒏
𝒊=𝟏 𝒏𝒊

34

17
03/05/2023

Présentations des données sous forme de graphiques et de tableaux

Un tableau statistique décrivant une population P suivant un caractère K se présente sous la forme générale
suivante :
Caractère étudié Effectif de chaque modalité

M1 n1
M2 n2
: :
MI ni
: :
MK nk
Total N

35

Présentations des données sous forme de graphiques et de tableaux

Un tableau statistique décrivant une population P suivant un caractère K se présente sous la forme générale
suivante :

Caractère étudié M1 M2 … MK Total

Effectif de chaque n1 n2 … nk N
modalité

36

18
03/05/2023

Présentations des données sous forme de graphiques et de tableaux

1. Présentations des données qualitatives

❖ Exemple :

Nous avons une répartition des étrangers vivant à Essaouira selon leur nationalité:
italien, italien, espagnol, français, français, espagnol, portugais, allemands, tunisien, tunisien, algérien,
italien, espagnol, français, français.

37

Présentations des données qualitatives

❖ Exercice d’application
Nous avons une répartition de l’effectif des employés d’une entreprise X selon leur niveau d’éducation. Il faut
calculer la fréquence relative et la fréquence en pourcentage, et présenter les données sous forme de graphiques.
1. Présentation des données sous forme de tableaux :

Répartition des employés d’une entreprise X selon leur niveau d’éducation

Niveau d’éducation Effectif Fréquence relative Fréquence en %


Doctorat 56 0,0075 0,75%
Master 109 0,0145 1,45%
Licence 500 0,0665 6,65%
Bac 1 450 0,1929 19,29%
Études secondaires 5 400 0,7186 71,87%
Ou moins
Total 7 515 1,00 100 %

38

19
03/05/2023

Présentations des données sous forme de graphiques et de tableaux

❖ Effectif cumulé croissant et décroissant

Le tableau suivant présente la distribution des notes de 25 élèves d’une classe.

Notes 3 7 10 8 9
des
élèves
Nombre 2 5 4 8 6
des
élèves

• Calculer les effectifs cumulés croissants et décroissants.

39

Présentations des données qualitatives

❖ Présentation des données sous forme de graphiques :

Un graphique permet de mieux mettre en évidence certaines informations données dans le tableau.
Pour des variables qualitatives, un diagramme à barres ou un digramme à secteurs circulaires sont les
graphiques les plus utilisés.

40

20
03/05/2023

Présentations des données qualitatives

❖ Présentation des données sous forme de graphiques :

o Un diagramme à barres (à bandes/ à tuyaux d’orgue) associe une bande verticale à chaque modalité et la
distance entre chaque bande est constante. La largeur de chacune des bandes est la même et sa hauteur
est égale à l’effectif ou à la fréquence de la modalité.

o Un diagramme à secteur circulaire (diagramme circulaire) est un graphique qui divise un cercle en
secteurs angulaires, et dont les angles aux centres sont proportionnels aux effectifs ou aux fréquences de
chaque modalité. L’angle au centre est égal à fi*360.

41

Présentations des données qualitatives

❖ Présentation des données sous forme de graphiques :

Répartition des employés d’une entreprise X selon leur niveau d’éducation

Niveau d’éducation Effectif Fréquence relative Fréquence en %


Doctorat 56 0,0075 0,75%
Master 109 0,0145 1,45%
Licence 500 0,0665 6,65%
Bac 1 450 0,1929 19,29%
Études secondaires 5 400 0,7186 71,87%
Ou moins
Total 7 515 1,00 100 %

42

21
03/05/2023

Présentations des données qualitatives

❖ Présentation des données sous forme de graphiques :

Répartition des employés d’une entreprise X selon leur niveau d’éducation

43

Présentations des données qualitatives

❖ Présentation des données sous forme de graphiques :

Répartition des employés d’une entreprise X selon leur niveau d’éducation

44

22
03/05/2023

Présentations des données qualitatives

❖ Présentation des données sous forme de graphiques :

Répartition des employés d’une entreprise X selon leur niveau d’éducation

45

Présentations des données qualitatives

46

23
03/05/2023

Présentations des données quantitatives

❖ variable quantitative continue

o Pour une variable quantitative continue, toutes les valeurs des modalités peuvent appartenir à un intervalle
réel. Ces valeurs sont regroupées dans des intervalles de valeurs numériques appelés classes.

o Nous soulignons que le regroupement en classes se justifie par l’existence d’un grand nombre de modalités,
ainsi la présentation des données s’en trouve simplifiée. Comment peut-on alors définir ces classes?

47

Présentations des données quantitatives

❖ variable quantitative continue

Les trois étapes nécessaires à la définition des classes sont:

1. Déterminer le nombre de classes.


- Il est recommandé d’utiliser entre 5 et 20 classes.
- En pratique le nombre est déterminé par un processus “essai-erreur”.

2. Déterminer la largeur de la classe. La largeur est égale à :

48

24
03/05/2023

Présentations des données quantitatives

❖ variable quantitative continue

Les classes sont notées : [𝒆𝒊 ; 𝒆𝒊+𝟏 [ sachant que 𝒆𝒊 est la borne inférieure et 𝒆𝒊+𝟏 est la borne supérieure.

Pour chaque classe il faut aussi définir :

Amplitude de la classe : 𝒂𝒊 = 𝒆𝒊+𝟏 – 𝒆𝒊

𝒆𝒊+𝟏 +𝒆𝒊
Centre de la classe : 𝑪𝒊 =
𝟐

49

Présentations des données quantitatives

➢ Déterminer les limites de la classe

50

25
03/05/2023

Présentations des données quantitatives

❖ Variable quantitative continue

o Un histogramme est utilisé pour présenter les données quantitatives continues. Un histogramme est formé d’un
ensemble de rectangles dont la base est déterminée par les extrémités de la classe et dont la surface doit être
proportionnelle à l’effectif (ou à la fréquence) de la classe.

o Si les classes sont toutes de même amplitude, il suffit pour réaliser l’histogramme de porter en ordonnée les
effectifs ou les fréquences.

o Si elles ne le sont pas, on porte en abscisse les extrémités de la classe et en ordonnée les effectifs par unité
d’amplitude ni/ai, appelés densités d’effectif, ou les fréquences par unité d’amplitude fi/ai , nommées densités
de fréquence.

51

Présentations des données quantitatives

❖ Exemple avec amplitudes égales :

Pour une répartition des consommateurs d’un produit Y selon l’âge, il faut calculer l’amplitude de la classe, le centre, la fréquence en
pourcentage. Nous avons utilisé le même exercice avec des amplitudes égales et inégales, afin de présenter les données sous forme
de graphique dans le cas d’amplitudes inégales.

Répartition des consommateurs d’un produit X selon l’âge

52

26
03/05/2023

Présentations des données quantitatives

❖ Exemple avec amplitudes égales :

Pour une répartition des consommateurs d’un produit Y selon l’âge, il faut calculer l’amplitude de la classe, le centre, la fréquence en
pourcentage. Nous avons utilisé le même exercice avec des amplitudes égales et inégales, afin de présenter les données sous forme
de graphique dans le cas d’amplitudes inégales.

Répartition des consommateurs d’un produit X selon l’âge

Age Effectif Amplitude de la Centre de la Fréquence


classe ai classe xi en pourcentage
[ 15 ‐ 20 [ 130 5 17,5 19,49%
[ 20 ‐ 25 [ 343 5 22,5 51,42%
[ 25 ‐ 30 [ 107 5 27,5 16,04%
[ 30 ‐ 35 [ 33 5 32,5 4,95%
[ 35 ‐ 40 [ 54 5 37,5 8,10%
Total 667 -‐-‐-‐ -‐-‐-‐-‐ 100,0%

53

Présentations des données quantitatives

❖ Exemple avec amplitudes inégales :

Répartition des consommateurs d’un produit X selon l’âge

54

27
03/05/2023

Présentations des données quantitatives

❖ Exemple avec amplitudes inégales :

Répartition des consommateurs d’un produit X selon l’âge

55

Présentations des données quantitatives

Nous pouvons ajouter au dernier graphique, le polygone des fréquences qui peut être construit en joignant les
milieux de chaque sommet des rectangles. Dans le cas de ce graphique, les ordonnées sont des fréquences par
unité d’amplitude, et le polygone des fréquences passera par les centres des classes.

56

28
03/05/2023

Présentations des données quantitatives

Nous pouvons aussi dessiner la courbe cumulative ou la courbe des fréquences qui est la représentation graphique
des fréquences cumulées. Ces fréquences cumulées sont des fréquences cumulées ascendantes comme dans le
graphique ci-dessous :
Répartition des consommateurs d’un produit X selon l’âge

57

Présentations des données quantitatives

Nous pouvons aussi dessiner une ogive. Cette dernière est un graphique d’une distribution cumulée qui
représente sur l’axe horizontal, les valeurs des observations et sur l’axe vertical, les valeurs des effectifs cumulés
(fréquences absolues cumulées). L’ogive est construite en indiquant par un point précis la fréquence cumulée de
chaque classe, comme ci-dessous :

Répartition des consommateurs d’un produit X selon l’âge

58

29
03/05/2023

Présentations des données quantitatives

❖ Variable quantitative discrète

Nous analysons la répartition des consommateurs selon le nombre de fois d’achat en ligne. Il s’agit de calculer la fréquence en
pourcentage et la fréquence cumulée, ainsi que de présenter les données sous forme de diagramme en bâtons et sous forme de
diagramme cumulatif.

➢ Exemple :
Répartition des consommateurs selon le nombre de fois d’achat en ligne

59

Présentations des données quantitatives

❖ Variable quantitative discrète

Pour présenter les données sous forme de graphiques, nous utiliserons un diagramme en bâtons. Ce dernier
est appelé aussi un diagramme différentiel, puisqu’il représente les différentes modalités de la variable
discrète. C’est aussi un diagramme à barres, sauf que les barres sont plus fines

Répartition des consommateurs selon le nombre de fois d’achat en ligne

60

30
03/05/2023

Présentations des données quantitatives

❖ Variable quantitative discrète

Nous pouvons aussi utiliser un diagramme cumulatif qui est également appelé diagramme intégral au sens
de l’intégration mathématique. Il représente le graphique des fréquences cumulées comme dans le
graphique ci-dessous.

Répartition des consommateurs selon le nombre de fois d’achat en ligne

61

Présentations des données quantitatives

Répartition des employés d’une entreprise X selon leur niveau d’éducation

62

31
03/05/2023

Présentations des données quantitatives

Répartition des employés d’une entreprise X selon leur niveau d’éducation

63

Présentations des données quantitatives

Répartition des nouveaux étudiants inscrits par option du Baccalauréat en 2010,2011 et 2012

64

32
03/05/2023

Présentations des données quantitatives

Répartition des nouveaux étudiants inscrits par option du Baccalauréat en 2010,2011 et 2012

65

Présentations des données quantitatives

66

33
03/05/2023

Série d'exercices n°2

❑ Exercice 1

Une enquête menée auprès de 60 salariés d’une entreprise pour collecter les informations suivantes :

Situation familiale, Sexe, Nombre de personnes à charge, condition du travail, Salaire mensuel, Nombre de

jour d’absence, Age, Poids.

T.A.F :

1. Identifier la nature des caractères étudiés (quantitatif discret /continu) (qualitatif).

2. Donner deux modalités possibles pour chacun de ces caractères.

3. Quelle est la taille de l’échantillon ?

67

Série d'exercices n°2

❑ Exercice 2

On considère la répartition du nombre de pièces électroniques monté dans une usine par 24 employés.

4;1;1;3;2;1;4;3;4;2;2;3;

4;3;4;1;2;4;3;4;3;4;4;4

1. Déterminer la population, sa taille et l’individu statistique.

2. Déterminer le caractère et sa nature.

3. Dresser le tableau statistique.

68

34
03/05/2023

Chapitre 3 : Indicateurs statistiques

69

Indicateurs statistiques

o En statistique, les tableaux présentent l’information recueillie sur une variable et les graphiques fournissent
un portrait pour appréhender plus facilement la globalité de l’information.

o Pour caractériser la représentation visuelle par des éléments synthétiques, on peut utiliser des indicateurs.

o Décrire les caractéristiques d’une série statistique consiste à calculer des caractéristiques de tendance
centrale (de position ou de concentration), des caractéristiques de dispersion et à étudier sa concentration.

70

35
03/05/2023

Indicateurs statistiques

Caractéristiques de :

Position Dispersion

71

Les moyennes

❖ La moyenne arithmétique

• La moyenne arithmétique est un indicateur de tendance centrale qui concerne uniquement les variables
quantitatives.
• La moyenne d’une série statistique est définie par la somme des valeurs de xi divisée par l’effectif total.
• Sa formule est la suivante :

xi : désigne les valeurs du caractère, ni : les effectifs correspondants, fi : les fréquences correspondantes
et n : l’effectif total.
(1) Moyenne arithmétique simple et (2) Moyenne arithmétique pondérée. 72

36
03/05/2023

Les moyennes

❖ La moyenne géométrique

La moyenne géométrique d'une série statistique (d’une variable statistique) avec des valeurs positives
est la racine nième du produit des valeurs observées. Sa formule peut être écrite de plusieurs façons, en
utilisant le logarithme, en utilisant la notation Pi du produit (π), ou comme ci-dessous :

La moyenne géométrique est principalement utilisée pour calculer les coefficients multiplicateurs
moyens dont sont déduits les taux de variation. A titre d’exemples, les taux de variation annuels,
semestriels, mensuels…
Notons que la moyenne géométrique est applicable à des mesures de grandeurs dont la croissance est
géométrique ou exponentielle. Elle est toujours inférieure ou égale à la moyenne arithmétique.
73

Les moyennes

❖ La moyenne Harmonique

La moyenne harmonique d'une série statistique dont les valeurs sont positives est égale à l'inverse de la
moyenne arithmétique des inverses des valeurs. Sa formule est la suivante :

74

37
03/05/2023

Les moyennes

❖ La moyenne quadratique

La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés des valeurs. Sa formule
est la suivante :

75

Série d'exercices n°3

❑ Exercice 1

• Un quartier résidentiel comprend 50 unités d’habitation ayant une valeur locative moyenne
de 5 000 Dirhams.
• Deux nouvelles unités d’habitation sont construites dans le quartier : l’une a une valeur
locative de 6 000 Dirhams et l’autre, une villa luxueuse, a une valeur locative de 20 000
Dirhams.

Quelle est la nouvelle moyenne de valeur locative pour le quartier ?

76

38
03/05/2023

Série d'exercices n°3

❑ Exercice 2

On observe 100 fois le nombre d’arrivées (variable X) de clients à un bureau de poste


pendantun intervalle de temps (10 minutes) et on obtient les valeurs suivantes :

1. Dresser le tableau statistique de la distribution de la variable X (effectifs, …).


2. Calculer la moyenne.
3. Tracer le diagramme en bâtons.

77

Série d'exercices n°3

❑ Exercice 3

Un commerçant décide à la fin de la journée de calculer le montant moyen des chèques encaissés.

Calculer la Moyenne :
1. Arithmétique ;
2. Géométrique avec les Log ;
3. Quadratique ;
4. Harmonique;
78

39
03/05/2023

Série d'exercices n°3

❑ Exercice 4

On dispose de la série suivante présentant les CA réalisés (en DH) par une entreprise avec ses clients
pendant un mois d’activité :

TAF :
Calculer la Moyenne :
1. Arithmétique ;
2. Géométrique avec les Log ;
3. Quadratique ;
4. Harmonique.

79

Le mode

➢ On appelle mode ou valeur dominante toute valeur de la variable qui a un effectif ou une fréquence maximum.

Il peut y avoir un ou plusieurs modes.

➢ Le mode est la valeur de la variable la plus fréquemment observée. C’est la valeur pour laquelle l’effectif est le

plus élevé (ou la fréquence est la plus élevée).

➢ Le mode peut être aussi défini comme la valeur qui domine les autres et qui lui confère le statut d’indicateur

de tendance centrale.

➢ En d’autres termes, le mode est le xi correspondant au ni (ou fi) maximum.

80

40
03/05/2023

Le mode

❑ Dans le cas d’une variable discrète

➢ Si la variable est discrète, on détermine le mode directement et d’une manière immédiate en identifiant la
modalité de la variable qui correspond à l’effectif maximal (ou à la fréquence maximale).

➢ Graphiquement, le mode correspond au bâton le plus long (aux bâtons les plus longs dans le cas des séries
plurimodales).

81

Le mode

❑ Exercice d’application

Répartition d’un échantillon de 1000 ménages selon le nombre de pièces

1. Présenter le tableau des fréquences relatives, les effectifs cumulés croissants et décroissants.
2. Déterminer et interpréter : le mode et la moyenne arithmétique.

82

41
03/05/2023

Le mode

❑ Dans le cas d’une variable continue

o Puisque les données sont groupées en classes, on doit définir en premier lieu la classe modale.

o On parle dans ce cas de la classe modale qui correspond à la classe ayant l’effectif (fréquence)

maximum.

o Notons que nous pouvons avoir des classes avec des amplitudes égales ou inégales.

83

Le mode

Le mode se calcule par deux méthodes :

❖ Par la méthode graphique

Cette méthode consiste à estimer que le mode est déporté à l’intérieur de la classe modale en fonction des
effectifs(effectifs rectifiés) des classes encadrant la classe modale. Le mode est alors obtenu de façon indiquée sur le
graphique ci-dessous.

84

42
03/05/2023

Le mode

❑ Dans le cas d’une variable continue

➢ Dans le cas d’amplitudes égales :

La classe modale est celle qui correspond à la fréquence la plus élevée, ou l’effectif le plus élevé. Notons

qu’on retient comme valeur modale ou le mode, le centre de classe modale, dans un cas particulier : si

l’effectif de la classe précédente à la classe modale (𝐧𝐢−𝟏) est égal à l’effectif de la classe suivante à la

classe modale (𝐧𝐢+𝟏); sinon le mode doit être calculé selon la formule suivante :

85

Le mode

❑ Dans le cas d’une variable continue

➢ Dans le cas d’amplitudes égales :

𝐛𝐌𝐨 : la borne inférieure de la classe modale.


𝐚𝐌𝐨 : l’amplitude de la classe modale.
𝐧𝐢 : l’effectif de la classe modale.
𝐧𝐢+𝟏 : l’effectif de la classe suivante à la classe modale.
𝐧𝐢−𝟏 : l’effectif de la classe précédente à la classe modale.
86

43
03/05/2023

Le mode

❑ Dans le cas d’une variable continue

➢ Dans le cas d’amplitudes inégales :

• Si les classes sont d’amplitudes inégales, il faut corriger par rapport aux amplitudes, c’est-à-dire il faut
prendre en considération la densité d’effectif (ni/ai) ou la densité de fréquence (fi/ai).

• La détermination de la classe modale se ramène après au cas précédent. Le mode est calculé en
appliquant la formule ci-dessus en remplaçant ni par (ni/ai).

• Notons, que dans le cas particulier, où une classe est caractérisée à la fois par l’amplitude la plus petite
et l’effectif le plus élevé et elle a nécessairement la densité la plus forte. Dans ce cas, le calcul des
densités n’est pas nécessaire pour en déduire la classe modale.
87

Le mode

❑ Dans le cas d’une variable continue


a. Variables continues
▪ Par la méthode algébrique
On peut calculer le mode par la formule suivante, qui correspond à la traduction mathématique
de la méthode graphique.

88

88

44
03/05/2023

Le mode

❑ Dans le cas d’une variable continue

Exemple : Cas des amplitudes égales

Notes Effectifs

6‐8 3
8‐10 6
10‐12 4
12‐14 2
Déterminer la note la plus élevée

Déterminer la note la plus élevée

89

89

Série d'exercices n°4

❑ Exercice 1

Les montants des factures établies par l’entreprise SOCOTEX durant le mois de janvier sont comme suit :

- Déterminer et interpréter : le mode et la moyenne arithmétique.

90

45
03/05/2023

Série d'exercices n°4

❑ Exercice 2

Répartition d’un échantillon de 1000 ménages selon le nombre de pièces

1. Présenter le tableau des fréquences relatives, les effectifs cumulés croissants et décroissants.
2. Déterminer et interpréter : le mode et la moyenne arithmétique.

91

La médiane

❑ Définition

▪ La médiane d’une série statistique est la valeur de la variable qui partage l’effectif total en deux sous

ensembles d’effectifs égaux.

▪ La médiane c’est l’observation centrale : telle que la moitié des observations lui sont inférieures et la moitié lui

sont supérieures.

▪ La détermination de la médiane diffère, cependant, selon qu’il s’agisse d’une variable discrète ou d’une variable

continue.

92

46
03/05/2023

La médiane

❑ Définition

La médiane (Me) est un centre de position lorsque les données sont rangées par ordre croissant. Sa
détermination est réalisée de façon différenciée en fonction de la parité de la taille de l’échantillon (pair ou
impair).

Si n est impair, soit n = 2 p + 1 , alors (Me) = x(p+1)


Si n est pair, soit n = 2 p, alors (Me) = (x(p) + x (p+1))/2

93

La médiane

Notons que la médiane (Me) d’une série statistique est une valeur de la variable telle que 50% des individus
présentent une modalité inférieure à Me, et 50% une modalité supérieure à Me.
Ainsi, si F désigne la fonction des fréquences cumulées, la médiane d’une série statistique sera la plus petite
valeur x telle que F(x) ≥ 0,5. On peut ainsi déterminer graphiquement la médiane, dans la courbe de fréquence
cumulée (ou même dans la courbe d’effectif cumulé).

94

47
03/05/2023

La médiane

❖ Variable discrète

Par la méthode algébrique


Les étapes à suivre, pour la détermination de la médiane dans le cas d’une variable discrète sont:
1- Classement des observations selon l’ordre croissant
2- Détermination du rang de la médiane (k)
3- La médiane est la valeur de la variable associée au rang (k)
La détermination du rang diffère selon qu’il s’agisse d’un nombre pair ou d’un nombre impair d’observations.

95

95

La médiane

❖ Variable continue

Par la méthode algébrique

Pour obtenir une valeur plus précise de la médiane, on procède à une interpolation linéaire. Le calcul de la
médiane se fait en trois étapes :
σ 𝒏𝒊 σ 𝒇𝒊
1ère étape : on repère le rang de la médiane. 𝑹𝒂𝒏𝒈 = ou = (0,5)
𝟐 𝟐

2ème étape : on repère la classe de la Me. Il s’agit de trouver la classe à laquelle appartient le rang de la médiane,
ce qui revient à construire la colonne des effectifs cumulés.
Me ε[classe médiane], on peut calculer avec plus de précision (Me) en faisant une interpolation linéaire.

96

96

48
03/05/2023

La médiane

Quand nous sommes face à des variables continues, et les données sont par conséquent groupées en classes, on
doit définir en premier lieu la classe médiane. Cette dernière contient la médiane. La valeur de la médiane est
déduite par interpolation linéaire selon la formule suivante :

𝟓𝟎 − 𝑭𝒊−𝟏
𝑴𝒆 = 𝒃𝒊 + [𝒂𝒊 × ]
𝑭𝒊 − 𝑭𝒊−𝟏

ai : amplitude de la classe médiane.


bi : limite inférieure de la classe médiane.
Fi-1 : fréquence cumulée avant la classe médiane.
Fi : fréquence cumulée dans la classe médiane.

Notons que :
! Dans la formule de calcul de la médiane, on se base sur la fréquence cumulée et non pas sur la fréquence
relative.
! Contrairement au mode, dans le cas d’amplitudes inégales, on ne procède pas à la correction par amplitudes,
en utilisant la densité d’effectif ou la densité de fréquence.
97

Série d'exercices n°4

❑ Exercice 3

1. Déterminer, en justifiant, la médiane de la série statistique suivante :

1 4 6 7 7 8 12 13 13 19

2. Déterminer, en justifiant, la médiane de la série statistique suivante :

4 4 5 7 13 15 16 16 23

3. Voici les temps (en s) de la finale du 100m hommes des JO de 2020.

10,06 9,94 9,89 10,04 9,81 9,91 9,96 9,93

Déterminer le temps médian de cette course.

98

49
03/05/2023

Série d'exercices n°4

❑ Exercice 4

Si la variable est continue (regroupement par intervalle des résultats) le calcul de la médiane se fait autrement :
Notes Effectifs Effectifs cumulés
0-5 10 10
5-8 8 18
8-12 12 30
12-15 11 41
15-20 9 50
Total 50
Utilisons la colonne des effectifs cumulés pour déterminer la médiane : il y a 50 notes, 50 % de l'effectif total c'est
25, la médiane est ici la note correspondant à l'effectif cumulé 25.
D'après la colonne "effectif cumulé" :
- 18 personnes ont moins de 8
- 30 personnes ont moins de 12
99

TAF : Déterminer la médiane par interpolation linéaire.


99

La médiale

La médiale est la valeur du caractère qui partage en deux parties égales la masse totale du caractère. La médiale
partage la masse en deux parties égales, en laissant 50%à gauche et 50% à droite. La médiale est la plus petite
valeur du caractère dont la masse est inférieure ou égale à 50 %.

Une concentration non nulle conduit toujours à une valeur de la médiale différente de la valeur de la médiane
(Ml ≥ Me)
• Dans le cas discret; on détermine la médiale en se référant au nicc ou au ficc

• Dans le cas continu; on détermine la médiale par interpolation linéaire.

La médiale peut se déterminer graphiquement à l’aide du polygone des masses relatives cumulées croissantes.

100

50
03/05/2023

La médiale

❑ Cas discret

Exemple:

Pour calculer la médiale de cette série RgMl=111/2=55,5.

On cherche dans les nixicc où se trouve la valeur 55,5 qui est équivalent à 56ème observations.

Xi ni nixi nixicc
6 1 6 6
8 3 24 30

Ml=10 9 2 18 48
10 3 30 78
11 3 33 111
111

101

La médiale

Pour obtenir une valeur plus précise de la médiale, on procède à une interpolation linéaire.
Le calcul de la médiale se fait en 3 étapes :
∑ nixi ∑ fixi
1ère étape : On repère le rang de la médiale. 𝑅𝑎𝑛𝑔𝑀𝑙 = ou .
2 2
2ème étape : On repère la classe Médiale. Il s’agit de trouver la classe à laquelle appartient le rang
de la médiale, ce qui revient à construire la colonne de la masse cumulée. (On cherche le rang
de la médiale dans les fi𝑥icc ou les ni𝑥icc) .Ml ∈ [classe médiale], on peut calculer avec plus de
précision (Ml) en faisant une interpolation linéaire.
3ème étape : l’interpolation linéaire. De manière générale, si a et b sont les bornes de la classe
contenant la médiale, F(a) et F(b) les valeurs des fréquences cumulées croissantes en a et b (ou
des effectifs cumulés croissants), alors :
𝑅𝑔𝑀𝐿 —𝐹 𝑎
𝑀𝑙 = 𝑎 + 𝑏 —𝑎 ×
𝐹 𝑏 —𝐹 𝑎
FSJESS-RABAT

102

51
03/05/2023

La médiale

❑ Cas continu

Exemple
Le tableau suivant indique les réserves de pétrole, en milliards de barils,
dont disposent les pays producteurs :
Réserves de pétrole Nombre de pays

[0 ‐ 10[ 10
1-Calculez la médiale.
[10 ‐ 50[ 8
2-Que peut-on dire quant à la
[50 ‐ 100[ 3
Concentration des réserves de
[100 ‐ 275[ 4
pétrole?
Somme 25

FSJESS-RABAT

103

La médiale

1-Le calcul de la médiale se fait en 3 étapes :


1ère étape : On repère le rang de la médiale.
∑ nici 1265
Rang =
Rang

= n2i c i == 1265 = 632,5 Avec : cii est le centre de la classe, il se calcule
calcul enenrapportant
rapportantlala
2
somme des bornes de la classe sur 2
2ème étape
étape: :On
Onrepère
repèrelala classe
classe de Ml. Il s’agit de
de Ml. de trouver
trouver lala classe
classeààlaquelle
laquelleappartient
appartient le
le rang
rang
construire la
de la médiale, ce qui revient à construire la colonne
colonne dede lalamasse
massecumulée.
cumulée.(On
(On cherche
cherche le
le rang
rang
de la médiale dans les ni𝑐icc)
On remarque que que lala valeur
valeur du RangMl=
du Rang Ml= 632,5
632,5 est
est comprise
comprise entre
entre 515
515 etet 1265
1265 (dans
(dans les
les
nixicc), c’est qui nous permet de définir la classe médiale qui est : Ml ϵ [100-275[
3ème étape : l’interpolation linéaire . De manière générale, si a et b sont les bornes de la classe
contenant la médiale, F(a) et F(b) les valeurs de la masse cumulée croissante en a et b, alors :
𝑀𝑙 = 𝑎 + 𝑏 —𝑎 × 𝑅𝑔𝑀𝑙 —𝐹 𝑎
𝐹 𝑏 —𝐹 𝑎
FSJESS-RABAT

104

52
03/05/2023

La médiale

a = 100, b = 275 et F(a) = 515, F(b) = 1265 et RgMl = 632,5

632,5 —515
= 100
𝑀𝑙 =
𝑀𝑙 100 +
+ 275
275 —100 × 632,5 —515
—100 ×
1265 —515
𝑴𝒍 = 𝟏𝟐𝟕, 𝟒𝟐 𝑴𝒊𝒍𝒍𝒊𝒂𝒓𝒅𝒔 𝒅𝒆 𝒃𝒂𝒓𝒊𝒍𝒔
Les pays ayant une réserve inférieure ou égale à 𝟏𝟐𝟕, 𝟒𝟐 𝑴𝒊𝒍𝒍𝒊𝒂𝒓𝒅𝒔 𝒅𝒆 𝒃𝒂𝒓𝒊𝒍𝒔, se
partagent au moins 50% des réserves totales.
Réserves de pétrole Nombre de pays ci nici nicicc
0 - 10 10 5 50 50
10 - 50 8 30 240 290
50 - 100 3 75 225 515
100 - 275 4 187,5 750 1265
Total 25 1265

FSJESS-RABAT

105

Paramètres de dispersion

Les indicateurs de dispersion caractérisent numériquement la manière dont les observations s’écartent les unes des
autres. C’est des indicateurs qui montrent comment les observations s’écartent d’une valeur de référence ou d’un
indicateur de tendance centrale. Leur utilité se concrétise surtout lorsqu’on a deux distributions qui peuvent être
différentes tout en ayant des caractéristiques de tendance centrale proches.

Étendue
Écart absolu moyen
Écart relatif moyen
Caractéristiques de dispersion
Variance
Écart-type
Écart inter-quartiles, inter-déciles et inter-centiles

106

53
03/05/2023

L’étendue

L'étendue d'une série statistique (appelée aussi amplitude) est la différence entre sa valeur la plus haute et sa
valeur la plus basse. On dit d'un phénomène qu'il présente une « forte dynamique » lorsque l'étendue (ou la
dispersion) est grande.
Exemple : sur une semaine de janvier on relève les températures suivantes : -2 ; -4 ; -7 ; +2 ; +6 ; -5 ; +1.
L'étendue est donc : étendue = valeur la plus haute - valeur la plus basse = (+6)-(-7)= 13

L’étendue est la différence entre la plus grande valeur et la plus petite des valeurs observées.
Sa formule est la suivante : Etendue = X (max) - X (min)

107

L’écart absolu

• L'écart absolu moyen est la moyenne des écarts par rapport à la moyenne, toujours comptés positifs.
• Un écart 𝑒𝑖 représente la différence entre la valeur d’une observation 𝑥𝑖 et la moyenne arithmétique 𝑥̅.

L’écart absolu médian est la moyenne arithmétique des valeurs absolues des écarts à la médiane. Sa formule est
la suivante :

108

54
03/05/2023

La variance

• La variance est basée sur la différence entre chaque observation et la moyenne arithmétique (écart par
rapport à la moyenne).
• Elle est souvent utile comme une mesure pour comparer le degré de dispersion de plusieurs variables.
• Elle est la moyenne arithmétique des carrés des écarts à la moyenne arithmétique.

- Notons que les unités associées à la variance sont élevées au carré, ce qui rend difficile son interprétation.
- La variable qui a la plus grande variance a la plus grande dispersion, il n’est pas utile de chercher d’autres
interprétations pour cet indicateur de dispersion.
109

L’écart type

Pour obtenir un indicateur de dispersion absolue, l’écart type est calculé. L'écart type, est noté σ et il
correspond à la racine carrée de la variance, comme ci-dessous.

L'écart-type est la mesure de dispersion la plus couramment utilisée en statistique lorsqu'on emploie la
moyenne pour calculer une tendance centrale. Il mesure donc la dispersion autour de la moyenne.

Propriétés de l'écart-type

✓ On n'utilise l'écart-type que pour mesurer la dispersion autour de la moyenne d'un ensemble de données.
✓ L'écart-type n'est jamais négatif.
✓ Dans le cas des données ayant approximativement la même moyenne, plus la dispersion est grande, plus
l'écart-type est grand.

110

55
03/05/2023

Les quartiles

En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données triées en 4 parts
égales, de sorte que chaque partie représente 1/4 de l'échantillon de population.
• Le quartile inférieur est la valeur du milieu du premier ensemble, dans lequel 25 % des valeurs sont
inférieures à Q1 et 75 % lui sont sup
• érieures. Le premier quartile prend la notation Q1.
• Le quartile supérieur est la valeur du milieu du deuxième ensemble, dans lequel 75 % des valeurs sont
inférieures à Q3 et 25 % lui sont supérieures. Le troisième quartile prend donc la notation Q3.
• La médiane divise les données en deux ensembles égaux. Il convient de noter que la médiane prend la
notation Q2, c'est-à-dire le deuxième quartile.

111

Les quartiles

112

56
03/05/2023

Les quartiles

1. Variable discrète:

Les étapes à suivre, pour la détermination des quartiles (Q1 et Q3) dans le cas d’une variable discrète sont:
1-Classement des observations selon l’ordre croissant
2-Détermination du rang des quartiles
3-Les quartiles sont les valeurs des variables associées au rang (k).
• Si n/4 est un entier , le premier quartile Q 1 est le terme de rang n/4 et le
troisième quartile Q3 est le terme de rang 3n/4.
• Sin/4 n'est pas un entier, Q1 et Q3 sont respectivement les termes de rang immédiatement supérieur à
n/4 et 3n/4.

113

Les quartiles

Indicateurs de dispersion absolue


Exemple : Les barres de fer • On calcul
calculeQ1:
Q1:
1. Calculer et
Reprenant le interpréter
même exemplele premier et le
des barres RgQ1=N/4=10/4=2,5 , n’est pas entier, donc on cherche le rang de 3 dans
troisième
de fer quartile les nicc. La modalité équivalente à cette valeur c’est 107. Q1=107cm (où (ou
2. Déterminer
1- et interpréter
Calculer et interpréter l’intervalle
le premier et le bien Q1=x3).( Le ¼ des barres ont une mesure inférieure à 107cm)
interquartile
troisième quartile • On calcul
calculeQ3:
Q3:
interpréterdel’intervalle
3. Déduire un etindicateur
2-Déterminer dispersion RgQ3=3N/4=30/4=7,5 , n’est pas entier, donc on cherche le rang de 8
absolu. Interpréter le résultat.
interquartile dans les nicc. La modalité équivalente à cette valeur c’est 112. Q3=112cm.
3- Déduire un indicateur de dispersion (oùbienQ3=x
(ou bien Q3=x8 ). (75%
(75%des
desbarres
barresont
ont une
une mesure
mesure inférieure
inférieure àà112cm)
112cm)
absolu. Interpréter le résultat. • (Iq) ={107-112} xi ni nicc
xi ni 50% des barres ont des mesures comprises entre
106 1 1
106 1 112 et 107 cm
• On calcul Eiq: 107 2 3
107 2
Eiq= Q3-Q1 = 112-107=5cm 108 1 4
108 1
110 1 - Les barres situées au ¾ de la distribution 110 1 5
111 1 mesurent 5cm de plus que les barres situées 111 1 6
112 3 au ¼ de la distribution 112 3 9
114 1 114 1 10

FSJESS-RABAT

114

57
03/05/2023

Les quartiles

2. Variable continue:
Les étapes à suivre, pour la détermination des quartiles (Q1 et Q3) dans le cas
d’une variable continue, sont les mêmes que la médiane.
1- On détermine le rang (rangQ 1=N/4 (Σfi/4=1/4)(rangQ3 =3N/4
(Σfi/4=3/4)
2- On cherche où se trouve le rang dans les nicc ou les ficc
3- On détermine les quartiles par l’interpolation linéaire.

115

Les quartiles

Reprenant
Exemple : la série des notes de statistique •• On
On calcule
calcul Q1:
Q1:
1- Calculer et interpréter le premier et le RgQ11=1/4=0,25.
RgQ =1/4=0,25. On
On cherche où se
cherche où setrouve
trouve0,25
0,25dans
danslesles ficc
ficc . Donc
. Donc Q1ε[8-10]
Q1ε[8-10]
troisième quartile 𝟎,𝟐𝟓–𝑭(𝒂) 𝟎,𝟐𝟓–𝟎,𝟐
𝟎,𝟐𝟓–𝑭(𝒂) 𝟎,𝟐𝟓–𝟎,𝟐
2- Déterminer et interpréter l’intervalle
l’intervalle Q11=a+(b-a)×
Q =a+(b-a)×𝑭 𝒃 –𝑭(𝒂)=8+(10-8)
=8+(10-8) )×
)×𝟎,𝟔–𝟎,𝟐 =8,25.
=8,25.25%
25%des
desétudiants
étudiantsont
ontune
une
𝑭 𝒃 –𝑭(𝒂) 𝟎,𝟔–𝟎,𝟐
contenant 50% des observations note
note inférieure ou égal
inférieure ou égal àà 8,25
8,25et
et75%
75%ont
ontune
unenote
notesupérieure
supérieureà à8,25
8,25
3- Déduire un indicateur de dispersion •• On
On calcul
calculeQ3:
Q3:
absolu. Interpréter le résultat RgQ
RgQ33=3/4=0,75.
=3/4=0,75. Donc Q33ε[10-12]
Donc Q ε[10-12]
Notes 6‐8 8‐10 10‐12 12‐14 Q3=a+(b-a)×𝟎,𝟕𝟓–𝐅(𝐚)
–𝐅(𝐚)
𝟎,𝟕𝟓–𝟎,𝟔
=10+(12-10) )×𝟎,𝟕𝟓–𝟎,𝟔
𝟎,𝟖𝟕–𝟎,𝟔=11,2. 75% des étudiants
75% des étudiants ont une
𝐅 𝐛 –𝐅(𝐚)
inférieureou
note inférieure ou égal
égalàà 11,2
11,2etet25%
25% ont
ont une
une note
note supérieure
supérieure à 11,2
à 11,2
fi 0,2 0,4 0,27 0,13
• Iq=[8,25 - 11,2
11,2]]
50%des étudiants
50%des étudiantsontont
des notes concentrées
des notes entre 8,25entre
concentrées et 11,2. Eiq=11,2-
8,25 et 11,2.
xi 6‐8 8‐10 10‐12 12‐14
8,25= 2,95
Eiq=11,2-8,25= 2,95
fi 0,2 0,4 0,27 0,13 1
-Les étudiants situés
situés au
au¾¾dedelaladistribution
distributionont
ont2,95 points
2,95 dede
points plus queque
plus les les
ficc 0,2 0,6 0,87 1 étudiants situés au ¼ dede la
la distribution
distribution

FSJESS-RABAT

116

58
03/05/2023

Écart interquartile (EIQ)

L'écart interquartile est une autre étendue utilisée comme mesure de la dispersion. La différence entre les
quartiles supérieur et inférieur (Q3 - Q1), qu'on appelle l'écart interquartile, indique aussi la dispersion d'un
ensemble de données. L'écart interquartile couvre 50 % d'un ensemble de données et élimine l'influence des
valeurs aberrantes, parce qu'on soustrait, en effet, le quartile le plus élevé et le quartile le plus faible.

Écart interquartile = Quartile supérieur (Q3) - Quartile inférieur (Q1)

EIQ = Q3 -Q1

L’intervalle interquartile est l’intervalle [Q1 - Q3], et il contient 50% des observations. Notons qu’on utilise
parfois l'écart semi-interquartile (Q3 -Q1)/2.
117

Boîte de dispersion

En obtenant les quartiles Q1, Q2, Q3 et en y ajoutant le minimum et le maximum des observations, nous
obtenons un résumé en 5 chiffres. Ces 5 chiffres (Q1, Q2, Q3, Min, Max) seront utiles pour illustrer la
Boîte-à-pattes (Box plots). Elle est aussi appelée Boîte de Tukey

118

59
03/05/2023

Boîte de dispersion

Comment construire la Boîte-à-pattes ?

1. Il faut dessiner la boîte telle que les limites sont Q1 et Q3.


2. Dessiner une ligne verticale avec la valeur Q2.

3. Fixer les limites : la limite inférieure est égale c (Q1 - 1,5× (Q3- Q1)) et la limite supérieure est égale à (Q3 +
1,5×(Q3- Q1)).
4. Tracer les pointillées qui sont les pattes et qui correspondent à deux lignes horizontales. Celle de la droite
arrive jusqu’à la plus grande valeur qui se situe directement avant la limite supérieure, et celle de la gauche
arrive jusqu’à la plus petite valeur qui se situe directement après la limite inférieure. Une valeur qui dépasse
les limites peut être unevaleur aberrante (illustrée par l’étoile).

A partir de la Boîte-à-pattes nous pouvons noter l’écart (Q3- Q1) et l’écart (Max-Min), le rapport ((Q3- Q1)/ Q2)
…qui sont des indicateurs de dispersion que nous allons introduire dans cette partie.

119

Boîte de dispersion

Exemple :
Soit une variable statistique X dont le maximum est 55, le minimum 20, la médiane 38, le premier quartile 32,5
et le troisième quartile 45, on construit alors le diagramme en boîte suivant :

120

60
03/05/2023

Les déciles

De la même manière, et dans le but de préciser et d'affiner encore l'analyse de la dispersion d'une distribution,
on peut faire appel aux notions de déciles et de centiles. Le principe demeure le même que pour les quartiles à
la différence que la population est ici divisée respectivement en 10 et 100 sous-populations d'égal effectifs.

Décile 1 ou D1 10 % des effectifs de la population ont une valeur inférieure à D1 et 90 % une valeur supérieure.

Décile 2 ou D2 20 % des effectifs de la population ont une valeur inférieure à D2 et 80 % une valeur supérieure.

Décile 3 ou D3 30 % des effectifs de la population ont une valeur inférieure à D3 et 70 % une valeur supérieure.
Décile 4 ou D4 40 % des effectifs de la population ont une valeur inférieure à D4 et 60 % une valeur supérieure.
Décile 5 ou D5 50 % des effectifs de la population ont une valeur inférieure à Q1 et 50 % une valeur supérieure.
D5 correspond à la médiane.
Décile 6 ou D6 60 % des effectifs de la population ont une valeur inférieure à D6 et 40 % une valeur supérieure.
Décile 7 ou D7 70 % des effectifs de la population ont une valeur inférieure à D7 et 30 % une valeur supérieure.
Décile 8 ou D8 80 % des effectifs de la population ont une valeur inférieure à D8 et 20 % une valeur supérieure.
Décile 9 ou D9 90 % des effectifs de la population ont une valeur inférieure à D9 et 10 % une valeur supérieure.
121

Intervalles inter-déciles
er-décile

On peut définir plusieurs écarts interdécile qui correspondent à différents intervalles interdéciles.

• L'intervalle interdécile [D1-D9] contient 80% des observations qui sont au centre de la distribution en laissant 10% des

observations à droite et 10 % à gauche. (Écart interdécile (Eid)= D9 - D1)

• L'intervalle interdécile [D2-D8] contient 60% des observations qui sont au centre de la distribution en laissant 20%

des observations à droite et 20 % à gauche. (Eid = D8 – D2)

• L'intervalle interdécile [D3-D7] contient 40% des observations qui sont au centre de la distribution en laissant 30%

des observations à droite et 30 % à gauche. (Eid = D7 – D3)

• L'intervalle interdécile [D4-D6] contient 20% des observations qui sont au centre de la distribution en laissant 40%

des observations à droite et 40 % à gauche. (Eid = D6 – D4)


122

61
03/05/2023

Indicateurs de dispersion relative

Coefficient de variation
Le coefficient de variation (CV) mesure l’écart type relatif à la moyenne. C’est un indicateur utile pour comparer la
dispersion des variables qui ont des écarts et des moyennes différentes. Il est souvent calculé en pourcentage et sa
formule est la suivante :

Le coefficient de variation permet de comparer les dispersions de distribution qui ne sont pas exprimées dans la
même unité. Notons que plus le coefficient de variation est élevé, plus la distribution autour de la moyenne élevée.

123

Indicateurs de dispersion relative

On peut construire d’autres coefficients de ce type en utilisant les quartiles et les déciles, ou l’écart absolu moyen.
Ces indicateurs et les formules de calcul sont résumés ci-dessous.

Coefficient interquartile relatif :

Ecart relatif moyen :

Ecart relatif moyen :

Nous pouvons remarquer que ces quatre indicateurs sont sous forme d’un ratio qu’on peut noter comme suit :
indicateur de dispersion/indicateur de tendance centrale.
124

62
03/05/2023

Exercice

Exercice: [Link]
1. D1 etet [Link]
Calculer D1 [Link] signifient ces données?
est la signification deÀces
Le
Le tableau
tableau suivant représente
représente la quoi peuvent
données ellespeuvent
? À quoi servir? elles servir?
répartition d’âge . d’âge .
la répartition 2.Déterminer
2. l'intervalle qui
Déterminer l'intervalle qui contient
contient 40
40 %
% des
Âges Individus des observations.
observations. Interpréter le ré[Link]éter le
0‐10 22 résultat.
3.Déterminer l’âge dans la mesure où 80% des individus
10‐20 16 ont moins de cetl’âge
3. Déterminer â[Link] que 80%
Interpréter des individus ont
le résultat.
20‐30 11 moins de cet âge. Interpréter le résultat.
4.Déterminer l’âge de 80% des individus qui ont
30‐40 7 l’âge le plus élevé. Interpréter le résultat.
40‐50 1
[Link] la variance et l’écart type. Interpréter le
50‐60 3
résultat.
60‐70 1
6. Déduire le coefficient de variation. Que peut-on
dire quant à la dispersion des âges dans cette série?

125

Indicateurs de concentration

• Les indicateurs de concentration sont des indicateurs qui mesurent le degré d’inégalité dans la répartition de la
somme des observations.

• Une condition est nécessaire pour calculer ces indicateurs, est telle que la somme des observations doit avoir un
sens et les données bien évidemment doivent être quantitatives.

• La concentration concerne l’intensité du groupement des données. Elle ne s’applique qu’à des variables
continues à valeurs positives et pour des ensembles statistiques dont chaque élément est affecté d’un caractère
susceptible d’addition.

• La concentration peut se caractériser, soit par un procédé graphique (courbe de Lorenz) soit par le calcul (Indice
de Gini). On peut souligner que la concentration n’est pas l’inverse de la dispersion.

126

63
03/05/2023

Indicateurs de concentration

❖ Courbe de Lorenz

• L’idée de base du graphique de Lorenz est de représenter la plus ou moins grande dispersion (plus ou moins
grande concentration) d’une masse (de richesses, de revenus, de surfaces, etc.) au sein d’une population par un
graphique inscrit dans un carré : l’axe des abscisses et celui des ordonnées varient de 0 à 100.

• La courbe de concentration est réalisée à partir des calculs précédents. On la dessine en utilisant des effectifs
cumulés croissants (nicc) (ou ficc) et les masses relatives cumulées croissantes (nixicc) (ou fixicc).

• Les fréquences ou les effectifs cumulés croissants sont portées en abscisses. Sur l’axe des abscisses, on mesure la
progression de la somme cumulée (nicc%), exprimée en pourcentage, des unités statistiques de la population
(rangées par ordre croissant des valeurs de la masse à répartir).

127

Indicateurs de concentration

❖ Courbe de Lorenz

• Sur l’axe des ordonnées, on mesure la progression de la somme cumulée de la masse (nixicc%), exprimée en
pourcentage de la masse totale, que les unités statistiques de la population considérée se partagent

• La courbe de Lorenz est inscrite dans le carré de côté 100, quand les effectifs (ou fréquences) sont exprimés en
pourcentage. Plus la courbe de Lorenz est éloignée de la diagonale, qui représente la distribution théorique d’égale
répartition, plus la concentration est forte.

• La surface de concentration est comprise entre la courbe de Lorenz et la diagonale. Plus cette surface est grande,
plus la concentration est forte.

• On peut aussi ne pas assister à une concentration (concentration=0), on parle d’une parfaite égalité et donc on
conclut que la répartition est parfaitement égalitaire si la courbe de Lorenz est confondue avec la droite de parfaite
égalité.

128

64
03/05/2023

Indicateurs de concentration

❖ Courbe de Lorenz

129

Indicateurs de concentration

❖ Courbe de Lorenz

130

65
03/05/2023

Indicateurs de concentration

❖ Courbe de Lorenz

Exemple
Reprenant l’exemple des réserves de pétrole.
Exemple
Reprenant l’exemple
Tracer la courbe précédant
de Lorenz . Tracerle résultat.
et commenter la courbe de Lorenz et
commenter le résultat.
Réserves de pétrole Nombre de pays
0 – 10 10
10 – 50 8
50 – 100 3
100 ‐ 275 4

131

Indicateurs de concentration

❖ Courbe de Lorenz

Pour tracer la courbe de Lorenz, on doit obligatoirement calculer :


nicc% = nicc
*100 on doit aussi calculer nicicc%= nicicc ∗ 100
∑ ni ∑ nici

100,00%

ni ci nici nicicc nicc nicc% nicicc% 90,00%

80,00%
50
10 5 50 10 40% 4% 70,00%

290 60,00%
8 30 240 18 72% 23%
50,00%

515 40,00%
3 75 225 21 84% 41%
30,00%

1265 20,00%
4 187,5 750 25 100% 100%
10,00%

0,00%
25 1265 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% 90,00% 100,00%

132

66
03/05/2023

Indicateurs de concentration

❖ Courbe de Lorenz

Interprétation des résultats : la courbe de Lorenz tracée s’éloigne de la droite de parfaite égalité (droite
en rouge), ce qui indique une forte concentration des réserves de pétrole.

Donc l’intensité de la concentration est confirmée par les deux indices: L’écart médian et la courbe de
Lorenz.

133

Indicateurs de concentration

❖ Indice de Gini (IG)

• l’indice de Gini (IG) est un indicateur synthétique d’inégalités des salaires, de revenu, de niveau de vie…

• L’inégalité est d’autant plus forte que l’indice de Gini est élevé.

• L’IG oscille entre 0 et 1. il est égal à 0 dans une situation idéale d’égalité parfaite de répartition des revenus (par
exemple), égal à 1 dans la situation la plus inégalitaire possible, celle où tous les salaires sauf un sans nuls. Une baisse de
l’indice de Gini observé entre deux date indique une diminution globale des inégalités. En revanche une élévation de
l’indice reflète une augmentation globale des inégalités.

• La détermination de l’indice de Gini est faite en rapportant la surface de concentration à la surface totale.

134

67
03/05/2023

Indicateurs de concentration

❖ Indice de Gini (IG)

• La surface de concentration est le domaine compris entre la diagonale [OB] du


carré de concentration et la courbe de concentration.
• L’aire de la surface de concentration est égale à l’aire du triangle OAB diminuée de
l’aire du domaine situé sous la surface de concentration.
• Le triangle OAB est formé des points de coordonnées O(0 ; 0), A(100 ; 100) et
B(100 ; 0) . Avec les ficc (nicc%) et les qicc (nixicc% ou fixicc%) exprimées en
pourcentages, l’aire du triangle OAB est de (100 × 100)/ 2.
• L’indice de Gini est le rapport de l’aire de la surface de concentration à l’aire de la
surface du triangle rectangle OAB.
𝐚𝐢𝐫𝐞 𝐥𝐞 𝐥𝐚 𝐬𝐮𝐫𝐟𝐚𝐜𝐞 𝐝𝐞 𝐜𝐨𝐧𝐜𝐞𝐧𝐭𝐫𝐚𝐭𝐢𝐨𝐧
Il est noté I G =
𝐚𝐢𝐫𝐞 𝐝𝐮 𝐭𝐫𝐢𝐚𝐧𝐠𝐥𝐞 𝐎𝐀𝐁

135

Indicateurs de concentration

❖ Indice de Gini (IG)

L’indice de Gini (IG) est un nombre sans dimension, compris entre 0 et 1, que l’on exprime parfois en pourcentage.

• SiIG est proche de 0, la concentration est faible, la courbe de Lorentz est proche de la diagonale ;

• SiIG est égale à 0; la concentration nulle, ce qui correspond à la distribution égalitaire ;

• Si IG est proche de 1, une forte concentration, la courbe de Lorentz est proche des côtés OA et AB; si la
concentration est proche de 1, cela signifie qu’une très faible fraction de modalités se partage la quasi-totalité de la
masse totale

• Si IG est égale à 1, la répartition est parfaitement inégalitaire

136

68
03/05/2023

Indicateurs de concentration

❖ Indice de Gini (IG)

L’indice de Gini IG mesure la concentration, plus il est grand, plus la concentration est importante. Il existe
plusieurs formules pour calculer cet indice, on peut proposer de l’évaluer selon la formule suivante :

Les xi désignent les valeurs prises par la variable sur la part cumulée de la population étudiée, et yi désignent les
valeurs prises par la variable sur la part cumulée de la masse à répartir.
Une autre formule plus simple :

Les fi désignent les fréquences relatives de la variable et les F'i désignent les fréquences relatives cumulées de la
masse de la variable.
137

Indicateurs de concentration

❖ Indice de Gini (IG)

Calcul de IG:
𝒉𝒂𝒖𝒕𝒆𝒖𝒓×𝒃𝒂𝒔𝒆 𝟏𝟎𝟎×𝟏𝟎𝟎
Aire du
Aire du triangle
triangle OAB
OAB =
= 𝒉𝒂𝒖𝒕𝒆𝒖𝒓×𝒃𝒂𝒔𝒆 =
= 𝟏𝟎𝟎×𝟏𝟎𝟎
== 5000
5000
𝟐 𝟐
Si on note :S1 : aire de concentration ; et S2 : aire en dessous de l’aire de
concentration
On peut donc écrire aire du triangle OAB = S1+ S2 =5000
Si on remplace S1 par sa valeur, on trouve S1=5000-S2
On peut automatiquement réécrire la formule de l’indice de Gini

𝐚𝐢𝐫𝐞 𝒅𝐞 𝐥𝐚 𝐬𝐮𝐫𝐟𝐚𝐜𝐞 𝐝𝐞 𝐜𝐨𝐧𝐜𝐞𝐧𝐭𝐫𝐚𝐭𝐢𝐨𝐧 𝟓𝟎𝟎𝟎–𝐒𝟐


IIG =
=
𝐚𝐢𝐫𝐞 𝐝𝐮 𝐭𝐫𝐢𝐚𝐧𝐠𝐥𝐞
𝐭𝐫𝐢𝐚𝐧𝐠𝐥𝐞 𝐎𝐀𝐁
=
= 𝟓𝟎𝟎𝟎

Si on calcule l’aire de S2, l’indice de Gini sera automatiquement calculé.

138

69
03/05/2023

Indicateurs de concentration

❖ Indice de Gini (IG)

Calcul de la surface S2
S2 est composée d’un triangle et d’une suite de trapèze. S2 est donc la somme du triangle
et des trapèzes.
Nous rappelons qu’on obtient l’aire d’un trapèze en appliquant la formule suivante :
L’aire du trapèze = hauteur × (grande base + petite base) / 2.
Hauteur du trapèze c’est la différence des nicc%
Pour le premier trapèze : la hauteur = nicc2 %- nicc1 %
Pour le deuxième trapèze : la hauteur = nicc3 % - nicc2 %, de même pour le calcul de la
hauteur pour les autres trapèzes.
La petite base et la grande base du trapèze c’est la somme des nixicc%
𝒉𝒂𝒖𝒕𝒆𝒖𝒓 × 𝒃𝒂𝒔𝒆 𝒏𝒊𝒙𝒊𝒄𝒄% × 𝒏𝒊𝒄𝒄%
L’aire du premier triangle = =
𝟐 𝟐

139

Indicateurs de concentration

❖ Indice de Gini (IG)


Reprenant l’exemple précédant pour calculer l’indice de Gini
Nombre nixicc
S2= l’aire du triangle + l’aire des trapèzes(Tz) de pays xi nixi nixicc nicc nicc% %
𝟒𝟎∗𝟒
L’aire du
L’aire triangle=𝟒𝟎∗𝟒
du triangle= = 80
= 80
𝟐𝟐 10 5 50 50 10 40% 4%
(𝟕𝟐–𝟒𝟎)∗(𝟐𝟑+𝟒)
(𝟕𝟐–𝟒𝟎)∗(𝟐𝟑+𝟒)
Tz1 = = 432
𝟐 8 30 240 290 18 72% 23%
(𝟖𝟒–𝟕𝟐)∗(𝟒𝟏+𝟐𝟑)
(𝟖𝟒–𝟕𝟐)∗(𝟒𝟏+𝟐𝟑)
Tz2 = = 384
𝟐 3 75 225 515 21 84% 41%
(𝟏𝟎𝟎–𝟖𝟒)∗(𝟏𝟎𝟎+𝟒𝟏)
(𝟏𝟎𝟎–𝟖𝟒)∗(𝟏𝟎𝟎+𝟒𝟏)
Tz3 = = 1128 4 187,5 750 1265 25 100% 100%
𝟐
S2 = 80+ 432+ 384+ 1128 = 2024
25 1265
𝟓𝟎𝟎𝟎–𝐒𝟐
𝟓𝟎𝟎𝟎–𝐒𝟐 𝟓𝟎𝟎𝟎–2024
𝟓𝟎𝟎𝟎–2024
IG = 𝟓𝟎𝟎𝟎 == 𝟓𝟎𝟎𝟎
=0,5952
= 0,5952
𝟓𝟎𝟎𝟎 𝟓𝟎𝟎𝟎
L’indicede
L’indice deGini
Giniest
estproche
prochede
de11cecequi
quiindique ’existenceune
indiquel l’existence uneforte
forteconcentration
concentrationdes
des
réservesde
réserves depétrole.
pétrole.

140

70
03/05/2023

Série d’exercices n° 5

❖ Exercice 1

Nous disposons des données suivantes sur les salaires perçus par les employés d’une PME.

TA F :
1. Tracer et commenter la courbe de Lorenz.
2. Calculer et interpréter l’indice de Gini.

141

Série d’exercices n° 5

❖ Exercice 2
La réparation des clients de la société ALPHA en fonction de leur salaire a donné les résultats suivants :

T.A.F :
Déterminer et interpréter les indicateurs de dispersion suivants :
1. L’étendu
2. L’écart absolu moyen
3. L’écart type
4. Le coefficient de variation
142

71
03/05/2023

Série d’exercices n° 5

❖ Exercice 3

Dans une entreprise de 100 personnes, on a relevé les salaires suivants :

Salaires 1000-1200 1200-1500 1500-2000 2000-3000 3000-5000 5000-10000


Nombre de salariés 50 20 10 8 7 5

TA F :
1. Tracer et commenter la courbe de Lorenz.
2. Calculer et interpréter l’indice de Gini.

143

Série d’exercices n° 5

❖ Exercice 4

Le tableau suivant donne la répartition de 80 entreprises selon leur taille.

Nombre de Nombre 1- Sachant que le nombre de salariés moyen est de 47,5 calculez la limite
salariés d’entreprises fi ficc
supérieure de la dernière classe et trouvez les valeurs manquantes.
10 ‐ 20
2- Déterminez le mode et la médiane. Interprétez vos résultats.
8 0,1 …
3- Déterminez l’intervalle contenant 50% des observations. Déterminez
20 ‐ 30
… … 0,225 l’amplitude de cet intervalle. Interprétez vos résultats.

30 – 50 4- Calculez l’écart type de cette série et interprétez les résultats.


12 … 0,375 5- Calculez l’écart médian. Et déduisez un indicateur de concentration.
50 ‐ 60 Interprétez les résultats.
30 0,375 …
6- Pour bien étudier la concentration dans cette série. Tracez la courbe de
60 et plus
… 0,25 … Lorenz et calculez l’indice de Gini.

144

72
03/05/2023

Chapitre 4 : Séries bi-variées

145

Statistique descriptive bi-variée

Très souvent dans la pratique, on constate qu'il existe des relations entre deux ou plusieurs variables. Quatre
notions peuvent caractériser la relation entre deux variables statistiques :

1- Sens de la relation : la notion de covariance permet d'étudier le sens de la relation ;

2- Nature de la relation : le diagramme de dispersion permet de caractériser la nature de la relation ;

3- Intensité de la relation : la notion de corrélation permet de mesurer l'intensité de la relation ;

4- Ajustement d'un modèle : la notion de régression permet d'ajuster un modèle mathématique en


fonction de la nature de la relation.

146

73
03/05/2023

Statistique descriptive bi-variée

On peut avoir 3 cas lors d’un croisement de deux variables statistiques :

• Le cas de croisement de deux variables qualitatives.

• Le cas de croisement d’une variable quantitative et d’une variable qualitative.

• Le cas de croisement de deux variables quantitatives. Ce dernier fera l’objet de l’analyse de

régression linéaire simple qui sera introduite par la suite.

147

Statistique descriptive bi-variée

❖ Présentation des données

La présentation d’une série bivariée peut être sous forme d’un tableau de contingence, qui peut être
défini comme :
• Un tableau à double entrée ou à deux dimensions.

• Un tableau avec deux variables X et Y, tel que les m modalités de X sont désignées par X1, X2,…Xi…Xm
et les n modalités de Y sont désignées par Y1, Y2,…. Yj,…Yn.

• Un tableau avec m lignes et n colonnes comme illustré dans le tableau ci-dessous, tel que m et n
sont les nombres de modalités de la variable X et de la variable Y respectivement.

148

74
03/05/2023

Statistique descriptive bi-variée

❖ Présentation des données

Tableau de contingence

149

Statistique descriptive bi-variée

❖ Distribution marginale
Dans un tableau de contingence, si on calcule le total des colonnes, on obtient les effectifs n.1, n.2,…, n.j…, n.n qui
constituent la distribution marginale d’Y. De même, si on calcule le total des lignes, on obtient n1., n2.,…, ni.,…, nm
et qui constituent la distribution marginale de X. Les deux distributions sont illustrées dans le tableau ci-dessous :

150

75
03/05/2023

Statistique descriptive bi-variée

❖ Distribution marginale

Tel que :
• ni. est le nombre d’observations de la modalité Xi de X quelle que soit la modalité de Y.
• n.j est le nombre d’observations de la modalité Yj d’Y quelle que soit la modalité de X.
• n.. est le nombre total d’observations quelle que soit les modalités de X et d’Y, il est parfois noté n ++.
On note ainsi les formules de calcul de ni. , n.j et n.. qui sont explicitées ci-dessous :

151

Statistique descriptive bi-variée

❖ Distribution marginale

Ces deux distributions sont illustrées respectivement dans les deux tableaux ci-dessous :

Distribution marginale d’Y Distribution marginale de X

152

76
03/05/2023

Statistique descriptive bi-variée

❖ Distribution conditionnelle
Dans un tableau de contingence, si on fixe Xi et on garde toutes les modalités d’Y, on obtient une distribution
conditionnelle, qui est la distribution de la variable Y, tel que la modalité de la variable X est égale à Xi.
De même, si on fixe Yj et on garde toutes les modalités de X, on obtient une distribution conditionnelle, qui est la
distribution de la variable X, tel que la modalité de la variable Y est égale à Yj.
Nous illustrons ces deux distributions respectivement dans les deux tableaux ci-dessous :
• La distribution de la variable Y, tel que la modalité de la variable X est égale à X!

153

Statistique descriptive bi-variée

❖ Distribution conditionnelle
• La distribution de la variable X, tel que la modalité de la variable Y est égale à Y!.

On peut souligner que dans un tableau de contingence, au lieu des effectifs nous pouvons avoir des fréquences.
Nous définirons ainsi les fréquences marginales, les fréquences conditionnelles et les fréquences conjointes.

154

77
03/05/2023

Statistique descriptive bi-variée

❖ Fréquence conjointe

Soit, une distribution conjointe {(xi, yj, nij , i=1…m, j=1…n)}, pour i fixé entre 1 et m et j fixé entre 1 et n, la fréquence
conjointe est égale à : fij = nij / n..

❖ Fréquence marginale

Pour i fixé entre 1 et m, la fréquence marginale colonne est égale à (fi. = ni. / n..). Si on calcule pour toutes les
colonnes les fréquences nij/n.j tel que j=1…n ; on obtient les profils colonnes des individus statistiques.
Pour j fixé entre 1 et n, la fréquence marginale ligne est égale à (f.j = n.j / n..). Si on calcule pour toutes les lignes
les fréquences nij/ni. tel que i=1…m ; on obtient les profils lignes des individus statistiques.

155

Statistique descriptive bi-variée

❖ Fréquence conditionnelle

• Pour k fixé entre 1 et m et l fixé entre 1 et n, la fréquence conditionnelle ligne est égale à

(fj=l/i=k = nkl / nk.). Etablir les profils lignes consiste de ce fait à calculer toutes ces fréquences.

• Pour k fixé entre 1 et m et l fixée entre 1 et n, la fréquence conditionnelle colonne est égale

à (fi=k/j=l = nkl / n.l). Etablir les profils colonnes consiste à calculer toutes ces fréquences.

156

78
03/05/2023

Statistique descriptive bi-variée

❖ Covariance

• On définit la covariance de deux variables statistiques par la moyenne arithmétique des produits des
différences des observations par rapport à leur moyenne :
• Dans le cas d'une série statistique double
x1, x2, x3, ……xi, ......, xn
y1, y2, y3, ……yi, ......, yn

La relation entre deux variables statistiques est croissante ou décroissante, c'est à dire selon que les
valeurs élevées d'une série correspondent aux valeurs élevées de l'autre ou l'inverse, selon que la
covariance est positive ou négative.
NB: On peut aussi ne pas trouver de liaison entre deux variable la covariance dans ce cas
peut être nulle

157

Statistique descriptive bi-variée

❖ Covariance

Formules développées de la covariance :

158

79
03/05/2023

Statistique descriptive bi-variée

❖ Covariance
Les données suivantes représentent les
les notes
notes de
de statistique
statistique (Yi)
(Yi)etetde
demathématique
mathématique(Xi)
(Xi)obtenues
obtenuespar
par99étudiants
étudiantslors
lors
d’une évaluation. Calculer la covariance. Que peut on dire de la relation entre les notes de statistique et de
mathématique?

¯¯ = ∑
∑KK i 108 108
𝑿
𝑿 = i =
= 9 = 12
n
Somme ∑
¯¯=
𝒀 ∑FF ii = 111
111
X 12 15 10 13 11 7 16 13 11 108 𝒀 = = 9 = 12,33
n
Y 11 16 12 12 10 9 15 14 12 111 ∑𝑿
∑ 𝑿 𝒊𝒀
𝒀𝒊
𝒊 𝒊
1375
1375
= == 152,77
XiYi 132 240 120 156 110 63 240 182 132 1375 𝒏 9
Cov(x,y) = 152,77 – (12 * 12,33) = 4,77
La covariance est positive, la relation entre les notes de statistique et les notes de mathématique est croissante (les
deux variables varient dans le même sens), un étudiant qui a une bonne note en statistique à, en moyenne, une bonne
note en mathématique. De même un étudiant qui a une mauvaise note en statistique a, en moyenne, une mauvaise
note en mathématique.

159

Statistique descriptive bi-variée

❖ Diagramme de dispersion

Le diagramme de dispersion d'une variable Y en fonction d'une autre variable X

est formé des points moyens conditionnels (xi , yi), et donne une idée de la façon dont

varie, en moyenne, la variable Y en fonction de la variable X. De façon analogue, on

définit le diagramme de régression de X en fonction de Y.

160

80
03/05/2023

Statistique descriptive bi-variée

❖ Diagramme de dispersion
Application
Reprenant le même exemple des notes. Tracer les nuages de points des notes de statistique en fonction des
notes de mathématique. Interpréter le résultat.

18
16
Le diagramme
Le diagramme de
de dispersion
dispersion confirme
confirme le le résultat
résultat de
de la
la covariance.
covariance.
qu’il existe
14
le nuage
nuage de
de points
points montre
montre qu’il existe une
une relation
relation
Notes de statistique

12 le
10
8
croissante entre
croissante entre les
les notes
notes de
de mathématique
mathématique et
et les
les notes
notes de
de
6
4
statistique. Le nuage de point obtenu ressemble à une droite,
statistique. Le nuage de point obtenu ressemble à une droite,
2
0 on peut
on peut dire
dire que
que la
la relation
relation est
est linéaire.
linéaire.
0 5 10 15 20
Notes de mathématique

161

Statistique descriptive bi-variée

❖ Notion de corrélation

Le diagramme de dispersion permet d'approcher la nature de la relation entre deux variables statistiques. La
notion de corrélation mesure l'écart entre le nuage de points et la relation considérée. Lorsque cet écart est
nul on parle de corrélation parfaite.

Coefficient de corrélation linéaire

Le coefficient de corrélation linéaire, désigné par r, a pour objet de mesurer l'intensité de la liaison linéaire entre
deux variables statistiques X et Y.

162

81
03/05/2023

Statistique descriptive bi-variée

❖ Notion de corrélation

Cette définition montre que le coefficient de corrélation possède le même signe que la covariance et qu'il est
toujours compris entre -1 et 1.

• Le signe du coefficient de corrélation linéaire indique le sens de la relation entre X et Y.


r = 1 : Dans ce cas les points se trouvent tous sur une même droite croissante, on parle de corrélation linéaire positive
parfaite.
r = -1 : Dans ce cas les points se trouvent tous sur une même droite décroissante, on parle de corrélation linéaire
négative parfaite.
r = 0 : Dans ce cas il n'y a aucune dépendance linéaire entre les deux variables, on parle de corrélation linéaire nulle.
-1 < r < 0 : Dans ce cas les deux variables varient en sens inverse, la relation linéaire est faible ou forte selon que le
coefficient de corrélation linéaire est proche de 0 ou -1.
0 < r < 1 : Dans ce cas les deux variables varient dans le même sens, la relation linéaire est faible ou forte selon que
le coefficient de corrélation linéaire est proche de 0 ou 1.

163

Statistique descriptive bi-variée

❖ Notion de corrélation

Le coefficient de corrélation est aussi nommé, la corrélation tout simplement ou le coefficient de corrélation de
Bravais-Pearson. Nous pouvons souligner que :
• Le coefficient de corrélation linéaire r est du même signe que la Cov (X,Y).
• r est toujours compris entre -1 et 1 (-1≤r ≤1).
• Si r=1 ou r=-1 les observations du couple (X, Y) sont parfaitement alignées.
• Le coefficient de corrélation est une mesure de l’intensité du lien linéaire et linéaire seulement unissant deux
variables X, Y.
• Le coefficient de corrélation prend 1 lorsque les points du nuage se positionnent tous parfaitement le long
d’une droite ascendante.
• Le coefficient de corrélation prend -1 lorsque les points du nuage se trouvent sur une
droite de pente négative.

164

82
03/05/2023

Statistique descriptive bi-variée

❖ Notion de corrélation

Différents genres de corrélation

Corrélation positive Corrélation négative Corrélation nulle

165

Statistique descriptive bi-variée

Coefficient de détermination

Le coefficient de détermination est le carré du coefficient de corrélation linéaire. Il mesure la part de la variation d'une
variable expliquée par l'autre variable.

• Le coefficient de détermination est compris entre 0 et 1.


• Plus ce coefficient est élevé, plus la qualité du modèle linéaire est bonne, mais ceci dépend des disciplines.
• Le peut être interprété comme suit : le modèle linéaire qui utilise comme variable indépendante ou explicative Y
« explique » p% de la dispersion de la variable dépendante ou expliquée X. Ce p% est tout simplement le x
100%.

166

83
03/05/2023

Série d’exercices n° 5

❖ Exercice 1

Le relevé de l’âge des individus d’un groupe de personnes partant pour voyage organisé nous livre les résultats suivants :

T.A.F :
1. Calculer la variance de la série.
2. Déduire l’écart type des âges des personnes du groupe.
3. L’écart type, dans ce cas, a-t-il une signification concrète ?
167

Série d’exercices n° 6

❖ Exercice 2
Soit une entreprise qui veut savoir s'il existe une liaison entre ses dépenses mensuelles de publicité et son chiffre d'affaires
mensuel. Elle étudie donc les chiffres mensuels sur un an qui sont les suivants :

T.A.F :
1. Calculer la covariance entre x et y.
2. Calculer le coefficient de corrélation linéaire simple
et le coefficient de détermination R2.
3. Estimer les paramètres a et b.
4. Estimer le CA prévisionnel pour une dépense de
publicité de 6 000 DH.

NB : Les chiffres sont en milliers de DH.

168

84
03/05/2023

Série d’exercices n° 6

❖ Exercice 3 :
On veut tester la relation entre le chômage (X) et l’indice du PIB. Vous avez les statistiques du Canada de 1997 à 2009 :

T.A.F :
1. Calculer la covariance entre x et y.
2. Calculer le coefficient de corrélation linéaire simple et le coefficient de détermination R².
169

85

Vous aimerez peut-être aussi