Statistique Descriptive: U C A É E
Statistique Descriptive: U C A É E
Statistique descriptive
2022/2023
1
Objectifs du cours
o Le cours a pour but d’initier les étudiants aux principes de base de la statistique. Le cours vise
principalement à introduire et faire méditer les concepts fondamentaux et méthodes élémentaires de la
statistique pour permettre un apprentissage autonome ultérieur de méthodes complémentaires.
o On veut développer le sens critique nécessaire lors de la mise en œuvre et de l’interprétation d’un traitement
statistique. Pour cela, on introduira et utilisera un cadre mathématique rigoureux. Nous fournirons autant
d’exemples et de figures nécessaires afin d’obtenir une meilleure compréhension du cours.
o La statistique descriptive a pour but d’étudier un phénomène à partir de données. Cette description se fait à
travers la présentation des données (la plus synthétique possible), leur représentation graphique et le calcul
de résumés numériques.
1
03/05/2023
o Anderson, Sweeney, Williams 2009, “Essentials of Statistics for Business and Economics”, 5th Edition, South
o Anderson, Sweeney, Williams 2011, “Statistiques pour l’économie et la gestion”, 3ème Edition, de boeck.
o Barrow 2006, “Statistics for Economics, Accounting and Business Studies”, 4th Edition, Prentice Hall, Harlow.
ellipses.
Plan du cours
2
03/05/2023
Introduction
et l'activité qui consiste dans leur recueil, leur traitement et leur interprétation
❑ La statistique est l’étude de la collecte de données, leur analyse, leur traitement, l’interprétation des
résultats et leur présentation afin de rendre les données compréhensibles par tous.
3
03/05/2023
Introduction
Les statistiques descriptives sont des résumés d’un ensemble de données sous forme
de tableaux, de graphiques, ou sous forme numérique (Anderson, 2011).
o Fabriquer l’information.
4
03/05/2023
L’analyse des données est utilisée pour d’écrire les phénomènes étudiés, faire des pré- visions et prendre des
décisions à leur sujet. En cela, la statistique est un outil essentiel pour la compréhension et la gestion des
phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous les champs
disciplinaires et explique pourquoi elle est enseignée dans toutes les filières universitaires, de l’économie à la
biologie en passant par la psychologie et bien sûr les sciences de l’ingénieur. La statistique consiste à :
10
5
03/05/2023
Analyse statistique
11
Eléments de vocabulaire
Population
Caractère
Echantillon
Individu Modalité
Série statistique
Effectif
Fréquence
recensement
12
6
03/05/2023
Eléments de vocabulaire
Une variable statistique ou un une valeur numérique ou non qui s’associe à chaque individu de la
caractère population.
13
Eléments de vocabulaire
14
7
03/05/2023
Eléments de vocabulaire
Inférence statistique un processus d’utilisation des données d’un échantillon pour estimer
ou tester des hypothèses sur les caractéristiques d’une population.
15
Eléments de vocabulaire
❖ Exemple :
1. Population :
3. Caractère :
8
03/05/2023
Variable
statistique
Quantitative Qualitative
17
18
9
03/05/2023
❖ Caractère qualitatif
❖ Exemple :
– Ancienne.
– Dégradée.
– Nouvelle.
– Rénovée.
19
❖ Caractère quantitatif
❖ Exemple :
20
10
03/05/2023
❖ Exemple :
21
Exercice d’application 1
22
11
03/05/2023
Exercice d’application 2
❑ qualitative ❑ quantitative
❑ discrète ❑ continue
23
❖ Exercice 1
Parmi ces assertions, préciser celles qui sont vraies, celles qui sont fausses :
3. La tâche de la statistique descriptive est de présenter les données sous forme de tableaux, de graphiques et
d’indicateurs statistiques.
24
12
03/05/2023
❖ Exercice 1
6. Pour une variable qualitative, chaque individu statistique ne peut avoir qu’une seule modalité.
7. Pour faire des traitements statistiques, il arrive qu’on transforme une variable quantitative en variable qualitative.
8. La variable quantitative poids d’automobile peut être reclassée en compacte, intermédiaire et grosse.
9. En pratique, lorsqu’une variable quantitative discrète prend un grand nombre de valeurs distinctes, on la traite
comme continue.
25
❖ Exercice 2
Variable quantitative
Hauteur
Poids
Rendement
CA
Cylindre
26
13
03/05/2023
❖ Exercice 3
- L’ESTE veut faire une étude statistique concernant les étudiants inscrits en S1.
- Cette étude concernera les options du BAC des étudiants.
Répartition des étudiants selon l’option du BAC
Option du BAC Nombre d’étudiants
Sciences économiques 1 140
Sciences expérimentales 505
Sciences mathématiques A 45
Lettres modernes 26
Ensemble 1 716
Il s’agit d’identifier la population étudiée, sa taille, les unités statistiques ou individus, la variable
statistique, les modalités du caractère et l’effectif de la modalité “sciences expérimentales”, et l’effectif des
deux dernières modalités.
27
Il ne faut pas confondre entre la population et les unités statistiques. La population c’est l’ensemble des éléments
observés, ces éléments portent le nom d’unités statistiques.
" La population est un ensemble bien délimité, sa définition doit être parfaitement claire.
" La population n’est jamais un nombre, c’est un ensemble. Exemples : des pièces fabriquées par une machine, les
véhicules dans un parking, les étudiants dans une faculté…
" Les unités statistiques peuvent être des êtres humains, des objets, des entités géographiques…c’est des éléments de
la population.
" Il ne faut pas confondre entre la variable statistique et les modalités (de la variable ou du caractère).
" La variable est un aspect particulier des unités statistiques (individus), auquel on s’intéresse, une caractéristique qui
peut varier d’un individu à l’autre. La variable porte aussi le nom de caractère. L’ensemble des observations d’une
variable statistique forme l’ensemble des modalités de ce caractère
28
14
03/05/2023
" A chaque individu (unité statistique) doit être associée une modalité unique. C’est-à-dire « au moins une » et « au
plus une ».
Au plus une: il ne doit pas être possible d’associer à un même individu deux modalités. Les modalités sont
incompatibles (parfaitement distinctes les unes des autres).
Au moins une : il ne doit pas être possible qu’un individu ne soit associé à aucune modalité. Tous les aspects de la
variable doivent être présents dans la liste des modalités.
29
30
15
03/05/2023
Symboles et notations
1. Notation indicée
❖ Les méthodes statistiques s'appliquent à des populations comportant un grand nombre d'individus. Il est
❖ On distingue par la valeur de la variable x relative à l'individu i. La lettre i est appelée indice. Elle peut prendre
31
Symboles et notations
❖ Pour symboliser la somme des valeurs xi de la variable x, on utilise la lettre S ou ∑ (Lettre grecque : Sigma
majuscule)
❖ Par définition
❖ Propriétés
32
16
03/05/2023
1. Effectif
➢ Le nombre d’individus représentant la modalité est nommé l’effectif. On souligne que l’effectif d’une modalité « i
» est noté ni .
➢ S’il y a k modalités de la variable, les effectifs sont donc notés : n1 , n2 ………………., nk La somme des effectifs (ou
33
2. Fréquence
➢ La fréquence (fi) associée à une modalité, ou à un ensemble de modalités regroupées en classes indique la
proportion d’individus présentant cette modalité (ou cet ensemble de modalités) par rapport à l’ensemble des
individus.
𝒏𝒊
✓ La fréquence d’une modalité « i » : 𝒇𝒊 = 𝒏
34
17
03/05/2023
Un tableau statistique décrivant une population P suivant un caractère K se présente sous la forme générale
suivante :
Caractère étudié Effectif de chaque modalité
M1 n1
M2 n2
: :
MI ni
: :
MK nk
Total N
35
Un tableau statistique décrivant une population P suivant un caractère K se présente sous la forme générale
suivante :
Effectif de chaque n1 n2 … nk N
modalité
36
18
03/05/2023
❖ Exemple :
Nous avons une répartition des étrangers vivant à Essaouira selon leur nationalité:
italien, italien, espagnol, français, français, espagnol, portugais, allemands, tunisien, tunisien, algérien,
italien, espagnol, français, français.
37
❖ Exercice d’application
Nous avons une répartition de l’effectif des employés d’une entreprise X selon leur niveau d’éducation. Il faut
calculer la fréquence relative et la fréquence en pourcentage, et présenter les données sous forme de graphiques.
1. Présentation des données sous forme de tableaux :
38
19
03/05/2023
Notes 3 7 10 8 9
des
élèves
Nombre 2 5 4 8 6
des
élèves
39
Un graphique permet de mieux mettre en évidence certaines informations données dans le tableau.
Pour des variables qualitatives, un diagramme à barres ou un digramme à secteurs circulaires sont les
graphiques les plus utilisés.
40
20
03/05/2023
o Un diagramme à barres (à bandes/ à tuyaux d’orgue) associe une bande verticale à chaque modalité et la
distance entre chaque bande est constante. La largeur de chacune des bandes est la même et sa hauteur
est égale à l’effectif ou à la fréquence de la modalité.
o Un diagramme à secteur circulaire (diagramme circulaire) est un graphique qui divise un cercle en
secteurs angulaires, et dont les angles aux centres sont proportionnels aux effectifs ou aux fréquences de
chaque modalité. L’angle au centre est égal à fi*360.
41
42
21
03/05/2023
43
44
22
03/05/2023
45
46
23
03/05/2023
o Pour une variable quantitative continue, toutes les valeurs des modalités peuvent appartenir à un intervalle
réel. Ces valeurs sont regroupées dans des intervalles de valeurs numériques appelés classes.
o Nous soulignons que le regroupement en classes se justifie par l’existence d’un grand nombre de modalités,
ainsi la présentation des données s’en trouve simplifiée. Comment peut-on alors définir ces classes?
47
48
24
03/05/2023
Les classes sont notées : [𝒆𝒊 ; 𝒆𝒊+𝟏 [ sachant que 𝒆𝒊 est la borne inférieure et 𝒆𝒊+𝟏 est la borne supérieure.
𝒆𝒊+𝟏 +𝒆𝒊
Centre de la classe : 𝑪𝒊 =
𝟐
49
50
25
03/05/2023
o Un histogramme est utilisé pour présenter les données quantitatives continues. Un histogramme est formé d’un
ensemble de rectangles dont la base est déterminée par les extrémités de la classe et dont la surface doit être
proportionnelle à l’effectif (ou à la fréquence) de la classe.
o Si les classes sont toutes de même amplitude, il suffit pour réaliser l’histogramme de porter en ordonnée les
effectifs ou les fréquences.
o Si elles ne le sont pas, on porte en abscisse les extrémités de la classe et en ordonnée les effectifs par unité
d’amplitude ni/ai, appelés densités d’effectif, ou les fréquences par unité d’amplitude fi/ai , nommées densités
de fréquence.
51
Pour une répartition des consommateurs d’un produit Y selon l’âge, il faut calculer l’amplitude de la classe, le centre, la fréquence en
pourcentage. Nous avons utilisé le même exercice avec des amplitudes égales et inégales, afin de présenter les données sous forme
de graphique dans le cas d’amplitudes inégales.
52
26
03/05/2023
Pour une répartition des consommateurs d’un produit Y selon l’âge, il faut calculer l’amplitude de la classe, le centre, la fréquence en
pourcentage. Nous avons utilisé le même exercice avec des amplitudes égales et inégales, afin de présenter les données sous forme
de graphique dans le cas d’amplitudes inégales.
53
54
27
03/05/2023
55
Nous pouvons ajouter au dernier graphique, le polygone des fréquences qui peut être construit en joignant les
milieux de chaque sommet des rectangles. Dans le cas de ce graphique, les ordonnées sont des fréquences par
unité d’amplitude, et le polygone des fréquences passera par les centres des classes.
56
28
03/05/2023
Nous pouvons aussi dessiner la courbe cumulative ou la courbe des fréquences qui est la représentation graphique
des fréquences cumulées. Ces fréquences cumulées sont des fréquences cumulées ascendantes comme dans le
graphique ci-dessous :
Répartition des consommateurs d’un produit X selon l’âge
57
Nous pouvons aussi dessiner une ogive. Cette dernière est un graphique d’une distribution cumulée qui
représente sur l’axe horizontal, les valeurs des observations et sur l’axe vertical, les valeurs des effectifs cumulés
(fréquences absolues cumulées). L’ogive est construite en indiquant par un point précis la fréquence cumulée de
chaque classe, comme ci-dessous :
58
29
03/05/2023
Nous analysons la répartition des consommateurs selon le nombre de fois d’achat en ligne. Il s’agit de calculer la fréquence en
pourcentage et la fréquence cumulée, ainsi que de présenter les données sous forme de diagramme en bâtons et sous forme de
diagramme cumulatif.
➢ Exemple :
Répartition des consommateurs selon le nombre de fois d’achat en ligne
59
Pour présenter les données sous forme de graphiques, nous utiliserons un diagramme en bâtons. Ce dernier
est appelé aussi un diagramme différentiel, puisqu’il représente les différentes modalités de la variable
discrète. C’est aussi un diagramme à barres, sauf que les barres sont plus fines
60
30
03/05/2023
Nous pouvons aussi utiliser un diagramme cumulatif qui est également appelé diagramme intégral au sens
de l’intégration mathématique. Il représente le graphique des fréquences cumulées comme dans le
graphique ci-dessous.
61
62
31
03/05/2023
63
Répartition des nouveaux étudiants inscrits par option du Baccalauréat en 2010,2011 et 2012
64
32
03/05/2023
Répartition des nouveaux étudiants inscrits par option du Baccalauréat en 2010,2011 et 2012
65
66
33
03/05/2023
❑ Exercice 1
Une enquête menée auprès de 60 salariés d’une entreprise pour collecter les informations suivantes :
Situation familiale, Sexe, Nombre de personnes à charge, condition du travail, Salaire mensuel, Nombre de
T.A.F :
67
❑ Exercice 2
On considère la répartition du nombre de pièces électroniques monté dans une usine par 24 employés.
4;1;1;3;2;1;4;3;4;2;2;3;
4;3;4;1;2;4;3;4;3;4;4;4
68
34
03/05/2023
69
Indicateurs statistiques
o En statistique, les tableaux présentent l’information recueillie sur une variable et les graphiques fournissent
un portrait pour appréhender plus facilement la globalité de l’information.
o Pour caractériser la représentation visuelle par des éléments synthétiques, on peut utiliser des indicateurs.
o Décrire les caractéristiques d’une série statistique consiste à calculer des caractéristiques de tendance
centrale (de position ou de concentration), des caractéristiques de dispersion et à étudier sa concentration.
70
35
03/05/2023
Indicateurs statistiques
Caractéristiques de :
Position Dispersion
71
Les moyennes
❖ La moyenne arithmétique
• La moyenne arithmétique est un indicateur de tendance centrale qui concerne uniquement les variables
quantitatives.
• La moyenne d’une série statistique est définie par la somme des valeurs de xi divisée par l’effectif total.
• Sa formule est la suivante :
xi : désigne les valeurs du caractère, ni : les effectifs correspondants, fi : les fréquences correspondantes
et n : l’effectif total.
(1) Moyenne arithmétique simple et (2) Moyenne arithmétique pondérée. 72
36
03/05/2023
Les moyennes
❖ La moyenne géométrique
La moyenne géométrique d'une série statistique (d’une variable statistique) avec des valeurs positives
est la racine nième du produit des valeurs observées. Sa formule peut être écrite de plusieurs façons, en
utilisant le logarithme, en utilisant la notation Pi du produit (π), ou comme ci-dessous :
La moyenne géométrique est principalement utilisée pour calculer les coefficients multiplicateurs
moyens dont sont déduits les taux de variation. A titre d’exemples, les taux de variation annuels,
semestriels, mensuels…
Notons que la moyenne géométrique est applicable à des mesures de grandeurs dont la croissance est
géométrique ou exponentielle. Elle est toujours inférieure ou égale à la moyenne arithmétique.
73
Les moyennes
❖ La moyenne Harmonique
La moyenne harmonique d'une série statistique dont les valeurs sont positives est égale à l'inverse de la
moyenne arithmétique des inverses des valeurs. Sa formule est la suivante :
74
37
03/05/2023
Les moyennes
❖ La moyenne quadratique
La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés des valeurs. Sa formule
est la suivante :
75
❑ Exercice 1
• Un quartier résidentiel comprend 50 unités d’habitation ayant une valeur locative moyenne
de 5 000 Dirhams.
• Deux nouvelles unités d’habitation sont construites dans le quartier : l’une a une valeur
locative de 6 000 Dirhams et l’autre, une villa luxueuse, a une valeur locative de 20 000
Dirhams.
76
38
03/05/2023
❑ Exercice 2
77
❑ Exercice 3
Un commerçant décide à la fin de la journée de calculer le montant moyen des chèques encaissés.
Calculer la Moyenne :
1. Arithmétique ;
2. Géométrique avec les Log ;
3. Quadratique ;
4. Harmonique;
78
39
03/05/2023
❑ Exercice 4
On dispose de la série suivante présentant les CA réalisés (en DH) par une entreprise avec ses clients
pendant un mois d’activité :
TAF :
Calculer la Moyenne :
1. Arithmétique ;
2. Géométrique avec les Log ;
3. Quadratique ;
4. Harmonique.
79
Le mode
➢ On appelle mode ou valeur dominante toute valeur de la variable qui a un effectif ou une fréquence maximum.
➢ Le mode est la valeur de la variable la plus fréquemment observée. C’est la valeur pour laquelle l’effectif est le
➢ Le mode peut être aussi défini comme la valeur qui domine les autres et qui lui confère le statut d’indicateur
de tendance centrale.
80
40
03/05/2023
Le mode
➢ Si la variable est discrète, on détermine le mode directement et d’une manière immédiate en identifiant la
modalité de la variable qui correspond à l’effectif maximal (ou à la fréquence maximale).
➢ Graphiquement, le mode correspond au bâton le plus long (aux bâtons les plus longs dans le cas des séries
plurimodales).
81
Le mode
❑ Exercice d’application
1. Présenter le tableau des fréquences relatives, les effectifs cumulés croissants et décroissants.
2. Déterminer et interpréter : le mode et la moyenne arithmétique.
82
41
03/05/2023
Le mode
o Puisque les données sont groupées en classes, on doit définir en premier lieu la classe modale.
o On parle dans ce cas de la classe modale qui correspond à la classe ayant l’effectif (fréquence)
maximum.
o Notons que nous pouvons avoir des classes avec des amplitudes égales ou inégales.
83
Le mode
Cette méthode consiste à estimer que le mode est déporté à l’intérieur de la classe modale en fonction des
effectifs(effectifs rectifiés) des classes encadrant la classe modale. Le mode est alors obtenu de façon indiquée sur le
graphique ci-dessous.
84
42
03/05/2023
Le mode
La classe modale est celle qui correspond à la fréquence la plus élevée, ou l’effectif le plus élevé. Notons
qu’on retient comme valeur modale ou le mode, le centre de classe modale, dans un cas particulier : si
l’effectif de la classe précédente à la classe modale (𝐧𝐢−𝟏) est égal à l’effectif de la classe suivante à la
classe modale (𝐧𝐢+𝟏); sinon le mode doit être calculé selon la formule suivante :
85
Le mode
43
03/05/2023
Le mode
• Si les classes sont d’amplitudes inégales, il faut corriger par rapport aux amplitudes, c’est-à-dire il faut
prendre en considération la densité d’effectif (ni/ai) ou la densité de fréquence (fi/ai).
• La détermination de la classe modale se ramène après au cas précédent. Le mode est calculé en
appliquant la formule ci-dessus en remplaçant ni par (ni/ai).
• Notons, que dans le cas particulier, où une classe est caractérisée à la fois par l’amplitude la plus petite
et l’effectif le plus élevé et elle a nécessairement la densité la plus forte. Dans ce cas, le calcul des
densités n’est pas nécessaire pour en déduire la classe modale.
87
Le mode
88
88
44
03/05/2023
Le mode
Notes Effectifs
6‐8 3
8‐10 6
10‐12 4
12‐14 2
Déterminer la note la plus élevée
89
89
❑ Exercice 1
Les montants des factures établies par l’entreprise SOCOTEX durant le mois de janvier sont comme suit :
90
45
03/05/2023
❑ Exercice 2
1. Présenter le tableau des fréquences relatives, les effectifs cumulés croissants et décroissants.
2. Déterminer et interpréter : le mode et la moyenne arithmétique.
91
La médiane
❑ Définition
▪ La médiane d’une série statistique est la valeur de la variable qui partage l’effectif total en deux sous
▪ La médiane c’est l’observation centrale : telle que la moitié des observations lui sont inférieures et la moitié lui
sont supérieures.
▪ La détermination de la médiane diffère, cependant, selon qu’il s’agisse d’une variable discrète ou d’une variable
continue.
92
46
03/05/2023
La médiane
❑ Définition
La médiane (Me) est un centre de position lorsque les données sont rangées par ordre croissant. Sa
détermination est réalisée de façon différenciée en fonction de la parité de la taille de l’échantillon (pair ou
impair).
93
La médiane
Notons que la médiane (Me) d’une série statistique est une valeur de la variable telle que 50% des individus
présentent une modalité inférieure à Me, et 50% une modalité supérieure à Me.
Ainsi, si F désigne la fonction des fréquences cumulées, la médiane d’une série statistique sera la plus petite
valeur x telle que F(x) ≥ 0,5. On peut ainsi déterminer graphiquement la médiane, dans la courbe de fréquence
cumulée (ou même dans la courbe d’effectif cumulé).
94
47
03/05/2023
La médiane
❖ Variable discrète
95
95
La médiane
❖ Variable continue
Pour obtenir une valeur plus précise de la médiane, on procède à une interpolation linéaire. Le calcul de la
médiane se fait en trois étapes :
σ 𝒏𝒊 σ 𝒇𝒊
1ère étape : on repère le rang de la médiane. 𝑹𝒂𝒏𝒈 = ou = (0,5)
𝟐 𝟐
2ème étape : on repère la classe de la Me. Il s’agit de trouver la classe à laquelle appartient le rang de la médiane,
ce qui revient à construire la colonne des effectifs cumulés.
Me ε[classe médiane], on peut calculer avec plus de précision (Me) en faisant une interpolation linéaire.
96
96
48
03/05/2023
La médiane
Quand nous sommes face à des variables continues, et les données sont par conséquent groupées en classes, on
doit définir en premier lieu la classe médiane. Cette dernière contient la médiane. La valeur de la médiane est
déduite par interpolation linéaire selon la formule suivante :
𝟓𝟎 − 𝑭𝒊−𝟏
𝑴𝒆 = 𝒃𝒊 + [𝒂𝒊 × ]
𝑭𝒊 − 𝑭𝒊−𝟏
Notons que :
! Dans la formule de calcul de la médiane, on se base sur la fréquence cumulée et non pas sur la fréquence
relative.
! Contrairement au mode, dans le cas d’amplitudes inégales, on ne procède pas à la correction par amplitudes,
en utilisant la densité d’effectif ou la densité de fréquence.
97
❑ Exercice 3
1 4 6 7 7 8 12 13 13 19
4 4 5 7 13 15 16 16 23
98
49
03/05/2023
❑ Exercice 4
Si la variable est continue (regroupement par intervalle des résultats) le calcul de la médiane se fait autrement :
Notes Effectifs Effectifs cumulés
0-5 10 10
5-8 8 18
8-12 12 30
12-15 11 41
15-20 9 50
Total 50
Utilisons la colonne des effectifs cumulés pour déterminer la médiane : il y a 50 notes, 50 % de l'effectif total c'est
25, la médiane est ici la note correspondant à l'effectif cumulé 25.
D'après la colonne "effectif cumulé" :
- 18 personnes ont moins de 8
- 30 personnes ont moins de 12
99
La médiale
La médiale est la valeur du caractère qui partage en deux parties égales la masse totale du caractère. La médiale
partage la masse en deux parties égales, en laissant 50%à gauche et 50% à droite. La médiale est la plus petite
valeur du caractère dont la masse est inférieure ou égale à 50 %.
Une concentration non nulle conduit toujours à une valeur de la médiale différente de la valeur de la médiane
(Ml ≥ Me)
• Dans le cas discret; on détermine la médiale en se référant au nicc ou au ficc
La médiale peut se déterminer graphiquement à l’aide du polygone des masses relatives cumulées croissantes.
100
50
03/05/2023
La médiale
❑ Cas discret
Exemple:
On cherche dans les nixicc où se trouve la valeur 55,5 qui est équivalent à 56ème observations.
Xi ni nixi nixicc
6 1 6 6
8 3 24 30
Ml=10 9 2 18 48
10 3 30 78
11 3 33 111
111
101
La médiale
Pour obtenir une valeur plus précise de la médiale, on procède à une interpolation linéaire.
Le calcul de la médiale se fait en 3 étapes :
∑ nixi ∑ fixi
1ère étape : On repère le rang de la médiale. 𝑅𝑎𝑛𝑔𝑀𝑙 = ou .
2 2
2ème étape : On repère la classe Médiale. Il s’agit de trouver la classe à laquelle appartient le rang
de la médiale, ce qui revient à construire la colonne de la masse cumulée. (On cherche le rang
de la médiale dans les fi𝑥icc ou les ni𝑥icc) .Ml ∈ [classe médiale], on peut calculer avec plus de
précision (Ml) en faisant une interpolation linéaire.
3ème étape : l’interpolation linéaire. De manière générale, si a et b sont les bornes de la classe
contenant la médiale, F(a) et F(b) les valeurs des fréquences cumulées croissantes en a et b (ou
des effectifs cumulés croissants), alors :
𝑅𝑔𝑀𝐿 —𝐹 𝑎
𝑀𝑙 = 𝑎 + 𝑏 —𝑎 ×
𝐹 𝑏 —𝐹 𝑎
FSJESS-RABAT
102
51
03/05/2023
La médiale
❑ Cas continu
Exemple
Le tableau suivant indique les réserves de pétrole, en milliards de barils,
dont disposent les pays producteurs :
Réserves de pétrole Nombre de pays
[0 ‐ 10[ 10
1-Calculez la médiale.
[10 ‐ 50[ 8
2-Que peut-on dire quant à la
[50 ‐ 100[ 3
Concentration des réserves de
[100 ‐ 275[ 4
pétrole?
Somme 25
FSJESS-RABAT
103
La médiale
104
52
03/05/2023
La médiale
632,5 —515
= 100
𝑀𝑙 =
𝑀𝑙 100 +
+ 275
275 —100 × 632,5 —515
—100 ×
1265 —515
𝑴𝒍 = 𝟏𝟐𝟕, 𝟒𝟐 𝑴𝒊𝒍𝒍𝒊𝒂𝒓𝒅𝒔 𝒅𝒆 𝒃𝒂𝒓𝒊𝒍𝒔
Les pays ayant une réserve inférieure ou égale à 𝟏𝟐𝟕, 𝟒𝟐 𝑴𝒊𝒍𝒍𝒊𝒂𝒓𝒅𝒔 𝒅𝒆 𝒃𝒂𝒓𝒊𝒍𝒔, se
partagent au moins 50% des réserves totales.
Réserves de pétrole Nombre de pays ci nici nicicc
0 - 10 10 5 50 50
10 - 50 8 30 240 290
50 - 100 3 75 225 515
100 - 275 4 187,5 750 1265
Total 25 1265
FSJESS-RABAT
105
Paramètres de dispersion
Les indicateurs de dispersion caractérisent numériquement la manière dont les observations s’écartent les unes des
autres. C’est des indicateurs qui montrent comment les observations s’écartent d’une valeur de référence ou d’un
indicateur de tendance centrale. Leur utilité se concrétise surtout lorsqu’on a deux distributions qui peuvent être
différentes tout en ayant des caractéristiques de tendance centrale proches.
Étendue
Écart absolu moyen
Écart relatif moyen
Caractéristiques de dispersion
Variance
Écart-type
Écart inter-quartiles, inter-déciles et inter-centiles
106
53
03/05/2023
L’étendue
L'étendue d'une série statistique (appelée aussi amplitude) est la différence entre sa valeur la plus haute et sa
valeur la plus basse. On dit d'un phénomène qu'il présente une « forte dynamique » lorsque l'étendue (ou la
dispersion) est grande.
Exemple : sur une semaine de janvier on relève les températures suivantes : -2 ; -4 ; -7 ; +2 ; +6 ; -5 ; +1.
L'étendue est donc : étendue = valeur la plus haute - valeur la plus basse = (+6)-(-7)= 13
L’étendue est la différence entre la plus grande valeur et la plus petite des valeurs observées.
Sa formule est la suivante : Etendue = X (max) - X (min)
107
L’écart absolu
• L'écart absolu moyen est la moyenne des écarts par rapport à la moyenne, toujours comptés positifs.
• Un écart 𝑒𝑖 représente la différence entre la valeur d’une observation 𝑥𝑖 et la moyenne arithmétique 𝑥̅.
L’écart absolu médian est la moyenne arithmétique des valeurs absolues des écarts à la médiane. Sa formule est
la suivante :
108
54
03/05/2023
La variance
• La variance est basée sur la différence entre chaque observation et la moyenne arithmétique (écart par
rapport à la moyenne).
• Elle est souvent utile comme une mesure pour comparer le degré de dispersion de plusieurs variables.
• Elle est la moyenne arithmétique des carrés des écarts à la moyenne arithmétique.
- Notons que les unités associées à la variance sont élevées au carré, ce qui rend difficile son interprétation.
- La variable qui a la plus grande variance a la plus grande dispersion, il n’est pas utile de chercher d’autres
interprétations pour cet indicateur de dispersion.
109
L’écart type
Pour obtenir un indicateur de dispersion absolue, l’écart type est calculé. L'écart type, est noté σ et il
correspond à la racine carrée de la variance, comme ci-dessous.
L'écart-type est la mesure de dispersion la plus couramment utilisée en statistique lorsqu'on emploie la
moyenne pour calculer une tendance centrale. Il mesure donc la dispersion autour de la moyenne.
Propriétés de l'écart-type
✓ On n'utilise l'écart-type que pour mesurer la dispersion autour de la moyenne d'un ensemble de données.
✓ L'écart-type n'est jamais négatif.
✓ Dans le cas des données ayant approximativement la même moyenne, plus la dispersion est grande, plus
l'écart-type est grand.
110
55
03/05/2023
Les quartiles
En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données triées en 4 parts
égales, de sorte que chaque partie représente 1/4 de l'échantillon de population.
• Le quartile inférieur est la valeur du milieu du premier ensemble, dans lequel 25 % des valeurs sont
inférieures à Q1 et 75 % lui sont sup
• érieures. Le premier quartile prend la notation Q1.
• Le quartile supérieur est la valeur du milieu du deuxième ensemble, dans lequel 75 % des valeurs sont
inférieures à Q3 et 25 % lui sont supérieures. Le troisième quartile prend donc la notation Q3.
• La médiane divise les données en deux ensembles égaux. Il convient de noter que la médiane prend la
notation Q2, c'est-à-dire le deuxième quartile.
111
Les quartiles
112
56
03/05/2023
Les quartiles
1. Variable discrète:
Les étapes à suivre, pour la détermination des quartiles (Q1 et Q3) dans le cas d’une variable discrète sont:
1-Classement des observations selon l’ordre croissant
2-Détermination du rang des quartiles
3-Les quartiles sont les valeurs des variables associées au rang (k).
• Si n/4 est un entier , le premier quartile Q 1 est le terme de rang n/4 et le
troisième quartile Q3 est le terme de rang 3n/4.
• Sin/4 n'est pas un entier, Q1 et Q3 sont respectivement les termes de rang immédiatement supérieur à
n/4 et 3n/4.
113
Les quartiles
FSJESS-RABAT
114
57
03/05/2023
Les quartiles
2. Variable continue:
Les étapes à suivre, pour la détermination des quartiles (Q1 et Q3) dans le cas
d’une variable continue, sont les mêmes que la médiane.
1- On détermine le rang (rangQ 1=N/4 (Σfi/4=1/4)(rangQ3 =3N/4
(Σfi/4=3/4)
2- On cherche où se trouve le rang dans les nicc ou les ficc
3- On détermine les quartiles par l’interpolation linéaire.
115
Les quartiles
Reprenant
Exemple : la série des notes de statistique •• On
On calcule
calcul Q1:
Q1:
1- Calculer et interpréter le premier et le RgQ11=1/4=0,25.
RgQ =1/4=0,25. On
On cherche où se
cherche où setrouve
trouve0,25
0,25dans
danslesles ficc
ficc . Donc
. Donc Q1ε[8-10]
Q1ε[8-10]
troisième quartile 𝟎,𝟐𝟓–𝑭(𝒂) 𝟎,𝟐𝟓–𝟎,𝟐
𝟎,𝟐𝟓–𝑭(𝒂) 𝟎,𝟐𝟓–𝟎,𝟐
2- Déterminer et interpréter l’intervalle
l’intervalle Q11=a+(b-a)×
Q =a+(b-a)×𝑭 𝒃 –𝑭(𝒂)=8+(10-8)
=8+(10-8) )×
)×𝟎,𝟔–𝟎,𝟐 =8,25.
=8,25.25%
25%des
desétudiants
étudiantsont
ontune
une
𝑭 𝒃 –𝑭(𝒂) 𝟎,𝟔–𝟎,𝟐
contenant 50% des observations note
note inférieure ou égal
inférieure ou égal àà 8,25
8,25et
et75%
75%ont
ontune
unenote
notesupérieure
supérieureà à8,25
8,25
3- Déduire un indicateur de dispersion •• On
On calcul
calculeQ3:
Q3:
absolu. Interpréter le résultat RgQ
RgQ33=3/4=0,75.
=3/4=0,75. Donc Q33ε[10-12]
Donc Q ε[10-12]
Notes 6‐8 8‐10 10‐12 12‐14 Q3=a+(b-a)×𝟎,𝟕𝟓–𝐅(𝐚)
–𝐅(𝐚)
𝟎,𝟕𝟓–𝟎,𝟔
=10+(12-10) )×𝟎,𝟕𝟓–𝟎,𝟔
𝟎,𝟖𝟕–𝟎,𝟔=11,2. 75% des étudiants
75% des étudiants ont une
𝐅 𝐛 –𝐅(𝐚)
inférieureou
note inférieure ou égal
égalàà 11,2
11,2etet25%
25% ont
ont une
une note
note supérieure
supérieure à 11,2
à 11,2
fi 0,2 0,4 0,27 0,13
• Iq=[8,25 - 11,2
11,2]]
50%des étudiants
50%des étudiantsontont
des notes concentrées
des notes entre 8,25entre
concentrées et 11,2. Eiq=11,2-
8,25 et 11,2.
xi 6‐8 8‐10 10‐12 12‐14
8,25= 2,95
Eiq=11,2-8,25= 2,95
fi 0,2 0,4 0,27 0,13 1
-Les étudiants situés
situés au
au¾¾dedelaladistribution
distributionont
ont2,95 points
2,95 dede
points plus queque
plus les les
ficc 0,2 0,6 0,87 1 étudiants situés au ¼ dede la
la distribution
distribution
FSJESS-RABAT
116
58
03/05/2023
L'écart interquartile est une autre étendue utilisée comme mesure de la dispersion. La différence entre les
quartiles supérieur et inférieur (Q3 - Q1), qu'on appelle l'écart interquartile, indique aussi la dispersion d'un
ensemble de données. L'écart interquartile couvre 50 % d'un ensemble de données et élimine l'influence des
valeurs aberrantes, parce qu'on soustrait, en effet, le quartile le plus élevé et le quartile le plus faible.
EIQ = Q3 -Q1
L’intervalle interquartile est l’intervalle [Q1 - Q3], et il contient 50% des observations. Notons qu’on utilise
parfois l'écart semi-interquartile (Q3 -Q1)/2.
117
Boîte de dispersion
En obtenant les quartiles Q1, Q2, Q3 et en y ajoutant le minimum et le maximum des observations, nous
obtenons un résumé en 5 chiffres. Ces 5 chiffres (Q1, Q2, Q3, Min, Max) seront utiles pour illustrer la
Boîte-à-pattes (Box plots). Elle est aussi appelée Boîte de Tukey
118
59
03/05/2023
Boîte de dispersion
3. Fixer les limites : la limite inférieure est égale c (Q1 - 1,5× (Q3- Q1)) et la limite supérieure est égale à (Q3 +
1,5×(Q3- Q1)).
4. Tracer les pointillées qui sont les pattes et qui correspondent à deux lignes horizontales. Celle de la droite
arrive jusqu’à la plus grande valeur qui se situe directement avant la limite supérieure, et celle de la gauche
arrive jusqu’à la plus petite valeur qui se situe directement après la limite inférieure. Une valeur qui dépasse
les limites peut être unevaleur aberrante (illustrée par l’étoile).
A partir de la Boîte-à-pattes nous pouvons noter l’écart (Q3- Q1) et l’écart (Max-Min), le rapport ((Q3- Q1)/ Q2)
…qui sont des indicateurs de dispersion que nous allons introduire dans cette partie.
119
Boîte de dispersion
Exemple :
Soit une variable statistique X dont le maximum est 55, le minimum 20, la médiane 38, le premier quartile 32,5
et le troisième quartile 45, on construit alors le diagramme en boîte suivant :
120
60
03/05/2023
Les déciles
De la même manière, et dans le but de préciser et d'affiner encore l'analyse de la dispersion d'une distribution,
on peut faire appel aux notions de déciles et de centiles. Le principe demeure le même que pour les quartiles à
la différence que la population est ici divisée respectivement en 10 et 100 sous-populations d'égal effectifs.
Décile 1 ou D1 10 % des effectifs de la population ont une valeur inférieure à D1 et 90 % une valeur supérieure.
Décile 2 ou D2 20 % des effectifs de la population ont une valeur inférieure à D2 et 80 % une valeur supérieure.
Décile 3 ou D3 30 % des effectifs de la population ont une valeur inférieure à D3 et 70 % une valeur supérieure.
Décile 4 ou D4 40 % des effectifs de la population ont une valeur inférieure à D4 et 60 % une valeur supérieure.
Décile 5 ou D5 50 % des effectifs de la population ont une valeur inférieure à Q1 et 50 % une valeur supérieure.
D5 correspond à la médiane.
Décile 6 ou D6 60 % des effectifs de la population ont une valeur inférieure à D6 et 40 % une valeur supérieure.
Décile 7 ou D7 70 % des effectifs de la population ont une valeur inférieure à D7 et 30 % une valeur supérieure.
Décile 8 ou D8 80 % des effectifs de la population ont une valeur inférieure à D8 et 20 % une valeur supérieure.
Décile 9 ou D9 90 % des effectifs de la population ont une valeur inférieure à D9 et 10 % une valeur supérieure.
121
Intervalles inter-déciles
er-décile
On peut définir plusieurs écarts interdécile qui correspondent à différents intervalles interdéciles.
• L'intervalle interdécile [D1-D9] contient 80% des observations qui sont au centre de la distribution en laissant 10% des
• L'intervalle interdécile [D2-D8] contient 60% des observations qui sont au centre de la distribution en laissant 20%
• L'intervalle interdécile [D3-D7] contient 40% des observations qui sont au centre de la distribution en laissant 30%
• L'intervalle interdécile [D4-D6] contient 20% des observations qui sont au centre de la distribution en laissant 40%
61
03/05/2023
Coefficient de variation
Le coefficient de variation (CV) mesure l’écart type relatif à la moyenne. C’est un indicateur utile pour comparer la
dispersion des variables qui ont des écarts et des moyennes différentes. Il est souvent calculé en pourcentage et sa
formule est la suivante :
Le coefficient de variation permet de comparer les dispersions de distribution qui ne sont pas exprimées dans la
même unité. Notons que plus le coefficient de variation est élevé, plus la distribution autour de la moyenne élevée.
123
On peut construire d’autres coefficients de ce type en utilisant les quartiles et les déciles, ou l’écart absolu moyen.
Ces indicateurs et les formules de calcul sont résumés ci-dessous.
Nous pouvons remarquer que ces quatre indicateurs sont sous forme d’un ratio qu’on peut noter comme suit :
indicateur de dispersion/indicateur de tendance centrale.
124
62
03/05/2023
Exercice
Exercice: [Link]
1. D1 etet [Link]
Calculer D1 [Link] signifient ces données?
est la signification deÀces
Le
Le tableau
tableau suivant représente
représente la quoi peuvent
données ellespeuvent
? À quoi servir? elles servir?
répartition d’âge . d’âge .
la répartition 2.Déterminer
2. l'intervalle qui
Déterminer l'intervalle qui contient
contient 40
40 %
% des
Âges Individus des observations.
observations. Interpréter le ré[Link]éter le
0‐10 22 résultat.
3.Déterminer l’âge dans la mesure où 80% des individus
10‐20 16 ont moins de cetl’âge
3. Déterminer â[Link] que 80%
Interpréter des individus ont
le résultat.
20‐30 11 moins de cet âge. Interpréter le résultat.
4.Déterminer l’âge de 80% des individus qui ont
30‐40 7 l’âge le plus élevé. Interpréter le résultat.
40‐50 1
[Link] la variance et l’écart type. Interpréter le
50‐60 3
résultat.
60‐70 1
6. Déduire le coefficient de variation. Que peut-on
dire quant à la dispersion des âges dans cette série?
125
Indicateurs de concentration
• Les indicateurs de concentration sont des indicateurs qui mesurent le degré d’inégalité dans la répartition de la
somme des observations.
• Une condition est nécessaire pour calculer ces indicateurs, est telle que la somme des observations doit avoir un
sens et les données bien évidemment doivent être quantitatives.
• La concentration concerne l’intensité du groupement des données. Elle ne s’applique qu’à des variables
continues à valeurs positives et pour des ensembles statistiques dont chaque élément est affecté d’un caractère
susceptible d’addition.
• La concentration peut se caractériser, soit par un procédé graphique (courbe de Lorenz) soit par le calcul (Indice
de Gini). On peut souligner que la concentration n’est pas l’inverse de la dispersion.
126
63
03/05/2023
Indicateurs de concentration
❖ Courbe de Lorenz
• L’idée de base du graphique de Lorenz est de représenter la plus ou moins grande dispersion (plus ou moins
grande concentration) d’une masse (de richesses, de revenus, de surfaces, etc.) au sein d’une population par un
graphique inscrit dans un carré : l’axe des abscisses et celui des ordonnées varient de 0 à 100.
• La courbe de concentration est réalisée à partir des calculs précédents. On la dessine en utilisant des effectifs
cumulés croissants (nicc) (ou ficc) et les masses relatives cumulées croissantes (nixicc) (ou fixicc).
• Les fréquences ou les effectifs cumulés croissants sont portées en abscisses. Sur l’axe des abscisses, on mesure la
progression de la somme cumulée (nicc%), exprimée en pourcentage, des unités statistiques de la population
(rangées par ordre croissant des valeurs de la masse à répartir).
127
Indicateurs de concentration
❖ Courbe de Lorenz
• Sur l’axe des ordonnées, on mesure la progression de la somme cumulée de la masse (nixicc%), exprimée en
pourcentage de la masse totale, que les unités statistiques de la population considérée se partagent
• La courbe de Lorenz est inscrite dans le carré de côté 100, quand les effectifs (ou fréquences) sont exprimés en
pourcentage. Plus la courbe de Lorenz est éloignée de la diagonale, qui représente la distribution théorique d’égale
répartition, plus la concentration est forte.
• La surface de concentration est comprise entre la courbe de Lorenz et la diagonale. Plus cette surface est grande,
plus la concentration est forte.
• On peut aussi ne pas assister à une concentration (concentration=0), on parle d’une parfaite égalité et donc on
conclut que la répartition est parfaitement égalitaire si la courbe de Lorenz est confondue avec la droite de parfaite
égalité.
128
64
03/05/2023
Indicateurs de concentration
❖ Courbe de Lorenz
129
Indicateurs de concentration
❖ Courbe de Lorenz
130
65
03/05/2023
Indicateurs de concentration
❖ Courbe de Lorenz
Exemple
Reprenant l’exemple des réserves de pétrole.
Exemple
Reprenant l’exemple
Tracer la courbe précédant
de Lorenz . Tracerle résultat.
et commenter la courbe de Lorenz et
commenter le résultat.
Réserves de pétrole Nombre de pays
0 – 10 10
10 – 50 8
50 – 100 3
100 ‐ 275 4
131
Indicateurs de concentration
❖ Courbe de Lorenz
100,00%
80,00%
50
10 5 50 10 40% 4% 70,00%
290 60,00%
8 30 240 18 72% 23%
50,00%
515 40,00%
3 75 225 21 84% 41%
30,00%
1265 20,00%
4 187,5 750 25 100% 100%
10,00%
0,00%
25 1265 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% 90,00% 100,00%
132
66
03/05/2023
Indicateurs de concentration
❖ Courbe de Lorenz
Interprétation des résultats : la courbe de Lorenz tracée s’éloigne de la droite de parfaite égalité (droite
en rouge), ce qui indique une forte concentration des réserves de pétrole.
Donc l’intensité de la concentration est confirmée par les deux indices: L’écart médian et la courbe de
Lorenz.
133
Indicateurs de concentration
• l’indice de Gini (IG) est un indicateur synthétique d’inégalités des salaires, de revenu, de niveau de vie…
• L’inégalité est d’autant plus forte que l’indice de Gini est élevé.
• L’IG oscille entre 0 et 1. il est égal à 0 dans une situation idéale d’égalité parfaite de répartition des revenus (par
exemple), égal à 1 dans la situation la plus inégalitaire possible, celle où tous les salaires sauf un sans nuls. Une baisse de
l’indice de Gini observé entre deux date indique une diminution globale des inégalités. En revanche une élévation de
l’indice reflète une augmentation globale des inégalités.
• La détermination de l’indice de Gini est faite en rapportant la surface de concentration à la surface totale.
134
67
03/05/2023
Indicateurs de concentration
135
Indicateurs de concentration
L’indice de Gini (IG) est un nombre sans dimension, compris entre 0 et 1, que l’on exprime parfois en pourcentage.
• SiIG est proche de 0, la concentration est faible, la courbe de Lorentz est proche de la diagonale ;
• Si IG est proche de 1, une forte concentration, la courbe de Lorentz est proche des côtés OA et AB; si la
concentration est proche de 1, cela signifie qu’une très faible fraction de modalités se partage la quasi-totalité de la
masse totale
136
68
03/05/2023
Indicateurs de concentration
L’indice de Gini IG mesure la concentration, plus il est grand, plus la concentration est importante. Il existe
plusieurs formules pour calculer cet indice, on peut proposer de l’évaluer selon la formule suivante :
Les xi désignent les valeurs prises par la variable sur la part cumulée de la population étudiée, et yi désignent les
valeurs prises par la variable sur la part cumulée de la masse à répartir.
Une autre formule plus simple :
Les fi désignent les fréquences relatives de la variable et les F'i désignent les fréquences relatives cumulées de la
masse de la variable.
137
Indicateurs de concentration
Calcul de IG:
𝒉𝒂𝒖𝒕𝒆𝒖𝒓×𝒃𝒂𝒔𝒆 𝟏𝟎𝟎×𝟏𝟎𝟎
Aire du
Aire du triangle
triangle OAB
OAB =
= 𝒉𝒂𝒖𝒕𝒆𝒖𝒓×𝒃𝒂𝒔𝒆 =
= 𝟏𝟎𝟎×𝟏𝟎𝟎
== 5000
5000
𝟐 𝟐
Si on note :S1 : aire de concentration ; et S2 : aire en dessous de l’aire de
concentration
On peut donc écrire aire du triangle OAB = S1+ S2 =5000
Si on remplace S1 par sa valeur, on trouve S1=5000-S2
On peut automatiquement réécrire la formule de l’indice de Gini
138
69
03/05/2023
Indicateurs de concentration
Calcul de la surface S2
S2 est composée d’un triangle et d’une suite de trapèze. S2 est donc la somme du triangle
et des trapèzes.
Nous rappelons qu’on obtient l’aire d’un trapèze en appliquant la formule suivante :
L’aire du trapèze = hauteur × (grande base + petite base) / 2.
Hauteur du trapèze c’est la différence des nicc%
Pour le premier trapèze : la hauteur = nicc2 %- nicc1 %
Pour le deuxième trapèze : la hauteur = nicc3 % - nicc2 %, de même pour le calcul de la
hauteur pour les autres trapèzes.
La petite base et la grande base du trapèze c’est la somme des nixicc%
𝒉𝒂𝒖𝒕𝒆𝒖𝒓 × 𝒃𝒂𝒔𝒆 𝒏𝒊𝒙𝒊𝒄𝒄% × 𝒏𝒊𝒄𝒄%
L’aire du premier triangle = =
𝟐 𝟐
139
Indicateurs de concentration
140
70
03/05/2023
Série d’exercices n° 5
❖ Exercice 1
Nous disposons des données suivantes sur les salaires perçus par les employés d’une PME.
TA F :
1. Tracer et commenter la courbe de Lorenz.
2. Calculer et interpréter l’indice de Gini.
141
Série d’exercices n° 5
❖ Exercice 2
La réparation des clients de la société ALPHA en fonction de leur salaire a donné les résultats suivants :
T.A.F :
Déterminer et interpréter les indicateurs de dispersion suivants :
1. L’étendu
2. L’écart absolu moyen
3. L’écart type
4. Le coefficient de variation
142
71
03/05/2023
Série d’exercices n° 5
❖ Exercice 3
TA F :
1. Tracer et commenter la courbe de Lorenz.
2. Calculer et interpréter l’indice de Gini.
143
Série d’exercices n° 5
❖ Exercice 4
Nombre de Nombre 1- Sachant que le nombre de salariés moyen est de 47,5 calculez la limite
salariés d’entreprises fi ficc
supérieure de la dernière classe et trouvez les valeurs manquantes.
10 ‐ 20
2- Déterminez le mode et la médiane. Interprétez vos résultats.
8 0,1 …
3- Déterminez l’intervalle contenant 50% des observations. Déterminez
20 ‐ 30
… … 0,225 l’amplitude de cet intervalle. Interprétez vos résultats.
144
72
03/05/2023
145
Très souvent dans la pratique, on constate qu'il existe des relations entre deux ou plusieurs variables. Quatre
notions peuvent caractériser la relation entre deux variables statistiques :
146
73
03/05/2023
147
La présentation d’une série bivariée peut être sous forme d’un tableau de contingence, qui peut être
défini comme :
• Un tableau à double entrée ou à deux dimensions.
• Un tableau avec deux variables X et Y, tel que les m modalités de X sont désignées par X1, X2,…Xi…Xm
et les n modalités de Y sont désignées par Y1, Y2,…. Yj,…Yn.
• Un tableau avec m lignes et n colonnes comme illustré dans le tableau ci-dessous, tel que m et n
sont les nombres de modalités de la variable X et de la variable Y respectivement.
148
74
03/05/2023
Tableau de contingence
149
❖ Distribution marginale
Dans un tableau de contingence, si on calcule le total des colonnes, on obtient les effectifs n.1, n.2,…, n.j…, n.n qui
constituent la distribution marginale d’Y. De même, si on calcule le total des lignes, on obtient n1., n2.,…, ni.,…, nm
et qui constituent la distribution marginale de X. Les deux distributions sont illustrées dans le tableau ci-dessous :
150
75
03/05/2023
❖ Distribution marginale
Tel que :
• ni. est le nombre d’observations de la modalité Xi de X quelle que soit la modalité de Y.
• n.j est le nombre d’observations de la modalité Yj d’Y quelle que soit la modalité de X.
• n.. est le nombre total d’observations quelle que soit les modalités de X et d’Y, il est parfois noté n ++.
On note ainsi les formules de calcul de ni. , n.j et n.. qui sont explicitées ci-dessous :
151
❖ Distribution marginale
Ces deux distributions sont illustrées respectivement dans les deux tableaux ci-dessous :
152
76
03/05/2023
❖ Distribution conditionnelle
Dans un tableau de contingence, si on fixe Xi et on garde toutes les modalités d’Y, on obtient une distribution
conditionnelle, qui est la distribution de la variable Y, tel que la modalité de la variable X est égale à Xi.
De même, si on fixe Yj et on garde toutes les modalités de X, on obtient une distribution conditionnelle, qui est la
distribution de la variable X, tel que la modalité de la variable Y est égale à Yj.
Nous illustrons ces deux distributions respectivement dans les deux tableaux ci-dessous :
• La distribution de la variable Y, tel que la modalité de la variable X est égale à X!
153
❖ Distribution conditionnelle
• La distribution de la variable X, tel que la modalité de la variable Y est égale à Y!.
On peut souligner que dans un tableau de contingence, au lieu des effectifs nous pouvons avoir des fréquences.
Nous définirons ainsi les fréquences marginales, les fréquences conditionnelles et les fréquences conjointes.
154
77
03/05/2023
❖ Fréquence conjointe
Soit, une distribution conjointe {(xi, yj, nij , i=1…m, j=1…n)}, pour i fixé entre 1 et m et j fixé entre 1 et n, la fréquence
conjointe est égale à : fij = nij / n..
❖ Fréquence marginale
Pour i fixé entre 1 et m, la fréquence marginale colonne est égale à (fi. = ni. / n..). Si on calcule pour toutes les
colonnes les fréquences nij/n.j tel que j=1…n ; on obtient les profils colonnes des individus statistiques.
Pour j fixé entre 1 et n, la fréquence marginale ligne est égale à (f.j = n.j / n..). Si on calcule pour toutes les lignes
les fréquences nij/ni. tel que i=1…m ; on obtient les profils lignes des individus statistiques.
155
❖ Fréquence conditionnelle
• Pour k fixé entre 1 et m et l fixé entre 1 et n, la fréquence conditionnelle ligne est égale à
(fj=l/i=k = nkl / nk.). Etablir les profils lignes consiste de ce fait à calculer toutes ces fréquences.
• Pour k fixé entre 1 et m et l fixée entre 1 et n, la fréquence conditionnelle colonne est égale
à (fi=k/j=l = nkl / n.l). Etablir les profils colonnes consiste à calculer toutes ces fréquences.
156
78
03/05/2023
❖ Covariance
• On définit la covariance de deux variables statistiques par la moyenne arithmétique des produits des
différences des observations par rapport à leur moyenne :
• Dans le cas d'une série statistique double
x1, x2, x3, ……xi, ......, xn
y1, y2, y3, ……yi, ......, yn
La relation entre deux variables statistiques est croissante ou décroissante, c'est à dire selon que les
valeurs élevées d'une série correspondent aux valeurs élevées de l'autre ou l'inverse, selon que la
covariance est positive ou négative.
NB: On peut aussi ne pas trouver de liaison entre deux variable la covariance dans ce cas
peut être nulle
157
❖ Covariance
158
79
03/05/2023
❖ Covariance
Les données suivantes représentent les
les notes
notes de
de statistique
statistique (Yi)
(Yi)etetde
demathématique
mathématique(Xi)
(Xi)obtenues
obtenuespar
par99étudiants
étudiantslors
lors
d’une évaluation. Calculer la covariance. Que peut on dire de la relation entre les notes de statistique et de
mathématique?
¯¯ = ∑
∑KK i 108 108
𝑿
𝑿 = i =
= 9 = 12
n
Somme ∑
¯¯=
𝒀 ∑FF ii = 111
111
X 12 15 10 13 11 7 16 13 11 108 𝒀 = = 9 = 12,33
n
Y 11 16 12 12 10 9 15 14 12 111 ∑𝑿
∑ 𝑿 𝒊𝒀
𝒀𝒊
𝒊 𝒊
1375
1375
= == 152,77
XiYi 132 240 120 156 110 63 240 182 132 1375 𝒏 9
Cov(x,y) = 152,77 – (12 * 12,33) = 4,77
La covariance est positive, la relation entre les notes de statistique et les notes de mathématique est croissante (les
deux variables varient dans le même sens), un étudiant qui a une bonne note en statistique à, en moyenne, une bonne
note en mathématique. De même un étudiant qui a une mauvaise note en statistique a, en moyenne, une mauvaise
note en mathématique.
159
❖ Diagramme de dispersion
est formé des points moyens conditionnels (xi , yi), et donne une idée de la façon dont
160
80
03/05/2023
❖ Diagramme de dispersion
Application
Reprenant le même exemple des notes. Tracer les nuages de points des notes de statistique en fonction des
notes de mathématique. Interpréter le résultat.
18
16
Le diagramme
Le diagramme de
de dispersion
dispersion confirme
confirme le le résultat
résultat de
de la
la covariance.
covariance.
qu’il existe
14
le nuage
nuage de
de points
points montre
montre qu’il existe une
une relation
relation
Notes de statistique
12 le
10
8
croissante entre
croissante entre les
les notes
notes de
de mathématique
mathématique et
et les
les notes
notes de
de
6
4
statistique. Le nuage de point obtenu ressemble à une droite,
statistique. Le nuage de point obtenu ressemble à une droite,
2
0 on peut
on peut dire
dire que
que la
la relation
relation est
est linéaire.
linéaire.
0 5 10 15 20
Notes de mathématique
161
❖ Notion de corrélation
Le diagramme de dispersion permet d'approcher la nature de la relation entre deux variables statistiques. La
notion de corrélation mesure l'écart entre le nuage de points et la relation considérée. Lorsque cet écart est
nul on parle de corrélation parfaite.
Le coefficient de corrélation linéaire, désigné par r, a pour objet de mesurer l'intensité de la liaison linéaire entre
deux variables statistiques X et Y.
162
81
03/05/2023
❖ Notion de corrélation
Cette définition montre que le coefficient de corrélation possède le même signe que la covariance et qu'il est
toujours compris entre -1 et 1.
163
❖ Notion de corrélation
Le coefficient de corrélation est aussi nommé, la corrélation tout simplement ou le coefficient de corrélation de
Bravais-Pearson. Nous pouvons souligner que :
• Le coefficient de corrélation linéaire r est du même signe que la Cov (X,Y).
• r est toujours compris entre -1 et 1 (-1≤r ≤1).
• Si r=1 ou r=-1 les observations du couple (X, Y) sont parfaitement alignées.
• Le coefficient de corrélation est une mesure de l’intensité du lien linéaire et linéaire seulement unissant deux
variables X, Y.
• Le coefficient de corrélation prend 1 lorsque les points du nuage se positionnent tous parfaitement le long
d’une droite ascendante.
• Le coefficient de corrélation prend -1 lorsque les points du nuage se trouvent sur une
droite de pente négative.
164
82
03/05/2023
❖ Notion de corrélation
165
Coefficient de détermination
Le coefficient de détermination est le carré du coefficient de corrélation linéaire. Il mesure la part de la variation d'une
variable expliquée par l'autre variable.
166
83
03/05/2023
Série d’exercices n° 5
❖ Exercice 1
Le relevé de l’âge des individus d’un groupe de personnes partant pour voyage organisé nous livre les résultats suivants :
T.A.F :
1. Calculer la variance de la série.
2. Déduire l’écart type des âges des personnes du groupe.
3. L’écart type, dans ce cas, a-t-il une signification concrète ?
167
Série d’exercices n° 6
❖ Exercice 2
Soit une entreprise qui veut savoir s'il existe une liaison entre ses dépenses mensuelles de publicité et son chiffre d'affaires
mensuel. Elle étudie donc les chiffres mensuels sur un an qui sont les suivants :
T.A.F :
1. Calculer la covariance entre x et y.
2. Calculer le coefficient de corrélation linéaire simple
et le coefficient de détermination R2.
3. Estimer les paramètres a et b.
4. Estimer le CA prévisionnel pour une dépense de
publicité de 6 000 DH.
168
84
03/05/2023
Série d’exercices n° 6
❖ Exercice 3 :
On veut tester la relation entre le chômage (X) et l’indice du PIB. Vous avez les statistiques du Canada de 1997 à 2009 :
T.A.F :
1. Calculer la covariance entre x et y.
2. Calculer le coefficient de corrélation linéaire simple et le coefficient de détermination R².
169
85