0% ont trouvé ce document utile (0 vote)
25 vues19 pages

Indicateurs de Dispersion en Statistiques

Le document présente les indicateurs de dispersion en statistiques, tels que l'étendue, les quantiles, la variance, l'écart-type et le coefficient de variation. Ces indicateurs permettent d'évaluer la fluctuation des données autour d'une tendance centrale et d'identifier les valeurs extrêmes. Des exemples pratiques illustrent l'application de ces concepts dans l'analyse de données quantitatives.

Transféré par

zizizou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
25 vues19 pages

Indicateurs de Dispersion en Statistiques

Le document présente les indicateurs de dispersion en statistiques, tels que l'étendue, les quantiles, la variance, l'écart-type et le coefficient de variation. Ces indicateurs permettent d'évaluer la fluctuation des données autour d'une tendance centrale et d'identifier les valeurs extrêmes. Des exemples pratiques illustrent l'application de ces concepts dans l'analyse de données quantitatives.

Transféré par

zizizou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

QUANTITATIVE METHODS

BBA 1 BUSINESS MANAGEMENT – FRENCH TRACK

Campus de Lille : Campus de Nice :


Eric-André BILINSKI Nicolas BERNARD
Agnès CARPENTIER Annabelle CAUMEL
Grégoire CAUCHIE Sabine SCHMID
Christophe CHEVAL
Grégory DE LOOZE
2024-2025
Coordinateur du cours : Grégoire CAUCHIE
LEÇON 2
INDICATEURS DE DISPERSION
INTRODUCTION

 Les indicateurs de tendance centrale présentés à la Leçon 1 constituent un moyen de


synthétiser une distribution statistique avec une variable quantitative par un seul nombre.
 Toutefois, ces indicateurs ne donnent aucune information sur la dispersion des données
autour du paramètre de tendance centrale.
 Ils ne permettent pas de déterminer dans quelle mesure les observations fluctuent autour
de la tendance centrale.
 On définit la notion de dispersion (fluctuation ou hétérogénéité autour d’une valeur centrale)
à l’aide de la notion « d’écarts mesurables » :
 Étendue
 Quantiles et écart interquartile
 Variance et écart-type
 Coefficient de variation

3
LEÇON 2 : INDICATEURS DE DISPERSION
PLAN

 I. L’étendue

 II. Les quantiles et l’écart interquartile

 III. La variance et l’écart-type

 IV. Le coefficient de variation

4
I. L’ÉTENDUE

 L’étendue d’une distribution statistique est la différence entre la plus grande valeur observée et la plus
petite, soit xmax – xmin.
 Dans le cas d’une variable continue, on calcule la différence entre la borne supérieure de la dernière classe et la
borne inférieure de la première classe.

Etendue = xmax – xmin = 5379 – 520 = 4859€

Indicateur facile à calculer… mais qui donne très


peu d’information sur la distribution !

Très sensible aux valeurs extrêmes... car l’étendue


dépend justement de ces valeurs !

5
II. LES QUANTILES ET L’ÉCART INTERQUARTILE
 Un quantile d’ordre α, dénoté xα, de la variable X est la valeur de X telle qu’au-moins α% des valeurs
observées soient inférieures à xα
 Le quantile d’ordre α est donc la valeur de X qui partage la population en 2 parties telles que α% se trouvent
dans la première et (1-α)% se trouvent dans la seconde.

 Les quartiles sont les 3 valeurs x25 (ou Q1), x50 (ou Q2), x75 (ou Q3) de X.

 Les déciles sont les 9 valeurs x10 (ou D1),…, x90 (ou D9) de X.

 Les centiles sont les 99 valeurs x1 (ou C1),…, x99 (ou C99) de X.

 Le calcul d’un quantile est similaire à celui de la médiane : il est simplement nécessaire d’ajuster le rang
du quantile que l’on souhaite calculer, c’est-à-dire α%.

6
II. LES QUANTILES ET L’ÉCART INTERQUARTILE

Par interpolation
linéaire !

𝟎, 𝟐𝟓 − 0,217
𝑄 = 1200 + 1900 − 1200 × ≈ 𝟏𝟐𝟕𝟑, 𝟏
Q1 = 8 0,533 − 0,217
Q2 = Me = 12
𝟎, 𝟕𝟓 − 0,692
Q3 = 14 𝑄 = 2600 + 3300 − 2600 × ≈ 𝟐𝟗𝟎𝟓, 𝟑
Par lecture 0,825 − 0,692
D3 = 10 (Même principe pour les autres quantiles…)

C67 = 12

7
II. LES QUANTILES ET L’ÉCART INTERQUARTILE

 A partir de quelles valeurs (petite et grande) peut-on statistiquement affirmer qu’un individu diffère
des autres individus de la distribution ?

 Cela dépend de la dispersion des valeurs au sein de la distribution…

 L’écart interquartile (ou étendue de la moitié centrale) est égal à la différence entre le 3ème
quartile et le 1er quartile : EIQ = Q3 – Q1

 Le calcul de l’écart interquartile permet d’appréhender la présence de valeurs extrêmes, ou


anormales (on parle aussi de valeurs aberrantes ou d’« outliers », cf. leçon 1). Il s’agit plus
précisément de calculer le saut statistique pour les déterminer :

Saut = 1,5 × (Q3 – Q1)

 Les valeurs aberrantes sont les valeurs :


 Supérieures à Q3 + 1 saut (seuil supérieur)
 Inférieures à Q1 – 1 saut (seuil inférieur)

8
II. LES QUANTILES ET L’ÉCART INTERQUARTILE

 Exemple : relevé des températures à Lille sur les 30 derniers jours

EIQ = Q3 – Q1 = 25 – 20 = 5

Saut = 1,5×EIQ = 1,5×5 = 7,5

Valeurs « extrêmes » :

Seuil supérieur = Q3 + 1 saut = 32,5


Seuil inférieur = Q1 – 1 saut = 12,5

 Les jours pendant lesquels il a fait moins de 12,5°C sont considérés comme « anormalement »
froids par rapport à cette distribution, soit 2 jours.

 Les jours pendant lesquels il a fait plus de 32,5°C sont considérés comme « anormalement »
chauds par rapport à cette distribution, soit 0 jour.

9
II. LES QUANTILES ET L’ÉCART INTERQUARTILE
Représentation graphique de la dispersion des données

 La « boîte à moustaches » (ou : box plot, box and whisker plot)


 Exemple : la pizzeria Gregzypizz’ offre la livraison dans un rayon de 15km et Greg,
le gérant, souhaite obtenir de l’information sur les temps de livraison-« types ».
Il considère un échantillon de 20 livraisons, et obtient les données suivantes :
 Min = 13’ ; Q1 = 15’ ; Me = 18’ ; Q3 = 22’ ; Max = 30’
Commentaires :
Et si Greg proposait d’offrir
la pizza pour toute durée de
livraison « anormale », quel
temps un livreur ne devrait-il
pas dépasser..?

Note : les extrémités des moustaches peuvent aussi correspondre aux seuils des outliers,
10
pour les représenter de part et d’autre.
III. LA VARIANCE ET L’ÉCART-TYPE
Mesurer la « dispersion moyenne »
 L’écart-type, noté s (échantillon) et σ (population), est vraisemblablement l’indicateur le plus fréquemment
utilisé pour mettre en évidence la dispersion d’une distribution.
 L’écart-type se calcule par la racine carrée de la variance.
 Notations de la variance de X : 𝑉𝑎𝑟 𝑋 = 𝑉 𝑋 = 𝑠 𝑋 dans un échantillon et σ 𝑋 dans la population.
 La variance (ou écart quadratique moyen) se définit comme la moyenne arithmétique des carrés des
écarts à la moyenne. 2 méthodes (résultats parfaitement identiques ssi la moyenne n’est pas arrondie) :
Tableau élémentaire Tableau de dénombrement
1 1
𝟏. 𝑉 𝑋 = 𝑥 − 𝑥̅ ou 𝑉 𝑋 = 𝑓 𝑥 − 𝑥̅ 𝟏. 𝑉 𝑋 = 𝑛 𝑥 − 𝑥̅ ou 𝑉 𝑋 = 𝑓 𝑥 − 𝑥̅
𝑁 𝑁

ou d’après le théorème de König-Huyghens : ou d’après le théorème de König-Huyghens :

1 1
𝟐. 𝑉 𝑋 = 𝑥 − 𝑥̅ ou 𝑉 𝑋 = 𝑓 𝑥 − 𝑥̅ 𝟐. 𝑉 𝑋 = 𝑛 𝑥 − 𝑥̅ ou 𝑉 𝑋 = 𝑓 𝑥 − 𝑥̅
𝑁 𝑁

Remarque : par simplification, nous ne considérons pas la notion de variance empirique corrigée (par N-1).
11
Retenez simplement que lorsque N est suffisamment grand, alors la différence est anecdotique.
III. LA VARIANCE ET L’ÉCART-TYPE
Mesurer la « dispersion moyenne »
Tableau élémentaire
1
𝟏. 𝑉 𝑋 = 𝑥 − 𝑥̅
𝑁

3000 − 2131,75 + 1737 − 2131,75 + ⋯ +


3011 − 2131,75 + 2329 − 2131,75
= = 𝟏𝟐𝟑𝟓𝟔𝟐𝟖, 𝟓𝟓
120

ou

1
𝟐. 𝑉 𝑋 = 𝑥 − 𝑥̅
𝑁

3000 + 1737 + ⋯ + 3011 + 2329


= − 2131,75 = 𝟏𝟐𝟑𝟓𝟔𝟐𝟖, 𝟓𝟓
120

12
III. LA VARIANCE ET L’ÉCART-TYPE
Mesurer la « dispersion moyenne »
Tableau de dénombrement
1
𝟏. 𝑉 𝑋 = 𝑛 𝑥 − 𝑥̅
𝑁

26 × 850 − 2133,33 + 38 × 1550 − 2133,33 + ⋯ +


6 × 4350 − 2133,33 + 3 × 5050 − 2133,33
=
120
≈ 𝟏𝟐𝟒𝟒𝟎𝟓𝟓, 𝟓𝟔
ou
1
𝟐. 𝑉 𝑋 = 𝑛 𝑥 − 𝑥̅
𝑁

26 × 850 + 38 × 1550 + ⋯ + 6 × 4350 + 3 × 5050


= − 2133,33
120
= 𝟏𝟐𝟒𝟒𝟎𝟔𝟗, 𝟕𝟖

13
III. LA VARIANCE ET L’ÉCART-TYPE
Interprétation
 Sensible aux valeurs extrêmes
 La variance s’exprime sans unité, elle est donc difficilement interprétable. Pour
l’interprétation, on préfèrera l’écart-type qui présente l’avantage d’être exprimé dans la
même unité que celle de la variable X.
 L’écart-type mesure la fluctuation moyenne des valeurs autour de la moyenne de la
variable.
moyenne = 15,5
écart-type = 3,34

moyenne = 15,5
écart-type = 0,93

moyenne = 15,5
écart-type = 4,57

14
III. LA VARIANCE ET L’ÉCART-TYPE
Interprétation

 Variance de X ≈ 𝟏𝟐𝟒𝟒𝟎𝟓𝟓, 𝟓𝟔

 Ecart-type de X = 𝑠(𝑋) = 𝑉𝑎𝑟(𝑋) ≈ 𝟏𝟐𝟒𝟒𝟎𝟓𝟓, 𝟓𝟔 ≈ 1115,38 €

 Ce résultat signifie qu’en moyenne, la dispersion des valeurs


autour du salaire moyen (2133,33€) est de + ou – 1115,38 €.

 Ou encore, plus concrètement : en moyenne, le salaire des


employés varie (ou s’écarte) de + ou – 1115,38€ du salaire moyen.

15
IV. LE COEFFICIENT DE VARIATION

 L’écart-type dépend de l’ordre de grandeur des valeurs observées.


 Pour comparer la dispersion de plusieurs distributions de valeurs, il est préférable d’utiliser un
indicateur indépendant de l’unité de mesure de la variable et de l’ordre de grandeur des
observations : le coefficient de variation.

 Il s’agit d’un indicateur de dispersion relative.


 Il s’exprime en pourcentage (de la moyenne) et est très utile pour comparer des variables dont
les moyennes et variances diffèrent.

16
IV. LE COEFFICIENT DE VARIATION
Exemple A

 En France, on observe un salaire net mensuel moyen de 2225€ en 2014 (Insee)


avec un écart-type de 1000€. Au Japon, on observe un salaire net mensuel moyen
de 351000 Yens en 2014 avec un écart-type de 75000 Yens. Dans quel pays la
dispersion des salaires est-elle la plus élevée ?

 CVFRA = 1000/2225 = 0,45 soit 45%


 CVJAP = 75000/351000 = 0,21 soit 21%

 Le CV permet ainsi de « neutraliser » l’effet de l’unité de mesure dans la


comparaison de la dispersion des valeurs autour de la moyenne de plusieurs
distributions.

 Le CV est également un bon outil opérationnel pour mesurer le rapport


rendement/risque en décision d’investissements (cf. critère de Markowitz et ratio
de Sharpe)

17
IV. LE COEFFICIENT DE VARIATION
Exemple B
 Généralement, 0 ≤ 𝐶𝑉 ≤ 1…
…mais statistiquement 𝐶𝑉 ∈ 0; +∞
 Pour des données très dispersées, le CV peut être > 1
 Exemple ci-contre, avec X=densité de population en
2019 dans le monde :

 N = 236
 min = 0,14 (Groenland)
 max = 24855 (Monaco)
 D1 = 15,24 𝟐𝟐𝟏𝟐, 𝟗𝟏
 Me = 94,90 𝑪𝑽 𝑿 = = 𝟒, 𝟖𝟒
𝟒𝟓𝟕, 𝟏𝟏
 D9 = 526,86
 C99 = 7970,26
 𝒙 = 𝟒𝟓𝟕, 𝟏𝟏
 𝒔 𝑿 = 𝟐𝟐𝟏𝟐, 𝟗𝟏
En moyenne, les densités de population s’écartent de ±484% de la densité moyenne !

Source : World Population Prospects, Population Division, Department of Economic and Social Affairs, United Nations.
18

Vous aimerez peut-être aussi