100% ont trouvé ce document utile (1 vote)
155 vues85 pages

Statistiques Descriptives: Tendance et Variabilité

Ce chapitre présente les principales mesures de tendance centrale utilisées pour décrire les données statistiques, notamment la moyenne, la médiane et le mode. Les formules de calcul et les exemples d'utilisation de chacune de ces mesures sont détaillés.

Transféré par

Sidi Amar Ahmed Adnan
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
155 vues85 pages

Statistiques Descriptives: Tendance et Variabilité

Ce chapitre présente les principales mesures de tendance centrale utilisées pour décrire les données statistiques, notamment la moyenne, la médiane et le mode. Les formules de calcul et les exemples d'utilisation de chacune de ces mesures sont détaillés.

Transféré par

Sidi Amar Ahmed Adnan
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 3

Calcul des
statistiques
descriptives

Ali.B 3-1
Chapitre 3
Calcul des statistiques descriptives
Agenda
3.1 Les mesures de tendance centrale

3.2 Les mesures de variabilité

3.3 Utiliser la moyenne et l’écart-type ensemble

3.4 Le cas des données groupées

3.5 Les mesures de position

3.6 Les mesures d’association entre deux variables

Ali.B 3-2
3.1 Les mesures de tendance centrale

La tendance centrale est une valeur utilisée


pour décrire le point central d’une série
statistique
Les mesures de tendance centrale

Moyenne Médiane Mode

Moyenne
pondérée

Ali.B 3-3
La moyenne arithmétique
La moyenne arithmétique est la mesure de
tendance centrale la plus commune.
• On calcule la moyenne en additionnant
l’ensemble des valeurs et en divisant par le
nombre d’observations.

Ali.B 3-4
La moyenne arithmétique
Formule pour la moyenne d’échantillon :
Où = la moyenne de l’échantillon
= les valeurs observées

= la somme des valeurs


observées

n = le nombre total d’observations


Prononcée dans l’échantillon
“xbar”

Taille de l’échantillon Valeurs observées

Ali.B 3-5
La moyenne arithmétique
Formule de la moyenne de la population

où = la moyenne de la population
(lettre greque “myou”)

N = Le nombre de valeurs à
observer dans la population

Ali.B 3-6
Calcul de la moyenne arithmétique
Exemple :
Un échantillon de taille n = 5 donne les valeurs
suivantes :
6,2 7,1 4,8 9,0 3,3

La moyenne est :

Ali.B 3-7
La moyenne pondérée
Une moyenne pondérée vous permet d’allouer
plus de poids à certaines valeurs et moins de
poids à d’autres
• Formule de la moyenne pondérée:

où 𝑖 = le poids ou fréquence de chaque


observation
𝑛

𝑓𝑖 = la somme de tous les poids


𝑖=1

Ali.B 3-8
Exemple de moyenne pondérée

Dans le tableau ci-dessous, le nombre de jours


travaillés par semaine avec n = 20 semaines :
# de jours fréquence
3 4
4 7
5 6
6 3

• Vous avez travaillé 4 jours le plus souvent et 6 jours le moins


• Pour calculer la moyenne de jours travaillés par semaine, il faut
donner donc plus de poids pour 4 jours et moins de poids pour six
jours.
• Les fréquences représentent le poids.
Ali.B 3-9
Calcul de la moyenne pondérée
# jours de travail Fréquence
3 4
4 7
5 6
6 3
La moyenne pondérée:

4
𝑖=1 𝑖 𝑖
(4)(3) + (7)(4) + (6)(5) + (3)(6)
4
𝑖=1 𝑖 4+7+6+3

La moyenne de jours travaillés par semaine est de 4.4 jours.


Ali.B 3-10
Avantages et inconvénients d’utiliser la
moyenne pou résumer les données
Avantages :
• Facile à calculer
• Donne une seule valeur
Inconvénients :
• Une seule valeur informe peu sur les données:
• Echantillon 1 avec n = 3: 999, 1000, 1001 = 1000
• Echantillon 2 avec n = 3: 0, 1000, 2000 = 1000
• Le simple fait de connaître la moyenne ne vous permet pas
de connaitre la distribution des données.
• La moyenne est sensible aux valeurs aberrantes (les
valeurs qui sont beaucoup plus grandes ou beaucoup
plus petites comparées aux autres valeurs).

Ali.B 3-11
La Médiane
La médiane (M) est la valeur parmi l'ensemble des données
pour laquelle la moitié des observations est supérieure et
l’autre moitié des observations est inférieure.
• Commencez par organiser les données par ordre
croissant.
• Calculer un indice pour déterminer la position de la
médiane dans l'ensemble de données.
Formule pour l’indice de la médiane :

i = 0.5(n), où n = nombre d’observations

Si la valeur obtenue n’est pas un nombre entier, arrondir au


nombre entier suivant.
Ali.B 3-12
La Médiane
Exemple pour un échantillon de n = 7:
21 27 27 28 34 45 50
• L’indice obtenu :
i = 0.5(n) = 0.5(7) = 3.5

Le nombre obtenu n’est pas entier, donc arrondir


à i = 4.
Une fois les observations organisées par ordre
croissant, la valeur de la médiane est donc 28
21 27 27 28 34 45 50

Ali.B 3-13
La Médiane

La médiane n’est pas sensible aux valeurs


aberrantes.
21 27 27 28 34 45 5000
• La médiane est toujours 28

Si le nombre des observations est impair, la


médiane est toujours la valeur se situant au
milieu de la série statistique.

Ali.B 3-14
La Médiane

Lorsque l’indice est un nombre pair et entier,


la position de la médiane est à mi-chemin
entre l’indice (i) and l’observation supérieure
(la position i + 1).

Lorsque il y a un nombre pair d’observations,


la valeur de la médiane est entre les deux
observations se situant au milieu de la série.

Ali.B 3-15
La Médiane
Exemple avec un échantillon de n = 6:
145 157 170 182 204 209
• L’indice est :
i = 0.5(n) = 0.5(6) = 3

La valeur de la médiane est entre les deux observations


se situant au milieu de la série, c’est-à-dire la troisième
et la quatrième observation.

145 157 170 182 204 209


Médiane = (170 + 182)/2 = 176

Ali.B 3-16
Le Mode

Le mode est la valeur qui apparaît le plus dans


la série statistique.
• Si aucune valeur ne se répète plus d'une fois,
nous disons qu’il n’y a pas de mode.
• Plusieurs modes peuvent exister si deux valeurs
ou plus sont aussi fréquentes.

Ali.B 3-17
Le Mode
Exemple avec des données quantitatives :
• Nombre d’enfants par famille sur un échantillon de
24 familles :
0,0,0,0,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,4,5

Nombre Fréquence
d’enfants
0 4
1 5
2 8
0 1 2 3 4 5
3 4
4 2
5 1
Mode = 2

Ali.B 3-18
Le Mode

Exemple avec des données qualitatives :


Voitures observées au parking

Marque Nombre au parking


Acura 3
Ford 5
BMW 1
Toyota 7

• La voiture la plus féquente est la Toyota (7 fois),


donc le mode ici est la marque Toyota.

Ali.B 3-19
Exemple complet

Les prix de cinq maisons ont été relevés :


Prix des maisons : ▪ Moyenne: ($3,000,000/5)
2,000,000 DH = 600,000 DH
500,000
300,000 ▪ Médiane: Valeur au milieu
100,000
100,000
= 300,000 DH
Total 3,000,000 ▪ Mode: Apparaît le plus souvent
= 100,000 DH
On remarque dans cet exemple que les trois mesures
de tendance centrale donnent des résultats différents
Ali.B 3-20
Les formes des distributions

Forme

Symétrique Asymétrique

Etalée à Etalée à
gauche droite

Moyenne Moyenne Médiane Médiane Moyenne


Médiane

Moyenne = Médiane Moyenne< Médiane Médiane < Moyenne

Ali.B 3-21
Utiliser Excel pour calculer les mesures
de tendance centrale
Voici les trois fonctions Excel

Exemple: le nombre de
souscriptions à des
revues électroniques
pour 12 foyers

• Si pas de mode, Excel affiche “#N/A”


• Si plus d’un mode, Excel affiche seulement un.
• Excel n’affiche pas de mode pour les données qualitatives.

Ali.B 3-22
Utiliser Excel pour calculer les mesures
de tendance centrale
Les valeurs sont obtenues avec les fonctions
Excel ou l’outil utilitaire d’analyse.
2
1

Choisir l’outil
“statistiques
descriptives”
3

Ali.B 3-23
Utiliser Excel pour calculer les mesures
de tendance centrale
Output de Statistiques descriptives :

Ali.B 3-24
Quelle mesure pour quel usage?

La moyenne est très utilisée car elle est facile à


calculer et à interpréter.

Dans la présence de valeurs aberrantes, la


médiane est souvent utilisée car celle-ci n’est pas
influencée par ce type de valeurs.
Pour les données qualitatives, le mode est la seule
mesure de tendance centrale possible.

Ali.B 3-25
Avantages et inconvénients

Moyenne Médiane Mode

Avantages • Facile à calculer • Non influencée • Valable pour les


• Facile à par les valeurs données
comprendre aberrantes qualitatives

Inconvénients • Influencée par • Son calcul peut • Absent dans


les valeurs s’avérer certaines séries
aberrantes laborieux • Il peut y avoir
plus d’un mode

Ali.B 3-26
3.2 Les mesures de variabilité

Les mesures de variabilité (dispersion) révèlent


la quantité de dispersion présente dans les
données.
Mesures de variabilité

Etendue Variance Ecart-type

Pour un échantillon Pour un échantillon

Pour une population Pour une population

Ali.B 3-27
Etendue
Simple à calculer
La différence entre la valeur maximum et la
valeur minimum

Etendue= Valeur max– Valeur min

Exemple: 1, 2, 4, 4, 6, 8, 8, 8, 8, 9, 11, 11, 12, 13

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Etendue = 13 - 1 = 12
Ali.B 3-28
Etendue
Avantages:
• Facile à calculer et à comprendre
Inconvénients:
• Basée seulement sur deux valeurs
(Aucune idée sur la distribution des données )
• Sensible aux valeurs aberrantes
Exemple:

1, 2, 4, 4, 6, 8, 8, 8, 8, 9, 11, 11, 12, 13 Etendue= 12

1, 2, 4, 4, 6, 8, 8, 8, 8, 9, 11, 11, 12, 1000 Etendue= 999

Avec une seule valeur qui change, l’étendue ne


reflète pas la variabilité réelle au sein de la série
Ali.B 3-29
La variance et l’écart-type

• La variance corrigée (de l’échantillon) s’écrit s2

Formule :

Où = moyenne de l’échantillon
n = taille de l’échantillon
= la différence entre chaque observation
et la moyenne de l’échantillon

Ali.B 3-30
Calcul de la variance

Exemple : 4 6 8 9 11 12 12 18

n=8 Moyenne = = 10

La variance mesure la
variabilité des points observés
autour de la moyenne.

Ali.B 3-31
L’écart-type

L’écart-type est la racine carrée de la


variance.
• Possède la même unité que les données.

Formule de l’écart-type corrigé :

Ali.B 3-32
Calcul de l’écart-type corrigé

Données
E l’échantillon (xi) : 4 6 8 9 11 12 12 18
n=8 Moyenne = = 10

Mesure la distance, en
Moyenne, de chaque point
observé par rapport à la
moyenne

Ali.B 3-33
Des formules simplifiées

Formules équivalentes mais appropriées pour le


calcul manuel:
Formule de la
variance :

Formule de l’écart-
type :

Ali.B 3-34
La variance et l’écart-type de la
population
Utilisés pour décrire la population entière et
non un échantillon

Formule de la variance :

Où = moyenne de la population
N = taille de la population
= la différence entre la valeur de chaque
point observé et la moyenne de la
population
Ali.B 3-35
La variance et l’écart-type de la
population
Utilisés lorsque la série statistique représente
toute la population

Formule de l’écart-type :

where = Moyenne de la population


N = taille de la population
= la différence entre la valeur de chaque
point observé et la moyenne de la
population
Ali.B 3-36
Des formules simplifiées

Equivalentes aux formules précédentes mais


appropriées pour le calcul manuel:
Formule de
la variance : Moyenne des carrés – moyenne au carré

Formule de
Moyenne des carrés –
l’écart-type :
moyenne au carré

Ali.B 3-37
Exemple avec les formules
simplifiées
On suppose les effectifs des classes de mathématiques suivants :
34 25 41 32 25 29

Taille de la classe (Xi) Xi²

34 1156

25 625

41 1681

32 1024

25 625

29 841

Somme 186 Somme des carrés 5952

∑ ∑
= = 31

Ali.B 3-38
Utiliser Excel pour le calcul de la variance
et de l’écart-type
Les fonctions Excel pour la variance et l’écart-
type d’un échantillon:
=VAR.S(nombres)
=[Link](nombres)

Les fonctions Excel pour la variance et l’écart-


type d’une population:
=VAR.P.N(nombre)
=[Link] (nombres)

Ali.B 3-39
Utiliser Excel pour le calcul de la
variance et de l’écart-type
A partir du résultat de l’outil Excel Statistiques
Descriptives :

Ali.B 3-40
3.3 Utiliser la moyenne et l’écart-type
ensemble
En gestion, l’écart-type est un outil de mesure
souvent utilisé pour faire respecter les
standards de qualité.
• L’écart-type mesure la quantité de variabilité
autour de la moyenne.
L’écart-type est affecté par l’unité de mesure.
• Il n’est donc pas pertinent de comparer des écart-
types pour des populations ayant des moyennes
très éloignées.

Ali.B 3-41
Le Coefficient de Variation

Le coefficient de variation, CV, mesure la


quantité de variation en % de la moyenne.
• Un CV élevé indique une forte variabilité par
rapport à la moyenne.
• Un CV bas indique une faible variabilité par
rapport à la moyenne.

Un coefficient plus bas est apprécié car il


indique une cohérence au sein des données
d’une série statistique.

Ali.B 3-42
Le Coefficient de Variation
Formule pour le coefficient de variation d’un échantillon:

Où s = écart-type de l’échantillon
= moyenne de l’échantillon

Formule pour le coefficient de variation d’une population:

Où = écart-type de la population
= moyenne de la population

Ali.B 3-43
Exemple avec le Coefficient de
Variation
Prix de l’action de Nike: Prix de l’action Google:
Prix moyen = $59,67 Prix moyen = $1045,85
Ecart-type = $6,64 Ecart-type = $68,70

Coefficient de Variation:

Nike:

Même si Google a
Google: un écart-type
supérieur, le prix
de son action est
plus cohérent.
Source : [Link]

Ali.B 3-44
Le Score Z

Le score z identifie le nombre d’écart-types d’une valeur


par rapport à la moyenne arithmétique de sa série
statistique.
• Le score z n’a pas d’unité.

Le score z - zero pour les valeurs égales à la moyenne


- positif pour les valeurs au dessus de la moyenne
- negatif pour les valeurs en dessous de la
moyenne
Une valeur ayant un score z supérieur 3 ou inférieur à -3 est
considérée comme valeur aberrante ou extrême (très éloignée de la
moyenne).
Ali.B 3-45
Le Score z
• Formule pour un score z d’une population:
où = la valeur étudiée
= la moyenne de la population
= l’écart-type de la population

• Formule pour un score z d’un échantillon:

où = la valeur étudiée
= la moyenne de l’échantillon
= l’écart-type de l’échantillon

Ali.B 3-46
Exemple avec le Score z
Trouver le score z et interpréter
Nom du hamburger Restaurant Calories
Cheeseburger McDonald's 300
Single with everything Wendy's 470
Big Mac McDonald's 540
Whopper Burger King 677
Bacon Cheeseburger Sonic 820
Baconator Wendy's 970
Question: Quelle est la
Triple Whopper with cheese Burger King 1230
2/3 lb. Monster thickburger Hardee's 1300
distance entre 1230 et la
Moyenne 788,4 moyenne 788,4 en unités
Ecart-type 359,5 d’écart-types?

Réponse: ce burger est au dessus


de la moyenne par plus d’un
écart-type (1,23).
Ali.B 3-47
3.4 Les données groupées

Imaginons que les données ont été groupées en


classes.
• Les valeurs individuelles ne sont plus disponibles.
• Seules les classes sont données sous cette forme
𝑖 𝑠

Pour estimer la moyenne pour la distribution de


fréquence:
• Trouver le centre de chaque classe (le centre est le
point au milieu de chaque classe.)
• Ce centre de classe devient le point représentatif de
la classe.
Ali.B 3-48
La moyenne avec données groupées
Formules pour calculer la moyenne de
l’échantillon avec données groupées:
où 𝑛𝑖 = l’effectif de la classe i
= le centre de la classe i

𝑘 𝑘
𝑓𝑖 = la fréquence relative de la classe i
𝑛= 𝑛𝑖 = le nombre total d’observations
𝑖 𝑖
𝑖=1
𝑖=1 k = le nombre de classes
• La moyenne est seulement une estimation étant donné que le
centre de classe estime la valeur de la classe.
Formule pour la Moyenne 𝑘
de la population avec 𝑖=1 𝑖 𝑖

données groupées :

Ali.B 3-49
La moyenne avec données groupées

Exemple : un magasin en ligne a collecté les


données groupées suivantes pour le nombre de
pages web visitées par un échantillon de ses
clients : Nombre de Fréquence
pages
[1 - 5[ 6
[5 - 9[ 12
[9 - 13[ 10
[13- 17[ 4
Le manager du magasin souhaite calculer le nombre moyen de
pages visitées.

Ali.B 3-50
La médiane avec données groupées
La formule pour calculer la médiane de l’échantillon
avec données groupées:
Où : 𝑖 = la borne inférieure de la classe
médiane
𝑖
𝑖 𝑖−1 𝑎𝑖 = l’amplitude de la classe médiane
𝑖

𝑖 = la fréquence relative de la classe


médiane
𝑖−1 = la fréquence relative cumulée à la
classe précedant la classe médiane
• La moyenne ici est seulement une estimation étant
donné que le centre de classe estime la valeur de la
classe.
Ali.B 3-51
La médiane avec données groupées

Exemple: un magasin en ligne a collecté les données


groupées suivantes pour le nombre de pages web
visitées par un échantillon de ses clients :
Nombre de pages Fréquence

[1 - 5[ 6

[5 - 9[ 12
[9 - 13[ 10
[13- 17[ 4

Le commerçant souhaite calculer la médiane de pages


vues.
Ali.B 3-52
Exemple: la médiane des données
groupées
On détermine d’abord les fréquences cumulées:

Nombre de pages Fréquence 𝑓𝑖 Fréquence 𝐹𝑖


cumulée
[1 - 5[ 6 6/32 = 6 6/32 =
0,1875 0,1875
[5 - 9[ 12 0,375 18 0,5625
[9 - 13[ 10 0,3125 28 0,875
[13- 17[ 4 0,125 32 1
Total 32 1 --- ---
50% est située
au niveau de la
classe 2

Ali.B 3-53
Exemple: la médiane des données
groupées
Le client classé à la position 16 (32/2) divise la série
statistique en deux parties à effectif égal. Cet individu
est situé à la deuxième classe.
En utilisant la formule de la médiane des données
groupées avec fréquences relatives, on obtient :

𝑖
𝑖 𝑖−1
𝑖

Ali.B 3-54
La Variance et l’écart-type pour données
groupées
Formule pour la variance (échantillon): Données groupées
Où : = moyenne de l’échantillon
𝑘 2 𝑖 = la fréquence de la classe i
2 𝑖=1 𝑖 𝑖
= le centre de la classe i

n = total des observations

k = le nombre de classes

Formule pour la variance (population) : Données groupées


𝑘 2
2 𝑖=1 𝑖 𝑖

Ali.B 3-55
La variance et l’écart-type avec données
groupées
Exemple: Nombre de Centre Fréquence
pages (ci) (fi)
[1 - 5[ 3 6
[5 - 9[ 7 12
[9 - 13[ 11 10
[13- 17[ 15 4
Calculer la variance et l’écart-type: Pour rappel: = 8.5.
2
∑𝑘𝑖=1(𝑐𝑖 − 𝑥̅ )2 𝑛𝑖
𝑠 ≈
𝑛−1
(3 − 8.5)2 × 6 + (7 − 8.5)2 × 12 + (11 − 8.5)2 × 10 + (15 − 8.5)2 × 4
=
(6 + 12 + 10 + 4) − 1
440
= = 14.194
31

Donc l’écart-type est:


Ali.B 3-56
3.5 Mesures de position

Les mesures de la position relative


comparent la position d’une valeur par
rapport à d’autres valeurs de la série.
Les mesures de position

Centiles Quartiles

Ali.B 3-57
Centiles

Les centiles mesurent le % de valeurs qui sont en


dessous de la valeur d’intérêt.
Le d’une série (où p est un nombre entre 1 et
100) est la valeur au dessous de laquelle p
pourcentage des valeurs se situent.
Exemple:
• 20% des valeurs se situent en dessous du vingtième
centiles ou 20 .

Ali.B 3-58
Centiles
Pour trouver les centiles manuellement:
• Classer les données du plus petit au plus grand
• Calculer l’indice, i
où: p = le centile voulu
n = le nombre d’observations

Si i n’est pas entier, arrondir au nombre entier suivant.


La position de i est celle recherchée
Si i est un chiffre entier, le centre entres les positions de i et i+1
est la valeur recherchée.
Note: L’indice i n’est pas la valeur du centile mais la
position du centile sur les données classées.
Ali.B 3-59
Centiles
Exemple: l’autonomie KM/l a été collectés pour un
échantillon de 12 voitures. Les données classées sont au
tableau.
Position KM/L Position KM/L
Question: quelle est la valeur de
1 16.2 7 28.3
?
2 18.0 8 31.1
Réponse: 3 20.5 9 32.0
4 20.5 10 35.8
5 22.8 11 38.0
6 26.4 12 42.5
On arrondit à i = 8 donc la valeur
de est la valeur de la 8ème
observation. = 31.1 KM/L

Ali.B 3-60
Quartiles

Les quartiles divisent les données en quatre


groupes de valeurs d’égale amplitude:
• Le premier quartile (Q1) est la valeur qui
correspond au 25ème centile.
• Le second quartile (Q2) est la valeur qui
correspond au 50ème centile.
• A noter que le 2ème quartile est la médiane.
• Le troisième quartile (Q3) est la valeur qui
correspond au 75ème centile.

Ali.B 3-61
Quartiles

Exemple: Déterminer le premier quartile


Données d’échantillon: 11 12 13 16 16 17 18 21 22 22 25
(n = 11)

Q1 = 25ème centile, trouver l’indice i où n = 11 et p = 25:

On arrondit le résultat de i à 3 et donc sa valeur : Q1 = 13

Ali.B 3-62
Quartiles

Les quartiles sont déterminés par Excel avec la fonction


[Link]
Exemple :
[Link](A1:A11;1)

Ali.B 3-63
Ecart interquartile

L’écart interquartile, EIQ, décrit les 50% de


données se situant au milieu de la série.
On détermine l’EIQ en calculant la différence
entre le troisième quartile et le premier
quartile.

EIQ = Q3 – Q1

Ali.B 3-64
Box plot (boîte à moustaches)
Une Box plot est une représentation graphique de la
position relative des trois quartiles par une boîte sur
une ligne.
Cette représentation donne aussi les valeurs extrêmes
et les valeurs aberrantes.
Forme:

* *

Valeurs Valeur min Q1 Médiane Q3 valeur max


aberrantes

Ali.B 3-65
Valeurs aberrantes

Formules pour calculer les limites des valeurs


aberrantes:

Limite sup= Q3 + 1.5 (EIQ)


Limite inf= Q1 – 1.5 (EIQ)

• Les valeurs au-delà de ces limites seront


considérées comme des valeurs
aberrantes.

Ali.B 3-66
Dessiner la box plot (boîte à moustaches)

• Déterminer les trois quartiles : Q1 , Q2 , Q3


• Dessiner une ligne horizontale en précisant les positions de
ces trois quartiles.
• Dessiner une boîte sur la ligne où Q1 et Q3 sont ces limites,
et la médiane (Q2) est représentée par la ligne verticale.
• Des pointillés s’étendent de la boîte vers les valeurs max et
min.
• Si valeurs aberrantes il y a, elle sont représentées par des
astérisques loin de la ligne centrale.

Ali.B 3-67
Exemple: Box plot

Parc Nombre de visiteurs


(million)
n = 15

L’indice de Q1:
Q3

On arrondi la position de
Q2 Q1 à 4.
Q1 = 2.37

Q1
De même, on trouve:
Q2 = 3.27
Q3 = 4.26

Ali.B 3-68
Exemple: Box plot

• On calcule l’EIQ :
EIQ = Q3 – Q1 = 4,26 – 2,37 = 1,89

• On détermine les limites des valeurs aberrantes:


Limite sup= Q3 + 1,5 (EIQ) = 4,26 + 1,5(1,89) = 7,095
Limite inf= Q1 – 1,5 (EIQ) = 2,37 – 1,5(1,89) = -0,465

• La valeur du parc Great Smoky Mountain de


11.31 est supérieure à 7.095 donc c’est une
valeur aberrante. La valeur max est celle de
Grand Canyon à 5,97 qui n’est pas aberrante.
Ali.B 3-69
Exemple: Box plot

• On complète la boîte:

Min Q1 Q2 Q3 Max
0.59 2.37 3.27 4.26 5.97 11.31
(aberrante)

Ali.B 3-70
3.6 Mesures d’association entre deux
variables
Dans cette section, on étudie deux
statistiques descriptives qui mesurent la
relation linéaire entre deux variables.
Les mesures d’association
entre deux variables

La covariance Le coefficient
d’un de correlation
échantillon d’un échantillon

Ali.B 3-71
La covariance de l’échantillon
La covariance de l’échantillon, COV(x,y) , mesure le
sens de la relation linéaire entre deux variables.
• Une relation est dite linéaire si le nuage de points entre la variable
dépendante et la variable indépendante prend une forme linéaire.

La formule est la suivante :


Où: = la moyenne de la variable x
= la moyenne de la variable y
𝑛 = la différence entre chaque observation
𝑖=1 𝑖 𝑖 et la moyenne de la variable x
= la différence entre chaque observation
et la moyenne de la variable y
n = la taille de l’échantillon

La covariance est utile pour décrire uniquement le


sens de la relation et non la force de cette relation.
Ali.B 3-72
Le coefficient de corrélation

Le coefficient de corrélation simple, , mesure


le sens et la force de la relation entre deux variables.
La formule pour le coefficient de corrélation linéaire
est la suivante:

Où : COV(x,y) = La covariance de l’échantillon entre les


𝑥 𝑦 variables x et y
sx = L’écart-type corrigé de la variable x
sy = L’écart-type corrigé de la variable y

Ali.B 3-73
Exemple: Covariance et corrélation

Exemple: Un concessionnaire automobile souhaite


examiner la relation entre le nombre de commerciaux et le
nombre de voitures vendues par semaine.
• Le tableau suivant reprend les données pour 6 semaines:
Semaine Nombre de Nombre de
Deux valeurs sont commerciaux voiture
rapportées pour chaque vendues
semaine: 1 2 4
x : Nombre de 2 5 10
commerciaux 3 3 7
y :Nombre de voitures
4 4 7
vendues
5 3 6
6 4 8
Ali.B 3-74
Exemple: Covariance et corrélation

Nuage de points
Semaine Nombre de Nombre de
commerciaux voitures
(x) vendues (y)
1 2 4
2 5 10
3 3 7
4 4 7
5 3 6
6 4 8

Ali.B 3-75
Calcul de la covariance

Nombre
Nombre de
de voitures
commerciaux vendues
xi y
2 3,5 -1,5 4 7 -3 4,5
5 3,5 1,5 10 7 3 4,5
3 3,5 -0,5 7 7 0 0
4 3,5 0,5 7 7 0 0
3 3,5 -0,5 6 7 -1 0,5
4 3,5 0,5 8 7 1 0,5
= 10

Ali.B 3-76
Calcul de la covariance
Calcul de la covariance:

• Une covariance positive implique une relation


linéaire positive.
(si x augmente, y augmente aussi)
• Une covariance négative indique une relation
linéaire négative.
(si x augmente, y diminue)
• Une covariance proche de 0 indique l’absence de
relation entre les deux variables.
Ali.B 3-77
Calcul du coefficient de corrélation

Calcul du coefficient de corrélation:

𝑥 𝑦

Ali.B 3-78
Le coefficient de corrélation

Le coefficient de corrélation simple, ,


indique le sens et la force de la relation entre
la variable dépendante et la variable
indépendante.
• Les valeurs de r varient de -1, une relation
négative forte, à +1, une relation positive
forte.
• Si r = 0, ou très proche de 0, il n’existe pas
de relation entre les variables x et y.

Ali.B 3-79
Le coefficient de corrélation
Exemples de relations entre x et y :

A (r = 1,0): Corrélation positive parfaite entre x et y.

B (r = -1,0): Corrélation négative parfaite entre x et y.

C (r = 0,6): Une relation positive modérée: y augmente si x augmente, mais pas


avec la même intensité que celle observée au graphique A
D (r = -0,4): Une relation négative faible: y a tendance à diminuer si x augmente.

E (r = 0): Aucune relation entre x et y

Ali.B 3-80
Excel pour calculer la covariance et le
coefficient de corrélation
Les fonctions Excel pour la covariance et le
coefficient de corrélation simple pour un
échantillon:
= [Link](matrice1;matrice2)

=[Link](matrice1;matrice2)

La fonction pour la covariance de la population:


=[Link](matrice1;matrice2)

Ali.B 3-81
Notions clés (1 de 4)

La tendance centrale:
1. La moyenne arithmétique
2. La médiane (meilleure si la série possède
des valeurs aberrantes)
3. Le mode

Ali.B 3-82
Notions clés (2 de 4)

La dispersion :
1. Etendue
2. Variance et écart-type
3. L’écart-type est le plus utilisé, a la même
unité que les valeurs observées
4. Le CV permet de comparer la dispersion
entre deux séries statistiques en % de la
moyenne de chacune.

Ali.B 3-83
Notions clés (3 de 4)

Les mesures de position:


1. Les centiles
2. Les quartiles Q1, Q2 et Q3 sont les plus
utilisés
3. L’écart interquartile

Ali.B 3-84
Notions clés (4 de 4)

Les mesures d’association entre deux


variables:
1. La covariance : mesure le sens de la
relation
2. Le coefficient de corrélation : mesure
l’intensité de la relation

Ali.B 3-85

Vous aimerez peut-être aussi