0% ont trouvé ce document utile (0 vote)
41 vues28 pages

Statistiques descriptives univariées

Transféré par

Eddy SHANGA
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
41 vues28 pages

Statistiques descriptives univariées

Transféré par

Eddy SHANGA
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

Statistiques descriptives

univariées

Alexandre Popier
Les statistiques descriptives permettent une première exploration des
données.

Elles sont basées sur des graphiques et des calculs simples.

Elles permettent d’avoir un premier aperçu des données qui peut montrer
des tendances.

Elles permettent aussi de bien caractériser les données, ce qui est nécessaire
pour choisir ensuite la manière de les analyser.

On commence par décrire les variables une par une (statistiques univariées)
puis on peut explorer comment varie une variable en fonction d’une autre
(statistiques bivariées).
 1- Les distributions de fréquences
Pour une variable numérique, on définit des intervalles de valeurs (tous de
même largeur) couvrant toute l’étendue des données et on compte le
nombre de données dans chaque intervalle.

Ex : fréquences cardiaques : 64 ; 67 ; 72 ; 58 ; 60 ; 65 ; 64 ; 57 ; 72 ; 66 ; 65; 59; 66; 63 ;


62 ; 64 ; 62 ; 66 ; 60 ; 61 ; 59 ; 62 ; 64 ; 61

Fréquence cardiaque Effectif ou


(pulsations/min) fréquence
57-60 6
61-64 10
65-68 6
69-72 2
On trace l’histogramme de la distribution des fréquences.

12
10
8
Fréquence cardiaque Effectif ou

Effectif
(pulsations/min) fréquence 6
57-60 6
4
61-64 10
2
65-68 6
69-72 2 0
57-60 61-64 65-68 69-72
Fréquence cardiaque
On peut faire varier le point d’origine et la largeur des intervalles.

12
12
10
10
8
8
Effectif

6
6

Effectif
4
4
2
2
0
0
57-60 61-64 65-68 69-72
55-58 59-62 63-66 67-70 71-74
Fréquence cardiaque
Fréquence cardiaque

Règle de Moore : nombre d’intervalles environ égal à la racine carrée


de l’effectif total
On peut aussi réaliser ce type de graphique pour des données
qualitatives.
Causes de mort accidentelle chez les résidents américains de 15 à 24 ans :

12000 Cause de la Nombre de cas


10000 mort
Véhicules à 10500
Nombre de cas

8000
moteur
6000
Autres causes 1130
4000
Poison 870
2000
Noyade 700
0 Feux et 240
u
incendies
r

s
n
s

s
eu

fe
te
ad
e

ie
o
us

is

nd

hu
ot

à
oy
Po

Chutes 210
ca
m

ce

es
C
N
à

in

m
s
t re
s

Ar
et

Armes à feu 150


e

Au
ul

ux
c
hi

Fe

Diagramme en barres
Causes de mort accidentelle chez les résidents américains de 15 à 24 ans :

Cause de la Nombre de
mort cas
Véhicules à moteur Véhicules à 10500
Autres causes moteur
Poison
Autres causes 1130
Noyade
Feux et incendies Poison 870
Chutes Noyade 700
Armes à feu Feux et 240
incendies
Chutes 210
Armes à feu 150

Diagramme circulaire
Pour les variables numériques, l’histogramme montre la distribution
des données.

On peut caractériser en particulier :

Le centre : valeur moyenne, valeur médiane

La dispersion : comment les valeurs s’écartent du centre (étendue,


variance, écart-type)

La symétrie : répartition des données de part et d’autre du centre

Les points extrêmes : valeurs beaucoup plus faibles ou plus fortes que
les autres
 2- Le centre

 La moyenne arithmétique : somme des valeurs


divisée par le nombre total de valeurs

La moyenne représente bien le centre des données quand la


distribution est symétrique.
Elle est en revanche sensible aux valeurs extrêmes.
 La médiane : c’est la valeur centrale quand les
données sont triées par ordre croissant (ou décroissant)

Quand le nombre de données est pair, la médiane prend la valeur de


la moyenne des 2 valeurs centrales

Exemple 1 :
Données dans l’ordre croissant : 2.05 ; 3.56 ; 4.67 ; 6.90 ; 7.53
Médiane : 4.67

Exemple 2 :
Données dans l’ordre croissant : 2.05 ; 3.56 ; 4.67 ; 6.90 ; 7.53 ; 8.75
Médiane : (4.67+6.90) /2 = 5.785
La moitié des données a une valeur supérieure à la médiane,
l’autre moitié a une valeur inférieure.

Aucune influence des valeurs extrêmes sur la valeur de la médiane


=> paramètre plus robuste que la moyenne.
Moyenne, médiane et symétrie

Distributions
asymétriques

Distribution symétrique :
Données dispersées de manière
similaire à gauche et à droite du centre

www.ilemaths.net
 3- La dispersion

 L’étendue : différence entre la valeur maximale


et la valeur minimale

Contrairement aux autres paramètres de dispersion, elle ne


prend pas en compte l’ensemble des valeurs.
 L’écart type
Il dépend de la déviation des valeurs par rapport à la moyenne (x-͞x) et
de l’effectif n de l’échantillon.

Sans biais :

Avec biais :
 La variance : écart type au carré

Sans biais :

Avec biais :
On utilise généralement plus l’écart type que la variance.

L’écart type a la même unité que les données.

Interprétation de l’écart type :


En général, la grande majorité des données est à moins de 2 écarts
types de la moyenne (entre ͞x - 2s et ͞x + 2s)
 Autres paramètres liés à la dispersion : les quartiles

Comme la médiane sépare les données triées par la moitié, les quartiles
séparent les données triées en 4 parties égales.

Q1 (premier quartile) : sépare les premiers 25% des données triées des 75%
restants (aussi : Q1 = médiane des données inférieures à la médiane)

Q2 (deuxième quartile) : sépare les premiers 50% des données triées des
50% restants => Q2 = médiane

Q3 (troisième quartile) : sépare les premiers 75% des données triées des 25%
restants (aussi : Q3 = médiane des données supérieures à la médiane)
Exemple de calcul des quartiles :

Masses d’ours en kg :
156.0 ; 157.9 ; 99.8 ; 118.8 ; 163.3 ; 92.5 ; 150.6 ; 81.6 ; 92.5 ; 110.3 ; 130.7

Données triées :
81.6 ; 92.5 ; 92.5 ; 99.8 ; 110.3 ; 118.8 ; 130.7 ; 150.6 ; 156.0 ; 157.9 ; 163.3

Q1 Médiane = Q2 Q3

Etendue inter-quartiles : EIQ = Q3 –Q1


Elle exprime la dispersion de la portion centrale des données
 4- Graphique de synthèse : boîte à moustaches

(EIQ)

Boîte délimitée par Q1 et Q3.


Moustaches délimitées par le minimum et le maximum
=> Donne une vue d’ensemble de la répartition des données
Maximum = 163.3

160
140
120 Q3 = 156.0

Q2 = médiane = 118.8
100

Q1 = 92.5

Minimum = 81.6
80

Boîte à moustaches de la masse des ours (kg)


Les boîtes à moustaches montrent bien si la distribution est symétrique ou
non

Distribution asymétrique

Distribution symétrique :
Q3-Q2 = Q2-Q1
Médiane = moyenne
 5- Les points extrêmes

Lorsqu’il y a des valeurs extrêment faibles ou fortes (par comparaison


aux autres), elles méritent qu’on s’y intéresse.

- Possibilité d’erreur (de mesure, de frappe, …)


=> corriger ou retirer la valeur

- Si elles sont confirmées, ces valeurs exceptionnelles peuvent


présenter un intérêt (cas particulier intéressant à étudier, …)
On considère comme extrêmes les valeurs inférieures à
Q1 - 1.5 EIQ ou supérieures à Q3 + 1.5 EIQ.

Sur une boîte à moustache, ces points sont représentés par des
petits cercles à l’extérieur des moustaches.
kg

250
Ex : masse des ours avec
un très gros ours en plus
200
150
100
 6- Comparaison graphique de deux séries de
données
cm

185
Boîte à moustaches

180
Comparaison des tailles
des mâles et des femelles 175

chez une espèce animale


170
165
160

Taille des femelles Taille des mâles


Histogrammes
Hauteur de peupliers non irrigués / irrigués

Peupliers non irrigués


Histogram of peupliers$hauteur[1:20]
Peupliers irrigués
Histogram of peupliers$hauteur[21:40]
6

6
5

5
4

4
Fréquence

Fréquence
Frequency

Frequency
3

3
2

2
1

1
0

1 2 3 4 5 6 7 1 2 3 4 5 6 7

Hauteur (m)
peupliers$hauteur[1:20] Hauteur (m)
peupliers$hauteur[21:40]
On peut superposer les deux graphiques pour les comparer
En bleu, peupliers non irrigués
En saumon, peupliers irrigués

Pas toujours facile à lire

Fréquence

Hauteur (m)
On peut aussi représenter les deux séries en alternance

6
non irrigué
irrigué

Plus facile à lire en général

5
4
Fréquence
3
Ici : peu de différence
entre les deux traitements
2
1
0

1 2 3 4 5 6 7 8

Hauteur (m)
Autres traitements

irrigué sans fertilisant

10
irrigué avec fertilisant
Ici : différence entre les
traitements bien visible

8
Fréquence
6
4
2
0

1 2 3 4 5 6 7 8

Hauteur (m)

Vous aimerez peut-être aussi