0% ont trouvé ce document utile (0 vote)
462 vues73 pages

Cours Stat Descriptive

Transféré par

[AE]
Copyright
© Attribution Non-Commercial (BY-NC)
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPS, PDF, TXT ou lisez en ligne sur Scribd

Thèmes abordés

  • règle des 68-95-99.7,
  • exercices pratiques,
  • valeurs extrêmes,
  • boîtes à moustaches,
  • polygones de fréquences,
  • histogrammes,
  • analyse de données,
  • percentiles,
  • mesures de tendance centrale,
  • variance
0% ont trouvé ce document utile (0 vote)
462 vues73 pages

Cours Stat Descriptive

Transféré par

[AE]
Copyright
© Attribution Non-Commercial (BY-NC)
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPS, PDF, TXT ou lisez en ligne sur Scribd

Thèmes abordés

  • règle des 68-95-99.7,
  • exercices pratiques,
  • valeurs extrêmes,
  • boîtes à moustaches,
  • polygones de fréquences,
  • histogrammes,
  • analyse de données,
  • percentiles,
  • mesures de tendance centrale,
  • variance

STATISTIQUE

Statistique descriptive

Cours de statistique - DM 2009/2010 1


Introduction
• Faire parler les séries de données
  statistique descriptive
• Dégager les caractéristiques :
– Tendance centrale
– Dispersion
– Distribution
– Valeurs extrêmes
– Temps

 statistique inférentielle
• Utilisation de tests ou de lois
Statistique descriptive
• 1 - Distribution de fréquences
• 2 - Méthodes graphiques
• 3 - Mesures de tendance centrale
• 4 - Mesures de dispersion
• 5 - Mesures de positionnement
• 6 - Analyse exploratoire des données
1 – Distribution de fréquences
• Dans un tableau de données, les fréquences
représentent le nombre de fois où chaque
valeur apparaît
• Critères à définir :
– Nombre de classes
– Largeur des classes
• Fréquences relatives
• Fréquences cumulées
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données

données en vrac 28
• Détermination du nombre de classes (k) pour n valeurs,
par la règle de Sturges :

données triées K = 1 + 3,322 log n


soit 5,52366, arrondi à 6
16
• Détermination de la larguer des classes :
(35 – 16)/6 = 3,16666
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données

données en vrac 28
Classes 16
données triées

de fréquence
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données

données en vrac 28
Classes16
données triées

de fréquence
7 30%

6 25%

Nombre d'individus

Nombre d'individus
20%
4
15%
3
10%
2

5%
1

0 0%
17 20 23 26 29 32 35 17 20 23 26 29 32 35
Classes de fréquences Classes de fréquences
Histogramme des fréquences Histogramme des fréquences relatives

25

20
nombre d'individus

15

10

0
17 20 23 26 29 32 35
Classes de fréquences
Histogramme des fréquences cumulées
Importance du choix du nombre de classes

Nombre de côte

n
Exercice 2 – Hauteurs des
peupliers

Application à la mise en évidence de


différences dans les résultats
Exercice 2 – Hauteurs des
peupliers
Tableau de fréquence

Classes
de fréquence
Exercice 2 – Hauteurs des
peupliers
• 3 traitements :
– Nombre de classes avec n = 30
K = 1 + 3,322 log n
soit 5.907, arrondi à 6
- Largeur des classes :
6,8/6 = 1,1333
Choix de classes de 1 unité
Exercice 2 – Hauteurs des
peupliers
Tableau de fréquence

Classes
de fréquence
Exercice 2 – Hauteurs des
peupliers

50%
45%
40%
fréquence relative

35%
30% Contrôle
25% Irrigation
20% Irrigation et fertilisatio
15%
10%
5%
0%
1,9 2,9 3,9 4,9 5,9 6,9 7,9 8,9
Classes de hauteur (limites supérieures des classes)
Hauteur des plants de Peupliers en mètre ; distribution en fréquences relatives
en fonction du traitement.
2 – Méthodes graphiques
• Histogrammes des fréquences
• Polygones des fréquences
• Le Dotplot
• Le Tracé en tige et feuilles
• Le diagramme de bâtons
• Le diagramme circulaire
• Les séries chronologiques
Le polygone des fréquences
14

12

10

0
1 2 3 4 5 6 7 8 9 10
Courbe cumulative
60

50

40

30

20

10

0
1 2 3 4 5 6 7 8
Courbe cumulative (2)

I = point d’inflexion
Courbe cumulative (3)
25 60

50
20

40
15

i1 30
i
10
20
i2
5
10

0 0
1 2 3 4 5 6 1 2 3 4 5 6 7 8

Deux points d’inflexion  deux modes Un point d’inflexion  un mode


7 14

6 12

5 10

4 8

3 6

2 4

1 2

0 0
1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10
Le diagramme circulaire

4% 2% 6%
10%
1
15%
2
3
17% 4
5
6
7
25% 8
21%
Le diagramme en bâton

900
Le diagramme de dispersion
14

12

10
valeurs de y

0
0 5 10 15
valeurs des x
Le diagramme de dispersion
14

12

10
valeurs de y

4
Graphique en courbe
2

0
0 5 10 15
valeurs des x
Le diagramme de dispersion
14

12

10
valeurs de y

y = 0,4659x + 5,2198
8

4
Courbe de tendance
2 Corrélation

0
0 5 10 15
valeurs des x
La série chronologique
500
450
400
valeur marchande

350
300
250
200
150
100
50
0
1950 1960 1970 1980 1990 2000 2010
décades
Le Dotplot
Contrôle

1 2 3 4 5 6 7 8

Irrigation

1 2 3 4 5 6 7 8

Irrigation & fertilisation

1 2 3 4 5 6 7 8
Le tracé tige et feuilles

Contrôle Irrigation Irrigation & fertilisation

19
29
Exercice 3
sexe 76,0
M M
poids enfant 74,0

72,0 62,5 64,6


poids mère 66 58
70,0
Poids de l'enfant

68,0

66,0

64,0

62,0

60,0
55 60 65 70 75
P o id s d e la m è re

Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 3 (2)
80,0

70,0

60,0

50,0

40,0 ATTENTION AUX ECHELLES

30,0 DES X et DES Y

20,0

10,0

0,0
55 60 65 70 75

Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 3
sexe 76,0
M M
poids enfant 74,0
72,0

70,0
62,5 64,6
Poids de l'enfant

poids mère 68,0

66,0
66
y = 0,3941x + 42,48
58
64,0

62,0
60,0
55 60 65 70 75
P o id s d e la m è re

Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 4
35.5 35.7 39.2 39.6
41.1 Classe de f
41.2 41.3 41.4

34-35,9
70%

60%

50%
fréquence %

40%

36-37,9
30%
Histogramme
20%
des périmètres
10% crâniens des
0% enfants de deux
35 37 39 41 43
mois
classes de périmètre (cm)
Exercice 4 (2)

35 5,7
36
35 36 37
37
38 39 40 41 42 43
3 – Mesures de tendance centrale
• a) La moyenne

moyenne =
∑ x
n
• Ex : teneur en plomb dans l’atmosphère (norme = 1,5 µ g/m3)

5,40 1,10 0,42 0,73 0,48 1,10 µ g/m3

x = 9,23 / 6 = 1,538
3 – Mesures de tendance centrale (2)
moyenne d’un échantillon

x=
∑ x
n
moyenne d’une population

µ=
∑ x
N
3 – Mesures de tendance centrale (3)
• b) La médiane : valeur du milieu

– Si nb d’individus impair, médiane = valeur de


l’individu moyen ou central
• Ex 15 valeurs triées ; médiane = 8ème valeur en
partant de la plus basse

– Si nb d’individus pair, médiane = moyenne


des deux individus moyens
• Ex 6 valeurs de plomb :
médiane = (1,10 + 0,73)/2 = 0,915
3 – Mesures de tendance centrale (4)
• c) Le mode

= valeur qui est présente le plus grand nombre


de fois
Ex : périmètre crânien
– unimodal 70%

60%

fréquence % 50%

– multimodal 40%

30%

20%

10%

0%
35 37 39 41 43
classes de périmètre (cm)
3 – Mesures de tendance centrale (5)
• c) Le midrange

= moyenne arithmétique des deux valeurs


extrêmes

midrange = (min + max)/2

Ex Plomb (5,40 + 0,42)/2 = 2,91


Exercice 6

CONTRÔLE
IRRIGATION
moyenne
IRRIGAT & F
médiane
moyenne
3 – Mesures de tendance centrale (6)
• c) La moyenne pondérée

moyenne pondérée x=
∑ (ω.x)

∑ω
ω = coefficient
∑ ω = somme des coefficients
Exercice 7
Moyenne pondérée

(85 x 20) + (90 x30) + (75 x50)


= 81,5
100

Moyenne arithmétique
85 + 90 + 75
= 83,33
3
Exercice 8

Moyenne de fréquence

(50 x50) + (150 x30) + (250 x35) + (350 x3) + (450 x5)
=179,50
100
Avantages et i
Meure de Util
tendance
centrale
4 – Mesures de dispersion
• Ex : temps de file d’attente dans deux
cliniques : une ou 3 files d’attente

Une seule file


• Moyenne = 6 mn

Trois files d’
• Variation ?
4 – Mesures de dispersion (2)
• 4.1 – L’étendue

Etendue = valeur max imale − valeur min imale

• Premier cas : 7 – 4 = 3 mn
• Deuxième cas : 14 – 1 = 13 mn

Facilité d’utilisation
mais ne tient compte que des valeurs extrêmes
4 – Mesures de dispersion (3)
• 4.2 – L’écart type

∑ (x − x) 2
s=
n ∑ ( x) 2 − ( ∑ x) 2
s= ou n(n − 1)
n −1
• Premier cas

3(4 2 + 7 2 + 7 2 ) − (18) 2
342 − 324 18
s= s= = = 3 = 1,732
6 6
• Deuxième cas3 * 2

3(12 + 3 2 + 14 2 ) − (18) 2 618 − 324 294


s= = = 49 = 7
s= 6 6
3* 2
4 – Mesures de dispersion (4)
• Pourquoi diviser par n – 1 ?
– Seulement n – 1 valeurs indépendantes
– n – 1 = nombre de degré de liberté

• Cas d’une population

σ=
∑ (x − x) 2

N
4 – Mesures de dispersion (5)
• La variance
– Cas d’un échantillon : s2
– Cas d’une population : σ 2

• Le coefficient de variation CV
s σ
– Échantillon CV = 100%
Population
CV = 100%
x µ
4 – Mesures de dispersion (6)
• Interprétation de l’écart type :
– 1) valeur de s et dispersion

S1 > S2

s1 s2

Grande dispersion Faible dispersion


4 – Mesures de dispersion (7)
• Interprétation de l’écart type :
– 2) 95 % des observations sont à moins de 2 s

s s

95 % des observations
4 – Mesures de dispersion (8)
• Interprétation de l’écart type :
– 3) estimation rapide de s

étendue
" s" =
4
– 4) minimum « usuel » et maximum « usuel »

Minimum « usuel » = moyenne – 2 x écart type


Maximum « usuel » = moyenne + 2 x écart type
4 – Mesures de dispersion (9)
• Ex 1

IRRIGATIO
3,2 4,4
3,9 5,3
Exercice 17

A%
Lf%
Lg%
Exercice 10

IMC 19,
2
x 384,
moyenne 25,
2
4 – Mesures de dispersion (10)
• Ex 2 : périmètre crânien
70%

moye
60%

50%
fréquence %

40%

30%

20%

10%

0%
35 37 39 41 43
classes de périmètre (cm)

Périmètres de 35,5 et 35,7 considérés plus petits que la normale


4 – Mesures de dispersion (11)
• - 5) règle des 68 – 95 – 99,7

99,7 % à moins de 3 s

95 % à moins de 2 s

68 % à moins d’un s

µ −3 µ −2 µ −σ µ + µ +2 µ +3
σ σ σ σ σ
Exercice 12
• Ex

taille des fem


145 et 181 cor
moyenne de 16
Exercice 13

Tailles
Conclusion : la variation du poids est plus importante que celle de la taille
5 – Mesures de positionnement
relatif

Ex : Jordan m
• 5.1 - Le score-z : à combien d’écart type la
valeur se trouve-t-elle de la moyenne ?

Lobo mesure
z=
x−x
s
ou z=
x−µ
σ
5 – Mesures de positionnement
relatif (2)
x − µ 1,98 − 1,75
z= = = 3,23
σ 0,0711

Jordan
• La taille de Jordan se trouve à + 3,23 fois l’écart type de
la moyenne des hommes
x − µ 1,93 − 1,61
z= = = 5,04
σ 0,0635
• La taille de Lobo se trouve à 5,04 fois l’écart type de la
moyenne des femmes

 Lobo est relativement plus grande parmi les


femmes que Jordan parmi les hommes
5 – Mesures de positionnement
relatif (3)
• Valeurs ordinaires et valeurs inhabituelles

Valeurs inhabituelles Valeurs ordinaires Valeurs inhabituelles


inférieures supérieures

-3 -2 -1 0 +1 +2 +3
5 – Mesures de positionnement
relatif (4)
• 5.2 – Quartiles et percentiles
– QUARTLIES

Q1 = premier q
%. 25 % des d
5 – Mesures de positionnement
relatif (5)
• 5.2 – Quartiles et percentiles

– Les PERCENTILES séparent les données en


100 parties égales avec 1 % des données dans
chaque groupe.
5 – Mesures de positionnement
relatif (6)
• 5.2 – Quartiles et percentiles
– Comment trouver le percentile qui correspond à une
valeur particulière ?

nombre de valeurs inf érieures à x


percentile de valeur x = 100
nombre total des valeurs

12
percentile de112 = 100 = 30
40
5 – Mesures de positionnement
relatif (7)
• 5.2 – Quartiles et percentiles
– Comment trouver la valeur qui correspond à un
percentile particulier k ? On cherche le localisateur L
d’une valeur particulière parmi n valeurs.
k
L= n
100

si L est une va
5 – Mesures de positionnement
relatif (8)
• 5.2 – Quartiles et percentiles

Ex : cotinine :
L=
68
100
40 = 27,2
5 – Mesures de positionnement
relatif (9)
• 5.2 – Quartiles et percentiles

– Q1 = P25 ; Q2 = P50 ; Q3 = P 75

– Distance interquartile : DIQ = Q3 – Q1

– Étendue 10 – 90 % : = P90 - P10


Exercice 14
20
L= 40 = 8
100

75
L= 40 = 30
100

P20
1
L= 40 = 0,4
100

Distance Inte
25
L= 40 =10
100
Exercice 14 (suite)

Etendue 10 – 9
10
L= 40 = 4
100

90
L= 40 = 36
100
6 – Analyse exploratoire des
données
• 6.1 – Valeurs extrêmes

• Valeurs extrêmes = valeurs aberrantes


6 – Analyse exploratoire des
données (2)
• 6.2 – Boîtes à moustaches (Boxplot)
médiane

Q1 Q3
maximum
minimum
6 – Analyse exploratoire des
données (3)
• 6.3 - Boîtes à moustaches de Tukey
Valeurs Valeurs
anomaliques Valeurs normales anomaliques
inférieures supérieures
= =
outliers médiane outliers

Q1 Q3
maximum
minimum

1,5 DIQ 1,5 DIQ


DIQ
Q3 - 1,5 DIQ Q3 + 1,5 DIQ
= vibrisse inférieure = vibrisse supérieure
6 – Analyse exploratoire des
données (4)
• 6.3 - Boîtes à moustaches de Tukey
Application aux teneurs en Cd des sols français

Vous aimerez peut-être aussi