Chap1Distributions Statistiques À Une Variable
Chap1Distributions Statistiques À Une Variable
Mustapha Ridaoui
[Link]@[Link]
Interprétation :
▶ fi est le pourcentage des familles dont le nombre d’enfants égale à
xi .
∗ Exemple : f5 représente 17,5% de familles dont le nombre d’enfants
égale à 4.
▶ Fi est le pourcentage des familles dont le nombre d’enfants est
inférieure ou égale à xi .
∗ Exemple : F5 représente 91% de familles dont le nombre d’enfants
est inférieur ou égale à 4.
Exemple : Cas de caractères quantitatifs continus
Interprétation :
▶ 64% des individus enquêtés (soit 32 personnes) pèsent moins de
80kg.
▶ 90% des individus enquêtés pèsent plus de 70kg.
Fréquences %
54%
26%
20%
0 Type de bac
T P G
Représentations des caractères qualitatifs
Fréquences %
50
40
20
0 Type de bac
T P G
Représentations des caractères qualitatifs
Diagramme circulaire : à chaque modalité correspond un secteur
de disque dont l’aire est proportionnelle à la fréquence relative de
la modalité.
L’angle de chaque secteur est proportionnel à la fréquence :
αi = 360 × fi
Répartition des candidats par types de bac
Représentations des caractères quantitatifs
Fréquences %
50%
Polygone de fréquences : En joignant les sommets
40% des bâtons par une ligne, on obtient le polygone de
fréquences.
30%
20%
10%
0.23
0.1
0
Note
2 5 8 12 16 20
Représentation graphique des caractères quantitatifs
0.23
0.1
0
Note
2 5 8 12 16 20
Représentation graphique des caractères quantitatifs
0.23
0.1
0
Note
2 5 8 12 16 20
Représentation graphique des caractères quantitatifs
0.23
0.1
0
Note
2 5 8 12 16 20
Représentations des caractères quantitatifs
Fréquences
0.39
0.1
0.02
0 Salaires
1100 1200 1300 1400 1500 1600 1700
Les histogrammes : Classes d’amplitudes égales
0.39
0.17
0.1
0.02
0 Salaires
1100 1200 1300 1400 1500 1600 1700
Les histogrammes : Classes d’amplitudes inégales
Salaires ni fi % ai hi = afii %
[1,2 ; 1,6[ 100 20 % 400 0,05
[1,6 ; 2,0[ 150 30 % 400 0,075
[2,0 ; 2,8[ 100 20 % 800 0,025
[2,8 ; 3,6[ 80 16 % 800 0,02
[3,6 ; 4,4[ 50 10 % 800 0,0125
[4,4 ; 6,0[ 20 4% 1600 0,0025
Les histogrammes : Classes d’amplitudes inégales
Fréquences corrigées
0.075
0.05
0.025
0.02
0.0125
0.0025
0 Salaires
1, 2 1, 6 2 2, 8 3, 6 4, 4 6, 0
Courbes cumulatives
0, 86
0, 7
0, 6
0, 5
0, 4
0, 3
0, 2
0, 1
0
Salaires
1, 0 1, 6 2, 0 2, 8 3, 6 4.4 6, 0
Courbes cumulatives
F(x)
1 F.c.c
0, 96
0, 86
0, 7
0, 6
0, 5
0, 4
0, 3
0, 2
0, 1
F.c.d
0
Salaires
1, 0 1, 6 2, 0 2, 8 3, 6 4.4 6, 0
Courbes cumulatives
Application : Quelle est la proportion p d’employées dont le salaire est
inférieur à 3200C
Courbes cumulatives
Application : Quelle est la proportion p d’employées dont le salaire est
inférieur à 3200C
F(x)
F.c.c
1
0, 96
0, 86
p
0, 7
0, 6
0, 5
0, 4
0, 3
0, 2
0, 1
0
Salaires
1, 0 1, 6 2, 0 2, 8 3, 2 3, 6 4.4 6, 0
Courbes cumulatives
Application : Quelle est la proportion p d’employées dont le salaire est
inférieur à 3200C
F(x)
F.c.c
1
0, 96
0, 86
0, 78 ∆F1
∆F2
0, 7
∆x1
0, 6 ∆x2
∆F1 ∆F2 0,86−0,7 p−0,7
0, 5 • On a ∆x1 = ∆x2 ⇒ 3,6−2,8 = 3,2−2,8 ⇒ p = 78%
0, 4
0, 3
0, 2
0, 1
0
Salaires
1, 0 1, 6 2, 0 2, 8 3, 2 3, 6 4.4 6, 0
Caractéristiques d’une variable statistique
But : Résumer (ou caractériser) une série statistique par des valeurs
numériques.
1 Caractéristiques de tendance centrale et de position
▶ Le mode
▶ Médiane et Quantile
▶ La moyenne (arithmétique, géométrique, harmonique)
2 Caractéristiques de dispersion
▶ L’étendue
▶ L’intervalle interquartile
▶ La variance et l’écart type
y1
y2
y3
0
x1 x2 x3 x4 x5 x6
Caractéristiques de tendance centrale et de position
Le mode ou la classe modale à partir d’une distribution continue :
Cas de classes d’amplitudes égales
y1
y3
0
x1 x2 x3 Mo x4 x5 x6
Caractéristiques de tendance centrale et de position
Le mode ou la classe modale à partir d’une distribution continue :
Cas de classes d’amplitudes égales
y1
y3
0
x1 x2 x3 Mo x4 x5 x6
Caractéristiques de tendance centrale et de position
30
20
5
0 Salaires
1, 1 1, 2 1, 3 1, 4 1, 5 1, 6 1, 7
Caractéristiques de tendance centrale et de position
30
20
5
0 Salaires
Mo
1, 1 1, 2 1, 3 1, 4 1, 5 1, 6 1, 7
Caractéristiques de tendance centrale et de position
La médiane
La médiane est la valeur du caractère pour lequel il y a autant
d’observation supérieures à cette valeur que d’observations
inférieurs.
▶ Elle partage la série statistique en deux groupes de même effectif.
Exemple :
▶ Considérons les notes (sur 20) de 17 étudiants à un contrôle de
statistique :
13; 16; 15; 5; 11; 19; 8; 9; 15; 20; 12; 17; 7; 10; 11; 18; 14.
▶ Ordonnons ces observations par ordre croissant :
5; 7; 8; 9; 10; 11; 11; 12; 13; 14; 15; 15; 16; 17; 18; 19; 20.
| {z } | {z }
8 notes inférieures à 13 8 notes supérieures à 13
Données groupées :
▶ Calculer les fréquences cumulées (ou les effectifs cumulés).
▶ Trouver la première modalité pour laquelle la fréquence cumulée
dépasse les 50%.
Caractéristiques de tendance centrale et de position
La médiane à partir d’une distribution discrète
La médiane vérifie la relation suivante :
Me = a tel que F (a− ) < 0, 5 ≤ F (a+ )
xi 0 1 2 3 4 5
ni 100 120 50 35 25 10
F (x)
1
0.90
0.79
0.65
0, 5
0.29
0 xi
1 2 3 4 5
Caractéristiques de tendance centrale et de position
La médiane à partir d’une distribution continue
F(x)
Fi+1
0.5
0,5−Fi
Me = xi + Fi+1 −Fi ×a
Fi
a
xi Me xi+1
Caractéristiques de tendance centrale et de position
Les quantiles
La notion de quantile (ou fractile) d’ordre α (0 ≤ α ≤ 1) généralise
la médiane.
Q2 = Me .
Interprétation :
75% 25%
50%
25%
xmin Q1 Q2 Q3 xmax
F (x2 )
F (x1 )
0 xi
x1 x2 x3 x4 x5
Caractéristiques de tendance centrale et de position
Les quartiles à partir d’une distribution discrète
F (x)
1
F (x4 )
F (x3 )
0, 75
F (x2 )
0, 5
∗ Qi = a tel que F (a− ) < i
4
≤ F (a+ )
F (x1 ) ⇒ Q1 = x1 , Q2 = x2 , Q3 = x3
0, 25
0 xi
x1 x2 x3 x4 x5
Caractéristiques de tendance centrale et de position
F (x5 )
F (x4 )
F (x3 )
F (x2 )
0 xi
x1 x2 x3 x4 x5 x6 x7
Caractéristiques de tendance centrale et de position
F (x5 )
0, 75
F (x4 )
0, 5
F (x3 )
0, 25
F (x2 )
0 xi
x1 x2 x3 x4 x5 x6 x7
Caractéristiques de tendance centrale et de position
Les quartiles à partir d’une distribution continue
F(x)
F.c.c
1
F (x6 )
F (x5 )
0, 75
F (x4 )
0,25−F (x2 )
Q1 = x2 + F (x3 )−F (x2 ) × (x3 − x2 )
0, 5
0,5−F (x3 )
F (x3 ) Q2 = x3 + F (x4 )−F (x3 ) × (x4 − x3 )
0, 25
0,75−F (x4 )
F (x2 ) Q3 = x4 + F (x5 )−F (x4 ) × (x5 − x4 )
0 xi
x1 x2 x3 x4 x5 x6 x7
Q1 Q2 Q3
Caractéristiques de tendance centrale et de position
La moyenne arithmétique
1 La moyenne géométrique :
k n1
xini
Q
▶ Cas d’une variable discrète : mg = .
i=1
k n1
cini
Q
▶ Cas d’une variable continue : mg = .
i=1
▶ Utilisée dans le cas de phénomènes multiplicatifs (ex. taux de
croissance)
2 La moyenne harmonique :
k
1 1
P ni
▶ Cas d’une variable discrète : mh = n xi .
i=1
k
1 1
P ni
▶ Cas d’une variable continue : mh = n ci .
i=1
▶ Utilisée dans le cas où l’on combine de variables sous forme de
rapport (ex. vitesse).
Propriétés
k
P
1 La somme des écarts à la moyenne est nulle : ni (xi − x) = 0.
i=1
Preuve :
k
X k
X
ni (xi − x) = (ni xi − ni x)
i=1 i=1
Xk k
X
= ni xi − ni x
i=1 i=1
k
X
= nx − x ni
i=1
= nx − nx
= 0.
Propriétés
3 ax = ax
k k
1
ni (axi ) = a n1
P P
Preuve : ax = n ni xi = ax.
i=1 i=1
4 ax + b = ax + b.
Preuve : ax + b = ax + b = ax + b
Propriétés
k
xifi
Q
5 mg =
i=1
Preuve :
k
1
xini
Y
mg = n
i=1
1
= x1n1 × . . . × xknk n
n1 nk
= x1 × . . . × xk
n n
= x1f1 × . . . × xkfk
k
xifi .
Y
=
i=1
Propriétés
k
1 P
6 log(mg ) = n ni log(xi ).
i=1
Preuve : k
1
xini
Y
log(mg ) = log n
i=1
k
1
xini
Y
= log
n
i=1
k
1X
= log(xini )
n
i=1
k
1 X
= ni log(xi ).
n
i=1
7 mh ≤ mg ≤ x
Applications
20
16, 67
10
4
2.86
Mo xi
5 7 10 20 35 85 120
Applications
xi [5, 7[ [7, 10[ [10, 20[ [20, 35[ [35, 85[ [85, 120[
ni 20 50 250 300 200 100
fi 0,02 0,05 0,27 0,32 0,22 0,1
Fi 0,02 0,07 0,34 0,67 0,89 1
Applications
0, 89
0, 67
0,5−0,34
Me = 20 + 0,67−0,34 × 15 ≃ 27, 27k C
0, 34
• La moitié des habitants gagne moins de 27,27 kC /an
0, 07
0, 02
xi
5 7 10 20 Me 35 85 120
Applications
0, 75 − 0, 67
Q3 = 35 + × 50 ≃ 53, 18 k C.
0, 89 − 0, 67
Intervalle interquartile : IQ = Q3 − Q1 .
▶ IQ correspond à un intervalle qui regroupe 50% des observations
autour de la médiane.
▶ Plus cet intervalle est large, plus la série est dispersée.
min max
Q1 Me Q3
Caractéristiques de dispersion
k
1
ni (xi − x)2 .
P
La variance : V (x) = n
i=1
p
L’écart-type : σx = V (x)
▶ L’écart-type mesure la dispersion des valeurs d’un échantillon
statistique autour de la moyenne arithmétique de l’échantillon.
▶ Plus l’écart-type est faible, plus les valeurs sont regroupées autour
de la moyenne.
σx
Le coefficient de variation : Cv (x) = x .
Propriétés
1 V (x) = x 2 − x 2 .
Preuve :
k k
1X 1X
V (x) = ni (xi − x)2 = ni (xi2 − 2xi x + x 2 )
n n
i=1 i=1
k k k
1 X 1 X 1X
= ni xi2 − 2 ni xi x + ni x 2
n n n
i=1 i=1 i=1
k k
1X 1X
= ni xi2 − 2x ni xi + x 2
n n
i=1 i=1
k
1 X
= ni xi2 − 2x x + x 2
n
i=1
k
1 X
= ni xi2 − x 2 = x 2 − x 2 .
n
i=1
Propriétés n indice i ici x x
indice i = ce qui donne
bien la moyenne
k
ni (xi − a)2 est minimale si a = x.
P
2 Soit a ∈ R, f (a) =
i=1
k montrer que la somme
ni xi2 na . atteint
2 son minimum
P
Preuve : On a f (a) = − 2anx + quand a = la moyenne de
i=1 x
Alors, la variable étant a, x
est une constante donc pour montrer on dérive
dérivé = 0
′
f (a) = −2nx + 2na
2n = effectif total donc
forcément différent de 0 = 2n(a − x),
positive = convexe = y a
et f ′′ (a) = 2n. bien un minimum
Preuve :
k
1X 2
V (x + b) = ni (xi + b) − x + b
n
i=1
k
1 X
= ni (xi + b − x − b)2
n
i=1
k
1 X
= ni (xi − x)2
n
i=1
= V (x)
Propriétés
4 V (ax) = a2 V (x).
Preuve : k moyenne de ax
1X 2
V (ax) = ni axi − ax
n
i=1
k
1 X 2
= ni axi − ax
n
i=1
k factorise par a
1X
= ni a2 (xi − x)2
n
i=1
k
1X
= a2 ni (xi − x)2
n
i=1
2
= a V (x)
5 V (ax + b) = a2 V (x)
Propriétés
x−x
5 Soit y = σx (variable centrée réduite). Alors :
y = 0, V (y ) = 1 et σy = 1.
Preuve :
x−x x x x x x x
▶ y= σx = σx − σx = σx − σx = σx − σx = 0.
x−x x x x 1 1
▶ V (y ) = V σx =V σx − σx =V σx = σx2
V (x) = V (x) V (x) = 1.
p
▶ σy = V (y ) = 1.
Propriétés
n P
n
1
(xi − xj )2
P
6 V (x) = 2n2
i=1 j=1
Preuve :
n n n P
n
1 P P 1
(xi − xj )2 = (xi2 + xj2 − 2xi xj )
P
2n2 2n2
i=1 j=1 i=1 j=1
n P n n P n n P n
1 P 2+ 1
P 2− 1
P
= 2n 2 xi 2n 2 x j 2n 2 2xi xj
i=1 j=1 i=1 j=1 i=1 j=1
n n n P n
1 P
nxi2 + 2n1 2 nxj2 − n12
P P
= 2n2
xi xj
i=1 j=1 i=1 j=1
n n n n
1 P 2 1 P 2 1 P 1 P
= 2n xi + 2n x j − n x i n xj
i=1 j=1 i=1 j=1
n n
1 P 2
xi − n1
P
= n xi x
i=1 i=1
n
= 1 P 2
n xi − x 2
i=1
Caractéristiques de forme et de concentration
Remarques :
▶ m1 = x.
▶ µ1 = 0.
▶ µ2 = V (x)
Caractéristiques de forme et de concentration
(Q3 − Q2 ) − (Q2 − Q1 )
CY =
(Q3 − Q2 ) + (Q2 − Q1 )
γ2 = 0 γ2 > 0 γ2 < 0
Caractéristiques de forme et de concentration
La courbe de concentration (ou de Lorenz)
La courbe de concentration est obtenue en plaçant les points
i
qi et qi = Pninciici .
P
Mi (Fi , Li ), où Li =
j=1
L
B
1
F
O A
1
Caractéristiques de forme et de concentration
Coefficient de Gini
0 ≤ IG ≤ 1.
P
• IG = 1 − 2 surface de chacun des trapèzes rectangles
Li
• Pour un trapèze de base a et de hauteurs h et H, on a :
S = a2 (H + h).
F
Fi−1 Fi
Caractéristiques de forme et de concentration
La médiale
Classes de tailles ni
[155, 160[ 10
[160, 165[ 17
[165, 170[ 32
[170, 175[ 45
[175, 180[ 36
[180, 190[ 25
[190, 200[ 5
nicor
9
9−6,4
• Mo = 170 + (9−6,4)+(9−7,2) × 5 ≃ 173
3.4
2.5
2
0.5
0
xi
155 160 165 170 175 180 190 200
Applications
2 Déterminer les quartiles : Q1 , Q2 , Q3 . Interpréter.
xi [155,160[ [160,165[ [165,170[ [170,175[ [175,180[ [180,190[ [190,200[
Fi 0,06 0,16 0,35 0,61 0,82 0,97 1
F (x)
1
0.97
0,25−0,16
• Q1 = 165 + 0,35−0,16 × 5 ≃ 167, 4 cm
0.61 0,5−0,35
• Q2 = 170 + 0,61−0,35 × 5 ≃ 172, 9 cm
0.35
0,75−0,61
• Q3 = 175 + 0,82−0,61 × 5 ≃ 178, 3 cm
0.25
• 75% des étudiants mesurent moins de 178,3 cm.
0.16
0.06
0
xi
155 160 165 170 175 180 190 200
Applications
k 7
1 P 1 P
x= n ni ci = 170 ni ci = 173, 24 cm.
i=1 i=1
7
1
ni ci2 − x 2 = 30081, 03 − 173, 242 = 70, 56.
P
V (x) = 170
i=1
p √
σx = V (x) = 70, 56 = 8, 40 cm.
Applications
5 Déterminer le coefficient de Fisher. Interpréter.
7 7
1 1
(xi − x)3 = ni (xi − 173, 24)3 = 170, 60
P P
▶ µ3 = n 170
i=1 i=1
µ3 135,64
▶ γ1 = σ3
= 8,403
= 0, 29
▶ γ1 > 0, alors la distribution est étalée à droite (mais l’étalement est
faible).
xi [0, 15[ [15, 25[ [25, 30[ [30, 35[ [35, 45[
ni 50 49 50 38 33
1 Tracer la courbe de concentration de Lorenz. Interpréter.
Applications
Application 2 : On considère le tableau suivant (répartition des
salaires annuels (exprimés en KC) des 220 employés de l’entreprise
alfa).
xi [0, 15[ [15, 25[ [25, 30[ [30, 35[ [35, 45[
ni 50 49 50 38 33
1 Tracer la courbe de concentration de Lorenz. Interpréter.
xi [0, 15[ [15, 25[ [25, 30[ [30, 35[ [35, 45[
ni 50 49 50 38 33
ci 7,5 20 27,5 32,5 40
Fi 0,23 0,45 0,68 0,85 1
ni ci 375 980 1375 1235 1320
qi = Pninciici 0,07 0,19 0,26 0,23 0,25
P
Li = qi 0,07 0,26 0,52 0,75 1
La courbe de Lorenz consiste à tracer les points de coordonnées
(Fi , Li ).
Applications
1 Tracer la courbe de concentration de Lorenz. Interpréter.
0, 75
0, 52
0, 26
0, 07
0, 23 0, 45 0, 68 0, 85 1 F
Applications
1 Tracer la courbe de concentration de Lorenz. Interpréter.
0, 75
• La distribution est inégalitaire mais la concentration est un peu faible.
0, 52
0, 26
0, 07
0, 23 0, 45 0, 68 0, 85 1 F
Applications
= 1 − 2(S1 + S2 + S3 + S4 + S5 ).
Fi −Fi−1
• On a: Si = 2 (Li + Li−1 ), avec F0 = L0 = 0,
0, 75
F1 −F 0 0,23−0 0,0161
⇒ S1 = 2 (L1 + L0 ) = 2 (0, 07 + 0) = 2
F2 −F 1 0,45−0,23 0,0726
S2 = 2 (L2 + L1 ) = 2 (0, 26 + 0, 07) = 2
0, 52 F3 −F 2 0,68−0,45 0,1794
S3 = 2 (L3 + L2 ) = 2 (0, 52 + 0, 26) = 2
F4 −F 3 0,85−0,68 0,2159
S4 = 2 (L4 + L3 ) = 2 (0, 75 + 0, 52) = 2
F5 −F 4 1−0,85 0,2625
S5 = 2 (L5 + L4 ) = 2 (1 + 0, 75) = 2
0, 26
• Donc, IG = 1 − 2( 0,0161+0,0726+0,1794+0,2159+0,2625
2 )
= 1 − 0, 7465 = 0, 2535
0, 07
S1 S2 S3 S4 S5
0, 23 0, 45 0, 68 0, 85 1 F
Applications