Cours 2
Cours 2
première année
J. Dedecker
Tableau en pourcentage :
Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Total
Sexe
Femme 26.3 32.6 16.2 18.2 3.7 3 100
Homme 21.2 27.1 19.2 19.9 7 5.6 100
Dist. marg. 23.7 29.9 17.7 19 5.4 4.3 100
100
80
80
salaire horaire (en $)
60
60
40
40
20
20
0
F M
0.06
0.05
0.05
0.04
0.04
densité de fréquence
densité de fréquence
0.03
0.03
0.02
0.02
0.01
0.01
0.00
0.00
0 20 40 60 80 100 0 20 40 60 80 100
Salaire horaire (en $) Salaire horaire (en $)
H
0.0
0 20 40 60 80 100
salaire horaire (en $)
100
80
salaire horaire (en $)
60
40
20
0
NE NW S W
région
100
80
salaire horaire (en $)
60
40
20
0
1 2 3 4 5 6 7 8 9 10
catégorie professionnelle
Définition
La variance inter-groupes est la mesure des écarts des moyennes de chaque
sous-groupe à la moyenne globale :
p p
1X 1X
Vinter = ni• (ȳ/i − ȳ )2 = ni• (ȳ/i )2 − (ȳ )2
n n
i=1 i=1
Plus Vinter >> Vintra , plus les différences entre les moyennes
conditionnelles de Y dans chaque groupe sont grandes alors que la
dispersion dans les groupes est faible.
Définition
Le rapport de corrélation de Y par rapport à X est défini par :
Vinter Vintra
ηy2/x = =1−
Vtotale (y ) Vtotale (y )
ηy2/x ∈ [0, 1]
ηy2/x = 0 si Vinter = 0
⇒ ȳ/1 = ȳ/2 = · · · = ȳ/p = ȳ
La variabilité de Y ne s’explique pas par la présence des groupes.
Si ηy2/x ∼ 0, les distributions conditionnelles de Y diffèrent
relativement peu selon les groupes.
ηy2/x = 1 si Vintra = 0
2 = 0.
⇒ pour tout i = 1, . . . , p, σ/i
si ηy2/x ∼ 1, la variabilité d’un groupe à l’autre est très importante. La
part de variabilité de Y expliquée par la présence des groupes X est
très importante.
ηy2/x 6= ηx/y
2 .
Définition
L’indicateur de Fisher de Y par rapport à X est défini par :
Vinter /(p − 1)
Fy /x =
Vintra /(n − p)
Fy /x ≥ 0.
si Vinter = 0, alors Fy /x = 0.
plus Vinter >> Vintra , plus Fy /x est grand et plus le lien entre les
variables est fort.
Dans le cas de tirages aléatoires avec remise dans une grosse population
(cas de certains sondages) :
Interprétation de la p-valeur
I si p-valeur ≤ 5%, on conclura que X a un effet significatif sur Y (avec
un risque de 5% de se tromper en affirmant cela).
I si p-valeur > 5%, on ne peut pas conclure que X a un effet significatif
sur la variable Y .
Vinter = 1.65
Vintra = 125.36
Vtot = Vinter + Vintra = 127
ηy2/x = 1, 3%
la part de variabilité du salaire horaire est expliquée à hauteur de
1.3% par les groupes formés des femmes et des hommes.
Vinter = 1.65
Vintra = 125.36
Fy /x = 7.86 et s5% (599, 2) = 3, 86
conclusion :
I Fy /x > s5% (599, 2)
I R : p-valeur = 0.005 < 5%
I le salaire horaire est significativement différent chez les hommes et chez
les femmes (pour être plus précis : on conclut avec un risque de 5%
que l’espérance du salaire horaire est différente pour ces deux groupes).
Définition
le i-ème profil-ligne est donné par la distribution conditionnelle en
fréquence de Y sachant que X = xi
nij
fj/i = , j = 1, . . . , q
ni•
Région NE NW S W Total
Sexe
Femme 61 62 97 77 297
Homme 68 60 103 71 302
Total 129 122 200 148 599
Tableau en pourcentages :
Région NE NW S W Total
Sexe
Femme 20.5 20.9 32.7 25.9 100
Homme 22.5 19.9 34.1 23.5 100
Tableau en pourcentages :
Région NE NW S W
Sexe
Femme 47.3 50.8 48.5 52
Homme 52.7 49.2 51.5 48
Total 100 100 100 100
NW NW
NE NE
S
S
W W
W
0.6
S
fréquences
NW
0.4
NE
0.2
0.0
F M
0.4
0.3
0.3
fréquences
fréquences
0.2
0.2
0.1
0.1
0.0
0.0
NE NW S W NE NW S W
Hommes
fréquences
Femmes
0.4
0.2
0.0
NE NW S W
Hommes
fréquences
Femmes
0.4
0.2
0.0
1 2 3 4 5 6 7 8 9 10
1.0
femmes
hommes
0.8
0.6
fréquences
0.4
0.2
0.0
1 2 3 4 5 6 7 8 9 10
Définition
X et Y sont dites indépendantes si pour tout couple d’indices (i, j)
les q distributions conditionnelles de X sachant Y = yj sont toutes
identiques, et donc égales à la distribution marginale de X
fi/j = fi•
fj/i = f•j
iv )
ni• n•j
∀ i ∈ {1, . . . , p} , ∀ j ∈ {1, . . . , q} , nij =
n
On va montrer que
Pour montrer que i) ⇒ deuxième partie de iii), notons que si i) est vraie,
alors fj/i ne dépend pas de i. Posons alors fj/i = gj .
On en déduit que
nij = fj/i ni• = gj ni•
En sommant en i, on trouve que
p
X p
X
n•j = nij = gj ni• = gj n
i=1 i=1
Par conséquent
n•j
= gj = fj/i ,
f•j =
n
et donc la deuxième partie de iii) est vérifiée.
Région NE NW S W Total
Sexe
Femme 61 62 97 77 297
Homme 68 60 103 71 302
Total 129 122 200 148 599
n n
Effectifs théoriques i•n •j si indépendance : effectifs attendus si les
variables étaient indépendantes, en gardant les mêmes marges.
Région NE NW S W Total
Sexe
Femme 63.9 60.5 99.2 73.4 297
Homme 65.1 61.5 100.8 74.6 302
Total 129 122 200 148 599
mesure des écarts entre les effectifs observés nij et les effectifs
théoriques que l’on aurait dû observer sous l’hypothèse
ni• n•j
d’indépendance entre X et Y , .
n
effectifs théoriques : ceux que l’on aurait si les colonnes (ou les lignes)
étaient proportionnelles en gardant les mêmes marges.
ni• n•j
où nijobs = nij est l’effectif observé et nijtheo = est l’effectif théorique
n
sous l’hypothèse d’indépendance entre X et Y .
Région NE NW S W
Sexe
Femme 0.13 0.04 0.05 0.18
Homme 0.13 0.04 0.05 0.17
100
80
salaire horaire (en $)
60
40
20
0
A B
100
80
salaire horaire (en $)
60
40
20
0
F M
80
60
salaire horaire (en $)
40
20
0
F M
Hommes
fréquences
0.4
Femmes
0.2
0.0
A B
Définition
L’ensemble des points de coordonnées (xk , yk )k=1,...,n est appelé nuage de
points.
100
80
salaire horaire (en $)
60
40
20
0
20 30 40 50 60 70 80
âge (en année)
7
● ● ● ●
6
● ● ● ● ●
5
● ● ● ● ● ● ●
4
y
● ● ● ● ● ● ●
3
● ● ● ● ● ● ●
2
● ● ● ● ● ● ● ●
1
● ● ● ● ● ● ●
0
0 1 2 3 4 5 6 7
Nuage de points
avec des symboles de taille variable
avec sunflowerplot
8
7
●
● ●
● ● ● ● ● ●
6
● ● ● ●
6 ● ● ● ● ●
● ● ●
5
● ● ● ● ●
● ● ● ● ● ● ●
●
● ● ●
4
4 ● ● ● ● ●
● ● ● ● ● ● ●
y
y
● ● ● ● ● ●
3
● ● ● ● ● ● ●
2 ● ● ● ● ●
2
● ● ● ● ● ● ●
● ● ● ●
1
● ● ● ● ● ● ● ●
0 ● ● ● ● ● ● ●
0 ● ● ● ● ● ● ●
0 2 4 6 8 0 1 2 3 4 5 6 7
x x
12
●
6
10
●
●
● ● ●
5
● ●
● ●
8
●
4
6
y
y
●
4
3
2
●
●
2
0
2 4 6 8 10 0 1 2 3 4 5 6
x x
2000
10
● ●
8
1500
●
puissance en watt
6
1000
y
● ●
4
500
●
2
●
● ●
●
● ● ●
0
−3 −2 −1 0 1 2 3 2 4 6 8
{(xi , yi , nij ), i = 1, . . . , p, j = 1, . . . , q}
par des disques de centre (xi , yj ) d’aire proportionnelle à nij pour chaque
couple (xi , yj ) , i = 1, . . . , p , j = 1, . . . , q.
20 30 40 50 60 70
âge (en année)
20 30 40 50 60 70 80
âge (en année)
Définition
La covariance entre deux variables quantitatives X et Y est un
nombre réel et est définie par :
n
1X
Cov (X , Y ) = (xk − x̄)(yk − ȳ ) (données brutes)
n
k=1
p q
1 XX
ou nij (xi − x̄)(yj − ȳ ) (données groupées)
n
i=1 j=1
V (aX + bY ) = a2 V (X ) + b 2 V (Y ) + 2abCov (X , Y ) .
2
Cov (X , Y ) ≤ V (X ) V (Y ) soit | Cov (X , Y ) |≤ σx σy .
la covariance dépend des unités de mesures des variables.
2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 74 / 96
Preuve de l’inégalité | Cov (X , Y ) |≤ σx σy
On commence par montrer que, pour tous nombres réels a et b,
et de développer
n
1X 2
a (xk − x̄)2 + b 2 (yk − ȳ )2 + 2ab(xk − x̄)(yk − ȳ )
V (aX +bY ) =
n
k=1
n n n
a2 X b2 X 2ab X
= (xk − x̄)2 + (yk − ȳ )2 + (xk − x̄)(yk − ȳ ) .
n n n
k=1 k=1 k=1
| Cov (X , Y ) |≤ σx σy . (2)
f (t) = t 2 V (X ) + 2tCov (X , Y ) + V (Y ) .
∆ = 4 (Cov (X , Y ))2 − 4V (X )V (Y ) ≤ 0 ,
cela veut dire que ∆ = 0, et donc qu’il existe un unique t0 tel que
f (t0 ) = V (t0 X + Y ) = 0.
Cela implique que la variable statistique t0 X + Y est constante, soit
t0 X + Y = b .
Réciproquement, si Y = aX + b, alors V (Y ) = a2 V (X ) et
Cov (X , Y ) = aCov (X , X ) = aV (X ) et donc (3) a lieu.
On vient donc de démontrer que l’égalité (3) a lieu si et seulement si X
peut s’écrire X = aY + b, c’est à dire si et seulement si xk = ayk + b pour
tout k ∈ {1, ..., n}. Dans ce cas, les points du nuage (xk , yk )k=1,...,n sont
parfaitement alignés sur la droite d’équation y = ax + b.
1 Pn
xy
¯ = n k=1 xk yk = 788.9
Cov (X , Y ) = 39.9
Définition
Le coefficient de corrélation de Pearson entre deux variables quantitatives
X et Y est défini par (si les écart-type de X , σx , et de Y , σy , sont non
nuls) :
Cov (X , Y )
r (X , Y ) =
σx σy
3.2
● ●
−4
●
3.0
● ●
−6
2.8
●
●
−8
2.6
●
●
y
y
●
−10
2.4
●
●
−12
2.2
● ●
−14
2.0
● ●
x x
r(x,y)=−0.96 r(x,y)=−0.103
2.5
●
−3.0
●
●
● ●
2.0
● ●
●
−3.5
● ●
●
●
●
1.5
● ●
y
y
−4.0
● ● ●
●
●
● ●
● ● 1.0 ●
−4.5
●
●
●
●
● ●
−5.0
0.5
2.0 2.2 2.4 2.6 2.8 3.0 2.0 2.5 3.0 3.5
x x
12
●
10
●
● ● ● ● ●
6
8
●
● ● ● ●
4
6
y
y
●
4
● ● ● ●
2
2
●
●
0
0
0 2 4 6 8 10 0 1 2 3 4 5 6
x x
10
6
● ●
8
●
● ●
5
● ●
● ●
6
4
y
y ● ●
4
3
● ●
●
2
2 4 6 8 10 −3 −2 −1 0 1 2 3
x x
interprétation : ..............................
11
● ● ● ●
9
● ●
●
● ●
8
4 5 6 7 8 9
● ●
7
●
●
y1
y2
● ●
6
●
●
5
●
●
4
●
● ●
3
4 6 8 10 12 14 4 6 8 10 12 14
x1 x2
● ●
12
12
10
10
y3
y4
● ●
8 ●
● ●
8
● ●
●
● ●
●
● ●
●
6
●
6
● ●
●
● ●
4 6 8 10 12 14 8 10 12 14 16 18
x3 x4
11
● ● ● ●
9
● ●
●
● ●
8
4 5 6 7 8 9
● ●
7
●
●
y1
y2
● ●
6
●
●
5
●
●
4
●
● ●
3
4 6 8 10 12 14 4 6 8 10 12 14
x1 x2
12
12
10
10
y3
●
y4 ●
●
8
● ●
8
● ●
●
● ●
●
● ●
●
6
●
6
● ●
●
● ●
4 6 8 10 12 14 8 10 12 14 16 18
x3 x4
Ce qui n’implique pas pour autant une relation de cause à effet entre
X et Y .
900
●
●
●
●
800
nbre de chômeurs (x1000)
●
700
●
600
●
●
500
● ●
●
400
● ●
300
ab et bb solutions du sytème
∂ϕ(a, b)
= 0
∂a
∂ϕ(a, b)
= 0
∂b
20 30 40 50 60 70 80
âge (en année)
20 30 40 50 60 70 80
âge (en année)