0% ont trouvé ce document utile (0 vote)
52 vues51 pages

Cours 1

Le document présente une introduction à la statistique descriptive bivariée, se concentrant sur l'analyse de couples de variables statistiques. Il explique les concepts de données brutes et groupées, ainsi que la création de tableaux de contingence pour étudier les relations entre deux variables. Des exemples illustrent comment analyser la dépendance entre des variables qualitatives et quantitatives.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
52 vues51 pages

Cours 1

Le document présente une introduction à la statistique descriptive bivariée, se concentrant sur l'analyse de couples de variables statistiques. Il explique les concepts de données brutes et groupées, ainsi que la création de tableaux de contingence pour étudier les relations entre deux variables. Des exemples illustrent comment analyser la dépendance entre des variables qualitatives et quantitatives.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

BUT Science des Données

première année

Statistique descriptive bivariée

1. Couple de variables statistiques

J. Dedecker

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 1 / 51


Objectifs

Statistique univariée : analyse descriptive séparée de chaque variable


d’un tableau individus × variables.

Statistique bivariée : analyse descriptive des variables deux à deux :

I étude d’un couple de variables statistiques.

I étude de la liaison entre deux variables quantitatives, qualitatives,


quantitative/qualitative.

I étape indispensable de toute analyse de jeux de données : croisement


systématique des variables 2 à 2.

Statistique descriptive multivariée : analyse des données.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 2 / 51


1.1 Données brutes et données groupées

Étude de deux variables X et Y sur une même population de taille n :

xk et yk : valeurs prises par X et Y pour un même individu k,


1 ≤ k ≤ n.

Données brutes (xk , yk )k=1,··· ,n : les n couples d’observations

(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 3 / 51


Exemple

Extrait des données brutes :

Individu Sexe X Salaire horaire Y


1 F 13.25
2 M 12.50
3 M 14.00
4 M 10.60
5 M 13.00
6 M 7.00
··· ··· ···
599 M 14.50

Le salaire horaire dépend-il du sexe des individus ?

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 4 / 51


Exemple
Extrait des données brutes :

Individu Catégorie professionnelle Âge Région


1 5 58 NE
2 7 40 W
3 5 29 S
4 3 59 NE
5 3 51 W
6 3 19 NW
7 9 64 S
··· ··· ··· ···
597 4 57 NW
598 5 29 W
599 4 47 S

La distribution de l’âge est-elle différente selon la catégorie


professionnelle (et dans quelle mesure) ?
La répartition par catégorie dépend elle de la région d’habitation (et
de quelle manière) ?

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 5 / 51


X et/ou Y qualitatives ou quantitatives discrètes

x1 , x2 , . . . , xi , . . . , xp : les p modalités de X (p observations possibles


distinctes de X ).

y1 , y2 , . . . , yj , . . . , yq : les q modalités de Y (q observations possibles


distinctes de Y ).

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 6 / 51


X et/ou Y quantitatives continues
Valeurs de X regroupées en p classes

[e0X , e1X ], . . . , ]ei−1


X
, eiX ], . . . , ]ep−1
X
, epX ]

de centres x1 , · · · , xi , · · · , xp .

Valeurs de Y en q classes

[e0Y , e1Y ], . . . , ]ej−1


Y
, ejY ], . . . , ]eq−1
Y
, eqY ]

de centres y1 , . . . , yj . . . , yq .

X , e X ] et son centre x .
Confusion parfois entre la classe ]ei−1 i i

Le fait que les intervalles ci-dessus soient fermés à droite et ouverts à


gauche est sans importance. Ce qui compte, c’est que les intervalles
couvrent l’ensemble des valeurs possibles, et ne se chevauchent pas.
1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 7 / 51
Données groupées

nij : nombre d’individus pour lesquels X prend la valeur xi et Y la


valeur yj

nij = #{k = 1, . . . , n tels que xk = xi et yk = yj } .

X , e X ] de centre x .
Si X est continue, xk = xi signifie xk ∈]ei−1 i i

Données groupées : (xi , yj , nij )i=1,...,p, j=1,...,q .

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 8 / 51


1.2. Tableaux statistiques, distribution d’une série bivariée
1.2.1 Distribution jointe - Tableau de contingence
distribution jointe en effectifs de X et de Y :

{(xi , yj , nij ) ; 1 ≤ i ≤ p, 1 ≤ j ≤ q}

pour i = 1, . . . , p et j = 1, . . . , q.
I nij : nombre d’individus possédant la modalité xi de X et la modalité
yj de Y .
Xq
I ni• = nij : nombre d’individus possédant la modalité xi (∈ classe de
j=1
centre xi ) de X ;
Xp
I n•j = nij : nombre d’individus possédant la modalité yj de Y ;
i=1
X q
p X p
X q
X
I n= nij = ni• = n•j ; nombre total d’individus de la
i=1 j=1 i=1 j=1
population.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 9 / 51


Tableau de contingence en effectifs (p lignes, q colonnes)

Y y1 y2 ... yj ... yq Total


X
x1 n11 n12 ... n1j ... n1q n1•
x2 n21 n22 ... n2j ... n2q n2•
.. .. .. .. .. ..
. . . . . .
xi ni1 ni2 ... nij ... niq ni•
.. .. .. .. .. ..
. . . . . .
xp np1 np2 ... npj ... npq np•
Total n•1 n•2 ... n•j ... n•q n

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 10 / 51


Distribution jointe en fréquences

pour i = 1, . . . , p et j = 1, . . . , q
nij
I fij = : proportion d’individus possédant la modalité xi de la variable
n
X et la modalité yj de la variable Y .
X q
I fi• = fij : fréquence de la modalité xi de X .
j=1
p
X
I f•j = fij : fréquence de la modalité yj de Y .
i=1
p X
X q p
X q
X
I 1= fij = fi• = f•j .
i=1 j=1 i=1 j=1
distribution jointe en fréquences de X et de Y :

{(xi , yj , fij ) ; 1 ≤ i ≤ p, 1 ≤ j ≤ q} .

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 11 / 51


Tableau de contingence en fréquences (p lignes, q
colonnes)

Y y1 y2 ... yj ... yq Total


X
x1 f11 f12 ... f1j ... f1q f1•
x2 f21 f22 ... f2j ... f2q f2•
.. .. .. .. .. ..
. . . . . .
xi fi1 fi2 ... fij ... fiq fi•
.. .. .. .. .. ..
. . . . . .
xp fp1 fp2 ... fpj ... fpq fp•
Total f•1 f•2 ... f•j ... f•q 1

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 12 / 51


Exemple : tableau de contingence en effectifs pour les
variables Sexe et Région d’habitation

Région NE NW S W Total
Sexe
Femme 61 62 97 77 297
Homme 68 60 103 71 302
Total 129 122 200 148 599

X de type ......................... à p = .......... modalités.


Y de type ......................... à q = .......... modalités.
Mesures conjointes de X et Y sur n = ...... individus.
97 .......... habitent dans la région sud, et 68 ......... dans la région
nord-est.
129 personnes habitent dans la région ...........

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 13 / 51


Exemple : tableau de contingence en fréquences pour les
variables Sexe et Région
Région NE NW S W Total
Sexe
Femme 0.10 0.11 0.16 0.13 0.50
Homme 0.11 0.10 0.17 0.12 0.50
Total 0.21 0.21 0.33 0.25 1

Tableau en pourcentage :

Région NE NW S W Total
Sexe
Femme 10.18 10.35 16.19 12.86 49.58
Homme 11.35 10.02 17.20 11.85 50.42
Total 21.53 20.37 33.39 24.71 100

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 14 / 51


Exemple : tableau de contingence en effectifs pour les
variables Sexe et Salaire horaire

Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Total


Sexe
Femme 78 97 48 54 11 9 297
Homme 64 82 58 60 21 17 302
Total 142 179 106 114 32 26 599

Parmi les 599 individus de l’échantillon


54 femmes touchent entre ...... et ...... $ de l’heure.
82 hommes touchent entre ...... et ...... $ de l’heure.
142 personnes touchent entre ...... et ...... $ de l’heure.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 15 / 51


Exemple : tableau de contingence en fréquences pour les
variables Sexe et Salaire horaire

Tableau en pourcentage :

Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Total


Sexe
Femme 13 16.2 8 9 1.9 1.5 49.6
Homme 10.7 13.7 9.7 10 3.5 2.8 50.4
Total 23.7 29.9 17.7 19 5.4 4.3 100

Parmi les 599 individus de l’échantillon


16.2 % sont des femmes qui touchent entre ...... et ...... $ de l’heure.
10 % sont des hommes qui touchent entre ...... et ...... $ de l’heure.
4.3 % des individus touchent entre ...... et ...... $ de l’heure.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 16 / 51


Exemple : tableau de contingence en effectifs pour les
variables Âge et Salaire horaire

Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Total


Âge
[15,25] 51 34 6 7 1 1 100
]25,35] 32 41 27 22 6 2 130
]35,45] 24 36 17 24 4 9 114
]45,55] 20 40 30 28 10 6 134
]55,65] 12 22 20 31 10 6 101
]65,80] 3 6 6 2 1 2 20
Total 142 179 106 114 32 26 599

Parmi les 599 individus de l’échantillon


17 ont entre 35 et 45 ans et touchent entre ...... et ...... $ de l’heure.
10 ont entre 45 et 55 ans et touchent entre ...... et ...... $ de l’heure.
114 touchent entre ...... et ...... $ de l’heure.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 17 / 51


1.2.2 Distributions marginales

Distribution marginale de X en effectifs et en fréquences

{(xi , ni• ) ; 1 ≤ i ≤ p} {(xi , fi• ) ; 1 ≤ i ≤ p}

⇒ Dernière colonne du tableau de contingence en effectifs ou


fréquences

Distribution marginale de Y en effectifs et en fréquences

{(yj , n•j ) ; 1 ≤ j ≤ q} {(yj , f•j ) ; 1 ≤ j ≤ q}

⇒ Dernière ligne du tableau de contingence en effectifs ou fréquences

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 18 / 51


Tableaux des effectifs/fréquences de X et de Y

X effectif fréquence Y effectif fréquence


x1 n1• f1• y1 n•1 f•1
x2 n2• f2• y2 n•2 f•2
.. .. .. .. .. ..
. . . . . .
xi ni• fi• yj n•j f•j
.. .. .. .. .. ..
. . . . . .
xp np• fp• yq n•q f•q
p Xq
X
Total n= ni• 1 Total n= n•j 1
i=1 j=1

Dist. marginale de X Dist. marginale de Y


en eff. et en fréq. en eff. et en fréq.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 19 / 51


Distributions marginales des variables Sexe et Région
En effectifs :

Région NE NW S W Total
Sexe
Femme 61 62 97 77 297
Homme 68 60 103 71 302
Total 129 122 200 148 599

En fréquences (pourcentages) :

Région NE NW S W Total
Sexe
Femme 10.18 10.35 16.19 12.86 49.58
Homme 11.35 10.02 17.20 11.85 50.42
Total 21.53 20.37 33.39 24.71 100

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 20 / 51


1.2.3 Distributions conditionnelles

Distributions conditionnelles de X sachant Y (colonne fixée) et de Y


sachant X (ligne fixée)

En effectifs, pour tout i = 1, . . . , p et j = 1, . . . , q

I nij : nombre d’individus tq X = xi et Y = yj .

I ni/j : nombre d’individus tq X = xi parmi ceux pour lequels Y = yj

ni/j = nij avec j fixé.

I nj/i : nombre d’individus tq Y = yj parmi ceux pour lesquels X = xi

nj/i = nij , i fixé.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 21 / 51


En fréquences, pour tout i = 1, . . . , p et j = 1, . . . q,

I fij : proportion d’individus tq X = xi et Y = yj .

I fi/j : proportion d’individus pour lesquels X = xi parmi ceux pour


lesquels Y = yj .
nij
fi/j = .
n•j

I fj/i : proportion d’individus pour lesquels Y = yj parmi ceux pour


lesquels X = xi
nij
fj/i = .
ni•

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 22 / 51


Distributions conditionnelles en effectifs et fréquences

Distribution conditionnelle en effectifs de X sachant Y = yj

{(xi , ni/j ) ; 1 ≤ i ≤ p, j fixé}

(jème colonne du tableau de contingence en effectifs).

Distribution conditionnelle en effectifs de Y sachant X = xi

{(yj , nj/i ) ; 1 ≤ j ≤ q, i fixé}

(ième ligne du tableau de contingence en effectifs).

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 23 / 51


Distribution conditionnelle en fréquences de X sachant Y = yj :

{(xi , fi/j ) ; 1 ≤ i ≤ p, j fixé}.

Distribution conditionnelle en fréquences de Y sachant X = xi :

{(yj , fj/i ) ; 1 ≤ j ≤ q, i fixé}.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 24 / 51


X /Y = yj effectif fréquence
n1j
x1 n1/j = n1j f1/j =
n•j
n2j
x2 n2/j = n2j f2/j =
n•j
.. .. ..
. . .
nij
xi ni/j = nij fi/j =
n•j
.. .. ..
. . .
npj
xp np/j = npj fp/j =
n•j
p
X
Total n•j = nij 1
i=1

Distribution conditionnelle en eff. et fréq. de X sachant Y = yj .

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 25 / 51


Y /X = xi effectif fréquence
ni1
y1 n1/i = ni1 f1/i =
ni•
ni2
y2 n2/i = ni2 f2/i =
ni•
.. .. ..
. . .
nij
yj nj/i = nij fj/i =
ni•
.. .. ..
. . .
niq
yq nq/i = niq fq/i =
ni•
q
X
Total ni• = nij 1
j=1

Distribution conditionnelle en eff. et fréq. de Y sachant X = xi .

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 26 / 51


Il y a q distributions conditionnelles de X sachant Y = yj (autant que
les q modalités ou classes de Y ).

Il y a p distributions conditionnelles de Y sachant X = xi (autant que


les p modalités ou classes de X ).

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 27 / 51


Tableau des q distributions conditionnelles de X sachant Y

Distribution conditionnelle de X sachant Y = yj dans la colonne j

Y y1 y2 ... yj ... yq
X
x1 f1/1 f1/2 ... f1/j ... f1/q
x2 f2/1 f2/2 ... f2/j ... f2/q
.. .. .. .. ..
. . . . .
xi fi/1 fi/2 ... fi/j ... fi/q
.. .. .. .. ..
. . . . .
xp fp/1 fp/2 ... fp/j . . . fp/q
Total 1 1 ... 1 ... 1

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 28 / 51


Tableau des p distributions conditionnelles de Y sachant X

Distribution conditionnelle de Y sachant X = xi dans la ligne i

Y y1 y2 ... yj ... yq Total


X
x1 f1/1 f2/1 ... fj/1 ... fq/1 1
x2 f1/2 f2/2 ... fj/2 ... fq/2 1
.. .. .. .. ..
. . . . .
xi f1/i f2/i ... fj/i ... fq/i 1
.. .. .. .. ..
. . . . .
xp f1/p f2/p ... fj/p ... fq/p 1

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 29 / 51


Exemple : Distributions conditionnelles en effectifs du
Salaire horaire sachant le Sexe

Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Total


Sexe
Femme 78 97 48 54 11 9 297
Homme 64 82 58 60 21 17 302
Total 142 179 106 114 32 26 599

Distribution conditionnelle en effectifs du salaire horaire chez (sachant


que) les femmes.

Parmi les ..... femmes, ..... gagnent entre 15 et 20 $ de l’heure.

Sur les ..... personnes observées, ..... sont des femmes qui touchent
entre 15 et 20 $ de l’heure.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 30 / 51


Exemple : Distributions conditionnelles en effectifs du Sexe
sachant le Salaire horaire
Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Total
Sexe
Femme 78 97 48 54 11 9 297
Homme 64 82 58 60 21 17 302
Total 142 179 106 114 32 26 599

Distribution conditionnelle en effectifs du sexe sachant que le salaire


horaire est compris entre 0 et 10 $ de l’heure.

Parmi les individus qui touchent entre 0 et 10 $ de l’heure, ..... sont


des femmes.

Sur les ..... personnes observées, ..... sont des femmes qui touchent
entre 0 et 10 $ de l’heure.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 31 / 51


Tableau des p = 2 distributions conditionnelles en
fréquences du Salaire horaire sachant le Sexe
Tableau en pourcentage :
Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Total
Sexe
Femme 26.3 32.6 16.2 18.2 3.7 3 100
Homme 21.2 27.1 19.2 19.9 7 5.6 100
Dist. marg. 23.7 29.9 17.7 19 5.4 4.3 100

Distribution conditionnelle en fréquences du salaire horaire chez les


femmes.

Parmi les femmes, ...% touchent entre 30 et 40 $ de l’heure.

...% des individus gagnent entre 30 et 40 dollars de l’heure.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 32 / 51


Tableau des q = 6 distributions conditionnelles en
fréquences du sexe sachant le salaire horaire
Tableau en pourcentage :
Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Dist. marg.
Sexe
Femme 54.9 54.2 45.3 47.4 34.4 34.6 49.6
Homme 45.1 45.8 54.7 52.6 65.6 65.4 50.4
Total 100 100 100 100 100 100 100

Répartition femmes/hommes chez les individus touchant entre 20 et 30 $


de l’heure.

Parmi les individus touchant entre 15 et 20 $ de l’heure ...... sont des


femmes.

...% des individus sont des femmes.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 33 / 51


De l’utilité de bien comprendre les distributions
conditionnelles

Fin aôut 2021, le Ministère des Solidarité et de la Santé a diffusé le spot


suivant :
[Link]

À la fin du spot, on peut lire les deux phrases suivantes :

“On peut débattre de tout, sauf des chiffres.”


“Aujourd’hui en France, 8 personnes sur 10 hospitalisées à cause du covid
ne sont pas vaccinées.”

Qu’en pensez-vous ?

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 34 / 51


1.3 Moyennes, variances marginales et conditionnelles

UNIQUEMENT pour les variables quantitatives.

Données brutes : calculs similaires à ceux effectués en statistique


univariée après extraction des individus d’intérêt.

Données groupées : à partir des tableaux de contingence (calculs


approchés).

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 35 / 51


1.3.1 Moyennes et variances marginales
Distribution marginale de X en effectifs/fréquences

{(xi , ni• ) ; 1 ≤ i ≤ p}, {(xi , fi• ) ; 1 ≤ i ≤ p}.

Distribution marginale de Y en effectifs/fréquences

{(yj , n•j ) ; 1 ≤ j ≤ q}, {(yj , f•j ) ; 1 ≤ j ≤ q}.

Moyennes marginales x et y
p p
1X X
x = ni• xi = fi• xi .
n
i=1 i=1
q q
1X X
y = n•j yj = f•j yj .
n
j=1 j=1

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 36 / 51


Variances marginales σx2 et σy2
p p
1X X
V (x) = σx2 = ni• (xi − x)2 = fi• (xi − x)2 .
n
i=1 i=1
q q
1X X
V (y ) = σy2 = n•j (yj − y )2 = f•j (yj − y )2 .
n
j=1 j=1

Soit aussi
p p
1X X
σx2 = ni• xi2 − (x)2 = fi• xi2 − (x)2 .
n
i=1 i=1
q q
1X X
σy2 = n•j yj2 − (y )2 = f•j yj2 − (y )2 .
n
j=1 j=1

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 37 / 51


1.3.2 Moyennes et variances conditionnelles
pour j = 1, . . . , q
Dist. cond. de X en effectifs/fréquences sachant que Y = yj

{(xi , ni/j ) ; 1 ≤ i ≤ p} {(xi , fi/j ) ; 1 ≤ i ≤ p}

avec
nij
ni/j = nij et fi/j =
n•j
Moyenne conditionnelle de X sachant que Y = yj : x /j
p p p
1 X 1 X X
x /j = x /Y =yj = ni/j xi = nij xi = fi/j xi ;
n•j n•j
i=1 i=1 i=1

2
Variance conditionnelle de X sachant que Y = yj : σx/j
p p
2 1 X 2 X 2
σx/j = V (x/Y =yj ) = ni/j xi − x /j = fi/j xi − x /j .
n•j
i=1 i=1

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 38 / 51


pour i = 1, . . . , p
Dist. cond. de Y en effectifs/fréquences sachant que X = xi

{(yj , nj/i ) ; 1 ≤ j ≤ q} {(yj , fj/i ) ; 1 ≤ j ≤ q}

avec
nij
nj/i = nij et fj/i =
ni•
Moyenne conditionnelle de Y sachant que X = xi : y /i
q q q
1 X 1 X X
y /i = y /X =xi = nj/i yj = nij yj = fj/i yj ;
ni• ni•
j=1 j=1 j=1

Variance conditionnelle de Y sachant que X = xi : σy2/i

q q
1 X  2 X  2
σy2/i = V (y/X =xi ) = nj/i yj − y /i = fj/i yj − y /i .
ni•
j=1 j=1

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 39 / 51


Autre écriture de la variance conditionnelle

p
2 1 X 2
σx/j = ni/j xi − x /j
n•j
i=1
p p
1 X 2 X 2
= nij xi2 − x /j = fi/j xi2 − x /j .
n•j
i=1 i=1
q
1 X  2
σy2/i = nj/i yj − y /i
ni•
j=1
q q
1 X  2 X  2
= nij yj2 − y /i = fj/i yj2 − y /i .
ni•
j=1 j=1

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 40 / 51


Lien entre moyennes marginales et conditionnelles

q q
1X X
x = n•j x /j = f•j x /j .
n
j=1 j=1
p p
1 X X
y = ni• y /i = fi• y /i .
n
i=1 i=1

On dit que “ la moyenne marginale est la moyenne (pondérée) des


moyennes conditionnelles ”.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 41 / 51


Preuve de la formule des moyennes

On part de l’expression de la moyenne marginale x. Par définition de ni•


on a
p p q
1X 1 XX
x= ni• xi = nij xi
n n
i=1 i=1 j=1

En changeant l’ordre des sommes et en introduisant n•j , on obtient


q p q
!
1X 1 X 1X
x= n•j nij xi = n•j x /j
n n•j n
j=1 i=1 j=1

qui est bien la formule recherchée.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 42 / 51


Décomposition de la variance

Variance marginale = variance des moyennes conditionnelles + moyenne


des variances conditionnelles
q q
1X 2 1 X
σx2 = n•j x /j − x + 2
n•j σx/j .
n n
j=1 j=1
p p
1 X  2 1 X
σy2 = ni• y /i − y + ni• σy2/i .
n n
i=1 i=1

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 43 / 51


Preuve de la décomposition de la variance
On part de l’expression de la variance marginale σx2 . Par définition de ni•
on a
p p q
1X 2 1 XX
2
σx = ni• (xi − x) = nij (xi − x)2
n n
i=1 i=1 j=1

En changeant l’ordre des sommes et en introduisant n•j , on obtient


q p q p
! !
1 X 1 X 1 X X
σx2 = n•j nij (xi − x)2 = n•j fi/j (xi − x)2
n n•j n
j=1 i=1 j=1 i=1
(1)
Il reste à donner une expression appropriée pour le terme
p
X
fi/j (xi − x)2
i=1

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 44 / 51


Preuve de la décomposition de la variance, suite
On écrit
p p
X 2
X  2
fi/j (xi − x) = fi/j xi − x /j − x − x /j
i=1 i=1
p
!
X 2 2
= fi/j xi − x /j + x − x /j
i=1
p
X 
−2 x − x /j fi/j xi − x /j
i=1
2
2
= σx/j + x − x /j +0 (2)

En regroupant (1) et (2), on obtient bien que


q q
1X 1X 2
σx2 = 2
n•j σx/j + n•j x /j − x
n n
j=1 j=1

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 45 / 51


Remarques

On peut calculer les moyennes et les variances conditionnelles d’une


variable quantitative sachant les modalités d’une variable qualitative.

mais la réciproque est fausse !

Pour une variable quantitative continue, toujours faire les calculs à


partir des données brutes (quand elles sont disponibles).

On peut aussi calculer d’autres indicateurs conditionnels, comme les


médianes conditionnelles, ou les quartiles conditionnels.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 46 / 51


Exemple : Salaire horaire selon le sexe
Distribution conditionnelle du salaire horaire selon le sexe (en %) :
Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Total
Sexe
Femme 26.3 32.6 16.2 18.2 3.7 3 100
Homme 21.2 27.1 19.2 19.9 7 5.6 100
Dist. marg. 23.7 29.9 17.7 19 5.4 4.3 100

Le salaire horaire moyen sur l’ensemble de la population est de 17.9 $.


Le salaire horaire moyen des femmes est y /F =16.6 $.
Le salaire horaire moyen des hommes est y /H =19.2 $.
On a bien (aux erreurs d’arrondis près)

297x16.6 + 302x19.2
17.9 = .
599
Calculs effectués à partie des données brutes. Les calculs à partir des
données groupées ne donnent qu’une approximation du vrai résultat.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 47 / 51


Exemple : Salaire horaire selon le sexe
Distribution conditionnelle du salaire horaire selon le sexe (en %) :
Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Total
Sexe
Femme 26.3 32.6 16.2 18.2 3.7 3 100
Homme 21.2 27.1 19.2 19.9 7 5.6 100
Dist. marg. 23.7 29.9 17.7 19 5.4 4.3 100

La variance du salaire horaire sur l’ensemble de la population est de


V (Y ) = 127.
La variance du salaire horaire des femmes est de V/F (Y ) = 105.5.
La variance du salaire horaire des hommes est de V/H (Y ) = 144.9.
On a bien (aux erreurs d’arrondis près)

297x105.5 + 302x144.9 297x(16.6)2 + 302x(19.2)2


127 = + −(17.9)2 .
599 599

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 48 / 51


Calculs des moyennes à partir des données groupées
Distribution conditionnelle du salaire horaire selon le sexe (en %) :
Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Total
Sexe
Femme 26.3 32.6 16.2 18.2 3.7 3 100
Homme 21.2 27.1 19.2 19.9 7 5.6 100
Dist. marg. 23.7 29.9 17.7 19 5.4 4.3 100

Le salaire horaire moyen sur l’ensemble de la population est de


17.67 $.
Le salaire horaire moyen des femmes est y /F =16.17 $.
Le salaire horaire moyen des hommes est y /H =19.15 $.
On a bien (aux erreurs d’arrondis près)

297x16.17 + 302x19.15
17.67 = .
599
Ces résultats approchés seront d’autant plus précis que le découpage
en classe est fin.
1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 49 / 51
Exemple : Salaire horaire selon la région
À partir des données brutes

Les moyennes conditionnelles du salaire selon la région sont :

y /NE = 17.7 $, y /NW = 18.4 $, y /S = 18 $, y /W = 17.5 $

Les variances conditionnelles du salaire selon la région sont :

V (Y )/NE = 122.9, V (Y )/NW = 124.4,


V (Y )/S = 151.5, V (Y )/W = 99.3.

Les médianes conditionnelles du salaire selon la région sont :

Me(Y )/NE = 15 $, Me(Y )/NW = 15.6 $,


Me(Y )/S = 14.3 $, Me(Y )/W = 15 $

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 50 / 51


Exemple : Âge des salariés selon le sexe

À partir des données brutes

Les moyennes conditionnelles de l’âge selon le sexe sont :

y /F = 41.5 ans, y /H = 42.2 ans.

Les écarts types conditionnels de l’âge selon le sexe sont :

σy /F = 14.3 ans, σy /H = 13.9 ans.

Les médianes conditionnelles de l’âge selon le sexe sont :

Me(Y )/F = 42 ans Me(Y )/H = 42.5 ans.

1. Couple de variables statistiques (J. Dedecker) Statistique descriptive bivariée 51 / 51

Vous aimerez peut-être aussi