0% ont trouvé ce document utile (0 vote)
257 vues68 pages

Statistique descriptive bivariée 2015-2016

Ce document décrit les méthodes statistiques pour analyser la relation entre deux variables, en présentant des exemples de données. Il introduit les notions de données brutes et groupées, et décrit comment résumer et visualiser graphiquement le lien entre les variables.

Transféré par

Mamani Aya Mayssam
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
257 vues68 pages

Statistique descriptive bivariée 2015-2016

Ce document décrit les méthodes statistiques pour analyser la relation entre deux variables, en présentant des exemples de données. Il introduit les notions de données brutes et groupées, et décrit comment résumer et visualiser graphiquement le lien entre les variables.

Transféré par

Mamani Aya Mayssam
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Modélisation L2 Mathématiques

Statistique descriptive bivariée

Couple de variables

Marie-Luce Taupin
[Link]@[Link]

2015-2016

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 1 / 68
Objectifs

Statistique univariée : analyse descriptive séparée de chaque variable


d’un tableau individus × variables.

Statistique bivariée : analyse descriptive des variables deux à deux :

I étude d’un couple de variables statistiques

I étude de la liaison entre deux variables quantitatives, qualitatives,


quantitative/qualitative

I étape indispensable de toute analyse de jeux de données :


croisement systématique des variables 2 à 2.

Statistique descriptive multivariée : Analyse des données.

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 2 / 68
Données brutes et données groupées

Étude de deux variables X et Y sur une méme population de taille n :

xk et yk : valeurs prises par X et Y pour un méme individu k,


1 ≤ k ≤ n.

Données brutes (xk , yk )k=1,··· ,n : les n couples d’observations

(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 3 / 68
Exemple

Extrait des données brutes :

Individu Sexe X Salaire horaire Y


1 F 13.25
2 F 12.50
3 H 14.00
4 F 13.00
5 H 7.00
6 F 29.80
...
599 H 14.50

Le salaire horaire dépend-il du sexe des individus ?

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 4 / 68
Exemple
Extrait des données brutes :

Employé Catégorie de personnel Age Région


1 A 58 NE
2 B 42 W
3 A 35 S
4 B 26 NE
5 B 22 W
6 C 32 NW
7 A 42 NE
... ... ... ...
597 C 41 S
598 C 33 NW
599 C 29 S

La répartition des éges est-elle différente selon la catégorie de


personnel (et dans quelle mesure) ?
La catégorie des employés est-elle liée à la région (et de quelle
maniére) ?

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 5 / 68
Extrait des données

> head(Donnees)

AGE SEXE REGION STAT_MARI SAL_HOR SYNDICAT CATEGORIE NIV_ETUDES NB_PERS NB_ENF REV_FOYER
1 58 F NE C 13.25 non 5 43 2 0 11
2 40 M W M 12.50 non 7 38 2 0 7
3 29 M S C 14.00 non 5 42 2 0 15
4 59 M NE D 10.60 oui 3 39 4 1 7
5 51 M W M 13.00 non 3 35 8 1 15
6 19 M NW C 7.00 non 3 39 6 0 16

> tail(Donnees)

AGE SEXE REGION STAT_MARI SAL_HOR SYNDICAT CATEGORIE NIV_ETUDES NB_PERS NB_ENF REV_FOYER
594 63 M NE M 10.5 non 4 40 2 0 13
595 51 F S M 29.8 non 2 42 2 0 14
596 29 F NE C 27.0 oui 1 43 2 0 15
597 57 F NW D 21.0 non 4 40 1 0 14
598 29 F W M 13.0 oui 5 39 6 4 11
599 47 M S C 14.5 non 4 39 1 0 12

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 6 / 68
Description des données

> dim(Donnees)
[1] 599 11

> attach(Donnees)

> names(Donnees)

[1] "AGE" "SEXE" "REGION" "STAT_MARI" "SAL_HOR" "SYNDICAT" "CATEGORIE" "NIV_ETUDES"


"NB_PERS" "NB_ENF" "REV_FOYER"

> str(Donnees)

’[Link]’: 599 obs. of 11 variables:


$ AGE : int 58 40 29 59 51 19 64 23 47 66 ...
$ SEXE : Factor w/ 2 levels "F","M": 1 2 2 2 2 2 1 1 2 1 ...
$ REGION : Factor w/ 4 levels "NE","NW","S",..: 1 4 3 1 4 2 3 1 2 3 ...
$ STAT_MARI : Factor w/ 5 levels "C","D","M","S",..: 1 3 1 2 3 1 3 1 3 2 ...
$ SAL_HOR : num 13.2 12.5 14 10.6 13 ...
$ SYNDICAT : Factor w/ 2 levels "non","oui": 1 1 1 2 1 1 1 1 2 1 ...
$ CATEGORIE : int 5 7 5 3 3 3 9 1 8 5 ...
$ NIV_ETUDES: int 43 38 42 39 35 39 40 43 40 40 ...
$ NB_PERS : int 2 2 2 4 8 6 3 2 3 1 ...
$ NB_ENF : int 0 0 0 1 1 0 0 0 0 0 ...
$ REV_FOYER : int 11 7 15 7 15 16 13 11 12 8 ...

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 7 / 68
Description des données

## Modification du type des variables

Donnees$CATEGORIE=[Link](Donnees$CATEGORIE)
Donnees$NIV_ETUDES=[Link](Donnees$NIV_ETUDES)
Donnees$REV_FOYER=[Link](Donnees$REV_FOYER)

> str(Donnees)

’[Link]’: 599 obs. of 11 variables:


$ AGE : int 58 40 29 59 51 19 64 23 47 66 ...
$ SEXE : Factor w/ 2 levels "F","M": 1 2 2 2 2 2 1 1 2 1 ...
$ REGION : Factor w/ 4 levels "NE","NW","S",..: 1 4 3 1 4 2 3 1 2 3 ...
$ STAT_MARI : Factor w/ 4 levels "C","D","M","V": 1 3 1 2 3 1 3 1 3 2 ...
$ SAL_HOR : num 13.2 12.5 14 10.6 13 ...
$ SYNDICAT : Factor w/ 2 levels "non","oui": 1 1 1 2 1 1 1 1 2 1 ...
$ CATEGORIE : Factor w/ 10 levels "1","2","3","4",..: 5 7 5 3 3 3 9 1 8 5 ...
$ NIV_ETUDES: Factor w/ 15 levels "32","33","34",..: 12 7 11 8 4 8 9 12 9 9 ...
$ NB_PERS : int 2 2 2 4 8 6 3 2 3 1 ...
$ NB_ENF : int 0 0 0 1 1 0 0 0 0 0 ...
$ REV_FOYER : Factor w/ 16 levels "1","2","3","4",..: 11 7 15 7 15 16 13 11 12 8 ...

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 8 / 68
Résumé des données

> summary(Donnees)

AGE SEXE REGION STAT_MARI SAL_HOR SYNDICAT CATEGORIE NIV_ETUDES


Min. :16.00 F:297 NE:129 C:193 Min. : 2.0 non:496 2 :133 39 :187
1st Qu.:29.00 M:302 NW:122 D: 75 1st Qu.:10.5 oui:103 3 :125 40 :148
Median :42.00 S :200 M:325 Median :15.0 5 : 94 43 :114
Mean :41.85 W :148 V: 6 Mean :17.9 4 : 48 42 : 45
3rd Qu.:53.50 3rd Qu.:22.0 1 : 46 44 : 29
Max. :80.00 Max. :99.0 9 : 39 41 : 22
(Other):114 (Other): 54

NB_PERS NB_ENF REV_FOYER


Min. : 1.00 Min. :0.0000 14 : 89
1st Qu.: 2.00 1st Qu.:0.0000 15 : 77
Median : 3.00 Median :0.0000 13 : 71
Mean : 3.11 Mean :0.5326 12 : 70
3rd Qu.: 4.00 3rd Qu.:1.0000 11 : 61
Max. :13.00 Max. :6.0000 16 : 48
(Other):183

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 9 / 68
X et/ou Y qualitatives ou quantitatives discrétes

x1 , x2 , . . . , xi , . . . , xp : les p modalités de X (p observations distinctes


de X )

y1 , y2 , . . . , yj , . . . , yq : les q modalités de Y (q observations distinctes


de Y )

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 10 / 68
X et/ou Y quantitatives continues

Valeurs de X regroupées en p classes

[e0X , e1X [, . . . , [ei−1


X
, eiX [, . . . , [ep−1
X
, epX [

de centres x1 , · · · , xi , · · · , xp

Valeurs de Y en q classes

[e0Y , e1Y [, . . . , [ej−1


Y Y
, ejY [, . . . , [eq−1 , eqY [

de centres y1 , . . . , yj . . . , yq

X , e X [ et son centre x
Confusion parfois entre la classe [ei−1 i i

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 11 / 68
Données groupées

nij : nombre d’individus pour lesquels à la fois X prend la valeur xi et


Y la valeur yj

nij = #{k = 1, . . . , n xk = xi et yk = yj }

X , e X [ de centre x
Si X est continue, xk = xi signifie xk ∈ [ei−1 i i

Données groupées : (xi , yj , nij )i=1,...,p, j=1,...,q

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 12 / 68
Tableaux statistiques et distribution d’une série bivariée
Distribution jointe - Tableau de contingence
Distribution jointe en effectifs de X et de Y :

{(xi , yj , nij ) ; 1 ≤ i ≤ p, 1 ≤ j ≤ q}

Pour i = 1, . . . , p et j = 1, . . . , q
I nij : nombre d’individus possédant la modalité xi de X et la modalité
yj de Y .
Xq
I ni• = nij : nombre d’individus possédant la modalité xi (∈ classe de
j=1
centre xi ) de X
Xp
I n•j = nij : nombre d’individus possédant la modalité yj de Y
i=1
X q
p X p
X q
X
I n= nij = ni• = n•j ; nombre total d’individus de la
i=1 j=1 i=1 j=1
population.

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 13 / 68
Tableau de contingence en effectifs (p lignes, q colonnes)

Y y1 y2 ... yj ... yq Total


X
x1 n11 n12 ... n1j ... n1q n1•
x2 n21 n22 ... n2j ... n2q n2•
.. .. .. .. .. ..
. . . . . .
xi ni1 ni2 ... nij ... niq ni•
.. .. .. .. .. ..
. . . . . .
xp np1 np2 ... npj ... npq np•
Total n•1 n•2 ... n•j ... n•q n

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 14 / 68
Tableau de contingence : SEXE x REGION
> TabContEf<-table(SEXE,REGION)

> print(TabContEf) # affiche le nom des variables

REGION
SEXE NE NW S W
F 61 62 97 77
M 68 60 103 71

> addmargins(TabContEf)

REGION
SEXE NE NW S W Sum
F 61 62 97 77 297
M 68 60 103 71 302
Sum 129 122 200 148 599

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 15 / 68
X : SEXE et Y : REGION

X de type ......................... à p = .......... modalités.

Y de type ....................... 0 q = ......... modalités.

Mesures conjointes de X et Y sur n = .... individus.

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 16 / 68
Distribution jointe en fréquences
Pour i = 1, . . . , p et j = 1, . . . , q

nij
I fij = : proportion d’individus possédant la modalité xi de la variable
n
X et la modalité yj de la variable Y .
X q
I fi• = fij : fréquence de la modalité xi de X
j=1
p
X
I f•j = fij : fréquence de la modalité yj de Y
i=1
p X
X q p
X q
X
I 1= fij = fi• = f•j
i=1 j=1 i=1 j=1

Distribution jointe en fréquences de X et de Y :

{(xi , yj , fij ) ; 1 ≤ i ≤ p, 1 ≤ j ≤ q}

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 17 / 68
Tableau de contingence en fréquences (p lignes, q
colonnes)

Y y1 y2 ... yj ... yq Total


X
x1 f11 f12 ... f1j ... f1q f1•
x2 f21 f22 ... f2j ... f2q f2•
.. .. .. .. .. ..
. . . . . .
xi fi1 fi2 ... fij ... fiq fi•
.. .. .. .. .. ..
. . . . . .
xp fp1 fp2 ... fpj ... fpq fp•
Total f•1 f•2 ... f•j ... f•q 1

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 18 / 68
Tableau de contingence : SEXE x REGION
> TabContFr<-[Link](TabContEf)

> print(TabContFr)

REGION
SEXE NE NW S W
F 0.1018364 0.1035058 0.1619366 0.1285476
M 0.1135225 0.1001669 0.1719533 0.1185309

> print(round(TabContFr,2))
REGION
SEXE NE NW S W
F 0.10 0.10 0.16 0.13
M 0.11 0.10 0.17 0.12

> addmargins(round(TabContFr,2))
REGION
SEXE NE NW S W Sum
F 0.10 0.10 0.16 0.13 0.49
M 0.11 0.10 0.17 0.12 0.50
Sum 0.21 0.20 0.33 0.25 0.99
Couple de variables (Marie-Luce Taupin [Link]@[Link])
Statistique descriptive bivariée 2015-2016 19 / 68
Tableau de contingence en % : SEXE x REGION
> TabContPr<-100*[Link](TabContEf)

> print(TabContPr)
REGION
SEXE NE NW S W
F 10.18364 10.35058 16.19366 12.85476
M 11.35225 10.01669 17.19533 11.85309

> print(round(TabContPr,2))
REGION
SEXE NE NW S W
F 10.18 10.35 16.19 12.85
M 11.35 10.02 17.20 11.85

> addmargins(round(TabContPr,2))
REGION
SEXE NE NW S W Sum
F 10.18 10.35 16.19 12.85 49.57
M 11.35 10.02 17.20 11.85 50.42
Sum 21.53 20.37 33.39 24.70 99.99

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 20 / 68
Tableau de contingence : Autre représentation
> library(gplots)
> balloonplot(t(TabContEf),dotsize=10,main="")

REGION NE NW S W

SEXE

F 61 62 97 77 297

M 68 60 103 71 302

129 122 200 148 599

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 21 / 68
Représentations graphiques
> N1=nlevels(SEXE) # nombre de modalites (niveaux) du facteur Sexe
> N2=nlevels(REGION) # nombre de modalites (niveaux) du facteur REGION
> couleurs=rainbow(N1)
> barplot(TabContFr, col=couleurs,2)
> legend("topleft", legend=c("F", "H"), col=couleurs,pch=15)

femme
homme
1.0
0.8
fréquences
0.6
0.4
0.2
0.0

NE NW S W
Couple de variables (Marie-Luce Taupin [Link]@[Link])
Statistique descriptive
Region bivariée 2015-2016 22 / 68
Représentations graphiques
> barplot(TabContFr,beside=TRUE, col=couleurs, 2)
> legend("topleft", legend=c("F", "H"), col=couleurs,pch=15)

0.5

femme
homme
0.4
0.3
fréquences
0.2
0.1
0.0

NE NW S W

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 23 / 68
Représentations graphiques
A ne pas faire (sauf si les modalités sont équilibrées) !
> couleurs=rainbow(N2)
> mosaicplot(TabContEf,col=couleurs,main="")

F M
NE
NW
REGION
S
W

SEXE

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 24 / 68
Tableau de contingence : SEXE x SALAIRE
=⇒ Tableau de contingence Qualitatif x Quantitatif.

> Nclasse=4 # Nombre de classes


> SALAIRE<-cut(SAL_HOR,breaks=Nclasse)
> TabContEf<-table(SEXE,SALAIRE)

> print(TabContEf)
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
F 262 31 3 1
M 244 49 7 2

> addmargins(TabContEf)
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
F 262 31 3 1 297
M 244 49 7 2 302
Sum 506 80 10 3 599

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 25 / 68
Tableau de contingence : SEXE x SALAIRE
> TabContFr<-[Link](TabContEf)

> print(TabContFr)
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
F 0.437395659 0.051752922 0.005008347 0.001669449
M 0.407345576 0.081803005 0.011686144 0.003338898

> print(round(TabContFr,2))
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
F 0.44 0.05 0.01 0.00
M 0.41 0.08 0.01 0.00

> addmargins(round(TabContFr,2))
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
F 0.44 0.05 0.01 0.00 0.50
M 0.41 0.08 0.01 0.00 0.50
Sum 0.85 0.13 0.02 0.00 1.00

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 26 / 68
Tableau de contingence : Autre représentation
> balloonplot(t(TabContEf),dotsize=10,main="")

SALAIRE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]

SEXE

F 262 31 3 1 297

M 244 49 7 2 302

506 80 10 3 599

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 27 / 68
Représentations graphiques
A ne pas faire (sauf si les modalités sont équilibrées) !
> couleurs=rainbow(N2)
> mosaicplot(TabContEf,col=couleurs,main="")

F M
(1.9,26.2]
SALAIRE
(26.2,50.5]
(50.5,74.8]
(74.8,99.1]

SEXE

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 28 / 68
Représentations graphiques
> boxplot(SAL_HOR ~ SEXE,xlab="Sexe",ylab="SALAIRE")
> abline(h=mean(SAL_HOR,[Link]=T),lty=2,col="red",lwd=2)

100
80
60
SALAIRE
40
20
0

F M
Sexe

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 29 / 68
Tableau de contingence : AGE x SALAIRE
=⇒ Tableau de contingence Quantitatif x Quantitatif.

ége (ans) [16 ;32[ [32 ;48[ [48 ;64[ [64 ;80] Total
Salaire horaire
[2 ;26[ 180 156 144 26 506
[26 ;50[ 11 28 40 1 80
[50 ;76[ 0 5 4 1 10
[76 ;100] 1 0 1 1 3
Total 192 189 189 29 599

X ................... à p = ... classes.

Y ................. à q = ... classes.

Mesures conjointes de X et Y sur n = ...... individus.

4 ...................................
Couple de variables (Marie-Luce Taupin [Link]@[Link])
Statistique descriptive bivariée 2015-2016 30 / 68
Tableau de contingence : AGE x SALAIRE
> NclasseS=4 # Nombre de classes : Salaire
> SALAIRE<-cut(SAL_HOR,breaks=NclasseS)
> NclasseA=4 # Nombre de classes : Age
> Age<-cut(AGE,breaks=NclasseA)
> TabContEf<-table(Age,SALAIRE) # Tableau de contingence : Effectif
> print(TabContEf)
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
(15.9,32] 180 11 0 1
(32,48] 156 28 5 0
(48,64] 144 40 4 1
(64,80.1] 26 1 1 1

> addmargins(TabContEf)
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
(15.9,32] 180 11 0 1 192
(32,48] 156 28 5 0 189
(48,64] 144 40 4 1 189
(64,80.1] 26 1 1 1 29
Sum 506 80 10 3 599
Couple de variables (Marie-Luce Taupin [Link]@[Link])
Statistique descriptive bivariée 2015-2016 31 / 68
Tableau de contingence : AGE x SALAIRE

> TabContFr<-[Link](TabContEf) # Tableau de contingence : Frequence

> print(round(TabContFr,2))
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
(15.9,32] 0.30 0.02 0.00 0.00
(32,48] 0.26 0.05 0.01 0.00
(48,64] 0.24 0.07 0.01 0.00
(64,80.1] 0.04 0.00 0.00 0.00

> addmargins(round(TabContFr,2))
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
(15.9,32] 0.30 0.02 0.00 0.00 0.32
(32,48] 0.26 0.05 0.01 0.00 0.32
(48,64] 0.24 0.07 0.01 0.00 0.32
(64,80.1] 0.04 0.00 0.00 0.00 0.04
Sum 0.84 0.14 0.02 0.00 1.00

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 32 / 68
Représentation graphique plus appropriée
> plot(AGE,SAL_HOR,pch=20,xlab="Age",ylab="Salaire horaire",main="")

100
80
60
Salaire horaire
40
20
0

20 30 40 50 60 70 80
Age

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 33 / 68
Probléme des points superposés
> # Solution 1 : Bruitage des points
> plot(jitter(AGE),jitter(SAL_HOR),pch=20,xlab="Age",
ylab="Salaire horaire",main="")
100
80
60
Salaire horaire
40
20
0

20 30 40 50 60 70 80
Age

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 34 / 68
Probléme des points superposés
> # Solution 2 : symboles adapt\’es
> sunflowerplot(x=AGE,y=SAL_HOR,,xlab="Age",ylab="Salaire horaire",
main="")
100
80
60
Salaire horaire
40
20
0

20 30 40 50 60 70 80
Age

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 35 / 68
Distributions marginales

Distribution marginale de X en effectifs et en fréquences

{(xi , ni• ) ; 1 ≤ i ≤ p} {(xi , fi• ) ; 1 ≤ i ≤ p}

⇒ Derniére colonne du tableau de contingence en effectifs ou


fréquences

Distribution marginale de Y en effectifs et en fréquences

{(yj , n•j ) ; 1 ≤ j ≤ q} {(yj , f•j ) ; 1 ≤ j ≤ q}

⇒ Derniére ligne du tableau de contingence en effectifs ou fréquences

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 36 / 68
Tableaux des effectifs/fréquences de X et de Y

X effectif fréquence Y effectif fréquence


x1 n1• f1• y1 n•1 f•1
x2 n2• f2• y2 n•2 f•2
.. .. .. .. .. ..
. . . . . .
xi ni• fi• yj n•j f•j
.. .. .. .. .. ..
. . . . . .
xp np• fp• yq n•q f•q
p Xq
X
Total n= ni• 1 Total n= n•j 1
i=1 j=1

Dist. marginale de X Dist. marginale de Y


en eff. et en fréq. en eff. et en fréq.

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 37 / 68
Distributions marginales : SEXE et REGION
Y WE NW S W Total
Sexe X
Femme 61 62 97 77 297
Homme 68 60 103 71 302
Total 129 122 200 148 599

> [Link](TabContEf,1)

SEXE
F M
297 302

> [Link](TabContEf,2)

REGION
NE NW S W
129 122 200 148

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 38 / 68
Distributions marginales : SEXE et REGION
Y WE NW S W Total
Sexe X
Femme 0.1018 0.1035 0.1619 0.1285 0.495
Homme 0.1135 0.1002 0.1720 0.1185 0.504
Total 0.215 0.203 0.333 0.247 1

> [Link](TabContFr,1)

SEXE
F M
0.4958264 0.5041736

> [Link](TabContFr,2)

REGION
NE NW S W
0.215 0.203 0.333 0.247

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 39 / 68
Distributions conditionnelles

Distributions conditionnelles de X sachant Y (colonne fixée) et de Y


sachant X (ligne fixée)

En effectifs, pour tout i = 1, . . . , p et j = 1, . . . , q

I nij : nombre d’individus tq X = xi et Y = yj

I ni/j : nombre d’individus tq X = xi parmi ceux pour lequels Y = yj

ni/j = nij avec j fixé

I nj/i : nombre d’individus tq Y = yj parmi ceux pour lesquels X = xi

nj/i = nij , i fixé

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 40 / 68
En fréquences, pour tout i = 1, . . . , p et j = 1, . . . q,

I fij : proportion d’individus tq X = xi et Y = yj

I fi/j : proportion d’individus pour lesquels X = xi parmi ceux pour


lesquels Y = yj .
nij
fi/j =
n•j

I fj/i : proportion d’individus pour lesquels Y = yj parmi ceux pour


lesquels X = xi
nij
fj/i =
ni•

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 41 / 68
Distributions conditionnelles en effectifs et fréquences

Distribution conditionnelle en effectifs de X sachant Y = yj

{(xi , ni/j ) ; 1 ≤ i ≤ p, j fixé}

(j ème colonne du tableau de contingence en effectifs)

Distribution conditionnelle en effectifs de Y sachant X = xi

{(yj , nj/i ) ; 1 ≤ j ≤ q, i fixé}

(i ème ligne du tableau de contingence en effectifs).

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 42 / 68
Distribution conditionnelle en fréquences de X sachant Y = yj :

{(xi , fi/j ) ; 1 ≤ i ≤ p, j fixé}

Distribution conditionnelle en fréquences de Y sachant X = xi :

{(yj , fj/i ) ; 1 ≤ j ≤ q, i fixé}

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 43 / 68
X /Y = yj effectif fréquence.
n1j
x1 n1/j = n1j f1/j =
n•j
n2j
x2 n2/j = n2j f2/j =
n•j
.. .. ..
. . .
nij
xi ni/j = nij fi/j =
n•j
.. .. ..
. . .
npj
xp np/j = npj fp/j =
n•j
p
X
Total n•j = nij 1
i=1

Dist. cond. eff. et fréq. de X sachant Y = yj

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 44 / 68
Y /X = xi effectif fréquence
ni1
y1 n1/i = ni1 f1/i =
ni•
ni2
y2 n2/i = ni2 f2/i =
ni•
.. .. ..
. . .
nij
yj nj/i = nij fj/i =
ni•
.. .. ..
. . .
niq
yq nq/i = niq fq/i =
ni•
q
X
Total ni• = nij 1
j=1

Dist. cond .eff. et fréq. de Y sachant X = xi

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 45 / 68
Il y a q distributions conditionnelles de X sachant Y = yj (autant que
les q modalités ou classes de Y )

Il y a p distributions conditionnelles de Y sachant X = xi (autant que


les p modalités ou classes de X )

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 46 / 68
Tableau des q distributions conditionnelles de X sachant Y

Distribution conditionnelle de X sachant Y = yj dans la colonne j

Y y1 y2 ... yj ... yq
X
x1 f1/1 f1/2 ... f1/j ... f1/q
x2 f2/1 f2/2 ... f2/j ... f2/q
.. .. .. .. ..
. . . . .
xi fi/1 fi/2 ... fi/j ... fi/q
.. .. .. .. ..
. . . . .
xp fp/1 fp/2 ... fp/j . . . fp/q
Total 1 1 ... 1 ... 1

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 47 / 68
Tableau des p distributions conditionnelles de Y sachant X

Distribution conditionnelle de Y sachant X = xi dans la ligne i

Y y1 y2 ... yj ... yq Total


X
x1 f1/1 f2/1 ... fj/1 ... fq/1 1
x2 f1/2 f2/2 ... fj/2 ... fq/2 1
.. .. .. .. ..
. . . . .
xi f1/i f2/i ... fj/i ... fq/i 1
.. .. .. .. ..
. . . . .
xp f1/p f2/p ... fj/p ... fq/p 1

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 48 / 68
Exemple : Distributions conditionnelles en effectifs de Y
sachant X
Salaire Y [2 ;26[ [26,50[ [50,76[ [76,100[ Total
Sexe X
Femme 262 31 3 1 297
Homme 244 49 7 2 302
Total 506 80 10 3 599

Dist. cond. en effectifs du salaire horaire chez (sachant que) les


hommes

Parmi les .... hommes, il y a ..... personnes qui gagnent entre 2 et 26


dollars.

Sur les .... personnes observées, ... sont des hommes et gagnent entre
2 et 26 dollars.

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 49 / 68
Exemple : Distributions conditionnelles en effectifs de X
sachant Y
Salaire Y [2 ;26[ [26,50[ [50,76[ [76,100[ Total
Sexe X
Femme 262 31 3 1 297
Homme 244 49 7 2 302
Total 506 80 10 3 599

Dist. cond. en effectifs du sexe sachant que le salaire horaire


est compris entre 2 et 26 dollars.

Parmi les ... personnes qui gagnent entre 2 et 26 dollars, il y a ...


hommes.

Sur les ... personnes observés, ... sont des hommes et gagnent entre 2
et 26 dollars.

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 50 / 68
Tableau des q = 4 distributions conditionnelles en
fréquences du sexe X sachant le salaire horaire Y
Salaire Y [2 ;26[ [26,50[ [50,76[ [76,100[ Total
Sexe X
Femme 52% 39% 30% 33% 50%
Homme 48% 61% 70% 67% 50%
Total 100% 100% 100% 100% 100%

Dist. cond. en fréquences du sexe sachant que le salaire horaire est


compris entre 2 et 26 dollars.

Parmi les ... personnes qui gagnent entre 2 et 26 dollars, il y en a ...%


hommes.

Sur les .... personnes observées, ....% sont des hommes et gagnent
entre 2 et 26 dollars

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 51 / 68
Tableau des p = 3 distributions conditionnelles en
fréquences du salaire horaire Y selon le sexe X
Salaire Y [2 ;26[ [26,50[ [50,76[ [76,100[ Total
Sexe X
Femme 88% 10% 1% 1% 100%
Homme 81% 16% 2% 1% 100%
dist. marg. de Y 85% 13% 2% 0% 100%

Dist. cond. en fréquences de l’ége sachant la catégorie de personnel.

Parmi les ... hommes, il y a ...% des personnes qui gagnent entre 2 et
26 dollars.

Sur les ... personnes observés, ...% sont des hommes et gagnent entre
2 et 26 dollars

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 52 / 68
Moyennes, variances marginales et conditionnelles

UNIQUEMENT pour variables quantitatives.

Données brutes : calculs similaires à ceux effectués en statistique


univariée aprés extraction des individus d’intérét.

Données groupées : à partir des tableaux de contingence.

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 53 / 68
Moyennes et variances marginales
Distribution marginale de X en effectifs/fréquences

{(xi , ni• ) ; 1 ≤ i ≤ p} {(xi , fi• ) ; 1 ≤ i ≤ p}

Distribution marginale de Y en effectifs/fréquences

{(yj , n•j ) ; 1 ≤ j ≤ q} {(yj , f•j ) ; 1 ≤ j ≤ q}

Moyennes marginales x et y
p p
1X X
x = ni• xi = fi• xi
n
i=1 i=1
q q
1 X X
y = n•j yj = f•j yj
n
j=1 j=1

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 54 / 68
Moyennes marginales : AGE et SALAIRE
> print(TabContEf)
> addmargins(TabContEf)
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
(15.9,32] 180 11 0 1 192
(32,48] 156 28 5 0 189
(48,64] 144 40 4 1 189
(64,80.1] 26 1 1 1 29
Sum 506 80 10 3 599
> [Link](TabContEf,1)
Age
(15.9,32] (32,48] (48,64] (64,80.1]
192 189 189 29
> [Link](TabContEf,2)
SALAIRE
(1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
506 80 10 3

## A comparer avec :

> mean(AGE)
[1] 41.84975
> mean(SAL_HOR)
[1] 17.89835
Couple de variables (Marie-Luce Taupin [Link]@[Link])
Statistique descriptive bivariée 2015-2016 55 / 68
Variances marginales σx2 et σy2
p p
1X X
V (x) = σx2 = ni• (xi − x)2 = fi• (xi − x)2
n
i=1 i=1
q q
1 X X
V (y ) = σy2 = n•j (yj − y)2 = f•j (yj − y)2
n
j=1 j=1

Soit aussi
p p
1X X
σx2 = ni• xi2 − (x)2 = fi• xi2 − (x)2
n
i=1 i=1
q q
1 X X
σy2 = n•j yj2 − (y )2 = f•j yj2 − (y )2
n
j=1 j=1

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 56 / 68
Variances marginales : AGE et SALAIRE
> print(TabContEf)
> addmargins(TabContEf)
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
(15.9,32] 180 11 0 1 192
(32,48] 156 28 5 0 189
(48,64] 144 40 4 1 189
(64,80.1] 26 1 1 1 29
Sum 506 80 10 3 599
> [Link](TabContEf,1)
Age
(15.9,32] (32,48] (48,64] (64,80.1]
192 189 189 29
> [Link](TabContEf,2)
SALAIRE
(1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
506 80 10 3

## A comparer avec :

> var(AGE)
[1] 199.275
> var(SAL_HOR)
[1] 127.2247
Couple de variables (Marie-Luce Taupin [Link]@[Link])
Statistique descriptive bivariée 2015-2016 57 / 68
Moyennes et variances conditionnelles
Pour j = 1, . . . , q
Dist. cond. de X en effectifs/fréquences sachant que Y = yj
{(xi , ni/j ) ; 1 ≤ i ≤ p} {(xi , fi/j ) ; 1 ≤ i ≤ p}
avec
nij
ni/j = nij et fi/j =
n•j

Moyenne conditionnelle de X sachant que Y = yj : x/j


p p p
1 X 1 X X
x/j = x/Y=yj = ni/j xi = nij xi = fi/j xi ;
n•j n•j
i=1 i=1 i=1

2
Variance conditionnelle de X sachant que Y = yj : σx/j
p p
2 1 X 2 X 2
σx/j = V(x/Y=yj ) = ni/j xi − x/j = fi/j xi − x/j .
n•j
i=1 i=1

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 58 / 68
Pour i = 1, . . . , p
Dist. cond. de Y en effectifs/fréquences sachant que X = xi

{(yj , nj/i ) ; 1 ≤ j ≤ q} {(yj , fj/i ) ; 1 ≤ j ≤ q}

avec
nij
nj/i = nij et fj/i =
ni•

Moyenne conditionnelle de Y sachant que X = xi : y/i


q q q
1 X 1 X X
y/i = y/X=xi = nj/i yj = nij yj = fj/i yj ;
ni• ni•
j=1 j=1 j=1

2
Variance conditionnelle de Y sachant que X = xi : σy/i
q q
2 1 X  2 X  2
σy/i = V(y/X=xi ) = nj/i yj − y/i = fj/i yj − y/i .
ni•
j=1 j=1

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 59 / 68
Autre écriture de la variance conditionnelle

p
2 1 X 2
σx/j = ni/j xi − x /j
n•j
i=1
p p
1 X 2 X 2
= nij xi2 − x /j = fi/j xi2 − x /j
n•j
i=1 i=1
q
1 X  2
σy2/i = nj/i yj − y /i
ni•
j=1
q q
1 X  2 X  2
= nij yj2 − y /i = fj/i yj2 − y /i
ni•
j=1 j=1

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 60 / 68
Moyennes et variances conditionnelles du salaire par ége
> round(tapply(SAL_HOR, Age, mean),2)
(15.9,32] (32,48] (48,64] (64,80.1]
14.14 18.62 20.83 18.97
> round(tapply(SAL_HOR, Age, var),2)
(15.9,32] (32,48] (48,64] (64,80.1]
80.15 127.34 140.10 215.17

> tapply(SAL_HOR,Age,summary)
$‘(15.9,32]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.25 9.00 12.00 14.14 16.34 90.00

$‘(32,48]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.00 10.75 15.00 18.62 22.11 74.00

$‘(48,64]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.00 13.00 19.00 20.83 25.72 99.00

$‘(64,80.1]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
7.65 12.00 16.00 18.97 18.00 75.00

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 61 / 68
Moyennes et variances conditionnelles de l’ége par tranche
de salaire
> round(tapply(AGE, SALAIRE, mean),2)
(1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
40.80 47.06 50.30 52.00
> round(tapply(AGE, SALAIRE, var),2)
(1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
205.08 123.86 131.12 441.00
> tapply(AGE,SALAIRE,summary)
$‘(1.9,26.2]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
16.0 28.0 40.0 40.8 52.0 80.0

$‘(26.2,50.5]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
25.00 38.75 49.00 47.06 56.25 70.00

$‘(50.5,74.8]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
37.00 40.25 48.50 50.30 58.75 70.00

$‘(74.8,99.1]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
28.0 44.5 61.0 52.0 64.0 67.0
Couple de variables (Marie-Luce Taupin [Link]@[Link])
Statistique descriptive bivariée 2015-2016 62 / 68
Lien entre moyennes marginales et conditionnelles

=⇒ On peut retrouver la moyenne marginale (générale) en calculant la


moyenne pondérée des moyennes conditionnelles.

q q
1X X
x = n•j x/j = f•j x/j
n
j=1 j=1
p p
1 X X
y = ni• y/i = fi• y/i
n
i=1 i=1

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 63 / 68
Décomposition de la variance

=⇒ On peut pas retrouver la variance marginale à partir des variances


conditionnelles.

Variance marginale = variance des moyennes conditionnelles + moyenne


des variances conditionnelles.

q q
1X 2 1 X
σ2x = n•j x/j − x + 2
n•j σx/j
n n
j=1 j=1
p p
1X  2 1 X
σy2 = ni• y/i − y + 2
ni• σy/i
n n
i=1 i=1

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 64 / 68
Remarque

On peut calculer les moyennes et les variances conditionnelles d’une


variable quantitative sachant les modalités d’une variable qualitative.

Mais la réciproque est fausse ! Evident !

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 65 / 68
Exemple :
Salaire Y [2 ;26[ [26,50[ [50,76[ [76,100[ Total
SEXE X
Femme 88% 10% 1% 1% 100%
Homme 81% 16% 2% 1% 100%
dist. marg. de Y 85% 13% 2% 0% 100%

Le salaire horaire moyen de l’ensemble des personnes observés est de


17, 9 dollars ⇒ y = 17, 9
Le salaire horaire moyen des femmes A est de 16, 6 dollars
⇒ y /A = 16, 6
Le salaire horaire moyen des hommes B est de 19, 17 dollars
⇒ y /B = 19, 17
17, 9 = y = pi=1 fi• y /i = 0, 4959 ∗ 16, 6 + 0, 5041 ∗ 19, 17
P
=⇒ voir Slide 52.

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 66 / 68
Exemple :

Salaire Y [2 ;26[ [26,50[ [50,76[ [76,100[ Total


SEXE X
Femme 88% 10% 1% 1% 100%
Homme 81% 16% 2% 1% 100%
dist. marg. de Y 85% 13% 2% 0% 100%

La variance marginale du salaire horaire est σy2 = 127, 22.

La variance du salaire horaire des femmes est σy2/F = 105, 84.

La variance du salaire horaire des hommes est σy2/M = 145, 39.

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 67 / 68
Moyennes et variances conditionnelles du salaire horaire
par sexe

> round(tapply(SAL_HOR, SEXE, mean),2)


F M
16.60 19.17

> round(tapply(SAL_HOR, SEXE, var),2)


F M
105.84 145.39

> tapply(SAL_HOR,SEXE,summary)
$F
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.25 10.00 14.00 16.60 20.00 90.00

$M
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.00 11.00 15.70 19.17 23.04 99.00

Couple de variables (Marie-Luce Taupin [Link]@[Link])


Statistique descriptive bivariée 2015-2016 68 / 68

Vous aimerez peut-être aussi