0% ont trouvé ce document utile (0 vote)
45 vues96 pages

Cours 2

Le document traite de la liaison entre deux variables, en se concentrant sur l'analyse de la relation entre une variable quantitative et une variable qualitative. Il présente des méthodes de comparaison des distributions conditionnelles, des indicateurs statistiques tels que la variance inter et intra-groupes, ainsi que des tests de significativité pour évaluer l'impact d'une variable sur une autre. Des exemples graphiques et des tableaux illustrent les concepts discutés, notamment en ce qui concerne le salaire horaire selon le sexe.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
45 vues96 pages

Cours 2

Le document traite de la liaison entre deux variables, en se concentrant sur l'analyse de la relation entre une variable quantitative et une variable qualitative. Il présente des méthodes de comparaison des distributions conditionnelles, des indicateurs statistiques tels que la variance inter et intra-groupes, ainsi que des tests de significativité pour évaluer l'impact d'une variable sur une autre. Des exemples graphiques et des tableaux illustrent les concepts discutés, notamment en ce qui concerne le salaire horaire selon le sexe.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

BUT Science des Données

première année

Statistique descriptive bivariée

2. Liaison entre deux variables

J. Dedecker

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 1 / 96


2.1 Étude de la liaison entre une variable quantitative et
une variable qualitative
Y variable quantitative ; X variable qualitative à p modalités.
comparaison des p groupes déterminés par les p modalités de X :
liaison entre X et Y si les p groupes ont un comportement différent
par rapport à Y .
comparaison des p distributions de Y conditionnellement aux p
modalités de X .
Idée : si X n’influe pas sur le comportement de Y ,
I les p distributions condit. de Y sachant X = xi sont sensiblement
identiques.
I les moyennes conditionnelles ȳ/1 , ȳ/2 , . . . , ȳ/p des p groupes sont
proches de la moyenne marginale ȳ .
étude de la variabilité des moyennes conditionnelles autour de la
moyenne marginale.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 2 / 96


Exemple : tableau des p = 2 distributions conditionnelles
en fréquences du Salaire horaire sachant le Sexe

Tableau en pourcentage :
Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Total
Sexe
Femme 26.3 32.6 16.2 18.2 3.7 3 100
Homme 21.2 27.1 19.2 19.9 7 5.6 100
Dist. marg. 23.7 29.9 17.7 19 5.4 4.3 100

Tableau des indicateurs :


Salaire horaire moyenne médiane écart-type
marginale 17.9 15 11.3
cond / F 16.6 14 10.27
cond / H 19.2 15.7 12

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 3 / 96


2.1.1 Mise en évidence graphique de la liaison

Représentation des distributions conditionnelles (distribution de la


variable quantitative dans chaque groupe).

représentation graphique des p distributions conditionnelles de Y


sachant X = xi : histogrammes (ou diagrammes en bâtons), fonction
de répartition empirique, courbes de fréquences cumulées, boı̂tes à
moustaches.

comparaison des p graphiques avec une même échelle.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 4 / 96


Exemple : distributions marginale et conditionnelles du
Salaire Horaire selon le Sexe
Représentation graphique la plus utilisée
boîte à moustache du salaire horaire
boîte à moustache du salaire horaire
selon le sexe
100

100
80

80
salaire horaire (en $)

60

60
40

40
20

20
0

F M

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 5 / 96


Exemple : distributions conditionnelles du Salaire Horaire
selon le Sexe
distribution du salaire horaire des femmes distribution du salaire horaire des hommes
0.06

0.06
0.05

0.05
0.04

0.04
densité de fréquence

densité de fréquence
0.03

0.03
0.02

0.02
0.01

0.01
0.00

0.00

0 20 40 60 80 100 0 20 40 60 80 100
Salaire horaire (en $) Salaire horaire (en $)

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 6 / 96


Exemple : fréquences cumulées conditionnelles du Salaire
Horaire selon le Sexe
fréquences cumulées du salaire horaire selon le sexe
1.0
0.8
fréquences cumulées
0.6
0.4
0.2

H
0.0

0 20 40 60 80 100
salaire horaire (en $)

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 7 / 96


Exemple : distributions conditionnelles du Salaire Horaire
selon la Région
salaire horaire selon la région

100
80
salaire horaire (en $)
60
40
20
0

NE NW S W
région

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 8 / 96


Exemple : distributions conditionnelles du Salaire Horaire
selon la Catégorie professionnelle
salaire horaire selon la catégorie professionnelle

100
80
salaire horaire (en $)
60
40
20
0

1 2 3 4 5 6 7 8 9 10
catégorie professionnelle

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 9 / 96


2.1.2 Indicateurs numériques de la liaison

Variance inter et variance intra

Définition
La variance inter-groupes est la mesure des écarts des moyennes de chaque
sous-groupe à la moyenne globale :
p p
1X 1X
Vinter = ni• (ȳ/i − ȳ )2 = ni• (ȳ/i )2 − (ȳ )2
n n
i=1 i=1

Vinter mesure la variabilité de la variable Y entre les sous-groupes

Vinter est la variance des moyennes conditionnelles

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 10 / 96


Définition
La variance intra-groupes est la moyenne des variances (conditionnelles) de
chaque sous-groupe :
p
1X
Vintra = ni• σy2/i
n
i=1

Vintra est une mesure globale de la variabilité à l’intérieur des


sous-groupes.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 11 / 96


Décomposition de la variance

La variance marginale σy2 est la somme des variances inter-groupes et


intra-groupes :

σy2 = Vtotale (y ) = Vinter


| {z }
variance des moyennes conditionnelles
+ Vintra
| {z }
moyenne des variances conditonnelles

Preuve : voir les slides 43-44 de la partie 1.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 12 / 96


Interprétation de la décomposition de la variance

variance de Y (σy2 ) sans tenir compte de X = variance expliquée par


X (Vinter ) + variance résiduelle inexpliquée par X (Vintra ).

variance de Y sans tenir compte des groupes = variance expliquée par


la présence des p groupes + variance résiduelle une fois que l’on a
pris en compte les groupes.

Plus Vinter >> Vintra , plus les différences entre les moyennes
conditionnelles de Y dans chaque groupe sont grandes alors que la
dispersion dans les groupes est faible.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 13 / 96


Le rapport de corrélation

Définition
Le rapport de corrélation de Y par rapport à X est défini par :
Vinter Vintra
ηy2/x = =1−
Vtotale (y ) Vtotale (y )

ηy2/x représente la part de variance de la variable Y expliquée par la


présence des groupes définis par les modalités de X .

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 14 / 96


Interprétation

ηy2/x ∈ [0, 1]
ηy2/x = 0 si Vinter = 0
⇒ ȳ/1 = ȳ/2 = · · · = ȳ/p = ȳ
La variabilité de Y ne s’explique pas par la présence des groupes.
Si ηy2/x ∼ 0, les distributions conditionnelles de Y diffèrent
relativement peu selon les groupes.
ηy2/x = 1 si Vintra = 0
2 = 0.
⇒ pour tout i = 1, . . . , p, σ/i
si ηy2/x ∼ 1, la variabilité d’un groupe à l’autre est très importante. La
part de variabilité de Y expliquée par la présence des groupes X est
très importante.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 15 / 96


Remarque

η 2 dépend de p (qui détermine le nombre de groupes) et de n


I s’il y a au plus une observation par groupe, ηy2/x = 1.
I si p = 1 (1 seul groupe), ηy2/x = 0.

si X est quantitative, on utilise les valeurs ou classes de X comme les


modalités d’une variable qualitative pour déterminer des groupes dans
la population.

ηy2/x 6= ηx/y
2 .

attention : Même lorsque 2 variables sont liées, η 2 peut ne pas


prendre une valeur élevée.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 16 / 96


L’indicateur de Fisher

Définition
L’indicateur de Fisher de Y par rapport à X est défini par :

Vinter /(p − 1)
Fy /x =
Vintra /(n − p)

Fy /x s’interprète comme le rapport (normalisé) entre la variance de Y


expliquée par la présence des groupes définis par les modalités de X , et la
variance de Y qui reste non expliquée par la présence des groupes.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 17 / 96


Interprétation de Fy /x

Fy /x ≥ 0.

si Vinter = 0, alors Fy /x = 0.

plus Vinter >> Vintra , plus Fy /x est grand et plus le lien entre les
variables est fort.

à partir de quelle valeur peut-on dire que Fy /x est suffisamment grand


pour conclure que le lien entre Y et X est significatif ?

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 18 / 96


Réponse donnée par la statistique inférentielle (S3 et S4)

Dans le cas de tirages aléatoires avec remise dans une grosse population
(cas de certains sondages) :

construction du test de Fisher en statistique inférentielle, pour tester


l’hypothèse de l’effet de X sur Y à partir de l’indicateur de Fisher
Fy /x ; le test permettra de dire si la valeur de Fy /x est
significativement grande ou non.

question : les différences entre les moyennes conditionnelles observées


dans les groupes sont-elles imputables au hasard inhérent au choix des
personnes interrogées (fluctuation d’échantillonnage) ou sont-elles
suffisamment grandes pour conclure que la variabilité de Y s’explique
significativement par la présence des groupes définis par X (X a un
effet significatif sur Y ) ?

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 19 / 96


Détermination du seuil de significativité de Fy /x
on donnera, pour une valeur de n et de p fixée, la valeur du seuil de
significativité s5% (n, p) de Fy /x .

la détermination de la valeur du seuil sera expliquée lors des cours sur


les tests.

Interprétation du seuil de significativité


I Si Fy /x > s5% (n, p) on conclura que la différence observée entre les
moyennes conditionnelles de chaque groupe n’est pas due au hasard
(avec un risque de 5% de se tromper en affirmant cela). Nous dirons
que X influe de manière significative sur Y .
I Si Fy /x ≤ s5% (n, p), on ne peut pas conclure que X a un effet
significatif sur Y .

exemple si n = 599 et p = 2, on trouve s5% (599, 2) = 3.86.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 20 / 96


Que fournissent les logiciels statistiques ?

R calcule ce que l’on appelle la p-valeur du test plutôt que le seuil de


significativité s5% (n, p).

la p-valeur s’interprète comme la probabilité d’observer une grande


valeur de Fy /x si les variables Y et X ne sont pas liées.

Interprétation de la p-valeur
I si p-valeur ≤ 5%, on conclura que X a un effet significatif sur Y (avec
un risque de 5% de se tromper en affirmant cela).
I si p-valeur > 5%, on ne peut pas conclure que X a un effet significatif
sur la variable Y .

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 21 / 96


Exemple : liaison entre le Salaire horaire et le Sexe

Tableau des indicateurs :

Salaire horaire moyenne médiane écart-type


marginale 17.9 15 11.3
cond / F 16.6 14 10.27
cond / H 19.2 15.7 12

Vinter = 1.65
Vintra = 125.36
Vtot = Vinter + Vintra = 127
ηy2/x = 1, 3%
la part de variabilité du salaire horaire est expliquée à hauteur de
1.3% par les groupes formés des femmes et des hommes.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 22 / 96


Exemple : liaison entre le Salaire horaire et le Sexe

Vinter = 1.65
Vintra = 125.36
Fy /x = 7.86 et s5% (599, 2) = 3, 86
conclusion :
I Fy /x > s5% (599, 2)
I R : p-valeur = 0.005 < 5%
I le salaire horaire est significativement différent chez les hommes et chez
les femmes (pour être plus précis : on conclut avec un risque de 5%
que l’espérance du salaire horaire est différente pour ces deux groupes).

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 23 / 96


Exemple : liaison entre le Salaire horaire et la Région
Salaire horaire moyenne variance
marginale 17.9 127
cond / NE 17.7 122.9
cond / NW 18.4 124.4
cond / S 18 151.5
cond / W 17.5 99.3
Vinter = 0.11, Vintra = 126.9
Vtot = Vinter + Vintra = 127
ηy2/x = 0.09%
la part de variabilité du salaire horaire est expliquée à hauteur de
moins de 1% par la présence des groupes définis pas les 4 régions
d’habitation.
Fy /x = 0.17, p-valeur = 0.91 > 5%. Il n’y a pas d’influence
significative de la région d’habitation sur le salaire horaire.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 24 / 96


Exemple : liaison entre l’ Âge et le Sexe

Age moyenne variance


marginale 41.8 198.9
cond / F 41.5 204.6
cond / H 42.2 193.2

Vinter = 0.12, Vintra = 198.8


Vtot = Vinter + Vintra = 198.9
ηy2/x = 0.06%
la part de variabilité de l’âge des salariés est expliquée à hauteur de
moins de 1% par les groupes formés des femmes et des hommes.
Fy /x = 0.36, p-valeur = 0.55 > 5%. Il n’y a pas d’influence
significative du sexe sur l’âge des salariés.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 25 / 96


2.2. Etude de la liaison entre deux variables qualitatives

étude de la dépendance entre deux variables qualitatives X à p


modalités et Y à q modalités.

comment évoluent les distributions conditionnelles de la variable X


selon les modalités de Y ?

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 26 / 96


2.2.1 Notion de profils

Définition
le i-ème profil-ligne est donné par la distribution conditionnelle en
fréquence de Y sachant que X = xi
 
nij
fj/i = , j = 1, . . . , q
ni•

le j-ème profil-colonne est donné par la distribution conditionnelle en


fréquence de X sachant que Y = yj
 
nij
fi/j = , i = 1, . . . , p
n•j

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 27 / 96


Idée : comparer les distributions conditionnelles de chaque variable
entre elles et avec la distribution marginale.

revient à comparer les profils-lignes pour Y selon X , ou les


profils-colonnes pour X selon Y .

si les profils-lignes ou les profils-colonnes sont identiques, les deux


variables sont indépendantes.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 28 / 96


Exemple : répartition des individus selon la Région
d’habitation et le Sexe

Région NE NW S W Total
Sexe
Femme 61 62 97 77 297
Homme 68 60 103 71 302
Total 129 122 200 148 599

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 29 / 96


Exemple : profils-lignes pour la Région d’habitation selon le
Sexe

Tableau en pourcentages :

Région NE NW S W Total
Sexe
Femme 20.5 20.9 32.7 25.9 100
Homme 22.5 19.9 34.1 23.5 100

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 30 / 96


Exemple 1 : profils-colonnes pour le Sexe selon la Région
d’habitation

Tableau en pourcentages :

Région NE NW S W
Sexe
Femme 47.3 50.8 48.5 52
Homme 52.7 49.2 51.5 48
Total 100 100 100 100

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 31 / 96


2.2.2 Mise en évidence graphique

représentation graphique des profils par des diagrammes en barres ou


en secteurs.

visualisation des disparités entre les répartitions conditionnelles.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 32 / 96


Exemple : Distributions conditionnelles de la Région
d’habitation sachant le Sexe
Répartition par région
chez les femmes chez les hommes

NW NW

NE NE

S
S
W W

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 33 / 96


Exemple : Distributions conditionnelles de la Région
d’habitation sachant le Sexe
Répartition par région selon le sexe
1.0
0.8

W
0.6

S
fréquences

NW
0.4

NE
0.2
0.0

F M

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 34 / 96


Exemple : Distributions conditionnelles de la Région
d’habitation sachant le Sexe
Répartition par région chez les femmes Répartition par région chez les hommes
0.4

0.4
0.3

0.3
fréquences

fréquences
0.2

0.2
0.1

0.1
0.0

0.0

NE NW S W NE NW S W

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 35 / 96


Exemple : Distributions conditionnelles du Sexe sachant la
Région d’habitation
Répartition femmes/hommes selon la région
1.0
0.8
0.6

Hommes
fréquences

Femmes
0.4
0.2
0.0

NE NW S W

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 36 / 96


Exemple : distributions conditionnelles du Sexe selon la
Catégorie professionnelle
Répartition femmes/hommes par catégorie professionnelle
1.0
0.8
0.6

Hommes
fréquences

Femmes
0.4
0.2
0.0

1 2 3 4 5 6 7 8 9 10

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 37 / 96


Exemple : distributions conditionnelles du Sexe selon la
Catégorie professionnelle
Répartition femmes/hommes par catégorie professionnelle

1.0
femmes

hommes
0.8
0.6
fréquences
0.4
0.2
0.0

1 2 3 4 5 6 7 8 9 10

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 38 / 96


2.2.3 Indépendance de deux variables

Définition
X et Y sont dites indépendantes si pour tout couple d’indices (i, j)
les q distributions conditionnelles de X sachant Y = yj sont toutes
identiques, et donc égales à la distribution marginale de X

fi/j = fi•

ou bien encore les p distributions conditionnelles de Y sachant X = xi


sont toutes identiques, et donc égales à la distribution marginale de Y

fj/i = f•j

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 39 / 96


Caractérisation de la situation d’indépendance
Les quatre propriétés suivantes sont équivalentes et caractérisent la
situation d’indépendance entre X et Y :
i) Les profils-lignes sont égaux :
nij ni 0 j
∀ j ∈ {1, . . . , q} , ∀ i, i 0 ∈ {1, . . . , p} , = fj/i = fj/i 0 =
ni• ni 0 •
ii) Les profils-colonnes sont égaux :
nij nij 0
∀ i ∈ {1, . . . , p} , ∀ j, j 0 ∈ {1, . . . , q} ,
= fi/j = fi/j 0 =
n•j n•j 0
iii) Les distributions conditionnelles de X (resp. de Y ) sont identiques
aux distributions marginales de X (resp. deY ).

∀ i ∈ {1, . . . , p} , ∀ j ∈ {1, . . . , q} , fi/j = fi• et fj/i = f•j

iv )
ni• n•j
∀ i ∈ {1, . . . , p} , ∀ j ∈ {1, . . . , q} , nij =
n

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 40 / 96


Preuve de l’équivalence de i), ii), iii) et iv )

On va montrer que

i) ⇒ deuxième partie de iii) ⇒ iv) ⇒ i)

On montrerait exactement de la même façon que

ii) ⇒ première partie de iii) ⇒ iv) ⇒ ii)

Ces deux séries d’implications assurent l’équivalence de tous les items.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 41 / 96


Preuve de l’équivalence de i), ii), iii) et iv ), suite

Pour montrer que i) ⇒ deuxième partie de iii), notons que si i) est vraie,
alors fj/i ne dépend pas de i. Posons alors fj/i = gj .
On en déduit que
nij = fj/i ni• = gj ni•
En sommant en i, on trouve que
p
X p
X
n•j = nij = gj ni• = gj n
i=1 i=1

Par conséquent
n•j
= gj = fj/i ,
f•j =
n
et donc la deuxième partie de iii) est vérifiée.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 42 / 96


Preuve de l’équivalence de i), ii), iii) et iv ), suite

Pour montrer que la deuxième partie de iii) implique iv ), il suffit d’écrire


nij n•j
= fj/i = f•j =
ni• n

et par conséquent iv ) est vrai :


ni• n•j
nij =
n
Enfin, pour montrer que iv ) implique i), il suffit d’écrire que, si iv ) est
vraie,
nij ni• n•j n•j
fj/i = = = = f•j
ni• n ni• n
Donc fj/i ne dépend pas de i et la propriété i) est vraie.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 43 / 96


Exemple : les deux variables Région d’habitation et Sexe
sont-elles indépendantes ?

Effectifs observés nij :

Région NE NW S W Total
Sexe
Femme 61 62 97 77 297
Homme 68 60 103 71 302
Total 129 122 200 148 599

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 44 / 96


Exemple : les deux variables Région d’habitation et Sexe
sont-elles indépendantes ?

n n
Effectifs théoriques i•n •j si indépendance : effectifs attendus si les
variables étaient indépendantes, en gardant les mêmes marges.

Région NE NW S W Total
Sexe
Femme 63.9 60.5 99.2 73.4 297
Homme 65.1 61.5 100.8 74.6 302
Total 129 122 200 148 599

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 45 / 96


Exemple : les deux variables Région d’habitation et Sexe
sont-elles indépendantes ?
Il existe au moins un couple de modalités (i, j) tq
ni• n•j
nij 6= .
n

Les variables Région d’habitation et Sexe ne sont pas indépendantes


au sens strict.

S’écarte-t’on beaucoup de la situation d’indépendance ?

⇒ comment construire une mesure de l’écart entre le tableau des


effectifs observés et des effectifs théoriques (attendus sous
l’hyptothèse d’indépendance) ?

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 46 / 96


2.2.4 L’indicateur du χ2

indicateur numérique pour mesurer les écarts à la situation


d’indépendance.

mesure des écarts entre les effectifs observés nij et les effectifs
théoriques que l’on aurait dû observer sous l’hypothèse
ni• n•j
d’indépendance entre X et Y , .
n

effectifs théoriques : ceux que l’on aurait si les colonnes (ou les lignes)
étaient proportionnelles en gardant les mêmes marges.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 47 / 96


Définition
L’indice du χ2 est donné par :
p X
q
2
X (nijobs − nijtheo )2
χ =
i=1 j=1
nijtheo

ni• n•j
où nijobs = nij est l’effectif observé et nijtheo = est l’effectif théorique
n
sous l’hypothèse d’indépendance entre X et Y .

Remarque : on peut calculer l’indice du χ2 pour des variables quantitatives


en effectuant un découpage en classes, et en assimilant les classes aux
modalités d’une variable qualitative.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 48 / 96


Interprétation de l’indice du χ2
χ2 est une mesure de la distance entre effectifs observés et effectifs
théoriques sous l’hypothèse d’indépendance.
χ2 ≥ 0.
χ2 = 0 si X et Y sont strictement indépendantes (“effectifs observés
= effectifs théoriques”).
χ2 est d’autant plus grand que la liaison entre X et Y est forte.
on ne peut pas comparer des χ2 portant sur des nombres de
modalités différents.
χ2 ≤ n × min{p − 1, q − 1}. Plusieurs versions normalisées du χ2
données par les logiciels. Exemple : coefficient V de Cramer
s
χ2
V =
n × min{p − 1, q − 1}

- V ∈ [0, 1]. Attention : si n grand, V peut être proche de 0 même en


cas de forte liaison entre X et Y !
2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 49 / 96
Test du χ2
Dans le cas de tirages aléatoires avec remise dans une grosse population
(cas de certains sondages) :

construction du test du χ2 en statistique inférentielle, pour tester


l’hypothèse d’indépendance à partir de l’indice du χ2 ; le test
permettra de dire si la valeur de χ2 est significativement grande ou
non.

les données proviennent-elles de variables indépendantes ?

les différences entre effectifs observés et théoriques sous indépendance


sont-elles imputables au hasard inhérent au choix des personnes
interrogées (fluctuation d’échantillonnage) ou sont-elles suffisamment
grandes pour rejeter l’indépendance entre les variables ?

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 50 / 96


Détermination du seuil de significativité du χ2
Si X a p modalités et Y a q modalités, on donnera la valeur du seuil
de significativité s5% (p, q) de χ2 .

la détermination de la valeur du seuil sera expliquée lors des cours sur


les tests.

Interprétation du seuil de significativité


I Si χ2 > s5% (p, q) on conclura que la différence observée entre les
effectifs observés et les effectifs théoriques n’est pas due au hasard
(avec un risque de 5% de se tromper en affirmant cela). On dira que X
et Y sont significativement liées (ou dépendantes).
I Si χ2 ≤ s5% (p, q), on ne peut pas conclure à une liaison significative
entre X et Y .

Remarque : la valeur de s5% (p, q) ne dépend en fait que du produit


(p − 1) × (q − 1). Exemple si p = 2 et q = 4, s5% (2, 4) = 7.81.
2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 51 / 96
Exemple : les deux variables Région d’habitation et Sexe
sont-elles indépendantes ?
Tableau des écarts normalisés :
(nijobs − nijtheo )2
nijtheo

Région NE NW S W
Sexe
Femme 0.13 0.04 0.05 0.18
Homme 0.13 0.04 0.05 0.17

χ2 = 0.79 < s5% (2, 4) = 7.81. Il n’y a pas de différence significative de


répartition des salariés femmes/hommes selon la région d’habitation.

La p-valeur du test vaut 0.85.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 52 / 96


2.3 Application : d’où vient la différence de salaire
femmes/hommes ?

On a vu que l’indicateur de Fisher permettait de conclure à une


différence significative de salaire femmes/hommes.
On peut envisager (au moins) deux hypothèses pour expliquer cela :
I à profession identique, les hommes ont tendance à être mieux payés
que les femmes.
I la différence de salaire vient du fait que la répartition femmes/hommes
varie beaucoup selon la catégorie professionnelle.
Pour tenter de déterminer (si c’est possible) laquelle de ces deux
hypothèses est la plus pertinente, on va créer deux catégories
distinctes :
I La catégorie A des “hauts salaires” regroupant les 5 catégories dont le
salaire médian est le plus élevé (cat. 1,2,7,8 et 9).
I La catégorie B des “bas salaires” regroupant les 5 catégories dont le
salaire médian est le plus bas (cat. 3,4,5,6 et 10).

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 53 / 96


salaire horaire selon la catégorie

100
80
salaire horaire (en $)
60
40
20
0

A B

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 54 / 96


Salaire horaire femmes/hommes pour la catégorie A

100
80
salaire horaire (en $)
60
40
20
0

F M

p-valeur du test de Fisher : 20%. Pas de différence significative de salaire


horaire entre les femmes et les hommes pour la catégorie A.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 55 / 96


Salaire horaire femmes/hommes pour la catégorie B

80
60
salaire horaire (en $)
40
20
0

F M

p-valeur du test de Fisher : 97%. Pas de différence significative de salaire


horaire entre les femmes et les hommes pour la catégorie B.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 56 / 96


Répartition femmes/hommes selon la catégorie
1.0
0.8
0.6

Hommes
fréquences
0.4

Femmes
0.2
0.0

A B

p-valeur du test du χ2 : < 0.1%. De façon significative, les femmes et les


hommes se répartissent différemment dans les catégories A et B.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 57 / 96


Conclusion ?

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 58 / 96


2.4 Liaison entre deux variables quantitatives X et Y

relation fonctionnelle exacte entre X et Y ?


Y = f (X ), f connue ou non, affine ou non.
corrélation entre X et Y ?
pas de relation fonctionnelle exacte ⇒ tendance
I ajustement linéaire (ou non).
I trouver à partir des données brutes (xk , yk )k=1,...,n , les coefficients a et
b de la droite d’équation y = ax + b qui résume le mieux l’ensemble
des points (droite des moindres carrés).
I prévision.
indépendance entre X et Y ?
I X et Y n’influent pas l’une sur l’autre.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 59 / 96


2.4.1 Mise en évidence graphique d’une liaison à partir des
données brutes

Les deux variables X et Y sont quantitatives, et on dispose des


données brutes

Définition
L’ensemble des points de coordonnées (xk , yk )k=1,...,n est appelé nuage de
points.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 60 / 96


Exemple : Nuage de points (Âge, Salaire horaire)
salaire horaire en fonction de l'âge

100
80
salaire horaire (en $)
60
40
20
0

20 30 40 50 60 70 80
âge (en année)

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 61 / 96


Remarques

choix de l’échelle pour les axes très important.


mauvaise échelle ⇒ mauvaise interprétation de la nature du nuage.
règle : le graphique est contenu dans un carré ou un rectangle peu
allongé.
Nuage de points trompeur si on observe plusieurs fois le même couple
d’observations (par exemple si X et/ou Y discrète avec peu de
modalités différentes).
Si X et/ou Y discrètes ou continues avec données groupées en
classes, on trace les courbes de régression de Y en X ou de X en Y .

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 62 / 96


Nuage de points trompeur (extrait du site pbil)

Un nuage de points trompeur

7
● ● ● ●

6
● ● ● ● ●
5

● ● ● ● ● ● ●
4
y

● ● ● ● ● ● ●
3

● ● ● ● ● ● ●
2

● ● ● ● ● ● ● ●
1

● ● ● ● ● ● ●
0

0 1 2 3 4 5 6 7

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 63 / 96


Nuage de points avec des symboles de taille variable

Nuage de points
avec des symboles de taille variable
avec sunflowerplot
8

7

● ●
● ● ● ● ● ●

6
● ● ● ●

6 ● ● ● ● ●
● ● ●

5
● ● ● ● ●
● ● ● ● ● ● ●

● ● ●

4
4 ● ● ● ● ●
● ● ● ● ● ● ●
y

y
● ● ● ● ● ●

3
● ● ● ● ● ● ●

2 ● ● ● ● ●

2
● ● ● ● ● ● ●

● ● ● ●

1
● ● ● ● ● ● ● ●

0 ● ● ● ● ● ● ●

0 ● ● ● ● ● ● ●

0 2 4 6 8 0 1 2 3 4 5 6 7

x x

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 64 / 96


Mise en évidence graphique d’une liaison à partir des
données brutes
Etude graphique de la nature de la liaison par la forme du nuage de
points (X , Y ).
Nuage de points avec un aspect “allongé” : signe d’une corrélation
linéaire entre les deux variables ?
I ajustement linéaire.
I trouver à partir des données brutes (xk , yk )k=1,...,n , les coefficients a et
b de la droite d’équation y = ax + b qui passe “au plus près” du nuage
de points (droite des moindres carrés).
I prévision.
points répartis le long d’une droite parallèle à l’axe qui représente X
(ou Y ) : signe d’indépendance entre X et Y .
nuage de points très dispersé : signe de l’absence de relation
fonctionnelle entre X et Y .
···

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 65 / 96


Exemples
Données simulées Données simulées

12

6

10


● ● ●
5

● ●
● ●

8

4

6
y

y

4
3

2


2

0
2 4 6 8 10 0 1 2 3 4 5 6

x x

Puissance dégagée par une résistance


relation fonctionnelle non affine
traversée par un courant

2000
10

● ●
8

1500

puissance en watt
6

1000
y

● ●
4

500


2


● ●

● ● ●
0

−3 −2 −1 0 1 2 3 2 4 6 8

x intensité du courant en ampère

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 66 / 96


2.4.2 Représentations graphiques avec des données
groupées
a. Représentation de la distribution jointe

On peut représenter la distribution jointe

{(xi , yi , nij ), i = 1, . . . , p, j = 1, . . . , q}
par des disques de centre (xi , yj ) d’aire proportionnelle à nij pour chaque
couple (xi , yj ) , i = 1, . . . , p , j = 1, . . . , q.

b. Représentation des distributions conditionnelles


Histogramme ou diagramme en bâtons (conditionnel aux modalités
ou classes).
Fonction de répartition empirique, courbes des fréquences cumulées
(conditionnel aux modalités ou classes).

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 67 / 96


c. Courbes de régression

Courbe de régression de Y en X : {(xi , y /i ), 1 ≤ i ≤ p}


tracé des moyennes conditionnelles, ȳ/i , de Y sachant X = xi en
fonction de chaque modalité ou centre de classe xi de X .

courbe de régression de X en Y : {(yj , x /j ), 1 ≤ j ≤ q}


tracé des moyennes conditionnelles, x̄/j en fonction de chaque
modalité ou centre de classe yj de Y .

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 68 / 96


Exemple : tableau de contingence en effectifs pour les
variables Âge et Salaire horaire

Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,40] ]40,100] Total


Âge
[15,25] 51 34 6 7 1 1 100
]25,35] 32 41 27 22 6 2 130
]35,45] 24 36 17 24 4 9 114
]45,55] 20 40 30 28 10 6 134
]55,65] 12 22 20 31 10 6 101
]65,80] 3 6 6 2 1 2 20
Total 142 179 106 114 32 26 599

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 69 / 96


Exemple : Courbe de régression du Salaire horaire en
fonction de l’Âge
courbe de régression du salaire horaire en fonction de l'âge
22
20
18
salaire horaire (en $)
16
14
12

20 30 40 50 60 70
âge (en année)

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 70 / 96


Exemple : Salaire horaire en fonction de l’Âge
salaire horaire en fonction de l'âge
50
40
salaire horaire (en $)
30
20
10
0

20 30 40 50 60 70 80
âge (en année)

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 71 / 96


2.4.3 Indicateur numérique de corrélation linéaire

Définition
La covariance entre deux variables quantitatives X et Y est un
nombre réel et est définie par :
n
1X
Cov (X , Y ) = (xk − x̄)(yk − ȳ ) (données brutes)
n
k=1
p q
1 XX
ou nij (xi − x̄)(yj − ȳ ) (données groupées)
n
i=1 j=1

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 72 / 96


Interprétation

centre de gravité du nuage de points G : (x̄, ȳ ).

mesure de la dispersion des points du nuage autour de G en utilisant


xk − x̄ et yk − ȳ .

mesure de la variation conjointe de X et Y en utilisant


(xk − x̄)(yk − ȳ ).

Cov (X , Y ) > 0 si X et Y ont tendance à varier dans le même sens.

Cov (X , Y ) < 0 si X et Y ont tendance à varier en sens contraire.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 73 / 96


Propriétés de la covariance
n
!
1X
Données brutes Cov (X , Y ) = xk yk − x̄ ȳ
n
k=1
 
p X q
1 X
Données groupées Cov (X , Y ) =  nij xi yj  − x̄ ȳ
n
i=1 j=1
Cov (X , X ) = V (X ).
Cov (X , Y ) = Cov (Y , X ).
Pour tous nombres réels a1 , b1 , a2 , b2 ,

Cov (a1 X + b1 , a2 Y + b2 ) = a1 a2 Cov (X , Y ) .

Pour tous nombres réels a et b,

V (aX + bY ) = a2 V (X ) + b 2 V (Y ) + 2abCov (X , Y ) .
2
Cov (X , Y ) ≤ V (X ) V (Y ) soit | Cov (X , Y ) |≤ σx σy .
la covariance dépend des unités de mesures des variables.
2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 74 / 96
Preuve de l’inégalité | Cov (X , Y ) |≤ σx σy
On commence par montrer que, pour tous nombres réels a et b,

V (aX + bY ) = a2 V (X ) + b 2 V (Y ) + 2abCov (X , Y ) . (1)

Il suffit de partir de la définition


n
1X
V (aX + bY ) = (a(xk − x̄) + b(yk − ȳ ))2 ,
n
k=1

et de développer
n
1X 2
a (xk − x̄)2 + b 2 (yk − ȳ )2 + 2ab(xk − x̄)(yk − ȳ )

V (aX +bY ) =
n
k=1
n n n
a2 X b2 X 2ab X
= (xk − x̄)2 + (yk − ȳ )2 + (xk − x̄)(yk − ȳ ) .
n n n
k=1 k=1 k=1

On a donc bien montré l’identité (1).


2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 75 / 96
Montrons à présent l’inégalité de Cauchy-Schwarz :

| Cov (X , Y ) |≤ σx σy . (2)

On considère la fonction f (t) = V (tX + Y ), qui par définition est toujours


positive ou nulle.
En utilisant (1), on a que

f (t) = t 2 V (X ) + 2tCov (X , Y ) + V (Y ) .

On voit donc que f est un polynôme de degré 2 de terme dominant


t 2 V (X ) ; f est donc toujours positive ou nulle si et seulement si le
discriminant du polynôme de degré 2 en t est négatif ou nul (sinon f serait
négative entre les deux racines du polynôme).
Puisque f est toujours positive ou nulle, on en déduit que

∆ = 4 (Cov (X , Y ))2 − 4V (X )V (Y ) ≤ 0 ,

et donc que (Cov (X , Y ))2 ≤ V (X )V (Y ), qui est bien l’inégalité (2).


2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 76 / 96
Remarque : si on a l’égalité

(Cov (X , Y ))2 = V (X )V (Y ) , (3)

cela veut dire que ∆ = 0, et donc qu’il existe un unique t0 tel que
f (t0 ) = V (t0 X + Y ) = 0.
Cela implique que la variable statistique t0 X + Y est constante, soit

t0 X + Y = b .

Réciproquement, si Y = aX + b, alors V (Y ) = a2 V (X ) et
Cov (X , Y ) = aCov (X , X ) = aV (X ) et donc (3) a lieu.
On vient donc de démontrer que l’égalité (3) a lieu si et seulement si X
peut s’écrire X = aY + b, c’est à dire si et seulement si xk = ayk + b pour
tout k ∈ {1, ..., n}. Dans ce cas, les points du nuage (xk , yk )k=1,...,n sont
parfaitement alignés sur la droite d’équation y = ax + b.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 77 / 96


Exemple : covariance entre l’Âge et le Salaire horaire

Âge moyen x̄ = 41.8 ans ; Salaire horaire moyen ȳ = 17.9 $

1 Pn
xy
¯ = n k=1 xk yk = 788.9

Cov (X , Y ) = 39.9

Âge et Salaire horaire ont tendance à évoluer ................

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 78 / 96


Le coefficient de corrélation de Pearson

Définition
Le coefficient de corrélation de Pearson entre deux variables quantitatives
X et Y est défini par (si les écart-type de X , σx , et de Y , σy , sont non
nuls) :
Cov (X , Y )
r (X , Y ) =
σx σy

C’est un coefficient sans dimension. De plus


−1 ≤ r (X , Y ) ≤ 1.
r (X , Y ) = r (Y , X ).
r (X , X ) = 1.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 79 / 96


Interprétation du coefficient de corrélation de Pearson

|r (X , Y )| ∼ 1 si le nuage de points est presque aligné sur une droite


I X et Y sont fortement corrélées linéairement (positivement si
r (X , Y ) > 0, négativement si r (X , Y ) < 0).

I liaison linéaire exacte si r (X , Y ) = 1 (resp r (X , Y ) = −1) :


Y = aX + b, a > 0 (resp a < 0).

I “tendance” (à l’augmentation ou diminution conjointe des variables)


contrôlée par la proximité de r à 1 ou −1.
Si |r (X , Y )| ∼ 0, X et Y ne sont pas corrélées au sens de Pearson.
I X et Y indépendantes ?

I existence d’une relation fonctionnelle non affine entre Y et X ?

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 80 / 96


r(x,y)=1 r(x,y)=−1

3.2
● ●

−4

3.0
● ●

−6
2.8


−8
2.6



y

y

−10
2.4


−12
2.2

● ●

−14
2.0

● ●

2.0 2.2 2.4 2.6 2.8 3.0 3.2 2 3 4 5 6 7 8

x x

r(x,y)=−0.96 r(x,y)=−0.103

2.5

−3.0



● ●

2.0
● ●

−3.5

● ●


1.5
● ●
y

y
−4.0

● ● ●


● ●
● ● 1.0 ●
−4.5





● ●
−5.0

0.5

2.0 2.2 2.4 2.6 2.8 3.0 2.0 2.5 3.0 3.5

x x

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 81 / 96


r(x,y)=0 Données simulées

12

10

● ● ● ● ●
6

8

● ● ● ●
4

6
y

y

4
● ● ● ●
2

2


0

0
0 2 4 6 8 10 0 1 2 3 4 5 6

x x

Données simulées relation fonctionnelle non affine

10
6

● ●

8

● ●
5

● ●
● ●

6
4
y

y ● ●

4
3

● ●


2

2 4 6 8 10 −3 −2 −1 0 1 2 3

x x

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 82 / 96


Exemple : corrélation entre l’Âge et le Salaire horaire

Cov (X , Y ) = 39.9, σx = 14.1 ans. σy = 11.3 $.

coefficient de corrélation Âge, Salaire horaire : r (X , Y ) = 0, 25

interprétation : ..............................

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 83 / 96


Remarque

Attention : On peut avoir r (X , Y ) assez grand sans que le nuage de


points présente un aspect “allongé”. Contrairement à ce qui est
souvent indiqué, un coefficient de corrélation “significativement non
nul” (au sens des tests) n’indique donc pas nécessairement une liaison
linéaire.

Tracer le nuage de points avant d’envisager une liaison linéaire entre


deux variables.

Il existe d’autres coefficients de corrélation (Kendall, Spearman) qui


sont plus appropriés que le coefficient de Pearson pour détecter des
liaisons croissantes non linéaires.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 84 / 96


Données de Anscombe
Anscombe : (x1,y1) Anscombe : (x2,y2)

11
● ● ● ●

9
● ●

● ●

8
4 5 6 7 8 9
● ●

7


y1

y2
● ●

6

5

4

● ●

3
4 6 8 10 12 14 4 6 8 10 12 14

x1 x2

Anscombe : (x3,y3) Anscombe : (x4,y4)

● ●

12
12

10
10
y3

y4

● ●
8 ●
● ●
8

● ●

● ●

● ●

6


6

● ●

● ●

4 6 8 10 12 14 8 10 12 14 16 18

x3 x4

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 85 / 96


Anscombe : (x1,y1) Anscombe : (x2,y2)
r(x1,y1)=0.8164 r(x2,y2)=0.8162

11
● ● ● ●

9
● ●

● ●

8
4 5 6 7 8 9
● ●

7


y1

y2
● ●

6

5

4

● ●

3
4 6 8 10 12 14 4 6 8 10 12 14

x1 x2

Anscombe : (x3,y3) Anscombe : (x4,y4)


r(x3,y3)=0.8163 r(x4,y4)=0.8165
● ●

12
12

10
10
y3


y4 ●

8
● ●
8

● ●

● ●

● ●

6

6

● ●

● ●

4 6 8 10 12 14 8 10 12 14 16 18

x3 x4

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 86 / 96


Corrélation et causalité

r (X , Y ) proche de 1 peut signifier une forte corrélation linéaire entre


X et Y .

Ce qui n’implique pas pour autant une relation de cause à effet entre
X et Y .

Réfléchir au contexte et à la pertinence de l’étude d’une liaison


linéaire entre deux variables.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 87 / 96


Exemple : L’enseignement supérieur crée des chômeurs ?
Evolution du nombre de chômeurs en fonction
des effectifs de l'enseignement supérieur
de 1966 à 1980 au Canada

900




800
nbre de chômeurs (x1000)


700


600



500

● ●


400

● ●
300

300 350 400 450 500 550 600 650


effectifs enseignement supérieur (x1000)
r(x,y)=0.92

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 88 / 96


Indépendance et corrélation

Si X et Y sont indépendantes, alors elles ne sont pas corrélées.

L’inverse est faux : deux variables peuvent ne pas être corrélées et


être dépendantes.

Si X et Y sont corrélées, alors elles sont dépendantes.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 89 / 96


Exemple : liaison entre le Salaire horaire et l’Âge

Sal. horaire [0,10] ]10,15] ]15,20] ]20,30] ]30,100] Total


Âge
[15,25] 51 34 6 7 2 100
]25,35] 32 41 27 22 8 130
]35,45] 24 36 17 24 13 114
]45,55] 20 40 30 28 16 134
]55,80] 15 28 26 33 19 121
Total 142 179 106 114 58 599

Coefficient de corrélation : 0.25


Indicateur du χ2 : 82.97, p-valeur = 4.28 × 10−11 .
Les variables Salaire horaire et Âge sont corrélées positivement.
L’indicateur du χ2 indique une liaison significative entre ces deux
variables.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 90 / 96


2.4.4 La droite des moindres carrés

On cherche la droite d’équation y = ax + b la plus “proche” des n


points (xk , yk ).

proche au sens des moindres carrés :

Méthode des moindres carrés


trouver les valeurs ab et bb qui minimisent la fonction
Xn
ϕ(a, b) = (yk − axk − b)2
k=1

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 91 / 96


Calcul des coefficients de régression

ϕ(a, b) : fonction des deux variables a et b.

les valeurs ab et bb de a et b minimisant ϕ(a, b) annulent les dérivées


partielles de ϕ(a, b) par rapport à a et à b.

ab et bb solutions du sytème

∂ϕ(a, b)

 = 0
∂a

 ∂ϕ(a, b)

= 0

∂b

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 92 / 96


D’où la solution :
Cov (X , Y )
ab = et bb = y − abx.
Var (X )

La droite y = abx + bb est la droite des moindres carrés de Y en X


(ou droite de régression linéaire ou droite d’ajustement linéaire de Y
en fonction de X ).

la droite passe par le point moyen (x, y ) : ȳ = abx̄ + b.


b

ab représente la pente de la droite et bb l’ordonnée à l’origine


(“intercept” en anglais).

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 93 / 96


Exemple : Droite de régression du Salaire horaire en
fonction de l’Âge

On trouve â = 0.2 et b̂ = 9.52.

Pour une année de plus d’ancienneté on prévoit (“en moyenne”), à


l’aide de la droite de régression, une augmentation de 0.2 $ du salaire
horaire.

On peut tracer la droite de régression sur le nuage de point, pour se


rendre compte de la qualité de l’ajustement.

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 94 / 96


Exemple : Salaire horaire en fonction de l’Âge
salaire horaire en fonction de l'âge
50
40
salaire horaire (en $)
30
20
10
0

20 30 40 50 60 70 80
âge (en année)

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 95 / 96


Exemple : Salaire horaire en fonction de l’Âge
salaire horaire en fonction de l'âge
50
40
salaire horaire (en $)
30
20
10
0

20 30 40 50 60 70 80
âge (en année)

2. Liaison entre deux variables (J. Dedecker) Statistique descriptive bivariée 96 / 96

Vous aimerez peut-être aussi