Chap 3
Chap 3
à deux caractères
Plan du chapitre
1. Introduction
2. Tableaux de contingence
5. Régression linéaire
2
Plan
1. Introduction
2. Tableaux de contingence
5. Régression linéaire
3
Objectif général
4
Objectif général
relations bivariées...
5
Objectif général
> Tirer les bonnes leçons d'une analyse croisée de deux variables,
sans confondre analyse descriptive (ou corrélationnelle) et analyse
causale
6
Objectif général
> Tirer les bonnes leçons d'une analyse croisée de deux variables,
sans confondre analyse descriptive (ou corrélationnelle) et analyse
causale
> Exemples ?
6
Objectif général
1. Introduction
2. Tableaux de contingence
5. Régression linéaire
8
Plan
1. Introduction
2. Tableaux de contingence
5. Régression linéaire
9
Les tableaux de contingence
Exemple :
10
Les tableaux de contingence
11
Les tableaux de contingence
modalité en colonne
12
Les tableaux de contingence
modalité en colonne
• Les eectifs marginaux sont notés ni . (eectifs de chaque modalité
i quel que soit j) ou n.j (eectifs de chaque modalité j quel que soit
i)
• L'eectif total N = n.. est la somme de tous les nij
12
Les tableaux de contingence
13
Les tableaux de contingence
> Il y avait 16 601 ls/lles de parents ouvriers parmi les 140 205
11,8%.
13
Les tableaux de contingence
Dans un tel tableau, on peut analyser les données sous plusieurs angles :
la modalité i ou sachant i
- par colonne : distribution conditionnelle par rapport à la
modalité j ou sachant j
14
Les tableaux de contingence
Dans un tel tableau, on peut analyser les données sous plusieurs angles :
la modalité i ou sachant i
- par colonne : distribution conditionnelle par rapport à la
modalité j ou sachant j
sociale
14
Les tableaux de contingence
Dans un tel tableau, on peut analyser les données sous plusieurs angles :
la modalité i ou sachant i
- par colonne : distribution conditionnelle par rapport à la
modalité j ou sachant j
sociale
14
Q : Présentez la distribution marginale de l'origine sociale des
étudiants
Sur 1,187 millions d'étudiants, plus de 363 000 (31%) sont issus de
d'agriculteurs, etc.
15
Q : Discutez de l'origine sociale des étudiants en études de santé
Sur les 182 étudiants en lière Santé, 41% sont issus de parents
d'ouvriers.
> Les CSP les plus favorisées semblent particulièrement représentées dans
16
Un autre exemple de tableau de contingence
17
Un autre exemple de tableau de contingence
Ici, il semble bien qu'il existe un lien positif entre les deux variables...
17
Tableau de contingence : forme générale
18
Fréquences
n
• Fréquence d'une cellule ij : fij = Nij
• n
Fréquence marginale de i : fi . = Ni .
n
• Fréquence marginale de j : fi . = N.j
n
• Fréquence conditionnelle de i sachant j : fi |j = nij
.j
n
• Fréquence conditionnelle de j sachant i : fj |i = nij
i.
19
Retour sur les étudiants à l'université
20
Retour sur les étudiants à l'université
colonne 100%)
20
Retour sur les étudiants à l'université
21
Retour sur les étudiants à l'université
> Parmi les étudiants enfants d'ouvriers, près de 32% sont inscrits en
21
Retour sur les étudiants à l'université
22
Retour sur les étudiants à l'université
23
Exercice 2
24
Plan du chapitre
1. Introduction
2. Tableaux de contingence
5. Régression linéaire
25
Plan
1. Introduction
2. Tableaux de contingence
5. Régression linéaire
26
Caractéristiques des distributions à deux caractères
indicateurs statistiques.
deux caractères :
• la moyenne marginale
• la variance marginale
• la moyenne conditionnelle
• la variance conditionnelle
27
Exemple numérique
28
Moyenne marginale
29
Moyenne marginale : exemple
Quid de Y ?
30
Moyenne marginale : exemple
Quid de Y ? y = 3.125
30
Moyenne marginale : exemple
31
Variance marginale
sa variance calculée quelle que soit la valeur j prise par l'autre variable
Quid de Y ?
33
Variance marginale : exemple
33
Variance marginale : exemple
34
Exercice
35
Correction
36
Caractéristiques des distributions conditionnelles
37
Moyenne conditionnelle
38
Moyenne conditionnelle : exemple
39
Moyenne conditionnelle : exemple
39
Variance conditionnelle
40
Plan du chapitre
1. Introduction
2. Tableaux de contingence
5. Régression linéaire
41
Plan
1. Introduction
2. Tableaux de contingence
5. Régression linéaire
42
Quels liens entre age des citoyens et participation lors des élections
présidentilles ?
43
Quels liens entre consommation de café et accidents cardiovasculaires ?
44
... et entre cancers du sein et production de pomme de terre ?
45
Liens entre deux variables
• la dépendance
• la covariance
• la corrélation
• la régression
46
Liens entre deux variables
• la dépendance
• la covariance
• la corrélation
• la régression
46
Dépendance ou indépendance
dépendance entre X et Y
indépendance entre X et Y
47
Dépendance ou indépendance
fi |j = fi . et fj |i = f.j
> la moyenne marginale est égale à la moyenne conditionnelle : x = xj
pour toute modalité j
> ou encore, la probabilité d'observer une certaine valeur pour Y ne
dépend pas de X : Pr (Y = y |X ) = Pr (Y = y )
48
Dépendance ou indépendance ?
49
Dépendance ou indépendance ?
49
Dépendance ou indépendance ?
50
Dépendance ou indépendance ?
valeur de Y, et inversement.
On vérie que fi |j = fi . :
52
Dépendance ou indépendance ?
co-varient.
53
Covariance
co-varient.
coecient de corrélation
53
Corrélation
droite.
Cov (X ,Y )
ρ= σX ∗σY
54
Corrélation
droite.
Cov (X ,Y )
ρ= σX ∗σY
54
Covariance et corrélation : exemple
INSEE 2017).
1 (4880∗67+1760∗32+...+2720∗68)−2372.3∗43.1 ≈ 10174 !
Cov (X , Y ) = 13
La covariance est positive comme attendu...
56
Covariance et corrélation : exemple
Y (maisons) = 242.1
ρ=
Cov (X ,Y )
= p 10174
p = 0.75
σX σY 780386 242.1
La corrélation est donc bien positive, élevée car assez proche de 1, ce qui
témoigne du lien positif très fort entre les prix des maisons et des
58
Covariance et corrélation : exercice
58
Corrélation ?
59
Corrélation ?
59
Corrélation ?
59
Corrélation 6= pente
linéaire
60
Plan du chapitre
1. Introduction
2. Tableaux de contingence
5. Régression linéaire
61
Plan
1. Introduction
2. Tableaux de contingence
5. Régression linéaire
62
Régression linéaire : un exemple
son équation ?
63
Régression linéaire
simple et s'écrit :
Yi = α + βXi + ei
où ei est un terme d'erreur (aléas de Y inexpliqués par le modèle)
64
Régression linéaire
simple et s'écrit :
Yi = α + βXi + ei
où ei est un terme d'erreur (aléas de Y inexpliqués par le modèle)
64
Régression linéaire et Moindres Carrés Ordinaires
65
Moindres Carrés Ordinaires
X 2 X
ebi = (Yi − Ybi )2 = (Yi − α
b − βbXi )2
X
Min SCR =
66
Moindres Carrés Ordinaires
X 2 X
ebi = (Yi − Ybi )2 = (Yi − α
b − βbXi )2
X
Min SCR =
66
Régression linéaire et Moindres Carrés Ordinaires
67
Régression linéaire et Moindres Carrés Ordinaires
caractérisée par :
Cov (X ,Y )
βb = Var (X ) et α
b = Y − βbX
69
Régression linéaire et Moindres Carrés Ordinaires
Cov (X ,Y )
βb = Var (X ) et α
b = Y − βbX
• X = 3, 5 et Y = 13, 67
• Cov(X,Y) = 9,5 et Var(X) = 3,5
• Donc βb = 9,5 = 2, 71
3,5
• Donc α
b = 4, 17
> Notre modèle estimé par MCO s'écrit donc Ybi = 4, 17 + 2, 71Xi
69
Régression linéaire
70
Régression linéaire
70
Qualité de l'ajustement
SCE SCR
R2 = = 1−
SCT SCT
71
Qualité de l'ajustement
SCE SCR
R2 = = 1−
SCT SCT
• SCT = (Yi − Y )2
P
avec = la somme des carrés totaux (écarts à la
les Y
bi prédits et les vrais Yi )
• Ex : si R 2 = 0, 8 = 80%, le modèle explique 80% des variations de Y
Dans notre exemple, le R2 est très élevé (0,93) : 93% des variations de Y
sont explicables par les variations de X.
dicile à prédire/comprendre ?
• sur la qualité des variables explicatives : les variables X sont-elles
72
susamment a priori riches et bien mesurées ?
Exercice
73