Corrélation et régression linéaire simple
1. La corrélation
2. La régression linéaire simple
Introduction
Etude de la relation entre deux variables quantitatives:
Nuage de points: -description de
l’association linéaire:
corrélation, régression
linéaire simple
Y
- explication /
prédiction d’une
variable à partir de
l’autre: modèle linéaire
X simple
La corrélation
Statistique descriptive de la relation entre X et Y: variation
conjointe
1. La covariance
Dans l’échantillon:
1 n
cov(x, y) x i y i xy
n i1
Estimation pour la population: n
1
cov(x, y)
ˆ xy
n 1 i1
(x i x )(y i y )
n
1 n
cov(x, y)
n 1 i1
x y
i i
n 1
xy
La corrélation
Covariance et nuage de points
(x i x ) 0
<0 (y i y ) 0
Contribution > 0
y
< 0
>0
x
La corrélation
2. Le coefficient de corrélation linéaire
« de Pearson »
s xy
Dans l’échantillon: rxy
sx2 s 2y
sxy
Estimation pour la population:
ˆ xy rxy
sx2 sy2
La corrélation
2. Le coefficient de corrélation linéaire
Indice de covariance absolu: -1 ≤ r ≤ 1
X2 X2 X2
r = 0.9 r = 0.5 r=0
X2 X2 X2
r = -0.9 r = -0.5 r=0
X1
La corrélation
3. Conditions d’utilisation
Normalité
La loi de probabilité du couple (X,Y)
f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy)
est une loi normale à deux dimensions:
Notamment, pour chaque valeur de X, les valeurs
de Y sont normalement distribuées et vice-versa.
r=0
r = 0.8
La corrélation
3. Conditions d’utilisation
Homoscédasticité
Y
Homoscédasticité
La variance de Y est
indépendante de X et vice-
versa.
Hétéroscédasticité
X
La corrélation
3. Conditions d’utilisation
Linéarité
La relation est linéaire
Y Y
Linéarité Non-linéarité
X X
La corrélation
Non respect des conditions d’utilisation
60 1.8
1.7
50
FKLNGTH
1.6
LFKL
40
1.5
30
1.4
20 1.3
0 10 20 30 40 50 0.5 1.0 1.5 2.0
AGE LAGE
Relation âge - longueur chez l’esturgeon: transformation log-log;
Alternative: utiliser la corrélation non paramétrique
La corrélation
4. Tests de la corrélation
a. Distribution d’échantillonnage du coefficient de corrélation
linéaire
Lorsque les conditions d’utilisation (binormalité,
homoscédasticité, linéarité) sont remplies,
sous Ho: = 0: R n 2
: Tn2 (Student)
2
1 R
Attention, sous Ha: ≠ 0: distribution complexe
La corrélation
4. Tests de la corrélation
b. Test de = 0
H 0 : 0 Absence de relation linéaire (mais pas
H a : 0 absence de relation y compris causale)
r n2
Sous Ho: t obs t n2,
2
1 r
Si H0 est rejetée: corrélation ≠ causalité
La régression linéaire simple
Description de la relation entre
X et Y: « courbes de niveau »
du nuage de points.
Si (X,Y) suit une loi binormale:
ellipses.
X
La régression linéaire simple
Courbes de régression
E(X/Y)
Description de la relation: E(Y/X)
densité de probabilité de Y
conditionnellement à X: Y
f x x 0 (y)dy P(y Y y dy / X x 0 )
Courbe de régression = E(Y/X) et E(X/Y) X
Si (X,Y) binormale alors les courbes de régression sont des droites
- X et Y tiennent un rôle symétrique !
- Plusieurs courbes possibles
La régression linéaire simple
1. Le modèle
On suppose: y = f(x) = a + bx
Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, )
X = variable explicative
(« indépendante »), contrôlée
Y = variable expliquée
(dépendante ), aléatoire Y
Relation de causalité ≠
interdépendance
X
La régression linéaire simple
2. L’estimation des paramètres
a? b?
Méthode d’estimation: les moindres carrés:
yi Mi
ei y = a+bx
yˆ i
M’i
ei = yi - (a + bxi)
Y
i
e 2
minimale
X xi
La régression linéaire simple
2. L’estimation des paramètres
Méthode des moindres carrés
n
On cherche le minimum de i E ( a , b)
2
( y ( a bxi ))
i 1
E n
2(y i (a bx i ))(1) 0 (1)
a i1
E
n
2(y (a bx ))(x ) 0 (2)
b i1
i i i
La régression linéaire simple
2. L’estimation des paramètres
Méthode des moindres carrés
n n n
(1) y i (a bx i ) na b x i
i1 i1 i1
ny na nbx
a y bx
La régression linéaire simple
2. L’estimation des paramètres
Méthode des moindres carrés
n(cov(x, y) xy ) (y bx )nx bn(sx2 x 2 ) 0
cov(x, y)
cov(x, y) bs 2
x b
sx2
Si y = a+bx alors
ˆb cov(x, y) et aˆ y bx
2
sx
On
peut alors prédire y pour x
compris dans l’intervalle des
valeurs de l’échantillon: yˆ i aˆ bˆ x i
La régression linéaire simple
3. Qualité de l’ajustement
On a supposé: Yi = a + bXi + ei avec
pour X = xi, Yi : N(a+bxi, )
- distribution normale des erreurs
- variance identique (homoscédasticité)
- indépendance: cov(ei ,e j ) 0
- linéarité de la relation
Test a posteriori : étude du nuage de points/ du
graphedes résidus
La régression linéaire simple
3. Qualité de l’ajustement
Normalité de l’erreur
Résidus
Valeurs prédites
Questions à se poser: structure de l’erreur?
Valeurs extrêmes: ont-elles un sens biologique? Influencent-
elles l’estimation des paramètres?
La régression linéaire simple
3. Qualité de l’ajustement
Homoscédasticité
Résidus
Valeurs prédites
Possibilité de transformation: attention aux transformations ad hoc
La régression linéaire simple
3. Qualité de l’ajustement
Indépendance entre erreurs, linéarité
Résidus
Structure de l’erreur?
Résidus
Relation non linéaire?
La régression linéaire simple
4. Coefficient de détermination
Décomposition de la variation
Quelle part de la variabilité de Y est expliquée par la relation
linéaire avec X?
Variabilité? Somme des Carrés des Ecarts SCE:
n
SCE T (y i y ) ns 2 2
y
i1
La régression linéaire simple
4. Coefficient de détermination
Décomposition de la variation
Y
= +
SCE Totale SCE [Link]. (Expliquée) SCE hors [Link]. (erreur)
N N N
(Yi Y ) 2
= (Yi Y ) 2
+ (Yi Yi )2
i 1 i 1 i 1
La régression linéaire simple
4. Coefficient de détermination
La décomposition de la SCE permet d’estimer la part de SCE
de Y expliquée par la régression:
SCE [Link].
r
2
Coefficient de détermination
SCE T
0 ≤ r2 ≤ 1
Relation avec r?
La régression linéaire simple
4. Coefficient de détermination
Relation entre r et r2
n n
SCE [Link]. ( yˆ i y ) 2 ((a bx i ) (a bx )) 2
i1 i1
n
b 2 (x i x ) 2 b 2 nsx2 b 2 SCE x
i1
2 2 2 2
b ns cov(x, y) s (cov(x, y))
Donc r
2
2
x
( 2
) 2
2 x
2 2
(r) 2
nsy sx sy sx sy
En particulier, r = 0 <=> r2 = 0
La régression linéaire simple
5. Tests
Test de la décomposition de la variation ou analyse de
variance (ANOVA): H0 : 2 = 0
[Link].
2
SCE [Link]. /1
: F 1
[Link]. SCE [Link]. /(n 2)
2 n2
SCE [Link]. /1 r 2 SCET r n 2 2
NB: ( )
SCE horsreg .lin. /(n 2) (1 r )SCE T /(n 2)
2
1 r 2
SCE [Link]. /1 r n2
1
: Fn 2
numériquement : Tn2
SCE [Link]. /(n 2) équivalent à 1 r 2
La régression linéaire simple
Test sur la pente
bˆ
Principe des tests sur les paramètres: : Tn2
sˆb
bˆ bˆ
Ici: : Tn2
sˆb (1 r 2 )sy2
Ho: b = 0
(n 2)sx2
bˆ 2
NB: cov(x, y) (n 2)s r n2
2
x
2 2
(1 r )sy sx 2
(1 r )sy2
1 r 2
(n 2)sx2
Les tests de nullité de b, r et r2 sont numériquement équivalents
La régression linéaire simple
Autres tests
- comparaison de la pente à une valeur non nulle
- comparaison de l’ordonnée à l’origine à une valeur
quelconque
- comparaison de pentes
La régression linéaire simple
Bilan
X et Y aléatoires X contrôlée, Y aléatoire
Question
Y a-t-il un lien? Corrélation Explication de Y par X:
Quel lien? Régression Modèle linéaire simple
Modèle
(X,Y) binormal => Y = a + bx + e
linéarité des régressions
Dy/x : a, b Pour X = xi, Yi : N(a+bxi, )
Dx/y : c, d
La régression linéaire simple
Bilan
X et Y aléatoires X contrôlée, Y aléatoire
Lien r: paramètre de la R2 : part de variation de
distribution de (X,Y) Y expliquée par X
Tests
- test de - test de r2: ANOVA
-Tests sur les pentes b
et d r 2 (n 2)
2
F 1
n2
1 r
- test sur la pente