Chapitre4 RLS
Chapitre4 RLS
Ricco Rakotomalala
[Link]@[Link]
Variable à prédire
Attribut classe Variables prédictive
Variable endogène Descripteur
Quantitative Variable exogène
Quantitative ou binaire
N° de parcelle Y X
Identifiant 1 16 20
2 18 24
(Pas utilisé pour les calculs, mais peut
3 23 28
être utilisé pour les commentaires : 4 24 22
points atypiques, etc.) 5 28 32
6 29 28
7 26 32
8 31 36
9 32 41
10 34 41
Nous disposons donc d’un échantillon de n couples de points (xi,yi) i.i.d (indépendants et identiquement
distribués), et on veut expliquer (prédire) les valeurs de Y en fonction des valeurs prises par X.
Le terme aléatoire permet de résumer toute l’information qui n’est pas prise en compte dans la
relation linéaire entre Y et X (problèmes de spécifications, approximation de la linéarité, résumer les
variables qui sont absentes, etc.)
H1 : Hypothèses sur X et Y. Ce sont des grandeurs numériques mesurées sans erreur. X est une donnée
(exogène) dans le modèle, Y est aléatoire par l’intermédiaire de ε (c.-à-d. la seule erreur que l’on a sur Y
provient des insuffisances de X à expliquer ses valeurs dans le modèle).
H2 : Hypothèses sur le terme aléatoire . Les εi sont i.i.d. (indépendants et identiquement distribués)
(H2.d) Indépendance des erreurs, les erreurs relatives à 2 observations sont indépendantes (on dit aussi que
∂S
∂a = 0 ∑ xi y i − a ∑ xi 2 − bx = 0
SOLUTION i i
Equations normales
∂S = 0 y − ax − b = 0
∂b
∑ ( yi − y )(xi − x )
aˆ = i
∑i (xi − x )
2
Estimateurs des moindres carrés
bˆ = y − aˆx Voir détail des calculs…
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 6
Exemple des rendements agricoles
351.6
aˆ = = 0.714
492.4
bˆ = 26.1 − 0.714 × 30.4 = 4.39
35
y = 0.7141x + 4.3928
33
31
29
27
25
23
21
19
17
15
15 20 25 30 35 40 45
25
23
21
19
17
15
Laboratoire ERIC 8
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 9
Equation d’analyse de variance
Décomposition de la variance
∑ (y − y ) = ∑ ( y i − yˆ i + yˆ i − y )
2 2
i
i i
Somme des écarts à la moyenne
= ∑ ( y i − yˆ i ) + ∑ ( yˆ i − y ) + 2∑ ( y i − yˆ i )( yˆ i − y )
2 2
i i i
=0
Voir détail des calculs…
(
∑ iy − y )2
= (
∑ i i ∑ i
y − ˆ
y )2
+ ( ˆ
y − y )2
Décomposition i i i
de la variance SCT = SCR + SCE
( yˆ − y)
SCE ∑
2
i
R2 = = i
SCT ∑ ( y − y)
2
Coefficient de détermination. i
i
∑ (y − y)
2
i
i
Coefficient de corrélation
linéaire multiple R R = R2
yˆ i = aˆxi + bˆ
= 0.714 xi + 4.39 εˆi = yi − yˆ i
εˆi2
ESTIMATION
a 0.714053615
b 4.392770106 SCE = SCT - SCR 251.061251
R² 0.79727295
R 0.89290142
E [aˆ ] = a
Les estimateurs sont sans biais si…
[]
E bˆ = b
â = a + ∑ ωi ε i ωi =
(xi − x )
∑ (x − x)
Etape 1 : Exprimer â en fonction de a Où 2
j
Voir détail des calculs… i j
Etape 2 : Déterminer E(â) en fonction de a E (â ) = a + E ∑ ωiε i
i
conditions E(â) = a
E (â ) = a
E(εi) = E(ε) ; les εi sont i.i.d.
E(ε) = 0 par hypothèse
Pour « b » bˆ = b + ε − (aˆ − a )x
Avec les mêmes hypothèses, on aboutit à ()
E bˆ = b
V (aˆ ) = E[(aˆ − a ) ]
2
puisque
2
â = a + ∑ ωi ε i
= E ∑ ωiε i i
i
= E ∑ ωi2ε i2 + 2∑ ωiωi 'ε iε i '
i i <i '
( )
= ∑ ωi2 E ε i2 + 2∑ ωiωi ' E (ε iε i ' )
i i <i '
( )
V (ε i ) = E ε i2 = σ ε2 E (ε iε i ' ) = 0
avec
σ ε2
(xi − x ) V (aˆ ) =
( )
ωi =
∑ (x − x)
∑ i −
2 2
j
j x x
i
σ ε2
Est une valeur qui ne dépend pas des effectifs (variance de l’erreur
σ ε2 théorique)
V (aˆ ) =
(
∑ ix − x )2
(
∑ ix − x )2
n→ +∞
→ +∞
i i
()
2
1 x
De même, pour « b » V bˆ = σ ε2 +
n ∑ (xi − x )2
i
()
V bˆ n→ 0
→ +∞
o o
o o
o
o o o
o
o o
o
(1) o o
o o
o
o o o o
o o o
( )
E εi = σε
2 2
est faible
( )
E εi = σε
2 2
est élevé
est faible, modèle « stable » V (aˆ ) est moyennement élevée
V (aˆ )
Cette élévation est compensée par
∑ (xi − x )2
la valeur élevée de i
Parmi les estimateurs sans biais, ils sont à variance minimale c.-à-d. il est
impossible de trouver un autre estimateur sans biais à plus petite variance
(
εˆi = yi − yˆ i = axi + b + ε i − aˆxi + bˆ )
Le résidu est tel que
( )
= ε i − (aˆ − a )xi − bˆ − b
On montre que E ∑ εˆi2 = (n − 2 )σ ε2
Giraud & Chaix (1994), page 31 i
On en déduit un ∑ εˆ i
2
SCR
estimateur sans biais
σˆ ε2 = i
=
n−2 n−2
∑ xi εˆi = 0
Parce 2 contraintes avec les i
équations normale ∑ εˆi = 0
i
Remarque : A propos du degré
de liberté (n-2)
Parce que (simplement), on estimé 2 paramètres « a » et « b »
dans le modèle pour obtenir les prédictions, et donc les résidus
sigma²(epsilon) 7.979843623
ESTIMATION
a 0.714053615 sigma²(a^) 0.01620602 sigma(a^) 0.127302862
b 4.392770106 sigma²(b^) 15.7749386 sigma(b^) 3.971767696
σˆ ε2 SCR (n − 2 )
Vˆ (aˆ ) = σˆ =
2
=
∑ (x − x )
aˆ 2
i
492.4
i σˆ aˆ = σˆ a2ˆ = 0.0162 = 0.127
7.9798
= = 0.0162
492.4
∑ ( y − y )(x − x )
i i
X est non aléatoire
aˆ = i
∑ (x − x ) i
2 Y l’est par l’entremise de ε
i
ε ≡ N (0, σ ε )
aˆ − a
≡ N (0,1)
Et « â » est issue d’une
combinaison linéaire de Y σ aˆ
σε 2 σˆ ε 2
σ aˆ =
2
σˆ aˆ =
2
σˆ ε2
∑ (xi − x ) ∑ (xi − x ) on a besoin de connaître la distribution de
2 2
i i
Par hypothèse
Le résidu étant une réalisation de ε, εˆi
ε ≡ N (0, σ ε ) elle suit aussi une loi normale σε
≡ N (0,1)
2
εˆi ∑ εˆi
2
∑ σ = i 2 ≡ χ 2 (n − 2 )
i ε σε
(n − 2) σ ε2 ≡ χ 2 (n − 2)
ˆ2
σε
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 23
Distribution de « â » – Variance de l’erreur estimée
σˆ aˆ 2 σˆ ε 2 σˆ aˆ 2
On vérifie (n − 2) 2 = (n − 2) 2 (n − 2) 2 ≡ χ 2 (n − 2)
facilement σ aˆ σε σ aˆ
De la même
aˆ − a bˆ − b
On en déduit ≡ ℑ(n − 2 ) manière, on ≡ ℑ(n − 2)
dès lors que σˆ aˆ montre
σˆ bˆ
A partir de ces
H 0 : a = a0
éléments, on peut Tests d’hypothèses au risque α
H 1 : a ≠ a0
mettre en place
l’inférence statistique Avec, en particulier le test de H 0 : a = 0
significativité (mesurer l’impact
de X dans l’explication de Y via le H1 : a ≠ 0
modèle)
sigma²(epsilon) 7.979843623
ESTIMATION
a 0.714053615 sigma²(a^) 0.016206019 sigma(a^) 0.127302862
b 4.392770106 sigma²(b^) 15.77493863 sigma(b^) 3.971767696
ddl 8
aˆ 0.714
t aˆ = = = 5.609
σˆ aˆ 0.127
Puisque t aˆ > t1−α 2
t1−α / 2 (8) = t1−0.05 / 2 (8) = t0.975 (8) = 2.306
Rejet de H0 : a = 0
Tableau d’analyse
de variance
DDL1 1
DDL2 8
F théorique (à 5%) 5.317655063
SCE
Rejet de H0 c.-à-d. on conclut que le
F= 1 =
251.06
= 31.4619 Puisque F > F1−α modèle est globalement significatif
SCR 7.9798
n−2
Remarque :
F1−α (1, 8) = F0.95 (1, 8) = 5.37655
F = 31.4619 = 5.609 = t aˆ
Y X
16 20
18 24
23 28
24 22
28 32 DROITEREG
29 28 â 0.71405361 4.392770106 b̂
26
31
32
36 σˆ â 0.12730286 3.971767696 σˆ b̂
32 41
R 2 0.79727295 2.8248617 σˆ ε
34 41
F 31.4619262 8 n−2
SCE 251.061251 63.83874898 SCR
Intervalle de confiance à 5%
t théorique 2.30600413 2.306004133
Borne basse 0.42049269 -4.76614262
Borne haute 1.00761454 13.55168283
εˆi* = yˆ i* − yi*
[ ( ) ]
En effet,
E (εˆi* ) = E (aˆ − a )xi* + bˆ − b − ε i*
= aˆxi* + bˆ − (axi* + b + ε i* )
( )
= (aˆ − a )x + bˆ − b − ε
i* ( )
= x E (aˆ − a ) + E bˆ − b − E (ε i* )
i* i*
0
0 L’erreur du modèle est
Les EMCO sont sans biais nulle par hypothèse
On montre ( )
V (εˆi* ) = E εˆi2* = σ ε2 1 + +
1 ( xi* − x )2
= σ ε2ˆi*
Giraud & Chaix (1994), page 30 n ∑ (xi − x ) 2
i
Remarque :
(xi* − x )
(xi* − x )
2
2 1
D’où la variance estimée 1 hi* = +
σˆ ε2ˆ = σˆ ε2 1 + + n ∑ ( xi − x )2
de l’erreur de prévision i*
n ∑ ( xi − x )2
i
i
est le LEVIER de l’observation i*
(Il joue un rôle très important dans la
régression. Cf. points atypiques).
SCR
(1) σˆ ε2 = est petit c.-à-d. la droite ajuste bien le nuage de points .
n−2
(2) ( xi* − x )
2
La variance de est petit c.-à-d. le point est proche du centre de gravité du nuage.
l’erreur sera d’autant
plus faible que :
(3) ∑ (x − x )
i
i
2
est grand c.-à-d. la dispersion des points est grande.
(4) n est grand c.-à-d. le nombre d’observations ayant servi à la construction du modèle est élevé.
Puisque ε ≡ N (0, σ ε ) (
εˆi* = yˆ i* − yi* ≡ N 0, σ ε 1 + hi* )
(n − 2) σ ε2 ≡ χ 2 (n − 2)
ˆ2
σε
yˆ i* − yi*
≡ ℑ(n − 2 ) Rapport d’une loi normale avec un KHI-2 normalisé
σˆ εˆi*
i
1 57.76 35
y = 0.7141x + 4.3928
= 7.9798 × 1 + +
10 492.4
= 9.71389 30
25
Y = aX + b
20
Lecture en termes d’évolution : si prix Y
Y = bX
6000
a
Modèle log-linéaire Log-linéaire
5000
4000
Y 3000
2000
1000
0
a = 3; b = 5
0 2 4 6 8 10 12
X
Y =e
160000
(géométrique) Exponentiel
140000
120000
100000
Y
80000
60000
40000
20000
0 2 4 6 a =8 0.7; 10
b = 5 12
X
Modèle logarithmique 12
Logarithmique
Y = a ln( X ) + b
10
Y 6
2
a = 2; b = 5
0
0 2 4 6 8 10 12
X
ymax − ymin
Equation y = ymin +
1 + e ax + b
ymax − y
Linéarisation ln( ) = a x+b
Équipe de recherche en Ingénierie des Connaissances y − ymin
Laboratoire ERIC 37
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 38
Cas des données centrées
x i = xi − x
Y X (Y-YB) (X-XB) 10
16 20 -10.1 -10.4
18 24 -8.1 -6.4 y = 0.7141x - 2E-15 5
23 28 -3.1 -2.4 R² = 0.7973
24 22 -2.1 -8.4 0
28 32 1.9 1.6 -15 -10 -5 0 5 10 15
29 28 2.9 -2.4 -5
26 32 -0.1 1.6
31 36 4.9 5.6 -10
32 41 5.9 10.6
34 41 7.9 10.6 -15
Moyenne 26.1 30.4
S = ∑ ε = ∑ ( yi − a × xi )
2 2 ∂S ∑x y i i
i =0 aˆ = i
i i ∂a ∑x i
2
i
Y X Y^.1 Y^.2
45
16 20 18.6738424 17.0248613
18 24 21.5300569 20.4298336
40
23 28 24.3862713 23.8348058
24 22 20.1019496 18.7273474 35
28 32 27.2424858 27.2397781
29 28 24.3862713 23.8348058 30
26 32 27.2424858 27.2397781
31 36 30.0987002 30.6447504 25
32 41 33.6689683 34.9009657
34 41 33.6689683 34.9009657 20
0 4.39277011 0
50 40.0954509 42.5621533 15
A propos du R² Le coefficient de détermination R² n’a plus de sens parce que : SCT ≠ SCE + SCR
Ca ne sert à rien de le calculer
σˆ ε 2
σˆ aˆ =
2
H 0 : a = 1
10 7.28 7.47
11 7.53 7.51
Test d’hypothèses
12 8.40 8.07
H1 : a > 1
13 7.48 7.25 (Attention : test unilatéral ) !
14 7.46 6.79
15 7.33 7.14
16 7.80 7.38
17 7.57 7.53
18 6.02 6.03
19 7.28 7.05
20 8.42 8.01 a^ 1.021323921 0
21 7.42 7.25 sigma(a) 0.006821202 #N/A
22 7.47 7.59 0.998708093 0.27418841
23 7.14 7.20 22418.42983 29 ddl
24 7.29 6.93 1685.401501 2.18019923
25 8.28 7.85
26 6.98 7.29 a^-1 0.021323921
27 8.03 7.94
aˆ − 1 1 . 0213 − 1
28 7.69 7.11
t calculé 3.126123666 t = =
29
30
6.67
7.92
6.76
7.72 σˆ aˆ 0 . 00682
t-théorique (95%) 1.699126996