Prdire / expliquer les valeurs dune variable
quantitative Y partir dune autre variable X
Ricco Rakotomalala
[Link]@[Link]
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
Position du problme
Exemple de rgression simple (Bourbonnais, page 12)
Expliquer le rendement de mas Y (en quintal) partir de la quantit
d'engrais utilis (en kilo) sur des parcelles de terrain similaires.
Variable prdire
Attribut classe
Variable endogne
Quantitative
Identifiant
(Pas utilis pour les calculs, mais peut
tre utilis pour les commentaires :
points atypiques, etc.)
Modle de rgression simple :
N de parcelle
1
2
3
4
5
6
7
8
9
10
Variables prdictive
Descripteur
Variable exogne
Quantitative ou binaire
Y
16
18
23
24
28
29
26
31
32
34
20
24
28
22
32
28
32
36
41
41
yi = a xi + b + i
Nous disposons donc dun chantillon de n couples de points (xi,yi) i.i.d (indpendants et identiquement
distribus), et on veut expliquer (prdire) les valeurs de Y en fonction des valeurs prises par X.
Le terme alatoire permet de rsumer toute linformation qui nest pas prise en compte dans la
relation linaire entre Y et X (problmes de spcifications, approximation de la linarit, rsumer les
variables qui sont absentes, etc.)
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
Hypothses
Permettent de dterminer les proprits des estimateurs
Et de mettre en place les outils de statistique infrentielle (tests dhypothses, intervalle de confiance)
H1 : Hypothses sur X et Y. Ce sont des grandeurs numriques mesures sans erreur. X est une donne
(exogne) dans le modle, Y est alatoire par lintermdiaire de (c.--d. la seule erreur que lon a sur Y
provient des insuffisances de X expliquer ses valeurs dans le modle).
H2 : Hypothses sur le terme alatoire . Les i sont i.i.d. (indpendants et identiquement distribus)
(H2.a) En moyenne les erreurs sannulent, le modle est bien spcifi
E ( i ) = 0
(H2.b) La variance de lerreur est constante et ne dpend pas de lobservation : homoscdasticit
(H2.c) En particulier, lerreur est indpendante de la variable exogne
V ( i ) = 2
COV ( xi , i ) = 0
(H2.d) Indpendance des erreurs, les erreurs relatives 2 observations sont indpendantes (on dit aussi que
les erreurs ne sont pas corrles )
(H2.e) Loi normale
COV ( i , j ) = 0
i N (0, )
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
Estimateur des MCO (Moindres carrs ordinaires)
Critre numrique
Critre des moindres carrs : trouver les valeurs de a et b qui
minimise la somme des carrs des carts entre les vraies valeurs
yi
a xi + b
de Y et les valeurs prdites avec le modle de prdiction.
S =
i =1
S =
2
i
[y
i =1
S =
xi
SOLUTION
S
a = 0
S = 0
b
( ax i + b )] 2
ax i b ] 2
[y
i =1
xi y i a xi 2 bx = 0
i
i
y ax b = 0
( yi y )(xi x )
a = i
i (xi x )
b = y ax
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
Remarque : Pourquoi
pas la somme des
erreurs ? Ou la somme
des carts absolus ?
Equations normales
Estimateurs des moindres carrs
Voir dtail des calculs
Exemple des rendements agricoles
Y
1
2
3
4
5
6
7
8
9
10
Moyenne
(Y-YB)
X
16
18
23
24
28
29
26
31
32
34
26.1
20
24
28
22
32
28
32
36
41
41
30.4
(X-XB)
-10.1
-8.1
-3.1
-2.1
1.9
2.9
-0.1
4.9
5.9
7.9
-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
Somme
(Y-YB)(X-XB) (X-XB)^2
105.04
108.160
51.84
40.960
7.44
5.760
17.64
70.560
3.04
2.560
-6.96
5.760
-0.16
2.560
27.44
31.360
62.54
112.360
83.74
112.360
351.6
492.4
351.6
= 0.714
a =
492.4
b = 26.1 0.714 30.4 = 4.39
35
y = 0.7141x + 4.3928
33
31
29
27
25
23
21
19
17
15
15
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
20
25
30
35
40
45
Quelques commentaires
Autre criture de la pente a
a =
Erreur et rsidus : erreur =
dfinie dans la spcification du
modle ; rsidus , erreurs
observes sur les donnes
C O V ( X , Y )
=
r
X2
Relation entre la pente et le
coefficient de corrlation
linaire !!!
Y
X
y i = y ( x i )
i = yi y i
= a x i + b
Rsidus de la rgression
Pour la rgression
avec constante !
=0
Voir dtail des calculs
Centre de gravit du nuage de
points : la droite de rgression
passe forcment par le
barycentre du nuage de points.
y ( x ) = ax + b
= ax + ( y ax )
=y
35
33y
= 0.7141x + 4.3928
31
29
27
25
23
21
19
17
15
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
15
20
25
30
35
40
45
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
Equation danalyse de variance
Dcomposition de la variance
Objectif de la rgression : minimiser S.
Mais 0 S + ; partir de quand peut-on dire que
la rgression est de bonne qualit ?
(y
S = ( y i y i )
i =1
y ) = ( y i y i + y i y )
2
Somme des carts la moyenne
= ( y i y i ) + ( y i y ) + 2 ( y i y i )( y i y )
2
=0
Voir dtail des calculs
2
2
2
(
y
y
)
=
(
y
y
)
+
(
y
y
)
i
i i i
Dcomposition
de la variance
SCT = SCR + SCE
SCT : somme des carrs totaux
SCE : somme des carrs expliqus par le modle
SCR : somme des carrs rsiduels, non expliqus par le modle
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
10
Coefficient de dtermination
Et coefficient de corrlation linaire multiple
R2
Coefficient de dtermination.
Exprime la part de variabilit de Y explique par le modle.
R 1, le modle est excellent
R 0, le modle ne sert rien
( y
SCE
=
=
SCT ( y
y)
y)
R2 = 1
R2 = 1
SCR
SCT
2
( yi yi )
i
(y
y)
Coefficient de corrlation
linaire multiple R
On montre que
R = R2
rY , X = sgn(a ) R
Lien entre le coefficient de corrlation linaire (de Pearson) et le coefficient de
corrlation linaire multiple de la rgression linaire simple
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
11
Exemple des rendements agricoles
y i = axi + b
i = yi y i
= 0.714 xi + 4.39
Y
1
2
3
4
5
6
7
8
9
10
Moyenne
(Y-YB)
X
16
18
23
24
28
29
26
31
32
34
26.1
20
24
28
22
32
28
32
36
41
41
30.4
(X-XB)
-10.1
-8.1
-3.1
-2.1
1.9
2.9
-0.1
4.9
5.9
7.9
-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
Somme
(Y-YB)(X-XB) (X-XB)^2
(Y-YB)^2
Y^
105.04
108.160
102.010
51.84
40.960
65.610
7.44
5.760
9.610
17.64
70.560
4.410
3.04
2.560
3.610
-6.96
5.760
8.410
-0.16
2.560
0.010
27.44
31.360
24.010
62.54
112.360
34.810
83.74
112.360
62.410
351.6
492.4
314.9
SCT
ESTIMATION
a
0.714053615
b
4.392770106
18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669
i2
Rsidus
Rsidus^2
-2.674
7.149
-3.530
12.461
-1.386
1.922
3.898
15.195
0.758
0.574
4.614
21.286
-1.242
1.544
0.901
0.812
-1.669
2.785
0.331
0.110
Somme
63.838749
SCR
SCE = SCT - SCR 251.061251
R 0.79727295
R 0.89290142
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
12
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
13
Biais
Les estimateurs sont sans biais si
Etape 1 : Exprimer en fonction de a
E [a ] = a
E b = b
[]
= a + i i
i
Voir dtail des calculs
Etape 2 : Dterminer E() en fonction de a
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
i =
(xi x )
(x
x)
E ( ) = a + E i i
i
E ( ) = a + i E ( i )
Etape 3 : Identifier sous quelles
conditions E() = a
E ( ) = a
X nest pas alatoire par
hypothse, donc i ne lest pas
E(i) = E() ; les i sont i.i.d.
E() = 0 par hypothse
14
Biais (suite)
Pour b
b = b + (a a )x
Avec les mmes hypothses, on aboutit
()
E b = b
Conclusion : Les EMCO (estimateurs des moindres
carrs ordinaires) sont sans biais, si
Les X ne sont pas stochastiques (non alatoires)
E() = 0 c.--d. le modle est bien spcifi
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
15
Variance
V (a ) = E[(a a ) ]
2
puisque
= E i i
i
= E i2 i2 + 2 ii ' i i '
i <i '
i
= i2 E i2 + 2 ii ' E ( i i ' )
2
( )
( )
Homoscdasticit
avec
(xi x )
(x
x)
i <i '
V ( i ) = E i2 = 2
i =
= a + i i
E ( i i ' ) = 0
Non-autocorrlation des rsidus
V (a ) =
2
(
)
x
x
i
i
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
16
Convergence
V (a ) =
2
(
)
x
x
i
i
est convergent
De mme, pour b
Est une valeur qui ne dpend pas des effectifs (variance de lerreur
thorique)
2
(
)
x
x
n
+
i
+
i
V (a ) n
0
+
2
x
1
V b = 2 +
n (xi x )2
()
()
V b n
0
+
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
17
Caractrisation graphique
o
o
o
o
o
(1)
o o
o
( )
E i =
2
o o
o
o o
o
( )
E i =
2
est faible
V (a )
est lev
V (a ) est moyennement leve
Cette lvation est compense par
(xi x )2
la valeur leve de
i
est faible, modle stable
Les estimateurs sont dautant plus prcis que :
o
o
oo oo
o
ooo
oo
(2)
( )
E i =
2
(x x )
est faible
est faible
(1) La variance de lerreur est faible (la droite de
rgression passe bien au milieu des points.
(2) La dispersion des X est forte (les X couvrent
bien lespace de reprsentation)
V (a )
Ladjonction dun point suppl mentaire dans la rgression fait bouger la droite
Le mod le est instable galeme nt
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
18
Thorme de GAUSS-MARKOV
Les EMCO de la rgression sont sans biais et convergents.
Parmi les estimateurs sans biais, ils sont variance minimale c.--d. il est
impossible de trouver un autre estimateur sans biais plus petite variance
On dit quils sont BLUE (best linear unbiased estimator)
Ce sont des estimateurs efficaces
Cf. dmonstration C. Labrousse (1983), page 26
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
19
Estimation de la variance de lerreur
2
Joue un rle trs important. Comment lestimer partir des donnes ?
Le rsidu est tel que
On montre que
Giraud & Chaix (1994), page 31
On en dduit un
estimateur sans biais
i = yi y i = axi + b + i axi + b
( )
= i (a a )xi b b
E i2 = (n 2 ) 2
i
2 =
2
i
n2
SCR
n2
Parce 2 contraintes avec les
quations normale
Remarque : A propos du degr
de libert (n-2)
xi i = 0
i
i = 0
i
Parce que (simplement), on estim 2 paramtres a et b
dans le modle pour obtenir les prdictions, et donc les rsidus
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
20
Rendements agricoles
(X-XB)
Y
X (Y-YB)
1
16
20
-10.1
2
18
24
-8.1
3
23
28
-3.1
4
24
22
-2.1
5
28
32
1.9
6
29
28
2.9
7
26
32
-0.1
8
31
36
4.9
9
32
41
5.9
10
34
41
7.9
Somme
Moyenne 26.1 30.4
-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
(Y-YB)(X-XB)
105.04
51.84
7.44
17.64
3.04
-6.96
-0.16
27.44
62.54
83.74
351.6
(X-XB)^2 (Y-YB)^2
Y^
108.160
102.010
40.960
65.610
5.760
9.610
70.560
4.410
2.560
3.610
5.760
8.410
2.560
0.010
31.360
24.010
112.360
34.810
112.360
62.410
492.4
314.9
SCT
Rsidus
18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669
-2.674
-3.530
-1.386
3.898
0.758
4.614
-1.242
0.901
-1.669
0.331
Somme
Rsidus^2
7.149
12.461
1.922
15.195
0.574
21.286
1.544
0.812
2.785
0.110
63.83874898
SCR
sigma(epsilon) 7.979843623
ESTIMATION
a
0.714053615
b
4.392770106
V (a ) = =
2
a
(x x )
sigma(a^) 0.01620602
sigma(b^) 15.7749386
SCR (n 2 )
492.4
sigma(a^) 0.127302862
sigma(b^) 3.971767696
a = a2 = 0.0162 = 0.127
7.9798
= 0.0162
492.4
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
21
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
22
Distribution de Variance de lerreur connue
( y y )(x x )
a =
(x x )
i
X est non alatoire
Y lest par lentremise de
N (0, )
a a
Et est issue dune
combinaison linaire de Y
N (0,1)
Distribution de lestimation de la variance de lerreur
a =
2
2
(xi x )
i
Par hypothse
N (0, )
a =
2
2
(xi x )
on a besoin de connatre la distribution de
Le rsidu tant une ralisation de ,
elle suit aussi une loi normale
i
N (0,1)
2
i
i
= i 2 2 (n 2 )
(n 2) 2 2 (n 2)
2
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
23
Distribution de Variance de lerreur estime
On vrifie
facilement
On en dduit
ds lors que
a 2
2
(n 2) 2 = (n 2) 2
a
a a
(n 2 )
a
a 2
(n 2) 2 2 (n 2)
a
De la mme
manire, on
montre
b b
(n 2)
b
Intervalle de confiance au niveau (1 - )
A partir de ces
lments, on peut
mettre en place
linfrence statistique
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
Tests dhypothses au risque
Avec, en particulier le test de
significativit (mesurer limpact
de X dans lexplication de Y via le
modle)
[a t
1 2
H 0 : a = a0
H 1 : a a0
H 0 : a = 0
H1 : a 0
24
Rendements agricoles Tests de significativit des coefficients
(X-XB)
Y
X (Y-YB)
1
16
20
-10.1
2
18
24
-8.1
3
23
28
-3.1
4
24
22
-2.1
5
28
32
1.9
6
29
28
2.9
7
26
32
-0.1
8
31
36
4.9
9
32
41
5.9
10
34
41
7.9
Somme
Moyenne 26.1 30.4
-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
(Y-YB)(X-XB)
105.04
51.84
7.44
17.64
3.04
-6.96
-0.16
27.44
62.54
83.74
351.6
(X-XB)^2 (Y-YB)^2
Y^
108.160
102.010
40.960
65.610
5.760
9.610
70.560
4.410
2.560
3.610
5.760
8.410
2.560
0.010
31.360
24.010
112.360
34.810
112.360
62.410
492.4
314.9
SCT
ESTIMATION
a
0.714053615
b
4.392770106
Rsidus
7.149
12.461
1.922
15.195
0.574
21.286
1.544
0.812
2.785
0.110
63.83874898
SCR
sigma(epsilon)
7.979843623
0.016206019
15.77493863
sigma(a^)
sigma(b^)
0.127302862
3.971767696
ddl
t thorique (bilatral 5%)
2.306004133
Somme
t(a^)
t(b^)
t a =
a 0.714
=
= 5.609
a 0.127
t1 / 2 (8) = t10.05 / 2 (8) = t0.975 (8) = 2.306
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
Rsidus^2
-2.674
-3.530
-1.386
3.898
0.758
4.614
-1.242
0.901
-1.669
0.331
sigma(a^)
sigma(b^)
18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669
Puisque
5.609093169
rejet H0
1.10599875 acceptation H0
t a > t1 2
Rejet de H0 : a = 0
25
Test de significativit globale du modle
H0 : Le modle namne rien dans lexplication de Y
H1 : Le modle est pertinent (globalement significatif)
Tableau danalyse
de variance
Statistique de test
Rgion critique au
risque
SCE
F = 1 F (1, n 2)
SCR
n2
Remarque : Ecriture de F partir du R
F=
R2
1 R2
(n 2)
F > F1 (1, n 2)
Remarque : Tester la significativit de la
rgression et tester la significativit de la pente
sont quivalents dans la rgression simple.
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
26
Rendements agricoles Tests de significativit globale
(X-XB)
Y
X (Y-YB)
1
16
20
-10.1
2
18
24
-8.1
3
23
28
-3.1
4
24
22
-2.1
5
28
32
1.9
6
29
28
2.9
7
26
32
-0.1
8
31
36
4.9
9
32
41
5.9
10
34
41
7.9
Somme
Moyenne 26.1 30.4
-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
(Y-YB)(X-XB)
105.04
51.84
7.44
17.64
3.04
-6.96
-0.16
27.44
62.54
83.74
351.6
(X-XB)^2 (Y-YB)^2
108.160
40.960
5.760
70.560
2.560
5.760
2.560
31.360
112.360
112.360
492.4
Y^
102.010
65.610
9.610
4.410
3.610
8.410
0.010
24.010
34.810
62.410
314.9
Rsidus
18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669
Rsidus^2
-2.674
-3.530
-1.386
3.898
0.758
4.614
-1.242
0.901
-1.669
0.331
Somme
SCT
Tableau d'analyse de variance
Source de variation
SC
DDL
Expliqus (Rgression)
251.061251
Rsidus
63.83874898
Total
314.9
ESTIMATION
a
0.714053615
b
4.392770106
SCE
251.06
F= 1 =
= 31.4619
SCR 7.9798
n2
Puisque
F1 (1, 8) = F0.95 (1, 8) = 5.37655
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
F calcul
31.46192618
DDL1
DDL2
F thorique ( 5%)
1
8
5.317655063
F > F1
1
8
9
7.149
12.461
1.922
15.195
0.574
21.286
1.544
0.812
2.785
0.110
63.83874898
SCR
CM
251.061251
7.979843623
rejet de H0
Rejet de H0 c.--d. on conclut que le
modle est globalement significatif
Remarque :
F = 31.4619 = 5.609 = t a
27
Rendements agricoles La fonction DROITEREG dEXCEL
Y
X
16
18
23
24
28
29
26
31
32
34
20
24
28
22
32
28
32
36
41
41
DROITEREG
a 0.71405361 4.392770106 b
b
a 0.12730286 3.971767696
2.8248617
R 2 0.79727295
8 n2
F 31.4619262
SCE 251.061251 63.83874898 SCR
Intervalle
t thorique
Borne basse
Borne haute
de confiance 5%
2.30600413 2.306004133
0.42049269 -4.76614262
1.00761454 13.55168283
Test de significativit des coefficients
5.60909317 1.10599875
t de Student
p-value
0.00050487 0.30087418
Test de la rgression globale
F-calcul
31.4619262
DDL numrateur
1
DDL dnominateur
8
p-value
0.00050487
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
28
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
29
Prvision ponctuelle
A prdire dune valeur connue de X, prdire la valeur de Y
Pour un individu i*, la
prdiction ponctuelle scrit
y i* = y ( xi* ) = axi* + b
La prdiction est sans biais c.--d.
E ( y i* ) = yi*
En effet,
i* = y i* yi*
= axi* + b (axi* + b + i* )
= (a a )x + b b
i*
( )
( ) ]
( )
E (i* ) = E (a a )xi* + b b i*
= x E (a a ) + E b b E (
i*
i*
i*
0
Les EMCO sont sans biais
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
0
Lerreur du modle est
nulle par hypothse
30
Prvision par intervalle
Variance de lerreur de prvision
Puisque
i* = y i* yi*
E (i* ) = 0
2
(
)
x
x
1
i*
= 2i*
V (i* ) = E i2* = 2 1 + +
2
n (xi x )
( )
On montre
Giraud & Chaix (1994), page 30
Remarque :
Do la variance estime
de lerreur de prvision
i*
2
(xi* x )
1
= 2 1 + +
n ( xi x )2
(xi* x )
1
hi* = +
n ( xi x )2
2
est le LEVIER de lobservation i*
(Il joue un rle trs important dans la
rgression. Cf. points atypiques).
SCR
n2
(1) 2 =
La variance de
lerreur sera dautant
plus faible que :
2
(2) ( xi* x )
(3)
est petit c.--d. la droite ajuste bien le nuage de points .
est petit c.--d. le point est proche du centre de gravit du nuage.
(x x )
est grand c.--d. la dispersion des points est grande.
(4) n
est grand c.--d. le nombre dobservations ayant servi la construction du modle est lev.
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
31
Prvision par intervalle
Distribution Dfinition de lintervalle
Puisque
i* = y i* yi* N 0, 1 + hi*
N (0, )
(n 2) 2 2 (n 2)
2
y i* yi*
(n 2 )
i*
y i* t1 2 i*
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
Rapport dune loi normale avec un KHI-2 normalis
Intervalle de confiance au niveau (1-)
32
Rendements agricoles x* = 38
Y
1
2
3
4
5
6
7
8
9
10
Moyenne
(Y-YB)
X
16
18
23
24
28
29
26
31
32
34
26.1
20
24
28
22
32
28
32
36
41
41
30.4
(X-XB)
-10.1
-8.1
-3.1
-2.1
1.9
2.9
-0.1
4.9
5.9
7.9
-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
Somme
Prdiction ponctuelle
(Y-YB)(X-XB) (X-XB)^2
Y^
105.04
108.160
51.84
40.960
7.44
5.760
17.64
70.560
3.04
2.560
-6.96
5.760
-0.16
2.560
27.44
31.360
62.54
112.360
83.74
112.360
351.6
492.4
Variance de lerreur de prdiction
2
xi* x )
(
1
2
2
= 1 + +
n (xi x )2
i
i*
1 57.76
= 7.9798 1 + +
10 492.4
= 9.71389
Rsidus
-2.674
-3.530
-1.386
3.898
0.758
4.614
-1.242
0.901
-1.669
0.331
Rsidus^2
7.149
12.461
1.922
15.195
0.574
21.286
1.544
0.812
2.785
0.110
63.838749
sigma(erreur)
7.97984362
18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669
Somme
y i* = axi* + b
= 0.714 38 + 4.39
= 31.5268
ESTIMATION
a
b
0.714053615
4.392770106
x*
y^
38
31.52680747
(x*-xb)^2
57.76
sigma(epsilon^)
9.71389
t (0.975)
2.306004133
[Link]
[Link]
24.33965896
38.71395598
Intervalle de prdiction pour x* = 38
40
35
y = 0.7141x + 4.3928
30
25
b.b. = 31.5298 2.306 9.71389 = 24.3397
20
b.h. = 31.5298 + 2.306 9.71389 = 38.7140
15
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
15
20
25
30
35
40
45
33
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
34
Modle linaire
Lecture de la pente
Y = aX + b
40
Ex. ventes = -12 * prix + 1000
Lecture en niveau : si prix = 10 euros alors
ventes = 980 units
Lecture en termes dvolution : si prix
augmente de 1 euro , les ventes vont
diminuer de 12 units.
35
30
25
Y
20
Linaire
15
10
a = 3; b = 5
5
0
0
10
15
La variation de Y est proportionnelle la variation de X
Avantages
Simplicit
Utilis dans une premire approche
Estimation directe des paramtres par la mthode des MCO
dy
a=
dx
Y = bX
Modle log-linaire
6000
Log-linaire
5000
4000
3000
2000
1000
a = 3; b = 5
10
12
dy
a=
y
dx
Le taux de variation de Y est proportionnelle au taux de variation de X
Avantages
Modle lasticit constante : favori des conomistes
Ex. emploi = f(production), demande = f(prix)
Linarisation : ln(y) = a ln(x) + ln(b)
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
35
Modle exponentiel
(gomtrique)
Y =e
180000
aX + b
160000
Exponentiel
140000
120000
100000
80000
60000
40000
20000
0
a =8 0.7; 10
b = 5 12
6
X
dy
y
a=
dx
Le taux de variation de Y est proportionnelle la variation de X
Avantages
Surtout utilis quand x = temps, ainsi dx= 1
Dans ce cas, la croissance (dcroissance) de Y est constante dans le temps
Ce type dvolution (croissance exponentielle) ne dure pas longtemps
Linarisation : ln(y) = a x + ln(b)
Modle logarithmique
12
Y = a ln( X ) + b
Logarithmique
10
a = 2; b = 5
10
12
dy
a=
dx
x
La variation de Y est proportionnelle au taux de variation de X
Avantages
Archtype de la croissance (dcroissance) qui spuise
Ex. salaire = f(anciennet) ; vente = f(publicit)
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
36
Un modle particulier
Le modle logistique
3) Un modle particulier : le modle logistique
Problme :
Tous les modles dans (2) ont une concavit constante
(drive seconde de signe constant), on peut avoir besoin
d un modle plusieurs phases
ex : lancement d un produit dans le temps
Dcollage
produit inconnu
positionnement sur le
march
Equation
Linarisation
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
Croissance acclre
large diffusion
y = ymin +
ln(
Freinage
saturation du march
concurrence
ymax ymin
1 + e ax + b
ymax y
) = a x+b
y ymin
37
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
38
Cas des donnes centres
Lorsque les donnes
sont centres
La constante est nulle
par construction
y i = yi y
o
x i = xi x
o
b = y a x = 0
Moyenne
Parce que le barycentre du nuage de
points est lorigine du repre c.--d.
(Y-YB)
X
16
18
23
24
28
29
26
31
32
34
26.1
20
24
28
22
32
28
32
36
41
41
30.4
y=x=0
10
(X-XB)
-10.1
-8.1
-3.1
-2.1
1.9
2.9
-0.1
4.9
5.9
7.9
-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
y = 0.7141x - 2E-15
R = 0.7973
5
0
-15
-10
-5
10
15
-5
-10
-15
La droite passe forcment par le barycentre,
qui se trouve tre lorigine (0, 0) du repre.
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
39
Cas des donnes non-centres
yi = a xi + i
b = 0 on force le modle passer par
lorigine (0,0) du repre
On veut minimiser
Une quation normale
Estimation de la pente
2
S = = ( yi a xi )
S
=0
a
x y
a =
x
2
i
2
i
X
16
18
23
24
28
29
26
31
32
34
20
24
28
22
32
28
32
36
41
41
0
50
Y^.1
18.6738424
21.5300569
24.3862713
20.1019496
27.2424858
24.3862713
27.2424858
30.0987002
33.6689683
33.6689683
4.39277011
40.0954509
Y^.2
17.0248613
20.4298336
23.8348058
18.7273474
27.2397781
23.8348058
27.2397781
30.6447504
34.9009657
34.9009657
0
42.5621533
Rg.1 - Avec constante
0.71405361 4.39277011
a
b
Rg.2 - Sans constante
0.85124307
a
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
45
40
35
30
25
20
15
10
5
0
0
10
20
30
40
50
40
Cas des donnes non-centres (suite)
A propos du R
A propos des
degrs de libert
Le coefficient de dtermination R na plus de sens parce que : SCT SCE + SCR
Ca ne sert rien de le calculer
Un seul paramtre a estim partir des donnes ddl = n - 1
2 =
a =
2
SCR
n 1
Estimateur sans biais de la variance de lerreur
(x )
Variance de la pente estime
a a
(n 1)
a
A propos des
performances
Sert pour les intervalles de confiance
Pour les tests de significativit
Pour les autres tests
SCR (modle avec constante) SCR (modle sans constante)
Pourquoi sembter avec un modle sans constante alors ???
Pour les possibilits dinterprtations
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
41
Cas des donnes non-centres Un exemple
Comparaison des salaires lintrieur des mnages
Numero
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
[Link] [Link]
7.43
7.20
6.83
7.06
6.97
7.10
7.85
7.39
7.48
6.97
7.86
7.50
7.44
7.16
7.83
7.77
7.36
7.78
7.28
7.47
7.53
7.51
8.40
8.07
7.48
7.25
7.46
6.79
7.33
7.14
7.80
7.38
7.57
7.53
6.02
6.03
7.28
7.05
8.42
8.01
7.42
7.25
7.47
7.59
7.14
7.20
7.29
6.93
8.28
7.85
6.98
7.29
8.03
7.94
7.69
7.11
6.67
6.76
7.92
7.72
En termes de rgression linaire simple (Y : Sal.H ; X : Sal.F)
yi = a xi + i
Test dhypothses
(Attention : test unilatral ) !
a^
sigma(a)
0
1.021323921
#N/A
0.006821202
0.998708093 0.27418841
22418.42983
29 ddl
1685.401501 2.18019923
a^-1
0.021323921
t calcul
3.126123666
t-thorique (95%)
1.699126996
Conclusion
Rejet de H0
En moyenne, lhomme a-t-il un salaire plus
lev que sa conjointe dans les mnages
(lorsque les deux sont salaris ?)
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
H 0 : a = 1
H1 : a > 1
t =
a 1 1 . 0213 1
=
a
0 . 00682
t = 3 . 126 > t 1 ( n 1 ) = t 0 . 95 ( 29 ) = 1 . 699
42
Bibliographique
R. Bourbonnais, conomtrie , Dunod, 1998.
[Link], [Link], Analyse de rgression applique , Dunod, 2004.
M. Tenenhaus, Statistique : Mthodes pour dcrire, expliquer et
prvoir , Dunod, 2007.
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
43