100% ont trouvé ce document utile (1 vote)

1K vues43 pages

Regression Lineaire Simple

Ce document décrit la régression linéaire simple, y compris la prédiction d'une variable quantitative à partir d'une autre variable, l'estimation des paramètres du modèle par la méthode des moindres carrés ordinaires, et l'analyse de la qualité du modèle.

Transféré par

Sanaâ Merbouh

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (1 vote)

1K vues43 pages

Regression Lineaire Simple

Transféré par

Sanaâ Merbouh

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Prdire / expliquer les valeurs dune variable

quantitative Y partir dune autre variable X

Ricco Rakotomalala
[Link]@[Link]

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Position du problme

Exemple de rgression simple (Bourbonnais, page 12)

Expliquer le rendement de mas Y (en quintal) partir de la quantit
d'engrais utilis (en kilo) sur des parcelles de terrain similaires.
Variable prdire
Attribut classe
Variable endogne
Quantitative

Identifiant
(Pas utilis pour les calculs, mais peut
tre utilis pour les commentaires :
points atypiques, etc.)

Modle de rgression simple :

N de parcelle
1
2
3
4
5
6
7
8
9
10

Variables prdictive
Descripteur
Variable exogne
Quantitative ou binaire
Y

16
18
23
24
28
29
26
31
32
34

20
24
28
22
32
28
32
36
41
41

yi = a xi + b + i

Nous disposons donc dun chantillon de n couples de points (xi,yi) i.i.d (indpendants et identiquement
distribus), et on veut expliquer (prdire) les valeurs de Y en fonction des valeurs prises par X.
Le terme alatoire permet de rsumer toute linformation qui nest pas prise en compte dans la
relation linaire entre Y et X (problmes de spcifications, approximation de la linarit, rsumer les
variables qui sont absentes, etc.)
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

Hypothses
Permettent de dterminer les proprits des estimateurs
Et de mettre en place les outils de statistique infrentielle (tests dhypothses, intervalle de confiance)

H1 : Hypothses sur X et Y. Ce sont des grandeurs numriques mesures sans erreur. X est une donne
(exogne) dans le modle, Y est alatoire par lintermdiaire de (c.--d. la seule erreur que lon a sur Y
provient des insuffisances de X expliquer ses valeurs dans le modle).
H2 : Hypothses sur le terme alatoire . Les i sont i.i.d. (indpendants et identiquement distribus)

(H2.a) En moyenne les erreurs sannulent, le modle est bien spcifi

E ( i ) = 0

(H2.b) La variance de lerreur est constante et ne dpend pas de lobservation : homoscdasticit

(H2.c) En particulier, lerreur est indpendante de la variable exogne

V ( i ) = 2

COV ( xi , i ) = 0

(H2.d) Indpendance des erreurs, les erreurs relatives 2 observations sont indpendantes (on dit aussi que
les erreurs ne sont pas corrles )
(H2.e) Loi normale

COV ( i , j ) = 0

i N (0, )

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Estimateur des MCO (Moindres carrs ordinaires)

Critre numrique
Critre des moindres carrs : trouver les valeurs de a et b qui
minimise la somme des carrs des carts entre les vraies valeurs

yi
a xi + b

de Y et les valeurs prdites avec le modle de prdiction.

S =

i =1

S =

2
i

[y
i =1

S =

SOLUTION

S
a = 0

S = 0
b

( ax i + b )] 2

ax i b ] 2

[y
i =1

xi y i a xi 2 bx = 0

i
i

y ax b = 0

( yi y )(xi x )

a = i

i (xi x )

b = y ax

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Remarque : Pourquoi
pas la somme des
erreurs ? Ou la somme
des carts absolus ?

Equations normales

Estimateurs des moindres carrs

Voir dtail des calculs

Exemple des rendements agricoles

Y
1
2
3
4
5
6
7
8
9
10
Moyenne

(Y-YB)

X
16
18
23
24
28
29
26
31
32
34
26.1

20
24
28
22
32
28
32
36
41
41
30.4

(X-XB)
-10.1
-8.1
-3.1
-2.1
1.9
2.9
-0.1
4.9
5.9
7.9

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
Somme

(Y-YB)(X-XB) (X-XB)^2
105.04
108.160
51.84
40.960
7.44
5.760
17.64
70.560
3.04
2.560
-6.96
5.760
-0.16
2.560
27.44
31.360
62.54
112.360
83.74
112.360
351.6
492.4

351.6

= 0.714
a =
492.4

b = 26.1 0.714 30.4 = 4.39

y = 0.7141x + 4.3928

33
31
29
27
25
23
21
19
17
15
15

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Quelques commentaires

Autre criture de la pente a

a =

Erreur et rsidus : erreur =

dfinie dans la spcification du
modle ; rsidus , erreurs
observes sur les donnes

C O V ( X , Y )

=
r
X2

Relation entre la pente et le

coefficient de corrlation
linaire !!!

Y
X

y i = y ( x i )

i = yi y i

= a x i + b

Rsidus de la rgression

Pour la rgression
avec constante !

Voir dtail des calculs

Centre de gravit du nuage de

points : la droite de rgression
passe forcment par le
barycentre du nuage de points.

y ( x ) = ax + b
= ax + ( y ax )
=y

35
33y

= 0.7141x + 4.3928

31
29
27
25
23
21
19
17
15

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Equation danalyse de variance

Dcomposition de la variance

Objectif de la rgression : minimiser S.

Mais 0 S + ; partir de quand peut-on dire que
la rgression est de bonne qualit ?

S = ( y i y i )

i =1

y ) = ( y i y i + y i y )
2

Somme des carts la moyenne

= ( y i y i ) + ( y i y ) + 2 ( y i y i )( y i y )
2

=0
Voir dtail des calculs

2
2
2

(
y

y
)
=
(
y

y
)
+
(
y

y
)
i
i i i

Dcomposition
de la variance

SCT = SCR + SCE

SCT : somme des carrs totaux

SCE : somme des carrs expliqus par le modle
SCR : somme des carrs rsiduels, non expliqus par le modle
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

Coefficient de dtermination
Et coefficient de corrlation linaire multiple

Coefficient de dtermination.
Exprime la part de variabilit de Y explique par le modle.
R 1, le modle est excellent
R 0, le modle ne sert rien

( y
SCE
=
=
SCT ( y

R2 = 1
R2 = 1

SCR
SCT
2
( yi yi )
i

Coefficient de corrlation
linaire multiple R

On montre que

R = R2

rY , X = sgn(a ) R
Lien entre le coefficient de corrlation linaire (de Pearson) et le coefficient de
corrlation linaire multiple de la rgression linaire simple

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Exemple des rendements agricoles

y i = axi + b

i = yi y i

= 0.714 xi + 4.39
Y
1
2
3
4
5
6
7
8
9
10
Moyenne

(Y-YB)

X
16
18
23
24
28
29
26
31
32
34
26.1

20
24
28
22
32
28
32
36
41
41
30.4

(X-XB)
-10.1
-8.1
-3.1
-2.1
1.9
2.9
-0.1
4.9
5.9
7.9

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
Somme

(Y-YB)(X-XB) (X-XB)^2
(Y-YB)^2
Y^
105.04
108.160
102.010
51.84
40.960
65.610
7.44
5.760
9.610
17.64
70.560
4.410
3.04
2.560
3.610
-6.96
5.760
8.410
-0.16
2.560
0.010
27.44
31.360
24.010
62.54
112.360
34.810
83.74
112.360
62.410
351.6
492.4
314.9
SCT
ESTIMATION
a
0.714053615
b
4.392770106

18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669

Rsidus
Rsidus^2
-2.674
7.149
-3.530
12.461
-1.386
1.922
3.898
15.195
0.758
0.574
4.614
21.286
-1.242
1.544
0.901
0.812
-1.669
2.785
0.331
0.110
Somme
63.838749
SCR

SCE = SCT - SCR 251.061251

R 0.79727295
R 0.89290142

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Biais

Les estimateurs sont sans biais si

Etape 1 : Exprimer en fonction de a

E [a ] = a
E b = b

[]

= a + i i
i

Voir dtail des calculs

Etape 2 : Dterminer E() en fonction de a

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

i =

(xi x )

E ( ) = a + E i i
i

E ( ) = a + i E ( i )
Etape 3 : Identifier sous quelles
conditions E() = a

E ( ) = a

X nest pas alatoire par

hypothse, donc i ne lest pas
E(i) = E() ; les i sont i.i.d.
E() = 0 par hypothse

Biais (suite)

Pour b

b = b + (a a )x
Avec les mmes hypothses, on aboutit

()

E b = b

Conclusion : Les EMCO (estimateurs des moindres

carrs ordinaires) sont sans biais, si
Les X ne sont pas stochastiques (non alatoires)
E() = 0 c.--d. le modle est bien spcifi

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Variance

V (a ) = E[(a a ) ]
2

puisque

= E i i

i

= E i2 i2 + 2 ii ' i i '
i <i '

i
= i2 E i2 + 2 ii ' E ( i i ' )
2

( )

Homoscdasticit

avec

(xi x )

i <i '

V ( i ) = E i2 = 2

i =

= a + i i

E ( i i ' ) = 0
Non-autocorrlation des rsidus

V (a ) =

2
(
)
x

x
i
i

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Convergence

V (a ) =

2
(
)
x

x
i
i

est convergent

De mme, pour b

Est une valeur qui ne dpend pas des effectifs (variance de lerreur
thorique)

2
(
)
x

x
n
+
i
+
i

V (a ) n
0
+

2
x
1

V b = 2 +
n (xi x )2

()

V b n
0
+

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Caractrisation graphique
o

o
o
o
o

(1)
o o
o

( )

E i =
2

o o
o

( )

E i =
2

est faible
V (a )

est lev

V (a ) est moyennement leve

Cette lvation est compense par
(xi x )2

la valeur leve de
i

est faible, modle stable

Les estimateurs sont dautant plus prcis que :

o
o
oo oo
o
ooo
oo

(2)

( )

E i =
2

(x x )

est faible
est faible

(1) La variance de lerreur est faible (la droite de

rgression passe bien au milieu des points.
(2) La dispersion des X est forte (les X couvrent
bien lespace de reprsentation)
V (a )

Ladjonction dun point suppl mentaire dans la rgression fait bouger la droite
Le mod le est instable galeme nt

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Thorme de GAUSS-MARKOV

Les EMCO de la rgression sont sans biais et convergents.

Parmi les estimateurs sans biais, ils sont variance minimale c.--d. il est
impossible de trouver un autre estimateur sans biais plus petite variance

On dit quils sont BLUE (best linear unbiased estimator)

Ce sont des estimateurs efficaces

Cf. dmonstration C. Labrousse (1983), page 26

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Estimation de la variance de lerreur

Joue un rle trs important. Comment lestimer partir des donnes ?

Le rsidu est tel que

On montre que
Giraud & Chaix (1994), page 31

On en dduit un
estimateur sans biais

i = yi y i = axi + b + i axi + b

( )

= i (a a )xi b b

E i2 = (n 2 ) 2
i

2 =

2
i

SCR
n2

Parce 2 contraintes avec les

quations normale
Remarque : A propos du degr
de libert (n-2)

xi i = 0
i

i = 0
i

Parce que (simplement), on estim 2 paramtres a et b

dans le modle pour obtenir les prdictions, et donc les rsidus
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

Rendements agricoles

(X-XB)
Y
X (Y-YB)
1
16
20
-10.1
2
18
24
-8.1
3
23
28
-3.1
4
24
22
-2.1
5
28
32
1.9
6
29
28
2.9
7
26
32
-0.1
8
31
36
4.9
9
32
41
5.9
10
34
41
7.9
Somme
Moyenne 26.1 30.4

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6

(Y-YB)(X-XB)
105.04
51.84
7.44
17.64
3.04
-6.96
-0.16
27.44
62.54
83.74
351.6

(X-XB)^2 (Y-YB)^2
Y^
108.160
102.010
40.960
65.610
5.760
9.610
70.560
4.410
2.560
3.610
5.760
8.410
2.560
0.010
31.360
24.010
112.360
34.810
112.360
62.410
492.4
314.9
SCT

Rsidus
18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669

-2.674
-3.530
-1.386
3.898
0.758
4.614
-1.242
0.901
-1.669
0.331
Somme

Rsidus^2
7.149
12.461
1.922
15.195
0.574
21.286
1.544
0.812
2.785
0.110
63.83874898
SCR

sigma(epsilon) 7.979843623
ESTIMATION
a
0.714053615
b
4.392770106

V (a ) = =
2
a

(x x )

sigma(a^) 0.01620602
sigma(b^) 15.7749386

SCR (n 2 )
492.4

sigma(a^) 0.127302862
sigma(b^) 3.971767696

a = a2 = 0.0162 = 0.127

7.9798
= 0.0162
492.4

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Distribution de Variance de lerreur connue

( y y )(x x )
a =
(x x )
i

X est non alatoire

Y lest par lentremise de

N (0, )

a a

Et est issue dune

combinaison linaire de Y

N (0,1)

Distribution de lestimation de la variance de lerreur

a =
2

2
(xi x )
i

Par hypothse

N (0, )

a =
2

2
(xi x )

on a besoin de connatre la distribution de

Le rsidu tant une ralisation de ,

elle suit aussi une loi normale

i
N (0,1)

2
i

i
= i 2 2 (n 2 )

(n 2) 2 2 (n 2)
2

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Distribution de Variance de lerreur estime

On vrifie
facilement

On en dduit
ds lors que

a 2
2
(n 2) 2 = (n 2) 2
a

a a
(n 2 )
a

a 2
(n 2) 2 2 (n 2)
a

De la mme
manire, on
montre

b b
(n 2)
b

Intervalle de confiance au niveau (1 - )

A partir de ces
lments, on peut
mettre en place
linfrence statistique

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Tests dhypothses au risque

Avec, en particulier le test de

significativit (mesurer limpact
de X dans lexplication de Y via le
modle)

[a t

1 2

H 0 : a = a0

H 1 : a a0

H 0 : a = 0

H1 : a 0

Rendements agricoles Tests de significativit des coefficients

(X-XB)
Y
X (Y-YB)
1
16
20
-10.1
2
18
24
-8.1
3
23
28
-3.1
4
24
22
-2.1
5
28
32
1.9
6
29
28
2.9
7
26
32
-0.1
8
31
36
4.9
9
32
41
5.9
10
34
41
7.9
Somme
Moyenne 26.1 30.4

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6

(Y-YB)(X-XB)
105.04
51.84
7.44
17.64
3.04
-6.96
-0.16
27.44
62.54
83.74
351.6

(X-XB)^2 (Y-YB)^2
Y^
108.160
102.010
40.960
65.610
5.760
9.610
70.560
4.410
2.560
3.610
5.760
8.410
2.560
0.010
31.360
24.010
112.360
34.810
112.360
62.410
492.4
314.9
SCT

ESTIMATION
a
0.714053615
b
4.392770106

Rsidus

7.149
12.461
1.922
15.195
0.574
21.286
1.544
0.812
2.785
0.110
63.83874898
SCR

sigma(epsilon)

7.979843623

0.016206019
15.77493863

sigma(a^)
sigma(b^)

0.127302862
3.971767696

ddl

t thorique (bilatral 5%)

2.306004133

Somme

t(a^)
t(b^)

t a =

a 0.714
=
= 5.609
a 0.127

t1 / 2 (8) = t10.05 / 2 (8) = t0.975 (8) = 2.306

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Rsidus^2
-2.674
-3.530
-1.386
3.898
0.758
4.614
-1.242
0.901
-1.669
0.331

sigma(a^)
sigma(b^)

18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669

Puisque

5.609093169
rejet H0
1.10599875 acceptation H0

t a > t1 2
Rejet de H0 : a = 0
25

Test de significativit globale du modle

H0 : Le modle namne rien dans lexplication de Y

H1 : Le modle est pertinent (globalement significatif)

Tableau danalyse
de variance

Statistique de test

Rgion critique au
risque

SCE
F = 1 F (1, n 2)
SCR
n2

Remarque : Ecriture de F partir du R

R2
1 R2
(n 2)

F > F1 (1, n 2)
Remarque : Tester la significativit de la
rgression et tester la significativit de la pente
sont quivalents dans la rgression simple.

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Rendements agricoles Tests de significativit globale

(X-XB)
Y
X (Y-YB)
1
16
20
-10.1
2
18
24
-8.1
3
23
28
-3.1
4
24
22
-2.1
5
28
32
1.9
6
29
28
2.9
7
26
32
-0.1
8
31
36
4.9
9
32
41
5.9
10
34
41
7.9
Somme
Moyenne 26.1 30.4

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6

(Y-YB)(X-XB)
105.04
51.84
7.44
17.64
3.04
-6.96
-0.16
27.44
62.54
83.74
351.6

(X-XB)^2 (Y-YB)^2
108.160
40.960
5.760
70.560
2.560
5.760
2.560
31.360
112.360
112.360
492.4

Y^
102.010
65.610
9.610
4.410
3.610
8.410
0.010
24.010
34.810
62.410
314.9

Rsidus
18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669

Rsidus^2
-2.674
-3.530
-1.386
3.898
0.758
4.614
-1.242
0.901
-1.669
0.331

Somme

SCT
Tableau d'analyse de variance
Source de variation
SC
DDL
Expliqus (Rgression)
251.061251
Rsidus
63.83874898
Total
314.9

ESTIMATION
a
0.714053615
b
4.392770106

SCE
251.06
F= 1 =
= 31.4619
SCR 7.9798
n2

Puisque

F1 (1, 8) = F0.95 (1, 8) = 5.37655

quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

F calcul

31.46192618

DDL1
DDL2
F thorique ( 5%)

1
8
5.317655063

F > F1

1
8
9

7.149
12.461
1.922
15.195
0.574
21.286
1.544
0.812
2.785
0.110
63.83874898
SCR

CM
251.061251
7.979843623

rejet de H0

Rejet de H0 c.--d. on conclut que le

modle est globalement significatif

Remarque :

F = 31.4619 = 5.609 = t a

Rendements agricoles La fonction DROITEREG dEXCEL

X
16
18
23
24
28
29
26
31
32
34

20
24
28
22
32
28
32
36
41
41

DROITEREG

a 0.71405361 4.392770106 b
b
a 0.12730286 3.971767696
2.8248617
R 2 0.79727295
8 n2
F 31.4619262
SCE 251.061251 63.83874898 SCR
Intervalle
t thorique
Borne basse
Borne haute

de confiance 5%
2.30600413 2.306004133
0.42049269 -4.76614262
1.00761454 13.55168283

Test de significativit des coefficients

5.60909317 1.10599875
t de Student
p-value
0.00050487 0.30087418
Test de la rgression globale
F-calcul
31.4619262
DDL numrateur
1
DDL dnominateur
8
p-value
0.00050487
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Prvision ponctuelle

A prdire dune valeur connue de X, prdire la valeur de Y

Pour un individu i*, la

prdiction ponctuelle scrit

y i* = y ( xi* ) = axi* + b

La prdiction est sans biais c.--d.

E ( y i* ) = yi*

En effet,

i* = y i* yi*
= axi* + b (axi* + b + i* )
= (a a )x + b b
i*

( )

( ) ]
( )

E (i* ) = E (a a )xi* + b b i*
= x E (a a ) + E b b E (
i*

0
Les EMCO sont sans biais

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

0
Lerreur du modle est
nulle par hypothse

Prvision par intervalle

Variance de lerreur de prvision

Puisque

i* = y i* yi*
E (i* ) = 0

2
(

)
x
x
1

i*
= 2i*
V (i* ) = E i2* = 2 1 + +
2
n (xi x )

( )

On montre
Giraud & Chaix (1994), page 30

Remarque :
Do la variance estime
de lerreur de prvision

2
(xi* x )
1
= 2 1 + +
n ( xi x )2

(xi* x )
1
hi* = +
n ( xi x )2
2

est le LEVIER de lobservation i*

(Il joue un rle trs important dans la
rgression. Cf. points atypiques).

SCR
n2

(1) 2 =
La variance de
lerreur sera dautant
plus faible que :

2
(2) ( xi* x )

(3)

est petit c.--d. la droite ajuste bien le nuage de points .

est petit c.--d. le point est proche du centre de gravit du nuage.

(x x )

est grand c.--d. la dispersion des points est grande.

(4) n

est grand c.--d. le nombre dobservations ayant servi la construction du modle est lev.

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Prvision par intervalle

Distribution Dfinition de lintervalle

Puisque

i* = y i* yi* N 0, 1 + hi*

N (0, )

(n 2) 2 2 (n 2)
2

y i* yi*
(n 2 )
i*

y i* t1 2 i*

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Rapport dune loi normale avec un KHI-2 normalis

Intervalle de confiance au niveau (1-)

Rendements agricoles x* = 38
Y
1
2
3
4
5
6
7
8
9
10
Moyenne

(Y-YB)

X
16
18
23
24
28
29
26
31
32
34
26.1

20
24
28
22
32
28
32
36
41
41
30.4

(X-XB)
-10.1
-8.1
-3.1
-2.1
1.9
2.9
-0.1
4.9
5.9
7.9

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
Somme

Prdiction ponctuelle

(Y-YB)(X-XB) (X-XB)^2
Y^
105.04
108.160
51.84
40.960
7.44
5.760
17.64
70.560
3.04
2.560
-6.96
5.760
-0.16
2.560
27.44
31.360
62.54
112.360
83.74
112.360
351.6
492.4

Variance de lerreur de prdiction

2
xi* x )
(
1
2
2
= 1 + +
n (xi x )2

i
i*

1 57.76
= 7.9798 1 + +

10 492.4
= 9.71389

Rsidus
-2.674
-3.530
-1.386
3.898
0.758
4.614
-1.242
0.901
-1.669
0.331

Rsidus^2
7.149
12.461
1.922
15.195
0.574
21.286
1.544
0.812
2.785
0.110
63.838749

sigma(erreur)

7.97984362

18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669
Somme

y i* = axi* + b
= 0.714 38 + 4.39
= 31.5268
ESTIMATION
a
b

0.714053615
4.392770106

x*
y^

38
31.52680747

(x*-xb)^2

57.76

sigma(epsilon^)

9.71389

t (0.975)

2.306004133

[Link]
[Link]

24.33965896
38.71395598

Intervalle de prdiction pour x* = 38

y = 0.7141x + 4.3928

b.b. = 31.5298 2.306 9.71389 = 24.3397

b.h. = 31.5298 + 2.306 9.71389 = 38.7140

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Modle linaire
Lecture de la pente

Y = aX + b

Ex. ventes = -12 * prix + 1000

Lecture en niveau : si prix = 10 euros alors
ventes = 980 units
Lecture en termes dvolution : si prix
augmente de 1 euro , les ventes vont
diminuer de 12 units.

35
30
25
Y

Linaire

15
10

a = 3; b = 5

5
0
0

La variation de Y est proportionnelle la variation de X

Avantages
Simplicit
Utilis dans une premire approche
Estimation directe des paramtres par la mthode des MCO

dy
a=
dx

Y = bX

Modle log-linaire

6000

Log-linaire
5000

4000

3000

2000

1000

a = 3; b = 5

dy
a=

y
dx

Le taux de variation de Y est proportionnelle au taux de variation de X

Avantages
Modle lasticit constante : favori des conomistes
Ex. emploi = f(production), demande = f(prix)
Linarisation : ln(y) = a ln(x) + ln(b)

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Modle exponentiel
(gomtrique)

Y =e

180000

aX + b

160000

Exponentiel

140000
120000
100000

80000
60000
40000
20000
0

a =8 0.7; 10
b = 5 12

6
X

dy
y
a=
dx

Le taux de variation de Y est proportionnelle la variation de X

Avantages
Surtout utilis quand x = temps, ainsi dx= 1
Dans ce cas, la croissance (dcroissance) de Y est constante dans le temps
Ce type dvolution (croissance exponentielle) ne dure pas longtemps
Linarisation : ln(y) = a x + ln(b)

Modle logarithmique

Y = a ln( X ) + b

Logarithmique
10

a = 2; b = 5

dy
a=
dx
x

La variation de Y est proportionnelle au taux de variation de X

Avantages
Archtype de la croissance (dcroissance) qui spuise
Ex. salaire = f(anciennet) ; vente = f(publicit)

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Un modle particulier
Le modle logistique

3) Un modle particulier : le modle logistique

Problme :
Tous les modles dans (2) ont une concavit constante
(drive seconde de signe constant), on peut avoir besoin
d un modle plusieurs phases
ex : lancement d un produit dans le temps
Dcollage
produit inconnu
positionnement sur le
march

Equation

Linarisation
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

Croissance acclre
large diffusion

y = ymin +

ln(

Freinage
saturation du march
concurrence

ymax ymin
1 + e ax + b

ymax y
) = a x+b
y ymin

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Cas des donnes centres

Lorsque les donnes
sont centres

La constante est nulle

par construction

y i = yi y
o
x i = xi x
o

b = y a x = 0

Moyenne

Parce que le barycentre du nuage de

points est lorigine du repre c.--d.

(Y-YB)

X
16
18
23
24
28
29
26
31
32
34
26.1

20
24
28
22
32
28
32
36
41
41
30.4

y=x=0

(X-XB)
-10.1
-8.1
-3.1
-2.1
1.9
2.9
-0.1
4.9
5.9
7.9

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6

y = 0.7141x - 2E-15
R = 0.7973

5
0

-15

-10

-5

-5
-10
-15

La droite passe forcment par le barycentre,

qui se trouve tre lorigine (0, 0) du repre.

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Cas des donnes non-centres

yi = a xi + i

b = 0 on force le modle passer par

lorigine (0,0) du repre

On veut minimiser

Une quation normale

Estimation de la pente

2
S = = ( yi a xi )

S
=0
a

x y
a =
x

2
i

X
16
18
23
24
28
29
26
31
32
34

20
24
28
22
32
28
32
36
41
41
0
50

Y^.1
18.6738424
21.5300569
24.3862713
20.1019496
27.2424858
24.3862713
27.2424858
30.0987002
33.6689683
33.6689683
4.39277011
40.0954509

Y^.2
17.0248613
20.4298336
23.8348058
18.7273474
27.2397781
23.8348058
27.2397781
30.6447504
34.9009657
34.9009657
0
42.5621533

Rg.1 - Avec constante

0.71405361 4.39277011
a
b
Rg.2 - Sans constante
0.85124307
a

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

45
40
35
30
25
20
15
10
5
0
0

Cas des donnes non-centres (suite)

A propos du R

A propos des
degrs de libert

Le coefficient de dtermination R na plus de sens parce que : SCT SCE + SCR

Ca ne sert rien de le calculer

Un seul paramtre a estim partir des donnes ddl = n - 1

2 =
a =
2

SCR
n 1

Estimateur sans biais de la variance de lerreur

(x )

Variance de la pente estime

a a
(n 1)
a

A propos des
performances

Sert pour les intervalles de confiance

Pour les tests de significativit
Pour les autres tests

SCR (modle avec constante) SCR (modle sans constante)

Pourquoi sembter avec un modle sans constante alors ???
Pour les possibilits dinterprtations

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Cas des donnes non-centres Un exemple

Comparaison des salaires lintrieur des mnages
Numero
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

[Link] [Link]
7.43
7.20
6.83
7.06
6.97
7.10
7.85
7.39
7.48
6.97
7.86
7.50
7.44
7.16
7.83
7.77
7.36
7.78
7.28
7.47
7.53
7.51
8.40
8.07
7.48
7.25
7.46
6.79
7.33
7.14
7.80
7.38
7.57
7.53
6.02
6.03
7.28
7.05
8.42
8.01
7.42
7.25
7.47
7.59
7.14
7.20
7.29
6.93
8.28
7.85
6.98
7.29
8.03
7.94
7.69
7.11
6.67
6.76
7.92
7.72

En termes de rgression linaire simple (Y : Sal.H ; X : Sal.F)

yi = a xi + i

Test dhypothses
(Attention : test unilatral ) !

a^
sigma(a)

0
1.021323921
#N/A
0.006821202
0.998708093 0.27418841
22418.42983
29 ddl
1685.401501 2.18019923

a^-1

0.021323921

t calcul

3.126123666

t-thorique (95%)

1.699126996

Conclusion

Rejet de H0

En moyenne, lhomme a-t-il un salaire plus

lev que sa conjointe dans les mnages
(lorsque les deux sont salaris ?)
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

H 0 : a = 1

H1 : a > 1

t =

a 1 1 . 0213 1
=
a
0 . 00682

t = 3 . 126 > t 1 ( n 1 ) = t 0 . 95 ( 29 ) = 1 . 699

Bibliographique

R. Bourbonnais, conomtrie , Dunod, 1998.

[Link], [Link], Analyse de rgression applique , Dunod, 2004.
M. Tenenhaus, Statistique : Mthodes pour dcrire, expliquer et

prvoir , Dunod, 2007.

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC

Vous aimerez peut-être aussi

Regression Lineaire Multiple
Pas encore d'évaluation
Regression Lineaire Multiple
35 pages
Cahier d'Exercices en Économétrie
100% (2)
Cahier d'Exercices en Économétrie
24 pages
Cours m1 Econometrie Appliquee Slide34
100% (2)
Cours m1 Econometrie Appliquee Slide34
60 pages
Regression Simple
Pas encore d'évaluation
Regression Simple
55 pages
Cours d'Économétrie : Modèles Linéaires
Pas encore d'évaluation
Cours d'Économétrie : Modèles Linéaires
31 pages
TD Probabilité 2
100% (3)
TD Probabilité 2
3 pages
Echantillonnage Et Estimation
Pas encore d'évaluation
Echantillonnage Et Estimation
48 pages
Chap1 Cours Économétrie
100% (1)
Chap1 Cours Économétrie
33 pages
TD2 - Modèle de Régression Linéaire Et Multiple
Pas encore d'évaluation
TD2 - Modèle de Régression Linéaire Et Multiple
8 pages
Régression Linéaire Simple et Multiple : Cours et Estimations
Pas encore d'évaluation
Régression Linéaire Simple et Multiple : Cours et Estimations
58 pages
Series Chronologique
50% (2)
Series Chronologique
53 pages
Analyse de la régression linéaire
Pas encore d'évaluation
Analyse de la régression linéaire
31 pages
Chapitre - 3 - Régression Multiple
Pas encore d'évaluation
Chapitre - 3 - Régression Multiple
27 pages
Introduction à la régression linéaire simple
Pas encore d'évaluation
Introduction à la régression linéaire simple
8 pages
Cours d'économétrie : Régression et données
Pas encore d'évaluation
Cours d'économétrie : Régression et données
34 pages
Exercices Régression Simple PDF
Pas encore d'évaluation
Exercices Régression Simple PDF
23 pages
Rapport-Logiciel R
Pas encore d'évaluation
Rapport-Logiciel R
21 pages
Exercices de régression linéaire multiple
Pas encore d'évaluation
Exercices de régression linéaire multiple
15 pages
Exercice D'économetrie LILIAN
Pas encore d'évaluation
Exercice D'économetrie LILIAN
9 pages
DocS4 Echantillonnage Estimation
Pas encore d'évaluation
DocS4 Echantillonnage Estimation
10 pages
Exemple de régression linéaire
100% (2)
Exemple de régression linéaire
3 pages
Régression Linéaire Simple: Concepts et Applications
Pas encore d'évaluation
Régression Linéaire Simple: Concepts et Applications
32 pages
Cours AFC
Pas encore d'évaluation
Cours AFC
27 pages
Mathf 207 Seance 5 Corr
Pas encore d'évaluation
Mathf 207 Seance 5 Corr
9 pages
Estimation Par Intervalle de Confiance
Pas encore d'évaluation
Estimation Par Intervalle de Confiance
5 pages
Modèle de Régression Linéaire Multiple
Pas encore d'évaluation
Modèle de Régression Linéaire Multiple
62 pages
Theorie Tests
Pas encore d'évaluation
Theorie Tests
17 pages
TD 2 Estimation
100% (1)
TD 2 Estimation
2 pages
Comprendre les variables qualitatives
100% (1)
Comprendre les variables qualitatives
12 pages
TP - Acp - Voiture Avec Correction
Pas encore d'évaluation
TP - Acp - Voiture Avec Correction
11 pages
Optimisation de Modèles Économétriques
100% (1)
Optimisation de Modèles Économétriques
18 pages
Analyse Régression et Modèles Économétriques
Pas encore d'évaluation
Analyse Régression et Modèles Économétriques
6 pages
Chapitre 3 Hétéroscedasticite Des Erreurs
Pas encore d'évaluation
Chapitre 3 Hétéroscedasticite Des Erreurs
7 pages
Introduction À L'économétrie de Données de Panel 24-01-2024
Pas encore d'évaluation
Introduction À L'économétrie de Données de Panel 24-01-2024
29 pages
Analyse Des Correspondances Multiples-2012-2 Cle838d4f
100% (3)
Analyse Des Correspondances Multiples-2012-2 Cle838d4f
33 pages
Chapitre 2 Le Modèle de Régression Linéaire Multiple
Pas encore d'évaluation
Chapitre 2 Le Modèle de Régression Linéaire Multiple
13 pages
Corrélations et propriétés des MCO
Pas encore d'évaluation
Corrélations et propriétés des MCO
11 pages
Analyse Multidimensionnelle des Données
Pas encore d'évaluation
Analyse Multidimensionnelle des Données
114 pages
Régression Linéaire Simple: Concepts et Estimations
Pas encore d'évaluation
Régression Linéaire Simple: Concepts et Estimations
7 pages
Statistique Inférentielle : Échantillonnage et Estimation
Pas encore d'évaluation
Statistique Inférentielle : Échantillonnage et Estimation
15 pages
Multicolinéarité en économétrie expliquée
Pas encore d'évaluation
Multicolinéarité en économétrie expliquée
29 pages
TD AFC Correction
Pas encore d'évaluation
TD AFC Correction
8 pages
Exercices de Régression Linéaire Simple
100% (9)
Exercices de Régression Linéaire Simple
6 pages
Modèles Économétriques et Analyse de la Demande
Pas encore d'évaluation
Modèles Économétriques et Analyse de la Demande
3 pages
Chapitre 4
Pas encore d'évaluation
Chapitre 4
48 pages
Optimisation MCO et Analyse Statistique
Pas encore d'évaluation
Optimisation MCO et Analyse Statistique
6 pages
Cours D'économétrie 2 Seco4
Pas encore d'évaluation
Cours D'économétrie 2 Seco4
52 pages
Poly Son Dage
Pas encore d'évaluation
Poly Son Dage
82 pages
Econométrie Var Quali
Pas encore d'évaluation
Econométrie Var Quali
84 pages
Introduction à Stata pour débutants
100% (1)
Introduction à Stata pour débutants
42 pages
Tests D'hypothèses Paramétriques
Pas encore d'évaluation
Tests D'hypothèses Paramétriques
16 pages
Économétrie : Régression Linéaire Simple
Pas encore d'évaluation
Économétrie : Régression Linéaire Simple
4 pages
TD3 2019
100% (1)
TD3 2019
5 pages
Chapitre4 RLS
Pas encore d'évaluation
Chapitre4 RLS
43 pages
Regression Lineaire Simple12
Pas encore d'évaluation
Regression Lineaire Simple12
36 pages
Introduction à l'Économétrie : Régression Linéaire
0% (1)
Introduction à l'Économétrie : Régression Linéaire
95 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
20 pages
13 Regression Linéaire
Pas encore d'évaluation
13 Regression Linéaire
25 pages
Modele Lineaire Module 1
Pas encore d'évaluation
Modele Lineaire Module 1
55 pages
Régression Linéaire et Moindres Carrés
Pas encore d'évaluation
Régression Linéaire et Moindres Carrés
53 pages
Memoire 5
Pas encore d'évaluation
Memoire 5
278 pages
Le Financement de L Economie
Pas encore d'évaluation
Le Financement de L Economie
8 pages
Expression Ecrite TCF
55% (11)
Expression Ecrite TCF
8 pages
Fiscalité Marocaine : Notions et Réformes
65% (17)
Fiscalité Marocaine : Notions et Réformes
223 pages
Guide Économétrie Matlab
Pas encore d'évaluation
Guide Économétrie Matlab
50 pages
PMF Chapitre 2 2015-02-22
Pas encore d'évaluation
PMF Chapitre 2 2015-02-22
19 pages
L'ouverture Et La Croissance
100% (1)
L'ouverture Et La Croissance
32 pages
Devoir 1 Estimation ISE 2
Pas encore d'évaluation
Devoir 1 Estimation ISE 2
2 pages
Inferene 2
Pas encore d'évaluation
Inferene 2
24 pages
Étude des matrices et fonctions Ecricome 2020
Pas encore d'évaluation
Étude des matrices et fonctions Ecricome 2020
13 pages
Série 2 - Théorie de L'estimation Ponctuelle
Pas encore d'évaluation
Série 2 - Théorie de L'estimation Ponctuelle
5 pages
Le Pseudo-Maximum de Vraisemblance Quasi Généralisé
Pas encore d'évaluation
Le Pseudo-Maximum de Vraisemblance Quasi Généralisé
4 pages
TD
Pas encore d'évaluation
TD
4 pages
TD Fiche1 MTH1423 Avril2025
Pas encore d'évaluation
TD Fiche1 MTH1423 Avril2025
1 page
Examen Econométrie I - Session 2023
100% (1)
Examen Econométrie I - Session 2023
6 pages
Cours de Sondage
Pas encore d'évaluation
Cours de Sondage
49 pages
Pratique Du Maximum de Vraisemblance
100% (1)
Pratique Du Maximum de Vraisemblance
6 pages
MTS 445 : Modélisation Stochastique
Pas encore d'évaluation
MTS 445 : Modélisation Stochastique
75 pages
Regression Linéaire FINAL
Pas encore d'évaluation
Regression Linéaire FINAL
79 pages
Métode Réseau GNSS
Pas encore d'évaluation
Métode Réseau GNSS
8 pages
Roadmap Complète Pour Devenir Data Analyst: Objectif
Pas encore d'évaluation
Roadmap Complète Pour Devenir Data Analyst: Objectif
19 pages
Statistiques Inférentielles
100% (1)
Statistiques Inférentielles
20 pages
Fiche5 TD
Pas encore d'évaluation
Fiche5 TD
3 pages
Estimation Jabrane
Pas encore d'évaluation
Estimation Jabrane
115 pages
Théorie des estimateurs et tests statistiques
100% (1)
Théorie des estimateurs et tests statistiques
16 pages
Renforcement des capacités CMSS Mali
Pas encore d'évaluation
Renforcement des capacités CMSS Mali
37 pages
TD 06 07
Pas encore d'évaluation
TD 06 07
11 pages
Estimateurs Efficaces en Statistique
Pas encore d'évaluation
Estimateurs Efficaces en Statistique
3 pages
Exercices de Statistiques pour Étudiants
Pas encore d'évaluation
Exercices de Statistiques pour Étudiants
14 pages
Chapitre - 3 - Estimation Ponctuele
Pas encore d'évaluation
Chapitre - 3 - Estimation Ponctuele
10 pages
Chapitre 5 - La Prise en Comp Te Des Données Aléatoire
Pas encore d'évaluation
Chapitre 5 - La Prise en Comp Te Des Données Aléatoire
2 pages
Méthode des Variables Instrumentales
Pas encore d'évaluation
Méthode des Variables Instrumentales
41 pages
TD 9
100% (1)
TD 9
2 pages
Théorie Et Pratique Des Sondages
Pas encore d'évaluation
Théorie Et Pratique Des Sondages
79 pages