Ex4: Model liniar de regresie cu două variabile exogene (explicative)
Ne propunem să studiem cum evoluează cheltuielile de consum personal într-o ţară, în ultimii ani.
Se consideră regresia Cheltuielilor de Consum personal în raport cu Venitul personal şi Timpul,
pe o perioadă de 15 ani.
Datele de observaţie se găsesc în fişierul „Date Model Regresie Multipla.xls”.
Utilizăm modelul liniar cu două variabile explicative:
yi = 0 + 1 xi1 + 2 xi 2 + i , i = 1,2,..., n .
Y = Cheltuielile de Consum pe cap de locuitor (în mii lei.)
X1 = Venitul disponibil pe cap de locuitor (în mii lei)
X2 = Timpul (în ani)
1) Pentru modelul de regresie liniară cu doi regresori să se determine matricile:
X , X T (X transpus), X T X şi X T y .
2) Să se estimeze parametrii modelului de regresie şi să se interpreteze valorile obţinute.
Se efectuează calculele în Excel şi se obţin sumele ce vor fi utilizate în formule.
y =29 135, y =1942,333, x1 =31895, x1 =2126,333, x 2 =120, x 2 =8,
x12 =68 922,513, , x 22 =1240, x1 x2 =272 144, x1 y =62 905 821, x 2 y =247 934,
y i =57 420 003, ( xi1 − x1 ) 2 =1 103 111,333, ( xi 2 − x2 ) 2 =280.
2
1 x11 x12
1 1 1
1 x 21 x 22
1) X = X = x11
T
x 21 x n1
x
1 x
12 x 22 x n 2
n1 x n 2
1 x11 x12
1
1 1
1 x 21
n
x 22
xi1 xi 2
X X = x11
T
x 21 x n1 = xi1 xi1 xi1 xi 2
2
x
12 x 22 x n 2
x n 2
xi 2 xi1 xi 2 xi22
1 x n1
1
y
1 1 1 1 y i 29135
y 2
X y = x11
T
x 21 x n1 = xi1 y i X y = 62905821
T
x
12 x 22 x n 2 xi 2 y i 247934
n
y
15 31895 120 37,232491 − 0,0225082 1,336707
−1
X X = 31895 68922513 272144 ( X X ) = − 0,0225082 0,0000137 0,0008319
T T
120 1240 1,336707 0,0008319 0,054034
272144
2) Ecuaţiile normale ale lui Gauss: ( X T X ) ̂ = X T y
300,28625
ˆ = ( X X ) X y ̂ = 0,74198
T −1 T
8,04356
Interpretarea coeficienţilor obţinuţi:
0 = parametrul de interceptare
1 = coeficient de regresie parţial pentru variabila independentă X1.
2 = coeficient de regresie parţial pentru variabila independentă X2.
̂ 1 = 0,7420 este coeficient pantă şi arată că, în perioada analizată, menţinând celelalte variabile
constante, atunci când Venitul (X1) creşte cu o mie lei (o unitate), Cheltuielile de Consum
cresc, în medie, cu 0,74 mii lei.
ˆ 2 = 8,0436 este coeficient pantă şi arată că, în perioada analizată, menţinând celelalte variabile
constante, atunci când Timpul (X2) creşte cu un an, Cheltuielile de Consum cresc, în medie,
cu 8,0436 mii lei.
ˆ
0 = 300,2863 este parametru de interceptare şi arată că, dacă cele două variabile explicative, X 1 şi
X2 au valoarea 0, valoarea medie a cheltuielilor de consum este estimată la circa 300 mii lei.
3) Să se realizeze regresia utilizând Excel.
Se va completa la Confidence Level: 90%
4) Să se estimeze varianţa erorilor aleatoare (variabilelor de perturbaţie)
2
2 = 2 este varianţa erorilor aleatoare. Estimăm 2 prin ˆ 2 .
ei
2
SSE eT e
ˆ 2 = s e2 = = = ,
n − (k + 1) n − (k + 1) n − (k + 1)
unde k = numărul de variabile independente din model.
Se calculează suma pătratelor reziduurilor.
SSE = ( yi − yˆ i ) = ei2 =eT e = y T y − ̂ T X T y =
29135
= 57 420 003 − (300,28 0,74198 8,04356) 62905821
247934
1976,85574
e T e =1976,85574 ˆ 2 = se2 = = 164,7379
15 − 3
se = ˆ = 164,7379 = 12,835 . În Eviews, s e apare ca „Standard Error of regression”.
5) Să se estimeze matricea de covarianţă a estimatorilor parametrilor modelului şi să se
determine abaterile medii pătratice ale estimatorilor parametrilor.
Matricea de covarianţă a vectorului estimatorilor este:
ˆ = Var ( ˆ ) = 2 ( X T X ) −1
Varianţa reziduurilor ˆ 2 = s e2 este un estimator nedeplasat al varianţei 2 a erorilor aleatoare.
Un estimator al matricei de covarianţă a vectorului estimatorilor este:
ˆ ˆ = Vˆar ( ˆ ) = s 2 ( X T X ) −1
e
6133,650 − 3,70794 220,20634
ˆ = − 3,70794 0,00226 − 0,13705
̂
220,20634 − 0,13705 8,90155
Elementele de pe diagonala acestei matrici sunt varianţele estimatorilor ˆ j . Din varianţele
estimatorilor vom obţine abaterile medii pătratice ale estimatorilor parametrilor.
Var(ˆ0 ) = 6133,650 s ˆ = se( ˆ0 ) = 6133,650 = 78,31763
0
Var ( ˆ1 ) = 0,00226 s ˆ = se( ˆ1 ) = 0,00226 = 0,04753
1
Var(ˆ 2 ) = 8,90155 s ˆ = se( ˆ2 ) = 8,90155 = 2,98354
2
6) Să se testeze semnificaţia statistică a parametrilor modelului de regresie
(nivel de semnificaţie = 0,05 ; valoare tabelară: 2,179)
Testarea semnificaţiei statistice a parametrului pantă 1
H 0 : 1 = 0 (parametrul pantă 1 nu este semnificativ statistic)
H 0 : 1 0 (parametrul pantă 1 este semnificativ statistic)
ˆ − 0
Statistica testului este t = 1 care are o distribuţie Student cu (n-3) grade de libertate
se( ˆ1 )
Regiunea critică este: RC : | t calc | t / 2;n−3 iar t crt = t / 2 ; n−3 = t 0,025 ; 12 = 2,179
ˆ − 0 0,74198
t calc = 1 = = 15,61077
se( ˆ1 ) 0,04753
3
Deoarece t calc t / 2 ; n−3 respingem H0 acceptăm H1
parametrul 1 este semnificativ statistic la pragul de semnificaţie de 5%.
Să se determine un interval de încredere 95% pentru 1 .
Un interval de încredere 100(1−)% pentru 1 este de forma
( ˆ1 − t / 2;n−3 s ˆ 1 ˆ1 + t / 2;n−3 s ˆ )
1 1
0,74198 (2,179)(0,04753)
(0,6384 1 0,8455) Obesrvăm că intervalul determinat nu conţine valoarea zero!
Datele pentru toţi coeficienţii pot fi grupate în tabelul următor:
Coefficients Standard Error t Stat Lower 95% Upper 95%
300,28625 78,31763 3,83421
0,74198 0,04753 15,61077 0,6384 0,8455
8,04356 2,98354 2,69598
7) Să de calculeze Coeficientul de determinaţie (R Square), Raportul de corelaţie multiplă (R) şi
Coeficientul de determinaţie ajustat (Adjusted R Square).
SSR SSE
R2 = = 1− .
SST SST
Datele necesare calculării coeficientului de determinare (R2) sunt:
SST = ( y i − y ) = y i2 − ny 2 = y T y − ny 2 =830 121,333
2
SSE = ( yi − yˆ i ) 2 = ei2 = eT e = y T y − ̂ T X T y =1976,855
SSR = SST − SSE = ˆ T X T y − ny 2 =828 144,478
R 2 =0,9976 Rezultă că 99,76% din variaţia Cheltuielilor de consum, în perioada studiată de 15
ani, este explicată prin variaţia celor 2 variabile exogene: Venitul disponibil şi Timpul.
Raportul de corelaţie multiplă: R = R 2 =0,9988
Coeficientul de determinaţie ajustat (Adjusted R Square):
SSE /(n − k − 1)
R 2 = 1− R 2 = 0,9972
SST /(n − 1)
Adjusted R-Squared se utilizează pentru a identifica variabilele independente care au influenţă
asupra lui Y. Dacă în model se introduce o variabilă independentă care are efect explicativ asupra lui
Y, valoarea lui R 2 creşte. Dacă în model se introduce o variabilă independentă care nu are efect
explicativ asupra lui Y, valoarea lui R 2 scade.
8) Să se testeze validitatea modelului de regresie ( = 0,05 ; valoare tabelară: 3,89)
În cazul unui model de regresie linară multiplă tabelul cu Analiza varianţei este:
Sursa de Suma pătratelor Număr grade de Media pătratelor Statistica F
variaţie abaterilor (SS) libertate (MS)
Regresia ˆ
SSR = X y − ny
T T 2 k MSR=SSR/k F=MSR/MSE
Eroarea n − k − 1 MSE=SSE/(n-k-1)
SSE = y T y − ̂ T X T y
Total n −1
SST = y T y − ny 2
Testarea validităţii modelului de regresie:
H 0 : 1 = 2 = 0 (modelul nu este valid statistic)
H 1 : nonH 0 ( () j 0, j = 1,2 ) (modelul este valid statistic)
4
SSR / k ( ˆ T X T y − ny 2 ) / k
F= = T ~ F ;k ,n − k −1
SSE /(n − k − 1) ( y y − ˆ T X T y) /(n − k − 1)
Rc : Fcalc F ;k ,n −k −1 , Ftab = F ;k ,n−k −1 = F0,05;2,12 = 3,89 Fcalc = 2513,52 .
Deoarece Fcalc Ftab respingem H0 acceptăm H1 modelul este valid statistic.
9) Să se previzioneze valoarea medie a variabilei endogene şi apoi o valoare individuală a
acestei variabile, pentru valorile cunoscute ale variabilelor exogene: x1 p = 2610 şi x2 p = 16
A) Predicţia mediei
Se dă vectorul x Tp = (1, x1 p , x2 p )T . Cunoaştem vectorul x p = (1 2610 16) .
T
Dorim să previzionăm E ( y | x p ) = 0 + 1 x1 p + 2 x2 p = x Tp
300,286
Un estimator pentru media E ( y | x p ) = x este yˆ p = x ˆ = (1 2610 16) 0,74198 = 2365,55
T
p
T
p
8,04356
Un interval de încredere 95% pentru media E ( y | x p ) = x Tp este de forma:
yˆ p t / 2 ; n−3 se2 [ x Tp ( X T X ) −1 x p ]
2365,55 (2,179)(6,9744) 2350,35 E ( y | x p ) 2380,75
B) Predicţia unei valori individuale
Cunoaştem vectorul x p = (1 2610 16) . Dorim să previzionăm ( y p | x Tp ) = x Tp
T
Valoarea previzionată este yˆ = x T ˆ = 2365,55
p p
Un interval de încredere 100(1−)% pentru y p este de forma
yˆ p t / 2 ; n−3 se2 [1 + x Tp ( X T X ) −1 x p ]
2365,55 (2,179)(14,6067) 2333,72 y p 2397,38
10) Să se realizeze regresia utilizând Eviews.
În Eviews se vor importa 3 serii de date, cu „Upper-left data cell”: A3. Ecuatia: Y C X1 X2
5
11) Să se testeze ipoteza de homoscedasticitate a erorilor aleatoare.
Reamintim Testul White
Mai întâi se estimează modelul prin MCMMP şi se reţin reziduurile. Testul White implică regresia
pătratelor reziduurilor, ei2 , în funcţie de toate variabilele explicative, de pătratele variabilelor
explicative şi de produsele lor încrucişate. Considerăm modelul: yi = 0 + 1 xi1 + 2 xi 2 + i
Pas1. Estimăm modelul iniţial de regresie prin MCMMP şi reţinem reziduurile e i .
Pas2. Construim o regresie auxiliară:
ei2 = a 0 + a1 xi1 + a 2 xi 2 + a3 xi21 + a 4 xi22 + a5 xi1 xi 2 + u i
(În modelul cu o variabilă explicativă, regresia auxiliară va conţine ca variabile exogene: x şi x 2 ).
Pas3. Estimăm regresia auxiliară prin MCMMP. Obţinem coeficientul de determinaţie multiplă din
regresia auxiliară. Vom nota acest coeficient de determinaţie multiplă prin Ra2 .
Verificăm validitatea regresiei auxiliare (semnificaţia parametrilor modelului auxiliar).
H 0 : a1 = a 2 = a3 = a 4 = a5 = 0 (există homoscedasticitate)
H 1 : () ai 0 (există heteroscedasticitate)
Observatie: Există două variante de aplicare a testului White:
I) Testul bazat pe statistica F şi pe ipoteza H 0 : a1 = a2 = a3 = a4 = a5 = 0
II) Testul bazat pe statistica statistica W = nRa2
Sub ipoteza nulă, că există homoscedasticitate, White a arătat că statistica W = nRa2 urmează
asimptotic o distribuţie 2 cu gradele de libertate date de numărul de regresori din ecuaţia auxiliară.
W = nRa2 ~ 2 , df . În modelul considerat avem df=5.
Pas4. Dacă Wcalc = nRa2 2 ,5 respingem H 0 şi acceptăm H 1 erorile al. sunt heteroscedastice.
Dacă Wcalc = nRa2 2 ,5 acceptăm H 0 erorile al. sunt homoscedastice.
În Eviews, pe EQ01 selectăm:
View → Residual Diagnostics → Heteroskedasticity Tests → White Test
6
Cerinţa poate fi sub forma următoare:
Să se testeze ipoteza de homoscedasticitate a erorilor dacă:
I) Statistica F (White Heteroskedasticity Test) = 8,2428 şi Fcrt (White Heteroskedasticity Test) = 3,48.
II) Statistica Wcalc = nRa2 = 12,3115 si crt
2
= 11,07
Comparăm statisticile cu valorile critice.
Avem Fcalc Ftab si nRa2 2 ,5 respingem H0 si acceptăm H1
Observaţie: Testul White este un test general, pentru modele greşit specificate, deoarece ipoteza
H0 presupune că: erorile sunt homoscedastice şi independente de regresori şi că forma liniară a
modelului este corectă. Dacă acceptăm H0 (nu respingem H0) toate cele 3 condiţii sunt
îndeplinite (niciuna din cele 3 condiţii nu este violată). Dacă una din aceste condiţii nu este
îndeplinită, testul este semnificativ și acceptăm H1.
12) Pe baza seriei reziduurilor să se testeze ipoteza de non-autocorelare a erorilor utilizând
testul Durbin-Watson pentru un nivel de semnificaţie de 5% (d1=0,95 şi d2=1,54)
H 0 : = 0 (nu există Autocorelarea erorilor aleatoare)
H 1 : 0 (există Autocorelare de ordin 1 a erorilor aleatoare).
(e − ei −1 ) 2 ee
n n
DW = d = i =2 i
, DW 2(1 − ˆ ) , ̂ = i = 2n i 2i −1 , 0 DW 4
i =1 i i =1 ei
n 2
e
Dacă 0 DW d1 , seria reziduurilor prezintă Autocorelare de ordinul 1 pozitivă 0 .
Dacă d1 DW d 2 indecizie. Se recomandă acceptarea autocorelării pozitive.
Dacă d 2 DW 4 − d 2 reziduurile sunt independente
Dacă 4 − d 2 DW 4 − d1 indecizie. Se recomandă acceptarea autocorelării negative
Dacă 4 − d1 DW 4 , seria reziduurilor prezintă Autocorelare de ordinul 1 negativă 0 .
7
reg1 reg2 reg 3 reg 4 reg 5
0 0 d1 ?? d2 = 0 4-d2 ?? 4-d1 0 4
0 0,95 1,54 2,46 3,05 4
Dacă DW = 1,75 DW [d 2 ,4 − d 2 ] Nu există Autocorelare.
Dacă DW = 3,22 DW [d 2 ,4 − d 2 ] Există Autocorelare negativă de ordinul 1
Dacă DW = 2,52 DW [4 − d 2 ,4 − d1 ] Indecizie. Acceptăm Autocorelarea negativă.
În Eviews, pentru a verifica existenţa autocorelaţiei de ordin 2, pe EQ01 selectăm:
View → Residual Diagnostics → Serial Correlotion Test → Lag to include: 2 → OK
13) Folosind testul Jarque-Bera, să se testeze ipoteza că reziduurile au distribuţie normală
Acest test calculează mai întâi coeficientul de asimetrie (Skewness) şi coeficientul de boltire
(Kurtosis) pentru reziduurile obţinute.
(S = −0,310053; K = 2,567467 ; =0,05 ; 2 , 2 = 5,99 ).
H0: Reziduurile au distribuţie normală ( S = 0 şi K = 3 )
H1: Reziduurile nu au distribuţie normală
S2 ( K − 3) 2
Statistica testului este JB = n +
6 24
Sub ipoteza nulă, că reziduurile sunt normal distribuite, Jarque şi Bera au arătat că, pentru eşantioane
mari, statistica JB urmează o distribuţie Chi-squared cu două grade de libertate ( 22 ).
8
Calculăm statistica JB. Rezultă JB=0,35726.
Deoarece JB 5,99 deducem că Reziduurile au distribuţie normală.
Folosim Eviews:
Pe meniul ecuaţiei EQ01 selectăm: View→Residual Diagnostics→Histogram-Normality Test
Interpretarea rezultatelor:
Jarque-Bera = 0,357260
Probability = 0,836415
Deoarece Probabilitatea asociată statisticii JB este > 0,05 acceptăm H0.
Reziduurile au distribuţie normală.