0% encontró este documento útil (0 votos)
196 vistas21 páginas

Análisis de Regresión Múltiple en Ventas de Autos

Este documento presenta un análisis de regresión múltiple utilizando datos sobre la venta de automóviles nuevos en Estados Unidos. Se analizan variables como el ingreso personal disponible, la tasa de interés y la fuerza laboral. El análisis de correlación muestra una alta correlación entre algunas variables, indicando problemas de multicolinealidad. El modelo de regresión propuesto relaciona las ventas de automóviles con las cinco variables independientes.

Cargado por

Katy Pacheco
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
196 vistas21 páginas

Análisis de Regresión Múltiple en Ventas de Autos

Este documento presenta un análisis de regresión múltiple utilizando datos sobre la venta de automóviles nuevos en Estados Unidos. Se analizan variables como el ingreso personal disponible, la tasa de interés y la fuerza laboral. El análisis de correlación muestra una alta correlación entre algunas variables, indicando problemas de multicolinealidad. El modelo de regresión propuesto relaciona las ventas de automóviles con las cinco variables independientes.

Cargado por

Katy Pacheco
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

REGRESIÓN MULTIPLE

Katy Pacheco

Asignatura
Modelos de Regresión

Docente
Guillermo Martı́nez Florez

Universidad de Códoba
Facultad de Ciencias Básicas
Departamento de Matemáticas y Estadı́stica
Monterı́a - Córdoba
2016

1
Los siguientes Datos de automóviles de pasajeros proporciona información sobre los automóviles de pasajeros
nuevos vendidos en Estados Unidos como función de diversas [Link] datos fueron tomados del libro de
Econometrı́a 5 Edición, Damodar N. Gujarati and Dawn C. Porter, Las variables son las siguientes
Y =automóviles de pasajeros nuevos vendidos (miles), sin ajuste estacional.

X1 = automóviles nuevos, IPC, 1967=100, sin ajuste estacional.

X2 = IPC, todos los renglones, todos los consumidores urbanos, 1967 =100, sin ajuste estacional.

X3 = ingreso personal disponible (IPD), miles de millones de dólares, sin ajustar por variación estacional.

X4 = tasa de interés, porcentaje, colocación directa de valores de la compañı́a financiera.

X5 = fuerza laboral civil empleada (miles), sin ajustar por variación estacional

En la siguiente tabla mostramos las observaciones de cada una de estas variables

años y x1 x2 x3 x4 x5
1971 10227 112.0 121.3 776.8 4.89 79367
1972 10872 111.0 125.3 839.6 4.55 82153
1973 11350 111.1 133.1 949.8 7.38 85064
1974 8775 117.1 147.7 1038.4 8.61 86794
1975 8539 127.6 161.2 1142.8 6.16 85846
1976 9994 135.7 170.5 1252.6 5.22 88752
1977 11046 142.9 181.5 1379.3 5.50 92017
1978 11164 153.8 195.3 1551.2 7.78 96048
1979 10559 166.0 217.7 1729.3 10.25 98824
1980 8979 179.3 247.0 1918.0 11.28 99303
1981 8535 190.2 272.3 2127.6 13.73 100397
1982 7980 197.6 286.6 2261.4 11.20 99526
1983 9179 202.6 297.4 2428.1 8.69 100834
1984 10394 208.5 307.6 2670.6 9.65 105005
1985 11039 215.2 318.5 2841.1 7.75 107150
1986 11450 224.4 323.4 3022.1 6.31 109597

Análisis Descriptivo
Realizaremos un análisis descriptivo a nuestra base de datos, para conocer el comportamineto de cada una
de nuestras variables en la siguiente tabla miramos algunas estadisticas importantes para nuestras variables.

y x1 x2 x3 x4 x5
Min. 7980 111.0 121.3 776.8 4.550 79367
Q1 8928 125.0 157.8 1116.7 5.995 86557
Q2 10310 159.9 206.5 1640.2 7.765 97436
Y 10005 162.2 219.2 1745.5 8.059 94792
Q3 11041 198.8 289.3 2303.1 9.800 100506
Máximo 11450 224.4 323.4 3022.1 13.730 109597
var 1354069 1661.791 5429.375 550945.8 6.979873 85681324

Cuadro 1: Analisis Descriptivo

Notamos que el promedio de automóviles de pasajeros nuevos vendidos (miles), es de 10005, y que enpro-
medio 162.2 automóviles nuevos fueron vendididos sin ajustes estacional , asi mismo la tasa de interés,
porcentaje en promedio fue de 8.059, asi mismo 94792 en promedio fue la fuerza laboral civil empleada
(miles).

2
Notamos que la mayor varianza la tiene fuerza laboral civil empleada (miles), lo que nos indica la alta
variabilidad que tiene los datos.
Notamos que los datos tienen una alta variabilidad

Análisis de correlación
Comenzamos representando los datos en una nube de puntos multiples, donde vemos la relación entre las
variables

Notamos que una mayor tendecial lineal entre las variables (X1 X2 ), (X1 X3 ) ,(X2 X3 ),(X5 X1 ), estan altamente
corelacionadas lo cual es un gran indicio que nuestros datos presentan problemas de multicolinealidad. Ahora
miremos la matriz de correlación para realifirmar lo dicho anteriormente Notamos que la matriz de correlacion

Y X1 X2 X3 X4 X5
Y 1.00 -0.07 -0.10 0.00 -0.54 0.04
X1 -0.07 1.00 1.00 0.99 0.53 0.97
X2 -0.10 1.00 1.00 0.99 0.54 0.97
X3 0.00 0.99 0.99 1.00 0.46 0.97
X4 -0.54 0.53 0.54 0.46 1.00 0.54
X5 0.04 0.97 0.97 0.97 0.54 1.00

nos confirma lo dicho anteriormente vemos que existe una correlacion de mas del 90 % entre las variables
(X3 ,X1 ), (X3 ,X2 ) , (X3 , X5 ) ademas (X5 , X1 ) tambien tienen una correlaciń del 97 %, lo cual es indicio de
problemas de multicolinealidad en los datos.
Ahora bien un modelo de regresión lineal seria de la siguiente forma:

Y = β0 + β1 x1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + i

Ahora la matrix X es de tamaño 16×5,donde los estimadores de mı́nima varianza de β = (β0 , β1 , β2 , β3 , β4 , β5 )0 ,


hallemos el estimador de la varianza de β, Vd
ar(β̂) asi

   
160082,00 3048,3310950

 25916733,20 


 53,3976269 

 34948727,50   −105,4709455 
X 0Y =   entonces, β̂ = (X 0 X)1 X 0 Y =  

 279492985,90 


 6,1833484 

 1265115,00   −102,1704546 
15181595495,00 0,1206896

3
   
10117,625 109,37525

 10401,637 


 470,36312 


 10327,893 


 1022,10662 


 9739,371 


 −964,37140 


 9657,634 


 −1118,63414 


 10234,971 


 −240,97107 


 10608,128 


 437,87227 

 11051,132  
 luego ˆ = Y − Ŷ = Ŷ =  112,86834 
Si Ŷ =  

 10523,961 


 35,03874 


 9263,224 


 −284,22361 


 8354,589 


 180,41051 


 8222,200 


 −242,20002 


 8795,176 


 383,82401 


 9939,193 


 454,80686 

 10654,588   384,41205 
12190,678 −740,67752


ˆ 4945565
Ahora bien, S 2 = n−p = 11 = 449596,8 la matriz de varianzas - covarianzas estimada del vector β es,
 
60311754,61 105063,91 −182715,96 21241,99 716836,19 −845,40

 105063,91 4233,14 −2497,30 57,19 3494,06 −3,93 
 −182715,96 −2497,30 2336,00 −129,33 −5195,39 3,62 
ar(β̂) = S 2 (X 0 X)−1
Vd = 

 21241,99 57,19 −129,33 12,47 420,77 −0,29 
 716836,19 3494,06 −5195,39 420,77 20919,70 −11,06 
−845,40 −3,93 3,62 −0,29 −11,06 0,01

Ası́, el modelo de regresión ajustado es

Ŷ = 3048,3311 + 53,3976X1 − 105,4709X2 + 6,1833X3 − 102,1705X4 + 0,1207X5

De la matriz de varianza-covarianza de los β̂ tenemos que los errores de estimación para cada parámetro vienen
dados por: q p
σ̂β2ˆ = 60311754,61 → σ̂β2ˆ = 60311754,61 = 7766,064 → σ̂βˆ0 = 7766,064
0 0

q p
σ̂β2ˆ = 4233,14 → σ̂β2ˆ = 4233,14 = 65,0626 → σ̂βˆ1 = 65,0626
1 1

q p
σ̂β2ˆ = 2336,00 → σ̂β2ˆ = 2336,00 = 48,33219 → σ̂βˆ2 = 48,33219
2 2

q p
σ̂β2ˆ = 12,47 → σ̂β2ˆ = 12,4760311754,61 = 3,531955 → σ̂βˆ3 = 3,531955
3 3

q p
σ̂β2ˆ = 20919,70 → σ̂β2ˆ = 20919,70 = 144,6364 → σ̂βˆ4 = 144,6364
4 4

q p
σ̂β2ˆ = 0,01 → σ̂β2ˆ = 0,01 = 0,1162521 → σ̂βˆ5 = 0,1162521
5 5

Ahora bien note que en ausencia de las distintas combinaciones de automiviles de pasajeros nuevos vendidos pa-
ra estimar la demanda de automóviles en Estados Unidos, el porcentaje de automoviles vendidos es de 7766.064
con un error de estimación de 3048,3311 . Al incrementar los automóviles nuevos, IPC, 1967= 100, sin ajuste
estacional( X1 )en una unidad el porcentaje de automoviles vendidos aumenta en 53,3971 con un error de esti-
mación de 65.0626, al incrementar en una unidad todos los consumidores urbanos (X2 ) el porcentaje dede venta
de automoviles en estados unidos disminuye 105,4709 con un error de estimación de 48.33219 y al incrementar
en una unidad el ingreso personal disponible (X3 ) el porcentaje de ventan de automoviles en estados unicos
aumenta en 6,1833 con un error de estimacón del 3.531955 ahora bien si incrementamos en una unidad la tasa

4
de interés (X4 ), porcentaje, colocación directa de valores de la compañı́a financiera el porcentaje de venta de
automoviles disminute en 102,1705 con un error de estimacón del 144.6364, y al incrementar la fuerza laboral
empleada (X5 ) en una unidad el porcentaje de automoviles vendidos en EEUU aumenta en 0,1207 con un error
de estimación de 0.1162521

Ahora cuando incrementamos en una unidad los automoviles nuevos , IPC, 1967= 100, sin ajuste estacional
como todos los renglones, todos los consumidores urbanos, 1967 = 100, sin ajuste estacional. se tiene

β1 + β2 = 53,3976 − 105,4709 = −52,0733

Luego,

σ̂β2ˆ +βˆ = σ̂βˆ1 + σ̂βˆ2 + 2σ̂βˆ1 βˆ2


1 2

= (65,0626)2 + (48,33219)2 + 2(−2497, 30)


= 1574,538

Luego, con un error de 1574.538 se estima que un aumento de una unidad en automóviles nuevos, IPC,
1967= 100, sin ajuste estacional y IPC, todos los renglones, todos los consumidores urbanos, 1967 = 100,
sin ajuste estacional. produce una disminució en la venta de automoviles en EEUU de -52.0733

β2 + β3 = −105,4709 + 6,1833 = −99,2876

σ̂β2ˆ +βˆ = σ̂βˆ2 + σ̂βˆ3 + 2σ̂βˆ2 βˆ3


2 3

= (48,33219)2 + (3,531955)2 + 2(−129,33)


= 2089,815

con un error de 2089.815 se estima que un aumento de una unidad en IPC, todos los renglones, todos los
consumidores urbanos, 1967 = 100, sin ajuste estacional y ingreso personal disponible (IPD), miles de mi-
llones de dólares, sin ajustar por variación estacional. produce una disminució en la venta de automoviles
en EEUU de -99.2876

β3 + β4 = 6,1833 − 102,1705 = −95,9872

σ̂β2ˆ +βˆ = σ̂βˆ3 + σ̂βˆ4 + 2σ̂βˆ3 βˆ4


3 4

= (3,531955)2 + (144,6364)2 + 2(420,77)


= 21773,71

con un error de 21773.71 se estima que un aumento de una unidad en los ingreso del personal disponible
(IPD), miles de millones de dólares, sin ajustar por variación estacional y la tasa de interés, porcentaje,
colocación directa de valores de la compañı́a financiera. produce un aumento en la venta de automoviles
en EEUU de 21773.71

β4 + β5 = −102,1705 + 0,1207 = −102,0498

σ̂β2ˆ +βˆ = σ̂βˆ4 + σ̂βˆ5 + 2σ̂βˆ4 βˆ5


4 5

= (144,6364)2 + (0,1162521)2 + 2(−11,06)


= 20897,58

5
Por ulyimo con un error de 20897.58 se estima que un aumento de una unidad en la tasa de interés, por-
centaje, colocación directa de valores de la compañı́a financiera y fuerza laboral civil empleada (miles), sin
ajustar por variación estacional. produce una disminucón en la venta de automoviles en EEUU de -102.0498

Ahora se realiza un análisis de varianza del modelo


Analysis of Variance Table

Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x1 1 86991 86991 0.1759 0.683791
x2 1 4650409 4650409 9.4032 0.011912 *
x3 1 10143044 10143044 20.5094 0.001094 **
x4 1 447 447 0.0009 0.976612
x5 1 484576 484576 0.9798 0.345589
Residuals 10 4945565 494556
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Notamos que a la hora de predecir sobre los automoviles de pasajeros nuevos vendidios en EEUU, la variable
ingreso personal disponible(IPD),miles de millones de dólares, sin ajustar por variacón estacional(X3 ), es sig-
nificativa frente a predecir dicha la venta de automoviles con un p-valor de 1,094 × 10−3 asi mismo la variable
IPC,todos los consumidores urbanos, sin ajuste estacional(X2 ), es significativa para predecir dicha respuesta
con su media de 4650409 , (P-valor de 0.011912).
Note que el párametro estimado β3 es el unico que resulta significativo dado que no acepta la hipótesis nula
H0 : β3 = 0 ya que p-value de la prueba (0,001094) < 0,05los demás parámetros no son significativos ya que al
plantear las hipotesis se acentan puesto que el p-value de la prueba es mayor a 0.05

Ahora los intervalos de confianza del 95& para los párametros estimados son: Observamos que los interva-

2.5 % 97.5 %
(Intercept) -15100.12 21196.78
X1 -98.65 205.44
X2 -218.42 7.48
X3 -2.07 14.44
X4 -440.17 235.83
X5 -0.15 0.39

los para β0 , β1 , β2 , β3 , β4 contiene al cero esto es que quizas no sean significativos en el modelo solo el párametro
β5 no lo contiene al cero .
Miremos mediante la función summary algunas estaı́sticas importantes para el vector de parámetros β̂ como lo
son los respectivos errores estándar para cada párametro del modelo y los valores t del anava parcial , ademas
esta función nos arroja el valor de la desviacón estándar del error σ̂
Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = dat, x = T)

Residuals:
Min 1Q Median 3Q Max
-1118.6 -252.7 111.1 397.8 1022.1

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3048.3311 8145.1170 0.374 0.7160
x1 53.3976 68.2382 0.783 0.4520
x2 -105.4709 50.6912 -2.081 0.0641 .
x3 6.1833 3.7043 1.669 0.1260
x4 -102.1705 151.6960 -0.674 0.5159
x5 0.1207 0.1219 0.990 0.3456
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

6
Residual standard error: 703.2 on 10 degrees of freedom
Multiple R-squared: 0.7565,Adjusted R-squared: 0.6348
F-statistic: 6.214 on 5 and 10 DF, p-value: 0.00715
Notamos que el ajuste del modelo explica un 75,65 % la variabilidad,el valor del coeficiente de determinanción
es de 63.48 % el ajuste no es tan bueno.
Note que, |t1 | = 0,783, |t2 | = 2,081, |t3 | = 1,669, |t4 | = 0,674, |t5 | = 0,990
Luego la secencia es X2 , X3 , X5 , X1 , X4 respectivamente

Coefiente de Determinación
Usaremos este criterio para selecioanr el mejor modelo, este criterio nos ayudara a eliminar aquellas variables
que al excluirlas del modelo no causen una significativa disminución en el R2 del modelo de regresión ajustado
con las variables restantes.

$which
1 2 3 4 5
1 FALSE FALSE FALSE TRUE FALSE
1 FALSE TRUE FALSE FALSE FALSE
1 TRUE FALSE FALSE FALSE FALSE
1 FALSE FALSE FALSE FALSE TRUE
1 FALSE FALSE TRUE FALSE FALSE
2 FALSE TRUE TRUE FALSE FALSE
2 FALSE FALSE FALSE TRUE TRUE
2 FALSE FALSE TRUE TRUE FALSE
2 TRUE FALSE FALSE TRUE FALSE
2 FALSE TRUE FALSE TRUE FALSE
2 FALSE TRUE FALSE FALSE TRUE
2 TRUE FALSE TRUE FALSE FALSE
2 TRUE TRUE FALSE FALSE FALSE
2 TRUE FALSE FALSE FALSE TRUE
2 FALSE FALSE TRUE FALSE TRUE
3 TRUE TRUE TRUE FALSE FALSE
3 FALSE TRUE TRUE FALSE TRUE
3 FALSE TRUE FALSE TRUE TRUE
3 FALSE TRUE TRUE TRUE FALSE
3 TRUE FALSE FALSE TRUE TRUE
3 FALSE FALSE TRUE TRUE TRUE
3 TRUE TRUE FALSE TRUE FALSE
3 TRUE FALSE TRUE TRUE FALSE
3 TRUE FALSE TRUE FALSE TRUE
3 TRUE TRUE FALSE FALSE TRUE
4 TRUE TRUE TRUE FALSE TRUE
4 FALSE TRUE TRUE TRUE TRUE
4 TRUE TRUE TRUE TRUE FALSE
4 TRUE TRUE FALSE TRUE TRUE
4 TRUE FALSE TRUE TRUE TRUE
5 TRUE TRUE TRUE TRUE TRUE

$label
[1] "(Intercept)" "1"
[3] "2" "3"
[5] "4" "5"

$size
[1] 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4
[20] 4 4 4 4 4 4 5 5 5 5 5 6

$r2
[1] 2.949860e-01 1.073283e-02
[3] 4.282936e-03 1.905373e-03

7
[5] 2.353404e-05 6.763561e-01
[7] 4.523680e-01 3.779062e-01
[9] 3.617524e-01 3.470109e-01
[11] 3.127969e-01 2.836886e-01
[13] 2.332427e-01 2.127192e-01
[15] 2.808235e-02 7.326287e-01
[17] 7.153491e-01 6.851675e-01
[19] 6.766017e-01 6.506047e-01
[21] 6.012150e-01 4.638612e-01
[23] 4.245419e-01 3.830643e-01
[25] 3.709383e-01 7.454629e-01
[27] 7.415986e-01 7.326507e-01
[29] 6.886649e-01 6.510979e-01
[31] 7.565084e-01

Coefiente de Determinación ajustado


analogamente al anterior criterio realizaremos la prueba para ver como el R2 presenta el inconveniente que
se incrementa al aumentar el número de variables, usaremos Ra2 asi
$which
1 2 3 4 5
1 FALSE FALSE FALSE TRUE FALSE
1 FALSE TRUE FALSE FALSE FALSE
1 TRUE FALSE FALSE FALSE FALSE
1 FALSE FALSE FALSE FALSE TRUE
1 FALSE FALSE TRUE FALSE FALSE
2 FALSE TRUE TRUE FALSE FALSE
2 FALSE FALSE FALSE TRUE TRUE
2 FALSE FALSE TRUE TRUE FALSE
2 TRUE FALSE FALSE TRUE FALSE
2 FALSE TRUE FALSE TRUE FALSE
2 FALSE TRUE FALSE FALSE TRUE
2 TRUE FALSE TRUE FALSE FALSE
2 TRUE TRUE FALSE FALSE FALSE
2 TRUE FALSE FALSE FALSE TRUE
2 FALSE FALSE TRUE FALSE TRUE
3 TRUE TRUE TRUE FALSE FALSE
3 FALSE TRUE TRUE FALSE TRUE
3 FALSE TRUE FALSE TRUE TRUE
3 FALSE TRUE TRUE TRUE FALSE
3 TRUE FALSE FALSE TRUE TRUE
3 FALSE FALSE TRUE TRUE TRUE
3 TRUE TRUE FALSE TRUE FALSE
3 TRUE FALSE TRUE TRUE FALSE
3 TRUE FALSE TRUE FALSE TRUE
3 TRUE TRUE FALSE FALSE TRUE
4 TRUE TRUE TRUE FALSE TRUE
4 FALSE TRUE TRUE TRUE TRUE
4 TRUE TRUE TRUE TRUE FALSE
4 TRUE TRUE FALSE TRUE TRUE
4 TRUE FALSE TRUE TRUE TRUE
5 TRUE TRUE TRUE TRUE TRUE

$label
[1] "(Intercept)" "1"
[3] "2" "3"
[5] "4" "5"

$size
[1] 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4

8
[20] 4 4 4 4 4 4 5 5 5 5 5 6

$adjr2
[1] 0.24462788 -0.05992911 -0.06683971
[4] -0.06938710 -0.07140336 0.62656468
[7] 0.36811698 0.28219952 0.26356047
[10] 0.24655098 0.20707332 0.17348688
[13] 0.11528006 0.09159906 -0.12144344
[16] 0.66578583 0.64418635 0.60645941
[19] 0.59575212 0.56325590 0.50151875
[22] 0.32982654 0.28067739 0.22883043
[25] 0.21367286 0.65290397 0.64763448
[28] 0.63543272 0.57545217 0.52422443
[31] 0.63476265
Miremos si se puede escoger un mejor modelo que el que tenemos, para esto haremos una regresión paso a paso
por el metodo de Backward con la función step()
Start: AIC=214.26
y ~ x1 + x2 + x3 + x4 + x5

Df Sum of Sq RSS AIC


- x4 1 224346 5169911 212.97
- x1 1 302834 5248399 213.21
- x5 1 484576 5430141 213.76
<none> 4945565 214.26
- x3 1 1377972 6323537 216.19
- x2 1 2140996 7086561 218.02

Step: AIC=212.97
y ~ x1 + x2 + x3 + x5

Df Sum of Sq RSS AIC


- x5 1 260677 5430588 211.76
- x1 1 611643 5781554 212.76
<none> 5169911 212.97
- x2 1 7360689 12530600 225.14
- x3 1 7606981 12776892 225.45

Step: AIC=211.76
y ~ x1 + x2 + x3

Df Sum of Sq RSS AIC


<none> 5430588 211.76
- x1 1 1142955 6573542 212.82
- x2 1 9118435 14549023 225.53
- x3 1 10143044 15573632 226.62

Call:
lm(formula = y ~ x1 + x2 + x3, data = dat, x = T)

Coefficients:
(Intercept) x1 x2
10605.364 88.557 -138.471
x3
8.813
Del anterior resultado se puede decir que el mejor modelo es donde eliminamos a las variables X4 , X5 , dado
que fue el menor AIC. Ahora bien usaremos el CRITERIO DE LA SUMA DE CUADRADOS DE LA
REGRESÓN calcularemos los PRESS para cada uno de nuestros modelos
Sea el modelo Y = β0 + β0 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + i , luego para calcular el valor del PRESS
en R-studio cargaremos la libreria DAAG y usaremos la funcón press, ası́

9
require(DAAG)
press(reg)
15413716

Modelo 2 sera Y = β0 + β0 X1 + β2 X2 + β3 X3 + β5 X5 + i asi

mod2=lm(y~x1+x2+x3+x5,data=dat,x=T);mod2

Call:
lm(formula = y ~ x1 + x2 + x3 + x5, data = dat, x = T)

Coefficients:
(Intercept) x1 x2
6549.31301 70.46239 -130.84492
x3 x5
8.23838 0.06669

> press(mod2)
[1] 14398054

Modelo 3 sera Y = β0 + β0 X1 + β2 X2 + β3 X3 + i luego en R tenemos ,

mod3

Call:
lm(formula = y ~ x1 + x2 + x3, data = dat, x = T)

Coefficients:
(Intercept) x1 x2
10605.364 88.557 -138.471
x3
8.813

> press(mod3)
[1] 13584685

Asi notamos que el menor PRESS lo obtenemos con el modelo 3 eliminando las variables X4 , X5

0.1. ANALISIS SECUENCIAL


Note que, |t1 | = 0,783, |t2 | = 2,081, |t3 | = 1,669, |t4 | = 0,674, |t5 | = 0,990
Luego la secencia es X2 , X3 , X5 , X1 , X4 respectivamente
Primera secuencia Sea el modelo de regresión

Yi = β0 + β2 X2i + i

Call:
lm(formula = y ~ x2, data = dat, x = T)

Coefficients:
(Intercept) x2
10363.670 -1.636


 H0 : β2 = 0
El juego de hipotesis es
H1 : β2 6= 0

10
SCR(X2 )
1601858415
Ahora bien usando la SCR(X2 ) y la SCE del modelo general. En efecto, Fc = 1
SCE = 4945565 =
n−p−1 10
3238,98, Donde la SCE es la obtenida con el modelo inicial. Comparando el estadistico Fc con Fα,1,n−p−1
lleva a rechazar H0 ya que Fc = 3238,98 > 4,96 = F0,05,1,10 por lo tanto IPC, todos los renglones, todos
los consumidores urbanos, 1967 = 100, sin ajuste estacional, si influye en la venta de automoviles en EEUU.

Segunda secuencia Dado que rechazamos la hipotesis anterior, entonces agregamos la siguiente variable
en este caso X3
Yi = β0 + β2 X2i + β3 X3i i
mod2=lm(y x2+x3,data = dat,x=T);mod2
lm(formula = y x2 + x3, data = dat, x = T)
Coefficients: (Intercept) x2 x3 14660.031 -98.524 9.703

 H0 : β3 = 0
Ahora se lleva acabo el juego de hipótesis Ahora usando el siguiente estadistico
H1 : β3 6= 0/β2 6= 0

corroboramos el juego de hipótesis
SCR(X2 ,X3 )−SCR(X2 )
1 1615377910 − 1601858415
Fc = SCE
= 4945565 = 27,3366
n−p−1 10

Comparando el valor del estadı́stico Fc con Fα,1,n−p−1 = 4,96 se tiene que Fc = 27,3366 > 4,96,entonces
se rechaza H0 . Por tanto el ingreso personal disponible (IPD), miles de millones de dólares, sin ajustar
por variación estacional X3 si influye la venta de automoviles
Tercera Secuencia Dado que la hipótesis H0 anterior fue rechazada entonces añadimos la siguiente
variable en este caso fuerza laboral civil empleada (miles), sin ajustar por variación estacional(X5 ) Sea

Yi = β0 + β2 X2i + β3 X3i + β5 X5 + i


 H0 : β5 = 0
se lleva a cabo el juego de hipótesis En cual corroboramos con el sui-
H1 : β5 6= 0/β3 6= 0/β2 6= 0

guiente estadı́stico
SCR(X2 ,X3 ,X5 )−SCR(X2 ,X3 )
1 1616169898 − 1615377910
Fc = SCE
= 4945565 = 1,601411
n−p−1 10

Comparando el valor del estadı́stico Fc con Fα,1,n−p−1 = 4,96se tiene que Fc = 1,601411 < 4,96 =
Fα,1,n−p−1 , Entonces no se rechaza H0 . por tanto el material X5 no influye en la venta de automoviles De
acuerdo con el análisis de varianza , el analisis parcial y el análisis secuencial se concluye que el modelo
final viene dado por

Ŷ = β̂0 + β̂1 X1i + β̂2 X2i + β̂3 X3i


= 10605,364 + 88,557X1i − 138,471X2i + 8,813X3i

anova(reg1)
Analysis of Variance Table

Response: y
Df Sum Sq Mean Sq F value
x1 1 86991 86991 0.1922
x2 1 4650409 4650409 10.2760
x3 1 10143044 10143044 22.4131
Residuals 12 5430588 452549
Pr(>F)
x1 0.668861
x2 0.007553 **
x3 0.000485 ***
Residuals

11
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’
0.1 ‘ ’ 1

Notamos que este modelo si explica mejor la venta de automoviles en EEUU.


Ahora para determinar el error residual σ̂ asociado al erro en el ajsute de regresiń multiple usamos
summary(reg1)$sigma
672.7176

ANÁLISIS DE DIAGNOSTICO
El modelo que se esta estudiando es:

Y = β0 + β1 x1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + i

El modelo ajustado por MCO es:

Ŷ = 3048,3311 + 53,3976X1 − 105,4709X2 + 6,1833X3 − 102,1705X4 + 0,1207X5

Realicemos un análisis de diagnostico para estudiar la presencia de observaciones o conjunto de observaciones


sobre la estimacón de los párametros y supuestos del modelo, para ello usaremos las medidas estadisticas
propuestas para identificar y medir el conjunto de observaciones influyentes. Usaremos R-studio para ello asi.
[Link](reg)
Influence measures of
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = dat, x = T) :

dfb.1_ dfb.x1 dfb.x2 dfb.x3


1 0.30588 0.3363 -0.30238 0.19414
2 0.11802 0.0634 -0.04712 0.02781
3 0.67772 -0.7336 -0.19993 0.97961
4 -0.27518 1.3327 -0.48725 -0.47647
5 -0.16316 0.3920 -0.44145 0.20855
6 0.10795 0.0511 -0.12500 0.15470
7 -0.44762 -0.1480 0.32612 -0.44490
8 -0.08134 0.0362 -0.02518 -0.02840
9 -0.02199 0.0188 -0.01799 -0.00124
10 0.10943 -0.0744 0.00591 0.09102
11 0.05742 0.0537 -0.05733 0.04743
12 -0.06034 -0.0382 -0.04981 0.06439
13 -0.03025 -0.1368 0.32911 -0.28452
14 0.14248 -0.1241 0.00162 0.16667
15 0.00728 -0.1937 0.10731 0.05199
16 -0.59276 -0.9641 1.56787 -1.50125
dfb.x4 dfb.x5 dffit cov.r
1 0.1723 -0.37168 0.4842 6.772
2 -0.0537 -0.10525 0.4074 1.707
3 0.8093 -0.20557 1.8495 0.226
4 -0.4933 -0.30643 -2.0162 0.268
5 0.3271 0.00415 -0.9608 0.248
6 0.1824 -0.11241 -0.2275 2.316
7 -0.4908 0.44823 0.5982 2.051
8 -0.0160 0.06529 0.1273 2.709
9 0.0121 0.01452 0.0477 3.053
10 -0.0275 -0.06153 -0.2575 2.196
11 0.1720 -0.07986 0.2777 3.055
12 -0.0191 0.09105 -0.2888 2.547
13 -0.2859 0.02873 0.5472 2.290
14 0.1023 -0.08402 0.4118 1.768

12
15 -0.1067 0.06247 0.4562 2.138
16 -0.4653 0.70945 -2.9054 0.518
cook.d hat inf
1 0.043010 0.737 *
2 0.028951 0.230
3 0.407750 0.407
4 0.491166 0.459 *
5 0.117843 0.185
6 0.009428 0.262
7 0.062155 0.375
8 0.002988 0.321
9 0.000421 0.385 *
10 0.012013 0.249
11 0.014113 0.425
12 0.015164 0.337
13 0.052727 0.392
14 0.029674 0.244
15 0.036816 0.331
16 1.053588 0.660 *

Ahora para verificar los valores de los estadı́sticos, los podemos representar gráfı́camente para apreciar mejor
los puntos in uyentes:

13
Donde observamos que las observacones 1,4,9,11,16 son posibles observaciones influyentes sobre la estimacón de
los β̂, ahora usaremos el estadistico
θ̂ − θ̂(At )
Z=
θ̂

Para selecionar las observaciones influyentes que vamos a extraer de la base de datos
Excluyendo la observac0́n 16
Primero extraeremos la observación número 16 que es la mas influyente luego el modelo estimado viene
dado por

datos1=[Link](dat[-c(16),])
modn<-lm(y~x1+x2+x3+x4+x5,data = datos1,x = T);mod1n
Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)

Coefficients:
(Intercept) x1 x2 x3
7226.40909 110.32927 -174.24828 10.99581
x4 x5
-41.08602 0.04583

para βˆ3 se tiene que


β̂3 −βˆ3 (16) 6,1833−10,99581
Z= βˆ3
= 6,1833 = −0,7783077

Excluyendo la observación 1
Notamos que el nuevo modelos viene dado por

datos12=[Link](dat[-c(1),])

mod12<-lm(y~x1+x2+x3+x4+x5,data = datos1,x = T);mod12


lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)

Coefficients:
(Intercept) x1 x2 x3
434.2277 29.3175 -89.3883 5.4288
x4 x5
-129.5941 0.1682

para βˆ3 se tiene que


β̂3 −βˆ3 (1) 6,1833−5,4288
Z= βˆ3
= 6,1833 = 0,1220222

Excluyendo la observación 9
Notamos que el nuevo modelos viene dado por

datos123=[Link](dat[-c(9),])

lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)

Coefficients:
(Intercept) x1 x2 x3
3237.1088 52.0480 -104.5101 6.1882
x4 x5
-104.1060 0.1188

para βˆ3 se tiene que


βˆ3 −βˆ3 (9) 6,1833−6,1882
Z= βˆ3
= 6,1833 = −0,0007924571

14
Excluyendo la observación 4
Notamos que el nuevo modelos viene dado por

datos=[Link](dat[-c(4),])

Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)

Coefficients:
(Intercept) x1 x2 x3
4956.7329 -24.0320 -84.4407 7.6862
x4 x5
-38.4516 0.1525

para βˆ3 se tiene que

βˆ3 −βˆ3 (4) 6,1833−7,6862


Z= βˆ3
= 6,1833 = −0,2430579

Excluyendo la observación (1,16)

Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)

Coefficients:
(Intercept) x1 x2 x3
1.410e+04 1.771e+02 -2.245e+02 1.365e+01
x4 x5
3.426e+01 -7.905e-02

para βˆ3 se tiene que

βˆ3 −βˆ3 (1,16) 6,1833−1,365e+01


Z= βˆ3
= 6,1833 = 0,9779244

Excluyendo la observación (1,4)

Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)

Coefficients:
(Intercept) x1 x2 x3
-3154.3035 -114.2328 -29.1984 5.5001
x4 x5
-116.4196 0.3109

para βˆ3 se tiene que

βˆ3 −βˆ3 (1,4) 6,1833−5,5001


Z= βˆ3
= 6,1833 = 0,1104912

Excluyendo la observación (1,9)

Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)

Coefficients:
(Intercept) x1 x2 x3
616.5275 28.1500 -88.5538 5.4356

15
x4 x5
-131.2910 0.1664

para βˆ3 se tiene que

βˆ3 −βˆ3 (1,9) 6,1833−5,4356


Z= βˆ3
= 6,1833 = 0,1209225

Excluyendo la observación (4,9)

Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)

Coefficients:
(Intercept) x1 x2 x3
4988.3451 -24.2476 -84.2816 7.6868
x4 x5
-38.7894 0.1522

para βˆ3 se tiene que

βˆ3 −βˆ3 (4,9) 6,1833−7,6868


Z= βˆ3
= 6,1833 = −0,2431549

Excluyendo la observación (4,16)

lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)

Coefficients:
(Intercept) x1 x2 x3
7676.79482 36.26824 -140.99848 10.97546
x4 x5
-6.72996 0.08894

para βˆ3 se tiene que

βˆ3 −βˆ3 (4,16) 6,1833−10,97546


Z= βˆ3
= 6,1833 = −0,7750166

Excluyendo la observación (9,16)

lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)

Coefficients:
(Intercept) x1 x2 x3
6416.25015 119.36671 -181.73873 11.15096
x4 x5
-28.89399 0.05259

para βˆ3 se tiene que

βˆ3 −βˆ3 (9,16) 6,1833−11,15096


Z= βˆ3
= 6,1833 = −0,8033995

Excluyendo la observación (1,4,9,16)

16
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)

Coefficients:
(Intercept) x1 x2 x3
5566.7837 25.4209 -134.4171 10.5203
x4 x5
-11.8963 0.1234

para βˆ3 se tiene que

βˆ3 −βˆ3 (1,4,9,16) 6,1833−10,5203


Z= βˆ3
= 6,1833 = −0,7014054

De los anteriores analisis tenemos que el Estadı́stico Z es mayor cuando se excluye las observaciones 1,16 por
tanto eliminaremos estas observaciones de la base de datos por lo tanto ell nuevo modelo estimado es

Ŷ = 14104,0561 + 177,1030X1 − 224,5463X2 + 13,6496X3 + 34,2635X4 − 0,0791X 5

Validación de Supuestos
Ahora se realizara la validación de supuestos del modelo ajustado para 
Linealidad Para el ajuste obtenido con los datos

Ŷ = 3048,3311 + 53,3976X1 − 105,4709X2 + 6,1833X3 − 102,1705X4 + 0,1207X5

Concideremos los gráficos de regresión parcial para ver la relación lineal entre regresores y respuesta

Observamos que la tendencia de residuos parciales es de tipo lineal, pero en el cuarto tenemos indicios de
problemas con la hipótesis de linealidad.

Normalidad Observemos el gráfico de probabilidad normal para los residuales del modelo

17
Donde observamos que la mayorı́a de residuos del modelo siguen una distribución normal. .las hipotesis a
contrastar aqui son

 H0 los residuales proviene de una distribución normal

H1 los residuales noproviene de una distribución normal


Prueba de Shapiro Wilk Para verificar la normalidad para los errores del modelo ajustado usamos el
test de Shapiro-Wilk teniendo como resultado

Shapiro-Wilk normality test

data: reg$res
W = 0.94162, p-value = 0.3694

Note que nuestro p-value es de (p−value = 0,3694 > 0,05 entonces no se rechaza la hipótesis de normalidad,
esto es, los errores del modelo siguen una distribucón normal-
Independencia Las hipotesis a contrastar son

 H0 Cov(i , 0i ) = 0 para todoi 6= i0


H1 Cov(i , 0i ) 6= 0 para todoi 6= i0


Para verificar la independecia para los errores del modelo ajustado usamos el test de Durbin -Watson de
la libreria CAR , teniendo como resultado

lag Autocorrelation D-W Statistic p-value


1 0.1434612 1.59973 0.006
Alternative hypothesis: rho != 0

Notamos que el p-value es de 0,006 < 0,05 por tanto se rechaza la hipotesis nula, es decir que nose cumple
el supuesto de que los errores son independientes.
Para corrobolar la indpeendencia de los residuales usaremos la prueba de rachas, esta se implementa con
la función [Link]() de la libreria tseries

data: X
Standard Normal = -0.27735, p-value = 0.7815
alternative hypothesis: [Link]

Notamos que en esta prueba el p-value resulta superior a 0.05 entonces podemos decir que existe indepen-
dencia en los errores
Homogenidad de varianza
Miremos el grafico de dispersión de los residuales del modelo

18
En el grafico parece que la varianza de los errores no tiene ningún patrón a crecer o decrecer, para verificar
la Homogeneidad de Varianzas para los errores del modelo ajustado usamos el test de Breusch-Pagan de
la libreria lmtest , teniendo como resultado Las hipotesis de la prueba son

 H0 los residuales tienen varianza constante

H1 los residuales no tienen varianza constante


bptest(reg)
studentized Breusch-Pagan test

data: reg
BP = 9.8523, df = 5, p-value = 0.07953

Lo que confirma lo dicho anteriormente, con un p-valor de 0.07953 el cual es mayor que 0.05 lo que lleva
al no rechazo de la hipotesis nula, es decir que el modelo no presenta problemas de heterocedasticidad

Multicolinealidad Se realizara un diagnostico de multicolinealidad en el modelo asi

library(faraway)
> x<-reg$x;x
(Intercept) x1 x2 x3 x4 x5
1 1 112.0 121.3 776.8 4.89 79367
2 1 111.0 125.3 839.6 4.55 82153
3 1 111.1 133.1 949.8 7.38 85064
4 1 117.1 147.7 1038.4 8.61 86794
5 1 127.6 161.2 1142.8 6.16 85846
6 1 135.7 170.5 1252.6 5.22 88752
7 1 142.9 181.5 1379.3 5.50 92017
8 1 153.8 195.3 1551.2 7.78 96048
9 1 166.0 217.7 1729.3 10.25 98824
10 1 179.3 247.0 1918.0 11.28 99303
11 1 190.2 272.3 2127.6 13.73 100397
12 1 197.6 286.6 2261.4 11.20 99526
13 1 202.6 297.4 2428.1 8.69 100834
14 1 208.5 307.6 2670.6 9.65 105005
15 1 215.2 318.5 2841.1 7.75 107150
16 1 224.4 323.4 3022.1 6.31 109597
attr(,"assign")
[1] 0 1 2 3 4 5

Ahora inspecionando los elementos fuera de la diagonal de X 0 X

x.x<-t(x)%*%x;x.x
(Intercept) x1 x2 x3
(Intercept) 16.00 2595.00 3506.40 27928.7
x1 2595.00 445803.42 613605.36 4979592.7
x2 3506.40 613605.36 849868.18 6933806.1
x3 27928.70 4979592.73 6933806.07 57014955.3
x4 128.95 21762.72 29845.89 238661.0
x5 1516677.00 251487699.10 342254926.20 2747663488.8
x4 x5
(Intercept) 128.950 1516677
x1 21762.716 251487699
x2 29845.892 342254926
x3 238661.034 2747663489
x4 1143.954 12420154
x5 12420154.310 145054540003

Los valores FIV son los siguentes

19
x1 x2 x3 x4 x5
234.696787 423.146560 229.301703 4.871592 38.632734

Estos valores los comoaramos con 1


(1−R2) = 4,106918 Los valores propios de X 0 X

lambda<-eigen(x.x)$values;lambda
[1] 1.451078e+11 5.016401e+06 1.755663e+03 1.120163e+02
[5] 3.219376e+01 7.453402e-03

Ahora el numero de condición viene dado por

kappa<-max(lambda)/min(lambda); kappa
1.946867e+13

Ahora bien el indice de condicón es

1.000000e+00 2.892668e+04 8.265131e+07 1.295417e+09


4.507328e+09 1.946867e+13

1 1
Tenemos que V IFj = 234,696787(j = 1, 2, 3, 4, 5) Ahora T OLj = V IFj
= 234,696787 = 0,004260817, ahora
2 2
como T OLj = 1 − R j , entonces R j = 1 − T OLj = 1 − 0,004260817 = 0,9957392 para j = 1, 2, 3, 4, 5
Note que el T OLj es cercano a cero y los VIF son bastante altos estos nos confirma a un mas nuestro
problema de multicolinealidad. Encontramos indicios de multicolinealidad entre los regresores respecto a
los criterios de diagnostico propuesto ya que :

uno de los valores propios 7.453402e-03, es bastante pequeño


El número de condición K=1.946867e+13 es mayor a 1000
Notamos que cuando hicimos el grafico de dispersión encontramos que las variables explicativas estaban
bastante correlacionadas ya que habia una relacón lineal entre algunas variables, note que todos nuestros
valores FIV son superiores a 10.
Del anterior análisis de Supuestos notamos que hay problemas de multicolinealidad en las variables regre-
soras, ası́ se implementara las soluciones que ofrecen las componentes principales incompletas, entonces:
[Link] nuevas variables ortogonales por componentes principales

> pr<-princomp(~x1+x2+x3+x4+x5,data=dat);pr
Call:
princomp(formula = ~x1 + x2 + x3 + x4 + x5, data = dat)

Standard deviations:
Comp.1 Comp.2
8990.063413 167.482830
Comp.3 Comp.4
10.420945 2.616847
Comp.5
1.102015

5 variables and 16 observations.


> pr$loadings

Loadings:
Comp.1 Comp.2 Comp.3
x1 -0.424
x2 -0.887
x3 -0.991 0.105
x4 -0.153
x5 -0.997
Comp.4 Comp.5
x1 0.880 0.209
x2 -0.370 -0.261
x3

20
x4 -0.297 0.942
x5

Comp.1 Comp.2
SS loadings 1.0 1.0
Proportion Var 0.2 0.2
Cumulative Var 0.2 0.4
Comp.3 Comp.4
SS loadings 1.0 1.0
Proportion Var 0.2 0.2
Cumulative Var 0.6 0.8
Comp.5
SS loadings 1.0
Proportion Var 0.2
Cumulative Var 1.0

donde la compoenete 1:

pr1 = −0,997X5 pr2 = −0,991X3 pr3 = −0,424X1 − 0,887X2 + 0,105X3 − 0,153X5

Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 8990.0634130 1.674828e+02 1.042095e+01 2.616847e+00
Proportion of Variance 0.9996516 3.469475e-04 1.343190e-06 8.469933e-08
Cumulative Proportion 0.9996516 9.999986e-01 9.999999e-01 1.000000e+00
Comp.5
Standard deviation 1.102015e+00
Proportion of Variance 1.502097e-08
Cumulative Proportion 1.000000e+00

notamos que la proporción de varianza es bastante pequeña, Ahora bien por la alta correlación que existe
entre las variables y dado que algunas estan aportando lo mismo a la variable respuesta decidimos eliminar
la variable X1 , X4 , X5 . asi Para nuestro nuevo modelo

Call:
lm(formula = y ~ x2 + x3, data = dat)

Coefficients:
(Intercept) x2 x3
14660.031 -98.524 9.703

Asi el nuevo modelo es


Ŷ = 14660,031 − 98,524X2 + 9,703X3

21

También podría gustarte