Análisis de Regresión Múltiple en Ventas de Autos
Análisis de Regresión Múltiple en Ventas de Autos
Katy Pacheco
Asignatura
Modelos de Regresión
Docente
Guillermo Martı́nez Florez
Universidad de Códoba
Facultad de Ciencias Básicas
Departamento de Matemáticas y Estadı́stica
Monterı́a - Córdoba
2016
1
Los siguientes Datos de automóviles de pasajeros proporciona información sobre los automóviles de pasajeros
nuevos vendidos en Estados Unidos como función de diversas [Link] datos fueron tomados del libro de
Econometrı́a 5 Edición, Damodar N. Gujarati and Dawn C. Porter, Las variables son las siguientes
Y =automóviles de pasajeros nuevos vendidos (miles), sin ajuste estacional.
X2 = IPC, todos los renglones, todos los consumidores urbanos, 1967 =100, sin ajuste estacional.
X3 = ingreso personal disponible (IPD), miles de millones de dólares, sin ajustar por variación estacional.
X5 = fuerza laboral civil empleada (miles), sin ajustar por variación estacional
años y x1 x2 x3 x4 x5
1971 10227 112.0 121.3 776.8 4.89 79367
1972 10872 111.0 125.3 839.6 4.55 82153
1973 11350 111.1 133.1 949.8 7.38 85064
1974 8775 117.1 147.7 1038.4 8.61 86794
1975 8539 127.6 161.2 1142.8 6.16 85846
1976 9994 135.7 170.5 1252.6 5.22 88752
1977 11046 142.9 181.5 1379.3 5.50 92017
1978 11164 153.8 195.3 1551.2 7.78 96048
1979 10559 166.0 217.7 1729.3 10.25 98824
1980 8979 179.3 247.0 1918.0 11.28 99303
1981 8535 190.2 272.3 2127.6 13.73 100397
1982 7980 197.6 286.6 2261.4 11.20 99526
1983 9179 202.6 297.4 2428.1 8.69 100834
1984 10394 208.5 307.6 2670.6 9.65 105005
1985 11039 215.2 318.5 2841.1 7.75 107150
1986 11450 224.4 323.4 3022.1 6.31 109597
Análisis Descriptivo
Realizaremos un análisis descriptivo a nuestra base de datos, para conocer el comportamineto de cada una
de nuestras variables en la siguiente tabla miramos algunas estadisticas importantes para nuestras variables.
y x1 x2 x3 x4 x5
Min. 7980 111.0 121.3 776.8 4.550 79367
Q1 8928 125.0 157.8 1116.7 5.995 86557
Q2 10310 159.9 206.5 1640.2 7.765 97436
Y 10005 162.2 219.2 1745.5 8.059 94792
Q3 11041 198.8 289.3 2303.1 9.800 100506
Máximo 11450 224.4 323.4 3022.1 13.730 109597
var 1354069 1661.791 5429.375 550945.8 6.979873 85681324
Notamos que el promedio de automóviles de pasajeros nuevos vendidos (miles), es de 10005, y que enpro-
medio 162.2 automóviles nuevos fueron vendididos sin ajustes estacional , asi mismo la tasa de interés,
porcentaje en promedio fue de 8.059, asi mismo 94792 en promedio fue la fuerza laboral civil empleada
(miles).
2
Notamos que la mayor varianza la tiene fuerza laboral civil empleada (miles), lo que nos indica la alta
variabilidad que tiene los datos.
Notamos que los datos tienen una alta variabilidad
Análisis de correlación
Comenzamos representando los datos en una nube de puntos multiples, donde vemos la relación entre las
variables
Notamos que una mayor tendecial lineal entre las variables (X1 X2 ), (X1 X3 ) ,(X2 X3 ),(X5 X1 ), estan altamente
corelacionadas lo cual es un gran indicio que nuestros datos presentan problemas de multicolinealidad. Ahora
miremos la matriz de correlación para realifirmar lo dicho anteriormente Notamos que la matriz de correlacion
Y X1 X2 X3 X4 X5
Y 1.00 -0.07 -0.10 0.00 -0.54 0.04
X1 -0.07 1.00 1.00 0.99 0.53 0.97
X2 -0.10 1.00 1.00 0.99 0.54 0.97
X3 0.00 0.99 0.99 1.00 0.46 0.97
X4 -0.54 0.53 0.54 0.46 1.00 0.54
X5 0.04 0.97 0.97 0.97 0.54 1.00
nos confirma lo dicho anteriormente vemos que existe una correlacion de mas del 90 % entre las variables
(X3 ,X1 ), (X3 ,X2 ) , (X3 , X5 ) ademas (X5 , X1 ) tambien tienen una correlaciń del 97 %, lo cual es indicio de
problemas de multicolinealidad en los datos.
Ahora bien un modelo de regresión lineal seria de la siguiente forma:
Y = β0 + β1 x1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + i
160082,00 3048,3310950
25916733,20
53,3976269
34948727,50 −105,4709455
X 0Y = entonces, β̂ = (X 0 X)1 X 0 Y =
279492985,90
6,1833484
1265115,00 −102,1704546
15181595495,00 0,1206896
3
10117,625 109,37525
10401,637
470,36312
10327,893
1022,10662
9739,371
−964,37140
9657,634
−1118,63414
10234,971
−240,97107
10608,128
437,87227
11051,132
luego ˆ = Y − Ŷ = Ŷ = 112,86834
Si Ŷ =
10523,961
35,03874
9263,224
−284,22361
8354,589
180,41051
8222,200
−242,20002
8795,176
383,82401
9939,193
454,80686
10654,588 384,41205
12190,678 −740,67752
ˆ 4945565
Ahora bien, S 2 = n−p = 11 = 449596,8 la matriz de varianzas - covarianzas estimada del vector β es,
60311754,61 105063,91 −182715,96 21241,99 716836,19 −845,40
105063,91 4233,14 −2497,30 57,19 3494,06 −3,93
−182715,96 −2497,30 2336,00 −129,33 −5195,39 3,62
ar(β̂) = S 2 (X 0 X)−1
Vd =
21241,99 57,19 −129,33 12,47 420,77 −0,29
716836,19 3494,06 −5195,39 420,77 20919,70 −11,06
−845,40 −3,93 3,62 −0,29 −11,06 0,01
De la matriz de varianza-covarianza de los β̂ tenemos que los errores de estimación para cada parámetro vienen
dados por: q p
σ̂β2ˆ = 60311754,61 → σ̂β2ˆ = 60311754,61 = 7766,064 → σ̂βˆ0 = 7766,064
0 0
q p
σ̂β2ˆ = 4233,14 → σ̂β2ˆ = 4233,14 = 65,0626 → σ̂βˆ1 = 65,0626
1 1
q p
σ̂β2ˆ = 2336,00 → σ̂β2ˆ = 2336,00 = 48,33219 → σ̂βˆ2 = 48,33219
2 2
q p
σ̂β2ˆ = 12,47 → σ̂β2ˆ = 12,4760311754,61 = 3,531955 → σ̂βˆ3 = 3,531955
3 3
q p
σ̂β2ˆ = 20919,70 → σ̂β2ˆ = 20919,70 = 144,6364 → σ̂βˆ4 = 144,6364
4 4
q p
σ̂β2ˆ = 0,01 → σ̂β2ˆ = 0,01 = 0,1162521 → σ̂βˆ5 = 0,1162521
5 5
Ahora bien note que en ausencia de las distintas combinaciones de automiviles de pasajeros nuevos vendidos pa-
ra estimar la demanda de automóviles en Estados Unidos, el porcentaje de automoviles vendidos es de 7766.064
con un error de estimación de 3048,3311 . Al incrementar los automóviles nuevos, IPC, 1967= 100, sin ajuste
estacional( X1 )en una unidad el porcentaje de automoviles vendidos aumenta en 53,3971 con un error de esti-
mación de 65.0626, al incrementar en una unidad todos los consumidores urbanos (X2 ) el porcentaje dede venta
de automoviles en estados unidos disminuye 105,4709 con un error de estimación de 48.33219 y al incrementar
en una unidad el ingreso personal disponible (X3 ) el porcentaje de ventan de automoviles en estados unicos
aumenta en 6,1833 con un error de estimacón del 3.531955 ahora bien si incrementamos en una unidad la tasa
4
de interés (X4 ), porcentaje, colocación directa de valores de la compañı́a financiera el porcentaje de venta de
automoviles disminute en 102,1705 con un error de estimacón del 144.6364, y al incrementar la fuerza laboral
empleada (X5 ) en una unidad el porcentaje de automoviles vendidos en EEUU aumenta en 0,1207 con un error
de estimación de 0.1162521
Ahora cuando incrementamos en una unidad los automoviles nuevos , IPC, 1967= 100, sin ajuste estacional
como todos los renglones, todos los consumidores urbanos, 1967 = 100, sin ajuste estacional. se tiene
Luego,
Luego, con un error de 1574.538 se estima que un aumento de una unidad en automóviles nuevos, IPC,
1967= 100, sin ajuste estacional y IPC, todos los renglones, todos los consumidores urbanos, 1967 = 100,
sin ajuste estacional. produce una disminució en la venta de automoviles en EEUU de -52.0733
con un error de 2089.815 se estima que un aumento de una unidad en IPC, todos los renglones, todos los
consumidores urbanos, 1967 = 100, sin ajuste estacional y ingreso personal disponible (IPD), miles de mi-
llones de dólares, sin ajustar por variación estacional. produce una disminució en la venta de automoviles
en EEUU de -99.2876
con un error de 21773.71 se estima que un aumento de una unidad en los ingreso del personal disponible
(IPD), miles de millones de dólares, sin ajustar por variación estacional y la tasa de interés, porcentaje,
colocación directa de valores de la compañı́a financiera. produce un aumento en la venta de automoviles
en EEUU de 21773.71
5
Por ulyimo con un error de 20897.58 se estima que un aumento de una unidad en la tasa de interés, por-
centaje, colocación directa de valores de la compañı́a financiera y fuerza laboral civil empleada (miles), sin
ajustar por variación estacional. produce una disminucón en la venta de automoviles en EEUU de -102.0498
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x1 1 86991 86991 0.1759 0.683791
x2 1 4650409 4650409 9.4032 0.011912 *
x3 1 10143044 10143044 20.5094 0.001094 **
x4 1 447 447 0.0009 0.976612
x5 1 484576 484576 0.9798 0.345589
Residuals 10 4945565 494556
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Notamos que a la hora de predecir sobre los automoviles de pasajeros nuevos vendidios en EEUU, la variable
ingreso personal disponible(IPD),miles de millones de dólares, sin ajustar por variacón estacional(X3 ), es sig-
nificativa frente a predecir dicha la venta de automoviles con un p-valor de 1,094 × 10−3 asi mismo la variable
IPC,todos los consumidores urbanos, sin ajuste estacional(X2 ), es significativa para predecir dicha respuesta
con su media de 4650409 , (P-valor de 0.011912).
Note que el párametro estimado β3 es el unico que resulta significativo dado que no acepta la hipótesis nula
H0 : β3 = 0 ya que p-value de la prueba (0,001094) < 0,05los demás parámetros no son significativos ya que al
plantear las hipotesis se acentan puesto que el p-value de la prueba es mayor a 0.05
Ahora los intervalos de confianza del 95& para los párametros estimados son: Observamos que los interva-
2.5 % 97.5 %
(Intercept) -15100.12 21196.78
X1 -98.65 205.44
X2 -218.42 7.48
X3 -2.07 14.44
X4 -440.17 235.83
X5 -0.15 0.39
los para β0 , β1 , β2 , β3 , β4 contiene al cero esto es que quizas no sean significativos en el modelo solo el párametro
β5 no lo contiene al cero .
Miremos mediante la función summary algunas estaı́sticas importantes para el vector de parámetros β̂ como lo
son los respectivos errores estándar para cada párametro del modelo y los valores t del anava parcial , ademas
esta función nos arroja el valor de la desviacón estándar del error σ̂
Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = dat, x = T)
Residuals:
Min 1Q Median 3Q Max
-1118.6 -252.7 111.1 397.8 1022.1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3048.3311 8145.1170 0.374 0.7160
x1 53.3976 68.2382 0.783 0.4520
x2 -105.4709 50.6912 -2.081 0.0641 .
x3 6.1833 3.7043 1.669 0.1260
x4 -102.1705 151.6960 -0.674 0.5159
x5 0.1207 0.1219 0.990 0.3456
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
6
Residual standard error: 703.2 on 10 degrees of freedom
Multiple R-squared: 0.7565,Adjusted R-squared: 0.6348
F-statistic: 6.214 on 5 and 10 DF, p-value: 0.00715
Notamos que el ajuste del modelo explica un 75,65 % la variabilidad,el valor del coeficiente de determinanción
es de 63.48 % el ajuste no es tan bueno.
Note que, |t1 | = 0,783, |t2 | = 2,081, |t3 | = 1,669, |t4 | = 0,674, |t5 | = 0,990
Luego la secencia es X2 , X3 , X5 , X1 , X4 respectivamente
Coefiente de Determinación
Usaremos este criterio para selecioanr el mejor modelo, este criterio nos ayudara a eliminar aquellas variables
que al excluirlas del modelo no causen una significativa disminución en el R2 del modelo de regresión ajustado
con las variables restantes.
$which
1 2 3 4 5
1 FALSE FALSE FALSE TRUE FALSE
1 FALSE TRUE FALSE FALSE FALSE
1 TRUE FALSE FALSE FALSE FALSE
1 FALSE FALSE FALSE FALSE TRUE
1 FALSE FALSE TRUE FALSE FALSE
2 FALSE TRUE TRUE FALSE FALSE
2 FALSE FALSE FALSE TRUE TRUE
2 FALSE FALSE TRUE TRUE FALSE
2 TRUE FALSE FALSE TRUE FALSE
2 FALSE TRUE FALSE TRUE FALSE
2 FALSE TRUE FALSE FALSE TRUE
2 TRUE FALSE TRUE FALSE FALSE
2 TRUE TRUE FALSE FALSE FALSE
2 TRUE FALSE FALSE FALSE TRUE
2 FALSE FALSE TRUE FALSE TRUE
3 TRUE TRUE TRUE FALSE FALSE
3 FALSE TRUE TRUE FALSE TRUE
3 FALSE TRUE FALSE TRUE TRUE
3 FALSE TRUE TRUE TRUE FALSE
3 TRUE FALSE FALSE TRUE TRUE
3 FALSE FALSE TRUE TRUE TRUE
3 TRUE TRUE FALSE TRUE FALSE
3 TRUE FALSE TRUE TRUE FALSE
3 TRUE FALSE TRUE FALSE TRUE
3 TRUE TRUE FALSE FALSE TRUE
4 TRUE TRUE TRUE FALSE TRUE
4 FALSE TRUE TRUE TRUE TRUE
4 TRUE TRUE TRUE TRUE FALSE
4 TRUE TRUE FALSE TRUE TRUE
4 TRUE FALSE TRUE TRUE TRUE
5 TRUE TRUE TRUE TRUE TRUE
$label
[1] "(Intercept)" "1"
[3] "2" "3"
[5] "4" "5"
$size
[1] 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4
[20] 4 4 4 4 4 4 5 5 5 5 5 6
$r2
[1] 2.949860e-01 1.073283e-02
[3] 4.282936e-03 1.905373e-03
7
[5] 2.353404e-05 6.763561e-01
[7] 4.523680e-01 3.779062e-01
[9] 3.617524e-01 3.470109e-01
[11] 3.127969e-01 2.836886e-01
[13] 2.332427e-01 2.127192e-01
[15] 2.808235e-02 7.326287e-01
[17] 7.153491e-01 6.851675e-01
[19] 6.766017e-01 6.506047e-01
[21] 6.012150e-01 4.638612e-01
[23] 4.245419e-01 3.830643e-01
[25] 3.709383e-01 7.454629e-01
[27] 7.415986e-01 7.326507e-01
[29] 6.886649e-01 6.510979e-01
[31] 7.565084e-01
$label
[1] "(Intercept)" "1"
[3] "2" "3"
[5] "4" "5"
$size
[1] 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4
8
[20] 4 4 4 4 4 4 5 5 5 5 5 6
$adjr2
[1] 0.24462788 -0.05992911 -0.06683971
[4] -0.06938710 -0.07140336 0.62656468
[7] 0.36811698 0.28219952 0.26356047
[10] 0.24655098 0.20707332 0.17348688
[13] 0.11528006 0.09159906 -0.12144344
[16] 0.66578583 0.64418635 0.60645941
[19] 0.59575212 0.56325590 0.50151875
[22] 0.32982654 0.28067739 0.22883043
[25] 0.21367286 0.65290397 0.64763448
[28] 0.63543272 0.57545217 0.52422443
[31] 0.63476265
Miremos si se puede escoger un mejor modelo que el que tenemos, para esto haremos una regresión paso a paso
por el metodo de Backward con la función step()
Start: AIC=214.26
y ~ x1 + x2 + x3 + x4 + x5
Step: AIC=212.97
y ~ x1 + x2 + x3 + x5
Step: AIC=211.76
y ~ x1 + x2 + x3
Call:
lm(formula = y ~ x1 + x2 + x3, data = dat, x = T)
Coefficients:
(Intercept) x1 x2
10605.364 88.557 -138.471
x3
8.813
Del anterior resultado se puede decir que el mejor modelo es donde eliminamos a las variables X4 , X5 , dado
que fue el menor AIC. Ahora bien usaremos el CRITERIO DE LA SUMA DE CUADRADOS DE LA
REGRESÓN calcularemos los PRESS para cada uno de nuestros modelos
Sea el modelo Y = β0 + β0 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + i , luego para calcular el valor del PRESS
en R-studio cargaremos la libreria DAAG y usaremos la funcón press, ası́
9
require(DAAG)
press(reg)
15413716
mod2=lm(y~x1+x2+x3+x5,data=dat,x=T);mod2
Call:
lm(formula = y ~ x1 + x2 + x3 + x5, data = dat, x = T)
Coefficients:
(Intercept) x1 x2
6549.31301 70.46239 -130.84492
x3 x5
8.23838 0.06669
> press(mod2)
[1] 14398054
mod3
Call:
lm(formula = y ~ x1 + x2 + x3, data = dat, x = T)
Coefficients:
(Intercept) x1 x2
10605.364 88.557 -138.471
x3
8.813
> press(mod3)
[1] 13584685
Asi notamos que el menor PRESS lo obtenemos con el modelo 3 eliminando las variables X4 , X5
Yi = β0 + β2 X2i + i
Call:
lm(formula = y ~ x2, data = dat, x = T)
Coefficients:
(Intercept) x2
10363.670 -1.636
H0 : β2 = 0
El juego de hipotesis es
H1 : β2 6= 0
10
SCR(X2 )
1601858415
Ahora bien usando la SCR(X2 ) y la SCE del modelo general. En efecto, Fc = 1
SCE = 4945565 =
n−p−1 10
3238,98, Donde la SCE es la obtenida con el modelo inicial. Comparando el estadistico Fc con Fα,1,n−p−1
lleva a rechazar H0 ya que Fc = 3238,98 > 4,96 = F0,05,1,10 por lo tanto IPC, todos los renglones, todos
los consumidores urbanos, 1967 = 100, sin ajuste estacional, si influye en la venta de automoviles en EEUU.
Segunda secuencia Dado que rechazamos la hipotesis anterior, entonces agregamos la siguiente variable
en este caso X3
Yi = β0 + β2 X2i + β3 X3i i
mod2=lm(y x2+x3,data = dat,x=T);mod2
lm(formula = y x2 + x3, data = dat, x = T)
Coefficients: (Intercept) x2 x3 14660.031 -98.524 9.703
H0 : β3 = 0
Ahora se lleva acabo el juego de hipótesis Ahora usando el siguiente estadistico
H1 : β3 6= 0/β2 6= 0
corroboramos el juego de hipótesis
SCR(X2 ,X3 )−SCR(X2 )
1 1615377910 − 1601858415
Fc = SCE
= 4945565 = 27,3366
n−p−1 10
Comparando el valor del estadı́stico Fc con Fα,1,n−p−1 = 4,96 se tiene que Fc = 27,3366 > 4,96,entonces
se rechaza H0 . Por tanto el ingreso personal disponible (IPD), miles de millones de dólares, sin ajustar
por variación estacional X3 si influye la venta de automoviles
Tercera Secuencia Dado que la hipótesis H0 anterior fue rechazada entonces añadimos la siguiente
variable en este caso fuerza laboral civil empleada (miles), sin ajustar por variación estacional(X5 ) Sea
Yi = β0 + β2 X2i + β3 X3i + β5 X5 + i
H0 : β5 = 0
se lleva a cabo el juego de hipótesis En cual corroboramos con el sui-
H1 : β5 6= 0/β3 6= 0/β2 6= 0
guiente estadı́stico
SCR(X2 ,X3 ,X5 )−SCR(X2 ,X3 )
1 1616169898 − 1615377910
Fc = SCE
= 4945565 = 1,601411
n−p−1 10
Comparando el valor del estadı́stico Fc con Fα,1,n−p−1 = 4,96se tiene que Fc = 1,601411 < 4,96 =
Fα,1,n−p−1 , Entonces no se rechaza H0 . por tanto el material X5 no influye en la venta de automoviles De
acuerdo con el análisis de varianza , el analisis parcial y el análisis secuencial se concluye que el modelo
final viene dado por
anova(reg1)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value
x1 1 86991 86991 0.1922
x2 1 4650409 4650409 10.2760
x3 1 10143044 10143044 22.4131
Residuals 12 5430588 452549
Pr(>F)
x1 0.668861
x2 0.007553 **
x3 0.000485 ***
Residuals
11
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’
0.1 ‘ ’ 1
ANÁLISIS DE DIAGNOSTICO
El modelo que se esta estudiando es:
Y = β0 + β1 x1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + i
12
15 -0.1067 0.06247 0.4562 2.138
16 -0.4653 0.70945 -2.9054 0.518
cook.d hat inf
1 0.043010 0.737 *
2 0.028951 0.230
3 0.407750 0.407
4 0.491166 0.459 *
5 0.117843 0.185
6 0.009428 0.262
7 0.062155 0.375
8 0.002988 0.321
9 0.000421 0.385 *
10 0.012013 0.249
11 0.014113 0.425
12 0.015164 0.337
13 0.052727 0.392
14 0.029674 0.244
15 0.036816 0.331
16 1.053588 0.660 *
Ahora para verificar los valores de los estadı́sticos, los podemos representar gráfı́camente para apreciar mejor
los puntos in uyentes:
13
Donde observamos que las observacones 1,4,9,11,16 son posibles observaciones influyentes sobre la estimacón de
los β̂, ahora usaremos el estadistico
θ̂ − θ̂(At )
Z=
θ̂
Para selecionar las observaciones influyentes que vamos a extraer de la base de datos
Excluyendo la observac0́n 16
Primero extraeremos la observación número 16 que es la mas influyente luego el modelo estimado viene
dado por
datos1=[Link](dat[-c(16),])
modn<-lm(y~x1+x2+x3+x4+x5,data = datos1,x = T);mod1n
Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)
Coefficients:
(Intercept) x1 x2 x3
7226.40909 110.32927 -174.24828 10.99581
x4 x5
-41.08602 0.04583
Excluyendo la observación 1
Notamos que el nuevo modelos viene dado por
datos12=[Link](dat[-c(1),])
Coefficients:
(Intercept) x1 x2 x3
434.2277 29.3175 -89.3883 5.4288
x4 x5
-129.5941 0.1682
Excluyendo la observación 9
Notamos que el nuevo modelos viene dado por
datos123=[Link](dat[-c(9),])
Coefficients:
(Intercept) x1 x2 x3
3237.1088 52.0480 -104.5101 6.1882
x4 x5
-104.1060 0.1188
14
Excluyendo la observación 4
Notamos que el nuevo modelos viene dado por
datos=[Link](dat[-c(4),])
Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)
Coefficients:
(Intercept) x1 x2 x3
4956.7329 -24.0320 -84.4407 7.6862
x4 x5
-38.4516 0.1525
Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)
Coefficients:
(Intercept) x1 x2 x3
1.410e+04 1.771e+02 -2.245e+02 1.365e+01
x4 x5
3.426e+01 -7.905e-02
Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)
Coefficients:
(Intercept) x1 x2 x3
-3154.3035 -114.2328 -29.1984 5.5001
x4 x5
-116.4196 0.3109
Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)
Coefficients:
(Intercept) x1 x2 x3
616.5275 28.1500 -88.5538 5.4356
15
x4 x5
-131.2910 0.1664
Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)
Coefficients:
(Intercept) x1 x2 x3
4988.3451 -24.2476 -84.2816 7.6868
x4 x5
-38.7894 0.1522
Coefficients:
(Intercept) x1 x2 x3
7676.79482 36.26824 -140.99848 10.97546
x4 x5
-6.72996 0.08894
Coefficients:
(Intercept) x1 x2 x3
6416.25015 119.36671 -181.73873 11.15096
x4 x5
-28.89399 0.05259
16
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos1, x = T)
Coefficients:
(Intercept) x1 x2 x3
5566.7837 25.4209 -134.4171 10.5203
x4 x5
-11.8963 0.1234
De los anteriores analisis tenemos que el Estadı́stico Z es mayor cuando se excluye las observaciones 1,16 por
tanto eliminaremos estas observaciones de la base de datos por lo tanto ell nuevo modelo estimado es
Validación de Supuestos
Ahora se realizara la validación de supuestos del modelo ajustado para
Linealidad Para el ajuste obtenido con los datos
Concideremos los gráficos de regresión parcial para ver la relación lineal entre regresores y respuesta
Observamos que la tendencia de residuos parciales es de tipo lineal, pero en el cuarto tenemos indicios de
problemas con la hipótesis de linealidad.
Normalidad Observemos el gráfico de probabilidad normal para los residuales del modelo
17
Donde observamos que la mayorı́a de residuos del modelo siguen una distribución normal. .las hipotesis a
contrastar aqui son
H0 los residuales proviene de una distribución normal
Prueba de Shapiro Wilk Para verificar la normalidad para los errores del modelo ajustado usamos el
test de Shapiro-Wilk teniendo como resultado
data: reg$res
W = 0.94162, p-value = 0.3694
Note que nuestro p-value es de (p−value = 0,3694 > 0,05 entonces no se rechaza la hipótesis de normalidad,
esto es, los errores del modelo siguen una distribucón normal-
Independencia Las hipotesis a contrastar son
Para verificar la independecia para los errores del modelo ajustado usamos el test de Durbin -Watson de
la libreria CAR , teniendo como resultado
Notamos que el p-value es de 0,006 < 0,05 por tanto se rechaza la hipotesis nula, es decir que nose cumple
el supuesto de que los errores son independientes.
Para corrobolar la indpeendencia de los residuales usaremos la prueba de rachas, esta se implementa con
la función [Link]() de la libreria tseries
data: X
Standard Normal = -0.27735, p-value = 0.7815
alternative hypothesis: [Link]
Notamos que en esta prueba el p-value resulta superior a 0.05 entonces podemos decir que existe indepen-
dencia en los errores
Homogenidad de varianza
Miremos el grafico de dispersión de los residuales del modelo
18
En el grafico parece que la varianza de los errores no tiene ningún patrón a crecer o decrecer, para verificar
la Homogeneidad de Varianzas para los errores del modelo ajustado usamos el test de Breusch-Pagan de
la libreria lmtest , teniendo como resultado Las hipotesis de la prueba son
H0 los residuales tienen varianza constante
bptest(reg)
studentized Breusch-Pagan test
data: reg
BP = 9.8523, df = 5, p-value = 0.07953
Lo que confirma lo dicho anteriormente, con un p-valor de 0.07953 el cual es mayor que 0.05 lo que lleva
al no rechazo de la hipotesis nula, es decir que el modelo no presenta problemas de heterocedasticidad
library(faraway)
> x<-reg$x;x
(Intercept) x1 x2 x3 x4 x5
1 1 112.0 121.3 776.8 4.89 79367
2 1 111.0 125.3 839.6 4.55 82153
3 1 111.1 133.1 949.8 7.38 85064
4 1 117.1 147.7 1038.4 8.61 86794
5 1 127.6 161.2 1142.8 6.16 85846
6 1 135.7 170.5 1252.6 5.22 88752
7 1 142.9 181.5 1379.3 5.50 92017
8 1 153.8 195.3 1551.2 7.78 96048
9 1 166.0 217.7 1729.3 10.25 98824
10 1 179.3 247.0 1918.0 11.28 99303
11 1 190.2 272.3 2127.6 13.73 100397
12 1 197.6 286.6 2261.4 11.20 99526
13 1 202.6 297.4 2428.1 8.69 100834
14 1 208.5 307.6 2670.6 9.65 105005
15 1 215.2 318.5 2841.1 7.75 107150
16 1 224.4 323.4 3022.1 6.31 109597
attr(,"assign")
[1] 0 1 2 3 4 5
x.x<-t(x)%*%x;x.x
(Intercept) x1 x2 x3
(Intercept) 16.00 2595.00 3506.40 27928.7
x1 2595.00 445803.42 613605.36 4979592.7
x2 3506.40 613605.36 849868.18 6933806.1
x3 27928.70 4979592.73 6933806.07 57014955.3
x4 128.95 21762.72 29845.89 238661.0
x5 1516677.00 251487699.10 342254926.20 2747663488.8
x4 x5
(Intercept) 128.950 1516677
x1 21762.716 251487699
x2 29845.892 342254926
x3 238661.034 2747663489
x4 1143.954 12420154
x5 12420154.310 145054540003
19
x1 x2 x3 x4 x5
234.696787 423.146560 229.301703 4.871592 38.632734
lambda<-eigen(x.x)$values;lambda
[1] 1.451078e+11 5.016401e+06 1.755663e+03 1.120163e+02
[5] 3.219376e+01 7.453402e-03
kappa<-max(lambda)/min(lambda); kappa
1.946867e+13
1 1
Tenemos que V IFj = 234,696787(j = 1, 2, 3, 4, 5) Ahora T OLj = V IFj
= 234,696787 = 0,004260817, ahora
2 2
como T OLj = 1 − R j , entonces R j = 1 − T OLj = 1 − 0,004260817 = 0,9957392 para j = 1, 2, 3, 4, 5
Note que el T OLj es cercano a cero y los VIF son bastante altos estos nos confirma a un mas nuestro
problema de multicolinealidad. Encontramos indicios de multicolinealidad entre los regresores respecto a
los criterios de diagnostico propuesto ya que :
> pr<-princomp(~x1+x2+x3+x4+x5,data=dat);pr
Call:
princomp(formula = ~x1 + x2 + x3 + x4 + x5, data = dat)
Standard deviations:
Comp.1 Comp.2
8990.063413 167.482830
Comp.3 Comp.4
10.420945 2.616847
Comp.5
1.102015
Loadings:
Comp.1 Comp.2 Comp.3
x1 -0.424
x2 -0.887
x3 -0.991 0.105
x4 -0.153
x5 -0.997
Comp.4 Comp.5
x1 0.880 0.209
x2 -0.370 -0.261
x3
20
x4 -0.297 0.942
x5
Comp.1 Comp.2
SS loadings 1.0 1.0
Proportion Var 0.2 0.2
Cumulative Var 0.2 0.4
Comp.3 Comp.4
SS loadings 1.0 1.0
Proportion Var 0.2 0.2
Cumulative Var 0.6 0.8
Comp.5
SS loadings 1.0
Proportion Var 0.2
Cumulative Var 1.0
donde la compoenete 1:
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 8990.0634130 1.674828e+02 1.042095e+01 2.616847e+00
Proportion of Variance 0.9996516 3.469475e-04 1.343190e-06 8.469933e-08
Cumulative Proportion 0.9996516 9.999986e-01 9.999999e-01 1.000000e+00
Comp.5
Standard deviation 1.102015e+00
Proportion of Variance 1.502097e-08
Cumulative Proportion 1.000000e+00
notamos que la proporción de varianza es bastante pequeña, Ahora bien por la alta correlación que existe
entre las variables y dado que algunas estan aportando lo mismo a la variable respuesta decidimos eliminar
la variable X1 , X4 , X5 . asi Para nuestro nuevo modelo
Call:
lm(formula = y ~ x2 + x3, data = dat)
Coefficients:
(Intercept) x2 x3
14660.031 -98.524 9.703
21