100% encontró este documento útil (1 voto)
49 vistas7 páginas

Regresión R

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (1 voto)
49 vistas7 páginas

Regresión R

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Tarea dos - Análisis de regresión

Juliana María Daniela Castillo Rodríguez

2024-06-16

A continución se muestra el desarrollo de la tarea propuesta.

Carga de la base de datos:


[Link]()

## [1] "D:\\01. ESPECIALIZACIÓN EN ESTADÍSTICA\\02. SEGUNDO


TRIMESTRE\\01. ANALISIS DE REGRESION\\ACTIVIDADES\\TAREADOS-
REGRESION\\valor_propiedades.txt"

ruta <- "D:\\01. ESPECIALIZACIÓN EN ESTADÍSTICA\\02. SEGUNDO


TRIMESTRE\\01. ANALISIS DE REGRESION\\ACTIVIDADES\\TAREADOS-
REGRESION\\valor_propiedades.txt"

vr_prop = [Link](ruta, header = TRUE, sep = "")


vr_prop

## y x1 x2 x3 x4 x5 x6 x7 x8 x9
## 1 25.9 4.9176 1.0 3.4720 0.998 1.0 7 4 42 0
## 2 29.5 5.0208 1.0 3.5310 1.500 2.0 7 4 62 0
## 3 27.9 4.5429 1.0 2.2750 1.175 1.0 6 3 40 0
## 4 25.9 4.5573 1.0 4.0500 1.232 1.0 6 3 54 0
## 5 29.9 5.0597 1.0 4.4550 1.121 1.0 6 3 42 0
## 6 29.9 3.8910 1.0 4.4550 0.988 1.0 6 3 56 0
## 7 30.9 5.8980 1.0 5.8500 1.240 1.0 7 3 51 1
## 8 28.9 5.6039 1.0 9.5200 1.501 0.0 6 3 32 0
## 9 35.9 5.8282 1.0 6.4350 1.225 2.0 6 3 32 0
## 10 31.5 5.3003 1.0 4.9883 1.552 1.0 6 3 30 0
## 11 31.0 6.2712 1.0 5.5200 0.975 1.0 5 2 30 0
## 12 30.9 5.9592 1.0 6.6660 1.121 2.0 6 3 32 0
## 13 30.0 5.0500 1.0 5.0000 1.020 0.0 5 2 46 1
## 14 36.9 8.2464 1.5 5.1500 1.664 2.0 8 4 50 0
## 15 41.9 6.6969 1.5 6.9020 1.488 1.5 7 3 22 1
## 16 40.5 7.7841 1.5 7.1020 1.376 1.0 6 3 17 0
## 17 43.9 9.0384 1.0 7.8000 1.500 1.5 7 3 23 0
## 18 37.5 5.9894 1.0 5.5200 1.256 2.0 6 3 40 1
## 19 37.9 7.5422 1.5 5.0000 1.690 1.0 6 3 22 0
## 20 44.5 8.7951 1.5 9.8900 1.820 2.0 8 4 50 1
## 21 37.9 6.0831 1.5 6.7265 1.652 1.0 6 3 44 0
## 22 38.9 8.3607 1.5 9.1500 1.777 2.0 8 4 48 1
## 23 36.9 8.1400 1.0 8.0000 1.504 2.0 7 3 3 0
## 24 45.8 9.1416 1.5 7.3262 1.831 1.5 8 4 31 0
dim(vr_prop)

## [1] 24 10

n = 24
n

## [1] 24

Punto uno:
Ajuste un modelo de regresión lineal simple que relacione el precio de venta (y) de la
casa con los impuestos actuales (x1), en miles de dólares. Interprete los parámetros
estimados del modelo.
model_ho = lm(y~x1, data = vr_prop)
coefficients(model_ho)

## (Intercept) x1
## 13.320179 3.324371

El intercepto 13.320179 indica que la casa tendra un valor de 13320,2 UDS cuando los
impuestos sean cero y que a medida que los impuestos se incrementen en 1000 USD el
valor de la casa aumentará en 3324,31 USD.

Punto dos:
Pruebe la hipótesis H0 : β1 = 0.
p_valor = round(2*pt(8.518,22,[Link] = FALSE), 10)
p_valor

## [1] 2.05e-08

Teóricamente se sabe que cuando el p-value es menor a 0.05 se puede rechazar la


hipótesis nula, como se observa el valor del p-value es de 2.05e-08 lo que indica que
se rechaza la hipótesis H0 : β1 = 0.

Punto tres:
¿Qué porcentaje de la variabilidad total en el precio de venta es explicado por este
modelo?
SCT_h = sum((vr_prop$y-mean(vr_prop$y))^2)
SCT_h

## [1] 829.0462

SCR_h = sum((predict(model_ho)-mean(vr_prop$y))^2)
SCR_h

## [1] 636.1557
SCE_h = sum(residuals(model_ho)^2)
SCE_h

## [1] 192.8906

R_sq = (SCR_h/SCT_h)*100
R_sq

## [1] 76.73344

El 76.73% de la variabilidad observada en el precio de venta de las casas en Erie es


explicada por el modelo de regresión.

Punto cuatro:
Realice un ANOVA del modelo y pruebe la significancia de la regresión.
Tabla_ANOVA_c = [Link](
Fuentes_Variabilidad = c("Regresion", "Residual", "Total"),
Sumas_Cuadrados = c(SCR_h,SCE_h,SCT_h),
Grados_Libertad = c(1, n-2, n-1),
Cudrados_Medios = c(SCR_h/1, SCE_h/(n-2), NA),
Estadistica_F = c((SCR_h/1)/(SCE_h/(n-2)), NA, NA)
)

View(Tabla_ANOVA_c)

Punto cinco:
Encuentre un intervalo de confianza del 95% para β0, β1 y σ2. Interpretelos.
Para β0 y β1:
confint(model_ho, level=0.95)

## 2.5 % 97.5 %
## (Intercept) 7.986755 18.653604
## x1 2.514988 4.133754

Para σ2:
CME_h = SCE_h/(n-2)
CME_h

## [1] 8.767753
chi1_h = qchisq(0.025, n-2, [Link] = F)
chi1_h

## [1] 36.78071

chi2_h = qchisq(0.025, n-2)


chi2_h

## [1] 10.98232

lim_inf_h = (n-2)*CME_h/chi1_h
lim_inf_h

## [1] 5.24434

lim_sup_h = (n-2)*CME_h/chi2_h
lim_sup_h

## [1] 17.56373

IC_h = c(lim_inf_h, lim_sup_h)


IC_h

## [1] 5.24434 17.56373

El intervalo de confianza al 95 % para β0 está entre 7986 USD y 18653 USD, para β1
está entre 2514 USD y 4133 USD y para σ2 se encuentra entre 5244 USD y 17563 USD.

Punto seis:
Encuentre un intervalo de confianza del 95% para el precio de venta promedio de una
casa para la cual los impuestos actuales son $750.
new_data = [Link](x1=0.750)
new_data

## x1
## 1 0.75

predict(model_ho, newdata = new_data, interval = "confidence")

## fit lwr upr


## 1 15.81346 11.06792 20.55899

El intervalo se encuentra entre 11.067 USD y 20.558 USD siendo el valor promedio de
15.813 USD.

Punto siete:
Calcule y grafique las bandas de confianza y predicción del 95%.
predict(model_ho, newdata = vr_prop, interval = "confidence")
## fit lwr upr
## 1 29.66811 27.93018 31.40603
## 2 30.01118 28.33003 31.69233
## 3 28.42247 26.46223 30.38271
## 4 28.47034 26.51904 30.42163
## 5 30.14050 28.48017 31.80084
## 6 26.25531 23.86547 28.64515
## 7 32.92732 31.60839 34.24625
## 8 31.94962 30.53839 33.36085
## 9 32.69528 31.35770 34.03286
## 10 30.94034 29.40068 32.48001
## 11 34.16798 32.90982 35.42613
## 12 33.13077 31.82640 34.43514
## 13 30.10825 28.44276 31.77375
## 14 40.73427 38.78678 42.68177
## 15 35.58316 34.30759 36.85873
## 16 39.19742 37.51893 40.87591
## 17 43.36718 40.89442 45.83993
## 18 33.23117 31.93335 34.52899
## 19 38.39325 36.83808 39.94842
## 20 42.55836 40.25319 44.86353
## 21 33.54266 32.26240 34.82293
## 22 41.11425 39.09508 43.13342
## 23 40.38056 38.49816 42.26296
## 24 43.71025 41.16514 46.25536

predict(model_ho, newdata = vr_prop, interval = "prediction")

## fit lwr upr


## 1 29.66811 23.28610 36.05012
## 2 30.01118 23.64440 36.37797
## 3 28.42247 21.97637 34.86857
## 4 28.47034 22.02695 34.91372
## 5 30.14050 23.77918 36.50182
## 6 26.25531 19.66585 32.84477
## 7 32.92732 26.64646 39.20818
## 8 31.94962 25.64873 38.25051
## 9 32.69528 26.41047 38.98009
## 10 30.94034 24.60945 37.27124
## 11 34.16798 27.89959 40.43636
## 12 33.13077 26.85295 39.40859
## 13 30.10825 23.74559 36.47092
## 14 40.73427 34.29204 47.17651
## 15 35.58316 29.31126 41.85506
## 16 39.19742 32.83134 45.56350
## 17 43.36718 36.74719 49.98716
## 18 33.23117 26.95470 39.50763
## 19 38.39325 32.05857 44.72794
## 20 42.55836 35.99913 49.11758
## 21 33.54266 27.26980 39.81552
## 22 41.11425 34.64999 47.57851
## 23 40.38056 33.95770 46.80342
## 24 43.71025 37.06290 50.35760

predict.int_h = predict(model_ho, interval = "prediction")

datos_v_p = cbind(vr_prop,predict.int_h)

View(datos_v_p)

library(ggplot2)

predict.int_h <- predict(model_ho, interval = "prediction")

g_b_c <- ggplot(datos_v_p, aes(x1,y))+


geom_point()+
stat_smooth(method = lm)
g_b_c + geom_line(aes(y = lwr), color = "red", linetype = "dashed")+
geom_line(aes(y = upr), color = "red", linetype = "dashed")

También podría gustarte