0% encontró este documento útil (0 votos)
233 vistas14 páginas

Análisis Estadístico y Modelos de Regresión

El documento presenta una tarea de estadística que incluye varios ejercicios. En el primer ejercicio, se analizan datos sobre rendimiento de kilometraje y desplazamiento de motores de 20 automóviles. En el segundo ejercicio, se examinan datos sobre precios de venta y impuestos anuales de 24 casas. En el tercer ejercicio, se estudia la relación entre uso de vapor y temperatura promedio mensual para una planta química. Finalmente, el cuarto ejercicio implica construir un ranking de las 1000 me

Cargado por

Fabian Lopez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
233 vistas14 páginas

Análisis Estadístico y Modelos de Regresión

El documento presenta una tarea de estadística que incluye varios ejercicios. En el primer ejercicio, se analizan datos sobre rendimiento de kilometraje y desplazamiento de motores de 20 automóviles. En el segundo ejercicio, se examinan datos sobre precios de venta y impuestos anuales de 24 casas. En el tercer ejercicio, se estudia la relación entre uso de vapor y temperatura promedio mensual para una planta química. Finalmente, el cuarto ejercicio implica construir un ranking de las 1000 me

Cargado por

Fabian Lopez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

ESTADISTICA

UNIDAD 3: TAREA 2

1. Los datos que se muestran en el archivo [Link] son rendimiento de kilometraje de


gasolina (en millas por galón) y desplazamiento del motor (em centímetros cúbicos) para
una muestra de 20 automóviles.
a) Cree una variable EngineDispIn3 que contenga el desplazamiento del motor en
pulgadas cubicas. Una pulgada cubica es equivalente a 16.3871 centímetros cúbicos.
Redondee al entero más cercano.
EngineDispIn3 <- round(reg1$EngineDisp*16.3871, digits = 0)

reg2 <- mutate(reg1,EngineDispIn3)

reg2

b) Construya el diagrama de dispersión para las dos variables mpg y EngineDispIn3


plot(reg2$MPG, EngineDispIn3, pch = 19, col = "black")

plot(reg2$MPG ~ EngineDispIn3, pch = 19, col = "red")

c) Calcule el coeficiente de correlación entre las dos variables mpg y EngineDispIn3


cor(reg2$MPG, reg2$EngineDispIn3)

d) Ajuste un modelo lineal simple que relacione millas de carretera por galón (y) al
desplazamiento del motor (x) utilizando mínimos cuadrados.
modelo <- lm(reg2$MPG ~ reg2$EngineDispIn3, data = reg2)

summary(modelo)

e) Encuentre una estimación del rendimiento medio de kilometraje de gasolina en


carretera para un automóvil con un desplazamiento del motor de 150 pulgadas cubicas.
cor(reg2$MPG, reg2$Model=="Escort")

f ) Obtenga el valor ajustado de y el residuo correspondiente para un automóvil, el Ford


Escort, con un desplazamiento del motor de 114 pulgadas cubicas.
cor(reg2$MPG, reg2$EngineDispIn3)

g) ¿cómo interpreta el coeficiente de determinación de este modelo?


modelo <- lm(reg2$Model=="Escort" ~ reg2$EngineDispIn3, data = reg2)

summary(modelo)
Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano


Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

2. En el archivo [Link] presenta datos sobre el precio de venta y los impuestos anuales
para 24 casas.
a) Suponiendo que un modelo de regresión lineal simple es apropiado, obtener el ajuste
de mínimos cuadrados relacionando el precio de venta con impuestos pagados
Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

b) Encuentre el precio de venta medio dado que los impuestos pagados son x = 7, 50.
El precio de venta es de 30,9
c) Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo
correspondiente.
Y= 35.9, residuo= 0.16
d) Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego
construya una gráfica de ˆy versus el correspondiente valor observado yi .
Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

e) Encuentre los residuos para el modelo de mínimos cuadrados.


A=y – bx
A= 5.05
3. Se cree que la cantidad de libras de vapor utilizadas por mes por una planta química
está relacionada con la temperatura ambiente promedio (en grados Farenheit) para ese
mes. El uso y la temperatura del año pasado se muestran en el archivo [Link].
a) Suponiendo que un modelo de regresión lineal simple es apropiado, ajustar el modelo
de regresión que relaciona el uso de vapor (y) con la temperatura media (x)

library(tidyverse)
#Literal A
regresionVapor= [Link]("[Link]",header = TRUE, dec=",", sep = ";")
regre = lm(Libras_Miles ~ Temp, data = regresionVapor)
regre
summary(regre)
# Según la fórmula anterior nuestra ecuacion de recta de minimos cuadrados
# es: Y = 9.20836 x - 6.33550
plot(regresionVapor$Temp, regresionVapor$Libras_Miles,
xlab = "Temperatura Media",
ylab = "Uso Vapor")
abline(regre)
Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

b) ¿Cuál es la estimación del uso de vapor esperado cuando la temperatura promedio es


de 55 ◦F?
Y_3 = 9.20836*(55) -6.33550
Y_3
## Según la fórmula de linealidad a los 55 °F se producen unas 500.12 libras de vapor
c) ¿Qué cambio en el uso medio de vapor se espera cuando la temperatura promedio
mensual cambia en 1 ◦F?
PromMensual = mean(regresionVapor$Temp)
PromMensual
MensualAjust_1 = PromMensual + 1
MensualAjust_1
MensualAjust_2 = PromMensual - 1
MensualAjust_2
Y_1 = 9.20836*(MensualAjust_1) -6.33550
Y_1
Y_2 = 9.20836*(MensualAjust_2) -6.33550
Y_2
d) Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado de
“y” y el residuo correspondiente
ValorAjust <- fitted(regre)
ValorAjust
ValorResidual <- residuals(regre)
ValorResidual
# Valor ajustado de 47 °F es 426.4575 Libras, haciendo de su residuo -1.6175 Libras de
vapor
e) Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego
construya una gráfica de ˆy versus el correspondiente valor observado yi
ValorAjust <- fitted(regre)
ValorAjust
plot(ValorAjust,regresionVapor$Libras_Miles
Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

, xlab = "Uso Vapor", ylab = "Uso Vapor Ajustado" )


f) Encuentre los residuos para el modelo de mínimos cuadrados.
ValorModelo <- rstandard(regre)
ValorModelo
g) Elabore una gráfica de probabilidad normal de los residuales e interprete esta
presentación.
hist(ValorModelo, freq = FALSE, col = "lightcyan", main = "Gráfico de probabilidad
normal de residuales", xlab = " ", ylab = "Densidad residuales")
lines(density(ValorModelo), col ="red", lwd = 2)
# Es más probable que los residuales estén ubicados en los numerales -1 y 0,
significando que es más probable que los residuales sean negativos.
h) Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de
varianza constante?
plot(ValorAjust,ValorResidual, xlab = "Valor Ajustado de Vapor", ylab = "Valores del
Residual de Vapor")
plot(regresionVapor$Temp,ValorResidual, xlab = "Temperatura", ylab = "Valor
residual de vapor")
#Parece que si se cumple con el supuesto de varianza constante, que dado por los
gráficos podemos verificar que no hay variación respecto a los residuales.
i) ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?
Desvi = sd(regresionVapor$Libras_Miles)
media = mean(regresionVapor$Libras_Miles)
x = (Desvi/media)*100
x
# Tiene una proporción del 37.9% indicando que el conjunto de datos es heterogéneo, es
decir, que el promedio no es representativo de la grafica
4.-A partir del archivo “[Link]¸construya el ranking de las 1000 mejores
empresas de acuerdo a las utilidades.
a) Realice un diagrama de dispersión del número de empleados contra la utilidad.
Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

b) Determine la correlación entre el número de empleados y la utilidad


Una vez cargados los datos graficamos los diagramas de dispersión por pares de
variables ,las variables para las que se quiere realizar son las tres primeras por lo que las
seleccionamos indicando que del conjunto datos solo queremos las columnas de la 1 a la
3. En la figura se observa que cuando se relaciona la utilidad con los empleados si hay
una tendencia creciente bien definida, mas cuando se relacionan las ventas ya sea con
utilidad o con empleados la tendencia no está bien definida.
c) Establezca un modelo de regresión lineal simple donde la variable dependiente sea la
utilidad y la independiente sea el número de empleados. Interprete sus resultados.

d) Incluya en su modelo de regresión las ventas. Interprete sus resultados


Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

En este caso todos los coeficientes son significativos.


Para interpretar los coeficientes es necesario fijarse que en los coeficientes para el
tamaño no se encuentra el tamaño grande puesto que este tamaño es tomado como base
y su efecto está incluido en el intercepto.
La interpretación de cada coeficiente es

• Intercepto: cuando la empresa no tiene empleados, ni ventas pero es de tamaño


grande las perdidas son en promedio de 255 500
• Empleados: por cada aumento de un empleado la utilidad promedio de las
empresas aumenta en 4 961
• Ventas: por cada dólar adicional en ventas las utilidades aumentan en promedio
0.007824 dólares, dicho de otra forma por cada 1000 dólares de ventas las
empresas tienen en promedio una utilidad de $ 7.82.
• Tamaño Mediana: cuando la empresa es mediana la utilidad aumenta en
promedio 181 200 respecto a las empresas grandes
• Tamaño Microempresa: cuando la compañía es microempresa la utilidad
aumenta en promedio 232 200 respecto a las empresas grandes
Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

5. Con el conjunto de datos [Link] realice los siguientes ejercicios. Para los
ejercicios b, c y d investigue sobre la regresión lineal múltiple. Adicionalmente
investigue sobre los supuestos de los modelos de regresión y como verificarlos en R.
a) Le gustaría saber si la edad de los huéspedes influye en la cantidad gastada por día
(conjunto de datos [Link]). Ejecute una regresión lineal con la edad como
independiente y los gastos como variable dependiente. Verifique el cumplimiento de los
supuestos.
library(readx1)
library(tidyverse)
library(car)
library(boot)
library(QuantPsyc)
library(ggplot2)
attach(tourism)
names(tourism)
class(age)
class (expenses)
modelo1 =lm(age ~ expenses, data = tourism, [Link] = [Link])
summary(modelo1)
age = intercepto + B expenses + error
age = -24.08 + 0.195 expenses
grafica1= ggplot(tourism, aes(age,expenses))
grafica1 + geom_point()
grafica1 + geom_point() + geom_smooth(method = “lm”, colour = “Red”)
Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

b) Suponga que usted no esta realmente satisfecho con su resultado, pensando que una
variable independiente puede no ser suficiente para explicar el gasto diario. Al entrar en
detalles se piensa que además de la edad, la satisfacción con la estación de esquí y la
duración de la estancia también pueden influir en el gasto diario. Ejecute el nuevo modelo
de regresión y verifique los supuestos.
library(readx1)
library(tidyverse)
library(car)
library(boot)
library(QuantPsyc)
library(ggplot2)
attach(tourism)
names(tourism)
class(satisfaction)
class (expenses)
modelo1 =lm(satisfaction ~ expenses, data = tourism, [Link] = [Link])
summary(modelo1)
satisfaction = intercepto + B expenses + error
satisfaction = 6.85 + 0.154 expenses
grafica1= ggplot(tourism, aes(satisfaction,expenses))
grafica1 + geom_point()
Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

grafica1 + geom_point() + geom_smooth(method = “lm”, colour = “Red”)


c) Al modelo del ejercicio anterior añada la variable acomodación. Ejecute el modelo de
regresión y verifique los supuestos.
library(readx1)
library(tidyverse)
library(car)
library(boot)
library(QuantPsyc)
library(ggplot2)
attach(tourism)
names(tourism)
class(accomodation)
class (expenses)
modelo1 =lm(accomodation ~ expenses, data = tourism, [Link] = [Link])
summary(modelo1)
accomodation = intercepto + B expenses + error
accomodation = 6.85 + 0.154 expenses
grafica1= ggplot(tourism, aes(accomodation,expenses))
grafica1 + geom_point()
grafica1 + geom_point() + geom_smooth(method = “lm”, colour = “Green”)
Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

d) Finalmente añada la variable sexo. Ejecute el nuevo modelo de regresión y verifique


los supuestos.
library(readx1)
library(tidyverse)
library(car)
library(boot)
library(QuantPsyc)
library(ggplot2)
attach(tourism)
names(tourism)
class(sex)
class(expenses)
modelo1 =lm(sex ~ expenses, data = tourism, [Link] = [Link])
summary(modelo1)
sex = intercepto + B expenses + error
sex = 6.85 + 0.154 expenses
grafica1= ggplot(tourism, aes(sex ,expenses))
grafica1 + geom_point()
grafica1 + geom_point() + geom_smooth(method = “lm”, colour = “Green”)
Datos del alumno Fecha

Nombres: Fabian Alberto 29/07/2022

Apellidos: Lopez Zambrano

También podría gustarte