ACTIVIDAD
Caroline Velasquez
2023-06-26
EJERCICIO 4
Una compañía de electricidad está interesada a estimar el consumo mensual de
energía eléctrica de una vivienda en función del tamaño de la misma, considere una
muestra de 10 viviendas se obtuvieron los siguientes datos
library(readxl)
## Warning: package 'readxl' was built under R version 4.2.3
ruta <- "C:\\Users\\CIENCIAS\\Downloads\\[Link]"
data <- read_excel(ruta, 1)
data
## # A tibble: 10 × 2
## `Tamaño de casa` `Consumo mensual`
## <dbl> <dbl>
## 1 1290 1182
## 2 1350 1172
## 3 1470 1264
## 4 1600 1493
## 5 1710 1571
## 6 1840 1711
## 7 1920 1804
## 8 2230 1840
## 9 2400 1956
## 10 2930 1954
a. Realice un análisis descriptivo de los datos y resalte las características mas
relevantes.
# Tamaño de casa
boxplot(data$`Tamaño de casa`, horizontal = T)
Interpretación
En premedio el tamaño de las viviendas es de 1750, tambien decimos que es asimetrica
positive lo nos indica que la media sobre pasa en el tamaño de viviendas.
# Consumo mensual
boxplot(data$`Consumo mensual`, horizontal = T)
Interpretación
En promedio el consumo mensual es de 1650, es asimetrica negativa
b. Existe correlación significativa (analice de forma gráfica y analítica)
Para saber que tipo de coeficiente de correlación usar, realizamos un diagrama de
dispersión
plot(data)
Observamos que los datos no siguen una distribucion lineal por lo que rea
lizamos una prueba de normalidad
apply(data, 2, [Link])
## $`Tamaño de casa`
##
## Shapiro-Wilk normality test
##
## data: newX[, i]
## W = 0.92865, p-value = 0.4347
##
##
## $`Consumo mensual`
##
## Shapiro-Wilk normality test
##
## data: newX[, i]
## W = 0.89636, p-value = 0.1997
Interpretación
Al realizar la prueba de normalidad evidenciamos que el tamaño de casa y el consumo
mensual no provienen de poblacion normal entonces se recomienda usar el coeficiente
de correlacion de Spearman
library(PerformanceAnalytics)
## Warning: package 'PerformanceAnalytics' was built under R version 4.2.
3
## Loading required package: xts
## Warning: package 'xts' was built under R version 4.2.3
## Loading required package: zoo
## Warning: package 'zoo' was built under R version 4.2.3
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## [Link], [Link]
##
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
##
## legend
[Link](data, pch = 19)
## Warning in par(usr): argument 1 does not name a graphical parameter
Interpretación
Existe correlacion positiva directamente proporcional significativa lo que indica que el
tamaño de la casa aumenta, el consumo mensual tambien aumenta
c. Proponga un modelo de regresión
xpoly<- poly(data$`Tamaño de casa`, degree = 2, raw = TRUE)
LinearModel <- lm(data$`Consumo mensual`~xpoly)
summary(LinearModel)
##
## Call:
## lm(formula = data$`Consumo mensual` ~ xpoly)
##
## Residuals:
## Min 1Q Median 3Q Max
## -76.492 -24.204 4.365 26.653 65.490
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.273e+03 2.740e+02 -4.645 0.002356 **
## xpoly1 2.461e+00 2.772e-01 8.880 4.66e-05 ***
## xpoly2 -4.652e-04 6.651e-05 -6.994 0.000213 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 52.38 on 7 degrees of freedom
## Multiple R-squared: 0.9773, Adjusted R-squared: 0.9708
## F-statistic: 150.7 on 2 and 7 DF, p-value: 1.76e-06
Sea el modelo de predicción
y = -0.0005x^2 + 2.4615x -1272.7
d. Interprete el coeficiente de regresión
e. Estime el consumo mensual de la energía eléctrica cuando el tamaño de la casa
mide 1500
ypredict <- predict(LinearModel, interval = "predict", level = 0.95)
## Warning in [Link](LinearModel, interval = "predict", level = 0.95)
: predictions on current data refer to _future_ responses
ypredict
## fit lwr upr
## 1 1128.531 981.1807 1275.882
## 2 1202.534 1061.0050 1344.063
## 3 1340.492 1206.0445 1474.939
## 4 1474.827 1342.7670 1606.886
## 5 1576.214 1443.5467 1708.881
## 6 1681.521 1546.8185 1816.223
## 7 1738.510 1602.4577 1874.562
## 8 1903.101 1764.3397 2041.863
## 9 1955.402 1816.3291 2094.474
## 10 1945.869 1774.6207 2117.116
plot(data)
lines(data$`Tamaño de casa`, ypredict[,1], col =2)
lines(data$`Tamaño de casa`, ypredict[,2], col =3)
lines(data$`Tamaño de casa`, ypredict[,3], col =3)
y = -0.0005x^2 + 2.4615x -1272.7
y_est <- -0.0005*(1500)^2 + 2.4615*(1500) -1272.7
y_est
## [1] 1294.55
Interpretación
El consumo mensual de la energía eléctrica cuando el tamaño de la casa mide 1500 es
de 1294.55
f. ¿Las predicciones son fiables? Argumente su respuesta con las respectivas
eidencias
# Anova
anova <- aov(LinearModel)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## xpoly 2 827196 413598 150.7 1.76e-06 ***
## Residuals 7 19206 2744
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Supuestos
# Linealidad
library(lmtest)
## Warning: package 'lmtest' was built under R version 4.2.3
resettest(LinearModel)
##
## RESET test
##
## data: LinearModel
## RESET = 2.7847, df1 = 2, df2 = 5, p-value = 0.1539
No cumple con el supuesto de linealidad ya que es un modelo no lineal.
# Normalidad
[Link](LinearModel$residuals)
##
## Shapiro-Wilk normality test
##
## data: LinearModel$residuals
## W = 0.96081, p-value = 0.7951
Los residuos se provienen de una población normal y se acepta esto ya que su p-value
= 0.7951
# Homocedasticidad
bptest(LinearModel)
##
## studentized Breusch-Pagan test
##
## data: LinearModel
## BP = 1.0501, df = 2, p-value = 0.5915
Los residuos cumplen el supuesto de homocedasticidad con un p-value = 0.5915
# Independencia
dwtest(LinearModel)
##
## Durbin-Watson test
##
## data: LinearModel
## DW = 2.1779, p-value = 0.3146
## alternative hypothesis: true autocorrelation is greater than 0
Los residuos no son independientes.
Interpretación del literal f
Dado que el modelo no cumple con el supuesto de independencia, entonces la
predicción no es fiable ya que deberia cumplir con todos los supuesto.
EJERCICIO 5
Un biólogo registra la siguiente información del número de bacterias por unidad de
volumen (Y) según el número de horas transcurridas (X) con el objetivo de conocer el
tipo de relación entre ambas variables, predecir el número de bacterias y hallar la tasa
de crecimiento del número de bacterias cada hora
data <- [Link](ruta, 2)
data
## N..Horas N..Bacterias
## 1 0 32
## 2 1 47
## 3 2 65
## 4 3 92
## 5 4 132
## 6 5 190
## 7 6 275
a) Realice un análisis de correlación
Para conocer que coeficiente de correlación se realiza un diagrama de dispersión
plot(data)
se evidencia que los datos no se distribuyen de manera lineal por lo que realizamos
pruebas de normalidad a cada variable.
apply(data, 2, [Link])
## $N..Horas
##
## Shapiro-Wilk normality test
##
## data: newX[, i]
## W = 0.978, p-value = 0.9493
##
##
## $N..Bacterias
##
## Shapiro-Wilk normality test
##
## data: newX[, i]
## W = 0.9076, p-value = 0.3795
Interpretación
Se realiza la prueba de normalidad y se evidencia que solo el N de horas proviene de
una población normal mientras que el N de bacterias no por lo que se recomienda
realizar la correlacion de Spearman
[Link](data, method = "spearman")
## Warning in par(usr): argument 1 does not name a graphical parameter
Interpretación
Se observa que existe correlación positiva (Dierctamente proporcional) significativa,
lo que indica que ha medida que aumentan las horas, aumentan el número de
bacterias.
b) Existe la probabilidad de realizar una regresión con dichos datos
Si existe la probabilidad para realizar la regresión ya que para encontrar un modelo
debe existe correlación significativa.
log_y <- log(data$N..Bacterias)
regresion <- lm(log_y ~ data$N..Horas)
regresion
##
## Call:
## lm(formula = log_y ~ data$N..Horas)
##
## Coefficients:
## (Intercept) data$N..Horas
## 3.4703 0.3555
# Dado que se aplico logaritmos, aplicamos la exponencias a B_0
exp(3.4703)
## [1] 32.14638
Sea el modelo de regresión
𝑦 = 32.147𝑒 0.3555𝑥
c) ¿El crecimiento de bacterias es directamente proporcional al número de horas
trascurridas?
Si es directamente proporcional, ya que ha medida que las horas pasan. el crecimiento
de las bacterias incrementa.
d) Elabore un diagrama de dispersión
plot(data, col = 7, type = "p")
Interpretación
Se observa en el diagrama de dispersión que ha medida que el numero de horas
aumenta, el numero de bacterias igual lo hara por lo que se puede decir que existe una
correlación directamente proporcional o positiva.
f) Estime el numero de horas transcurridas cuando el numero de bacterias por
unidad es a 200
Dado que la prediccion esta en función de la variable independiente, entonces
despejamos x
𝑦 = 32.147𝑒 0.3555𝑥
𝑙𝑛(𝑦) = 𝑙𝑛(32.147𝑒 0.3555𝑥 )
𝑙𝑛(𝑦) = 𝑙𝑛(32.147) + 𝑙𝑛(𝑒 0.3555𝑥 )
𝑙𝑛(𝑦) = 𝑙𝑛(32.147) + 3555𝑥𝑙𝑛(𝑒)
𝑙𝑛(𝑦) − 𝑙𝑛(32.147)
𝑥=
0.3555
Realizando la predicción
𝑙𝑛(200) − 𝑙𝑛(32.147)
𝑥=
0.3555
𝑥 = 5.142
Interpretación
Cuando el numero de bacterias por unidad es a 200 habran transcurrido 5.142 horas.
g) Estime el numero de bacterias por unidad cuando el número de horas
transcurridas es a 10
𝑦 = 32.147𝑒 0.3555𝑥
𝑦 = 32.147𝑒 0.3555(10)
𝑦 = 1124.753
EJERCICIO 6
Las cifras siguientes son datos sobre el porcentaje de llantas radiales producidas por
cierto fabricante que aún pueden usarse después de recorrer cierto número de millas:
data <- [Link](ruta, 3)
data
## [Link] Porcentaje.útil
## 1 1 99
## 2 2 95
## 3 5 85
## 4 15 55
## 5 25 30
## 6 30 24
## 7 35 20
## 8 40 15
a) Describa los datos
# Miles de millas recorridas
boxplot(data$[Link])
Interpretación
En preomedio en miles de millas recorridas es de 20, es asimétrica negativa lo que
indica que la mayor frecuencia de millas recorridasa se encuentra antes de su media.
# Porcentaje Útil
boxplot(data$Porcentaje.útil)
Interpretación
Como se observa en el grafico,no existen datos atipicos,el promedio aproximado de
porcentaje util es de 42,es asimetrica a la derecha lo que indica que la mayor frcuencia
del porcentaje util esta antes de su media.
b) Halle el coeficiente de correlación e interprete
Para conocer que coeficiente de correlación utilizar se realiza un diagrama de
dispersión
plot(data)
se evidencia que los datos no se distribuyen de manera lineal por lo que realizamos
pruebas de normalidad a cada variable.
apply(data, 2, [Link])
## $[Link]
##
## Shapiro-Wilk normality test
##
## data: newX[, i]
## W = 0.90494, p-value = 0.3198
##
##
## $Porcentaje.útil
##
## Shapiro-Wilk normality test
##
## data: newX[, i]
## W = 0.85199, p-value = 0.09979
Interpretación
Se realiza la prueba de normalidad y se evidencia que ninguna de las variables en
estudio provienen de población normal por lo que se recomienda realizar la
correlacion de Spearman
[Link](data, method = "spearman")
## Warning in par(usr): argument 1 does not name a graphical parameter
Interpretación
Se observa que existe correlación negativa (inversamente proporcional) significativa,
lo que indica que ha medida que aumentan las millas recorridas, disminuye el
porcentaje útil de las llantas.
c) Identifique la variable dependiente e independiente
La variable dependiente es porcentaje útil, ya que esta varia de acuerdo cambien los
valores de las millas recorridas.
d) Calcule el modelo de regresión adecuada
xpoly<- poly(data$[Link], degree = 2, raw = TRUE)
LinearModel <- lm(data$Porcentaje.útil~xpoly)
LinearModel
##
## Call:
## lm(formula = data$Porcentaje.útil ~ xpoly)
##
## Coefficients:
## (Intercept) xpoly1 xpoly2
## 103.14918 -3.94985 0.04389
Sea la exuación de regresión
0.04389𝑥 2 − 3.94985𝑥 + 103.14918
e) Haga un análisis de la bondad de ajuste
summary(LinearModel)
##
## Call:
## lm(formula = data$Porcentaje.útil ~ xpoly)
##
## Residuals:
## 1 2 3 4 5 6 7 8
## -0.2432 -0.4251 0.5027 1.2223 -1.8369 -0.1586 1.3250 -0.3862
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 103.149184 0.872842 118.18 8.23e-10 ***
## xpoly1 -3.949851 0.124159 -31.81 5.76e-07 ***
## xpoly2 0.043894 0.003118 14.08 3.26e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.208 on 5 degrees of freedom
## Multiple R-squared: 0.9992, Adjusted R-squared: 0.9988
## F-statistic: 3019 on 2 and 5 DF, p-value: 1.97e-08
Interpretación
La variabilidad del porcentaje útil es explicada en un 99% por la variabilidad de las
millas recorridas.
f) Coeficiente de regresión son significativas
Dado por la pregunta anterior se observa que los coeficientes de regresión son
significativos al 0.001.
EJERCICIO 5
Un biólogo registra la siguiente información del número de bacterias por unidad de
volumen (Y) según el número de horas transcurridas (X) con el objetivo de conocer el
tipo de relación entre ambas variables, predecir el número de bacterias y hallar la tasa
de crecimiento del número de bacterias cada hora
data <- [Link](ruta, 2)
data
## N..Horas N..Bacterias
## 1 0 32
## 2 1 47
## 3 2 65
## 4 3 92
## 5 4 132
## 6 5 190
## 7 6 275
b) Realice un análisis de correlación
Para conocer que coeficiente de correlación se realiza un diagrama de dispersión
plot(data)
INTERPRETACION
los datos no se distribuyen linealmente, por lo que realizamos una prueb
a de normalidad para cada variable.
apply(data, 2, [Link])
## $N..Horas
##
## Shapiro-Wilk normality test
##
## data: newX[, i]
## W = 0.978, p-value = 0.9493
##
##
## $N..Bacterias
##
## Shapiro-Wilk normality test
##
## data: newX[, i]
## W = 0.9076, p-value = 0.3795
Interpretación
Al realizar una prueba de normalidad, es claro que solo N horas
son de la población normal, pero N bacterias no lo son, por lo que
se sugiere la correlación de Spearman.
[Link](data, method = "spearman")
## Warning in par(usr): argument 1 does not name a graphical parameter
Interpretación
Se observó una correlación significativa positiva (proporcional), lo que
indica un aumento en el número de bacterias a lo largo del tiempo.
c) Existe la probabilidad de realizar una regresión con dichos datos
Si existe la probabilidad para realizar la regresión ya que para encontrar un modelo
debe existe correlación significativa.
log_y <- log(data$N..Bacterias)
regresion <- lm(log_y ~ data$N..Horas)
regresion
##
## Call:
## lm(formula = log_y ~ data$N..Horas)
##
## Coefficients:
## (Intercept) data$N..Horas
## 3.4703 0.3555
# Dado que se aplico logaritmos, aplicamos la exponencias a B_0
exp(3.4703)
## [1] 32.14638
Sea el modelo de regresión
𝑦 = 32.147𝑒 0.3555𝑥
d) ¿El crecimiento de bacterias es directamente proporcional al número de horas
trascurridas?
Si es proporcional porque cambia con el tiempo,el crecimiento bacteriano
aumenta.
e) Elabore un diagrama de dispersión
plot(data, col = 7, type = "p")
Interpretación
De la dispersión se puede observar que a medida que aumenta el número de
horas también lo hace el número de bacterias, por lo que se puede decir
que existe una correlación positiva o positiva.
g) Estime el numero de horas transcurridas cuando el numero de bacterias por
unidad es a 200
Dado que la prediccion esta en función de la variable independiente, entonces
despejamos x
𝑦 = 32.147𝑒 0.3555𝑥
𝑙𝑛(𝑦) = 𝑙𝑛(32.147𝑒 0.3555𝑥 )
𝑙𝑛(𝑦) = 𝑙𝑛(32.147) + 𝑙𝑛(𝑒 0.3555𝑥 )
𝑙𝑛(𝑦) = 𝑙𝑛(32.147) + 3555𝑥𝑙𝑛(𝑒)
𝑙𝑛(𝑦) − 𝑙𝑛(32.147)
𝑥=
0.3555
Realizando la predicción
𝑙𝑛(200) − 𝑙𝑛(32.147)
𝑥=
0.3555
𝑥 = 5.142
Interpretación
Cuando el numero de bacterias por unidad es a 200 habran transcurrido 5.142 horas.
h) Estime el numero de bacterias por unidad cuando el número de horas
transcurridas es a 10
𝑦 = 32.147𝑒 0.3555𝑥
𝑦 = 32.147𝑒 0.3555(10)
𝑦 = 1124.753
EJERCICIO 6
Las cifras siguientes son datos sobre el porcentaje de llantas radiales producidas por
cierto fabricante que aún pueden usarse después de recorrer cierto número de millas:
data <- [Link](ruta, 3)
data
## [Link] Porcentaje.útil
## 1 1 99
## 2 2 95
## 3 5 85
## 4 15 55
## 5 25 30
## 6 30 24
## 7 35 20
## 8 40 15
c) Describa los datos
# Miles de millas recorridas
boxplot(data$[Link])
Interpretación
El kilometraje promedio es 20, que tiene un sesgo negativo, lo que indica
que la frecuencia más alta de kilometraje es anterior a su valor
promedio.
# Porcentaje Útil
boxplot(data$Porcentaje.útil)
Interpretación
Como se ve en la figura, sin valores atípicos, el porcentaje de utilidad
tiene una media aproximada de 42, que está sesgada hacia la derecha, lo
que indica que la frecuencia más alta del porcentaje de utilidad está por
delante de su valor medio.
d) Halle el coeficiente de correlación e interprete
Para conocer que coeficiente de correlación utilizar se realiza un diagrama de
dispersión
plot(data)
se evidencia que los datos no se distribuyen de manera lineal por lo que realizamos
pruebas de normalidad a cada variable.
apply(data, 2, [Link])
## $[Link]
##
## Shapiro-Wilk normality test
##
## data: newX[, i]
## W = 0.90494, p-value = 0.3198
##
##
## $Porcentaje.útil
##
## Shapiro-Wilk normality test
##
## data: newX[, i]
## W = 0.85199, p-value = 0.09979
Interpretación
Al realizar una prueba de normalidad, es claro que ninguna de las
variables estudiadas es de una población normal, por lo que se recomienda
la correlación de Spearman.
[Link](data, method = "spearman")
## Warning in par(usr): argument 1 does not name a graphical parameter
Interpretación
Se observó que hubo una correlación negativa (inversa) significativa, lo
que indica que el porcentaje útil de las llantas disminuyó a medida que
aumentaba el kilometraje.
e) Identifique la variable dependiente e independiente
La variable dependiente es un porcentaje útil porque varía con el
valor de las millas recorridas.
f) Calcule el modelo de regresión adecuada
xpoly<- poly(data$[Link], degree = 2, raw = TRUE)
LinearModel <- lm(data$Porcentaje.útil~xpoly)
LinearModel
##
## Call:
## lm(formula = data$Porcentaje.útil ~ xpoly)
##
## Coefficients:
## (Intercept) xpoly1 xpoly2
## 103.14918 -3.94985 0.04389
Sea la exuación de regresión
0.04389𝑥 2 − 3.94985𝑥 + 103.14918
f) Haga un análisis de la bondad de ajuste
summary(LinearModel)
##
## Call:
## lm(formula = data$Porcentaje.útil ~ xpoly)
##
## Residuals:
## 1 2 3 4 5 6 7 8
## -0.2432 -0.4251 0.5027 1.2223 -1.8369 -0.1586 1.3250 -0.3862
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 103.149184 0.872842 118.18 8.23e-10 ***
## xpoly1 -3.949851 0.124159 -31.81 5.76e-07 ***
## xpoly2 0.043894 0.003118 14.08 3.26e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.208 on 5 degrees of freedom
## Multiple R-squared: 0.9992, Adjusted R-squared: 0.9988
## F-statistic: 3019 on 2 and 5 DF, p-value: 1.97e-08
Interpretación
El 99% del cambio porcentual útil se explica por la variabilidad de los
kilómetros recorridos.
h) Coeficiente de regresión son significativas
De la pregunta anterior podemos ver que el coeficiente de regresión es
significativo en 0.001.