UNIVERSIDAD NACIONAL AUTÓNOMA
DE MÉXICO
Facultad de Ingeniería
Estadística Aplicada
Grupo: 04
Equipo 6
3ER EXAMEN PARCIAL
Nombres:
Jiménez Santiago Citlali Sinaí
Montaño García Javier
Montes Luna Emiliano
Vargas López Carolina
Fecha de entrega:
06/05/2024
Semestre:
2024-2
3ER EXAMEN PARCIAL
1. El nombre de la variable a estimar y el nombre de las variables empleadas para
realizar la estimación.
Se desea estimar el valor de una casa en la Ciudad de México (colonia San Ángel) en función de su
2
tamaño (𝑚 ), antigüedad (años), recámaras (cantidad), baños (cantidad) y estacionamientos
(cantidad).
Nombre Unidad
Variable a estimar Valor de una casa en la colonia Pesos mexicanos ($)
San Ángel, CDMX
Variable X1 Tamaño del terreno 𝑚
2
Variable X2 Antigüedad Años
Variable X3 Recamaras Sin unidad
Variable X4 Baños Sin unidad
Variable X5 Estacionamientos Sin unidad
2. Datos empleados para la construcción del modelo de regresión múltiple.
Y X1 X2 X3 X4 X5
N° Valor de una Tamaño Antigüedad Recamaras Baños Estacionamientos
dato casa en la 2
(𝑚 ) (años)
colonia San
Ángel, CDMX
1 $105,000,000 2200 48 5 4 10
2 $28,000,000 597 30 3 3 9
3 $17,200,000 246 Nuevo 3 3 2
(0 años)
4 $42,000,000 1000 17 3 4 3
5 $30,500,000 214 Nuevo 3 4 3
(0 años)
6 $13,900,000 389 Nuevo 7 7 2
(0 años)
7 $15,500,000 303 Nuevo 3 3 3
(0 años)
8 $32,400,000 730 Nuevo 3 4 6
(0 años)
9 $18,000,000 353 15 3 2 3
10 $105,000,000 920 5 3 4 9
11 $69,500,000 1600 4 8 5 6
12 $65,000,000 900 Nuevo 3 3 6
(0 años)
13 $24,500,000 417 Nuevo 3 3 3
(0 años)
14 $48,500,000 757 14 4 4 6
15 $15,000,000 350 Nuevo 3 3 3
(0 años)
16 $21,350,000 434 Nuevo 3 2 3
(0 años)
17 $69,000,000 1225 10 4 4 15
18 $47,500,000 940 22 4 5 4
19 $51,000,000 1420 Nuevo 3 3 6
(0 años)
20 $38,500,000 677 14 4 4 5
Fuente: Valores de casas en San Ángel. (2023, 7 septiembre). Propiedades.com.
https://propiedades.com/valores/san-angel-df/casas-venta
3. Indica los valores de los coeficientes de correlación del modelo
Coeficiente Valor
β0 -189764.44
β1 39919.7895
β2 -190428.23
β3 -4709390.5
β4 4820972.01
β5 2486554.73
Modelo de regresión lineal múltiple:
𝑦= − 189764. 44 + 39919. 7895𝑥1 − 190428. 23𝑥2 − 4709390. 5𝑥3 + 4820972. 01𝑥4 + 2486554. 73𝑥5
4. Obtener un valor pronosticado de Y, e indicar a qué valores de X le corresponde dicho
pronóstico.
Se desea conocer el valor de una casa en la colonia San Ángel en la CDMX dadas las siguientes
características:
2
a. Tamaño: 208 𝑚 = X1
b. Antigüedad: 18 años = X2
c. Recámaras: 5 = X3
d. Baños: 4 = X4
e. Estacionamiento: 3 = X5
Para encontrar el valor se utilizará el modelo de regresión múltiple que se obtuvo:
𝑦= − 189764. 44 + 39919. 7895𝑥1 − 190428. 23𝑥2 − 4709390. 5𝑥3 + 4820972. 01𝑥4 + 2486554. 73𝑥5
Sustituyendo las incógnitas, que en este caso son las características previas dadas, las cuales
corresponden a cada X indicada en el modelo para estimar Y
𝑦 = -189764.44 + 39919.7895 (208) - 190428.23 (18) - 4709390.5 (5) + 4820972.01 (4) +
2486554.73 (3)
Y estimada = $7,882,443.37.00
Por lo tanto, una casa con las características dadas, en la colonia San Angel, costará alrededor de
$7,882,443.37.00
5. Indicar el significado general de los siguientes conceptos e indicar el resultado obtenido
para los datos analizados e igualmente indicar su significado respecto al modelo que se
construyó.
● Coeficiente de correlación: es una medida que indica la fuerza y la dirección de la relación
entre variables. Es un valor que oscila entre -1 y 1.
- Si es 1, significa que hay una correlación positiva perfecta, lo que indica que a
medida que una variable aumenta, la otra también lo hace de manera proporcional.
- Si es -1, indica una correlación negativa perfecta, es decir, a medida que una variable
aumenta, la otra disminuye de manera proporcional.
- Si es 0, significa una correlación débil o inexistente entre las variables.
● Coeficiente de bondad de ajuste : se utiliza para evaluar qué tan bien el modelo de regresión
se ajusta a los datos observados y determinar la utilidad y validez del modelo que se
construyó.
- Un R² cercano a 1 indica que el modelo explica una gran parte de la variabilidad de
los datos.
- Un R² cercano a 0 indica que el modelo no explica mucha variabilidad y puede no
ser adecuado.
● Error estándar de estimación: es una medida de la precisión de las predicciones realizadas
por un modelo de regresión. Este error representa la desviación estándar de las diferencias
entre los valores observados y los valores predichos por el modelo de regresión. Nos dice
cuán cerca están los puntos de datos reales de la línea de regresión.
Resultados obtenidos los datos analizados:
● Coeficiente de correlación: 0.875150301
Indica una correlación fuerte y positiva entre las variables que estamos comparando. Esto
implica que el modelo de correlación es efectivo para predecir o explicar valores de una
variable basados en los valores de otra variable.
● Coeficiente de bondad de ajuste: 0.765888049035791
Significa que aproximadamente el 76.58% de la variabilidad en la variable dependiente
puede ser explicada por el modelo de regresión ajustado. Alrededor del 76.58% de la
variabilidad en los valores observador de la variable dependiente puede ser explicada por los
valores predichos por el modelo de regresión. Sin embargo, también significa que
aproximadamente el 23.42% de la variabilidad en la variable dependiente no puede ser
explicada por el modelo.
● Error estándar de estimación: 15,661,458.67775
Significa que cada que estimemos el precio de una casa, tendremos un error de +-
$15,661,458.67775.00
6. Indicar los valores obtenidos para : “F” y “valor crítico de F”, realizar un diagrama en
donde se pueda observar gráficamente a qué corresponde cada uno de estos valores,
posteriormente realizar la prueba de hipótesis respectiva, empleando un nivel de
significancia de 0.02, además del diagrama anterior, realizar otro diagrama en donde se
observe la zona de aceptación y rechazo de Ho y una vez realizada la prueba, concluir al
respecto.
● F = 9.16
● Valor crítico de F = 0.0004868
Prueba “F”
Ho: todas las Bi son iguales a 0
Ha: por lo menos una Bi es diferente de 0
α = 0. 02
𝐹𝑝 = 9. 16 → "𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 " = 0. 0004868
Como p < 𝛼 significa que 𝐹𝑝 cae en zona de rechazo de Ho. Por lo tanto, hay por lo menos
una Bi que sí tiene influencia de Y y es diferente de 0.
7. Para cada variable independiente, efectuar la prueba de hipótesis que verifique la
existencia de una relación lineal entre ella y la variable independiente (con un nivel de
significancia de 0.02). Para ello, se debe:
1. Plantear la hipótesis a probar:
Ho : Bi = 0 ; no hay influencia
Ha: Bi ≠ 0 ; si hay influencia
2. Realizar un esquema en donde se visualicen las zonas de aceptación y rechazo de la prueba a
realizar; y su correspondiente valor de cada área.
3. Completar la siguiente tabla:
Nombre de la Coeficiente Valor del Valor p= P( Comparar Indicar en Indicar el
variable estadístico T> tp) zona de qué región significado del
independiente de prueba rechazo vs cae el resultado obtenido,
“tp” valor “p” estadístico dentro del análisis
de prueba de regresión
t, y realizado.
concluir
respecto a
Ho.
Tamaño 39919.78955 3.556 0.0032 p < ⍺/2 tp cae en Significa que el
zona de tamaño del terreno si
rechazo, tiene una influencia
significa que directa en el precio
Ho se de las casas
rechaza
Antigüedad -190428.232 -0.557 0.5859 p > ⍺/2 tp cae en Significa que la
zona de antigüedad de las
aceptación, casa no tiene
significa que influencia directa en
Ho se acepta el precio de las casas
Recamaras -4709390.46 -1.1025 0.2888 p > ⍺/2 tp cae en Significa que el
zona de número de recamaras
aceptación, no tiene influencia
significa que directa en el precio
Ho se acepta de las casas
Baños 4820972.01 0.9972 0.3355 p > ⍺/2 tp cae en Significa que el
zona de número de baños no
aceptación, tiene influencia
significa que directa en el precio
Ho se acepta de las casas
Estacionamientos 2486554.731 1.7061 0.11 p > ⍺/2 tp cae en Significa que el
zona de número de
aceptación, estacionamientos no
significa que tiene influencia
Ho se acepta directa en el precio
de las casas
8. Conclusión general acerca de las variables analizadas y el modelo obtenido ( se debe
considerar los diferentes resultados obtenidos a lo largo de todos los puntos desarrollados
en el trabajo realizado)
Para el trabajo realizado el objetivo era estimar el valor de una casa en la colonia de San Ángel,
CDMX, donde se ocuparon 5 Variables (tamaño del terreno, antigüedad, recamaras, baños y
estacionamientos). Para empezar con el análisis de nuestras variables, obtuvimos el modelo de
regresión lineal múltiple y por el momento podemos decir que es un modelo bueno, ya que, al
analizar los datos, obtuvimos que entre las variables predictoras y la variable predecida existe una
fuerte correlación, además que el 76.58% de la variabilidad en la variable predecida es explicada por
el modelo y vemos que realmente es un porcentaje alto y nuestro último análisis de datos se ocupó
el error estándar el cual nos dijo que al hacer una estimación del precio de una casa podemos tener
un error de $15,661,458.67775. Entonces en base a este análisis de datos podemos decir que el
modelo obtenido es capaz de explicar una gran parte de la variabilidad en la variable predecida y
permite que se realicen predicciones precisas.
Continuando con el trabajo se realizó nuestra prueba F, donde se obtuvo que al menos una de las
variables si contribuyen de manera significativa a la variabilidad de la variable predecida ; entonces al
plantear una hipótesis y realizar la prueba t obtuvimos que el tamaño del terreno si tiene una
influencia directa en el precio de la casa y las otras cuatro variables (antigüedad, recámaras, baños,
estacionamientos) no tienen influencia directo en el precio de la casa. Entonces tenemos cuatro
variables que no están contribuyendo de manera significativa para explicar la variabilidad en la
variable predecida y esto pasa por distintas razones, entre ellas el tamaño de la muestra, ya que, si
nuestra muestra es pequeña no tenemos la suficiente información, en general existen distintas
razones que debemos investigar para mejorar nuestro modelo, pero por el momento deberíamos
considerar en simplificar el modelo y eliminar las variables menos significativas para mejorar la
interpretación y la eficiencia de nuestro modelo y así ser más precisos en estimar el precio de una
casa en la colonia de San Ángel, CDMX.
Después de lo anterior, podemos decir que aplicamos adecuadamente los conocimientos obtenidos
sobre regresión lineal múltiple y con el trabajo nos dimos cuenta que es importante entender las
relaciones que existen entre las variables, tanto la variable a estimar como las variables predictoras,
ya que, distintas causas pueden afectar un resultado, en este caso, la estimación del precio de una
casa. Y si ocupamos de manera adecuada la regresión lineal múltiple, la información que nos
proporcione nos permitirá tomar decisiones, las cuales están respaldadas de toda la información
obtenida.