PROBLEMA 5.8. REGRESIÓN LINEAL MÚLTIPLE. CALEFACCIÓN.
Hoja de Trabajo.
Salsberry Realty vende casas en la costa este de USA.
Temp Insul Una de las preguntas más frecuentes de los
Cost (Y) Age (X3) potenciales compradores es: si compramos ésta
(X1) (X2)
250 35 3 6 casa: ¿Cuánto gastaremos en calefacción en
invierno?
360 29 4 10
165 36 7 3 El departamento de investigación de Salsberry se le
43 60 6 9 pidió considerar algunas directrices respecto de los
costos de calefacción de casas unifamiliares. Se
92 65 5 6
considera que tres variables se relacionan con
200 30 5 5 dichos costos:
355 10 6 7
290 7 10 10 1.-Temperatura externa media diaria
230 21 9 11 2.-número de pulgadas del aislamiento del
120 55 2 5 ático,
73 54 12 4
3.-los años de uso del calentador.
205 48 5 1
400 20 5 15 Para el estudio, el Dpto. de investigación selecciono
una muestra de 20 casas aleatoriamente vendidas
320 39 4 7
recientemente. Determino el costo de calefacción
72 60 8 6 del mes de enero pasado, así como la temperatura
272 20 5 8 externa en enero de la región, el número de pulgadas
94 58 7 3 del aislamiento del ático y los años de uso del
190 40 8 11 calentador.
235 27 9 8 La información se reporta en la tabla adjunta en las
139 30 7 5 columnas A, B, C, y D.
1.- ¿Cuál es la ecuación de regresión para estimar el
costo de calefacción de una casa?
2.- ¿Cuánto se estima que costará la calefacción de
una casa que se encuentra en Filadelfia si la
temperatura externa promedio es de 30°F, si el ático
tiene un espesor de 5 pulgadas de aislamiento y el
calentador tiene 10 años de servicio?
Usar un nivel de confianza del 95%.
114
Establecimiento de las hipótesis:
Ho : que no existe correlación entre las variables independientes Temperatura externa (X1),
espesor del asilamiento (X2) y la edad del calentador (X3) con la variable dependiente Costo
de calefacción (Y).
Es decir, que b= 0 (pendiente). También podemos decir que b1=b2=b3=0
H1: Que sí existe correlación entre las variables independientes con la dependiente; es decir
b≠ 0
También podemos decir que b1≠0;b2≠0 y b3≠0
Lo correcto es usar las letras griegas: β1, β2 y β3 Porque lo se trata es determinar las
pendientes poblacionales y no las pendientes muéstrales (b1, b2 y b3).
Regla de decisión: si Fcalculada es mayor que Fcrítica se rechaza la Ho. Cae en la zona
de rechazo de la Ho.
Si p es mayor que alfa (nivel de significancia) se acepta la Ho. Cae en la zona de aceptación
de la Ho.
COMANDOS:
Datos-análisis de datos – regresión – aceptar – rango Y de entrada: Seleccionar la columna de Y
costo de calefacción – Rango X de entrada: seleccionar todos los datos de las tres columnas X1,
X2 y X3 – nivel de confianza: 95% - con el cursor seleccionar la celda donde se anotaran los
cálculos – aceptar – listo.
Resumen
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0.8967553 Correlación de Pearson
Coeficiente de determinación
R^2 0.8041701 Coeficiente de determinación
Coeficiente de determinación
R^2 ajustado 0.767452 ajustado.
Error típico 51.048554 Variación de valor estimado Y*
Observaciones 20
115
1.-Ecuación de regresión: Y* = a + X1(b1) +X2(b2)+ X3(b3)
Y* = 427.19 -4.58(X1) - 14.83 (X3) + 6.10 (X3)
Como se interpreta esta ecuación:
a = 427.19 ordenada al origen (lugar donde la recta cruza el eje Y), costo base.
b1= - 4.58 es la pendiente de la variable 1 (temperatura Externa) y quiere decir que por cada °F
que aumente la temperatura externa, el costo bajará 4,58 dlls (signo negativo la pendiente)
b2 = -14.83 es la pendiente de la variable 2 (aislamiento del ático en pulg) y quiere decir que por
cada pulgada que aumente el espesor del aislamiento, el costo de calefacción disminuirá 14.83
dlls (signo negativo la pendiente)
b3 = 6.1 es la pendiente de la variable X3 edad del calentador en uso en años, quiere decir que
por cada año de uso que aumente el calentador, aumentará en 6.10 dls de costo del calefacción
(signo positivo de la pendiente)
2.-El costo de calefacción para la casa de Filadelfia es de Y* = 427.19-4.58(30°F)-
14.83(5")+6.10(10 años)
Y* = 276.64 Dlls, Costo de calefaccion estimado de la casa de Filadelfia.
Prueba de hipótesis: Fcrítica a 3/16 gl y 95% NC = 3.24 (de tablas)
tcrítica a 0.975 y 16 gl = 2.12
Prueba global de "F":
116
Dado que F calculada es de 21.90 es mucho mayor que Fcrítica = 3.24 se rechaza la Ho y se
acepta H1
Es decir, sí existe correlación entre las variables independientes X!, X2 y X3 con la variable
dependiente Y.
De igual manera p calculada = 6.56E-06 es mucho menor que Alfa (nivel de significancia) de
0.05 por lo que también se rechaza la Ho y se acepta la H1.
Prueba individual "t":
Para X1 temp. Externa: tcalculada = -5.93 es mayor que tcrítica=2.12; se rechaza la Ho.
Para X2 aislamiento del ático: tcalculada= -3.11 > que tcrítica = 2.12; se rechaza la Ho.
Para X3 edad del calentador: tcalculada= 1.52 < que t crítica =2.12; se acepta la Ho.
Con respecto a p: pX1 =2.1E-05 < alfa = 0.05 , se rechaza la Ho
pX2 = 0.0066 < alfa = 0.05, se rechaza la Ho.
pX3 = 0.1478 > alfa = 0.05 se acepta la Ho.
Esto quiere decir que, las variables independientes X1 y X2 al rechazar la Ho y aceptar la H1 si
existe correlación con la variable dependiente Y* Costo de calefacción, que son buenas
predictoras del costo, pero no así con X3 (edad del calentador) que se acepta la Ho, es decir no
existe buena correlación y por lo tanto esta variable se desecha como buena predictora del costo
de calefacción.
La prueba individual "t"; nos va a servir para conocer cuál de las variables independientes son o
no buenas predictoras para la variable dependiente Y*, pues F es una prueba global.
NOTA: Para continuar con el problema, hay que repetir todo el cálculo para encontrar la nueva
ecuación de regresión, pero ahora con dos variables independientes (Temp y espesor del
aislamiento del ático) y se elimina la edad del calentador por ser mala predictora.
Al repetir el procedimiento con solo dos variables independientes, observar que los coeficientes
de la ecuación cambian.
Vamos a repetir el proceso, pero ahora solo con dos variables independientes (X1 y X2)
117
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.8808337
Coeficiente de determinación R^2 0.775868
R^2 ajustado 0.7494996
Error típico 52.982366
Observaciones 20
Observemos los cambios en los coeficientes y en los componentes de la ecuación.
Y* = 490.2859 - 5.1498(X1) - 14.718(X2)
Uso de una variable cualitativa:
Ahora vamos a agregar una nueva columna de datos (X4) que denominaremos Garage.
Es una variable de escala Nominal porque diremos si una casa tiene o no calefacción
en el Garage.
118
Temp (X1) Insul (X2) Garage(X4)
Cost (Y)
250 35 3 0
360 29 4 1
165 36 7 0
Codificaremos la palabra "no" y "sí"
43 60 6 0
92 65 5 0
No tiene calefacción, código = 0
200 30 5 0
Sí tiene calefacción, código =1
355 10 6 1
290 7 10 1
230 21 9 0
120 55 2 0
73 54 12 0
205 48 5 1
400 20 5 1
320 39 4 1
72 60 8 0
272 20 5 1
94 58 7 0
190 40 8 1
235 27 9 0
139 30 7 0
119
Repetimos el procedimiento:
Resumen
Ecuación de regresión con nueva variable Garage:
Y* = 393.665 - 3.9628 (X1)- 11.33(X2) +77.43(X3)
Ahora observemos que tanto para la prueba global como para la prueba individual, todas las
variables independientes son buenas predictoras de Y*, porque en todas es rechazada la Ho y
aceptada la H1.
Fcalculada=35.64>Fcrítica = 3.24 se rechaza la Ho. P=2.58E-07<alfa=0.05 se rechaza la Ho.
tX1 calculada = -6.07>tcrítica =2.12 se rechaza la Ho.
tX2 calculada= -2.83>tcrítica =2.12 se rechaza la Ho y
tX4calculada= 3.398 tcrítica =-2.12 se rechaza la Ho.
pX1=1.61E-05<alfa=0.05 se rechaza la Ho
pX2=0.0120<alfa=0.05 se rechaza la Ho.
pX4 = 0.00367 < alfa=0.05 se rechaza la Ho.
120
Ahora demos un repaso a la definición de los coeficientes que se encuentran en el resumen, Para
el primer problema donde tomamos a tres variables independientes (temp X1, Aislante del ático
X2 y Edad del calentador en años X3):
0.8967 es coeficiente de correlación de Pearson y se define como la relación que existe entre las
variables independientes X1, X2 y X3 y la variable dependiente Y.
0.80417 es el coeficiente de determinación múltiple y se define como el porcentaje de variación
de la variable dependiente Y, explicada o determinada por el conjunto de variables
independientes X1, X2 y X3 (para este caso). La diferencia (1-0.80417) = 0.1958 es la parte no
explicada de la variable Y, que se puede deber a error de muestreo, a faltante de otras variables
independientes no tomadas en cuenta o simplemente se desconoce.
0.76745 Es el coeficiente de determinación ajustado y se utiliza cuando existen muchas variables
independientes (más de 4) que por el solo hecho de ser muchas pueden dar un valor muy alto
de F, pues en el cálculo de éste estadístico de prueba, el término SSE está en el denominador de
la fórmula y por lo tanto incrementa dicho valor de F.
51.0485 es el valor del error típico que se puede tomar como desviación estándar, y es el valor
que se incrementa y disminuye del valor estimado de Y*, es el intervalo (± una vez la desviación
estándar) donde caen 2/3 partes de todos los valores estimados de Y (tomado de la Teoría de
limite central).
Minitab.
Eliminamos la escritura de la Hoja de cálculo.
COMANDOS:
Cargar hoja de trabajo – estadística – regresión – regresión – ajustar modelo de regresión –
respuestas: cargar columna de Y (C1) – Predictores: cargar columnas de X1, X2 y X3 (C2, C3 y
C4) – en opciones determinar el N.C. deseado – aceptar – aceptar. listo
análisis de regresión: Cost (Y) vs. Temp (X1), Insul (X2), Age (X3)
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 3 171220 57073 21.90 0.000
Temp (X1) 1 91751 91751 35.21 0.000
Insul (X2) 1 25357 25357 9.73 0.007
Age (X3) 1 6026 6026 2.31 0.148
Error 16 41695 2606
Total 19 212916
121
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
51.0486 80.42% 76.75% 68.72%
Coeficientes
EE del
Término Coef coef. Valor T Valor p VIF
Constante 427.2 59.6 7.17 0.000
Temp (X1) -4.583 0.772 -5.93 0.000 1.32
Insul (X2) -14.83 4.75 -3.12 0.007 1.01
Age (X3) 6.10 4.01 1.52 0.148 1.31
Ecuación de regresión
Cost (Y) = 427.2 - 4.583 Temp (X1) - 14.83 Insul (X2) + 6.10 Age (X3)
Los resultados son los mismos que con Excel:
Se tiene la ecuación de regresión: Y* = 427.2 -4.583(X1) - 14.83(X2) + 6.10 (X3)
Fcalculada= 21.90 >Fcrítica =3.24 se rechaza la Ho. p = 0.00 < alfa= 0.05 se rechaza la Ho.
tX1 = -5.93 y tX2 = -3.12 las dos > t crítica = 2.12 se rechaza la Ho
tX3 = 1.52 es < que tcrítica = 2.12 se acepta la Ho. no es buena predictora la edad del calentador
pX1 = 0.00 < que alfa = 0.05 se rechaza la Ho. Sí es buena predictora.
pX2 = 0.007 < que alfa = 0.05 se rechaza la Ho. Sí es buena predictora.
pX3 = 0.148 >que alfa=0.05 se acepta la Ho. Es mala predictora
En conclusión: la temp. Externa y el espesor del aislamiento son buenas predictoras del valor
de Y (consto de calefacción).
No así X3 edad del calentador que es aceptada la Ho no es buen predictor del costo de
calefacción Y.
122
PROBLEMA 5.9. REGRESIÓN LINEAL MÚLTIPLE. IMPUESTOS.
Excel.
Mes X1 X2 X3 Y
Enero 45 16 71 29
Febrero 42 14 70 24
Marzo 44 15 72 27
Abril 45 13 71 25
Mayo 43 13 75 26
Junio 46 14 74 28
Julio 44 16 76 30
Agosto 45 16 69 28
Septiembre 44 15 74 28
Octubre 43 15 73 27
El Servicio Interno de Contribuciones (IRS: Internal Revennue Service) está tratando de estimar
la cantidad mensual de impuestos no pagados descubierto por su departamento de auditorías.
En el pasado, el IRS estimaba esta cantidad con base en el número esperado de horas de trabajo
de auditorías de campo. En los últimos años, sin embargo, las horas de trabajo de auditorías de
campo se han convertido en un pronosticador errático de los impuestos no pagados reales.
Como resultado, la dependencia está buscando otro factor para mejorar la ecuación de
estimación. El Dpto. de auditorías tiene un registro del número de horas que usa sus
computadoras para detectar impuestos no pagados.
La pregunta es: ¿podría combinar esta información con los datos referente a las horas de trabajo
de auditoria de campo y obtener una ecuación más precisa para los impuestos no pagados
descubiertos cada mes?
A continuación se presentan esos datos de los últimos 10 meses.
X1= Hrs. De trabajo de auditorías de campo (2 ceros omitidos)
X2= Hrs. En computadoras (2 ceros omitidos)
Y= Impuestos reales no pagados descubiertos (mlls de dls)
Posteriormente se agrega una tercera columna (X3), es una recompensa ofrecida a informantes
de contribuyentes que no pagan impuestos: X3: Recompensa a informantes (tres ceros omitidos)
Nivel de Confianza = 95%
123