Universidad Nacional de San Agustín
Asignatura
ECONOMETRÍA I
Sesión 9
Mg. José Luis Rojas López
Temario:
• Correlación.
• Estimación de intervalo de Predicción
• Intervalos de confianza de Predicción.
Logro de la Sesión
Al final de la sesión, el estudiante comprenderá el
significado el análisis de correlación y podrá evaluar
las estimaciones de los mínimos cuadrados.
INICIO
Cuando se trata de dinero solo hay una frase hecha: ¡Mas!
(André Kostolany)
Transformación
7.-Estimaciones de intervalo de predicción.
• El error estándar y el coeficiente de determinación son dos estadísticos que proporcionan una
evaluación general de la capacidad de una ecuación de regresión para predecir una variable
dependiente.
• Suposiciones de la regresión lineal.
1. Para cada valor de X, existen valores Y correspondientes. Estos valores Y siguen la
distribución normal.
2. Las medias de estas distribuciones normales se encuentran en la recta de regresión.
3. Todas las desviaciones estándar de estas distribuciones normales son iguales.
4. Los valores Y son estadísticamente independientes. Esto significa que, al seleccionar una
muestra, una X particular no depende de ningún otro valor de X..
• error estándar de estimación
Existe la misma relación entre los valores anticipados 𝑌el
𝑆𝑦.𝑋
1. − 𝑌 ± 𝑆𝑦 .𝑥 𝑖𝑛𝑐𝑙𝑢𝑖𝑟𝑎 𝑒𝑙 68% 𝑑𝑒 𝑙𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
2. − 𝑌 ± 2𝑆𝑦 .𝑥 𝑖𝑛𝑐𝑙𝑢𝑖𝑟𝑎 𝑒𝑙 95% 𝑑𝑒 𝑙𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
3. − 𝑌 ± 3𝑆𝑦 .𝑥 𝑖𝑛𝑐𝑙𝑢𝑖𝑟𝑎 𝑣𝑖𝑟𝑡𝑢𝑎𝑙𝑚𝑒𝑛𝑡𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
• Intervalos de confianza e intervalos de predicción.
• El primer intervalo se denomina intervalo de confianza. Se utiliza cuando la ecuación de
regresión se emplea para predecir el valor medio de Y para una X dada.
• INTERVALO DE CONFIANZA DE LA MEDIA DE Y, DADA X. FORMULA.
1 𝑋 − 𝑋ത 2
𝑌 ± 𝑡 𝑆𝑌 .𝑋 +
𝑛 σ 𝑋 − 𝑋ത 2
• El segundo tipo de estimación se denomina intervalo de predicción. Se utiliza cuando la
ecuación de regresión se emplea para predecir una Y individual (n = 1) para un valor dado de
X.
• INTERVALO DE PREDICCIÓN DE Y, DADA X. FORMULA.
1 𝑋 − 𝑋ത 2
𝑌 ± 𝑡𝑆𝑌 .𝑋 1+ +
𝑛 σ 𝑋 − 𝑋ത 2
• De nuevo el ejemplo de la compañía Copiar Sales de América. Determine un intervalo de
confianza de 95% para todos los representantes de ventas que hacen 25 llamadas y un
intervalo de predicción para Sheila Baker, representante de ventas de la Costa Oeste que
hizo 25 llamadas.
Número de Número de
Representante de
llamadas de copiadoras 𝑋 − 𝑋ത 𝑋 − 𝑋ത 2
ventas
ventas X vendidas Y
Tom Kely 20 30 -2 4
Jefry Hall 40 60 18 324
Brian Viro 20 40 -2 4
Gregorio Fins 30 60 8 64
Susan Welch 10 30 -12 144
Carlos Ramirez 10 40 -12 144
Rich Nilo 20 40 -2 4
Mike Kien 20 50 -2 4
Marck Reynolds 20 30 -2 4
Soni Jones 30 70 8 64
220 450 0 760
22 45
• El primer paso es determinar el número de copiadoras que se espera que venda un
representante de ventas si él o ella hacen 25 llamadas.
𝑌 = 18.9476 + 1.1842𝑋 = 18.9476 + 1.1842 25 = 48.5526
• Para encontrar el valor t, primero necesita conocer el número de grados de libertad. En
este caso, los grados de libertad son n - 2 = 10 - 2 = 8, con un nivel de confianza de 95%.
• Intervalo de confianza. t =2.306
1 25 − 22 2
1 𝑋 − 𝑋ത 2 48.5526 ± 2.306 9.901 +
𝑌 ± 𝑡 𝑆𝑌 .𝑋 + 10 760
𝑛 σ 𝑋 − 𝑋ത 2
48.5526 ± 7.6356
• Por lo tanto, el intervalo de confianza de 95% de todos los representantes de ventas que hacen
25 llamadas es de 40.9170 a 56.1882.
• Para interpretar esto, redondee los valores. Si un representante de ventas hace 25 llamadas,
debería vender 48.6 copiadoras. Es probable que estas ventas varíen de 40.9 a 56.2
copiadoras.
• Suponga que se desea estimar el número de copiadoras que vendió Sheila Baker, quien hizo
25 llamadas. El intervalo de predicción de 95% se determina como sigue:.
• Intervalo de predicción:
1 𝑋 − 𝑋ത 2
𝑌 ± 𝑡𝑆𝑌 .𝑋 1+ +
𝑛 σ 𝑋 − 𝑋ത 2
1 25 − 22 2
48.5526 ± 2.306 9.901 1+ + 48.5526 ± 24.0746
10 760
• Así, el intervalo es de 24.478 a 72.627 copiadoras. Se concluye que el número de copiadoras
que venderá un representante que haga 25 llamadas estará aproximadamente entre 24 y 73.
• Este intervalo es muy grande. Es mucho mayor que el intervalo de confianza de todos los
representantes que hagan 25 llamadas. Sin embargo, es lógico que deba haber más
variación en la estimación de ventas de un individuo que de un grupo.
Caso. Resolver el Aula.
• Consulte los datos muestrales en la autoevaluación, donde el propietario de Harvey Fornitura
estudió la relación entre las ventas y la cantidad que gastó en publicidad. La información de las
ventas de los últimos cuatro meses se repite a continuación.
• La ecuación de regresión calculada fue 𝑌 = 1.5 + 2.2𝑋 y el error estándar, 0.9487. Las dos
variables se reportan en millones de soles. Determine el intervalo de confianza de 90% para el
mes común en el cual se gastaron $3 millones en publicidad.
Gastos publicitarios Ingresos por ventas
Mes
(miles de soles) (miles de soles)
Julio 2 7
Agosto 1 3
Setiembre 3 8
Octubre 4 10
Caso. Resolver el Aula.
• Un hotel de los suburbios obtiene su ingreso bruto de la renta de sus instalaciones y de su
restaurante. Los propietarios tienen interés en conocer la relación entre el número de
habitaciones ocupadas por noche y el ingreso por día en el restaurante. En la siguiente tabla se
presenta una muestra de 25 días (de lunes a jueves) del año pasado que indica el ingreso del
restaurante y el número de habitaciones ocupadas.
a) ¿Parece que aumenta el ingreso por desayunos a medida que aumenta el número de habitaciones
ocupadas? Trace un diagrama de dispersión para apoyar su conclusión.
b) Determine el coeficiente de correlación entre las dos variables. Interprete el valor.
c) ¿Es razonable concluir que hay una relación positiva entre ingreso y habitaciones ocupadas?
Utilice el nivel de significancia 0.10.
d) ¿Qué porcentaje de la variación de los ingresos del restaurante se contabilizan por el número de
habitaciones ocupadas?
Día Ingreso Habitaciones ocupadas
1 1452 23
2 1361 47
3 1426 21
4 1470 39
5 1456 37
6 1430 29
7 1354 23
8 1442 44
9 1394 45
10 1459 16
11 1399 30
12 1458 42
13 1537 54
14 1425 27
15 1445 34
16 1439 15
17 1348 19
18 145 38
19 1431 44
20 1446 47
21 1485 43
22 1405 38
23 1461 51
24 1490 61
25 1426 39
Caso. Resolver el Aula.
• Bardi Tracking Co., ubicada en Lima, Arequipa, hace entregas en la región de los Grandes
Lagos, en el lado sur y en el lado norte. Jim Bardi, el presidente, estudia la relación entre la
distancia de recorrido de un embarque y el tiempo, en días, que dura en llegar a su destino.
Para investigar esta cuestión, el señor Bardi seleccionó una muestra aleatoria de 20 embarques
del mes pasado. La distancia de envío es la variable independiente y el tiempo de envío es la
variable dependiente. Los resultados son los siguientes:
a) Trace un diagrama de dispersión. Con base en estos datos, ¿parece haber una relación entre la
cantidad de millas que debe recorrer el embarque y el tiempo que tarda en llegar a su destino?
b) Determine el coeficiente de correlación. ¿Es posible concluir que hay una correlación positiva
entre la distancia y el tiempo? Utilice el nivel de significancia 0.05.
c) Establezca e interprete el coeficiente de determinación.
d) Determine el error estándar de estimación.
e) ¿Recomendaría aplicar la ecuación de regresión para predecir el tiempo de envío? Diga por qué
sí o por qué no.
Tiempo de envio
Embarque Distancia Km
(días)
1 656 5
2 853 14
3 646 6
4 783 11
5 610 8
6 841 10
7 785 9
8 639 9
9 762 10
10 762 9
11 862 7
12 679 5
13 835 13
14 607 3
15 665 8
16 647 7
17 685 10
18 720 8
19 652 6
20 828 10
2.- Análisis de regresión múltiple.
• La forma descriptiva general de una ecuación lineal múltiple se muestra en la fórmula siguiente. Se
utiliza k para representar el número de variables independientes. Por lo tanto, k puede ser
cualquier número entero positivo.
• ECUACIÓN GENERAL DE REGRESIÓN MÚLTIPLE
𝑌 = 𝑎 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + 𝑏3 𝑋3 + 𝑏4 𝑋4
• Salaberri Real vende casas en la costa este de Estados Unidos. Una de las preguntas más
frecuentes de los compradores potenciales es: si compramos esta casa, ¿cuánto gastaremos en
calefacción durante el invierno? Al departamento de investigación de Salaberri se le pidió
desarrollar algunas directrices respecto de los costos de calefacción de casas unifamiliares. Se
considera que tres variables se relacionan con dichos costos:
1) La temperatura externa diaria media,
2) El número de pulgadas de aislamiento en el ático y
3) Los años de uso del calentador.
• Para el estudio, el departamento de investigación de Salaberri seleccionó una muestra aleatoria
de 20 casas de venta reciente. Determinó el costo de calefacción de cada casa en enero pasado,
así como la temperatura externa en enero en la región, el número de pulgadas de aislamiento del
ático y los años de uso del calentador. La información muestral se reporta en la tabla siguiente.
• Determine la ecuación de regresión múltiple. ¿Cuáles son las variables independientes? ¿Cuál
es la variable dependiente? Analice los coeficientes de regresión. ¿Qué indica si algunos
coeficientes son positivos y otros negativos? ¿Cuál es el valor de la intersección? ¿Cuál es el
costo de calefacción estimado de una casa si la temperatura externa media es de 30 grados,
si el ático tiene 5 pulgadas de aislamiento y el calentador tiene 10 años?
Costo de Temperatura Externa Aislamiento del Atico Antigüedad del
Calefaccion. (S/.) Y Media (ºF) X1 (pulgadas) X2 calentador Años X3
1 250 35 3 6
2 360 29 4 10
3 165 36 7 3
4 43 60 6 9
5 92 65 5 6
6 200 30 5 5
7 355 10 6 7
8 290 7 10 10
9 230 21 9 11
10 120 55 2 5
11 73 54 12 4
12 205 48 5 1
13 400 20 5 15
14 320 39 4 7
15 72 60 8 6
16 272 20 5 8
17 94 58 7 3
18 190 40 8 11
19 235 27 9 8
20 139 30 7 5
4105 744 127 140
Costo de Temperatura Aislamiento Antigüedad del
Calefaccion. Externa Media del Atico calentador 𝑋1 2 𝑋2 2 𝑋3 2 𝑋1 ∗ 𝑋2 𝑋1 ∗ 𝑋3 𝑋2 ∗ 𝑋3 𝑋1 ∗ 𝑌 𝑋2 ∗ 𝑌 𝑋3 ∗ 𝑌 𝑌෨
(S/.) Y (ºF) X1 (pulgadas) X2 Años X3
1 250 35 3 6 1225 9 36 105 210 18 8750 750 1500 258.902 276.559
2 360 29 4 10 841 16 100 116 290 40 10440 1440 3600 295.973
3 165 36 7 3 1296 49 9 252 108 21 5940 1155 495 176.692
4 43 60 6 9 3600 36 81 360 540 54 2580 258 387 118.137
5 92 65 5 6 4225 25 36 325 390 30 5980 460 552 91.750
6 200 30 5 5 900 25 25 150 150 25 6000 1000 1000 246.054
7 355 10 6 7 100 36 49 60 70 42 3550 2130 2485 335.085
8 290 7 10 10 49 100 100 70 70 100 2030 2900 2900 307.813
9 230 21 9 11 441 81 121 189 231 99 4830 2070 2530 264.583
10 120 55 2 5 3025 4 25 110 275 10 6600 240 600 175.972
11 73 54 12 4 2916 144 16 648 216 48 3942 876 292 26.144
12 205 48 5 1 2304 25 1 240 48 5 9840 1025 205 139.156
13 400 20 5 15 400 25 225 100 300 75 8000 2000 6000 352.894
14 320 39 4 7 1521 16 49 156 273 28 12480 1280 2240 231.840
15 72 60 8 6 3600 64 36 480 360 48 4320 576 432 70.172
16 272 20 5 8 400 25 64 100 160 40 5440 1360 2176 310.187
17 94 58 7 3 3364 49 9 406 174 21 5452 658 282 75.866
18 190 40 8 11 1600 64 121 320 440 88 7600 1520 2090 192.337
19 235 27 9 8 729 81 64 243 216 72 6345 2115 1880 218.782
20 139 30 7 5 900 49 25 210 150 35 4170 973 695 216.392
4105 744 127 140 33436 923 1192 4640 4671 899 124289 24786 32341
20 744 127 140 4105
744 33436 4640 4671 124289
127 4640 923 899 24786
140 4671 899 1192 32341
1.363158849 -0.013274362 -0.058614963 -0.063878222 427.1938033
-0.013274362 0.00022889 0.000116477 0.000574289 -4.582662626
-0.058614963 0.000116477 0.008674147 -0.000114119 -14.83086269
-0.063878222 0.000574289 -0.000114119 0.006177048 6.101032061
• En este caso, la ecuación de regresión estimada es:
𝑌 = 427.194 − 4.583𝑋1 − 14.831𝑋2 + 6.101𝑋3
• Ahora puede estimar o predecir el costo de calefacción en enero de una casa si conoce la
temperatura externa media, las pulgadas de aislamiento y la antigüedad del calentador. Por
ejemplo, para una casa con temperatura externa media por mes de 30 grados (𝑋1 ), hay 5
pulgadas de aislamiento en el ático (𝑋2 ) y el calentador tiene 10 años (𝑋3 ). Al sustituir los
valores de las variables independientes:
𝑌 = 427.194 − 4.583 30 − 14.831 5 + 6.101 10 = 276.56
• El costo estimado de calefacción en enero es de $276.56.
• Los coeficientes de regresión y sus signos algebraicos también proporcionan información
acerca de sus relaciones individuales con el costo de calefacción en enero. El coeficiente de
regresión de una temperatura externa media es - 4.583. El coeficiente es negativo y presenta
una relación inversa entre el costo de calefacción y la temperatura.
• Eso no es sorprendente. Conforme la temperatura externa aumenta, disminuye el costo para
calentar la casa. El valor numérico del coeficiente de regresión proporciona más información.
• Si la temperatura aumenta 1 grado y las otras dos variables independientes se mantienen
constantes, se estima una disminución de $4.583 en el costo de calefacción mensual. Por lo
tanto, si la temperatura media en Boston es 25 grados y en Arequipa de 35 grados, y todos los
demás elementos son iguales (aislamiento y antigüedad del calentador), se espera que el costo
de calefacción sea $45.83 menos en Arequipa.
• La variable aislamiento del ático también presenta una relación inversa: mientras más
aislamiento tenga el ático, menor será el costo de calefacción de la casa. Por lo tanto, es lógico
el signo negativo de este coeficiente. Por cada pulgada adicional de aislamiento, se espera que
el costo de calefacción de la casa disminuya $14.83 por mes, si se mantienen constantes la
temperatura externa y la antigüedad del calentador.
• La variable antigüedad del calentador presenta una relación directa. Con un calentador antiguo,
aumenta el costo para calentar la casa. Específicamente, por cada año adicional que tenga el
calentador, se espera que el costo aumente $6.10 por mes.
Caso. Resolver el Aula.
• ¿En que forma los vendedores de bines raíces determinan el precio de venta para un
condominio recién inscrito en lista? La base de datos de una computadora en una pequeña
comunidad contiene el precio de venta de lista y (miles de dólares), la cantidad de área de
vivienda 𝑋1 (en cientos de pies cuadrados), así como los números de pisos 𝑋2, recámaras
𝑋3 , y baños 𝑋4 para n = 15 condominios seleccionados al azar actualmente en el mercado.
Los datos se muestran en la siguiente tabla.
• El modelo de regresión es:
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + 𝛽4 𝑋4
Observación Precio de lista, Y Área de vivienda, X1 Pisos, X2 Recámara, X3 Baños, X4
1 169.0 6 1 2 1
2 218.5 10 1 2 2
3 216.5 10 1 3 2
4 225.0 11 1 3 2
5 229.9 13 1 3 1.7
6 235.0 13 2 3 2.5
7 239.9 13 1 3 2
8 247.9 17 2 3 2.5
9 260.0 19 2 3 2
10 269.9 18 1 3 2
11 234.9 13 1 4 2
12 255.0 18 1 4 2
13 269.9 17 2 4 3
14 294.5 20 2 4 3
15 309.9 21 2 4 3
Caso. Resolver el Aula.
• Resolver e Interpretar
Marca Puntos Y Precio X1 Calorias X2 Grasa X3 Sodio X4
1 70 91 110 4 310
2 45 68 90 0 420
3 43 92 80 1 280
4 41 75 120 5 370
5 39 88 90 0 410
6 30 67 140 4 440
7 68 73 120 4 430
8 56 92 170 6 520
9 40 71 130 4 180
10 34 67 110 2 180
11 30 92 100 1 330
12 26 95 130 2 340
3 Evaluación de una ecuación de regresión múltiple.
• Muchas estadísticas y métodos estadísticos se utilizan para evaluar la relación entre una
variable dependiente y más de una variable independiente.
La tabla ANOVA.
TABLA ANOVA
Suma de Grados de
Fuente Media Cuadrática F
Cuadrados Libertad
Tratamientos SSR k SSR/k = MSR MSR/MSE
Residuo o Error SSE n - (k +1) SSE/(n – (k +1) = MSE
Total SS total n-1
• la suma de las desviaciones al cuadrado de la media. Se calcula como:
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑡𝑜𝑡𝑎𝑙 = 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = 𝑌 − 𝑌ത 2
𝑌 − 𝑌ത 2
Costo de Calefaccion. Temperatura Externa Aislamiento del Atico Antigüedad del
(S/.) Y Media (ºF) X1 (pulgadas) X2 calentador Años X3
2002.5625
1 250 35 3 6
23947.5625
2 360 29 4 10
1620.0625
3 165 36 7 3
4 43 60 6 9 26325.0625
5 92 65 5 6 12825.5625 205.25
6 200 30 5 5 27.5625
7 355 10 6 7 22425.0625
8 290 7 10 10 7182.5625
9 230 21 9 11 612.5625
10 120 55 2 5 7267.5625
11 73 54 12 4 17490.0625
12 205 48 5 1
0.0625
13 400 20 5 15
37927.5625
14 320 39 4 7
13167.5625
15 72 60 8 6
16 272 20 5 8 17755.5625
17 94 58 7 3 4455.5625
18 190 40 8 11 12376.5625
19 235 27 9 8 232.5625
20 139 30 7 5 885.0625
4105 744 127 140 4389.0625
212915.75
Práctica
1.- Realizar la practica correspondiente que se encuentra en la actividad 4
Conclusiones:
• La econometría nos propone modelos para aplicarlos en regresión múltiple
• Se esta conociendo las pruebas el trabajo con varias variables