Semana15-REGRESION LINEAL MÚLTIPLE
Es la relación de dos o más variables, que permitirá
relacionar mediante una ecuación, una variable en
relación a otras, denominándose a este REGRESIÓN
MÚLTIPLE.
𝑌i = 𝛽 0 + 𝛽 i Xip + εi
Donde εi es el error asociado a la medición i del valor Xip:
𝑦 = X𝛽 + e
𝑌1 1 𝑋11 𝑋12 … 𝑋1𝑝 𝛽1 𝜀1
En forma matricial: 𝑌2 1 𝑋21 𝑋22 … 𝑋2𝑝 𝛽2 𝜀2
= + ⋮
⋮ ⋮ ⋮ ⋮ … ⋮ ⋮
𝑌𝑛 1 𝑋𝑛1 𝑋𝑛2 … 𝑋𝑛𝑝 𝛽𝑛 𝜀𝑛
Los coeficientes de la regresión muestral:
𝛽 0 , 𝛽 1, 𝛽 2, …..,𝛽 k
Se calculan por el método de mínimos cuadrados.
Este método consiste en determinar los coeficientes de
manera que hagan mínima la suma de los cuadrados de
los residuales expresada por:
n ^
SSE e ( yi yi )
2
i
2
i 1
Modelo de regresión lineal mediante
matrices
𝒀i = 𝑩0 + 𝑩1 X1i + 𝑩2 X2i + … + 𝑩k Xki + ei
Con la notación matricial estas n ecuaciones se puede
escribir:
𝑌 = X𝐵 + e
Donde:
𝑌1 1 𝑋11 𝑋21 … 𝑋k1 𝐵1 𝑒1
𝑌 1 𝑋12 𝑋22 … 𝑋k2 𝐵 𝑒2
Y= 2 X= 𝐵= 2 𝑒= ⋮
⋮ ⋮ ⋮ ⋮ … ⋮ ⋮
𝑌𝑛 1 𝑋1n 𝑋2n … 𝑋𝑘𝑛 𝐵𝑘 𝑒𝑘
nx1 n(k+1) nx1 nx1
nx1 nx1 nx1
El vector b es la solución de la ecuación en matrices:
(X`X)B=X`Y
Donde
A = X`X
𝑛 𝑛 𝑛
𝑛 𝑋1𝑖 𝑋2𝑖 … 𝑋𝑘𝑖
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
2
= 𝑋1𝑖 𝑋1𝑖 𝑋1𝑖 𝑋2𝑖 … 𝑋1𝑖 𝑋𝑘𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1
⋮ ⋮ ⋮ … ⋮
𝑛 𝑛 𝑛 𝑛
2
𝑋𝑘𝑖 𝑋𝑘𝑖 𝑋1𝑖 𝑋𝑘𝑖 𝑋2𝑖 … G =𝑋𝑘𝑖
X`Y
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑛
Si la matriz X`X es no singular, se puede escribir 𝑌𝑖
𝑖=1
la solución para los coeficientes de regresión 𝑛
= 𝑋1𝑖 𝑌𝑖
como 𝑖=1
⋮
𝑛
B =A-1 G=(X`X)-1 X`Y De orden k+1 𝑋𝑘𝑖 𝑌𝑖
𝑖=1
𝑛
2
𝑆𝑆𝐸 𝑖=1 𝑦1 − 𝑏0 − 𝑏1 𝑥1𝑖 − 𝑏2 𝑥2𝑖 − … − 𝑏𝑘 𝑥𝑘𝑖 )2
𝜎 = =
𝑛−𝑘−1 𝑛−𝑘−1
C00 C01 C02
2 ( X ' X )1 2 A1 2 C10 C11 C12
C20 C21 C22
En donde los elementos de la diagonal principal, son las varianzas y los
demás elementos simétricos son las covarianzas
𝜎 2 𝐵i = C 𝑖𝑖𝜎 2 , i = 0, 1, 2
σ𝐵i𝐵j = Cov 𝐵𝑖, 𝐵𝑗) = C 𝑖𝑗𝜎 2 , i ≠j
𝜎= 𝜎2
INTERVALO DE CONFIANZA PARA LA MEDIA
El intervalo de confianza (1-ɑ)100% para la respuesta media :
Ŷ-𝒕ɑ/𝟐 s 𝒙′𝒐 𝑿′ 𝑿)−𝟏 𝒙𝟎 <𝒖𝒚/𝒙𝟏𝟎….. <Ŷ+𝒕ɑ/𝟐 s 𝒙′𝒐 𝑿′ 𝑿)−𝟏 𝒙𝟎
En donde t es con n-k-1 grados de libertad
INTERVALO DE PREDICCION DE Y0
Ŷ-𝒕ɑ/𝟐 s 𝟏 + 𝒙′𝒐 𝑿′ 𝑿)−𝟏 𝒙𝟎 <𝒚𝟎 <Ŷ+𝒕ɑ/𝟐 s 𝟏 + 𝒙′𝒐 𝑿′ 𝑿)−𝟏 𝒙𝟎
En donde t es con n-k-1 grados de libertad
COEFICIENTE DE DETERMINACION
El coeficiente de determinación es:
𝟐 𝑺𝑺𝑹
𝑹 =
𝑺𝑺𝑻
Regresión Lineal Múltiple
Ejercicio de Aplicación :
El dueño de un restaurante de hamburguesas en la ciudad de
Lima desea determinar la interrelación entre la introducción de
aderezos importados y las utilidades que recibe.
Utilidades (Y) 70 40 100 80 30 100
Demanda de Kétchup nacional (x1) 2 1 3 2 1 3
Demanda de Kétchup importado (x2) 50 65 75 30 45 35
Con esta información determinaremos
lo siguiente:
1.- La ecuación de regresión lineal múltiple.
2.- Elabore la tabla anova. La prueba de
significancia del modelo. a = 0.05
3.- Estimación de la varianza 𝜎 2
4.- Construya un Intervalo de predicción del 90
% para la utilidad esperada cuando la
demanda de kétchup nacional sea de 4 y la de
kétchup importada de 50.
5.- Matriz de varianzas y covarianzas
6.- El coeficiente de determinación múltiple.
De acuerdo al enunciado del
ejercicio, Y representa a las
utilidades, X1 representa a la
demanda de kétchup nacional y
X2 representa a la demanda de
kétchup importada.
El objetivo
principal:
Es establecer si las dos variables
independientes tienen efecto o no
sobre las utilidades del
restaurante, a fin de establecer
diferencias entre las dos.
Solución 1: La ecuación de regresión lineal múltiple
Calculando las sumatorias de los valores de X1, X2 y Y N=6
Y X1 X2 X1.X2 X1.Y X2.Y X12 X22 Y2
70 2 50 100 140 3500 4 2500 4900
40 1 65 65 40 2600 1 4225 1600
100 3 75 225 300 7500 9 5625 10000
80 2 30 60 160 2400 4 900 6400
30 1 45 45 30 1350 1 2025 900
100 3 35 105 300 3500 9 1225 10000
420 12 300 600 970 20850 28 16500 33800
Y X1 X2 X1.X2 X1.Y X2.Y X12 X22 Y2
420 12 300 600 970 20850 28 16500 33800
Definiendo la matriz X: Calculando la matriz Traspuesta:
Calculando A :
Inversa de A :
𝐴−′ =
Calculando G :
G=𝑿𝑻 Y = = Una matriz es no singular
cuando su determinante es
≠ 0
Como la matriz A = 𝑋 𝑇 X es no singular, se puede escribir la solución para los coeficientes de
regresión como:
B =(𝑋 𝑇 X)-1 𝑋 𝑇 Y 𝐵 = 𝐴−1 𝐺
De orden k+1
de aquí, entonces, el modelo de regresión La demanda debido factores
lineal múltiple solicitado en la pregunta 1 es: diferentes a la demanda de kétchup
nacional e importada
Por cada incremento en la
demanda de kétchup nacional, las
utilidades se incrementarán 32.5
veces, en promedio; siempre y
cuando la demanda de kétchup
importada permanezca constante.
Por cada incremento en la demanda de
kétchup importada, las utilidades
disminuirán 0.1 veces, en promedio;
siempre y cuando la demanda de
kétchup nacional permanezca
constante.
Solución 2: Elabore la tabla anova. La prueba de significancia del modelo. a = 0.05
Para realizar la prueba de significancia en el problema 2, calcularemos primero los valores de Syy, SSR y
SSE:
Calculando SSR
Calculando Syy
Calculando SSE:
el nivel de significancia de la prueba es de 0.05.
Realizando la tabla de análisis de varianza (tabla Anova): 𝑆𝑆𝑅
SSR K
𝑘 𝑀𝑆𝑅
𝑆𝑆𝐸 MSE
SSE N-k-1
N−k−1
SST N-1
con a = 0.05, v1 = 2 y v2 = 3 grados de
El valor de tablas de la distribución F
libertad en el numerador y el denominador, respectivamente, es 9.55.
Como F0 es mayor que F0.05, 2, 3; rechazamos la hipótesis nula.
podemos afirmar que las utilidades del restaurante
están significativamente relacionadas con la
Interpretación:
demanda de kétchup nacional ó con la demanda de
kétchup importada ó con ambas.
Solución 3:
2
Estimación de la varianza 𝜎
Formula:
K= n° de variables independientes = 2
n-k-1 = 3
n = cantidad de la muestra = 6
SSE = 160
Como ya tenemos los datos, reemplazamos en:
𝑺𝑺𝑬 𝟏𝟔𝟎
𝑺𝟐 = = 53.333
𝒏−𝒌−𝟏 𝟑
Solución 4:
Construya un Intervalo de predicción del 95 % para la utilidad esperada cuando la demanda de kétchup
nacional sea de 4 y la de kétchup importada de 50.
Formula:
Y ta / 2 s 1 X 0' ( X ' X )1 X 0 <y0 <Y ta / 2 s 1 X 0' ( X ' X )1 X 0
• CONFIANZA = 1-α = 0.95 LUEGO α=0.05, α/2=0.025
• Los grados de libertad serán:
V=n-k-1=6-2-1=3
• de tablas: 𝑇0,025 =3,182
• cálculos anteriores: S=7,30
Y= 𝟏𝟎 + 32.5 (4) – 0.1 (50) 𝒚 = 𝟏𝟑𝟓
DEBEMOS CALCULAR: 1
=? Sabemos que la Matriz 𝑋0 = 4
50
Traspuesta: 𝑥0 𝑇 = 1 4 50
Recordando la matriz A:
La inversa de A
𝐴−′ =
Finalmente:
1
= 1 4 50 4
50
= 1,1683
Finalmente reemplazamos valores en la formula:
Y ta / 2 s 1 X 0' ( X ' X )1 X 0 <y0 <Y ta / 2 s 1 X 0' ( X ' X )1 X 0
Y= 𝟏𝟑𝟓 = 1,1683
𝑇0,025 =3,182 S =7,30
𝟏𝟑𝟓 − 𝟑. 𝟏𝟖𝟐 ∗ 𝟕. 𝟑𝟎 𝟏 + 𝟏. 𝟏𝟔𝟖𝟑 < 𝒚𝟎 < 𝟏𝟑𝟓 + 𝟑. 𝟏𝟖𝟐 ∗ 𝟕. 𝟑𝟎 𝟏 + 𝟏. 𝟏𝟔𝟖𝟑
Luego el intervalo de predicción será:
100.80<𝒚𝟎 <169.2
Interpretación:
El intervalo predicción del 95 % para la utilidad esperada cuando la demanda de kétchup
nacional sea de 4 y la de kétchup importada de 50 es de 100.80<𝒚𝟎 <169,2
Solución 6: Matriz de
varianzas y covarianzas
𝜎 2 = 𝑆 2 = 53.333 𝐴−′ =
𝝈𝟐 𝑨−𝟏 = 53,333*
En donde los elementos de la diagonal principal, son las varianzas y los
demás elementos simétricos son las covarianzas
2
𝑖 = 1; 2
𝑏𝐵1 = 𝑐11 𝜎 = 13.333
𝑖 = 1, 𝑖 = 2; 𝜎𝐵1𝐵2 = 𝐶𝑜𝑣 𝐵1, 𝐵2 = 0
𝑖 = 1; 2
𝑏𝐵2 𝑐 𝜎 2 = 0.0355
= 22
𝑖 = 1, 𝑖 = 2; 𝜎𝐵2𝐵0 = 𝐶𝑜𝑣 𝐵2, 𝐵0 = −1,777
Solución 6: se pide calcular e interpretar el coeficiente de determinación múltiple:
Formula: ó SSR = 4240 𝑆𝑦𝑦 = 4400
Reemplazando datos en la fórmula:
Interpretación:
El 96.36 % de la variabilidad de la utilidad del restaurante se
explica o se debe al modelo de regresión lineal entre
El 3,64 % se debe a otros factores
EJERCICIO
Se esta realizando un estudio de asociación entre las siguientes
variables:
Y: gastos mensuales expresados en cientos de dólares.
X1=ingreso mensual familiar en miles de dólares.
X2=tamaño de la familia
Se tiene una muestra de 10 familias escogidas al azar , con los
siguientes datos: Y X1 X2
45 10 9
40 9 8
38 8 6
35 7 6
32 7 5
30 6 4
28 6 3
27 4 2
25 3 2
22 2 1
Se pide:
a. Determinar la ecuación de regresión muestral de los gastos
mensuales con respecto a las dos variables: ingreso mensual y
número de hijos.
b. Interprete el significado de los coeficientes b0, b1,b2.
c. Estime el gasto mensual para una familia de 8 hijos cuyo ingreso
es de $ 7000.00
d. Estimar σ2
e. Determinar σ2b2 y Cov (B1,B2)
f. Construya un intervalo de predicción al 95% para una sola
respuesta cuando X1=7 y X2=8.
g. Elabore la tabla ANOVA β1 =0, β2 =0.
h. Determine si existe relación significativa entre el tamaño se
familia y numero de hijos con un nivel de significancia de 0.05
i. Calcular el coeficiente de determinación e interprete su
resultado.
a. Determinar la ecuación de regresión muestral de los gastos mensuales con
respecto a las dos variables: ingreso mensual y número de hijos.
45 10 9 100 90 81 2025 450 405
40 9 8 81 72 64 1600 360 320
38 8 6 64 48 36 1444 304 228
35 7 6 49 42 36 1225 245 210
32 7 5 49 35 25 1024 224 160
30 6 4 36 24 16 900 180 120
28 6 3 36 18 9 784 168 84
27 4 2 16 8 4 729 108 54
25 3 2 9 6 4 625 75 50
22 2 1 4 2 1 484 44 22
322 62 46 444 345 276 10840 2158 1653
322 62 46 444 345 276 10840 2158 1653
Y1 1 X11 X 21 LA MATRIZ SOLUCION SERA: 0
Y
2
1 X
12 X 22 B 1
Y
. . . .
.
X
. . .
2
. . .
𝐵 = 𝑋′𝑋 −1 . 𝑋 ′ 𝑌 = 𝐴−1 . 𝐺
.
Yn 1 X1n X 2n
n n
n
n X 1i X 2i Yi
i 1 i 1
i 1
n n n
n
A=XX X 1i X 2
1i X 1i X 2i G=XY X 1iYi
i 1 i 1 i 1
i 1
n n n
n
X 2i X 1i X 2i X 22i X 2iYi
i 1 i 1 i 1 i 1
10 62 46 322
A=XX 62 444 345 G=XY 2158
46 345 276 1653
OBTENEMOS INVERSA DE LA MATRIZ A :
HACIENDO USO DE LA CALCULADORA CALCULAMOS LA MATRIZ INVERSA
1.3421 0.4737 0.3684
A 1 0.4737 0.2456 0.2281
0.3684 . 0.2281 0.2273
OBTENEMOS LA MATRIZ SOLUCION B:
𝐵 = 𝑋′𝑋 −1 . 𝑋 ′ 𝑌 = 𝐴−1 . 𝐺
1.3421053 0.4736842 0.3684211 322 18.9473684
B= 0.4736842 0.2456140 0.2280702 x 2158 0.50877193
0.3684211 0.2280702 0.2273074 1653 2.19527079
b0 18.9474 b1 0.5088 b2 2.1953
a. Estimación de la regresión lineal múltiple de los gastos
mensuales
Y=18.9474 + 0.5088 X1 +2.1953X2
b. Predicción cuando : x1=7 y x2=8
Y=18.9474 + 0.5088x7 +2.1953x8=40.0714
C. ESTIMACION DE LA VARIANZA σ2 MEDIANTE S2
S
2 2 SSE
Yi 2 b0 Yi b1 Yi . X 1i b2 Yi . X 2 i
n k 1 n k 1
10840 18, 9474 x322 (0, 5088 x 2158) 2,1953 x1653 12,1159
1, 7308
10 2 1 7
2 S 2 1, 7308
D. MATRIZ DE VARIANZAS Y COVARIANZAS
3519 1242 966
2622
2622 2622
2 A1 1, 7308
1249 644 598
2622 2622 2622
966 598 596
2622 2622 2622
1,342 0, 4736 0,3684
A 1,7308 0, 4764 0, 2456 0, 2280
2 1
0,3684 0, 2280 0, 2273
D. MATRIZ DE VARIANZAS Y COVARIANZAS
C00 2,3227 C01 0,8197 C02 0, 6377
2 A1 C10 0,8246 C11 0, 4251 C12 0,3946
C20 0, 6376 C21 0,3946 C22 0,3934
E. CONSTRUIR UN INTERVALO DE PREDICCIÓN DEL 95% PARA UNA
SOLA RESPUESTA CUANDO X1=7 y X2 =8
SOLUCION
SABEMOS QUE:
Y ta / 2 s 1 X 0' ( X ' X )1 X 0 <y0 <Y ta / 2 s 1 X 0' ( X ' X )1 X 0
En donde t tiene n-k-1 grados de libertad
• CONFIANZA = 1-α = .95 LUEGO α=0.05, α/2=0.025
• Los grados de libertad a considerar serán:
V=n-k-1=10-2-1=7 (k=no de variables independientes)
• Entonces de tablas:
T 0.025 =2.365
• Además de cálculos anteriores:
S=1.455 ŷo=39.83
DEBEMOS CALCULAR:
=?
SABEMOS QUE:
= 1.632
39.83 - 2.365 x 1.45 < 39.83 + 2.365 x 1.45
Luego el IC será:
34.25 <45.4
f. ELABORACION DELCUADRO ANOVA
CALCULAMOS LAS VARIACIONES CUADRATICAS:
SABEMOS QUE: α=0.05,
LUEGO: f0.025 (2,7)=6.54
SUMA DE CUADRADO
FUENTE GL F CALCULADA
CUADRADOS MEDIO
Regresión SSR=456,78 K=2 SSR/K=228.39 f=(SSR/K)/S2=107.88
Error SSE=14.82 n-k-1=7 SSE/(n-K-1)7=2.117
Total SST=471.00 n-1=9
CONCLUSION: Como f>fα entonces rechazamos Ho
G. PRUEBA F
y/o
OSEA QUE SI EXISTE RELACION
H. Calcular el coeficiente de determinación e interprete
su resultado.
96.98% se debe a la relación lineal entre
3.02% se debe a otros factores