0% encontró este documento útil (0 votos)
76 vistas36 páginas

Análisis de Regresión Lineal Múltiple

El documento describe el modelo de regresión lineal múltiple. Explica cómo se pueden relacionar una variable dependiente con dos o más variables independientes usando una ecuación de regresión. Los coeficientes de la regresión se calculan usando el método de mínimos cuadrados para minimizar la suma de los cuadrados de los errores. También presenta un ejemplo numérico para ilustrar cómo aplicar el modelo.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
76 vistas36 páginas

Análisis de Regresión Lineal Múltiple

El documento describe el modelo de regresión lineal múltiple. Explica cómo se pueden relacionar una variable dependiente con dos o más variables independientes usando una ecuación de regresión. Los coeficientes de la regresión se calculan usando el método de mínimos cuadrados para minimizar la suma de los cuadrados de los errores. También presenta un ejemplo numérico para ilustrar cómo aplicar el modelo.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Semana15-REGRESION LINEAL MÚLTIPLE

Es la relación de dos o más variables, que permitirá


relacionar mediante una ecuación, una variable en
relación a otras, denominándose a este REGRESIÓN
MÚLTIPLE.
𝑌i = 𝛽 0 + 𝛽 i Xip + εi
Donde εi es el error asociado a la medición i del valor Xip:
𝑦 = X𝛽 + e

𝑌1 1 𝑋11 𝑋12 … 𝑋1𝑝 𝛽1 𝜀1


En forma matricial: 𝑌2 1 𝑋21 𝑋22 … 𝑋2𝑝 𝛽2 𝜀2
= + ⋮
⋮ ⋮ ⋮ ⋮ … ⋮ ⋮
𝑌𝑛 1 𝑋𝑛1 𝑋𝑛2 … 𝑋𝑛𝑝 𝛽𝑛 𝜀𝑛
Los coeficientes de la regresión muestral:

𝛽 0 , 𝛽 1, 𝛽 2, …..,𝛽 k

Se calculan por el método de mínimos cuadrados.


Este método consiste en determinar los coeficientes de
manera que hagan mínima la suma de los cuadrados de
los residuales expresada por:

n ^
SSE  e   ( yi  yi )
2
i
2

i 1
Modelo de regresión lineal mediante
matrices
𝒀i = 𝑩0 + 𝑩1 X1i + 𝑩2 X2i + … + 𝑩k Xki + ei
Con la notación matricial estas n ecuaciones se puede
escribir:
𝑌 = X𝐵 + e
Donde:
𝑌1 1 𝑋11 𝑋21 … 𝑋k1 𝐵1 𝑒1
𝑌 1 𝑋12 𝑋22 … 𝑋k2 𝐵 𝑒2
Y= 2 X= 𝐵= 2 𝑒= ⋮
⋮ ⋮ ⋮ ⋮ … ⋮ ⋮
𝑌𝑛 1 𝑋1n 𝑋2n … 𝑋𝑘𝑛 𝐵𝑘 𝑒𝑘
nx1 n(k+1) nx1 nx1
nx1 nx1 nx1
El vector b es la solución de la ecuación en matrices:
(X`X)B=X`Y
Donde
A = X`X
𝑛 𝑛 𝑛
𝑛 𝑋1𝑖 𝑋2𝑖 … 𝑋𝑘𝑖
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
2
= 𝑋1𝑖 𝑋1𝑖 𝑋1𝑖 𝑋2𝑖 … 𝑋1𝑖 𝑋𝑘𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1
⋮ ⋮ ⋮ … ⋮
𝑛 𝑛 𝑛 𝑛
2
𝑋𝑘𝑖 𝑋𝑘𝑖 𝑋1𝑖 𝑋𝑘𝑖 𝑋2𝑖 … G =𝑋𝑘𝑖
X`Y
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑛
Si la matriz X`X es no singular, se puede escribir 𝑌𝑖
𝑖=1
la solución para los coeficientes de regresión 𝑛

= 𝑋1𝑖 𝑌𝑖
como 𝑖=1

𝑛
B =A-1 G=(X`X)-1 X`Y De orden k+1 𝑋𝑘𝑖 𝑌𝑖
𝑖=1
𝑛
2
𝑆𝑆𝐸 𝑖=1 𝑦1 − 𝑏0 − 𝑏1 𝑥1𝑖 − 𝑏2 𝑥2𝑖 − … − 𝑏𝑘 𝑥𝑘𝑖 )2
𝜎 = =
𝑛−𝑘−1 𝑛−𝑘−1

 C00 C01 C02 


 2 ( X ' X )1   2 A1   2 C10 C11 C12 
 C20 C21 C22 

En donde los elementos de la diagonal principal, son las varianzas y los


demás elementos simétricos son las covarianzas
𝜎 2 𝐵i = C 𝑖𝑖𝜎 2 , i = 0, 1, 2

σ𝐵i𝐵j = Cov 𝐵𝑖, 𝐵𝑗) = C 𝑖𝑗𝜎 2 , i ≠j

𝜎= 𝜎2
INTERVALO DE CONFIANZA PARA LA MEDIA
El intervalo de confianza (1-ɑ)100% para la respuesta media :

Ŷ-𝒕ɑ/𝟐 s 𝒙′𝒐 𝑿′ 𝑿)−𝟏 𝒙𝟎 <𝒖𝒚/𝒙𝟏𝟎….. <Ŷ+𝒕ɑ/𝟐 s 𝒙′𝒐 𝑿′ 𝑿)−𝟏 𝒙𝟎

En donde t es con n-k-1 grados de libertad

INTERVALO DE PREDICCION DE Y0

Ŷ-𝒕ɑ/𝟐 s 𝟏 + 𝒙′𝒐 𝑿′ 𝑿)−𝟏 𝒙𝟎 <𝒚𝟎 <Ŷ+𝒕ɑ/𝟐 s 𝟏 + 𝒙′𝒐 𝑿′ 𝑿)−𝟏 𝒙𝟎

En donde t es con n-k-1 grados de libertad


COEFICIENTE DE DETERMINACION

El coeficiente de determinación es:

𝟐 𝑺𝑺𝑹
𝑹 =
𝑺𝑺𝑻
Regresión Lineal Múltiple
Ejercicio de Aplicación :

El dueño de un restaurante de hamburguesas en la ciudad de


Lima desea determinar la interrelación entre la introducción de
aderezos importados y las utilidades que recibe.
Utilidades (Y) 70 40 100 80 30 100

Demanda de Kétchup nacional (x1) 2 1 3 2 1 3

Demanda de Kétchup importado (x2) 50 65 75 30 45 35


Con esta información determinaremos
lo siguiente:
1.- La ecuación de regresión lineal múltiple.
2.- Elabore la tabla anova. La prueba de
significancia del modelo. a = 0.05
3.- Estimación de la varianza 𝜎 2
4.- Construya un Intervalo de predicción del 90
% para la utilidad esperada cuando la
demanda de kétchup nacional sea de 4 y la de
kétchup importada de 50.
5.- Matriz de varianzas y covarianzas
6.- El coeficiente de determinación múltiple.
De acuerdo al enunciado del
ejercicio, Y representa a las
utilidades, X1 representa a la
demanda de kétchup nacional y
X2 representa a la demanda de
kétchup importada.

El objetivo
principal:

Es establecer si las dos variables


independientes tienen efecto o no
sobre las utilidades del
restaurante, a fin de establecer
diferencias entre las dos.
Solución 1: La ecuación de regresión lineal múltiple

Calculando las sumatorias de los valores de X1, X2 y Y N=6

Y X1 X2 X1.X2 X1.Y X2.Y X12 X22 Y2


70 2 50 100 140 3500 4 2500 4900
40 1 65 65 40 2600 1 4225 1600
100 3 75 225 300 7500 9 5625 10000
80 2 30 60 160 2400 4 900 6400
30 1 45 45 30 1350 1 2025 900
100 3 35 105 300 3500 9 1225 10000
420 12 300 600 970 20850 28 16500 33800
Y X1 X2 X1.X2 X1.Y X2.Y X12 X22 Y2
420 12 300 600 970 20850 28 16500 33800

Definiendo la matriz X: Calculando la matriz Traspuesta:

Calculando A :

Inversa de A :

𝐴−′ =
Calculando G :

G=𝑿𝑻 Y = = Una matriz es no singular


cuando su determinante es
≠ 0

Como la matriz A = 𝑋 𝑇 X es no singular, se puede escribir la solución para los coeficientes de


regresión como:

B =(𝑋 𝑇 X)-1 𝑋 𝑇 Y 𝐵 = 𝐴−1 𝐺


De orden k+1
de aquí, entonces, el modelo de regresión La demanda debido factores
lineal múltiple solicitado en la pregunta 1 es: diferentes a la demanda de kétchup
nacional e importada

Por cada incremento en la


demanda de kétchup nacional, las
utilidades se incrementarán 32.5
veces, en promedio; siempre y
cuando la demanda de kétchup
importada permanezca constante.
Por cada incremento en la demanda de
kétchup importada, las utilidades
disminuirán 0.1 veces, en promedio;
siempre y cuando la demanda de
kétchup nacional permanezca
constante.
Solución 2: Elabore la tabla anova. La prueba de significancia del modelo. a = 0.05

Para realizar la prueba de significancia en el problema 2, calcularemos primero los valores de Syy, SSR y
SSE:

Calculando SSR
Calculando Syy

Calculando SSE:
el nivel de significancia de la prueba es de 0.05.

Realizando la tabla de análisis de varianza (tabla Anova): 𝑆𝑆𝑅


SSR K
𝑘 𝑀𝑆𝑅
𝑆𝑆𝐸 MSE
SSE N-k-1
N−k−1

SST N-1

con a = 0.05, v1 = 2 y v2 = 3 grados de


El valor de tablas de la distribución F
libertad en el numerador y el denominador, respectivamente, es 9.55.

Como F0 es mayor que F0.05, 2, 3; rechazamos la hipótesis nula.

podemos afirmar que las utilidades del restaurante


están significativamente relacionadas con la
Interpretación:
demanda de kétchup nacional ó con la demanda de
kétchup importada ó con ambas.
Solución 3:
2
Estimación de la varianza 𝜎

Formula:

K= n° de variables independientes = 2
n-k-1 = 3
n = cantidad de la muestra = 6
SSE = 160

Como ya tenemos los datos, reemplazamos en:

𝑺𝑺𝑬 𝟏𝟔𝟎
𝑺𝟐 = = 53.333
𝒏−𝒌−𝟏 𝟑
Solución 4:

Construya un Intervalo de predicción del 95 % para la utilidad esperada cuando la demanda de kétchup
nacional sea de 4 y la de kétchup importada de 50.

Formula:

Y  ta / 2 s 1  X 0' ( X ' X )1 X 0 <y0 <Y  ta / 2 s 1  X 0' ( X ' X )1 X 0

• CONFIANZA = 1-α = 0.95 LUEGO α=0.05, α/2=0.025

• Los grados de libertad serán:


V=n-k-1=6-2-1=3

• de tablas: 𝑇0,025 =3,182

• cálculos anteriores: S=7,30

Y= 𝟏𝟎 + 32.5 (4) – 0.1 (50) 𝒚 = 𝟏𝟑𝟓


DEBEMOS CALCULAR: 1
=? Sabemos que la Matriz 𝑋0 = 4
50

Traspuesta: 𝑥0 𝑇 = 1 4 50
Recordando la matriz A:
La inversa de A

𝐴−′ =

Finalmente:
1
= 1 4 50 4
50

= 1,1683
Finalmente reemplazamos valores en la formula:

Y  ta / 2 s 1  X 0' ( X ' X )1 X 0 <y0 <Y  ta / 2 s 1  X 0' ( X ' X )1 X 0

Y= 𝟏𝟑𝟓 = 1,1683

𝑇0,025 =3,182 S =7,30

𝟏𝟑𝟓 − 𝟑. 𝟏𝟖𝟐 ∗ 𝟕. 𝟑𝟎 𝟏 + 𝟏. 𝟏𝟔𝟖𝟑 < 𝒚𝟎 < 𝟏𝟑𝟓 + 𝟑. 𝟏𝟖𝟐 ∗ 𝟕. 𝟑𝟎 𝟏 + 𝟏. 𝟏𝟔𝟖𝟑

Luego el intervalo de predicción será:


100.80<𝒚𝟎 <169.2
Interpretación:

El intervalo predicción del 95 % para la utilidad esperada cuando la demanda de kétchup


nacional sea de 4 y la de kétchup importada de 50 es de 100.80<𝒚𝟎 <169,2
Solución 6: Matriz de
varianzas y covarianzas

𝜎 2 = 𝑆 2 = 53.333 𝐴−′ =

𝝈𝟐 𝑨−𝟏 = 53,333*

En donde los elementos de la diagonal principal, son las varianzas y los


demás elementos simétricos son las covarianzas
2
𝑖 = 1; 2
𝑏𝐵1 = 𝑐11 𝜎 = 13.333

𝑖 = 1, 𝑖 = 2; 𝜎𝐵1𝐵2 = 𝐶𝑜𝑣 𝐵1, 𝐵2 = 0

𝑖 = 1; 2
𝑏𝐵2 𝑐 𝜎 2 = 0.0355
= 22

𝑖 = 1, 𝑖 = 2; 𝜎𝐵2𝐵0 = 𝐶𝑜𝑣 𝐵2, 𝐵0 = −1,777


Solución 6: se pide calcular e interpretar el coeficiente de determinación múltiple:

Formula: ó SSR = 4240 𝑆𝑦𝑦 = 4400

Reemplazando datos en la fórmula:

Interpretación:

El 96.36 % de la variabilidad de la utilidad del restaurante se


explica o se debe al modelo de regresión lineal entre

El 3,64 % se debe a otros factores


EJERCICIO
Se esta realizando un estudio de asociación entre las siguientes
variables:
Y: gastos mensuales expresados en cientos de dólares.
X1=ingreso mensual familiar en miles de dólares.
X2=tamaño de la familia
Se tiene una muestra de 10 familias escogidas al azar , con los
siguientes datos: Y X1 X2
45 10 9
40 9 8
38 8 6
35 7 6
32 7 5
30 6 4
28 6 3
27 4 2
25 3 2
22 2 1
Se pide:
a. Determinar la ecuación de regresión muestral de los gastos
mensuales con respecto a las dos variables: ingreso mensual y
número de hijos.
b. Interprete el significado de los coeficientes b0, b1,b2.
c. Estime el gasto mensual para una familia de 8 hijos cuyo ingreso
es de $ 7000.00
d. Estimar σ2
e. Determinar σ2b2 y Cov (B1,B2)
f. Construya un intervalo de predicción al 95% para una sola
respuesta cuando X1=7 y X2=8.
g. Elabore la tabla ANOVA β1 =0, β2 =0.
h. Determine si existe relación significativa entre el tamaño se
familia y numero de hijos con un nivel de significancia de 0.05
i. Calcular el coeficiente de determinación e interprete su
resultado.
a. Determinar la ecuación de regresión muestral de los gastos mensuales con
respecto a las dos variables: ingreso mensual y número de hijos.

45 10 9 100 90 81 2025 450 405


40 9 8 81 72 64 1600 360 320
38 8 6 64 48 36 1444 304 228
35 7 6 49 42 36 1225 245 210
32 7 5 49 35 25 1024 224 160
30 6 4 36 24 16 900 180 120
28 6 3 36 18 9 784 168 84
27 4 2 16 8 4 729 108 54
25 3 2 9 6 4 625 75 50
22 2 1 4 2 1 484 44 22

322 62 46 444 345 276 10840 2158 1653


322 62 46 444 345 276 10840 2158 1653

 Y1  1 X11 X 21  LA MATRIZ SOLUCION SERA:  0 


Y 
 2
1 X
 12 X 22  B   1 
Y 
.  . . . 
 . 
X
. . . 
  2 
   
 .  . . 
𝐵 = 𝑋′𝑋 −1 . 𝑋 ′ 𝑌 = 𝐴−1 . 𝐺
.
 Yn  1 X1n X 2n 

 n n
  n 
 n  X 1i  X 2i    Yi 
 i 1 i 1
  i 1 
 n n n
  n 
A=XX    X 1i X 2
1i  X 1i X 2i  G=XY    X 1iYi 
 i 1 i 1 i 1
  i 1 
 n n n
  n 
  X 2i X 1i X 2i  X 22i    X 2iYi 
 i 1 i 1 i 1   i 1 

10 62 46   322 
A=XX  62 444 345  G=XY   2158
 46 345 276  1653 
OBTENEMOS INVERSA DE LA MATRIZ A :
HACIENDO USO DE LA CALCULADORA CALCULAMOS LA MATRIZ INVERSA

 1.3421 0.4737 0.3684 


A 1   0.4737 0.2456 0.2281
 0.3684 .  0.2281 0.2273 

OBTENEMOS LA MATRIZ SOLUCION B:

𝐵 = 𝑋′𝑋 −1 . 𝑋 ′ 𝑌 = 𝐴−1 . 𝐺

 1.3421053 0.4736842 0.3684211  322   18.9473684 


B=  0.4736842 0.2456140 0.2280702  x  2158   0.50877193
 0.3684211 0.2280702 0.2273074  1653   2.19527079

b0  18.9474 b1  0.5088 b2  2.1953


a. Estimación de la regresión lineal múltiple de los gastos
mensuales

Y=18.9474 + 0.5088 X1 +2.1953X2

b. Predicción cuando : x1=7 y x2=8

Y=18.9474 + 0.5088x7 +2.1953x8=40.0714


C. ESTIMACION DE LA VARIANZA σ2 MEDIANTE S2
 S 
2 2 SSE

 Yi 2  b0  Yi b1  Yi . X 1i  b2  Yi . X 2 i
n  k 1 n  k 1
10840  18, 9474 x322  (0, 5088 x 2158)  2,1953 x1653 12,1159
   1, 7308
10  2  1 7
 2  S 2  1, 7308

D. MATRIZ DE VARIANZAS Y COVARIANZAS


 3519 1242 966 
 2622 
2622 2622 
 
 2 A1  1, 7308  
1249 644 598 

 2622 2622 2622 
 
 966 598 596 
 
 2622 2622 2622 

 1,342 0, 4736 0,3684 


 
  A  1,7308  0, 4764 0, 2456 0, 2280 
2 1

 0,3684 0, 2280 0, 2273 


D. MATRIZ DE VARIANZAS Y COVARIANZAS

 C00  2,3227 C01  0,8197 C02  0, 6377 


  2 A1  C10  0,8246 C11  0, 4251 C12  0,3946 
 C20  0, 6376 C21  0,3946 C22  0,3934 
E. CONSTRUIR UN INTERVALO DE PREDICCIÓN DEL 95% PARA UNA
SOLA RESPUESTA CUANDO X1=7 y X2 =8

SOLUCION
SABEMOS QUE:

Y  ta / 2 s 1  X 0' ( X ' X )1 X 0 <y0 <Y  ta / 2 s 1  X 0' ( X ' X )1 X 0


En donde t tiene n-k-1 grados de libertad

• CONFIANZA = 1-α = .95 LUEGO α=0.05, α/2=0.025

• Los grados de libertad a considerar serán:


V=n-k-1=10-2-1=7 (k=no de variables independientes)

• Entonces de tablas:
T 0.025 =2.365

• Además de cálculos anteriores:


S=1.455 ŷo=39.83
DEBEMOS CALCULAR:
=?

SABEMOS QUE:

= 1.632

39.83 - 2.365 x 1.45 < 39.83 + 2.365 x 1.45

Luego el IC será:
34.25 <45.4
f. ELABORACION DELCUADRO ANOVA
CALCULAMOS LAS VARIACIONES CUADRATICAS:

SABEMOS QUE: α=0.05,


LUEGO: f0.025 (2,7)=6.54
SUMA DE CUADRADO
FUENTE GL F CALCULADA
CUADRADOS MEDIO
Regresión SSR=456,78 K=2 SSR/K=228.39 f=(SSR/K)/S2=107.88
Error SSE=14.82 n-k-1=7 SSE/(n-K-1)7=2.117
Total SST=471.00 n-1=9
CONCLUSION: Como f>fα entonces rechazamos Ho

G. PRUEBA F
y/o

OSEA QUE SI EXISTE RELACION


H. Calcular el coeficiente de determinación e interprete
su resultado.

96.98% se debe a la relación lineal entre

3.02% se debe a otros factores

También podría gustarte