0% encontró este documento útil (0 votos)
182 vistas21 páginas

Clase 14

El documento describe el modelo de regresión lineal múltiple, que permite predecir una variable dependiente en base a múltiples variables independientes. Explica cómo calcular los coeficientes de regresión usando la notación matricial y pruebas de hipótesis. También cubre conceptos como residuos, suma de cuadrados y tablas ANOVA para evaluar la significancia del modelo.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
182 vistas21 páginas

Clase 14

El documento describe el modelo de regresión lineal múltiple, que permite predecir una variable dependiente en base a múltiples variables independientes. Explica cómo calcular los coeficientes de regresión usando la notación matricial y pruebas de hipótesis. También cubre conceptos como residuos, suma de cuadrados y tablas ANOVA para evaluar la significancia del modelo.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

Estadística Inferencial

REGRESIÓN LINEAL MÚLTIPLE


El objetivo básico del Análisis de Regresión Lineal Múltiple es el de construir un modelo
que permita predecir o estimar el valor de una variable Y, en base a un conjunto de
variables X1, X2,....,Xk

A la variable Y se le llama variable dependiente, y es la que se quiere estimar o predecir.


Las variables X1, X2,....,Xk son las variables independientes o variables predictoras.

𝑌𝑖 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2+𝜀𝑖
Supuestos:
 Los residuos tienen media 0.
 La varianza de los residuos no depende de xi (homocedasticidad)
 Los residuos son normales.
 Los residuos son aleatorios.
 Las variables x1, x2, etc. no están linealmente correlacionadas entre sí
REGRESIÓN LINEAL MÚLTIPLE
El modelo poblacional de regresión lineal múltiple, con k variables independientes, es
el siguiente:
𝑌𝑖 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2+𝜀𝑖
Donde:
Son Parámetros desconocidos, llamados coeficientes de regresión. (i
=0,1,2,3,...,k)
Son los errores del modelo, y se suponen independientes y normalmente
distribuidos con media 0 y varianza 𝜎 2

  Estos coeficientes son calculados a


= 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2+…+𝛽k𝑋k partir del método de los mínimos
cuadrados.
REGRESIÓN LINEAL MÚLTIPLE
Resolución de Regresión Lineal Múltiple: Notación Matricial
Para determinar la ecuación de regresión líneal múltiple muestral, debemos primero identificar la
variable dependiente y luego las variables independientes, una vez identificados, formaremos nuestro
sistema de matrices para cada uno de ellos, formando el siguiente sistema de ecuación de regresión
múltiple, y ubicándolos de esta forma:

𝒀𝒊 = 𝜷𝐤 𝑿𝐢𝐤 +𝒆𝒊
Quedando el sistema de Matrices definida de la siguiente manera:

Donde: Yi: es la Matriz de la Variable Dependiente


Xi: es la Matriz de la Variable Independiente
Bi: es la Matriz de los coeficientes predictores
ei : es la matriz del error de estimación
REGRESIÓN LINEAL MÚLTIPLE
Notación Matricial

𝒀𝒊 = 𝜷𝐤 𝑿𝐢𝐤 +𝜺𝒊
NOTA:
En la primera columna de la matriz de la variable independiente se pone 1, que corresponde al valor de la constante
REGRESIÓN LINEAL MÚLTIPLE
para hallar el valor de cada uno de los coeficientes regresores B, resolveremos las
siguientes operaciones matriciales:

β= 𝑋𝑇 𝑋 −1 𝑋𝑇 𝑌
Donde: 𝑋𝑇 : es la matriz transpuesta de la variable independiente
:𝑋 𝑇 𝑋 −1 : es la matriz inversa

β : es la matriz de los coeficientes regresores.

𝛽0
𝛽1
β = 𝑋𝑇 𝑋  β= .
−1 𝑋 𝑇 𝑌
.
.
𝛽𝑘
REGRESIÓN LINEAL MÚLTIPLE
Ejercicios
Se ha reunido la siguiente información de una muestra aleatoria de arrendadores de
departamentos en una ciudad. Se intenta predecir la renta (en dólares por mes) con base en
el tamaño del departamento (número de habitaciones) y la distancia al centro de la ciudad
(en millas). y Tamaño Distancia
360 2 1
1000 6 1
450 3 2
525 4 3
350 2 10
300 1 4
a) Determinar la ecuación de regresión estimada
b) Interpretar cada uno de los coeficientes
REGRESIÓN LINEAL MÚLTIPLE
Solución a.
La ecuación de Regresión a encontrar será: 𝑌= 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2
𝑌 𝑋1 𝑋2 𝑋1𝑌 𝑋2 𝑌 𝑋1𝑋2 𝑋 12 𝑋2 2
360 2 1 720 360 2 4 1
1000 6 1 6000 1000 6 36 1
450 3 2 1350 900 6 9 4
525 4 3 2100 1575 12 16 9
350 2 10 700 3500 20 4 100
300 1 4 300 1200 4 1 16
2985 18 21 11170 8535 50 70 131

Σ𝑌 = 2985 Σ 𝑋1 = 18 Σ𝑋2 = 21 Σ𝑋1 𝑌 = 11170 Σ𝑋2 𝑌 = 8535 Σ 𝑋1𝑋2 = 50 Σ 𝑋1 2 = 70 Σ 𝑋22 = 131


REGRESIÓN LINEAL MÚLTIPLE
Reemplazando en las ecuaciones normales
෎ 𝑌 = 𝑛𝛽0 + 𝛽1 ෍ 𝑋1 + 𝛽2 ෍
𝑋2

෎ 𝑋1𝑌 = 𝛽0 ෍ 𝑋1 + 𝛽1 ෍ 𝑋12 + 𝛽2 ෍
𝑋1𝑋2

෎ 𝑋2𝑌 = 𝛽0 ෍ 𝑋2 + 𝛽1 ෍ 𝑋1𝑋2 + 𝛽2 ෍
𝑋 22
Resolviendo el sistema de
Ecuaciones
2 9 8 5  6 b 0  b1 ( 1 8 )  b 2 ( 2 1 ) 𝛽0 96.481
1 1 1 7 0  b 0 ( 1 8 )  b1 ( 7 0 )  b 2 ( 5 0 ) 𝜷 = 𝛽1 = 136.485
8 5 3 5  b 0 ( 2 1 )  b1 ( 5 0 )  b 2 ( 1 3 1 ) 𝛽2 −2.401
REGRESIÓN LINEAL MÚLTIPLE

𝑌=96.481 + 136.485𝑁º ℎ𝑎𝑏𝑖𝑡 − 2.401𝐷𝑖𝑠𝑡𝑎𝑛𝑐


Solución a.
𝜷 𝟎 : La renta esperada(promedio), cuando el tamaño del departamento y la distancia al centro de la
ciudad toman el valor de cero será de 96.481$

𝜷𝟏 : Por cada incremento de una habitación, la renta esperada(promedio) se incrementará en


136.485$ manteniendo constante la distancia al centro de la ciudad.

𝜷 𝟐 : Por cada incremento de una unidad de distancia al centro de la ciudad, la renta esperada
(promedio) disminuirá en -2,401$ manteniendo constante el número de habitación
REGRESIÓN LINEAL MÚLTIPLE
Prueba de Hipótesis significancia modelo
Esta prueba permite determinar si el modelo es significativo o no, para esto
realizamos una prueba de Análisis de Varianza(ANOVA), y la hipótesis a plantear es
la siguiente:

H0: 1 = 2 = .... = k = 0
(El modelo no es significativo)
H1: Al menos un i es diferente de cero
(El modelo si es significativo)

Para decidir sobre estas hipótesis se construye la siguiente tabla de


análisis de varianza (Tabla ANOVA)
REGRESIÓN LINEAL MÚLTIPLE
Residuos
En un modelo de regresión, los residuos o errores son las diferencias entre los verdaderos valores
que toma la variable dependiente y los valores estimados. Se calculan por tanto mediante:
 𝜺
^ 𝒊 = 𝒚𝒊 − 𝒚𝒊
^

2
→𝑆𝐶𝑇=∑ (𝑌 − 𝑌 ) 
´
 
Suma cuadrados Total (SCT)

permite medir la variabilidad total de la variable dependiente (Y)

2
→𝑆𝐶𝑅=∑  (^𝑦𝑖 − ´𝑦)
 
Suma de cuadrados explicado Regresión (SCR)  
=SCR+SCE
acumula la parte de la variabilidad de la variable dependiente que consigue explicar el modelo.

2
→𝑆𝐶𝐸=∑ (𝑦𝑖 −^𝑦 𝑖)
 
Suma de cuadrados de los residuos o errores (SCE)
acumula la variabilidad de la variable dependiente que no conseguimos explicar con el modelo
REGRESIÓN LINEAL MÚLTIPLE
Cuadro ANOVA
Fuente
Fuente de
de
Variación
Variación
GL
GL SC
SC CM
CM Fc
Fc Ftab
Ftab
Regresión
Residual
Regresión
k  
k
÷
(Error)
Residual
Total
n-k-1
n-1 ÷
 
 
 
÷    
(Error) n-k-1
Total n-1      

Estadístico de prueba
 𝑅𝑒𝑐h𝑎𝑧𝑜 h0
  𝐶𝑀 𝑅  no rechaza
𝐹𝐶 = 𝐹 ( 1− α ,𝑘 , 𝑛 −𝑘 − 1¿ 
𝐶𝑀 𝐸

  𝐹 (1 −𝛼 ; 1 ; 𝑛 −2 )
REGRESIÓN LINEAL MÚLTIPLE
 EJEMPLO: El presidente de una gran cadena de restaurantes de comida rápida seleccionó de manera aleatoria 10
franquicias y registró para cada una de ellas, la ganancia neta según el tipo de ventas en el local y el tipo de ventas
delivery, con el fin de impulsar el tipo de ventas más rentable. Un analista encontró el siguiente modelo de
regresión que describe el comportamiento de la variable de interes
¿El modelo es significativo?
FRANQUICIA GANANCIA NETA(millon) Y VENTAS EN EL LUGAR(mill) (X1) VENTAS DELIVERY(mill) (X2)
1 1,5 8,4 7,7
2 0,8 3,3 4,5
3 1,2 5,8 8,4
4 1,4 10 7,8
5 0,2 4,7 2,4
6 0,8 7,7 4,8
7 0,6 4,5 2,5
8 1,3 8,6 3,4
9 0,4 5,9 2
10 0,6 6,3 4,1
REGRESIÓN LINEAL MÚLTIPLE
 
PASOS:
Planteo de Hipótesis:
H0: 1 = 2 = .... = k = 0 (El modelo no es significativo)
H1: Al menos un i es diferente de cero (El modelo si es significativo)

3. Cálculo del Estadístico de Contraste (construir cuadro anova)


F=
2. Gráfica de la Región Crítica
Determinación del Punto Crítico F(𝞪,k,n-k-1)
4. Decisión: Si Fcalculado > Fcrítico aceptamos H1, por tanto si
existe regresión lineal entre con al menos x1,x2 e Y
REGRESIÓN LINEAL MÚLTIPLE
8,4 7,7 1,5 1,38 0,25 0,01
3,3 4,5 0,8 0,57 0,1 0,05
5,8 8,4 1,2 1,23 0,12 0
10 7,8 1,4 1,54 0,44 0,02
4,7
4,7 2,4
2,4 0,2
0,2 0,47
0,47 0,17
0,17 0,07
0,07
7,7
7,7 4,8
4,8 0,8
0,8 1
1 0,01
0,01 0,04
0,04
4,5
4,5 2,5
2,5 0,6
0,6 0,46
0,46 0,18
0,18 0,02
0,02
8,6
8,6 3,4
3,4 1,3
1,3 0,93
0,93 0
0 0,14
0,14
5,9
5,9 2
2 0,4
0,4 0,53
0,53 0,12
0,12 0,02
0,02
6,3
6,3 4,1
4,1 0,6
0,6 0,8
0,8 0,01
0,01 0,04
0,04
    1.4 0.41
    1.4 0.41
Promedio
  +0.41
n=10  
REGRESIÓN LINEAL MÚLTIPLE
Paso1:
H0: 1 = 2 = 0 (El modelo no es significativo) Estadístico Valor
H1: Al menos un i es diferente de cero (El modelo si es significativo) de prueba tabla F
Paso2: Cuadro anova

Fuente de
Variación GL SC CM Fc Ftab

Regresión 2
 
÷ =1.4 0.7 11.67
 
÷
Residual  
÷
(Error) 7 =0.41 0.06    

Total 9 1.81      
  =224.02
 
𝑆𝐶
  𝐸=75.8
REGRESIÓN LINEAL MÚLTIPLE
Paso 3:
Región Crítica
𝛼=0.05
 
  11.67

 NO rechaza  𝑅𝑒𝑐h𝑎𝑧𝑜 h0

K=2
𝑛  −𝑘 −1=10 −2 −1=7
 
𝐹 (𝛼 ;𝑘 ; 𝑛 − 𝑘 −1 )=𝐹 ( 0 , 0 5 ;2 ;7)= 4.74
Paso 4:
Decisión: Con un nivel de significancia del 5% se rechaza la Hipótesis nula. por tanto si existe
regresión lineal entre al menor uno de los x1,x2 e Y
REGRESIÓN LINEAL MÚLTIPLE
EJEMPLO2: Hallar el coeficiente de correlación y determinación, de las variables Xi e Yi,
para el problema de la cadena de restaurantes?
2
COEFICIENTE DE DETERMINACION MULTIPLE  2 ∑ ( 𝑌
^ − 𝑌
´ )     𝑆𝐶𝑅
𝑅 = 2
=
 =
∑ (𝑌 − 𝑌´ )   𝑆𝐶𝑇

Esto indica que el 77.3% de la variación de las ganancias mensuales Yi, queda estadísticamente
explicado por las ventas locales X1 y por las ventas delivery X2.

COEFICIENTE DE CORRELACION MULTIPLE


 R ==
R= 0.879 Coeficiente de Correlación Múltiple
Este coeficiente indica que el 87.9% de los valores de X1 y X2, son explicadas por Yi, correspondiente a la
ecuación de regresión lineal múltiple.
EJERCICIO ADICIONAL
•El siguiente cuadro ANOVA es el resultado de modelar dos variables independientes y una
variable dependiente (y~x1+x2)
CUADRO ANOVA

Fuente de Variación GL SC CM Fc Ftab


Regresión 2 89.2 44.6 …. …..

Residual (Error) 10 15.3 1.53    

Total 12 104.5      
Fc: Estadístico de prueba
Ftab: Valor F de la tabla

a) Pruebe si el modelo es significativo a un nivel de confianza del 5%


b) Halle e interprete el coeficiente de determinación
EJERCICIO ADICIONAL

Σ𝑌 = Σ𝑋2 = Σ𝑋2 𝑌 = Σ 𝑋1 2 =

Σ 𝑋1 =
a) Determinar la ecuación Σ 𝑋1𝑋2 =
Σ𝑋1 𝑌 = de regresión estimada Σ 𝑋2 2 =
b) Interpretar cada uno de los coeficientes

También podría gustarte