0% encontró este documento útil (0 votos)
29 vistas36 páginas

Regresión Lineal Múltiple en Econometría

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
29 vistas36 páginas

Regresión Lineal Múltiple en Econometría

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Econometría y Pronósticos

Clase 7: Regresión lineal múltiple


Dr. José Ignacio Hernández - Semana del 15 de abril de 2024
Resumen de la clase anterior

En la clase anterior:
• Realizaremos nuestra primera
estimación de un modelo de
regresión lineal simple con
Rstudio

En la clase de hoy:
• Estudiaremos el modelo
de regresión múltiple.
De la clase anterior: regresión lineal simple

Sea la función de regresión poblacional (FRP):

𝒀 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ⋅ 𝑿𝒊 + 𝝁𝒊

La FRP no es observable directamente, pero contamos con una muestra que nos permite definir una función de
regresión muestral (FRM):

𝑌𝑖 = )
𝛽 0 + 𝛽)1 ⋅ 𝑋𝑖 + 𝜇,𝑖

Usando Mínimos Cuadrados Ordinarios (MCO) podemos encontrar 𝜷. 𝟎 y 𝜷. 𝟏:

𝜷! 𝟎 =
𝒀- − 𝜷! 𝟏 𝜷! 𝟏 = 𝑪𝒐𝒗 𝑿, 𝒀
𝑽𝒂𝒓 𝑿
⋅ 𝑿-
3
De la clase anterior: regresión lineal simple

En la mayoría de las aplicaciones reales, la variable dependiente es


una función de más de una variable explicativa.

Por ejemplo, el ingreso de una persona puede depender de:

• Educación (retornos a la educación)


• Experiencia laboral
• Si es de sexo femenino o masculino (brecha de genero)
• Edad

En ese caso, el modelo de regresión simple debe ser extendido


a un modelo de regresión múltiple.

4
Modelo de regresión lineal
múltiple

5
Regresión lineal múltiple: el modelo

En un modelo de regression lineal multiple, la variable dependiente (Y) es una función de dos o más variables
independientes (X).

Por ejemplo, para dos variables independientes:

𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 ⋅ 𝑿𝒊𝟏 + 𝜷𝟐 ⋅ 𝑿𝒊𝟐 + 𝝁𝒊

Y en general, para K variables independientes:

𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 ⋅ 𝑿𝒊𝟏 + 𝜷𝟐 ⋅ 𝑿𝒊𝟐 + ⋯ + 𝜷𝒌 ⋅ 𝑿𝒊𝑲 + 𝝁𝒊

La regresión lineal múltiple es una generalización del modelo de regresión lineal simple (o con dos
variables). Por
6
Regresión lineal múltiple: interpretación

Tomemos el modelo de regresión lineal con K variables independientes:

𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 ⋅ 𝑿𝒊𝟏 + 𝜷𝟐 ⋅ 𝑿𝒊𝟐 + ⋯ + 𝜷𝒌 ⋅ 𝑿𝒊𝑲 + 𝝁𝒊

…y derivemos esta ecuación, por ejemplo, con respecto a 𝑿𝟏: 𝜷𝟏 es el efecto parcial de 𝑿𝟏 sobre 𝒀: Indica
cómo un incremento de 𝑿𝟏 afecta a la
𝝏𝒀𝒊 variable dependiente.
𝜷𝟎 es el intercepto: = 𝜷𝟏
𝝏𝑿𝟏 El signo de 𝜷𝟏 indica la dirección y magnitud
del efecto:
La interpretación es equivalente a la del
• Si 𝜷𝟏 > 𝟎, entonces un aumento de 𝑿𝟏 en
modelo de regresión simple: indica el nivel
promedio de 𝒀, sin considerar el valor que una unidad provoca un aumento de 𝒀 de
tomen las variables independientes. 𝜷𝟏 unidades, ceteris paribus.

• Si 𝜷𝟏 < 𝟎, entonces un aumento de 𝑿𝟏 en


una unidad provoca una disminución de 𝒀
de 𝜷𝟏 unidades, ceteris paribus. 7
Regresión lineal múltiple: interpretación

La regresión lineal múltiple permite explicar la variable dependiente en función de varias variables
independientes.

Usando nuestro caso de los determinantes de la educación:

𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 ⋅ 𝒆𝒅𝒖𝒄𝒊 + 𝜷𝟐 ⋅ 𝒆𝒅𝒂𝒅𝒊 + 𝜷𝟑 ⋅ 𝒈𝒆𝒏𝒆𝒓𝒐𝒊 + ⋯ + 𝜷𝒌 ⋅ 𝑿𝑲𝒊 + 𝝁𝒊

…pero también es posible añadir variables independientes en diferentes formas:


𝟐
𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 ⋅ 𝒆𝒅𝒖𝒄𝒊 + 𝜷𝟐 ⋅ 𝒆𝒅𝒖𝒄𝒊 + ⋯ + 𝜷𝒌 ⋅ 𝑿𝑲𝒊 + 𝝁𝒊
En este caso, el efecto parcial de la educación
Calculando la derivada con respecto a la educación: sobre el ingreso no solo es 𝜷𝟏, sino que
𝜕𝑌𝑖 también depende del valor de 𝜷𝟐 y del nivel
= 𝛽1 + 2 ⋅ 𝛽2 ⋅ 𝑒𝑑𝑢𝑐𝑖 de educación del individuo.
𝜕𝑒𝑑𝑢𝑐

8
Estimación por Mínimos
Cuadrados Ordinarios (MCO)

9
Minimos Cuadrados Ordinarios

Tomemos la FRP con K variables independientes:

𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 ⋅ 𝑿𝒊𝟏 + 𝜷𝟐 ⋅ 𝑿𝒊𝟐 + ⋯ + 𝜷𝒌 ⋅ 𝑿𝒊𝑲 + 𝝁𝒊

Nuestro objetivo: Encontrar estimaciones de 𝜷𝟎, 𝜷𝟏, 𝜷𝟐, … , 𝜷𝑲.

Una forma conveniente de expresar esta FRP es a través de matrices:

𝐘 = 𝐗𝛃 + 𝛍

𝑌1 1 𝑋11 𝑋12 … 𝑋𝐾1 𝛽0 𝜇1


𝑌2 1 𝑋21 𝑋22 … 𝑋𝐾2 𝛽1 𝜇2
= ⋅ + ⋮
⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮
𝑌𝑁 1 𝑋𝑁1 𝑋𝑁 … 𝑋𝑁𝐾 𝛽𝐾 𝜇𝑁

10
Minimos Cuadrados Ordinarios

Por lo tanto, sea la FRP:

𝐘 = 𝐗𝛃 + 𝛍

Al igual que en el modelo de regresión simple, la FRP no es observable directamente.

Si contamos con una muestra de la población, podemos definir una aproximación de la FRP: la función de
regresión muestral (FRM):

𝐘 = 𝐗𝛃. + 𝛍C

De esta función podemos obtener una función de error:

𝛍C
= 𝐘 − 𝐗𝛃.
11
Minimos Cuadrados Ordinarios

Mínimos Cuadrados Ordinarios: Encontrar los valores del vector que minimizan la suma de los errores
𝛃.
cuadráticos:
En matrices, esto es una forma
de expresar: ∑ 𝜇̂2
min = 𝐘 − 𝐗𝛃. 0
𝐘 − 𝐗𝛃.
𝛃 0𝛍C
𝛍C
.

La condición de primer orden es:

−𝟐𝐗0𝐘 + =𝟎
𝟐𝐗0𝐗𝛃.
𝛃. 𝐗 0 𝐗𝛃.

Luego, despejando 𝛃.:


0
= =𝐗𝐘 𝑿0𝑿 0
–𝟏 𝑿 𝒀

12

Este es el estimador MCO para


todos los elementos del vector 𝛃'
Minimos Cuadrados Ordinarios

De la misma manera que en el modelo de regresión lineal simple, el estimador 𝛃. tiene una varianza y error
estándar asociados.

A esto se le llama matriz de varianzas y covarianzas, ya que hay varios parámetros estimados calculados a la
vez y, además, están relacionados entre sí.

La formula para calcular la matriz de varianzas y covarianzas es:

𝑽𝑪𝑬 = 𝝈𝟐 𝑿′𝑿 –𝟏

Donde 𝜎 2 es la varianza de los errores, la cual es estimada usando: Notar que en este caso
restamos K (el número
𝝁C′𝝁C de parámetros) en vez
𝝈C 𝟐 =
𝑵−𝑲 de 2.
13
Medidas de bondad de ajuste (R2
y R2 ajustado)

14
Medidas de bondad de ajuste

Recordemos la FRM del modelo de regresión simple:

𝒀𝒊 = .
𝜷 𝟎 + 𝜷. 𝟏 ⋅ 𝑿𝒊 + 𝝁C𝒊

Recordemos que /𝑁 = 0 (clase 2). Luego, calculando la suma a cada lado de la FRM y dividiendo por N:
𝑖21 𝜇,𝑖
∑𝑁
∑𝒀𝒊 = 𝒏𝜷. 𝟎 + 𝜷. 𝟏 ⋅ ∑𝑿𝒊 + ∑𝝁C𝒊
𝒀 V = 𝜷. 𝟎 + 𝜷. 𝟏 ⋅ 𝑿 V

Luego, restando esta ecuación de la FRM, tenemos:

𝒀𝒊 − = 𝜷. 𝟏 𝑿𝒊 − + 𝝁C𝒊
𝒀V ⋅ 𝑿V
15
Medidas de bondad de ajuste

La expresión permite obtener una expresión para medir la bondad de ajuste del modelo estimado con MCO.
Tomando sumas a cada lado y elevando al cuadrado obtenemos:

∑ 𝒀 − . 𝟐 𝟐
𝒊 𝟐
= 𝜷 ⋅ + ∑𝝁C𝟐
𝒀V ∑𝟏 𝑿𝒊 − 𝒊
𝑿V
𝑺𝑪𝑻 = 𝑺𝑪𝑬 + 𝑺𝑪𝑹

Suma de Cuadrados Totales (SCT): Suma de Cuadrados Explicada (SCE): Suma de Cuadrados Residual (SCR):

La variación de los valores de 𝒀 La suma de cuadrados que es debida La suma de cuadrados atribuible al
respecto a su media a la regresión MCO componente de error.
16
Medidas de bondad de ajuste

La suma de cuadrados totales se compone de una parte explicada


(SCE), y otra atribuida al error (SCR).

De esta noción, podemos obtener una medida de bondad de ajuste:


el coeficiente de determinación o 𝑹𝟐 𝑺𝑪𝑬 𝑺𝑪𝑹
𝟏 = 𝑺𝑪𝑻 + 𝑺𝑪𝑻
El coeficiente 𝑹𝟐 es la proporción de la SCT que está atribuida al
modelo (a través de la SEC).

La interpretación del 𝑹𝟐 es: 𝑺𝑪𝑹


𝟐
𝑺𝑪𝑬 = 𝟏 −
• A mayor 𝑹𝟐, la variación de la variable dependiente (SCT) está 𝑹 = 𝑺𝑪𝑻 𝑺𝑪𝑻
explicada en mayor proporción por el modelo (SCE) que por el error
(SCR).
• A menor 𝑹𝟐, la variación de la variable dependiente (SCT) está explicada
en mayor proporción por el error (SCR) que por el modelo (SCE).

Por lo tanto, un 𝑹𝟐 más alto es preferido a uno más bajo.


17
Medidas de bondad de ajuste

El mismo ejercicio se puede realizar para un modelo de regresión múltiple:

𝐘 = 𝐗𝛃! + 𝛍>

Expresando el modelo en diferencias de la media, elevando al cuadrado y calculando las sumas:

∑ 𝒀 𝒊 − 𝒀 - 𝒊 𝟐 = 𝛃 ! 𝟐 ∑ 𝐗𝐢 𝟐
+ ∑𝛍>𝟐
− 𝐗-
𝑺𝑪𝑻 = 𝑺𝑪𝑬 + 𝑺𝑪𝑹

Y calculamos el coeficiente 𝑹𝟐 de la misma forma que antes:


𝑺𝑪𝑬
𝑹 =
𝟐
= 𝟏 − 𝑺𝑪𝑹
𝑺𝑪𝑻 𝑺𝑪𝑻
18
Medidas de bondad de ajuste

Uno de los problemas del coeficiente 𝑹𝟐 es que siempre aumenta a medida que el número de variables independientes
aumenta, incluso si estas no son relevantes para el modelo:

𝟐 𝑺𝑪𝑬 𝛃 ! 𝟐 ∑ 𝐗 𝐢 − 𝐗- 𝟐
𝑹 =
𝑺𝑪𝑻 = ∑ 𝒀𝒊 − 𝟐
𝒀- 𝒊
Una medida para compensar esto es utilizar el coeficiente 𝑹𝟐 ajustado, que penaliza el coeficiente original por los grados
de libertad del modelo:

𝑵−𝟏
𝑹- 𝟐 = 𝟏 − 𝟏 − 𝑹𝟐
𝑵−𝑲

Donde 𝑵 es el número de observaciones utilizadas para estimar el modelo por MCO, y 𝑲 es el número de parámetros
estimados (incluyendo el intercepto).

La interpretación de 𝑹- 𝟐 es la misma que el 𝑹𝟐 sin ajustar.


19
Supuestos muestrales detrás de la
estimación MCO

20
Supuestos muestrales de la regresión MCO

• Como revisamos en clases anteriores, los estimadores


MCO dependen de la muestra obtenida.

• Esto tiene dos implicancias claves:


• Distintas muestras llevan a distintos valores de
los estimadores MCO
• No solo los valores de los estimadores MCO son
relevantes, sino que también su precisión o varianza /
error estándar

• A través la inferencia estadística, podemos probar si


nuestros estimadores MCO (𝛽) ) son representativos de
los verdaderos parámetros poblacionales (𝛽).
21
Supuestos muestrales de la regresión MCO

Volvamos por un momento al modelo de regresión lineal múltiple:

𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 ⋅ 𝑿𝟏𝒊 + 𝜷𝟐 ⋅ 𝑿𝟐𝒊 + ⋯ + 𝜷𝑲 ⋅ 𝑿𝑲𝒊 + 𝝁𝒊

• Por el momento, solo hemos hablado de la existencia del término de error 𝝁𝒊 y que su
valor esperado es igual a cero.

• Sin embargo, al imponer supuestos adicionales sobre 𝝁𝒊, podemos conocer la distribución de la
variable dependiente (𝒀𝒊) y los parámetros estimados 𝜷. .

• Una vez conocidas aquellas distribuciones, podemos realizar inferencia estadística:


• Pruebas de significancia individual (prueba t)
• Prueba de significancia global (prueba F)
• Interpretar valores p
22
Supuestos muestrales de la regresión MCO

Supuesto adicional de la regresión lineal: El error 𝝁𝒊 es independiente de los 𝑿, y tiene una


distribución normal, con media 𝟎 y varianza 𝝈𝟐

𝝁𝒊 ∼ 𝑵 𝟎, 𝝈𝟐

• En la práctica, ya habíamos impuesto el supuesto de media cero 𝜇𝑖 = 0) y varianza igual a 𝝈𝟐.


(𝐸 Ahora, especificamos qué distribución tiene 𝝁𝒊 .

• Implicancia 1 de este supuesto: Si 𝝁𝒊 tiene distribución normal, entonces 𝒀 también tiene


distribución normal:

𝒀|𝑿 ∼ 𝑵 𝜷𝟎 + 𝜷𝟏 ⋅ 𝑿𝟏 + 𝜷𝟐 ⋅ 𝑿𝟐 + ⋯ + 𝜷𝑲 ⋅ 𝑿𝑲, 𝝈𝟐

La media de 𝑌, dado los La varianza de 𝑌, dado los


valores de 𝑋 es la FRP! valores de 𝑋 es 𝝈𝟐
23
Supuestos muestrales de la regresión MCO

Implicancia 2 del supuesto de normalidad de 𝝁𝒊: Si se cumplen los supuestos del modelo de regresión
lineal (Teorema de Gauss-Markov), los parámetros estimados por MCO tienen una distribución normal.

La media del estimador MCO es el


𝜷. 𝒌 ∼ 𝑵 𝜷𝒌, 𝑽 𝜷. 𝒌 verdadero parametro poblacional!

• La relevancia de este supuesto está en una propiedad de la distribución normal: la estandarización.


Así, si al estimador MCO restamos su media (el parámetro poblacional) y dividimos el resultado
por su desviación estándar (la raíz cuadrada de la varianza), tenemos que:

𝜷. 𝒌 − 𝜷 𝒌
∼𝑵
𝒔𝒅(𝜷. 𝒌 ) 𝟎, 𝟏

• Gracias a este resultado, podemos realizar pruebas de hipótesis sobre 𝜷. 𝒌. Sin embargo,
no conocemos el valor de 𝒔𝒅(𝜷. 𝒌 ).
24
De la distribución normal a la prueba t

• Si bien no conocemos 𝒔𝒅(𝜷. 𝒌 ), sí conocemos el error estándar de 𝜷. . Así, nuestro estadístico


se transforma de tal manera que toma la distribución t de Student:

𝜷. 𝒌 − 𝜷 𝒌 𝑁 − 𝐾 son los grados de libertad de


la distribución t-Student
𝒔𝒆(𝜷. ∼ 𝒕𝑵–𝑲
𝒌)

• Implicancia de este resultado: Podemos realizar pruebas de hipótesis. Es decir, en base a los
valores obtenidos de 𝜷. 𝒌 y 𝒔𝒆 , podemos usar la inferencia estadística para probar si el
𝜷. 𝜷𝒌 toma un determinado valor, o no.
verdadero parámetro poblacional
𝒌

25
¿Preguntas?

También podría gustarte