0% encontró este documento útil (0 votos)
68 vistas30 páginas

Sesión 8

Este documento resume tres sesiones de una clase de Econometría I sobre el modelo de regresión lineal general. La primera sesión cubre la distribución muestral de los estimadores de mínimos cuadrados ordinarios bajo cuatro supuestos. La segunda sesión explica el concepto de multicolinealidad perfecta e imperfecta. La tercera sesión analiza cómo lidiar con problemas de multicolinealidad en los datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
68 vistas30 páginas

Sesión 8

Este documento resume tres sesiones de una clase de Econometría I sobre el modelo de regresión lineal general. La primera sesión cubre la distribución muestral de los estimadores de mínimos cuadrados ordinarios bajo cuatro supuestos. La segunda sesión explica el concepto de multicolinealidad perfecta e imperfecta. La tercera sesión analiza cómo lidiar con problemas de multicolinealidad en los datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ECONOMETRÍA I

SESIÓN 8: Principios del modelo de regresión lineal general II


Regresión lineal con varios regresores

Profesor: Javier Hualde

1
ÍNDICE
1. Distribución muestral del MCO
2. Multicolinealidad
3. Variables de interés y variables de control

2
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
DISTRIBUCIÓN MUESTRAL DEL MCO

Los supuestos de mínimos cuadrados en regresión multiple

Recordemos: recta de regresión poblacional 𝑌𝑖 = β0 + β1 𝑋1𝑖 + β2 𝑋2𝑖 + ⋯ + β𝑘 𝑋𝑘𝑖 + 𝑢𝑖 , 𝑖 = 1, … , 𝑛

Supuesto 1: LA MEDIA CONDICIONAL DE 𝒖𝒊 DADOS 𝑿𝟏𝒊 , 𝑿𝟐𝒊 , … , 𝑿𝒌𝒊 ES CERO

 𝐸 𝑢𝑖 𝑋1𝑖 , 𝑋2𝑖 , … , 𝑋𝑘𝑖 = 0 para i = 1,…, n

 𝑌𝑖 a veces se encuentra por encima de la recta (hiperplano) poblacional y otras veces por debajo
⟹ en promedio se sitúa en la recta poblacional

 Supuesto clave para que los MCO sean insegados

 Implica que la covarianza entre el error y cualquiera de los regresores es cero


3
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
DISTRIBUCIÓN MUESTRAL DEL MCO

 En sentido inverso, si la covarianza entre el error y alguno de los regresores no es cero, la


media condicional no puede ser constante

 Si hay una variable omitida que es un factor relevante (está en el error) y está correlada con
al menos algún regresor incluido ⟹ sesgo de variable omitida ⟹ el Supuesto 1 no se
cumple

 Solución:
 La mejor estrategia, incluirla en el modelo si es posible

 Una solución relacionada es incluir una variable que controle por la variable
omitida (lo veremos más adelante)

4
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
DISTRIBUCIÓN MUESTRAL DEL MCO
Supuesto 2: 𝑿𝟏𝒊 , 𝑿𝟐𝒊 , … , 𝑿𝒌𝒊 , 𝒀𝒊 , 𝒊 = 𝟏, … , 𝒏, SON INDEPENDIENTES E IDÉNTICAMENTE
DISTRIBUIDAS
 Este supuesto se cumple automáticamente si las observaciones (individuos, distritos, familias, empresas,…) son
recogidas mediante muestreo aleatorio simple

 Las observaciones son recogidas de la misma población, lo que implica que 𝑋1𝑖 , 𝑋2𝑖 , … , 𝑋𝑘𝑖 , 𝑌𝑖
tienen la misma distribución para cualquier i = 1,…, n
 Las observaciones son recogidas aleatoriamente, por lo que las variables 𝑋1 , 𝑋2 , … , 𝑋𝑘 , 𝑌
para diferentes individuos se distribuyen de forma independiente

 La situación típica donde no se cumple el supuesto de i.i.d. es el de recoger datos del mismo individuo a lo largo
del tiempo (series temporales) o de varios individuos a lo largo del tiempo (datos de panel): DEPENDENCIA

 El problema de la dependencia puede ocurrir con datos de sección cruzada: DEPENDENCIA ESPACIAL

 Problemas de selección de muestra (encuesta sobre ingresos y personas con más renta no responden): no
idénticamente distribuidas 5
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
DISTRIBUCIÓN MUESTRAL DEL MCO
Supuesto 3: LOS DATOS ATÍPICOS “GRANDES” (EN VALOR ABSOLUTO) SON IMPROBABLES
 Un atípico “grande” es un valor extremo de 𝑋1 , 𝑋2 , … , 𝑋𝑘 o Y ⟹ influencia dramática en los estimadores MCO
 Técnicamente: cuartos momentos finitos (se cumple si las variables son acotadas)

Supuesto 4: AUSENCIA DE MULTICOLINEALIDAD PERFECTA


 Sucede cuando uno de los regresores es una combinación lineal perfecta del resto de regresores
 En realidad este supuesto lo asumíamos también implícitamente en el modelo simple, donde el MCO

𝑛
𝑖=1(𝑋𝑖 − 𝑋)(𝑌𝑖 − 𝑌)
β1 = 𝑛 2
𝑖=1(𝑋𝑖 − 𝑋)
podía ser calculado

 Esto implicaba que 𝑛𝑖=1(𝑋𝑖 − 𝑋)2 > 0, lo que eliminaba la posibilidad de que 𝑋𝑖 = 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 para todo 𝑖 =
1, … , 𝑛 ⟹ multicolinealidad perfecta (problema de la muestra)
6
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
DISTRIBUCIÓN MUESTRAL DEL MCO
 Como en el modelo simple, con multicolinealidad perfecta los estimadores MCO no pueden ser calculados
 Supongamos que definimos 𝑊𝑖 = 2 × 𝑅𝐸𝑀𝑖 y tratamos de estimar el modelo

𝑌𝑖 = β0 + β1 𝑅𝐸𝑀𝑖 + β2 𝑊𝑖 + 𝑢𝑖
Un hipotético β1 estimaría el efecto sobre Notas de
un incremento unitario de REM, manteniendo
W=2REM constante (¿Cómo?)

Solución: modificar los regresores

Trataremos más tarde la multicolinealidad


imperfecta

Bajo estos supuestos, podemos derivar la


distribución muestral β0 , β1 , … , β𝑘
7
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
DISTRIBUCIÓN MUESTRAL DEL MCO

8
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
DISTRIBUCIÓN MUESTRAL DEL MCO
La distribución de los estimadores MCO en regresión múltiple
Bajo los cuatro supuestos de mínimos cuadrados:
 El estimador β1 tiene media β1
 var(β1 ) es inversamente proporcional a n
 Aparte de la media y la varianza, la distribución exacta (para cualquier n) de β1 es muy
complicada
 Para n grande se cumplen los siguientes resultados asintóticos:
𝑝
 β1 es consistente: β1 β1 (ley de los grandes números)
β1 − E(β1 )
 es aproximadamente N(0,1) (teorema central del límite)
var(β1)
 Estos resultados se cumplen para β0 , β1 … , β𝑘

Conceptualmente, ninguna novedad sobre el modelo simple 9


SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
MULTICOLINEALIDAD
Ejemplos de multicolinealidad perfecta

 Proporción de estudiantes aprendiendo inglés (𝐹𝑟𝑎𝑐𝐸𝐼𝑖 )


 Dado modelo 𝑌𝑖 = β0 + β1 𝑅𝐸𝑀𝑖 + β2 𝑃𝑐𝑡𝐸𝐼𝑖 + 𝑢𝑖
 Planteamos introducir como tercer regresor 𝐹𝑟𝑎𝑐𝐸𝐼𝑖
 Problema: 𝑃𝑐𝑡𝐸𝐼𝑖 = 100 × 𝐹𝑟𝑎𝑐𝐸𝐼𝑖
 Clases no muy pequeñas (𝑁𝑀𝑃𝑖 )
 𝑁𝑀𝑃𝑖 es una variable dummy que toma valor 1 si 𝑅𝐸𝑀𝑖 ≥ 12 y 0 en otro caso
 Problema: no existen en nuestra muestra distritos para los que 𝑅𝐸𝑀𝑖 < 12, por lo que
𝑁𝑀𝑃𝑖 = 1
 La constante en un modelo juega el papel de un regresor 𝐶𝑖 = 1 ⟹ multicolinealidad perfecta
si incluimos en un modelo con constante 𝑁𝑀𝑃𝑖 como regresor
 Porcentaje de angloparlantes (𝑃𝑐𝑡𝐴𝑃𝑖 )
 Problema: 𝑃𝑐𝑡𝐴𝑃𝑖 = 100 × 𝐶𝑖 − 𝑃𝑐𝑡𝐸𝐼𝑖
10
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
MULTICOLINEALIDAD
La trampa de la variable ficticia
 Supongamos que tienes datos de un conjunto de variables binarias (dummy), que son mutuamente
excluyentes y exhaustivas
 Hay varias categorías
 Cada observación cae en una y solo en una categoría (para distritos escolares: rural,
urbano, suburbano)
 Si se incluyen todas esas variables y una constante, problema de multicolinealidad perfecta ⟹
trampa de la variable ficticia
 ¿Por qué hay multicolinealidad perfecta en esta situación?
 Soluciones:
 Omitir uno de los grupos (por ejemplo, rural)
 Omitir el término constante
¡IMPORTANTE! Entender las implicaciones de estas soluciones para la interpretación de los
coeficientes estimados 11
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
MULTICOLINEALIDAD

Soluciones a la multicolinealidad perfecta


 Suele reflejar un error en la definición de los regresores o una rareza de los datos

 Si los datos sufren multicolinealidad perfecta, el software econométrico lo hará saber


mediante un mensaje de error u omitiendo una de las variables

 La solución pasa por modificar la lista de regresores para evitar el problema

12
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
MULTICOLINEALIDAD

Multicolinealidad imperfecta
 Los dos tipos de multicolinealidad son fenómenos bastante diferentes a pesar de la similitud del nombre
 Multicolinealidad imperfecta ocurre cuando dos regresores o más están muy correlacionados
 Implica que uno o más de los coeficientes son estimados con gran imprecisión
 Idea intuitiva: el estimador correspondiente a X1 mide el efecto de variar X1 manteniendo X2 constante
 Pero si X1 y X2 están muy correlados, los datos no contienen mucha información sobre que pasa
cuando X1 cambia pero no X2
 En este caso, la varianza del estimador MCO del coeficiente de X1 será grande
 La multicolinealidad imperfecta implica errores estándar grandes para uno o más estimadores MCO (se puede
demostrar matemáticamente)
 EL MCO es ELIO si se cumplen los supuestos incluido homocedasticidad

13
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL

Especificación de la regresión: variables de interés, variables de control, cómo


decidir qué variables incluir en un modelo de regresión

 Nuestro objetivo es obtener un estimador consistente (e insesgado) del efecto sobre las notas de
cambiar el tamaño de las clases
 Como nos interesa el efecto ceteris paribus, debemos mantener factores relevantes que afectan a las
notas constantes, como la educación de los padres, ingreso familiar,…
 Si pudiéramos realizar un experimento, asignaríamos estudiantes (y profesores) aleatoriamente a
clases de distinto tamaño
 De esta forma REMi sería independiente de los factores en ui, por lo que E(ui|REMi) = 0 y el estimador
MCO de la regresión de Notasi en REMi estimaría de forma insesgada y consistente el efecto causal
deseado

14
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL

 Con datos observacionales, ui depende de muchos factores (posibilidad de aprendizaje fuera de la


escuela, educación de los padres, conocimiento de inglés, etc.) y es dudoso que no estén
correlados con REMi
 Si los factores son observables y sospechamos que están correlados con el regresor (ej. PctEI),
habría que incuirlos en la regresión
 Pero normalmente no se pueden observar todos las variables causales omitidas (ej. dedicación de
los padres a la educación de los hijos)
 En ese caso, se pueden incluir “variables de control” que están correladas con esas variables
causales omitidas
 A veces, las variables de control no tienen una interpretación causal

15
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL
 Una variable de control W es una variable que está correlada con (y controla por) una variable causal omitida
en la regresión de Y en X, pero que por si misma no tiene necesariamente un efecto causal en Y
 Ejemplo: inclusión de una proxy de renta media del distrito
𝑁𝑜𝑡𝑎𝑠= 700,2 – 1,00REM – 0,122PctEI – 0,547PctCom, 𝑅2 =0,773
(5,57) (0,27) (0,03) (0,02)

PctEI = porcentaje de estudiantes de inglés en el distrito


PctCom = porcentaje de estudiantes que reciben una
beca para comedor (solo son elegibles estudiantes de
familias con ingresos bajos)
Preguntas interesantes
 ¿Cuál es la variable de interés?
 ¿Cuáles son variables de control?
 ¿Tienen una interpretación causal?
 ¿Qué controlan las variables de control?
16
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL
 En el modelo

𝑁𝑜𝑡𝑎𝑠= 700,2 – 1,00REM – 0,122PctEI – 0,547PctCom, 𝑅 2 =0,773


(5,57) (0,27) (0,03) (0,02)
 REM es la variable de interés
 El regresor PctEI
 Puede tener un efecto causal directo (sacar buenas notas es más complicado si no dominas la lengua)
 Pero también es una variable de control: las comunidades de inmigrantes suelen tener menos
recursos y a menudo tienen menos oportunidades de aprendizaje fuera de la escuela ⟹ PctEI está
correlada con variables causales omitidas
 Conclusión: PctEI es una posible variable causal y una variable de control
 El regresor PctCom
 Puede tener un efecto causal directo (mejor alimentación ayuda al aprendizaje)
 Está correlada con (y controla por) oportunidades de aprendizaje fuera de la escuela que requieran
recursos económicos
 Conclusión: PctCom es una posible variable causal y una variable de control 17
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL
Tres afirmaciones más o menos intercambiables sobre las variables de control
1. Una variable de control efectiva es una variable que, cuando se incluye en la regresión, hace que el error no
esté correlado con la variable de interés
2. Manteniendo constante la(s) variable(s) de control, es como si la variable de interés fuese asignada
aleatoriamente
3. Entre individuos (unidades) con el mismo valor de la(s) variable(s) de control, la variable de interés no está
correlada con los determinantes de Y omitidos
 ¡IMPORTANTE! Las variables de control no necesitan ser causales, y sus coeficientes, en general, no
tiene una interpretación causal
 ¿Tiene el coeficiente de PctCom una interpretación causal? Si ese fuese el caso, podríamos elevar mucho
las notas simplemente eliminando el programa de ayudas (es decir haciendo que PctCom = 0)
 Se podría diseñar un experimento para medir el efecto causal de eliminar el programa de becas comedor
18
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL

Implicaciones técnicas de las variables de control: independencia en media condicional


 Cuando se usan variables de control es habitual que el Supuesto 1 (E(ui|X1i,…,Xki) = 0) no se cumpla
 Por ejemplo PctCom puede estar correlada con factores que afectan a las Notas recogidos en el error, como
la oportunidades de aprendizaje fuera de la escuela (museos)
 Aparentemente: sesgo de variable omitida
 Sin embargo, el hecho de que PctCom esté correlada con esas variables omitidas es precisamente lo que
hace que sea una buena variable de control
 Pero, si el Supuesto 1 no se cumple, ¿qué ocurre?
 Necesitamos un resultado matemático que describa el trabajo de una variable de control efectiva. Esta
condición es la independencia en media condicional
¡RESULTADO CLAVE! Dada la variable de control, la media de ui no depende de la variable de interés
19
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL
Independencia en media condicional
 Supongamos que Xi es la variable de interés y Wi denota la(s) variable(s) de control. W es una variable
de control efectiva si se cumple la condición de independencia en media condicional

E(ui|Xi, Wi) = E(ui|Wi) (independencia en media condicional)

 Si W es una variable de control, esta condición reemplaza al Supuesto 1 (esta es la versión del Supuesto
1 que es relevante para variables de control)

 Supongamos que esta condición se cumple en el modelo


Y = β0 + β1X + β2W + u
 Resultado crucial: si además se cumplen los supuestos 2, 3 y 4:
 β1 es insesgado y consistente
 β2 es, en general, sesgado e inconsistente
20
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL
Argumento intuitivo de insesgadez y consistencia en el modelo simple
 Análisis del cambio esperado en Y resultante de un cambio en X en el modelo

Y = β 0 + β1X + u
 Asumimos que el Supuesto 1 se cumple

 Cambio esperado

E(Y|X = x+Δx) – E(Y|X = x)


= [β0 + β1(x+Δx) + E(u|X = x+Δx)]– [β0 + β1x + E(u|X = x)]
= β1Δx + [E(u|X = x+Δx) – E(u|X = x)]= β1Δx

 La parte izquierda de la ecuación siempre se puede estimar de forma adecuada ⟹ β1 se puede estimar
de forma adecuada
21
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL
Argumento intuitivo de insesgadez y consistencia en el modelo multiple con variables de control
 Análisis del cambio esperado en Y resultante de un cambio en X, manteniendo W constante en el modelo

Y = β0 + β1X + β2W + u

 Asumimos que se cumple la independencia en media condicional


E(Y|X = x+Δx, W=w) – E(Y|X = x, W=w)
= [β0 + β1(x+Δx) + β2w + E(u|X = x+Δx, W=w)]– [β0 + β1x + β2w + E(u|X = x, W=w)]
= β1Δx + [E(u|X = x+Δx, W=w) – E(u|X = x, W=w)]= β1Δx

dado que por la independencia en media condicional


E(u|X = x+Δx, W=w) = E(u|X = x, W=w) = E(u|W=w)

 La parte izquierda de la ecuación siempre se puede estimar de forma adecuada ⟹ β1 se puede estimar de forma adecuada
 Mismo resultado con el Supuesto 1 (que no es necesario si solo estamos interesados en β1 )
22
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL
¿Qué está ocurriendo?
 Supongamos que en el modelo
Y = β0 + β1X + β2W + u
se cumple la independencia en media condicional y además 𝐸 𝑢 𝑊 = γ0 + γ1 𝑊 (es decir 𝐸 𝑢 𝑊 es
lineal en 𝑊
 Claramente
𝐸 𝑢 𝑋, 𝑊 = 𝐸 𝑢 𝑊 = γ0 + γ1 𝑊
 Definamos 𝑣 = 𝑢 − 𝐸 𝑢 𝑋, 𝑊 , por lo que 𝑬 𝒗 𝑿, 𝑾 = 𝟎
 El error del modelo original
𝑢 = 𝐸 𝑢 𝑋, 𝑊 + 𝑣 = γ0 + γ1 𝑊 + 𝑣
 Sustituyendo esta representación del error en el modelo original

𝑌 = β0 + β1 𝑋 + β2 𝑊 + γ0 + γ1 𝑊 + 𝑣 = δ0 + β1 𝑋 + δ2 𝑊 + 𝑣
donde δ0 = β0 + γ0 , δ2 = β2 + γ1
 El error del modelo transformado (𝑣) satisface el Supuesto 1 por lo que los estimadores MCO de δ0 , β1 y δ2
son insesesgados y consistentes 23
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL
En resumen
 Si W es una variable tal que la condición de independencia en media condicional se cumple:

 El estimador MCO del efecto de interés, β1 , es insesgado y consistente

 El coeficiente de la variable de control no se estima, en general, de forma adecuada


(sesgado, inconsistente)

 La razón de este sesgo es que la variable de control suele estar correlacionada con
variables omitidas (que están en el error), así que β2 está sujeto a sesgo de variable
omitida

24
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL
Implicaciones para la selección de variables y especificación del modelo
1. Identificar la variable de interés
2. Pensar en posibles variables causales omitidas que podrían implicar un sesgo de variable omitida
3. Si se puede, incluir esas variables causales omitidas y, si no se observan, introducir variables
correlacionadas con ellas que pueden servir como variables de control. Estas variables de control
son efectivas si se cumple la condición de independencia en media condicional. De aquí se deriva
un modelo “base” o “benchmark”
4. Especificar un conjunto de modelos alternativos plausibles, que por ejemplo incluyan otras
variables de control
5. Estimar el modelo base y las especificaciones alternativas (“análisis de robustez”).
 ¿Cambia sustancialmente el estimador del efecto de interés (β1)?
 Usar el sentido común, no solo una receta
 No intentar simplemente maximizar el 𝑅2 o el 𝑅2
25
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL
Papel de las medidas de ajuste
 Es muy fácil caer en la trampa de elegir simplemente el modelo que maximice el 𝑅2 o el 𝑅2 , pero
esto hace perder el foco del verdadero objetivo, que es estimar de forma adecuada el efecto causal
de interés
 Un 𝑅2 o un 𝑅2 alto quiere decir que los regresores explican gran parte de la variabilidad de Y
 Un 𝑅2 o un 𝑅2 alto no implica que se ha eliminado el sesgo de variable omitida
 Un 𝑅2 o un 𝑅2 alto no implica que el estimador del efecto causal de interés (β1) es insegado
y consistente
 Un 𝑅2 o un 𝑅2 alto no implica que las variables incluidas son estadísticamente significativas
(esto se debe determinar mediante contrastes de hipótesis)
 Un 𝑅2 o un 𝑅2 alto sí son interesantes si el objetivo es simplemente un modelo predictivo

26
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL
Volviendo a nuestro ejemplo empírico
1. Identificar la variable de interés: REM
2. Pensar en posibles variables causales omitidas que podrían implicar un sesgo de variable omitida:
conocimiento de inglés de los alumnos; oportunidades de aprendizaje fuera de la escuela; implicación de los
padres; calidad del profesorado
3. Si se puede, incluir esas variables causales omitidas y, si no se observan, introducir variables correlacionadas
con ellas que pueden servir como variables de control. De aquí se deriva un modelo “base” o “benchmark”:
muchas de las variables causales omitidas son difíciles de medir, por lo que es necesario encontrar variables de
control
4. Especificar un conjunto de modelos alternativos plausibles, que por ejemplo incluyan variables de control
alternativas: no está claro cuál de las posibles variables que pueden medir la riqueza del distrito es la mejor para
controlar por las variables causales omitidas (por ej. oportunidades de aprendizaje fuera de la escuela). Así que
las especificaciones alternativas pueden consistir en regresiones con diferentes variables de riqueza o renta
5. Estimar el modelo base y las especificaciones alternativas (“análisis de robustez”)

27
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL

28
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL

Presentación de los resultados


 Supongamos que se han estimado varias regresiones y se pretende presentar toda la
información
 Suele ser difícil leer regresiones escritas en forma de ecuación y no es habitual hacerlo así. La
convención es presentarlas en una tabla
 Una tabla de regresión debe incluir:
 los coeficientes de regresión estimados
 errores estándar
 medidas de ajuste
 número de observaciones
 estadísticos relevantes
 cualquier otra información pertinente
29
SESIÓN VIII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL II –
VARIABLES DE INTERÉS Y VARIABLES DE CONTROL

30

También podría gustarte