0% encontró este documento útil (0 votos)
82 vistas33 páginas

Instrumental Variables

Este documento introduce el concepto de variables instrumentales y el método de mínimos cuadrados en dos etapas (2SLS) para resolver problemas de endogeneidad causados por variables omitidas. Explica que una variable instrumental debe estar correlacionada con la variable independiente pero no con el término de error. Luego describe cómo 2SLS proporciona un estimador consistente utilizando una variable instrumental y provee ejemplos numéricos ilustrativos.

Cargado por

Diego Medrano
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
82 vistas33 páginas

Instrumental Variables

Este documento introduce el concepto de variables instrumentales y el método de mínimos cuadrados en dos etapas (2SLS) para resolver problemas de endogeneidad causados por variables omitidas. Explica que una variable instrumental debe estar correlacionada con la variable independiente pero no con el término de error. Luego describe cómo 2SLS proporciona un estimador consistente utilizando una variable instrumental y provee ejemplos numéricos ilustrativos.

Cargado por

Diego Medrano
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Variables Instrumentales y 2SLS

Carlos Ramos

1 / 33
Introducción

Vimos que cuando tenemos variables omitidas constantes en el


tiempo y acceso a una base de datos de panel, podemos resolver el
problema de variables omitidas utilizando el estimador de efectos fijos
ó el de primeras diferencias.
Muchas veces, esto no es posible, ya que no existe una base de datos
de panel.
Por tanto, debemos de recurrir a otros métodos para resolver el
problema de endogeneidad.
Para esto, podemos utilizar variables instrumentales y el método de
mínimos cuadrados en dos etapas.

2 / 33
Variables Omitidas

Section 1

Variables Omitidas

3 / 33
Variables Omitidas

Variables Omitidas

Cuando enfrentamos un problema de variables omitidas, no podemos


simplemente ignorarlo.
Si fueramos a utilizar MCO, encontraríamos que nuestro estimador
estaría sesgado.
Más aún, el sesgo puede ser positivo o negativo, por lo cual es dificil
de determinar si nuestro estimador es informativo.
Para resolver este problema, podemos empezar reconociendo que
existen variables omitidas, y proceder a usar un método de estimación
que lo tome en consideración.

4 / 33
Variables Omitidas

Variables Omitidas

Consideremos un modelo de regresión con 2 variables independientes:

y = β0 + β1 x1 + β2 x2 + e
donde:
x2 es una variable no observable. Para proceder, definamos a
u = β2 x2 + e.
Por tanto, nuestra nueva ecuación está dada por:

y = β0 + β1 x1 + u

5 / 33
Variables Omitidas

Variables Instrumentales

Claro está, no podemos asumir que la las variables x1 y u no están


correlacionadas. (Por qué?)

Cov(x1 , u) 6= 0
Por tanto, ya no podemos proceder a utilizar MCO.
Para poder continuar, debemos entonces de obtener más información.
Específicamente, digamos que tenemos una variable observable z que
está no correlacionada con el término de error u pero sí está
correlacionada con nuestra variable independiente x1 .

Cov(z, u) = 0

Cov(z, x1 ) 6= 0

6 / 33
Variables Omitidas

Variables Instrumentales

La variable z es entonces una variable instrumental de x1 .


Notarán que es muy dificil de determinar de forma
objetiva/estadística que Cov(z, u) = 0 (Porqué?)
Por tanto, el argumento de exogeneidad de nuestra variable
instrumental tendrá que ser hecho a través de argumentos que
utilizan intuición/teoría económica.
Por el otro lado, la relación entre x1 y z puede ser fácilmente
obtenida utilizando una regresión simple:

x1 = π0 + π1 z + v

7 / 33
Variables Omitidas

Variables Instrumentales

Donde utilizando MCO obtenemos que:

Cov(z, x1 )
π1 =
V ar(z)

Qué necesitamos de esta regresión para que se cumpla el supuesto


Cov(z, x1 ) 6= 0?

8 / 33
Variables Omitidas

Identificación
Si se cumplen los dos supuestos, tenemos que será posible identificar
β1 .
La identificación de un parametro significa que podemos escribir el
parametro en términos de momentos poblacionales.
Para ver como nuestra variable instrumental logra obtener
identificación, calculemos la covarianza de nuestra variable
instrumental z y nuestra variable dependiente y:

Cov(z, y) = Cov(z, β1 x1 + u)
=> Cov(z, y) = β1 Cov(z, x1 ) + Cov(z, u)
Si los supuestos de nuestra variable instrumental se cumplen,
obtenemos:

Cov(z, y)
β1 =
Cov(z, x)
9 / 33
Variables Omitidas

Estimador de Variables Instrumentales

Por tanto, utilizando los analogos muestrales, obtenemos nuestro


estimador de variables instrumentales:
Pn
(zi − z̄)(yi − ȳ)
β̂1 = Pni=1
i=1 (zi − z̄)(xi − x̄)
Por tanto, dado una muestra aleatoria de nuestra población de
interés, podemos obtener fácilmente el estimador IV.
Más aun, nuestro estimador del intercepto estará dado por:

β̂0 = ȳ − β̂1 x̄1


Esto nos da un estimador consistente, pero sesgado.

10 / 33
Variables Omitidas

Inferencia Estadística

Asumiendo homostedasticidad con condicional a la variable


instrumental, obtendremos que bajo el Teorema de Límite Central, el
estimador IV tendrá una distribución normal.

E[u2 |z] = σ 2 = V ar(u)


Utilizando la Ley de Números Grandes, encontraremos que la varianza
asimptótica de β̂1 es dada por:

σ2
nσx2 ρ2x,z

11 / 33
Variables Omitidas

Ejemplo 15.1

rm(list=ls())
library(wooldridge)
library(AER)

data("mroz")

[Link].1 <- lm(lwage ~ educ, data = mroz)


[Link].2 <- lm(educ ~ fatheduc, data = mroz[mroz$inlf !=0 ,])
[Link].1 <- ivreg(lwage ~ educ | fatheduc,
data=mroz)

12 / 33
Variables Omitidas

Ejemplo 15.1

Dependent variable:
lwage
educ 0.059∗ (0.035)
Constant 0.441 (0.446)
Observations 428
R2 0.093
Adjusted R2 0.091
Residual Std. Error 0.689 (df = 426)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

13 / 33
Variables Omitidas

Ejemplo 15.2

data("wage2")

[Link].1 <- lm(educ ~ sibs, data = wage2)


[Link].1 <- ivreg(lwage ~ educ | sibs, data = wage2)

14 / 33
Variables Omitidas

Ejemplo 15.2 Regresión

Dependent variable:
lwage
educ 0.122∗∗∗ (0.026)
Constant 5.130∗∗∗ (0.355)
Observations 935
R2 −0.009
Adjusted R2 −0.010
Residual Std. Error 0.423 (df = 933)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

15 / 33
Variables Omitidas

Instrumentos Débiles

Cuando la relación entre el instrumento y la variable independiente es


débil, podemos tener problemas serios. Si existe alguna correlación
entre u y z (No se cumple uno de nuestros supuestos), el sesgo
asymptótico de nuestro estimador será demasiado grande.
Usando la Ley de Números Grandes, el límite en probabilidad de
nuestro estimador IV estará dado por:

Corr(z, u) σu
plimβ̂1,IV = β1 + ∗
Corr(z, x) σx
Recordemos que el límite en probabilidad de nuestro estimador MCO
puede ser escrito como:
σu
plimβ̂1,M CO = β1 + Corr(x, u) ∗
σx

16 / 33
Variables Omitidas

Ejemplo 15.3

data("bwght")

[Link].1 <- lm(packs ~ cigprice, data = bwght)


[Link].1 <- ivreg(lbwght ~ packs | cigprice,
data = bwght)

17 / 33
Variables Omitidas

Ejemplo 15.3 MCO

Dependent variable:
packs
cigprice 0.0003 (0.001)
Constant 0.067 (0.103)
Observations 1,388
R2 0.0001
Adjusted R2 −0.001
Residual Std. Error 0.299 (df = 1386)
F Statistic 0.131 (df = 1; 1386)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

18 / 33
Variables Omitidas

Ejemplo 15.3 IV

Dependent variable:
lbwght
packs 2.989 (8.699)
Constant 4.448∗∗∗ (0.908)
Observations 1,388
R2 −23.230
Adjusted R2 −23.248
Residual Std. Error 0.939 (df = 1386)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

19 / 33
Variables Omitidas

Variables Instrumentales en Regresióm Múltiple

La extensión a una regresión múltiple es fácil. Dada la regresión:

y = β0 + β1 x1 + β2 z2 + u

donde:
x1 es una variable explicatoria endogena y z2 es una variable
explicatoria exogena, utilizamos z1 como variable instrumental para
x1 .
De aquí procedemos como hicimos anteriormente, primero estimando
la relación entre z1 y x1 , sin olvidar controlar por todas las demás
variables exogenas ya presentes en el modelo:

x1 = π0 + π1 z1 + π2 z2 + v

20 / 33
Variables Omitidas

Ejemplo 15.4

data("card")

[Link].1 <- lm(educ ~ nearc4 + exper + expersq + black + smsa +


smsa66 + reg662 + reg663 + reg664 + reg
reg668 + reg669,
data = card)
[Link].1 <- ivreg(lwage ~ educ + exper + expersq + black + smsa
smsa66 + reg662 + reg663 + reg664 +
reg668 + reg669 | nearc4 + exper + e
smsa66 + reg662 + reg663 + reg664 +
reg668 + reg669,
data = card)

21 / 33
Variables Omitidas

Ejemplo 15.4

Dependent variable:
lwage
educ 0.132∗∗ (0.055)
exper 0.108∗∗∗ (0.024)
expersq −0.002∗∗∗ (0.0003)
black −0.147∗∗∗ (0.054)
smsa 0.112∗∗∗ (0.032)
south −0.145∗∗∗ (0.027)
smsa66 0.019 (0.022)
reg662 0.101∗∗∗ (0.038)
reg663 0.148∗∗∗ (0.037)
reg664 0.050 (0.044)
reg665 0.146∗∗∗ (0.047)
reg666 0.163∗∗∗ (0.052)
reg667 0.135∗∗∗ (0.049)
reg668 −0.083 (0.059)
reg669 0.108∗∗∗ (0.042)
Constant 3.666∗∗∗ (0.925)
Observations 3,010
R2 0.238
Adjusted R2 0.234
Residual Std. Error 0.388 (df = 2994)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

22 / 33
Mínimos Cuadrados en Dos Fases

Section 2

Mínimos Cuadrados en Dos Fases

23 / 33
Mínimos Cuadrados en Dos Fases

2SLS
Muchas veces, vamos a tener acceso a más de una variable
instrumental para nuestra variable independiente endógena.
Consideremos el model de regresión múltiple:
y = β0 + β1 x1 + β2 z2 + u
Ahora, tenemos acceso a 2 variables z1 y z3 que pueden funcionar
como instrumentos para x1 . En vez de crear dos regresiones
instrumentales separadas (y por tanto obtener 2 estimadores
instrumentales), procedemos a elegir la mejor combinación lineal de
las variables exogenas con respecto a la variable explicatoria endogena
x1 .
Por tanto, nuestra ecuación instrumental es ahora dada por:

x1 = π0 + π1 z1 + π2 z2 + π3 z3 + v
E[v] = 0, Cov(z1 , v) = Cov(z2 , v) = Cov(z3 , v) = 0
24 / 33
Mínimos Cuadrados en Dos Fases

2SLS

Por tanto, nuestro nuevo IV (óptimo lineal) es dado por el estimado:

x∗1 = π0 + π1 z1 + π2 z2 + π3 z3

La creación de este instrumento como una combinación lineal de los


demás instrumentos es el primer paso en nuestra estimación de
mínimos cuadrados en dos fases (2SLS).
Podemos conseguir estimados de los parametros de la ecuación
instrumental utilizando MCO.
Esto nos permite reemplazar nuestra variable independiente endogena
en nuestra ecuación original, y proceder a estimar los parametros de
interés.

25 / 33
Mínimos Cuadrados en Dos Fases

Ejemplo 15.5
data("mroz")

lm.1 <- lm(lwage ~ educ + exper + expersq, data = mroz)


lm.2a <- lm(educ ~ exper + expersq + motheduc + fatheduc,
data = mroz[mroz$inlf > 0,])
lm.2b <- lm(educ ~ exper + expersq,data=mroz[mroz$inlf > 0,])

anova(lm.2a, lm.2b)

## Analysis of Variance Table


##
## Model 1: educ ~ exper + expersq + motheduc + fatheduc
## Model 2: educ ~ exper + expersq
## [Link] RSS Df Sum of Sq F Pr(>F)
## 1 423 1758.6
## 2 425 2219.2 -2 -460.64 55.4 < 2.2e-16 ***
26 / 33
Mínimos Cuadrados en Dos Fases

Ejemplo 15.5

Dependent variable:
lwage
educ 0.061∗ (0.031)
exper 0.044∗∗∗ (0.013)
expersq −0.001∗∗ (0.0004)
Constant 0.048 (0.400)
Observations 428
R2 0.136
Adjusted R2 0.130
Residual Std. Error 0.675 (df = 424)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

27 / 33
Mínimos Cuadrados en Dos Fases

Testeando por Exogeneidad

Sabemos que 2SLS es menos eficiente que el estimador MCO.


Por tanto, antes de utilizarlo, queremos estar seguros que es
necesario. Para esto, podemos utilizar una prueba de Hausman para
comparar el estimador MCO y el estimador 2SLS.
Otra manera de hacerlo es utilizando un método de regresión.
Estimando la primera etapa de nuestro 2SLS, podemos obtener
estimados de los residuos de esta regresión.
Luego, procedemos a correr la regresión
y = β0 + β1 x1 + β2 z2 + δ1 v̂ + u. Si el estimado de δ no es
estadisticamente diferente a 0, podemos concluir que nuestra variable
independiente es exogena y por tanto no es necesario utilizar variables
instrumentales.

28 / 33
Mínimos Cuadrados en Dos Fases

Ejemplo 15.7

data("mroz")

[Link].1 <- lm(lwage ~ educ + exper + expersq, data = mroz)

[Link].2 <- lm(educ ~ exper + expersq + motheduc + fatheduc,


data = mroz[mroz$inlf != 0,])

[Link].3 <- lm(lwage ~ educ + exper + expersq + [Link].2$resid,


data = mroz[mroz$inlf != 0,])

29 / 33
Mínimos Cuadrados en Dos Fases

Ejemplo 15.7

Dependent variable:
lwage
educ 0.061∗∗ (0.031)
exper 0.044∗∗∗ (0.013)
expersq −0.001∗∗ (0.0004)
resid 0.058∗ (0.035)
Constant 0.048 (0.395)
Observations 428
R2 0.162
Adjusted R2 0.154
Residual Std. Error 0.665 (df = 423)
∗∗∗
F Statistic 20.496 (df = 4; 423)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

30 / 33
Mínimos Cuadrados en Dos Fases

Prueba de Restricciones Sobreidentificadas

Si tenemos más instrumentos que variables independientes endogenas,


podemos proceder a testear efectivamente si algunos de nuestros
instrumentos están no correlacionados con el término de error.
Utilizando una pruba de Hausman, donde los modelos que están
compitiendo son modelos con subgrupos de las variables
instrumentales, podemos ver si las variables exógenas ya incluidas en
el modelo son en realidad exógenas.
Si no se puede rechazar la hipótesis de que los dos modelos son
iguales, entonces podemos concluir que las variables sí eran exogenas.
De lo contrario, no podemos saber cuales variables son exogenas y
cuales son endogenas.

31 / 33
Mínimos Cuadrados en Dos Fases

Prueba de Restricciones Sobreidentificadas

Otra prueba que se puede utilizar es una prueba de χ2 . Obtenemos


los residuos û de nuestra regresión 2SLS, y luego corremos la
regresión de û con respecto a todas nuestras variables exogenas.
Calculamos el R2 de esta regresión, lo multiplicamos por el tamaño
de la muestra y procedemos a comparar el resultado con el valor
crítico de un 5% de una distribución χ2 con q grados de libertad,
donde q = #variablesinstrumentales − #variablesendogenas.

32 / 33
Mínimos Cuadrados en Dos Fases

Problema de muchas variables Instrumentales

Parecido al problema que enfrentamos cuando utilizamos muchas


variables independientes en un MCO, el incluir muchas variables
instrumentales puede traer problemas de sesgo serio a nuestros
estimados de 2SLS.
El estudio de este problema no está dentro de las posibilidades de este
curso, pero vale recalcar que hay que tener cuidado cuando
consideramos cuantas variables instrumentales queremos utilizar.

33 / 33

También podría gustarte