Variables Instrumentales y 2SLS
Carlos Ramos
1 / 33
Introducción
Vimos que cuando tenemos variables omitidas constantes en el
tiempo y acceso a una base de datos de panel, podemos resolver el
problema de variables omitidas utilizando el estimador de efectos fijos
ó el de primeras diferencias.
Muchas veces, esto no es posible, ya que no existe una base de datos
de panel.
Por tanto, debemos de recurrir a otros métodos para resolver el
problema de endogeneidad.
Para esto, podemos utilizar variables instrumentales y el método de
mínimos cuadrados en dos etapas.
2 / 33
Variables Omitidas
Section 1
Variables Omitidas
3 / 33
Variables Omitidas
Variables Omitidas
Cuando enfrentamos un problema de variables omitidas, no podemos
simplemente ignorarlo.
Si fueramos a utilizar MCO, encontraríamos que nuestro estimador
estaría sesgado.
Más aún, el sesgo puede ser positivo o negativo, por lo cual es dificil
de determinar si nuestro estimador es informativo.
Para resolver este problema, podemos empezar reconociendo que
existen variables omitidas, y proceder a usar un método de estimación
que lo tome en consideración.
4 / 33
Variables Omitidas
Variables Omitidas
Consideremos un modelo de regresión con 2 variables independientes:
y = β0 + β1 x1 + β2 x2 + e
donde:
x2 es una variable no observable. Para proceder, definamos a
u = β2 x2 + e.
Por tanto, nuestra nueva ecuación está dada por:
y = β0 + β1 x1 + u
5 / 33
Variables Omitidas
Variables Instrumentales
Claro está, no podemos asumir que la las variables x1 y u no están
correlacionadas. (Por qué?)
Cov(x1 , u) 6= 0
Por tanto, ya no podemos proceder a utilizar MCO.
Para poder continuar, debemos entonces de obtener más información.
Específicamente, digamos que tenemos una variable observable z que
está no correlacionada con el término de error u pero sí está
correlacionada con nuestra variable independiente x1 .
Cov(z, u) = 0
Cov(z, x1 ) 6= 0
6 / 33
Variables Omitidas
Variables Instrumentales
La variable z es entonces una variable instrumental de x1 .
Notarán que es muy dificil de determinar de forma
objetiva/estadística que Cov(z, u) = 0 (Porqué?)
Por tanto, el argumento de exogeneidad de nuestra variable
instrumental tendrá que ser hecho a través de argumentos que
utilizan intuición/teoría económica.
Por el otro lado, la relación entre x1 y z puede ser fácilmente
obtenida utilizando una regresión simple:
x1 = π0 + π1 z + v
7 / 33
Variables Omitidas
Variables Instrumentales
Donde utilizando MCO obtenemos que:
Cov(z, x1 )
π1 =
V ar(z)
Qué necesitamos de esta regresión para que se cumpla el supuesto
Cov(z, x1 ) 6= 0?
8 / 33
Variables Omitidas
Identificación
Si se cumplen los dos supuestos, tenemos que será posible identificar
β1 .
La identificación de un parametro significa que podemos escribir el
parametro en términos de momentos poblacionales.
Para ver como nuestra variable instrumental logra obtener
identificación, calculemos la covarianza de nuestra variable
instrumental z y nuestra variable dependiente y:
Cov(z, y) = Cov(z, β1 x1 + u)
=> Cov(z, y) = β1 Cov(z, x1 ) + Cov(z, u)
Si los supuestos de nuestra variable instrumental se cumplen,
obtenemos:
Cov(z, y)
β1 =
Cov(z, x)
9 / 33
Variables Omitidas
Estimador de Variables Instrumentales
Por tanto, utilizando los analogos muestrales, obtenemos nuestro
estimador de variables instrumentales:
Pn
(zi − z̄)(yi − ȳ)
β̂1 = Pni=1
i=1 (zi − z̄)(xi − x̄)
Por tanto, dado una muestra aleatoria de nuestra población de
interés, podemos obtener fácilmente el estimador IV.
Más aun, nuestro estimador del intercepto estará dado por:
β̂0 = ȳ − β̂1 x̄1
Esto nos da un estimador consistente, pero sesgado.
10 / 33
Variables Omitidas
Inferencia Estadística
Asumiendo homostedasticidad con condicional a la variable
instrumental, obtendremos que bajo el Teorema de Límite Central, el
estimador IV tendrá una distribución normal.
E[u2 |z] = σ 2 = V ar(u)
Utilizando la Ley de Números Grandes, encontraremos que la varianza
asimptótica de β̂1 es dada por:
σ2
nσx2 ρ2x,z
11 / 33
Variables Omitidas
Ejemplo 15.1
rm(list=ls())
library(wooldridge)
library(AER)
data("mroz")
[Link].1 <- lm(lwage ~ educ, data = mroz)
[Link].2 <- lm(educ ~ fatheduc, data = mroz[mroz$inlf !=0 ,])
[Link].1 <- ivreg(lwage ~ educ | fatheduc,
data=mroz)
12 / 33
Variables Omitidas
Ejemplo 15.1
Dependent variable:
lwage
educ 0.059∗ (0.035)
Constant 0.441 (0.446)
Observations 428
R2 0.093
Adjusted R2 0.091
Residual Std. Error 0.689 (df = 426)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
13 / 33
Variables Omitidas
Ejemplo 15.2
data("wage2")
[Link].1 <- lm(educ ~ sibs, data = wage2)
[Link].1 <- ivreg(lwage ~ educ | sibs, data = wage2)
14 / 33
Variables Omitidas
Ejemplo 15.2 Regresión
Dependent variable:
lwage
educ 0.122∗∗∗ (0.026)
Constant 5.130∗∗∗ (0.355)
Observations 935
R2 −0.009
Adjusted R2 −0.010
Residual Std. Error 0.423 (df = 933)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
15 / 33
Variables Omitidas
Instrumentos Débiles
Cuando la relación entre el instrumento y la variable independiente es
débil, podemos tener problemas serios. Si existe alguna correlación
entre u y z (No se cumple uno de nuestros supuestos), el sesgo
asymptótico de nuestro estimador será demasiado grande.
Usando la Ley de Números Grandes, el límite en probabilidad de
nuestro estimador IV estará dado por:
Corr(z, u) σu
plimβ̂1,IV = β1 + ∗
Corr(z, x) σx
Recordemos que el límite en probabilidad de nuestro estimador MCO
puede ser escrito como:
σu
plimβ̂1,M CO = β1 + Corr(x, u) ∗
σx
16 / 33
Variables Omitidas
Ejemplo 15.3
data("bwght")
[Link].1 <- lm(packs ~ cigprice, data = bwght)
[Link].1 <- ivreg(lbwght ~ packs | cigprice,
data = bwght)
17 / 33
Variables Omitidas
Ejemplo 15.3 MCO
Dependent variable:
packs
cigprice 0.0003 (0.001)
Constant 0.067 (0.103)
Observations 1,388
R2 0.0001
Adjusted R2 −0.001
Residual Std. Error 0.299 (df = 1386)
F Statistic 0.131 (df = 1; 1386)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
18 / 33
Variables Omitidas
Ejemplo 15.3 IV
Dependent variable:
lbwght
packs 2.989 (8.699)
Constant 4.448∗∗∗ (0.908)
Observations 1,388
R2 −23.230
Adjusted R2 −23.248
Residual Std. Error 0.939 (df = 1386)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
19 / 33
Variables Omitidas
Variables Instrumentales en Regresióm Múltiple
La extensión a una regresión múltiple es fácil. Dada la regresión:
y = β0 + β1 x1 + β2 z2 + u
donde:
x1 es una variable explicatoria endogena y z2 es una variable
explicatoria exogena, utilizamos z1 como variable instrumental para
x1 .
De aquí procedemos como hicimos anteriormente, primero estimando
la relación entre z1 y x1 , sin olvidar controlar por todas las demás
variables exogenas ya presentes en el modelo:
x1 = π0 + π1 z1 + π2 z2 + v
20 / 33
Variables Omitidas
Ejemplo 15.4
data("card")
[Link].1 <- lm(educ ~ nearc4 + exper + expersq + black + smsa +
smsa66 + reg662 + reg663 + reg664 + reg
reg668 + reg669,
data = card)
[Link].1 <- ivreg(lwage ~ educ + exper + expersq + black + smsa
smsa66 + reg662 + reg663 + reg664 +
reg668 + reg669 | nearc4 + exper + e
smsa66 + reg662 + reg663 + reg664 +
reg668 + reg669,
data = card)
21 / 33
Variables Omitidas
Ejemplo 15.4
Dependent variable:
lwage
educ 0.132∗∗ (0.055)
exper 0.108∗∗∗ (0.024)
expersq −0.002∗∗∗ (0.0003)
black −0.147∗∗∗ (0.054)
smsa 0.112∗∗∗ (0.032)
south −0.145∗∗∗ (0.027)
smsa66 0.019 (0.022)
reg662 0.101∗∗∗ (0.038)
reg663 0.148∗∗∗ (0.037)
reg664 0.050 (0.044)
reg665 0.146∗∗∗ (0.047)
reg666 0.163∗∗∗ (0.052)
reg667 0.135∗∗∗ (0.049)
reg668 −0.083 (0.059)
reg669 0.108∗∗∗ (0.042)
Constant 3.666∗∗∗ (0.925)
Observations 3,010
R2 0.238
Adjusted R2 0.234
Residual Std. Error 0.388 (df = 2994)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
22 / 33
Mínimos Cuadrados en Dos Fases
Section 2
Mínimos Cuadrados en Dos Fases
23 / 33
Mínimos Cuadrados en Dos Fases
2SLS
Muchas veces, vamos a tener acceso a más de una variable
instrumental para nuestra variable independiente endógena.
Consideremos el model de regresión múltiple:
y = β0 + β1 x1 + β2 z2 + u
Ahora, tenemos acceso a 2 variables z1 y z3 que pueden funcionar
como instrumentos para x1 . En vez de crear dos regresiones
instrumentales separadas (y por tanto obtener 2 estimadores
instrumentales), procedemos a elegir la mejor combinación lineal de
las variables exogenas con respecto a la variable explicatoria endogena
x1 .
Por tanto, nuestra ecuación instrumental es ahora dada por:
x1 = π0 + π1 z1 + π2 z2 + π3 z3 + v
E[v] = 0, Cov(z1 , v) = Cov(z2 , v) = Cov(z3 , v) = 0
24 / 33
Mínimos Cuadrados en Dos Fases
2SLS
Por tanto, nuestro nuevo IV (óptimo lineal) es dado por el estimado:
x∗1 = π0 + π1 z1 + π2 z2 + π3 z3
La creación de este instrumento como una combinación lineal de los
demás instrumentos es el primer paso en nuestra estimación de
mínimos cuadrados en dos fases (2SLS).
Podemos conseguir estimados de los parametros de la ecuación
instrumental utilizando MCO.
Esto nos permite reemplazar nuestra variable independiente endogena
en nuestra ecuación original, y proceder a estimar los parametros de
interés.
25 / 33
Mínimos Cuadrados en Dos Fases
Ejemplo 15.5
data("mroz")
lm.1 <- lm(lwage ~ educ + exper + expersq, data = mroz)
lm.2a <- lm(educ ~ exper + expersq + motheduc + fatheduc,
data = mroz[mroz$inlf > 0,])
lm.2b <- lm(educ ~ exper + expersq,data=mroz[mroz$inlf > 0,])
anova(lm.2a, lm.2b)
## Analysis of Variance Table
##
## Model 1: educ ~ exper + expersq + motheduc + fatheduc
## Model 2: educ ~ exper + expersq
## [Link] RSS Df Sum of Sq F Pr(>F)
## 1 423 1758.6
## 2 425 2219.2 -2 -460.64 55.4 < 2.2e-16 ***
26 / 33
Mínimos Cuadrados en Dos Fases
Ejemplo 15.5
Dependent variable:
lwage
educ 0.061∗ (0.031)
exper 0.044∗∗∗ (0.013)
expersq −0.001∗∗ (0.0004)
Constant 0.048 (0.400)
Observations 428
R2 0.136
Adjusted R2 0.130
Residual Std. Error 0.675 (df = 424)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
27 / 33
Mínimos Cuadrados en Dos Fases
Testeando por Exogeneidad
Sabemos que 2SLS es menos eficiente que el estimador MCO.
Por tanto, antes de utilizarlo, queremos estar seguros que es
necesario. Para esto, podemos utilizar una prueba de Hausman para
comparar el estimador MCO y el estimador 2SLS.
Otra manera de hacerlo es utilizando un método de regresión.
Estimando la primera etapa de nuestro 2SLS, podemos obtener
estimados de los residuos de esta regresión.
Luego, procedemos a correr la regresión
y = β0 + β1 x1 + β2 z2 + δ1 v̂ + u. Si el estimado de δ no es
estadisticamente diferente a 0, podemos concluir que nuestra variable
independiente es exogena y por tanto no es necesario utilizar variables
instrumentales.
28 / 33
Mínimos Cuadrados en Dos Fases
Ejemplo 15.7
data("mroz")
[Link].1 <- lm(lwage ~ educ + exper + expersq, data = mroz)
[Link].2 <- lm(educ ~ exper + expersq + motheduc + fatheduc,
data = mroz[mroz$inlf != 0,])
[Link].3 <- lm(lwage ~ educ + exper + expersq + [Link].2$resid,
data = mroz[mroz$inlf != 0,])
29 / 33
Mínimos Cuadrados en Dos Fases
Ejemplo 15.7
Dependent variable:
lwage
educ 0.061∗∗ (0.031)
exper 0.044∗∗∗ (0.013)
expersq −0.001∗∗ (0.0004)
resid 0.058∗ (0.035)
Constant 0.048 (0.395)
Observations 428
R2 0.162
Adjusted R2 0.154
Residual Std. Error 0.665 (df = 423)
∗∗∗
F Statistic 20.496 (df = 4; 423)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
30 / 33
Mínimos Cuadrados en Dos Fases
Prueba de Restricciones Sobreidentificadas
Si tenemos más instrumentos que variables independientes endogenas,
podemos proceder a testear efectivamente si algunos de nuestros
instrumentos están no correlacionados con el término de error.
Utilizando una pruba de Hausman, donde los modelos que están
compitiendo son modelos con subgrupos de las variables
instrumentales, podemos ver si las variables exógenas ya incluidas en
el modelo son en realidad exógenas.
Si no se puede rechazar la hipótesis de que los dos modelos son
iguales, entonces podemos concluir que las variables sí eran exogenas.
De lo contrario, no podemos saber cuales variables son exogenas y
cuales son endogenas.
31 / 33
Mínimos Cuadrados en Dos Fases
Prueba de Restricciones Sobreidentificadas
Otra prueba que se puede utilizar es una prueba de χ2 . Obtenemos
los residuos û de nuestra regresión 2SLS, y luego corremos la
regresión de û con respecto a todas nuestras variables exogenas.
Calculamos el R2 de esta regresión, lo multiplicamos por el tamaño
de la muestra y procedemos a comparar el resultado con el valor
crítico de un 5% de una distribución χ2 con q grados de libertad,
donde q = #variablesinstrumentales − #variablesendogenas.
32 / 33
Mínimos Cuadrados en Dos Fases
Problema de muchas variables Instrumentales
Parecido al problema que enfrentamos cuando utilizamos muchas
variables independientes en un MCO, el incluir muchas variables
instrumentales puede traer problemas de sesgo serio a nuestros
estimados de 2SLS.
El estudio de este problema no está dentro de las posibilidades de este
curso, pero vale recalcar que hay que tener cuidado cuando
consideramos cuantas variables instrumentales queremos utilizar.
33 / 33