0% encontró este documento útil (0 votos)
124 vistas9 páginas

Endogenidad y Variables Instrumentales

1. El documento discute el problema de la endogenidad en modelos de regresión y propone el uso de variables instrumentales y el estimador GMM para abordarlo. 2. Explica que la endogenidad surge en contextos como cuando hay autocorrelación en los errores, error de medición en las variables explicativas o simultaneidad. 3. Introduce el método de variables instrumentales y el estimador GMM de dos pasos para estimar modelos con variables endógenas de manera consistente.

Cargado por

Víctor Aguiar
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
124 vistas9 páginas

Endogenidad y Variables Instrumentales

1. El documento discute el problema de la endogenidad en modelos de regresión y propone el uso de variables instrumentales y el estimador GMM para abordarlo. 2. Explica que la endogenidad surge en contextos como cuando hay autocorrelación en los errores, error de medición en las variables explicativas o simultaneidad. 3. Introduce el método de variables instrumentales y el estimador GMM de dos pasos para estimar modelos con variables endógenas de manera consistente.

Cargado por

Víctor Aguiar
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Endogenidad, variables instrumentales y GMM.

Vctor H. Aguiar
29 de enero de 2012
Resumen
Se discute la endogenidad en varios contextos, se propone una solucin mediante variables instrumentales y el
estimador GMM.
1. El problema de la estimacin consistente. Amenazas a la identicacin.
En algunos casos como cundo se incluyen regresores rezagados o autocorrelacin en los residuos, error de medida
en los regresores, simultaneidad y endogenidad de los regresores.
1.1. Autocorrelacin con una variable rezagada dependiente.
Considere el modelo
y
t
=
1
+
2
x
t
+
3
y
t1
+
t,
(1)
con t, el ndice de tiempo, x
t
una sola variable. Ahora, suponga que
t
tiene correlacin de primer orden:

t
=
t1
+v
t
. (2)
Ahora se puede escribir el modelo (1), como
y
t
=
1
+
2
x
t
+
3
y
t1
+
t1
+v
t
, (3)
y tambin si se tiene el rezago y
t1
y
t1
=
1
+
2
x
t1
+
3
y
t2
+
t1,
(4)
entonces si = 0, E(y
t1

t
) = 0 por lo que los OLS no son consistentes:
E(y
t
|x
t
, y
t1
) =
1
+
2
x
t
+
3
y
t1
+E(
t
|x
t
, y
t1
) (5)
El ltimo trmino no es cero y OLS no provee una estimacin de la esperanza condicionada.
1.2. Error de medida
Piense en un modelo de consumo, suponga que la variable y
t
o gasto de los hogares en alimentos depende de los
salarios w
t
,
y
t
=
1
+
2
w
t
+
t,
(6)
dnde
t
que es un trmino de error con media cero y varianza
2
v
. Muchas veces, el ingreso salarial se subreporta
o se sobrereporta, es decir, existe un error de medida. se supone que el error es aditivo y slo observamos x
t
, que es la
medida con error del salario
x
t
= w
t
+
t
. (7)
1
Se considera que
t
el error de medida, tiene media cero y varianza constante
2

. Tambin se asume que


t
es
independiente del error
t
. Finalmente, se tiene que el error de medida es independiente del nivel salarial. Se sustituye
(7) en (6):
y
t
=
1
+
2
x
t
+v
t
(8)
Es decir, que v
t
=
t

t
.
Si se realiza un modelo de gasto de consumo sobre la medida x
t
con error de los salarios, se tiene que E(v
t
x
t
) = 0
debido a que E((
t

t
)x
t
) y 7.
Se explora ms profundamente la inconsistencia de los OLS en este caso:
b
2
=

T
t=1
(x
t
x)(y
t
y)

T
t=1
(x
t
x)
2
, (9)
utilizando el 8 entonces se tiene
b
2
=
2
+
(1/T)
T
t=1
(x
t
x)(v
t
v)
(1/T)
T
t=1
(x
t
x)
2
.
Por la ley de grandes nmeros se tiene que cundo la muestra crece al innito, entonces:
plimb
2
=
2
+
plim(1/T)
T
t=1
(x
t
x)(v
t
v)
plim(1/T)
T
t=1
(x
t
x)
2
=
2
+
E(x
t
v
t
)
V(x
t
)
. (10)
Por construccin se sabe que el ltimo trmino no es cero, calculemos:
E(x
t
v
t
) = E((w
t
+
t
)(
t

t
)) (11)
= E(w
t

2
w
t

t
+
t

2
t
)
se recuerda que E(w
t

t
) = 0, E(w
t

t
) = 0 y E(
t

t
) = 0 por construccin y tambin por supuesto E(
2
t
) =
2

:
E(x
t
v
t
) =
2

. (12)
La varianza de V(x
t
)
V(x
t
) =V(w
t
+
t
) =
2
w
+
2
u
, (13)
con
2
w
=V(w
t
), por lo que
plimb
2
=
2
_
1

2
w
+
2
u
_
. (14)
Entonces, OLS es consistente siempre y cundo
2

= 0 o no hay error de medida.


1.3. Simultaneidad: El modelo Keynesiano.
Considere la ecuacin de consumo keynesiano:
C
t
=
1
+
2
Y
t
+
t
, (15)
con C
t
el consumo real per cpita y Y
t
el ingreso real per cpita. Se quiere interpretar causalmente
2
como la
propensin marginal del consumo. Pero el ingreso no es exgeno:
Y
t
=C
t
+I
t
, (16)
con I
t
la inversin real per cpita. Se asume que
t
es i.i.d. en el tiempo con media cero, y con varianza
2
. Luego se
asume que I
t
y
t
son independientes para cada t. Esto signica que I
t
es exgeno o se determinan independientemente
2
del error. Por otro lado, Y
t
y C
t
se determinan simultneamente y por lo tanto son endgenos. Las dos ecuaciones
forman un modelo de ecuaciones simultneas en forma estructural o modelo estructural.
Se soluciona el sistema de ecuaciones, se reemplaza 16 en 15:
C
t
=
1
+
2
(C
t
+I
t
) +
t
(17)
C
t
=

1
1
2
+

2
1
2
I
t
+

t
1
2
.
Luego se reemplaza este resultado en 16 tal que:
Y
t
=

1
1
2
+
1
1
2
I
t
+

t
1
2
. (18)
Entonces se tiene que cov(Y
t
,
t
) = E(Y
t

t
):
E(Y
t

t
) = E(

1
1
2

t
+
1
1
2
I
t

t
+

2
t
1
2
) (19)
Que dado los supuestos E(
t
) = 0 y E(I
t

t
) = 0 entonces se tiene
Cov(Y
t
,
t
) = E(Y
t
,
t
) = E(

2
t
1
2
) =

2
1
2
. (20)
2. Variables instrumentales.
Considere el modelo de ingresos salariales,
y
i
=
0
+
1
x
1i
+
2
x
2i
+
i
(21)
La condicin de consistencia es E(
i
x
1i
) = 0 y E(
i
x
2i
) = 0.
Suponga que x
1i
es una variable exgena como gnero pero x
2i
es escolaridad por lo que es endgena. Se debe notar
que estas dos condiciones de exogenidad permiten identicar el modelo, de hecho:
E((y
i

0
+
1
x
1i
+
2
x
2i
)x
1i
) = 0 (22)
E((y
i

0
+
1
x
1i
+
2
x
2i
)x
2i
) = 0 (23)
Estimando estos momentos con los momentos muestrales, se tiene
1
N
N

i=1
(y
i

0
+
1
x
1i
+
2
x
2i
)x
1i
= 0 (24)
1
N
N

i=1
(y
i

0
+
1
x
1i
+
2
x
2i
)x
2i
= 0 (25)
Que son las condiciones de primer orden de OLS con dos regresores.
Si uno de los momentos no se cumple entonces el modelo no est identicado. Se necesita entonces sustituir este
momento, que generalmente viene de una fuente de variacin exgena o un instrumento o variable instrumental.
Es decir, una funcin que E(
i
z
2i
) = 0 pero que E(x
2i
z
2i
) = 0. Se sustituye el momento E(
i
x
2i
) por el nuevo
momento y queda el modelo identicado.
3
3. Mtodo de momentos y mtodo generalizado de momentos.
El objetivo es estimar un vector de parmetros
0
R
p
de un modelo basado en q1 momentos incondicionales:
E(g(
0
, x
i
)) = 0 (26)
con x
i
un vector de datos. Si q = p se tiene un sistema exactamente identicado. Este modelo es consistente pero
es ineciente. La eciencia de este mtodo aumenta con el nmero de condiciones de momentos es decir q > p. Eso
signica que no hay solucin para el sistema de ecuaciones:
g() =
1
n
n

i=1
g(, x
i
) = 0. (27)
Lo mejor que se puede hacer en estos casos es acercarse lo ms posible a cero minimizando la funcin cuadrtica:
Q() = g()
T
Wg(), (28)
dnde, W es positiva denida simtrica qq, una matriz de pesos.
W

={ lm
n
Var(

ng(
0
) =(
0
))}
1
(29)
Este estimador se llama GMM de dos pasos

= argmin(g()
T

(

)g()) (30)
El algoritmo de Hansen es:
1. Calcular

= argming()
T
g().
2. Calcular la matriz de HAC

(

).
3. Computar 2SGMM

= argmin(g()
T

(

)g())
Ejemplo 1. Media poblacional por MM
Se tiene el momento E(x
i
) = es decir se puede escribir
E(x
i
) = 0 (31)
Se reemplaza por el momento muestral:
1
N
n

i=1
x
i
= 0 (32)
Entonces el estimador de mtodo de momentos es =
1
N

n
i=1
x
i
.
Ejemplo 2. Parmetros de una distribucin normal (, ) se tiene los siguientes momentos, los dos primeros son la
media y la varianza y el tercero es la tercera derivada de la funcin generadora de momentos:
E(g(
0
, x
i
)) = E
_
_
x
i

2
(x
i
)
2
x
3
i
(
2
+3
2
)
_
_
= 0 (33)
La solucin a este problema se encuentra al minimizar:
Q =
_
_
1
N

N
i=1
( x
i
)
1
N

N
i=1
(
2
(x
i
)
2
)
1
N

N
i=1
(x
3
i
(
2
+3
2
))
_
_
T

1
_
_
1
N

N
i=1
( x
i
)
1
N

N
i=1
(
2
(x
i
)
2
)
1
N

N
i=1
(x
3
i
(
2
+3
2
))
_
_
(34)
4
Ejemplo 3. Mnimos cuadrados ordinarios.
En el modelo lineal
Y = X +u (35)
se tiene la condicin:
E(X
T
u)
k1
= 0 (36)
Es decir, k momentos.
Ahora, se reemplaza por la denicin de u:
E(X
T
(Y X)) = 0 (37)
Si se reemplaza la esperanza por el momento muestral se tiene:
1
N
(X
T
Y X
T
X) = 0 (38)
Por lo que el estimar de mtodo de momentos es igual al de OLS. Entonces = (X
T
X)
1
X
T
Y.
Ejemplo 4. Variables instrumentales.
En el modelo lineal
Y = X +u (39)
no se cumple la condicin:
E(X
T
u)
k1
= 0 (40)
Entonces se debe encontrar una variable que E(x
i
z
i
) = 0 y E(Z
T
u) = 0. Entonces se tiene el estimador
IV

IV
= (Z
T
X)
1
Z
T
Y. (41)
Ejemplo 5. Variables instrumentales generalizadas.
Se puede dar el caso que tenemos ms variables instrumentales que regresores, entonces se puede aplicar el GMM:
Q
N
() =
_
1
N
Z
T
(Y X)
_
T
W
N
_
1
N
Z
T
(Y X)
_
. (42)
Diferenciando respecto a :
Primero expando Q
N
Q
N
=Y
T
ZW
N
Z
T
Y Y
T
ZW
N
Z
T
X
T
X
T
ZW
N
Z
T
Y +
T
X
T
ZW
N
Z
T
X.
La derivada respecto a es:
2X
T
ZW
N
Z
T
Y +2X
T
ZW
N
Z
T
X
GIV
(43)
Por lo que el estimador es:

GIV
= (X
T
ZW
N
Z
T
X)
1
X
T
ZW
N
Z
T
Y. (44)
Dependiendo de la matriz W
N
se tiene diferentes estimadores, se recuerda que u y Z son independientes y u
i
son
i.i.d.(0,
2
) entonces se tiene que la varianza asinttica est dada por
V(Z
T
u) = Z
T
V(u)Z =
2
1
N
Z
T
Z. (45)
y adems que
5

2
plim
1
N
n

i=1
z
i
z

i
=
2

zz
(46)
Por lo tanto, la matriz de pesos es
W
opt
N
= (
1
N
Z
T
Z)
1
. (47)
Entonces:

GIVE
= (X
T
Z(Z
T
Z)
1
Z
T
X)
1
X
T
Z(Z
T
Z)
1
Z
T
Y. (48)
4. Variables instrumentales y mnimos cuadrados de dos pasos.
El estimador de variables instrumentales, se motiva porque existe el problema de endogenidad, en la regresin
lineal. Se sabe que si se tiene un modelo lineal:
Y = X +u (49)
para que OLS sea consistente se necesita que E(X
T
u) = 0, si esto no ocurre sabemos para al menos uno de los
regresores de k entonces se requiere una variable instrumental. Una variable instrumental tiene que cumplir con dos
condiciones: (i) Tiene que tener una correlacin signicativa y fuerte con el regresor endgeno. (ii) Tiene que ser
exgeno, es decir que su correlacin con u sea 0. Se puede escribir E(Z
T
u) = 0.
Se debe recordar que no todos los regresores X son endgenos, por ejemplo, se puede tener X = [1 x
1
x
2
x
3
x
n
]
con x
2
endgena es decir E(x
T
3
u) = 0 y las dems exgenas. Luego se necesita una variable instrumental z
1
tal que
Z = [1 x
1
x
2
z
1
x
n
].
La variable instrumental permite tener el mismo nmero de momentos que parmetros a estimar, y el estimador es:

IV
= (Z
T
X)
1
Z
T
Y (50)
Se va a estudiar la distribucin asinttica y el sesgo de este estimador:

IV
= (Z
T
X)
1
Z
T
(X +u) (51)

IV
= +(Z
T
X)
1
Z
T
u). (52)
Ahora se puede escribir en notacin sigma:

IV
= +
(1/N)
n
i=1
u
i
z
T
i
(1/N)
n
i=1
z
i
x
T
i
. (53)
En el lmite, los momentos muestrales convergen a los poblaciones y se tiene:
plim

IV
= +
E(u
i
z
T
i
)
E(z
i
x
T
i
)
(54)
Por, construccin E(u
i
z
T
i
) = 0 y E(z
i
x
T
i
) = 0 por lo que

IV
es consistente ya que plim

IV
= .
La distribucin asinttica, requiere que la matriz plim
1
N
Z
T
X =
zx
una matriz nita y no singular. Para que esto se
cumpla una condicin necesaria es que E(Z
T
X) = 0 y que Z no sea una combinacin lineal de X.

N(

IV
) = (
1
N
Z
T
X)
1
1

N
Z
T
u. (55)
Si se supone que u
i
IID(0,
2
) entonces se tiene que

N(

IV
) N(0,
2
(
xz

1
zz

zx
)
1
) (56)
6
Esto se da por el Teorema del lmite central y el teorema del mapeo contnuo. Se sabe que u N (0,
2
) y se le
aplica una G(u) = (
1
N
Z
T
X)
1 1

N
Z
T
. Por lo que G(u) G(N (0,
2
)). Dado que G
es una transformacin lineal se tiene que:
V(G(N (0,
2
)) = (57)
((Z
T
X)
1
Z
T
kn
V(u)(Z
T
X)
1
Z
T
kn
)
T
=
2
(Z
T
X)
1T
ZZ
T
((Z
T
X)
1
)
T
, (58)
5. Consideraciones prcticas del estimador de variables instrumentales.
5.1. De dnde provienen los instrumentos?
Los instrumentos generalmente provienen de un conocimiento profundo del tratamiento o de la variable endgena.
Se debe aprovechar del conocimiento institucional o terico de un problema especco para soportar el hecho de que
se cumple la exclusion restriction. No existen pruebas estadsticas para probar si un instrumento es vlido, si
existe slo un instrumento. Con ms de un instrumento se pueden implementar pruebas como Haussman, pero
suponen que el primer instrumento es exgeno. La validez de un instrumento debe justicarse tericamente.
5.2. Ejemplos de instrumentos:
La escolaridad es endgena: se instrumenta con oferta de escuelas en las cercanas del lugar de nacimiento y
niez (Card), trimestre de nacimiento (Krueger) aprovecha el hecho de una ley en EEUU de entrada al sistema
escolar, escolaridad de los padres.
Remesas de migrantes: Lugar de envo de remesas, nmero de couriers en el lugar de vivienda del receptor.
Sistema colonial: Nmero de decesos o muertes de colonos (Acemoglu).
6. Problemas con las variables instrumentales.
6.1. Amenazas a la identicacin.
Dudas sobre validez del instrumento.
Un diseo de variables instrumentales ser tan creble como el instrumento.
Se debe soportar que E(Z
T
) =0, es decir, que el instrumento no est correlacionado con la variable de respuesta
y por tanto con los errores.
Ejemplo: El instrumento de escolaridad de los padres, para la variable escolaridad, no es un buen instrumento
porque la escolaridad de los padres puede afectar una variable de respuesta como el hecho de estar empleado a
travs de otras variables no observadas. Es decir, un padre ms educado puede tener ms contactos en el mercado
laboral y mejorar las probabilidades de que el individuo obtenga trabajo.
Instrumentos dbiles
La primera condicin de la exclusion restriction, se puede probar mediante la primera etapa o una simple correla-
cin.
No obstante, si la correlacin entre la variable endgena y el instrumento es baja, se tiene un instrumento dbil.
Con un instrumento dbil los errores estndares tienden a crecer lo que afecta la precisin de medida del impacto.
Se tiene que
IV
= +cov(Z, )/cov(Z, T), el sesgo ser cero si cov(Z, ) = 0, pero si esta condicin no se
cumple exactamente y es ms bien pequea, entonces si cov(Z, T)] 0, entonces el sesgo tiende a innito.
7
7. Pruebas contra instrumentos dbiles.
Pruebas para instrumentos dbiles.
Las pruebas de variables instrumentales sirven slo si se tiene ms de un instrumento.
1. Estimar las ecuaciones por 2SLS y obtener los residuos
i
.
2. Regresar
i
sobre X y Z y obtener el R
2
.
3. Bajo la hiptesis nula de que todas las variables instrumentales no estn correlacionadas con los residuos se debe
probar los coecientes de Z. Si se rechaza la hiptesis nula se puede concluir que las variables instrumentales
son endgenas.
Reglas de pulgar para detectar instrumentos dbiles.
Staiger y Stock (1997) si se tiene una sola variable endgena, se sugiere un F de la primera etapa mayor a 10.
Stock y Yogo (2005), si se tiene tres instrumentos para una nica variable endgena, se quiere jar el sesgo de
IV al 5% del sesgo OLS, el F crtico es 13.91.
En el caso de que que se requiere un sesgo de slo 1% se requiere 22.3.
Soluciones instrumentos dbiles.
Encontrar ms instrumentos (poco realista).
Estimador Jacknife Instrumental Variables.
8. Subrayando la econ de Econometra:
Una de las ventajas del estimador de GMM es que puede utilizar los momentos derivados de la teora econmica
para estimar un modelo. Se propone como ejemplo el siguiente problema:
Considere un agente que maximiza su utilizada esperada de su consumo corriente y futuro solucionando
m axE
t
_
S

s=0

s
U(C
t+s
)
_
, (59)
con C
t+s
el consumo en el perodo t +s, U() es una funcin de utilidad que cumple con los supuestos usuales de
continuidad, cuasiconcavidad y (0, 1) es el factor de descuento. El operador E
t
es la esperanza condicional a la
informacin disponible en t. El agente se enfrenta a una restriccin presupuestaria intertemporal
C
t+s
+q
t+s
= w
t+s
+(1+r
t+s
)q
t+s1
, (60)
dnde, q
t+s
es la riqueza nanciera al nal del perodo t +s, r
t+s
es el retorno o rendimiento sobre la riqueza
nanciera y w
t+s
es el ingreso del trabajo. Es difcil solucionar analticamente este problema pero se puede obtener
algunos momentos mediante la ecuacin de Euler que proviene de plantear el lagrangiano y obtener las condiciones de
primer orden:
L = E
t
_
S

s=0

s
U(w
t+s
+(1+r
t+s
)q
t+s1
q
t+s
)
_
(61)
L/q
t
= E
t
{U

(C
t+1
)(1+r
t+1
))}U

(C
t
) = 0
Entonces, se tiene el momento:
E
t
_
U

(C
t+1
)(1+r
t+1
))
_
=U

(C
t
) (62)
Se puede escribir esta ecuacin como:
E
t
_
U

(C
t+1
)
U

(C
t
)
(1+r
t+1
) 1
_
= 0 (63)
8
Se considera una variable z
t
que no da ninguna informacin del valor esperado arriba escrito. Esta variable es
independiente de C
t
, r
t+1
, entonces se utiliza el hecho que E(x
1
|x
2
) = 0 = E(x
1
g(x
2
)) = 0 para cualquier funcin
g(), por tal motivo se puede escribir:
E
__
U

(C
t+1
)
U

(C
t
)
(1+r
t+1
) 1
_
z
t
_
= 0 (64)
Adems se supone U =
C
1
1
, por lo que se tiene el conjunto de momentos:
E
__

_
C
t+1
C
t
_

(1+r
t+1
) 1
_
z
t
_
= 0 (65)
Se debe tener datos de C
t+1
/C
t
, r
t+1
y z
t
para estimar consistentemente el modelo.
9. Bibliografa
Referencias
9

También podría gustarte