0% encontró este documento útil (0 votos)
166 vistas8 páginas

Estimación de Variables Endógenas en Modelos

Este documento presenta un modelo de regresión con una variable endógena y propone una metodología de estimación en dos etapas. En la primera etapa, se estima la ecuación de la variable endógena usando instrumentos. Luego, en la segunda etapa, se incluyen los residuales de la primera etapa en la ecuación original para estimarla por MCO. Se demuestra que este estimador es idéntico al estimador de mínimos cuadrados de dos etapas. También se discuten supuestos adicionales para la identificación del modelo.

Cargado por

Rossy
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
166 vistas8 páginas

Estimación de Variables Endógenas en Modelos

Este documento presenta un modelo de regresión con una variable endógena y propone una metodología de estimación en dos etapas. En la primera etapa, se estima la ecuación de la variable endógena usando instrumentos. Luego, en la segunda etapa, se incluyen los residuales de la primera etapa en la ecuación original para estimarla por MCO. Se demuestra que este estimador es idéntico al estimador de mínimos cuadrados de dos etapas. También se discuten supuestos adicionales para la identificación del modelo.

Cargado por

Rossy
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Pregunta 1:

Considere un modelo de regresión con una única variable endógena:

𝑦1 = 𝑧1 𝛿1 + 𝛼1 𝑦2 + 𝜇1

Donde 𝒛𝟏 es el vector de exógenas incluidas en el modelo y 𝒚𝟐 es una variable que se


sospecha es endógena. . Asuma que se cuenta con un vector 𝒛𝟐 de instrumentos para
la variable endógena, y asuma que estos satisfacen los supuestos necesarios. La
primera etapa (“first stage”) está entonces dada por la siguiente ecuación:

𝑦2 = 𝑧𝜋2 + 𝑣2

Donde: 𝑧 = [𝑧1 𝑧2 ]
Considere la siguiente metodología de estimación:

i. Estime (2) por MCO y guarde los residuales, a los que denominaremos 𝑣
̂2

SOLUCIÓN:

𝑦1 = 𝑧1 𝛿1 + 𝛼1 𝑦2 + 𝜇1

𝑧1 = 𝐸𝑥ó𝑔𝑒𝑛𝑎𝑠.

𝑦2 = 𝐸𝑛𝑑ó𝑔𝑒𝑛𝑎𝑠.

𝑧2 = 𝐼𝑛𝑠𝑡𝑟𝑢𝑚𝑒𝑛𝑡𝑜𝑠.
𝑧 = [𝑧1 𝑧2 ]

First stage → 𝑦2 = 𝑧𝜋2 + 𝑣2 (2)

𝑦2 = 𝑧𝜋2 + 𝑣2

𝑧 ′ 𝑦2 = 𝑧 ′ 𝑧𝜋2 + 𝑧 ′ 𝑣2

𝐸[𝑧 ′ 𝑦2 ] = 𝐸[𝑧 ′ 𝑧]𝜋2 + 𝐸[𝑧 ′ 𝑣2 ]

𝐸[𝑧 ′ 𝑣2 ] = 0 (Por supuesto de que Cov(z, 𝑣2 ) = 0

Con supuesto de que Z es el vector de exógenas incluyendo a 1 para que el


modelo contenga intercepto.

𝜋2 = 𝐸[𝑧 ′ 𝑧]−1 𝐸[𝑧 ′ 𝑦2 ]


Supuesto: 𝐸[𝑧 ′ 𝑧] es de rango K y es semidefinida positiva.

Luego el estimador:
−1
1 1
̂2 = [ ∑ 𝑧𝑖 𝑧𝑖 ] [ ∑ 𝑧𝑖′ 𝑦2𝑖 ]
𝜋 ′
𝑛 𝑛

ii. Estime la siguiente ecuación por MCO:


𝑦1 = 𝑧1 𝛿1 + 𝛼1 𝑦2 + 𝜌1 𝑣
̂2 + 𝑒𝑟𝑟𝑜𝑟
Muestre que el estimador de MCO que se obtiene de la estimación de la ecuación (3),
es idéntico al estimador de MC2E.

SOLUCIÓN:

𝑦1 = 𝑧1 𝛿1 + 𝛼1 𝑦2 + 𝜌1 𝑣
̂2 + 𝜀

Dado que 𝑦2 no se puede observar:

𝑦1 = 𝑧1 𝛿1 + 𝑧𝜋
̂𝛼
2 1 + 𝜌1 𝑣
̂2 + 𝜀

𝛽1 = 𝛿1

𝛽2 = 𝜋
̂𝛼
2 1

𝛽3 = 𝜌1
̂𝛽 + 𝜀
𝑦1 = 𝑀
̂ = [𝑧1 𝑧 𝑣
𝑀 ̂]
2

Cov(𝑧1 , 𝜀) = 0

Cov(𝑧, 𝜀) = 0 ̂ , 𝜀) = 0
∴ Cov(𝑀

Cov(𝑣
̂,
2 𝜀) = 0

̂ −1 𝑦1 = 𝑀
𝑀 ̂ −1 𝑀
̂𝛽 + 𝑀
̂ −1 𝜀

̂ −1 𝑦1 ] = 𝐸[𝑀
𝐸[𝑀 ̂ −1 𝑀
̂ ]𝛽 + 𝐸[𝑀
̂ −1 𝜀]

̂ −1 𝜀] = 0
𝐸[𝑀

𝛽 = 𝐸[𝑀 ̂ ]−1 𝐸[𝑀


̂ −1 𝑀 ̂ −1 𝑦1 ]
Luego el estimador:
−1
1 1
𝛽̂ = [ ∑ 𝑀
̂𝑖 𝑀
′ ̂𝑖 ] [ ∑ 𝑀
̂𝑖′ 𝑦1𝑖 ]
𝑛 𝑛

Pregunta 2.

Considere un modelo para la salud de un individuo:

ℎ𝑒𝑎𝑙𝑡ℎ = 𝛽0 + 𝛽1 𝑎𝑔𝑒 + 𝛽2 𝑤𝑒𝑖𝑔ℎ𝑡 + 𝛽3 ℎ𝑒𝑖𝑔ℎ𝑡 + 𝛽4 𝑚𝑎𝑙𝑒 + 𝛽5 𝑤𝑜𝑟𝑘 + 𝛽6 𝑒𝑥𝑒𝑟𝑐𝑖𝑠𝑒 + 𝜇1

En donde “health” representa una medida cuantitativa de la salud del individuo. La


variable “work” indica el número de horas trabajadas a la semana y la variable
“exercise” es el número de horas de ejercicio a la semana. El resto de variables
incluidas se entienden por si mismas (age=edad, weight=peso y height=talla).

a) ¿Esperaría usted que la variable “exercise” esté correlacionada con el término


de error? ¿Por qué? Explique en detalle.

Solución:

Una de las variables que están en el error es la variable ingreso ya que las
desigualdades socioeconómicas son los factores que explican mejor las
diferencias de salud dentro de una misma sociedad. La Organización
Mundial de la Salud considera que la pobreza es la principal causa de
enfermedades, por tanto, a mayores ingresos, una persona podrá tener una mejor
alimentación, chequeos médicos frecuentes y habitos de vida más saludable. Esta
variable se relaciona con la variable exercise porque a medida que el individuo tenga
más ingresos, tendrá un mayor acceso a poder adquirir una máquina, por lo tanto, le
dedicará más tiempo a hacer ejercicio. También puede estar en el error la variable de
la zona geográfica (rural o urbana) ya que normalmente en zonas rurales hay más
gimnasios que en la rural, aquí la correlación va a depender.

b) Suponga que usted puede obtener data para dos variables adicionales:
“disthome” and “distwork”, que miden las distancias desde la casa al lugar de
trabajo y desde la casa al gimnasio más cercano respectivamente. Discuta si
estas variables podrían estar o no correlacionadas con el término de error.

Solución:

Las variables disthome y distwork no se podrían relacionar con la variable Ingreso (que
se encuentra en el error), debido a que si una persona tiene ingresos altos, la persona
tiende a tener una movilidad propia, y por tal motivo, las distancias serían irrelevantes,
e ir al gimnasio dependería de la motivación del individuo que quiera mejorar su salud
y de su propio estilo de vida.
Si pueden estar correlacionados con el error: con respecto al ingreso, las personas a
mayor ingreso tienden a alquilar un lugar a ……..la verdad , en el fondo de mi ser, no
creo que estén correlacionadas

c) Ahora asuma que efectivamente “disthome” y “distwork” no están


correlacionadas con el término de error (al igual que el resto de variables en (4)
con la excepción de “exercise”). Escriba el “first stage” y establezca las
condiciones bajo las cuales los parámetros de la ecuación (4) pueden ser
identificados.

Solución:

ℎ𝑒𝑎𝑙𝑡ℎ = 𝛽0 + 𝛽1 𝑎𝑔𝑒 + 𝛽2 𝑤𝑒𝑖𝑔ℎ𝑡 + 𝛽3 ℎ𝑒𝑖𝑔ℎ𝑡 + 𝛽4 𝑚𝑎𝑙𝑒 + 𝛽5 𝑤𝑜𝑟𝑘 + 𝛽6 𝑒𝑥𝑒𝑟𝑐𝑖𝑠𝑒 + 𝜇1

𝑐𝑜𝑣(𝑎𝑔𝑒 𝑤𝑒𝑖𝑔ℎ𝑡 ℎ𝑒𝑖𝑔ℎ𝑡 𝑚𝑎𝑑𝑒 𝑤𝑜𝑟𝑘, 𝜇) = 0 𝑐𝑜𝑣(𝑒𝑥𝑒𝑟𝑐𝑖𝑠𝑒, 𝜇) ≠ 0 𝐸(𝜇) = 0

Supongamos que tenemos dos instrumentos: “disthome” y “distwork”

𝑐𝑜𝑣(𝑑𝑖𝑠𝑡ℎ𝑜𝑚𝑒 𝑑𝑖𝑠𝑡𝑤𝑜𝑟𝑘, 𝜇) = 𝑜 𝑦 𝑐𝑜𝑣(𝑑𝑖𝑠𝑡ℎ𝑜𝑚𝑒 𝑑𝑖𝑠𝑡𝑤𝑜𝑟𝑘 , 𝑒𝑥𝑒𝑟𝑐𝑖𝑠𝑒) ≠ 0

First stage:

𝑒𝑥𝑒𝑟𝑐𝑖𝑠𝑒 = 𝛿0 + 𝛿1 𝑎𝑔𝑒 + 𝛿2 𝑤𝑒𝑖𝑔ℎ𝑡 + 𝛿3 ℎ𝑒𝑖𝑔ℎ𝑡 + 𝛿4 𝑚𝑎𝑙𝑒 + 𝛿5 𝑤𝑜𝑟𝑘 + 𝜃1 𝑑𝑖𝑠𝑡ℎ𝑜𝑚𝑒


+ 𝜃2 𝑑𝑖𝑠𝑡𝑤𝑜𝑟𝑘 + 𝑣

𝐸(𝑣) = 0 𝑐𝑜𝑣(𝑎𝑔𝑒 𝑤𝑒𝑖𝑔ℎ𝑡 ℎ𝑒𝑖𝑔ℎ𝑡 𝑚𝑎𝑙𝑒 𝑤𝑜𝑟𝑘 , 𝑣) = 0

𝑐𝑜𝑣(𝑑𝑖𝑠𝑡ℎ𝑜𝑚𝑒 𝑑𝑖𝑠𝑡𝑤𝑜𝑟𝑘, 𝑣) = 0 𝜃1 ≠ 𝑜 𝑦 𝜃2 ≠ 0

d) ¿Cómo podría usted testear los supuestos de identificación establecidos en el


apartado anterior?

Pregunta 4. Un investigador está interesado en el efecto del servicio militar sobre el


capital humano. Este investigador obtiene una muestra aleatoria de 4000 trabajadores
mayores a 40 años y estima la siguiente regresión:

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜇𝑖 (6)

En donde los salarios anuales del trabajador están dados por 𝑦𝑖 , mientras que 𝑥𝑖 es
una variable binaria que toma el valor de 1 si el individuo ha hecho el servicio militar (y
cero en caso contrario).

a) Explique en detalle por qué la estimación de (6) por OLS no le permite estimar
de manera consistente el efecto del servicio militar sobre los salarios.
Solución:

En la regresión planteada por el investigador, se puede notar que no


considera algunos factores que podrían afectar tanto la decisión de hacer servicio
militar como también los salarios anuales del trabajador (omite variables). Que las
personas que hacen servicio militar tengan menores ingresos que los que no lo hacen,
no implica que hacer servicio militar sea la causa de los menores ingresos.
Probablemente existan diferencias no observables entre los hombres que eligen
incorporarse en el servicio militar y los que no, y probablemente esas diferencias estén
correlacionadas con los ingresos potenciales. Si hacer 𝑥𝑖 (variable binaria) está
correlacionada con variables no observadas que pertenecen a la ecuación, las
estimaciones de MCO serán inconsistentes.

Puede incluir en la regresión a la Educación como una variable de control, también


podría incluir a la Habilidad, pero esta variable es muy difícil de medir, por lo tanto,
difícil de controlar en la regresión. Una posible solución es encontrar una variable
instrumental válida.

b) Durante la guerra de Vietnam, el reclutamiento para la guerra se hacía


mediante una lotería. En esta lotería los días del año eran reordenados
aleatoriamente desde el 1 al 365 (por ejemplo si el 30 de Junio era el primer
día en salir, a este día se le asignaba el número 1). Aquellos cuyo día de
nacimiento aparecía primero en este reordenamiento aleatorio eran reclutados
primero, luego eran reclutados aquellos cuyo día de nacimiento aparecía en
segundo lugar, y así sucesivamente. Explique cómo esta lotería podría ser
utilizada para estimar los efectos del servicio militar sobre los salarios (para
mayor detalle pueden ver el paper: Angrist, J. D. (1989). Lifetime Earnings and
the Vietnam Era Draft Lottery: Evidence from Social Security Administrative
Records (Disponible en SIGA).

Solución:

La lotería podría ser utilizada para estimar los efectos del Servicio Militar sobre los
salarios porque la elección (de servir en el ejército), fue aleatoria ya que el
reclutamiento se hacía mediante la lotería. Debido a que fue seleccionado al azar, el
número de la lotería no está correlacionado con las características individuales que
pueden afectar la ganancia, por lo tanto, el instrumento es exógeno. Según Angrist, el
estatus de veterano no está completamente determinado por el sorteo pues algunos
se alistaban voluntariamente, otros evitaban el enrolamiento por razones de salud o de
estudios. Pero el sorteo está altamente correlacionado con el estatus de veterano.
Angrist analiza los ingresos de 1969 (previos al sorteo de 1970) y encuentra que no
hay efecto del reclutamiento aleatorio en los ingresos. También analiza la cohorte de
hombres nacidos en 1953. Aunque hubo sorteo para esa cohorte, nadie fue finalmente
seleccionado. Por lo tanto no hay correlación entre el número obtenido en el sorteo y
el estatus de veterano para esa cohorte. Angrist encuentra que no existe una relación
significativa entre los ingresos y el reclutamiento aleatorio para los nacidos en 1953.
Ambos resultados apoyan el argumento de que el reclutamiento aleatorio afecta a los
ingresos solo a través del estatus de veterano.

EJERCICO 5

Considere la lectura "To Everything There is a Season (of Birth)"1 (archivo


Trabajo2_Lectura_Pregunta 5 disponible en SIGA). Esta lectura hace
referencia al paper "Does Compulsory School Attendance Affect Schooling
and Earnings", Angrist and Krueger (1991). (También disponible en SIGA). En
base a la lectura, conteste lo siguiente:

a) ¿Cuál es la pregunta de interés que los autores quieren resolver?


La pregunta de interés es si la asistencia escolar obligatoria afecta la escolaridad
y las ganancias, debido a la endogeneidad que se presenta al querer estimar la
regresión de ingresos sobre el nivel educativo, en donde una variable omitida
en dicha ecución es la habilidad de los individuos, es por esto que los autores
proponen solucionar este problema de endogeneidad usando una variable
instrumenta, que es una variable dummyl.
b) Explique por qué la variable instrumental principal planteada por los
autores cumple con los supuestos necesarios para que la misma capture
el efecto causal de interés (utilice ecuaciones para explicar mejor su
razonamiento).
Modelo inicial:
𝒊𝒏𝒈𝒓𝒆𝒔𝒐𝒔 = 𝜷𝟎 + 𝜷𝟏 𝒏𝒊𝒗𝒆𝒍 𝒆𝒅𝒖𝒄𝒂𝒕𝒊𝒗𝒐 + 𝝁

𝑬(𝝁) = 𝟎 𝒄𝒐𝒗(𝒏𝒊𝒗𝒆𝒍 𝒆𝒅𝒖𝒄𝒂𝒄𝒕𝒊𝒗𝒐, 𝝁) ≠ 𝟎


El problema de endogeneidad viene dada por por la variable omitida que es la
habilidad de los individuos. Por lo tanto los autores plantean la siguiente
variable instrumental:

1=si el individuo nació el primer trimestre

𝑍 = 𝑡𝑟𝑖𝑚𝑒𝑠𝑡𝑟𝑒 𝑑𝑒 𝑛𝑎𝑐𝑖𝑚𝑖𝑒𝑛𝑡𝑜
0 = caso contrario

𝑐𝑜𝑣(𝑧, 𝜇) = 0
Este supuesto de exogeneidad se cumple cuando la fecha de nacimiento no
afecta a los ingresos de manera directa (no correlacionado con la habilidad)

𝑐𝑜𝑣(𝑧, 𝑥) ≠ 𝑜
Es supuesto de relevancia indica que el instrumento debe estar correlacionado
con el nivel educativo alcanzado
c) ¿De qué manera las leyes establecidas en Estados Unidos son cruciales
para que la estrategia de estimación empírica funcione? Si usted tuviera
las mismas variables, pero recogidas en Perú, ¿podría replicar la misma
estrategia? Argumente su respuesta.
Estas leyes son cruciales ya que en Estados Unidos, el sistema de educación
obliga a los niños a que empiecen la escuela el año calendario en el que
cumplen 6 años y a asistir obligatoriamente hasta cumplir los 18 años. Es decir,
los estudiantes nacidos a principios de año, por lo general comienzan la
escuela a una edad mayor. Por tanto, cumplen la edad obligatoria para asistir a
la escuela con menor educación que los estudiantes que comenzaron la
escuela a edades más tempranas.
En el caso de Perú, la ley obliga a los alumnos a que empiecen la escuela a los
6 años, pero no hay una ley de salida, no hay una ley que obligue a asistir
hasta una cierta edad, por lo tanto, no se cumpliría la variable instrumental.
Solo se podría cumplir en un cierto sector de la población, por ejemplo en las
personas que reciben ayuda del estado a través de programas sociales, como
por ejemplo. Programa Juntos, ellos si están obligados a mandar a sus hijos a
la escuela hasta los 20 años, caso contrario les quitan el beneficio, entonces
para ellos si se cumpliría el instrumento

La base ak91.dta (disponible en SIGA) contiene parte de la base de datos


utilizada por los autores en el paper.

d) ¿Cuál es el rango de años en el que nacieron los individuos de la muestra?


¿Qué censo se está utilizando? Utilice los comandos respectivos para
calcular esta información.

e) A partir de las variables yob (year of birth) y qob (quartil of birth),


construya una variable llamada age que contenga la edad (en años) de cada
individuo.

f) Calcule el efecto de la educación sobre los salarios utilizando como


variable instrumental una dummy llamada q4 que tome valor de 1 si es que el
individuo nace en el último periodo del año. Interprete.

g) Ahora calcule el mismo efecto utilizando el estimador de Wald,


comparando el promedio de los salarios y años de educación entre los que
nacen en último periodo del año versus los que nacen en los otros periodos
del año; como se muestra en la Tabla 6.4. de la lectura. Obtenga todas las
estimaciones que aparecen en esta tabla y explique por qué en este caso las
estimaciones son iguales a las obtenidas en el apartado anterior.

h) Utilice los comandos necesarios para replicar todas las estimaciones de la


Tabla 6.5 que aparece en la lectura. Interprete los resultados e indique qué es
lo que buscan comparar los autores.

i) Replique el gráfico 6.1 que aparece en la lectura. Este consiste en la


relación entre años de educación de los individuos y el cuartil del año en el
que nacieron. ¿Quiénes tienen más años de educación en promedio, los
nacidos al principio o al final del año? (Hint: realice un collapse de la data por
edad del individuo antes del gráfico).

También podría gustarte