0% encontró este documento útil (0 votos)
730 vistas111 páginas

Stata Intermedio en Investigación Económica

Este documento presenta una introducción a los modelos de elección discreta en Stata. Explica tres enfoques para la interpretación estructural de estos modelos: 1) modelización de una variable latente, 2) teoría de la utilidad aleatoria, y 3) modelo de probabilidad no lineal. También describe cómo estimar y analizar modelos de elección discreta como modelos de probabilidad lineal, modelos de probabilidad no lineal, y análisis de probabilidades y cambios marginales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
730 vistas111 páginas

Stata Intermedio en Investigación Económica

Este documento presenta una introducción a los modelos de elección discreta en Stata. Explica tres enfoques para la interpretación estructural de estos modelos: 1) modelización de una variable latente, 2) teoría de la utilidad aleatoria, y 3) modelo de probabilidad no lineal. También describe cómo estimar y analizar modelos de elección discreta como modelos de probabilidad lineal, modelos de probabilidad no lineal, y análisis de probabilidades y cambios marginales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Stata

Intermedio
Aplicado a la Investigación Económica

Juan Carlos Abanto Orihuela

19 de octubre de 2018
2

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
Índice general
1. Modelos de Elección Discreta 5
1.1. Estimación y Análisis . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1. Interpretación Estructural . . . . . . . . . . . . . . . . . 5
1.1.2. Modelo de Probabilidad Lineal . . . . . . . . . . . . . . 7
1.1.3. Modelo de Probabilidad No Lineal . . . . . . . . . . . . 9
1.1.4. Análisis de Probabilidades y Cambios Marginales . . . . 18

2. Modelos de Elección Ordinal 21


2.1. Estimación y Análisis . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.1. Modelo de Variable Latente . . . . . . . . . . . . . . . . 22
2.1.2. Testeo de Hipótesis . . . . . . . . . . . . . . . . . . . . . 24
2.1.3. Supuesto de Paralelismo . . . . . . . . . . . . . . . . . . 25
2.1.4. Análisis de Probabilidades y Cambios Marginales . . . . 26

3. Modelos de Elección Nominal 35


3.1. Estimación y Análisis . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1. Modelo Logit Multinomial . . . . . . . . . . . . . . . . . 35
3.1.2. Testeo de Hipótesis . . . . . . . . . . . . . . . . . . . . . 39
3.1.3. Independencia de las Alternativas irrelevantes (IIA) . . . 44
3.1.4. Análisis de Probabilidades y Cambios Marginales . . . . 47

4. Modelos Truncados y Censurados 55


4.1. Variables Dependientes con Truncamiento No Incidental . . . . 56
4.1.1. Variable Aleatoria Truncada . . . . . . . . . . . . . . . . 56
4.1.2. Truncamiento en el Modelo de Regresión . . . . . . . . . 57
4.1.3. Estimación del Modelo de Regresión con Variable Trun-
cada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.1.4. Impacto Marginal en el Modelo de Regresión . . . . . . . 58
4.1.5. Variable Aleatoria Censurada . . . . . . . . . . . . . . . 59
4.1.6. Censura en el Modelo de Regresión . . . . . . . . . . . . 59
4.1.7. Estimación del Modelo de Regresión Censurada . . . . . 60
4.1.8. Efectos Marginales y Bondad de Ajuste . . . . . . . . . . 62
4.2. Variable de Truncamiento Incidental, Sesgo de Selección . . . . 64

3
4 ÍNDICE GENERAL

4.2.1. El modelo de Truncamiento Incidental . . . . . . . . . . 64


4.2.2. Estimación del Modelo de Truncamiento Incidental . . . 66
4.2.3. Efectos Marginales . . . . . . . . . . . . . . . . . . . . . 68

5. Modelos de Variables Instrumentales 73


5.0.1. Selección de los Instrumentos . . . . . . . . . . . . . . . 73
5.1. Estimación por MC2E . . . . . . . . . . . . . . . . . . . . . . . 74

6. Modelos Panel 77
6.1. Introducción a la Estimación de los Modelos de Datos Panel . . 77
6.1.1. Preparando la base de datos . . . . . . . . . . . . . . . . 77
6.1.2. Estimando mi Primer Panel . . . . . . . . . . . . . . . . 78
6.2. Diagnostico y Especicación de los Modelos Panel . . . . . . . . 79
6.2.1. Controlando la Heterogeneidad dentro de un Panel . . . 79

7. Panel Dinámico 89
7.1. Heterogeneidad de los paneles de datos . . . . . . . . . . . . . . 89
7.2. Estimación intragrupo de modelos dinámicos de datos de panel . 90
7.3. Alternativas de estimación de modelos dinámicos con datos de
panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.3.1. Enfoque simple de máxima verosimilitud . . . . . . . . . 93
7.3.2. Enfoque de variables instrumentales: estimador simple
de Anderson - Hsiao . . . . . . . . . . . . . . . . . . . . 93
7.3.3. Método generalizado de momentos . . . . . . . . . . . . 95
7.4. Aplicación a una base de datos de empleo . . . . . . . . . . . . 98

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
Sesión 1
Modelos de Elección Discreta
1.1. Estimación y Análisis
Las estimaciones lineales clásicas permiten la modelización de variables de-
pendientes cuantitativas para identicar relaciones estadísticas en las que se
asume una serie de supuestos sobre la forma del error de la ecuación lineal
(homocedasticidad, normalidad, etc.). Sin embargo, en muchos contextos, el
fenómeno que se quiere modelizar no es continuo sino discreto, por ejemplo
cuando se quiere modelar la elección de compra de un bien o servicio; o la
decisión de participar o no en el mercado laboral. Estos son los modelos cono-
cidos como modelos de respuesta cualitativa. Llamamos variables cualitativas
a aquellas que no aparecen en forma numérica, sino como categorías o atribu-
tos como por ejemplo, el sexo o la profesión de una persona. En general, se
dice que una variable es discreta cuando está formada por un número nito de
alternativas que miden cualidades.

1.1.1. Interpretación Estructural


Existen tres enfoques para la interpretación estructural de los modelos de
elección discreta. El primero hace referencia a la modelización de una variable
latente a través de una función índice, que trata de modelizar una variable
inobservable o latente. El segundo de los enfoques permite interpretar los mo-
delos de elección discreta bajo la teoría de la utilidad aleatoria, de tal manera
que la alternativa seleccionada en cada caso será aquella que maximice la utili-
dad esperada. El tercero pasa por plantear un modelo de probabilidad no lineal.

Bajo el primero de los enfoques se trata de modelizar una variable índice,


inobservable o latente no limitada en su rango de variación y*. Cuando la
variable latente supera un determinado nivel, la variable discreta toma el valor
1, y si no lo supera toma el valor 0. La variable latente depende de un conjunto
de variables explicativas que generan las alternativas que se dan en la realidad
y que permiten expresar el modelo dicotómico como:

5
6 1. Modelos de Elección Discreta

(
1, si Y ∗ > 0,
Y =
0, si Y ∗ ≤ 0.
Donde el supuesto sobre la distribución de error determina el tipo de mo-
delo a estimar. Si se supone una función de distribución uniforme, se utiliza
el Modelo Lineal de Probabilidad truncado; si se distribuye como una normal
con media cero y varianza uno, el modelo generado será un Probit; mientras
que si se supone que se distribuye como una curva logística, se trataría de un
modelo Logit. La hipótesis de que el umbral a superar por la variable latente
sea cero se puede modicar por cualquier otro valor sugiriéndose, en determi-
nados estudios, que el valor crítico sea el denido por el término constante.

Bajo este enfoque, el modelo probabilistico quedaría:

Y ∗ = Xβ + 

P r(Y = 1/X) = P r(Y ∗ > 0/X)


P r(Y = 1/X) = P r( > −(Xβ)/X)
P r(Y = 1/X) = F (Xβ)
Con el modelo así denido, la variable endógena del modelo dicotómico
representa la probabilidad de ocurrencia del fenómeno analizado, siendo la
probabilidad de que ocurra la opción 1 más elevada cuando mayor sea el valor

de Y .

El segundo de los enfoques para la interpretación de los modelos de res-


puesta dicotómica es el que hace referencia a la modelización a través de la
formulación de una utilidad aleatoria. Bajo este enfoque un individuo debe
adoptar una decisión que le permita elegir entre dos alternativas excluyentes,
la 1 o la 0, lo que hará maximizando la utilidad esperada que le proporciona
cada una de las alternativas posibles sobre las que tiene que decidir. Es decir,
el individuo i-ésimo elegirá una de las dos alternativas dependiendo de que la
utilidad que le proporciona dicha decisión sea superior a la que le proporciona
su complementaria.

La formulación del modelo bajo esta teoría parte del supuesto de que la
utilidad derivada de una elección, Ui0 o Ui1 , es función de las variables explica-
tivas de dicha decisión, que son las características propias de cada una de las
alternativas de elección y las características personales propias del individuo,
de manera que suponiendo linealidad en las funciones, se tiene:

Ui0 = α0 + Xi0 β + i0


Ui1 = α1 + Xi1 β + i1

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
1.1. Estimación y Análisis 7

Donde los ij recogen las desviaciones que los agentes tienen respecto a
lo que sería el comportamiento del agente medio y que se debe a factores
aleatorios. El agente i elegirá la opción 1 si la utilidad de esa decisión supera
la de la opción 0 y viceversa, de manera:

(
1, si Ui1 > Ui0 ,
Yi =
0, si Ui1 < Ui0 .
Y el modelo dicotómico quedaría denido por:

P r(Y = 1/X) = P r(Ui1 > Ui0 /X) = P r(i1 − i0 > −(Xθ)/X)
P r(Y = 1/X) = F (Xθ)

Según que la función asociada a la perturbación aleatoria ij (que será la


función de distribución, F (Xθ), que se suponga siga dicha probabilidad), sea
una función de distribución uniforme, la función de distribución de la normal
tipicada o la de la curva logística, se obtienen el Modelo Lineal de Probabi-
lidad Truncado, el Probit o el Logit, respectivamente.

El tercer enfoque pasa por estructurar un modelo de probabilidad no lineal,


como lo sugiere Theil - 1970, de tal manera que:

exp(Xβ)
P r(Y = 1/X) = Mi = 1+exp(Xβ)

P r(Y =1/X) P r(Y =1/X)


Ω(x) = P r(Y =0/X)
= 1−P r(Y =1/X)

Ln(Ω(x)) = Xβ + 
Es decir medir que tan a menudo ocurre algo (Y=1), respecto a que tan a
menudo no ocurre (Y=0).

1.1.2. Modelo de Probabilidad Lineal


La primera alternativa teórica desarrollada para estudiar modelos con va-
riables dicótomas se planteó como una extensión del modelo lineal general:

Yt = αt + Xkt βk + t

Donde(:
1, si ocurre una alternativa,
Yt =
0, en caso contrario.
Xkt =Variables explicativas
t =Variable aleatoria que se distribuye N (0, σ 2 )

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
8 1. Modelos de Elección Discreta

En general, la distribución de los modelos de elección binaria se caracteriza


por congurar una nube de puntos de tal manera que las observaciones se
dividen en dos subgrupos. Uno de ellos esta formado por las observaciones
en las que ocurrió el acontecimiento objeto de estudio (Yi =1), y el otro, por
los puntos muéstrales en los que no ocurrió (Yi =0).Para el desarrollo de los
modelos de elección discreta se utilizará la base de datos labora.dta.

use labora.dta, clear

Antes de desarrollar el modelo de probabilidad lineal, es posible obtener una


descripción rápida de la base de datos a utilizar, el comando describe mostrará
el tipo de información con la que se cuenta. Esta base de datos hipotética
contiene 400 observaciones en las que se detalla si el postulante es admitido a un
programa de Post Grado (admit), el puntaje obtenido en la prueba Graduate
Record Exam (gre), el puntaje obtenidio en el pregrado (Grade Point Average,
gpa) y nalmente se considera si el postulante proviene de una universidad de
prestigio o no (topnotch). Seguidamente se procederá a estimar la regresión
lineal en donde la variable dependiente admit esta explicada por el puntaje
obtenido en el gpa.

regress admit gpa

Problemas con esta estimación

La interpretación de los coecientes en los modelos de probabilidad es simi-


lar a la de los modelos de regresión lineal, en donde el valor de los parámetros
recoge el efecto de una variación unitaria en cada una de las variables explica-
tivas sobre la probabilidad de ocurrencia del acontecimiento objeto de estudio,
sin embargo, el MPL presenta algunas inconsistencias.

Se puede apreciar en el modelo inicial que algunos de los valores estimados


se encuentran fuera de rango, lo cual carece de lógica considerando que deben
interpretarse como probabilidades.

tw sc y admit gpa

Solución: ¾Modelo de probabilidad truncada?

A través del gráco de la densidad de Kernel para el modelo que incluye


todas las variables, se observa que los residuos no se distribuyen de manera
normal, por lo tanto no es eciente, es decir, pueden presentarse problemas de
minimización de la varianza a medida que la muestra aumenta.

kdensity r, normal

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
1.1. Estimación y Análisis 9

¾Invalida esto la estimación por MCO? ¾Los estimadores siguen siendo ME-
LI (BLUE)?

Problemas de Heterocedasticidad. Aún en el caso de que se cumpliesen las


hipótesis de media y correlación nula en la perturbación aleatoria E(i ) = 0
E(i , j ) = 0 para todo i 6= j , no se cumple la hipótesis de varianza constante,
es decir, la perturbación aleatoria no es homocedástica.

V ar(t ) = E[(i − E(i ))(i − E(i ))0 ] = E(2i )

V ar(t ) = (1 − Xβ)2 fi (1) + (0 − Xβ)2 (1 − fi (1))

V ar(t ) = (1 − fi (1))2 fi (1) + (fi (1))2 (1 − fi (1))

V ar(t ) = (1 − fi (1))fi (1)


En STATA es posible realizar un análisis tanto gráco como a través de
números índice para vericar la presencia de heterocedasticidad.

rvfplot, yline (0)


hettest
Para el presente ejemplo la hipótesis nula de varianza constante (homo-
cedasticidad) será rechazada debido a que el p value de la distribución del
estadístico chicuadrado es muy pequeño, aceptándose la hipótesis alterna de
varianza no homogénea.

Solución: ¾MCG o MCP?

1.1.3. Modelo de Probabilidad No Lineal


Los problemas en la interpretación y estimación de los parámetros del mo-
delo de probabilidad lineal han llevado a la búsqueda de modelos alternativos
que permitan estimaciones más ables de las variables dicótomas. Es el caso
de los modelos de probabilidad no lineal, donde la función de especicación
utilizada garantiza un resultado en la estimación comprendido en el rango 0-1.
Estos son los modelos logit y probit. Analizaremos a continuación los datos a
través de una regresión logística, la cual se formula a continuación.

eXβ
P r(Y = 1) = = ∆(Xβ)
1 + eXβ

logit admit gpa


predict l
tw sc l admit gpa

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
10 1. Modelos de Elección Discreta

Pos-estimación

a. Test de efectos individuales

Si los supuestos bases del modelo se sostienen, los estimadores son dis-
tribuidos de manera asintótica y normal:

a
β̂k −−→ N (βk , σβ̂2 )
k

Donde la hipótesis nula de signicancia del parámetro puede ser testeada


a partir de:
β̂k − β ∗
z=
σβ̂2
k

Si la hipótesis nula es verdadera entonces z se distribuirá aproximada-


mente como una normal con media cero y varianza unitaria para muestras
grandes.

b. Test de Wald

Podemos analizar el modelo una vez estimado, mediante un testeo de


hipótesis que validen una correcta especicación. Para esto el test de
Wald calculado para hipótesis lineales sobre los parámetros de los mode-
los estimados nos será de mucha utilidad. También puede usarse el test
bajo una estructura no lineal, la cual no abordaremos en esta sección.

logit admit gre gpa topnotch

test gpa=0
test gre=gpa, accumulate

c. Test LR

El estadístico de verosimilitud también nos será de gran utilidad para


evaluar mediante hipótesis la signicacia de modelos. Este estadístico
compara modelos anidados.

logit admit gre gpa topnotch


lrtest, saving(0)
logit admit gre gpa
lrtest

Donde nuestra hipótesis nula es H0 = βtopnotch = 0

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
1.1. Estimación y Análisis 11

logit admit gre gpa topnotch


lrtest, saving(M1)
logit admit gre gpa
lrtest, using(M1)

logit admit gre gpa topnotch


lrtest, saving(0)
logit admit gre gpa
lrtest, saving(1)
lrtest, using(1) model(0)

Muchas medidas escalares han sido desarrolladas para resumir las bonda-
des de ajuste de modelos de regresión continuo o de variables categóricas.
Sin embargo no hay evidencia convincente de selección de un modelo que
maximice los valores de una medida comparada con la medida de otro
modelo. Mientras las medidas de ajuste proveen información, esta es solo
parcial, que debería ser sostenida con una teoría económica razonable, o
investigaciones anteriores como referencia.

El comando Fifstat nos permite obtener una tabla con estadísticos que
ayudaran a evaluar la bondad de ajuste del modelo. De los cuales anali-
zaremos algunos.

d. Fitstat

A continuación proveeremos de una breve descripción de cada una de


las medidas que computa el tstat. Mayores detalles de las medidas las
podemos encontrar en Long(1997).

Medida basada en Log-Likehood


Stata comienza su análisis maximizando iteracciones de verosimili-
tud y calculando sus logaritmos, para determinado modelo, con to-
dos los parámetros excepto el intercepto en un nivel de cero L(Mintercepto ),
mientras que cuando los parámetros son diferentes de cero, el loga-
ritmo de verosimilitud calculado será L(Mf ull )

Test Chi-Cuadrado de todos los coecientes


Un test LR donde la hipótesis nula de que todos los coecientes
excepto el intercepto son ceros puede ser calculado comparando el
logaritmo de verosimilitud LR=2[Ln(Mf ull )-Ln(Mintercepto )], a veces
a este estadistico se le designa con el valor G2. El LR es reportado
por Stata como chi2(gl), donde los gl son el número de parámetros
restringidos.

Desviación

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
12 1. Modelos de Elección Discreta

La desviación compara un modelo dado con un modelo que tienen


un parámetro para cada observación, así el modelo reproduce per-
fectamente la data observada. La desviación es denida como D=
-2Ln(Mf ull ) con N-K gl. Notar que esta medida no es una chi2.

McFadden's R2
R2 en MRL
Para una regresión lineal el tstat reporta el coeciente de deter-
minación estándar:
PN 2
− ŷi )2

2 1 (yi V ar(ŷ) L(Mintercepto ) N
R = 1− PN = = 1−
1 (yi − ȳi )2 V ar(ŷ) + V ar(ê) L(Mf ull )

Y el R2 ajustado seria:
  
K N −1
R̃ = R2 −
2
N −1 N −K −1
R2 en MRNL
En modelos no lineales la medida calculada por Stata son los pseu-
2 2
dos R . El R de McFadden, también conocido como el índice del
ratio de verosimilitud, compara dos modelos:
 
2 LnL(Mf ull )
RM cF =1−
LnL(Mintercepto )
Y como el R2 de McFadden siempre se incrementa con el numero
nuevo de variables explicativas, se ajusta su versión con:

LnL(Mf ull ) − K ∗
 
2
RM cF =1−
LnL(Mintercepto )
Donde K∗ es el numero de variables independientes, no el numero
de parámetros.

R2 de Máxima Verosimilitud
Es otra medida análoga al R2 en el MRL, sugerido por Maddala:

 N2
−G2
  
2 L(Mintercepto )
RM L =1− = 1 − exp
L(Mf ull ) N
Cragg & Uhler's R2
2
La corrección a la estimación anterior RM L propuesta por Cragg y
Uhler fue:
  N2
L(Mintercepto )
2 1− L(Mf ull )
2 RM L
RC&U = 2
= 2
max(RM L) 1 − [L(Mintercepto )] N

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
1.1. Estimación y Análisis 13

Efron's R2 Para salidas binarias, el R2 Efron dene el y estimado


como:
ŷ = π̂ = P r(y = 1/x)
PN
2 (yi −π̂i )2
REf ron = 1 − P1N 2
1 (yi −ȳi )

V(y∗ ), V(e) - McKelvey & Zavoina's R2


Algunos modelos pueden ser denidos en términos de una variable

latente y . Esto compete a modelos de elección binaria u ordinal,
como a algunos modelos censurados, así:

Dado el modelo Y ∗ = Xβ +  y usando V̂ ar(Ŷ ∗ ) = β̂ 0 V̂ ar(x)β̂ ,


McKelvey y Zavoina proponen:

2 V̂ ar(ŷ ∗ ) V̂ ar(y ∗ )
RM &Z = =
V̂ ar(ŷ ∗ ) V ar(y ∗ ) + V ar()

El R2 Count y el R2 Count Ajustado


2
De los valores observados y predichos, se calcula el RCount . El co-
mando lstat nos provee de valores de aciertos y desaciertos de los
computados por el modelo.
2
Denimos así el RCount como:

2 1 X
RCount = njj
N j

donde njj es el numero de predicciones correctas en la tabla. Pero el


2
RCount puede darnos una interpretación fallida del poder de predic-
ción del modelo. En un modelo binario sin previo conocimiento de
las variables independientes es posible corregir las predicciones en
al menos el 50 % de los casos eligiendo una categoría con el mayor
porcentaje de casos observados. El ajuste se hace de la siguiente
manera: P
2 jnjj − maxr (n++ )
RCount =
N − maxr (n++ )
Donde n++ es el mayor valor marginal de la ultima la.

Medidas de Información
AIC
Este criterio compara modelos de diferentes tamaños de muestra o
también modelos no anidados. Akaike (1973) denió:

−2LnL̂(Mk ) + 2p
AIC =
N

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
14 1. Modelos de Elección Discreta

Donde p es el número de parámetros en el modelo (K+1 en los


modelos de regresión binaria donde K es el número de regresores)

BIC
El criterio de información Bayesiana fue propuesto por Raftery
(1996) como una medida que compara modelos anidados como mo-
delos no anidados. Denimos BIC de la siguiente manera:

BICK = D(MK ) − glk Ln(N )


Donde glk son los grados de libertad asociados con la desviación.
La segunda versión de BIC es basada al ratio de verosimilitud del
0
Chi2 con glk deniendo dichos grados de libertad, como el numero
de regresores (no parámetros) en le modelo.

0
BICK = −G2 (MK ) − glk0 Ln(N )

quietly logit admit gre gpa topnotch, nolog


quietly fitstat, saving(M1)
quietly logit admit gpa , nolog
fitstat, using(M1)
Otra posible solución a las inconsistencias que presenta el modelo de pro-
babilidad lineal para explicar el comportamiento de una variable dependiente
binaria es el uso del modelo probit de la forma:

y = f (β0 + β1 x1 + ... + βk xk ) + 
Donde f es la función de distribución normal estándar
Z Xβ
1 s2
f (Xβ) = √ e 2 ds + i
−∞ 2π

probit admit gre gpa topnotch

quietly probit admit gre gpa topnotch, nolog


estimates store A, title(Modelo Probit)
quietly logit admit gre gpa topnotch, nolog
estimates store B, title(Modelo logit)
est table A B, stat(aic bic)
est table A B, stat(aic bic) star
est table A B, stat(aic bic) star b(%9.3f)
est table A B, stat(aic bic) b(%9.3f) se(%9.2f) t(%9.2f) p(%7.2f)
est table A B, stat(aic bic) b(%9.3f) se(%9.2f) t(%9.2f) p(%7.2f)
est table A B, stat(aic bic rank N ll chi2) b(%9.3f) se(%9.2f) ///
t(%9.2f) p(%7.2f) label

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
1.1. Estimación y Análisis 15

ODD Ratios

Respecto a la interpretación de los parámetros estimados tanto en el mo-


delo logit como en el modelo probit, la cuantía del parámetro no coincide
con la magnitud de las variaciones en la probabilidad (como en el MLP), una
interpretación más sencilla de los parámetros estimado es la que se obtiene a
través de la linealización del modelo. En el caso del modelo logit.

eβ0 +βk xkt


E(yi ) = P rob(yi = 1) = Mi =
1 + eβ0 +βk xkt
Donde
Mi + Mi eβ0 +βk xkt = eβ0 +βk xkt

Mi
1−Mi
= eβ0 +βk xkt
Al cociente de las probabilidades de que se elija la opción 1, frente a la posi-
bilidad de que se elija la opción 0, se le denomina Odds:

P r(y = 1)
Odds =
1 − P r(y = 1)

Mientras que el concepto de Odds Ratio se dene como el cociente de dos odds
asociados.

Veamos un ejemplo
Digamos que la probabilidad de éxito de un evento es 0.8, entonces p=0.8
Entonces la probabilidad de falla del evento será: q=0.2
El odds de éxito es denido como:
Odds(éxito)=p/q=0.8/0.2=4, es decir, el odds de éxito es de 4 a 1.
El odds de falla debe ser entonces:
Odds(falla)=q/p=0.2/0.8=0.25
Tanto el odds de éxito como el de falla son recíprocos.

Veamos otro ejemplo


Adaptado por Pedhazur(1997). Supongamos que siete de 10 hombres son ad-
mitidos a una escuela de ingenieros, mientras que tres de 10 mujeres también
son admitidas. La probabilidad de ser admitido para los hombres es:
p=7/10=0.7; q=1-0.7=0.3
La probabilidad de ser admitido para las mujeres es:
p=3/10=0.3; q=1-0.3=0.7
Podemos usar las probabilidades y computar el odds de admisión para ambos
sexos:
Odds(hombres)=0.7/0.3=2.333 Odds(mujeres)=0.3/0.7=0.42857
Finalmente calculamos el Odds ratio para admisión:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
16 1. Modelos de Elección Discreta

OR=2.333/0.42857=5.44
Así, para los hombres el odds de ser admitidos es 5.44 veces mayor que el odds
para la admisión de mujeres. Es decir es mas probable o menos riesgoso el
hecho de ser admitidos de un hombre que de una mujer.

El odds en la regresión logística:

P r(y = 1) Mi
Odd = Ω = = = eβ0 +βk xkt
P r(y = 0) (1 − Mi )
Entonces
LnΩ = β0 + βk xkt
Lo cual nos indica que por cada unidad de cambio en Xk , esperamos que el
logit cambie en βk manteniendo las demás variables constantes.

El problema estriba en que un cambio en βk en el ln del odds tenga un signi-


cado muy claro para muchas personas. Por ello tomaremos un modelo multi-
plicativo a partir del cual pasaremos al análisis.

Ω(x, xk ) = eβ0 eβ1 x1 eβ2 x2 ...eβk xk

Si nosotros hacemos que Xk cambie en una unidad, entonces:

Ω(x, xk+1 ) = eβ0 eβ1 x1 eβ2 x2 ...eβk xk+1

Lo cual nos conduce al odd ratio:

Ω(x, xk+1 ) eβ0 eβ1 x1 eβ2 x2 ...eβk xk+1


= β0 β1 x1 β2 x2 β x = eβk
Ω(x, xk ) e e e ...e k k
Por cada unidad de cambio en Xk esperamos que el odds cambie en el factor
eβk , siendo lo demás constante.

Medidas superiores a uno de eβk , β


quiere decir que los odds son e k veces ma-
β
yores, mientras que medidas inferiores a uno de e k , quieren decir que los odds
βk
son e veces menores.

Veamos un ejemplo

Aquí codicamos a admit como 1 para si, y 0 para no, gender es codicado
como 1 para hombre y 0 para mujeres. El comando Logistic produce resultados
en términos de odds ratios, mientras Logit produce resultados en términos de
coecientes.

clear
input admit gender freq

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
1.1. Estimación y Análisis 17

1 1 7
1 0 3
0 1 3
0 0 7
end
logistic admit gender [weight=freq]
logit admit gender [weight=freq]
Noten el Z-value en ambas regresiones.

Existe una relación entre los coecientes que produce Logit y los odds ra-
tios que produce Logistic. Primero un Logit es denido como un logaritmo
base e (log) de un odds:

Logit(p) = Log(odds) = Log(p/q)

Una regresión Logística es una relación ordinal, usa el logit como la variable
dependiente:
Logit(p) = β0 + βk Xk
log(p/q) = β0 + βk Xk
Esto signica que el coeciente en una regresión logística esta en términos del
Log(odds), es decir el valor de 1.694596, lo que implica que una unidad de
cambio en el genero, altera en 1.694596 unidades al log(odds). Podemos decir
entonces que:
p/q = eβ0 +βk Xk

OR = eβ = e1,694596 = 5,44
Veamos la base de datos labora y corramos un logit:

logit admit gre topnotch gpa

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
18 1. Modelos de Elección Discreta

listcoef, help

¾Que podemos decir de los resultados en ambas tablas?

1.1.4. Análisis de Probabilidades y Cambios Marginales


Los efectos marginales suelen proporcionar una buena aproximación del
cambio que la presencia o no de la variable binaria o continua, originaria sobre
la probabilidad predicha de algún modelo.

Para analizar esto, veremos los comandos prvalue, prtab, prgen, prchan-
ge, mfx.

PRVALUE
Calcula valores predichos de la endógena, para especicaciones de las variables
independientes, pudiendo calcular diferencias en predicciones para dos set de
valores.

PRTAB
Crea una tabla de endógena predicha, para un cruce de clasicaciones por en-
cima de cuatro categorías de variables independientes, mientras las restantes
son mantenidas en valores especícos.

PRCHANGE
Calcula el cambio discreto o continuo de la variable endógena predichas.

PRGEN
Calcula valores predichos de la endógena, cuando una variable independiente
cambia sobre un rango especicado, manteniendo las demás variables constan-
tes.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
1.1. Estimación y Análisis 19

RETO 1

a. Con la base de datos highschool genere una variable latente llamada


hiwrite que marque el valor de la unidad si la nota de escritura supera
al menos 52, luego estime un logit con las variables explicativas read,
female y prog. Realice un análisis econométrico y responda:

¾Cuál es el efecto de un cambio en los parámetros de las variables


explicativas sobre hiwrite?.

¾Como interpretarias los ODDs de la regresión logistica?

¾Realice un testeo de hipótesis LR sobre un modelo que incluya


vs uno que no incluya los efectos de la variable prog, programa
academico?.

¾Cómo cambian las probabilidades si prog_2=0 y prog_2=1?.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
20 1. Modelos de Elección Discreta

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
Sesión 2
Modelos de Elección Ordinal
Cuando la variable dependiente es discreta, pero sus valores indican un
orden, no es correcto realizar la estimación de la misma a través de los mode-
los presentados en el apartado anterior, ya que la inclusión de la información
que aporta el orden de las alternativas en la especicación del modelo permite
obtener unos mejores resultados.

Las variables ordinales son a menudo codicadas como enteros consecutivas


de 1 al número de categorías, no sería correcto el uso de un modelo de regre-
sión clásico, ya que codicadas las posibles alternativas como 1, 2, ...(j+1), ...,
J, se estaría considerando la diferencia entre (j+1) y (j+2) como la existente
entre 1 y 2, lo cual no tiene porque ser así ya que los números utilizados en
la codicación solo representan un orden dentro de una clasicación. Así, con
modelos de salida ordinal es mejor usar modelos que eviten el supuesto de que
las distancias entre las categorías sean iguales, ahora nos enfocaremos en un
logit y probit que consideren esta ordenación, modelos introducidos por Mc-
Kelvey y Zavoina (1975) en términos de una variable latente.

Cuando las salidas son ordinales o nominales la dicultad de explicar más


de dos respuestas se incrementa. Una variable puede ser ordenada de cierta
manera cuando consideramos un tema, y ordenada de otra manera cuando
consideramos un tema diferente. Millar y Volker (1985) mostraron como dife-
rentes supuestos sobre el ordenamiento de ocupaciones, proyectan diferentes
resultados. Una variable podría reejar ordenamiento sobre más de una dimen-
sión tal como escalas de actitudes, que reejen ambas la intensidad y dirección
de opinión. Mas aún es muy común que encuestas incluyan la categoría no
sabe, no opina, lo cual probablemente no corresponda a la categoría interme-
dia en una escala, aun cuando en el análisis uno este tentado a colocarla como
tal, sobretodo cuando la propuesta de ordenamiento es ambigua, el modelo de
salidas nominales podría ser considerado.

21
22 2. Modelos de Elección Ordinal

2.1. Estimación y Análisis


Los MRO pueden ser desarrollados de diferentes maneras, cada una de ellas
nos conduce al mismo resultado. El modelo de regresión binaria (MRB) pueden
ser vistos como un caso especial de los MRO, en el cual la variable endógena
solo tiene dos categorías.

2.1.1. Modelo de Variable Latente


El modelo de regresión ordinal es comúnmente presentado como un modelo
de variable latente. Denida y ∗ como una variable latente cuyo rango va desde
-∞ a ∞

yi∗ = xi β + 
Donde la variable endógena toma los siguientes valores:

yi = m, si rm−1 ≤ yi∗ < rm ∀m = 1...J


O también de manera extendida:



 1, si −∞ = r0 ≤ yi∗ < r1 ,
r1 ≤ yi∗ < r2 ,

2, si



yi = 3, si r2 ≤ yi∗ < r3 ,
 .
.

.




J, rJ−1 ≤ yi∗ < rJ = ∞.

si

Donde los puntos de corte rj son estimados. Como ejemplo, podríamos te-
ner la siguiente pregunta en una encuesta: ¾Una mujer trabajadora establece
un fuerte y seguro vinculo con su hijo, así como una mujer que no trabaja?

Las posibles respuestas podrían ser: 1=Desacuerdo Total, 2=Desacuerdo,


3=Acuerdo, 4=Acuerdo Total

La variable latente continua puede imaginarse como el grado de aceptación


a favor de que las mujeres trabajadoras son buenas madres.

−∞ = r0 ≤ yi∗ < r1 ,


1 = DT, si

r1 ≤ yi∗ < r2 ,

2 = D, si
yi =


3 = A, si r2 ≤ yi∗ < r3 ,
r3 ≤ yi∗ < r4 = ∞.

4 = AT, si

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
2.1. Estimación y Análisis 23

La probabilidad de una variable observada dado el valor de x, corresponde



a la región en la que la distribución de y cae entre rm−1 y rm

P r(y = m/x) = P r(rm−1 ≤ y ∗ < rm /x)


Sustituyendo xβ +  por y∗ y usando algo de algebra obtenemos la formula
estándar que predice la probabilidad en el MRO

P r(y = m/x) = F (rm − xβ) − F (rm−1 − xβ)


Donde F es la función de probabilidad acumulada para . En el probit or-
dinal, F es una normal con Var()=1, en el logit ordinal, F es una logistica con
π2
Var()= . Notar que cuando y=1 el termino F(-∞ − xβ )=0 y cuando y=J el
3
primer termino de F(∞ − xβ )=1.

Comparando estas ecuaciones con las de un MRB se observa que el MRO


es idéntico a la regresión binaria, veamos:

use mroz
logit inlf kidslt6 kidsge6 age wage hushrs faminc, nolog
outreg using salida,replace
ologit inlf kidslt6 kidsge6 age hushrs faminc, nolog
outreg using salida, append
Los coecientes y sus desviaciones estándar son los mismos pero el inter-
cepto para el logit, es reportado, mientras que para el ologit ese intercepto es
reemplazado por el punto de corte del mismo nivel pero de signo opuesto.

En Stata, la identicación del MRO asume que el intercepto es cero y así


los valores de los puntos de corte son estimados.

El modelo de regresion ordinal puede tambien ser desarrollado como un


modelo de probabilidad no lineal sin recurrir a la idea de variable latente. Para
mostrar esto, primero denimos el odds de que la variable explicada es menor
o igual a m vs que sea mayor que m dado las variables exogenas x:

Por ejemplo, podriamos calcular el odds de desagrado o fuerte desagrado,


versus el agrado o fuerte agrado. Asi el logaritmo del odds es igual a:

P r(y ≤ m/x)
Ω≤m|>m =
P r(y| > m/x)
Para una simple variable independiente y tres categorías en la explicada,
donde el intercepto fue jado en 0, tendriamos:

Ln( PP r(y>1/x)
r(y≤1/x)
) = r1 − β1 x1
P r(y≤2/x)
Ln( P r(y>2/x) ) = r2 − β1 x1

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
24 2. Modelos de Elección Ordinal

Parece confuso que el modelo substraiga xb en lugar de añadirlo, esto es


consecuencia del calculo del logit de y≤m vs y > m.

Aquí un ejemplo basado en la encuesta realizada entre 1977 y 1989 de


General Social Survey, donde el tema y pregunta tratado fue: ¾Una madre
trabajadora puede establecer una calida y segura relacion sentimental con su
hijo como una madre que no trabaja?

use warm, clear


describe
table warm
summarize
tab warm

Usando los datos, nosotros estimamos el siguiente modelo:

P r(warm = m/xi ) = F (rm − xβ) − F (rm−1 − xβ)


Donde

xβ = βyr89 yr89 + βmale male + βwhite white + βage age + βprst prst

Aquí las salidas sean con ologit, oprobit, pueden ser comparadas con el
outreg:

ologit warm yr89 male white age ed prst,nolog


outreg using ordenado,replace
oprobit warm yr89 male white age ed prst,nolog
outreg using ordenado,append

Como en el análisis de los modelos de regresión binaria, la diferencia estriba


en que los coecientes tienen una razón de 1.7, es decir, solo hay diferencia en
escala, sin embargo los z-test, son los mismos y no se ven afectados por la escala.

2.1.2. Testeo de Hipótesis


Para el testeo de hipótesis podremos usar el test de wald, máxima verosi-
militud, o usar el tstat para elegir el mejor modelo.

ologit warm yr89 male white age ed prst,nolog


test male

ologit warm yr89 male white age ed prst,nolog

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
2.1. Estimación y Análisis 25

test age white male

ologit warm yr89 male white age ed prst,nolog


lrtest, saving(0)
ologit warm yr89 white age ed prst,nolog
lrtest

ologit warm yr89 male white age ed prst,nolog


lrtest, saving(0)
ologit warm yr89 ed prst,nolog
lrtest

version 8
ologit warm yr89 male white age ed prst,nolog
fitstat

2.1.3. Supuesto de Paralelismo


Antes de discutir la interpretación, es importante entender un supuesto que
esta implícito en el MRO, conocido como paralelismo de la regresión, y para
el modelo ologit, el supuesto de odds proporcional.

P r(y = 1/x) = F (rm − xβ)


P r(y = m/x) = F (rm − xβ) − F (rm−1 − xβ), cuando : m = 2...J − 1
P r(y = J/x) = 1 − F (rm−1 − xβ)

Las ecuaciones presentadas pueden ser usadas para calcular la probabilidad


acumulada, lo cual tienen la siguiente forma:

P r(y ≤ m/x) = F (rm − xβ), cuando : m = 1...J − 1


En esta ecuación se muestra que el MRO es equivalente para J-1 regresiones
binarias con el supuesto de que las pendientes o coecientes son idénticos a lo
largo de cada regresión.

Por ejemplo, si tenemos cuatro categorías en nuestra endógena y una va-


riable independiente las ecuaciones serian:

P r(y ≤ 1/x) = F (r1 − βx1 )


P r(y ≤ 2/x) = F (r2 − βx1 )
P r(y < 3/x) = F (r3 − βx1 )
El intercepto no se encuentra en las ecuaciones dado que se ha asumido
que β0 = 0, cada curva de probabilidad diferirá únicamente en su inclinación

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
26 2. Modelos de Elección Ordinal

hacia la derecha o izquierda, es decir, son paralelas como consecuencia de que


el parámetro β es el mismo en cada ecuación. De esta manera el supuesto de
paralelismo implica que, β1 = β2 = ... = βJ−1 . El grado de paralelismo se
asume con parámetros muy cercanos entre sí.

El comando omodel, de Wolfe y Gould (1998) calcula una aproximación


del test LR, en el que se compara el logaritmo de la verosimilitud del ologit
(o oprobit) para la obtención de un set de J-1 modelos binarios estimados con
ologit (o oprobit), haciendo un ajuste para la correlación entre las salidas bi-
narias denidas por y ≤ m.

La hipótesis nula será: Existencia del paralelismo en la regresión.

findit omodel
omodel logit warm yr89 male white age ed prst
Uno no puede determinar si el coeciente de algunas variables son idénticos
a lo largo de las ecuaciones binarias, mientras que los coecientes de otras
variables dieren. Al nal un test de wald elaborado por Brant (1990) es útil
pues el test asume el paralelismo de la regresión para cada variable individual.

ologit warm yr89 male white age ed prst,nolog


brant,detail
La chi-cuadrado de 49.18 de Brant es muy cercano al valor de 48.91 del
test LR, sin embargo, Brant muestra que las mayores violaciones son por yr89
y male, las cuales producen el problema.

2.1.4. Análisis de Probabilidades y Cambios Marginales


El MRO es no lineal, entonces, no hay una sola aproximación que pueda
describir totalmente la relación entre una variable y las probabilidades, por lo
tanto, se debería considerar cada uno de estos métodos antes de decidir que
aproximación es más efectiva en nuestra aplicación.

∗ ∗
En el MRO, y = xβ + , el cambio marginal en y con respecto a xk es:

Siendo y una variable latente (cuya medida es desconocida), el cambio mar-
ginal no puede ser interpretado sin la estandarización, mediante la desviación

estandar de y .

σ̂y2∗ = β̂ 0 V̂ ar(x)β̂ + V ar()


Donde V̂ ar(x)
es la matriz de covarianza para las explicativas, V ar()
2
es 1 para los probit ordenados, o π /3 para los logit ordenados. Entonces el

estandarización y del coeciente de xk es:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
2.1. Estimación y Análisis 27

S∗ βk
βk y =
σy∗

Por cada unidad en que se incremente xk , se espera que y se incremente
Sy∗
en βk desviaciones estándar, manteniendo las demás variables constantes.

El coeciente con una total estandarización seria:

σ k βk S ∗
βkS = = σk βk y
σy∗

Por cada desviación estándar en que se incremente xk , se espera que y
S
se incremente en βk desviaciones estándar, manteniendo las demás variables
constantes.

ologit warm yr89 male white age ed prst,nolog


listcoef,std help

Figura 2.1: Efecto Marginal en ologit

Podemos observar que en 1989 el apoyo hacia las madres que trabajan fue
de 0.27 desviaciones estándar mayores que en 1977, manteniendo las demás
variables constantes.

Por cada desviación estándar en que se incremente la educación, se incre-


menta el apoyo para las madres que trabajan en 0.11 desviaciones estándar,
manteniendo las demás variables constantes.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
28 2. Modelos de Elección Ordinal

Predicción de Probabilidades

Predecimos las probabilidades como:

P̂ r(y = m/x) = F (r̂m − xβ̂) − F (r̂m−1 − xβ̂)

Con probabilidades acumuladas:

P̂ r(y ≤ m/x) = F (rm − xβ̂)


Luego de estimar el modelo es útil calcular las probabilidades, indicando una
variable nueva por cada categoría estimada

predict sdlogit dlogit alogit salogit


dotplot sdlogit dlogit alogit salogit, ylabel(0(.25).75)

Las probabilidades predichas para las categorías extremas tienden a ser


menos que 0.25, la mayor cantidad de las predicciones para las categorías in-
termedias caen entre 0.25 y 0.5, solo unas cuantas tienden a ser mayores que
0.5

Predicción de Probabilidades con prvalue

La predicción de probabilidades para individuos con un conjunto de ca-


racterísticas pueden ser calculadas mediante prvalue, por ejemplo, nosotros
podríamos desear, examinar las probabilidades predichas para individuos con
las siguientes características:

Hombres de la clase trabajadora en 1977 quienes están cerca de retirarse.

Mujeres jóvenes con elevada educación y prestigiosos trabajos.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
2.1. Estimación y Análisis 29

Individuo promedio en 1977

Individuo promedio en 1989

ologit warm yr89 male white age ed prst,nolog


prvalue, x( yr89=0 male=1 prst=20 age=64 ed=16) rest(mean)
prvalue, x( yr89=1 male=0 prst=80 age=30 ed=24) rest(mean)
prvalue, x( yr89=0) rest(mean)
prvalue, x( yr89=1) rest(mean)

Probabilidad Predicha
Tipo de individuo SD D A SA
Hombres de la clase trabajadora 0.23 0.42 0.27 0.07
en1997 quienes están cerca del retiro
Mujeres jóvenes con alta educación en 0.02 0.08 0.32 0.59
1989 con trabajos prestigiosos
Individuo promedio en 1977 0.13 0.36 0.37 0.14
Individuo promedio en 1989 0.08 0.28 0.43 0.21

Predicción de Probabilidades con prtab

En algunos casos nos puede ser de utilidad el calcular las probabilidades


predichas para todas las combinaciones de un conjunto de variables indepen-
dientes categóricas, por ejemplo, si estamos interesados en ver la importancia
del género y de los años cuando las preguntas fueron realizadas:

prtab yr89 male

Las salidas las podemos reorganizar en la siguiente tabla, donde se observa


claramente como los hombres probablemente tienden a estar mas en desacuer-
do, comparados con las mujeres, al hecho de que las madres trabajadoras tien-
dan a tener una calidad relación con sus hijos como una madre que no trabaja.
También se observa que entre 1977 y 1989 hubo un cambio en la opinión, tanto
para hombres como para mujeres, hacia una actitud mas positiva respecto a
la pregunta:

1977 SD D A SA
Hombres 0.19 0.4 0.32 0.1
Mujeres 0.1 0.31 0.41 0.18
Diferencia 0.09 0.09 -0.09 -0.08

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
30 2. Modelos de Elección Ordinal

1989 SD D A SA
Hombres 0.12 0.34 0.39 0.15
Mujeres 0.06 0.23 0.44 0.27
Diferencia 0.06 0.11 -0.05 -0.12

Cambio de 1977 a 1989


SD D A SA
Hombres -0.07 -0.06 0.07 0.05
Mujeres -0.04 -0.08 0.03 0.09

Predicción de Probabilidades con prgen

Graquemos las probabilidades lo cual nos será de mucha utilidad en los


MRO, por ejemplo si consideramos una mujer en 1989 y mostramos como las
predicciones de sus probabilidades son afectadas por la edad:

prgen age, from(20) to (80) gen(w89) x(male=0 yr89=1) ncases(13)


desc w89*
graph tw sc w89p1 w89p2 w89p3 w89p4 w89x, connect(l l l l)

En este ejemplo w98x tendrá los valores de age, para el rango de 20-80,
la p# variable contiene la predicción de la probabilidad para la opción # de
la endógena. Cuando el modelo es ordinal, prgen también calcula las proba-
bilidades acumuladas, las que son indicadas por w89s#, la cual es la suma de
probabilidades para las características 1 y 2.

En el graco, la edad de 44.93 marca el promedio en el Panel A. Observamos


que cuando la edad se incrementa, la probabilidad de SA,decrece rápidamente
mientras que la probabilidad de D y SD se incrementan, la graca del Panel
B muestra la probabilidad acumulada.

graph tw sc w89p1 w89p2 w89p3 w89p4 w89x, connect(l l l l) ///


xline(44.93) title(Panel A: Probabilidades Estimadas)
graph save temp1,replace
graph tw sc w89s1 w89s2 w89s3 w89x, connect(l l l l) ///
title(Panel B: Probabilidades Acumuladas)
graph save temp2,replace
graph combine temp1.gph temp2.gph ,col(1)

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
2.1. Estimación y Análisis 31

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
32 2. Modelos de Elección Ordinal

Cambios en las Probabilidades Predichas con prchange

Cuando existen múltiples variables en el modelo no es practico dibujarlas,


para ello es útil usar prchange como resumen de los efectos de cada variable
sobre la endógena.

El cambio marginal en la probabilidad es calculado como:

∂P r(y = m/x) F (rm − xβ) ∂F (rm−1 − xβ)


= −
∂xk ∂xk ∂xk
La cual es la pendiente de la curva que relaciona xk a P r(y = m/x),
manteniendo las otras variables constantes. En nuestro ejemplo, nosotros con-
∂P r(y=m/x)
sideraremos el efecto marginal de la edad , para mujeres en 1989,
∂age
manteniendo en su media a las demás variables. Esto corresponde a la pen-
diente de las curvas en el Panel A del graco anterior evaluado sobre la línea
vertical. Con prchange, el calculo seria el siguiente

Figura 2.2: Cambio Marginal en ologit con prchange

Lo primero que debemos notar es la la denotada por Pr(y/x), la cual es la


probabilidad predicha para los valores jados en x() y en rest(). En la la de
efectos marginales se listan las pendientes de las curvas de probabilidades en el
punto de intersección con la línea vertical de la gura anterior. Por ejemplo, la
pendiente de SD es de 0.00124, mientras que la pendiente de A es negativa
y muy pequeña, pero no corresponde exactamente a la cantidad de cambio en
probabilidad para el cambio en una unidad en la variable independiente. Sin
embargo cuando la curva de probabilidad es aproximadamente lineal, el efecto
marginal puede ser usado para resumir el efecto de una unidad de cambio en
la variable exógena sobre la probabilidad de ocurrencia de un evento.

El cambio marginal también puede ser analizado con mfx, este comando
no calcula los efectos del conjunto de variables independientes y solo estima el
efecto marginal para una categoría por vez, la cual es especicada en la opción

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
2.1. Estimación y Análisis 33

predict(outcome(#)). Veamos ésto con una estimación del ologit y consideran-


do las mismas variables.

mfx compute, at(male=0 yr89=1) predict(outcome(1))

El impacto marginal de la edad es de 0.001241 como lo muestra la gura2.3


lo cual es comparable con el resultado obtenido con prchange. La ventaja de
usar mfx es que podemos obtener las desviaciones estándar inherentes a cada
cambio marginal.

Figura 2.3: Cambio Marginal en ologit con mfx

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
34 2. Modelos de Elección Ordinal

RETO 2

a. Se realizo una encuesta a 400 padres de familia, preguntandoles el gra-


do de aceptación sobre la graduación de sus hijos, sus respuestas fueron
categorizadas en tres niveles (desacuerdo, moderado acuerdo, muy de
acuerdo), además se tomo información sobre el record academico de sus
hijos, el tipo de universidad al que asistio su hijo, y el nivel de educación
de los padres (si alguno logro algún grado universitario).

Con la información contenida en el archivo ologit, se le pide:

Vericar las condiciones sobre los cuales el ologit será estimado.

Estimar el modelo e interpretar las salidas de la regresión y ver a


través de una prueba de Wald y LR si el parámetro asociado al tipo
de escuela es signicativo.

Interpretar los odds ratios de las variables.

Realice los test de paralelismo de la regresión. Interprete el resulta-


do.

¾Cómo inuye sobre la probabilidad de estar de acuerdo o no con


la graduación, incremento en la educación de algun miembro de la
familia?

¾Cómo varian las opiniones sobre la graduación de los estudiantes,


a medida que se incrementa el record academico? ¾Y si evaluamos
a los tipos de escuelas publicas?

¾Cómo varian las probabilidades sobre la graduación para estudian-


tes provenientes de escuelas publicas, con record promedio y padres
con grado?

¾Cómo son las probabilidades sobre la graduación para estudiantes


provenientes de escuelas privadas, con record promedio y padres con
grado?

¾Cómo son las probabilidades sobre la graduación para estudiantes


provenientes de escuelas publicas, con record promedio y padres sin
grado?

¾Cómo son las probabilidades sobre la graduación para estudiantes


provenientes de escuelas privadas, con record promedio y padres sin
grado? ¾A que conclusiones puede llegar?

¾Analice los cambios marginales de las variables? ¾A que conclusio-


nes se puede llegar?

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
Sesión 3
Modelos de Elección Nominal
Una elección o salida es nominal cuando se asumen categorías desordena-
das. Por ejemplo, el estado marital puede ser agrupado nominalmente como
divorciado, no casado, casado o viudo. Las ocupaciones puedes ser organizadas
como profesional, empleador (trabajador de ocina o contratante), obrero (o
trabajador tecnico), artesano y sirviente. En algunos casos se suele tratar las
salidas nominales como ordenadas o parcialmente ordenadas, por ejemplo, si tu
respuesta fuese Totalmente de acuerdo, de acuerdo, en desacuerdo, totalmente
en desacuerdo y no sabe no opina, la categoría no sabe no opina, invalida el
modelo ordinal. Se podría decidir usar un modelo de regresión nominal cuando
el supuesto del paralelismo de la regresión es rechazada. En general, si uno es
consciente del ordenamiento de la variable dependiente, la perdida potencial
de eciencia en el uso de modelos de salida nominal es mayor que la ganancia
por evitar el sesgo.

Ahora estimaremos un modelo logit multinomial que es uno de los más


usados en los modelos de regresión nominal. El mayor reto de usar el multino-
mial es que este incluye un montón de parámetros, y fácilmente podría estar
sobreestimado. La dicultad nace por el cálculo no lineal del modelo lo cual
conduce a problemas de interpretación.

3.1. Estimación y Análisis


3.1.1. Modelo Logit Multinomial
El modelo puede ser imaginado como una estimación simultanea y binaria
de logits, para todas las comparaciones posibles de categorías dependientes. Por
ejemplo, dejemos que ocupación sea una salida nominal con la categoría S
para trabajos manuales, E para trabajos de ocina o empleadores, y P para
trabajos profesionales. Asumimos que hay una simple variable independiente
que mide los años de educación ed. Entonces podemos examinar los efectos
de ocupación mediante la estimación de tres logits binarios:

35
36 3. Modelos de Elección Nominal

 
P r(P/x)
ln P r(S/x) = β0,P/S + β1,P/S ed
 
P r(E/x)
ln P r(S/x) = β0,E/S + β1,E/S ed
 
P r(P/x)
ln P r(E/x) = β0,P/E + β1,P/E ed

Donde el subíndice de β indica que comparación esta siendo hecha.

Hay que señalar que los tres logits binarios incluyen información redundan-
te, dado que ln(a/b) = ln(a) − ln(b), obteniéndose la siguiente igualdad.
     
P r(P/x) P r(E/x) P r(P/x)
ln − ln = ln
P r(S/x) P r(S/x) P r(E/x)
Esto implica que:

β0,P/S − β0,E/S = β0,P/E


β1,P/S − β1,E/S = β1,P/E
En general, con J salidas, solamente J-1 logits binarios necesitarían ser
estimados. El problema con la estimación de un modelo multinomial, es que
cada logit binario es basado en diferentes muestras, por ejemplo, si comparamos
P con S, borrariamos E.
Formalmente el modelo puede ser escrito como:

P r(y = m/x)
lnΩm/b (x) = ln = xβm/b , ∀m = [1, J]
P r(y = b/x)
Donde b es la categoría base, la cual hace referencia al grupo de com-
paración. Las J ecuaciones pueden ser resueltas calculando las probabilidades
predichas:

exp(xβm/b )
P r(y = m/x) = PJ
j=1 exp(xβj/b )

Mientras las probabilidades predichas serán obtenidas con la categoría b,


cambiar la base de la categoría podría confundir a algunos, dado que los resul-
tados de los parámetros tienden a ser algo diferentes. Solo habría un cambio
en la parametrización mas no en la estimación de las probabilidades predichas,
dado que estas serán las mismas, sea cual sea la categoría base. Las probabili-
dades para tres categorias podrian ser:

exp(xβm/1 )
P r(y = m/x) = PJ
j=1 exp(xβj/1 )

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
3.1. Estimación y Análisis 37

Obteniendo los estimadores β̂2/1 y β̂3/1 , siendo β̂1/1 = 0. Si cambiaramos la


categoria base, las probabilidades podrian ser:

exp(xβm/2 )
P r(y = m/x) = PJ
j=1 exp(xβj/2 )

Y obtendriamos los estimadores β̂1/2 y β̂3/2 , siendo β̂2/2 = 0. Así los pará-
metros estimados serian diferentes, una diferente parametrización es obtenida
pero no diferentes probabilidades.

Aplicación

En 1982 General Social Survey, pregunto a 337 personas sobre su nivel de


ocupación, categorizando de cinco maneras las respuestas: Trabajos Serviciales
S, trabajos obreril O, trabajos artesanales A, trabajos de ocina o con-
tratador E y trabajos profesionales P. Tres variables independientes son
consideradas, raza que indica raza del encuestado, ed que indica años de
educación del encuestado y exper que mide los años de experiencia laboral.

use ocupacion, clear


describe
sum
tab ocupacion, missing

Usando estas variables el siguiente modelo fue estimado:

LnΩS/P (xi ) = β0,S/P + β1,S/P raza + β2,S/P ed + β3,S/P exper


LnΩO/P (xi ) = β0,O/P + β1,O/P raza + β2,O/P ed + β3,O/P exper
LnΩA/P (xi ) = β0,A/P + β1,A/P raza + β2,A/P ed + β3,A/P exper
LnΩE/P (xi ) = β0,E/P + β1,E/P raza + β2,E/P ed + β3,E/P exper
Especicando las cinco categorías y jando la categoría base P:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
38 3. Modelos de Elección Nominal

mlogit ocupacion raza ed exper, b(5) nolog

Por defecto mlogit deja como categoría base a la salida con mayor cantidad
de observaciones. Alternativamente, uno puede seleccionar la categoría base
con basecategory(). Uno podría estar interesado en saber como la raza afecta
la ubicación de los trabajadores entre artesanos y sirvientes, lo cual no fue
estimado en la salida anterior, pero podría ser calculado estimando el mlogit
con una categoría diferente, sin embargo es mas fácil usar listcoef , el cual
presenta las estimaciones para todas las combinaciones de categorías.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
3.1. Estimación y Análisis 39

listcoef raza, help

No solamente se puede controlar la variable a ser reportada por listcoef,


sino también aquellos coecientes signicativos en cierto nivel:

listcoef raza, pvalue(0.05) help

3.1.2. Testeo de Hipótesis


En el MNLM uno puede testear los coecientes de manera individual y
reportar los z-statistic, con un test de Wald o con un test LR. Hay buenas
razones para testear los coecientes de manera grupal. Al testear el hecho de
que una variable no tenga efectos requiere que el test para J-1 coecientes sean

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
40 3. Modelos de Elección Nominal

simultáneamente iguales a cero. Luego el testeo de que las variables indepen-


dientes como un grupo sean diferentes entre dos estimaciones, requiere un test
de K coecientes.

Testeo de efectos de variables independientes

Con J categorías dependientes, hay J-1 coecientes no redundantes asocia-


dos con cada variable independiente. Por ejemplo para nuestro logit de ocu-
pación hay cuatro coecientes asociados con educación ed, β2,M/P , β2,B/P ,
β2,C/P , β2,W/P . La hipótesis de que xk no tiene efectos sobre la variable depen-
diente puede ser escrita como:

H0 : βk,1/b = ... = βk,J/b = 0

Donde b es la categoría base, y como βk,b/b = 0, la hipótesis impone restric-


ciones sobre J-1 parámetros, ésta puede ser testeada con Wald o con LR test.

Test del ratio de verosimilitud (LR)

El LR-test involucra:

Estimar el modelo completo incluyendo todas las variables, resultantes


en el estadístico del ratio de verosimilitud LRsr .

Estimar el modelo restricto excluyendo las variables xk , y obtener el ratio


de verosimilitud LRr .

Calcular la diferencia LR = LRsr − LRr , el cual es distribuido como una


chi-cuadrado con J-1 grados de libertad.

El cálculo puede ser hecho con el comando lrtest:

mlogit occ white ed exper, b(5) nolog


lrtest, saving(0)
mlogit occ ed exper, b(5) nolog
lrtest

El mlogtest puede calcular cada uno de estos pasos de manera integral


para cada una de las variables explicativas en el modelo.

mlogit occ white ed exper, b(5) nolog


mlogtest, lr

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
3.1. Estimación y Análisis 41

El efecto de la raza en la ocupación es signicativa al 0.1 de signicancia,


pero no lo es al 0.05. El efecto de la educación es signicativa al 0.01. O mas
formal, la hipótesis de que todos los coecientes asociados con la educación
son simultáneamente iguales a cero pueden ser rechazados al 0.01.

Test de Wald

Aunque el LR test es generalmente considerado superior, si el modelo es


complejo, la muestra es muy grande, es muy costoso usar este test. Alter-
nativamente, K test de Wald puede ser calculado usando test, sin ninguna
estimación adicional, por ejemplo:

mlogit occ white ed exper, b(5) nolog


test white
test ed
test exper
Una forma de resumir lo anterior es:

mlogtest, wald
La lógica del test de Wald o LR puede ser extendida para testear el efecto
de que dos o mas variables independientes sean simultáneamente cero.

mlogit occ white ed exper, b(5) nolog


lrtest, saving(0)
mlogit occ white, b(5) nolog
lrtest
O también:

mlogit occ white ed exper, b(5) nolog


mlogtest, lr set( ed exper)
Si ninguna de las variables independientes afectan signicativamente al
odds de la categoria m vs la categoria n, nosotros decimos que m y n son in-
1
distinguibles con respecto a las variables en el modelo .

1 Anderson 1984

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
42 3. Modelos de Elección Nominal

Que las categorias m y n sean indistinguibles corresponde a probar la si-


guiente hipótesis:

H0 : β1,m/n = ... = βK,m/n = 0


La cual será testeada con Wald o LR. Ambos test proveen resultados muy
similares. Si las dos categorias son indistinguibles con respecto a las variables
en el modelo, entonces podríamos obtener estimadores más ecientes, asocian-
dolas. Para testear esto usamos mlogtest.

Test de Wald para categorias combinadas

El comando combina el calculo de Wald, para la hipótesis nula de que dos


categorias pueden ser combinadas, para todas las combinaciones de categorias
que existan. Por ejemplo:

mlogit occ white ed exper, b(5) nolog


mlogtest, combine

Podemos rechazar la hipótesis de que la categoría para sirviente (menial) y


profesional (prof ) son indistinguibles, pero no podemos rechazar que sirviente
(menial) y obrero (bluecol) sean inditinguibles.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
3.1. Estimación y Análisis 43

Para testear que la categoría de sirviente (menial) sea inditinguible de la


categoría base Prof:

test [Menial]

Lo cual es igual a la la del mlogtest Menial-Prof

El test es más complicado cuando ninguna categoría es la base, por ejemplo


cuando testeamos que m y n son indistinguibles cuando la categoría base no
es ni m ni n, la hipótesis nula seria:

H0 : (β1,m/b − β1,n/b ) = ... = (βK,m/b − βK,n/b ) = 0


De ésta manera deseariamos testear la diferencia entre los dos conjuntos
de coecientes. Por ejemplo el testear si la categoría de sirviente y artesano
pueden ser combinados, requeriría:

test [Menial=Craft]

Una vez más, los resultados son idénticos a los reportados en mlogtest.

Test LR para categorias combinadas

El test LR que combina m y n se calcula estimando el modelo completo sin


2
restricciones y obteniendo el estadístico LRsr , y luego uno restricto en la cual
la categoría m es usada como la base y todos los otros coecientes excepto la
constante en la ecuación de categoría n son ceros, obteniéndose el estadístico
LRr2 . El estadístico nal es la diferencia LRsr,r
2
= LR2 sr − LRr2 , el cual se
distribuye como una chi-cuadrada con K grados de libertad.

mlogit occ white ed exper, b(5) nolog


mlogtest, lrcomb

Este comando puede usar restricciones, para ver esto, nosotros usamos el
test que compara la categoria sirviente con obrero. Primero calculamos el mo-
delo completo y guardamos los resultados:

mlogit occ white ed exper, nolog


lrtest, saving(lrf)

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
44 3. Modelos de Elección Nominal

Luego construimos la restricción

constraint define 999 [Menial]

Así la opción [Menial] indica que todos los coecientes excepto la contante
de las ecuaciones de la categoria sirvientes (Menial), serán cero.
Finalmente re-estimamos el modelo con la restricción. La categoría base debe-
rá ser obreros (Bluecol), así que los coecientes indicados por [Menial] son
comparados entre Bruecol y Menial.

mlogit occ white ed exper, base(2) constraint(999) nolog

Donde observamos que restricción es impuesta y así calculamos el test de


verosimilitud.

lrtest, using(lrf)

3.1.3. Independencia de las Alternativas irrelevantes (IIA)


Tanto el MNLM y el condicional tienen como supuesto la independencia
de alternativas irrelevantes, mostramos este supuesto en términos del modelo
logit multinomial.

P r(y = m/x)
= exp[x(βm/b − βn/b )]
P r(y = n/x)
Donde el Odds no depende de otras categorías que sean viables. En es-
te sentido, estas categorías alternativas son irrelevantes, lo que signica que
al añadir o borrar una categoría esta no afectara la cantidad de Odds en las
categorías principales. Este punto es explicado a menudo con un ejemplo de

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
3.1. Estimación y Análisis 45

transporte en autobuses rojos/azules: Supongamos que se tiene que elegir en-


tre un autobús rojo y un carro para ir a trabajar y que el Odds de tomar el
autobús comparado con el carro es de 1:1. La IIA implica que el Odds de-
berá mantenerse 1:1 entre estas dos alternativas, aún si una nueva compañía
de autobuses azules llega al pueblo, autobuses de características idénticas a
la compañía de autobuses roja. Así, las probabilidades de manejar un carro
pueden ser tan pequeñas aún al añadir diferentes colores de autobuses. Más
razonable, seria esperar que el Odds de comparar un autobús rojo y un carro
debería reducirse a 1:2 ya que la mitad de personas que subían al autobús rojo,
ahora se esperaría que suban al azul.

Hay dos test que tratan el supuesto IIA. Hausman y McFadden (1984) pro-
pusieron un test tipo Hausman. Y McFadden, Tye y Train (1976) propusieron
una aproximación al test de ratio de verosimilitud, que fue implantado por
Small y Hsiao (1985). Ambos, asumían que el MNLM es estimado con la cate-
goría base b, y existían por tanto J-1 test a ser calculados excluyendo cada
uno las principales categorías para formar un modelo restricto. Para cambiar
la categoría base, el test puede ser calculado excluyendo b. El resultado del test
dieren dependiendo de cual es la categoría base que fue usada para estimar
el modelo.

Test de Hausman

El test de Hausman implica los siguientes pasos:

Estimar el modelo completo con todas las J categorías incluidas y obtener


el estimador β̂sr .

Estimar un modelo restricto eliminando una a una las diferentes catego-


rías y obtener el estimador β̂r .

Dejar que β̂sr sea una sub muestra de β̂sr luego de eliminar los coecientes
no estimados en el modelo restricto. El test será:

∗ 0 ˆ
H = (β̂r − β̂sr ) [V ar(β̂r ) − V ˆar(β̂sr
∗ −1 ∗
)] (β̂r − β̂sr )

Donde H es distribuido asintóticamente como una chi-cuadrado con gra-


dos de libertad iguales a las las de β̂r si IIA es verdadero. Los valores
signicativos de H indican que el supuesto de IIA ha sido violado.

mlogit occ white ed exper, b(5) nolog


mlogtest, hausman base

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
46 3. Modelos de Elección Nominal

Cinco test fueron reportados, los primeros cuatro corresponden a la ex-


clusión de una de las cuatro categorías no base. La quinta es calculada re-
estimando el modelo usando la mas categoría mas grande como categoría base.
Ninguna rechaza la H0 , de que la IIA sea verdadera. Los resultados dieren
considerablemente al cambiar la categoría base. Tres de los test estadísticos son
negativos, lo cual es común encontrar, un resultado asi, presenta evidencias de
que la IIA no ha sido violada. Un mayor sentimiento de la variabilidad de los
resultados puede ser visto corriendo el mlogit con una categoría diferente y
volviendo a calcular el test.

Test Small y Hsiao

Para calcular el test, la muestra es dividida aleatoriamente en dos sub-


muestras de igual medida. El MNLM irrestricto es estimado sobre ambas sub-
S
muestras, donde β̂sr1 contiene las estimaciones del modelo irrestricto para la
S
primera submuestra y β̂sr2 es la contraparte para la segunda submuestra. Una
media ponderada de los coecientes se calcula como:

S1 ,S2 1 S1 1 S2
β̂sr = √ β̂sr + [1 − √ ]β̂sr
2 2
Luego una muestra restricta es creada de la segunda submuestra, al eliminar
todos los valores de una categoria elegida en la variable dependiente. El MNLM
S
es estimado usando la muestra restricta y obteniendo los estimadores β̂r 2 y el
S2
verosimilitud L(β̂r ). El estadístico de Small y Hsiao será:

S1 ,S2
SH = −2[L(β̂sr ) − L(β̂rS2 )]
El cual es distribuido asintóticamente como una chi-cuadrada con grados
de libertad igual a K+1 donde K es el número de variable independientes.

mlogtest, smhsiao
Los resultados varían respecto al test de Hausman, ahora vemos que un caso
violo la IIA. Dado que el test de Small Hsiao, requiere una división aleatoria
de la data en submuestras, el resultado puede diferir con sucesivas llamadas
de comandos, dado la diferente división aleatoria por vez. Para obtener un
test que replique los resultados deberíamos jar un número aleatorio para las
muestras.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
3.1. Estimación y Análisis 47

set seed 8675309


mlogtest, smhsiao
Estos test a menudo dan resultados inconsistentes y proveen de violacio-
nes al supuesto de IIA. Desafortunadamente no hay estudios que examinen las
propiedades para una pequeña muestra. Quizás como un resultado de las limi-
taciones practicas de estos test, McFadden (1973) suguiere que las IIA implican
que el logit multinomial y condicional deberían solo usarse en casos donde las
categorías puedan asumirse distintas y ponderadas independientemente a los
ojos del que toma las decisiones. De manera similar Amemiya (1981) suguie-
re que el MNLM trabaja bien cuando las alternativas son disimiles. Hay que
cuidar, que al especicar el modelo se considere distinguir las categorías que
no sean sustitutas una de otras, pareciendo ser razonable aunque desafortuna-
damente ambiguo.

Para medir el ajuste, podemos usar el tstat como medida de análisis.

fitstat

3.1.4. Análisis de Probabilidades y Cambios Marginales


Mientras el MNLM es una simple extensión matemática del modelo binario,
la interpretación se diculta por la gran cantidad de posibles comparaciones
que se pueden hacer. Aún en, nuestro ejemplo con cinco categorías, nosotros
tendríamos muchas comparaciones por hacer. Pero existen comandos que nos
proveen de herramientas muy potentes para llevar a cabo dicha tarea.

Predicción de las probabilidades con predict

Las probabilidades son obtenidas de la siguiente manera:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
48 3. Modelos de Elección Nominal

mlogit occ white ed exper, b(5) nolog


predict probM probC probB probW probP
describe prob*
summarize prob*

Podemos realizar una comparación también entre un mlogit y un ologit, una


manera de ver esta comparación es grácamente. En la estimación del ologit,
observamos que la predicción de probabilidades de las categorías intermedias
eran sesgadas hacia abajo mientras que las categorías extrémales tenían una
distribución mas gradual. Veamos esto:

use ordwarm2,clear
ologit warm yr89 male white age ed prst, nolog
predict SDologit Dologit Aologit SAologit
label var Dologit "ologit-D"
mlogit warm yr89 male white age ed prst,nolog
predict SDmlogit Dmlogit Amlogit SAmlogit
label var Dmlogit "mlogit-D"
dotplot Dologit Dmlogit

corr Dologit Dmlogit

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
3.1. Estimación y Análisis 49

La correlación entre ambos grupos de predicciones es de 0.92, pero el trun-


camiento de la distribución para el modelo logit ordinal es algo irreal.

Predicción de las probabilidades con prvalue

Predecir las probabilidades para un individuo con características especi-


cas puede realizarse con prvalue. Por ejemplo, podríamos desear calcular las
probabilidades de cada categoría ocupacional comparando a los negros con los
blancos, con educación y experiencia promedia.

use nomocc2,clear
mlogit occ white ed exper, b(5) nolog
quietly prvalue, x( white 0) rest(mean) save
prvalue, x(white 1) rest(mean) dif

Predicción de probabilidades con prtab

Si se desea predecir las probabilidades para todas las combinaciones de un


conjunto de variables categóricas independientes, prtab seria útil. Por ejem-
plo si deseáramos conocer como la respuesta de los blancos y negros dieren
en sus probabilidades de tener un trabajo de sirvientes, conforme aumentan
los años de educación.

label def lwhite 0 Negros 1 Blancos


label val white lwhite
prtab ed white, novarlbl outcome(1)
prtab ed white, novarlbl

La tabla muestra una sustancial diferencia entre blancos y negros en la


probabilidad de tener trabajos de sirvientes, y como estas probabilidades son
afectadas según aumentan los años de educación. Sin embargo, dado el núme-
ro de categorías para ed, el gracar las probabilidades predichas con prgen
será la manera más útil de examinar estos resultados.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
50 3. Modelos de Elección Nominal

Predicción de probabilidades con prgen

Las probabilidades predichas pueden ser gracadas usando los mismos mé-
todos considerados para los modelos de regresión ordinal. Luego de estimar el
modelo, nosotros usaremos prgen para calcular las probabilidades predichas
para blancos con experiencia laboral promedia e incrementos en los años de
educación de seis a veinte años.

prgen ed, x(white=1) from(6) to (20) gen(wht) ncases(15)


describe wht*
prgen ed, x(white=0) from(6) to (20) gen(nwht) ncases(15)

Las variables nwhtp1 whtp1 contienen las probabilidades predichas de tener


trabajos de sirvientes para negros y blancos. La graca de éstas, pueden proveer
información más clara que los resultados de prtab.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
3.1. Estimación y Análisis 51

label var whtp1 "blancos"


label var nwhtp1 "Negros"

set textsize 125

tw sc whtp1 nwhtp1 nwhtx, connect(ss ss) ///


xtitle(Años de educación de los blancos) ///
ytitle(Pr(Trabajo de Sirviente))

Figura 3.1: Probabilidades vs Educación

Aunque las categorías nominales no están ordenadas, el graco que suma


las probabilidades puede ser una útil manera de mostrar las probabilidades
predichas para todas las categorías. Para esto construimos una graca que
muestra como la educación afecta la probabilidad de cada ocupación para
blancos.

label var whts1 "sirvientes"


label var whts2 "artesano"
label var whts3 "obreros"
label var whts4 "empleador"

set textsize 125

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
52 3. Modelos de Elección Nominal

tw sc whts1 whts2 whts3 whts4 whtx, c(ss ss ss ss) ///


xtitle(Años de educación de los blancos) ///
ytitle(Probabilidades Acumuladas)

Figura 3.2: Probabilidades Acumuladas vs Educación

El graco muestra las cuatro probabilidades acumuladas conforme aumenta


los años de educación La línea mas baja etiquetada con sirvientes graca las
probabilidades de tener un trabajo de sirviente según varia los años de educa-
ción. Es la misma información que se presento en el gráco anterior para las
personas de raza blanca. La siguiente línea, etiquetada como artesano graca
la suma de probabilidades de tener trabajo un trabajo de sirviente o artesano.
De esta manera el área entre la línea roja y azul, es la probabilidad de tener
trabajo de artesano.

Cambio en las probabilidades predichas

Cambios marginales y discretos pueden ser usados de la misma manera que


en modelos de salidas ordinales. Como antes, ambas pueden ser calculadas con
prchange.

Cambio Marginal Podemos denir el cambio marginal como:

J
∂P r(y = m/x) X
= P r(y = m/x)[βk,m/J − βk,m/J P r(y = j/x)]
∂xk j=1

Dado que esta ecuación combina todos los βk,j/J , el valor de los cambios
marginales dependen de los valores de todas las variables del modelo.
Mas aun cuando el valor de xk cambia, el signo del impacto marginal

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
3.1. Estimación y Análisis 53

puede cambiar. Por ejemplo, en algún punto, el efecto marginal de la


educación sobre tener una ocupación de sirvientes podría ser positivo,
mientras que en otro punto dicho efecto podría ser negativo.

Cambio Discreto Podemos denir el cambio discreto como:

∆P r(y = m/x)
= P r(y = m/x, xk = xE ) − P r(y = m/x, xk = xS )
∆xk
Donde la magnitud de el cambio depende de los niveles de todas las va-
riables y del tamaño del cambio que es realizado. Los J cambios discretos
de los coecientes para una variable (uno por cada categoria) pueden ser
resumidos calculando un promedio del valor absoluto de los cambios a
través de todas las categorías.

J
¯ 1 X ∆P r(y = j/x)
∆=
J j=1 ∆xk

Donde el valor absoluto es tomado porque la suma de los cambios sin


tomar el valor absoluto es necesariamente cero.

prchange

Los cambios marginales son listados en las las del Efecto Marginal. Para
variables que no son binarias, los cambios discretos son reportados sobre el
rango completo de las variables (reportado como Min → Max), para cambios
en una unidad centrada alrededor de los valores base (reportado como -+1/2)
y para cambios en una desviación estándar centrada alrededor de los valores
base (reportado como -+sd/2). Si la opción uncentered es usada, los cambios
comienza en la opción especicada por x() y rest() y se incrementan en una
unidad o una desviación estándar desde allí. Para variables binarias, el cambio

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
54 3. Modelos de Elección Nominal

discreto de 0 a 1 es la cuantía apropiada y es la única cuantía presentada.


Vemos en el resultado para White, que para aquellos que tienen educación y
experiencia promedio, la probabilidad predicha de tener un trabajo profesional
es de 0.16 veces mayor para blancos que para negros. El cambio promedio es
listado en la primera columna. Por ejemplo, para White, el cambio absoluto
promedio en la probabilidad de varias categorías laborales de ser blanco como
oposición a ser negro es de 0.12.

El cambio marginal también puede ser calculado con mfx, que al igual
que prchange, calcula el cambio manteniendo todo el conjunto de variables
independientes en su media. Hay que notar que no solo nos permite calcular el
efecto de un conjunto de variables en el modelo, sino que también estima los
efectos marginales para una categoría a la vez:

mfx compute, predict(outcome(1))

Estos resultados son para la categoría sirvientes, obteniéndose los mismos


resultados que prchange respecto a las variables continuas y discretas. La
ventaja una vez mas es que podemos obtener los valores de las desviaciones
estándar, la desventaja es que puede tomar un largo tiempo su estimación,
luego de la estimación multinomial, si el número de observaciones y las variables
independientes, son muchas.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
Sesión 4
Modelos Truncados y Censurados
1
Esta sección estudia el conjunto de modelos con solución de esquina. Para
el uso de los modelos, es importante el recordar el por qué se usan variables
logit y probit en modelos de elección binaria, modelos tobit en modelos de res-
puesta de solucion de esquina o modelos tipo poison en modelos de recuento, y
es por eso que se necesitan modelos que tomen en cuenta ciertas caracteristicas
importantes de la distribución de y.

En e caso de la participación de la mujer en el mercado laboral, el proble-


ma es que una parte importante de las mujeres casadas decide no tener ningun
trabajo asalariado.

En el caso de notas que se obtinene en una evaluación, las mismas que


según el sistema de calicación pueden uctuar solo entre 0 y 20. También se
presenta cuando solo podemos observar el gasto efectivo de aquellas personas
que adquieren un bien pero no su disponibilidad a pagar, más aún si es inferior
al precio mínimo con el que es posible acceder al bien. Finalmente, también es
el caso de los ingresos percibidos por el trabajo remunerado, dado que no es
posible observar el ingreso potencial de una persona que no está laborando en
el momento en que se recoge la información por analizar. En cualquiera de es-
tas situaciones, las observaciones correspondientes son excluidas de la muestra
(lo que se dene como truncamiento, ya sea incidental o no ), o su incorpo-
ración en ella es distorcionada por un valor especíco que no es el real (lo cual
denimos como censura).

Podemos tener tres tipos de variables dependientes continuas limitadas: las


truncadas, las censuradas y las que poseen sesgo de selección (o truncamiento
incidental).

1 Basado en Introducción a la econometría de Jerey M Wooldridge y Modelos de panel


y variables limitadas de Arlette Beltran y Juan Francisco Castro

55
56 4. Modelos Truncados y Censurados

4.1. Variables Dependientes con Truncamiento


No Incidental
El truncamiento se produce cuando la variable dependiente (yi ) se obser-
va, si y solo si esta toma un valor mayor que a, donde a es una constante
cualquiera. Lo mismo ocurre con toda la información referida a las posibles ex-
plicativas del modelo, el vector xi , asociadas con estas observaciones truncadas.

Un ejemplo podria ser el análisis de la disponibilidad a pagar por un auto-


movil nuevo, si es que es cierto que en el mercado el más barato que se puede
encontrar tiene un precio de $7,000. De esta manera, cuando la persona está
dispuesta a pagar dicho monto o más, es probable que compre el auto y que
se registre su gasto efectivo y toda su información socioeconómica (xi ). Si la
persona está dispuesta a pagar menos de $7,000, no realiza ninguna compra y
no se cuenta con sus datos asociados; es decir está observación desaparece de
la muestra.

4.1.1. Variable Aleatoria Truncada


Denamos el concepto de variable aleatoria truncada. Es aquella que tiene
una tiene función de densidad de la forma:

f (y)
f (y|y < a) =
P r(y > a)
Dada la condicionalidad detrás de esta ecuación se justica la necesidad de
escalar la función de densidad original, f(y), de tal manera que su integral sea
uno cuando solo se incluyan los valores no truncados, es decir, en este caso,
los valores mayores a a. Este procedimiento se conoce como normalización
de la densidad, donde el denominador de ésta ecuación es la constante nor-
malizada que corresponde al integral del numerador en el rango entre −∞ y a.

La distribución de una variable truncada, tiene características especiales


que pueden resumirse como sigue:

Si y → N (µ, µ2 ) y a es una constante, entonces:

E(y|truncamiento) = µ + σλ(a)

V ar(y|truncamiento) = σ 2 [1 − δ(α)]
a−µ
Donde α= σ

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
4.1. Variables Dependientes con Truncamiento No Incidental 57

La función λ(∗) es conocida como la inversa del ratio de Mills, que en este
caso, puede ser:

f (α)
λ(α) =
1 − F (α)
si el truncamiento es hacia abajo (y > a)

−f (α)
λ(α) =
F (α)
si el truncamiento es hacia arriba (y ≤ a)

La función δ(∗), por su parte, viene dada por δ(α) = λ(α)[λ(α) − α], donde
0 < δ(α) < 1, ∀α
Notese que si se truncan los valores por debajo de una constante a, la
media de la variable truncada será mayor que la original, mientras que si se
truncan hacia arriba, la primera será menor que la última. De otro lado, la
varianza de la variable truncada será siempre menor que la de la variable
original (dado que δ(α) se encuentra entre 0 y 1).

4.1.2. Truncamiento en el Modelo de Regresión


Volviendo al ejemplo de la disponibilidad a pagar por un automóvil (yi ), de-
namos el siguiente modelo para explicarla a partir de un conjunto de variables
explicativas (xi ):

yi = xi β + µi
donde µi → N (0, σ 2 ), por lo que E(yi |xi = xi β).
Recuérdese que solo es posible observar la variable dependiente y sus de-
terminantes cuando esta supera el precio más bajo del mercado a.Tomando
el valor esperado de la disponibilidad pago, condicionado al truncamiento, se
tiene:

E(yi |yi > a; xi ) = xi β + E(µi |yi > a; xi ) = xi β + E(µi |µi > a − xi β; xi )


Aplicando las caracteristicas antes descritas, se tiene:

E(yi |yi > a; xi ) = xi β + σλ(αi )


f (αi )
Donde λ(αi ) =
1−F (αi )
, αi = a−x
σ

De esta forma el modelo de variable dependiente truncada sería:

yi |yi > a = xi β + σλ(αi ) + µi


el mismo que solo es posible estimar para el conjunto de observaciones no
truncadas.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
58 4. Modelos Truncados y Censurados

4.1.3. Estimación del Modelo de Regresión con Variable


Truncada
Si se estima linealmente yi en función solo de xi se estaría omitiendo la
variable explicativa λ(α), la cual, debido a la perdida de información que im-
plica el truncamiento, no es posible estimar de manera alguna. Por ello no es
adecuado usar directamente MCO, y la alternativa es estimar el modelo por
máxima verosimilitud utilizando la función de verosimilitud truncada:

N
Y f (µi )
L=
i=1
1 − F (αi )

4.1.4. Impacto Marginal en el Modelo de Regresión


¾Qué resultado es el que interesa en el modelo de regresión truncada?¾El
efecto impacto o los coecientes estimados β̂ ? Si es que solo se quiere analizar
los efectos del cambio en una variable explicativa sobre la dependiente para
aquellas observaciones no truncadas incluidas en la regresión, bastara con el
efecto impacto correspondiente. El uso de los coecientes β será de interés si
se quiere generalizar los resultados a toda la población, esté truncado o no.

Consistente con nuestro ejemplo, mostremos a continuación cómo se deriva


el efecto impacto correspondiente cuando la variable dependiente está truncada
para valores menores que a.

∂E(yi |yi > a; xi ) ∂λ(αi ) ∂αi


= βj + σ
∂xij ∂αi ∂xij
∂E(yi |yi > a; xi ) ∂λ(αi ) −βj
= βj + σ
∂xij ∂αi σ
 
∂E(yi |yi > a; xi ) ∂λ(αi )
= βj 1 −
∂xij ∂αi
∂λ(αi ) ∂F (αi )
Para hallar el diferencial
∂αi
es necesario tomar en cuenta que
∂αi
=
∂f (αi )
f (αi ) y que la función de densidad supuesta es la normal, por lo que ∂αi =
−αi f (αi ). Con esto, se tiene el siguiente resultado.

∂E(yi |yi > a; xj )


= β[1 − λ(αi )(λ(αi ) − αi )]
∂xij
La expresión entre llaves, que se encuentra entre 0 y 1, es el factor de ajuste
del coeciente βj (que corresponde el efecto impacto en un modelo lineal para
toda la población), que da cuenta del efecto del truncamiento. Notese que σ
afecta la magnitud de los efectos impacto (a través de α) mas no la dirección.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
4.1. Variables Dependientes con Truncamiento No Incidental 59

4.1.5. Variable Aleatoria Censurada


Retomando el ejemplo de la disponibilidad a pagar por el automóvil y su-
pongamos que aún si la persona no compra el auto, si se registran sus datos
xi como cliente potencial. En este caso la variable yi , tomara el valor pagado
por la persona si ésta compra el auto, y el de 0 si no lo compra. En cualquie-
ra de los dos casos, se habrá recogido información sobre el cliente. De esta
manera, podemos decir que la variable yi ha sido censurada en 0 para disponi-
bilidades a pagar menores que $7,000 valor que es el precio mínimo de mercado.

El modelo conceptual utilizado para el caso de variables discretas, donde


asumimos la existencia de una variable latente continua e ilimitada y cuya
media condicional puede ser modelada como una combinación lineal de un
conjunto de explicativas, también puede ser modelada como una combinación
lineal de un conjunto de explicativas, también puede ser aplicado en este con-
texto. En el ejemplo anterior, la variable latente es la disponibilidad de pago
la cual puede adoptar cualquier valor. La variable observada, en este caso, co-
rresponde a la latente pero solo cuando esta última supera el precio mínimo
de mercado.

Otro ejemplo nos ayudara en la formalización de este modelo. Supongamos



que la variable latente yi es el puntaje en una prueba de aptitud que incluye

puntos en contra, mientras que yi es el puntaje en una prueba de aptitud que
incluye puntos en contra, mientras que yi , se dene de tal forma que:

(
yi∗ , si yi∗ > 0,
yi =
0, si yi∗ ≤ 0.

En cualquiera de los dos casos se conocen los potenciales factores explica-


tivas del puntaje xi .

De esta manera la distribución de la variable yi tiene dos componentes


claramente diferenciados: la parte continua, para las observaciones no censu-
radas, y la discreta, para aquellas a las que se asigna el puntaje de corte. En
este caso, no hay necesidad de escalar la distribución (como lo fue en el de las
variables truncadas) ya que la probabilidad acumulada es de 100 % si se consi-
dera que a las observaciones censuradas se les asigna la probabilidad de estarlo.

4.1.6. Censura en el Modelo de Regresión


Si trabajamos en el ámbito del modelo de regresión, tenemos que la variable
latente puede ser representada como:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
60 4. Modelos Truncados y Censurados

yi∗ = xi β + µi
Para establecer el valor esperado de la variable observada (y), que consi-
dera también las observaciones censuradas, es necesario diferenciar entre dos
situaciones alternativas. Al igual que en el ejemplo anterior, en lo que sigue
suponemos que el valor de corte es igual a cero (a=0).

Para una observación tomada al azar:

E(yi |xi ) = (0)P r(yi = 0) + E(yi |yi > 0; xi )P r(yi > 0)


= E(yi |yi > 0; xi )P r(yi > 0)
= (xi β + σλ(αi ))(1 − F (αi ))

Nótese que ahora, como la censura es en 0, se tiene que:

−xi β
αi =
σ
f (−xi β/σ) f (xi β/σ)
λ(αi ) = =
1 − F (−xi β/σ) F (xi β/σ)
Y su varianza sería, en cambio:

V ar(yi |xi ) = σ 2 F (αi )[1 − δ(αi ) + (αi − λ(αi ))2 (1 − F (αi ))]

Para una observación no censurada

Como es la situación similar a la de las observaciones no truncadas, el


modelo sería el mismo que el de la ecuación:

E(yi |yi > 0; x) = xi β + σλ(αi )

Para este modelo aplica todo lo dicho anteriormente, la pregunta seria


ahora como estimar los modelos que contienne variables dependientes
censuradas y especicamente aquellos planteados antes.

4.1.7. Estimación del Modelo de Regresión Censurada


a. Estimación por MCO en 2 Etapas

La estimación MCO se realiza mediante un procedimiento en dos etapas,


que consiste en modelar el proceso de censura previamente a la estimación
de la ecuación principal.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
4.1. Variables Dependientes con Truncamiento No Incidental 61

Primera Etapa

Se utiliza una variable auxiliar  zi  de la forma:

(
1, si yi∗ > 0: No hay censura
zi =
0, si yi∗ ≤ 0: Hay censura

A partir de ella y de un conjunto de explicativas que den cuenta


de la censura, se estima un modelo probit para obtener el vector
β/σ de estimados y construir α̂ y λ(α̂), según están denidos en las
ecuaciones previas

Segunda Etapa

Se utiliza α̂ para estimar por MCO cualquiera de los dos modelos


de las ecuaciones para una observacion tomada al azar o para ob-
servaciones no censuradas:

Modelo con todas las observaciones

yi = (xi β + σλ(αi ))F (−αi ) + µi = F (−αi )xβ + σf (αi ) + µi

Modelo con todas las observaciones no censuradas

yi |yi > 0; yi = xi β + σλ(αi ) + µi

El uso de uno u otro modelo dependerá del objetivo de la investigación. El


primero permitira predecir el valor promedio del total de observaciones.
En el ejemplo de la disponibilidad a pagar por un automovil, seria el
pago promedio realizado por una persona cualquiera de la muestra total,
haya comprado el auto o no (el valor promedio de compra, consirando
que auellos que no realizaron la compra pagaron un monto igual a cero).
El segundo modelo, en cambio, servirá para calcular el valor promedio
pagado por aquellas observaciones no censuradas y haria posible predecir
el valor promedio de las ventas efectivas.

b. Máxima Verosimilitud: El Modelo Tobit2

Para estimar un modelo con variable dependiente censurada mediante


el método de máxima verosimilitud (MV), es necesario considerar que
se tiene dos tipos de información. Aquella referida a las observaciones
no censuradas, para las que se conoce la esperanza condicional de yi , y

2 Tobin (1956) fue el primero en vinvular el problema de censura con el análisis de re-
gresión. Relacionó este problema con el modelo probit el el sentido de que hay dos tipos de
observaciones: sobre las que se tiene el valor de la dependiente y las que tienne un valor de
cero asignado. Por dicha razón se le conoce como el modelo probit de tobin o tobit.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
62 4. Modelos Truncados y Censurados

aquella referida a las observaciones censuradas, para las que se conoce la


probabilidad de estar censurada.

La función de verosimilitud se construye considerando ambos componen-


tes. Así:

Y Y
L= P r(yi > 0)f (yi |yi > 0) P r(yi = 0)
yi >0 yi =0

Si recordamos que la función de densidad truncada viene dada por:

f (yi )
f (yi |yi > 0) =
P r(yi > 0)
Por lo tanto podemos establecer la función de verosimilitud como:

Y Y
L= f (yi ) P r(yi = 0)
yi >0 yi =0

Note que el modelo tobit implica que los coecientes estimados prome-
dian dos tipos de efectos de las variables explicativas, aquel sobre la
probabilidad de estar censurado y dado que no lo está, el efecto sobre el
valor esperado de yi .

Si no es posible garantizar que las mismas variables explicativas den


cuenta de la censura, así como del fenómeno económico que se quiere
analizar condicionado a dicha censura, el tobit puede no ser el modleo
más adecuado para realizar la estimación, ya que el procedimiento que
involucra implica restringir ambos modelos a un mismo set de variables
explicativas. Por ejemplo, saber conducir un automovil, puede ser una
explicativa importante para adquirir o no uno, pero podría no tener ma-
yor impacto sobre la cantidad que se paga por él una vez que se ha
decidido comprarlo. En este caso es mejor usar el método de estimación
en dos etapas visto previamente, en el que se da libertad para incorporar
variables explicativas distintas en cada una de ellas.

Las estimaciones por MCO sobre toda la muestra que desconocen el


problema de censura, son inconsistentes y suelen ser menores en valor
absoluto a los del modelo Tobit.

4.1.8. Efectos Marginales y Bondad de Ajuste


Si se analiza cuál es la medida de bonda de ajuste más apropiada en el
caso de un modelo censurado, podría elegirse el cuadrado del coeciente de

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
4.1. Variables Dependientes con Truncamiento No Incidental 63

correlación entre yi e ŷi , donde esta última se construye a partir del modelo
dado con todas las observaciones. El estadístico es distinto al R-cuadrado del
MCO.

La denición basada en el coeciente de correlación es preferida a la del


R-cuadrado debido a que tiene la ventaja de uctuar entre 0 y 1, cosa que no
ocurre con el segundo, el que puede ser negativo en regresiones sin intercepto.
De todas formas, es necesario tener en cuenta que el R-cuadrado no es tan
importante en modelos censurados , especialmente en el caso del tobit, q que a
diferencias de MCO, no maximiza este estadistico sino la función log-verosimil.

En cuanto a los efectos impacto, puede ser interesante estimarlos tanto


para la muestra completa, como para las observaciones no censuradas. En
este segundo caso, el efecto impacto será similar al de variables truncadas,
áún cuando se observa un cambio de signo (si tomamos en cuenta que se está
trabajando con una censura hacia abajo, con un corte igual a cero y suponemos
una distribución simetrica). Así:

∂E(yi |yi > 0; xi )


= βj [1 − λ(αi )(αi + λ(αi ))]
∂xij
Este resultado, sin embargo, tiene las mismas consecuencias vistas previa-
mente respecto del problema de truncamiento.

En el caso para el modelo de la muestra completa, se tiene el siguiente


efecto marginal:

∂E(yi |xi ) βj xi β βj
= βj F (−αj ) + xi βf (αi ) − σ f (αi )
∂xij σ σ σ
∂E(yi |xi )
= βj F (−αj )
∂xij
De esta manera, en el caso de trabajar con la muestra completa, para que el
coeciente βj reeje el efecto impacto de la variable explicativa j sobre el valor
esperado de y, es necesario multiplicarlo por la probabilidad de la no censura,
F (−αi ). Si comparamos este efecto impacto con aquel asociado al de toda la
población (β), notaremos que ambos se asemejarán en la medida en que F (−αi )
tiende a 1. Como es de esperarse, los resultados que toman en cuenta una
potencial censura en la muestra y aquellos referidos a la data sin censurar serán
equivalentes en la medida en que la mayoria de observaciones se concentren en
la parte no censurada. Bajo estas circunstancias, las estimaciones que toman
en cuenta la especicación para la medida condicional dada en el modelo de
censura, serán equivalentes a aquellas que se obtenian si se regresiona yi sobre
xi mediante MCO. Es decir, E(yi |xi ) = (xi β + σλ(αi ))(1 − F (αi )) → xi β , en
la medida en que a → ∞.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
64 4. Modelos Truncados y Censurados

4.2. Variable de Truncamiento Incidental, Sesgo


de Selección
El problema de sesgo de selección se produce cuando la inclusión de una
unidad económica en la muestra depende de una decisión previa que no es
exógena, por lo que resulta ser una muestra no aleatoria, solo se presenta sesgo
de selección cuando la muestra no es aleatoria o la selección muestral no es
exógena. Es decir, si por ejemplo se separan observaciones de una muestra de
manera aleatoria, o se utiliza algún criterio exógeno como la edad, el sexo,
la raza, no se producirá un problema de sesgo de selección. En particular, y
tal como veremos más adelante, el sesgo ocurre cuando el componente no ob-
servable de la decisión de pertenecer a la muestra está correlacionado con el
componente no observable del fenómeno bajo análisis.

Por ejemplo, supongamos que se quiere analizar el rendimiento estudiantil


pero solo se cuenta con información suciente sobre dicho rendimiento y sus
determinantes para el caso de escuelas privadas. Como veremos, el hecho de
trabajar solo con aquellos niños jóvenes cuya familias decidieron matricularlos
en un colegio particular puede tener un efecto sobre el modelo que se busca
estimar y en especial, sobre su media.

4.2.1. El modelo de Truncamiento Incidental


Analicemos primero la decisión de asistir a determinado tipo de colegio
(ecuación de selección). Para esto, y de acuerdo con la formulación desarrollada
para los modelos de elección binaria, supongamos que la utilidad de asistar a

un colegio privado (zi ) puede representarse como:

zi∗ = wi γ + i

Dicha ecuación seria la ecuación de selección, la variable zi∗ no es directa-


mente observable. Lo que si se observa es si el estudiante está matriculado en
un colegio privado o no, resultado que depende de que la utilidad de hacerlo

supere determinado umbral (a). De ésta manera, si zi > a, el alumno se ma-
tricula en un colegio privado y, por lo mismo, pertenece a la muestra de trabajo.

En lo que respecta al rendimiento, supongamos que, en general, este puede


ser representado como:
Yi∗ = xi β + µi
Que es la ecuación de rendimiento, donde Yi∗ es la nota nal obtenida en de-
terminado año de estudios escolares. Es necesario notar que en la muestra de

trabajo no se tienen observaciones de la distribución completa de Yi , sino solo

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
4.2. Variable de Truncamiento Incidental, Sesgo de Selección 65

de aquellas observaciones provenientes de estudiantes matriculados en una es-


cuela privada. Es decir, la variable dependiente observada Yi viene dada según:
Yi = Yi∗ si zi∗ > a. Esto implica que si bien E[yi∗ |xi wi ] = xi β , lo mismo no
ocurre para E[yi |xi wi ]. En particular, la esperanza condicional de interés viene
∗ ∗
dada por: E[yi |xi wi ] = E[yi |zi > a; xi wi ].

En este caso será necesario denir la densidad condicional de yi∗ dado zi∗
de la siguiente manera:

f (yi∗ , zi∗ |zi∗ > a)


f (yi∗ , zi∗ |zi∗ > a) =
P r(zi∗ > a)
y vericar sus propiedades a partir de lo siguiente.

Distribución truncada conjunta

Si dos variables (y, z) tienen una distribución normal bivariada, con medias
µy y µz , varianzas σy2 y σz2 y correlación ρyz (distinta de cero), entonces:

E[y|truncamientosobrez] = µy + ρyz σy λ(αz )


V ar[y|truncamientosobrez] = σy2 [1 − ρ2yz δ(αz )]
(a−µz )
Donde αz = σz
, y λ(.), la inversa del ratio de Mills, viene dada según:

f (αz )
λ(αz ) = 1−F (αz )
si el truncamiento es hacia abajo (z > a)
−f (αz )
λ(αz ) = si el truncamiento es hacia arriba (z ≤ a)
F (αz )
La función δ(.), por su parte, viene dada por δ(αz ) = λ(αz )[λ(αz ) − αz ],
donde 0 < δ(αz ) < 1.

Nótese que la media de la variable truncada incidentalmente se desplaza en


igual dirección que ρyz cuando el truncamiento es hacia abajo y en dirección
opuesta cuando (z ≤ a). La varianza se reduce cualquiera sea el caso ya que
δ(.) y ρ2yz están entre 0 y 1.

Si volvemos al ejemplo planteado y tomamos en cuenta los resultados así


como las especicaciones parazi∗ e yi∗ , repectivamente tenemos que:

E[yi |zi∗ > a; xi wi ] = E[yi∗ |zi∗ > a; xi wi ] = xi β + ρu σµ λ(αz )


a−wi γ αz
Donde: αz = σ
y λ(αz ) = 1−F (αz )
.

Vale la pena destacar varios elementos de la expresión anterior. En primer



lugar, es claro que E[yi |zi > a; xi wi ] 6= xi β , excepto cuanto ρµ = 0 o cuando
a → −∞. Es decir, no bastará con modelar la esperanza de nuestra variable

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
66 4. Modelos Truncados y Censurados

dependiente como una combinación lineal de sus determinantes si es que solo


es posible observarla efectivamente cuando el agente cumple con una caracte-
rística especial (no es cierto que a → −∞) y dicha característica inuye sobre
el resultado que estoy modelando (ρµ 6= 0).

Para el ejemplo considerado, preguntarse si ρµ 6= 0 equivale a preguntarse


si es que el hecho de estar matriculado en un colegio privado (la característica
especial que hace que una unidad sea parte de la muestra) inuye sobre el
rendimiento del estudiante (el fenómeno que se está modelando). Al respecto,
nuestra respuesta será armativa en la medida en que creamos que, además
de las características socieconómicas tipicamente observables (como la impor-
tancia que da el hogar a la acumulación del capital humano) que afecta tanto
a la decisión de qué tipo de colegio elegir como al rendimiento del niño en el
colegio. Estos no observables serán capturados en i y µi y el grado de direc-
ción en el que afecten ambos fenómenos (selección y rendimiento) vendrá dado,
precisamente por la correlación entre los dos términos de error (ρµ ) y su signo.

De considerar un sistema educativo como el peruano, donde la calidad de


educación básica privada es superior a la pública, cabria esperar una correla-
ción positiva: más importancia asignada a la acumulación de capital humano
por parte del hogar impactará positivamente tanto en la decisión de matricu-
la en una escuela privada (la posibilidad de observar al agente en la muestra
considerada) como en el rendimiento en la misma. En este sentido, lo que se
plantea es corregir al alza, la esperanza del rendimiento para tomar en cuenta
que se está trabajando con aquellos individuos que pertenecen a hogares espe-
cialmente preocupados por la educación de sus hijos.

Tan o más importantes que entender la corrección introducida sobre la


esperanza de la variable de interés, es entender el riesgo que corremos de omi-
tirla. Es claro que la corrección propuesta no es otra cosa que una variable
relevante más, cuya inclusión es necesaria para lograr una correcta especi-
cación de la media condicional de la variable dependiente. No incluirla, por
tanto, conduciria a los conocidos problemas asociados a la omisión de varia-
bles. En particular, tendríamos estimadores sesgados o para el caso de muestras
grandes, un estimador no consistente.

4.2.2. Estimación del Modelo de Truncamiento Inciden-


tal

La estimación del modelo de una variable dependiente con sesgo de selección


puede hacerse a través de dos alternativas:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
4.2. Variable de Truncamiento Incidental, Sesgo de Selección 67

a. MCO: Modelo de Heckit3 En este caso se usa también un procedimiento


de dos etapas, en la primera se estima la ecuación de selección, que
caracteriza la forma en que las observaciones son incluidas en la ecuación
principal. La segunda etapa consiste en estimar el modelo principal con
la muestra no truncada incidentalmente.

Primera Etapa Se estima la ecuación de selección utilizando una


variable auxiliar (zi ) de la forma:

(
1, si zi∗ > 0: Matriculado en colegio privado
zi =
0, si zi∗ ≤ 0: Matriculado en colegio público

Para ello se estima un probit que permitira obtener los parámetros


γ/σ , con los cuales se construyen α̂z y λ(α̂z ).
Segunda Etapa

En la segunda etapa se utiliza λ(α̂z ) para estimar por MCO el si-


guiente modelo:

yi = xi β + ρµ σµ λ(α̂z )

Es decir, regresionar yi sobre xi y λ(α̂z ).

Es necesario considerar que en la ecuación de selección se debe in-


cluir, por lo menos, una variable explicativa adicional que no esté
en la ecuación de interés. Si bien la inversa del ratio de Mills es
una función no lineal de las explicativas de la ecuación de selección,
frecuentemente se puede aproximar a través de una función lineal.
Por lo mismo, no incluir dicho regresor adicional podría llevar a que
la inversa del ratio de Mills esté altamente correlacionada con las
otras explicativas de la ecuación de interés.

b. Máxima Verosimilitud

Para estimar un modelo con sesgo de selección a través del metodo MV


es necesario considerar que se tiene dos tipos de información. Aquella
referida a las observaciones no truncadas, para las que se conoce la espe-
ranza condicional y aquella referida a las observaciones truncadas, para
las que se cuenta con la probabilidad de estarlo.

Entonces, la función de verosimilitud se construye considerando ambos


tipos de información:

3 Heckman (1979)

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
68 4. Modelos Truncados y Censurados

Y Y
L= P r(zi∗ > 0)f (yi |zi∗ > 0) P r(zi∗ ≤ 0)
zi∗ >0 zi∗ =0

Si tenemos en cuenta que:

f (yi )
f (yi |zi∗ > 0) =
P r(zi∗ > 0)

Por lo tanto podemos establecer la función de verosimilitud como:

Y Y
L= f (yi ) P r(zi∗ ≤ 0)
zi∗ >0 zi∗ =0

4.2.3. Efectos Marginales


Finalmente el efecto impacto de una variable explicativa que se encuentra
tanto en la ecuación de selección como en la de interés, sobre una dependiente
con truncamiento incidental, teniendo:

E[yi |zi∗ > a; xi , wi ] = xi β + ρµ σµ λ(α̂z )


donde

f (αz )
λ(αz ) =
1 − F (αz )
−wi γ
Si suponemos que a=0 tenemos además que
σ
y αz = λ(αz ) = Ff(−α
(αz )
z)
.
Entonces el impacto de un cambio en una variable explicativa xi sobre la media
de yi truncada incidentalmente seria:

∂E(yi |zi∗ > 0; xi , wi ) ∂λ(αz ) ∂αz


= βj + ρµ σµ
∂xij ∂αz ∂ij
 
γj 2
= βj + ρµ σµ [−αz λ(αz ) + λ(αz ) ] −
σ
ρµ σµ γj
= βj − [λ(αz )2 − αz λ(αz )]
σ

Donde el último corchete es igual a δ(αz ).

Recordando que la variable xj se encuentra en ambas ecuaciones, la de


selección y la de interés. Si ρµ es positivo y la esperanza de yi es mayor pa-

ra valores positivos de zi , como δ(αz ) se encuentra entre 0 y 1, el segundo
término que aparece restando a βj reduce el efecto impacto. El cambio en la

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
4.2. Variable de Truncamiento Incidental, Sesgo de Selección 69

probabilidad de que zi = 1 ante un cambio en xj afecta a la media de yi , ya


que en el grupo donde zi = 1 la media es más alta. Así el termino que resta a
βj compensa este efecto, dejando solo el efecto marginal de un cambio en xj

sobre la media de yi , dado que zi > 0.

Al igual que en el caso del truncamiento, βj se reere al efecto impacto


del j-esimo regresor sobre la media de la variable dependiente en toda la po-
blación. En otras palabras βj se reere al efecto impacto sobre el rendimiento
estudiantil, mientras que el resultado anterior se reere al efecto impacto sobre
el rendimiento en escuelas privadas de una varianle que afecta tanto al rendi-
miento como a la probabilidad de estudiar en una escuela de este tipo.

La corrección por truncamiento incidental no es solo relevante cuando nos


interesa conocer los efectos marginales para la muestra truncada. En muchos
casos el interés se concentra en determinar el valor del vector β y su estimación
requiere considerar la corrección por la inversa del ratio de Mills.

Por último, es necesario mencionar que en el caso de que las ecuaciones de


interés tengan especicaciones diferentes para ambos grupos. Esto equivale a
que el rendimiento de la escuela privada responda a un modelo distinto al de
la pública. En algunos casos será necesario estimar dos regresiones separadas
para cada uno, evaluando en ambas la corrección por el sesgo de selección
correspondiente.

*simulacion del modelo censurado


********************************
clear
set obs 1000
gen u = invnorm(uniform())
gen x = invnorm(uniform())
gen y = x + u
su
replace y=0 if y < 0
su
hist y
tw (sc y x, m(Oh) msize(small) ) (lfit y x, lw(thick))
reg y x
tobit y x, ll(0)
esttab, se

*** Proceso Generador de Datos ***

clear

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
70 4. Modelos Truncados y Censurados

set obs 1000


gen u = invnorm(uniform())
gen x = invnorm(uniform())
gen y = x + u
su

replace y=-2 if y < -2


replace y=2 if y > 2
su
hist y

*** Estimation ***

reg y x
tobit y x, ll(-2) ul(2)

*Simulacion modelo truncado


***************************
clear
set obs 1000
gen u = invnorm(uniform())
gen x = invnorm(uniform())
gen y = x + u
replace y = . if y > 0

replace y = . if y > 0
replace y = . if y>0
reg y x
truncreg y x , ul(0)

*Simulacion modelo con truncamiento incidental

clear
set obs 1000
gen u = invnormal(uniform())
gen v = 1 + u + invnormal(uniform())
gen x = invnormal(uniform())
gen z = invnormal(uniform())
gen d = (1 + x + z + v > 0)
gen ystar = 1 + x + u
gen y = ystar if d

heckman y x, select(d = z x)

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
4.2. Variable de Truncamiento Incidental, Sesgo de Selección 71

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
72 4. Modelos Truncados y Censurados

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
Sesión 5
Modelos de Variables
Instrumentales
Tres problemas a considerar:

Sesgo por omisión de variables (OV) no observadas (y, por tanto, no


incluidas en la regresión) que están correlacionadas con X;

Sesgo por causalidad simultánea (CS); es decir, X causa a Y e Y causa


a X;

Sesgo por errores en las variables (EV); es decir, medimos X con error.

La regresión VI puede eliminar los anteriores sesgos.

Yi = β0 + β1 ∗ Xi + µi

La regresión VI divide X en dos partes: una que puede estar correlacio-


nada con µ, y la otra que no. Aislando esta última, podremos estimar β1 .
Para ello, utilizaremos una variable instrumental, Zi , no correlacionada
con µi .

Para estimar β1 , la VI detecta aquellos movimientos en Xi que no están


correlacionados con µi .

5.0.1. Selección de los Instrumentos


Para que un instrumento Z sea válido, debe satisfacer las dos siguientes
condiciones:

Relevante: corr(Zi , Xi ) 6= 0

Exógeno: corr(Zi , ui ) = 0

73
74 5. Modelos de Variables Instrumentales

5.1. Estimación por MC2E


Este método consta de dos etapas - dos regresiones:

a. Primero se aísla la parte de X que no está correlacionada con u: regresión


de X sobre Z por MCO:

Xi = π0 + π1 Zi + vi

Como Zi no está correlacionada con µi , π0 + π1 Zi , tampoco lo estará con


µi . No conocemos π0 ó π1 pero sabemos estimarlos. Hallar las estimacio-
nes de Xi , X̂i , donde X̂i = π̂0 + π̂1 Zi , para i = 1,...,n.

b. Reemplazar Xi por X̂i en la regresión de interés, y estimar Y sobre X̂i


por MCO:

Yi = β0 + β1 X̂i + µi ....(2)

Como X̂i no está correlacionada con µi en muestras grandes, el prime-


ro de los supuestos MCO se cumple. Por tanto, β1 puede estimarse por
MCO en (2).
Éste es un argumento de muestras grandes (es decir π1 estarán bien π0 y
M C2E
estimadas en (1)) El estimador resultante es el MC2E, β̂1 .

Si disponemos de un instrumento válido, Zi ,


Etapa 1ra : Regresión de Xi sobre Zi , para obtener X̂i
da
Etapa 2 : Regresión de Yi sobre X̂i ; el coeciente de X̂i es el MC2E,
M C2E
β̂1 .

Entonces, β̂1M C2E es consistente de β1 .

Usemos la base de datos MROZ y empecemos a trabajar.

use MROZ, clear


describe

drop if inlf==0

regress lwage educ exper expersq

regress lwage educ exper expersq motheduc fatheduc huseduc

regress educ exper expersq motheduc fatheduc huseduc

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
5.1. Estimación por MC2E 75

Test de Hausman

Veamos el problema de endogeneidad

regress educ exper expersq motheduc fatheduc huseduc


predict edu_res, res
regress lwage educ exper expersq edu_res
test edu_res
ivreg lwage (educ = motheduc fatheduc huseduc) exper expersq
ivreg lwage (educ = motheduc fatheduc huseduc) exper expersq, first

MC2E Primera etapa: Ecuación reducida para EDUC:

regress educ exper expersq motheduc fatheduc huseduc


predict edu_pre, xb

Segunda etapa: Ecuación estructural usando edu_pre en lugar de educ

regress lwage edu_pre exper expersq

ivreg lwage (educ = motheduc fatheduc huseduc) exper expersq


ivendog

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
76 5. Modelos de Variables Instrumentales

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
Sesión 6
Modelos Panel
6.1. Introducción a la Estimación de los Mode-
los de Datos Panel
6.1.1. Preparando la base de datos
use nlswork1.dta, clear

Un aspecto inicial que se debe tener en cuenta para estimar modelos de


datos de panel con Stata, es la forma en la que se encuentra ordenada la
base de datos. Por ejemplo, si se cuenta con una base de datos que contenga
información ordenada de la siguiente manera (forma ancha o wide form):

Figura 6.1:

Para estimar modelos de datos de panel en Stata, es necesario tener la


información ordenada de forma larga (long form) tal como se muestra en el
cuadro siguiente:
Esto es posible haciendo uso del comando reshape en nuestro ejercicio:

reshape wide birth_yr age race msp nev_mar grade collgrad not_smsa \\\
city south ind_code occ_code union wks_ue ttl_exp tenure hours \\\
wks_work ln_wage, i(idcode) j(year)

reshape long birth_yr age race msp nev_mar grade collgrad not_smsa \\\
c_city south ind_code occ_code union wks_ue ttl_exp tenure hours \\\
wks_work ln_wage, i(idcode) j(year 68 69 70 71 72 73 74 75 76 77 \\\
78 79 80 81 82 83 84 85 86 87 88)

77
78 6. Modelos Panel

Figura 6.2:

La base de datos a usar es nlswork1.dta , la cual contiene información de una


muestra de datos de panel para 4,711 mujeres empleadas, que han completado
su educación y con salarios mayores a US$1 por hora pero menores a $700,
para un período de 20 años (1968-1988) en los Estados Unidos.
A través del comando describe podemos observar todas las variables que
contiene la base de datos nlswork1.dta Antes de estimar un modelo de datos
de panel, se deben identicar las variables que representan a los individuos y
a las observaciones.

iis idcode
tis year

generate age2=age^2
generate ttl_exp2=ttl_exp^2
generate tenure2=tenure^2
generate byte black=race==2

6.1.2. Estimando mi Primer Panel


Veamos unos cuantos comandos de estimación.

xtreg ln_wage grade age* ttl_exp* tenure* black \\\


not_smsa south, be

xtreg ln_wage grade age* ttl_exp* tenure* black \\\

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
6.2. Diagnostico y Especicación de los Modelos Panel 79

not_smsa south, fe

xtreg ln_wage grade age* ttl_exp* tenure* black \\\


not_smsa south, re theta

xtreg ln_wage grade age* ttl_exp* tenure* black \\\


not_smsa south, mle

xthausman

6.2. Diagnostico y Especicación de los Modelos


Panel
Utilizaremos la base panelusa50-89.dta para estimar el impacto de las va-
riables políticas y sociodemográcas en el nivel de gasto estatal (spend) en los
Estados Unidos durante el periodo 1950-1989.

6.2.1. Controlando la Heterogeneidad dentro de un Panel


Regresión Agrupada - Pool

El enfoque más simple de analizar datos tipo panel es omitir las dimensiones
del espacio y el tiempo de los datos agrupados y sólo calcular la regresión MCO
usual. Este modelo se expresa como:

Yit = α + β ∗ Xit + eit


Donde i signica la i-ésima unidad transversal (estado) y t el tiempo t (año).
Si tratamos de explicar la variable spend con las variables independientes de la
clase pasada, basta con que indiquemos en la ventana de comandos de Stata:

reg spend dem* divgov dis1 persinc* aper* popul*

Efectos Aleatorios

La ecuación (1) supone que el intercepto de la regresión es la misma para


todas las unidades transversales. Sin embargo, es muy probable que necesi-
temos controlar el carácter individual de cada estado. El modelo de efectos
aleatorios permite suponer que cada unidad transversal tiene un intercepto
diferente. Este modelo se expresa como:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
80 6. Modelos Panel

Yit = αi + β ∗ Xit + eit


Donde αi = α+µi . Es decir, en vez de considerar a α como ja, suponemos
que es una variable aleatoria con un valor medio αy una desviación aleatoria
µi de este valor medio. Sustituyendo αi = α + µi en la ecuación anterior
obtenemos:

Yit = α + β1 X1it + µi + eit


Stata estima el modelo de efectos aleatorios con el comando xtreg, re. En
nuestro ejemplo, indicamos en la ventana de comandos:

xtreg spend dem* divgov dis1 persinc* aper* popul*, re


Analicemos la ecuación anterior, y observaremos que si la varianza de µi
2
es igual a cero, es decir σu = 0, entonces no existe ninguna diferencia relevan-
te entre un Pool y EA. ¾Cómo podemos saber si es necesario usar el modelo
de efectos aleatorios o el de datos agrupados? Breusch y Pagan formularon
la prueba conocida como Prueba del Multiplicador de Lagrange para Efectos
2
Aleatorios. La hipótesis nula de esta prueba es que σu = 0. Si la prueba se
rechaza, sí existe diferencia entre un Pool y un modelo de EA, y es preferible
usar el método de efectos aleatorios. La prueba de Breusch y Pagan se imple-
menta en Stata con el comando xttest0 después de la estimación de efectos
aleatorios.

xtreg spend dem* divgov dis1 persinc* aper* popul*, re


xttest0

Figura 6.3:

El p-value nos indica que podemos rechazar la Ho; por lo tanto, los efec-
tos aleatorios µi son relevantes y es preferible usar la estimación de efectos
aleatorios en vez de la agrupada.
Efectos Fijos

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
6.2. Diagnostico y Especicación de los Modelos Panel 81

Otra manera de modelar el carácter individual de cada estado es a través


del modelo de efectos jos. Este modelo no supone que las diferencias entre
estados sean aleatorias, sino constantes o jas, y por ello debemos estimar
cada intercepto µi . ¾Cómo podemos permitir que el intercepto varíe con res-
pecto a cada estado? Una manera es la técnica de las variables dicotómicas
de intersección diferencial, que se expresa de la siguiente manera:

Yit = υi + β ∗ Xit + eit


Donde υi es un vector de variables dicotómicas para cada estado. El modelo
de efectos jos puede ejecutarse en Stata con el comando:

xi: reg spend dem* divgov dis1 persinc* aper* popul* i.stcode

El cual estima una dummy para cada estado. Una opción más sencilla es
el comando xtreg:

xtreg spend dem* divgov dis1 persinc* aper* popul*, fe

¾Cuál de los modelos, el Pool o el de EF es mejor? En relación con el modelo


de EF, el Pool es un modelo restringido, pues asume un intercepto común para
todos los estados (es decir, no incluye variables dicotómicas estatales). Por lo
tanto, podemos utilizar una prueba F restrictiva para contestar la cuestión. La
hipótesis nula es que υ1 = υ2 = υ3 = ... = υi = 0 (o sea, que todas las variables
dicotómicas estatales son iguales cero). Si la prueba se rechaza, signica que
al menos algunas variables dicotómicas sí pertenecen al modelo, y por lo tanto
es necesario utilizar el método de efectos jos. La prueba F de signicancia
de los efectos jos se reporta automáticamente con el comando xtreg, fe. (La
prueba aparece al nal de la estimación de EF)

El p-value nos indica que podemos rechazar la Ho, por lo que es preferible
usar el método de efectos jos al modelo agrupado.

Efectos Fijos vs. Efectos Aleatorios

Las pruebas de Breusch y Pagan para efectos aleatorios, y la prueba F


de signicancia de los efectos jos nos indican que tanto el modelo de efec-
tos aleatorios como el de efectos jos son mejores que el modelo agrupado.
¾Pero cómo decidir cuál de los dos usar? La respuesta depende de la posible
correlación entre el componente de error individual µi y las variables X. El
modelo de efectos aleatorios supone que esta correlación es igual a cero. Pero
supongamos que en nuestro ejemplo, µi representa las reglas electorales esta-
tales que favorecen a cierto partido (por ejemplo, gerrymandering); entonces
es muy probable que µi se correlacione con las variables partidarias de nuestro

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
82 6. Modelos Panel

modelo. Si las µi y las variables X están correlacionadas, entonces no incluir


µi en el modelo producirá un sesgo de variable omitida en los coecientes de
X. Hausman demostró que la diferencia entre los coecientes de efectos jos
y aleatorios (βef − βea ) pude ser usada para probar la hipótesis nula de que
µi y las variables X no están correlacionadas. Así pues, la Ho de la prueba
de Hausman es que los estimadores de efectos aleatorios y de efectos jos no
dieren sustancialmente. Si se rechaza la Ho, los estimadores sí dieren, y la
conclusión es; que efectos jos es más conveniente que efectos aleatorios. Si no
podemos rechazar Ho, no hay sesgo de qué preocuparnos y preferimos efectos
aleatorios que, al no estimar tantas dummies, es un modelo más eciente. La
prueba de Hausman se implementa en Stata después de la regresión con efectos
aleatorios con el comando xthausman:

xtreg spend dem* divgov dis1 persinc* aper* popul*, re


xthausman

Figura 6.4:

En nuestro ejemplo, la Ho se rechaza; es decir, la diferencia entre los co-


ecientes de efectos aleatorios y jos sí es sistemática. Por lo tanto, conviene
usar el método de efectos jos.

Efectos Temporales (Two-Way Fixed Eects)

La incorporación de variables dicotómicas estatales permite modelar carac-


terísticas de las unidades transversales (estados) que no cambian en el tiempo
pero que sí afectan el resultado de interés. Ahora bien, también es posible agre-
gar variables dicotómicas temporales a nuestro modelo, es decir, una para cada
año en la muestra, que capturen eventos comunes a todos los estados duran-
te un período u otro, como una gran depresión o guerra mundial. Agregando
efectos temporales, la ecuación de EF se transforma en:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
6.2. Diagnostico y Especicación de los Modelos Panel 83

Yit = υi + ηt + β ∗ Xit + eit


Donde ηt representa un vector de variables dicotómicas para cada año.
Estas variables dicotómicas permitirán controlar por aquellos eventos a los
que fueron sujetos todos los estados en un año dado y, al igual que los efectos
jos, pueden reducir sesgos importantes. En Stata podemos incorporar efectos
temporales a nuestro modelo de efectos jos con el comando xi.

xi: xtreg spend dem1 demmaj1 demgov divgov dis1 persinc* \\\
aper* popul* i.year, fe

O bien, generando tanto las dummies de estado como de año,

xi: reg spend dem1 demmaj1 demgov divgov dis1 persinc* aper* \\
popul* i.stcode i.year

Al igual que con los efectos estatales, podemos realizar una prueba F para
conocer la signicancia conjunta de las variables dicotómicas temporales en
nuestro modelo. La hipótesis nula es que η1 = η2 = ... = ηt = 0 . En nuestro
ejemplo, luego de estimar un modelo con efectos jos estatales y temporales,
indicamos en la ventana de comando:

testparm _Iyear_1951 - _Iyear_1989

El p-value de la prueba F nos indica que rechazamos la Ho, por lo que es


posible armar que las variables dicotómicas temporales son conjuntamente
signicativas y pertenecen al modelo.

Autocorrelación

Es importante señalar que aún cuando hemos modelado la heterogeneidad


temporal y espacial en nuestro modelo, la ecuación anterior puede estar mal
especicada en otros aspectos. Recordemos que de acuerdo con los supuestos
de Gauss-Markov, los estimadores de OLS son los Mejores Estimadores Linea-
les Insesgados (MELI) siempre y cuando los errores eit sean independientes
entre si y se distribuyan idénticamente con varianza constante σ 2 . Desafortu-
nadamente, con frecuencia estas condiciones son violadas en datos panel: la
independencia se viola cuando los errores de diferentes unidades están corre-
lacionados (correlación contemporánea), o cuando los errores dentro de cada
unidad se correlacionan temporalmente (correlación serial), o ambos. A su
vez, la distribución idéntica de los errores es violada cuando la varianza no
es constante (heterocedasticidad). En esta sección abordaremos al problema de
la correlación serial o autocorrelación; es decir, cuando los errores eit no son
independientes con respecto al tiempo. En nuestro ejemplo, es muy probable

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
84 6. Modelos Panel

que el nivel de gasto en t esté asociado con el nivel de gasto en t-1.

Existen muchas maneras de diagnosticar problemas de autocorrelación. Sin


embargo, cada una de estas pruebas funciona bajos ciertos supuestos sobre la
naturaleza de los efectos individuales. Wooldridge desarrolló una prueba muy
exible basada en supuestos mínimos que puede ejecutarse en Stata con el
comando xtserial. La hipótesis nula de esta prueba es que no existe autoco-
rrelación; naturalmente, si se rechaza, podemos concluir que ésta sí existe. El
comando xtserial requiere que se especiquen la variable dependiente e inde-
pendientes de nuestro modelo. En nuestro ejemplo, indicamos:

xtserial spend dem1 demmaj1 demgov divgov dis1 persinc* \\\


aper* popul*, output

Figura 6.5:

La prueba nos indica que tenemos un problema de autocorrelación que


es necesario corregir. Una manera de hacerlo es a través de un modelo de
efectos jos con término (ρ) autorregresivo de grado 1 (AR1) que controla por
la dependencia de t con respecto a t-1. El modelo AR1 con efectos jos se
especica de la manera:

Yit = υi + β ∗ X1it + eit


donde eit = ρei,t−1 +ηit , es decir, los errores tienen una correlación de primer
grado, ρ. El modelo AR1 es fácilmente ejecutable en Stata con el comando
xtregar:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
6.2. Diagnostico y Especicación de los Modelos Panel 85

xtregar spend dem* divgov dis1 persinc* aper* popul*, fe

Heterocedasticidad

Cuando la varianza de los errores de cada unidad transversal no es cons-


tante, nos encontramos con una violación de los supuestos Gauss-Markov. Una
forma de saber si nuestra estimación tiene problemas de heterocedastidad es
a través de la prueba del Multiplicador de Lagrange de Breusch y Pagan. Sin
embargo, de acuerdo con Greene, ésta y otras pruebas son sensibles al supuesto
sobre la normalidad de los errores; afortunadamente, la prueba Modicada de
Wald para Heterocedasticidad funciona aún cuando dicho supuesto es violado.
La hipótesis nula de esta prueba es que no existe problema de heteroscedasti-
2 2
cidad, es decir, σi = σ para toda i = 1...N , donde N es el número de unidades
transversales (estados en nuestro ejemplo). Naturalmente, cuando la Ho se
rechaza, tenemos un problema de heteroscedasticidad. Esta prueba puede im-
plementarse en Stata con el comando xttest3 después de estimar el modelo de
efectos jos:

xtreg spend dem* divgov dis1 persinc* aper* popul*, fe


xttest3

La prueba nos indica que rechazamos la Ho de varianza constante y acep-


tamos la Ha de heteroscedasticidad. Antes de abordar cómo solucionar nuestro
problema de heteroscedastidad, resulta conveniente analizar otro problema que
surge de la estimación con datos tipo panel.

Correlación Contemporánea

Las estimaciones en datos panel pueden tener problemas de correlación


contemporánea si las observaciones de ciertas unidades están correlacionadas
con las observaciones de otras unidades en el mismo periodo de tiempo. Co-
mo discutimos en la sección sobre heterogeneidad, las variables dicotómicas de
efectos temporales se incorporan al modelo para controlar por los eventos que
afectan por igual a todas las unidades (estados) en un año dado. La correlación
contemporánea es similar, pero con la posibilidad de algunas unidades estén
más o menos correlacionadas que otras. El problema de correlación contempo-
ránea se reere a la correlación de los errores de al menos dos o más unidades
en el mismo tiempo t. En otras palabras, tenemos errores contemporáneamen-
te correlacionados si existen características inobservables de ciertas unidades
que se relacionan con las características inobservables de otras unidades. Por
ejemplo, los errores de dos estados pueden relacionarse pero mantenerse inde-
pendientes de los errores de los demás estados. En nuestro ejemplo, una fuerte
helada podría afectar a los estados agrícolas, disminuyendo la producción y
por tanto el ingreso (que se asocia con nuestra variable dependiente spend).

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
86 6. Modelos Panel

Pero este efecto probablemente no se manieste en los estados no agrícolas.

El comando xttest2 de Stata ejecuta la prueba de Breusch y Pagan para


identicar problemas de correlación contemporánea en los residuales de un mo-
delo de efectos jos. La hipótesis nula es que existe independencia transversal
(cross-sectional independence); es decir, que los errores entre las unidades son
independientes entre sí. Si la Ho se rechaza, entonces existe un problema de
correlación contemporánea. El comando xttest2 se implementa después de un
modelo de efectos jos. En nuestro ejemplo:

xtreg spend dem* divgov dis1 persinc* aper* popul*, fe


xttest2
Si el p-value del estadístico χ2 indica que podemos rechazar la Ho; enton-
ces, también sera necesario corregir el problema de correlación contemporánea.

Solución a la Autocorrelación, Heterocedasticidad y Autocorrelación


Contemporanea

Los problemas de correlación contemporánea, heteroscedasticidad y au-


tocorrelación que hemos examinado pueden solucionarse conjuntamente con
estimadores de Mínimos Cuadrados Generalizados Factibles (Feasible Gene-
ralizad Least Squares ó FGLS), o bien con Errores Estándar Corregidos para
Panel (Panel Corrected Standard Errors ó PCSE). Beck y Katz (What to do
(and not to do) with time-series cross-section data, 1995) demostraron que los
errores estándar de PCSE son más precisos que los de FGLS. Desde entonces,
muchos trabajos en la disciplina han utilizado PCSE en sus estimaciones para
panel.

Stata ejecuta FGLS y PCSE con los comandos xtgls y xtpcse. Las opciones
que ofrecen estos comandos dependen de los problemas detectados en las prue-
bas que hemos revisado. La Tabla Resumen presenta los comandos que puedes
ejecutar cuando te enfrentes con problemas de correlación contemporánea, he-
teroscedasticidad y autocorrelación, y sus combinaciones. La Tabla Resumen
se lee de la siguiente manera: si tus pruebas sólo detectaron problemas de hete-
roscedasticidad, entonces el comando es xtgls[...], p(h)xtpcse[...], het. Si tienes
problemas de heterocedasticidad y correlación contemporánea, los comandos
son xtgls[...], p(c) ó xtpcse[...], etc. Estos comandos no calculan automática-
mente efectos jos, por lo que en caso de ser necesario, tendrás que introducir
variables dicotómicas con el comando xi.

En nuestro ejemplo sobre el gasto estatal, hemos detectado problemas de


heterogeneidad, heteroscedasticidad, correlación contemporánea y autocorre-
lación. Para corregir estos problemas ejecutamos el comando:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
6.2. Diagnostico y Especicación de los Modelos Panel 87

xi: xtgls spend dem1 demmaj1 demgov divgov dis1 persinc* aper* \\\
popul* i.stcode i.year, panels (correlated) correlation(ar1)

ó el comando:

xi: xtpcse spend dem1 demmaj1 demgov divgov dis1 persinc* aper* \\\
popul* i.stcode i.year, correlation(ar1)

Figura 6.6: Cuadro Resumen

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
88 6. Modelos Panel

RETO 3

a. En el modelo de crecimiento aleatorio:

Yit = αi + gi t + xit ∗ β + it

A este modelo también se le conoce como el modelo de tendencia aleato-


ria, es decir, cada rma, ciudad o persona tiene su propia tendencia. Esta
tendencia es una fuente adicional de heterogeneidad. Si yit es el logaritmo
natural de una variable, entonces gi sería la tasa de crecimiento promedio
en el horizonte temporal evaluado, de ahí que se le conoce también como
el modelo de crecimiento aleatorio. En muchas aplicaciones se asume que
(αi ∗gi ) están altamente correlacionados con las variables explicativas xit .

Aplicar este modelo de crecimiento aleatorio a la base de datos JTRAIN1.DTA


El objetivo es estimar el efecto de otorgar becas de estudio al trabajador
en relación a su nivel de productividad medido inversamente por el ratio
1
de desperdicios (scrap).

Ln(scrapit ) = αi + gi t + β1 ∗ grantit + β2 ∗ grantit−1 + it

Estime el modelo propuesto por efectos jos, sustente su elección


ante un modelo de efectos aleatorios y ante un modelo de efectos
agregados y analice los resultados.

Analizar la autocorrelación, heterocedasticidad y autocorrelación


contemporanea del panel.

Aplicar el modelo de efectos jos al modelo en primeras diferencias.


Discuta los resultados.

1 La variable t es compuesta por una variable dummy d88 y d89.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
Sesión 7
Panel Dinámico
Los datos de panel dinámicos constituyen hoy en día un terreno economé-
trico de basta extensión pero ampliamente explorado; los desarrollos en los
últimos años han sido muchos y han permitido sistematizar los procesos de
estimación e inferencia. En especial, se dedicará mayor detalle a la técnica de
estimación del Método Generalizado de Momentos, aproximación que, puede
considerarse como la más completa de las disponibles hasta a fecha.

7.1. Heterogeneidad de los paneles de datos


Desde los trabajos iniciales de Balestra y Nerlove (1966), los modelos di-
námicos han jugado un importante papel en el análisis empírico con datos de
panel en economía. Dada la escasa dimensión temporal exhibida por la ma-
yor parte de paneles tradicionalmente disponibles, el énfasis se ha puesto en
modelos con dinámica homogénea, dejándose relativamente al margen, hasta
hace bien poco, al análisis de paneles dinámicos heterogéneos. Sin embargo,
desde hace una década, han ido apareciendo un buen número de conjuntos
de datos de panel con amplia cobertura de empresas, regiones y países y un
número relativamente largo de observaciones temporales. La disponibilidad de
estos seudo - paneles ha elevado el interés por analizar la conveniencia de esa
homogeneidad en la dinámica supuesta en el análisis tradicional de datos de
panel, al tiempo que ha permitido centrar los esfuerzos de análisis en la di-
mensión temporal de los paneles y su tratamiento.

La extensión natural del modelo dinámico de series temporales a un con-


junto de datos de panel presenta inicialmente importantes limitaciones. Dado
que en el análisis de datos de panel convencional, se asume generalmente que
el tamaño de la dimensión temporal T es jo (y reducido) mientras que el
número de observaciones transversales tiende a innito, uno debe agrupar da-
tos de diferentes unidades para estimar sus parámetros, un procedimiento que
impone necesariamente que la estructura subyacente sea la misma para todos
los individuos. Esta restricción puede resultar claramente irreal . Una prime-

89
90 7. Panel Dinámico

ra forma de relajar esta limitación es considerar efectos individuales, lo que


en la práctica se traduce en incluir términos independientes especícos en la
ecuación de regresión. Los cambios en el término independiente de un vector
autorregresivo estacionario signican cambios en las medias de las variables,
de modo que permitir efectos jos viene a ser lo mismo que admitir hetero-
geneidad en los niveles de las variables consideradas. Una segunda forma de
añadir heterogeneidad a los procesos subyacentes es permitir que la varianza de
la perturbación aleatoria del modelo dinámico varíe de unas unidades a otras.
Los cambios en las varianzas de los términos innovacionales de un vector
autorregresivo estacionario signican cambios en las varianzas de las variables,
por lo que permitir la heterocedasticidad transversal, es permitir heterogenei-
dad en la dinámica de las variables incluidas (ya no sólo en sus niveles).

La consideración de la heterogeneidad en un modelo de datos de panel es


especialmente incómoda en el momento en el que la dinamicidad se incorpora
de forma explícita a los modelos. Entre otras causas, la presencia de dinámicas
heterogéneas (idiosincrásicas) en los distintos individuos de un panel contribu-
ye, como se verá más adelante, a la obtención de contrastes de estacionariedad
y/o cointegración con inadecuadas propiedades asintóticas. Por otro lado, re-
sulta evidente que la renuncia completa a cualquier indicio de heterogeneidad,
nos llevaría a plantearnos el porqué de la agregación de individuos para la
construcción de un panel.

Seguramente el único lugar habitable se encuentre en el punto de equili-


brio en el que se combine una dosis de homogeneidad suciente que permita
aprovechar las ventajosas propiedades de los contrastes en el caso de un pa-
nel de datos, con un nivel de heterogeneidad transversal suciente como para
enriquecer el mero análisis temporal.

7.2. Estimación intragrupo de modelos dinámi-


cos de datos de panel
Las regresiones dinámicas de datos de panel presentan dos fuentes de per-
sistencia a lo largo del tiempo: la autocorrelación debida a la presencia de la
endógena retardada entre los regresores y la debida a los efectos individuales
que resumen la heterogeneidad entre individuos.
La especicación más sencilla con la que representar un modelo dinámico
de datos de panel es la siguiente:

Yit = µi + α ∗ Yit−1 + it


En el análisis convencional dinámico de datos de panel micro, en el que se cuen-
ta con observaciones de un número elevado de empresas, sectores o individuos

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
7.2. Estimación intragrupo de modelos dinámicos de datos de panel
91

a lo largo de un breve espacio temporal3 son bien conocidos los problemas


derivados de la utilización de procedimientos clásicos para paneles estáticos
como el estimador intragrupos (IG): inconsistencia y sesgo asintótico.
Efectivamente, Nickell (1981) derivó la expresión exacta de ese sesgo para
el caso general de el modelo autorregresivo de orden uno sin exógenas repre-
sentado más arriba conrmando los resultados experimentales de Monte Carlo
obtenidos previamente por Nerlove (1967) para el caso de un modelo sin exóge-
nas, y por Maddala (1971) para el caso de un modelo completo. El sesgo, en
el caso en que utilizásemos sólo una sección transversal para la estimación por
MCO en desviaciones a la media, es una compleja función del tamaño muestral
T y el verdadero valor del parámetro autorregresivo α:

(1 − αT )
 
−(1 − α) T −t
plim(α̂ − α) = 1−α −αt−1
+ ∗ Φ−1
T −1 T (1 − α)
(1 − αT )
  
2α t−1 T −t
Φ= 1− 1−α −α +
(T − 1)(1 − α) T (1 − α)
Esta expresión permite observar, en primer lugar, que para todo alpha > 0
el sesgo es negativo, en segundo lugar, que ese sesgo depende (y por tanto
varía) con el corte transversal t elegido, siendo menor para los cortes situados
en los extremos del intervalo muestral que para aquellos situados en el medio
de la muestra.
En el caso en que utilizásemos la muestra completa para la estimación por
MCO del modelo en diferencias con respecto a la media, la expresión de este
sesgo toma la forma:

−1
(1 − αT ) (1 − αT )
  
−(1 − α) 2α
plim(α̂−α) = 1− 1− 1−
T −1 T (1 − α) (T − 1)(1 − α) T (1 − α)
expresión que, para valores extremos de T, puede simplicarse de forma
notable:

−(1 − α)
plim(α̂ − α) =
T −1
para valores de T razonablemente elevados.
La única ventaja del procedimiento de estimación intragrupo es que el sesgo
no depende del componente de heterogeneidad transversal µi mientras que, en
el caso de la estimación del modelo por MCO en niveles, el sesgo sería:

λ
plim(α̂ − α) =
λ(1 − α) + (1 + α)
donde λ = σu2 /σ 2 , , haciendo evidente que la estimación depende de σu2 (la
dispersión de los efectos µi en la población).

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
92 7. Panel Dinámico

Gracias a estas expresiones puede observarse con sencillez cómo, en la ma-


yor parte de los paneles micro ampliamente utilizados en la realidad, el tra-
tamiento de la heterogeneidad inobservable por la vía tradicional provocará
un sesgo muy importante que impedirá cualquier tipo de inferencia sobre el
parámetro autorregresivo α. Por ejemplo, para el caso en que α = 0,25 y T=10
(y nótese que T=10 es un tamaño aceptable en un panel micro), el sesgo al-
canzaría un valor en torno a 0.21, esto es, más de un 80 % del verdadero valor
del parámetro.

Por último, si se considera además la presencia de variables exógenas Xijt,


los resultados señalan que el sesgo en valor absoluto en la estimación del pará-
metro autorregresivo α será todavía mayor que en el caso en que las variables
Xijt se omitan. Así mismo, la estimación del parámetro o vector de paráme-
tros b será también sesgada, siendo ese sesgo tanto más amplio cuanto mayor
sea la relación entre las variables exógenas Xijt y el retardo de la endógena yt−1 .

Recientemente, analizando las propiedades del estimador tradicional de


efectos jos en el contexto de un modelo dinámico simple, Kiviet (1995 y 1999),
consciente de que las propiedades asintóticas de primer orden no conducían a
una inferencia correcta en muestras pequeñas, examinó contextos asintóticos
de orden superior con la esperanza de que pudieran aproximar mejor las pro-
piedades en muestras pequeñas conduciendo a una mejora en los ejercicios de
inferencia. Kiviet consideró un modelo dinámico simple sin autocorrelación re-
sidual y con exogeneidad estricta en los regresores y derivó el tamaño del sesgo
para el estimador de efectos jos. Una vez que se sustrae de este estimador de
efectos jos otro estimador consistente del sesgo, resulta un nuevo estimador
corregido que parece funcionar relativamente bien si se compara con algunas de
las alternativas más tradicionales, como el Método Generalizado de Momentos,
que será resumido más adelante.

Por otro lado, otros estudios también recientes, como los de Judson y Owen
(1999), invitan a seguir utilizando el estimador de efectos jos en paneles en
los que la dimensión temporal no sea muy pequeña con relación a la transver-
sal, argumentando que el sesgo, en este caso, no habría de ser considerable.
Los experimentos de Monte Carlo en este sentido sugieren que, incluso con
un número aproximado de 30 observaciones temporales, el sesgo del estimador
de efectos jos no superaría, en el peor de los casos (es decir, en presencia de
un parámetro autorregresivo elevado) el 20 % del verdadero valor del paráme-
tro. Los experimentos de estos dos autores sirvieron para recomendar, como
mejor alternativa, la modicación de Kiviet seguido del estimador de Método
Generalizado de Momentos y, por último, el estimador simple de Anderson -
Hsiao.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
7.3. Alternativas de estimación de modelos dinámicos con datos de
panel 93

7.3. Alternativas de estimación de modelos di-


námicos con datos de panel
7.3.1. Enfoque simple de máxima verosimilitud
Los problemas descritos, muy similares a los problemas clásicos de paráme-
tros incidentales encontrados por Neyman y Scott (1948) y revisados en otros
contextos econométricos por Lancaster (1998), han sido afrontados desde dis-
tintos puntos de vista aparentemente distintos pero que, en realidad, pueden
conectarse con cierta sencillez.

Una primera alternativa consiste en tratar los parámetros relativos a los


efectos jos µi como variables aleatorias cuyas distribuciones pertenezcan a
una familia de parámetros de dimensión nita. Dependiendo de las distintas
especicaciones de la distribución conjunta de los parámetros µi e yi0 (ob-
servaciones iniciales del proceso autorregresivo), se podrían plantear distintas
funciones de verosimilitud para las que los correspondientes estimadores má-
ximo verosímiles (MV) se muestran consistentes en términos generales.

Este procedimiento de estimación por máxima verosimilitud normal pre-


senta, como principal problema, el requerir fuertes requisitos en torno a las
distribuciones de los efectos jos µi y, sobre todo, de las condiciones iniciales
yi0 . Concretamente, las propiedades de los estimadores resultantes son muy
sensibles a estas condiciones iniciales, condiciones establecidas sin que, como
señalan Arellano y Bover (1990), normalmente el inicio del período muestral
coincida con el inicio del proceso dinámico, ni usualmente pueda disponerse
de información a priori sobre el punto de partida. Por otro lado, como segun-
do inconveniente, la aplicación del método requiere frecuentemente cálculos
complejos.

7.3.2. Enfoque de variables instrumentales: estimador sim-


ple de Anderson - Hsiao
Un método alternativo para evitar los problemas de sesgo en la estima-
ción de modelos dinámicos consiste en utilizar una aproximación de variables
instrumentales. Uno de los estimadores más utilizados y que con mayor senci-
llez ilustran el procedimiento de variables instrumentales en este contexto es
el denominado estimador AH (Anderson - Hsiao). Para exponer su morfolo-
gía supongamos un panel de datos con T=3 que permita reducir el sistema
dinámico a 2 ecuaciones en niveles:

yi2 = µi + αyi1 + i2

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
94 7. Panel Dinámico

yi3 = µi + αyi2 + i3

A partir de esta especicación en niveles se plantea, para eludir la presencia


de la heterogeneidad transversal, la forma en diferencias para la que, en este
caso, el sistema quedaría reducido ahora a una sola ecuación:

4yi3 = α4yi2 + 4i3

Como queda dicho, el problema básico de cara a la estimación del parámetro


autorregresivo α por MCO en esta ecuación, es la existencia de correlación entre
4yi2 y 4yi3 . La estimación de variables instrumentales, exigirá encontrar un
instrumento incorrelacionado con 4i2 y, sin embargo, correlacionado con la
variable a la que deberá sustituir (4yi2 ). El instrumento seleccionado, en este
caso, será el valor del nivel yi1 , ya que, guardando relación por construcción
con 4yi2 = yi2 − yi1 , no estará sin embargo correlacionado con yi3 En este
caso (para T=3) el modelo estaría exactamente identicado al contar con una
variable instrumental (una condición de ortogonalidad) para la estimación de
un solo parámetro.

PN
i=1 yi1 [yi3 − yi2 ]
α̂AH = PN
i=1 yi1 [yi2 − yi1 ]

Este estimador es, en realidad, observacionalmente equivalente al estimador


de máxima verosimilitud que considerase la función de densidad condicional de
las observaciones tomando como condición inicial para el proceso, la primera
observación disponible (yi1 ).

En general, sin embargo, la utilización de un enfoque de variables instru-


mentales implicará una pérdida de eciencia respecto al caso de máxima vero-
similitud. Una reciente ilustración de los términos de este intercambio puede
encontrarse en Wansbeek y Bekker (1996). Los autores consideraron un mo-
delo dinámico simple sin regresores exógenos y con perturbaciones y efectos
jos independientes y normalmente distribuidos. Sobre la base de este modelo
derivaron la expresión para el estimador de variables instrumentales óptimo,
es decir, aquel que presentaba una varianza asintótica mínima. Los resultado
revelaron las importantes diferencias en eciencia entre el enfoque de varia-
bles instrumentales y el de máxima verosimilitud: los autores encontraron que,
para regiones del parámetro autorregresivo que son verosímiles en la práctica,
el estimador máximo verosímil es superior. Bien es cierto que la diferencia en
eciencia puede ser reducida siempre que se consideren restricciones no lineales
de momentos similares a las propuestas por Ahn y Schmidt (1995).

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
7.3. Alternativas de estimación de modelos dinámicos con datos de
panel 95

7.3.3. Método generalizado de momentos


A principios de los 80, y como generalización del método de variables ins-
trumentales, se propone el método generalizado de momentos (MGM ó GMM).
Siendo Arellano y Bond (1991), quienes proponen inicialmente el procedimien-
to del Método Generalizado de Momentos como alternativa más eciente a la
aproximación simple de Anderson - Hsiao.

La idea consiste en afrontar la estimación combinando diversos instrumen-


tos en torno a un único vector numérico de coecientes, que logre que corre-
laciones muestrales mínimas entre el término de error y cada uno de los ins-
trumentos. Para la selección de instrumentos, GMM utiliza la información que
las teorías económicas o el proceso generador de datos subyacente determinan
sobre las condiciones los momentos poblacionales. Así, partiendo de determi-
nadas asunciones sobre el proceso generador de datos del modelo dinámico de
datos de panel, pueden encontrarse condiciones relativas a los momentos pobla-
cionales sobre los que construir un estimador GMM eciente que sea además
consistente y asintóticamente normal. Dependiendo de las denición de las
condiciones relativas a los momentos, son factibles varias formas del estimador
GMM (Arellano y Bond (1991), Chamberlain (1992), Arellano y Bover (1995),
Ahn y Schmidt (1995 y 1997), Blundell y Bond (1998)).

La estimación por variables instrumentales ofrece una interpretación in-


tuitiva y sencilla del Método Generalizado de Momentos. Efectivamente, el
estimador GMM vendría a ser un caso especial de estimación por variables
instrumentales en el que el sistema de ecuaciones e instrumentos estuviese so-
bre - identicado. En ese caso, dado que para la estimación de un parámetro
contaríamos con más de una restricción de momentos (condiciones de ortogo-
nalidad), el estimador GMM puede entenderse como una combinación lineal
de todos los estimadores obtenidos con cada una de esas condiciones, debida-
mente ponderados por la precisión de cada una de ellos.

Supongamos el anterior sistema utilizado como ejemplo para ilustrar el


estimador AH. Conforme al argumento utilizado en aquel caso pero para T>3,
la selección de instrumentos puede ampliarse sin más que asociar, para cada
valor de t, las ecuaciones en diferencias y los correspondientes instrumentos
(Arellano y Bover (1990)) obteniéndose la expresión genérica:

PN PT
yi(t−2) [yit − yit−1 ]
α̂ = PNi=1PT t=3
i=1 t=3 yi(t−2) [yit−1 − yit−2 ]

Denidos así instrumentos y ecuaciones, pueden plantearse conjuntamente


las diversas condiciones de ortogonalidad asociadas a cada uno de los instru-
mentos disponibles mediante la expresión matricial:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
96 7. Panel Dinámico

 0  
yi1 0 ... 0 4i3
 0 yi1 , yi2 . . . 0   4i4 
E[Zt0 ¯t ] = 0 →  ..   ..  = 0
   
. .. .
 . . . .
. .   . 
0 0 . . . yi1 , yi2 , . . . , yi(T −2) 4iT

derivándose la correspondiente expresión del estimador óptimo de α. Para


ello, debe considerarse que, si it es una perturbación ruido blanco, sus dife-
2
rencias 4it presentarán la matriz de varianzas y covarianzas simétrica σ H
siguiente:

 
2 −1 0 . . . 0
−1 2 −1 . . . 0
 
E[¯it ¯0it ] = σ 2 H = σ 2  0 −1 2 . . . 0


 .. .
.
.
. .. .
.
 . . . . .
0 0 0 ... 2

con lo que la expresión generalizada del estimador sería entonces:

P P 0 −1
P 0
t ȳt(−1) Zt [ t Zt HZt ] t Zt ȳt
α̂AH =P P 0 −1
P 0
t ȳt(−1) Zt [ t Zt HZt ] t Zt ȳt(−1)

Para afrontar la selección de instrumentos y la posterior construcción del


estimador MGM no es imprescindible, como en el ejemplo expuesto más arri-
ba, plantear el modelo en diferencias. Una transformación alternativa muy útil
es la propuesta por Arellano (1988) que considera las variables expresadas en
desviaciones ortogonales, esto es, cada valor de la variable menos todos sus
adelantos . Puede demostrarse que la estimación MCO aplicada sobre los da-
tos en desviaciones ortogonales utilizando los mismos instrumentos que en el
caso anterior, conduce al mismo resultado que la estimación MCG del modelo
en primeras diferencias expuesta más arriba. Sólo en el caso en que algunos
de los instrumentos sean suprimidos, los estimadores no serán equivalentes.
Siendo indiferente una u otra transformación según lo visto, las desviaciones
ortogonales son más recomendables, ya que pueden servir para suavizar los
efectos de algunos problemas adicionales en la estimación. Así, por ejemplo, es
bien conocido que el sesgo sobre el parámetro estimado derivado de un eventual
error de medida en las variables, queda amplicado por cualquier transforma-
ción del modelo, pero de forma más grave si se utilizan diferencias en lugar de
desviaciones ortogonales.

En términos generales puede armarse que el GMM resulta sorprendente-


mente exible para eludir con relativa sencillez las eventualidades que aparecen

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
7.3. Alternativas de estimación de modelos dinámicos con datos de
panel 97

frecuentemente en cualquier ejercicio de especicación. Sin embargo, como con-


trapartida, debe indicarse que la fortaleza relativa del método descansa crítica-
mente en la adecuada selección de instrumentos, selección que deberá realizarse
atendiendo escrupulosamente a las propiedades observadas de las variables con
las que tratamos. Esta selección no podrá realizarse de forma automática sino
que, muy al contrario, requerirá la plena implicación del investigador, que, de
modo crucial, deberá denir detalladamente el modelo teórico considerado, in-
cluyendo la posible existencia de errores de medida, autocorrelación residual,
heterogeneidad inobservable, variabilidad exclusivamente temporal, etc. Sólo
en ese caso, será posible una adecuada selección de instrumentos para cada
parámetro a estimar; debe tenerse en cuenta que, en un panel con 10 obser-
vaciones temporales y 5 variables exógenas estrictas, existen 500 condiciones
ó momentos que podrían incorporarse a la estimación GMM y que con T=15
y K=10, el número de condiciones alcanza las 1040. Por ello, Manuel Arellano
preere utilizar siempre la expresión de Método de Variables Instrumentales y
no meramente de Estimador de variables instrumentales.

De entre los autores que más han contribuido a mejorar este método, de-
bemos mencionar expresamente a Ahn y Schmidt (1995). Ambos dedicaron
algunos de sus trabajos a perfeccionar el método base de estimación propuesto
por Arellano y Bond, derivando, por ejemplo, restricciones no lineales de mo-
mentos antes no explotadas por Arellano y Bond (1991). Además, en Ahn y
Schmidt (1997), los autores ofrecieron una completa relación de los conjuntos
de condiciones ortogonales correspondientes a una amplia variedad de asun-
ciones relativas a las perturbaciones y a las condiciones iniciales del modelo
dinámico. Aunque muchos de los momentos son no lineales en los parámetros,
Ahn y Schmidt (1997) propusieron un estimador GMM linealizado asintótica-
mente igual de eciente que el de Arellano y Bond; además, ofrecieron algunos
test simples para contrastar la validez de esas restricciones no lineales.

Por otro lado, Ziliak (1997), estudió en que medida era conveniente, de cara
a la eciencia asintótica del estimador, la selección indiscriminada de cuantos
instrumentos fueran posibles en cada contexto. Tauchen (1986) ya había reco-
mendado utilizar un número sub - óptimo de momentos para el caso de series
temporales, reduciendo así el sesgo en la estimación por empleo de muestras
pequeñas, a cambio de una leve pérdida de eciencia. Andersen y Sorensen
(1996), habían encontrado, en esta misma línea, que el GMM tiende a fun-
cionar igualmente mal tanto con defecto como con exceso de instrumentos.
Este problema (el del exceso de instrumentos), puede ser más pronunciado en
el caso de un panel de datos, de modo que Ziliak (1997) realizó una serie de
experimentos de Monte Carlo para modelos dinámicos comprobando que el
hallazgo de Tauchen también era válido en este contexto: el sesgo a la baja en
la estimación podía llegar muy severo a medida que el número de momentos

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
98 7. Panel Dinámico

se expande excesivamente, haciendo inútiles las ganancias de eciencia. Conti-


nuando los estudios de Ziliak, los autores Ahn, Schmidt y Wooldridge (1999),
Ahn y Schmidt (1999a) e Im et al. (1995) analizaron algunos procedimientos
para localizar condiciones redundantes de cara a encontrar versiones modica-
das del GMM con propiedades razonables en muestras pequeñas.

También Crepon, Kramarz y Trognon (1997), concentraron sus trabajos


en la selección de momentos. Según sus conclusiones, a la hora de abordar la
estimación de un modelo dinámico de panel los parámetros pueden dividirse en
dos clases: los parámetros de interés (en especial el parámetro autorregresivo) y
los parámetros molestos (como los términos de segundo orden de un modelo de
componentes de error). Según los autores antes mencionados, la sustitución de
estos parámetros molestos por aproximaciones empíricas no signica una pér-
dida de eciencia cuando sólo se estiman los parámetros de interés. De hecho,
Sevestre y Trognon (1996), argumentaban que si sólo interesa la estimación
del parámetro autorregresivo, el número de restricciones ortogonales puede
reducirse sin pérdida de eciencia en lo que a ese parámetro se reere (otra
cosa será la eciencia que se logre en la estimación de los parámetros molestos).

Otros documentos recientes (Alonso-Borrego y Arellano (1999) ó Wansbeek


y Knaap (1997)) insistirían en supervisar el comportamiento en muestras pe-
queñas del estimador GMM y sus ventajas relativas respecto a la estimación
por MCO en dos etapas, Máxima Verosimilitud y Máxima Verosimilitud con
información limitada.

7.4. Aplicación a una base de datos de empleo


El sistema de diferencias del estimador GMM, puede ser visto como par-
te de una tendencia econométrica que orienta su practica hacia estimadores
que realizan menos supuestos sobre el proceso generador de datos y realizan
técnicas mas complejas para aprovechar la información obtenida. El estimador
esta diseñado para análisis panel, y conlleva los siguientes supuestos sobre el
proceso que genero los datos.

El proceso debería ser dinámico, con realizaciones de la variable depen-


dendiente inuenciada por su pasado.

Los efectos jos en la dinámica deberían estar arbitrariamente distribui-


dos, así la variable dependiente cambiaria consistentemente mas rápido
para algunas observaciones que para otras. Esto argumenta contra las
regresiones de corte transversal, el cual debería asumir efectos jos, y
favorece al panel estático donde la variación sobre el tiempo puede ser
usada para identicar los parámetros.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
7.4. Aplicación a una base de datos de empleo 99

Algunos regresores podrian ser endogenos.

Los cambios idiosincraticos (a parte de los efectos jos) podrian tener


heterocedasticidad individual y correlación serial.

Los choques idiosincrativos no están correlacionados entre individuos.

Además algunos problemas secundarios de diseño:

Algunos regresores podrían estar predeterminados pero no ser estricta-


mente exógenas, aun si la independencia de los errores actuales, están
inuenciados por el pasado. Los rezagos de la variable dependiente es un
ejemplo.

El número de periodos temporales debe ser pequeña T pequeño y el


número de observaciones N debe ser grande.

Además como los estimadores son diseñados para uso general, no se asume
que los instrumentos sean viables fuera del conjunto de datos, se asume:

Los instrumentos viables son internos (basados en rezagos de las variables


instrumentadas)

Sin embargo los estimadores permiten la inclusión de instrumentos exter-


nos.

yit = αyit−1 + x0it β + it


it = µi + vit
E(µi ) = E(vit ) = E(µi vit ) = 0
El error tendrá dos componentes ortogonales, el efecto jo, y los shocks
idiosincráticos.

4yit = (α − 1)yit−1 + x0it β + it


De esta manera el modelo se analiza, para el nivel de crecimiento de y.

Comenzaremos con el clásico estimador MCO aplicado a la ecuación inicial,


y modicaremos paso a paso hasta el estimador de interés.

Trabajaremos con la aplicación del nivel de empleo en las rmas del modelo
de Arellano & Bond (1991). Su panel data, es basado en una muestra de 140
rmas UK, encuestadas anualmente en 1976 - 1984. El panel es desbalanceado
con algunas rmas teniendo mas información que otras. Dado que el despido
y la huelga de trabajadores es costoso, nosotros esperamos que el empleo se

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
100 7. Panel Dinámico

ajuste con cambios en los factores como stock de capital, salarios y demanda
de productos de las rmas. El proceso de ajuste a los cambios de los factores
puede depender del tiempo, lo cual argumenta la inclusión de varios rezagos
de estos factores así como la diferencia entre el nivel de empleo de equilibrio
actual y del año pasado, lo cual argumenta el modelo dinámico con rezagos de
la variable dependiente como regresores.

nit = α1 nit−1 + α2 nit−2 + β 0 (L)xit + λt + µi + vit


Las variables son; n: es el empleo de la rma; w: es el nivel de salario de
la rma; k: es el nivel de capital de la rma; ys: es el producto agregado de
la rma en el sector, como Proxy de la demanda. Todas las variables están en
logaritmos. Las variables cuyos nombres terminan en L1 y L2 indican el primer
y segundo rezago, respectivamente.

regress n nL1 nL2 w wL1 k kL1 kL2 ys ysL1 ysL2 yr*

Un problema de aplicar MCO en lo empirico, es que el rezago de yt es en-


dógena para el efecto jo del termino error, lo cual nos da un sesgo de panel
dinámico. Para verlo consideraremos la posibilidad de que una rma experi-
menta un largo y negativo choque de empleo por alguna razón no modelada,
digamos en 1980, de esta manera el impacto se introduciría al error. Mante-
niendo todo lo demás jo, el aparente efecto jo para el periodo completo de
la rma será subestimvado. En 1981, el empleo rezagado y el efecto jo serán
bajos. La correlación positiva entre éste regresor y el error viola el supuesto
necesario de consistencia del MCO. En particular, se sobrevalua el coeciente
estimado para el rezago del empleo, por atribuir poder de predicción a este
perteneciente al efecto jo de la rma. Note que aquí T=9, si T fuera mayor,
un choque en 1980 impactara, aparentemente, sobre el efecto jo de la rma
reduciéndola, y así manifestando el problema de endogeneidad.

Hay dos maneras de trabajar el problema de endogeneidad. La primera,


es usar la transformación de la data removiendo los efectos jos, la otra es
intrumentar yit−1 y alguna otra variable endógena similar con variables no co-
rrelacionadas con el efecto jo. El sistema GMM incorpora esa estrategia.

Una primera intuición para mostrar el efecto jo abstrayéndolo del error
es usando variables dummys para cada individuo, y así correr un estimador
Mínimo Cuadrado de Variables Dummy:

xi: regress n nL1 nL2 w wL1 k kL1 kL2 ys ysL1 ysL2 yr* i.id

O corriendo lo mismo de manera resumida:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
7.4. Aplicación a una base de datos de empleo 101

xtreg n nL1 nL2 w wL1 k kL1 kL2 ys ysL1 ysL2 yr*, fe

Una tercera manera de conseguir un resultado similar es mediante una


regresión en dos etapas, en la primera etapa parcial, se obtienen dummys de
otras variables y luego se corre la regresión nal con los residuos estimados.
La regresión parcial aplica una transformación de desviación promedio para
cada variable, donde la media es calculada para cada rma. Un MCO sobre la
data así transformada es el estimador Within. Este genera el mismo coeciente
estimado, pero los errores estándar que son casi corregidos pues no toman en
cuenta la pre-transformación.

xtdata n nL1 nL2 w wL1 k kL1 kL2 ys ysL1 ysL2 yr*, fe


regress n nL1 nL2 w wL1 k kL1 kL2 ys ysL1 ysL2 yr*

Pero el estimador within no elimina el sesgo del panel dinámico. Bajo esta

transformación, la variable dependiente rezagada, llegaría a ser yit−1 = yit−1 −
1
(y + ... + yiT ) mientras que el error seria vit∗ = vit − T −1
T −1 i2
1
(vi2 + ... + viT ).

El problema es que el termino yit−1 en yit−1 esta correlacionado negativamente
con el −
1
(v ) en vit∗ mientras que por simetria, − T −1
T −1 it−1
1
(yit−1 ) y vit también
se mueven juntos.
Peor aún uno no puede atacar la endogeneidad continua, instrumentando

yit−1 con rezagos de yit−1 porque estos estan incrustados em eñ error transfor-
∗ 1
mado vit . Por el contrario, si T fuera grande entonces los terminos − (v )
T −1 it−1
1
y − (y ) serian insignicativos y el problema desapareceria. Judson y
T −1 it−1
Owen (1999) encontraron en una simulación que el sesgo era de 20 % del co-
eciente de interés, aún con T=30.

Es interesante observar que desde nuestra primera estimación con MCO


con variable endógena rezagada, existía una correlación positiva con el error,
sesgando el coeciente estimado hacia arriba, ahora tenemos el caso opuesto.
Note que la estimación del coeciente del rezago del empleo cae de 1.045 a
0.733. Una buena estimación del verdadero parámetro debería estar cayendo
entre estos valores, o por lo menos cerca a éstos, dado que estos números son
puntos estimados asociados a intervalos de conanza. Bond (2002) señala que
provee de una útil inspección sobre los resultados de los parámetros superiores
teóricamente.

Kiviet (1995) argumenta que la mejor manera de abordar el sesgo del pa-
nel dinámico es a través del estimador de variables dummys, el cuál corrige
el sesgo, encontrando la posibilidad de hacer predicciones sorprendentemente
precisas. Sin embargo la aproximación solo trabaja con paneles balanceados y
no consideran la endogeneidad potencial de otros regresores.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
102 7. Panel Dinámico

Como resultado, la estrategia mas práctica ha sido desarrollar estimadores


que teóricamente no necesita corrección. Lo necesario para remover el sesgo
es transformar la data en diferencias, primero porque cancela los efectos -
jos mientras evita la transformación within hecha para cada observación de
y ∗ sobre cada individuo. Si las observaciones son ordenadas individualmente
con datos de matrices X y Y entonces los efectos jos pueden ser removidos
multiplicando hacia la izquierda a las matrices por una matriz diagonal en
bloques que poseen una amplitud de T y cuyas las suman cero. Para reali-
zar la elección, la transformación deberá de tener un rango completo y así no
perderíamos información. Esto debería transformar las variables dependientes
sobre los rezagos observados de la variable original, así se validarían los instru-
mentos. En otras palabras la matriz en bloques debería ser triangular superior
o cercana a ella. Un sutil y tercer criterio es que la transformación debería ser
resistente a la perdida de datos.

Dos transformaciones son comúnmente usadas, ambas son relativamente


canónicas. La primera es la transformación en primeras diferencias, al cual se
le llama GMM- en diferencias. Este es afectado por IN ⊗ M4 donde IN es una
matriz identidad de orden N y M4 consiste en una diagonal de −1 con 1 solo
hacia la derecha. Aplicando la transformación nos da:

4yit = α4yit−1 + 4x0it β + 4vit


Aunque los efectos jos se fueron, la variable rezagada es aún endóge-
na, dada que yit−1 en 4yit−1 = yit−1 − yit−2 está correlacionado con vit−1 en
4vit−1 = vit − vit−1 . Asimismo, alguna variable predeterminada en X que no
es estrictamente exógena podría ser potencialmente endógena pues puede que
este relacionada con el error. Pero con la transformación de desviaciones res-
pecto a la media, amplios rezagos de los regresores se mantendran ortogonales
con el error y serán viables como instrumentos.

La transformación en primeras diferencias tiene una debilidad. Esta se ma-


niesta en los rezagos de paneles desbalanceados. Si alguna yit es perdida,
entonces ambas 4yit y 4yit − 1 estara perdida de la data transformada y uno
podria construir una base de datos que desaparesca completamente en pri-
meras diferencias. Esto motiva la segunda transformación conocida, llamada
desviación ortogonal futura o desviación ortogonal (Arellano y Bover 1995).
En lugar de substraer la observación previa, de la contemporánea, esta trans-
formación substrae la media de toda observación futura viable de la variable.
No importa cuantos rezagos se considere, es calculable para todas las observa-
ciones excepto para la ultima de cada individuo, asi se minimiza la perdida de
la data. Y dado que los rezagos de las observaciones no entran en la formula,
estas son instrumentos validos. Para ser precisos, si w es una variable entonces
la transformación es:

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
7.4. Aplicación a una base de datos de empleo 103

 
⊥ 1 X
wit+1 ≡ cit wit − wis
Tit s>t

Donde la suma es tomada sobre las observaciones futuras viables y el fac-


q
torcit = TitTit+1 . En un panel valanceado la transformación podria ser escrita

como IN ⊗ M⊥ .

q 
T −1
T
−√ 1 −√ 1
. . .

 qT (T −1) T (T −1)

T −2

T
−√ 1 . . .
M⊥ =  (T −1)(T −2)
 
q 
 T −3 
 T
. . .
 
..
.

Una propiedad de esta transformación es que si wit son independientemente


distribuidas antes de la transformación, ellas lo serán después de ella (las las
de M son ortogonales entre ellas). La elección de cit asegura que si wit no es
independiente pero si idénticamente distribuida, la propiedad aun persiste. En
0
otras palabras M⊥ M⊥ = I . Esto no es el caso con la diferenciación, en la cual
la tendencia hace que sucesivos errores estén correlacionados aún si ellas están
no correlacionadas antes de la transformación 4vit = vit − vit−1 es matemáti-
camnte relacionada con 4vit−1 = vit−1 − vit−2 por el termino vit−1 . Arellano y
Bover, muestran que en paneles balanceados, algunas de las dos transformacio-
nes de rango de las completas podrían conducirnos a estimadores idénticos,
manteniendo el set de instrumentos jos.

Se usara un superíndice * para indicar que la data se transformo por difen-


ciacion o por desviaciones ortogonales. El que aparesca t+1 en lugar de t al lado
izquierdo reeja que los computadores prácticamente guardan las desviaciones
estándar de las variables transformadas un periodo después, por consisten-
cia, con la transformación en primeras diferencias. Con esta denición, ambas
transformaciones eliminan la primera observación para cada individuo y para
ambas, las observaciones wit−2 y las anteriores son las únicas ausencias de la

formula para wit , haciéndolas instrumentos validos.

Instrumentando con Rezagos

Se construye un estimador para aplicaciones generales, en el cual no asumi-


mos que el investigador tenga excelentes instrumentos fuera de su set de datos,
esperando ser utilizados. Así deberíamos abstraer instrumentos dentro del set

de datos. Naturalmente los candidatos a instrumentos para yit−1 , son yit−2 y si

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
104 7. Panel Dinámico

la data es transformada por diferencias, 4yit−2 . En el caso de diferenciar, am-


bos,yit−2 y 4yit−2 están matemáticamente relacionadas a 4yit−1 = yit−1 −yit−2
pero no al termino error 4vit = vit − vit−1 . Tanto que vit no estará serialmen-
te correlacionado. La manera más simple de incorporar un instrumento es con
MC2E, el cual nos conduce al estimador en diferencias y en niveles de Anderson
- Hsiao (1981). Así el estimador en niveles, instrumentado con yit−2 en lugar de
4yit−2 , pareciera preferible para maximizar el tamaño muestral. 4yit−2 no es
viable hasta t=4, sin embargo yit−2 es viable con t=3, y un periodo adicional
de la data es signicativo en paneles cortos. Retornando al ejemplo anterior
de empleo, podemos implementar el estimador de Anderson - Hsiao en niveles
usando el comando ivreg:

ivreg D.n (D.nL1= nL2) D.(nL2 w wL1 k kL1 kL2 ys ysL1 \\\
ysL2 yr1979 yr1980 yr1981 yr1982 yr1983)

Este es el primer estimador consistente del modelo de empleo, dado nues-


tros supuestos. Su desempeño es mas pobre con una estimación puntual para la
variable dependiente rezagada, el valor de 2.308 salio del rango de credibilidad
de 0.733 - 1.045 y sus errores estándar son mas grandes de lo anteriormente
calculados.

Para incrementar la eciencia, nosotros podemos tomar mayores precisio-


nes del estimador AH, usando más instrumentos rezagados de las variables.
Extendiendo esta introducción de información, deberíamos incrementar la e-
ciencia, pero para el estimador MC2E estándar, el uso de mayores rezagos,
hará la muestra mas pequeña, dado que los rezagos borraran observaciones
inevitablemente.

Trabajando con el esquema de GMM, Holtz, Eakin, Newey y Rosen (1988)


mostraron este trade o. Sin embargo, los autores llegaron a reemplazar los
missing values por ceros y crear una matriz instrumental que cumplia con una
condición de ortogonalidad.

Retomando el ejemplo anterior de empleo, con el siguiente comando, ex-


pandimos el estimador de Anderson - Hsiao, generando, al estilo de GMM,
instrumentos rezagados de n, entonces usamos en la tecnica MC2E regresiones
en diferencias. Esto trata a todos los otros regresores como exógenas, los ins-
trumentos de ellos mismos, aparecen en ambas, en la matriz de regresores de
X y en la matriz de instrumentos de Z. Así Z contienen Instrumentos al estilo
de GMM y una columna de unos al estilo de VI.

forvalues yr=1978/1984 {
forvalues lag = 2 / '= 'yr' - 1976' {
quietly generate z'yr'L'lag' = L'lag'.n if year == 'yr'

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
7.4. Aplicación a una base de datos de empleo 105

}
}

quietly recode z* (. = 0)
ivreg D.n D.(nL2 w wL1 k kL1 kL2 ys ysL1 ysL2 yr1979 yr1980 \\\
yr1981 yr1982 yr1983) (D.(nL1 nL2) = z*), nocons

Aunque este estimador no es teóricamente consistente, pero es mas eciente


que el de AH, pero aún parece pobre. Ahora el coeciente estimado para el
rezago del empleo tienen un valor de 0.292, son tres desviaciones estándar por
debajo del rango de 0.73 - 1.045.

GMM factible, evalua este problema, modelando la estructura de errores


de manera mas realista, haciendolos, mas ecientes en teoría y mejor compor-
tados en la práctica.

APLICANDO GMM

La única manera de que los errores puedan ser razonablemente esperados


y esféricos, en GMM en diferencias, es si:

La transformación de errores es iid, lo cual es usualmente no asumido.

Las desviaciones ortogonales transformados sean usadas, asi los errores


mantendrán la esfericidad.

Sabiendo que FEGMM es asintoticamente superior, su implementación re-



quiere de que tengamos que estimar la matriz de varianza covarianza Ω , la
matriz de covarianzas de los errores transformados (GMM en dos etapas). Para
la primera etapa, elegimos arbitrariamente un H, como estimación previa de
Ω∗ , que es basado en el supuesto de que vit sean i.i.d. Usando esto y dejan-
do que vi
se reera a los errores idiosincráticos de los i individuos, nosotros

dejamos H para IN ⊗ V ar[vi |Z] donde:

V ar(vi∗ |Z) = V ar(M∗ vi |Z) = M∗ var(vi vi0 |Z)M∗0 = M∗ M∗0


Que para desviaciones ortogonales es una I, y para diferencias toma la
forma:

 
2 −1 0 . . . 0
−1 2 −1 . . . 0
 
 0 −1 2 . . . 0
 
 .. .
.
.
. .. .
.
 . . . . .
0 0 0 ... 2

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
106 7. Panel Dinámico

Para la segunda etapa FEGMM, se aproxima Ω∗ con errores robustos, y


estimación conglomerada, la cual se construye con el supuesto de errores que
están correlacionadas dentro de los individuos, pero no entre ellos. Por esta
razón es casi siempre prudente incluir variables dummys temporales para re-
mover de manera general, choques que relacionan el tiempo con el error.

Con esta elección nosotros investigaremos el clásico estimador en diferen-


cias GMM de Arellano - Bond (1991) para panel dinámico.

Como su nombre lo suguiere, Arellano-Bond propusieron originalmente una


transformación en diferencias. Cuando se usan desviaciones ortogonales, en
lugar del anterior, quizá el estimador pueda llamarse GMM en desviación,
pero no es usual.

xtabond2 n L.n L2.n w L.w L(0/2).(k ys) yr*, gmmstyle(L.n) \\\


ivstyle(L2.n w L.w L(0/2).(k ys) yr*) h(1) noleveleq nocons small

Donde h(1) especica que H=I, lo cual envuelve la incorrecta suposición de


homocedasticidad, si borramos eso, por defecto H tendrá la forma de la matriz
en diferencias, y los resultados serán grandemente incrementados.

xtabond2 n L.n L2.n w L.w L(0/2).(k ys) yr*, gmmstyle(L.n) \\\


ivstyle(L2.n w L.w L(0/2).(k ys) yr*) noleveleq nocons

Para obtener las estimaciones en dos etapas, debemos de cambiar robust


a twostep, el cual realiza la primera y segunda etapa de los resultados de
Arellano-Bond (1991). Aún así , el coeciente de la primera etapa en el rezago
del empleo de 0.386 y el de la segunda etapa 0.629 no son los esperados en
el rango, lo cual indica problemas de especicación. Blundell y Bond (1998)
indicaron que ellos no esperaban que las expectativas salariales y de capital
sean estrictamente exógenas en la aplicación de empleo, pero la regresión
asume que si lo son. Si nosotros los instrumentamos con la técnica GMM,
entonces los coecientes sobre empleo rezagado se moverán en un rango creible.

xtabond2 n L.n L2.n w L.w L(0/2).(k ys) yr*, gmmstyle(L.(n w k)) \\\
ivstyle(L(0/2).ys yr*) noleveleq nocons robust small

Instrumentando variables ortogonales a los efectos jos

Arellano y Bond, compararon el desenvolvimiento del estimador en diferen-


cias en una o dos etapas para MCO entre grupos y el estimador de Anderson
- Hsiao en niveles y diferencias. Usaron simulaciones monte carlo de 7*100 pa-
neles. El estimador GMM en diferencias exhibe el menor sesgo y varianza en la
estimación del parámetro de interés, aunque en sus test, el estimador de AH, en

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
7.4. Aplicación a una base de datos de empleo 107

niveles, sea muy buen estimador para la mayoría de parámetros elegidos. Pero
hay muchos grados de libertad en el diseño de esas pruebas. Como Blundell
y Bond (1998) demostraron en simulaciones separadas, si y es cercano a un
randon walk, el comportamiento del estimador GMM en diferencias es pobre,
ya que los niveles pasados expresan poca información sobre cambios futuros,
asi la no transformación de rezagos son instrumentos débiles para las variables
transformadas.

Para incrementar eciencia (bajo supuestos adicionales), Blundell y Bond


desarrollaron una mejora sobre Arellano y Bover (1995), esquematizando una
segunda estrategia contra el sesgo del panel dinámico. Se transformaron los
regresores para abstraer los efectos jos, esta transformación diferencia los ins-
trumentos, haciéndolos exógenos de los efectos jos. Esto es válido asumiendo
que cambios en las variables instrumentales w no están correlacionadas con los
efectos jos. Es decir E(4wit , µi ) = 0 para todo i y t. Si esto se mantienen,
entonces 4wit−1 es un instrumento valido para las variables en niveles.

En pocas palabras, donde Arellano y Bond instrumentaron diferencias con


niveles, Blundell y Bond instrumentaron niveles con diferencias. Para paseos
aleatorios como variables, cambios pasados deberían en efecto ser mas predic-
tivos para niveles corrientes que niveles pasados para cambios corrientes. Así
los nuevos instrumentos serán mas relevantes. Una vez mas, la validez depende
del supuesto de que vit no este serialmente correlacionado con wit−1 y wit−2 , lo
cual podría correlacionarse con los errores pasados y contemporáneos y tam-
bién con errores futuros.

En general, si w es endógena, 4wit−1 es viable como un instrumento dado


que 4wit−1 = wit−1 − wit−2 no deberá estar correlacionado con vit y tempranas
realizaciones de 4w podrían instrumentar muy bien. Y si w es predetermi-
nada, la contemporaneidad 4wit = wit − wit−1 es también valida dado que
E(wit , vit ) = 0.

Para aplicar Blundell y Bond en la ecuación de empleo, esta vez, se borra


los dos rezagos de los dos periodos del empleo y del capital en el modelo, y
precindimos del sector de demanda del producto. También se trata al salario y
al capital como potencialmente endógeno, generando instrumentos GMM para
ellos:

xtabond2 n L.n L(0/1).(w k) yr*, gmmstyle(L.(n w k)) \\\


ivstyle(yr*, equation(level)) robust small

Estos resultados no se publicaron, Blundell y Bond dejaron H=I en lugar


de usar una forma como la matriz de errores de desviaciones ortogonales. La

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
108 7. Panel Dinámico

estimación puntual del coeciente del empleo rezagado es mayor que la estima-
da antes, aunque no diere estadísticamente en las desviaciones estándar del
error. Mas aun, está dentro del rango deseado, y los errores estándar reportado
son la mitad de los que fueron antes.

Aunque supuestos adicionales son requeridos para validar esta estimación


no trivial, es costoso testearlo. El test de Sargant en diferencias, en la sali-
da anterior para los instrumentos del GMM, es muy tranquilizador, con un
p-value, de 1, quizá demasiado tranquilizador dada la debilidad del test de
Hansen cuando los instrumentos son numerosos.

Testeando la autocorrelación

El test de Sargan/Hansen para validad los instrumentos es típico luego


de una estimación GMM. Adicionalmente Arellano y Bond desarrollaron un
test de un caso especial que debería hacer a algunos rezagos no validos co-
mo instrumentos, llamada autocorrelación en las perturbaciones idiosincráticas
it . Por supuesto, las perturbaciones vit están presumidas de autocorrelación
porque contienen efectos jos y los estimadores son diseñados para eliminar
ese problema, pero las it están serialmente correlacionadas en orden 1, dado
que yit−2 es endógena para vit−1 y dado que el termino error en diferencias
4it = vit − vit−1 , hace de esta un instrumento invalido. Los investigadores
tendrían que verse en la necesidad de restringir los instrumentos a tres reza-
gos o menores de y a menores que se encontrara correlación de segundo orden,
en cuyo caso se debería necesitar empezar con rezagos mucho mas menores aún.

Por ello el test de autocorrelación a parte del de efectos jos, el test de


Arellano Bond es aplicado sobre los residuos en diferencias, dado que dvit ma-
temáticamente esta relacionado con 4vit−1 pues comparten a vit−1 , correlación
serial de primer orden negativa es esperada en diferencias y es evidente. En
general nosotros inspeccionamos la autocorrelación serial de orden l, en niveles
para revisar la autocorrelacion de orden l+1 en diferencias. Tal aproximación
no trabaja con desviaciones ortogonales porque todos los residuos en desviacio-
nes están matematicamente interrelacionados dependiendo de su relación con
rezagos adelantados. Siempre, luego de estimaciones en desviaciones, el test es
evaluado sobre los residuos en diferencias.

El test de autocorrelacion de Arellano - Bond es valido para regresiones


GMM, sobre panel data, incluyendo MCO y MC2E, tanto como ninguno de
los regresores es post determinado dependiendo del futuro de los errores (una
regresión de efectos jos o Within puede violar el supuesto si T es pequeño).
Tambien, se pues ver esto de manera resumida, asumiendo que los errores no
están correlacionados entre individuos. Escribiendo el comando abar para

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
7.4. Aplicación a una base de datos de empleo 109

hacer el test viable luego de regress, ivreg, ivreg2, newey, newey2.

Debemos aprender dos lecciones, la primera es recordar la importancia de


las variables dummys temporales para prevenir la mas común correlación entre
individuos, correlacion contemporánea. El test asume no correlacion entre in-
dividuos. Segundo, es que el test depende del supuesto de que N es amplio. La
amplitud no dene precisión pero aplicarlo a un panel con N=20, por ejemplo,
parece ser preocupante.

A diferencia de la regresión GMM que simula 7*100 paneles con AR(1),


Arellano y Bond encuentran que su test tiene mayor poder que los test de
Sargan y Hansen para detectar la valides de instrumentos, siendo estos inva-
lidos cuando existe autocorrelación. El test incumple, sin embargo, cuando la
autocorrelación cae a 0.2, donde se suele rechazar la hipótesis nula de no au-
tocorrelacion serial la mayoría de las veces.

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
110 7. Panel Dinámico

Stata Intermedio www.grupoiddea.com


Aplicado a la Investigación Económica [email protected]
Bibliografía
[1] Moya, Runo - Estadística Descriptiva.

[2] Moya, Runo; Saravia, Gregorio. -Probabilidad e Inferencia Estadística.

[3] Wooldridge, Jerey M. - Introducción a la Econometría.

[4] Gujarati, Damodar - Fundamentos de Econometría.

[5] Badi H. Baltagi - Econometric Analysis of Panel Data, 3rd Edition.

[6] Manuel Arellano and Stephen Bond - Some Tests of Specication for Panel
Data: Monte Carlo Evidence and an Application to Employment Equa-
tions.

[7] J. Scott Long, Jeremy Freese - Regression Models for Categorical Depen-
dent Variables Using Stata, 2nd Edition.

111

También podría gustarte