Tema 3: Correciones y extensiones MRL: Informacin Muestral
Estimador de variables instrumentales (VI)
Dado un determinado modelo, tal que:
y = x + e
Si
estn correlacionados, es decir:
Cov (X, e) = 0
El estimador de MCO es
sesgado e inconsistente.
X
Esto sucede cuando Para
una determinada variable se ha medido con un cierto grado de error. comprobar si existe correlacin entre una variable
con el trmino de error,
usamos el test de Hausman, el cual establece el siguiente contraste de hiptesis:
H0 = {Cov (Xi , ei ) = 0}
siguientes pasos:
H1 = {Cov (Xi , ei ) = 0}
Para calcular el anterior contraste en el programa
EViews , seguiremos los
Consideremos el siguiente modelo para explicar el procedimiento:
y = 1 + 2 X1 + ei
1. Estimaremos un modelo por MCO, donde la variable endgena, ser la variable que creemos que est correlacionada con el trmino de error, seguido de sus instrumentos. Es decir, si consideramos que el instrumento usado para la variable
X1 ,
es el retardo de esta misma variable, es decir,
X1t ,
el modelo que estimaremos ser:
X1 = 1 + 2 X1t + ei
2. Calcularemos los residuos del anterior modelo. Para ello, en el seguiremos el siguiente comando
Workle - Genr - u=resid
EViews ,
3. Una vez calculado los residuos, estimaremos el modelo inicial aadindoles los anteriores residuos. Es decir:
y = 1 + 2 X1 + 3 u + ei
1
4. Para contrastar el test de Hausman, debemos contrastar la signicatividad del parmetro aadido, es decir, los residuos. Para ello usaremos un test
F.
Si una de las variables exgenas estan correlacionadas con el trmino de error, como hemos descrito anteriormente, MCO es sesgado e inconsistente. Para solucionar este problema, usaremos el estimador de
tales (VI).
tal que:
Variables Instrumenpor otras variables (
Este mtodo, consiste, intuitivamente, en sustituir los regresores
estocsticos correlacionados con el error (variables
X)
Z)
Contengan informacin similar (es decir que estn fuertemente correlacionadas) No estn correlacionadas (al menos asintticamente) con los errores.
Es decir, si tenemos un modelo encontrar una matriz
de orden
y = X + e con Cov (X, e) = 0 n L (L K ) tal que:
tendremos que
Cov (X, Z ) = 0 Cov (Z, e) = 0
Para comprobar la
condicin de relevancia.
Al cumplimiento de esta condicin, la denominaremos
condicin de exogeneidad.
Al cumplimiento de esta condicin, la denominaremos
condicin de relevancia,
simplemente, tendremos que
realizar el primer paso del test de Hausman, y comprobar el estadistico signicacin global del modelo.
de
Bajo la hiptesis nula de que los instrumentos son independientes del trmino de error
(condicin de exogeneidad)
e
deberia esperarse que la regresin del
trmino de error
sobre las variables que componen la matriz
tuviese un
ajuste bajo en trmino del coeciente El
R2 ,
en el caso de que no se cumpla la
hiptesis nula, este coeciente de determinacin podria ser signicativo.
test de Sargan
consiste en sustituir los errores inobservables
su contrapartida observable,
e i ,
es decir, los residuos del modelo
ei por y = X + e
estimado por VI, y estimar por MCO la regresin auxiliar.
e 1 = 1 z1 + . . . + L zL + u
Siendo las variables
son los instrumentos utilizados para estimar por VI.
Bajo la hiptesis nula de la condicin de exogeneidad, se cumple que
2 S = (n K )R2 2 r = LK
Donde
r = LK
es el nmero de restricciones de sobre-identicacin que
se obtiene restando al nmero de instrumentos en la matriz variables explicativas en la matriz
Z (L)
el nmero de
X (K ).
1.0.1 Estimacin VI con el programa EViews
Si queremos estimar por VI una regresin, el modelo de estimacin que tenemos que coger al estimar nuestra regresin es el
dos en 2 etapas (MC2E).
Mnimos Cuadra-
Para realizar el test de Sargan, tendremos que calcular el P-Valor. Para ello, sigiendo el siguiente comando
tico, grados de libertad).
scalar prob=1-@cchisq(valor estads-
Observaciones atipicas
En nuestros datos podemos encontrarnos algunas observaciones atpicas que pueden corresponder a individuos o acontecimientos anmalos o de especial trascendencia. La caractersticas principal de estas es que
observaciones especiales pueden llegar a tener una gran inuencia en los resultados de outliers, aquellos datos especiales que corresponden a obser-
la estimacin por MCO del modelo, de forma que su inclusin o exclusin en la informacin muestral puede dar lugar a grandes cambios en las estimaciones de los parmetros, en el ajuste del modelo etc. Deniremos los mos
vaciones atipicas en los valores de la variable dependiente, mientras que denire-
leverages
para observaciones con valores anormales en alguna(s) de las
variables explicativas del modelo.
Variable dependiente discreta
y toma nicamente
Los modelos de variable dependiente discreta son aquellos en que la
respuesta
mente en modelos donde la
variable de valores discretos. Este caso aparece comnvariable dependiente es de tipo cualitativo,
siendo observada no de forma continua, sino a travs de valores discretos (el cumplimiento de una propiedad, la eleccin entre varias alternativas, el impacto de una medida, etc.) u ordinales (los resultados de un suceso representan categoras ordenadas siguiendo un cierto rango). Algunos ejemplos son:
y = 1 si una familia compra una vivienda en propiedad, y = 0 si la alquila. y=1
etc. si se tiene un empleo,
y=0
si no se tiene.
3.1
El modelo de probabilidad lineal (MPL)
yi = 1 + 2 x2i + ... +
En este al caso donde la variable dependiente es del tipo dicotmico (1/0),
Cuando se aplica el modelo de regresin lineal estandar
k xki + ei
ste recibe el nombre de caso, la distribucin de
modelo de probabilidad lineal (MPL).
condicionada al conjunto de vaores observados de las
variables explicativas viene dada por:
yi =
1 con 2 con
Pi = P (y = 1) 1 Pi = P (y = 0) E [ei ] = 0
la
Se llama modelo de probabilidad lineal porque si se cumple que funcin de regresin poblacional est dada por:
E [yi ] = 1 Pi + 0 (1 Pi ) = Pi
luego se tendr:
Pi = 1 + 2 x2i + ... + k xki
y por tanto el parmetro que la variable
representa el incremento en la probabilidad de
unidad (mantenindose constante el resto de variables explicativas),
xj en una Pi xj = j . Si estimamos el modelo MPL por MCO tendremos varios inconvenientes: no
tome el valor 1 cuando se incrementa la variable
normalidad de los errores, heteroscedasticidad y, lo ms importante, la probabilidad de que la variable
tome el valor 1, dada por
1 + 2 x2i + + i = P k xki ,
puede no pertenecer al intervalo[0, 1] para algunas observaciones de la muestra. Lgicamente si eso ocurre en una aplicacin, el
MPL queda invalidado.
Una alternativa frente al modelo de probabilidad lineal es construir un modelo donde la probabilidad de que la variable dependiente tome el valor 1 venga dada por una funcn que obligatoriamente tome valores entre 0 y 1, y que no sean necesariamente lineal en las variables explicativas,
Pi = P [y1 = 1] =
F (1 + 2 x2i + ... + k + xki ).
Para ello estudiaremos dos modelos, modelos
logit
(donde la funcin de distribucin acumulada de la variable aleatoria unidimensional es la logstica, y el modelo
probit (en el cual la funcin de distribucin
acumulada de la variable aleatoria unidimensional es la normal tipicada).
3.2
La
El modelo Logit
1 1+ez de modo que el modelo Logit tendra una funcin de probabilidad dada por:
funcin logstica esta dada por (z ) =
Pi = P [y1 = 1] = (1 + 2 x2i + ... + k + xki ) =
1 1+ e(1 +2 x2i +...+k +xki )
El valor Ii = 1 + 2 x2i + ... + k xki puede interpretarse como un indicador de utilidad, de modo que la probabilidad de que y tome el valor 1 depende de la utilidad que tenga para el individuo la opcin correspondiente. Es inmediato que
(0) = 0, 5, de modo que la preferencia por y = 1 ser mayor cuando el indicador sea positivo (I > 0) y viceversa, aunque el incremento de probabilidad no es
no es lineal. De hecho para el modelo Logit se tiene que:
constante para crecimientos iguales de la utilidad dado que la funcin logstica
Pi = j (1 + 2 x2i + ... + k + xki ) xj
e t (1+e.z )2 es la funcin de densidad de la curva logstica. Por lo tanto, el no coincide con el valor del parmetro,
donde
(z ) =
depende del valor que tomen las variables explicativas en cada observacin; cuando cambia una variable
tal como ocurra en el MPL, sino que
efecto marginal
xj ,
paribus)
el valor de la funcin
(1 + 2 x2i + ... + k + xki )
tambin cambia
(ceteris
y, por tanto, el efecto combinado viene dado por el producto
j (1 +
2 x2i + ... + k + xki ). Pi Notar que si Bj es positivo, tambin lo sera el efecto marginal xj ya que la funcin (.) siempre toma valores positivos. Asimismo, puesto que dicha funcin toma el mximo valor en z = 0, y en dicho valor se tiene que P = (0) = 0, 5, el mayor efecto marginal (valor absoluto) dado el parmetro j se produce para aquellas observaciones donde existe indecisin (P = 0, 5) entre las dos alternativas posibles, y = 1 o y = 0. Adems, al vericarse la igualdad (z ) = (z )[1 (z )], se tiene que: Pi = j Pi (1 Pi ) xj
crecimiento de la probabilidad es mayor en la zona central (cerca de P = 0, 5), disminuyendo progresivamente conforme nos alejamos hacia la izquierda o hacia la derecha
tos marginales son no lineales, sino que el (hacia
la cual es una funcin cuadrtica en la variable
P.
Entonces, no solo los efec-
p=0
p = 1,
respectivamente).
3.2.1 Estimacin modelo Logit en EViews
En el EViews, cogeremos el mtodo de estimacin denominado y despues en mtodo de estimacin binaria, el Logit. Para realizar un contraste haremos uso del estadstico LR. Para realizar cualquier contraste, usaremos el siguiente comando en EViews.
BINARY,
coecient test - Redundant variable test.
forma
View -
La funcin de densidad de un modelo Logit, la calculamos de la siguiente
scalar fmd=@dlogistic(valores de la regresin).
3.3
z
El modelo Probit
y
tome el valor 1 viene dada por la
En el modelo Probit, la probabilidad de que
t 1 e 2 2 2
funcin de distribucin de una variable aleatoria normal tipicada (z ) =
dt,
es decir:
Pi = P [yi = 1] = (1 + 2 x2i + ... + k xki ) =
(1 +2 x2i +...+k xki )
1 t2 e 2 dt 2
Para este modelo, se tiene que:
Pi = j (1 + 2 x2i + ... + k xki ) xj
t 1 e 2 . 2 De nuevo el efecto marginal coincide con el valor del parametro, siendo no lineal, 2
siendo
la funcin de densidad de la distribucin
N (0, 1), (t) =
y alcanzando el mximo valor absoluto para indecisin entre las dos alternativas.
p = 0, 5,
es decir, en el valor de
3.3.1 Estimacin modelo Probit mediante EViews.
Los comandos a seguir en el EViews son los siguientes
En el EViews, cogeremos el mtodo de estimacin denominado y despues en mtodo de estimacin binaria, el Probit.
BINARY,
Para realizar un contraste haremos uso del estadstico LR. Para realizar cualquier contraste, usaremos el siguiente comando en EViews.
coecient test - Redundant variable test.
forma
View -
La funcin de densidad de un modelo Logit, la calculamos de la siguiente
scalar fmd=@dnorm(valores de la regresin).
3.4
Consideraciones especiales en los modelos Logit y Probit
R2
3.4.1 Grado de ajuste del modelo
Para todos los modelos de eleccin binaria, el estadistico cionado por el modelo. denido para el modelo lineal deja de ser una buena medida de la bondad del ajuste proporUn estadstico muy utilizado es el conocido
MacFadden.
R2
de
Tambin suelen utilizarse como medida del grado de ajuste del
modelo estimado las conocidas de la muestra.
tablas de clasicacin
en las cuales se repre-
senta el porcentaje de predicciones correctas del modelo estimado para los datos
3.4.2 Contrastes de hiptesis
Los contrastes de signicacin individual pueden realizarse mediante los
tadsticos z
tribucin Para los
es-
pero comparando tales ratios con los valores crticos de la disen lugar de los correspondientes a la
contrastes generales del tipo H0 = {R = r} se usa el test de razn de verosimilitudes (LR) el cual sigue una distribucin 2 q siendo q el
nmero de restricciones, es decir,
N (0, 1)
de Student.
LR as 2 q
3.5
Variable dependiente limitada. Modelos Tobit
En algunas ocasiones, la variable dependiente toma valores limitados porque
todos los valores contenidos en un cierto rango se asocian a un nico valor lmite e que en general por conveniencia se supone que es cero. Se dice entonces que dicha variable est censurada.
Los ejemplos clsicos de este tipo de situaciones son la compra de vivienda o automviles por parte de los individuos o familias, donde se observa un gran nmero de individuos que no gastan cantidad alguna portamiento de
(yi = 0)
en dicho bien-
En trminos microeconmicos, estas observaciones lmites describen un comoptimizador por parte de los agentes econmicos, para quienes resulta ptimo gastar una cantidad cero en la compra de vivienda o automvil. Para estos casos se suele utilizar el dene una la propiedad:
solucin de esquina, es decir, resultan de un comportamiento
modelo Tobit. En dicho modelo se variable latente asociada a todas las observaciones yi que cumple
yi = 0 yi
si yi <0 si yi 0
Se supone que la variable latente sigue un modelo de regresin lineal estndar:
yi = 1 + 2 x2i + ... + k xki + ei
entonces la distribucin que sigue la variable
yi
es:
P [yi = 0] = P [yi < 0] observaciones l mites (yi = 0) f (yi ) = (yi ) observaciones continuas (yi > 0)
con lo que se pone de maniesto la diferencia entre los dos tpos de observaciones en el conjunto de datos observado. En los referente a los
efectos marginales se tiene en este caso:
E (y ) 1 + 2 x2i + ... + k xki = j ( ) xj
por lo que, de nuevo, estos efectos dependen de los valores de las variables explicativas, y ahora adems de la desviacin estndar residual,
3.5.1 Estimacin modelo Tobit mediante EViews
Para estimar el anterior modelo mediante el programa EViews, seguiremos los siguientes comandos:
El mtodo utilizado es el denominado
cated Data (including Tobit)
CENSORED - Censored or Trun-
La desviacin estndar residual, viene dada en la salida del EViews, por el nombre
SCALE
La funcin de distribucin en este modelo la calculamos como
fe=@cnorm(valor de
1 +2 x2i +...+k xki )
scalar
3.6
Valores con truncamiento selectivo. Modelo Heckit
En algunas situaciones econmicas, los pendiente se obtienen a partir de un
aleatorio, por lo que truncamiento selectivo.
no es muestra, se usara el
dicha
datos observados de la variable demecanismo de seleccin muestral que variable se ve sometida a un proceso de
modelo Heckit. Este modelo se compone de dos ecuaciones. La primera de ellas, la ecuacin de seleccin, se corresponde con un modelo Probit que determina cundo se observa la variable de inters, y se expresa en trminos de una variable de seleccin si , asociada a todas las
observaciones muestrales que se dene como
Para este tipo de casos en los que existe un truncamiento selectivo de la
si =
donde la variable latente
0 si s i <0 1 si s 0 i
un modelo de regresin lineal estandar:
s i sigue
yi = 1 + 2 w2i + ... + k wki + ui
La segunda es la ecuacin de intensidad, que se corresponde con un modelo de regresin lineal para la variable de interes, yi , la cual slo es vlida para la muestra truncada y, por tanto.
yi =
1 + 2 x2i + ... + k xki + ei no se observa yi
si si = 1 si si = 0
Puede demostrarse que, teniendo en cuenta el proceso por el que se generan las observaciones de la variable dependiente se cumple que:
E (yi |si = 1) = 1 + 2 x2i + ... + k xki + i
donde la variable viene denida por:
i ,
es conocida como la
inversa de la razn de Mills ,
i =
(1 + 2 w2i + ... + k wM i ) (1 + 2 w2i + ... + k wki )
Para resolver este modelo, usaremos las siguientes etapas:
En la
primera etapa
se usa la muestra compuesta por todas las obser-
vaciones para estimar un
modelo Probit
para la variable
si
que rige la
observacin de la variable de inters
P [s i = 1] = (1 + 2 w2i + ... + k wM i )
y a continuacin se estima la inversa de la razon de Mills:
1 + 2 w2i + ... + k wM i ) i = ( ( 1 + 2 w2i + ... + k wM i )
En la
segunda etapa
se usa solo la submuestra compuesta por las ob-
servaciones que cumplen la condicin
regresin truncada
si = 1
para estimar por MCO la
i + ui yi = 1 + 2 x2i + ... + k xki +
3.6.1 Estimacin modelo Heckit mediante EViews
Para la primera etapa (mecanismo de seleccin) estimamos el modelo como si fuera un Probit.
Forecast (escoger la opcin Index-where Prob=1-F(Index). (la denominaremos i)
Creamos una variable (inversa de la razon de Mills). Para ello, Cuando creamos esa variable, ya generamos la inversa de la razon de Mills. Para ello,
Genr - irm=@dnorm(i)/@cnorm(i)
Una vez generada la variable, truncaremos la muestra, es decir, que escoga los valores que tome el valor 1. Para ello, al estimar el modelo por MCO (aadindole la inversa de la razn de Mills), en el recuadro de Sample, ponemos
if(variable estudiada=1)