0% encontró este documento útil (0 votos)
275 vistas24 páginas

Apuntes Econometría

Este documento presenta un resumen de conceptos y técnicas de econometría para preparar un examen de grado. Incluye secciones sobre probabilidad e inferencia estadística, modelo de regresión lineal clásico, variables instrumentales, series de tiempo, y modelos de respuesta discreta. Explica temas como estimación por máxima verosimilitud, intervalos de confianza, pruebas de hipótesis, heterocedasticidad, autocorrelación, cointegración y modelos probit/logit.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
275 vistas24 páginas

Apuntes Econometría

Este documento presenta un resumen de conceptos y técnicas de econometría para preparar un examen de grado. Incluye secciones sobre probabilidad e inferencia estadística, modelo de regresión lineal clásico, variables instrumentales, series de tiempo, y modelos de respuesta discreta. Explica temas como estimación por máxima verosimilitud, intervalos de confianza, pruebas de hipótesis, heterocedasticidad, autocorrelación, cointegración y modelos probit/logit.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Apuntes de Econometrı́a para el Examen de

Grado*

Pontificia Universidad Católica de Chile

*
Compilación preparada a partir de los apuntes de Teorı́a Econométrica I de los profesores Raimundo Soto, Juan
Eduardo Coeymans y de los apuntes de Inferencia Estadı́stica de Rafael Aguila. La sección Modelos de respuesta
discreta y la parte de Variables Instrumentales se extrajo del libro de J. Wooldridge “Econometric Analysis of Cross
Section and Panel Data”, la parte de Series de Tiempo en parte del libro de Green “Econometric Analysis” y en
parte de los apuntes de Teorı́a Econométrica III del profesor R. Soto.
Índice
1. Probabilidad e Inferencia 1
1.1. Elementos de Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Elementos de Teorı́a Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5. Test de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2. Modelo Clásico de Regresión Lineal 4


2.1. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Regresores Estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4. Mı́nimos Cuadrados Generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5. Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.6. Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3. Variables Instrumentales 11
3.1. Estimación en Dos Etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2. Consistencia y Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3. Instrumentos Débiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4. Econometrı́a de Series de Tiempo 14


4.1. Modelos Estacionarios Univariados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2. Modelos Estacionarios Multivariados . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3. Modelos Estacionarios para la Varianza . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4. Procesos no estacionarios y raı́ces unitarias . . . . . . . . . . . . . . . . . . . . . . . 17
4.5. Cointegración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.6. Modelo de corrección de errores y relaciones de largo plazo . . . . . . . . . . . . . . 18

5. Modelos de Respuesta Discreta 20


5.1. Modelo de probabilidad lineal para respuesta binaria . . . . . . . . . . . . . . . . . . 20
5.2. Probit y Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.3. Estimación por máxima verosimilitud en modelos de respuesta binaria . . . . . . . . 21
1 Probabilidad e Inferencia 1

1. Probabilidad e Inferencia

1.1. Elementos de Inferencia Estadı́stica

• Podemos obtener la función generatriz de momentos usando una expansión de McLaurin,


donde t es el conjunto de vectores no aleatorios para los cuales la función existe y es finita en
la vecindad t = 0:
t2 t3
Z
t0 x 0
m(t) = E(e )= et x dF (x) = 1 + tE(x) + E(x2 ) + E(x3 ) + ...
2! 3!
Para obtener un determinado momento hacemos:
∂ i m(t = 0)
= E(xi )
∂ti

• Distribución Normal:
1 −{z − E(z)}2
f (z) = √ exp
σ 2π 2σ 2
• Función caracterı́stica de la Normal:
σ 2 t2
 
mx (t) = exp µx t + x
2

• Error Cuadrático Medio:

ECM = E[(θ − θ̂)2 ] = Var(θ̂) + [sesgo(θ̂)]2

donde sesgo(θ̂) = E(θ̂) − θ.

• El estimador de máxima verosimilitud será aquel θ∗ que hace máxima la Función de


verosimilitud:
n
Y
L = f (x1 , x2 , ..., xn ; θ) = f (xi ; θ) = [f (x; θ)]n
i=1
Este estimador es insesgado, de varianza mı́nima, asintóticamente normal e invariante a trans-
formaciones afines.

• La Cota de Cramer-Rao es el inverso del número informacional de Fisher:


−1  !!−1
∂ ln L(θ) 2
  2 
−1 ∂ ln L(θ)
[In (θ)] = −E = −E
∂θ2 ∂θ

• Distribución de la media muestral: Sea Y1 , Y2 , ..., Yn una muestra aleatoria de Y →


N (µ, σ 2 ), entonces, E(Ȳ ) = µ y V (Ȳ ) = σ 2 /n, y se cumple que:
σ2
Ȳ → N (µ, )
n
Ȳ − µ
→ N (0, 1)
√σ
n
1 Probabilidad e Inferencia 2

• Una distribución t se forma de la siguiente manera: Sea Z → N (0, 1) e independiente de


W → χ2 (n), entonces:
Z
p → t(n)
W/n

1.2. Elementos de Teorı́a Asintótica

• Una secuencia de variables aleatorias (reales o vectoriales) {xn } converge en probabilidad


si:
lı́m Pr(|xn − x| < ) = 1 ∀
n→∞
p
lo que escribimos p lı́m xn = x, o también xn −→ x. Un estimador β̂ es consistente si β̂
converge en probabilidad a β.

• Una secuencia de variables aleatorias (reales o vectoriales) {xn } converge en media cuadráti-
ca a x si:
lı́m E(xn − x)2 = 0
n→∞
m
lo que escribimos xn −→ x.

• La sucesión de variables aleatorias {xn } converge en distribución a una variable aleatoria


X con función de densidad acumulada F (x) si:

lı́m |F (Xn ) − F (X)| = 0


n→∞
d
en todos los puntos en los que F (x) sea continua, y se anota Xn −→ X.

• Teorema del lı́mite central de Lindberg-Levy: Sea {xn : n > 1} una secuencia de
variables aleatorias extraı́da de cualquier función de probabilidad con media y varianza finita
(µ, σ 2 ), y si x̄n = n1
P
xi , entonces:
√ d
n(x̄n − µ) −→ N (0, σ 2 )

lo que alternativamente podemos escribir como:


Z x  
1 1 2
lı́m Fn (x) = lı́m P (xn < x) = √ exp − u
n→∞ n→∞ −∞ 2π 2

• Teorema del lı́mite central de Lindberg-Feller con varianzas distintas: Sea {xn : n >
1} una secuencia de variables aleatorias extraı́da de un conjunto de funciones de distribución
{Fn , n ≥ 1}, cada una de ellas con media y varianza finita (µi , σi2 ).

a. Definiendo la varianza promedio como: σ̄n2 = n1 (σ12 + σ22 + ...)


 
σi
b. Y si ninguna varianza domina a la varianza promedio: lı́mn→∞ máx1≤i≤n nσ̄n =0
c. Y si σ̄n2 converge a una constante finita: lı́mn→∞ σ̄n2 = σ̄ 2 , entonces:

Z = n(X̄n − µn ) → N (0, σ̄ 2 )
1 Probabilidad e Inferencia 3

1.3. Máxima Verosimilitud

Ejemplo de estimadores de máxima verosimilitud para los parámetros de una distribución Normal.
Estimador de máxima verosimilitud de la media:
i=n
(  )
1 Yi − µ 2

2
Y 1
L(µ, σ ) = √ exp −
σ 2π 2 σ
i=1
n 1 X
ln L(µ, σ 2 ) = −n ln σ − ln 2π − 2 (Yi − µ)2
2 2σ
∂ ln L(µ, σ 2 ) 1 X
= · 2 (Yi − µ) = 0
∂µ 2σ 2
X
(Yi − µ) = 0
P
Yi
µ̂M V = = Ȳ
n
Estimador de máxima verosimilitud de la varianza:
∂ ln L(µ, σ 2 ) n 1 1 X
= − + 4 (Yi − µ)2 = 0
∂σ 2 2 σ 2 2σ
(Yi − µ)2
P
σ2 =
P n
2 (Yi − Ȳ )2
σ̂M V = = Sn2
n

1.4. Intervalos de Confianza

Ȳ − µ
Bilateral si Z → N (0, 1) : P (−z1− α2 ≤ Z = ≤ +z1− α2 ) = 1 − α
√σ
n
Ȳ − µ
Unilateral si Z → N (0, 1) : P (Z = ≤ +z1−α ) = 1 − α
√σ
n
Ȳ − µ
Bilateral si Z → t(n − 1) : P (−t1− α2 ≤ Z = ≤ +t1− α2 ) = 1 − α
√S
n

1.5. Test de Hipótesis

En los test de hipótesis se comparan o contrastan 2 hipótesis complementarias que subdividen el


espacio paramétrico —o de todos los posibles valores de θ— en 2 subespacios, por ejemplo:

H0 : µ ≥ 25
H1 = µ < 25

Se le llama H0 a la hipótesis nula y H1 a la hipótesis alternativa. Una vez establecidas las hipótesis
se debe decidir entre ellas, para lo cual se utiliza la información contenida en una muestra aleatoria
Y1 , ..., Yn .
Es útil definir algunos conceptos luego de conocer lo que es el testeo de hipótesis:
2 Modelo Clásico de Regresión Lineal 4

1. Error Tipo I: Rechazar H0 cuando es verdadera

2. Error Tipo II: No Rechazar H0 cuando es falsa

3. Tamaño del test: probabilidad de cometer error tipo I

4. Poder del test: probabilidad de rechazar correctamente H0 cuando es falsa

2. Modelo Clásico de Regresión Lineal


• Los supuestos del modelo son:

1. Forma funcional lineal


2. Rango completo de los regresores
3. Media condicional de los residuos cero: E(ei |x) = 0
4. Residuos esféricos
5. Regresores no estocásticos
6. Residuos normales

• Estimador de mı́nimos cuadrados:

mı́n S(β0 ) = e0 e = (y − β00 x)0 (y − β00 x)


β
= y 0 y − 2x0 yβ0 + x0 β0 β00 x
∂S(β0 )
Ecuación normal: = −2x0 y + 2x0 xβ0 = 0
∂β0
β̂ = (x0 x)−1 x0 y → N (β, σ 2 (x0 x)−1 )

• Otras formas de escribir el Estimador:


P
Xi Yi − nX̄ Ȳ
Con constante : β̂ = P 2
Xi − nX 2
P
Xi Yi
Sin constante : β̂ = P 2
Xi

• Varianza del Estimador:


h i
V ar(β̂) = E (β̂ − E[β̂])(β̂ − E[β̂])0
= (x0 x)−1 x0 E(e0 e)x(x0 x)−1
= σ 2 (x0 x)−1
2 Modelo Clásico de Regresión Lineal 5

• Teorema de Frisch-Waugh:
! ! !
x01 x1 x01 x2 β1 x01 y
Tomamos la matriz particionada =
x02 x1 x02 x2 β2 x02 y

(1) β̂1 = (x01 x1 )−1 x01 y − (x01 x1 )−1 x01 x2 β2


(2) x02 x1 β1 + x02 x2 β2 = x02 y

Y con las ecuaciones (1) y (2) obtenemos el teorema:

(x02 M1 x2 )β2 = (x2 M1 y)

• R-Cuadrados:

ŷ 0 M0 ŷ β̂ 0 x0 M0 xβ̂ e0 e
R2 = = = 1 −
y 0 M0 y y 0 M0 y y 0 M0 y
0
e e/(n − k) n−1
R̄2 = 1− 0 =1− (1 − R2 )
y M0 y/(n − 1) n−k

Se nota que cuando R2 ≈ 0 y k >> 0, podrı́a darse que R̄2 < 0. En una regresión múltiple,
R̄2 disminuirá (aumentará) cuando se suprime la variable x de la regresión si el estadı́stico
t asociado a esta variable es mayor (menor) que 1. Una segunda dificultad con R2 hace
referencia al término constante del modelo, donde para que 0 ≤ R2 ≤ 1 se requiere que X
tenga una columna de unos, si no, entonces (1) M0 e 6= e y (2) e0 M0 X 6= 0 y el tercer término
en:
y 0 M0 y = (Xβ + e)0 M0 (Xβ + e) = β 0 X 0 M0 Xβ + β 0 X 0 M0 e + e0 M0 Xβ + e0 M0 e

no desaparece, y cuando se calcula R2 el resultado es entonces impredecible, incluso pudiendo


ser negativo.

• Teorema de Gauss-Markov: Este teorema demuestra que el estimador de mı́nimos cua-


drados es el de menor varianza dentro del conjunt de estimadores lineales insesgados. Para
¯
demostrarlo, tomamos otro estimador lineal insesgado β̂ = cy, entonces:

E(cy) = β ⇒ E(cxβ + ce) = β ⇒ cx = I

¯
y por lo tanto obtenemos V (β̂) = σ 2 c0 c. Luego, definimos la distancia entre ambos estimadores
¯
como Dy = β̂ − β̂, de manera que se cumple que D = c − (x0 x)−1 x0 . Despejando c de esta
última ecuación y reemplazándola en la ecuación anterior obtenemos una varianza mayor,
demostrando ası́ que la varianza del estimador mico es menor.

¯
V (β̂) = σ 2 (x0 x)−1 + σ 2 DD0
2 Modelo Clásico de Regresión Lineal 6

• Estimador de la varianza de los errores:

ê = y − x(x0 x)−1 x0 y = M y = M (xβ + e) = M e


ê0 ê = (M e)0 (M e) = e0 M e
 
a11 ... a1n
 
Tomamos una matriz M =   ... ... ... 

an1 ... ann
E(ê0 ê) = E(e0 M e) = E[e1 (e1 a11 + ... + en an1 ) + ... + en (e1 an1 + ... + en ann )]
= a11 E(e21 ) + ... + ann E(e2n )
= σ 2 tr(M ) = σ 2 tr(I) − tr(x(x0 x)−1 x0 ) = σ(n − k)
 
 0 
ê ê
⇒ E = σ2
n−k
ê0 ê
Lo que implica que un estimador insesgado de σ 2 es σ̂ 2 = n−k .

• Test de Wald:
[(Rβ̂ − q)0 (R(x0 x)−1 R0 )−1 (Rβ̂ − q)]/J
Con σ desconocido : → F (J, n − k)
e0 e/(n − k)
Con σ conocido : (Rβ̂ − q)0 (σ 2 R(x0 x)−1 R0 )−1 (Rβ̂ − q) → χ2 (J)

Donde V (Rβ̂ − q) = σ 2 R(x0 x)−1 R0 .

• Test de modelo restringido:


0
(ê∗ ê∗ − ê0 ê)/J
→ F (J, n − k)
ê0 ê/(n − k)
Donde ê∗ = y − xβ ∗ se obtiene con los J parámetros restringidos. Este test es equivalente al
test de Wald.

• Método Delta: Para la distribución asintótica de una función de β̂. Si f (β̂) es un conjunto
∂f (β̂)
de funciones contı́nuas de β̂ tales que C = , y si se cumple el teorema de Slutsky
∂ β̂ 0
p lı́m f (β̂) = f (β), entonces:
∂f (β)
p lı́m C = =Γ
∂β
σ 2 −1 0
 
f (β̂) → N f (β), Γ Q Γ
n
Con un estimador asintótico de la matriz de varianzas y covarianzas igual a:
∂f (β) 2
 
 2 0 −1  0
Var(f (β̂)) = C σ̂ (X X) C = Var(β̂) ·
∂β
Si alguna de las funciones son no lineales, la propiedad de insesgadez que se mantiene para f (β̂)
podrı́a no transmitirse a f (β̂). Sin embargo, se deduce que en general f (β̂) es un estimador
consistente de f (β).
2 Modelo Clásico de Regresión Lineal 7

Sesgo de atenuación

Estamos interesados en estimar y = xβ+e, pero solamente tenemos x∗ = x+µ, donde Cov(x, e) = 0,
por lo tanto podemos estimar y = x∗ β + e − βµ, donde:

β̂ = (x∗ 0 x∗ )−1 x∗ 0 y = (x∗ 0 x∗ )−1 x∗ 0 (x∗ β + e − βµ)


= β + (x∗ 0 x∗ )−1 x∗ 0 e − (x∗ 0 x∗ )−1 x∗ 0 βµ
Cov(x∗ , βµ) σµ2
p lı́m β̂ = β − = β − β
Var(x∗ ) Var(x∗ )
!
σx2∗ − σµ2
= β <β
σx2∗

2.1. Predicción

• Valor efectivo para la observación o del modelo: y o = βxo + eo

• Valor proyectado: ŷ = β̂xo

• Error de predicción: ef = y o − ŷ = xo (β − β̂) + eo , con E(ef ) = 0. Esta predicción es lineal,


insesgada, y de mı́nima varianza.

• Varianza del error de predicción:

Var(ef ) = Var[eo + xo (β − β̂)] = σ 2 + Var[(β − β̂)0 xo ]


0
= σ 2 + xo σ 2 (X 0 X)−1 xo


2.2. Regresores Estocásticos

• Ley de expectativas iteradas: E(Y ) = EX (E(Y |X))

• Descomposición de la varianza: V (Y ) = VX (E(Y |X)) + EX (V (Y |X)). Que es lo mismo que


decir que la variación total es igual a la variación explicada más la variación residual.

• Teorema de Mann-Wald: Los estimadores Mico están sesgados cuando los regresores son
estocásticos y hay ausencia de correlación contemporánea pero dependencia no contemporánea
entre el error e y los regresores x. Esto ocurre cuando se estima un modelo con rezagos de la
variable dependiente (Yt−j dentro de las explicativas) pero con errores bien comportados. Si:

a. E(e) = 0
b. E(ee0 ) = σ 2 I
c. E(Xi0 e) = 0, donde Xi es la columna i (⇒ E(X 0 e) = 0). Esto no es independencia
completa, es solo no correlación contemporánea.
2 Modelo Clásico de Regresión Lineal 8

 
X0X
d. plim n = Σxx < ∞

Entonces se cumple que:


 0 
1. plim Xn e = 0
0
 
X
√e X0X
2. n
→ N (0, σ 2 ΣXX ), donde ΣXX = plim n

Por lo tanto el estimador es consistente, y la estimación de la varianza de β̂ se hace con la


(ΣXX )−1
fórmula tradicional σ 2 (X 0 X)−1 ya que n = (X 0 X)−1 .

• Cuando los regresores son estocásticos y hay dependencia contemporánea y no contemporánea


 0 
entre e y X, el plim Xn e 6= 0, y los estimadores Mico serı́an inconsistentes.

2.3. Multicolinealidad

• La multicolinealidad perfecta ocurre cuando una columna de la matriz de regresores es


una combinación lineal de las otras. Si el rango de X y el rango de X 0 X son menores que k,
entonces det(X 0 X) = 0 y los estimadores no se pueden computar, ya que ∈
/ (X 0 X)−1 .

• La multicolinealidad imperfecta ocurre cuando existe asociación imperfecta entre varia-


bles explicativas. El R2 entre una variable explicativa y otra el resto es distinto de cero.

• En presencia de multicolinealidad el estimador Mico sigue siendo insesgado, pero la varianza


es mayor por causa de que la matriz (X 0 X)−1 es mayor mientras más colinealidad exista. El
estimador Mico sigue siendo el mejor estimador lineal insesgado.

• Pseudo-soluciones a la multicolinealidad: En realidad no son soluciones porque la mul-


ticolinealidad no es un problema, sino una caracterı́stica de los datos.

1. Uso de restricciones exactas: Consiste en introducir una restricción a la regresión,


del tipo βi + βj = 1, suponiendo que hay colinealidad entre xi y xj , de manera de
reducir la varianza del estimador sin alterar el hecho de que el estimador sea insesgado.
Algunos ejemplos de su uso: restricción de retornos constantes a escala, o restricciones
de homogeneidad en la demanda. Hay que chequear que la restricción sea plausible, ya
que de otro modo se producirá sesgo en los parámetros.
2. Método de componentes principales: Consiste en extraer de la matriz (x0 x)−1 los
componentes principales de ésta, es decir, seleccionar aquellos x que son más indepen-
dientes entre sı́. Se define la combinación lineal como z1 = xa1 , entonces buscamos un a1
tal que maximicemos z10 z1 = a1 x0 a1 , pero debemos normalizar a01 a1 = 1 (restricción en
la maximización) para que z10 z1 no se vaya a infinito. Usando un lagrangeano L encon-
tramos a1 , que es un vector caracterı́stico asociado a λ1 (multiplicador de lagrange en
2 Modelo Clásico de Regresión Lineal 9

la maximización). Luego volvemos a repetir el procedimiento para encontrar el segundo


componente principal, ahora agregando la restricción a01 a2 = 0 (independencia lineal).
Podemos hacer esto k veces, obteniendo ak soluciones. Juntamos los resultados en una
matriz A = [a1 , a2 , ..., ak ], tal que Z = xA, donde Z son los componente principales.
Ası́, calculamos β̂CP = (Z 0 Z)−1 Z 0 y, el cual claramente tiene menor varianza, pero es
sesgado.

2.4. Mı́nimos Cuadrados Generalizados

Hemos mantenido el supuesto de que E(e0 e) = σ 2 I, pero cuando se viola tendremos que E(e0 e) =
σ 2 Ω. Esto ocurre cuando hay heterocedasticidad o correlación residual. Obviamente si conociéra-
mos Ω podrı́amos usar directamente el estimador de la varianza. Transformando el modelo T yi =
T xi β + T ei , de manera que se sigue cumpliendo E(T e) = 0, obtenemos E(T ee0 T 0 ) = σ 2 T 0 ΩT . Si
T 0 ΩT = I habrı́amos solucionado el problema, porque ocupamos Mico como siempre. Entonces
queremos encontrar un T tal que Ω−1 = T 0 T para ponderar el modelo. El estimador de mı́nimos
cuadrados generalizados (también llamado estimador de Aitken) serı́a:

β̂GLS = (x0i T 0 T xi )−1 x0i T 0 T yi = (x0i Ω−1 xi )−1 x0i Ω−1 yi

¿Qué sucede cuando Ω es desconocida? Podrı́amos estimarla con algunos parámetros Ω̂ = Ω(θ̂)
—donde θ podrı́a ser la autocorrelación, por ejemplo— siempre y cuando haya convergencia. Su-
pongamos que θ̂ es un estimador consistente de θ, entonces podrı́amos formar Ω̂ = Ω(θ̂), y podrı́amos
hacer mı́nimos cuadrados generalizados factibles:

ˆ
β̂GLS = (x0 Ω̂−1 x)−1 x0 Ω̂−1 y

que es asintóticamente equivalente a β si se cumplen las siguientes condiciones:


h  i
1. plim n1 x0 Ω̂−1 x − n1 x0 Ω−1 x = 0
h   i
2. plim √1 x0 Ω̂−1 e − √1 x0 Ω−1 e =0
n n

Pero en realidad no necesitamos σ 2 Ω, solo necesitamos la diagonal, por lo que podemos ocupar la
matriz de White —también llamada matriz de errores robustos— para corregir por heterocedas-
ticidad:
1X 2 0
S0 = σi xi xi
n
con lo que obtenemos de manera general: Var(β̂) = n(x0i xi )−1 S0 (x0i xi )−1
2 Modelo Clásico de Regresión Lineal 10

2.5. Heterocedasticidad

Varianza con errores heterocedásticos, es decir, cuando los residuos provienen de distribuciones con
distintas varianzas:

Var(β̂) = (x0 x)−1 x0 E(ee0 )x(x0 x)−1


= (x0 x)−1 x0 σ 2 Ωx(x0 x)−1
= σ 2 (x0 x)−1 (x0 Ωx)(x0 x)−1
σ 2 1 0 −1 1 0 1 0 −1
    
= xx x Ωx xx
n n n n

1 0 −1

Donde Ω es la forma de la heterocedasticidad, si los regresores se comportan bien nx x con-
σ2
vergerá a Q−1 , y el término n a 0. Pero 1 0
n x Ωx no tiene porqué converger. Pero si se cumplen
las condiciones de Grenander convergerá. El estimador Mico sigue siendo el mejor estimador lineal
insesgado, y sigue distribuyéndose asintóticamente normal, esto es razonable porque el problema
de la heterocedasticidad se refiere al segundo momento y no a la media de los errores. Entonces, lo
único que cambia es la varianza del estimador que ahora no es σ 2 (x0 x)−1 , por lo que las inferencias
basadas en esta última están sesgadas.

• Condiciones de Grenander:

1. Para cada columna de x, lı́mn→∞ x0k xk = +∞ (no degenera a una secuencia de ceros).
x2ik
2. lı́mn→∞ x0k xk
= 0 (ninguna observación domina la varianza).
3. La matriz x es de rango completo.

• Estimación en dos etapas cuando hay heterocedasticidad:

(1) Estimar σ̂i2


−1 P
ˆ
P 
n 1 0 n 1 0
(2) Estimar β̂ = i=1 xx
σ̂i2 i i i=1 σ̂i2 xi y

2.6. Autocorrelación

Si la forma de autocorrelación σij no es parametrizable (no tiene estructura), no se puede estimar.


Si la forma de σij es parametrizable (tiene una estructura simple), es estimable y los parámetros
siguen siendo insesgados, excepto si las variables del lado derecho contienen un rezago de la variable
ˆ
endógena. Por otro lado, la Var(β̂) = Var(β̂OLS ) solo cuando no hay autocorrelación. La varianza del
estimador bajo autocorrelación podrı́a ser mayor o menos que la del estimador Mico dependiendo
del valor de ρ. Si ρ > 0, se sobreestima la varianza, y si es negativo no es claro el sesgo. Los test t
estarán sesgados. La solución al problema es, naturalmente, usar mı́nimos cuadrados generalizados
(si es que conocemos Ω).
3 Variables Instrumentales 11

E(ut ut−s )
• Coeficiente de autocorrelación: rs = Eu2t

• Autocovarianza con rezago s: E(et et−s ) = γs con s = 0, ±1, ±2, ...

• Operador de rezagos: Li zt = zt−i

• Autocorrelación de primer orden AR(1):

ut = ρut−1 + νt con ρ<1


= νt + ρνt−1 + ρ2 νt−2 + ...
= νt (1 + Lρ + L2 ρ2 + ...)
σu2 = σν (1 + ρ2 + ρ4 + ...)
σν2
=
1 − ρ2

• Para obtener las covarianzas y varianzas en el caso de AR(1):

ut = ρut−1 + νt / · ut−s
ut ut−s = ρut−1 ut−s + νt ut−s
E(ut yt−s ) = ρE(ut−1 ut−s ) + E(νt ut−s )

Dada la independencia entre νt y ut−s tenemos:

E(ut ut−s ) = ρE(ut−1 ut−s )

Y haciendo s = 1 tenemos entonces: Cov(ut , ut−1 ) = ρσu2

3. Variables Instrumentales
En este caso existe correlación 6= 0 entre el error no observable u y alguna de las variables explica-
tivas xj con j = 1, ..., k.
y = β0 + β1 x1 + ... + βk xk + u (1)

Si solo xk podrı́a estar correlacionada con el error, se dice que xk es potencialmente endógena, y
x−k son variables exógenas. Se puede pensar que u contiene alguna variable omitida no observable
correlacionada con xk . El estimador Mico en este caso está sesgado, y por lo tanto no se puede
estimar de manera consistente. Necesitamos entonces una variable observable z1 que no esté en la
ecuación (1) que satisfaga dos condiciones:

1. Condición de Exogeneidad: Que no esté correlacionada con u, Cov(z1 , u) = 0, es decir,


que sea exógena a la ecuación (1).
3 Variables Instrumentales 12

2. Condición de Identificación: Que este correlacionada con la variable endógena de manera


tal que:
xk = δ0 + δ1 x−k + θ1 z1 + rk

donde E(rk ) = 0 y rk no esta correlacionado con x−k y z1 , y x−k son los regresores 6= k en la
ecuación (1), y debe cumplirse que:
θ1 6= 0 (2)

donde esto no significa que z1 esté correlacionado con xk , sino que significa que z1 debe estar
parcialmente correlacionado con xk una vez que se ha neteado el efecto de las otras variables
x−k . Entonces está mal decir que esta segunda condición es Cov(z1 , xk ) 6= 0, porque esto es
solo en el caso particular que en la ecuación (1) hay un solo regresor igual a xk .

Si z1 cumple con estas dos condiciones, es un candidato a variable instrumental de xk (instrumentos


admisibles). En este caso, como x−k son exógenas, son instrumentos de si mismas al no estar corre-
lacionada con u. La ecuación (2) es la ecuación en forma reducida para la variable explicativa
endógena xk . Ahora, incorporando la ecuación (2) en la (1) obtenemos:

y = α0 + α1 x1 + ... + αk−1 xk−1 + λ1 z1 + ν (3)

donde ν = u + βk rk , αj = βj + βk γj , y λ1 = βk θ1 , y debido a los supuestos, Mico puede estimar


consistentemente los parámetros αj y λ1 . En términos matriciales podemos escribir:

x = (1, x1 , ..., xk )
z = (1, x1 , ..., z1 )

Donde en y = xβ + u por los supuestos sabemos que E(z0 u) = 0, entonces el estimador:

β̂ = (z0 x)−1 (z0 y) (4)

es un estimador consistente si se utiliza una muestra aleatoria de (x, y, z1 ). Esto sucede porque la
ecuación [E(z0 x)]β = E(z0 y) representa un sistema de ecuaciones con una solución única si y solo
si la matriz de k × k E(z0 x) tiene rango completo:

Condición de Rango : rango E(z0 x) = k

lo cual solo sucede cuando θ1 6= 0. Es importante recalcar que mientras la condición de identificación
se puede testear, la condición de exogeneidad no se puede, porque u es no observable.

3.1. Estimación en Dos Etapas

Supongamos que ahora tenemos más de una variable instrumental para xk : z1 , z2 , ..., zM con Cov(zh , u) =
0 y h = 1, 2, ..., M . Cada una de las variables zh cumple con la condición de exogeneidad. Definimos
3 Variables Instrumentales 13

el vector de variables exógenas:

z ≡ (1, x1 , ..., z1 , ..., zM , ...xn )

donde z es un vector de 1 × L con L = k + M . De todas las posibles combinaciones que pueden


escogerse de z como instrumento para xk , el método en dos etapas (2SLS) escoge la que está más
correlacionada con xk . Esta combinación viene dada por:

x∗k ≡ δ0 + δ1 x1 + ... + δk−1 xk−1 + θ1 z1 + ... + θM zM

donde muchas veces se interpreta x∗k como la parte de xk que no está correlacionada con u. Esti-
mando esta ecuación por Mico podemos obtener un estimador x̂k en la primera etapa:

x̂k = δ̂0 + δ̂1 x1 + ... + δ̂k−1 xk−1 + θ̂1 z1 + ... + θ̂M zM

Definiendo x̂ ≡ (1, x1 , ..., xk−1 , x̂k ) podemos estimar la segunda etapa y escribir el estimador
2SLS como:
β̂ = (X̂0 X)−1 X̂0 Y

Donde X̂ = Z(Z0 Z)−1 Z0 X. Es importante notar que si en la primera etapa se omiten los regre-
sores x−k se obtendrán estimadores inconsistentes en la segunda etapa. El estimador de variables
instrumentales y el estimador 2SLS son equivalentes cuando solo hay 1 instrumento para xk . La
condición de identificación en el caso 2SLS es que debe haber al menos un θj 6= 0, lo que se prue-
ba fácilmente con una hipótesis nula que todos son cero y usando un test de multiplicadores de
Lagrange. Un modelo con 1 variable endógena se dice sobreidentificado cuando M > 1, y existen
M − 1 restricciones de sobreidentificación.

3.2. Consistencia y Normalidad Asintótica

Para poder estimar consistentemente de una muestra aleatoria una ecuación como (1) con (quizás)
varias variables endógenas es necesario que:

Para algún vector z de 1 × L se cumpla : E(z0 u) = 0


: rango E(z0 z) = L
: rango E(z0 x) = k

donde el vector z contiene variables fuera del modelo de la ecuación (1).



La normalidad asintótica de n(β̂ − β) viene de la normalidad asintótica de n−1/2 N 0
P
i=1 zi ui , que a
su vez viene del teorema del lı́mite central y el supuesto de segundos momentos bien comportados.
El Estimador de la Varianza Asintótica es:

V AE(β̂2SLS ) = σ̂ 2 (X̂0 X̂)−1 = σ̂ 2 (Z0 X)−1 Z0 Z(Z0 X)−1


4 Econometrı́a de Series de Tiempo 14

3.3. Instrumentos Débiles

La probabilidad lı́mite del estimador 2SLS puede escribirse como:


σu Corr(z1 , u)
plim β̂1 = β1 +
σx Corr(z1 , x1 )
donde podemos ver que el segundo término del lado derecho se vuelve muy grande cuando Corr(z1 , x1 )
tiende a 0 y Corr(z1 , u) 6= 0. Desafortunadamente, como u es no observable no podemos saber el
tamaño de las inconsistencias en los estimadores, pero deberı́amos preocuparnos si la correlación
entre x1 y z1 es débil. Si el poder explicativo de z1 es débil, la varianza asintótica del estimador
2SLS puede ser muy grande. La Corr(x1 , z1 ) 6= 0 no es suficiente para que el estimador 2SLS sea
eficiente, para esto la correlación debe ser un tamaño considerable.

4. Econometrı́a de Series de Tiempo

4.1. Modelos Estacionarios Univariados

Un proceso autorregresivo AR(p) puede escribirse como

yt = µ + φ1 yt−1 + ... + φp yt−p

En la práctica todo proceso AR se puede escribir como un MA(∞):

yt = µ + et − θet−1
= µ + (1 − θL)et
yt µ
= + et
1 − θL 1−θ
µ
yt = − θyt−1 + θ2 yt−2 − ... + et
1−θ
1
Porque sabemos que (1 + θL + θ2 L2 + ...) = 1−θL . Por otro lado, un proceso de media móvil
MA(q) tiene las siguientes caracterı́sticas:

Representación : yt = µ + t + θ1 t−1 + ... + θq t−q


Varianza : γ0 = σ2 = (1 + θ12 + ... + θq2 )
Función de autocovarianza : γj = σ2 = (θj + θj+1 θ1 + ... + θq θq−j ) ∀ j = 0, 1, ..., q
θj + θj θj+1 + ... + θq θq−j
Función de autocorrelación : ρ = ∀ j = 0, 1, ..., j
1 + θ12 + ... + θq2
Si la secuencia de coeficientes del MA(∞) es sumable absoluta, entonces la secuencia de autocova-
rianzas es sumable absoluta y el proceso es estacionario. Un proceso que contiene tanto una parte
autorregresiva como una parte media móvil es denominado proceso ARMA(p,q), y se escribe
como:
yt = µ + φ1 yt−1 + ... + φp yt−p + t + θ1 t−1 + ... + θq t−q
4 Econometrı́a de Series de Tiempo 15

Estacionariedad Débil

Un proceso yt es débilmente estacionario o de covarianza estacionaria si satisface los siguientes


requisitos:

1. E(yt ) es independiente de t.

2. Var(yt ) es constante e independiente de t.

3. Cov(yt , ys ) es una función de t − s, pero no de t o de s.

Teorema de Wold

Cualquier proceso con media cero y estacionario en covarianza {yt } puede ser representado de
manera única por un componente lineal determinı́stico y un componente lineal no determinı́stico:

X
yt = P ∗ [yt |yt−1 , yt−2 , ..., yt−p ] + θ1 t−i
i=0

Donde P ∗ es un predictor lineal y debe cumplirse que:

1. t = yt − P ∗ [yt |yt−1 , yt−2 , ..., yt−p ] es un error de predicción.

2. t es ruido blanco.
P∞ 2
3. Sumabilidad cuadrática: i=1 θi < ∞.

4. Todas las raı́ces de θ(L) están fuera del cı́rculo unitario.

Metodologı́a Box-Jenkins

1. Hacer estacionaria la variable aleatoria y retirar componentes determinı́sticos.

2. Parametrizar identificando rezagos con los correlogramas muestrales.

3. Tests de especificación para evaluar y predecir dentro y fuera de la muestra.

4.2. Modelos Estacionarios Multivariados

• VAR en su forma primitiva:

yt = β11 + β12 yt−1 + β13 zt−1 + yt

zt = β21 + β22 zt−1 + β23 yt−1 + zt


4 Econometrı́a de Series de Tiempo 16

• VAR en su forma reducida:


! ! ! !
yt a11 a12 yt−1 e1t
= +
zt a21 a22 zt−1 e2t

• Causalidad de Granger: Si θ(L) 6= 0 en y = φ(L)yt−1 + θ(L)zt−1 + t , entonces zt causa-


a-la-Granger a yt .
P∞ P∞
• Causalidad de Sims: Si θ(L) 6= 0 en yt = c + i=0 φi zt−i + i=1 θi zt+i + t , entonces zt
causa-a-la-Sims a yt .

• Causalidad de Geweke, Meese y Dent: Corrige a Sims por autocorrelación residual. Si


θ(L) 6= 0 en yt = c− ∞
P P∞ P∞
i=1 λi yt−i + i=0 φi zt−i + i=1 θi zt+i +t , entonces zt causa-a-la-GMD
a yt .

• Estimación:
T −p
1 1X
log L = − (T − p)n log(2π) + (T − p) log Ω−1 − êi Ω−1 êi
2 2
i=1
PT −p
∂ log L 
ˆ 
ˆ
i i
= 0 ⇒ Ω̂ = i=1
∂Ω−1 T −P

La inclusión del estimador de Ω produce la llamada función de verosimilitud condensada

4.3. Modelos Estacionarios para la Varianza

• ARCH(1):

yt = βxt + t
t = µ(α0 + α1 2t−1 )1/2
V (t |t−1 ) = α0 + α1 2t−1
α0
V (t ) = α0 + α1 σ2 =
1 − α1

• ARCH(q): σt2 = µ2 (α0 + α1 2t−1 + ... + αq 2t−q )

• GARCH(p, q): σt2 = µ2 (α0 + α1 (L)2t−1 + α2 (L)σt2 )

• Con regresores exógenos: σt2 = µ2 (α0 + α1 (L)2t−1 + α2 (L)σt2 ) + α3 wt

• ARCH-M: usado en finanzas

yt = βxt + θσt2 + t
t−1 ) = α0 + α1 2t−1 + α2 σt2
4 Econometrı́a de Series de Tiempo 17

• Test de Engle: Tests para detectar residuos ARCH. Correr la regresión:

2t = α0 + α1 2t−1 + ... + αq t−q

con un test de multiplicadores de lagrange T R2 que se distribuye χ2 (q).

4.4. Procesos no estacionarios y raı́ces unitarias

Variables como el PIB o el nivel de precios no son estacionarias. En muchos casos puede conseguirse
la estacionariedad simplemente tomando diferencias, o mediante alguna otra transformación. Pero
surgen cuestiones estadı́sticas nuevas.

• Random Walk: Se puede representar como:



X
yt = µ + yt−1 + et = (µ + et )
i=0

donde la varianza de yt será obviamente infinita. Este proceso es claramente no estacionario,


pero tomando la primera diferencia tenemos que zt = yt − yt−1 = µ + et es ahora estacionario.
La serie yt se dice que es integrada de orden 1, I(1), porque tomando una primera diferencia
obtenemos un proceso estacionario. Abreviando tenemos que:

zt = (1 − L)d yt = ∆d yt

• La utilización de datos que se caracterizan por tener raı́ces unitarias son susceptibles de
conducir a serios errores en las inferencias. La inferencia basada en mı́nimos cuadrados no
es válida en este caso. El paseo aleatorio con deriva (con término constante), el proceso
estacionario con tendencia, y el paseo aleatorio se caracterizan por tener una raı́z
unitaria, esto es, divergen y sus momentos no dependen del tiempo. Consideremos los tres
modelos en una sola ecuación:
zt = µ + βt + zt−1 + ut

Ahora restamos zt−1 a los dos lados de la ecuación e introducimos un parámetro artificial γ:

zt − zt−1 = µγ + β(1 − γ)t + (γ − 1)zt−1 + ut


= α0 + α1 t + (γ − 1)zt−1 + ut

donde, por hipótesis γ = 1. Esta ecuación nos proporciona las bases para los contrastes de
raı́z unitaria. Un contraste de la hipótesis γ − 1 = 0 confirma el paseo aleatorio con deriva, y
si es menor que 0 favorece la tendencia estacionaria (y eliminarla es el método preferible).
4 Econometrı́a de Series de Tiempo 18

4.5. Cointegración

En la especificación completa del modelo yt = xt β = et está implı́cita la presunción de que los


residuos et son una serie estacionaria, ruido blanco. Pero probablemente esto no será cierto cuando
xt e yt sean series integradas. Generalmente, si dos series son integradas para diferentes órdenes,
las combinaciones lineales de ambas estarán integradas para el más alto de los dos órdenes. Ası́,
si xt e yt son series I(1), entonces normalmente esperarı́amos que yt − xt β sea I(1) sea cual sea
el valor de β. Por otra parte, si las dos series son I(1), puede existir un β tal que et = yt − βxt
sea I(0). Intuitivamente, si las dos series son I(0), esta diferencia entre ellas tiene que ser estable
alrededor de una media fija. Esto significarı́a que las series crecen simultáneamente a la misma tasa.
Dos series que satisfacen estos requisitos se dice que están cointegradas, y el vector [1 − β] (o un
múltiplo de él) es un vector de cointegración. Podemos distinguir entonces una relación de largo
plazo entre xt e yt , es decir, la forma en la cual las dos variables crecen, la dinámica de corto plazo y
las desviaciones de xt respecto de su tendencia de corto plazo. Si este es el caso, una diferenciación
de los datos serı́a contraproducente, ya que podrı́a oscurecer la relación de largo plazo entre xt e
yt . El error ut es estacionario cuando yt y xt están cointegradas.

4.6. Modelo de corrección de errores y relaciones de largo plazo

Tomemos el siguiente modelo:

ln Yt = β1 + β2 ln Xt + β3 ln Xt−1 + β4 ln Yt−1 + ut (5)

Supongamos que la teorı́a dice que en el largo plazo Y crece a la misma tasa que X. Esto significa que
en largo plazo Y /X es constante, por lo tanto se puede incluir la siguiente restricción: ln Yt −ln Xt =
C. Por lo tanto, para el modelo se cumplirá en el largo plazo:

Yt = cXt
∆ ln Yt = ∆ ln Yt−1 = ∆ ln Xt = ∆ ln Xt−1 = ∆
∆ = β2 ∆ + β3 ∆ + β4 ∆
= (β2 + β3 + β4 )∆
⇒ β2 + β3 + β4 = 1

donde la última ecuación es la restricción teórica. Podemos escribir el modelo con esta restricción
en el largo plazo:

ln Yt = β1 + β2 ln Xt + β3 ln Xt−1 + (1 − β2 − β3 ) ln Yt−1 + ut

El modelo se puede escribir en dos tipos de formatos adicionales:


4 Econometrı́a de Series de Tiempo 19

1. En cambios y niveles: Ocupando ∆Zt = Zt − Zt−1 en la ecuación (5) cuando se suma y


resta β2 ln Xt−1 .

∆ ln Yt = β1 + β2 ∆ ln Xt + (β2 + β3 ) ln Xt−1 − (β2 + β3 ) ln Yt−1 + ut

2. Corrección de errores: Formando un término de desequilibrio o corrección de error en el


perı́odo t − 1.
 
β1
∆ ln Yt = β2 ∆ ln Xt − (β2 + β3 ) ln Yt−1 − − ln Xt−1 + ut
β2 + β3
Dado que β2 + β3 = 1 − β4 cuando ∆ ln Xt y ut sean iguales a 0, la variable Yt convergerá a
un equilibrio de largo plazo:
β1
ln Yt = + ln Xt (6)
1 − β4
Para obtener la elasticidad de largo plazo (en el caso que exista un equilibrio de largo
plzo entre los niveles de las variables) todos los términos en ∆ se hacen igual a 0 y todos los
subı́ndices se igualan a t. Ası́ se obtiene la ecuación de largo plazo, que este caso particular serı́a
igual a la ecuación (6). Derivand esta ecuación con respecto a ln Xt se obtiene la elasticidad
de largo plazo con respecto de Xt , que en este cas0 particular serı́a 1. El modelo de serie
de tiempo original en la ecuación (5) permite testear distintas especificaciones dinámicas a
través de la imposición de determinadas restricciones sobre los parámetros. Para poder usar
la corrección de errores se requiere de una teorı́a que señale que existe un nivel de equilibrio
de la variable que se quiere explicar o una trayectoria de equilibrio.

En el modelo:
Yt = a1 Yt−1 + a2 Yt−2 + b1 Xt + b2 Xt−1 + ut

si hay un equilibrio de largo plazo, el valor al cual convergerá Yt condicional a Xt y ut contantes


será:
(b1 + b2 )Xt + ut
Y∗ =
1 − a1 − a2
Si Xt es estacionaria, la existencia de una relación de equilibrio de largo plazo entre Yt y Xt exige
la estacionariedad de Yt , lo cual a su vez requiere de dos condiciones:

a. Las raı́ces de la ecuación caracterı́stica deben ser menores que uno, de otra forma, cualquier
perturbación en el error de la ecuación harı́a explotar a Yt .

b. También ut debe ser estacionario, por la misma razón.

Si Xt es no estacionaria, Yt será no estacionaria, pero si se cumplen a. y b. habrá una relación


de largo plazo entre ambas variables no estacionarias, lo que recibe el nombre de cointegración. Se
suele confundir los término de relación de largo plazo con el de cointegración. Cointegración implica
que hay una relación de largo plazo, pero no al revés.
5 Modelos de Respuesta Discreta 20

5. Modelos de Respuesta Discreta


En modelos cualitativos la variable y es una variable aleatoria que puede tomar un número finito
de valores. El caso clásico es cuando y es una respuesta binaria que toma valores de 1 ó 0, que
indica si cierto evento ha o no ha ocurrido. En estos modelos el interés recae principalmente en la
probabilidad de la respuesta:

p(x) ≡ P (y = 1|x) = P (y = 1|x1 , x2 , ..., xk )

para varios valores de x. Para una variable continua xj , el efecto parcial de xj en la probabilidad
de respuesta es:
∂P (y = 1|x) ∂p(x)
= (7)
∂xj ∂xj
Y cuando mutliplicamos (7) por ∆xj nos da el cambio aproximado en P (y = 1|x) cuando xj
aumenta en ∆xj , manteniendo las otras variables fijas. Si xk fuese una variable binaria, estarı́amos
interesados en p(x1 , x2 , ..., xk−1 , 1) − p(x1 , x2 , ..., xk−1 , 0), que es la diferencia en la probabilidad de
respuesta. Para la mayorı́a de los modelos se considera que, si una variable xj , ya sea continua o
discreta, el efecto parcial de xj en p(x) depende de todos los x.
Debemos recordar algunas cosas de la función Bernoulli para trabajar con estos modelos:

P (y = 1|x) = p(x)
P (y = 0|x) = 1 − p(x)
E(y|x) = p(x)
Var(y|x) = p(x)[1 − p(x)]

Además, la función densidad de una binomial es p(y)X (1 − p(y))Z , donde X y Z son los valores
que toma la variable y cuando se da el éxito y el fracaso respectivamente.

5.1. Modelo de probabilidad lineal para respuesta binaria

El modelo de probabilidad lineal (LPM) para la respuesta binaria se especifica como:

P (y = 1|x) = β0 + β1 x1 + β2 x2 + ... + βk xk

∂P (y=1|x)
Asumiendo que x1 no está relacionada con otras variables explicativas, β1 = ∂x1 . Entonces,
β1 es el cambio en la probabilidad de éxito (y = 1) dado un aumento de una unidad en x1 . Es útil
derivar la media y la varianza del modelo:

E(y|x) = β0 + β1 x1 + β2 x2 + ... + βk xk (8)


Var(y|x) = xβ(1 − xβ) donde xβ = β0 + ... + βk xk (9)
5 Modelos de Respuesta Discreta 21

La ecuación (8) nos indica que dada una muestra aleatoria, la regresión OLS de y en 1, x1 , x2 , ..., xk
produce estimadores consistentes e insesgados de βj . La ecuación (9) nos indica que hay heteroce-
dasticidad presente a menos que todos los β sean 0 (hay que utilizar la matriz de errores robustos).
Se puede usar el test F para testear la significancia conjunta de todas las variables (dejando la
constante sin restringir).

5.2. Probit y Logit

En este caso los modelos de respuesta binaria son de la forma:

P (y = 1|x) = G(xβ) = p(x) (10)

donde x es 1 × K, β es K × 1, y tomamos el primer elemento de x como unitario. En LPM G(z) = z


es la función identidad. En esta sección asumimos que G(·) toma valores en el intervalo unitario
abierto 0 < G(z) < 1 para todo z ∈ R. El modelo descrito en (10) se llama modelo index porque
restringe la forma en que la probabilidad de la respuesta depende de x: p(x) es una función de x
solo a través del index: xβ = β1 + x2 β2 + ... + xk βk .

Modelo Probit

El modelo probit es el caso especial de (10) cuando:


Z z
G(z) ≡ Φ(z) = φ(v)dv
−∞

donde φ(z) = (2π)−1/2 exp{−z 2 /2}

Modelo Logit

El modelo logit es el caso especial de (10) cuando:

G(z) ≡ Λ(z) = exp(x)/[1 − exp(z)]

Para aplicar exitosamente modelos probit y logit es importante interpretar βj en variables explica-
tivas continuas y discretas.

5.3. Estimación por máxima verosimilitud en modelos de respuesta binaria

Asumimos que tenemos N observaciones independientes e idénticamente distribuidas siguiendo el


modelo (10). Para estimar el modelo por máxima verosimilitud (condicional), necesitamos la log-
verosimilitud para cada i. La densidad de yi dado xi puede escribirse como:

f (y|xi ; β) = [G(xi β)]y [1 − G(xi β)]1−y


5 Modelos de Respuesta Discreta 22

con y = 0, 1. La log-verosimilitud para la observación i es una función de los K × 1 vectores de


parámetros y de los datos (xi , yi ):

li (β) = yi log G(xi β) + (1 − yi ) log(1 − G(xi β))

Restringiendo que G(·) esté entre 0 y 1 asegura que la función esté bien definida para todos los
valores de β. De los resultados generales de máxima verosimilitud sabemos que β̂ es consistente
y asintóticamente normal. Asumimos que G(·) es dos veces diferenciable, y la función g(z) es la
derivada de G(·). Para el modelo probit g(z) = φ(z), y para el modelo logit g(z) = exp(z)/(1 +
exp(z))2 . Tenemos:
g(xi β)x0i [yi − G(xi β)]
si (β) ≡
G(xi β)[1 − G(xi β)]

También podría gustarte