Curso de Econometría para Economistas
Curso de Econometría para Economistas
7 de octubre de 2014
S. Gallón - K Gómez
Contenido I
Motivación
Aplicaciones
Datos y bases de datos
Tipos de datos
Software estadístico y econométrico
El problema de regresión
Supuestos del modelo de regresión lineal
Estimación de mínimos cuadrados ordinarios
Geometría del método de MCO
Conceptos relacionados
Análisis de varianza
Propiedades del estimador de MCO
Propiedades en muestras finitas
Propiedades en muestras infinitas
Prueba de hipótesis
Estimación de máxima verosimilitud
Tests de Wald, LR, y LM S. Gallón - K Gómez
Contenido II
Test de Wald
Test de LR
Test de LM
Regresión restringida
Multicolinealidad
Consecuencias de la multicolinealidad
Diagnóstico de la multicolinealidad
Soluciones de la multicolinealidad
Pruebas de heterocedasticidad
Pruebas de estabilidad
Pruebas de normalidad
Mínimos cuadrados generalizados
Propiedades y consecuencias del estimador de MCO en el contexto
del modelo lineal generalizado
Estimador de mínimos cuadrados generalizado -MCG-
Estimador de mínimos cuadrados generalizado factible
Estimación de la matriz de covarianza bajo heterocedasticidadS. Gallón - K Gómez
Contenido III
Variable instrumental
Endogeneidad
Variable instrumental
S. Gallón - K Gómez
Motivación I
Econometría:
Rama de la disciplina económica que concierne con la estimación y
contraste empírico de las relaciones cuantitativas que pueden existir
entre las variables económicas a partir del empleo conjunto de la teoría
económica, la matemática y la teoría estadística.
Definición sencilla:
Combinación de economía, matemática y estadística.
Utilidad de la Econometría:
...reconocida como un campo de estudio indispensable para la toma de
decisiones en economía, finanzas y negocios. Los modelos y métodos
econométricos son aplicados en la práctica diaria en las firmas
financieras, bancos comerciales y centrales, departamentos de
estadística y organizaciones gubernamentales internacionales...
(Erasmus University Rotterdam, 2006).
S. Gallón - K Gómez
Motivación II
Metodología de la econometría:
1. Planteamiento de la teoría económica y de sus hipótesis
2. Especificación del modelo matemático de la teoría
3. Especificación del modelo econométrico
4. Recolección y análisis de la información
5. Estimación del modelo
6. Pruebas de hipótesis y pruebas de diagnóstico
7. Pronóstico
8. Análisis de política
S. Gallón - K Gómez
Motivación III
S. Gallón - K Gómez
Data and databases I
S. Gallón - K Gómez
Tipos de datos I
Índice: Usualmente corresponden a nombres, números seriales que
identifican de manera única cada observación en la base de datos.
Binaria: Variables que tienen sólo dos posibles categorías, tales como
SI o NO, ÉXITO o FALLA, MASCULINO o FEMENINO, etcétera.
Son usualmente codificadas como 0 ó 1 para los dos posibles casos, y
es comúnmente conocida como variable indicadora o dummy.
S. Gallón - K Gómez
Tipos de datos II
S. Gallón - K Gómez
Tipos de datos III
S. Gallón - K Gómez
Software estadístico y econométrico
S. Gallón - K Gómez
Regresión I
• Asuma que se dispone de un vector de p variables predictoras
X ∈ Rp y una variable de respuesta Y ∈ R.
• Supóngase (X, Y ) distribuyen conjuntamente acorde con P(X, Y )
con medias E(X) = µX y E(Y ) = µY , y covarianzas ΣXX ,
ΣY Y = σY2 , y ΣXY .
• Considérese ahora el problema de predecir a la variable Y por
medio de una función de X, f (X).
• La precisión de la predicción es medida por medio de una función
de valor real función de pérdida
L(Y, f (X)).
R(f ) = E (Y − f (X))2
Z
= (y − f (x))2 dP(x, y)
Z
= (y − f (x))2 dP(y|x)dP(x)
= EX EY |X (Y − f (X))2 |X .
Y = f (X, β) + ε
= X >β + ε
p
X
= βj Xj + ε,
j=1
S. Gallón - K Gómez
Regresión V
S. Gallón - K Gómez
Regresión VI
Así, el modelo de regresión lineal múltiple es:
y = Xβ + ε,
donde
y1 x11 x12 · · · x1p β1 ε1
y2 x21 x22 · · · x2p β2 ε2
y = . , X = . .. , β = .. , ε = ..
. .. ..
. .. . . . . .
yn xn1 xn2 · · · xnp βp εn
S. Gallón - K Gómez
Supuestos del modelo de regresión lineal I
1. Exogeneidad estricta
E(εi |X) = 0, i = 1, . . . , n.
S. Gallón - K Gómez
Supuestos del modelo de regresión lineal II
2. No multicolinealidad: Rango de la matriz de datos (también matriz
de diseño) es p con probabilidad 1.
3. Perturbaciones esféricas
X Homocedasticidad
2
Var(εi |X) = E(ε2i |X) − [E(εi |X)]
= E(ε2i |X)
= σ 2 > 0, i = 1, . . . , n.
X No correlación
Cov(εi , εk |X) = E(εi εk |X) − E(εi |X)E(εk |X)
= E(εi εk |X)
= 0, i, k = 1, . . . , n; i 6= k.
S. Gallón - K Gómez
Supuestos del modelo de regresión lineal III
εi |X ∼ N (0, σ 2 ), i = 1, . . . , n.
S. Gallón - K Gómez
Estimación de mínimos cuadrados ordinarios I
i=1
= (y − Xβ)> (y − Xβ)
= y > − β > X > (y − Xβ)
= y > y − β > X > y − y > Xβ + β > X > Xβ
= y > y − 2y > Xβ + β > X > Xβ.
S. Gallón - K Gómez
Estimación de mínimos cuadrados ordinarios II
• Teniendo en cuenta que
∂(a> z) ∂(z > Az)
=a y = 2Az para A simétrica,
∂z ∂z
entonces, diferenciado w.r.t. β se tiene que
∂SCE(β)
= −2X > y + 2X > Xβ.
∂β
Igualando a 0 se tiene el conjunto de p ecuaciones normales
X > Xβ = X > y.
S. Gallón - K Gómez
Conceptos relacionados I
ŷi = x>
i β,
b
o matricialmente
y
b = X β.
b
ei = yi − ŷi = yi − x>
i β,
b
o matricialmente
e=y−y
b = y − X β.
b
S. Gallón - K Gómez
Conceptos relacionados II
• La condición de ortogonalidad implica que: cuando el modelo
contiene una variable constante (intercepto), entonces
Xn
e i = 1>n e = 0, donde 1n = (1, . . . , 1)> .
i=1
• Error muestral, β
b −β
−1
b = X >X
β X >y
−1
= X >X X > (Xβ + ε)
−1 −1
= X >X X > Xβ + X > X X >ε
−1
= β + X >X X > ε.
e=y−y
b = y − Xβ
b
−1
= y − X X >X X >y
−1
= I − X X >X X> y
= I − P y = My
= I − P ε = Mε
S. Gallón - K Gómez
Conceptos relacionados IV
• La suma de cuadrados de los residuales está dada por
SCR = e> e
= y>M y
= (Xβ + ε)> M (Xβ + ε)
= β > X > + ε> M Xβ + ε
SCR e> e
S2 = = .
n−p n−p
S. Gallón - K Gómez
Análisis de varianza I
• Dado que y = y
b + e, entonces la suma de cuadrados totales es:
n
X
yi2 = y > y = (b
y + e)> (b
y + e)
i=1
b>y
=y b + e> y b > e + e> e
b+y
b>y
=y y > e + e> e
b + 2b
b>y
=y b > X > e + e> e
b + 2β
=yb>yb + e> e
Xn n
X
= ŷi2 + e2i .
i=1 i=1
S. Gallón - K Gómez
Análisis de varianza II
S. Gallón - K Gómez
Análisis de varianza III
• Coeficiente de determinación
Pn
2 (ŷi − ȳ)2
R = Pi=1 n 2
i=1 (yi − ȳ)
Pn 2
e
= 1 − Pn i=1 i 2
i=1 (yi − ȳ)
σ̂ 2
= 1 − e2 ∈ [0, 1] ,
σ̂y
Pn Pn
donde σ̂e2 = n−1 2
i=1 ei y σ̂y2 = n−1 i=1 (yi − ȳ)2 .
• El R2 representa una medida del ajuste lineal delP modelo, dado que
éste mide la proporción de variación total en yi , Pni=1 (yi − ȳ)2 ,
explicada por la variación total en los regresores, ni=1 (ŷi − ȳ)2 .
• Si el modelo tiene intercepto, entonces R2 ∈ [0, 1] y por lo tanto,
entre más cercano a uno, entonces mejor es el ajuste.
S. Gallón - K Gómez
Análisis de varianza IV
• Una dificultad del R2 es que éste se incrementa a medida que se
agregan regresores a la regresión.
• Una medida de ajuste que no presenta este problema es el R2
ajustado,
e> e/(n − p)
R̄2 = 1 −
y > M y/(n − 1)
1 Pn 2
n−p i=1 e1
= 1 − 1 Pn 2
.
n−1 i=1 (y1 − ȳ)
S. Gallón - K Gómez
Propiedades en muestras finitas I
Linealidad: Bajo el supuesto de linealidad, β
b es un estimador lineal.
−1
b = X >X
β X > y = Ay es transformación lineal de y,
−1
> >
Cov β|X
b = Cov X X X y|X
>
= E β − E β|X
b b β − E β|X
b b |X
>
=E β b −β β b − β |X
−1 −1
> > > >
=E X X X εε X X X |X
−1 −1
= X >X X > E εε> |X X X > X
−1 −1
2 > > >
=σ X X X X X X
−1
= σ2 X >X .
S. Gallón - K Gómez
Propiedades en muestras finitas III
Eficiencia uniforme: Bajo los supuestos 1-3, β
b es eficiente en la clase
de estimadores lineales insesgados.
En efecto, sea β
e = Cy un estimador lineal insesgado
E β|X
e = E [C (Xβ + ε) |X]
= CXβ + E (ε|X)
= CXβ
=β si CX = I.
Definiendo
−1
b = Cy − X > X
e −β
β X >y
−1
= C − X >X X> y
−1
= Dy, donde C = D + X > X X >.
S. Gallón - K Gómez
Propiedades en muestras finitas IV
Ahora, la varianza de β
e condicional a X es
Var β|X
e = Var (Cy|X)
h i
= E (Cy)(Cy)> |X
= CE yy > |X C >
= σ 2 CC >
−1 −1 >
= σ2 D + X >X X> D + X >X X>
−1
= σ 2 DD > + σ 2 X > X
2 >
= σ DD + Var β|X , b
S. Gallón - K Gómez
Propiedades en muestras finitas VI
Normalidad: Bajo los supuestos 1-4:
−1
2 >
• β ∼ N β, σ X X
b .
ε> ε (n − p)S 2
z>M z = M = .
σ σ σ2
Como M es simétrica e idempotente, z > M z ∼ χ2(n−p) , donde
n − p = Traza(M ). S. Gallón - K Gómez
Propiedades en muestras infinitas I
S. Gallón - K Gómez
Propiedades en muestras infinitas II
Finalmente, por el teorema del mapeo continuo, se tiene que
b −1 Σ P −1
β x,x x,y −−−→ Σx,x Σx,y = β.
b=Σ b
n→∞
S 2 −−−→ σ 2 .
P
n→∞
S. Gallón - K Gómez
Propiedades en muestras infinitas IV
n
!−1 n
−1 X X
> >
b −β = X X
β X ε= xi x>
i xi εi ,
i=1 i=1
S. Gallón - K Gómez
Propiedades en muestras infinitas V
El producto xi εi es iid (dado que las observaciones son iid) con media
E(xi εi ) = 0 y matriz de covarianza
Var(xi εi ) = E ε2i xi x>
i = E ε 2
i E x i x>
i = σ 2 Σx,x .
Pn √ D
√1 n (xε) −−−→ N (0, σ 2 Σx,x ).
Ahora, por el TLC, n i=1 xi εi =
n→∞
b x,x − P
Finalmente, ya que Σ → Σx,x , y por el teorema de Slutsky
√
−1 1 >
n β − β = Σx,x √ X ε
b b
n
D
−−−→ N Σ−1 x,x 0, σ 2 −1
Σ x,x Σx,x Σ−1
x,x
n→∞
= N 0, σ 2 Σ−1 x,x .
S. Gallón - K Gómez
Prueba de hipótesis I
β̂j − βj0
tj = √ ∼ tn−p , j = 1, . . . , p,
S vj
−1
donde vj es el j-ésimo elemento de la diagonal de X > X y
n
S 2 = (n − p)−1 i=1 (yi − ŷi )2 .
P
S. Gallón - K Gómez
Estimación de máxima verosimilitud I
εi |X ∼ N (0, σ 2 ), i = 1, . . . , n.
yi |X ∼ N (x> 2
i β, σ ), i = 1, . . . , n.
S. Gallón - K Gómez
Estimación de máxima verosimilitud II
• La función de verosimilitud para el modelo de regresión normal es:
n
2
Y 1 1 2
L(β, σ ) = exp − 2 εi
i=1
(2πσ 2 )1/2 2σ
n
( )
1 1 X 2
= exp − 2 εi
(2πσ 2 )n/2 2σ
i=1
1 1 >
= exp − 2 ε ε .
(2πσ 2 )n/2 2σ
β
b
MV = β MCO .
b
∂ log L(β, σ 2 ) n
= 2 X > (y − Xβ) = 0
∂β σ
y
∂ log L(β, σ 2 ) n 1
= − 2 + 4 (y − Xβ)> (y − Xβ) = 0.
∂σ 2 2σ 2σ
S. Gallón - K Gómez
Estimación de máxima verosimilitud IV
• Asumiendo que el Rango(X) = p, la solución única está dada por
−1
β
b = X >X
MV X >y = β b
1 > (n − p) 2
σ̂ 2 = e e= S .
n n
• Condición de segundo orden
2 2
∂ log L ∂ log L
− σ12 X > X − σ14 X > ε
> ∂β∂σ 2
H = ∂∂β∂β
2 log L ∂ 2 log L
= .
− σ14 ε> X n
2σ 4
− σ16 ε> ε
∂σ 2 β > ∂(σ 2 )2
semidefinida negativa.
• Covarianza asintótica (cota de Cramér-Rao o matriz de
información)
−1
σ 2 X >X 0
−1 −1
I(β, σ 2 ) = −E(H(β, σ 2 ))
= .
2σ 4
0> n
S. Gallón - K Gómez
Tests LM, Wald y LR I
Test de Wald
• Considérese el problema de probar un conjunto de q hipótesis
(posiblemente no lineales) sobre p parámetros en la forma
H0 : r(β) = r(β 0 ), donde r(·) : Rp → Rq es un vector contínuo.
• El estadístico de Wald es una medida de distancia para la cual el
estimador (no restringido) falla en satisfacer las restricciones.
• El estadístico de prueba está dado por
> \ −1
D
Wn = r(β̂) − r(β 0 ) Var r(β̂) r(β̂) − r(β 0 ) −→ χ2q .
√ > \ −1 √
Wn = n r(β̂) − r(β 0 ) nVar r(β̂) n r(β̂) − r(β 0 ) ,
S. Gallón - K Gómez
Tests LM, Wald y LR II
y aplicando el método Delta, dado que r(·) es un vector contínuo:
√
D
n r(β̂) − r(β 0 ) −→ Z ∼ N 0, J (β)Var (β) J (β)> ,
donde
∂r
1 (β) ∂r1 (β)
∂β1 ··· ∂βp
∂r(β) .. .. ..
J (β) = >
= . . . es la matriz Jacobiana.
∂β
∂rq (β) ∂rq (β)
∂β1 ··· ∂βp q×p
\
P
Ahora, dado que Var r(β̂) −→ Var r(β̂) , se tiene que
√ > \ −1 √
Wn = n r(β̂) − r(β 0 ) nVar r(β̂) n r(β̂) − r(β 0 )
n o−1
D
→ Z > nVar r(β̂)
− Z
S. Gallón - K Gómez
Tests LM, Wald y LR III
D
Ahora, dado que Z ∼ N (0, A), entonces Z > A−1 Z −
→ χ2q , se tiene
que
D
Wn −→ χ2q .
\
• La estimación de la matriz Var r(β̂) está dada por
\
Var r(β̂) = J (β̂)Var(β̂)J (β̂)> .
S. Gallón - K Gómez
Tests LM, Wald y LR IV
Test LR
• Para un modelo con parámetro θ ∈ Θ y función de verosimilitud
L(θ) el cociente de verosimilitud para H0 : θ ∈ Θ0 versus
H1 : θ ∈ Θ0R está dado por
!
L(θ)
e
LRn = −2 log
L(θ̂)
h i
= −2 log L(θ) e − log L(θ̂)
h i
= 2 log L(θ̂) − log L(θ)e
D
→ χ2q ,
−
donde θ̂ y θ
e son los estimadores de máxima verosimilitud no
restringido (bajo H0 ) y restringido (bajo H1 ).
S. Gallón - K Gómez
Tests LM, Wald y LR V
• En el modelo de regresión normal, las funciones log L maximizadas
en los estimadores de MV no restringido y restringido son
n
log L β̂, σ̂ 2 = − 1 + log(2π) + log(σ̂ 2 )
2
y n
e2 = − 1 + log(2π) + log(e
σ2) ,
log L β,
e σ
2
dado que σ̂ 2 = n1 (y − X β̂)> (y − X β̂) = n1 e> e y
e2 = n1 (y − X β)
σ e > (y − X β)
e = 1 e> eR .
n R
• Así, el estadístico LR es
e2
σ
LR = n log
σ̂ 2
e2 − log σ̂ 2
= n log σ
S. Gallón - K Gómez
Tests LM, Wald y LR VI
Test LM
• Este test está basado en la estimación de un modelo restringido.
• Supóngase el problema de maximizar la función log-verosímil
log L(θ) sujeta a un conjunto de q restricciones r(β) = c:
máx log L(θ) sujeto a r(β) = c.
θ∈Θ
S. Gallón - K Gómez
Tests LM, Wald y LR VII
• Las condiciones de primer orden están dadas por:
∂ log L(θ)
e
= −J > (θ)λ
e = 0.
∂θe
S. Gallón - K Gómez
Tests LM, Wald y LR VIII
S. Gallón - K Gómez
Regresión restringida I
Rβ = c,
S. Gallón - K Gómez
Regresión restringida II
β
e = arg min SCEn (β)
Rβ=c
n
X
= arg min (yi − x>
i β)
2
Rβ=c i=1
= arg min (y − Xβ)> (y − Xβ).
Rβ=c
1
L(β, λ) = SCEn (β) + λ> (Rβ − c).
2
S. Gallón - K Gómez
Regresión restringida III
• Las condiciones de primer orden están dadas por:
∂L β,e λ
e
= −X > y + X > X β e + R> λe=0
∂β
y
∂L β,
e λ
e
e − c = 0.
= Rβ
∂λ
−1
• Premultiplicando la primera condición por R X > X se tiene
−1
−Rβ e + R X >X
b + Rβ R> λ
e = 0.
• Nótese que β
e es un estimador lineal
β
e = Ay + a,
donde
−1 −1 −1 ! −1
A= I − X >X R> R X > X R> R X >X X>
y
−1 −1 −1
> > > >
a= X X R R X X R c.
S. Gallón - K Gómez
Regresión restringida V
• β
e es un estimador sesgado
e − β:
e =E β
con Sesgo β
S. Gallón - K Gómez
Regresión restringida VI
• Residuales restringidos
e = y − X β.
e e
e2 = 1
S e> e
e.
n−p+q
e
S. Gallón - K Gómez
Multicolinealidad I
• El estimador βb
MCO es impreciso cuando existen dependencias
lineales cercanas entre algunas de las columnas de la matriz X.
• El problema particular de la multicolinealidad está relacionado con
−1
el comportamiento de la matriz X > X .
• En presencia de multicolinealidad, pequeños cambios relativos en
−1
X > X producen grandes cambios relativos en X > X .
• Esto implica que algunos elementos de la diagonal principal de
−1
X >X son bastante grandes, lo cual en términos de
−1
Var(β) = σ 2 X > X
b , significa que algunos elementos de β
b
tengan alta varianza.
S. Gallón - K Gómez
Consecuencias de la multicolinealidad I
Ejemplo: Sea
1 1 1 1 1
y > = (6.05, 7.03, 7.12, 4.44, 5.08) y X> = .
1.9 2.1 2 2 1.8
Entonces
> 5 9.8 >
−1 74.08 −37.69
X X= , X X =
9.8 19.26 −37.69 19.23
y
b = (−6.62, 6.41)> .
β
S. Gallón - K Gómez
Consecuencias de la multicolinealidad II
Ahora, supóngase que X está dada por
1 1 1 1 1
X> = .
1.9 2.05 2 2 1.85
Entonces
> 5 9.8 >
−1 142.48 −72.59
X X= y X X = .
9.8 19.24 −72.59 37.04
y
b = (−4.25, 5.20)> .
β
S. Gallón - K Gómez
Consecuencias de la multicolinealidad III
Imprecisión estadística: Algunos elementos de la diagonal principal
−1
de X > X son bastante grandes.
X = (xj , X −j ),
S. Gallón - K Gómez
Diagnóstico de la multicolinealidad II
de modo que
σ2
Var(βbj ) = j = 1, . . . , p.
x>
j M −j xj
Casos extremos:
1. El vector xj está contenido en el espacio columna de X −j , es
decir, que xj es una función lineal de X −j , i.e. xj = X −j γ. Este
es el caso de perfecta multicolinealidad. Entonces M −j xj = 0 y
−1
Var(βbj ) no tiene sentido dado que X > X no existe.
2. El vector xj está contenido en el complemento ortogonal de X −j ,
es decir xj es ortogonal a cada una de las columnas de X −j , i.e.
X> −j xj = 0. Este es el caso de ausencia completa de colinealidad.
Entonces M −j xj = xj y Var(βbj ) = σ 2 /x> j xj .
σ 2 /x>
j M −j xj x>
j M −j xj
VIFj = = , j = 1, . . . , p,
σ 2 /x>
j xj x>
j xj
1 x>
j M −j xj
VIFj = , Rj2 = 1 − ,
1 − Rj2 x>
j xj
xj = X −j γ + u, j = 1, . . . , p, u ∼ i.i.d(0, τ 2 I).
S. Gallón - K Gómez
Diagnóstico de la multicolinealidad IV
S. Gallón - K Gómez
Diagnóstico de la multicolinealidad V
Índices de condición:
• Índices de condición
q la matriz X (escalada, i.e. dividiendo cada
de
columna por xj xj>
s
λmax
ηj = ∈ [1, ∞), j = 1, . . . , p.
λj
de modo que
p
X u2jk
Var(βbj ) = σ 2 , j = 1, . . . , p.
λj
k=1
u2jk /λj
πjk = Pp 2 , j, k = 1, . . . , p.
k=1 ujk /λj
S. Gallón - K Gómez
Diagnóstico de la multicolinealidad VII
• Para un índice de condición ηj no favorable, la presencia de dos o
más valores de πjk , k = 1, . . . , p mayores de 0.5 indican
colinealidad entre las correspondientes variables independientes.
S. Gallón - K Gómez
Soluciones de la multicolinealidad II
Regresión de componentes principales:
• Sea la descomposición espectral de la matriz simétrica X > X,
X > X = U ΛU > ,
y = XU U > β + ε
= Zθ + ε,
se tiene que
y = Z 1 θ1 + Z 2 θ2 + ε
= Z 1 θ 1 + ε.
S. Gallón - K Gómez
Soluciones de la multicolinealidad IV
b1 = Z > Z 1 −1 Z > y, y en
• El estimador del vector θ 1 es θ 1 1
consecuencia, el estimador de componentes principales de β es
b ? = U 1θ
β b1 .
?
−1 −1 −1
> > >
β =β=β− X X
b e b U2 U2 X X U2 U>
2 β.
b
S. Gallón - K Gómez
Soluciones de la multicolinealidad V
Regresión Ridge:
• La regresión ridge es conocida por mejorar el estimador de MCO
cuando valores propios de X > X son cercanos a cero, obteniendo
estimadores más estables
• La regresión ridge contrae los coeficientes por medio de la
inclusión de una función de penalización sobre el tamaño de los
coeficientes, Pλ (β), donde λ ≥ 0 es un parámetro de complejidad
(regularización o penalización) que controla el monto de la
contracción: a mayor λ, mayor el monto de contracción.
• La idea es elegir un estimador que ajuste bien a los datos a través de
SCE(β) y que sea estable a través Pλ (β).
S. Gallón - K Gómez
Soluciones de la multicolinealidad VI
• Los coeficientes ridge minimizan la suma de cuadrados de los
errores penalizada,
∂SCEλ (β)
= −2X > y + 2X > Xβ + 2λβ = 0
∂β
= X > y + X > X + λI β = 0.
S. Gallón - K Gómez
Soluciones de la multicolinealidad VIII
b ridge se puede expresar como función del estimador MCO
• β λ
−1
b ridge = X > X + λI
β λ X >y
−1 −1
= X > X + λI X >X X >X X >y
−1
= X > X + λI X >X β
b
−1 −1
> >
= X X I +λ X X X >X βb
−1 −1 −1
>
= I +λ X X X >X X >X β
b
−1 −1
>
= I +λ X X β
b
= W λ β.
b
S. Gallón - K Gómez
Soluciones de la multicolinealidad IX
donde
ridge ridge
Sesgo β
b
λ = E β
b
λ −β
= (W λ − I) β.
S. Gallón - K Gómez
Soluciones de la multicolinealidad X
S. Gallón - K Gómez
Pruebas de heterocedasticidad I
Método gráfico:
• Gráficos de dispersión entre funciones de los residuales versus las
variables independientes. Por ejemplo:
X ei versus las variables explicativas.
X e2i versus las variables explicativas.
X |ei | versus las variables explicativas.
S. Gallón - K Gómez
Pruebas de heterocedasticidad II
Test de Goldfeld-Quandt:
• El test aplica cuando H1 se expresa como una función creciente de
σi2 con valores crecientes de una de las variables independientes Xj .
• Las observaciones (yi , xi ) son ordenadas acorde con Xj , y
divididas en dos grupos (y 1 , X 1 ) y (y 2 , X 2 ) con tamaños n1 y n2 ,
respectivamente.
• Si H0 es válida, las varianzas de los términos de error en los
correspondientes modelos son iguales.
• Así, la idea del test es simplemente comparar las varianzas
estimadas de mínimos cuadrados bajo ambos modelos.
• Si la varianza estimada del segundo modelo es mayor que la del
primero, entonces H0 es rechazada.
• El test asume que solamente una variable independiente es la
posible causante de la heterocedasticidad.
S. Gallón - K Gómez
Pruebas de heterocedasticidad III
Pasos:
1. Ordenar crecientemente las observaciones de las variables según el
orden de la variable sospechosa de causar heterocedasticidad Xj .
2. Omitir r observaciones centrales (usualmente r = n/3).
3. Estimar regresiones para los dos grupos de observaciones teniendo
en cuenta que n1 = (n − r)/2 > p y n2 = (n − r)/2 > p.
4. Construir el estadístico de prueba
ê>
2 ê2 /(n1 − p)
F = >
∼ F(n1 −p),(n2 −p) ,
ê1 ê1 /(n2 − p)
donde ê>
1 ê1 es la suma de cuadrados de los residuales asociados al
grupo de observaciones con valores pequeños de Xj .
5. A un nivel de significancia α, H0 es rechazada si el valor del
estadístico F es mayor que el valor crítico F(n1 −p),(n2 −p),1−α .
S. Gallón - K Gómez
Pruebas de heterocedasticidad IV
• El test está implementado en la función gqtest del paquete
lmtest del software R.
Test de Breusch-Pagan:
• A diferencia del test de Goldfeld-Quandt, la heterocedasticidad
puede estar influenciada por más de una variable independiente.
• Así, el test asume un tipo de heterocedasticidad más general,
H1 : E(ε2i ) = σi2 = h α0 + z >
i α ,
X σi = exp α0 + z >
2
i α
S. Gallón - K Gómez
Pruebas de heterocedasticidad V
• La función h(·) no necesita ser especificada.
• Bajo esta manera de especificar la heterocedasticidad, la hipótesis
nula de errores homocedásticos es
H0 : α = 0
H1 : E(ε2i ) = σi2 .
S. Gallón - K Gómez
Pruebas de heterocedasticidad VII
donde R2 es el coeficiente de determinación del modelo auxiliar
e2i = α0 + z >
i α + νi , ei = yi − x>
i β,
b
S. Gallón - K Gómez
Pruebas de heterocedasticidad VIII
S. Gallón - K Gómez
Pruebas de estabilidad I
y = f (x; β) = f (x1 , . . . , xp ; β1 . . . , βp )
f (x) = β1 x1 + · · · + βp xp
S. Gallón - K Gómez
Pruebas de estabilidad II
70
60
50
40
y
30
20
10
0 20 40 60 80 100
x
S. Gallón - K Gómez
Pruebas de estabilidad III
Test de cambio estructural de Chow:
El test consiste en:
• Particionar (y, X) en dos subconjuntos (y 1 , X 1 ) y (y 2 , X 2 ) de
tamaño n1 y n2 , respectivamente.
• Estimar un modelo de regresión lineal que permita que los
coeficientes sean diferentes en ambos subconjuntos
y1 X1 0 β1 ε
y= = + 1 = X (n×2p) β (2p×1) + ε,
y2 0 X2 β2 ε2
donde el estimador de MCO está dado por
−1
b = X >X
β X >y
> −1 > !
X1 X1 0 X 1 y1 β
b
1
= = ,
0 X>2 X 2 X >
2 y2 β
b
2
H0 : β 1 = β 2 ,
(SCR∗ − SCR)/p
F = ∼ Fp,n−2p
SCR/(n − 2p)
S. Gallón - K Gómez
Pruebas de estabilidad V
> −1
\ \ D
b −β
W = β 1
b
2
b ) − Var(
Var(β 1 βb )
2
b −β
β 1
b −
2 → χ2q .
S. Gallón - K Gómez
Pruebas de normalidad I
Test de Jarque–Bera:
• Test basado en los coeficientes de asimetría y curtosis, los cuales
para una población X con media µ y varianza σ 2 están dados por
S. Gallón - K Gómez
Pruebas de normalidad II
0.6
0.4
0.5
0.3
0.4
Density
Density
0.2 0.3
0.2
0.1
0.1
0.0 0.0
−4 −2 0 2 4 −4 −2 0 2 4
x x
S. Gallón - K Gómez
Pruebas de normalidad III
• Dada una muestra aleatoria X1 , . . . , Xn de una población X, los
estimadores de α3 y α4 son
Pn 3 Pn 4
n−1 i=1 Xi − X n−1 i=1 Xi − X
α̂3 = y α̂4 = .
σ̂ 3 σ̂ 4
• Bajo normalidad se tiene que
D D
α̂3 −−−→ N (0, 6/n) y α̂4 −−−→ N (3, 24/n).
n→∞ n→∞
m> V −1
a = (a1 , . . . , an )> = 1/2 ,
m> V −1 V −1 m
S. Gallón - K Gómez
Pruebas de normalidad VI
Gráfico QQ:
• Gráfico para analizar si unos datos provienen de una determinada
población
• En particular, permiten ver gráficamente si una muestra aleatoria
X1 , . . . , Xn proviene de una distribución normal.
• Para construir el gráfico se ordena la muestra de menor a mayor,
X1:n , X2:n , . . . , Xn:n . Luego, la i-ésima observación más pequeña
en la muestra se toma como el percentil muestral (i − 0.5)/n.
Ahora el respectivo percentil (cuantile) en una población X normal
con media µ y varianza σ 2 , denotado por Xi:n ∗ , es
∗
P(X < Xi:n ) = (i − 0.5)/n.
∗ = µ + σZ ∗ , donde Z ∗ es el percentil
• Ahora definiendo Xi:n i:n i:n
respectivo en la normal estándar.
S. Gallón - K Gómez
Pruebas de normalidad VII
• Si los datos provienen de una distribución normal entonces
∗
Xi:n ≈ µ + σZi:n .
Cuantiles muestrales
**
****
2 ******
0.3 ********
***********
**********
********
1 ***
***
***********
*
******
***********
********
0.2 0 **********
***
**********
****
**********
**********
*********
−1 **
***
**
***********
**********
0.1 ***********
*******
******
−2 ********
*******
***
* * *****
0.0 −3 * *
*
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x Cuantiles teoricos
0.35 3
*
Cuantiles muestrales
0.30 2 ** *
0.25 1 *
*
*****
*******
0.20 *****************
***************
**************
0 ******
***
*************************************** ******
**********
*********** *****
***********
*********************************
********************
***************************
0.15 ***************
−1 **
***
** ***
0.10 −2 *
0.05 −3 *
*
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x Cuantiles teoricos
30 *
0.10
Cuantiles muestrales
*
25
*
0.08 20 ****
** * *
**
********
0.06 *
*********
*
15 *
*****
*
******
*********
*********
*******
0.04 10 **********
************
*****
**
**
**
***********
*
*
***************
0.02 5 ***************
******
***************
***********
***********
***************
********************
0.00 * * * * * *************
0
0 5 10 15 20 25 −3 −2 −1 0 1 2 3
x Cuantiles teoricos S. Gallón - K Gómez
Mínimos cuadrados generalizados I
• En la práctica, se presentan casos en los cuales el supuesto de
errores homocedásticos e incorrelacionados no se cumple,
Ejemplos:
ρ2 ρn−1
1 ρ ···
ρ 1 ρ ··· ρn−2
2
2 σ 2 ..
σ Ω= ρ ρ 1 ··· ,
. ρ ∈ (−1, 1)
1 − ρ2
.. .. .. .. ..
. . . . .
ρn−1 ρn−2 ··· ρ 1
2
σ1 0 · · · 0
0 σ2 · · · 0
2 I n0 0
σ2Ω = . .. ,
2
σ Ω=σ 2
. .. . . 0 cI (n−n0 )
. . . .
0 0 ··· σn2 S. Gallón - K Gómez
Mínimos cuadrados generalizados II
y = Xβ + ε,
donde
S. Gallón - K Gómez
Propiedades y consecuencias del estimador de MCO en el
contexto del modelo lineal generalizado I
−1
b = X >X
• El estimador β X > y es lineal e insesgado.
• La matriz de covarianza de β
b es
−1 −1
Cov β|X
b = σ2 X >X X > ΩX X > X ,
S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- I
• Nótese que
Cov (ε∗ |X) = Cov Ω−1/2 ε|X
>
−1/2 −1/2
=E Ω ε Ω ε |X
= Ω−1/2 E εε> |X Ω−1/2
= σ 2 Ω−1/2 ΩΩ−1/2
= σ 2 I.
S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- II
P ΩP > = I.
A> ΩA = Λ,
S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- III
• La matriz de transformación requerida es P = Λ−1/2 A> dado que
P y = P Xβ + P ε
y ∗ = X ∗ β + ε∗ ,
S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- IV
S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- V
• Error muestral, β
b
MCG − β
−1
> −1
β
b
MCG = X Ω X X > Ω−1 y
−1
= X > Ω−1 X X > Ω−1 (Xβ + ε)
−1
= β + X > Ω−1 X X > Ω−1 ε.
Por lo tanto,
−1
> −1
β
b
MCG − β = X Ω X X > Ω−1 ε.
• β
b
MCG es un estimador lineal e insesgado.
• Matriz de covarianza de β
b
MCG
−1
2 > −1
Cov β
b
MCG |X = σ X Ω X .
S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- VI
• Teorema de Aitken: β b
MCG es eficiente entre la clase de estimadores
lineales insesgados. Este resultado es una aplicación del Teorema
Gauss-Markov al modelo de mínimos cuadrados generalizado.
• Bajo normalidad de los errores
−1
2 > −1
β ∼ N β, σ X Ω X
b .
P
• β b−
b es un estimador consistente de β, β → β.
S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- VII
1
2
SMCG = e> e∗
n−p ∗
1 >
= y∗ − X ∗β
b
MCG y ∗ − X ∗ β
b
MCG
n−p
1 >
= Ω−1/2 y − X β b
MCG Ω −1/2
y − X β
b
MCG
n−p
1
= e> Ω−1 eMCG , eMCG = y − X β b
MCG
n − p MCG
S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado factible I
S. Gallón - K Gómez
Estimación de Cov(β|X)
b bajo heterocedasticidad I
Ω = diag(ω1 , . . . , ωn )
= E εε> |X
= E diag(ε21 , . . . , ε2n )|X .
n
!−1 n
! n
!−1
X X X
Cov
d ideal β|X
b = xi x>
i ε2i xi x>
i xi x>
i .
i=1 i=1 i=1
S. Gallón - K Gómez
Estimación de Cov(β|X)
b bajo heterocedasticidad III
n
!−1 n
! n
!−1
X X X
d White β|X
Cov b = xi x>
i e2i xi x>
i xi x>
i ,
i=1 i=1 i=1
S. Gallón - K Gómez
Estimación de Cov(β|X)
b bajo heterocedasticidad IV
Xn
bi = S 2 = (n − p)−1
Varianza Constante : ω e2
i=1 i
bi = e2i
White : ω
n 2
MacKinnon-White 1 : ω
bi = e
n−p i
1
MacKinnon-White 2 : ω
bi = e2
1 − pi i
1
MacKinnon-White 3 : ω
bi = e2
(1 − pi )2 i
1
Long-Ervin : ω
bi = e2 , δi = mı́n {4, pi /p} ,
(1 − pi )δ1 i
donde pi = P ii son los elementos de la diagonal de la matriz de
−1 >
proyección P = X X > X X .
• Estos estimadores están implementados en la función vcovHC del
paquete sandwich.
S. Gallón - K Gómez
Endogeneidad I
E (εi |xi ) 6= 0,
implicando que
Esto es:
1 1
q= (γd · X s β s − γs · X d β d ) + (γd εs − γs εd ) ,
γd − γs γd − γs
1 1
p= (X s β s − X d β d ) + (εs − εd )
γd − γs γd − γs
Nótese que el precio p está correlacionado con εd y εs ,
−σd2 σs2
Cov(p, εd ) = Cov(p, εs ) = .
γd − γs γd − γs S. Gallón - K Gómez
Endogeneidad IV
Errores en las variables: algunas variables son medidas con error.
Considérese el modelo
yi = β 1 + β 2 x i + ε i , εi ∼ i.i.d.(0, σε2 )
xi = x
ei + υi , υi ∼ i.i.d.(0, συ2 ), E(εi υi ) = 0
Por lo tanto,
yi = β1 + β2 x
ei + εi + β2 υi
= β1 + β2 x
ei + ξi , ξi = εi + β2 υi ,
E(ξi |e
xi ) = E(ξi |υi ) = E(εi + β2 υi |υi )
= E(εi |υi ) + β2 E(υi |υi )
= β2 υi 6= 0.
S. Gallón - K Gómez
Endogeneidad V
Por lo tanto,
Cov(e
xi , ξi ) = E(e xi ξi |e
xi ξi ) = E [E(e xi )]
xi E(ξi |e
= E [e xi )]
xi · β2 υi )
= E(e
= E [(xi − υi ) · β2 υi )]
= β2 xi E(υi ) − β2 E(υi2 )
(
2 > 0, si β2 < 0
= −β2 συ
< 0, si β2 > 0.
S. Gallón - K Gómez
Variable instrumental I
• Considere el modelo de regresión lineal
yi = x>
i β + εi ,
n
!−1 n
1X 1X
β
b =β+ xi x>
i x i εi
n n
i=1 i=1
Σ−1
P
−
→β+ x,x 0 = β,
si n−1 ni=1 xi εi −
P P
→ 0 (dado que E (xi εi ) = 0), y
n−1 ni=1 xi x>
P P
i − → Σx,x . S. Gallón - K Gómez
Variable instrumental II
• Así, si cualquiera de los componentes en xi son endógenos,
E (xi εi ) 6= 0, entonces β
b es inconsistente para β.
• Un método de solución al problema de obtención de estimadores
inconsistentes es por medio del método de variable instrumental.
• El supuesto clave del método es la existencia de un vector r × 1 de
instrumentos z cumpliendo que:
X z esté incorrelacionado con el error ε. Esto es
E (z i εi ) = E [E (z i εi |z i )] = E [z i E (εi |z i )] = 0
o matricialmente,
h i
E Z > ε = E Z > (y − Xβ) = 0,
S. Gallón - K Gómez
Variable instrumental V
• β
b es consistente y asintóticamente normal.
IV
• Si Z = X, entonces β
b =β
IV
b
MCO
• Sí r > p, el sistema puede no tener una única solución. En este caso
el método de los momentos generalizado es usado.
• Hallar instrumentos apropiados puede ser fácil en algunos casos,
pero extremadamente difícil en otros. Muchas controversias
empíricas se dan sobre si ciertos instrumentos son válidos.
• Malos instrumentos implican mala información y, por lo tanto, baja
eficiencia.
S. Gallón - K Gómez
Repaso del método de los momentos I
Definición: Para un entero positivo k, el k-ésimo momento poblacional
de una variable aleatoria U con f.p.m. ó f.d.p. f (u, θ), θ ∈ Θ ⊂ Rp , es
(P
uk f (u, θ), U discreta
µk = E U k = R u k
u u f (u, θ), U continua.
Ejemplos:
Pn
X Para k = 1, µ1 = E(U ), y m1 = n−1 i=1 Ui= U.
E(U 2 ) µ21 , y m2 = n−1 ni=1 Ui2 .
P
X Para k = 2, µ2 = = µ2 −
S. Gallón - K Gómez
Repaso del método de los momentos II
Definición: Sea U1 , . . . , Un una m.a. con f.p.m. ó f.d.p. f (u, θ), con
θ ∈ Θ ⊂ Rp desconocido. El estimador de momentos θ bMM se obtiene
igualando los primeros p momentos poblacionales con los respectivos
momentos muestrales, y luego resolver para θ. Esto es, resolver
1 Xn
µ1 = E(U ) = Ui = m1
n i=1
1 Xn
µ2 = E(U 2 ) = U 2 = m2
n i=1 i
.. .. .. ..
. . . .
1 n
U p = mp ,
X
µp = E(U p ) =
n i=1 i
S. Gallón - K Gómez
Repaso del método de los momentos III
Ejemplos:
• Estimación de la media poblacional de una v.a. i.i.d. Y con media µ.
E(Y ) = µ −→ E(Y − µ) = 0.
Pn
Reemplazando el operador E(·) por el promedio n−1 i=1 para la
muestra Y1 , . . . , Yn , se tiene que
n
1X
(Yi − µ) = 0.
n
i=1
S. Gallón - K Gómez
Repaso del método de los momentos IV
• Estimación del modelo de regresión lineal múltiple.
Dado que E (ε|x) = 0, la condición de momentos incondicional es
h i
E (xε) = E x y − x> β = 0.
n
!−1 n
X X
β
b
MM = xi x>
i xi yi .
i=1 i=1
Así, β
b
MCO es una caso particular del método de los momentos.
S. Gallón - K Gómez
Repaso del método de los momentos V
• Estimación del modelo de regresión lineal de variable instrumental.
Dado que E (ε|z) = 0, la condición de momentos incondicional es
h i
E (zε) = E z y − x> β = 0.
S. Gallón - K Gómez
Método de los momentos generalizado II
n
1X
z i yi − x>
i β ,
n
i=1
sea tan pequeño como sea posible, usando una función de distancia
cuadrática tal que β
b
GMM minimice
( n
)> ( n
)
1X 1X
Qn (β) = z i yi − x >
i β Wn z i yi − x >
i β ,
n n
i=1 i=1
S. Gallón - K Gómez
Origen del método de los momentos generalizado I
• Así, si H0 es cierta,
S. Gallón - K Gómez
Estimador GMM I
Definición: Sea θ un vector p × 1 desconocido, wi un vector de v.a.’s,
y h(·) un vector r × 1 de funciones, r ≥ p. La condición de momentos
poblacional toma la forma
Esto es,
θ
bGMM = arg min Qn (θ),
θ∈Θ
S. Gallón - K Gómez
Estimador GMM III
n
1X
h wi , θ
bMM = 0,
n
i=1
S. Gallón - K Gómez
Estimador GMM IV
Pn
• Si r > p, el sistema n−1 i=1 h (w i , θ) = 0 es sobre-identificado,
y no tiene solución.
En suPlugar, θ
b es elegido tal que la forma cuadrática de
n
n−1 i=1 h(wi , θ) b sea suficientemente cercana a 0. Esto es,
θ
bGMM = arg min Qn (θ),
θ∈Θ
S. Gallón - K Gómez
Estimador GMM V
S. Gallón - K Gómez
Aplicación I
por lo tanto
n >
( ) ( n )
1X 1 X
Qn (β) = z i yi − x >
i β Wn z i yi − x>
i β
n n
i=1 i=1
>
1 > 1 >
= Z (y − Xβ) Wn Z (y − Xβ) .
n n
S. Gallón - K Gómez
Aplicación II
se tiene que
>
∂Qn (β) 1 > 1 >
= −2 Z X Wn Z (y − Xβ)
∂β n n
1 > 1 >
= −2 X Z Wn Z (y − Xβ) = 0.
n n
• De modo que
X > ZW n Z > X β = X > ZW n Z > y.
S. Gallón - K Gómez
Aplicación III
• Por lo tanto, si X > ZW n Z > X es invertible, el estimador GMM es
−1
> >
β
b
GMM = X ZW n Z X X > ZW n Z > y,
Pn
• Si r = p, Z > X = >
i=1 z i xi es cuadrada e invertible, entonces,
−1
>
β
b
GMM = Z X Z >y
n
!−1 n
X X
= z i x>
i z i yi = β
b =β
IV
b
MM
i=1 i=1
S. Gallón - K Gómez
Propiedades del estimador GMM I
Supuestos:
1. E [h(wi , θ)] = 0.
2. h(·) satisface que h wi , θ (1) = h wi , θ (2) si y sólo si
θ (1) = θ (2) . h i
1 Pn ∂h(wi ,θ) P ∂h(wi ,θ)
3. n i=1 ∂θ −
→G=E ∂θ .
P
4. W n −→ W finita, simétrica y definida positiva.
5. n1 ni=1 h(wi , θ)h> (wi , θ) −
→ S = E h(wi , θ)h> (wi , θ) (caso
P P
de observaciones independientes).
S. Gallón - K Gómez
Propiedades del estimador GMM II
Entonces:
• Consistencia
P
bGMM −
θ → θ.
• Distribución asintótica
√
D
n θbGMM − θ −→ N (0, V ) ,
S. Gallón - K Gómez
Propiedades del estimador GMM III
• La inferencia estadística para el estimador θ
bGMM es posible usando
estimadores consistentes de W , G y S dados por W n ,
n
1 X ∂h(wi , θ)
e
G=
b
n ∂θ
i=1
y
n
b= 1
X
S e > (wi , θ),
h(wi , θ)h e
n
i=1
respectivamente, donde θ
e es un estimador consistente preliminar de
θ asumiendo W n = I.
• Por lo tanto, el estimador de V está dado por
1b> −1 > > −1
Vb = G W nG
b G
b W n SW
b nG
b G b W nG
b .
n
S. Gallón - K Gómez
Estimador GMM eficiente I
√ −1
D > −1
n θ OGMM − θ −
b → N 0, G S G .
S. Gallón - K Gómez
Estimador GMM eficiente II
El estimador GMM óptimo o eficiente puede obtenerse usando un
procedimiento de dos etapas (estimador GMM en dos etapas).
1. Obtener un estimador GMM θ e usando una elección subóptima de
W n , por ejemplo W n = I por simplicidad, y estimar S,
n
b= 1
X
S e > (wi , θ).
h(wi , θ)h e
n
i=1
b −1 . Esto es, el
2. Hallar el estimador GMM óptimo usando W n = S
estimador θbOGMM que minimize
( n
)> ( n )
1X −1 1 X
Qn (θ) = h (wi , θ) S
b h (wi , θ) .
n n
i=1 i=1
S. Gallón - K Gómez
Aplicación I
Estimador GMM óptima del modelo de regresión lineal de variable
instrumental.
• Se sabe que h (wi , θ) = z i (yi − x>
i β) = z i εi .
• Para errores heterocedásticos, S es estimada consistentemente por
n
b= 1
X
S bGMM h> wi , θ
h wi , θ bGMM
n
i=1
n
1X 2
= εbi z i z >
i
n
i=1
1
= Z > ΩZ,
b
n
S. Gallón - K Gómez
Aplicación II
S. Gallón - K Gómez
Aplicación III
• Para errores homocedásticos, S es estimada consistentemente por
n
S2 X
S=
b ziz>
i
n
i=1
S2
= Z > Z,
n
• Por lo tanto, el estimador GMM óptimo de variable instrumental es
−1
> b −1 > b −1 Z > y
β
b
OGMM = X Z S Z X X >Z S
−1 −1 −1
> > >
= X Z Z Z Z X X >Z Z >Z Z >y
−1
= X >P Z X X > P Z y,
−1
donde P Z = Z Z > Z Z > es una matriz de proyección.
S. Gallón - K Gómez
Aplicación IV
• Nótese que
−1
c = P Z X = Z Z >Z
X Z >X
=β
b
OGMM .
S. Gallón - K Gómez
GMM como un principio unificador de estimación I
• Múltiples estimadores son obtenidos por medio de la optimización
(estimadores M) de una función escalar de la forma
n
X
Ni (θ), θ ∈ Θ ∈ Rp .
i=1
n
X ∂Ni θb
= 0.
∂θ
i=1
Por lo tanto,
n n
X ∂Ni β 1X
= xi yi − x>
i β = 0.
∂β n
i=1 i=1
Así, β
b
MCO puede interpretarse como un estimador GMM.
S. Gallón - K Gómez
GMM como un principio unificador de estimación III
X Estimador de máxima verosimilitud
Asumiendo que la f.d.p del vector wi i.i.d. es f (wi , θ), el
estimador de MV de θ está dado por
n
X
θ
bMV = arg max log [f (wi , θ)] −→ Ni (θ) = log [f (wi , θ)] .
θ∈Θ i=1
Por lo tanto,
n
X ∂ log [f (wi , θ)] ∂Ni β ∂ log [f (wi , θ)]
= 0 −→ = .
∂θ ∂θ ∂θ
i=1
Así, θ
bMV tiene una interpretación como un estimador GMM.
S. Gallón - K Gómez
Test de restricciones sobre-identificadas I
H0 : E [h (wi , θ)] = 0.
S. Gallón - K Gómez
Test de restricciones sobre-identificadas II
• En particular, se tiene que
√ D P
n h(θ) −
→ N (0, S) y b−
S → S.
> −1 1 X
( n ) ( n )
1X
=n h wi , θ
b S
b h wi , θ
b
n n
i=1 i=1
D
→ χ2r−p ,
−
H0 : E(xi εi ) = 0,
H1 : E(z i εi ) = 0.
S. Gallón - K Gómez
Test de Durbin-Wu-Hausman II
P
• Bajo H0 , β
b
MCO y β IV son consistentes, β IV − β MCO −
b b b → 0.
P
• Bajo H1 , β
b es consistente, pero β
IV
b
MCO no, β IV − β MCO 9 0.
b b
• La idea del test es probar si β
b −β
IV
b es significativamente
MCO
diferente de cero usando el estadístico de prueba
> −1
D
Hn = n βb −β
IV
b
MCO V
b IV − V
b MCO β
b
IV −βb
MCO −→ χ2k ,
S. Gallón - K Gómez
Referencias I
R. Bowden and D. Turkington. Instrumental Variables, volume 8 of Econometric Society
Monographs in Quantitative Economics. Cambridge University Press, Cambridge, 1984.
A. Cameron and P. Trivedi. Microeconometrics: Methods and Applications. Cambridge
University Press, New York, 2005.
P. Chaussé. Computing generalized method of moments and generalized empirical likelihood with
R. Journal of Statistical Software, 34(11):1–35, 2004.
R. Davidson and J. MacKinnond. Econometric Theory and Methods. Oxford University Press,
New York, 2003.
P. Dhrymes. Mathematics for Econometrics. Springer, New York, fourth edition, 2013.
W. Greene. Econometrics Analysis. Prentice Hall, Heidelberg, 7th edition, 2012.
J. Groß. Linear Regression, volume 175 of Lecture Notes in Statistics. Springer, Heidelberg, 2003.
A. Hall. Generalized Method of Moments. Advanced Texts in Econometrics. Oxford University
Press, New York, 2005.
T. Hastie, R. Tibshirani, and J. Friedman. The Elements of Statistical Learning: Data Mining,
Inference, and Prediction. Springer, 5th edition, 2009.
F. Hayashi. Econometrics. Princeton University Press, Princeton, NJ, 2000.
A. Izenman. Modern Multivariate Statistical Techniques: Regression, Classification, and
Manifold Learning. Springer, 2008.
G. James, D. Witten, T. Hastie, and R. Tibshirani. An Introduction to Statistical Learning with
Applications in R. Springer, 2013.
S. Gallón - K Gómez
Referencias II
S. Gallón - K Gómez