0% encontró este documento útil (0 votos)
302 vistas169 páginas

Curso de Econometría para Economistas

Este documento presenta una introducción a la econometría. Explica la motivación y aplicaciones de la econometría, los tipos de datos utilizados, el problema de regresión y el modelo de regresión lineal. También describe software estadístico y econométrico comúnmente usado y conceptos clave como variables predictoras, variables de respuesta, y función de riesgo.

Cargado por

Aneth G
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
302 vistas169 páginas

Curso de Econometría para Economistas

Este documento presenta una introducción a la econometría. Explica la motivación y aplicaciones de la econometría, los tipos de datos utilizados, el problema de regresión y el modelo de regresión lineal. También describe software estadístico y econométrico comúnmente usado y conceptos clave como variables predictoras, variables de respuesta, y función de riesgo.

Cargado por

Aneth G
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Econometría I

Santiago Gallón 1 Karoll Gómez 2

1 Departamento de Matemáticas y Estadística


Facultad de Ciencias Económicas
Universidad de Antioquia
Medellín, Colombia
2 Departamento de Economía

Facultad de Ciencias Humanas y Económicas


Universidad Nacional de Colombia
Medellín, Colombia

7 de octubre de 2014

S. Gallón - K Gómez
Contenido I
Motivación
Aplicaciones
Datos y bases de datos
Tipos de datos
Software estadístico y econométrico
El problema de regresión
Supuestos del modelo de regresión lineal
Estimación de mínimos cuadrados ordinarios
Geometría del método de MCO
Conceptos relacionados
Análisis de varianza
Propiedades del estimador de MCO
Propiedades en muestras finitas
Propiedades en muestras infinitas
Prueba de hipótesis
Estimación de máxima verosimilitud
Tests de Wald, LR, y LM S. Gallón - K Gómez
Contenido II
Test de Wald
Test de LR
Test de LM
Regresión restringida
Multicolinealidad
Consecuencias de la multicolinealidad
Diagnóstico de la multicolinealidad
Soluciones de la multicolinealidad
Pruebas de heterocedasticidad
Pruebas de estabilidad
Pruebas de normalidad
Mínimos cuadrados generalizados
Propiedades y consecuencias del estimador de MCO en el contexto
del modelo lineal generalizado
Estimador de mínimos cuadrados generalizado -MCG-
Estimador de mínimos cuadrados generalizado factible
Estimación de la matriz de covarianza bajo heterocedasticidadS. Gallón - K Gómez
Contenido III
Variable instrumental
Endogeneidad
Variable instrumental

Método de los momentos generalizado


Repaso del método de los momentos
Método de los momentos generalizado
Propiedades del estimador GMM
Estimador GMM eficiente
GMM como un principio unificador de estimación
Test de restricciones sobre-identificadas
Test de Hausman

S. Gallón - K Gómez
Motivación I

Econometría:
Rama de la disciplina económica que concierne con la estimación y
contraste empírico de las relaciones cuantitativas que pueden existir
entre las variables económicas a partir del empleo conjunto de la teoría
económica, la matemática y la teoría estadística.

Definición sencilla:
Combinación de economía, matemática y estadística.

Utilidad de la Econometría:
...reconocida como un campo de estudio indispensable para la toma de
decisiones en economía, finanzas y negocios. Los modelos y métodos
econométricos son aplicados en la práctica diaria en las firmas
financieras, bancos comerciales y centrales, departamentos de
estadística y organizaciones gubernamentales internacionales...
(Erasmus University Rotterdam, 2006).

S. Gallón - K Gómez
Motivación II

Metodología de la econometría:
1. Planteamiento de la teoría económica y de sus hipótesis
2. Especificación del modelo matemático de la teoría
3. Especificación del modelo econométrico
4. Recolección y análisis de la información
5. Estimación del modelo
6. Pruebas de hipótesis y pruebas de diagnóstico
7. Pronóstico
8. Análisis de política

S. Gallón - K Gómez
Motivación III

Figura: El enfoque econométrico. Fuente: Intriligator (1978).


S. Gallón - K Gómez
Ejemplos de aplicaciones:

Marketing: Predicción de tendencias de un nuevo producto. Predicción


de cómo los clientes responden a determinadas campañas publicitarias.
Dado un conjunto de clientes que han comprado los productos A ó B,
identificar aquellos que probablemente comprarían el producto C...
Banking: Predecir cuáles clientes probablemente cambiarán de una
tarjeta de crédito a otra. Evaluar políticas de préstamo con base en las
características de los clientes...
Mercados financieros: Identificar relaciones entre los indicadores
financieros. Estudiar portafolios de inversión y predicción de precios.
Analizar patrones de volatilidad (riesgo) en los mercados...
Seguros: Identificar características de los clientes por nuevos productos.
Hallar patrones inusuales de reclamaciones. Identificar clientes
“riesgosos”...
Crecimiento económico, educación, salud, energía,...

S. Gallón - K Gómez
Data and databases I

• Una base de datos es una colección de datos.


• El formato más popular para organizar los datos es en la forma de
tablas (también conocidas como matrices o arreglos de datos).
• Cada tabla tiene la forma de un arreglo rectangular organizado en
filas y columnas, donde cada fila representa los valores de todas las
variables para una simple observación, y una columna representa
los valores de una simple variable para cada observación.
 
x11 x12 · · · x1p
 x21 x22 · · · x2p 
X = . ..  ,
 
.. ..
n×p  .. . . . 
xn1 xn2 · · · xnp

donde xij representa el valor en la i-ésima fila (i = 1, 2, . . . , n) y


j-ésima columna (j = 1, 2, . . . , p) de X.

S. Gallón - K Gómez
Tipos de datos I
Índice: Usualmente corresponden a nombres, números seriales que
identifican de manera única cada observación en la base de datos.

Binaria: Variables que tienen sólo dos posibles categorías, tales como
SI o NO, ÉXITO o FALLA, MASCULINO o FEMENINO, etcétera.
Son usualmente codificadas como 0 ó 1 para los dos posibles casos, y
es comúnmente conocida como variable indicadora o dummy.

Entero: Usualmente un número entero no negativo a menudo conocida


como variable de conteo.

Continua: Variable en la cual el supuesto de continuidad depende de un


número suficiente de dígitos (y decimales).

S. Gallón - K Gómez
Tipos de datos II

Nominal: Versión general de una variable binaria y tiene un número fijo


de respuestas no ordenadas. Estas respuestas son típicamente
codificadas de manera alfanumérica y representan categorías disjuntas.
Ejemplos son: localización geográfica, preferencias de marca, afiliación
a un partido político,...

Ordinal: Las posibles respuestas para este tipo de variable de secuencia


de caracteres (string) son linealmente ordenadas. Un ejemplo son las
calificaciones de bonos registradas como AA+, AA, AA-, A+, A, A-,
B+, B, and B-. A menudo son codificadas sobre una escala de
“ranking"de 1–5 (or 1–10). El principal problema con estas escalas es
el supuesto implícito de equidistancia de las calificaciones.

S. Gallón - K Gómez
Tipos de datos III

Adicionalmente también se necesita distinguir entre variables de


respuesta e insumo:

Variable de insumo: También conocida como variable predictora,


independiente, característica o explicativa, denotada por X, y puede
considerarse como fija (o controlada) a través de un experimento
diseñado estadísticamente, o estocástica si toma valores observados
pero no controlados.

Variable de respuesta: También conocida como variable explicada o


dependiente, denotada por Y , la cual es estocástica y depende de un
conjunto finito de variables predictoras.

S. Gallón - K Gómez
Software estadístico y econométrico

• R ([Link] Sistema gratuito bajo


licencia GNU (General Public License) basado en el lenguaje S.
• Matlab ([Link]
• SAS ([Link]
• Stata ([Link]
• EViews ([Link]
• Limdep ([Link]
• EasyReg ([Link]
• SPSS, Ox, Gauss, Shazam,...

S. Gallón - K Gómez
Regresión I
• Asuma que se dispone de un vector de p variables predictoras
X ∈ Rp y una variable de respuesta Y ∈ R.
• Supóngase (X, Y ) distribuyen conjuntamente acorde con P(X, Y )
con medias E(X) = µX y E(Y ) = µY , y covarianzas ΣXX ,
ΣY Y = σY2 , y ΣXY .
• Considérese ahora el problema de predecir a la variable Y por
medio de una función de X, f (X).
• La precisión de la predicción es medida por medio de una función
de valor real función de pérdida

L(Y, f (X)).

• La calidad de f como predictor es medida por medio de la pérdida


esperada (conocida como función de riesgo),
Z
R(f ) = E [L(Y, f (X))] = L(Y, f (X))dP(X, Y ).
S. Gallón - K Gómez
Regresión II
• Para una función de riesgo L(Y, f (X)) = (Y − f (X))2 (error
cuadrático medio),

R(f ) = E (Y − f (X))2
 
Z
= (y − f (x))2 dP(x, y)
Z
= (y − f (x))2 dP(y|x)dP(x)

= EX EY |X (Y − f (X))2 |X .
  

• R(f ) puede minimizarse en cada punto x,

m(x) = arg min EY |X (Y − f (X))2 |X = x


 
f : Rp →R

Cuya solución es la media condicional (o función de regresión),


Z
m(x) = E(Y |X = x) = ydP(y|x)
S. Gallón - K Gómez
Regresión III
En efecto
E (Y − f (X))2
 

= E (Y − m(X) − (f (X) − m(X))2


 

= E (Y − m(X))2 + E (f (X) − m(X))2


   

− 2E [(Y − m(X)(f (X) − m(X))]


= E (Y − m(X))2 + E (f (X) − m(X))2 ,
   

teniendo en cuenta que

E [(Y − m(X)(f (X) − m(X))]


= E {E [(Y − m(X))(f (X) − m(X))|X = x]}
= E {E [(Y − m(X))|X = x] (f (X) − m(X))}
= E {(E [Y |X = x] − m(X))(f (X) − m(X))}
= E {(m(X) − m(X))(f (X) − m(X))}
=0
S. Gallón - K Gómez
Regresión IV
Así, el primer término en

E (Y − f (X))2 = E (Y − m(X))2 + E (f (X) − m(X))2


     

 f (X), por lo tanto minimizar el riesgo equivale a


no depende de
minimizar E (f (X) − m(X))2 , que es cero si f (X) = m(X).
• Si Y es linealmente relacionada con X = (X1 , . . . , Xp )> entonces,

Y = f (X, β) + ε
= X >β + ε
p
X
= βj Xj + ε,
j=1

donde ε es una variable aleatoria no observada (componente de


error) con media 0 y varianza σ 2 > 0, e independiente de X.

S. Gallón - K Gómez
Regresión V

• La relación es conocida como modelo de regresión lineal, donde


β = (β1 , . . . , βp )> es un vector de parámetros fijos desconocidos y
σ 2 es la varianza de error desconocida.
• Reemplazando f (X) = X > β en R(f ), y diferenciado se tiene que
h  i−1
b = E XX >
β E(XY )
= Σ−1
XX ΣXY .

• En la práctica, para estimar el vector β se dispone de una muestra


de datos D = {(xi , yi ), i = 1, . . . , n}, donde xi = (xi1 , . . . , xip )> .

S. Gallón - K Gómez
Regresión VI
Así, el modelo de regresión lineal múltiple es:

yi = β1 xi1 + · · · + βp xip + εi , i = 1, . . . , (n > p)


= x>
i β + εi

donde xi = (xi1 , . . . , xip )> .

El conjunto de n ecuaciones puede escribirse matricialmente como:

y = Xβ + ε,

donde
       
y1 x11 x12 · · · x1p β1 ε1
 y2   x21 x22 · · · x2p  β2   ε2 
y =  . , X =  . ..  , β =  ..  , ε =  .. 
       
. .. ..
.  .. . . .  . .
yn xn1 xn2 · · · xnp βp εn
S. Gallón - K Gómez
Supuestos del modelo de regresión lineal I
1. Exogeneidad estricta

E(εi |X) = 0, i = 1, . . . , n.

Este supuesto implica que la media incondicional del término de


error es cero (por ley de las expectativas iteradas):

E(εi ) = E(εi |X) = 0, i = 1, . . . , n.

Los regresores son ortogonales al término de error para todas las


observaciones
E(xij εk ) = E [E(xij εk |xij )]
= E [xij E(εk |xij )]
= 0, i, k = 1, . . . , n, j = 1, . . . , p.

S. Gallón - K Gómez
Supuestos del modelo de regresión lineal II
2. No multicolinealidad: Rango de la matriz de datos (también matriz
de diseño) es p con probabilidad 1.

3. Perturbaciones esféricas
X Homocedasticidad
2
Var(εi |X) = E(ε2i |X) − [E(εi |X)]
= E(ε2i |X)
= σ 2 > 0, i = 1, . . . , n.

X No correlación
Cov(εi , εk |X) = E(εi εk |X) − E(εi |X)E(εk |X)
= E(εi εk |X)
= 0, i, k = 1, . . . , n; i 6= k.

S. Gallón - K Gómez
Supuestos del modelo de regresión lineal III

4. εi distribuye normal con media cero y varianza σ 2 condicional a X

εi |X ∼ N (0, σ 2 ), i = 1, . . . , n.

• Matricialmente los supuestos del modelo de regresión lineal


múltiple se resumen en:

ε|X ∼ N (0, σ 2 I n ) y P (Rango(X) = p) = 1.

S. Gallón - K Gómez
Estimación de mínimos cuadrados ordinarios I

• El método de estimación más popular es el método de mínimos


cuadrados, en el cual β es obtenido por medio de la minimización
de la suma de cuadrados de los errores
n
X
SCE(β) = ε2i
i=1
n
X
= (yi − x>
i β)
2

i=1
= (y − Xβ)> (y − Xβ)
 
= y > − β > X > (y − Xβ)
= y > y − β > X > y − y > Xβ + β > X > Xβ
= y > y − 2y > Xβ + β > X > Xβ.

S. Gallón - K Gómez
Estimación de mínimos cuadrados ordinarios II
• Teniendo en cuenta que
∂(a> z) ∂(z > Az)
=a y = 2Az para A simétrica,
∂z ∂z
entonces, diferenciado w.r.t. β se tiene que
∂SCE(β)
= −2X > y + 2X > Xβ.
∂β
Igualando a 0 se tiene el conjunto de p ecuaciones normales

X > Xβ = X > y.

Asumiendo que el Rango(X) = p, la solución única está dada por


 −1
b=β b = X >X X >y
n
!−1 n
X X
= xi x>i xi yi .
i=1 i=1
S. Gallón - K Gómez
Geometría del método de MCO I

Figura: Ajuste MCO con X ∈ R2 . Fuente: Hastie, etal.(2009).


S. Gallón - K Gómez
Geometría del método de MCO II

Figura: Geometría de MCO con dos regresores. Fuente: Hastie, etal.(2009).

S. Gallón - K Gómez
Conceptos relacionados I

• Los valores predichos (ajustados) de yi son

ŷi = x>
i β,
b

o matricialmente
y
b = X β.
b

• Así, los residuales del modelo están dados por

ei = yi − ŷi = yi − x>
i β,
b

o matricialmente
e=y−y
b = y − X β.
b

• De las ecuaciones normales se tiene que


 
X> y − Xβ b = X > e = 0 Condición de ortogonalidad.

S. Gallón - K Gómez
Conceptos relacionados II
• La condición de ortogonalidad implica que: cuando el modelo
contiene una variable constante (intercepto), entonces
Xn
e i = 1>n e = 0, donde 1n = (1, . . . , 1)> .
i=1

• Error muestral, β
b −β
 −1
b = X >X
β X >y
 −1
= X >X X > (Xβ + ε)
 −1  −1
= X >X X > Xβ + X > X X >ε
 −1
= β + X >X X > ε.

Por lo tanto,  −1


b − β = X >X
β X > ε.
S. Gallón - K Gómez
Conceptos relacionados III

• El vector de residuales puede expresarse como

e=y−y
b = y − Xβ
b
 −1
= y − X X >X X >y
  −1 
= I − X X >X X> y

= I − P y = My

= I − P ε = Mε

donde P se denomina matriz de proyección dado que P X = X y


Py = yb , y M matriz de proyección ortogonal ya que M X = 0.

P y M son ambas matrices simétricas e idempotentes.

S. Gallón - K Gómez
Conceptos relacionados IV
• La suma de cuadrados de los residuales está dada por

SCR = e> e
= y>M y
= (Xβ + ε)> M (Xβ + ε)
 
= β > X > + ε> M Xβ + ε


= β > X > M Xβ + ε> M Xβ + β > X > M ε + ε> M ε


= ε> M ε.

• Estimador (insesgado) de la varianza del modelo σ 2

SCR e> e
S2 = = .
n−p n−p

S. Gallón - K Gómez
Análisis de varianza I

• Dado que y = y
b + e, entonces la suma de cuadrados totales es:
n
X
yi2 = y > y = (b
y + e)> (b
y + e)
i=1
b>y
=y b + e> y b > e + e> e
b+y
b>y
=y y > e + e> e
b + 2b
b>y
=y b > X > e + e> e
b + 2β
=yb>yb + e> e
Xn n
X
= ŷi2 + e2i .
i=1 i=1

S. Gallón - K Gómez
Análisis de varianza II

• Ahora, si el modelo tiene intercepto, la suma de cuadrados totales


en términos de desviaciones (con respecto a la media ȳ) es:
n
X
(yi − ȳ)2
i=1
= (y − ȳ1)> (y − ȳ1)
y − ȳ1 + e)> (b
= (b y − ȳ1 + e)
y − ȳ1)> (b
= (b y − ȳ1) + (b y − ȳ1)> e + e> (b
y − ȳ1) + e> e
Xn X n
2
= (ŷi − ȳ) + e2i ,
i=1 i=1

donde 1 = (1, . . . , 1)> es un vector de de dimensión n.

S. Gallón - K Gómez
Análisis de varianza III
• Coeficiente de determinación
Pn
2 (ŷi − ȳ)2
R = Pi=1 n 2
i=1 (yi − ȳ)
Pn 2
e
= 1 − Pn i=1 i 2
i=1 (yi − ȳ)
σ̂ 2
= 1 − e2 ∈ [0, 1] ,
σ̂y
Pn Pn
donde σ̂e2 = n−1 2
i=1 ei y σ̂y2 = n−1 i=1 (yi − ȳ)2 .
• El R2 representa una medida del ajuste lineal delP modelo, dado que
éste mide la proporción de variación total en yi , Pni=1 (yi − ȳ)2 ,
explicada por la variación total en los regresores, ni=1 (ŷi − ȳ)2 .
• Si el modelo tiene intercepto, entonces R2 ∈ [0, 1] y por lo tanto,
entre más cercano a uno, entonces mejor es el ajuste.

S. Gallón - K Gómez
Análisis de varianza IV
• Una dificultad del R2 es que éste se incrementa a medida que se
agregan regresores a la regresión.
• Una medida de ajuste que no presenta este problema es el R2
ajustado,

e> e/(n − p)
R̄2 = 1 −
y > M y/(n − 1)
1 Pn 2
n−p i=1 e1
= 1 − 1 Pn 2
.
n−1 i=1 (y1 − ȳ)

• La conexión entre el R2 y R̄2 está dada por


n−1
R̄2 = 1 − (1 − R2 ).
n−p

S. Gallón - K Gómez
Propiedades en muestras finitas I
Linealidad: Bajo el supuesto de linealidad, β
b es un estimador lineal.
 −1
b = X >X
β X > y = Ay es transformación lineal de y,

Insesgamiento: Bajo los supuestos 1-2,


   −1 
E β|X
b = E X >X X > y|X
 −1
>
= X X X > E(y|X)
 −1
= X >X X > Xβ = β.

Igualmente, aplicando la ley de expectativas iteradas,


    
E β b = E E β|X b = β.

X Esta propiedad no garantiza que β


b deba ser muy cercano a β.
S. Gallón - K Gómez
Propiedades en muestras finitas II
   −1
2 >
Varianza: Bajo los supuestos 1-3, Cov β|X = σ X X
b .

   −1 
> >
Cov β|X
b = Cov X X X y|X
     > 
= E β − E β|X
b b β − E β|X
b b |X
  > 
=E β b −β β b − β |X
 −1  −1 
> > > >
=E X X X εε X X X |X
 −1    −1
= X >X X > E εε> |X X X > X
 −1  −1
2 > > >
=σ X X X X X X
 −1
= σ2 X >X .

S. Gallón - K Gómez
Propiedades en muestras finitas III
Eficiencia uniforme: Bajo los supuestos 1-3, β
b es eficiente en la clase
de estimadores lineales insesgados.
En efecto, sea β
e = Cy un estimador lineal insesgado
 
E β|X
e = E [C (Xβ + ε) |X]
= CXβ + E (ε|X)
= CXβ
=β si CX = I.

Definiendo
 −1
b = Cy − X > X
e −β
β X >y
  −1 
= C − X >X X> y
 −1
= Dy, donde C = D + X > X X >.
S. Gallón - K Gómez
Propiedades en muestras finitas IV
Ahora, la varianza de β
e condicional a X es
 
Var β|X
e = Var (Cy|X)
h i
= E (Cy)(Cy)> |X
 
= CE yy > |X C >
= σ 2 CC >
  −1   −1 >
= σ2 D + X >X X> D + X >X X>
 −1
= σ 2 DD > + σ 2 X > X
 
2 >
= σ DD + Var β|X , b

ya que DX = 0 debido a que CX = I.


S. Gallón - K Gómez
Propiedades en muestras finitas V
Finalmente,
   
Var β|X
e − Var β|X
b = σ 2 DD > semidefinida positiva,

lo cual demuestra el resultado.


X Esto significa que β
b es el mejor estimador lineal insesgado.
X Es decir, β
b es un estimador admisible para β en la clase de
estimadores lineales insesgados, en el sentido de que no existe otro
estimador lineal insesgado uniformemente mejor que β. b
X Este resultado se conoce como el teorema Gauss-Markov.
X Esta propiedad no implica que βb sea un buen estimador. Existen
casos en los cuales β
b puede ser impreciso en el sentido de que su
h i
riesgo esperado R(β)b = E L(β, β) b sea alto y, por lo tanto, β
b
podría no ser muy próximo a β.

S. Gallón - K Gómez
Propiedades en muestras finitas VI
Normalidad: Bajo los supuestos 1-4:
  −1 
2 >
• β ∼ N β, σ X X
b .

Dado que cualquier transformación lineal de ε|X ∼ N (0, σ 2 I n ) es


normalmente distribuida, entonces y|X ∼ N (Xβ, σ 2 I n ), y por lo
 −1   −1 
b = X >X
tanto, β X > y ∼ N β, σ 2 X > X .
(n−p)S 2
• σ2
∼ χ2(n−p) .
Sea
z = σ −1 (y − Xβ) = σ −1 ε ∼ N (0, I n ),
y dado que (n − p)S 2 = e> e = ε> M ε, entonces

ε> ε (n − p)S 2
z>M z = M = .
σ σ σ2
Como M es simétrica e idempotente, z > M z ∼ χ2(n−p) , donde
n − p = Traza(M ). S. Gallón - K Gómez
Propiedades en muestras infinitas I

Consistencia: Bajo los supuestos 1-3, y (xi , yi ), i = 1, . . . , n sea i.i.d:


P P
b−
β → β y S2 − → σ 2 , n → ∞.
Nótese que β
b se puede escribir en función de los momentos muestrales
 −1  
1 > 1 >
β
b= X X X y
n n
n
!−1 n
!
1X 1X
= xi x>
i xi yi
n n
i=1 i=1
b −1 Σ
=Σ x,x x,y .
b

Aplicando la ley de los grandes números se tiene que


 
b x,x −−P−→ E xx> = Σx,x y Σ
Σ b x,y −−P−→ E (xy) = Σx,y .
n→∞ n→∞

S. Gallón - K Gómez
Propiedades en muestras infinitas II
Finalmente, por el teorema del mapeo continuo, se tiene que

b −1 Σ P −1
β x,x x,y −−−→ Σx,x Σx,y = β.
b=Σ b
n→∞

Para la consistencia de S 2 se tiene que


1
S2 = e> e
n−p
1
= ε> M ε
n−p
 −1 
1 
= ε> ε − ε> X X > X X >ε
n−p
" −1 > #
ε> ε ε> X X > X

n X ε
= −
n−p n n n n
 !−1 
n n n n
n 1 X 1 X 1 X 1 X
= ε2i − εi x>
i xi x>
i xi εi  .
n−p n n n n
i=1 i=1 i=1 i=1
S. Gallón - K Gómez
Propiedades en muestras infinitas III

Nótese que ε2i , i = 1, . . . , n es una secuencia de variables iid con media


σ 2 , por lo tanto, por la ley de los grandes números,
n
ε> ε 1X 2 P
= εi −−−→ σ 2
n n n→∞
i=1
n
1X  
εi x> >
P
−−−
i n→∞ → E εx =0
n
i=1
n
1 X  
xi x> >
P
i −−− → E xx = Σx,x .
n n→∞
i=1

Finalmente, por el teorema del mapeo continuo

S 2 −−−→ σ 2 .
P
n→∞

S. Gallón - K Gómez
Propiedades en muestras infinitas IV

Normalidad asintótica: Bajo los supuestos 1-3, (xi , yi ), i = 1, . . . , n


√ b 
D

−1

i.i.d: n β − β − → N 0, σ 2 Σ , n → ∞.
x,x

Se sabe que el error muestral de β


b está dado por

n
!−1 n
 −1 X X
> >
b −β = X X
β X ε= xi x>
i xi εi ,
i=1 i=1

de modo que éste se puede reescribir como


−1 
√   1 
> 1 >
n β−β =
b X X √ X ε
n n
n
!−1 n
!
1X 1 X
= xi x>
i √ xi εi .
n n
i=1 i=1

S. Gallón - K Gómez
Propiedades en muestras infinitas V
El producto xi εi es iid (dado que las observaciones son iid) con media
E(xi εi ) = 0 y matriz de covarianza
     
Var(xi εi ) = E ε2i xi x>
i = E ε 2
i E x i x>
i = σ 2 Σx,x .

Pn √ D
√1 n (xε) −−−→ N (0, σ 2 Σx,x ).
Ahora, por el TLC, n i=1 xi εi =
n→∞
b x,x − P
Finalmente, ya que Σ → Σx,x , y por el teorema de Slutsky

√ 
 
 −1 1 >
n β − β = Σx,x √ X ε
b b
n
 
D
−−−→ N Σ−1 x,x 0, σ 2 −1
Σ x,x Σx,x Σ−1
x,x
n→∞
 
= N 0, σ 2 Σ−1 x,x .

S. Gallón - K Gómez
Prueba de hipótesis I

• Para probar la hipótesis nula H0 : βj = βj0 , bajo los supuestos 1-4,


el estadístico de prueba está dado por

β̂j − βj0
tj = √ ∼ tn−p , j = 1, . . . , p,
S vj
−1
donde vj es el j-ésimo elemento de la diagonal de X > X y
n
S 2 = (n − p)−1 i=1 (yi − ŷi )2 .
P

• Un valor grande de |tj | conlleva al rechazo de H0 : βj = βj0 .

S. Gallón - K Gómez
Estimación de máxima verosimilitud I

• El modelo de regresión normal es el modelo de regresión lineal


bajo el supuesto adicional:

εi |X ∼ N (0, σ 2 ), i = 1, . . . , n.

• Este supuesto implica que

yi |X ∼ N (x> 2
i β, σ ), i = 1, . . . , n.

• La regresión normal es un modelo paramétrico donde los métodos


de verosimilitud pueden aplicarse para estimación, pruebas de
hipótesis y teoría de distribución.

S. Gallón - K Gómez
Estimación de máxima verosimilitud II
• La función de verosimilitud para el modelo de regresión normal es:
n  
2
Y 1 1 2
L(β, σ ) = exp − 2 εi
i=1
(2πσ 2 )1/2 2σ
n
( )
1 1 X 2
= exp − 2 εi
(2πσ 2 )n/2 2σ
i=1
 
1 1 >
= exp − 2 ε ε .
(2πσ 2 )n/2 2σ

• La correspondiente función log-verosímil está dada por


n   
2
X 1 1 2
log L(β, σ ) = log exp − 2 εi
i=1
(2πσ 2 )1/2 2σ
n n 1
= − log(2π) − log(σ 2 ) − (y − Xβ)> (y − Xβ)
2 2 2σ 2
n n 1
= − log(2π) − log(σ 2 ) − SCEn (β).
2 2 2σ 2 S. Gallón - K Gómez
Estimación de máxima verosimilitud III

• Dado que log L(β, σ 2 ) es función de β solamente a través de la


suma de cuadrados de los errores SCEn (β); la maximización de la
verosimilitud es idéntica a minimizar SCEn

β
b
MV = β MCO .
b

• Las condiciones de primer orden están dadas por

∂ log L(β, σ 2 ) n
= 2 X > (y − Xβ) = 0
∂β σ
y

∂ log L(β, σ 2 ) n 1
= − 2 + 4 (y − Xβ)> (y − Xβ) = 0.
∂σ 2 2σ 2σ

S. Gallón - K Gómez
Estimación de máxima verosimilitud IV
• Asumiendo que el Rango(X) = p, la solución única está dada por
 −1
β
b = X >X
MV X >y = β b

1 > (n − p) 2
σ̂ 2 = e e= S .
n n
• Condición de segundo orden
 2 2

∂ log L ∂ log L
− σ12 X > X − σ14 X > ε
 
> ∂β∂σ 2
H =  ∂∂β∂β
2 log L ∂ 2 log L
= .
− σ14 ε> X n
2σ 4
− σ16 ε> ε
∂σ 2 β > ∂(σ 2 )2

semidefinida negativa.
• Covarianza asintótica (cota de Cramér-Rao o matriz de
información)
  −1 
σ 2 X >X 0
−1 −1
I(β, σ 2 ) = −E(H(β, σ 2 ))
  
= .
2σ 4
0> n
S. Gallón - K Gómez
Tests LM, Wald y LR I

Test de Wald
• Considérese el problema de probar un conjunto de q hipótesis
(posiblemente no lineales) sobre p parámetros en la forma
H0 : r(β) = r(β 0 ), donde r(·) : Rp → Rq es un vector contínuo.
• El estadístico de Wald es una medida de distancia para la cual el
estimador (no restringido) falla en satisfacer las restricciones.
• El estadístico de prueba está dado por
 >  \  −1  
D
Wn = r(β̂) − r(β 0 ) Var r(β̂) r(β̂) − r(β 0 ) −→ χ2q .

En efecto, reescribiendo Wn como

√  >  \ −1 √  
Wn = n r(β̂) − r(β 0 ) nVar r(β̂) n r(β̂) − r(β 0 ) ,

S. Gallón - K Gómez
Tests LM, Wald y LR II
y aplicando el método Delta, dado que r(·) es un vector contínuo:
√  
D
 
n r(β̂) − r(β 0 ) −→ Z ∼ N 0, J (β)Var (β) J (β)> ,

donde
 ∂r
1 (β) ∂r1 (β)

∂β1 ··· ∂βp
∂r(β)  .. .. .. 
J (β) = >
= . . .  es la matriz Jacobiana.
∂β 
∂rq (β) ∂rq (β)

∂β1 ··· ∂βp q×p

\ 
P
 
Ahora, dado que Var r(β̂) −→ Var r(β̂) , se tiene que

√  >  \ −1 √  
Wn = n r(β̂) − r(β 0 ) nVar r(β̂) n r(β̂) − r(β 0 )
n  o−1
D
→ Z > nVar r(β̂)
− Z
S. Gallón - K Gómez
Tests LM, Wald y LR III
D
Ahora, dado que Z ∼ N (0, A), entonces Z > A−1 Z −
→ χ2q , se tiene
que
D
Wn −→ χ2q .

\ 
• La estimación de la matriz Var r(β̂) está dada por

\ 
Var r(β̂) = J (β̂)Var(β̂)J (β̂)> .

S. Gallón - K Gómez
Tests LM, Wald y LR IV
Test LR
• Para un modelo con parámetro θ ∈ Θ y función de verosimilitud
L(θ) el cociente de verosimilitud para H0 : θ ∈ Θ0 versus
H1 : θ ∈ Θ0R está dado por
!
L(θ)
e
LRn = −2 log
L(θ̂)
h i
= −2 log L(θ) e − log L(θ̂)
h i
= 2 log L(θ̂) − log L(θ)e
D
→ χ2q ,

donde θ̂ y θ
e son los estimadores de máxima verosimilitud no
restringido (bajo H0 ) y restringido (bajo H1 ).

S. Gallón - K Gómez
Tests LM, Wald y LR V
• En el modelo de regresión normal, las funciones log L maximizadas
en los estimadores de MV no restringido y restringido son
  n
log L β̂, σ̂ 2 = − 1 + log(2π) + log(σ̂ 2 )

2
y   n
e2 = − 1 + log(2π) + log(e
σ2) ,

log L β,
e σ
2
dado que σ̂ 2 = n1 (y − X β̂)> (y − X β̂) = n1 e> e y
e2 = n1 (y − X β)
σ e > (y − X β)
e = 1 e> eR .
n R
• Así, el estadístico LR es

e2
 
σ
LR = n log
σ̂ 2
e2 − log σ̂ 2
 
= n log σ

S. Gallón - K Gómez
Tests LM, Wald y LR VI

Test LM
• Este test está basado en la estimación de un modelo restringido.
• Supóngase el problema de maximizar la función log-verosímil
log L(θ) sujeta a un conjunto de q restricciones r(β) = c:
máx log L(θ) sujeto a r(β) = c.
θ∈Θ

• La función Lagrangiana asociada al problema es

log L? (θ) = log L(θ) + λ> (r(β) − c),

donde λ = (λ1 , . . . , λq )> es el vector de multiplicadores de


Lagrange.

S. Gallón - K Gómez
Tests LM, Wald y LR VII
• Las condiciones de primer orden están dadas por:

∂ log L? (θ) ∂ log L(θ)


= + J > (θ)λ = 0
∂θ ∂θ
y
∂ log L? (θ)
= r(β) − c = 0.
∂λ
• Si las restricciones son válidas, entonces éstas no conllevan a una
diferencia significativa en el valor maximizado de log L(θ).
• En las condiciones de primer orden ésto implica que el término
J > (θ)λ sea muy pequeño. En particular, λ será pequeño, lo que
conlleva a plantear la hipótesis H0 : λ = 0.
• Así, si las restricciones son válidas, la derivada evaluada en el
máximo restringido θ e es

∂ log L(θ)
e
= −J > (θ)λ
e = 0.
∂θe
S. Gallón - K Gómez
Tests LM, Wald y LR VIII

• La varianza del vector de primeras derivadas es la matriz de


información.
• El estadístico de prueba está basado en el mismo razonamiento del
estadístico de prueba de Wald.
!> !
∂ log L(θ)
e n o−1 ∂ log L(θ)
e
LM = I(θ)
e
∂θ
e ∂θe
n o−1
= λ> J (θ)
e I(θ)e J > (θ)λ
e
D
→ χ2q .

S. Gallón - K Gómez
Regresión restringida I

• Algunas veces, bajo el modelo de regresión lineal múltiple, se


dispone de información adicional sobre β, la cual puede expresarse
en términos de una ecuación lineal

Rβ = c,

donde R es una matriz q × p conocida con Rango(R) = q, y c un


vector q × 1 conocido.
• Ejemplos:
X β2 = 0, entonces R = (0, 1, 0, . . . , 0) y c = 0.
X β1 + β2 = 1, entonces R = (1, 1, 0, . . . , 0) y c = 1.
X β2 = β3 , entonces R = (0, 1, −1, . . . , 0) y c = 0.
X β2 = . . . = βp = 0, entonces R = (0p−1 , I p−1 ) y c = 0.

S. Gallón - K Gómez
Regresión restringida II

• Una manera de obtener un estimador de β bajo las restricciones


adicionales es por medio del problema de regresión lineal múltiple
restringido

β
e = arg min SCEn (β)
Rβ=c
n
X
= arg min (yi − x>
i β)
2
Rβ=c i=1
= arg min (y − Xβ)> (y − Xβ).
Rβ=c

• La función Lagrangiana asociada al problema es

1
L(β, λ) = SCEn (β) + λ> (Rβ − c).
2

S. Gallón - K Gómez
Regresión restringida III
• Las condiciones de primer orden están dadas por:
 
∂L β,e λ
e
= −X > y + X > X β e + R> λe=0
∂β
y  
∂L β,
e λ
e
e − c = 0.
= Rβ
∂λ
 −1
• Premultiplicando la primera condición por R X > X se tiene
 −1
−Rβ e + R X >X
b + Rβ R> λ
e = 0.

Así, por la segunda condición de primer orden,


  −1 −1  
> > b −c .
λ
e= R X X R Rβ
S. Gallón - K Gómez
Regresión restringida IV
Finalmente, substituyendo λ
e en la primera condición y resolviendo:

 −1   −1 −1  


> > > >
β=β− X X
e b R R X X R b −c .

• Nótese que β
e es un estimador lineal

β
e = Ay + a,

donde
 −1   −1 −1 !  −1
A= I − X >X R> R X > X R> R X >X X>

y
 −1   −1 −1
> > > >
a= X X R R X X R c.

S. Gallón - K Gómez
Regresión restringida V
• β
e es un estimador sesgado

   −1   −1 −1  


e = β − X >X
E β R> R X > X R> Rβ − c ,

   
e − β:
e =E β
con Sesgo β

   −1   −1 −1  


e = − X >X
Sesgo β R> R X > X R> Rβ − c .

• Matriz de varianzas y covarianzas


  −1  !
   −1 −1 −1
e = σ2 X >X
Var β I − R> R X > X R> R X >X
  −1  !
  −1 −1
> > >
= Var β
b I −R R X X R R X >X .

S. Gallón - K Gómez
Regresión restringida VI

• Residuales restringidos

e = y − X β.
e e

• Estimador insesgado de la varianza

e2 = 1
S e> e
e.
n−p+q
e

S. Gallón - K Gómez
Multicolinealidad I

• El estimador βb
MCO es impreciso cuando existen dependencias
lineales cercanas entre algunas de las columnas de la matriz X.
• El problema particular de la multicolinealidad está relacionado con
−1
el comportamiento de la matriz X > X .
• En presencia de multicolinealidad, pequeños cambios relativos en
−1
X > X producen grandes cambios relativos en X > X .
• Esto implica que algunos elementos de la diagonal principal de
−1
X >X son bastante grandes, lo cual en términos de
−1
Var(β) = σ 2 X > X
b , significa que algunos elementos de β
b
tengan alta varianza.

S. Gallón - K Gómez
Consecuencias de la multicolinealidad I

Sensibilidad computacional: Pequeños cambios en X > X producen


−1
grandes cambios en X > X .

Ejemplo: Sea
 
1 1 1 1 1
y > = (6.05, 7.03, 7.12, 4.44, 5.08) y X> = .
1.9 2.1 2 2 1.8

Entonces
   
> 5 9.8 >
−1 74.08 −37.69
X X= , X X =
9.8 19.26 −37.69 19.23
y
b = (−6.62, 6.41)> .
β

S. Gallón - K Gómez
Consecuencias de la multicolinealidad II
Ahora, supóngase que X está dada por
 
1 1 1 1 1
X> = .
1.9 2.05 2 2 1.85

Entonces
   
> 5 9.8 >
−1 142.48 −72.59
X X= y X X = .
9.8 19.24 −72.59 37.04
y
b = (−4.25, 5.20)> .
β

S. Gallón - K Gómez
Consecuencias de la multicolinealidad III
Imprecisión estadística: Algunos elementos de la diagonal principal
−1
de X > X son bastante grandes.

Ejemplo: Sea β = (2, 2)> , σ 2 = 1,


 
> > 1 1 1 1 1
y = (6.05, 7.03, 7.12, 4.44, 5.08) y X = .
1.9 2.1 2 2 1.8
Entonces
   
>
−1 74.08 −37.69 −6.62
X X = y β
b= .
−37.69 19.23 6.41
q
Como σ 2 = 1, Var(βb1 ) = 8.61, evidenciando que pueden ocurrir
grandes desviaciones de βb1 con respecto al parámetro teórico β1 = 2.
Adicionalmente, nótese que
Cov(βb1 , βb2 ) −37.69
Corr(βb1 , βb2 ) = q q =√ √ = −0.998.
Var(βb1 ) Var(βb2 ) 74.08 19.23
S. Gallón - K Gómez
Diagnóstico de la multicolinealidad I
Factores de inflación de varianza:
Para calcular la Var(βbj ), X se puede escribir como

X = (xj , X −j ),

donde xj es el vector n × 1 de observaciones de la j-ésima variable, y


X −j es la matriz de observaciones del resto de variables.
Ahora,
−1
x> x>

j xj j X −j
−1
b = σ2 X >X
Var(β) = σ2 .
X>
−j xj X>
−j X −j

Por los resultados de la inversa de matrices particionadas, el primer


−1
elemento de la diagonal principal de X > X está dado por
−1 −1
x>
j M −j xj , M −j = I n − X −j X >
−j X −j X>
−j ,

S. Gallón - K Gómez
Diagnóstico de la multicolinealidad II
de modo que

σ2
Var(βbj ) = j = 1, . . . , p.
x>
j M −j xj

Casos extremos:
1. El vector xj está contenido en el espacio columna de X −j , es
decir, que xj es una función lineal de X −j , i.e. xj = X −j γ. Este
es el caso de perfecta multicolinealidad. Entonces M −j xj = 0 y
−1
Var(βbj ) no tiene sentido dado que X > X no existe.
2. El vector xj está contenido en el complemento ortogonal de X −j ,
es decir xj es ortogonal a cada una de las columnas de X −j , i.e.
X> −j xj = 0. Este es el caso de ausencia completa de colinealidad.
Entonces M −j xj = xj y Var(βbj ) = σ 2 /x> j xj .

• Para datos reales, ninguno de los casos extremos ocurrirán.


S. Gallón - K Gómez
Diagnóstico de la multicolinealidad III
• Sin embargo, la varianza real Var(βbj ) = σ 2 /x>
j M −j xj puede
2 >
relacionarse con la varianza “óptima” σ /xj xj para ver cuánto
Var(βbj ) es inflada por colinealidad.
• El factor de inflación de varianza asociado con xj se define como

σ 2 /x>
j M −j xj x>
j M −j xj
VIFj = = , j = 1, . . . , p,
σ 2 /x>
j xj x>
j xj

el cual se puede escribir como

1 x>
j M −j xj
VIFj = , Rj2 = 1 − ,
1 − Rj2 x>
j xj

donde Rj2 es el coeficiente de determinación en el modelo

xj = X −j γ + u, j = 1, . . . , p, u ∼ i.i.d(0, τ 2 I).
S. Gallón - K Gómez
Diagnóstico de la multicolinealidad IV

• Claramente, si Rj2 es cercano a 1, mejor xj es explicado linealmente


por X j , i.e. xj está más relacionada con la multicolinealidad.
• La literatura a menudo recomienda que VIFs mayores que 10
indican colinealidad. Esto corresponde a Rj2 s mayores que 0.9.
• Los factores de inflación de varianza pueden obtenerse con las
funciones vif o colldiag de los paquetes car o perturb del
software R, respectivamente.

S. Gallón - K Gómez
Diagnóstico de la multicolinealidad V
Índices de condición:
• Índices de condición
q  la matriz X (escalada, i.e. dividiendo cada
de
columna por xj xj>

s
λmax
ηj = ∈ [1, ∞), j = 1, . . . , p.
λj

donde λj y λmax es el j-ésimo valor propio y máximo valor propio


de X > X, respectivamente.
• ηj ’s mayores a 30 indican presencia de multicolinealidad.
• El número de índices de condición no favorables indica el número
de dependencias lineales cercanas.
• Para identificar las variables independientes involucradas en la
dependencias lineales cercanas asociadas a cada índice de condición
se obtienen las proporciones de descomposición de varianza.
S. Gallón - K Gómez
Diagnóstico de la multicolinealidad VI
• Las proporciones de descomposición de varianza son obtenidas a
partir de la descomposición espectral X > X = U ΛU > .
• Por lo tanto,
 −1
p
−1 X
b = σ2 X >X
Var(β) = σ 2 U Λ−1 U > = σ 2  λj uj u> ,
j

j=1

de modo que
p
X u2jk
Var(βbj ) = σ 2 , j = 1, . . . , p.
λj
k=1

• Así, las proporciones de descomposición de varianza (proporción


de Var(βbj ) asociada con λj ) están dadas por

u2jk /λj
πjk = Pp 2 , j, k = 1, . . . , p.
k=1 ujk /λj
S. Gallón - K Gómez
Diagnóstico de la multicolinealidad VII
• Para un índice de condición ηj no favorable, la presencia de dos o
más valores de πjk , k = 1, . . . , p mayores de 0.5 indican
colinealidad entre las correspondientes variables independientes.

Cuadro: Matriz de proporciones de descomposición de varianza

Índice de Proporción de varianza


condición Var(βb1 ) Var(βb2 ) · · · Var(βbp )
η1 π11 π12 ··· π1p
η2 π21 π22 ··· π2p
.. .. .. .. ..
. . . . .
ηp πp1 πp2 ··· πpp
x1 x2 ··· xp
Variable

• Los índices de condición y las correspondientes proporciones de


descomposición de varianza pueden obtenerse con la función
colldiag del paquete perturb del software R.
S. Gallón - K Gómez
Soluciones de la multicolinealidad I

• Construir un nuevo modelo considerando un conjunto diferente de


variables explicativas.
• Obtener conjuntos adicionales de observaciones si es posible.
• Incorporar información adicional sobre los parámetros si es posible.
Por ejemplo, estimando combinaciones lineales específicas de los
parámetros δ > β (sugeridas por la teoría económica) en lugar de
obtener una estimación del vector de parámetros β.
• Restricciones de desigualdad lineales.
• Restricciones de lineales estocásticas.

S. Gallón - K Gómez
Soluciones de la multicolinealidad II
Regresión de componentes principales:
• Sea la descomposición espectral de la matriz simétrica X > X,

X > X = U ΛU > ,

donde Λ = diag(λ1 , . . . , λp ) es la matriz diagonal de valores


propios (con λ1 ≥ · · · ≥ λp ) y U = (u1 , . . . , up ) la respectiva
matriz ortogonal (U U > = U > U = I) de vectores propios.
• El modelo de regresión y = Xβ + ε puede reparametrizarse como

y = XU U > β + ε
= Zθ + ε,

donde Z = XU = (z 1 , . . . , z p ) es la matriz de componentes


>
principales z i = Xui con z >
i z i = λi , y θ = U β.
• Valores propios de X > X muy pequeños crean imprecisiones en β.
b
S. Gallón - K Gómez
Soluciones de la multicolinealidad III
• La estrategia consiste en restringir β en el subespacio generado por
las columnas λ1 u1 , . . . , λr ur , donde λ1 ≥ · · · ≥ λr > 0 son los
r ≤ p valores propios más grandes y λr+1 = · · · = λp = 0.
• Basados en la subdivisión de los valores propios en los grupos
λ1 ≥ · · · ≥ λr > 0 y λr+1 = · · · = λp = 0 y, definiendo
 
Λ1 0
U = (U 1 , U 2 ), Λ = , Z = (Z 1 , Z 2 ) = (XU 1 , XU 2 ),
0 0
   > 
θ1 U 1 β1
θ= = y Z 2 = 0,
θ2 U>2 β2

se tiene que

y = Z 1 θ1 + Z 2 θ2 + ε
= Z 1 θ 1 + ε.

S. Gallón - K Gómez
Soluciones de la multicolinealidad IV
b1 = Z > Z 1 −1 Z > y, y en

• El estimador del vector θ 1 es θ 1 1
consecuencia, el estimador de componentes principales de β es

b ? = U 1θ
β b1 .

• El método de regresión de componentes principales está


implementado en la función pcr del paquete pls del software R.
• Tratar el problema de la multicolinealidad exacta por medio de la
regresión de componentes principales corresponde al modelo
y = Z 1 θ 1 + Z 2 θ 2 + ε fijando Z 2 = 0. Esto es equivalente a
imponer la restricción lineal U >2 β = 0 en el modelo y = Xβ + ε,
por lo tanto, el estimador MCO restringido es

?
 −1   −1 −1
> > >
β =β=β− X X
b e b U2 U2 X X U2 U>
2 β.
b

S. Gallón - K Gómez
Soluciones de la multicolinealidad V

Regresión Ridge:
• La regresión ridge es conocida por mejorar el estimador de MCO
cuando valores propios de X > X son cercanos a cero, obteniendo
estimadores más estables
• La regresión ridge contrae los coeficientes por medio de la
inclusión de una función de penalización sobre el tamaño de los
coeficientes, Pλ (β), donde λ ≥ 0 es un parámetro de complejidad
(regularización o penalización) que controla el monto de la
contracción: a mayor λ, mayor el monto de contracción.
• La idea es elegir un estimador que ajuste bien a los datos a través de
SCE(β) y que sea estable a través Pλ (β).

S. Gallón - K Gómez
Soluciones de la multicolinealidad VI
• Los coeficientes ridge minimizan la suma de cuadrados de los
errores penalizada,

b ridge = arg min SCEλ (β)


β λ
β
 
X n X p 
= arg min ε2i + λ βj2
β 
i=1 j=1

 
X n Xp 
= arg min (yi − x> 2
i β) + λ βj2
β 
i=1 j=1

n o
= arg min (y − Xβ)> (y − Xβ) + λβ > β
β

= arg min ky − Xβk2 + λkβk2



β
n o
= arg min y > y − 2y > Xβ + β > X > Xβ + λβ > β .
β
S. Gallón - K Gómez
Soluciones de la multicolinealidad VII
• Derivando con respecto β e igualando a cero:

∂SCEλ (β)
= −2X > y + 2X > Xβ + 2λβ = 0
∂β
= X > y + X > X + λI β = 0.


Resolviendo para β se tiene:


−1
b ridge = X > X + λI

β λ X > y.

• La solución agrega una constante positiva a la diagonal de X > X


antes de la inversión. Esto hace que el problema sea no singular aún
sí X > X no lo es. Esta fue la motivación principal cuando el
método fue introducido a la estadística por Hoerl y Kennard (1970).
ridge ridge
• Cuando λ → 0, β
b
λ → β.
b Cuando λ → ∞, β
b
λ → 0.

S. Gallón - K Gómez
Soluciones de la multicolinealidad VIII
b ridge se puede expresar como función del estimador MCO
• β λ
−1
b ridge = X > X + λI

β λ X >y
 −1  −1
= X > X + λI X >X X >X X >y
 −1
= X > X + λI X >X β
b
   −1 −1
> >
= X X I +λ X X X >X βb
  −1 −1  −1
>
= I +λ X X X >X X >X β
b
  −1 −1
>
= I +λ X X β
b

= W λ β.
b

S. Gallón - K Gómez
Soluciones de la multicolinealidad IX

b ridge es un estimador sesgado de β


• Cuando λ > 0, β λ
 ridge 
E β b
λ = W λ β 6= β,

donde
 ridge   ridge 
Sesgo β
b
λ = E β
b
λ −β
= (W λ − I) β.

• Varianza del estimador ridge


 ridge  −1 >
Var β b
λ = σ2W λ X >X Wλ
 −1  −1
= σ 2 X > X + λI X > X X > X + λI .

S. Gallón - K Gómez
Soluciones de la multicolinealidad X

• La diferencia entre las varianzas de β


byβb ridge es:
λ
   ridge 
Var β b − Var β b
λ
h −1 > i
−1
= σ2 X >X − W λ X >X


h
−1 i −1 h −1 i>
= σ2W λ I + λ X >X X >X I + λ X >X
−1 o >
− X >X Wλ
n −3 o >
−2
= σ 2 W λ 2λ X > X + λ2 X > X

Wλ,

la cual es definida no negativa.


• La regresión ridge está implementada en las funciones [Link]
y glmnet de los paquetes MASS y glmnet, respectivamente.

S. Gallón - K Gómez
Pruebas de heterocedasticidad I

Método gráfico:
• Gráficos de dispersión entre funciones de los residuales versus las
variables independientes. Por ejemplo:
X ei versus las variables explicativas.
X e2i versus las variables explicativas.
X |ei | versus las variables explicativas.

S. Gallón - K Gómez
Pruebas de heterocedasticidad II
Test de Goldfeld-Quandt:
• El test aplica cuando H1 se expresa como una función creciente de
σi2 con valores crecientes de una de las variables independientes Xj .
• Las observaciones (yi , xi ) son ordenadas acorde con Xj , y
divididas en dos grupos (y 1 , X 1 ) y (y 2 , X 2 ) con tamaños n1 y n2 ,
respectivamente.
• Si H0 es válida, las varianzas de los términos de error en los
correspondientes modelos son iguales.
• Así, la idea del test es simplemente comparar las varianzas
estimadas de mínimos cuadrados bajo ambos modelos.
• Si la varianza estimada del segundo modelo es mayor que la del
primero, entonces H0 es rechazada.
• El test asume que solamente una variable independiente es la
posible causante de la heterocedasticidad.

S. Gallón - K Gómez
Pruebas de heterocedasticidad III
Pasos:
1. Ordenar crecientemente las observaciones de las variables según el
orden de la variable sospechosa de causar heterocedasticidad Xj .
2. Omitir r observaciones centrales (usualmente r = n/3).
3. Estimar regresiones para los dos grupos de observaciones teniendo
en cuenta que n1 = (n − r)/2 > p y n2 = (n − r)/2 > p.
4. Construir el estadístico de prueba

ê>
2 ê2 /(n1 − p)
F = >
∼ F(n1 −p),(n2 −p) ,
ê1 ê1 /(n2 − p)

donde ê>
1 ê1 es la suma de cuadrados de los residuales asociados al
grupo de observaciones con valores pequeños de Xj .
5. A un nivel de significancia α, H0 es rechazada si el valor del
estadístico F es mayor que el valor crítico F(n1 −p),(n2 −p),1−α .

S. Gallón - K Gómez
Pruebas de heterocedasticidad IV
• El test está implementado en la función gqtest del paquete
lmtest del software R.
Test de Breusch-Pagan:
• A diferencia del test de Goldfeld-Quandt, la heterocedasticidad
puede estar influenciada por más de una variable independiente.
• Así, el test asume un tipo de heterocedasticidad más general,
 
H1 : E(ε2i ) = σi2 = h α0 + z >
i α ,

donde h(·) es una función general independiente de i y z i un vector


q × 1 de variables exógenas usualmente relacionadas con los
regresores xi , y α = (α1 , . . . , αq )> un vector q × 1 de parámetros.
Ejemplos:
X σi2 = α0 + z >
i α
+ z>
X σi2 = (α0  i α)
2

X σi = exp α0 + z >
2

i α
S. Gallón - K Gómez
Pruebas de heterocedasticidad V
• La función h(·) no necesita ser especificada.
• Bajo esta manera de especificar la heterocedasticidad, la hipótesis
nula de errores homocedásticos es

H0 : α = 0

• Para obtener alguna indicación sobre la validez de H1 , Breusch y


Pagan proponen el estadístico de prueba
1 > D 2
Q= g b−
b g → χq ,
2

b = Z(Z > Z)−1 Zg es la predicción del vector de residuales


donde g
de MCO escalados del modelo
e2i
gi = >
= α0 + z >
i α + νi , e = y − Xβ
b
e e/n
S. Gallón - K Gómez
Pruebas de heterocedasticidad VI

• A un nivel de significancia α, H0 es rechazada si el valor del


estadístico Q es mayor que el valor crítico χ2q,1−α .
• El test puede aplicarse con la función bptest del paquete
lmtest del software R.
Test de White:
• Test útil si no hay conocimiento sobre la estructura de la
heterocedasticidad. Sólo se sabe que

H1 : E(ε2i ) = σi2 .

• Para contrastar la hipótesis de homocedasticidad H0 : σi2 = σ 2 , ∀i,


White propone el estadístico
D
W = nR2 −
→ χ2q ,

S. Gallón - K Gómez
Pruebas de heterocedasticidad VII
donde R2 es el coeficiente de determinación del modelo auxiliar

e2i = α0 + z >
i α + νi , ei = yi − x>
i β,
b

donde z i un vector q × 1 de variables exógenas relacionadas con los


regresores xi , y α = (α1 , . . . , αq )> un vector q × 1 de parámetros.
• z i puede contener variables independientes, cuadrados y productos
cruzados (interacciones) de las mismas.
• Nóte que la hipótesis de homocedasticidad se plantea como
H0 : α = 0.
• A un nivel de significancia α, H0 es rechazada si el valor del
estadístico W es mayor que el valor crítico χ2q,1−α .
• El test de White es un caso particular del test de Breusch-Pagan con
una elección particular de los regresores auxiliares. Por lo tanto, test
puede implementarse con la función bptest del paquete lmtest.

S. Gallón - K Gómez
Pruebas de heterocedasticidad VIII

Otros test de heterocedasticidad


X Test de Park.
X Test de Glejser.
.
X ..

S. Gallón - K Gómez
Pruebas de estabilidad I

• Cuando la relación funcional (no perturbada)

y = f (x; β) = f (x1 , . . . , xp ; β1 . . . , βp )

entre y y x es no lineal, ésto es f (·) no es

f (x) = β1 x1 + · · · + βp xp

para algunos parámetros β1 , . . . , βp , entonces el análisis conlleva a


conclusiones incorrectas.
• Por lo tanto, es conveniente hallar evidencia en favor o en contra
del supuesto de linealidad.

S. Gallón - K Gómez
Pruebas de estabilidad II

70

60

50

40
y

30

20

10

0 20 40 60 80 100
x

S. Gallón - K Gómez
Pruebas de estabilidad III
Test de cambio estructural de Chow:
El test consiste en:
• Particionar (y, X) en dos subconjuntos (y 1 , X 1 ) y (y 2 , X 2 ) de
tamaño n1 y n2 , respectivamente.
• Estimar un modelo de regresión lineal que permita que los
coeficientes sean diferentes en ambos subconjuntos
      
y1 X1 0 β1 ε
y= = + 1 = X (n×2p) β (2p×1) + ε,
y2 0 X2 β2 ε2
donde el estimador de MCO está dado por
 −1
b = X >X
β X >y
 > −1  >  !
X1 X1 0 X 1 y1 β
b
1
= = ,
0 X>2 X 2 X >
2 y2 β
b
2

el cual es el estimador de MCO aplicado a los dos modelos por


separado. Por lo tanto, SCR = e> e = e> >
1 e1 + e2 e2 . S. Gallón - K Gómez
Pruebas de estabilidad IV
• La hipótesis de estabilidad está definida por

H0 : β 1 = β 2 ,

la cual puede escribirse como la restricción

Rβ = q donde R = (I, −I) y q = 0.

• Bajo esta restricción, el modelo es


     
y1 X1 ε
= β+ 1 ,
y2 X2 ε2

con SCR∗ = e>


∗ e∗ .
• El estadístico de prueba está definido como

(SCR∗ − SCR)/p
F = ∼ Fp,n−2p
SCR/(n − 2p)
S. Gallón - K Gómez
Pruebas de estabilidad V

• El test de Chow tiene implícito el supuesto de que las varianzas en


ambos modelos son iguales σ12 = σ22 = σ 2 .
 
• Sin embargo, dado que β b ∼ N β , Var β
1 1
b
1 es independiente
 
b ∼ N β , Var(β
de β b ) , se puede definir el estadístico de Wald
2 2 2

 >  −1  
\ \ D
b −β
W = β 1
b
2
b ) − Var(
Var(β 1 βb )
2
b −β
β 1
b −
2 → χ2q .

• Test de estabilidad están implementados en el paquete


strucchange.

S. Gallón - K Gómez
Pruebas de normalidad I

Test de Jarque–Bera:
• Test basado en los coeficientes de asimetría y curtosis, los cuales
para una población X con media µ y varianza σ 2 están dados por

E(X − µ)3 E(X − µ)4


α3 = y α4 = .
σ3 σ4
• Para poblaciones perfectamente simétricas α3 = 0, asimétricas a la
derecha α3 > 0 y asimétricas a la izquierda α3 < 0.
• Para una población normal (mesocúrtica) α4 = 3. Si la población es
leptocúrtica, α4 > 3, y si es platicúrtica, α4 < 3.

S. Gallón - K Gómez
Pruebas de normalidad II

0.6
0.4

0.5

0.3
0.4
Density

Density
0.2 0.3

0.2

0.1
0.1

0.0 0.0

−4 −2 0 2 4 −4 −2 0 2 4
x x

S. Gallón - K Gómez
Pruebas de normalidad III
• Dada una muestra aleatoria X1 , . . . , Xn de una población X, los
estimadores de α3 y α4 son
Pn 3 Pn 4
n−1 i=1 Xi − X n−1 i=1 Xi − X
α̂3 = y α̂4 = .
σ̂ 3 σ̂ 4
• Bajo normalidad se tiene que
D D
α̂3 −−−→ N (0, 6/n) y α̂4 −−−→ N (3, 24/n).
n→∞ n→∞

• Por lo tanto, el estadístico de Jarque–Bera está dado por


 2
(α̂4 − 3)2

α̂ D
JB = n 3 + −−−→ χ22 .
6 24 n→∞

• A un nivel de significancia α, la hipótesis nula de normalidad se


rechaza si el valor de JB es mayor que el valor cuantil χ22,α .
S. Gallón - K Gómez
Pruebas de normalidad IV
Test de Shapiro-Wilk:
• El estadístico de prueba del test está dado por
Pn 2
i=1 ai X(i)
SW = Pn 2 ,
i=1 Xi − X

donde X(i) es el iésimo estadístico de orden de la muestra i.i.d de


una distribución normal X1 , . . . , Xn , y

m> V −1
a = (a1 , . . . , an )> = 1/2 ,
m> V −1 V −1 m

donde m y V son el vector de valores esperados y matriz de


covarianza de los estadísticos de orden, respectivamente.
• La hipótesis nula de normalidad se rechaza si el valor de SW es
demasiado pequeño.
S. Gallón - K Gómez
Pruebas de normalidad V

• Si el p-valor es menor el que el nivel de confianza α, entonces la


hipótesis nula es rechazada.
• Los p-valores son obtenidos por medio de simulación.
• El test esta implimentado en la función [Link]

S. Gallón - K Gómez
Pruebas de normalidad VI
Gráfico QQ:
• Gráfico para analizar si unos datos provienen de una determinada
población
• En particular, permiten ver gráficamente si una muestra aleatoria
X1 , . . . , Xn proviene de una distribución normal.
• Para construir el gráfico se ordena la muestra de menor a mayor,
X1:n , X2:n , . . . , Xn:n . Luego, la i-ésima observación más pequeña
en la muestra se toma como el percentil muestral (i − 0.5)/n.
Ahora el respectivo percentil (cuantile) en una población X normal
con media µ y varianza σ 2 , denotado por Xi:n ∗ , es


P(X < Xi:n ) = (i − 0.5)/n.
∗ = µ + σZ ∗ , donde Z ∗ es el percentil
• Ahora definiendo Xi:n i:n i:n
respectivo en la normal estándar.

S. Gallón - K Gómez
Pruebas de normalidad VII
• Si los datos provienen de una distribución normal entonces

Xi:n ≈ µ + σZi:n .

• Por lo tanto, la gráfica de los valores observados contra los


percentiles normales deberían estar sobre la directriz de 45 grados.
• En la práctica, µ y σ son reemplazados por sus estimadores
muestrales X y S.
• El gráfico indica si existen desviaciones con respecto al supuesto de
normalidad. Los ejemplos más comunes son los datos con colas
gruesas (curtosis grande) y con asimetrías.
X Si los puntos se alejan hacia arriba (abajo), principalmente, en el
centro de la línea, entonces hay evidencia de que los datos tiene un
sesgo positivo (negativo).
X Si los puntos se ajustan bien en el centro de la línea pero sus colas
inferiores o superiores se alejan entonces hay evidencia de curtosis.
S. Gallón - K Gómez
Pruebas de normalidad VIII
0.4 * *
3 ** *

Cuantiles muestrales
**
****
2 ******
0.3 ********
***********
**********
********
1 ***
***
***********
*
******
***********
********
0.2 0 **********
***
**********
****
**********
**********
*********
−1 **
***
**
***********
**********
0.1 ***********
*******
******
−2 ********
*******
***
* * *****
0.0 −3 * *
*

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x Cuantiles teoricos
0.35 3
*

Cuantiles muestrales
0.30 2 ** *
0.25 1 *
*
*****
*******
0.20 *****************
***************
**************
0 ******
***
*************************************** ******
**********
*********** *****
***********
*********************************
********************
***************************
0.15 ***************
−1 **
***
** ***
0.10 −2 *

0.05 −3 *
*

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x Cuantiles teoricos
30 *
0.10
Cuantiles muestrales

*
25
*
0.08 20 ****
** * *
**
********
0.06 *
*********
*
15 *
*****
*
******
*********
*********
*******
0.04 10 **********
************
*****
**
**
**
***********
*
*
***************
0.02 5 ***************
******
***************
***********
***********
***************
********************
0.00 * * * * * *************
0
0 5 10 15 20 25 −3 −2 −1 0 1 2 3
x Cuantiles teoricos S. Gallón - K Gómez
Mínimos cuadrados generalizados I
• En la práctica, se presentan casos en los cuales el supuesto de
errores homocedásticos e incorrelacionados no se cumple,

Cov (ε|X) = σ 2 Ω, Ω definida positiva, simétrica y conocida.

Ejemplos:

ρ2 ρn−1
 
1 ρ ···
 ρ 1 ρ ··· ρn−2 
2
 
2 σ  2 .. 
σ Ω=  ρ ρ 1 ··· ,
.  ρ ∈ (−1, 1)
1 − ρ2 
 .. .. .. .. .. 
 . . . . . 
ρn−1 ρn−2 ··· ρ 1
 2 
σ1 0 · · · 0
 0 σ2 · · · 0
 
2 I n0 0
σ2Ω =  . ..  ,
2
σ Ω=σ 2
 
. .. . . 0 cI (n−n0 )
. . . . 
0 0 ··· σn2 S. Gallón - K Gómez
Mínimos cuadrados generalizados II

• Cuando se viola el supuesto de perturbaciones esféricas, entonces


se tiene el modelo de regresión lineal generalizado, definido como

y = Xβ + ε,

donde

ε|X ∼ N (0, σ 2 Ω) y P (Rango(X) = p) = 1.

S. Gallón - K Gómez
Propiedades y consecuencias del estimador de MCO en el
contexto del modelo lineal generalizado I
 −1
b = X >X
• El estimador β X > y es lineal e insesgado.

• La matriz de covarianza de β
b es
   −1  −1
Cov β|X
b = σ2 X >X X > ΩX X > X ,

la cual puede ser mayor o menor que la fórmula incorrecta


−1
σ2 X >X , dado que
 −1  −1  −1
X >X X > ΩX X > X − X >X

puede se semidefinida positiva o negativa.


• Bajo los supuestos n1 X > X −
→ Σx,x y n1 X > Ω−1 X −
P P
→ ΣxΩx
donde Σx,x y ΣxΩx son finitas y no singulares, β es consistente.
b
S. Gallón - K Gómez
Propiedades y consecuencias del estimador de MCO en el
contexto del modelo lineal generalizado II

• El estimador S 2 es, en general, sesgado e inconsistente dado que


   
E e> e|X = E ε> M ε|X
h  i
= Traza E M εε> |X
= σ 2 Traza (M Ω) 6= σ 2 .

S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- I

• Un estimador apropiado del modelo generalizado se puede obtener


considerando el modelo transformado

Ω−1/2 y = Ω−1/2 Xβ + Ω−1/2 ε


y ∗ = X ∗ β + ε∗ .

• Nótese que
 
Cov (ε∗ |X) = Cov Ω−1/2 ε|X
  > 
−1/2 −1/2
=E Ω ε Ω ε |X
 
= Ω−1/2 E εε> |X Ω−1/2
= σ 2 Ω−1/2 ΩΩ−1/2
= σ 2 I.
S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- II

• En lugar de usar la matriz Ω−1/2 , también se puede usar otra matriz


n × n de transformación P tal que P > P = Ω−1 implicando que

P ΩP > = I.

• Esto se debe a la diagonalización de Ω

A> ΩA = Λ,

donde Λ y A son las matrices (diagonal) de valores y (ortogonal)


de vectores propios (A> A = AA> = I) de Ω, respectivamente.

S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- III
• La matriz de transformación requerida es P = Λ−1/2 A> dado que

P > P = AΛ−1/2 Λ−1/2 A>


= AΛ−1 A>
 −1
= A A> ΩA A>
= AA> Ω−1 AA>
= Ω−1

• Así, premultiplicando el modelo por P se tiene que

P y = P Xβ + P ε
y ∗ = X ∗ β + ε∗ ,

donde Cov (ε∗ |X) = E P εε> P > |X = σ 2 P ΩP > = σ 2 I.




S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- IV

• El estimador del modelo generalizado se obtiene minimizando la


correspondiente suma de cuadrados de los errores
>
β MCG = arg min(y ∗ − X ∗ β) (y ∗ − X ∗ β)
b
β

= arg min(y − Xβ)> Ω−1 (y − Xβ) (distancia de Mahalanobis)


β

• La solución explícita del estimador de mínimos cuadrados


generalizado (conocido como el estimador de Aitken) es
 −1
>
β
b
MCG = X ∗ X ∗ X>
∗ y∗
 −1
= X > Ω−1 X X > Ω−1 y.

S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- V
• Error muestral, β
b
MCG − β
 −1
> −1
β
b
MCG = X Ω X X > Ω−1 y
 −1
= X > Ω−1 X X > Ω−1 (Xβ + ε)
 −1
= β + X > Ω−1 X X > Ω−1 ε.

Por lo tanto,
 −1
> −1
β
b
MCG − β = X Ω X X > Ω−1 ε.

• β
b
MCG es un estimador lineal e insesgado.
• Matriz de covarianza de β
b
MCG
   −1
2 > −1
Cov β
b
MCG |X = σ X Ω X .
S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- VI

• Teorema de Aitken: β b
MCG es eficiente entre la clase de estimadores
lineales insesgados. Este resultado es una aplicación del Teorema
Gauss-Markov al modelo de mínimos cuadrados generalizado.
• Bajo normalidad de los errores
  −1 
2 > −1
β ∼ N β, σ X Ω X
b .

P
• β b−
b es un estimador consistente de β, β → β.

S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado -MCG- VII

• Un estimador insesgado y consistente de σ 2 es

1
2
SMCG = e> e∗
n−p ∗
1  >  
= y∗ − X ∗β
b
MCG y ∗ − X ∗ β
b
MCG
n−p
1    >   
= Ω−1/2 y − X β b
MCG Ω −1/2
y − X β
b
MCG
n−p
1
= e> Ω−1 eMCG , eMCG = y − X β b
MCG
n − p MCG

• El estimador de MCG está implementado en las funciones gls y


[Link] de los paquetes nlme y MASS, respectivamente.

S. Gallón - K Gómez
Estimador de mínimos cuadrados generalizado factible I

• Una desventaja del modelo de regresión lineal generalizado es que a


menudo, en la práctica, la Ω matriz no es conocida completamente.
• Por lo tanto, el estimador β
b
MCG no puede aplicarse directamente.
• Hay casos donde Ω depende de uno o más parámetros desconocidos

Ω(γ), γ = (γ1 , . . . , γs )> .

• Para implementar el estimador de MCG, debe obtenerse un


estimador consistente γb de γ y, por lo tanto, de Ω, y usar
Ω = Ω(b
b γ ) en lugar de Ω, obteniendo el estimador de MCG factible
 −1
> b −1
β
b
MCGF = X Ω X X >Ω
b −1 y.

S. Gallón - K Gómez
Estimación de Cov(β|X)
b bajo heterocedasticidad I

• Considere el modelo de regresión lineal con errores independientes,


pero no idénticamente distribuidos,
 
y = Xβ + ε, E(ε|X) = 0, Cov(ε|X) = E εε> |X = Ω,

con Ω = diag(ω1 , . . . , ωn ) desconocida y P (Rango(X) = p) = 1.


• Cualquiera sea la forma de Ω, la matriz de covarianza del
b = X > X −1 X > y, es

estimador, β
   −1  −1
Cov β|X
b = X >X X > ΩX X > X
n
!−1 n ! n !−1
X X X
= xi x>
i ωi xi x>
i xi x>
i ,
i=1 i=1 i=1

conocida como la matriz de covarianza sandwich.


S. Gallón - K Gómez
Estimación de Cov(β|X)
b bajo heterocedasticidad II

• diag(ε21 , . . . , ε2n ) es un estimador insesgado de diag(ω1 , . . . , ωn ),

Ω = diag(ω1 , . . . , ωn )
 
= E εε> |X
 
= E diag(ε21 , . . . , ε2n )|X .

• Así, si los errores fueran observables, los ε2i ’s podrían emplearse


para construir un estimador (ideal) insesgado de Cov(β|X),b

n
!−1 n
! n
!−1
  X X X
Cov
d ideal β|X
b = xi x>
i ε2i xi x>
i xi x>
i .
i=1 i=1 i=1

• Este estimador no es factible dado que los εi ’s no son observables.

S. Gallón - K Gómez
Estimación de Cov(β|X)
b bajo heterocedasticidad III

• Los ε2i ’s pueden reemplazarse por los cuadrados de los residuales


de MCO e2i , ei = yi − x>i β, obteniendo el estimador
b

n
!−1 n
! n
!−1
  X X X
d White β|X
Cov b = xi x>
i e2i xi x>
i xi x>
i ,
i=1 i=1 i=1

conocido como el estimador consistente-heterocedástico de White.


• Varios estimadores consistentes Ω
b = diag(b
ω1 , . . . , ω
bn ) de Ω han
sido propuestos para reemplazarse en Cov(β|X),
b
   −1  −1
Cov
d β|X b = X >X X > ΩX
b X >X
n
!−1 n ! n !−1
X X X
> > >
= xi xi ω
bi xi xi xi xi ,
i=1 i=1 i=1

S. Gallón - K Gómez
Estimación de Cov(β|X)
b bajo heterocedasticidad IV
Xn
bi = S 2 = (n − p)−1
Varianza Constante : ω e2
i=1 i
bi = e2i
White : ω
n 2
MacKinnon-White 1 : ω
bi = e
n−p i
1
MacKinnon-White 2 : ω
bi = e2
1 − pi i
1
MacKinnon-White 3 : ω
bi = e2
(1 − pi )2 i
1
Long-Ervin : ω
bi = e2 , δi = mı́n {4, pi /p} ,
(1 − pi )δ1 i
donde pi = P ii son los elementos de la diagonal de la matriz de
−1 >
proyección P = X X > X X .
• Estos estimadores están implementados en la función vcovHC del
paquete sandwich.

S. Gallón - K Gómez
Endogeneidad I

• Una complicación, común en aplicaciones microeconómicas, es la


posibilidad de tener estimadores inconsistentes debido a la
presencia de regresores endógenos.
• Los regresores endógenos se dan cuando algunos de los regresores
en x están correlacionados con el error ε. Ésto es, cuando

E (εi |xi ) 6= 0,

implicando que

E (xi εi ) = E [E (xi εi |xi )] = E [xi E(εi |xi )] 6= 0.

• Algunos ejemplos que generan este problema son:


X Omisión de variables
X Simultaneidad
X Errores de medición en los regresores
X Sesgos de selección muestral.
S. Gallón - K Gómez
Endogeneidad II
Simultaneidad: ocurre cuando dos o más variables endógenas están
conjuntamente determinadas por un sistema de ecuaciones simultáneas.

Considérese el modelo de demanda-oferta

q d = γ d p + X d β d + εd , E(εd ) = 0, Var(εd ) = σd2


q s = γ s p + X s β s + εs , E(εs ) = 0, Var(εs ) = σs2
q = qd = qs , Cov(εd , εs ) = 0,

donde qd , qs y p son las cantidades demandada y ofrecida, y el precio,


respectivamente; y X d y X s son matrices de variables exógenas que
afectan la demanda y oferta, respectivamente.

Matricialmente, el modelo se expresa como


      
1 −γd q X d βd ε
= + d .
1 −γs p X s βs εs
S. Gallón - K Gómez
Endogeneidad III  
1 −γd
La solución, si el det = γd − γs 6= 0, está dada por
1 −γs
   −1    
q 1 −γd X d βd ε
= + d
p 1 −γs X s βs εs
     
1 −γs γd X d βd ε
= + d .
γd − γs −1 1 X s βs εs

Esto es:
1 1
q= (γd · X s β s − γs · X d β d ) + (γd εs − γs εd ) ,
γd − γs γd − γs
1 1
p= (X s β s − X d β d ) + (εs − εd )
γd − γs γd − γs
Nótese que el precio p está correlacionado con εd y εs ,

−σd2 σs2
Cov(p, εd ) = Cov(p, εs ) = .
γd − γs γd − γs S. Gallón - K Gómez
Endogeneidad IV
Errores en las variables: algunas variables son medidas con error.
Considérese el modelo

yi = β 1 + β 2 x i + ε i , εi ∼ i.i.d.(0, σε2 )
xi = x
ei + υi , υi ∼ i.i.d.(0, συ2 ), E(εi υi ) = 0

Por lo tanto,

yi = β1 + β2 x
ei + εi + β2 υi
= β1 + β2 x
ei + ξi , ξi = εi + β2 υi ,

obteniendo que Var(ξi ) = σε2 + β22 συ2 , y

E(ξi |e
xi ) = E(ξi |υi ) = E(εi + β2 υi |υi )
= E(εi |υi ) + β2 E(υi |υi )
= β2 υi 6= 0.
S. Gallón - K Gómez
Endogeneidad V

Por lo tanto,

Cov(e
xi , ξi ) = E(e xi ξi |e
xi ξi ) = E [E(e xi )]
xi E(ξi |e
= E [e xi )]
xi · β2 υi )
= E(e
= E [(xi − υi ) · β2 υi )]
= β2 xi E(υi ) − β2 E(υi2 )
(
2 > 0, si β2 < 0
= −β2 συ
< 0, si β2 > 0.

S. Gallón - K Gómez
Variable instrumental I
• Considere el modelo de regresión lineal

yi = x>
i β + εi ,

donde cada componente de xi es visto como un regresor exógeno si


éste está incorrelacionado con el error εi , i.e. E (xi εi ) = 0.
• Si todos los regresores son exógenos entonces el estimador
b = X > X −1 X > y, puede usarse.

β
• En particular, se sabe que β
b es consistente para β,

n
!−1 n
1X 1X
β
b =β+ xi x>
i x i εi
n n
i=1 i=1

Σ−1
P

→β+ x,x 0 = β,

si n−1 ni=1 xi εi −
P P
→ 0 (dado que E (xi εi ) = 0), y
n−1 ni=1 xi x>
P P
i − → Σx,x . S. Gallón - K Gómez
Variable instrumental II
• Así, si cualquiera de los componentes en xi son endógenos,
E (xi εi ) 6= 0, entonces β
b es inconsistente para β.
• Un método de solución al problema de obtención de estimadores
inconsistentes es por medio del método de variable instrumental.
• El supuesto clave del método es la existencia de un vector r × 1 de
instrumentos z cumpliendo que:
X z esté incorrelacionado con el error ε. Esto es

E (ε|z) = 0 restricción de momentos condicional.

X z esté correlacionado con x.


• La restricción de momentos condicional implica (por ley de
expectativas iteradas) que

E (z i εi ) = E [E (z i εi |z i )] = E [z i E (εi |z i )] = 0

• Si algunos elementos de x no están correlacionados con ε, entonces


éstos pueden también aparecer en z.
S. Gallón - K Gómez
Variable instrumental III
• Dado que εi = yi − x> i β, la restricción de momentos poblacional
h  i
E (z i εi ) = E z i yi − x> i β = 0,

o matricialmente,
  h i
E Z > ε = E Z > (y − Xβ) = 0,

constituye un sistema de r ecuaciones simultáneas.


• Condición de rango para identificación: Existe una única solución
del sistema de ecuaciones sí
h  i h  i
Rango E z i x> i = Rango E Z >
X = p.

Esto es, asegura que z es suficientemente correlacionada con x, y


que la solución del sistema es factible.
S. Gallón - K Gómez
Variable instrumental IV
• Condición
 de orden  para identificación: Sí r < p, entonces
Rango E z i x> i < p. Por lo tanto, una condición necesaria para
la identificación es que
r ≥ p.
• Por lo tanto, el sistema es:
X Sobre-identificado si Rango E z i x>
 
= p y r > p.
i
X Exactamente identificado si Rango E z i x>

i = p y r = p.
X Sub-identificado (no identificado) sí r < p.
• Asumiendo que el sistema es exactamente identificado, la solución
única está dada por el estimador de variable instrumental
 −1
b = Z >X
β Z >y
IV
n
!−1 n
X X
>
= z i xi z i yi .
i=1 i=1

S. Gallón - K Gómez
Variable instrumental V

• β
b es consistente y asintóticamente normal.
IV
• Si Z = X, entonces β
b =β
IV
b
MCO
• Sí r > p, el sistema puede no tener una única solución. En este caso
el método de los momentos generalizado es usado.
• Hallar instrumentos apropiados puede ser fácil en algunos casos,
pero extremadamente difícil en otros. Muchas controversias
empíricas se dan sobre si ciertos instrumentos son válidos.
• Malos instrumentos implican mala información y, por lo tanto, baja
eficiencia.

S. Gallón - K Gómez
Repaso del método de los momentos I
Definición: Para un entero positivo k, el k-ésimo momento poblacional
de una variable aleatoria U con f.p.m. ó f.d.p. f (u, θ), θ ∈ Θ ⊂ Rp , es
(P
  uk f (u, θ), U discreta
µk = E U k = R u k
u u f (u, θ), U continua.

Con base en una muestra aleatoria U1 , . . . , Un , el respectivo k-ésimo


momento muestral está dado por
n
1X k
mk = Ui .
n
i=1

Ejemplos:
Pn
X Para k = 1, µ1 = E(U ), y m1 = n−1 i=1 Ui= U.
E(U 2 ) µ21 , y m2 = n−1 ni=1 Ui2 .
P
X Para k = 2, µ2 = = µ2 −

S. Gallón - K Gómez
Repaso del método de los momentos II

Definición: Sea U1 , . . . , Un una m.a. con f.p.m. ó f.d.p. f (u, θ), con
θ ∈ Θ ⊂ Rp desconocido. El estimador de momentos θ bMM se obtiene
igualando los primeros p momentos poblacionales con los respectivos
momentos muestrales, y luego resolver para θ. Esto es, resolver

1 Xn
µ1 = E(U ) = Ui = m1
n i=1
1 Xn
µ2 = E(U 2 ) = U 2 = m2
n i=1 i
.. .. .. ..
. . . .
1 n
U p = mp ,
X
µp = E(U p ) =
n i=1 i

donde los momentos poblacionales son funciones de θ, µk (θ).

S. Gallón - K Gómez
Repaso del método de los momentos III
Ejemplos:
• Estimación de la media poblacional de una v.a. i.i.d. Y con media µ.

E(Y ) = µ −→ E(Y − µ) = 0.
Pn
Reemplazando el operador E(·) por el promedio n−1 i=1 para la
muestra Y1 , . . . , Yn , se tiene que
n
1X
(Yi − µ) = 0.
n
i=1

Resolviendo para µ, el estimador de momentos es


n
1X
µ̂MM = Yi = Y .
n
i=1

S. Gallón - K Gómez
Repaso del método de los momentos IV
• Estimación del modelo de regresión lineal múltiple.
Dado que E (ε|x) = 0, la condición de momentos incondicional es
h  i
E (xε) = E x y − x> β = 0.

El estimador es la solución a la condición de momentos muestral


n
1X  
x i yi − x >
i β = 0.
n
i=1

Resolviendo para β se tiene que

n
!−1 n
X X
β
b
MM = xi x>
i xi yi .
i=1 i=1

Así, β
b
MCO es una caso particular del método de los momentos.

S. Gallón - K Gómez
Repaso del método de los momentos V
• Estimación del modelo de regresión lineal de variable instrumental.
Dado que E (ε|z) = 0, la condición de momentos incondicional es
h  i
E (zε) = E z y − x> β = 0.

La solución a la respectiva condición de momentos muestral


n
1X  
z i yi − x>
i β = 0,
n
i=1
Pn > = p y r = p (caso exactamente

si el Rango i=1 z i xi
identificado), está dada por
n
!−1 n
X X
β
b
MM = z i x>
i z i yi ,
i=1 i=1

el cual es el estimador de variable instrumental β


b .
IV
S. Gallón - K Gómez
Método de los momentos generalizado I

• La estimación de momentos del modelo de regresión lineal de


variable instrumental requiere que el sistema sea exactamente
identificable.
• Cuando r > p (más instrumentos que regresores) el sistema es
sobre-identificado y no existe solución única, i.e. más ecuaciones
que incógnitas.
• Una posibilidad es usar justamente p instrumentos, pero ésto
implica una pérdida de eficiencia.
• El método de momentos generalizado (GMM por sus siglas en
inglés) permite tratar con este problema.

S. Gallón - K Gómez
Método de los momentos generalizado II

• El estimador GMM en su lugar elige β


b de modo que el vector

n
1X  
z i yi − x>
i β ,
n
i=1

sea tan pequeño como sea posible, usando una función de distancia
cuadrática tal que β
b
GMM minimice
( n
)> ( n
)
1X   1X  
Qn (β) = z i yi − x >
i β Wn z i yi − x >
i β ,
n n
i=1 i=1

donde W n es una matriz r × r simétrica y definida positiva.

S. Gallón - K Gómez
Origen del método de los momentos generalizado I

• La prueba de bondad de ajuste “chi-cuadrado” sirve para probar la


hipótesis de que una v.a. U ∼ F0 (u, θ), θ ∈ Θ ⊂ Rp .
• Sea Ui , i = 1, . . . , n una m.a., donde cada observación i pertenece
a una de r categorías mutuamente excluyentes A1 , . . . , Ar .
• Bajo H0 , la probabilidad que i ∈ Ak , k = 1, . . . , r es
Xr
pk (θ) = P0 (i ∈ Ak , θ), pk (θ) = 1.
k=1

• El estadístico de bondad de ajuste está dado por


r
X [p̂k − pk (θ)]2 D
BAn (θ) = n −−−→ χ2r−1−p ,
p̂k n→∞
k=1

donde nk y p̂k = nk /n son el número y frecuencia relativa de


observaciones en Ak , respectivamente.
S. Gallón - K Gómez
Origen del método de los momentos generalizado II
• Dado que θ es desconocido, éste puede estimarse hallando el
parámetro de minimice BAn (θ) (Estimador chi-cuadrado mínimo).
• Ahora, defínase el conjunto de variables indicadoras
(
1, i ∈ Ak
Ik (i) =
0, i ∈ / Ak , k = 1, . . . , r; i = 1, . . . , n.

• Así, si H0 es cierta,

P [Ik (i) = 1] = pk (θ) −→ E [Ik (i)] = pk (θ).

• Por lo tanto, el vector de k momentos poblacionales es


 
I1 (i) − p1 (θ)
I2 (i) − p2 (θ)
 = 0,
 
E  ..
 . 
Ir (i) − pr (θ)
S. Gallón - K Gómez
Origen del método de los momentos generalizado III
donde la respectiva condición de momentos muestral es
 
p̂1 − p1 (θ)
p̂2 − p2 (θ)
 = 0.
 
 ..
 . 
p̂r − pr (θ)

• BAn (θ) es una forma cuadrática de la condición de momentos


muestral,
 >  −1  
p̂1 − p1 (θ) p̂1 0 ··· 0 p̂1 − p1 (θ)
p̂2 − p2 (θ)  0 p̂−1 · · · 0  p̂2 − p2 (θ)
 
2
BAn (θ) = n 
  
..   .. .. .. .
..  
  .
.. 
 .   . . . 
p̂r − pr (θ) 0 0 ··· p̂−1
r p̂r − pr (θ)

• BAn (θ) > 0 dado que la matriz central es definida positiva.


S. Gallón - K Gómez
Origen del método de los momentos generalizado IV

• Dado que rk=1 p̂k = 1, entonces p̂k = 1 − r−1


P P
k0 =1 p̂k0 (i.e. sólo se
requieren r − 1 condiciones de momentos para estimar θ).
• El estimador chi-cuadrado mínimo es aquel valor de θ que esté más
cercano de resolver la condición de momentos muestral en BAn (θ).
X Sí r − 1 = p, entonces el estimador β b
MM satisface el sistema
p̂k − pk (θ) = 0, k = 1, . . . , p, implicando que BAn (β b
MM ) = 0.
X Sí r − 1 > p, el estimador de momentos no funciona, pero el
estimador chi-cuadrado mínimo es válido, el cuál está definido en
términos de una minimización para cualquier r − 1 ≥ p.

S. Gallón - K Gómez
Estimador GMM I
Definición: Sea θ un vector p × 1 desconocido, wi un vector de v.a.’s,
y h(·) un vector r × 1 de funciones, r ≥ p. La condición de momentos
poblacional toma la forma

E [h (wi , θ)] = 0, para todo i = 1, . . . , n,

donde el respectivo momento muestral está dado por


n
1X
h (wi , θ) .
n
i=1

• La forma funcional de h(·) depende del modelo especificado.


X Media poblacional: h (w, θ) = Y − µ, donde w = Y y θ = µ.
X MCO: h (w, θ) = x(y − x> β), donde w = (y, x) y θ = β.
X IV: h (w, θ) = z(y − x> β), donde w = (y, x, z) y θ = β.
X MV: h (w, θ) = ∂ log f (w, θ) /∂θ, donde f (·) es la f.d.p.
S. Gallón - K Gómez
Estimador GMM II

Definición: El estimador del método de momentos generalizado basado


en E [h (wi , θ)] = 0 es el valor de θ que minimiza
( n
)> ( n )
1X 1X
Qn (θ) = h (wi , θ) Wn h (wi , θ) ,
n n
i=1 i=1

donde W n es una matriz r × r simétrica y definida positiva.

Esto es,
θ
bGMM = arg min Qn (θ),
θ∈Θ

• Diferentes elecciones de W n conllevan a diferentes estimadores


que, aunque consistentes, tienen diferente varianza si r > p.

S. Gallón - K Gómez
Estimador GMM III

• Si r = p, entonces E [h (wi , θ)] = 0 es reemplazada por


n
1X
h (wi , θ) = 0.
n
i=1

Por lo tanto, el estimador de momentos θ


bMM es la solución a

n
1X  
h wi , θ
bMM = 0,
n
i=1

que equivalente a minimizar Qn (θ) con W n = I n .

S. Gallón - K Gómez
Estimador GMM IV

Pn
• Si r > p, el sistema n−1 i=1 h (w i , θ) = 0 es sobre-identificado,
y no tiene solución.

En suPlugar, θ
b es elegido tal que la forma cuadrática de
n
n−1 i=1 h(wi , θ) b sea suficientemente cercana a 0. Esto es,

θ
bGMM = arg min Qn (θ),
θ∈Θ

Diferenciando Qn (θ) con respecto a θ rinde las c.p.o.


( n
)> ( n
)
∂Qn (θ)
b 1 X ∂h(wi , θ)
b 1X
= Wn h(wi , θ)
b = 0.
∂θ n ∂θ n
i=1 i=1

S. Gallón - K Gómez
Estimador GMM V

La fórmula anterior de ∂Qn (θ)/∂θ


b es resultado de la proposición:

Proposición. Sea la forma cuadrática Q = p> W p, donde p es un


vector r × 1 función de un vector p × 1, θ, y W una matriz simétrica.
Entonces,
 >
∂Q ∂p
=2 W p.
∂θ ∂θ

S. Gallón - K Gómez
Aplicación I

Estimador GMM del modelo de regresión lineal de variable


instrumental (caso r > p).
• Se tiene que
h (wi , θ) = z i (yi − x>
i β),

por lo tanto

n  >
( ) ( n )
1X  1 X  
Qn (β) = z i yi − x >
i β Wn z i yi − x>
i β
n n
i=1 i=1
 >  
1 > 1 >
= Z (y − Xβ) Wn Z (y − Xβ) .
n n

S. Gallón - K Gómez
Aplicación II

• Ahora, por la proposición anterior, y dado que

∂h(wi , θ) ∂Z > (y − Xβ)


= = −Z > X,
∂θ ∂β

se tiene que
 >  
∂Qn (β) 1 > 1 >
= −2 Z X Wn Z (y − Xβ)
∂β n n
   
1 > 1 >
= −2 X Z Wn Z (y − Xβ) = 0.
n n

• De modo que
 
X > ZW n Z > X β = X > ZW n Z > y.

S. Gallón - K Gómez
Aplicación III
• Por lo tanto, si X > ZW n Z > X es invertible, el estimador GMM es
 −1
> >
β
b
GMM = X ZW n Z X X > ZW n Z > y,

con matriz de covarianza


   −1
> >
Cov βb
GMM = σ 2
X ZW n Z X X > ZW n Z > ZW n Z > X
 −1
× X > ZW n Z > X .

Pn
• Si r = p, Z > X = >
i=1 z i xi es cuadrada e invertible, entonces,
 −1
>
β
b
GMM = Z X Z >y
n
!−1 n
X X
= z i x>
i z i yi = β
b =β
IV
b
MM
i=1 i=1

S. Gallón - K Gómez
Propiedades del estimador GMM I

Supuestos:
1. E [h(wi , θ)] = 0.
   
2. h(·) satisface que h wi , θ (1) = h wi , θ (2) si y sólo si
θ (1) = θ (2) . h i
1 Pn ∂h(wi ,θ) P ∂h(wi ,θ)
3. n i=1 ∂θ −
→G=E ∂θ .
P
4. W n −→ W finita, simétrica y definida positiva.
5. n1 ni=1 h(wi , θ)h> (wi , θ) −
→ S = E h(wi , θ)h> (wi , θ) (caso
P P  

de observaciones independientes).

S. Gallón - K Gómez
Propiedades del estimador GMM II

Entonces:

• Consistencia
P
bGMM −
θ → θ.
• Distribución asintótica
√  
D
n θbGMM − θ −→ N (0, V ) ,

donde V es la matriz de covarianza asintótica, dada por


 −1   −1
V = G> W G G> W SW G G> W G .

S. Gallón - K Gómez
Propiedades del estimador GMM III
• La inferencia estadística para el estimador θ
bGMM es posible usando
estimadores consistentes de W , G y S dados por W n ,
n
1 X ∂h(wi , θ)
e
G=
b
n ∂θ
i=1

y
n
b= 1
X
S e > (wi , θ),
h(wi , θ)h e
n
i=1

respectivamente, donde θ
e es un estimador consistente preliminar de
θ asumiendo W n = I.
• Por lo tanto, el estimador de V está dado por
1b> −1  >  > −1
Vb = G W nG
b G
b W n SW
b nG
b G b W nG
b .
n

S. Gallón - K Gómez
Estimador GMM eficiente I

• La matriz óptima W 0 que minimiza V es W 0 = S −1 . Por lo tanto,


 −1
V = G> S −1 G .

• La distribución asintótica del estimador GMM eficiente (óptima) es

√     −1 
D > −1
n θ OGMM − θ −
b → N 0, G S G .

• Si r = p, entonces G y S son cuadradas y, por lo tanto,


 −1 −1
V = G> S −1 G = G−1 S G> .

S. Gallón - K Gómez
Estimador GMM eficiente II
El estimador GMM óptimo o eficiente puede obtenerse usando un
procedimiento de dos etapas (estimador GMM en dos etapas).
1. Obtener un estimador GMM θ e usando una elección subóptima de
W n , por ejemplo W n = I por simplicidad, y estimar S,
n
b= 1
X
S e > (wi , θ).
h(wi , θ)h e
n
i=1

b −1 . Esto es, el
2. Hallar el estimador GMM óptimo usando W n = S
estimador θbOGMM que minimize
( n
)> ( n )
1X −1 1 X
Qn (θ) = h (wi , θ) S
b h (wi , θ) .
n n
i=1 i=1

S. Gallón - K Gómez
Aplicación I
Estimador GMM óptima del modelo de regresión lineal de variable
instrumental.
• Se sabe que h (wi , θ) = z i (yi − x>
i β) = z i εi .
• Para errores heterocedásticos, S es estimada consistentemente por
n
b= 1
X    
S bGMM h> wi , θ
h wi , θ bGMM
n
i=1
n
1X 2
= εbi z i z >
i
n
i=1
1
= Z > ΩZ,
b
n

donde εbi = yi − x> i θ GMM es el i-ésimo residual de GMM, y


b
Ω = diag(b
b 2 2
ε1 , . . . , εbn ).

S. Gallón - K Gómez
Aplicación II

• Por lo tanto, el estimador GMM óptimo es


−1
> b −1 > b −1 Z > y

β
b
OGMM = X Z S Z X X >Z S
  −1 −1  −1
> >b >
= X Z Z ΩZ Z X X > Z Z > ΩZ
b Z > y,

con matriz de covarianza


−1
> b −1 >
  
Cov β b
OGMM = X Z S Z X
  −1 −1
> >b >
= n X Z Z ΩZ Z X .

S. Gallón - K Gómez
Aplicación III
• Para errores homocedásticos, S es estimada consistentemente por
n
S2 X
S=
b ziz>
i
n
i=1
S2
= Z > Z,
n
• Por lo tanto, el estimador GMM óptimo de variable instrumental es
−1
> b −1 > b −1 Z > y

β
b
OGMM = X Z S Z X X >Z S
  −1 −1  −1
> > >
= X Z Z Z Z X X >Z Z >Z Z >y
 −1
= X >P Z X X > P Z y,

−1
donde P Z = Z Z > Z Z > es una matriz de proyección.
S. Gallón - K Gómez
Aplicación IV
• Nótese que
 −1
c = P Z X = Z Z >Z
X Z >X

es la proyección de X sobre el espacio columna de Z.


• Así, el estimador de variable instrumental óptimo puede obtenerse
por medio de un procedimiento en dos etapas (conocido como el
estimador de mínimos cuadrados en dos etapas):
1. Regresar las columnas de X sobre Z y obtener la matriz ajustada X.
c
2. Regresar y sobre X
c para obtener el estimador de β
 > −1
β
b
MCO2 = X X
c c Xy
c
 −1
= X >P Z X X >P Z y


b
OGMM .

S. Gallón - K Gómez
GMM como un principio unificador de estimación I
• Múltiples estimadores son obtenidos por medio de la optimización
(estimadores M) de una función escalar de la forma
n
X
Ni (θ), θ ∈ Θ ∈ Rp .
i=1

• Sí Ni (θ) es diferenciable, entonces θ


b resuelve las c.p.o.

n 
X ∂Ni θb
= 0.
∂θ
i=1

• Esta ecuación implica que θ


b es equivalente al estimador de
momentos basado en la condición de momentos poblacional
" #
∂Ni (θ)
b
E = 0.
∂θ
S. Gallón - K Gómez
GMM como un principio unificador de estimación II
Casos particulares:
X Estimador MCO del modelo de regresión lineal.
Se sabe que el estimador de β está dado por
n 
X 2  2
β
b
MCO = arg min yi − x>
i β −→ Ni (β) = yi − x>
i β .
β∈Rp i=1

Por lo tanto,
n  n
X ∂Ni β 1X  
= xi yi − x>
i β = 0.
∂β n
i=1 i=1

De modo que la respectiva condición de momentos poblacional es


h  i
E xi yi − x> i β = E (xi εi ) = 0.

Así, β
b
MCO puede interpretarse como un estimador GMM.
S. Gallón - K Gómez
GMM como un principio unificador de estimación III
X Estimador de máxima verosimilitud
Asumiendo que la f.d.p del vector wi i.i.d. es f (wi , θ), el
estimador de MV de θ está dado por
n
X
θ
bMV = arg max log [f (wi , θ)] −→ Ni (θ) = log [f (wi , θ)] .
θ∈Θ i=1

Por lo tanto,
n 
X ∂ log [f (wi , θ)] ∂Ni β ∂ log [f (wi , θ)]
= 0 −→ = .
∂θ ∂θ ∂θ
i=1

De modo que la respectiva condición de momentos poblacional es


 
∂ log [f (wi , θ)]
E = 0.
∂θ

Así, θ
bMV tiene una interpretación como un estimador GMM.
S. Gallón - K Gómez
Test de restricciones sobre-identificadas I

• Test desarrollado por Sargan y Hansen.


• Si el sistema dado por la condición de momentos poblacional es
exactamente
Pn identificado (r = p), θb es la única solución de
n −1
i=1 h(w i , θ) = 0, y por lo tanto Qn (θ) = 0.
b b
• Si el sistema es sobre-identificado (r > p), Qn (θ)b > 0. Pero, es
posible hallar una solución tal que Qn (θ) sea cercana a cero.
b
• Por ley de los grandes números,
n
1X P
h(θ) = h (wi , θ) −
→ E [h (wi , θ)] ,
n
i=1
Pn
entonces n−1 i=1 h (w i , θ) puede usarse para probar la hipótesis

H0 : E [h (wi , θ)] = 0.

S. Gallón - K Gómez
Test de restricciones sobre-identificadas II
• En particular, se tiene que
√ D P
n h(θ) −
→ N (0, S) y b−
S → S.

• Por lo tanto, el estadístico de prueba es


  n√ o> −1 n√ o
nQn θ b = n h(θ)b S
b n h(θ)
b

 > −1 1 X
( n ) ( n )
1X   
=n h wi , θ
b S
b h wi , θ
b
n n
i=1 i=1
D
→ χ2r−p ,

el cual es una forma cuadrática de n−1 ni=1 h (wi , θ) evaluada en


P

el estimador GMM óptimo θ b=θ bOGMM .


• Los grados de libertad r − p son el número de retricciones
sobre-identificadas.
bOGMM ≥ x2

• Si el valor de nQn θ r−p,1−α , H0 es rechazada.
S. Gallón - K Gómez
Test de Durbin-Wu-Hausman I
• En muchos casos, no se sabe si se necesita usar el método de
variable instrumental.
Por ejemplo:
X Algunas variables están medidas con error, pero no se sabe si el error
es lo suficientemente grande para causar suficiente inconsistencia.
X No existe seguridad sobre la sospecha de si algunas variables
explicativas son endógenas.
• Si los regresores son instrumentos válidos, entonces también son
óptimos. Por lo tanto, β
b
MCO , que es consistente en este caso, es
preferible a β IV obtenido con instrumentos z i .
b
• La idea consiste en probar la hipótesis nula de incorrelación entre
los errores y los regresores contra la alternativa de correlación con
alguno de éstos, aunque incorrelacionados con z i ,

H0 : E(xi εi ) = 0,
H1 : E(z i εi ) = 0.
S. Gallón - K Gómez
Test de Durbin-Wu-Hausman II

P
• Bajo H0 , β
b
MCO y β IV son consistentes, β IV − β MCO −
b b b → 0.
P
• Bajo H1 , β
b es consistente, pero β
IV
b
MCO no, β IV − β MCO 9 0.
b b
• La idea del test es probar si β
b −β
IV
b es significativamente
MCO
diferente de cero usando el estadístico de prueba
 >  −1  
D
Hn = n βb −β
IV
b
MCO V
b IV − V
b MCO β
b
IV −βb
MCO −→ χ2k ,

donde k es el número


 de regresores potencialmente
  endógenos,
V IV = Cov β IV y V MCO = Cov β MCO .
b d b b d b

• Si el valor de Hn ≥ x2k,1−α , H0 es rechazada.

S. Gallón - K Gómez
Referencias I
R. Bowden and D. Turkington. Instrumental Variables, volume 8 of Econometric Society
Monographs in Quantitative Economics. Cambridge University Press, Cambridge, 1984.
A. Cameron and P. Trivedi. Microeconometrics: Methods and Applications. Cambridge
University Press, New York, 2005.
P. Chaussé. Computing generalized method of moments and generalized empirical likelihood with
R. Journal of Statistical Software, 34(11):1–35, 2004.
R. Davidson and J. MacKinnond. Econometric Theory and Methods. Oxford University Press,
New York, 2003.
P. Dhrymes. Mathematics for Econometrics. Springer, New York, fourth edition, 2013.
W. Greene. Econometrics Analysis. Prentice Hall, Heidelberg, 7th edition, 2012.
J. Groß. Linear Regression, volume 175 of Lecture Notes in Statistics. Springer, Heidelberg, 2003.
A. Hall. Generalized Method of Moments. Advanced Texts in Econometrics. Oxford University
Press, New York, 2005.
T. Hastie, R. Tibshirani, and J. Friedman. The Elements of Statistical Learning: Data Mining,
Inference, and Prediction. Springer, 5th edition, 2009.
F. Hayashi. Econometrics. Princeton University Press, Princeton, NJ, 2000.
A. Izenman. Modern Multivariate Statistical Techniques: Regression, Classification, and
Manifold Learning. Springer, 2008.
G. James, D. Witten, T. Hastie, and R. Tibshirani. An Introduction to Statistical Learning with
Applications in R. Springer, 2013.
S. Gallón - K Gómez
Referencias II

G. G. Judge, R. C. Carter, R. C. Hill, W. E. Griffiths, H. Lütkepohl, and T.-C. Lee. Introduction to


the Theory and Practice of Econometrics. John Wiley & Sons, New York, 2nd edition, 1988.
C. R. Rao, H. Toutenburg, Shalabh, and C. Heumann. Linear Models and Generalizations: Least
Squares and Alternatives. Springer Series in Statistics. Springer, Heidelberg, 3rd edition, 2008.
H. White. Asymptotic Theory for Econometricians. Academic Press; Revised edition.
J. Wooldridge. Econometric Analysis of Cross Section and Panel Data. MIT Press, Cambridge,
MA, second edition, 2010.
A. Zeileis. Econometric computing with HC and HAC covariance matrix estimators. Journal of
Statistical Software, 11(10):1–17, 2004.

S. Gallón - K Gómez

También podría gustarte