Apuntes Econometría
Apuntes Econometría
Grado*
*
Compilación preparada a partir de los apuntes de Teorı́a Econométrica I de los profesores Raimundo Soto, Juan
Eduardo Coeymans y de los apuntes de Inferencia Estadı́stica de Rafael Aguila. La sección Modelos de respuesta
discreta y la parte de Variables Instrumentales se extrajo del libro de J. Wooldridge “Econometric Analysis of Cross
Section and Panel Data”, la parte de Series de Tiempo en parte del libro de Green “Econometric Analysis” y en
parte de los apuntes de Teorı́a Econométrica III del profesor R. Soto.
Índice
1. Probabilidad e Inferencia 1
1.1. Elementos de Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Elementos de Teorı́a Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5. Test de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3. Variables Instrumentales 11
3.1. Estimación en Dos Etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2. Consistencia y Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3. Instrumentos Débiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1. Probabilidad e Inferencia
• Distribución Normal:
1 −{z − E(z)}2
f (z) = √ exp
σ 2π 2σ 2
• Función caracterı́stica de la Normal:
σ 2 t2
mx (t) = exp µx t + x
2
• Una secuencia de variables aleatorias (reales o vectoriales) {xn } converge en media cuadráti-
ca a x si:
lı́m E(xn − x)2 = 0
n→∞
m
lo que escribimos xn −→ x.
• Teorema del lı́mite central de Lindberg-Levy: Sea {xn : n > 1} una secuencia de
variables aleatorias extraı́da de cualquier función de probabilidad con media y varianza finita
(µ, σ 2 ), y si x̄n = n1
P
xi , entonces:
√ d
n(x̄n − µ) −→ N (0, σ 2 )
• Teorema del lı́mite central de Lindberg-Feller con varianzas distintas: Sea {xn : n >
1} una secuencia de variables aleatorias extraı́da de un conjunto de funciones de distribución
{Fn , n ≥ 1}, cada una de ellas con media y varianza finita (µi , σi2 ).
Ejemplo de estimadores de máxima verosimilitud para los parámetros de una distribución Normal.
Estimador de máxima verosimilitud de la media:
i=n
( )
1 Yi − µ 2
2
Y 1
L(µ, σ ) = √ exp −
σ 2π 2 σ
i=1
n 1 X
ln L(µ, σ 2 ) = −n ln σ − ln 2π − 2 (Yi − µ)2
2 2σ
∂ ln L(µ, σ 2 ) 1 X
= · 2 (Yi − µ) = 0
∂µ 2σ 2
X
(Yi − µ) = 0
P
Yi
µ̂M V = = Ȳ
n
Estimador de máxima verosimilitud de la varianza:
∂ ln L(µ, σ 2 ) n 1 1 X
= − + 4 (Yi − µ)2 = 0
∂σ 2 2 σ 2 2σ
(Yi − µ)2
P
σ2 =
P n
2 (Yi − Ȳ )2
σ̂M V = = Sn2
n
Ȳ − µ
Bilateral si Z → N (0, 1) : P (−z1− α2 ≤ Z = ≤ +z1− α2 ) = 1 − α
√σ
n
Ȳ − µ
Unilateral si Z → N (0, 1) : P (Z = ≤ +z1−α ) = 1 − α
√σ
n
Ȳ − µ
Bilateral si Z → t(n − 1) : P (−t1− α2 ≤ Z = ≤ +t1− α2 ) = 1 − α
√S
n
H0 : µ ≥ 25
H1 = µ < 25
Se le llama H0 a la hipótesis nula y H1 a la hipótesis alternativa. Una vez establecidas las hipótesis
se debe decidir entre ellas, para lo cual se utiliza la información contenida en una muestra aleatoria
Y1 , ..., Yn .
Es útil definir algunos conceptos luego de conocer lo que es el testeo de hipótesis:
2 Modelo Clásico de Regresión Lineal 4
• Teorema de Frisch-Waugh:
! ! !
x01 x1 x01 x2 β1 x01 y
Tomamos la matriz particionada =
x02 x1 x02 x2 β2 x02 y
• R-Cuadrados:
ŷ 0 M0 ŷ β̂ 0 x0 M0 xβ̂ e0 e
R2 = = = 1 −
y 0 M0 y y 0 M0 y y 0 M0 y
0
e e/(n − k) n−1
R̄2 = 1− 0 =1− (1 − R2 )
y M0 y/(n − 1) n−k
Se nota que cuando R2 ≈ 0 y k >> 0, podrı́a darse que R̄2 < 0. En una regresión múltiple,
R̄2 disminuirá (aumentará) cuando se suprime la variable x de la regresión si el estadı́stico
t asociado a esta variable es mayor (menor) que 1. Una segunda dificultad con R2 hace
referencia al término constante del modelo, donde para que 0 ≤ R2 ≤ 1 se requiere que X
tenga una columna de unos, si no, entonces (1) M0 e 6= e y (2) e0 M0 X 6= 0 y el tercer término
en:
y 0 M0 y = (Xβ + e)0 M0 (Xβ + e) = β 0 X 0 M0 Xβ + β 0 X 0 M0 e + e0 M0 Xβ + e0 M0 e
¯
y por lo tanto obtenemos V (β̂) = σ 2 c0 c. Luego, definimos la distancia entre ambos estimadores
¯
como Dy = β̂ − β̂, de manera que se cumple que D = c − (x0 x)−1 x0 . Despejando c de esta
última ecuación y reemplazándola en la ecuación anterior obtenemos una varianza mayor,
demostrando ası́ que la varianza del estimador mico es menor.
¯
V (β̂) = σ 2 (x0 x)−1 + σ 2 DD0
2 Modelo Clásico de Regresión Lineal 6
• Test de Wald:
[(Rβ̂ − q)0 (R(x0 x)−1 R0 )−1 (Rβ̂ − q)]/J
Con σ desconocido : → F (J, n − k)
e0 e/(n − k)
Con σ conocido : (Rβ̂ − q)0 (σ 2 R(x0 x)−1 R0 )−1 (Rβ̂ − q) → χ2 (J)
• Método Delta: Para la distribución asintótica de una función de β̂. Si f (β̂) es un conjunto
∂f (β̂)
de funciones contı́nuas de β̂ tales que C = , y si se cumple el teorema de Slutsky
∂ β̂ 0
p lı́m f (β̂) = f (β), entonces:
∂f (β)
p lı́m C = =Γ
∂β
σ 2 −1 0
f (β̂) → N f (β), Γ Q Γ
n
Con un estimador asintótico de la matriz de varianzas y covarianzas igual a:
∂f (β) 2
2 0 −1 0
Var(f (β̂)) = C σ̂ (X X) C = Var(β̂) ·
∂β
Si alguna de las funciones son no lineales, la propiedad de insesgadez que se mantiene para f (β̂)
podrı́a no transmitirse a f (β̂). Sin embargo, se deduce que en general f (β̂) es un estimador
consistente de f (β).
2 Modelo Clásico de Regresión Lineal 7
Sesgo de atenuación
Estamos interesados en estimar y = xβ+e, pero solamente tenemos x∗ = x+µ, donde Cov(x, e) = 0,
por lo tanto podemos estimar y = x∗ β + e − βµ, donde:
2.1. Predicción
• Teorema de Mann-Wald: Los estimadores Mico están sesgados cuando los regresores son
estocásticos y hay ausencia de correlación contemporánea pero dependencia no contemporánea
entre el error e y los regresores x. Esto ocurre cuando se estima un modelo con rezagos de la
variable dependiente (Yt−j dentro de las explicativas) pero con errores bien comportados. Si:
a. E(e) = 0
b. E(ee0 ) = σ 2 I
c. E(Xi0 e) = 0, donde Xi es la columna i (⇒ E(X 0 e) = 0). Esto no es independencia
completa, es solo no correlación contemporánea.
2 Modelo Clásico de Regresión Lineal 8
X0X
d. plim n = Σxx < ∞
2.3. Multicolinealidad
Hemos mantenido el supuesto de que E(e0 e) = σ 2 I, pero cuando se viola tendremos que E(e0 e) =
σ 2 Ω. Esto ocurre cuando hay heterocedasticidad o correlación residual. Obviamente si conociéra-
mos Ω podrı́amos usar directamente el estimador de la varianza. Transformando el modelo T yi =
T xi β + T ei , de manera que se sigue cumpliendo E(T e) = 0, obtenemos E(T ee0 T 0 ) = σ 2 T 0 ΩT . Si
T 0 ΩT = I habrı́amos solucionado el problema, porque ocupamos Mico como siempre. Entonces
queremos encontrar un T tal que Ω−1 = T 0 T para ponderar el modelo. El estimador de mı́nimos
cuadrados generalizados (también llamado estimador de Aitken) serı́a:
¿Qué sucede cuando Ω es desconocida? Podrı́amos estimarla con algunos parámetros Ω̂ = Ω(θ̂)
—donde θ podrı́a ser la autocorrelación, por ejemplo— siempre y cuando haya convergencia. Su-
pongamos que θ̂ es un estimador consistente de θ, entonces podrı́amos formar Ω̂ = Ω(θ̂), y podrı́amos
hacer mı́nimos cuadrados generalizados factibles:
ˆ
β̂GLS = (x0 Ω̂−1 x)−1 x0 Ω̂−1 y
Pero en realidad no necesitamos σ 2 Ω, solo necesitamos la diagonal, por lo que podemos ocupar la
matriz de White —también llamada matriz de errores robustos— para corregir por heterocedas-
ticidad:
1X 2 0
S0 = σi xi xi
n
con lo que obtenemos de manera general: Var(β̂) = n(x0i xi )−1 S0 (x0i xi )−1
2 Modelo Clásico de Regresión Lineal 10
2.5. Heterocedasticidad
Varianza con errores heterocedásticos, es decir, cuando los residuos provienen de distribuciones con
distintas varianzas:
1 0 −1
Donde Ω es la forma de la heterocedasticidad, si los regresores se comportan bien nx x con-
σ2
vergerá a Q−1 , y el término n a 0. Pero 1 0
n x Ωx no tiene porqué converger. Pero si se cumplen
las condiciones de Grenander convergerá. El estimador Mico sigue siendo el mejor estimador lineal
insesgado, y sigue distribuyéndose asintóticamente normal, esto es razonable porque el problema
de la heterocedasticidad se refiere al segundo momento y no a la media de los errores. Entonces, lo
único que cambia es la varianza del estimador que ahora no es σ 2 (x0 x)−1 , por lo que las inferencias
basadas en esta última están sesgadas.
• Condiciones de Grenander:
1. Para cada columna de x, lı́mn→∞ x0k xk = +∞ (no degenera a una secuencia de ceros).
x2ik
2. lı́mn→∞ x0k xk
= 0 (ninguna observación domina la varianza).
3. La matriz x es de rango completo.
2.6. Autocorrelación
E(ut ut−s )
• Coeficiente de autocorrelación: rs = Eu2t
ut = ρut−1 + νt / · ut−s
ut ut−s = ρut−1 ut−s + νt ut−s
E(ut yt−s ) = ρE(ut−1 ut−s ) + E(νt ut−s )
3. Variables Instrumentales
En este caso existe correlación 6= 0 entre el error no observable u y alguna de las variables explica-
tivas xj con j = 1, ..., k.
y = β0 + β1 x1 + ... + βk xk + u (1)
Si solo xk podrı́a estar correlacionada con el error, se dice que xk es potencialmente endógena, y
x−k son variables exógenas. Se puede pensar que u contiene alguna variable omitida no observable
correlacionada con xk . El estimador Mico en este caso está sesgado, y por lo tanto no se puede
estimar de manera consistente. Necesitamos entonces una variable observable z1 que no esté en la
ecuación (1) que satisfaga dos condiciones:
donde E(rk ) = 0 y rk no esta correlacionado con x−k y z1 , y x−k son los regresores 6= k en la
ecuación (1), y debe cumplirse que:
θ1 6= 0 (2)
donde esto no significa que z1 esté correlacionado con xk , sino que significa que z1 debe estar
parcialmente correlacionado con xk una vez que se ha neteado el efecto de las otras variables
x−k . Entonces está mal decir que esta segunda condición es Cov(z1 , xk ) 6= 0, porque esto es
solo en el caso particular que en la ecuación (1) hay un solo regresor igual a xk .
x = (1, x1 , ..., xk )
z = (1, x1 , ..., z1 )
es un estimador consistente si se utiliza una muestra aleatoria de (x, y, z1 ). Esto sucede porque la
ecuación [E(z0 x)]β = E(z0 y) representa un sistema de ecuaciones con una solución única si y solo
si la matriz de k × k E(z0 x) tiene rango completo:
lo cual solo sucede cuando θ1 6= 0. Es importante recalcar que mientras la condición de identificación
se puede testear, la condición de exogeneidad no se puede, porque u es no observable.
Supongamos que ahora tenemos más de una variable instrumental para xk : z1 , z2 , ..., zM con Cov(zh , u) =
0 y h = 1, 2, ..., M . Cada una de las variables zh cumple con la condición de exogeneidad. Definimos
3 Variables Instrumentales 13
donde muchas veces se interpreta x∗k como la parte de xk que no está correlacionada con u. Esti-
mando esta ecuación por Mico podemos obtener un estimador x̂k en la primera etapa:
Definiendo x̂ ≡ (1, x1 , ..., xk−1 , x̂k ) podemos estimar la segunda etapa y escribir el estimador
2SLS como:
β̂ = (X̂0 X)−1 X̂0 Y
Donde X̂ = Z(Z0 Z)−1 Z0 X. Es importante notar que si en la primera etapa se omiten los regre-
sores x−k se obtendrán estimadores inconsistentes en la segunda etapa. El estimador de variables
instrumentales y el estimador 2SLS son equivalentes cuando solo hay 1 instrumento para xk . La
condición de identificación en el caso 2SLS es que debe haber al menos un θj 6= 0, lo que se prue-
ba fácilmente con una hipótesis nula que todos son cero y usando un test de multiplicadores de
Lagrange. Un modelo con 1 variable endógena se dice sobreidentificado cuando M > 1, y existen
M − 1 restricciones de sobreidentificación.
Para poder estimar consistentemente de una muestra aleatoria una ecuación como (1) con (quizás)
varias variables endógenas es necesario que:
yt = µ + et − θet−1
= µ + (1 − θL)et
yt µ
= + et
1 − θL 1−θ
µ
yt = − θyt−1 + θ2 yt−2 − ... + et
1−θ
1
Porque sabemos que (1 + θL + θ2 L2 + ...) = 1−θL . Por otro lado, un proceso de media móvil
MA(q) tiene las siguientes caracterı́sticas:
Estacionariedad Débil
1. E(yt ) es independiente de t.
Teorema de Wold
Cualquier proceso con media cero y estacionario en covarianza {yt } puede ser representado de
manera única por un componente lineal determinı́stico y un componente lineal no determinı́stico:
∞
X
yt = P ∗ [yt |yt−1 , yt−2 , ..., yt−p ] + θ1 t−i
i=0
2. t es ruido blanco.
P∞ 2
3. Sumabilidad cuadrática: i=1 θi < ∞.
Metodologı́a Box-Jenkins
• Estimación:
T −p
1 1X
log L = − (T − p)n log(2π) + (T − p) log Ω−1 − êi Ω−1 êi
2 2
i=1
PT −p
∂ log L
ˆ
ˆ
i i
= 0 ⇒ Ω̂ = i=1
∂Ω−1 T −P
• ARCH(1):
yt = βxt + t
t = µ(α0 + α1 2t−1 )1/2
V (t |t−1 ) = α0 + α1 2t−1
α0
V (t ) = α0 + α1 σ2 =
1 − α1
yt = βxt + θσt2 + t
t−1 ) = α0 + α1 2t−1 + α2 σt2
4 Econometrı́a de Series de Tiempo 17
Variables como el PIB o el nivel de precios no son estacionarias. En muchos casos puede conseguirse
la estacionariedad simplemente tomando diferencias, o mediante alguna otra transformación. Pero
surgen cuestiones estadı́sticas nuevas.
zt = (1 − L)d yt = ∆d yt
• La utilización de datos que se caracterizan por tener raı́ces unitarias son susceptibles de
conducir a serios errores en las inferencias. La inferencia basada en mı́nimos cuadrados no
es válida en este caso. El paseo aleatorio con deriva (con término constante), el proceso
estacionario con tendencia, y el paseo aleatorio se caracterizan por tener una raı́z
unitaria, esto es, divergen y sus momentos no dependen del tiempo. Consideremos los tres
modelos en una sola ecuación:
zt = µ + βt + zt−1 + ut
Ahora restamos zt−1 a los dos lados de la ecuación e introducimos un parámetro artificial γ:
donde, por hipótesis γ = 1. Esta ecuación nos proporciona las bases para los contrastes de
raı́z unitaria. Un contraste de la hipótesis γ − 1 = 0 confirma el paseo aleatorio con deriva, y
si es menor que 0 favorece la tendencia estacionaria (y eliminarla es el método preferible).
4 Econometrı́a de Series de Tiempo 18
4.5. Cointegración
Supongamos que la teorı́a dice que en el largo plazo Y crece a la misma tasa que X. Esto significa que
en largo plazo Y /X es constante, por lo tanto se puede incluir la siguiente restricción: ln Yt −ln Xt =
C. Por lo tanto, para el modelo se cumplirá en el largo plazo:
Yt = cXt
∆ ln Yt = ∆ ln Yt−1 = ∆ ln Xt = ∆ ln Xt−1 = ∆
∆ = β2 ∆ + β3 ∆ + β4 ∆
= (β2 + β3 + β4 )∆
⇒ β2 + β3 + β4 = 1
donde la última ecuación es la restricción teórica. Podemos escribir el modelo con esta restricción
en el largo plazo:
ln Yt = β1 + β2 ln Xt + β3 ln Xt−1 + (1 − β2 − β3 ) ln Yt−1 + ut
En el modelo:
Yt = a1 Yt−1 + a2 Yt−2 + b1 Xt + b2 Xt−1 + ut
a. Las raı́ces de la ecuación caracterı́stica deben ser menores que uno, de otra forma, cualquier
perturbación en el error de la ecuación harı́a explotar a Yt .
para varios valores de x. Para una variable continua xj , el efecto parcial de xj en la probabilidad
de respuesta es:
∂P (y = 1|x) ∂p(x)
= (7)
∂xj ∂xj
Y cuando mutliplicamos (7) por ∆xj nos da el cambio aproximado en P (y = 1|x) cuando xj
aumenta en ∆xj , manteniendo las otras variables fijas. Si xk fuese una variable binaria, estarı́amos
interesados en p(x1 , x2 , ..., xk−1 , 1) − p(x1 , x2 , ..., xk−1 , 0), que es la diferencia en la probabilidad de
respuesta. Para la mayorı́a de los modelos se considera que, si una variable xj , ya sea continua o
discreta, el efecto parcial de xj en p(x) depende de todos los x.
Debemos recordar algunas cosas de la función Bernoulli para trabajar con estos modelos:
P (y = 1|x) = p(x)
P (y = 0|x) = 1 − p(x)
E(y|x) = p(x)
Var(y|x) = p(x)[1 − p(x)]
Además, la función densidad de una binomial es p(y)X (1 − p(y))Z , donde X y Z son los valores
que toma la variable y cuando se da el éxito y el fracaso respectivamente.
P (y = 1|x) = β0 + β1 x1 + β2 x2 + ... + βk xk
∂P (y=1|x)
Asumiendo que x1 no está relacionada con otras variables explicativas, β1 = ∂x1 . Entonces,
β1 es el cambio en la probabilidad de éxito (y = 1) dado un aumento de una unidad en x1 . Es útil
derivar la media y la varianza del modelo:
La ecuación (8) nos indica que dada una muestra aleatoria, la regresión OLS de y en 1, x1 , x2 , ..., xk
produce estimadores consistentes e insesgados de βj . La ecuación (9) nos indica que hay heteroce-
dasticidad presente a menos que todos los β sean 0 (hay que utilizar la matriz de errores robustos).
Se puede usar el test F para testear la significancia conjunta de todas las variables (dejando la
constante sin restringir).
Modelo Probit
Modelo Logit
Para aplicar exitosamente modelos probit y logit es importante interpretar βj en variables explica-
tivas continuas y discretas.
Restringiendo que G(·) esté entre 0 y 1 asegura que la función esté bien definida para todos los
valores de β. De los resultados generales de máxima verosimilitud sabemos que β̂ es consistente
y asintóticamente normal. Asumimos que G(·) es dos veces diferenciable, y la función g(z) es la
derivada de G(·). Para el modelo probit g(z) = φ(z), y para el modelo logit g(z) = exp(z)/(1 +
exp(z))2 . Tenemos:
g(xi β)x0i [yi − G(xi β)]
si (β) ≡
G(xi β)[1 − G(xi β)]