Econometría I:
Semana 6
Econ. Gonzalo Gabriel Villa Cox, Ph. D.
Objetivos de la clase
1. Procesamiento y revisión de actividades e-learning antes de la clase.
2. Repasar aspectos clave sobre la inferencia asintótica y la distribución
muestral de los estimadores MCO.
3. Comprender las medidas de bondad de ajuste usadas en MCO y sus
implicaciones.
4. Derivar el test de Wald y comprender su utilización para inferencia en el
modelo de regresión lineal múltiple.
5. Taller en clase
Procesamiento y revisión de actividades
e-learning antes de la clase:
AAP 6.1. Medidas de ajuste
AAP 6.2. Test de Wald
Inferencia Asintótica: Errores estándar robustos
p
• Bajo exogeneidad y/o ortogonalidad 𝛽መ ՜ 𝛽, es decir, es consistente.
• Por el CLT, 𝛽መ tiene una distribución normal conjunta “asintótica” con media 𝛽 y matriz de
varianzas y covarianzas V.
• La estimación de la varianza asintótica es:
𝑁
𝑉 = AVar 𝛽መ = 𝑋𝑟 𝑋 −1
𝑢ො 𝑖2𝑋𝑖𝑟 𝑋𝑖 𝑋𝑟 𝑋 −1
𝑖=1
• Estas estimaciones producirán errores estándar robustos o errores estándar a
heterocedasticidad.
MCO
• En este caso, la inferencia se realiza de manera ”convencional”, en base a estadísticos
t y valores P como hemos venido haciendo.
Inferencia Asintótica: Errores estándar robustos
• Las estimaciones de 𝛽 y sus errores estándar robustos permiten llevar a
cabo inferencia estadística.
• Estas expresiones matriciales parecen ser complejas, pero en la práctica
son fáciles de estimar con programas informáticos.
• Nótese que hasta este punto NO hemos asumido homocedasticidad,
MCO
ni normalidad de los errores.
Enfoque “moderno”:
Homocedasticidad vs. Heterocedasticidad
• Es prudente usar errores heterocedásticos a menos que tengamos buenas razones
para usar errores homocedasticos.
• Por razones mayormente históricas, los programas informáticos reportan por
defecto errores homocedásticos y es importante realizar el ajuste respectivo.
MCO
Enfoque “moderno”:
Homocedasticidad vs. Heterocedasticidad
• Desde un punto de vista teórico el supuesto de homocedasticidad implica:
→ Dado Teorema de Gauss-Markov (TGM), si a los supuestos de MCO añadimos el
supuesto de homocedasticidad, entonces los estimadores MCO serán los mejores en el
sentido de eficiencia.
→ Es decir, tendrán varianza mínima entre todos los estimadores lineales
insesgados. Para este caso, el TGM ofrece una justificación teórica
MCO para el uso de MCO.
• Sin embargo, si el supuesto de homocedasticidad no se cumple, el teorema falla y los
estimadores MCO no son los mejores entre esta clase de estimadores.
Enfoque “moderno”:
Normalidad de los errores
• Cuando la muestra es "pequeña", la distribución de los estadísticos t para inferencia
respecto a 𝛽 puede ser compleja y depende de la desconocida distribución poblacional
de 𝑢𝑖.
• Si además de los otros supuestos MCO y el de homocedasticidad asumimos que la
distribución de 𝑢𝑖 condicional en 𝑋𝑖 es normal, entonces 𝑁 0, 𝜎 2𝐼 .
→ La distribución condicional de 𝛽መ dado 𝑋 es normal multivariada:
MCO
መ
𝛽~𝑁 𝛽,Σ𝛽|𝑋
Donde: Σ𝛽|𝑋 = 𝜎 2 𝑋𝑟 𝑋 −1
Enfoque “moderno”:
Normalidad de los errores
• Bajo todos estos supuestos:
→ El t-estadístico tiene una distribución exacta t de Student.
• Recuerde que la inferencia estadística asintótica sin asumir homocedasticidad ni
normalidad de los errores es correcta si contamos una muestra grande
(asintótico).
• Este será el caso de la mayor parte de las aplicaciones empíricas.
MCO
• Por ende, el supuesto de normalidad no es necesario y en la práctica no es
usualmente utilizado.
Bondad de ajuste
• Bondad de ajuste:
→ Conocer que tan bien la regresión describe los datos.
→ Entre otros, el R2 y el error estándar son estadísticos que sirven para esto.
• El R2 tiene un rango de 0 a 1 y mide la fracción de la varianza de Yi explicada por Xi:
σ 𝑁
𝑖=1 𝑌𝑖 − 𝑖 2
𝑌 σ𝑁
𝑖=1 𝑢ො 𝑖
2
𝑅2 = 𝑁 =1− 𝑁
σ𝑖=1 𝑌𝑖 − 𝑌ത 2 σ𝑖=1 𝑌𝑖 − 𝑌ത 2
• En notación vectorial, la formula equivalente es:
MCO
𝑌 − 𝑌 𝑟 𝑌 − 𝑌 𝑢ො 𝑟 𝑢ො
2
𝑅 = =1−
𝑌 − 𝑌ത 𝑟 𝑌 − 𝑌ത 𝑌 − 𝑌ത 𝑟 𝑌 − 𝑌ത
Bondad de ajuste: 𝑅 2 ajustado
• El R2 es una función NO decreciente del número de regresores:
→ La fórmula depende de σ𝑁 ො 𝑖 2 , el cual se minimiza al estimar la regresión por MCO.
𝑖=1 𝑢
→ Si introducimos una variable adicional al modelo, dicha minimización no empeorará.
• Una mejor opción para la bondad del ajuste es deflactar al estadístico para “compensar” este efecto:
𝑁−1
𝑅2 = 1 − 1 − 𝑅2
𝑁−𝐾−1
• Que pasa con el 𝑅2 si aumenta 𝐾?
MCO → 𝑢ො 𝑟 𝑢ො disminuye, y el 𝑅2 aumenta.
𝑁−1
→ aumenta, pero 1 − 𝑅 2 disminuye.
𝑁−𝐾−1
→ La diferencia entre el 𝑅2 y el 𝑅2 depende de cual efecto domine.
¿Qué nos dice y que NO nos dice el R2?
• R2 y R̄2 (ajustado) indican en qué medida los regresores predicen o explican
la variable dependiente.
• Si R2 y R̄2 son cercanos a 1, entonces los regresores producen buenas
predicciones. Si R2 y R̄2 son cercanos a 0, entonces lo contrario es cierto.
• Tener un alto R2 y R̄2 NO implica lo siguiente:
→ Las variables incluidas son estadísticamente significativas.
MCO → Existe una relación causal entre los regresores y la variable dependiente.
→ NO existe Sesgo de Variable Omitida.
Inferencia: Un Coeficiente
• Cuando tenemos una regresión multivariada:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + ⋯ + 𝛽𝐾 𝑋𝐾𝑖 + 𝑢𝑖
• Asintóticamente, cada estimador para un coeficiente 𝛽𝑗 estimado por
MCO es normalmente distribuido bajo los supuestos estudiados (al igual
que la media muestral que estudiamos en el capítulo 1).
MCO • Por ende, los P-values se calculan de la misma manera.
Inferencia: Hipótesis Conjuntas
• Este tipo de hipótesis tienen más de una restricción (más de una igualdad en la 𝐻0).
→ Por ejemplo: 𝐻0 : 𝛽1 = 𝛽2 = 0.
• ¿Por qué no es suficiente analizar si cada uno de los coeficientes es cero por separado?
→ Podríamos rechazar 𝐻0 si al menos uno de los estadísticos t es significativo a un
nivel dado (p.e. 5%), analizando dos variables aleatorias: t1 y t2, mediante su
distribución conjunta.
→ t1 y t2 tienen distribución asintótica conjunta normal, ambas con media cero y varianza 1.
→ El valor critico correspondiente a cada una de las pruebas de dos colas seria 1.96.
→ Asumamos que t1 y t2 son independientes: ¿Como calcularía la probabilidad de error tipo
MCO
uno? (demostración en el AAF).
¿Por qué no es suficiente analizar si cada uno de los
coeficientes es cero por separado?
• ¡¡¡Si lo intentamos por separado, el resultado es que La probabilidad de
error tipo 1 es diferente (mayor) de la significancia elegida!!!
• Solución: Implementar un estadístico F para la prueba conjunta.
• Para ello asumimos 𝐽 restricciones bajo 𝐻0 :
• Cada restricción puede incluir uno o más coeficientes.
MCO • Las restricciones se representan matricialmente mediante la
expresión: 𝐷𝛽 = 𝑟 (veremos un ejemplo).
Inferencia: Test de Wald
• Para el modelo de regresión:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + ⋯ + 𝛽5 𝑋5𝑖 + 𝑢𝑖
Considere el siguiente ejemplo:
𝛽1 − 𝛽2 = 0
𝐻0 :
2𝛽1 + 3𝛽2 = 5
Distribución asintótica: Estadístico F de Wald
• Definimos el estadístico F de Wald como una versión cuadrática y estandarizada de 𝐷𝛽
= 𝑟 para testear 𝐻0 .
• Demostraremos (solo para el caso homocedástico) que el estadístico F de Wald
𝐽
sigue una distribución asintótica 𝐹𝑁−𝐾−1 .
• Por tanto, si el estadístico F de Wald es mayor al valor critico correspondiente
𝐽
𝐹𝑁−𝐾−1 , se rechaza el conjunto de hipótesis 𝐻0 simultáneamente.
• La demostración se puede ajustar al caso heteroscedástico (“moderno”)
considerando la matriz de var. y covar. asintótica correcta en la estimación del
estadístico F de Wald, ya que el resultado es válido en ambos casos.
EconometrÍa I
Repaso: Estadística multivariada
• Tomado del material de apoyo virtual para Estadística Multivariada:
[NOTA1]:
[NOTA2]:
Repaso: Estadística multivariada
• Tomado del material de apoyo virtual para Estadística Multivariada:
[NOTA3]:
Demostración
TALLER EN CLASE
Econ. Gonzalo Gabriel Villa Cox, Ph. D.