Econometria Ruelas
Econometria Ruelas
ECONOMETRÍA
Estos apuntes fueron revisados y corregidos para cubrir por completo el temario de los
cursos de Econometría I (EST 11103) y Econometría (EST 11104) del Departamento de
Estadística del Instituto Tecnológico Autónomo de México (ITAM) para el semestre
Enero – Mayo 2015.
Cada sección fue escrita con la finalidad de revisar rápidamente la teoría y dedicar la
mayor parte del tiempo de clase a: (i) la demostración y análisis de los principales
resultados; y (ii) a la resolución de ejercicios que ilustran el uso de los Modelos de
Regresión con aplicaciones en Economía, Finanzas y Administración.
Los apuntes de la Sección 3 sobre el Modelo de Regresión Lineal Múltiple son más
largos que los demás, pues incluyen un repaso de los principales conceptos y resultados
de Álgebra Matricial, que facilitan la notación y demostración de algunos teoremas.
Al inicio del documento se incorporó un índice para facilitar la búsqueda de algún tema
en particular. Al final del documento se presenta como anexo el Material de Apoyo
para el Curso de Econometría repartido durante las clases de este semestre, incluyendo
las preguntas de los 58 ejercicios revisados en clase.
Esta es la cuarta versión de estos apuntes completos e incluyen las correcciones que
gracias a las preguntas y comentarios de mis alumnos de este semestre fuimos
detectando durante las clases. Sé que todavía hay errores por corregir y explicaciones
por mejorar, así que cualquier comentario es bienvenido al correo electrónico
[email protected].
Mayo 2015
Índice
1. Introducción a la Econometría
1.1. Propósito y definición
Figura 1.1
jul-14
sep-14
oct-14
nov-14
dic-14
ago-14
feb-15
mar-15
Muestra Población
ene-15
estadística
• Probabilidad condicional e
independencia estadística Muestreo Fuente: Banxico
(RPT y TB) • ¿Cuál es el pronóstico para el
• Variables aleatorias y tipo de cambio Peso / Dólar?
• Distribuciones de Muestreo de
distribuciones de probabilidad ¿Qué intervalos garantizan
estadísticas y estimadores
(univariadas y multivariadas) cierto nivel de confianza?
• Estimación puntual y por
• Modelos paramétricos: • Con base en un conjunto de
intervalo de parámetros
Binomial, Poisson, Uniforme, precios y cantidades
Gamma, Normal, etc. • Pruebas de hipótesis observadas, ¿cuál es la función
paramétricas de demanda estimada?
La Econometría es la rama de la Economía que utiliza las técnicas estadísticas del
Análisis de Regresión para analizar los fenómenos económicos
Figura 1.2
ECONOMETRÍA
Definición y
Clasificación
propósito
Figura 1.3
ANÁLISIS DE REGRESIÓN
Análisis de Regresión
• La variable de interés (Y) es variable
• Estudio de la dependencia de una variable de interés aleatoria
respecto de una o más variables explicativas
• Las variables explicativas (X1, X2,...., Xk)
• Su objetivo es estimar o predecir la media poblacional se supondrán conocidas
de la variable de interés
• Se busca estimar E[Y | X1, X2,..., Xk]
Ejemplos: Origen histórico
Figura 1.5
METODOLOGÍA DE LA ECONOMETRÍA
Metodología Ejemplo
Obtención de información
^
Y = – 0.619 + 0.758 X • Estimación de 0, 1 y 2
y estimación del modelo (Método de Mínimos Cuadrados
^ 2 = 0.007 Ordinarios)
Figura 1.6
Cuantitativos
• Discretos: provienen de un proceso de conteo.
• Valores de los elementos
con significado numérico • Continuos: provienen de un proceso de medición.
Figura 1.8
ESCALAS DE MEDICIÓN
Datos Escala Características Ejemplo
orden
1.4. Variables
Figura 1.9
TERMINOLOGÍA
• Predicha • Predictora
• Regresada • Regresora
• Respuesta • Estímulo
• Endógena • Exógena
Figura 1.10
NOTACIÓN
Variable Variable(s)
Caso dependiente independiente(s) Datos
Univariado o
Simple Y1 , Y2 , . . . , Yn
n observaciones
Y X
Y = g (X) X1, X2, . . . , Xn (Xi, Yi)
g:RR
...
...
...
Definición Proposición
Media 1 n n • Estimador insesgado
muestral: Y = Yi Yi = n Y de la media
poblacional
n i=1 i=1
Figura 1.11
Interpretación geométrica
– Y +
Xk X Def. Covarianza Muestral
(Xk , Yk)
1 n
(X – X ) (Y – Y )
Yk
SXY i i
n–1 i=1
Yk Y
( X, Y )
Y • Es el promedio de la variación conjunta
• Identifica la asociación lineal entre dos
variables
0 Xk X
• Puede ser positiva o negativa
–
• Es simétrica: SXY = SYX
+
(Xk – X )(Yk – Y ) es la • La covarianza de X con X es la varianza
X
variación conjunta de X, es decir, SXX = SX2
de (Xk , Yk) respecto Proposición
de ( X , Y ) 1 n
negativa
• Se expresa en
unidades cuadradas
Figura 1.12
INTERPRETACIÓN DE LA COVARIANZA
Figura 1.13
Ejercicios E1 y E2 .
Proposición
Ejercicios E3 y E4 .
Por ejemplo, para los datos (X1, Y1), (X2, Y2),…, (X10, Y10) de la figura 2.1 podría
pensarse que la FRP es “lineal”, es decir, E Y X i 0 1 X i , donde 0 y 1 se
denominan coeficientes de regresión. Geométricamente se trata de una línea recta con
ordenada al origen 0 (también llamada intercepto) y pendiente 1.
Figura 2.1
(X8,Y8) E[Y|Xi ] = 0 + 1 Xi
Desviación positiva
u8 = Y8 E[Y|X8 ] > 0
Desviación negativa
u5 = Y5 E[Y|X5 ] < 0
(X5,Y5)
0
0
0 0 X
Ejercicios E5 y E6 .
Existen muchas razones por las cuáles no es necesario o no es posible considerar algunas
variables en los modelos econométricos, por ejemplo:
Vaguedad de la teoría
Falta de disponibilidad de datos
Variables periféricas (cuyo efecto conjunto es marginal)
Aleatoriedad intrínseca (comportamiento humano)
Variables representantes (o proxy) inadecuadas
Principio de parsimonia (lo más simple posible)
Forma funcional incorrecta
Yi E[Y X i ] ui
Componente Componente
sistemático o no sistemático
determinista o aleatorio
Si (X1, Y1), (X2, Y2),…, (Xn, Yn) son n observaciones de la variable dependiente Y y la
variable explicativa X, cuya FRP es la recta E Y X i 0 1 X i , entonces el Modelo
de Regresión Lineal Simple (MRLS) establece que valores Yi pueden ser modelados
como la suma de esta media condicional y un término de error ui de la siguiente manera:
Yi 0 1 X i ui
Figura 2.2
E[Y|Xi ] = 0 + 1 Xi
uj > 0
ui < 0
Yi
Ordenada al Yi = 0 + 1 Xi + ui
origen
0
0 0 1 Xi X
Proposición.
Si se tiene la relación determinista Y 0 1 X entonces:
i) Efecto parcial: Y 1X
X
ii) Elasticidad: 1
Y
1001
iii) Semi-elasticidad:
Y
Demostración: Si Y 0 1 X entonces
dY
d
0 1 X 1 , y aplicando las
dX dX
X 1 1001
definiciones: (i) Y 1X i , (ii) 1 y (iii) 1001 .
Y Y Y
La estimación del MRLS permite estimar fácilmente modelos no lineales que es posible
1
convertir en modelos lineales en parámetros. Por ejemplo, Yi no es
0 1 X i u i
1
modelo lineal en variables, pero tomando recíprocos se obtiene 0 1 X i ui . Si
Yi
1
en lugar de considerar los datos (Xi, Yi) se consideran los datos (Xi, Wi), con Wi , el
Yi
modelo a estimar es Wi 0 1 X i ui , que es MRLS. La figura 2.3 muestra algunos
de estos modelos.
Figura 2.3
Yi 0 1 ln X i ui ,
Semilogarítmico o Lin-Log e Yi 0 X i 1 e ui
donde 0 ln 0
lnYi 0 1 X i ui ,
Yi 0 1 i e ui
X
Semilogarítmico inverso o Log-Lin
donde 0 ln 0 y 1 ln 1
1
Recíproco Yi 0 u i X i 1 Yi 0 1 ui
Xi
1
1 lnYi 0 1 u i ,
Logarítmico recíproco Yi 0 1 X i e ui Xi
donde 0 ln 0 y 1 ln 1
Ejercicio E7 .
Los supuestos (iii), (iv) y (v) pueden resumirse estableciendo que los errores u1, u2,…, un
deben ser independientes e idénticamente distribuidos con media cero y varianza
constante 2, es decir, ui ~ iid(0, 2).
Figura 2.4
Errores homocedásticos
E[Xi | Yi ] = 0 + 1 Xi
un
u2
Yn = 0 + 1 Xn + un
u1
ui ~ iid(0, 2)
varianza constante
0
0 X1 X2 ... Xn X
Figura 2.5
Errores heterocedásticos
E[Xi | Yi ] = 0 + 1 Xi
un
u2
Yn = 0 + 1 Xn + un
u1
ui ~ iid(0, i 2)
varianza no constante
0
0 X1 X2 ... Xn X
De los supuestos (ii) y (iii) se puede deducir fácilmente que E ui2 2 , pues como
E ui 0 y Varui 2 , entonces Var u E u E u E u 0
E ui2 2 .
2 2 2 2
i i i i
Teorema
Si X1, X2,…, Xm y Y1, Y2,…, Yn son variables aleatorias, c0, c1,…, cm y d0, d1,…, dn son
constantes, entonces:
n n
i) E d iYi d i E Yi (Operador Lineal);
i 1 i 1
y en particular E d 0 d1Y1 d 0 d1 E Y1
n n
n m
ii) Var d iYi d i2VarYi 2 d i d j Cov Yi , Y j d i d j Cov Yi , Y j ;
i 1 i 1 i j i 1 j 1
Proposición
Bajo los supuestos del MRLS Yi 0 1 X i ui :
i) E Yi X i 0 1 X i
ii) Var Yi X i 2
iii)
Cov Yi , Y j X i , X j 0 para toda i ≠ j
Ejercicio E8 .
Proposición
Bajo los supuestos del MRLS Yi 0 1 X i ui , considerando que Xi es estocástica:
i) E Yi 0 1 E X i
ii) Var Yi 2 12Var X i
iii)
Cov Yi , Y j 12Cov X i , X j para toda i ≠ j
Los estimadores más populares en Inferencia Estadística son los Estimadores de Máxima
Verosimilitud (EMV), sin embargo, para poder determinarlos es indispensable suponer
un modelo (o distribución) de probabilidad para Yi que dependa de , f Yi yi , que
i 1
La formulación teórica del MRLS supone que Yi se puede expresar como la suma de la
FRP E Y X i 0 1 X i y el término de error ui, sin embargo, estos componentes son
no observables. Para estimar los parámetros del MRLS se remplazará cada componente,
por su estimador para expresar a Yi como la suma de la FRM Yˆi ˆ0 ˆ1 X i y del
residuo ûi como se muestra a continuación (ver figura 2.6):
Figura 2.6
^ ^ ^
Yi = 0 + 1 Xi + ui
Residuo negativo
^ ^
u5 = Y5 Y5 < 0
^
0
(X5,Y5)
0
0
0 0 Xi X
Def. Residuos.
uˆi Yi Yˆi
En general, en el Análisis de Regresión, los residuos ûi son los estimadores de los
términos de error ui.
Como la variación Yi Yˆi puede ser positiva o negativa, en lugar de tomar su valor
absoluto se prefiere elevarla al cuadrado y trabajar con los cuadrados de los residuos
2
uˆ 2 Y Yˆ . Los Métodos de Mínimos Cuadrados buscan minimizar de manera
i i i
Para el MRLS los residuos son de la forma uˆi Yi Yˆi Yi ˆ0 ˆ1 X i , de modo que la
n n
suma de cuadrados de residuos es SCR uˆi2 Yi ˆ0 ˆ1 X i
2
g ˆ0 , ˆ1 .
i 1 i 1
Def. Valores ajustados. Son los valores estimados de Yi, es decir, Yˆi ˆ0 ˆ1 X i .
A partir de los valores reales (Yi) y de los valores ajustados ( Ŷi ) es fácil calcular los
residuos uˆ Y Yˆ .
i i i
1 n n
1
Por ejemplo, la media muestral Y
n i 1
Yi Yi es un estimador lineal, donde
i 1 n
1
ci para i = 1, 2,… n. Los estimadores MCO del MRLS también lo son.
n
Lema
n
1
ii) ̂ 0 d iYi con d i Xci
i 1 n
S 1 n 2
Demostración: (i) Se sabe que ˆ1 XY2 , donde S X2 X i nX 2 y
SX n 1 i 1
1 n
X i X Yi Y 1 X i X Yi X i X Y 1 X i X Yi
n n n
S XY
n 1 i 1 n 1 i 1 i 1 n 1 i 1
X X Yi
n
1 n
pues X i X X i n X i 0 .
n n i
Entonces ˆ1 i 1
n
, es decir,
n i 1
i 1 i 1
X
i 1
i
2
nX 2
n
Xi X n
̂1 ciYi con ci n
. (ii) Sustituyendo ̂1 ciYi en ˆ0 Y ˆ1 X se
i 1
X
i 1
i
2
nX 2 i 1
1 n
n n
1 n
1
obtiene ˆ0 Yi X ciYi Xci Yi d iYi con d i Xci .
n i 1 i 1 i 1 n i 1 n
Teorema de Gauss-Markov
Bajo los supuestos del MRLS, los estimadores MCO ̂ 0 y ̂1 son los Mejores
Estimadores Lineales Insesgados (MELI)
̂ 0 y ̂1 son los “mejores” estimadores lineales, pues dentro de su tipo, son los que
tienen menor varianza, es decir, Var ˆ Var ˆ * para cualquier otro estimador
j
j
lineal ˆ *j de j , j = 0, 1.
Bajo los supuestos del MRLS, los estimadores MCO ̂ 0 y ̂1 son consistentes.
Teorema
X 2
2
X 2
i
Var ˆ0 i 1
, Var ˆ1
2
y Cov ˆ0 , ˆ1
n X i X X X X X
n n n
2 2 2
i i
i 1 i 1 i 1
1 n 2
modo remplazando a 2 por ̂ 2
n 2 i 1
uˆi , que es estimador insesgado de 2.
Si para la variable de interés Y se tienen los datos Y1, Y2,…, Yn, se sabe que el mejor
1 n
estimador de la media poblacional es la media muestral Y Yi . En el contexto del
n i 1
MRLS, adicionalmente se cuenta con los datos X1, X2,…, Xn de la variable explicativa X,
que permiten modelar Yi Yˆi uˆi donde Yˆi ˆ0 ˆ1 X i . De esta manera la variación
total Yi Y se puede expresar como suma de la variación debida a la regresión (o
variación explicada por la regresión) Yˆ Y , más la variación debida al residuo Y Yˆ ,
i i i
como se muestra en la figura 2.7. Esta misma relación se mantiene al considerar las
variaciones al cuadrado.
Figura 2.7
^
0
0
0 0 Xi X
Proposición
Si el MRLS se estima por MCO, entonces:
i) i
Y Y Yˆ Y Y Yˆ
i i i
Y Y Yˆ Y Y Yˆ
n n n
2 2 2
ii) i i i i
i 1 i 1 i 1
Demostración: (i) Se obtiene directamente sumando y restando Yˆi . (ii) Por propiedades
de la estimación MCO del MRLS Yi ˆ0 ˆ1 X i uˆi , Yˆi ˆ0 ˆ1 X i , Y ˆ0 ˆ1 X y
Yˆ Y , de modo que Yˆi Yˆi Yˆi Y ˆ0 ˆ1 X i ˆ0 ˆ1 X ˆ1 X i X entonces
Yˆ Y ˆ X X . Por
n n
2 2 2
elevando al cuadrado y sumando para i = 1, 2,…, n, i 1 i
i 1 i 1
Y Y Yˆ Y uˆ
n n n
2 2 2
que i i i .
i 1 i 1 i 1
Esta última expresión establece que la suma de cuadrados totales SCT Yi Y
n
2
i 1
n
es igual a la suma de cuadrados explicada SCE Yˆi Y
2
más la suma de
i 1
uˆ
n n
cuadrados de los residuos SCR Yi Yˆi
2 2
i , es decir:
i 1 i 1
SCE SCR
Dividiendo esta última expresión entre SCT se obtiene 1 , es decir, el
SCT SCT
100% de la variación total se puede descomponer como la proporción o porcentaje
SCE
explicado por la regresión más la proporción o porcentaje explicado por los
SCT
SCR
residuos .
SCT
Yˆ Y
n 2
i
SCE
R2 i 1
Y Y
n
SCT 2
i
i 1
SCR uˆ 2
i
i) R2 1 1 i 1
Y Y
n
SCT 2
i
i 1
S2
ii) R 2 ˆ12 X2
SY
R 2 rXY
2
iii)
Figura 2.8
Fuente de
Suma de cuadrados g.l. Suma de cuadrados medios
variación
ˆ12 X i X ˆ12 X i X
n n n
Regresión SCE Yˆi Y
2 2
CME
SCE 2
1
(explicada) i 1 i 1 1 i 1
uˆ 1 n 2
n n
SCR
SCR Yi Yˆi uˆ i ˆ 2
2
Residuos
2
n–2 CMR
n 2 n 2 i 1
i
i 1 i 1
A cada suma de cuadrados corresponden ciertos grados de libertad (g.l.), que son el
número de observaciones independientes requeridas para calcular dichas estadísticas.
SCT tiene n – 1 grados de libertad pues pierde un grado de libertad en el cálculo de Y ,
SCE tiene 1 grado de libertad pues sólo depende de ̂1 (las Xi’s son conocidas), y SCR
tiene n – 2 grados de libertad pues pierde dos grados de libertad en el cálculo de ̂ 0 y
̂1 . La suma de cuadrados medios es simplemente la suma de cuadrados totales entre
sus respectivos grados de libertad.
Si Y1, Y2,…, Yn son variables aleatorias independientes con Yi ~ N i , i2 , i = 1, 2,…, n,
n
n n
2 2
y c0, c1,…, cn son constantes entonces
i 1
c Y
i i ~ N
i 1
c i i ci i , y en particular,
,
i 1
c0 c1Y1 ~ N c0 c1 1 , c12 12
Def. Modelo de Regresión Lineal Simple Normal (MRLSN).
Si (X1, Y1), (X2, Y2),…, (Xn, Yn) son n observaciones de la variable dependiente Y y la
variable explicativa X (n > 2 y no todas las Xi’s toman el mismo valor), cuya FRP es la
recta E Y X i 0 1 X i , entonces el Modelo de Regresión Lineal Simple Normal
(MRLSN) supone que valores Yi pueden ser modelados como la suma de esta media
condicional y un término de error normal ui de la siguiente manera:
Yi 0 1 X i ui ,
donde los valores Xi son fijos y ui ~ iid N(0, 2).
Proposición
Demostración: Bajo los supuestos del MRLSN los valores Xi son fijos e independientes
de los errores ui, de modo que E ui X i E ui 0 y Var ui X i Var ui 2 . Como
Yi 0 1 X i ui es transformación lineal de una variable aleatoria normal, entonces
Yi también es normal con media E Y X i E 0 1 X i ui X i 0 1 X i y varianza
Var Y X i Var 0 1 X i ui X i 2 , por lo tanto, Y X i ~ N 0 1 X i , 2 .
Ejercicio E19 .
Este teorema establece que los EMV y los estimadores MCO de 1 y 0 son los
mismos. De modo que suponer normalidad en los errores ui garantiza que ̂ 0 y ̂1
posean la propiedad de invarianza, así como las propiedades asintóticas de los EMV,
1 n
particularmente eficiencia y consistencia. Desafortunadamente ˆ *2 uˆi2 , el EMV
n i 1
de , no es insesgado, por eso se preferirá estimar a mediante el estimador
2 2
1 n 2
insesgado ̂ 2 uˆi .
n 2 i 1
Hay que recordar que ˆ g Y1 , Y2 ,, Yn es estimador eficiente si (i) es insesgado; y
(ii) es de mínima varianza, es decir, su varianza alcanza la Cota Inferior de Crámer-Rao:
2
2
, donde I E ln f Y Y E 2 ln f Y Y es la
ˆ 1
Var CICR
nI
Información de Fisher.
ˆ 0 X i
2
i 1
ˆ1 1 2
ii) Z1 ~ N 0,1 , donde 2ˆ
ˆ
X X
1 n
2
1
i
i 1
iii) J
n 2ˆ 2
~ 2 n 2
2
Estas distribuciones de muestreo son fáciles de deducir al recordar que ̂ 0 y ̂1 son
n
estimadores lineales, es decir, existen c1, c2,…, cn y d1, d2,…, dn tales que ˆ0 d iYi y
i 1
n
̂1 ciYi . Como Yi tiene una distribución normal, entonces ̂ 0 y ̂1 también tienen
i 1
ˆ 0 X i
2
i) T0 0 ~ t n 2 , donde S 2ˆ i 1
ˆ 2
n X i X
n
S ˆ 0
2
0
i 1
ˆ1 1 ˆ 2
ii) T0 ~ t n 2 , donde S
2
ˆ
X X
n
S ˆ 1
2
1
i
i 1
La figura 2.9 muestra el resumen de los intervalos simétricos (misma área en cada cola)
con nivel de significancia 1 – para estimar por intervalo los parámetros 0, 1 y 2 ,
bajo los supuestos del MRLSN.
Figura 2.9
ˆ0 0 X i
2
i 1
n 2ˆ 2 n 2ˆ 2
2 J
n 2ˆ 2 ~ 2 n 2 , 2
2 n2 2, n 2,1
2 2
De la relación entre los intervalos de confianza y las regiones de rechazo de las pruebas
de hipótesis es fácil inferir las regiones de rechazo de las pruebas de hipótesis para 0, 1
y 2 , bajo los supuestos del MRLSN.
La figura 2.10 muestra estadísticos de prueba y regiones de rechazo (RR) para pruebas
de tamaño (de una y dos colas) para 0, 1 y 2 bajo los supuestos del MRLSN.
Figura 6.6
1 1, 0 t t
1 n 2 ,
ˆ1 1,0
1 =1,0 1 1, 0 t1 t n 2, T1 ~ t n 2
t t S ˆ
1 1
1
1, 0 n 2, 2
2 02 j 2
n 2 ,1
2 n 2ˆ 2
2 02 0 j n 2, ~ 2 n 2
2 2
J
2 j 2
2
0
2
n 2 ,1 2
, j n2 2,
2
Proposición
CME n 2SCE
Bajo los supuestos del MRLSN, si 1 = 0, entonces F ~ F 1, n 2
CMR SCR
CME n 2 SCE
donde F ~ F(1,n – 2).
CMR SCR
Dado que la variable explicativa X toma el valor X0, el valor de la media poblacional
(ubicado sobre la FRP pero no observable) es E Y0 X 0 0 1 X 0 y para estimarla
basta sustituir los estimadores MCO de ˆ y ̂ . 0 1
n X i X 2
n
i 1
Para calcular SY2ˆ* , el estimador de Var Ŷ0* , basta sustituir 2 por ̂ 2
0
1 n 2
uˆi .
n 2 i 1
Bajo el supuesto de normalidad en los errores es fácil ver que Yˆ0* sigue una distribución
Yˆ * 0 1 X 0
normal, de modo que 0
~ N 0,1 , y sustituyendo Var Ŷ0* por SY2ˆ* se
Var Yˆ *
0
0
Yˆ 0 1 X 0
*
obtiene el pivote 0
~ t n 2 .
SYˆ *
0
n2, n
X i X 2
0 0
2
i 1
Ejercicio E24 .
Dado que la variable explicativa X toma el valor X0, su respectivo valor individual Y0
está dado por Y0 0 1 X 0 u 0 . Como el término de error u0 tiene media cero lo más
razonable es eliminarlo en la estimación ( uˆ0 0 ) y simplemente sustituir los
estimadores MCO de ˆ y ̂ . 0 1
i) Yˆ0 es MELI.
ii)
1
Var Y0 Yˆ0 2 1 n 0
X X 2
n
Xi X
2
i 1
Bajo el supuesto de normalidad en los errores es fácil ver que e0 Y0 Yˆ0 tiene una
distribución normal con media cero y varianza Var Y0 Yˆ0 , de modo que
Y0 Yˆ0
~ N 0,1 , y sustituyendo Y0 Yˆ0 por SY2 Yˆ se obtiene la estadística
Var Y0 Y0 ˆ 0 0
Y0 Yˆ0
~ t n 2 .
SY Yˆ
0 0
n2, n
X i X 2
0 0 0 0
2
i 1
En forma similar al MRLS, para el caso multivariado se analizará el caso en que la FRP
toma una forma lineal, es decir, E Y X 1i , X 2i , , X ki 0 1 X 1i 2 X 2i k X ki .
El Modelo de Regresión Lineal Múltiple (MRLM) establece que los valores Yi pueden
ser modelados como la suma de esta media condicional lineal y un término de error ui de
la siguiente manera:
Los supuestos (i) a (vii) son los mismos que se consideraron en el MRLS.
El sesgo de especificación del supuesto (ix) significa que los regresores considerados en
el modelo son consistentes con el planteamiento teórico que hay detrás de un modelo.
Por ejemplo, en Microeconomía la Teoría del Productor establece que la función de
producción Cobb-Douglas en su forma econométrica está dada por Pi 0 Li 1 K i 2 e ui ,
donde Pi es la producción, Li el insumo trabajo, Ki el insumo capital y ui es perturbación
estocástica. Su respectivo MRLM es lnPi 0 1 lnLi 2 lnK i ui , donde
0 ln 0 , 1 1 y 2 2 . Si se estima el modelo lnPi 0 1 ln Li ui
entonces se estaría incurriendo en un sesgo de especificación pues al omitir el regresor
ln(Ki) no se estaría considerado el “modelo verdadero”.
Notación: Para el análisis del MRLM es útil considerar datos, parámetros y errores en
forma de vectores (letras minúsculas negritas) y matrices (letras mayúsculas negritas).
Y1 0 u1
Y u
y 2 , 1 y u 2 .
Yn k u n
Por su parte, los valores de las n variables explicativas se pueden acomodar en una
matriz de dimensión n (k + 1), con un renglón por cada observación, una columna por
cada variable y una columna auxiliar de unos, de la siguiente manera:
1 X 11 X 21 X k1
1 X X 22 X k 2
X 12
.
1 X 1n X 2n X kn
E W2 2 W1 1
E W2 2
2
E W2 2 Wn n
E Wn n W1 1 E Wn n W2 2
E Wn n
2
La expresión u ~ 0, 2 I es una manera compacta de establecer los supuestos (iii), (iv) y
(v) acerca del término de error pues E u 0 E ui 0 para todo i = 1, 2,…, n; y
Var u 2 I Var ui 2 para todo i = 1, 2,.., n, y Cov ui , u j 0 para todo i ≠ j.
a11 a12
a11a 22 a12 a 21
a 21 a22
Y para n = 3, considerando el primer renglón de la matriz de signos
1
a11 a12 1 a22 a12
a
21 a22 a11a22 a12 a21 a
21 a11
1
iii) ab ba x) A 1
A
vii) A A
1 1
xiv) tr ABC tr CBA y cualquier
otra permutación posible.
Def. Vectores Linealmente Independientes. Se dice que los vectores a1, a2,…, ak son
linealmente independientes si ninguno de ellos puede ser escrito como combinación
lineal de los otros, es decir, si la única solución de c1a1 c2 a 2 ck a k 0 es
c1 c2 ck 0 .
Def. Forma Cuadrática. Se dice que el escalar q cAc es una forma cuadrática si A
es una matriz simétrica y c es un vector no nulo.
Def. Matriz Diagonal. Se dice que la matriz cuadrada D es matriz diagonal si dij = 0
para toda i ≠ j, es decir, si los elementos fuera de la diagonal principal son ceros.
Propiedades Matriciales
Si A es matriz de dimensión n n, B es matriz de dimensión n m, c es un vector de
dimensión n, y D es matriz diagonal de dimensión n n, entonces:
i) Si A es de rango completo entonces A 0
ii) Si A es de rango completo entonces A–1 siempre existe.
iii) AA siempre es matriz simétrica.
iv) Si A es de rango completo AA siempre es positiva definida.
v) Si A es idempotente entonces Rango(A) = tr(A).
vi) Si A es positiva definida y Rango(B) = m, entonces BAB es positiva definida.
vii) Si A es simétrica, entonces cAc cAc .
n
viii) D d ii
i 1
Proposición
Si a y c son vectores de dimensión n, 0 es el vector nulo de dimensión n, 1 es el vector
de unos de dimensión n, A es matriz simétrica de dimensión n n, g y h son funciones
(g, h: Rn R) y k es un escalar, entonces:
i) aa 0
c
ii) c1 1
c
iii) kg c k g c
c c
iv) g c hc g c hc
c c c
v) ac ca a
c c
vi) cAc 2Ac
c
2 2
vii) a c O nn y
cAc 2A
cc cc
n
Demostración: (i) a (iv) son triviales. (v) Recuerde que ac ca ai ci de donde se
i 1
observa que ac ca ai para i = 1, 2,…, n, de modo que el vector con todos
ci ci
estos elementos es simplemente el vector a, es decir, ac ca a . (vi) Se
c c
considerará el caso en que n = 3:
Entonces cAc 2c1a11 2c2 a12 2c3 a13 , cAc 2c1a12 2c2 a22 2c3a23 y
c1 c2
cAc 2c1a13 2c2 a23 2c3 a33 , y factorizando el 2 de cada componente se obtienen
c3
los renglones de la matriz Ac , por lo tanto, cAc 2Ac .
c
Ejercicio E28 .
i = 1, 2,…, n, donde ˆ0 , ̂1 ,…, ˆk son los estimadores de los parámetros 0, 1,…, k.
Si ŷ denota el vector de dimensión n con los valores ajustados Yˆ1 , Yˆ2 ,…, Yˆn , y ˆ
denota el vector de dimensión k + 1 con los estimadores ˆ0 , ̂1 ,…, ˆk , entonces la
FRM se puede escribir como yˆ Xˆ , y es el estimador de la FRP E y X X .
Además, si û denota el vector de dimensión n con los residuos û1 , û 2 ,…, û n , entonces
el vector de observaciones y se puede expresar como suma de la FRM yˆ Eˆ y X Xˆ
y el vector de residuos û como se muestra a continuación:
y yˆ uˆ Xˆ uˆ
uˆ y yˆ
g: Rn R es la función a minimizar.
Teorema
uu
Si ˆ XX Xy y ˆ 2
1
son los estimadores MCO del MRLN
n k 1
y X u , donde u ~ 0, 2 I y XX es no singular, entonces:
i) ˆ XX 1 Xy es estimador insesgado de .
ii)
Var ˆ Σ ˆ 2 XX es la matriz de varianzas-covarianzas de ˆ .
1
uˆ uˆ
iii) ˆ 2 es estimador insesgado de 2 .
n k 1
Al estimar el MRLM por MCO es posible escribir el vector de residuos como sigue:
uˆ y yˆ y Xˆ y X XX Xy y Hy I H y My
1
uˆ uˆ
La matriz M es útil para demostrar que ˆ 2 es insesgado y para calcular la
n k 1
matriz de varianzas-covarianzas del vector de residuos. Bajo los supuestos del MRLM
se puede demostrar que Var uˆ 2 M .
Teorema de Gauss-Markov
3.5. R2 y R2 ajustada.
En el contexto del MRLM la bondad de ajuste se enfoca en determinar qué tan bien se
ajusta el modelo lineal en parámetros al conjunto de datos observados. En forma
completamente análoga al MRLS, en el MRLM se considerará el coeficiente de
determinación ( R 2 ), pero adicionalmente se definirá el coeficiente de determinación
ajustado ( R 2 ) que permite comparar modelos con distinto número de regresores.
Demostración: Al estimar por MCO, los valores observados se pueden expresar como
los valores ajustados más los residuos, es decir, y yˆ uˆ . Entonces la suma de
cuadrados de las Yi’s es y y yˆ uˆ yˆ uˆ yˆ yˆ yˆ uˆ uˆ yˆ uˆ uˆ yˆ yˆ uˆ uˆ pues los
residuos y los valores ajustados no están correlacionados ( yˆ uˆ uˆ yˆ 0 ). Se sabe que
i 1 i 1
y y nY 2 yˆ yˆ nY 2 uˆ uˆ . Finalmente, sustituyendo yˆ Xˆ y yˆ Xˆ ˆ X :
yy nY 2
= ˆ XXˆ nY 2 + uˆ uˆ
SCE SCR
De esta última expresión se sabe que 1 , es decir, el 100% de la variación
SCT SCT
cuadrática total se puede descomponer como el porcentaje explicado por la regresión
SCE SCR
más el porcentaje explicado por los residuos . De este modo la definición
SCT SCT
del coeficiente de determinación del MRLM es la misma que en el MRLS.
Proposición
n 1 k
R2 R2
n k 1 n k 1
Demostración: R 2 1
n 1SCR 1
n 1 SCE SCE
1 , donde R2 ,
n k 1SCT n k 1 SCT SCT
entonces
n 1 n 1 n k 1 n 1 n 1
R 2 1
n k 1
1 R2
n k 1
R2
n k 1
n k 1
R2
k
n k 1
.
Figura 3.1
Fuente de
Suma de cuadrados g.l. Suma de cuadrados medios
variación
Regresión SCE ˆ X Xˆ nY 2
SCE yˆ yˆ nY 2 ˆ X Xˆ nY 2 k CME
(explicada) k k
n
SCR uˆ uˆ
Residuos SCR y yˆ y yˆ uˆ uˆ uˆ i2 n k 1 CMR ˆ 2
i 1 n k 1 n k 1
SCT y y nY 2
Total SCT y y nY 2 n–1 CMT S Y2
n 1 n 1
A cada suma de cuadrados corresponden ciertos grados de libertad, que son el número
de observaciones independientes requeridas para calcular dichas estadísticas. SCT tiene
n – 1 grados de libertad pues pierde un grado de libertad en el cálculo de Y , SCE tiene k
grado de libertad (correspondientes a ̂1 , ̂ 2 ,…, ̂ k asociados a las k variables
explicativas X1, X2,…, Xk), y SCR tiene n – (k + 1) grados de libertad pues pierde k + 1
grados de libertad en el cálculo de ̂ 0 , ̂1 ,…, ̂ k . La suma de cuadrados medios es
simplemente la suma de cuadrados totales entre sus respectivos grados de libertad.
Ejercicio E35 .
En particular, para u ~ N n 0, 2 I se tiene que 0 y Σ 2 I . Como 2 I es matriz
diagonal, propiedades de los determinantes y de la inversa Σ 2 I 2 I 2 n y n
uu
Σ 1 2 I 12 I , por lo tanto, f u u 2 2
n
1
2 exp 2
, u Rn.
2
Suponer ui ~ iid N(0, 2 ) es equivalente a suponer u ~ N n 0, 2 I pues el producto de
las densidades Normales marginales independientes coincide con la conjunta de la
Normal Multivariada:
u2
1
1
n n i2 n n
f ui ui u f u u .
e 2 2 2 2 exp 2
2 2
2 i
i 1 i 1 i 1
Proposición
Ejercicio E36 .
Es decir, bajo los supuestos del MRLMN los EMV y los estimadores MCO de son
los mismos, por lo tanto ̂ 0 , ̂1 ,…, ̂ k poseen la propiedad de invarianza, así como las
propiedades asintóticas de los EMV, particularmente eficiencia y consistencia.
uˆ uˆ
Desafortunadamente el EMV de 2 , ˆ *2 , no es insesgado, por eso se preferirá
n
uˆ uˆ
estimar a 2 mediante el estimador insesgado ˆ 2 .
n k 1
Se sabe que si ˆ XX Xy entonces E ˆ y Var ˆ 2 XX . Bajo los
1 1
su distribución de muestreo es Normal, es decir, ˆ ~ N k 1 , 2 XX .
1
Además, como ˆ tiene una distribución conjunta Normal Multivariada, sus respectivas
j
distribuciones marginales son Normales Univariadas, es decir, ˆ ~ N , 2ˆ , donde j j
2ˆ Var ˆ j es el j-ésimo elemento de la diagonal principal de la matriz de varianzas-
j
Las varianzas en realidad nunca son conocidas pero sus respectivas estimaciones,
uˆ uˆ
en 2 XX para
1
S 2ˆ ˆ 2ˆ , se pueden obtener sustituyendo a 2 por ˆ 2
j j
n k 1
construir estadísticos Tj con distribución t-Student.
Por su parte u ~ N n 0, 2 I , es decir, u sigue una distribución Normal Multivariada con
componentes no correlacionados (e independientes), y sus distribuciones marginales
también son Normales Univariadas con ui ~ N(0, 2 ). Estandarizando y elevando al
u2 u 2 u 22 u n2
cuadrado se obtiene i2 ~ 1 , por lo tanto 1 ~ n , es decir, la
2
uˆ uˆ
distribución de muestreo asociada a ˆ 2 tiene una distribución Ji-Cuadrada.
n k 1
uˆ uˆ
y ˆ 2 , entonces:
n k 1
ˆ j j
~ N 0,1 , donde 2ˆ se obtiene de 2 XX , j = 0, 1,…, k
1
i) Zj
ˆ j
j
ˆ j j
~ t n k 1 , donde S 2ˆ se obtiene de ˆ 2 XX , j = 0, 1,…, k
1
ii) Tj
S ˆ j
j
iii) J
n k 1ˆ 2
uˆ uˆ
~ 2 n k 1
2
2
Estas estadísticas son cantidades pivotales que permiten fácilmente construir intervalos
de confianza y hacer pruebas de hipótesis sobre los parámetros 0, 1,…, k y 2 .
La figura 3.2 muestra el resumen de los intervalos simétricos (misma área en cada cola)
con nivel de confianza 1 – para estimar por intervalo los parámetros 0, 1,…, k y
2 , bajo los supuestos del MRLMN.
Figura 3.2
j Tj 2
S ˆ ˆ ˆ ˆ 2 X X 1
donde S 2ˆ se obtiene de Σ
j
0
n k 1ˆ 2 n k 1ˆ 2
2 J
n k 1ˆ 2 ~ 2 n k 1 ,
2 n2k 1, n2k 1,1
2 2
Ejercicio E37 .
Tomando en cuenta que en el contexto del MRLMN puede haber muchos más
parámetros que en el MRLSN y que la inferencia se puede de manera individual sobre
cada parámetro o de manera conjunta sobre todos o algunos de ellos, se considerarán 3
tripos de pruebas de hipótesis:
Individuales para 0, 1,…, k y 2 .
Conjunta para .
Conjunta para alguna transformación lineal de .
Figura 3.3
2 02 j 2
n k 1,1
2 02
2 n k 1ˆ 2 ~ 2 n k 1
0 j n k 1, J
2 2
2 2 j 2 02
, j n2k 1,
0
n k 1,1 2 2
La mayor parte de los paquetes estadísticos estiman el MRLMN por MCO y presentan
los estimados ̂ 0 , ̂1 ,…, ̂ k junto con sus errores estándar estimados S ˆ , S ˆ ,…, S ̂ ,
0 1 k
Importante: Que cada Prueba T resulte significativa no implica que el modelo completo
resulte significativo. Para probar esto último hay que hacer el análisis conjunto.
Proposición
CME n k 1SCE
Bajo los supuestos del MRLMN, si = 0, F ~ F k , n k 1
CMR k SCR
Note que la hipótesis nula se puede expresar en forma compacta como H0: = 0.
Figura 3.4
Proposición
Bajo los supuestos del MRLMN, si R es matriz de dimensión q (k + 1), r es vector de
dimensión q, R = r (o bien R – r = 0q) y se estima por MCO, entonces:
F
n k 1 Rˆ r RXX R Rˆ r
1 1
~ F q, n k 1
q uˆ uˆ
n k 1 1
En la estadística F de la proposición anterior el término
uˆ uˆ ˆ
1
2 ˆ 2 podría
incorporarse en la matriz inversa del numerador para completar la matriz de varianzas-
ˆ ˆ ˆ 2 XX 1 .
covarianzas estimada de ˆ , es decir, Σ
donde F
q
1 ˆ
ˆ
R r RΣ ˆ
R Rˆ r ~ F q, n k 1 .
1
Una forma alternativa de probar relaciones de igualdad entre distintos parámetros del
vector es a través del Método de Mínimos Cuadrados Restringidos (MCR). Este
método considera que hay q restricciones lineales bajo H0.
i) Yˆ0* es MELI.
ii)
Var Yˆ0* 2 x0 XX x 0
1
0
Para calcular SY2ˆ* , el estimador de Var Ŷ0* , basta sustituir 2 por ˆ 2
uu
n k 1
.
Bajo el supuesto de normalidad en los errores es fácil ver que Yˆ0* sigue una distribución
Yˆ * x0
pivote 0 ~ t n k 1 .
SYˆ *
0
Dado que la variables explicativas X1, X2,…, Xk toman los valores fijos de x 0 el
respectivo valor individual Y0 está dado por Y0 x0 u0 . Como los errores tienen
media cero, lo más razonable es eliminarlo en la estimación ( uˆ0 0 ) y simplemente
sustituir los estimadores MCO de .
Bajo el supuesto de normalidad es fácil ver que e0 Y0 Yˆ0 tiene una distribución
0 0
1
partir de SY2 Yˆ ˆ 2 1 x0 XX x 0 ˆ 2 x0 Σˆ ˆ x 0
Es importante recalcar que la longitud del intervalo de predicción del valor individual Y0
siempre es mayor que la longitud del intervalo de confianza de la media condicional
E Y0 x 0 x0 .
1 X 1 X 12 X 1k
1 X2 X 22 X 2k
XP
1 X n X n2 X nk
A pesar de que el MRP es una extensión del MRLS (una sola variable explicativa), su
estimación se realiza por MCO del respectivo MRLM.
Para este tipo de modelos sí es posible construir bandas de confianza, siempre y cuando
haya normalidad en los errores, es decir, u ~ N n 0, 2 I .
Ejercicio E42 .
MEDIDAS DE SENSIBILIDAD
Def. Efecto total. En el MRLM el efecto total, denotado por Y, es el cambio
aproximado en Y asociado a un pequeño cambio en cada Xj, j = 1, 2,…, k, es decir,
Y Y Y
Y X 1 X 2 X k .
1
X
2
X
k
X
En las secciones anteriores se analizaron las técnicas estadísticas para estimar el MRLM,
sin embargo, es importante vincular el resultado de la estimación con el significado de
los parámetros.
Ejercicio E43 .
SYX j
Al coeficiente de correlación lineal muestral entre las variables Y y Xj, rYX j , se
SY S X j
le denomina coeficiente de correlación simple, y por practicidad se simplificará su
notación a rYj , de modo que es posible calcular k coeficientes de correlación simples de
este tipo.
R R2
R es una medida del grado de asociación entre Y y todas las variables explicativas en
conjunto. R siempre es positivo por lo que en la práctica tiene poca importancia y se
prefieren R 2 y R 2 como medidas de bondad de ajuste.
Proposición.
Para el MRLM con 2 regresores Yi 0 1 X 1i 2 X 2i ui :
rY 1 rY 2 r12
i) rY 1.2
1 r 1 r
2
Y2
2
12
rY 2 rY 1r21
ii) rY 2.1
1 r 1 r
2
Y1
2
21
Proposición.
Para el MRLM con 2 regresores Yi 0 1 X 1i 2 X 2i ui :
i)
R 2 RY2.12 rY21 rY22.1 1 rY21 ; o
ii) R 2 RY2.12 rY22 rY21.2 1 r
2
Y2
Figura 3.5
Fuente de Fuente de
Suma de cuadrados Suma de cuadrados
variación variación
X1
SCE1 rY21 y y nY 2 X2
SCE 2 rY22 y y nY 2
Incremento
debido a X2
SCE 2.1 r2
1 r y y nY
Y 2 .1
2
Y1
2 Incremento
debido a X1
SCE1.2 r 2
1 r y y nY
Y 1 .2
2
Y2
2
X1 y X2 SCE R y y nY
2
Y .12
2
X1 y X2 SCE R y y nY
2
Y .12
2
A esta tabla se le pueden agregar columnas con los grados de libertad (1 para los dos
primeros renglones, 2 para la contribución de X1 y X2, n – 3 para los residuos y n – 1,
para el total), cuadrados medios y porcentaje de contribución.
Ejercicio E44 .
Se dice que rY 1.2 y rY 1.1 son coeficientes de correlación parcial de primer orden, pues
sólo se está aislando el efecto de un regresor. Si se considera el MRLM con 3 regresores
entonces es posible hablar de los coeficientes de correlación parcial de segundo orden
rY 1.23 , rY 2.13 y rY 3.12 ; y así sucesivamente. A los coeficientes de correlación simple
también se les denomina coeficientes de correlación parcial de orden cero.
En la selección de regresores se debe tener presente que el MRLM debe satisfacer los
siguientes criterios:
Adecuado para los datos. Sus predicciones deben ser lógicamente posibles.
Consistente con la Teoría. Si un regresor no cabe dentro de la teoría que sustenta el
modelo no debe incluirse (aunque tenga una contribución incremental significativa).
Regresores exógenos débiles. Las variables explicativas no deben estar
correlacionadas con los errores.
Consistencia paramétrica. Los parámetros deben ser estables para que el pronóstico
fuera del conjunto muestral tenga validez (Prueba de Chow).
Coherente en los datos. Los residuos deben ser ruido blanco: ui ~ iid(0, 2 ).
Inclusivo. El modelo debe abarcar o incluir todo modelo contendiente, es decir, no
puede haber mejor modelo que el elegido.
Por regla general, si hay una teoría sólida que define a las variables explicativas de un
modelo, no deben agregarse regresores adicionales.
Sin embargo, en muchas ocasiones no existe una teoría que ayude a definir los
regresores y en esos casos lo que se acostumbra es analizar la relación entre la variable
de interés y algunas otras variables que tentativamente podrían explicarla (ya sea por
lógica o por algún conocimiento específico del ámbito de aplicación). Estas técnicas de
“ensayo y error” forman parte de lo que actualmente se denomina Minería de Datos
(data mining).
uˆ uˆ 2k 1
CIA ln
n n
uˆ uˆ k 1ln n
CIS ln
n n
A falta de una teoría sólida que defina las variables explicativas de un modelo, se
acostumbra analizar un conjunto de variables que lógicamente estén asociadas o
vinculadas con la variable de interés. En este proceso se corre el riesgo de identificar
correlaciones espurias, es decir, variables que están correlacionadas pero que carecen de
una conexión lógica.
Por ejemplo, la figura 3.6 muestra el Diagrama de Dispersión Múltiple de EViews entre
mortalidad infantil (MI), PIB per cápita (PIB), tasa de alfabetización femenina (TA) y
tasa de fecundidad (TF) para una muestra de 64 países.
Figura 3.6
400
300
200
MI
100
20,000
15,000
PIB
10,000
5,000
100
80
60
TA
40
20
10
6
TF
MI PIB TA TF
4. Variables Dicótomas
En las secciones previas se han analizado los Modelos de Regresión en donde la variable
de interés Y y las variables explicativas X1, X2,…, Xk son variables cuantitativas; sin
embargo, también es posible utilizar variables cualitativas (o variables categóricas)
como variables explicativas mediante el uso de las llamadas variables dicótomas.
Por ejemplo, si se quiere explicar el salario mensual de las personas (Y) considerando si
están titulados o no, entonces se puede plantear el modelo econométrico:
Yi 0 1 Di ui , ui ~ iid(0, 2 ),
donde: Di = 1 si la i-ésima persona está titulada; y
Di = 0 en caso contrario.
Este modelo econométrico es un MRLS que se puede estimar por MCO para obtener ˆ0
y ̂1 ; y a partir de estos valores concluir que el salario mensual estimado para los
titulados es de Yˆ ˆ ˆ , mientras que para los no titulados es de Yˆ ˆ .
0 1 0
Como las categorías de una variable cualitativa deben ser mutuamente excluyentes no
puede ocurrir que simultáneamente se tengan D1i = 1 y D2i = 1.
Este modelo econométrico es un MRLM que se puede estimar por MCO para obtener
ˆ0 , ̂1 y ̂ 2 ; y a partir de estos valores concluir que el ingreso mensual estimado para
los activos es Yˆ ˆ ˆ , el ingreso mensual estimado de los retirados es Yˆ ˆ ˆ y
0 1 0 2
Note que en los MRLM con variables dicótomas la matriz de diseño X conserva el
vector de unos como primera columna (correspondientes al intercepto 0), y el resto de
sus columnas están formadas sólo por ceros y unos.
Proposición
Si una variable cualitativa tiene m categorías, hay que incluir m – 1 variables dicótomas.
Nota: No existe una forma única para incorporar las variables dicótomas en un Modelo
de Regresión.
Por ejemplo, si para explicar el ingreso mensual de las personas (Y) además de
considerar su situación laboral (activo, retirado o desempleado) se considera su género
(hombre o mujer), se puede formular el modelo econométrico:
Yi 0 1 D1i 2 D2i 3Ci ui , ui ~ iid(0, 2 ),
donde: D1i = 1 si la i-ésima persona es activa y D1i = 0 en caso contrario; y
D2i = 1 si la i-ésima persona es retirada y D2i = 0 en caso contrario;
Ci = 1 si la i-ésima persona es hombre y Ci = 0 si es mujer.
Al estimar el MRLM por MCO se obtienen ˆ0 , ̂1 , ̂ 2 y ̂ 3 , de modo que los ingresos
mensuales estimados se pueden presentar en una tabla como se muestra en la figura 4.1.
Figura 4.1
Ingreso mensual estimado
Género
Situación laboral
Mujer Hombre
Activo ˆ0 ˆ1 0 ˆ1 ˆ3
ˆ
Retirado ˆ ˆ
0 2 ˆ ˆ ˆ
0 2 3
De la figura 4.1 se observa cómo en los Modelos ANOVA es importante poder analizar
transformaciones lineales de los parámetros. Bajo el supuesto de normalidad en los
errores es posible aplicar la Prueba F (TLG) para validar si, por ejemplo, el ingreso
mensual de los hombres activos es el salario mínimo (H0: 0 1 3 wmin ).
En los ejemplos previos se ha considerado que las variables dicótomas tienen un efecto
aditivo en la variable explicativo; sin embargo, también es posible considerar que las
variables dicótomas tengan un efecto multiplicativo.
Por ejemplo, considerando nuevamente el ingreso mensual de las personas (Y) explicado
por su situación laboral (activo, retirado o desempleado) y su género (hombre o mujer),
se puede formular el siguiente modelo econométrico alternativo:
Yi 0 1 D1i 2 D2i 3Ci 4 D1i Ci ui , ui ~ iid(0, 2 ),
donde: D1i = 1 si la i-ésima persona es activa y D1i = 0 en caso contrario; y
D2i = 1 si la i-ésima persona es retirada y D2i = 0 en caso contrario;
Ci = 1 si la i-ésima persona es hombre y Ci = 0 si es mujer.
Ejercicio E47 .
La incorporación de las variables dicótomas a los Modelos ANCOVA puede ser tanto
aditiva como multiplicativa, y con frecuencia se consideran términos de interacción
entre variables cualitativas y cuantitativas.
El Modelo ANCOVA más simple es el que incluye un regresor cuantitativo (X) y una
variable dicótoma (D). Mediante este modelo se pueden estimar:
Cambio de intercepto (ver Figura 4.2, rectas paralelas):
2 X i u i si Di 0
Yi 0 1 Di 2 X i ui 0 ;o
0 1 2 X i ui si Di 1
Figura 4.2
Cambio de intercepto (rectas paralelas)
Y ^ ^ ^ ^
Yi = ( 0 + 1) + 2 Xi
^ ^ ^
Yi = 0 + 2 Xi
^ ^
0 1 D=1
D=0
^
0
0
0 0 X
Figura 4.3
Cambio de ordenada (rectas concurrentes)
Y ^ ^ ^ ^
Yi = 0 + ( 1 + 2 ) Xi
^ ^ ^
Yi = 0 + 1 Xi
D=1
D=0
^
0
0
0 0 X
Recta disímbola: Yi 0 1 2 3 X i ui si Di 1 .
Figura 4.4
Cambio de intercepto y de pendiente (rectas de comparación y disímbola)
Y ^ ^ ^ ^ ^
Yi = ( 0 + 1) + ( 2 + 3) Xi
^ ^ ^
Yi = 0 + 2 Xi
^
0 D=1 D=0
^ ^
0 1
0
0 0 X
Ejercicio E48 .
Figura 4.5
4,000
3,500
3,000
2,500
2,000
0 12 24 36 48 60 72 84 96
Mes
Fuente: www.inegi.gob.mx
En este caso particular, además de estacionalidad, existe una tendencia lineal creciente,
de modo que se puede considerar el modelo econométrico:
11
Yt 0 j M jt 12 t ui , ui ~ iid(0, 2 ),
j 1
Note que no se incluye una variable dicótoma para el mes 12 a fin de evitar la “trampa
de la variable dicótoma” (problema de multicolinealidad).
Ejercicio E49 .
Con la finalidad de analizar con mayor profundidad a las series de tiempo (metodología
de Box-Jenkins, 1970) y poder hacer mejores pronósticos, se acostumbra eliminar la
estacionalidad de la serie. A este proceso se le conoce como desestacionalización de la
serie. Es común que las fuentes de información oficial de los países, como el INEGI o
BANXICO en México, presenten series de tiempo macroeconómica desestacionalizadas.
Ejercicio E50 .
Por ejemplo, en la figura 4.6 se muestra la serie de tiempo del índice de precios al
consumidor (IPCt) en Estados Unidos de 1950 a 2012, t = 1950, 1951,…, 2012, (base
1984 = 100). En esta gráfica es fácil identificar que el comportamiento de 1950 a 1970
es lineal y que de 1971 a 2012 el comportamiento también es lineal pero con intercepto
y pendiente distintos. Al punto del tiempo en el que se presenta el cambio de tendencia
de le denomina nudo, y en este caso corresponde al tiempo t = 1970. En este caso se
puede considerar el modelo econométrico:
IPCt 0 1t 2 t 1970CEt ut , ut ~ iid(0, 2 ),
donde: CEt = 1 si t = 1970, 1971,…, 2012; y
CEt = 0 en caso contrario.
Figura 4.6
250
150
100
nudo
(1970)
50
0
1950 1960 1970 1980 1990 2000 2010
Año
Definición del nudo. La definición del nudo no es única. Existen distintos criterios
para determinarlo; uno de ellos consiste en elegir como nudo aquel valor para el cuál se
maximizan simultáneamente la R2 de ambas tendencias lineales.
Ejercicio E51 .
La validez de los resultados que se pueden obtener mediante la aplicación del MRLM
recae en gran medida en que se cumplan los supuestos planteados para su estimación,
inferencia estadística y predicción.
Estos supuestos se deben cumplir para que el MRLM se pueda estimar por MCO, que
ˆ XX 1 Xy sea MELI y poder hacer predicción puntual.
Algunos de estos supuestos se validan por la especificación del modelo: (i) y (ix).
Otros se validan mediante el análisis exploratorio de los datos que integran la muestra
disponible para la estimación: (ii), (vi) y (vii).
El supuesto (iii) de errores con media cero (u = 0) es fácil de validar mediante la
gráfica de los residuos vs. la variable de interés o de los residuos vs. algún regresor. Si
el MRLM se estima con intercepto se sabe que uˆi 0 , lo cual garantiza el
cumplimiento de este supuesto pues ˆ u uˆi 0 .
Los supuestos (iv), (v) y (viii) son más complejos de validar, y su incumplimiento
conduce a los siguientes problemas:
Multicolinealidad, que surge por incumplimiento del supuesto (viii);
Heterocedasticidad, que surge por incumplimiento del supuesto (iv); y
Autocorrelación, que surge por incumplimiento del supuesto (v).
5.1. Normalidad
La normalidad de los errores del MRLM se puede validar analizando sus respectivos
residuos mediante métodos gráficos o mediante pruebas estadísticas más formales como
se resume en la figura 5.1
Figura 5.1
En las pruebas de bondad de ajuste se plantea que los errores u1, u2,…, un tienen una
distribución Normal caracterizada por F0 ~ N 0, u2 , es decir,
H0: Fu F0 vs. H1: Fu F0 .
Desafortunadamente esta prueba sólo es válida para muestras muy grandes (n > 2,000).
y la función de distribución acumulada empírica Fn uˆi I ,uˆi uˆ j . La figura 5.2
1
n uˆ j uˆi
resume las regiones de rechazo y estadísticas de prueba en cada caso:
Figura 5.2
RR JB 22, n
JB CA
2 CC 2
d
2 2
Jarque-Bera
6 4
RR D l , donde l se
Lilliefors obtiene numéricamente mediante i
D sup Fn uˆi F0 uˆ i
simulación Monte Carlo
RR 2 c n , , donde c n ,
Fn u F0 u 2 f 0 u du
Cramér-Von Mises 2
aparece en tablas para esta prueba.
2
1 n 1
U 2 T n F0 uˆi , donde
RR U 2 u n2, , donde u n2, i 1
n 2
Watson
aparece en tablas para esta prueba. 1 n
2i 1
T F0 u i
12n i 1 2n
A2 n S donde
RR A 2 a2 , donde a2
2i 1
Anderson Darling
lnF0 uˆ i ln1 F0 uˆ n1i
n
Ejercicio E52 .
Yi si 0
Yi
ln Yi si 0
5.2. Multicolinealidad
Def. Multicolinealidad.
Se dice que el MRLM Yi 0 1 X 1i 2 X 2i k X ki ui presenta el problema de
multicolinealidad si algún regresor (Xj) se puede expresar como combinación lineal de
algunos otros regresores, es decir, si existen constantes c1,…, ck, tales que X j ch X h
h j
para alguna ch ≠ 0.
Esta definición establece que hay una relación exacta entre los regresores, por lo que
también se le denomina multicolinealidad perfecta. Desafortunadamente, incluso si
existe una relación aproximada entre los regresores el problema de multicolinealidad
persiste y se denomina multicolinealidad alta pero imperfecta.
Consecuencias de la multicolinealidad:
Si la multicolinealidad es perfecta, el MRLM y X u no se puede estimar por
MCO, pues la matriz de diseño X no es de rango completo (Rango(X) < k + 1), XX
es singular y por lo tanto XX no existe.
1
Causas de la multicolinealidad:
Es común que al considerar series de tiempo que comparten una tendencia se presente
el problema de multicolinealidad. Por ejemplo, si se quiere explicar el consumo
mediante el ingreso y la riqueza, existe altas correlaciones entre el ingreso y la
riqueza a lo largo del tiempo que conducen a una multicolinealidad alta pero
imperfecta.
Al incorporar variables dicótomas en el MRLM se puede incurrir en la “trampa de la
variable dicótoma”, que conduce de inmediato a una multicolinealidad perfecta.
En general, la multicolinealidad es un problema de tipo muestral, la variable de
interés se observa para intervalos limitados de los regresores. Ante una
multicolinealidad imperfecta lo relevante es saber qué tan fuerte es dicha colinealidad
para poder corregirla.
Regla de Klein
La multicolinealidad imperfecta es un problema “grave” únicamente si la R2 de una
regresión auxiliar es mayor a la R2 global.
posible eliminar a Xj pues toda la información relevante está en los regresores Xh’s; o
que es posible eliminar a las Xh’s y dejar sólo a Xj, ya que ésta resume la información de
dichos regresores.
Esta forma de proceder parece trivial pero conceptualmente es relevante pues puede
conducir a un sesgo de especificación. Si la Teoría Económica establece cuáles son los
regresores que hay que utilizar en un modelo y se presenta el problema de
multicolinealidad lo que se tiene es un problema de muestreo (con los datos disponibles)
y no deben eliminarse los regresores del modelo pues se incurre en sesgo de
especificación. Es necesario aplicar alguna otra técnica de corrección.
Yt 1 X u
Razón: 0 1 1t 2 wt , donde wt t
X 2t X 2t X 2t X 2t
Hay que tener cuidado con la transformación de razón pues al dividir los errores del
modelo original entre uno de los regresores es posible incurrir en heterocedasticidad.
Ejercicio E53 .
5.3. Heterocedasticidad
El supuesto (iv) del MRLM establece que los errores deben tener varianza constante
(homocedasticidad), es decir, Var[ui ] 2 para toda i = 1, 2,…, n. El problema que
surge por la violación de este supuesto se denomina heterocedasticidad.
Def. Heterocedasticidad.
Se dice que el MRLM Yi 0 1 X 1i 2 X 2i k X ki ui presenta el problema de
heterocedasticidad si Var[ui ] i2 , i = 1, 2,…, n, donde i2 2j para alguna i ≠ j.
Figura 5.3
Errores heterocedásticos
E[Xi | Yi ] = 0 + 1 Xi
un
u2
Yn = 0 + 1 Xn + un
u1
ui ~ iid(0, i 2)
varianza no constante
0
0 X1 X2 ... Xn X
Consecuencias de la heterocedasticidad:
Los estimadores MCO son lineales, insesgados y consistentes, pero dejan de ser de
mínima varianza (no son MELI).
Si la matriz de varianzas-covarianzas de los estimadores MCO se estima como
uˆ uˆ
ˆ ˆ ˆ 2 XX donde ˆ 2
1
, ˆ i2 (el i-ésimo elemento de la diagonal
n k 1
principal) sobrestima el verdadero valor de i2 , invalidando las Pruebas T y F, a
pesar de que el supuesto de normalidad se valide.
Causas de la heterocedasticidad:
Modelos de aprendizaje. La variable dependiente puede tener menos variabilidad
conforme alguno de los regresores aumentan (o disminuyen) su valor. Por ejemplo,
el número de errores de un capturista va presentando menor variabilidad (menor
error) conforme aumentan sus horas dedicadas a la captura de información.
Presencia de observaciones atípicas (outliers).
Asimetría en la distribución de uno o varios de los regresores. Por ejemplo, la
distribución del ingreso y riqueza típicamente presentan un sesgo derecho.
MÉTODOS INFORMALES
Figura 5.4
^
u2
residuos
homocedásticos
0
^
00 Y
Figura 5.5
^ ^ ^
u2 u2 u2
residuos residuos residuos
heterocedásticos heterocedásticos heterocedásticos
0 0 0
^ ^ ^
00 Y 00 Y 00 Y
MÉTODOS FORMALES
Prueba de Breusch-Pagan-Godfrey
Prueba de Glejser
Si Yi 0 1 X 1i k X ki ui , ui i 0 1Z1i m Z mi vi y Zi son
todas o algunas de las Xj, m ≤ k, entonces el MRLM tiene errores homocedásticos sí y
sólo si 1 2 m 0 . Entonces para la prueba H0: 1 2 m 0 vs
H1: alguna i 0 , la región de rechazo es RR f v f m,nm1, y el estadístico de
prueba es Fv
n m 1SCEv ~ F m, n m 1 , de la Prueba F (ANOVA) de la
mSCRv
regresión auxiliar uˆi 0 1 Z1i m Z mi vi , vi ~ N(0, v2 ).
Una variante de esta prueba es la Prueba de Park, que supone que las varianzas se
pueden expresar mediante el modelo no lineal Var ui i2 2 Z1i 1 Z mi
m wi
e , de modo
que ln i2 ln 2 1 lnZ1i m lnZ mi wi . En este caso la región de rechazo
Ejercicio E54 .
Si los n residuos û1 , û 2 ,…, û n se dividen en m grupos de tamaños n1, n2,…, nm, tales
m
que n
h 1
h n, para cada grupo es posible calcular varianza muestral
S uˆ2h
1 nh
nh 1 i 1
uˆi uˆi
2
, desviación estándar muestral S uˆh S uˆ2h , desviación media
Figura 5.6
Ejercicio E55 .
ii)
Var ˆ Σ ˆ XX XVX XX .
1 1
iii) ˆ es MELI
1
n n n
SCR Yi ˆ0* ˆ1* X i wi Yi* ˆ0* ˆ1* X i
2 2
Yi ˆ0* X 0*i ˆ1* X i*
*
i 1 i 1 i i 1
,
1
es decir, una suma de cuadrados de residuos ponderada por wi .
i2
Debido a lo anterior, a los estimadores MCG con errores heterocedásticos también se les
denominan estimadores Mínimos Cuadrados Ponderados (MCP).
i) ˆ1* w w X Y w X wY
i i i i i i i i
y ˆ0* Yw ˆ1* X w son los estimadores
w w X w X 2 2
i i i i i
1
wi wi X i2
w
ii)
Var ˆ0
* n ,
Var ˆ1*
i
y
wi wi X i2 wi X i w w X wi X i
2 2 2
i i i
X w wi
Cov ˆ0* , ˆ1*
w w X wi X i
2 2
i i i
Desde el punto de vista computacional, para calcular los estimadores MCP es mucho
Y 1 X
más práctico hacer las transformaciones Yi* i , X 0*i , X 1* i y estimar por
i i i
MCO el MRLM sin intercepto Yi * 0* X 0*i 1* X 1*i ui* .
Ejercicio E56 .
La figura 5.7 muestra el caso en que la varianza del error es proporcional al cuadrado de
los regresores i2 2 X i2 (transformación lineal, lado izquierdo) y el caso en que la
varianza del error es directamente proporcional a los regresores i2 2 X i
(transformación raíz cuadrada, lado derecho). En ambos casos 2 es una constante
(que por conveniencia denotamos de esta manera).
Figura 5.7
2 2
0 0
00 X 00 X
Por ejemplo, si Yi 0 1 X i ui , donde ui ~ 0, i2 y se sospecha que i2 2 X i2 ,
entonces es posible aplicar la transformación lineal dividiendo ambos lados del MRLS
Y 1 u
entre Xi obteniendo i 0 1 i , donde:
Xi Xi Xi
u 1 u
E i E ui 0 y
1 1
Var i 2 Var ui 2 2 X i2 2 ,
Xi Xi Xi Xi Xi
es decir, el modelo transformado es homocedástico, puede ser estimado por MCO y sus
estimadores son MELI.
Ejercicio E57 .
5.4. Autocorrelación
El supuesto (v) del MRLM establece que los errores deben ser independientes, lo que
implica que sean no correlacionados, es decir, Cov[ui , u j ] 0 para toda i ≠ j. El
problema que surge por la violación de este supuesto se denomina autocorrelación.
Existen 2 situaciones en las cuales los errores del MRLM pueden estar correlacionados:
En datos transversales, la correlación puede presentarse en unidades muestrales
contiguas. Por ejemplo, en estudios de consumo los errores de hogares en la misma
colonia pueden estar correlacionados. A este tipo de correlación se le denomina
correlación espacial; y
En series de tiempo, la correlación puede presentarse en observaciones consecutivas
en el tiempo (en uno o varios períodos). A este tipo de correlación se le denomina
correlación serial o autocorrelación.
Def. Autocorrelación.
Se dice que el MRLM Yt 0 1 X 1t 2 X 2t k X kt ut presenta el problema de
autocorrelación si Cov[ut , ut k ] 0 , para alguna k = 1, 2,…
Consecuencias de la autocorrelación:
Los estimadores MCO son lineales, insesgados y consistentes, pero dejan de tener
mínima varianza (no son MELI).
uˆ uˆ
Es posible que el estimador de la varianza ˆ 2 subestime el verdadero
n k 1
valor de 2 y sobrestime R2, invalidando las Pruebas T y F, a pesar de que el
supuesto de normalidad se valide.
Causas de la autocorrelación:
Inercia o pasividad. Surge por la existencia de un impulso ascendente o descendente
en el comportamiento de una serie de tiempo.
Sesgo de especificación. Omisión de alguna variable que teóricamente debe explicar
el comportamiento de una serie de tiempo. Por ejemplo, si existe una tendencia
cuadrática omitir el término t 2 provoca autocorrelación.
Rezagos. Ocurre cuando la variable explicativa depende de rezagos (de la propia
variable o de algún regresor) y éstos se omiten en el modelo.
MÉTODOS GRÁFICOS
Serie de tiempo de los residuos. Consiste en graficar los residuos û1 , û 2 ,…, û n , en
forma ordenada a lo largo del tiempo t. La existencia de algún tipo de patrón es indica
que posiblemente haya autocorrelación.
Figura 5.8
Autocorrelación positiva
^
^ ut
ut
0
t 0 ^
ut - 1
-3
Figura 5.9
Autocorrelación negativa
^
^ ut
ut
0
t 0 ^
ut - 1
-3
PRUEBAS ESTADÍSTICAS
uˆ uˆt 1
2
t
d t 2
n
,
uˆ
t 1
2
t
Figura 5.10
0 dL dU 2 4 - dU 4 - dL 4
d
Se rechaza H0+ Zona de No se rechazan Zona de Se rechaza H0-
(autocorrelación indecisión H0- ni H0+ indecisión (autocorrelación
positiva) (no autocorelación) negativa)
Por ejemplo, para el MRLS Yt 0 1 X t ut con ut ut 1 t , t ~ iid 0, 2 , es
posible considerar el modelo al tiempo t – 1 y multiplicarlo por :
Yt 1 0 1 X t 1 ut 1 ,
y restando esta última expresión del modelo original se obtiene el MRLS con intercepto:
Yt Yt 1 0 1 1 X t X t 1 t .
Desde el punto de vista computacional, para calcular los estimadores MCG es más
práctico hacer las transformaciones Yt * Yt Yt 1 , 0* 0 1 , X t* X t X t 1 y
estimar por MCO el modelo con intercepto Yt* 0* 1* X t* t .
Ejercicio E58 .
E1. Para las variables cuantitativas X y Y se tienen los datos (X1, Y1), (X2, Y2),…, (Xn, Yn).
a) A partir de las definiciones de varianza muestral y covarianza muestral demuestre
1 n 2 2 1 n
que SY2 i Y nY y XY
S X iYi nXY .
n 1 i 1 n 1 i 1
n
n n
n X iYi X i Yi
i 1 i 1 i 1
b) Demuestre que rXY .
n 2 n
2
n
n
2
n X i X i n Yi 2 Yi
i 1 i 1 i 1 i 1
E2. Algunos Economistas apoyan la teoría de que un mayor “ingreso mensual” (Y) está
asociado a un mayor número de “años de estudios de posgrado” (X). A continuación se
presentan estas variables y algunas otras para una muestra aleatoria de 22 personas con
estudios de posgrado:
Años de
Ingreso mensual Tipo de Tipo de
estudios de Estudios (2)
(miles de dólares) ingreso (1) actividad
posgrado
2.0 4.0 Medio bajo Otra 1
5.0 4.0 Medio bajo Academia 1
3.0 5.2 Medio alto Otra 1
2.0 7.5 Alto Negocios 2
3.5 2.3 Medio bajo Academia 1
2.0 4.5 Medio alto Otra 2
4.0 2.7 Medio bajo Academia 2
0.5 4.5 Medio alto Negocios 2
5.0 4.8 Medio alto Academia 2
4.0 6.2 Alto Otra 1
4.0 5.8 Medio alto Otra 1
2.0 7.5 Alto Negocios 2
5.5 5.8 Medio alto Academia 1
3.0 2.1 Medio bajo Academia 2
1.0 5.5 Medio alto Negocios 1
2.0 4.0 Medio bajo Otra 2
2.5 4.3 Medio alto Otra 2
1.5 6.5 Alto Negocios 2
6.0 7.5 Alto Academia 1
3.0 4.8 Medio alto Otra 1
3.5 5.5 Medio alto Otra 1
4.5 3.3 Medio bajo Academia 2
(1) Clasificado como Bajo en [0, 2], Medio bajo en (2, 4], Medio alto en (4, 6] y Alto mayor a 6 mil dólares.
(2) 1 = en universidades de Estados Unidos, 2 = en universidades fuera de Estados Unidos.
Fuente: Ilustrativo
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
X 69.5
i X i
2
265.75 X Y 341.4
i i
Y 108.3
i Y i
2
585.21 n 22
DRR 2
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
E4. Las empresas petroleras integradas típicamente pagan impuestos compuestos por una
regalía (royalty) y una serie de impuestos y derechos adicionales. Si X denota la tasa de
la regalía y Y la tasa del impuesto total que paga una empresa petrolera, entonces Y
puede ser explicada por el nivel de X. Si f X ,Y x, y 2 xI x ,1 y I 0,1 x , calcule y
grafique E Y X x .
E5. Para cada una de las siguientes Funciones de Regresión Poblacionales indique si son
lineales en variables, en parámetros, en ambos o en ninguna de las dos:
a) EY X i 0 12 X i
b) EY X i 0 1 X i 2 X i2 k X ik
c) EY X i e 0 1X i
EY X i
Xi
d)
0 1 X i
E6. Se sabe que si X y Y tienen distribución conjunta Normal Bivariada con medias X, Y,
varianzas X2 y Y2 , y coeficiente de correlación , entonces su función de densidad de
1 1
probabilidad conjunta es f X ,Y x, y exp Q x, y para
2 X Y 1 2
2 1
2
2 2
x X x X y Y y Y
x, y R, donde Q x, y 2 . Además se
X X Y Y
sabe que Y X x ~ N Y Y x X , Y2 1 2 . Si se quiere explicar a Y
X
mediante el valor fijo Xi …
a) ¿Se puede decir que su FRP es lineal en variables o lineal en parámetros?
b)
Grafique E Y X i y Var Y X i .
c)
Si se quiere expresar la esperanza condicional E Y X i en la forma 0 1 X i ,
¿qué valores deben tomar 0 y 1?
d) ¿Qué pasa con f X ,Y x, y si X y Y están perfectamente correlacionadas, es decir, si
= 1? Explique.
DRR 3
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
E9. Estimación por Mínimos Cuadrados Ordinarios (MCO) del MRLS. Para el MRLS
Yi 0 1 X i ui , donde ui ~ iid(0, 2):
a) Obtenga las ecuaciones normales:
n n n n n
Y
i 1
i nˆ0 ˆ1 X i
i 1
y XY
i 1
i i ˆ0 X i ˆ1 X i2
i 1 i 1
S
b) Demuestre que ˆ1 XY2 y ˆ0 Y ˆ1 X
SX
E10. El desarrollo de las telecomunicaciones en los últimos 20 años ha provocado que cada
vez más personas destinen parte de su ingreso a la adquisición de teléfonos celulares. A
continuación se presentan el consumo de teléfonos celulares (por cada 100 habitantes) y
el ingreso per cápita anual de 2003 para una muestra de 34 países.
Fuente: Gujarati, Econometría, quinta edición, 2009. Tabla 3.3 Statistical Abstract of the United States, 2006.
X X 4,160.3 Y Y 34,004.3
2 2
i i
X X Y Y 9,232.5
i i Y 117,600.2
i
2
DRR 4
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
Además, la media muestral del ingreso per cápita es de 15.8 miles de dólares. Considere
el MRLS Yi 0 1 X i ui , donde ui ~ iid(0, 2). Estime por Mínimos Cuadrados
Ordinarios (MCO) los parámetros 0 y 1.
n
b) Los residuos y los regresores no están correlacionados: uˆ X
i 1
i i 0.
n
c) Los residuos y los valores ajustados no están correlacionados: uˆ Yˆ 0 .
i 1
i i
E13. Continuando con los ejercicios E10 y E11 verifique que: (i) Y ˆ0 ˆ1 X , (ii) Yˆ Y ,
n n n
(iii) uˆi 0 , (iv)
i 1
uˆi X i 0 , y (v)
i 1
uˆ Yˆ 0 .
i 1
i i Interprete el resultado en cada caso.
E14. Si ̂ 0 y ̂1 son los estimadores MCO del MRLS, demuestre que:
a) ̂1 es insesgado.
b)
Var ˆ1
2
y Cov ˆ0 , ˆ1 X 2
X X X X
n n
2 2
i i
i 1 i 1
E15. Teorema de Gauss-Markov. Bajo los supuestos del MRLS demuestre que los
estimadores MCO ̂ 0 y ̂1 son los Mejores Estimadores Lineales Insesgados (MELI).
E16. Continuando con los ejercicios E10, E11 y E13, estime la matriz de varianzas y
covarianzas de los estimadores MCO ̂ 0 y ̂1 .
DRR 5
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
E20. Considere el MRLSN. Utilice el Método Pivotal para demostrar que el intervalo
simétrico al 100(1 – )% de confianza para 0 es ˆ0 t S ˆ . ¿Cuál es el respectivo
n 2 , 0
2
E21. Continuando con los ejercicios E10, E11, E13, E16 y E18, se sabe que ˆ 2 422.4 y que
37.833 1.606
la matriz de varianzas-covarianzas estimada de ̂ 0 y ̂1 es . Si se
1.606 0.102
supone que ui ~ iid N(0, 2)…
a) Calcule los intervalos de confianza al 95% para 0 y 1. ¿Podría pensarse que
alguno de estos parámetros es cero?
b) Calcule el intervalo de confianza al 95% para la desviación estándar de los
términos de error ui.
c) ¿Es razonable el supuesto de normalidad en los errores?
E22. Demuestre que, bajo los supuestos del MRLSN, si 1 = 0, entonces la estadística
F
n 2SCE ~ F 1, n 2 .
SCR
E23. Continuando con los ejercicios E10, E11, E13, E16, E18 y E21, si ui ~ iid N(0, 2)…
a) Si se quiere probar H0: 0 = 0 vs. H1: 0 > 0, calcule su respectivo valor-p. ¿Qué
se puede concluir?
b) ¿Se puede afirmar con un error tipo I de 5% que el ingreso per cápita permite
explica el consumo de teléfonos celulares? Realice las pruebas T y F. Calcule el
valor-p en cada caso.
DRR 6
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
E24. Bajo los supuestos del MRLS, considere a Eˆ Y0 X 0 Yˆ0* ˆ0 ˆ1 X 0 como estimador
puntual de E Y0 X 0 0 1 X 0 .
n X i X 2
n
i 1
E25. Continuando con los ejercicios E10, E11, E13, E16, E18, E21 y E23 se sabe que n = 34,
ˆ 14.48 , ˆ 2.22 , ˆ 2 422.4 , X 15.8 , y
0 1 X X 2 4,160.3 . Si se supone
i
a) Estime la media del consumo de teléfonos celulares (por cada 100 habitantes) para
una economía con ingreso per cápita de 40 mil dólares. Proporcione el pronóstico
puntual y su respectivo intervalo de confianza al 95% de confianza.
b) Estime el nivel de consumo de teléfonos celulares (por cada 100 habitantes) para
una economía con ingreso per cápita de 40 mil dólares. Proporcione el pronóstico
puntual y su respectivo intervalo de predicción con 95% de probabilidad.
E26. Continuando con los ejercicios E10, E11, E13, E16, E18, E21, E23 y E25, considerando
válido el supuesto de normalidad, es decir, si ui ~ iid N(0, 2)…
a) Calcule y grafique las bandas de predicción al 95% de la media condicional y de
valores individuales del consumo de teléfonos celulares (Y) considerando los
valores observados del ingreso per cápita (X).
b) ¿Para qué valor del ingreso per cápita la amplitud de estas bandas del inciso
anterior se minimiza?
E27. Los Modelos de Gasto de Engel, en honor del Estadístico Alemán Ernst Engel (1821 –
1896) postulan que “el gasto total en un bien tiende a incrementarse en progresión
aritmética, mientras que el gasto total aumenta en progresión geométrica".
En la siguiente tabla se presentan los datos sobre el gasto de consumo personal total
(GT), el gasto en bienes duraderos (GD, incluyendo vehículos automotores y
refacciones, muebles y equipo doméstico), el gasto en bienes perecederos (GP,
incluyendo comida, ropa, gasolina, aceite, combustibles de petróleo y carbón mineral) y
el gasto en servicios (GS, incluyendo vivienda, electricidad, gas, transporte y atención
médica), todos medidos en miles de millones de dólares de 2000, del primer trimestre de
2003 al cuarto trimestre de 2006 en Estados Unidos.
DRR 7
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
Fuente: Gujarati, Econometría, quinta edición, 2009. Adaptación de la Tabla 6.3, p. 161
DRR 8
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
E30. Estudios demográficos indican que la mortalidad infantil puede ser explicada por la
educación de las mujeres de la población, su tasa de fecundidad y la riqueza de sus
habitantes. En la siguiente tabla se presenta la mortalidad infantil (MI, medida en
número de defunciones de menores de 5 años por cada 1,000 nacidos vivos), la tasa de
alfabetismo femenina (TA, en porcentaje), el producto interno bruto per cápita (PIB, en
dólares correspondiente a 1980) y la tasa de fecundidad (TF, promedio de hijos por
mujer con información entre 1980 y 1985) para una muestra de 64 países:
Mortalidad infantil
Fuente: Gujarati, Econometría, quinta edición, 2009. Adaptación de la Tabla 6.6, p. 168.
DRR 9
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
c) Demuestre que yˆ uˆ 0 , es decir, que los residuos y los valores ajustados no están
correlacionados.
uˆ uˆ
Se sabe que ˆ XX Xy y ˆ 2
1
E33. son los estimadores MCO del MRLN
n k 1
y X u , donde u ~ 0, 2 I y XX es no singular.
Demuestre que ˆ XX Xy es estimador insesgado de .
1
a)
b)
Demuestre que Var ˆ Σ ˆ 2 XX .
1
uˆ uˆ
c) Demuestre que ˆ 2 es estimador insesgado de 2 .
n k 1
DRR 10
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
E37. Continuando con los ejercicios E30, E32 y E35, considere el modelo con 3 variables
explicativas MI i 0 1TAi 2 PIBi 3TFi u i , donde ui ~ iid(0, 2 ).
a) Estime la matriz de varianzas-covarianzas de ˆ .
b) Calcule intervalos de confianza individuales al 95% para cada uno de los
parámetros del modelo. ¿Se puede afirmar que todas las ’s son significativas?
E38. Continuando con los ejercicios E30, E32, E35 y E37, considerando el MRLM con 3
variables explicativas se sabe que:
Modelo estimado: Mˆ I i 168 .307 1.768TAi 0.006 PIBi 12.869TFi R 2 0.7474
(errores estándar) (32.892) (0.248) (0.002) (4.191) ˆ 39.13
a) Pruebe individualmente las siguientes hipótesis: 0 < 165, 2 = 0 y = 40.
b) ¿El modelo con su conjunto es significativo? Pruebe 0 para justificar su
respuesta.
c) Utilice Excel para determinar si las ’s del modelo son significativas (en forma
individual y de manera conjunta).
d) ¿Se pueden sustentar estadísticamente la validez de las pruebas anteriores?
E39. Continuando con los ejercicios E30, E32, E35, E37 y E38, considerando el modelo
MI i 0 1TAi 2 PIBi 3TFi u i , donde ui ~ iid(0, 2 )…
a) Utilice la Prueba F de Transformación Lineal General para probar la hipótesis
conjunta 0 = 165 y 3 = –71.
b) Utilice la Prueba F de Mínimos Cuadrados Restringidos para probar la hipótesis
conjunta del inciso anterior.
E40. Continuando con los ejercicios E30, E32, E35, E37 y E38, considere una economía con
un PIB per cápita de 7,700 dólares, una tasa de alfabetización femenina de 85% y una
tasa de fecundidad de 2.2 hijos por mujer para calcular lo siguiente:
a) Intervalo de confianza al 95% para la mortalidad infantil promedio.
b) Intervalo de predicción al 95% para el nivel de mortalidad infantil.
DRR 11
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
La siguiente tabla muestra el valor agregado (Pi en miles de dólares), las horas de
trabajo (Li en miles de horas) y la inversión de capital (Ki en miles de dólares) para los
50 estados y el Distrito de Columbia (Washington, D.C.) de Estados Unidos de
Norteamérica referentes al sector manufacturero durante 2005.
Valor Horas de Inversión de Valor Horas de Inversión de
agregado trabajo capital agregado trabajo capital
Entidad Entidad
(miles de (miles de (miles de (miles de (miles de (miles de
dólares) horas) dólares) dólares) horas) dólares)
Alabama 38,372,840 424,471 2,689,076 Montana 2,644,567 24,167 334,008
Alaska 1,805,427 19,895 57,997 Nebraska 14,650,080 163,637 627,806
Arizona 23,736,129 206,893 2,308,272 Nevada 7,290,360 59,737 522,335
Arkansas 26,981,983 304,055 1,376,235 New Hampshire 9,188,322 96,106 507,488
California 217,546,032 1,809,756 13,554,116 New Jersey 51,298,516 407,076 3,295,056
Colorado 19,462,751 180,366 1,790,751 New Mexico 20,401,410 43,079 404,749
Connecticut 28,972,772 224,267 1,210,229 New York 87,756,129 727,177 4,260,353
Delaware 14,313,157 54,455 421,064 North Carolina 101,268,432 820,013 4,086,558
DC 159,921 2,029 7,188 North Dakota 3,556,025 34,723 184,700
Florida 47,289,846 471,211 2,761,281 Ohio 124,986,166 1,174,540 6,301,421
Georgia 63,015,125 659,379 3,540,475 Oklahoma 20,451,196 201,284 1,327,353
Hawaii 1,809,052 17,528 146,371 Oregon 34,808,109 257,820 1,456,683
Idaho 10,511,786 75,414 848,220 Pennsylvania 104,858,322 944,998 5,896,392
Illinois 105,324,866 963,156 5,870,409 Rhode Island 6,541,356 68,987 297,618
Indiana 90,120,459 835,083 5,832,503 South Carolina 37,668,126 400,317 2,500,071
Iowa 39,079,550 336,159 1,795,976 South Dakota 4,988,905 56,524 311,251
Kansas 22,826,760 246,144 1,595,118 Tennessee 62,828,100 582,241 4,126,465
Kentucky 38,686,340 384,484 2,503,693 Texas 172,960,157 1,120,382 11,588,283
Louisiana 69,910,555 216,149 4,726,625 Utah 15,702,637 150,030 762,671
Maine 7,856,947 82,021 415,131 Vermont 5,418,786 48,134 276,293
Maryland 21,352,966 174,855 1,729,116 Virginia 49,166,991 425,346 2,731,669
Massachusetts 46,044,292 355,701 2,706,065 Washington 46,164,427 313,279 1,945,860
Michigan 92,335,528 943,298 5,294,356 West Virginia 9,185,967 89,639 685,587
Minnesota 48,304,274 456,553 2,833,525 Wisconsin 66,964,978 694,628 3,902,823
Mississippi 17,207,903 267,806 1,212,281 Wyoming 2,979,475 15,221 361,536
Missouri 47,340,157 439,427 2,404,122
DRR 12
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
c) ¿Se puede afirmar que en esta economía los rendimientos a escala son constantes?
Justifique estadísticamente su respuesta.
d) Si el estado de Colorado planea duplicar los insumos trabajo y capital, ¿cuál será
el nivel de producción estimado? ¿Dicha estimación se ubica dentro del conjunto
de datos muestrales?
Producción
Costo total
(X en unidades
(Y en pesos)
producidas)
1 193
2 226
3 240
4 244
5 257
6 260
7 274
8 297
9 350
10 420
E43. Continuando con el ejercicio E41 sobre la producción manufacturera en Estados Unidos
durante 2005, se sabe que la estimación directa por MCO del modelo Log-Lin de la
función de producción Cobb-Douglas es l̂n Pi 3.888 0.468 ln Li 0.521 ln K i .
a) Utilice el método de estimación indirecta para obtener ̂1 .
b) Utilice el método de estimación indirecta para obtener ˆ . 2
DRR 13
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
E44. Continuando con los ejercicio E41 y E43 sobre la producción manufacturera en Estados
Unidos durante 2005, considerando el modelo Log-Lin de la función de producción
Cobb-Douglas ln Pi 0 1 ln Li 2 ln K i u i , ui ~ iid(0, 2 )…
a) Calcule los coeficientes de correlación parciales a partir de la definición
(utilizando los residuos de los MRLS) y compárelos vs. sus respectivos
coeficientes de correlación simples.
b) Calcule nuevamente los coeficientes de correlación parcial pero ahora a partir de
los coeficientes de correlación simples.
c) Calcule el coeficiente de determinación a partir de los coeficientes de correlación
simples y parciales. Reporte e interprete el coeficiente de correlación múltiple.
d) Construya la Tabla ANOVA de contribución incremental y pruebe la significancia
incremental de los insumos trabajo y capital. ¿Qué puede concluir?
E45. De la teoría microeconómica, se sabe que la demanda de un bien suele depender del
ingreso real del consumidor, del precio real del bien y de los precios reales de los bienes
complementarios o que compiten con él (bienes sustitutos). A continuación se muestran
datos sobre la demanda de carne de pollo en Estados Unidos de 1960 a 1982:
Precio real de
Consumo per Ingreso per Precio real de la Precio real de la Precio real de la
sustitutos del
cápita de carne cápita real carne de pollo carne de res carne de puerco
Año pollo *
de pollo disponible (W 2 en centavos (W 3 en centavos (W 4 en centavos
(W 5 en centavos
(Z en libras) (W 1 en dólares) de dólar por libra) de dólar por libra) de dólar por libra)
de dólar por libra)
1960 27.8 397.5 42.2 78.3 50.7 65.8
1961 29.9 413.3 38.1 79.2 52.0 66.9
1962 29.8 439.2 40.3 79.2 54.0 67.8
1963 30.8 459.7 39.5 79.2 55.3 69.6
1964 31.2 492.9 37.3 77.4 54.7 68.7
1965 33.3 528.6 38.1 80.2 63.7 73.6
1966 35.6 560.3 39.3 80.4 69.8 76.3
1967 36.4 624.6 37.8 83.9 65.9 77.2
1968 36.7 666.4 38.4 85.5 64.5 78.1
1969 38.4 717.8 40.1 93.7 70.0 84.7
1970 40.4 768.2 38.6 106.1 73.2 93.3
1971 40.3 843.3 39.8 104.8 67.8 89.7
1972 41.8 911.6 39.7 114.0 79.1 100.7
1973 40.4 931.1 52.1 124.1 95.4 113.5
1974 40.7 1,021.5 48.9 127.6 94.2 115.3
1975 40.1 1,165.9 58.3 142.9 123.5 136.7
1976 42.7 1,349.6 57.9 143.6 129.9 139.2
1977 44.1 1,449.4 56.5 139.2 117.6 132.0
1978 46.7 1,575.5 63.7 165.5 130.9 132.1
1979 50.6 1,759.1 61.6 203.3 129.8 154.4
1980 50.1 1,994.2 58.9 219.6 128.0 174.9
1981 51.7 2,258.1 66.4 221.6 141.0 180.8
1982 52.9 2,478.7 70.4 232.6 168.2 189.4
* Promedio ponderado de los precios reales al menudeo por libra de carne de puerco y res. Ponderadores basados en el consumo relativo.
Fuente: Gujarati, D., Porter, D. (2009). Econometría . 5a edición, p. 221. Se modificó el orden de los regresores.
DRR 14
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
A partir de esta información analice la forma funcional que mejor convenga para
construir un MRLM aplicando el método ascendente (stepwise regression) respondiendo
a las siguientes preguntas:
a) Calcule el diagrama de dispersión múltiple de estas variables. ¿Es razonable
pensar que la forma funcional entre Z y los regresores es lineal?
b) Calcule el diagrama de dispersión múltiple del logaritmo natural de todas las
variables. ¿Es razonable pensar que la forma funcional entre Y ln Z y el
logaritmo natural del resto de los regresores, X j ln W j , j = 1, 2, 3, 4 y 5, es
lineal? Especifique el modelo econométrico en su forma lineal y no lineal
considerando todos los regresores potenciales.
c) Calcule la matriz de correlaciones considerando los logaritmos de todas las
variables. ¿Cuál es el regresor más correlacionado con Y ln Z ? Interprete su
resultado.
d) Considere el MRLS incluyendo sólo a X1 y estímelo por MCO. ¿Es significativo
el modelo? ¿Qué puede concluir?
e) Calcule los coeficientes de correlación parcial entre Y y Xj, j = 2, 3, 4 y 5, aislando
el efecto de X1. ¿Qué regresor está más correlacionado con Y aislando el efecto de
X1? Interprete su resultado y calcule su respectivo coeficiente de determinación
parcial.
f) Considere el MRLM incluyendo sólo X1 y X2. Sin necesidad de estimar aún el
modelo, construya la Tabla ANOVA Incremental y aplique la Prueba F
(incremental) para determinar si la inclusión de X2 resulta significativa. ¿Qué
puede concluir?
g) Estime por MCO el MRLM incluyendo sólo X1 y X2. Calcule su respectiva Tabla
ANOVA. ¿Qué puede concluir? ¿Estos resultados son los esperados?
h) Calcule los coeficientes de correlación parcial de segundo orden entre Y y Xj, j = 3,
4 y 5, aislando el efecto de X1 y X2. ¿Qué regresor está más correlacionado con Y
aislando el efecto de X1 y X2?
i) Considere el MRLM incluyendo sólo X1, X2 y X4. ¿Es significativa la contribución
de X4 al modelo? Aplique la Prueba F (ANOVA incremental) para sustentar su
respuesta.
j) Estime por MCO el MRLM incluyendo sólo X1, X2 y X4. ¿Qué puede concluir?
¿Estos resultados son los esperados?
k) ¿Cuál es el modelo final estimado que arroja el método ascendente (stepwise
regression)?
l) Compare los criterios de información de Akaike, Schwarz y Hannan-Quinn de los
modelos de los incisos g) y j). ¿Qué puede concluir al respecto? ¿Esta conclusión
es la misma que la del criterio de la R2 ajustada?
m) Verifique que la Prueba F (ANOVA incremental) del inciso i) se puede obtener a
partir de las sumas de cuadrados de residuos del modelo con los regresores X1 y X2
(SCR12) y del modelo con los regresores X1, X2 y X4 (SCR124) mediante el
estadístico de prueba F
n k 1SCR12 SCR124 ~ F 1, n k 1 .
SCR124
DRR 15
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
DRR 16
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
E47. A continuación se presenta información sobre salarios y educación para una muestra de
114 empleados en una ciudad industrial del sur de India en 1990.
Notas: (1) Educación máxima: 0 = Sin primaria, 1 = Hasta primaria, 2 = Hasta secundaria, 3 = Superior a segundaria
(2) 0 = Temporal, 1 = Permanente
Fuente: Gujarati D., Poreter, D. (2009). Econometría, 5a edición. Adaptación de la Tabla 9.7
a) Formule un Modelo ANOVA para explicar el logaritmo natural del sueldo a través
de las variables “género” y “tipo de empleo”. Estímelo por MCO y analice su
significancia estadística.
b) Construya una tabla que muestre el ingreso estimado para cada una de los grupos
identificados a partir del Modelo ANOVA del inciso anterior.
c) Bajo el supuesto de normalidad, ¿es razonable pensar que el ingreso de las mujeres
con empleo permanente es igual al de los hombres con empleo permanente?
d) Formule el Modelo ANOVA para explicar el logaritmo natural del sueldo
considerando las 3 variables cualitativas con efectos aditivos. ¿Es significativo?
e) Formule el Modelo ANOVA para explicar el logaritmo natural del sueldo
considerando las 3 variables cualitativas con efectos aditivos y multiplicativos.
¿Es significativo? ¿Qué puede concluir?
DRR 17
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
8
Ingreso mensual (miles de dólares)
y = 2x + 3.5
7
6 y = 0.932x + 2.2299
Academia
5 Negocios
4 Otra
3 Linear (Academia)
Linear (Negocios)
2
y = 1.7481x - 3.913 Linear (Otra)
1
0
0 1 2 3 4 5 6
Años de estudios de posgrado
DRR 18
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
Año
Mes
2005 2006 2007 2008 2009 2010 2011 2012
Enero 2,599 2,595 2,760 2,837 2,861 2,825 2,998 3,049
Febrero 2,530 2,523 2,732 2,852 2,833 2,769 3,062 2,999
Marzo 2,389 2,430 2,556 2,661 2,686 2,655 2,907 2,990
Abril 2,473 2,507 2,563 2,697 2,798 2,735 3,012 2,983
Mayo 2,594 2,760 2,779 2,952 3,123 2,996 3,349 3,068
Junio 2,743 2,873 2,911 3,121 3,232 3,282 3,537 3,279
Julio 2,960 2,966 3,054 3,205 3,377 3,594 3,688 3,440
Agosto 2,986 3,013 3,201 3,276 3,545 3,544 3,632 3,636
Septiembre 2,996 3,059 3,198 3,332 3,558 3,633 3,792 3,670
Octubre 2,989 3,033 3,119 3,183 3,275 3,422 3,608 3,835
Noviembre 2,788 2,882 2,959 3,012 3,079 3,220 3,274 3,605
Diciembre 2,609 2,774 2,797 2,813 2,792 2,859 3,049 3,436
Fuente: www.inegi.gob.mx
a) Si Mj, j = 1, 2,…, 11, son las variables dicótomas que permiten modelar la
estacionalidad mensual que presenta la serie de tiempo Yt, estime por MCO el
11
modelo Yt 0 j M jt 12 t ui , ui ~ iid(0, 2 ), es decir, una tendencia
j 1
DRR 19
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
E51. El sistema tributario de cierto país establece que las personas físicas que perciben más
de 200,000 dólares por año deben pagar un impuesto sobre la renta (ISR) de 35%,
mientras que las personas que ganan 200,000 dólares o menos deben pagar un ISR del
25%. El monto de deducciones varía de persona en persona, de modo que para una
muestra de 60 personas físicas se identificaron los siguientes ingresos anuales y
deducciones fiscales:
Fuente: Ilustrativo
a) Construya la gráfica del impuesto por pagar (ISR menos deducciones) explicado
por el ingreso de las personas de esta muestra.
b) Formule el respectivo Modelo de Regresión por Segmentos, estímelo por MCO y
grafique las rectas ajustadas. ¿Es relevante mantener el intercepto?
DRR 20
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
Fuente: Gujarati, D., Porter, D. (2009). Econometría. 5a Ed. Adaptación de la Tabla 10.8, p. 348
a) Utilice EViews y Excel para estimar por MCO el MRLM con intercepto para
explicar el número de personas con trabajo (Y), mediante X1, X2,…, X8 de la tabla
anterior. ¿Qué puede concluir?
b) Estime nuevamente por MCO el MRLM con intercepto para explicar el número de
personas con trabajo (Y), sin considerar las variables dicótomas X7 y X8. ¿Hay
indicios de multicolinealidad?
c) Calcule la matriz de correlaciones de los regresores X1, X2,…, X6. ¿Se verifica la
presencia de multicolinealidad?
d) Utilice la Regla de Klein para determinar si la multicolinealidad imperfecta es
“grave”.
e) Gujarati y Porter sugieren que: (i) en lugar de incorporar el PIB nominal y el
índice de deflación por separado, es posible considerar el PIB real considerando el
X
regresor a 2 ; (ii) la población civil de más de 14 años de edad (X5) crece con el
X1
tiempo y está muy correlacionada con el tiempo (X6), por lo que X6 se puede
eliminar; y (iii) no hay razón de peso para explicar el número de personas con
trabajo (Y) mediante el número de personas desempleadas (X3), por lo que X3
también se puede eliminar. Corrija la multicolinealidad imperfecta del modelo
estimado en b) incorporando esta información a priori.
DRR 21
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
E54. A continuación se muestra el gasto diario (G, en dólares) y el ingreso diario (Y, en
dólares) para una muestra de 30 personas de cierto país.
Fuente: Gujarati, D., Porter, D. (2009). Econometría. 5a Ed. Tabla 11.3, p. 384
a) Analice gráficamente la relación entre estas variables, estime por MCO el MRLS
con intercepto para explicar el gasto diario mediante el ingreso diario.
b) ¿Se cumple el supuesto de normalidad en los errores del MRLS del inciso a)?
c) Analice gráficamente si se cumple el supuesto de varianza constante en el MRLS
estimado en a).
d) Utilice la Prueba Breusch-Pagan-Godfrey para determinar si los residuos del
MRLS estimado en a) son heterocedásticos.
e) Utilice la Prueba de Glejser para determinar si los residuos del MRLS estimado en
a) son heterocedásticos.
f) Utilice la Prueba de White (con interacciones) para determinar si los residuos del
MRLS estimado en a) son heterocedásticos. ¿Cambia su conclusión si se aplica la
prueba sin interacciones?
DRR 22
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
E56. A continuación se presentan los salarios anuales (en dólares) de los empleados de 10
sectores de la industria manufacturera de bienes no duraderos, de acuerdo con el tamaño
de las empresas del sector (plantilla laboral en número de empleados) en Estados Unidos
durante 1958. En las últimas 3 líneas se incluyen media y desviación estándar de los
salarios por tamaño de la industria, y la productividad promedio (aumento de los
rendimientos en función del trabajo necesario para el producto final, en dólares).
Fuente: Gujarati, D., Porter, D. (2009). Econometría. 5a Ed. Tabla 11.1, p. 369
DRR 23
MATERIAL DE APOYO PARA EL CURSO DE ECONOMETRÍA ENERO – MAYO 2015
E58. A continuación se presentan datos sobre el consumo, ingreso, riqueza y tasa de interés
(C, Y, R, I, respectivamente y en dólares reales de 1996) para la economía de en Estados
Unidos de 1947 a 2000.
Año C Y R I Año C Y R I
1947 976.4 1,035.2 5,166.8 -10.4 1974 2,653.7 3,051.9 11,868.8 -1.0
1948 998.1 1,090.0 5,280.8 -4.7 1975 2,710.9 3,108.5 12,634.4 -3.5
1949 1,025.3 1,095.6 5,607.4 1.0 1976 2,868.9 3,243.5 13,456.8 -0.7
1950 1,090.9 1,192.7 5,759.5 0.4 1977 2,992.1 3,360.7 13,786.3 -1.2
1951 1,107.1 1,227.0 6,086.1 -5.3 1978 3,124.7 3,527.5 14,450.5 0.1
1952 1,142.4 1,266.8 6,243.9 -0.3 1979 3,203.2 3,628.6 15,340.0 1.7
1953 1,197.2 1,327.5 6,355.6 0.6 1980 3,193.0 3,658.0 15,965.0 2.3
1954 1,221.9 1,344.0 6,797.0 -0.1 1981 3,236.0 3,741.1 15,965.0 4.7
1955 1,310.4 1,433.8 7,172.2 0.3 1982 3,275.5 3,791.7 16,312.5 4.4
1956 1,348.8 1,502.3 7,375.2 -0.7 1983 3,454.3 3,906.9 16,944.8 4.7
1957 1,381.8 1,539.5 7,315.3 -0.3 1984 3,640.6 4,207.6 17,526.7 5.8
1958 1,393.0 1,553.7 7,870.0 -0.6 1985 3,820.9 4,347.8 19,068.3 4.3
1959 1,470.7 1,623.8 8,188.1 2.3 1986 3,981.2 4,486.6 20,530.0 3.8
1960 1,510.8 1,664.8 8,351.8 1.5 1987 4,113.4 4,582.5 21,235.7 2.8
1961 1,541.2 1,720.0 8,971.9 1.3 1988 4,279.5 4,784.1 22,332.0 3.3
1962 1,617.3 1,803.5 9,091.5 1.4 1989 4,393.7 4,906.5 23,659.8 4.3
1963 1,684.0 1,871.5 9,436.1 2.1 1990 4,474.5 5,014.2 23,105.1 3.6
1964 1,784.8 2,006.9 10,003.4 2.0 1991 4,466.6 5,033.0 24,050.2 1.8
1965 1,897.6 2,131.0 10,562.8 2.1 1992 4,594.5 5,189.3 24,418.2 1.0
1966 2,006.1 2,244.6 10,522.0 2.0 1993 4,748.9 5,261.3 25,092.3 0.6
1967 2,066.2 2,340.5 11,312.1 1.2 1994 4,928.1 5,397.2 25,218.6 2.2
1968 2,184.2 2,448.2 12,145.4 1.1 1995 5,075.6 5,539.1 27,439.7 3.3
1969 2,264.8 2,524.3 11,672.3 1.7 1996 5,237.5 5,677.7 29,448.2 3.1
1970 2,317.5 2,630.0 11,650.0 1.2 1997 5,423.9 5,854.5 32,664.1 3.1
1971 2,405.2 2,745.3 12,312.9 -0.7 1998 5,683.7 6,168.6 35,587.0 3.6
1972 2,550.5 2,874.3 13,499.9 -0.2 1999 5,968.4 6,320.0 39,591.3 3.2
1973 2,675.9 3,072.3 13,081.0 1.4 2000 6,257.8 6,539.2 38,167.7 3.6
DRR 24