Pasog) Paso
eo
4
ay y
~ SOPMSIY SEUI|GON
9PROLOGO
El objetivo de este libro es presentar las técnicas econométricas esencialmente en. su faceta
préctica, Cada capitulo comienza con una breve exposicién de los conceptos tesricos a utilizar
en los problemas con el objetivo de que no sea necesario recurtir a textos extemnos para
‘comprender las herramientas utilizadas en las soluciones.
Los ejercicios se refuerzan con aplicaciones informéticas para obtener la solucién,
Coneretamente se ha utilizado el software Eviews en su sltima versién. Este paquete
econométrico, a partir de su versi6n 5, contempla la posibilidad de trabajar en la mayoria de
los temas avanzados en Econometria.
El contenido de este libro se dirige a docentes y estudiantes universitarios de todos los
niveles que imparten o cursan la materia de Econometrfa o modelos en general. También es
‘itil para los profesionales de la Economfa, Ciencias Sociales y otras ramas cientificas en las
‘que se aplican las técnicas de modelizacién.
El libro comienza tratando la estimacién, inferencia y prediccién en el modelo de
regresi6n miltiple. A continuacién se analizan los modelos con datos de corte transversal y los
problemas més caracteristicos que suelen presentar: Heteroscedasticidad, multicolinealidad,
ausencia de normalidad, no linealidad, errores de especificacién y problemas de exogeneidad
y regresores estocésticos. Para cada problema se estudian tanto los métodos de deteccién
‘como los métodos de correccién,
Posteriormente se abordan los modelos de regresién con datos de series temporales y
los problemas més acuciantes en este caso: Autocorrelaci6n, variables ficticias, estabilidad
estructural y heteroscedasticidad con series de tiempo. Se vuelven a estudiar los métodos de
deteccién y correccién, haciendo hincapié en las aplicaciones del uso de variables ficticias y
Jos contrastes de cambio estructural y estabilidad de los parémetros asf como la solucién a
estos problemas,
A continuaci6n se tratan los modelos dinémicos y el anélisis univariante de series
‘temporales incluyendo los modelos ARIMA y Ia metodologia de Box Jenkins. Asimismo, se
presentan los contrastes de rafces unitarias més habituales, las técnicas del anélisis de la
cointegracién y los modelos de correccién por el error.
También se contemplan las técnicas para el trabajo con los modelos con datos de
Panel, las combinaciones de cortes transversales de datos y los modelos de ecuaciones
simulténeas, incluyendo sistemas con datos de panel.
La Gltima parte del libro desarrolla los modelos de variable dependiente limitada
incluyendo los modelos de eleccién discreta binaria y miiltiple (Logit, Probit y Gompit o del
valor extremo) y los modelos de datos de recuento (Poisson, Binomial Negativa, Exponencial
y Normal),Para finalizar se abordan los modelos censurados, truncados y de seleccién muestra,
Se contempla el modelo Tobit con censura en los datos y el modelo Tobit truncado, También
se tienen presentes los problemas de correccién de ia seleccién muestral incluyendo el
‘truncamiento incidental y el procedimiento de estimacién bietdpica de Heckman o Heckit.
El contenido del libro sigue los textos més completos de Ia actualidad en esta materi
como son los casos de los textos de Wooldridge, Green, Gujarati, Johnston, Pulido, Novales,
Aznar, Pefia y otros
EL AUTOR
Madrid, enero de 2006
We MES PareninteCONTENIDO
Capitulo 1
Capitulo 2
Modelo de regresién miltiple: estimacién, inferencia
y prediccién...
1.1 Conceptos: Los datos en econometria
1.1.1 Concepto de econometia
1.1.2. Estructuras de datos, Datos de corte transversal
© seceién eruzada
1.1.3. Estructuras de datos. Datos de series temporales.
1.1.4 Estructuras de datos. Combinaciones de cortes transversales
1.1.5. Estructuras de datos. Datos de panel o longitudinales
1.2 Modelo de regresién miiltiple con datos de corte transversal
Estimacién e inferencia
1.2.1 Modelo de regresién lineal multiple, Hipstesis|
1.2.2 Interpretacién de los coeficientes.
1.23. Estimacién del modelo por minimos cuadrados
ordinarios MCO
1.2.4 Estimacién MCO del modelo, contrastes e intervalos
de confianza a través del célculo matricial
1.2.5 Consistencia de los estimadores MCO.
1.3. Predieciones
1.4 Anilisis de los Residuos.
Problemas.
Modelos de regresién multiple con datos de corte
transversal sass
2.1 Modelos con datos de corte transversal
2.2 Heteroscedasticidad: Estimacién MCG
2.2.1 El problema de Ia heteroscedasticidad y su deteecisn
22.2 Soluciones para la heteroscedasticidad: Minimos Cuadrados
Generalizados MCG y Minimos Cuadrados Ponderados
2.2.3. Soluciones para la heteroscedasticidad: Modelos ARCH
y GARCH.
22.4 Soluciones para la heteroscedasticidad: Ajuste de White
Reon
12
12
13
4ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
Capitulo 3
Vile © res Parnino
23
24
26
Multicotineatidad
2.3.1 El problema de Ia multicolinealidad y su deteccién
23.2 Soluciones para la multicolinealidad.
Normatidad de las perturbaciones
2.4.1 El problema de Ia falta de normalidad en los residuos.
24.2. Soluciones para la falta de normalidad en los residuos,
No linealidad y errores de especificacién
2.5.1 Error de especificacién en la seleccién de las
variables explicativas
2.5.2. Error de especificacién en la forma funcional
Exogeneidad y regresores estocésticos
2.6.1 El método de las variables instrumentales
2.62. Elestimador de minimos cuadrados en dos etapas MC2E.
2.63. Elcontraste de Hausman
Problemas.
Modelos de regresién miltiple con series temporales
34
32
33
34
35
Regresién con series de tiempo
Autocorrelacién
3.2.1 El problema de la autocorrelacién y su deteccién
3.2.2. Soluciones para la autocorrelacién.
Regresisn con variables cualitativas: variables ficticias
3.3.1 Modelos de regresién con variables cualititativas.
3.3.2. Variables ficticias en el andlisis estacional.
3.3.3. Variables ficticias en la regresi6n por tramos.
Estabilidad estructural
3.4.1 Constancia de los parémetros y contraste de prediceién
de Chow
3.4.2. Cambio estructural y contraste de Chow
3.4.3. Residuos recursivos: Contrastes basados en la
cestimaci6n recursiva,
3.4.4 Contrastes CUSUM y CUSUMQ.
Heteroscedasticidad con series de tiempo
Problemas.
61
61
2
6
63
107
108
109
109
113
4
4
7
17
18.
118
119
120
121
122
123Capitulo 4
Capitulo 5
Modelos dinamicos y ARIMA. Rajces unitarias y cointegracién...
4.1. Modelos dinémicos
4.1.1 Modelos con retardos distribuidos finitos
4.1.2 Modelos con retardos distribuidos infinitos
4.2. Andlisis univariante de series temporales
4.2.1 Componentes de una serie temporal
4.2.2. Modelos ARIMA
4.2.3. Series estacionarias
4.2.4 Series estacionales
4.2.5 Metodologia de Box Jenkins para los modelos ARIMA.
3. Elproblema de las regresiones espurias
4.4 Contrastes de rafces unitarias
4.4.1 Contrastes de Dickey-Fuller de las raices unitarias,
4.4.2. Contrastes de Phillips-Perron de las rafces unitarias.
45 Anélisis de la cointegracion
4.5.1 Contraste de Phillips-Oularis para la cointegracién.
4.6 Modelos de correccién por el error MCE.
Problemas.
Modelos con datos de panel y combinaciones de cortes
transversales....
5.1 Modelos de regresién con datos de panel
5.2. Modelos de panel de coeficientes constantes
5.3, Modelos de panel de efectos fijos
5.4. Modelos de panel de efectos aleatorios
5.5. Modelos con datos de panel dinémicos
5.6 Combinaciones de cortes transversales (poo!)
Problemas.
CONTENIDO
163
164
164
165
166
166
167
169
172
173,
178
179
179
180
181
181
182
183,
© TES Paraninfos IKECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
Capitulo 6 Modelos de ecuaciones simulténeas y sistemas.
X0@ MTES Parente
107
Sistemas de datos de panel
6.1 Introducci6n a los modelos estructurales de ecuaciones
simulténeas
6.2 Identificacién de modelos de ecuaciones simulténeas
63 Estimacién de modelos de ecuaciones simulténeas
6.4 Métodos de estimacién de sistemas
6.5 Modelos de ecuaciones simulténeas con series de
mpo
66 Modelos de ecuaciones simulténeas con datos de panel
Problemas.
‘Modelos de variable dependiente limitada: Logit, Probit
y Recuento.
7.1. Modelos de variable dependiente limitada
7.2. Modelos de eleccién discreta
7.3. Modelos de elecci6n discreta binaria
7.3.1 Modelo lineal de probabilidad.
7.3.2 Modelos Logit y Probit
7.4. Modelos de eleccién miiltiple
7.4.1 Modelo Logit Multinomial
7.4.2 Modelo Logit Condicional
7.43. Modelo Logit Anidado
7.4.4. Modelo Probit Multinomial
7.4.5, Modelo Probit y Logit Ordenados
7.5. Modelos de datos de recuento
7.5.1 Modelo de regresién de Poisson.
7.5.2. Modelo de regresi6n de Binomial Negativa
7.5.3. Modelo de regresién Exponencial
7.5.4 Modelo de regresién Normal.
Problemas.
265
266
268
an
215
216
ann
278
299
300
301
301
301
302
306
306
307
308
309
309
310
310
313
313
313
313CONTENIDO
Capitulo 8 Modelos censurados, truncados y de seleecién muestral:
Modelos Tobit... 339
8.1 Modelos censurados: El modelo Tobit 340
8.1.1 Interpretacién de los coeficientes en el modelo Tobit. 341
8.1.2 Efectos parciales en el modelo Tobit 341
8.1.3 Modelo Tobit con censura en los datos. 342
8.2. Estimaci6n del modelo Tobit censurado 343
8.2.1 Estimacién maximo verosimil (MV). 343
8.2.2 Estimacién por minimos cuadrados en dos etapas 343
8.3. Seleccién muestral: modelos truncados 344
8.4. Estimacién del modelo Tobit truncado 344
8.4.1 Efectos parciales en el modelo Tobit truncado 345
8.4.2. Estimacién maximo verosimil (MV) 345
8.4.3 Estimacién por el método de Amemiya en dos etapas. 346
8.5. Correccién de la seleccién muestral 346
8.5.1 Truncamiento incidental 346
85.2 Procedimeinto de estimaci6n bietipico de Heckam o Heckit. 347
Problemas. 348
© ITES-Paraninfos XIECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
1.1__CONCEPTOS: LOS DATOS EN ECONOMETRIA
1.1.1 Concepto de econometria
Puede considerarse la econometrfa como la integracién de la teorfa econdmica, las
matemiticas y las téenicas estadisticas, con el objeto de contrastar hipstesis sobre fenémenos
‘econdmicos, aportar estimaciones numéricas de los coeficientes de las relaciones econémicas
y prever o predecir los valores futuros de las variables o fenémenos econémicos,
La econometria presupone la existencia de un conjunto de teorfas 0 hipstesis
‘econsmiicas que hay que contrastar. Si las variables que sugiere la teorfa econémica no ofrecen
una explicacién satisfactoria, el investigador puede experimentar con formulaciones y
variables alternativas sugeridas por las contrastaciones anteriores o por otras teorias. De esta
forma, la investigacién econométrica puede dar lugar a la aceptacién, el rechazo o la
reformulacién de las teorias econémicas. Las mateméticas se utilizan para expresar las
afirmaciones verbales de las teorias econémicas en lenguaje simbélico, expresando relaciones
exactas 0 funcionales deterministas entre las variables inmersas en los modelos. El anélisis
estadistico aplica las técnicas adecuadas para estimar las elaciones inexactas 0 no
experimentales entre variables econémicas, utilizando los datos econémicos relevantes.y
evaluando los resultados.
La investigacién econométrica implica en general tres etapas. La primera consiste en
Ia especificacién del modelo o de las hipdtesis realizadas en forma de una ecuacin explicita
estocéstica, junto con las especificaciones tedricas a priori sobre el signo y la magnitud de los
parémetros de la funcién. La segunda etapa consiste en la recopilaci6n de los datos sobre las
variables del modelo y 1a estimacién de los coeficientes de la funcién con las técnicas
econométricas adecuadas. La tercera etapa consiste en la evaluacién de los coeficientes
estimados de Ia funcién utilizando criterios econémicos, estadisticos y econométricos,
1.1.2 Estructuras de datos. Datos de corte transversal o seccién cruzada
Dentro de las estructuras de datos més importantes, tipicas en el trabajo econométrico
aplicado, tenemos los datos de corte transversal 0 datos de seccién cruzada. Un conjunto de
datos de corte transversal es una muestra compuesta por individuos, familias, empresas,
ciudades, estados, paises u otro tipo de unidades muy variadas recogida en un momento
determinado del tiempo. En general podemos suponer que los datos de corte transversal se han
obtenido mediante un muestreo aleatorio de la poblacién subyacente. Por ejemplo, si
‘obtenemos informacién sobre los salarios, la educacién, la experiencia y otras caracteristicas
escogiendo aleatoriamente a 500 personas de la poblacién empleada, podemos decir que
‘contamos con una muestrea aleatoria de toda la poblacién que tiene un empleo,
Los datos de corte transversal se emplean muy frecuentemente en economfa y en otras
ciencias sociales. En economfa, el andlisis de datos de corte transversal esta estrechamente
relacionado con distintas ramas de la microeconomia aplicada, como la economia del trabajo,
Jas finanzas pablicas tanto estatales como locales, la organizaci6n industrial, la economfa
urbana, la demografia y la economia de la salud. Los datos sobre individuos, familias,
‘empresas y ciudades en un momento determinado son importantes para contrastar hipstesis
microeconémicas y evaluar politicas econdmicas,
260 TES ParaitoMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
Hay ocasiones en que las muestras de seccién cruzada no son muestras aleatorias de la
poblacién, como ocurre cuando tenemos observaciones que no son independientes por
correlacién espacial (unidades geogratficas grandes con actividades econémicas correlacionadas),
‘© cuando hay otros disefios de muestra (muestreo estratificado) o seleccién muestral derivada de
Ja no respuesta de determinados individuos de la poblacién
1.1.3 Estructuras de datos. Datos de series temporales
Un conjunto de datos de series temporales consiste en observaciones sobre una variable 0
distintas variables a lo largo del tiempo. Ejemplos tipicos de datos de series temporales son el
producto interior brato, la oferta monetaria, los indices de precios al consumo, las tasas
amuales de homicidio o las cifras de venta de automéviles. Dado que los acontecimientos
pasados pueden tener influencia sobre acontecimientos futuros, y los efectos retardados en el
‘comportamiento de los individuos son frecuentes en ciencias sociales, el tiempo es un
ardmetro importante en los conjuntos de series temporeales. Por oposicién al orden de los
datos de corte transversal, la disposicién cronolégica de las observaciones de una serie
temporal sf transmite informacién potencialmente importante.
Los datos de series temporales suelen utilizarse més en el anélisis macroeconémico,
en contraposicién a los datos de corte transversal, que se utilizan sobre todo en anélisis
macroeconémico. Las series temporales suelen ser mas dificiles de analizar que los datos de
corte transversal debido a que casi nunca podemos suponer que las observaciones econémicas
son temporalmente independientes. La mayorfa de las series temporales, ya sean econémicas
no, estén relacionadas (a menudo fuertemente relacionadas) con su historia reciente. Por
ejemplo, nuestro conocimiento sobre el producto nacional bruto del trimestre pasado nos dice
bastante del nivel de PIB que podemos esperar para el trimestre en curso ya que el PIB tiende
apermanecer estable de un trimestre a otro. Otra caracteristica importante de los dato de series
‘temporales es la periodicidad con la que se recogen (semanal, mensual, trimestral, etc.) con el
hhecho adicional de que muchas series temporales semanales, mensuales 0 trimestrales
muestran una caracteristica estacional marcada que puede ser un factor importante en Ia
metodologia del anélisis de dichas series
1.1.4 Estructuras de datos. Combinaciones de cortes transversales
Una combinacién de cortes transversales o pool de datos es una estructura de datos que tiene
ccaracteristicas tanto de datos de corte transversal como de datos de series temporales. Un pool
de datos es una fusidn de varios cortes transversales de datos recogidos en diferentes momentos
del tiempo en Ia misma poblacién. Por ejemplo, supongamos que se hacen dos encuestas de
corte transversal sobre familias en un pafs, una en 1985 y otra en 1990, En 1985, se hace una
cencuesta con una muestra aleatoria para obtener variables como el nivel de ingresos, de ahorro,
cl tamaiio de las familias, etc. En 1990, se hace un nuevo muestreo aleatorio de las familias y se
‘emplean Jas mismas preguntas que en 1985 para hacer Ia encuesta, Con el objeto de aumentar el
tamatio de la muestra, podemos formar un conjunto de datos fusionados de seccién cruzada
‘combinando los datos de dos aftos. La fusién de datos de corte transversal de distintos aiios a
menudo resulta wtil para analizar los efectos de nuevas politicas gubernamentales. La idea
consiste en recopilar datos de los afios anteriores y posteriores a un cambio politico clave.
Generalmente, los datos fusionados de seccién cruzada se analizan de forma muy
parecida a los datos de corte transversal convencionales, excepto que a menudo necesitamos
tomar en cuenta diferencias de las variables a lo largo del. tiempo. De hecho, ademés de
aumentar el tamaito de la muestra, el objetivo de la fusién de datos de seccidn cruzada es
menudo observar también c6mo una relacién clave ha cambiado con el tiempo. No obstante,
al combinar secciones cruzadas obtenidas por muestreo aleatorio de la misma poblacién en
distintos momentos del tiempo, tendremos una muestra de observaciones distribuidas
ndependientemente pero no idénticamente.
© MES-Parainios 3ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
1.1.5 Estructuras de datos. Datos de panel 0 longitudinales
Un conjunto de datos de panel, o datos longitudinales, consiste en una serie temporal para
cada unidad de una seccién cruzada (0 conjunto de datos de corte transversal). Como ejemplo,
supongamos que tenemos un registro de datos sobre el salario, Ia educacién, y el historial de
‘empleo de un conjunto de individuos seguidos durante un perfodo de diez afios. También
odriamos recopilar informacién sobre los datos financieros o de inversién de un mismo
conjunto de empresas durante un periodo de cinco afios. Los datos de panel también pueden
recopilarse sobre unidades geogréficas. Por ejemplo, podemos recopilar datos sobre flujos de
immigraci6n, nivel de imposicin, salarios, gastos del gobierno, etc., en el mismo conjunto de
pafses de la Unién Europea para los aiios 1990, 1995 y 2000. La caracteristica clave de los
datos de panel que los diferencia de los datos fusionados de seccién cruzada es el hecho de
‘que se recoge informacién de las mismas unidades de seccidn eruzada (individuos, empresas 0
pafses) en los distintos momentos del tiempo,
Dado que la recogida de los datos de panel requiere que se repitan las mismas
unidades a encuestar a lo largo del tiempo, éstos son més dificiles de obtener que los datos
fusionados de seccién cruzada, especialmente cuando se trata de datos sobre individuos,
unidades familiares o empresas. No obstante, una ventaja de los datos de panel es que, a
menudo, nos permiten estudiar la importancia de retardos en el comportamiento o de retardos
en Ja toma de decisiones. Esta informacién puede ser muy significativa dado que se puede
esperar de muchas medidas econémicas que no tengan ningtin impacto hasta que no pase
cierto tiempo desde su puesta en aplicaci6n,
1.2 MODELO DE REGRESION MULTIPLE: ESTIMACION E
INFERENCIA
1.2.1 Modelo de regresién lineal multiple. Hipétesis
La regresién miiltiple tiene como objetivo analizar un modelo que pretende explicar el
‘comportamiento de una variable (variable endégena, explicada o dependiente), que designaremos
‘como ¥, utilizando Ia informacién proporcionada por los valores tomados por un conjunto de
variables explicativas (exdgenas o independientes), que designaremos por Xi, Xo. Xe
EI modelo lineal (modelo econométrico) viene dado de la forma:
=f BXi+ BrXrt ut BX €
Los coeficientes (parimetros) 8, (3, ... -denotan la magnitud del efecto que las variables
explicativas (ex6genas o independientes) X;, Xo, ... Xe tienen sobre la variable explicada (endégena 0
dependiente) ¥. El coeficiente se denomina término constante (0 independiente) del modelo. El
término 1 se denomina término de error del modelo.
Disponemos de un conjunto de T observaciones para cada una de las variables
endégena y ex6genas. Entonces, podremos escribir el modelo de la forma:
Ye Bt BXut BpXast wot BXwt &
La aparicién (no necesaria) de un término independiente en el modelo puede
interpretarse como la presencia de una primera variable Xo cuyo valor sea siempre 1
El problema fundamental que se aborda es el siguiente: suponiendo que la relacién entre la
variable Y y el conjunto de variables X;, Xp... , X, es como se ha descrito en el modelo, y que se
dispone de un conjunto de T observaciones para cada una de las variables, Ia endégena y las
‘ex6genas, jcémo pueden asignarse valores numéricos a los parametros &, 8, Py . &
baséindonos en la informacién muestral? Estos valores se lamarén estimaciones de los parémetros.
460 ITES-PeraninoMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
Una vez. encontradas las estimaciones de los parémetros del modelo, podremos hacer
predieciones acerca del comportamiento futuro de la variable ¥.
Formulamos el modelo lineal bajo las siguientes hipstesis clasicas:
+ Las variables X;, Xp... Xi son deterministas (no son variables aleatorias), ya que su valor
es constante proveniente de una muestra tomada, y ademas no estn correlacionadas con el
término de error & es decir, E([Link],... Xz) = 0 (hipstesis de exogeneidad).
+ La variable ¢ (témmino de error) es una variable aleatoria con esperanza mula y mattiz de
covarianzas constante y diagonal (matriz escalar). Es decir que, para todo 1, la variable &
tiene media cero y varianza o” no dependiente de 1, y ademas Cov(, &)=0 para todo i y
para todo j distintos entre si. EI hecho de que la varianza de & sea constante para todo t
(que no dependa de 0), se denomina hip6tesis de homoscedasticidad y puede también
expresarse como V(4X1,X2, .. Xe) = 0 y V(N|XiX2, . Xe) = 0°. El hecho de que
Cov(é, 6)=0 para todo i distinto de j se denomina hipétesis de no autocorrelacién
* La variable ¥ es aleatoria, ya que depende de Ia variable aleatoria € Ademés, Ia
relaci6n entre ¥ y X;, Xo, .., Xces efectivamente lineal (hipstesis de linealidad),
‘+ También se supone la ausencia de errores de especificacién, es decir, que suponemos
que todas las variables X que son relevantes para la explicaci6n de la variable Y, estan
incluidas en la definicidn del modelo lineal,
‘© Las variables X;, Xz, Xeson linealmente independientes, es decir, no existe relacién
lineal exacta entre ellas. Esta hipdtesis se denomina hipétesis de independencia, y
cuando no se cumple, decimos que el modelo presenta multicolinealidad.
‘+ También se considera la hipdtesis de normatidad de los residuos, consistente en que
las variables & sean normales para todo t
1.2.2 Interpretacién de los coeficientes
Supongamos que para una muestra escribimos e1 modelo como (modelo nivel-nivel)
+ BX BXait ont BXwt &
con:
~ E(Y|X,, XX )=B+ BX, + BX +.4BX,
~ V(¥|X,.X,
En caso de que todas las variables excepto X) permanezean constantes, tenemos
AE(Y|X,.X, 505 X,) = BAX,
Entonces podemos interpretar el coeficiente , como el niimero de unidades que varia
‘en media ¥ cuando X; varia en una unidad (permaneciendo el resto de las variables constantes.
El término constante se interpreta como el prondstico de ¥ cuando las X; se anulan,
© MES-Parainios 5ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS
Supongamos ahora que para una muestra escribimos el modelo con logaritmos en la/s
variable/s exégena/s (modelo nivel-log). Tenemos:
Y=A+AmX+e
E(e\X)=0> E(Y|X)= 8 +AInX
AE(Y|X) _ AE(Y|X)
AlnX AX/X
Multiplicando y dividiendo por 100 para expresar Ia variacién de X en términos %
tenemos:
AE(Y X.
B1i99~ AEX)
100% AX / X
Podemos interpretar entonces que cuando X varfa en un 1%, ¥ varia en media en
1100 unidades de ¥.
‘Supongamos ahora que para una muestra escribimos el modelo con logaritmos en la
variable endégena (modelo log-nivel). Tenemos:
InY=f+hX+e
E(e|X)=0— E(n¥\X) = 8 + BX
AE(nY|X) _ E(AY/¥|X)
AX AX
Si multiplicamos por 100 para expresar la variacién de ¥ en términos % tendremos:
E(QOOxAY/Y|X)
100 =
ax 7m
Podemos interpretar entonces que cuando X varia en una unidad, ¥ varia en media en
sun (B.x100) %.
‘Supongamos ahora que para una muestra escribimos el modelo con logaritmos en la
variable endégena y en la/s exdgenas (modelo log-log o de doble logaritmo). Tenemos
+ BInX +e
E(E|X) =0—9 EdnY|X) =f, + B1nX
((nY\X) _ BAY /¥\X)
AlnX AX/X
Podemos interpretar entonces que cuando X varia en un 1%, ¥ varfa en media en un
Bi%, es decir, se interpretan los coeficientes en términos de elasticidades.
660 ITES-PerainoMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
Supongamos ahora que para una muestra escribimos el modelo con términos
cuadriticos en la variable endégena. Tenemos:
E(6)X) =O E(Y|X) =f + BX + BX
AE(Y|X)
AX
A+2BX
Podemos interpretar entonces que cuando X varia en 1 unidad, ¥ varfa en media en
BA+2X unidades. En este caso A y 6; no tienen interpretacién por separado. Dependiendo
del signo de f; los efectos marginales serdn crecientes (£:>0) 0 decrecientes (;<0). Existe un
punto eritico en el que Ia curva E(Y|X) cambia de pendiente: ¥*=~6,/28,
La tabla siguiente resume las interpretaciones anteriores,
Variable | Variable 5
Modelo ent | independiene | CTP PCtaciOn de
‘nivel = nivel y x Ay= Aide
nivel = log y Tog) | Ay=(B, /100)%Ax
tog nivel | log(y) x
Tog —log_|_log(y) Tost)
1.2.3. Estimacion del modelo por minimos cuadrados ordinarios MCO
Supongamos que queremos ajustar el modelo de regresién lineal méltiple:
Ya f+ BXi+ BXo+ ct BXet €
Disponemos de un conjunto de T observaciones para cada una de las variables
endégena y exdgenas, Entonces, podremos escribir el modelo de la forma:
Ye Pot BXut Xa t ot BXut & 121,23, 047
La aparicién (no necesaria) de un término independiente en el modelo puede
interpretarse como la presencia de una primera variable Xo cuyo valor sea siempre 1
El ctiterio de minimos cuadrados ordinarios MCO considera que la funcién que mejor se
ajusta a los datos es la que minimiza la varianza del error ¢ lo que es equivalente a minimizar:
1
S(Bo. Boor Bed = D6? =P, ~ Bo + Bir + Bake, +2 + Boxe)?
Derivando respecto de los parémetros ff... € igualando a cero tenemos:
© MES-Paraninios 7ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS
aa S10, As, +B ttamned=0 | [S>=mh AIK ATi
8 3, -Br Ant At + ABN) =O So =ASW ALY AD:
BF
BD Wey tBeerAaness=0) Br Arad rst ADS
Estas ecuaciones forman un sistema denominado sistema de ecuaciones normales, que puede
resolverse para ff, ..., & mediante cualquier método apropiado para resolver sistemas de
‘ecuaciones lineales. De esta forma se obtiene la estimaci6n del modelo.
1.2.4 Estimacién MCO del modelo, contrastes e intervalos de confianza
a través del calculo matricial
Ya sabemos que el modelo lineal de regresién miiltiple puede eseribirse de la forma:
+ BX BX t ot BXut &
La expresién anterior puede representarse en forma matricial como sigue:
YY (Xu Xa Xa (Bo
Hy |_|1Xp Xn Xe | A
YJ Xr Xap Xe
Abreviadamente podemos poner: Y= X 8+ €
EI primer objetivo del anélisis econométrico es el de obtener estimaciones, es decir,
valores numéricos de los coeficientes A, i, fy, .... como funcién de 1a informacién
‘muestral. Estas estimaciones pueden ser también por intervalos, es decir, que podremos
calcular intervalos de confianza para los pardmetros.
Supongamos que disponemos ya de un vector de estimaciones B de los coeficientes.
Podrfamos eseribir:
io + BAX, + BX a tt BX,
Y= Bot BX yt BX a tA BX CHL Book
Los residuos son, por definicién, las diferencias entre los verdaderos valores de la
variable ¥, y los valores estimados para ¥,. Es decir, é, ~Y, para todo t.
De aquf deducimos que Y = ¥ + é = XB + é , con lo que el modelo original es Y = XB+ €
y el modelo estimado ser. ¥ = XB + é. Las estimaciones de los pardmetros pueden calcularse por
‘el método de minimos cuadrados, consistente en minimizar la suma de los cuadrados de los
residuos, también Hamada suma residual (SR), cuya expresi6n es la siguiente:
Ye Le -¥)
860 ITES-PeraninoMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
El valor de las estimaciones de los pardmetros (por mfnimos cuadrados o por maxima
verosimilitud) viene dado por la expresién B=(X'X)?X'Y; dichas estimaciones son
insesgadas, pues E(B)= B. La matriz de covarianzas de 8 resulta sero? (X'X)"!
De los resultados anteriores deducimos que el estimader , de uno cualquiera de los
‘coeficientes 8, tiene como esperanza matemitica fi, y como desviacién tipica el valor o%a,, donde a,
‘es el elemento i-ésimo en la diagonal principal de la matriz o (X'X) *.
Luego, bajo la hipétesis de normalidad de los residuos, el estadistico N,
sigue una distribueién normal (0,0).
El estimador (maximo verosimil y de minimos cuadrados) de o7 es
cestimador no es insesgado. Un estimador insesgado de la varianza del error es
gee
T-k-1
Por otra parte, también se demuestra que el estadistico G=ee/o? sigue una
distribucién Chi-cuadrado con T-K-1 grados de libertad, lo cual nos va a permitir calcular
intervalos de confianza y contrastes de hipotesis para oy para su cuadrado.
Las distribuciones de los estadisticos Ni y G nos evan a la conclusién de que el
estadistico N, / [GAT-k-1)]'” es una t de Student con T-k-I grados de libertad, lo que permite
sigue una distribucién 1 de Student con T-K-I grados
éJa,
‘grados de libertad, Jo cual nos va a permitir hallar intervalos de confianza y contrastes de hipétesis
para los pardmetros B del modelo. Se podré contrastar la hip6tesis nula H, de que f= 0 para cada
i=12,...,T” de la forma habitual utilizando el estadistico T;; es decir, si Tg es el valor de 7; cuando
B= 0, se aceptaré Ia hipstesis Ho al nivel a-cuando Tip Star 1 El intervalo de confianza para
al nivel ot vendré dado por 8 ttazr-s1 Ga; (taxr-+-1€ el valor de la abscisa de una t de Student
‘con T-K-1 grados de libertad, que deja a su derecha a/2 de érea).
Introdueimos ahora los siguientes conceptos:
© Suma total st = Py, -¥)' =Y'¥-17?
Yy-T¥"
© Suma explicada SE=Y,
*
© Suma residual SR=Y'(¥, ~¥)? = é4 (concepto ya conocido).
La swna total es la varianza muestral de la variable endégena (salvo el factor tamafio
muestral), y es por tanto una medida del tamaiio de las fluctuaciones experimentadas por dicha
variable alrededor de su valor medio. El objeto fundamental de todo modelo econométrico es
‘tratar de explicar dichas fluctuaciones.
Lasuma explicada es el grado de fluctuacién de la variable ¥; alrededor del promedio
de Y. Por tanto, la suma explicada es el nivel de fluetuacién de la variable Y; que el modelo es
‘capaz de explicar. Es la variaci6n explicada por los regresores.
© MES-Parainios 9ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS
La suma residual, ya introducida previamente, es un indicador del nivel de error del
‘modelo en su intento de explicar la evolucién temporal de la variable ¥,
Ya sabemos que
(Y ~ XBY( - XB)=Y'Y -BYX'Y =¥'Y-¥'Y
Luego podemos escribir la igualdad Y'Y =¥'Y + é'é ,y si a los dos miembros de esta
igualdad les restamos T ¥ ?, tenemos que:
wy
TY?)=(P'Y -TY7)+ 22,0 sea, ST = SE + SR.
Luego se tiene: Suma total = suma explicada + suma residual
A estos tres términos se les Hama Suma de euadrados.
‘A cada suma de cuadrados dividida por sus grados de libertad se le Hama cuadrado medio.
Bajo la hipstesis de normalidad de los residuos, SE se distribuye segin una Chi-cuadrado con k
‘grados de libertad, SR segdin una Chi-cuadrado con T-K-1 grados de libertad, y ST segéin una Chi-
‘euadrado con n=I grados de libertad. Por tanto el Cuadrado Medio explicado por el modelo ser
CM(E) = SEZ, y el Cuadrado Medio residual sera CM(R) = SRAT-k-1).
Se define el coeficiente de determinacién (R°) como una medida descriptiva del ajuste
‘global del modelo cuyo valor es el cociente entre la variabilidad explicada (o suma explicada) y la
variabilidad total (0 suma total), 0 sea, R° = SE/ST = 1 ~SR/ST.
‘Un modelo sera tanto mejor cuanto mayor sea R’, aunque esta afirmaci6n no sea demasiado
severa, ya que este coeficiente depende mucho de mievas variables introducidas en el modelo,
aunque éstas no empeoren Ia calidad de la regresién. Este problema se arregla sustituyendo este
coeficiente por el coeficiente de determinacién comegido, que para muestras grandes ya no va a
0» , 0 sea, para muestras grandes, (T—I)(T-k-1) —> 1 y no.
depende de k, que es el ntimero de variables del modelo. Ademés, T > 2° => R* — R°.
Ahora ya podemos considerar a R? como una buena medida de la calidad de la
regresién. El modelo sera tanto mejor cuanto mayor sea el coeficiente de determinacién
corregido R*
De las distribuciones de SE y SR, se deduce que el estadistico:
SE/k
F = ———— tiene una distribucién F(&,T- k-1) de Fisher Snedecor.
SRAT-k-l)
Pero como 1-R? = SR/ST, podemos poner F de la forma:
1060 ES-PacanntoMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
R’_(r-k-1)
F(k,T ~k-1)=
« ER)
Por tanto el estadistico F nos permitiré hacer contrastes sobre el coeficiente de
correlacién, Para el caso de regresi6n simple (k=1) tenemos una F(I,7-2) que equivale a una
1 de Student con 7-2 grados de libertad.
(B- By X'X(B-B)
El estadistico sigue una distribuci6n F(k,T-K-1).
Este estadistico va a permitir hallar regiones de confianza a un nivel de significacion
@ para el conjunto de parémetros B, del modelo. Este estadistico también nos va a permitit
ccontrastar la hipétesis nula 6;
El cuadro del andlisis de la varianza quedaré como sigue:
Fuente de Suma de Grados de | Cuadrados
variacin cuadrados Libertad __| medios
Modelo SE k (CM()=SER
residual SR 1 CM(R)=SRAL-F-1)
Touat 5 FA
El estadfstico més general:
(DB - DBy{DEe"x)*D'y*(DB- DB)
Ke
T
también sigue una distribucién F(k,7—k-1) para una matriz, adecuada D.
Este estadistico va a permitir realizar contrastes més generales de diversas clases de
hipotesis y construir regiones de confianza para los parémetros del modelo y para las
predicciones. Para ello basta tomar las formas adecuadas de Ia matriz D.
Para contrastar la hipétesis {= f°, (a= By" ...= B’, tomamos:
0 10 = 0)\(A) (B
Olen, epp=|o 1 OA) |B) 7p GBIeXG-By
om] 1?
00-1 00 NB) Le
Para contrastar un subconjunto de parimetros Ais= But”, Aa= Bar’ vB Bur»
tomamos
= DA~ BVIDX'XY'D’
ene
or
pardmetros, que pueden escribirse en general de la siguiente forma:
© MTES-Paraninfow 11ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS
ayy + aby to + OB, = Bi
AyB, + dyaby ++ A,B, = By
4B, + 428, ++ A By = Be
tomando:
ay (DB = DBy(D(X'X)"D(wB - DB)
16
SFr
1.2.5 Consistencia de los estimadores MCO
El teorema de Gauss-Markov asegura que en el contexto del modelo de regresién lineal (bajo
los supuestos tipicos) los estimadores MCO de los pardmetros fi, f, .. i son los de
menor varianza entre los estimadores lineales ¢ insesgados. Ademés, los estimadores MCO,
By B,.By.-.By son estimadores consistentes de Ay fi, Bx... Bi
Dicho de otra forma, los estimadores MCO fy, A. Ay... son estimadores
consistentes de los pardmetros fi, ffi, -- J porque su sesgo tiende a cero cuando el tamaiio
ruestral tiende a infinito.
1.3 PREDICCIONES
Una de las finalidades del andlisis de los modelos econométricos es hacer
predicciones para la variable dependiente, Si estimamos el modelo ¥=XB y obtenemos el
modelo estimado 7 = XB, tenemos que el valor ¥, = Xj es un estimador lineal insesgado
Sptimo del pronéstico de ¥, para un valor dado X, de X.
Se puede predecir la media, E(Y), 0 el valor puntual, Yo. Los errores de prediccién
vendrén cuantificados por las varianzas de los predictores. La varianza para la prediccién en
media vale 0? XAX'X)"' Xo
Un intervalo de confianza para Ia prediccién en media al nivel c vendré dado por la
expresiOn ¥y tty, ,(@/2)6YX 9(X'X) 1X", donde t¢r-4-1,(@2) es el valor de la t de Student
‘con T--1 grados de libertad en el punto a/2.
La varianza para la prediccén puntual vale o° (Xo(X'X)" Xo'+1), y un intervalo de
confianza para la_prediccién puntual vendré dado por la expresién definida como
¥y tty 4 (@/DGY1+ XXX) 'X,", donde tyr-4.1(@2) es el valor de la de Student con
T-K-A grados de libertad en el punto 2.
1260 ES PacanintoMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
1.4 __ANALISIS DE LOS RESIDUOS
Una vez construido el modelo de regresién, tendremos que contrastar entre otras las
hipétesis de linealidad, normalidad, homoscedasticidad, no autocorrelacién e independencia,
materia que se ampliaré en sucesivos capftulos de la segunda parte de esta obra, Los residuos
van a presentar una primera informacién sobre estas hipstesis.
Si el histograma de frecuencias de los residuos no se ajusta al de una normal, pueden
existir valores atfpicos. Eliminando los pares (X; ¥)) que producen los valores atipicos, se
puede conseguir normalidad en los residuos.
Si graficamos los valores de ¢ contra los valores de é, (0 sea, si hacemos la grifica
ccuyos puntos son los pares (1, é,) y detectamos una tendencia creciente o decreciente en el
grafo, puede existir autocorrelacién o correlacién serial
Si graficamos los valores de ¥, contra los valores de é, , 0 sea, si hacemos la grifica cuyos
puntos son los pares (¥.,2,) y detectamos una tendencia de cualquier tipo en el grafo, puede existir
autocorrelaci6n, ya que habré correlacién entre los residuos. También puede haber en este caso
heteroscedasticidad, o también falta de linealidad.
Si graficamos los valores de Y, contra los valores de é,7, 0 sea, si se hace la grifica
‘cuyos puntos son los pares (¥, ,2,”) y detectamos una tendencia de cualquier tipo en el grafo,
puede existir heteroscedasticidad
Si graficamos los valores de X, contra los valores de é,, 0 sea, si se hace la grafica cuyos
Puntos son los pares (X,, é,) y detectamos una tendencia ereciente o decreciente en el grafo, puede
cexistir autocorrelacidn, ya que los residuos no estardn incorrelados con las variables explicativas
‘También puede haber heteroscedasticidad, o falta de linealidad.
sgraficamos los valores de X, contra los valores de é,?, 0 sea,
¢ hace la gréfica
‘cuyos puntos son los pares (X,, é,”) y detectamos cualquier tendencia en el grafo, puede existir
heteroscedasticidad o falta de linealidad (habré relacién entre la varianza del término del error
y las variables explicativas)
Estos andlisis pueden realizarse también utilizando residuos estandarizados 0 residuos
cestudentizados, que suelen ser més efectivos para detectar deficiencias en el modelo.
Los residuos estudentizados, cuya distribucién es una f de Student con T-k-2 grados
de libertad, se usan también para detectar valores atfpicos en los residuos (a
normalidad de los residuos o de la mala especificacién del modelo)
Un contraste muy importante para detectar la autocorrelacién es el contraste de
Durbin-Watson, segiin el cual el estadistico:
de-2,
nos permite adoptar la regla no demasiado rigurosa de que si d vale 0 hay autocorrelacién perfecta
positiva; si d se aproxima a 2 no hay autocorrelacién, y si d se aproxima a 4 hay autocorrelacién
perfecta negativa. No obstante, d se encuentra tabulado, y segtin la franja en la que caiga su valor,
se acepta 0 rechaza la hipotesis de autocorrelacién
© TES Paranintow 18ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS
Si la matriz X°X tiene determinante cero, no podré calcularse su inversa (ni podrén hacerse
Jas estimaciones de los parémetros), en cuyo caso hay multicolinealidad. Este problema suele
resolverse sustituyendo las variables del modelo por un conjunto grande de sus componentes
principales para hacer de nuevo la regresién, pero esta vez. con las componentes principales
como variables independientes del modelo. La multicolinealidad también puede abordarse
mediante la matriz. de correlaciones de las variables independientes, ya que las variables con
correlacin alta pueden ser candidatas a provocar multicolinealidad, problema que puede
ntentar solucionarse eliminando una de las variables fuertemente correlacionadas, siempre
que dicha variable no sea relevante.
PROBLEMAS
1.1. Una empresa desea estimar la demanda de sus productos D, en funcién del precio de los
mismos P,, para lo cual dispone de los datos de ambas variables en los iltimos 120 meses. La
‘empresa utiliza los siguientes modelos:
D D= + oP +6,
2) LogD, = By + BlLogh, + 5,
3) Log, = My + MR +0,
4) D.=Yo+ HLogR, +0,
Se pide:
1. (Cuil es el signo esperado del coeficiente a; del primer modelo?
2. Interpretar econémica y matematicamente los coeficientes % y a
3. Interpretar el significado econémico de los coeficientes A. i y /
4, {Cémo se pueden obtener las elasticidades precio de 1a demanda en cada modelo a
partir de a, A fy 1?
SOLUCION
1, Lo légico seria que Ja demanda de productos disminuya al aumentar su precio, con lo que el
signo del coeficiente «i del primer modelo debe de ser negativo
2. Enel modelo D, =a) +a,P+¢,, el coeficiente a es Ia derivada parcial de la cantidad
demandada respecto al precio:
Entonces el coeficiente a} econémicamente mide cuantas unidades variaré Ia cantidad
demandada cuando el precio se incrementa en una unidad. El coeficiente 0 medirfa Ia
demanda prevista a precio nulo, lo que en este caso carece de significado.
1400 TES PacanintoMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
Para Interpretar 8; en el modelo LogD, = fy + [Link], +6, derivamos como sigue:
ALogb, _ ALogD,
ALogP, ALogP,
Podemos entonces interpretar 3; como la elasticidad precio de la demanda, Por lo tanto, cuando
Jos precios crecen un 1%, Ia demanda lo haré un £,%. Entonces el coeficiente oj
econémicamente mide cuantas unidades variaré la cantidad demandada cuando el precio
se inerementa en una unidad
Para interpretar /4; en el modelo LogD, = fy + [4,P, + 0, derivamos como sigue
AD,
@LogD, _ALogD, _D, __AD,
1 OP, AP, AP, D,AP,
‘que es una semielasticidad, Por Io tanto, cuando los precios erecen un 1%, Ja demand lo hard un
Hil
Para interpretar 44; en el modelo LogD, = Uy + u4,P, + v, derivamos como sigue:
AD,
ALogD, _ALogb, __D,
1 OP, AP, AP, D,AP,
‘que es una semielasticidad, Por Io tanto, cuando los precios erecen un 1%, Ja demand lo hard un
Hil
Para interpretar 7, en el modelo D, = ¥y + 7;LogP, + @, derivamos como sigue:
ap, AD,
, , Pp
OLogP, ALogh, AP, AP, *
?,
n
Por lo tanto, cuando los precios crecen un 1%, la demanda variaré 7 unidades.
La elasticidad precio de la funcién de demanda es:
Luego tenemos:
© TES Paranintow 15ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS
aD, atogb, P,
~ dLogD,' OP, D,
1
Wogd,
aD,
3)
4) D,
Formular y comentar el modelo adecuado cuando se trata de estudiar 1a evolucién de la
cantidad demandada de un activo financiero F por un agente a lo largo de 36 meses en funcién
de su rendimiento I, del riesgo que conlleva R y de la renta del agente ¥. {Qué modelo seria el
adecuado para estudiar Ia variacién de Ia cantidad de demanda del activo financiero por 50
agentes distintos a lo largo de 36 meses en funcidn del rendimiento del activo, el riesgo que
conlleva y la renta de cada agente? Formular y comentar el modelo adecuado para estudiar los
gastos en publicidad G de las empresas de un determinado sector en funcién del volumen de
sus ventas Vy del niimero se sucursales S, sabiendo que se dispone de datos recogidos a 31 de
diciembre sobre 100 empresas distintas.
SOLUCION: En el primer caso, la variable dependiente es la demanda del activo financiero
F, que depende del rendimiento del activo financiero 1, de si riesgo R vy de Ta renta del agente
Y. Como la evolucién de la demanda viene recogida a lo largo de 36 meses para un agente,
estarfamos ante un caso de modelo de series temporales, cuya modelizacién seria:
F =A Pl +R +BY, +8,
2,036
En el segundo caso tenemos datos de la evolucién de la demanda de activos
financieros para 50 agentes distintos recogidos a lo largo de 36 meses. El modelo adecuado
sera un modelo de datos de panel, que se formularia como sigue:
Bit Bal + Bay + BM e+ Ey 112036 7
En el tercer caso estarfamos ante un modelo con datos de seccién cruzada ya que han
sido recogidos en un mismo momento del tiempo para las 100 empresas que componen la
‘muestra utilizada para el estudio de los gastos en publicidad. El modelo serfa el siguiente:
G,=B,+ BV, + BS, +e, i= 1,100
1660 ITES-PacanintoMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
En un estudio para aumentar Ia supervivencia (variable y en tanto por ciento) de determinada clase
de plantas se utilizan concentraciones de tres productos diferentes (variables xi, % y Xs en gramos),
Para distintos valores de las variables x;, x2 y x3 se obtienen los siguientes porcentajes de aumento
de la supervivencia:
yoy
BS_U7s 5301080
312 632 542 9.40
259 622 841 7.20
38.4 1052 463 8,50
184 119 11,60 9,40
267 122 585 9,90
264 410 662 8,00
259 632 872 9.10
32,0 408 442 8,70
25,2 415 7,60 9,20
39,7 1015 483 9,40
35,7 472 312 7,60
265 170 530 8,20
Ajustar los datos a un modelo de regresi6n lineal miltiple que explique el porcentaje de
aumento de Ia supervivencia en funcin de las concentraciones de los tres productos que inciden
sobre la supervivencia de las plantas. Realizar la estimacién de la varianza. Construir un
intervalo de confianza al 95% para la respuesta media cuando x= 3, x= 8 y xs= 9. Construir
también un interval de prediccién al 95% para una respuesta individual del porcentaje de
supervivencia cuando x\=3, x= 8 y x =9. Realizar el contraste de hipétesis by = -2,5 contra by >
-25 para a= 0,05. Caleular el coeficiente de determinacién R’ y realizar también el contraste de
significacién conjunta de la regresién y el contraste de significatividad individual parémetro a
pardmetro.
SOLUCION: Realizaremos el ajuste del modelo Y = XB + u por la via matricial. Para ello
‘comenzamos considerando las matrices
1 174 530 1080) 255
1 632 542 9.40 312
1 622 841 7,20 259
1 1052 463 8,50 384
1 119 11,60 9,40 184
1 122 585 9,90
X=|1 410 662 8,00
1 632 872 910 259
1 408 442 8,70 320
1 415 7,60 9,20 25.2
1 1015 483 9,40 397
1172 312 7,60 357
1 170 530 8,20 265
(© MTES-Paranintow 17ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS
Los pardmetros estimados serén:
8,0648 = 0,0826 -0,0942 ~0,7905)( 3775 39,1574
A i =0,0826 0,0085 0.0017 _0,0037 || 1877,567]_| 1.0161
B=(x'x)'xX'Y = =
=0,0942 00017 0,016 + -0,0021 || 2246,661| | -1,8616
-0,7905 0,037 -0,0021 0.0886 )| 337,78) \-0,3433,
Por tanto tenemos:
by = 39,1574, 6, =10161, b,
1.8616, b, = -0,3433
Por tanto, el modelo de regresi6n lineal miltiple ajustado seré
$=39,1574 + L061x, -18616x, ~ 0.34331,
El estimador de la varianza residual vendré dado por la expresién:
a (¥-xBy — XB) _'Y -(xByY
T-k-1 13-3-1 9
=4,298
No olvidemos que las matrices ¥,X y B son ya con:
s
Un intervalo de confianza para la respuesta media vendra dado por:
Botta; Fyro(X'X) "Xo
Para nuestros datos tenemos:
So = 39.1574 + 1,061(3) ~1,8616(8) - 0,3433(9) = 24,2232
8,0648 -0,0826 -0,0942 ~0,7905
=0,0826 0,0085 0,017 0,0037
=0,0942 0.0017 0,0166 -0,0021
=0,7905 0,037 -0,0021 0,0886
(XX) =0,1267
3.8 9)
Caw
‘Como tons = 2,262 para T-k- = 13-3-
So ttg Oy x(X'X) 7X = 24,22+ (2,262)(2,073) 0.1267 = [22,5541 25,8923]
Un intervalo de confianza de prediccién para una respuesta individual cuando 21= 3, x2
=8 y.x5=9 vendra dado por:
By HtasaGYlt xq(X'X) xy = 24,2232 4 (2,262)(2,073)of1.1267 = [19,2459 29,2005]
Se observa que el intervalo de prediccién es bastante més ancho que el intervalo de
confianza para el porcentaje de supervivencia media.
grados de libertad, tenemos:
1860 ITES-PacanintoMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
Para realizar el contraste de hipotesis by
estadistico:
2,5 contra by > -2,5 para or= 0,05 utilizamos el
5) _ -18616-(-2,5)
2,073y/0.0166
04 < 0,05, se rechaza Ia hipstesis b;
2,391
Como el p-valor es P(T? > 2,391) =
acepta by > -2,5 al 95% de confianza.
Sy se
Para calcular el coeficiente de determinacién utilizamos la expresién:
5,-57
SE ZO pyre _expyy-17* _ 80.45
sr ig <> VY-1T¥? YY-TY? — 43813
Yo, -7
9117
Este resultado significa que el 91,17% de la variacién en el porcentaje de
supervivencia de las plantas se explica con nuestro modelo de regresi6n lineal.
Para contrastar Ia significatividad conjunta de los pardmetros del modelo, es decir,
by = b, = b, = b, = 0, utilizamos el estadistico:
Elk ke 39.
SRIT=k-1) = RT
0,975
Fires
ED G-O91T) 3-3-4383
‘Como el p-valor P(F 39 > 30,975) =
conjunta del modelo,
,0001 < 0,005 se concluye la significatividad
Para contrastar Ia significatividad individual del modelo (pardmetro a parémetro), es
decir, 6,
para cada parémetro:
Los valores de 7; resultan ser 6,651, 5,323, -6,964 y -0,556. Sus p-valores asociados
Ply > T)) resultan ser 0,001, 0,0005, 0,0001 y 0,5916. El tinico coeficiente con problemas de
significatividad al 95% es bs, que resulta significativo a partir del 94%.
Es préctica habitual presentar los resultados del ajuste comenzando con el cuadro del
andlisis de la varianza:
Puenie ‘Suma de cuadrados Grados Cuadrados medion F
Modelo SE=¥¥ -T¥" XY -TY?* k
Residual sR = iri =(y - XBYY -XB)=V'Y-PyY F-k-1
Toral ST=yy-1¥? re
© ITES-Paranintow 19ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS
Que para nuestros datos ha resultado ser el siguiente:
Fuente Sumade cuadrados Grados Cuadrados medion _F ___p—valor
Modelo SE=SASST 3 CME=TSBISIG oe Scan
Residual SR=38.6764 9 CMR = 4.29738
Total ST=43813077 ‘12 RT =09117
EI R’ es muy bueno y el modelo es significativo globalmente ya que el p-valor del
ccontraste de la F es menor que 0,05,
La presentaci6n habitual de los resultados del ajuste también conlleva un cuadro con
Jos valores de los parmetros estimados, el valor de Ia 1 de Student para su significatividad
individual y los p-valores asociados, En nuestro caso tenemos:
Variable Pardmetro Valor delaT _p-valor
Constante 3915735 —-6,651__—_0,0001
x 10161 5323 0.0005,
x - 1861649 -6964 0,001
% 0.34326 0.556 0.5916
De esta forma se observan répidamente las estimaciones de los parimetros del modelo
y su significatividad individual.
El trabajo relativo a este problema puede automatizarse con el software econométrico
Eviews introduciendo los datos en un fichero de trabajo ([Link]/), cargéndolo en el programa
usando File > Open ~ Eviews Workfile...(Figura 1-1) y eligiendo el fichero en la ventana Open
(Figura 1-2). Al pulsar Abrir se carga en memoria el fichero. Si queremos ver el contenido del
‘conjunto de datos bastard con seleccionar todas las variables del modo habitual en Windows, hacer
clic con el botén derecho del rat6n sobre la seleccién y elegir Open — As Group (Figura 1-3). Se
ve asf el contenido de todas las variables del modelo como un grupo (Figura 1-4).
Para realizar la regresién, se elige Quick —> Estimate Equation (Figura 1-5), se
escribe Ia ecuacién del modelo a ajustar en el campo Equation Specification de la solapa
Specification, se elige Least Squares en el campo Method (para ajustar por minimos
‘cuadrados) y se hace clic en Aceptar. Se obtienen los resultados de la Figura 1-6.
tem [Srome ____s] + meh
Wace Hibctowi Same lor
iSimecst lst slarmross lor,
Sona Simi Sor
Sweat Swen fac
ean pata rn
Been fon Sood
Pets. tome fT =]
x Se feeewcntan al ee
teeta ten
Figura [-1 Figura 1-2
2068 ITES- ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION
Sejreiansonelerdsens_|Peloe| pte even = brn oe oan]
roy Fee sadpeot_
7
7]? 2 se
a] 3) ie ie
oe)
so 6 ee
[7 | 9
=| 8 | tp a
co rL) |
oe | tet
ao] |e a
a [ne
Figura 4
Fn) ES [eelenoa
fon 13 = ate ‘ty Fe
Samii 3 = fas
a
Been
Ba
a2 er ces) Ewe nanny fn
Sonata ose
Eahnrarctcsin
‘eee ny ng erg
‘naFoC noe OF neces enone
Ree
Neod|Es~ ee See US sl
ef
© MTES-Paraninfos 21ECONOMETRIA. CONCEPTS Y PROBLEMAS RESUELTOS
Dependent Vana:
Nato. Leet Saoxes
Sate mor me 1250
Sani 113
Incledeasevaian: 19
[veri Yectoeransoona cre
‘ficient Std. Ener
em E easter
cw Sarin
os) 4 £5573
ci) Da
Resquared (911724 Mean dependent var
Aavsted Roques 0622200 SO vopendentvar 6005
SE oftegrcsion 2.073012 Akaike ino citeron 4 543512
Sum squared resid SBG7EAD) Schwarzcntenon 4717373,
Log tthe’ PSE? Dubin'Watson stat 1587590
Palace oearenas [Some (Wem 1S
Figura 1?
Observamos que las estimaciones de los pardmetros (Coefficient), los valores del
estadistico T (t-Statistic) y los p-valores (Prob) obtenidos a través de Eviews coinciden con los
obtenidos realizando los célculos directamente, pero la salida de Eviews es més rica. La
columna Std, Error recoge la desviacién tipica estimada de los pardmetros del modelo y puede
utilizarse para el célculo de intervalos de confianza de los pardmetros estimados a un nivel
(Coefficient * tan res Std. Error). Como el valor de la t de Student tooas = 2,262 para T-k-1
1-3-1 = 9 grados de libertad, tenemos que los intervalos de confianza al 95% para los
pardmetros estimados serén:
39,15735 + 2,262(5,887060)
1,016100 + 2,262(0,190895)
=1,86164 + 2,262(0,267325)
-0,34266 + 2,262(0,617052)
EL R? ajustado vale 0,88 (indicativo de un buen ajuste al ser muy alto), el error
estindar de la regresidn (S.E. of regresién) es bajo y estima Ia desviaci6n tipica del error (su
cuadrado es la varianza residual estimada 6?= 4,29). Los valores bajos de los criterios de
informaci6n de Akaike y Schwarz indican que el modelo es bueno. El valor del estadistico de
Durbin Watson, no demasiado alejado de 2, indica que los problemas de autocorretacién no
son relevantes, La suma de los errores al cuadrado (Sum squared resid) es el valor de la
funcién objetivo en el minimo cuando estimamos por mfnimos cuadrados ordinarios, El
logaritmo de la funci6n de verosimilitud (Log likelihood) es el valor de 1a funcién objetivo en
el maximo cuando se estima por méxima verosimilitud. Las caracteristicas bisicas de la
variable dependiente vienen recogias por su media (Mean dependent var) y su cuasi
desviacién tipica muestral (S.D. dependent var)
La ecuacién del modelo definitivo ajustado es:
¥ = 39,15 +1,016Xi-1,86X2-0,34 Xs
2268 ITES ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION
La opeién View —> Representations (Figura 1-8) ofrece la ecuacién del modelo
cestimado (Figura 1-9).
Pe petro
—
inaten Egon
Figura 1-8 Figura 9
Al interpretar esta salida vemos que un aumento unitario en la concentracién del
primer producto produce un aumento de 1,016 unidades de la variable Y, es decir, un aumento
de un 1,016% en la variable ¥ por venir esta titima dada en tanto por ciento.
De igual forma, un aumento unitario en la concentracién del segundo producto
produce un descenso de 1,86 unidades de la variable Y, es decir, un descenso de un 1,86% en
a variable Y.
Por ultimo, un aumento unitario en la concentracién del tercer producto produce un
descenso del 0,34% en la variable ¥.
En cuanto a la constante, podria interpretarse diciendo que para valores nulos de las
concentraciones de los tres productos, el porcentaje de supervivencia de las plantas es del
39,15%, es decir, las plantas sobreviven casi con un 40% de probabilidad aunque no se le
apliquen determinadas concentraciones de los tres productos. La constante juega aqui el papel
de una cota fija de supervivencia de las plantas independiente de la aplicacién 0 no de las
correspondientes concentraciones de los tres productos.
El software Eviews permite calcular directamente la significatividad conjunta de los
pardmetros estimados del modelo a través del p-valor del contraste de la F siempre y cuando
se introduzca Ia ecuacién que define el modelo (pantalla Equation Estimation) tal y como se
a en la Figura 1-10 (en lugar de lo indicado en la Figura 1-6). Al pulsar Aceptar, se
obtiene Ja Figura 1-11. Se observa un p-valor de la F muy pequeiio (0.000045), Io que indica
Ja aceptacién de la hipstesis de Ia significatividad conjunta de todos los parémetros del
modelo (pueden considerarse todos los pardmetros del modelo significativamente distintos de
cero simulténeamente con una probabilidad muy alta),
La significatividad individual de cada pardmetro se analiza a través de los p-valores
de la columna Prob en la Figura 1-11 (0 en Ia Figura 1-7), Se ve que todos los parémetros
estimados son fuertemente significativos individualmente (distintos de cero) por tener p-
valores muy pequefios, salvo el parimetro de la variable Xs, que presenta una baja
significatividad del 41% (p-valor = 0,59). Este hecho podria Ilevarnos a eliminar esta variable
del modelo.
© MES Paranintos 28ECONOMETRIA. CONCEPTS Y PROBLEMAS RESUELTOS
unto Eta cee +N aoe
Pleo ere nt er ee
Eatin teeter
eos eS oT
sowe
Figura 10 Figuea t-11
Eviews también permite contrastar restricciones en los pardmetros a partir del Contraste
de Wald mediante View — Coefficient Tests» Wald-Coefficient Restrictions (Figura 1-12),
Rellenando la pantalla Wald Test como se indica en la Figura 1-13 se contrasta la significatividad
cconjunta de los parémetros estimados por esta via (alternativa al test de la F). En la Figura 1-14 se
“observa el rechazo de la mulidad simulténea de los parémetros porque el p-valor es muy pequefio,
es decir, se acepta Ia significatividad conjunta de los parémetros del modelo. Por otta parte, si
rellenamos la pantalla Wald test como se indica en la Figura 1-14, al pulsar Aceprar se obtiene la
Figura 1-16, cuyo p-valor pequefio indica el rechazo de la hipétesis by = 2.5
Bethe
~ Cocfiient oatitions separated bp conmat
CFoeceaCIA
ajatted Raa Enereples:
Heer Ee SE BS | eit tow
Figuea 1 2 Figoa
es re
Ecce Utd = Costicient restrictions separated by commas
eat a a ea
i Evans
Sei tanrse Cor}0, Cra-20H8)
Figara 1-14 Figura t-15
24 6.© ITES ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION
Fine ens neiarl race eon vets
eG van
Figure P16
Para caleular predicciones (una en nuestro caso), nos situamos en la pantalla Workfile y
elegimos Proc — Siructure/Resize Current Page (Figura 1-17) para ampliar el tamafio de Ta
muestra hasta el valor 14 (Figura 1-18). Al pulsar OK se obtiene el aviso de la Figura 1-19
indicativo de la insereién de una nueva observacién en la muestra (que de momento no tiene
valores), Si es necesario, con Proc —» Set Sample... se amplfa el tamafo de la muestra a 14, La
siguiente tarea es introducir los valores de X;, Xz y Xs para los que se obtendré ta prediccién
Para ello seleccionamos como grupo las tres variables eligiendo Open —» as Group en el ment
emergente obtenido al hacer clic con el bot6n derecho del ratén sobe las tres variables
seleccionadas simulténeamente (Figura 1-20). A continuacién, en la pantalla Group se pulsa en
Edit y se introducen los tres valores ee las variables (Figura 1-21). La tarea siguiente es elegir
Proc — Forecast en la pantalla Equation (Figura 1-22) y rellenar la pantalla Forecast como se
indica en la Figura 1-23 (El vector Y¥f contiene las predicciones y SEf sus errores esténdar). Al
pulsar OK aparecen los dos vectores en la pantalla Workfile (Figura 1-24).
or oe
a
te [———
Ce] cea _|
Figura 1-17 Figura 1-18
ESI]
og
2 nae ST
Figura 1-19 Figara 1-20
© MES Paranintow 25ECONOMETRIA. CONCEPTS Y PROBLEMAS RESUELTOS
fstrslves| pees rate seen exits
is 1 T
os ae
‘Sener nares Metbos a:
— =.
ay eel |B
Ss Becet a (22
a EB
Ee
E
Feces wee
pea
et
—
Tigura FE Tigra -S¥
Al hacer clic sobre yf en la Figura 1-24 se obtiene la Figura 1-25, cuyo tltimo valor es
la prediccién de la variable dependiente pedida (24,2311). Si se hace clic sobte sef, se
obtiene la Figura 1-26, cuyo tiltimo valor es el error estdndar de la prediccién (2,209586), que
se utilizaré para calcular el intervalo de confianza para la prediccién individual (Eviews no
calcula el intervalo de confianza para la prediccién en media),
| a eae PSOE a =I
Ma ainrencn a
Figura 1-25 Figura 1-26
Como fos = 2.262 para 7-k- = 13-3-1 = 9 grados de libertad, un intervalo de confianza
de prediccién para una respuesta individual cuando 8 y.x5=9 vendrd dado por:
Ja thy gOyl + xg XY x, = 24,2231 + (2,262)(2,209586) =[19.2 29,2]
26 © ITES- ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION
Una vez estimado un modelo es muy convenirte realizar un andlisis de los residues
para detectar posibles anomalfas, Para ello, en la pantalla Equation, se utilizan las opeiones de
Actual, Fitted, Residual del ment View (Figura 1-27). La subopeién Actual, Fitted, Residual
Table ofrece los resultados de la Figura 1-28. Se obtienen los valores de la variable endégena
‘observados Y, y estimados Y, y el valor de los residuos. El gréfico de los residuos presenta dos
ineas discontinuas situados a una distancia de +25 de la Iinea central continua, siendo S el
error estindar de la regresién (estimador de la desviacidn tipica del error). Estas bandas
permiten detectar In presencia de residuos significativamente distintos de cero (atipicos). En
iuestro caso los residuos niimeros 5, 11 y 12 se salen de las bandas (aunque no demasiado), lo
‘que puede indicar que son atipicos. La subopeién Actual, Fitted, Residual Graph muestra el
‘gréfico de Ia Figura 1-29 que representa los residuos en el eje de ordenadas de Ia izquierda y
los valores de la variable endégena observados y estimados en el eje de ordenadas de Ta
derecha. De esta forma, en la parte superior del grifico aparecen las grificas de los valores de
Ja variable endégena observados y estimados, que han de coineidir lo més posible. En la parte
inferior aparece el grifico de los residuos con las bandas +25, que coincide con el grafico de la
Figura 1-28. Este grafico ha de ser lo més aleatorio posible sin comportamiento sistemético de
ningéin tipo para evitar In existencia de algiin error de especificacién en el modelo o la
presencia de otros problemas como a autocorrelacidn. La opcisn Residual Graph de la Figura
1-27 presenta solamente el grifico de los residuos y la opcin Standardized Residual Graph
presenta el grafico de los residuos estandarizados (Figura 1-30). No se observan problemas de
‘comportamiento sistemitico residual por lo que puede suponerse aleatoriedad de los residuos.
Los posibles valores atipicos pueden venir originados por la presencia de una variable poco
significativa en el modelo (Xs).
eer a
enone) a erel tec) enna] te]
scree be | aes | Fee [Bosal] —— Renae
Seenecormee +] tease Zn 2x0
Sateen 7] am 7305
Ae Simm B81 0
ane Lg asam0 sz
aa semana mune [3] oxo ose
Bom Bos sm 23%
Figura 1-27
Figura 1-25 Figura 130
(© MES Paranintow 27ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
> 1.4. Consideramos el modelo y,
a+ Bix, + Boss uy los siguientes datos para su ajuste:
Estimar el modelo y la varianza residual y calcular Jos coeficientes de determinacién y de
determinacién corregido, Realizar también los contrastes de hipstesis: A=
(contraste de
significatividad conjunta de los parémetros del modelo), £.=(=0, £.=10f,, 2A+28+78=50,
(B=10f,, 2f+28+7=50).
SOLUCION: Realizaremos este ajuste por la via matricial. Para ello comenzamos
considerando las matrices:
28 +8 ITES-Paraninto
11 0
13-1
1400
xi St
17-1
18 0
110 -1
110 2
Los pariimetros estimados serén:
8 48 0)'/ 368
ba(x'x)'xy=|4s 364 5] [270
o s 8) | 35
Por tanto tenemos:
7
n
2887-384 240) 6,47
<1 |-384 64 -40/] 6,588
664
240-40 608 )\0.257
0257
Por tanto, el modelo de regresi6n lineal miltiple ajustado seré
47 + 6,588x, +0,257.,
El estimador de la varianza residual vendré dado por la expresi6n:MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION
(— xBy XB) _ V'Y-(xBYY
1B-3- 9
18,513
No olvidemos que las matrices ¥, X y B son ya cono«
Para calcular el coeficiente de determinacién utilizamos la expresin:
se LON py rp oxpyy 12
ST PY-TF? 3408
33153024 _
st -
Lorw
=09728
Este resultado significa que el 97,28% de la variacién en Ia variable dependiente se
explica con nuestro modelo de regresisn lineal,
El coeficiente de determinacién corregido se calcula como sigue:
0962
Para contrastar la significatividad conjunta de los pardmetros del modelo, es decir,
y= B, = B; = 0 ulilizamos el estadistic
tk Rik 9728/2
SRT =k=1) 0=R)T=k=1) 0-0.9728)8-2-)
Fars
9,411
Como el p-valor PCF 35 > 89.411) = 0,00009 < 0,005 se concluye Ia significatividad
conjunta del modelo, También puede observarse en las tablas de la F que F 903,38 = 5.41 <
89.41, lo que nos lleva a la aceptacién de a significatividad conjunta del modelo (rechazo de
& }
Para contrastar la hipstesis nula
aque en este caso es:
= 0 usamos la forma adecuada de la matriz D,
1}
ya que:
La hipstesis nula es a
0
4 }-(): y el estadistico del contraste sera:
© MES Paranintow 28ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
Saale yo} (4
pb, = DB= OD XDI DB= Or _ ve iv
donde V" es el elemento que ocupa la fila i y la columna j en la matriz (X'X)"!
Sustituyendo tenemos:
esis o2s7) {4 40) "(ssi
2 4664\-40 608} (0,257,
Fs
e
= 89,558
Como F 99525 = 5,79 < 89,558 se rechaza la hipstesis nula al 95%.
Para contrastar la hipstesis nula f,-10/;= 0 usamos la forma adecuada de la matriz D,
que en este caso es:
p=(0 1 -10)
ya que:
Bo
pp=(0 1 -10)) 6, |=#,-199,
Bs
El estadistico del contraste sera:
vt yt pry oy!
(-10A,)}(0 1-10] v2 y= ye |] a |] -20,
vv ve }l-10
donde V/s el elemento que ocupa la fila y la colunma j en la matriz (XX)
Sustituyendo tenemos:
(6588-000,
2887-384 240) 0 )]"
e}(o 1 -15 =384 64-40] 1
240-40 608 }{-10
0.066
é
Como F goss = 13,071 > 0,066 se acepta la hipétesis nula al 95%.
Para contrastar la hipstesis nula 2/4 + 2, + 7 = 50 usamos la forma adecuada de Ia
matriz, D, que en este €aso es:
D=@ 2 7)
90+ © ITES- ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION
ya que
DB=(2 2 1)) B |=28. +28, +78,
B:
El estadistico del contraste seré:
(DB - 50y(D.X'X)"D'T" (Dp - 50)
F,
“as 7
785
Como F 9951.5 = 13,071 > 2,785 se acepta la hipétesis nula al 95%.
B,-10f, =0
rencontre 4 88
Ia matriz, D adecuada es:
0
TG)
oF
pf? 1-10 b,
“lo 20 7 JP lop, +28,+76.
El estadistico del contraste sera:
(OB - DBY(D(X'Xy" DT (DB - Dpyir
Para los datos de nuestro problema tenemos:
ata) es)
2887 -384 240\( 0 2)]"
le at fPae a 20] 2)
oe 240-40 608 /|-10 7
6470
d(° © 2°) esas]-(°
227 so) [>
0.287,
5.038
Como F 90525 = 5.79 < 6,038 se rechaza la hipétesis nula al 95%.
Para resolver este problema con Eviews, se carga el fichero de trabajo (1-4.wk7) usando
File > Open —» Eviews Workfile... y se elige Quick —» Estimate Equation (Figura 1-31). Se
escribe la ecuacién del modelo a ajustar en el campo Equation Specification de la solapa
Specification, se elige Least Squares en el campo Method (para ajustar por minimos cuadrados)
y se hace clic en Aceptar (Figura 1-32). Se obtienen los resultados de la Figura 1-33. Se observa
{que Ia constante tiene una significatividad inferior al 90% (es distinta de cero al 90% de
confianza), el coeficiente de X; es muy significativamente distinto de cero (p-valor muy
equefio) y el coeficiente de X» no es significativamente distinto de cero (p-valor muy alto). El
R’y el R’ ajustado son 0,973 y 0,962 respectivamente (muy altos).
© MES Paraninfo« 31ECONOMETRIA. CONCEPTS Y PROBLEMAS RESUELTOS
Figura 1-31
patra
Figura 1-32 Figura 1-33
Para realizar los contrastes de restricciones sobre los coeficientes se utiliza View—>
Coefficient Tests—> Wald-Coefficient Restrictions (Figura 1-34) y se rellenan las pantallas de entrada
‘como se indica en las Figuras 1-35, 1-37, 1-39 y 1-41. El p-valor (Probability) pequefio de la figura
1-36 muestra el rechazo de Ia hipotesis =; = 0. El p-valor muy alto de Ia Figura 1-38 indica la
aceptacién de la hipstesis 4-10, = 0. El p-valor de la Figura 1-40 indica que se rechaza la hipétesis
50 al 85% de confianza, El p-valor de la Figura 1-42. muestra que se rechaza la
-y 28+ 2B + 78.= 50 simulténeamente al 95% de confianza.
Seared +
Sy TTT
Figura 1-34
9268 ITES- ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION
Coticint resins sepatated by commas
i
Examples
on-0, caHece aK Loree!
Figura 135 Figura 136
Caro a
CCoaticient esictons separated by commas poh
Percee pee ee ee
Examples
cmd, cower ea
Figura 1 37
Ceatficint esttionssanaated by comenas
eciecierrciaeso [restate Veta Pea
ac BRT Fee Pee Saas
CoO, os-2018) ox Gareel
Figura 1-39 Figura 40
fron
Confit esticionssapaaled by comenas
amples E meen Sats Tie
Op, Rec) [Sees smiaee nce
Figura (Hi Figura 1-42
El contraste A=.=/5=0 de significatividad conjunta de todos los pardmetros del modelo
puede obtenerse directamente si se rellena la pantalla Equation Estimation como se indica en la
Figura 1-43 (en lugar de la Figura 1-32). Al pulsar Aceptar se obtiene la Figura 1-44, que presenta
‘un p-valor para la F muy pequeito (Pob(F-statistc) = 0,000119), lo que nos eva a aceptar la
hip6tesis de significatividad conjunta de los parémeros del modelo con probabilidad muy alta
© MES Paranintos 38ECONOMETRIA. CONCEPTS Y PROBLEMAS RESUELTOS
Sots piel epnser vale
Soe ]] 5s exon
=
Figura 143 Figura 144
‘Como Ia variable X, resulta no significativa individualmente en el modelo (p-valor muy
alto), la excluiremos utilizando la opeién Proc — Specifi/Estimate (Figura 1-45) y y rellenando la
pantalla Equation Estimation sin la variable Xo (Figura 1-46). Al hacer clic en Aceptar se obtiene la
estimacién del modelo (Figura 1-47). Ahora la constante es significativa al 98% (p-valor de 0,08) y
la variable X; es muy significativa (p-valor muy pequefio). La significatividad conjunta de los
parémetros del modelo también es muy alta (p-valor de la F muy pequefio), Se observa que las
significatividades y el estadistico de Durbin Watson (més cercano a 2) han mejorado. La opcién
View — Representations muestra el modelo estimado (Figura 1-48), Se observa que el aumento de
‘una unidad en X; provoca un aumento de 6,6 unidades en ¥.
Secaeeae
Posie ee tune) uanenencSaesed
ete eet Seer
Bie teams pe |lYeemnscara
cite’ Stee
Sincecawis” £6019
Figura 1-47 Figura 1-48
94 6© ITES- ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION
> La produccién de la mineria espafiola entre los aiios 1969 y 1984 expresada en unidades
monetarias constantes de 1984 toma los valores X, de la tabla adjunta, El empleo del factor trabajo
‘en la produccién se expresa mediante la variable W, que cuantifica los millones de horas/hombre
trabajadas. Para medir el stock de capital o riqueza se utiliza la variable C, que representa la
potencia instalada en miles de caballos de vapor.
x WC,
1792 1935 1141
181.0 1828 1241
1831 17171357
1849 16341465
1858 1433. 1562
2208 1404 1742
2388 1416 1954
IAL 1386 2141
242.5 1454 2352
240.7 128, 2399
2485 1264 2557
3121 149.2. 2680
347.3 1459. 2899
366.2 1445 3082
4247 139.7 3062
4049 13183052
Se trata de estimar las elasticidades del trabajo y el capital respecto de Ia produccién de nuestra
industria minera en el periodo 1964-84 considerando como modelo la funcién de produccién de
Cobb-Douglas
SOLUCION: El modelo de Cobb-Douglas seré: X,= kW.°C"
Como se trata de un modelo no lineal, aplicamos logaritmos para transformarlo en el
modelo lineal siguiente:
LogX, = Logk+aLogW+bLogC+
Para resolver este problema con Eviews, se carga el fichero de trabajo (1-5.wk1) usando
File > Open — Eviews Workfile... y se elige Quick — Estimate Equation (Figura 1-49). Se
escribe Ja ecuacién del modelo a ajustar en el campo Equation Specification de la solapa
Specification, se elige Least Squares en el campo Method (para ajustar por mfnimos euadrados)
y se hace clic en Aceptar (Figura 1-50)
Se obtienen los resultados de Ia Figura 1-51. Se observa que todos los parémetros
estimados (incluida Ia constante) son significativamente distintos de cero (p-valores muy
Pequefios que indican una significatividad del 99% para el parimetro de W,, y superior para los
demas). El R’ y el R” ajustado son 0,91 y 0,9 respectivamente (muy altos).
© MES Paranintow 35ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
[revnaionen rele omer
Pines cea] neuro nfs
tex] “te a
Figura 1-49 “
Sees oatore pn oaa
soem
Figura 1-50 Figura 1-51
EI modelo estimado es el siguiente:
LogX, = -7.2940,94LogWe+ 1,06LogC,
‘que puede escribirse de la forma:
0006817, +c,
Como el modelo ha sido estimado con todas las variables en logaritmos, podemos
interpretar Jos pardmetros estimados en términos de elasticidades. Asf, Ia elasticidad trabajo-
producto se ha estimado en 0,94, lo que indica que si se inerementa el empleo de la minerfa en un
1%, la produccién cae algo menos del 1% (0,94%). Ademés, la elasticidad capital-producto es algo
superior a Ia unidad (1,06), lo que indica que incrementos del capital (potencia instalada) del 1%
_generan incrementos productivos superiores a ese porcentaje (1,06%).
‘Se observa que el R’ y el R” ajustados son muy altos explicando las variables exgenas mas de
‘un 90% de la variabilidad de Ia variable endégena. La desviacién tipica estimada del error es
0,093797 y los criterios de informacion de Akaike y Schwartz tienen valores pequefios con lo que
a capacidad explicativa del modelo es buena.
96 + © ITES- ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
El estadistico de Durban Watson tiene un valor demasiado alejado de 2, lo que puede
rovocar posibles problemas de autocorrelaci6n. La significatividad individual de los pardmetros
¢es buena porque los p-valores son menores que 0,05. La significatividad mas pequefia es casi del
99% (variable LogW). Para ver la significatividad conjunta, rellenamos la pantalla Equation
Estimation como se indica en la Figura 1-52. Al pulsar Aceptar se obtienen los resultados de la
Figura 1-53 observéndose un p-valor de la F muy bajo, lo que indica alta significatividad
conjunta de los pardmetros del modelo,
a as] ‘SSeS ucieaeerc"
a eens Saree ete
Figura 1-52 Figura 1-53
Para analizar Ja importancia de Ia posible autocorrelacién graficamos Jos. valores
observados de la variable dependiente contra los residuos a partir de la opeién Quick —» Graph —»
Scatter (Figura 1-54). Se rellena la pantalla Series list con los residuos y la variable dependiente
(Figura 1-55). Al pulsar OK se obtiene el grifico de dispersién de la Figura 1-56, que presenta una
estructura aleatoria de sus puntos indicando la ausencia de problemas serios de autocorrelacién.
fester
Figura 1-55
(© MTES-Paraninfos 37ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
> Se trata de analizar la relacién existente entre el grado de estrés de los trabajadores Y, medido a
partir del tamaiio de Ia empresa en que trabajan X;, el nimero de afios que levan en el puesto de
‘trabajo actual X, el salatio anual percibido Xs y la edad del trabajador X, Se dispone de las
“observaciones siguientes:
XX XY
812 15 30 38 101
334-8 20 52 60]
377, «5-20 27 10]
303 10 54 36 27
505 13 52 34 89
401 4 27 45 0
177 6 26 50 16
598 9 52 60 184
412 16 34 44 34]
127-2 28 39 «17
601 8 42 4178
297 11 84 $8 141
205 4 31 51
603 5 38 63 104]
4848 41 30 76)
Una vez hallada la relacién pedida entre Jas variables, evaluar la capacidad predictiva del modelo y
hallar predicciones del grado de estrés de los trabajadores para los valores siguientes de las,
variables independientes
SOLUCION: Podemos iniciar el problema realizando un anélisis conjunto de las series con la
finalidad de ver las relaciones entre ellas. Para realizar esta tarea con Eviews, se carga el fichero de
trabajo ([Link]/) usando File —» Open — Eviews Workfile.. y se seleccionan todas las variables
del modelo (con Ia tecla Ciri. presionada se eligen todas las variables con el ratén). A continuacién
se hace clic con el botén derecho sobre la seleccién y se elige Open —> as Group (Figura 1-57). En
la pantalla Group se elige View — Multiple Graphs — Scatter — First series against all... (Figura
1-58) para obtener la Figura 1-59, que permite intuir una relacién lineal positiva entre el grado de
estrés y cada una de las variables independientes. Esta relacién es mas fuerte con el tamafio de la
‘empresa X; y el salario actual X3. Podemos cuantificar las relaciones entre las variables mediante su
matriz de correlaciones (en el ment View de 1a pantalla Group en la Figura 1-58 se elige
Correlations —» Pairwise Simples) de la Figura 1-60. Se observa que el tamaiio de la empresa X; y
cel salario actual X3 son las variables que presentan mayor correlacién con el nivel de estrés ¥ y que
cexiste una cierta relacién entre el tamaiio de Ia empresa X; y el ntimero de afios en el puesto de
trabajo X>. También hay relacién entre esta ultima variable y el salario actual X;. Es légico
entonces realizar un ajuste lineal de Ta variable ¥ respecto de las demés variables.
98 + © ITES ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
Figure 57 Fiewre 3
ce saat
i cer ee ee te el
Figwa 59 Figura 1-60
Para realizar el ajuste lineal con Eviews, se elige Quick — Estimate Equation. Se rellena la
pantalla Equation Specification de la solapa Specification como se indica en la Figura 1-61), se
lige Least Squares en el campo Method (para ajustar por minimos cuadrados) y se hace clic en
Aceptar (Figura 1-62). Se obtienen los resultados de la Figura 1-63. Se observa que todos los
pardmetros estimados (salvo el coeficiente de X2) son significativamente distintos de cero al 95%
(p-valores menores que 0,05) y que Ia significatividad conjunta es muy alta (p-valor de la F may
pequefio). El R” y el R” ajustado son 0,84 y 0,78 respectivamente (muy altos) con lo que la
variabilidad explicada es alta. La desviaci6n tipica estimada del error es 24,03 y los criterios de
informacién de Akaike y Schwartz tienen valores pequefios con lo que la capacidad explicativa del
modelo es buena. El estadistico de Durban Watson tiene un valor no demasiado alejado de 2, 1o
‘que indica ausencia de posibles problemas de autocorrelacién. Si sobre Ia pantalla Equation
celegimos View — Representation se obtiene Ia ecuacién de ajuste del modelo Figura 1-64).
Smt ol aa a)
ear Piece ate
eens Boosie
os
oa ————3}|| eee) FP
a | ee
Figura I-61 Figura 1-62
© TES Paraninfos 38ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
ee
ag
7 sewer
Figuca 63
Figura -O4
Se observa que un aumento en una unidad la variable X; provoca un aumento en ¥ de 0,176
‘unidades suponiendo constantes el resto de las variables. Un aumento de una unidad en la variable Xs
‘con las dems variables constantes provoca un aumento en ¥ de 1,57 unidades. Para la variable Xl
aumento es superior (1,63). La variable Xs debe eliminarse del modelo por no haber resultado
significativamente distinta de cero. Para ello utilizamos la opei6n Proc —» Specify/Estimate Figura
1-65) y rellenamos la pantalla Equation Estimation sin la variable X> (Figura 1-66). Al hacer clic en
Aceptar se obtiene la estimacién del modelo (Figura 1-67). Ahora todas las variables del modelo han.
aumentado su significatividad (p-valores més pequefios) y los valores de R’ son mejores (mas altos).
La significatividad conjunta de los pardmetros del modelo también ha mejorado (p-valor de la F mas
pequelio). La opcién View —> Representations muestra el nuevo modelo estimado (Figura 1-68).
Figura 1-66
fram scar corse cara
Preteen On
Figura 1-67 Figura 1-68
40+ © ITES ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
Se observa que un aumento en una unidad Ja variable X; provoca un aumento en ¥ de 0,16
‘unidades suponiendo constantes el resto de las variables. Un aumento de una unidad en la variable Xs
‘con las dems variables constantes provoca un aumento en ¥ de 1,42 unidades. Para la variable Xl
aumento es superior (1,75). Se ve que al eliminar del modelo Ia variable Xa, los efectos de las
variables independientes sobre la variable dependiente han disminuido levemente. Por lo tanto, la
introduccién de Ia variable no significativa en el modelo provocaba una sobreestimacién de los
‘efectos de las restantes variables sobre la variable dependiente
Una vez estimado el modelo es muy conveniente realizar un andlisis de los residuos para
detectar posibles anomalias. Para ello, en la pantalla Equation, se utilizan las opciones de Actual,
Fitted, Residual del ment View (Figura 1-69). La subopeién Actual, Fitted, Residual Table ofrece los
resultados de la Figura 1-70. Se obtienen los valores de la variable endégena observados ¥, y
estimadosY, y el valor de los residuos. El gréfico de los residuos presenta dos Iineas discontinuas
situados a una distancia de #25 de la nea central continua, siendo § el error estndar de la regresién
(estimador de la desviaci6n tipica del error). Estas bandas permiten detectar la presencia de residuos
significativamente distintos de cero (atipicos). En nuestro caso. sélo el residuo ntimero 8 se sale de
Jas bandas (aunque no demasiado). La subopeién Actual, Fitted, Residual Graph muestra el gréfico
de la Figura 1-71 que representa los residuos en el eje de ordenadas de la izquierda y los valores de la
variable endégena observados y estimados en el eje de ordenadas de la derecha, De esta forma, en la
parte superior del grifico aparecen las grificas de los valores de la variable endégena observados y
cstimados, que han de coincidir lo més posible. En la parte inferior aparece el grfico de los residuos
‘con las bandas +25, que coincide con el grifico de Ia Figura 1-70. Este grifico ha de ser lo més
aleatorio posible sin comportamiento sistemético de ningtin tipo para evitar la existencia de algin
«error de especificacién en el modelo o la presencia de otros problemas como la autocortelac
ra) ester] antl sl enone fereeloeend eoeenearleesteel
timmmowse | an aes eae
eruetta a |ESEE os Se
Figura 1-70
~ \
aR a /\
tt
x V
© MTES-Paraninfow 41ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
La opeién Residual Graph de la Figura 1-69 presenta solamente el grifico de los residuos
y la opcidn Standardized Residual Graph presenta el grafico de los residuos estandarizados (Figura
1-72). No se observan problemas de comportamiento sistemético residual por lo que puede
suponerse aleatoriedad de los residuos,
Para calcular predicciones (tres en nuestro caso), nos situamos en Ia pantalla Workfile y
elegimos Proc — Structure/Resize Current Page (Figura 1-73) para ampliar el tamaiio de la
muestra hasta el valor 18 (Figura 1-74). Al pulsar OK se obtiene el aviso de ta Figura 1-75
indicativo de la insercién de una nueva observacién en la muestra (que de momento no tiene
valores). Si es necesario, con Proc — Set Sample... (Figura 1-73) se amplia el tamaiio de la
‘muestra a 18 rellenado la pantalla Sample como se indica en la Figura 1-76. La siguiente tarea es
introducir los valores de Y, X:, Xo, Xs y Xs para los que se obtendré la prediccién. Para ello
seleccionamos como grupo las cinco variables eligiendo Open — as Group en el ment
emergente obtenido al hacer clie con el botén derecho del ratén sobe las cuatro variables
seleccionadas simulténeamente (Figura 1-77). A continuacién, en la pantalla Group se pulsa en
:dit y se introducen los valores de las variables (Figura 1-78). La tarea siguiente es elegir Proc
~ Forecast en la pantalla Equation (Figura 1-79) y rellenar la pantalla Forecast como se indica
en la Figura 1-80 (El vector Yf contiene las predicciones y SEf sus errores esténdar). Al pulsar
OK se obtiene el grafico de Ia Figura 1-81 con los estadisticos de prediccién, Ademés, en la
pantalla Workgile apatecen los dos vectores Yf y SEf en la pantalla Workfile (Figura 1-82),
AI hacer clic sobre yf en la Figura 1-82 se obtiene la Figura 1-83, cuyos iltimos
valores son las predicciones de la variable dependiente pedidas.
Ty Fie
oe Pantene, =] Ferme feed
‘a ortho satise 7
Cotintonceettan > teen 5
Figura 1-73 Figura 1-74
Snel ange posal tet 20
“a. Rasie vas neta 3cbomvtone i =
@
NP Corinne?
1F conden eter
|
Figura 1-76
4268 ITES- ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
eer Bilan
Tt G— aera
| | rsa
= renege
(i
F irnt ena oleae cbienasine
ere eee
I Faysateronton
Figura 1-80
[oir psc beas/ | hn elena sna
See 11a = wae
Figura 1-83ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
Para evaluar la capacidad predictiva del modelo con Eviews, se utilizan los
estadisticos de la Figura 1-81, Siendo n el horizonte de prediccién, estos estadisticos son:
Coeficiente de desigualdad de Theil (Theil Inequality Coefficient): CDT
Proporcién del sesgo (Bias Proportion): ——“ —")_
VE -¥ ein
(S,~ Sp)"
Proporcién de la varianza (Variance Proportion); ——*—*~
Le -K en
2a
Proporcién de la covarianza (Covariance Proportion): <>!"
Le -¥ yn
Mientras més proximos estén a cero los valores de los cuatro primeros estadisticos,
mejor serd la capacidad predictiva del modelo, lo que permitiré comparar un modelo con otros
alternativos, Las tres proporciones varian entre cero y uno y también es conveniente que sean
equeias. Los resultados obtenidos para nuestto modelo en la Figura 1-81 muestran un
coeficiente de Theil muy cercano a cero, aunque los otros estadisticos no sean demasiado
equeiios. La proporcién de la varianza tiene un valor pequeio y la proporcién de la
covarianza tiene un valor més 0 menos aceptable, aunque no ocurre lo mismo con la
roporcién del sesgo, que tiene un valor algo alto, No olvidemos que s6lo tenemos tres
observaciones adicionales para la prediccién, lo que no permite alcanzar una capcidad de
prediccién demasiado buena.
4468 ITES ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
1.7. Se intenta medir el grado de salud en un grupo de personas controlando el consumo de oxigeno
(oxigen) en unas pruebas fisicas en funcién de su edad, peso, tiempo empleado en la realizacién de
las pruebas, pulsaciones en descanso (pd), pulsaciones en ejercicio (pe) y pulsaciones méximas
(pm), Para ello se intenta realizar un ajuste del conjunto de datos de que se dispone para estas
variables (I-7.w/l) a un modelo lineal que contenga las variables precisas de modo que la calidad
del ajuste sea razonable. Realizar los andlisis gréficos correspondientes para detectar posibles
problemas de autocorrelacién, heteroscedasticiad y no linealidad,
SOLUCION: Comenzaremos utilizando un modelo que englobe todas las variables definidas en
‘el modelo siendo oxigen la variable dependiente. Para realizar el ajuste lineal con Eviews,
‘cargamos el fichero de trabajo (1-7.wk1) usando File > Open —» Eviews Workfile... y se elige
Quick —> Estimate Equation (Figura 1-84). Se rellena la pantalla Equation Specification de la
solapa Specification como se indica en la Figura 1-85, se elige Least Squares en el campo Method
(para ajustar por minimos cuadrados) y se hace clic en Aceptar (Figura 1-86). Se obtienen los
resultados de la Figura 1-87.
eo
Egat ete
cette ceed big eg
tia. arene chia
Sa
Figura 1-84
ee thy EES
Sioa =
7 Racket tr 2388
Stine 1G
Figura 1-86 Figura t-87
© MES Paranintow 45ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
Se observa que todos los pardmetros estimados son significativamente distintos de cero al
95% (p-valores. menores que 0,05) salvo los relativos a las variables pd y peso y que In
significatividad conjunta es muy alta (p-valor de la F muy pequefio). El R* y el R? ajustado son
0,84 y 0,81 respectivamente (muy altos) con lo que la variabilidad explicada es alta. La desviacién
tipica estimada del error es 2,31 y los crterios de informacién de Akaike y Schwartz tienen valores
pequefios con lo que Ia capacidad explicativa del modelo es buena. El estadistico de Durbin
‘Watson tiene un valor no demasiado alejado de 2, lo que indica ausencia de posibles problemas de
autocorrelacién,
Las variables pd y peso deben eliminarse del modelo por no haber resultado
significativamente distinta de cero, Para ello utilizamos la opeién Proc —> Specif\/Estimate (Figura
1-88) y rellenamos la pantalla Equation Estimation como se indica en la Figura 1-89) Al hacer clic
‘en Aceptar se obtiene la estimacién del modelo (Figura 1-90). Ahora todas las variables del modelo
son todas significativas al 95% (p-valores més pequefios que 0.05 aproximadamente) y la
significatividad conjunta de los pardmetros del modelo es muy buena (p-valor de la F muy pequefio.
Laopeién View —» Representations muestra el nuevo modelo estimado (Figura 1-91),
[Pestnoscomt oes nem eal
— Sees |i
Bat Mtoe sos tse aries
Bi Miterccun ‘Eerie Rens ewern
tT fasta) a
Figura 138 Figura 189
eee ee) Bao
elses st
acm) pan
SSnGEN= 6m) + COEERS Fo—yPE car + esEWPO
Teo Games St>Ne OM
tebe Fabri Onno
Figura 1-90 Figura 1-91
Se observa que el grado de salud esti en relacidn inversa con la edad, las pulsaciones en
ejercicio y el tiempo empleado en la realizacién de las pruebas, y esté en relacién directa con las,
pulsaciones méximas,
46 + © ITES- ParenteMODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION
En la figura 1-90 se observa que el estadistico de Durbin Watson tiene un valor no
demasiado alejado de 2 (1,8), lo que indica ausencia de posibles problemas de autocorrelacién,
Para comprobar grificamente la ausencia de heteroscedasticiad y no linealidad representamos los
residuos contra las variables independientes del modelo. Par ello elegimos Quick —> Graph —
Scatter (Figura 1-92) y rellenamos Ia pantalla Series List sucesivamente como se indica en las
Figuras 1-93, 1-95, 1-97 y 1-99. Al pulsar OK se obtienen las Figuras 1-94, 1-96, 1-98 y 1-100. Se
observa que todos los gréficos muestran una estructura aleatoria de sus puntos, lo que indica
ausencia de problemas de heteroscedasticidad y no linealidad. También pueden representarse los
residuos contra los valores predichos para analizar la heteroscedasticidad y la autocorrelacién. Para
ello se calculan los valores predichos eligiendo Proc —> Forecast en la pantalla Equation (Figura
1-101) y rellenando la pantalla Forecast como se indica en la Figura 1-102 (El vector oxigenf
contiene las predicciones). A continuacién se elige Quick — Graph — Scatter y se rellena la
pantalla Series List sucesivamente como se indica en las Figuras 1-103. Al pulsar OK se obtiene la
Figura 1-104 que también presenta una estructura aleatoria de sus puntos, lo que indica ausencia de
problemas de heteroscedasticidad y autocorrelacion.
Ltt cine coups and set expan
fresco a
Cog] seca |
Figura 1-93 Figura 1-94
ite eres. andl sn nen
jes enbo
Loreel_|
Figura 1-95
(© MTES-Paraninfow 47ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
Us of sees. soups anda sts expen
te
Figura 197
Litt sets, goups, and sts exper sons
fester
|
Figura 198
Figura 1100
mas UNTITLED Sime 86H
Fowasime [oat Se cat
‘Sie | ——| | rome
-—_
Foecon erge 1 Peet
ir 1 Faecateronaten
I Inet cab rut oane en sne
err) = |
Unt sets, ioupe, arose pesos
(es onoent
Figura 1-103
48 +© ITES- Parente
Figura 1-102
ning EE
Pelee) rele)
Bal os
Bey ct .
eule
Figura 1-104ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS
2.1_MODELOS CON DATOS DE CORTE TRANSVERSAL
Ya sabemos que un conjunto de datos de corte transversal (0 datos de seccién
eruzada) es una muestra compuesta por individuos, familias, empresas, ciudades, estados,
paises u otro tipo de unidades muy variadas recogida en un momento determinado del tiempo.
Por lo tanto, la dimensién temporal no existe. En ocasiones, los datos de cada unidad no son
‘exactamente del mismo periodo de tiempo. Por ejemplo, podrian hacerse encuestas a diversas
familias durante semanas distintas de un mismo aio. En un anélisis de corte transversal,
ignorarfamos cualquier pequefia diferencia en el tiempo de recopilacién de los datos. Aunque
‘un conjunto de familias fuese encuestado en semanas diferentes del mismo afio seguirfamos
considerando estos datos como datos de corte transversal. Otra caracteristica importante de los
datos de corte transversal es que se supone que se han obtenido mediante un muestreo
aleatorio de la poblaci6n subyacente.
Este capitulo se centra en el anilisis de datos de corte transversal ya que es el que
conlleva menos dificultades de tipo conceptual 0 técnico, al tiempo que permite ilustrar la
mayoria de los aspectos principales del anilisis econométrico. Las técnicas utilizadas con este
tipo de datos se usan también cuando se traten otros tipos de datos, como los datos de series
temporales, Mientras que el andlisis econométrico de series temporales emplea muchas de las,
herramientas que se utilizan para el andlisis de corte transversal, el primero es més complicado
debido a que muchas series temporales econdmicas suelen tener tendencias, correlaciones, fuerte
persistencia, dinémica y estacionalidad.
La econometria se emplea en todas las ramas de la economia para contrastar teorias
econsmiicas, como fuente de informacién para las personas encargadas de establecer medidas
de politica econémica, tanto del émbito privado como a nivel gubernamental. Algunos
modelos econométricos derivan de modelos econémicos formales, pero otros se basan en
razonamientos econdmicos informales y en la intuicién. El objetivo de cualquier anslisis
econométrico es estimar los pardmetros del modelo y contrastar hipétesis sobre estos
parémetros; los valores y los signos de los parémetros determinan la validez. de una teorfa
econdmica y los efectos de ciertas politicas econémicas. Los datos de corte transversal, de
series temporales, de panel y los datos fusionados de seccién cruzada, son los tipos de datos
que se emplean mas a menudo en econometria aplicada. Los datos de corte transversal se
emplean muy frecuentemente en economia y en otras ciencias sociales, especialmente en
ramas de la mieroeconomia aplicada, como la economia del trabajo, las finanzas ptblicas tanto
estatales como locales, 1a organizaci6n industrial, Ia economfa urbana, la demografia y la
‘economia de la salud.
Suelen ser problemas muy comunes en la econometria con datos de corte transversal
Ja presencia de heteroscedasticidad (varianza no constante en los términos de error),
‘multicolinealidad (asociacién lineal entre las variables explicativas), no linealidad en la
‘expresién matemética del modelo, errores de especificaci6n (no incluir las variables adecuadas
ni Ia forma funcional 6ptima que define el modelo), endogeneidad y regresores estocdsticos
(dependencias entre Ia perturbacién y las variables explicativas y regresores aleatorios).
Estos mismos problemas serén también transladables para los modelos con datos de
series temporales. No obstante, en el capitulo siguiente se analizarén los problemas especificos
de los modelos con datos de series temporales.
50+ © ITES-ParanintoMODELOS DE REGRESION CON DATOS DE CORTE TRANSVERSAL,
2.2__HETEROSCEDASTICIDAD: ESTIMACION MCG
2.2.1 _ El problema de la heteroscedasticidad y su deteccion
En el modelo lineal ¥ = XB + u, suponfamos una serie de hipstesis entre las que se encontraban
que la variable w (término de error) es una variable aleatoria con esperanza mula (E(u) = 0) y
matriz de covarianzas constante y diagonal (Var(u)= 07 J, matriz escalar). Es decir, que para todo
1, la variable u, tiene media cero y varianza 0 no iente de 1, y ademas Cov(u; 1) = 0 para
todo i y para todo j distintos entre si, pudiendo escribir Var(u)= 07 Ii.
El hecho de que la varianza de u, sea constante para todo 1 (que no dependa de 1), se
denomina hip6tesis de homoscedasticidad. Si se relaja esta hipstesis y Ia varianza de u, no es
cconstante estamos ante la presencia de heteroscedasticidad. La importancia del incumplimiento de
la hipstesis de homoscedasticidad radica, entre otras cosas, en que los estimadores obtenidos por
MCO no son de varianza minima aunque sigan siendo insesgados. Ademés, para cada variable
del modelo se estimaré una varianza del error.
Para analizar la heteroscedasticidad de un modelo suele comenzarse por el anélisis
grifico de los residuos, siendo esenciales las gréficas de los residuos (a poder ser
estudentizados) respecto de la variable end6gena predicha y respecto de las exdgenas, que
deben de presentar una estructura aleatoria libre de tendencia. El grafico de los residuos contra
cada variable exdgena permite detectar como variable mds culpable de heteroscedasticidad
aquella cuyo gréfico se separa més de la aleatoriedad. También es un instrumento gréfico til
Ia grifica de valores observados contra valores predichos, cuyos puntos han de ser lo més
ajustados posible a la diagonal del primer cuadrante,
Aparte del anélisis grifico es necesario realizar contrastes formales de heteroscedasticidad,
entre los que destacan Goldfeld-Quandt, Glesjer, Breush-Pagan, White, GARCH, ARCH y
RESET de Ramsey.
Contraste de Goldfeld-Quandt
Se detecta la variable culpable de heteroscedasticidad X, y se ordenan las
observaciones muestrales de todas las variables en funcién de la ondenacién de X,. Se
suprimen las ¢ observaciones centrales de modo que sean 1/3 del total y se hacen dos
regresiones distintas con lo que queda. Se considera el estadistico F = SCEV/SCE2 que, bajo
la hipétesis de homoscedasticidad, es una F de Fisher con (T-e-2kY2 grados de libertad en
ambas dimensiones. SCE1 es la suma de cuadrados del error de Ia regresidn relativa a la
submuestra de valores bajos de X, y SCE2 es la relativa a la submuestra de los valores altos
Contraste de Glesjer
Se estiman los residuos del modelo u, por MCO y se realiza la regresi6n:
I-10 12
[uj |= dot diZi'+ri,
variable culpable, ft
Contrastar d=0 en el modelo anterior es equivalente a contrastar la hipétesis de
homoscedasticidad en el modelo inicial
Contraste W de White
Se efectiia una regresién de los cuadrados de los residuos MCO sobre todas las
variables independientes del modelo, sus cuadrados y sus productos cruzados de dos en dos.
La homoscedasticidad se acepta si la F permite aceptar la nulidad conjunta de todos los
ardmetros salvo la constante
© MES Paranintos 51ECONOMETRIA, CONCEPTOS Y PROBLEMAS RESUELTOS
Contraste RESET de Ramsey
En una primera etapa se estiman los residuos u, del modelo inicial y los
correspondientes valores ajustados de ¥,, Para cada tse calculan las m primeras potencias de
las estimaciones de ¥,
En una segunda etapa se realiza la regresin auxiliar de las estimaciones de u, contra
todos los regresores del modelo inicial y las m primeras potencias de las estimaciones de Y,. Si
no hay significatividad de los coeficientes hay heteroscedasticidad,
Contraste de Breush-Pagan
Se utiliza cuando la varianza no constante de las perturbaciones puede expresarse
como @? = h(Z,’a) siendo h una funcién y Z, un vector con las variables que producen la
heteroscedasticidad. Si a = 0 la varianza es constante
El contraste se realiza obteniendo los residuos del ajuste del modelo y considerando
los cocientes g, entre los cuadrados de cada residuo del modelo original y la media aritmética
de dichos cuadrados (o 1a estimacién MV de la varianza del error). Al realizar la regresién
centre las variables g, y las variables culpables Z, (p-1 variables) més la constante, la cantidad Q
= VER se distribuye segiin una Chi-cuadrado con p-I grados de libertad bajo la hipstesis mula
de homoscedasticidad (a = 0). VE es la varianza explicada de la regresi6n anterior.
La mejor propiedad de este contraste es que no es necesario explicitar la forma de la
funci6n h
Contraste ARCH (Autorregresive Conditional Heteroscedasticity)
Dado que la varianza del témino del error puede interpretarse como una
incertidumbre en Ia relacién econémica especificada en un modelo, una mayor incertidumbe
en el pasado podria afectar al comportamiento presente, por lo que Engel (1982) propuso que
Ja matriz de varianzas y covarianzas del término del error del modelo ¥ = X B + u depende del
‘cuadrado de los errores observados en el pasado: 7 = V(u) = dotds tha Met dy trp?
Evidentemente, si d; =...= d, = 0 no existe efecto ARCH (no hay heteroscedasticidad)
En la prictica, para realizar el contraste ARCH(p), se comienza estimando los residuos 1, del
modelo inicial y después se realiza la regresin auxiliar uj? = detdy Wut. dy La
homoscedasticidad existe sila F acepta la nulidad eonjunta de los parsimetros salvo la constante
Un problema habitual en este método es identificar p, para lo cual suele usarse el
correlograma estimado de los residuos al cuadrado, tomando p como el retardo a partir del cual
Jos coeficientes son no significativos
Contraste GARCH (Generalizad Autorregresive Conditional Heteroscedasticity)
Boliersiev (1986) amplié Ia estructura ARCH de Engel incluyendo en la
especificaci6n de la varianza valores retardados de la misma, de modo que en una estructura
GARCH(p.q) tenemos: 0° = Vu) = dotdwnrt.+ dat yptQ@ Our ++ OF rg La
identificaci6n de p y q se realiza como en Ios modelos ARIMA a través del correlograma y el
correlograma estimado. Actualmente se utilizan otras estructuras GARCH mas amplias, como
Jos modelos TARCH, EGARCH, PARCH, CGARCH y GARCH-M.
926© ITES- ParenteMODELOS DE REGRESION CON DATOS DE CORTE TRANSVERSAL,
Contraste de rangos
Se trata de un método no paramétrico que se resume en los siguientes pasos:
+ Se aplican mfnimos cuadrados al modelo original
‘* Se calculan los rangos de los residuos en valor absoluto y de las observaciones de la
variable culpable de la heteroscedasticidad
© Se calcula el coeficiente de correlacién por rangos de Sperman r, = 1-6ED/1T*-1))
siendo D, la diferencia entre los rangos de la variable explicativa y Ju
© Se contrasta la hipétesis nula Ho: 2, = 0 mediante el estadistico r,(7-2)""/(1-r2)'” que
sigue una r de Student con 7-2 grados de libertad, Sise acepta Hohay homoscedasticidad, y
si se rechaza, hay heteroscedasticidad,
2.2.2 Soluciones para la heteroscedasticidad: Minimos Cuadrados
Generalizados (MCG) y Minimos Cuadrados Ponderados
En general, para resolver el problema de heteroscedasticidad es necesario realizar la
estimaci6n por MCG (Minimos Cuadrados Generalizados). Pero si la estructura de la varianza
de las perturbaciones es conocida, se facilita el eélculo de los estimadores. Si se puede
suponer aproximadamente que 07 = f(Z)), siendo Z, un vector de variables que incluye una o
varias variables exdgenas de la regresién y /uuna funcién cualquiera, entonces puede reducirse
Ia estimacién MCG a MCO (Mimimos Cuadrados Ordinarios) con ponderaciones adecuadas
(Minimos Cuadrados Ponderados).
Entre las estructuras tipicas de la varianza tenemos 07 = FX, 07 = 0X,', o? = a+bXy y
a2 = exp(Z7’a), siendo las dos primeras las mas comunes y la tercera una translacién de la primera.
En los dos primeros casos las matrices de varianzas covarianzas resultan ser:
xX, 0 0 0
eu] Xe 0 °
0 0 Re bg
En estos casos la regresién MCG coincide con la MCO utilizando como ponderaciones los
valores 1/X; y 1/X;", 0 sea los inversos de los elementos de la diagonal de 5.
Si la estructura de la varianza es 6?= 0°X;, el modelo se transforma dividiendo sus
términos por X;"”, de modo que estimariamos por MCO el modelo:
yf, a. ay
Ky Ky Ke Ky Ky
En general, para resolver el problema de heteroscedasticidad es conveniente tomar
logaritmos. También pueden suprimirse las variables més culpables con justificacién
estadistica y econémica o introducir variables dummy adecuadas,
© MTES-Paranintos 58ECONOMETRIA, CONCEPTOS Y PROBLEMAS RESUELTOS
Para detectar Ja mejor forma funcional que sigue la varianza, se ajustan distintos
modelos para las distintas formas funcionales del tipo siguiente
Se toma como esquema de heteroscedasticidad aquella forma funcional para Ia que Ia
regresién correspondiente presenta un R” mas elevado,
2.2.3 Soluciones para la heteroscedasticidad: Modelos ARCH y GARCH
Detectada una estructura de heteroscedasticidad autorregresiva condicional ARCH)
en un modelo, existen métodos para su estimacién, La estructura del modelo a estimar ser
Y=XB+u,
7 = Vu) = dgtdy ty +. dy ey?
La estructura anterior puede ampliarse a Ia estimacién de un modelo GARCH(,) con
heteroscedasticidad autorregresiva condicional generalizada, EI modelo a estimar en este ¢as0 es:
Y=XB+u
digtdyt yt. dell OO p14. OyPug
La estructura GARCH-M amplia Ia estructura GARCH introduciendo Ia varianza
como término de la ecuacién el modelo, El modelo a estimar en este caso serd
B+ Ro? +u,
dotdstl st. del OO 14. + MP vg
y
Dos variantes de la estructura GARCH-M consisten en introducir en la ecuacién del
modelo el logaritmo de la varianza (en lugar de la varianza) o incluso la desviacién tipica:
y
Y
B+ Alog(o? +,
B+ dot
La estructura GARCH(p,g) también puede ampliarse con la introduccién de regresores
‘exdgenos en el estructura de la varianza. El modelo a estimar en este caso es:
y
o
Bey ,
abit dl gh Oot OO? AZ
La estructura TARCH(,4,r) denominada Threshold GARCH también es una ampliacién
OF = dotdilul 0, sb... dell. Op + O4l0g( Os) +... Oh log O:g)4B, eal Os +--+ Bett Or
94 © ITES-ParanintoMODELOS DE REGRESION CON DATOS DE CORTE TRANSVERSAL,
La estructura PARCH(,g7) denominada Power ARCH también es una ampliak
modelo GARCH(p,q) El modelo a estimar en este caso es:
Y=XBtu;
Of = dots insta)”. dig Poti) #040 1. CGO
(r>0, [AISI i=1,...,s, B=0 para i>s y s10), donde R? es el R° de la
regresi6n auxiliar de la variable explicativa jen funeidn de las demas variables explicativas.
Valores propios A de X'X cercanos a cero 0 indice de condicién (Ayéx/Ays)'” mayor que 30.
El contraste de Farrar-Glauber basado en el estadistico G = -[T-1-2k+5)/6]L|R. que bajo
Ia hipstesis mala de no muticolinealidad es una Chi-cuadrado con k(k-1)/2 grados de libertad. 7
‘sel tamaiio muestra, k-I el niimero de variables explicativas y Ry su matriz de correlaciones,
Soluciones para la multicolinealidad
Entre las soluciones més comunes para la multicolinealidad tenemos:
Ampliar la muestra o transformar las variables (por ejemplo a ratios o diferencias).
Suprimir algunas variables con justificacién estadistica y econémica.
(© MES Paranintow 55ECONOMETRIA, CONCEPTOS Y PROBLEMAS RESUELTOS
© Sustitucién de las variables explicativas por sus componentes principales mas
significativas (puntuaciones).
* Utilizar el modelo en diferencias vigilando la autocorrelaci6n.
‘© Usar la regresién en cadena, que ofrece como estimadores de los pardimetros (X’X+cl)' X’Y
siendo ¢ una constante adecuada. La matriz de varianzas covarianzas adopta la forma
o'(X'X+cl)X’X(X'X+cl)". En la prictica suele tomarse como un valor entre 0,01 y 0,1
‘que hace que el ajuste sea bueno en cuanto a R’ y significatividad individual y conjunta,
2.4 NORMALIDAD DE LAS PERTURBACIONES
2.4.1 El problema de la falta de normalidad en los residuos
Una de las hiptesis importantes a cumplir en el modelo de regresién miitiple es la
normalidad de los residuos. Aunque dicha hipétesis no es necesaria para la obtencién de los
estimadores de los parimetros del modelo de regresiGn por el método de los minimos cuadrados
‘ordinarios, s{es estrictamente necesaria para la realizaciGn de la inferencia en el modelo,
Para probar la normalidad de los residuos puede utilizarse cualquier contraste de ajuste a
‘una distribucidn normal, por ejemplo el contraste de la Chi-cuadrado 0 el contraste de
Kolmogorov-Smimov. No obstante, existen también contrastes especificos para comprobar el
ajuste de un conjunto de datos a una distribucién normal, como pot ejemplo Contraste de
normalidad de Shapiro y Wilks y los contrastes de normalidad de asimetrfa, curtosis_ Jarque-Bera.
Contraste de normalidad de Shapiro y Wilks
El contraste de Shapiro y Wilks mide el ajuste de los residuos de la regresién a una
recta al dibujarla en un papel probabilistico normal. Se rechaza la normalidad cuando el ajuste
es bajo, que corresponde a valores pequefios del estadistico del test. Dicho estadistico toma la
expresion:
donde ns*=(.x, -¥)’, h es ni2 sin es par y (n-1)/2 sin es impar. Los coeficientes a,, estén
tabulados y x,) es el valor ordenado en Ia muestra que ocupa el lugar j. La distribucién de w
est tabulada, y se rechaza la normalidad cuando su valor ealculado a partir de la muestra es
menor que el correspondiente valor critico dado en las tablas. De todas formas, puede
utilizarse el criterio del p-valor, rechazando la hipétesis nula de normalidad de los datos al
nivel cuando el p-valor es menor que @ y acepténdola en caso contratio.
Contrastes de normalidad de asimetria, curtosis y Jarque-Bera
Estos contrastes se basan en los coeficientes de asimetria y curtosis muestrales (la
muestra son los residuos del modelo). Si la hipétesis de normalidad es cierta, el estadistico del
contraste, que es el coeficiente de asimetria muestral o% = ms /m,"", tiene una distribucién
asintéticamente normal de media cero y varianza 6/n, siendo mr y m; los momentos muestrales
centrados en la media de drdenes 2 y 3 respectivamente. Tenemos:
re)
96 + © ITES-ParanintoMODELOS DE REGRESION CON DATOS DE CORTE TRANSVERSAL,
Este estadistico a permite contrastar la hipstesis de que los residuos provienen de
una distribucién con simetrfa normal (asimetria = 0) y se basa en que si la hipstesis de
normalidad es cierta, el coeficiente de asimetrfa estima un parémetro de la poblacién que es
cero (el coeficiente de asimetria de una distribucién normal es cero). Para realizar el contraste
se halla el valor k tal que P(d% > k) = @ siendo cel nivel de significacién establecido para el
contraste. Si el valor del estadistico para los residuos es mayor que k se rechaza la hipétesis
nula de simetrfa, y por supuesto la de normalidad.
De Ia misma forma, si la hipotesis de normalidad es cierta, el estadistico del contraste,
que es el coeficiente de curtosis muestral a= ms/m,*-3, tiene una distribuci6n asint6ticamente
normal de media cero y varianza 24/n, siendo mz y my los momentos muestrales centrados en
Ia media de 6rdenes 2 y 4 respectivamente
aa Be-a-oio |
Este estadistico @ permite contrastar Ia hipstesis de que los residuos provienen de
una distribueién con curtosis normal (curtosis = 0) y se basa en que si la hipétesis de
normalidad es cierta, el coeficiente de curtosis estima un pardmetro de la poblacién que es
cero (el coeficiente de curtosis de una distribucién normal es cero). Para realizar el contraste
se halla el valor & tal que P(a > k) = @ siendo cel nivel de significacién establecido para el
ccontraste, Si el valor del estadistico a para los residuos es mayor que k se rechaza la hipstesis
nula de curtosis cero, y por supuesto la de normalidad.
Para muestras grandes, el contraste de Jarque-Bera usa los dos estadisticos anteriores
mediante la consideracién del estadistico de Bowman-Shelton siguiente:
a a
ay
[f-E)2
Es posible utilizar para estos contrastes (como siempre) el criterio del p-valor,
rechazando Ia hipétesis nula de normalidad de los residuos al nivel & cuando el p-valor es
menor que cen alguno de ellos, y aceptindola cuando el p-valor es mayor que cen los dos.
Como criterio més suave sobre 1a normalidad, suele considerarse normal 1a poblacién
‘cuya muestra presenta coeficientes de asimetria y curtosis comprendidos entre ~2 y 2
2.4.2 Soluciones para la falta de normalidad en los residuos
Habitualmente la falta de normalidad en los residuos suele provenir de la presencia de
datos atipicos que generan una distribucién mas apuntada o no simétrica. Estos problemas en los.
residuos suelen aparecer cuando se omiten variables relevantes en el modelo o cuando existe falta
de linealidad en Ia especificacién del mismo. Si se arreglan previamente los problemas citados,
suelen solucionarse los problemas de normalidad residual. Cuando los residuos no son normales por
Ja presencia de més de una moda, los datos suelen provenir varias poblaciones, lo que puede
arreglarse con la introduccién de variables ficticias en el modelo para las diferentes poblaciones, En
‘otras ocasiones, Ia solucién para la falta de normalidad es la transformacién adecuada de las
variables para conseguirla, por ejemplo la transformacién de Box Cox y sus derivados.
(© MES Paranintos 57ECONOMETRIA, CONCEPTOS Y PROBLEMAS RESUELTOS
2.5 NO LINEALIDAD Y ERRORES DE ESPECIFICACION
La técnica de los minimos cuadrados ordinarios MCO es el caballo de batalla de los
econsmetras y se utiliza de modo rutinario en el anélisis de una gran variedad de conjuntos de
datos. Bajo los supuestos exigidos al modelo lineal, los estimadores mfnimo cuadréticos
oseen las propiedades deseables y, por ello, pueden emplearse con fiabilidad. Sin embargo,
nos enfrentamos a una pregunta crucial. {Cémo saber si los supuestos que ocultan los MCO
son vilidos para un conjunto determinado de datos? {Cémo conocer las propiedades del
‘término de perturbacién no observable?%,Cémo saber qué variables incluir en la matriz X y en
qué forma funcional hacerlo? Cuando alguno de los supuestos subyacentes carece de validez,
{qué sucede con los estimadores MCO? {Siguen siendo titiles o resultan confusos? Existen
estimadores y procedimientos de inferencia alternativos que resulten mas apropiados bajo
supuestos alternativos? En este capitulo y en los siguientes responderemos a estas preguntas
El error de especificacién aparece cuando alguno de los supuestos esté equivocado,
Ciertos errores de especificacién tienen implicaciones menores; otros, sin embargo, las tienen
muy graves. Resulta tremendamente importante estar alertado de posibles errores de
especificacién y verificar su presencia. En este capitulo se estudia cémo muchas veces es
necesario utilizar y desarrollar especificaciones y procedimientos de inferencia més complejos
‘que los que subyacen en la técnica de los MCO.
La especificacién del modelo lineal se centra en el vector de términos de perturbaciones w
y en la matriz X. Recordemos que los supuestos esenciales del modelo lineal
y= XB-+u relativos a las perturbaciones son: u, son indepedientes idénticamente distribuidas
N@.?) i= 1, .... m (perturbaciones normales de ruido blanco), homoscedasticidad E(u’)
diaglo,... 2) 0 matriz de varianzas covarianzas residual constante), endogeneidad (E(X;u,) = 0
para todo i = 1... KY $= Ivy M0 incorrelacién entre las perturbaciones y las variables
independientes) y ausencia de autocorrelacién (E(u,u,.,)=0 (8 #0) 0 ausencia de comrelaciones
centre perturbaciones adyacentes). La heteroscedasticidad (ausencia de homoscedasticidad) es muy
frecuente en aplicaciones con datos de corte transversal, aunque puede encontrarse también en
aplicaciones con datos de series temporales. En las aplicaciones de series temporales se dan fuertes
correlaciones entre perturbaciones adyacentes y, tal vez, correlaciones menores entre
perturbaciones més alejadas entre s{ (autocorrelacién). De modo similar, y cuando trabajamos con
datos de corte transversal, es posible que ciertas unidades compartan perturbaciones comunes.
También existen en el modelo lineal supuestos relativos a la matriz X, entre los que
destacan su rango pleno (ausencia de multicolinealidad), la inclusién y no exclusién de
variables relevantes en X (ausencia de errores de especificaci6n en la seleccién de las variables
explicativas) y problemas de especificacién de una forma funcional incorrecta para el modelo.
Otro supuesto comiin es la estacionariedad de las variables del modelo. La mayoria
de los procedimientos de inferencia tradicionales suponen que las variables son estacionarias.
Cuando no se da este caso nos enfrentamos a procedimientos de inferencia no esténdar y nos
introducimos en el campo de las variables integradas, la cointegracién, los modelos de
correccién del error, etc., que se tratarén més adelante
También pueden existir problemas de especificacién con f. Las especificaciones del
modelo lineal asumen de forma implicita que f es un vector constante, tanto en el conjunto de
observaciones actuales como en otras observaciones muestrales posibles. Estamos ante a
cespecificacién de ausencia de cambio estructural que se tratara en un capitulo posterior.
58 + © ITES-PaanintoMODELOS DE REGRESION CON DATOS DE CORTE TRANSVERSAL,
Las pricticas econométricas habituales formulan un modelo basado en teorfa o en
anteriores descubrimientos econométricos, estiman los pardmetros del modelo mediante los
datos muestrales relevantes disponibles, y examinan los estimadores resultantes y estadisticos
asociados con el fin de juzgar la validez del modelo especificado. Dicho examen suele
centrarse en el ajuste global, en Ia concordancia con los signos de unos coeficientes
previamente supuestos, en la significacién estadfstica de los coeficientes y en la comprobacién
de la autocorrelacién de las perturbaciones. Si el modelo cumple dichos critetios
satisfactoriamente, Ia nueva ecuacién pasaba a engrosar la literatura de la materia y podria
utilizarse para realizar predicciones con datos externos a la escala temporal o al rango
empirico de Ia muestra. En caso de que el modelo se clasifique de insatisfactorio, el
nvestigador seguiré intentando hallar la reformulacién que cumpla los requisitos necesatios,
Actualmente existen tendencias basadas en comprobar de todas las formas posibles las
especificaciones y que s6lo deberdn utilizarse aquellas que sobrevivan a este proceso de
prueba y que correspondan a un modelo econémico razonable. Asi se llega a una auténtica
baterfa de pruebas de diagnéstico que no pueden utilizarse ni de forma automética ni rutina
ya que requieren una dosis de juicio, intuicién econémica o sentido comin, Algunos de los
ccontrastes resaltan un error o errores de especificacién en particular. Otros indican que
determinada especificacién no funciona bien sin sefialar explicitamente un problema preciso.
Finalmente, puede ocurrir que sobrevivan a este proceso de prueba o que algunas
cespecificaciones superen un cierto tipo de pruebas estadisticas pero no otras.
2.5.1 Error de especificacion en la seleccin de las variables explicativas
Las especificacién mds importante del modelo lineal relativa a la matriz X es que sea
tuna matriz no estocéstica de rango pleno igual a k (ausencia de multicolinealidad). Pero puede
haber posibles problemas adicionales con X, entre los que destacan:
1, Exelusi6n de variables relevantes (variables omitidas). La teorfa econsmica ensefia que
cel ingreso y los precios afectan conjuntamente a la demanda, por lo tanto, si aislamos el
ingreso de la ecuacién de 1a demanda no esperamos obtener un buen estimador para la
clasticidad del precio. Sin embargo, y en situaciones més complicadas, no suele ser tan
evidente averiguar cudles son Ias variables a incorporar en una relacidn, lo que puede
gar a convertirse en un importante problema de especificacién,
2. Inclusién de variables irrelevantes (redundantes). Caso contrario al anterior. Ahora, la
hipétesis incluye variables que no deberian estar presentes en la ecuacidn. Este hecho tiene
ciertas consecuencias sobre los procedimientos de inferencia aunque, en general, suelen
ser menos graves que aquellas relacionadas con la exclusi6n de variables relevantes,
Existen contrastes para observar si un modelo adolece de variables omitidas. El test de
Ja razén de verosimilitud para variables omitidas permite aiadir un conjunto de variables a
una ecuaci6n existente y contrastar si constituyen una contribucién significativa a la
explicacién de la variable dependiente. Este contraste tiene como hipétesis mula que el
cconjunto regresores adicionales no son conjuntamente significativos.
‘También existen contrastes para detectar si un modelo presenta variables redundantes.
El test de la razén de verosimilitud para variables redundantes permite contrastar si_un
subconjunto de variables de una ecuacién existente son conjuntamente significativas, © mejor
dicho, si los coeficientes de determinadas variables del modelo van a tener valor cero, en cuyo
‘caso esas variables pueden ser eliminadas de la ecuacién del modelo,
© MES Paranintos 58ECONOMETRIA, CONCEPTOS Y PROBLEMAS RESUELTOS
El test de Wald para contrastar restricciones en los coeficientes de un modelo
también puede utilizarse para detectar cuando una variable es redundante. Basta comprobar
cuando puede considerase cero su coeficiente de modo formal a través del test citado.
También es posible aplicar métodos de inclusién o exclusién automética de variables
en el modelo, Partiendo de un conjunto inicial de k variables, se trata de no incluir nuevas
variables irrelevantes en la definicién del modelo ni omitir variables adecuadas. El método
més rudimentario serfa efectuar todas las regresiones posibles partiendo del conjunto més
amplio de variables candidatas en el modelo y elegir la mejor con las variables que sean
significativas. No obstante existen métodos automatizados que realizan esta tarea. El método
de seleccién hacia delante (método forward) permite partir de un conjunto minimo de
variables en Ia regresidn e ir incluyendo variables adecuadas en el modelo de forma sucesiva
‘comprobando la significatividad del nuevo coeficiente, El método de seleccién hacia atrds
(método backward) parte de 1a regresién con todas las variables y va eliminando las no
significativas por orden de significatividad hasta encontrar un modelo adecuado con todas sus
variables lo suficientemente significativas. El método paso a paso (método stepwise) es un
método de selecci6n hacia adelante que comprueba en cada paso, no sélo Ia significatividad
del nuevo coeficiente, sino también la de las variables incorporadas en los pasos anteriores.
2.5.2 Error de especificacién en la forma funcional
Puede darse el caso de que las variables incluidas en un modelo sean las correctas
pero la forma funcional lineal que las relaciona sea incorrecta. A veces, el contexto de modelo
lineal es suficiente para manejar el problema, pero en ocasiones no puede sostenerse la
linealidad y estamos ante problemas de no linealidad.
Una relacién Y = f(X,,X) puede especificarse como Y = 8, + B,X,+B,X,+u
0, como Y=, +f,X,+8,X,+7,X} +y3X}+(X,X,)+u. La segunda ecuacién
‘permite tanto una respuesta cuadritica a los regresores como un efecto de interaccién. El efecto de
interaccién se basa en una nueva variable, el producto de los dos regresores. Por lo tanto, el efecto
esperado de un cambio unitario en X sera, +2y, + OX, dependiendo pues de fi; y de los
niveles de X2 y Xs. Del mismo modo, el efecto esperado de un cambio unitario en Xs dependers tanto
del nivel de Xp, como del de Xs. Cuando el error de especificacién consiste en utilizar la primera
‘ecuacién en lugar de la segunda, aquél se corrige fiicilmente aftadiendo los términos X}, X}, y
(X,X,). En otros casos, serd necesaria una especificacién intrinsicamente no lineal,
Para detectar problemas de especificacién en la forma funcional suelen utilizarse los
grificos de los residuos, que, ante la presencia de no linealidades, normalmente presentan
tendencias que indican su falta de aleatoriedad. Los altos grados de autocorrelacién también
son indicadores de la posible presencia de mala especificacién funcional en el modelo,
Asimismo, es ttl realizar la representacidn de los gréficos de los residuos contra las variables
explicativas y predichas con la finalidad de comprobar que son aleatorios. La falta de
aleatoridad en estos grificos puede indicar la presencia de un problema de no linealidad 0 de
mala especificacién funcional del modelo,
La solucién para los problemas de mala especificacién del modelo pasa por introducir
variables ficticias o por la definicidn alternativa de la ecuacién del modelo baséndose en la
tendencia observada en los graficos residuales citados anteriormente.
60+ © ITES- Parente