PREGUNTAS TIPO TEST DE (EXÁMENES ANTERIORES)
Aclaraciones
El término de error del modelo de regresión puede aparecer denotado por u o por . Asimismo
los estimadores de los parámetros poblacionales i a veces se han designado por bi en lugar de
𝛽̂𝑖 .
Donde haya más de una opción válida (o si hay alguna no descartable), debe elegirse la mejor.
1. Sea el modelo de regresión simple 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝑢𝑖 . Si b es el estimador
MCO de , indique cuál de las siguientes expresiones corresponde a var(b),
𝜎𝑢2
a) ∑ 𝑥𝑖2
𝐮′ 𝐮/(𝑛−2)
b) ∑ 𝑥𝑖2
𝐮′ 𝐮/(𝑛−1)
c) ∑(𝑋𝑖 −𝑋̅)2
d) Todas ellas son correctas
𝑏−𝛽
2. En el modelo anterior el estadístico se distribuye,
√𝑣𝑎𝑟(𝑏)
a) Según una N(0, 2)
b) Según una N(0, 1)
c) Según una t de Student con n2 g.l.
d) Según una F con k1 y nk g.l.
3. En un modelo de regresión simple, coeficiente R2 mide,
a) El porcentaje explicado de la varianza del error
b) El porcentaje explicado de la varianza de la exógena
c) El porcentaje explicado de la varianza de la endógena
d) El porcentaje explicado de la varianza de la endógena estimada
4. Indique cuáles son las consecuencias del incumplimiento de la hipótesis de
homoscedasticidad,
a) Los estimadores MCO son sesgados e inconsistentes
b) Los estimadores MCO son sesgados pero consistentes
c) Los estimadores MCO son insesgados y consistentes, pero no eficientes
d) Ninguna de las anteriores
5. La curva de regresión poblacional es “El lugar geométrico de las …”:
a) “ medias incondicionales de la variable independiente para los valores fijos de
la(s) variable(s) explicativa(s)”
b) “ medias incondicionales de la variable dependiente para los valores fijos de
la(s) variable(s) explicativa(s)”
c) “ medias condicionales de la variable dependiente para los valores fijos de
la(s) variable(s) explicativa(s)”
d) “ medias condicionales de la variable independiente para los valores fijos de
la(s) variable(s) explicativa(s)”
6. A partir de una muestra de 200 datos se ha estimado la siguiente regresión,
Yˆt 2.5 0.8 X t 0.5Yt 1 , R 2 0.8, DW 1.82
Diga cuál de las siguientes afirmaciones, es correcta
a) No se puede rechazar la hipótesis de no autocorrelación
b) Se rechaza la hipótesis nula de no autocorrelación
c) No hay información suficiente para poder afirmar nada sobre la hipótesis de
no autocorrelación
d) Aunque no se dispone de dL y dU, el valor del estadístico de Durbin y
Watson es demasiado bajo por lo que debe rechazarse la hipótesis de no
autocorrelación
7. Con la estimación,
Yˆt 2.5 0.8 X t 0.5log(Wt ), R 2 0.8, DW 1.82 n=200
Se puede afirmar que,
a) Si Xt crece en una unidad, Yt crecerá un 0.8%
b) Si Xt crece en una unidad, Yt crecerá 0.8 unidades
c) Si Wt crece en una unidad Yt decrecerá un 0.5 %
d) Son ciertas b) y c)
8. La expresión E(i|Xi) indica que,
a) La división del error entre la variable explicativa tiene media nula
b) Los residuos resultantes de la FRM y la variable explicativa no están
relacionados
c) La media muestral de X es mucho mayor que la media del error
d) La distribución del error condicionada a X tiene media nula
9. Si en una ecuación de regresión simple multiplicamos por 100 los valores de la
variable dependiente y por 100000 los de la variable independiente,
a) La pendiente estimada permanecerá inalterada
b) La constante estimada permanecerá inalterada
c) El coeficiente de determinación será el mismo
d) La varianza de los estimadores MCO no cambiará
10. Señale cuál de los siguientes pasos NO es necesario para contrastar la hipótesis
nula de significatividad de la variable Xk,
a) Comprobar que la distribución de los errores es N(0, 2)
b) Elegir el nivel de significatividad
c) Calcular el error estándar de 𝛽̂𝑘
d) Calcular el valor del estadístico de contraste
11. El coeficiente de determinación corregido o ajustado,
a) Siempre será menor o igual que R2
b) Puede ser negativo aunque R2 sea siempre positivo
c) Puede obtenerse a partir de R2 ajustando por los grados de libertad
d) Son ciertas todas las anteriores
12. Indique cuáles son las consecuencias del incumplimiento de la hipótesis de no
autocorrelación,
a) Los estimadores MCO son sesgados e inconsistentes
b) Los estimadores MCO son sesgados pero consistentes
c) Los estimadores MCO son insesgados y consistentes, pero no eficientes
d) Ninguna de las anteriores
13. En el modelo Yi 0 1 X1 2 X 2 3 ( X1 X 2 ) i el efecto esperado de un
cambio unitario en X1 será,
a) 1 3 X 2
b) 1
c) 1 3
d) 1 3 X1
14. El contraste de White,
a) Se obtiene a partir de la regresión de los residuos al cuadrado entre las
variables explicativas, sus cuadrados y todos sus productos cruzados y sirve
para contrastar la hipótesis de homocedasticidad
b) Se obtiene a partir de la regresión de los residuos al cuadrado entre las
variables explicativas, sus cuadrados y todos sus productos cruzados y sirve
para contrastar la hipótesis de no autocorrelación
c) Se obtiene de regresar pi uˆ 2 / 2 sobre las variables explicativas del
modelo original y sirve para contrastar la hipótesis de homocedasticidad.
d) Ninguna de las anteriores es cierta
15. A partir de una muestra de 200 datos se ha estimado la siguiente regresión,
Yˆt 2.5 0.8 X 1t 0.5 X 2t , R 2 0.8, DW 1.97, 0.25
donde es el resultado del contraste de Breusch-Pagan. Valore
aproximadamente las hipótesis de no autocorrelación y homocedasticidad,
a) No se puede rechazar la hipótesis de no autocorrelación pero si la de
homocedasticidad
b) No se puede rechazar ni la hipótesis de no autocorrelación ni la de
homocedasticidad
c) No se puede rechazar la hipótesis de homocedasticidad pero si la de no
autocorrelación
d) Se rechazaría tanto la no autocorrelación como la homocedasticidad
16. En relación con el modelo anterior, un investigador estima en su lugar,
Yˆt 0.5 1.23Z t , R 2 0.38,
Siendo Zt =X1t+X2t. Entonces,
a) Se rechazaría la hipótesis H0: 2=3
b) No se podría rechazar la hipótesis H0: 2=3
c) No se podría rechazar la hipótesis H0: 2+3 = 0
d) Se rechazaría la hipótesis H0: 2+3 = 0
17. A partir de los resultados de las dos preguntas anteriores, el ratio t para
contrastar la significatividad individual de la variable Z, sería aproximadamente,
a) 121.35 y por lo tanto sería estadísticamente significativa
b) 11.02 y por tanto sería estadísticamente significativa
c) 20.34 y por tanto sería estadísticamente significativa
d) No hay información suficiente para calcular ese estadístico
18. Por otra parte el modelo no restringido cuya estimación se da en la pregunta 15,
a) Es globalmente significativo tanto al 5% como al 1%
b) No es globalmente significativo ni al 5% ni al 1%
c) Es globalmente significativo al 5% pero no al 1%
d) Es globalmente significativo al 1% pero no se puede contrastar la
significatividad al 5% al no disponer del valor crítico
19. La hipótesis de homocedasticidad postula que,
a) var(𝜀̂i)=σ2
b) var(Xi)= σ2
c) var(i)= σ2
d) var(β̂)= σ2
20. En una ecuación de regresión el número de grados de libertad es,
a) El número de observaciones de la muestra
b) El número de observaciones de la muestra menos el número de parámetros
estimados
c) El número de parámetros estimados menos el número de observaciones de la
muestra
d) El número de parámetros de la ecuación
21. Indicar cuál de las siguientes expresiones no son correctas para calcular la SCR
en un modelo de regresión simple (las minúsculas indican variables en
desviaciones con respecto a la media),
a) ∑ û2i = ∑ yi2 − β̂20 − β̂12 ∑ xi2
b) ∑ û2i = ∑ yi2 − β̂12 ∑ xi2
(∑ xi yi )2
c) ∑ û2i = ∑ yi2 − ∑ x2i
d) ∑ û2i = σ
̂2 (n − 2)
22. Se dice que un estimador es ELIO si,
a) Es lineal e insesgado
b) Es insesgado
c) Es eficiente
d) Todas las anteriores a la vez
23. En el modelo log(Y) = α + βX + ε, la elasticidad viene dada por,
a)
b) X
c) /X
d) Ninguna de las anteriores
24. En la regresión simple sobre variables estandarizadas,
a) La relación se establece entre dos nuevas variables obtenidas restando las
medias respectivas a las originales
b) Cuando la variable X cambia en una desviación estándar, la Y lo hace en
desviaciones estándar
c) Cuando la variable Y cambia en una desviación estándar, la X lo hace en
unidades
d) Ninguna de las anteriores
25. En un modelo de regresión la estimación de la matriz de varianzas y covarianzas
de los estimadores MCO viene dada por,
σ2 (𝐗 ′ 𝐗)−1
a) ̂
𝜀̂𝑖𝑇 𝜀̂𝑖
b) (𝐗 ′ 𝐗)−1
𝑛−𝑘−1
𝜀̂𝑖𝑇 𝜀̂𝑖
c) (𝐗 ′ 𝐗)−1
𝑛
d) Son correctas a) y b)
26. De una regresión simple sabemos que SCR=0,01 y SCE=0,03. El coeficiente de
correlación entre X e Y será:
a) 0,141
b) 0,204
c) 0,866
d) 0,578
27. La hipótesis de no autocorrelación postula,
a) Que la varianza de las perturbaciones es constante
b) La varianza de las perturbaciones está autocorrelacionada dando lugar a un
modelo ARCH
c) Los valores de cov(𝑢𝑖 , 𝑢𝑗 ) = 0, ∀ 𝑖, 𝑗
d) Los valores de cov(𝑢𝑖 , 𝑢𝑗 ) = 0, ∀ 𝑖 ≠ 𝑗
28. Señale cuál de las siguientes afirmaciones es falsa,
a) En presencia de autocorrelación los estimadores MCO son sesgados e
ineficientes
b) La prueba de Durbin y Watson supone que la varianza de las perturbaciones
es constante
c) La exclusión de variables relevantes en el modelo puede dar lugar a valores
significativos del estadístico de Durbin y Watson
d) La transformación dada por (𝑌𝑡 − 𝜌𝑌𝑡−1 ) y (𝑋𝑡 − 𝜌𝑋𝑡−1 ) para eliminar la
autocorrelación, supone los errores siguen un proceso de Markov de primer
orden
29. Sea el modelo de regresión simple 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝑢𝑖 en el que se cumplen
todos los supuestos incluido el de normalidad. Si b es el estimador MCO de ,
a) Hay situaciones en las que b no es consistente
b) Ningún otro estimador tendrá menos varianza que b
c) Solo un estimador sesgado podría tener menor varianza que b
d) Ninguna de las anteriores es correcta
30. Sea el modelo de regresión simple 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝑢𝑖 . La varianza del
estimacor MCO de la constante, 𝛼̂, viene dada por,
𝜎𝑢
a)
∑ 𝑥𝑖2
√u′ u/(𝑛−2)
b)
∑ 𝑥𝑖2
𝜎𝑢2 ∑ 𝑋𝑖2
c)
𝑛 ∑(𝑋𝑖 −𝑋̅)2
d) Ninguna de ellas es correcta
31. El supuesto de normalidad referido a los errores,
a) Es necesario para que se cumplan las propiedades de insesgadez y eficiencia
de los estimadores MCO
b) Es necesario para que el estimador MCO sea eficiente pero no para su
insesgadez
c) Solo afecta a la distribución exacta de los estadísticos de contraste, pero no a
las propiedades de los estimadores
d) Ninguna de las anteriores es correcta
32. Si en una ecuación de salarios queremos recoger la influencia del hecho de estar
afiliado a un sindicato,
a) Solo puede incluirse una variable dummy más el término independiente
junto con el resto de variables explicativas
b) Pueden incluirse dos variables dummy si se excluye el término
independiente
c) Deben incluirse dos variables dummy más el término independiente
d) Ninguna de las anteriores es correcta
33. El coeficiente de determinación de un modelo de regresión,
a) Es uno menos el cociente entre la varianza residual y la varianza total
b) Es el cociente entre la suma de los cuadrados explicada y la suma de los
cuadrados total
c) Es siempre mayor o igual que el coeficiente de determinación corregido
d) Todas las respuestas anteriores son correctas
34. Para contrastar si el modelo está correctamente especificado podemos emplear,
a) El test de Davidson y McKinnon
b) E test de Jarque Bera
c) El test de Mizon y Richard
d) El Reset test de Ramsey
35. Considere que tras estimar un modelo de regresión, se desea efectuar un
pronóstico para el valor de E(Y) correspondiente a unos valores determinados de
las variables X, que denominamos X0. La expresión 𝜎𝜀2 𝑿𝑇0 (𝑿𝑇 𝑿)−1 𝑿0 ,
̂0
a) Es la varianza de 𝐘
b) Es la varianza de 𝛆̂0
c) Es la expresión del estimador robusto a la heterocedasticidad
d) Ninguna de las anteriores es correcta
36. Si en un modelo de regresión hay variables irrelevantes,
a) Ninguna de las características del modelo resulta afectada
b) Los estimadores MCO no serán insesgados
c) Los estimadores MCO no serán en general eficientes
d) Ninguna de las anteriores
37. El estimador HAC es un procedimiento,
a) Que proporciona estimadores robustos a la heterocedasticidad y la
autocorrelación serial
b) Corrige la multicolinealidad en un modelo de regresión múltiple
c) Permite verificar si los residuos de una ecuación de regresión se distribuyen
de forma normal
d) Ninguna de las anteriores es correcta
38. Un modelo donde hay causalidad simultánea,
a) Incluye uno o varios retardos de la variable endógena
b) Es un modelo construido para tener en cuenta la autocorrelación serial de las
perturbaciones
c) Incumple la condición de exogeneidad
d) Las perturbaciones no pueden ser homocedásticas.
39. Suponga que el verdadero modelo fuese 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝛿𝑍𝑖 + 𝑢𝑖 pero se
estima 𝑌𝑖 = 𝛼 + 𝛿𝑍𝑖 + 𝑢𝑖 . Entonces,
a) El estimador MCO de será sesgado e inconsistente
b) El estimador MCO de será sesgado e inconsistente excepto cuando hay
correlación nula entre X y Z.
c) El estimador MCO de será sesgado pero consistente
d) El estimador MCO de será insesgado pero no eficiente
40. Sea el modelo de regresión simple 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝜀𝑖 en el que se cumplen
todos los supuestos. La distribución del estadístico (𝜎𝜀2 )−1 ∑ 𝜀̂𝑖2 será,
a) N(0, 1)
b) N(0, 2)
c) 2(n2)
d) Fk-1, n-k-1
41. El coeficiente de determinación corregido, 𝑅̅ 2 , se diferencia del coeficiente de
determinación general 𝑅 2 en que:
a) El primero mide el ajuste del modelo, el segundo su bondad.
b) El primero está corregido por los grados de libertad.
c) Ambos sirven para lo mismo.
d) El primero es siempre mayor que el segundo.
42. Diga cuál de las siguientes afirmaciones es correcta,
a) El estadístico de Durbin y Watson es aproximadamente igual a 1 − 𝜌̂, siendo
𝜌̂ = 𝑐𝑜𝑣(𝑢𝑡 , 𝑢𝑡−1 )
b) El estadístico de Durbin y Watson es aproximadamente igual a 1 − 𝜌̂, siendo
𝜌̂ el coeficiente de autocorrelación de primer orden de los residuos
c) El estadístico de Durbin y Watson es aproximadamente igual a 2(1 − 𝜌̂),
siendo 𝜌̂ el coeficiente de autocorrelación de primer orden de los residuos
d) Ninguna de las anteriores
43. En un modelo de regresión el valor del estadístico de Durbin y Watson ha
resultado ser 1.87. Señale cuál de las afirmaciones anteriores es correcta,
a) El valor del estadístico está suficientemente próximo a 2 como para poder
afirmar sin riesgo, que no existe autocorrelación
b) No hay datos suficientes para valorar la hipótesis de no autocorrelación
c) Para que poder rechazar la no autocorrelación el valor del estadístico debe
caer en el intervalo (dL, dU), autocorrelación positiva, o (4dU, 4dL),
autocorrelación negativa.
d) Ninguna de las anteriores es correcta
44. En presencia de heterocedasticidad,
a) Los estimadores MCO no son eficientes
b) Puede emplearse el estimador robusto de Newey West para evitar el
problema
c) Podemos estimar utilizando Mínimos Cuadrados Ponderados
d) Todas las anteriores son correctas
45. Considere el modelo de regresión múltiple expresado en notación matricial. La
expresión 𝜎𝜀2 (1 + 𝑿𝑇0 (𝑿𝑇 𝑿)−1 𝑿0 )
a) Es la expresión del estimador robusto a la heterocedasticidad y
autocorrelación de Newey West
b) Es la varianza 𝜀̂𝑖 0
c) Si se le suma 𝜎𝜀2 es la varianza de 𝜀̂𝑖
d) Ninguna de las anteriores es correcta
46. En un modelo de regresión simple, el estimador del error estándar robusto a la
heterocedasticidad de White se obtiene de extraer la raíz cuadrada de,
∑ 𝑥𝑖2 𝜎
̂𝜀2
a) 2
(∑ 𝑥𝑖2 )
∑ 𝑦𝑖2 𝜎
̂𝜀2
b) 2
(∑ 𝑥𝑖2 )
∑ 𝑥𝑖2 𝜎
̂𝜀2
c) 2
(∑ 𝑦𝑖2 )
d) Ninguna de las anteriores
47. Indique cuál de los siguientes no es test de homocedasticidad
a) La prueba de White
b) La prueba de Breusch Pagan
c) La prueba de Mizon y Richard
d) Ninguna de ellas son pruebas de homocedasticidad
48. Usando una muestra de 171 países estimamos un modelo que relaciona la
esperanza de vida al nacer (esperanzai) con los años de estudios (estudiosi) de la
madre, obteniendo:
1
esperanzai 77,14 46, 73 ˆt
1,022 4,610 estudiosi
n 171, R 2 0,3780, R 2 0,3743.
Debajo de los parámetros estimados aparecen sus errores estándar entre
paréntesis. Diga cuál de las siguientes afirmaciones es correcta,
a) Cuando se incrementa un año de estudios la esperanza de vida
disminuye aproximadamente un 0,4673%.
b) El modelo predice una esperanza de vida máxima asintótica de 77,14
años.
c) Cuando se incrementa un año de estudios la esperanza de vida
aumenta aproximadamente un 0,4673%.
d) El incremento de un 1% en los años de estudio aumenta la esperanza
de vida en un 0,4673%.
49. El análisis de la tasa de paro correspondiente al mes de febrero de 2010 en las
provincias españolas, es un ejemplo datos de,
a) Series temporales
b) Panel
c) Sección cruzada
d) Experimentales
50. Un estimador es,
a) Una variable aleatoria
b) Un cantidad no aleatoria
c) Eficiente si su valor coincide con el valor del parámetro poblacional
d) Ninguna de las anteriores
51. Un estimador ŝ de un valor poblacional s, es insesgado si,
a) ŝ =s
b) ŝ converge en probabilidad a s
c) E(ŝ) = s
d) Ninguna de las anteriores es correcta
52. Suponga que el estimador de la pendiente en un modelo de regresión lineal
simple es 0. Entonces,
a) R2 < 𝑅̅ 2
b) 0 < R2 < 1
c) R2 = 0
d) R2 > SCR/SCT
53. El Criterio de Información de Akaike,
a) Es un estadístico para contrastar la significatividad global del modelo
b) Es un estadístico que se emplea para elegir entre modelos alternativos
cuando la variable dependiente es diferente
c) Es un estadístico para elegir entre modelos alternativos cuando la
variable dependiente es la misma
d) Es un estadístico alternativo a 𝑅̅ 2 en el que la penalización por incluir
variables explicativas adicionales es menor
54. La heterocedasticidad significa que,
a) La varianza de la variable endógena no es constante
b) La varianza del error es constante
c) Las unidades observadas son heterogéneas
d) La varianza del error no es constante
55. La forma general del estadístico t para el contraste de hipótesis individuales
empleado en la práctica, es,
̂ −𝛽
𝛽
a) 𝑣𝑎𝑟(𝛽)
𝛽
b) 𝑣𝑎̂𝑟(𝛽)
𝛽̂ −𝛽
c)
√𝑣𝑎𝑟(𝛽)
𝛽̂ −𝛽
d)
̂)
√𝑣𝑎̂𝑟(𝛽
56. La hipótesis que pueden contrastarse empleado el estadístico anterior,
a) No pueden implicar más que a un parámetro
b) Pueden referirse a más de un parámetro sin ninguna restricción
c) Pueden referirse como máximo a dos parámetros siempre que la hipótesis a
contrastar implique una única restricción
d) Pueden referirse a más de un parámetro siempre que la hipótesis a contrastar
solo implique una combinación lineal de parámetros
57. Un intervalo de confianza para un parámetro individual en un modelo de
regresión múltiple,
a) No tiene mucho sentido en el contexto de la regresión múltiple
b) Contiene información sobre un elevado número de hipótesis referidas al
parámetro
c) Solo debe calcularse si 𝑅 2 = 𝑅̅ 2
d) Ninguna de las anteriores es correcta
58. El estadístico de Durbin y Watson,
1
n n 2
a) Responde a la expresión (ut ut 1 ) uˆt y sirve para contrastar la
ˆ ˆ
i 2 i 1
hipótesis de no autocorrelación
1
n n
b) Responde a la expresión (uˆt uˆt 1 ) 2 uˆt2 y sirve para contrastar la
i 2 i 1
hipótesis normalidad
1
n n
c) Responde a la expresión (uˆt uˆt 1 ) 2 uˆt2 y sirve para contrastar la
i 2 i 1
hipótesis de no autocorrelación
1
n n
d) Responde a la expresión (uˆt uˆt 1 ) 2 uˆt2 y sirve para contrastar la
i 2 i 1
hipótesis de homocedasticidad
59. En una regresión para estimar el salario S de un grupo de trabajadores, se
dispone, aparte de los años de educación X, de las siguientes variables binarias:
DM=1 si el individuo es mujer, DH = 1 si es hombre, DC = 1 si el individuo está
casado, y DS = 1 si es soltero. Diga en cuál de las siguientes ecuaciones no
habrá problemas de multicolinealidad perfecta,
a) 𝑆 = 𝛼 + 𝛽1 𝐷𝑀 + 𝛽2 𝐷𝐻 + 𝛾𝑋 + 𝑢
b) 𝑆 = 𝛼 + 𝛽1 𝐷𝑀 + 𝛽2 𝐷𝐻 + 𝛽3 𝐷𝐶 + 𝛽4 𝐷𝑆 + 𝛾𝑋 + 𝑢
c) 𝑆 = 𝛼 + 𝛽1 𝐷𝑀 + 𝛽2 𝐷𝐶 + 𝛾𝑋 + 𝑢
d) Todas presentan tienen multicolinealidad perfecta
60. Considere un modelo de regresión múltiple con dos regresores X y Z ambos
relevantes para explicar la variable endógena Y. Si se omite Z de la ecuación a
estimar, habrá sesgo debido a la omisión de variables,
a) Siempre dado que ambos son determinantes relevantes de Y
b) Solo si Z está medida en porcentaje
c) Solo si X y Z están correlacionadas
d) Ninguna de las otras es correcta
61. La multicolinealidad no exacta o cuasi multicolinealidad,
a) No tiene importancia en el área de la Economía
b) Es un problema que solo se da en Economía
c) Implica que los estimadores MCO son sesgados
d) Significa que dos o más regresores tienen correlación elevada
62. Diga cuál de las siguientes hipótesis no puede ser contrastada con test F
a) 𝛽2 = 1 − 𝛽3 − 𝛽5 − 𝛽4
b) 𝛽2 𝛽3 = 1
c) 𝛽2 + 𝛽3 = 1 𝑦 𝛽4 = 2𝛽5
d) Todas ellas pueden serlo
63. Cuando contrastamos una hipótesis conjunta,
a) Empleamos el estadístico t para cada una de las hipótesis individuales que la
conforman
b) Empleamos el estadístico F y rechazamos todas las hipótesis si el estadístico
excede al valor crítico en tablas
c) Empleamos el estadístico F y rechazamos al menos una de las hipótesis si el
estadístico excede al valor crítico en tablas
d) Ninguna de las otras es correcta
64. En el modelo 𝑌 = 𝛼 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋1 𝑋2 + 𝜀 puede interpretarse que,
a) Un cambio unitario en X1 implica que Y cambia en 1 unidades
b) Un cambio unitario en X2 implica que Y cambia en 2 unidades
c) Son correctas a) y b)
d) Ninguna de las anteriores es correcta
65. Con objeto de estudiar la estacionalidad de una serie, se emplean datos
trimestrales durante un periodo de 10 años para estimar la siguiente ecuación
(errores estándar entre paréntesis),
Yˆ 2.24 1.03D 0.54 D 1.75 D
t 2 3 4
(0.15) (0.41)
D2, D3 y D4 son dummies estacionales para los trimestres 2º, 3º y 4º. En base a
dicha estimación podemos afirmar que,
a) Todas las dummies son significativas
b) Solo es significativa la dummy correspondiente al segundo trimestre
c) Son significativas las dummies del segundo y el cuarto trimestre, pero no la
del tercero
d) Solo se puede valorar la significatividad de la dummy del segundo trimestre
66. El estadístico de Durbin y Watson,
a) Se emplea para valorar la hipótesis de no autocorrelación
b) No se puede emplear si hay variables endógenas retardadas entre las
explicativas
c) Se basa en el supuesto de que los residuos siguen un proceso autorregresivo
de primer orden
d) Todas las respuestas son válidas
67. En un modelo de regresión para explicar la variable Y se dispone de una variable
cuantitativa X y una variable binaria D. Señale cuál de los modelos es incorrecto,
a) 𝑌 = 𝛼 + 𝛽1 𝑋 + 𝛽2 𝐷 + 𝛽3 𝑋 · 𝐷 + 𝑢
b) 𝑌 = 𝛼 + 𝛽1 𝑋 + 𝛽2 𝑋 · 𝐷 + 𝑢
c) 𝑌 = (𝛼 + 𝐷) + 𝛽1 𝑋 + 𝑢
d) 𝑌 = 𝛼 + 𝛽1 𝑋 + 𝛽2 𝐷 + 𝑢
68. Para decidir entre los modelos 𝑌 = 𝛼 + 𝛽𝑋 + 𝑢 y log(𝑌) = 𝛼 + 𝛽𝑋 + 𝑢, no
emplearía 𝑅̅ 2 porque,
a) log(Y) puede ser negativo si 0 < Y <1
b) La suma total de cuadrados no está medida en las mismas unidades en los
dos modelos
c) En el segundo modelo no indica el efecto sobre Y de un cambio unitario en
X
d) El coeficiente de determinación puede ser mayor que 1 en el segundo
modelo
69. Los residuos MCO en un modelo de regresión simple se definen como,
a) 𝜀̂ = 𝑌̂ − 𝛼̂ − 𝛽̂ 𝑋
b) 𝜀̂ = 𝑌 − 𝛼 − 𝛽𝑋
c) 𝜀̂ = 𝑌 − 𝑌̂
d) Ninguna es correcta
70. A partir de 420 observaciones estimamos un modelo de regresión múltiple con
cinco variables explicativas más la constante, siendo el valor del coeficiente de
determinación de 0.44. Queremos contrastar una hipótesis que implica dos
restricciones obteniéndose para el coeficiente de determinación de la ecuación
correspondiente, un valor de 0.41. Basándose en estos datos,
a) Rechazaríamos la restricción al 1%
b) Rechazaríamos la restricción solo al 5%
c) No es posible rechazar la restricción ni al 5 ni al 1%
d) No tenemos datos suficientes para contrastar la restricción
71. Si todo lo demás permanece constante, la varianza del estimador MCO del
término de pendiente en un modelo de regresión simple, será menor,
a) Cuanto mayor sea la variación de la variable explicativa
b) Cuanto mayor sea la varianza de las perturbaciones
c) Cuanto mayor sea la varianza de la variable endógena
d) Cuanto menor sea el estimador de la constante
72. En el modelo log(𝑦𝑖 ) = 𝛼 + 𝛽log(𝑥𝑖 ) + 𝑢𝑖 , el parámetro ,
a) Mide la variación causada en y por un cambio unitario en x
b) Mide el cambio porcentual en y por unidad de cambio porcentual en x
c) Es la semielasticidad de y con respecto a x
d) Mide cuánto cambia el logaritmo de y cuando x lo hace en una unidad
73. En un modelo de regresión múltiple con k variables explicativas e intercepto, los
estimadores MCO se obtienen minimizando,
a) ∑(𝑌𝑖 − 𝑏0 − 𝑏1 𝑋1𝑖 − ⋯ − 𝑏𝑘 𝑋𝑘𝑖 )2
b) ∑(𝑌𝑖 − 𝑏0 − 𝑏1 𝑋1𝑖 − ⋯ − 𝑏𝑘 𝑋𝑘𝑖 − 𝑢𝑖 )2
c) ∑|𝑌𝑖 − 𝑏0 − 𝑏1 𝑋1𝑖 − ⋯ − 𝑏𝑘 𝑋𝑘𝑖 |
d) ∑(𝑌𝑖 − 𝑏1 𝑋1𝑖 − ⋯ − 𝑏𝑘 𝑋𝑘𝑖 )2
74. Las hipótesis nula y alternativa en la prueba de significatividad (significancia)
global de la regresión múltiple Yi = + 1X1i+… +kXki+ui, son,
a) H0: 1 =…= k = 0, H1: no todos los i son iguales a cero
b) H0: =1 =…= k = 0, H1: no todos los parámetros son iguales a cero
c) H0: =1 =…= k = 0, H1: no todos los i son iguales a cero
d) H0: b1 =…= bk = 0, H1: no todos los bi son iguales a cero
75. En la ecuación ŷ = 6+0.36x0.009x2 donde y es la calificación en la prueba de
selectividad y x el nivel de renta de la familia (miles de euros), el nivel de renta
que maximiza la calificación es,
a) 6
b) 36
c) 20
d) No es posible calcularlo con los datos proporcionados
76. La trampa de las variables dicótomas hace referencia al hecho de que si la
variable binaria tiene m categorías,
a) Solo pueden añadirse m variables binarias al modelo con constante
b) Solo pueden añadirse m1 variables binarias al modelo con constante
c) Solo pueden añadirse mk variables binarias al modelo con constante
d) No hay restricciones respecto del número de variables binarias a añadir al
modelo
77. Diga cuál de las siguientes afirmaciones no es correcta,
a) Un elevado R2 o 𝑅̅ 2 no significa que las variables explicativas sean la
verdadera causa de la variable dependiente
b) Un elevado R2 o 𝑅̅ 2 no significa que no exista sesgo por omisión de variables
c) Un elevado R2 o 𝑅̅ 2 significa que todas las variables son significativas
d) Un elevado R2 o 𝑅̅ 2 no significa necesariamente que hayamos conseguido un
modelo apropiado
78. En general el sesgo debido a variables medidas con error surge cuando,
a) Solo si la variable dependiente y la(s) independiente(s) están medidas con
error
b) La variable independiente está medida con error
c) La variable dependiente está medida con error
d) Siempre está presente dado que en economía las variables nunca están
medidas sin error
79. Sea el modelo de regresión simple 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝜀𝑖 , si b es el estimador MCO
de y ee(b) su error estándar,
𝑏−𝛽
a) → 𝑁(0,1)
𝑒𝑒(𝑏)
𝑏−𝛽
b) → 𝑁(0, 𝜎2 )
𝑒𝑒(𝑏)
𝑏−𝛽
c) → 𝑡𝑛−𝑘
𝑒𝑒(𝑏)
d) Ninguna es correcta
80. Suponga que ha estimado una regresión entre las notas medias en matemáticas
de los alumnos de segundo de bachillerato, y el ratio estudiantes por profesor en
las aulas, obteniendo Ŷi = 6.90.9Xi con un error estándar para la pendiente de
0.2. Entonces el valor del estadístico de contraste para la significatividad global
de la regresión, será,
a) 1.96
b) 4.5
c) 20.25
d) No hay datos para calcular este estadístico
81. Considere una regresión con dos variables explicativas en la que la variable de
interés es X1 siendo X2 una mera variable de control. El supuesto de
independencia en media condicional exige,
a) E( i | X1i , X 2i ) E( i | X 2i )
b) E( i | X1i , X 2i ) E( i | X1i )
c) E( i | X1i ) E( i | X 2i )
d) E(ui ) E(ui | X 2i )
82. Imagine una regresión entre el salario de los trabajadores, una variable binaria,
mujer, que toma el valor 1 para las mujeres y una variable binaria hombre, que
toma el valor 1 para los hombres. Si la regresión incluye una constante y, dado
que típicamente las mujeres tienen, en promedio, salarios menores que los de los
hombres,
a) El coeficiente de Mujer tendría signo negativo y el de Hombre positivo
b) Ambos coeficientes estarían a la misma distancia de la constante, uno por
encima y otro por debajo
c) No se podrían estimar los coeficientes de Hombre y Mujer
d) La regresión es apropiada para calcular la diferencia del salario medio entre
hombres y mujeres
83. En el modelo yi=0+ 1x1i+… kxki+i , donde todas las variables están medidas en
logaritmos, los coeficientes deben interpretarse como:
a) El porcentaje de variación de Y por cada punto porcentual de variación de X
b) El porcentaje de variación de Y por cada variación unitaria de X
c) La variación unitaria en Y debida a una variación de un punto porcentual de X
d) Ninguna de las anteriores
84. Debemos preocuparnos por la posibilidad de multicolineadad perfecta porque,
a) Muchas variables económicas están perfectamente correlacionadas
b) El estimador MCO no es ELIO en esas condiciones
c) El estimador MCO no puede calcularse en esas condiciones
d) En la economía real las variables se mueven siempre conjuntamente
85. Si al cambiar de una especificación original a otra que incluya una o más
variables adicionales, los coeficientes de interés estimados cambian de forma
sustancial,
a) No es preocupante sino una consecuencia esperada de la variación muestral
b) Debe modificar la escala de medida de las variables para solventar el
problema
c) Hay evidencia para sospechar que en la especificación original se han
omitido variables relevantes
d) Debe elegir la especificación en la que el coeficiente de interés sea más
significativo
86. Suponga que el verdadero modelo que ha generado los datos de Y incluye dos
variables explicativas, pero una de ellas se ha excluido de la regresión. Diga cuál
de las siguientes afirmaciones no es correcta,
a) El sesgo por omisión de variables puede ser nulo en algunos casos
b) Dado que el modelo verdadero incluye las dos variables, siembre habrá
sesgo en el supuesto del enunciado
c) El sesgo, de existir, dependerá de la correlación entre las variables
explicativas y de la relación entre la variable excluida y la endógena
d) Si hay sesgo éste puede ser positivo o negativo
87. Un valor p elevado es,
a) Evidencia a favor de la hipótesis nula
b) Evidencia en contra de la hipótesis nula
c) Puede ser evidencia a favor o en contra de la hipótesis nula
d) Ninguna de las anteriores
88. Las siguiente afirmaciones son todas ellas supuestos esenciales del modelo
MCO con la excepción de,
a) Las variables explicativas están normalmente distribuidas
b) E(uiuj)= 0, i j
c) La esperanza E(ui)= 0, siendo ui el término de error
d) No hay multicolinealidad perfecta
89. Cuál o cuáles de los siguientes problemas pueden causar sesgo en la estimación
MCO,
a) La heterocedasticidad
b) La omisión de una variable relevante
c) La autocorrelación
d) Todas ellas
90. La función de regresión muestral estimada por MCO,
a) Tiene un intercepto (constante) nulo
b) Coincide con la función de regresión poblacional
c) Se obtiene minimizando la suma cuadrática de las diferencias entre 𝑌𝑖 e 𝑌̂𝑖
d) Son correctas b) y c)
91. En el modelo Yi = +log(Xi)+i, puede interpretarse como,
a) La elasticidad de Y con respecto a X
b) El cambio marginal de Y con respecto a X
c) El cambio relativo en Y derivado de un cambio unitario en X
d) El cambio absoluto en Y debido a un cambio relativo unitario en X
92. Bajo los supuestos de media condicionada nula del error, (Yi, X1i, …, Xki)
independientes e idénticamente distribuidas, ausencia de multicolinealidad
perfecta y momentos de orden cuarto finitos, los estimadores MCO del modelo
de regresión,
a) Tienen una distribución normal exacta
b) Son ELIO (estimadores lineales, insesgados y óptimos)
c) Son insesgados y consistentes pero no necesariamente eficientes
d) Ninguna de las anteriores es correcta
93. En un modelo de regresión múltiple, un estimador insesgado de la varianza de
las perturbaciones 𝜎𝜀2 viene dado por,
a) (𝑛 − 2)−1 ∑ 𝜀𝑖2
b) (𝑛 − 𝑘 − 1)−1 ∑ 𝜀𝑖2
2
c) (𝑛 − 2)−1 ∑ 𝜀̂𝑖
2
d) (𝑛 − 𝑘 − 1)−1 ∑ 𝜀̂𝑖
94. Considere la regresión,
Yi 0 i :
El estimador MCO de 0
a) No puede ser calculado si no hay al menos una variable explicativa distinta
de la constante
b) Será siempre nulo
c) Será media muestral de Yi
d) Será la media poblacional de Yi
95. En un modelo de regresión múltiple los residuos estimados cumplirán,
a) ∑ 𝑢̂𝑖 = 0
b) ∑ 𝑢̂𝑖 𝑋2𝑖 = ∑ 𝑢̂𝑖 𝑋3𝑖 = 0
c) ∑ 𝑢̂𝑖 𝑌𝑖 = 0
d) Todas las anteriores
96. Si los residuos del modelo están autocorrelacionados, el test de Durbin y
Watson,
a) Siempre detectará el problema
b) No puede emplearse si entre los regresores figuran retardos de la endógena
c) Está diseñado para detectar cualquier estructura en los residuos estimados
d) Ninguna opción es correcta
97. En un modelo con dos variables explicativas se detecta una elevada
multicolinealidad entre ambas. Entonces,
a) Los estimadores MCO serán sesgados
b) Los estimadores MCO serán insesgados pero ineficientes
c) Los estimadores MCO serán insesgados y eficientes pero no consistentes
d) Ninguna de estas propiedades se ve afectada por la multicolinealidad
98. Cuando, basándonos en un test F, rechazamos una hipótesis nula conjunta,
a) Los test t individuales pueden conducir a la misma conclusión o no
b) La regresión es siempre significativa
c) Todas las hipótesis incluidas en H0 resultan rechazadas simultáneamente
d) El valor de estadístico de contraste debe ser negativo
99. Se estima una regresión entre la nota en la selectividad (Y) y la renta familiar del
alumno en miles de euros (X), obteniéndose Ŷi = 3.07+0.65Xi 0.008Xi2. Según
esta ecuación,
a) Un incremento de la renta en una unidad (1000 euros), implica 1.5 puntos
más en la nota de selectividad
b) La renta siempre influye positivamente en la calificación obtenida, pero el
efecto concreto depende del nivel de renta
c) A partir de un determinado nivel, la renta deja de tener una influencia
positiva
d) Ninguna de las anteriores
100. En el modelo de regresión Yi 0 1 X i 2 Di 3 ( X i Di ) i donde X es
una variable continua y D una variable binaria, el parámetro 2,
a) Es la diferencia de medias entre las dos categorías de la dummy
b) Expresa el término independiente diferencial entre las dos categorías de
la dummy
c) Indica la diferencia de pendientes entre las dos categorías
d) Se espera que tenga signo positivo
1 A 11 D 21 A 31 C 41 B 51 C 61 D 71 A 81 A 91 D
2 B 12 C 22 D 32 B 42 C 52 C 62 B 72 B 82 C 92 C
3 C 13 A 23 B 33 D 43 B 53 C 63 C 73 A 83 A 93 D
4 C 14 A 24 B 34 D 44 D 54 D 64 D 74 A 84 C 94 C
5 C 15 B 25 D 35 A 45 B 55 D 65 B 75 C 85 C 95 D
6 C 16 A 26 C 36 C 46 A 56 D 66 D 76 B 86 B 96 B
7 D 17 B 27 D 37 A 47 C 57 C 67 C 77 C 87 A 97 D
8 D 18 A 28 A 38 C 48 B 58 C 68 B 78 B 88 A 98 A
9 C 19 C 29 C 39 B 49 C 59 C 69 C 79 C 89 B 99 C
10 A 20 B 30 C 40 C 50 A 60 C 70 A 80 C 90 C 100 B
Regresión simple y múltiple
1. A partir de la siguiente tabla de datos,
Y 4 5 7 12
X 1 4 5 6
Estimar la regresión Yi = +Xi+i
Solución
Basta calcular,
Yi Xi yi xi xiyi xi2
4 1 -3 -3 9 9
5 4 -2 0 0 0
7 5 0 1 0 1
12 6 5 2 10 4
Suma 28 16 0 0 19 14
Para obtener,
ˆ2
xi yi 19
1.357 y ˆ1 Y ˆ2 X 1.572
i 14
x 2
2. La palabra “regresión” proviene de un estudio de Galton, quien, a finales del
siglo XIX, examinó la relación entre la altura de los hijos y la de sus padres. Un
estudiante decide llevar a cabo un estudio similar para lo que recoge datos de
110 compañeros, estimando la siguiente relación.
Ŷi = 49.78+0.73Xi R2 = 0.45, EER = 5.08
Donde y representa la altura de los estudiantes y x la media de las alturas de sus
padres
a) Interprete los coeficientes estimados
b) ¿Cuál es el significado del estadístico R2?
c) ¿Cuál es la predicción para la altura de un alumno si la altura media de los
padres era 178cm?
1
d) ¿Cómo debe interpretarse el valor de EER?
Solución
a) Por cada incremento de 1 cm en la altura de los padres, la del estudiante se
incrementará 0.73 cm. En este caso no hay una interpretación razonable para
el término independiente
b) El modelo explica el 45% de la variación de la altura de los estudiantes
c) El pronóstico es Ŷi = 49.78+0.73*178 = 179.72
d) El Error Estándar de la Regresión es una medida de la desviación típica del
error de regresión i es decir, una medida de la dispersión de las
observaciones en torno a la recta de regresión.
3. El estimador máximo verosímil de la varianza de las perturbaciones aleatorias
del modelo de regresión lineal es e’e/n. Compare la calidad de este estimador
con el mínimo cuadrático e’e/nk, en términos de sesgo, varianza.
Solución: Sabemos que el estimador MCO, s2, es insesgado. Como el estimador
e'e n k 2
máximo verosímil, s*2 s , éste será necesariamente sesgado, siendo
n n
n k e'e nk 2 nk k
sesgo E (s*2 ) 2 E
2
2 2 1 2
n nk n n n
es decir, sesgado a la baja. El tamaño del sesgo disminuye con n.
Para calcular la varianza del estimador MCO, recordemos que el estadístico
(n k ) s 2
se distribuye como una 2 con nk g.l. por lo que su media es nk y su
2
(n k ) s 2
varianza 2(nk). Por tanto var 2(n k ) de donde se deduce fácilmente
2
2 4
que var( s 2 ) .
nk
Por otra parte la varianza del estimador MV será,
n k e'e n k
2
e'e
var var( s ) var( s )
2 2
var
n n n k n
es decir, la varianza del estimador ML es menor.
2
Ambos son consistentes. En el caso del MCO es claro que su varianza tiende a cero
cuando n. Por otro lado con n el sesgo del estimador MCO es nulo así como
su varianza.
4. Considere el modelo de regresión Yi = 0 +1Xi+i. Sabemos que los
estimadores MCO habituales son insesgados. Sea b1 el estimador obtenido bajo
el supuesto de que el parámetro 0 es nulo.
a) Obtener E(b1) y comprobar que no tiene sesgo cuando 0=0. ¿Hay algún
otro caso en el que dicho estimador sea insesgado?
b) Obtenga la varianza de b1
c) Demostrar que var(b1) var(𝛽̂1), siendo 𝛽̂1 el estimador MCO con constante
Solución
a) Aplicando el criterio MCO al modelo Yi = 1Xi+i obtenemos,
b1
Y Xi i
0 X i 1 X i2 X i i
0
Xi
1
X
i i
X i
2
X i
2
X
i
2
X i
2
Tomando esperanzas vemos que E(b1) = 1 solo cuando 0 = 0 o Xi = 0.
b) La varianza será,
X i i
2
X i E X i i
2 2
var(b1 ) E b1 E (b1 )
2
... E
2
X2
i
2
X i2 X i2 E ( i )2
2
X i
2
c) Si comparamos esta expresión con la de var(𝛽̂1), es evidente que
2 2
X 2
i (X i X )2
dado que el denominador de la última expresión siempre será menor, es decir
X i2 ( X i X )2 . La igualdad solo se da cuando la media de X es nula,
en cuyo caso ambos estimadores coinciden.
3
5. Considere la regresión,
Yˆi 0.2033 0.656 X i , R2 0.397, SCR 0.0544 SCE 0.0358
(0.0976) (0.1961)
donde Y representa la tasa de participación de las mujeres en la fuerza laboral
(TPFL) en 1972 y X la misma tasa en 1968. Los resultados se obtuvieron a partir
de una muestra de 19 ciudades norteamericanas y entre paréntesis figuran los
errores estándar de los estimadores).
a) Interprete los resultados de esta regresión
b) Contraste la hipótesis H0: 1 = 1 contra la alternativa H0: 1 > 1. Especifique
claramente el nivel de significatividad elegido y el valor crítico en tablas
para el mismo.
c) Suponga que en 1968 la TPFL fue de 0.58. Obtenga una predicción para
E(TPFL en 1972) y construya un intervalo de confianza del 95% para la
misma
d) ¿Cómo probaría que los residuos de la regresión están normalmente
distribuidos?
Sol.
a) Hay una asociación positiva lo que no es sorprendente si tenemos en cuenta el
hecho de que desde la II Guerra Mundial ha habido un incremento constante de
las mujeres en el mercado laboral.
.656−1
b) Usando un test t de una cola, t = = −1.7542. Para 17 g.l. el valor
.1961
crítico al 95% para un contraste unilateral es 1.74. Para este contraste la zona de
aceptación estaría a la izquierda de 1.74 y la de rechazo a la derecha de ese
valor. Como el valor del estadístico de contraste queda dentro de la región de
aceptación, no se puede rechazar la hipótesis nula.
c) La media es 0.2033+0.656*.58 = 0.5838. Para construir el intervalo del 95%,
emplearíamos la fórmula 0.58382.11*(ee. del pronóstico), donde 2.11 es el
valor crítico al 95% para una t17. La desviación típica se calcularía a partir de,
1 ( X 0 X )2
ˆ 2
n xi2
aunque en este caso no tenemos datos suficientes para llevar a cabo ese cálculo.
4
d) No es posible contestar a esta cuestión por falta de datos (necesitaríamos la
serie de las discrepancias de la regresión para poder hacerlo).
6. Suponga se le contrata para analizar el número de veces que los padres
divorciados dejan de pagar la mensualidad que le corresponde al cónyuge
encargado de la custodia de sus hijos. Para ello construye y estima por MCO el
siguiente modelo (errores estándar entre paréntesis),
Pˆi 2.0 0.50M i 25.0Yi 0.80 Ai 3.0 Bi 0.15Ci , N 20
(0.10) (20.0) (1.0) (3.0) (0.05)
donde,
Pi = número de meses que deja de pagar en los últimos cuatro años i
Mi = número de meses que el encargado de pagar la pensión alimenticia estuvo
parado en los últimos cuatro años
Yi = porcentaje de renta disponible destinado a la pensión alimenticia
Ai = la edad del cónyuge e encargado de pagar
Bi = creencias religiosas del cónyuge encargado de pagar (en una escala de 1 a 4,
siendo 4 el de creencias religiosas más fuertes)
Ci = número de hijos del matrimonio
Se pide,
a) Indique cuál es el signo esperado de los coeficientes de M e Y. Construya un test
para contrastar esa hipótesis. Emplee un nivel de significatividad del 5%.
b) Contraste la hipótesis de que el parámetro de A es estadísticamente
significativo. Emplee un nivel de significatividad del 1%
c) Lleve a cabo el mismo contraste para las variables B y C pero a un nivel de
significatividad del 10%
Solución
a) Para ambos el signo esperado es positivo (cuantos más meses desempleado, más
meses dejará de pagar la pensión, cuanto mayor sea el porcentaje que la pensión
alimenticia representa respecto a su renta disponible, más meses dejará de
pagar). Por tanto deseamos contrastar la hipótesis H0: =0 contra la alternativa
H1: >0 [o si se prefiere H0: 0 y H1: >0]. Es pues un contraste unilateral.
5
Para 14 g.l. (20-6), el valor crítico en tablas para el 5% es 1.761 y los
estadísticos de contraste,
0.5 25
tM 5 y tY 1.25
0.1 20
Por tanto en el primer caso podemos rechazar la hipótesis nula y aceptar que la
variable afecta positivamente (signo positivo), pero no en el segundo.
b) En este caso se trataría de un contraste a dos colas (bilateral), H0: = 0 y H1:
0, siendo el valor crítico en tablas 2.977. El estadístico de contraste vale tA =
0.8, de manera que no podemos rechazar la hipótesis nula.
c) Análogamente,
3.0 0.15
tB 1 y tY 3
3.0 0.05
Por tanto la variable religiosidad no es estadísticamente distinta de cero.
7. Suponga que con datos referidos al tamaño de la clase (T) y al promedio de las
calificaciones (C), empleamos una muestra de 122 observaciones
correspondientes a alumnos de tercer curso para estimar la siguiente ecuación,
Cˆi 520.4 5.82T , R 2 0.08, EER 11.5
(20.4) (2.21)
a) Construya un intervalo de confianza del 95% para el coeficiente de
pendiente 1
b) Calcule aproximadamente el valor p para el contraste bilateral de la hipótesis
nula H0: 1 = 0. En base a este resultado, ¿rechazaría la hipótesis al nivel del
5%?¿Y al 1%?
c) Contraste la hipótesis H0: 1 = -5.6 al nivel del 1%. Emplee un test unilateral
y uno bilateral, especificando en cada caso las hipótesis nula y alternativa y
los valores críticos en tablas.
d) Construya un intervalo de confianza del 99% para 0
6
Solución
a) El intervalo se obtiene de ˆ1 t / 2 ee( ˆ1 ) . Buscando en las tablas de la
distribución t para 120 g.l. (122-2), observamos que el valor crítico al 95%
es, 1.98, de manera que
ˆ t ee( ˆ ) 5.82 1.98* 2.21 (10.1958, 1.464)
1 /2 1
b) El estadístico de contraste es para dicha hipótesis es,
5.82 0
t120 2.63
2.21
En las tablas de la distribución de referencia puede comprobarse que la
probabilidad de encontrar un valor menor que -1.98 es 0.05, que la
probabilidad de encontrar un valor menor que -2.358 es 0.01, que la
probabilidad de encontrar un valor menor que -2.617 es 0.005, etc. Es decir
que en este caso, el valor p < 0.005 y por lo tanto rechazaríamos esa
hipótesis tanto al 5% como al 1%.
c) Siguiendo el mismo procedimiento, tendremos,
5.82 (5.6)
t120 0.0995
2.21
Para el test unilateral las hipótesis nula y alternativa serán H0: 1 = 0 y H1: 1 < 0 y el
valor crítico en tablas 2.36. No podemos pues rechazar la hipótesis.
Si empleamos un test bilateral las hipótesis nula y alternativa serán H0: 1 = 0 y H1: 1
0 y el valor crítico en tablas 2.62. No podemos pues rechazar la hipótesis.
d) El intervalo resulta como antes
ˆ t ee( ˆ ) 520.4 2.62* 20.4 (466.95, 573,85)
0 /2 0
8. Para estudiar la mortalidad infantil en una muestra de 64 países
subdesarrollados, se estiman los dos modelos siguientes,
Yˆi 263.6416 0.0056 X1i 2.2316 X 2i , R 2 0.7077
(11.59) (0.0019) (0.2099)
Yˆi 168.3067 0.0055 X1i 1.7680 X 2i 12.8686 X 3i , R 2 0.7474
(32.89) (0.0018) (0.2489) ( )
7
Siendo Y la tasa de mortalidad infantil, X1 el PIB per cápita, X2 la tasa de alfabetización
de las mujeres y X3 y la tasa de fecundidad total.
a) Justifique el signo esperado para X3
b) Compruebe si los cambios en los valores de los coeficientes por la inclusión de
X3 son estadísticamente significativos
c) A su juicio ¿cuál de los dos modelos presentados es mejor? Justifique su
respuesta
d) Calcule el error estándar del estimador correspondiente a X3
Solución
a) A priori cabe esperar una relación positiva: cuantos más hijos tenga una mujer,
mayor será la probabilidad de fallecimientos debidos a falta de atención,
alimentación, salud, etc.
b) El correspondiente al PIB per cápita apenas ha variado al contrario que el
coeficiente de la tasa de alfabetización que es bastante diferente. Para contrastar
si esta diferencia es estadísticamente significativa, podemos emplear un test tipo
t y contrastar si en la primera ecuación, el coeficiente de esta variable es
estadísticamente distinto de -1.768, o ver si en la segunda el coeficiente es
significativamente distinto de -2.2316,
2.2316 (1.768)
t61 2.23
0.2099
Al ser mayor (en v.a.) que el valor crítico en tablas al 5%, rechazamos la
hipótesis nula, es decir que la diferencia es significativa.
c) Obtenemos el valor del estadístico F para contrastar si la segunda regresión es
preferible a la primera,
(0.7474 0.7077) /1
F1,60 9.43
(1 0.7474) /(64 4)
Por tanto rechazamos la hipótesis nula de que la tasa de fecundidad sea no
significativa.
d) Para obtenerlo basta recordar la relación entre los estadísticos t y F,
F1, g t g2
8
Lo que en este caso significa que el valor del estadístico t para la hipótesis de
que esa variable es nula, vale √9.43 = 3.07 y por lo tanto el ee(b3) =
12.8686/3.07 = 4.19
9. En diciembre de 1969 aparecieron publicadas en una prestigiosa revista de
investigación, las siguientes dos regresiones, referidas a una muestra de 74
países con datos de 1964,
ln S / Y 7.3439 0.1596lnY / N 0.0254lnG 1.352ln D1 0.3990ln D2
ln S / N 2.7851 1.1486lnY / N 0.0265lnG 1.3438ln D1 0.3966lnD2
siendo, S/Y el ratio de ahorro del país, S/N el ahorro per cápita, Y/N la renta per
cápita, G la tasa de crecimiento de la renta per cápita, D1 el porcentaje de
población por debajo de 15 años y D2 el porcentaje de población por encima de
64 años.
a) Explique si los signos de los coeficientes son los esperados
b) Examine cuidadosamente los resultados de ambas estimaciones y diga si le
parecen correctos, justificando su respuesta
Solución
a) Los signos son efectivamente los esperados: el ahorro (tanto si es la propensión
media, como si es el ahorro per cápita) aumentará con la renta per cápita y con
su tasa de crecimiento. Por otra parte la población entre 0-14 y de más de 64, no
trabaja y por tanto no ahorra, lo que justifica el signo negativo.
b) Dado que,
S SY
, ln S / N ln S / Y ln Y / N
N Y N
de manera que la segunda ecuación debería ser exactamente igual quela primera
excepto que al coeficiente de ln Y/N habría que sumarle exactamente una
9
unidad. Observando las estimaciones, se comprueba que este requisito, aunque
se verifica aproximadamente para todas las variables, no lo hace para el término
independiente que es significativamente diferente en ambas ecuaciones. Los
resultados no pueden ser correctos.
10. Con una muestra de 220 viviendas vendidas en una comunidad, se ha tratado de
modelizar el precio obteniéndose,
Pˆi 119.2 0.485 X 1i 23.4 X 2i 1.7 X 3i 0.02 X 4i
0.090 X 5i 48.8 X 6i , R 2 0.72, SCE 41.5
siendo,
P, el precio en miles de €, X1, número de dormitorios, X2, número de baños, X3, el
tamaño de la vivienda (en m2), X4, el tamaño de la parcela, X5, la antigüedad de la
vivienda en años y X6, es una variable binaria que toma el valor 1 si el estado
general de la casa es malo. SCE es la suma de cuadrados explicada.
a) Suponga que un propietario hace una reforma consistente en convertir parte de
una sala existente en un nuevo cuarto de baño. ¿Cuál será el efecto en el precio
de la casa?
b) Otro propietario añade un nuevo cuarto de baño aumentando el tamaño de la
misma en 9 m2. ¿Cuál es el efecto sobre el precio?
c) ¿Qué sucederá con el precio de una vivienda si su propietario deja que se
deteriore hasta que pueda considerarse en mal estado?
d) Calcule en R2 de la regresión y un estimador de la varianza de las perturbaciones
Solución
a) El precio se incrementará en 23400 €
b) El incremento ahora será 23400+15300=38700 €
c) El precio se reducirá en 48800 €
d) Teniendo en cuenta la equivalencia entre el coeficiente de determinación y el
coeficiente de determinación corregido (2.3.16), se encuentra inmediatamente
que
R2 = 0.7276. Por lo tanto,
SCE
0.7276 y SCT 57.037, SCR 15.537
SCT
10
Entonces,
SCR 15.537
ˆ2 0.073
n k 1 220 7
11. La misma ecuación del ejercicio anterior con los errores estándar de los
estimadores entre paréntesis, es,
Pˆi 119.2 0.485 X 1i 23.4 X 2i 1.7 X 3i 0.02 X 4i
(23.2) (2.61) (8.94) (0.12) (.00048)
0.090 X 5i 48.8 X 6i , R 2 0.72, SCE 41.5
(0.311) (10.5)
Conteste a las siguientes cuestiones,
a) ¿Es significativo el coeficiente de X1? Escriba las hipótesis nula y alternativa
empleadas, así como el nivel de significación y el valor crítico en tablas
b) En general las casas con cinco dormitorios se venden por un precio muy superior
a las de dos dormitorios. ¿Es esto compatible con la estimación del enunciado y
la respuesta dada en a)?
c) El propietario de una vivienda compra un solar adyacente de 500m2. Construya
un intervalo de confianza del 99% para el incremento de valor de la vivienda
d) El estadístico F una vez omitidas las variables X1 y X5, es F = 0.08 ¿Son los
coeficientes de estas variables estadísticamente distintos de cero al 10%? Escriba
la hipótesis nula a contrastar.
Solución
a) El signo esperado es positivo de manera que las hipótesis nula y alternativa son
respectivamente H0: = 0 y H1: > 0. El test apropiado es un test t, que arroja el
siguiente resultado t220-7 = 0.485/2.61 = 0.186. Una t213 es virtualmente una
normal. Para un nivel del 5% en un contraste unilateral, el valor crítico es 1.64,
de manera que no podemos rechazar la hipótesis nula.
b) El coeficiente de X1 mide el efecto parcial del número de dormitorios
manteniendo constante X3, el tamaño de la vivienda. Dado que una vivienda con
5 dormitorios es mucho más grande que una de 2, el resultado en a) no nos dice
gran cosa.
c) El intervalo de confianza del 99% será 500(0.022.58*0.00048) ó (9.38, 10.62)
11
d) El valor crítico al 10% de dicha distribución es F2, = 2.30. Dado que 0.08 <
2.30 no podemos rechazar la hipótesis nula H0= 1 = 5 =0
12. Para estudiar la relación entre las ventas de helados, Y, y la temperatura de una
determinada ciudad costera, X, se estiman los cuatro modelos siguientes, con
datos diarios del año 1992 (N=365),
(1) Yˆt 105 400 Dt 4.7 X t 8.3Dt X t , SCR 5324.75
(2) Yˆt 250 3.5 X t 9 Dt X t , SCR 7294.3
(3) Yˆ 124 557 D 7.3 X ,
t t t SCR 5480.68
(4) Yˆt 350 7.7 X t , SCR 9819.15
D es una variable dummy que toma el valor 1 si el día en cuestión es de los
meses de julio, agosto o septiembre.
a) Interprete los resultados anteriores
b) Elija el modelo que considere más adecuado
Solución
a) En los tres primeros modelos estamos suponiendo que el hecho de estar en
verano tiene un efecto adicional al de la temperatura. En (1) la dummy afecta
tanto a la constante como a la pendiente, en 2 solo a la pendiente y en 3 solo
a la constante. Se observa una variación importante en el coeficiente de X
según consideremos uno u otro modelo. El modelo (4) hace depender las
venta únicamente de la temperatura …
b) La elección desde un punto de vista estadístico ha de basarse en el tamaño de
la SCR. Aunque en puridad habría que comparar los cuatro modelos, dada la
escasa variación en cuanto a los grados de libertad, los dos candidatos mejor
situados son el modelo (1) y el (3). Dado que el (3) resulta de imponer en (1)
la restricción 4 =0, podemos emplear un contraste tipo F,
(5480.68 5324.75) /1
F1,361 10.54
5324.75 /(365 4)
Este valor es mayor que el crítico en tablas para cualquiera de los niveles de
significatividad habituales. Por lo tanto rechazamos la hipótesis nula y
elegimos el modelo (1).
Como solo hay un grado de libertad en el numerador, podemos también
obtener el ratio t para b4 como la raíz cuadrada de 10.54, es decir 3.25,
12
aproximadamente, lo que conduce a la misma conclusión: la variable DX es
estadísticamente significativa y el modelo (1) mejor que el (3).
13. Una regresión múltiple con dos variables explicativas arroja el siguiente
resultado,
Yˆ 4 0.4 X1 0.9 X 2 , R 2 8 / 60, ε'ε
ˆ ˆ 530, N 29
siendo
29 0 0
X'X 0 50 10
0 10 80
a) Contraste la hipótesis de que las dos pendientes suman 1
b) Contraste la hipótesis de que la pendiente de X1 es nula
Solución
a) Las varianzas de los estimadores resultan de,
1
29 0 0 0.034483 0 0
520
ˆ ( X'X)
2 1
0 50 10 20 0 0.020513 0.002564
29 3
0 10 80 0 0.002564 0.012821
Por lo tanto los errores estándar de los estimadores de pendiente,
ˆ ˆ1 ) 20*0.020513 0.41026, ee( ˆ1 ) 0.64
var(
ˆ ˆ2 ) 20*0.012821 0.25642, ee( ˆ2 ) 0.506
var(
ˆ ˆ ˆ ) 20*(0.002564) 0.051
cov( 1 2
El contraste de la hipótesis H0: 1+ 2=1 puede entonces llevarse a cabo a partir
del estadístico,
0.4 0.9 1 0.3
t293 0.399
ˆ ˆ ˆ ˆ
var( 1 ) var( 2 ) 2cov( 1 2 ) 0.41026 0.25642 2*0.051
De manera que la hipótesis no puede ser rechazada.
13
b) Empleando los datos anteriores,
0.4
t26 0.625
0.64
De manera que la hipótesis no puede ser rechazada.
14. Un investigador cree, acertadamente, que la relación entre dos variables X e Y
viene dada por Y = 1 +2X+u. Dada una muestra de n observaciones de dichas
variables, junto con una tercera Z, que no es determinante de Y, el investigador
estima 2 como,
b2
(Z Z )(Y Y )
i i
(Z Z )( X X )
i i
Suponiendo que Z y X son no estocásticas analice si dicho estimador es
insesgado.
Solución
Sustituyendo Y por su valor,
b2
Z Z Y Y
i i
Z Z X X
i i
Z Z [ X u ] [ X u ]
i 1 2 i i 1 2
Z Z X X
i i
Z Z [ X X ] u u Z Z u u
i 2 i i i i
Z Z X X Z Z X X
2
i i i i
donde hemos expresado el estimador como la suma del verdadero parámetro
poblacional más un término de error.
Por lo que se refiere a la insesgadez,
14
Zi Z ui u
E b2 E 2 E
Zi Z X i X
2
E Z Z u u E Z Z u u
i i i i
Z Z X X Z Z X i X
2
i i i
2
Z Z E u u
i i
Z Z X X
2
i i
La esperanza de 2 es obviamente 2 (es una constante) y el denominador de
la esperanza del segundo término puede salir fuera del operador esperanza si
asumimos que Z y X son no estocásticas.
En cuanto al numerador, empleamos la propiedad de que la esperanza de
una suma es la suma de las esperanzas, junto con la no aleatoriedad de Z y el
supuesto habitual de que la esperanza del término de error es nula.
Así llegamos a la conclusión de que el estimador es insesgado.
15. Tras recoger una muestra de 100 observaciones de las variables X e Y, un
investigador propone estimar 1 en la regresión Yi = 0+1Xi+i a partir de la
Y Y
expresión ˆ1* n 1 .
X n X1
a) Compruebe si el estimador es sesgado o insesgado
b) ¿Qué puede decir de la varianza del estimador en relación con la del
estimador MCO? En concreto, ¿cuál de los dos estimadores tendrá una
varianza menor?
c) Diga si el estimador ˆ * es consistente. Justifique su respuesta.
1
Solución
a) El estimador es insesgado puesto que,
Yn Y1 ( 1 X n n ) (0 1 X n n ) ( )
0 1 n 1
X n X1 X n X1 X n X1
Y, teniendo en cuenta los supuestos del modelo, la esperanza de la expresión
anterior es precisamente, 1
15
b) Dado que el estimador pertenece a la misma clase de estimadores que el MCO,
el teorema de Gauss Markov garantiza que la varianza de este estimador será
mayor que la de MCO.
c) Este estimador no es consistente. Independientemente del tamaño muestral, se
obtiene solo a partir dos observaciones (primera y última), por lo que aumentar
el tamaño de la muestra no tendrá aquí el efecto deseado, es decir la
convergencia hacia el verdadero valor del parámetro.
16. Con datos USA del periodo comprendido entre el primer trimestre de 1948 al
segundo de 1978 (estadísticos t entre paréntesis), se ha estimado la siguiente
ecuación,
yˆ h p
ln 1.5492 0.7135ln 0.1081ln e 0.0045t , R 2 0.98
k k p
(16.33) (21.69) (6.42) (15.86)
y= producción real en el sector privado
k= medida del flujo de servicios de capital
h= horas por persona en el sector privado
pe = índice de precios al productor para el combustible y productos relacionados
p = Deflactor de precios en el sector privado
t = tiempo
a) ¿Apoya la estimación anterior la hipótesis de que un aumento en el precio
relativo de la energía causa un descenso de la productividad del capital –
existente- y de los recursos laborales? Justifique su respuesta
b) Entre 1972 y 1977 el precio relativo de la energía (pe /p) aumentó un 60%. A
partir de la ecuación anterior, ¿cuál es la pérdida de productividad?
c) Tenidos en cuenta los cambios en (h/k) y (pe /p), ¿cuál fue la tendencia de la tasa
de crecimiento de la productividad durante el periodo muestral?
d) ¿Cómo debe interpretarse el coeficiente de (h/k), 0.7135?
e) El hecho de que cada coeficiente individual sea significativo, ¿significa que
podemos rechazar la hipótesis de que R2 = 0?¿Por qué?
Solución
a) Sí dado que el signo del coeficiente del precio es negativo y estadísticamente
significativo
16
b) La pérdida se cifra en 60*0.1081 = 6.486%
c) La tendencia de la tasa de crecimiento fue de un 0.45%
d) Es una elasticidad: por cada incremento de un punto porcentual en el factor
trabajo, el incremento de la producción es 0.7135 %
e) Si todos los coeficientes son estadísticamente significativos, es muy poco
probable que no sean globalmente significativos. En este caso,
0.98 / 3
F3,118 1928.37
(1 0.98) /118
17. La siguiente ecuación trata de explicar el salario de los directores generales en
diferentes sectores productivos,
ˆ
log( salario ) 4.59 0.257 log(ventas) 0.011roe 0.158 finan
(0.30) (0.032) (0.004) (0.089)
0.181cons 0.283serv,
(0.085) (0.099)
N 209, R 2 0.357
roe es el rendimiento de los activos; finan, cons y serv, son variables binarias
para los sectores financiero, de consumo y servicios. El sector del transporte se
ha tomado como categoría base.
a) ¿Cómo debe interpretarse el valor del coeficiente de ventas?
b) Calcular la diferencia porcentual aproximada en el salario entre los sectores de
transporte y servicios, manteniendo fijas ventas y roe. ¿Es esta diferencia
significativa al 1%?
c) En general si b1 es el estimador de una variable ficticia donde la endógena está
en logaritmos, la diferencia porcentual exacta entre el valor esperado cuando la
ficticia toma el valor 0 y 1, viene dado por 100[exp(b1)1]. Emplear esta
expresión para calcular la diferencia salarial exacta del supuesto contemplado en
b y comparar los resultados.
d) ¿Cuál será la diferencia porcentual aproximada entre los salarios de los sectores
de consumo y financiero. Escribir una ecuación que permita contrastar si esta
diferencia es estadísticamente significativa.
17
Solución
a) Mide directamente la elasticidad, es decir un incremento de un 1% en las ventas,
provocará un incremento de un 0.257% en el salario del director general.
b) La diferencia será exactamente el valor del coeficiente de la dummy servicios
multiplicada por 100, es decir -28.3%. Es estadísticamente significativa, dado
que -0.283/0.099 = -2.85.
c) 100[exp(-0.283)-1] =-24.65%, algo mayor que la cifra anterior
d) La diferencia será 100(0.181-0.158)=2.3%. Para contrastar si la diferencia es
significativa, deberíamos estimar una ecuación en la categoría base fuese el
sector financiero (o el de consumo) y ver luego si la dummy del sector de
consumo (financiero), es o no estadísticamente significativa.
18. Para contrastar el efecto, si lo hay, del consumo de marihuana sobre el salario de
los trabajadores, disponemos de datos de salarios, educación, experiencia y sexo
de una muestra longitudinal. Además disponemos de la contestación de cada
trabajador a la pregunta ¿En cuántas ocasiones fumaste marihuana el mes
pasado?
a) Escribir una ecuación que permita estimar los efectos sobre el salario del
consumo de esta droga
b) Especificar un modelo que permita contrastar si el consumo de marihuana
tiene efectos distintos en hombres y mujeres. ¿Cómo se contrastaría que no
hay diferencias entre sexos?
c) Supongamos que se considera preferible medir el consumo clasificando a los
individuos en cuatro grupos: no consumidor, consumidor ocasional (1-5
veces al mes), consumo moderado (6-10 veces) y consumidor habitual.
Proponer un modelo que permita estimar los efectos de la droga sobre el
salario.
d) Usando el método definido en c), explicar cómo contrastar la hipótesis nula
de que el consumo no afecta al salario.
e) ¿Cuáles son los problemas para obtener inferencia causal con este tipo de
datos?
Solución:
a) Un modelo adecuado sería,
log(salario) = 0+1uso+2educ+3exper+ 4exper2+ 5mujer+u
de manera que 1001 medirá el cambio porcentual en el salario derivado
consumir marihuana una vez más al mes.
18
b) Emplearíamos el modelo,
log(salario) = 0+1uso+2educ+3exper+ 4exper2+ 5mujer+6mujer*uso
La hipótesis nula de que el uso de la droga no presenta diferencias por
género sería H0: 6=0
c) Definiendo las dummy apropiadas y tomando como categoría base a quienes
no consumen droga,
log(salario) = 0+1uso1+1uso2+1uso3+2educ+3exper+ 4exper2+
5mujer+u
uso1, uso2 y uso3, son dummy para los diferentes grados de consumo.
d) La hipótesis nula es H0: 1=3=3=0. El estadístico de contraste sería una F
con q=3 y n-8 g.l.
e) El término de error contendrá factores como el historial familiar (que incluye
el historial del uso de droga por parte de los padres) que podrían afectar a los
salarios y también estar correlacionados con el uso de marihuana. Nos
interesa el efecto del uso de droga por parte de una persona en su salario, de
manera que debemos procurar mantener constantes el resto de los factores.
Deberíamos procurar obtener datos del historial familiar para incluirlo en la
ecuación como una variable adicional.
19. Para tratar de analizar si la pertenencia a un sindicato influye en el salario,
estimamos la siguiente ecuación,
Wˆi 11.4 0.30edad 0.0003edad 2 1.01educ 1.22Sind , N 34, R 2 0.14
(0.34) (0.10) (0.002) (0.20) (1.20)
donde w es el salario en euros/hora, edad es la edad en años del trabajador,
educ, los años de educación y sind una dummy que toma el valor 1 si el
trabajador está afiliado a un sindicato.
a) Valorar los resultados de la ecuación anterior
b) ¿Cómo justificamos la inclusión de la edad al cuadrado? ¿Qué tipo de
relación hay entre el salario y la edad? ¿No viola la inclusión de edad y
edad2 el supuesto de no multicolinealidad perfecta?
c) ¿Considera que la forma funcional es adecuada? Justifique su respuesta
d) ¿No deberíamos ignorar el término independiente?
19
e) Basándose en los resultados de la regresión, ¿considera que es beneficioso
para un trabajador estar sindicado? Justifique su respuesta.
Solución:
a) Todos los coeficientes estimados tienen los signos (dirección) esperados. Los de
edad y nivel de estudios, son estadísticamente significativos, sin embargo el
coeficiente de determinación corregido, es bajo.
b) Implicaría que los salarios crecen con la edad de forma no lineal: el crecimiento
es menor cuanto mayor es el valor de la edad. La relación parece lineal por
cuanto el coeficiente de edad2 no es significativamente distinto de cero. Edad y
Edad2 no tienen colinealidad perfecta.
c) Dado que los incrementos en los salarios suelen negociarse en términos
porcentuales, una relación semilogarítmica donde la variable dependiente fuese
log w, sería más apropiada (así es como suele tratarse este tipo de ecuaciones en
la literatura econométrica)
d) En este contexto suele ser una buena idea ignorar el término independiente (a no
ser que estemos seguros de su existencia) incluso si su magnitud es elevada.
e) El coeficiente de la dummy correspondiente es suficiente para afirmar que, en
este caso, no hay evidencia favorable a que la sindicación redunde en mayores
salarios.
20. Considere la dos regresiones,
y 1 x1 2 x2 3 x3 u , e
y 1 z1 2 z2 3 z3 u
con,
z1 x1 2 x2
z2 x2 4 x3
z3 2 x1 3x2 5 x3
Sea X = [x1 x2 x3] y Z = [z1 z2 z3]
a) Mostrar que las columnas de Z pueden expresarse como combinaciones
lineales de las columnas de X, es decir que Z = XA siendo A una matriz 3x3.
Encontrar los elementos de dicha matriz
b) Dados los elementos de A-1 mostrar que los residuos estimados de las dos
ecuaciones son idénticos.
20
c) ¿Cuál es la relación entre ˆ1 y ˆ i para i = 1, 2, 3? ¿Cuál es la relación entre
ˆ1 y ˆi para i = 1, 2, 3?¨
Solución:
a) Es inmediato comprobar que las ecuaciones que relacionan las columnas de
Z con las columnas de X son,
z1 x1 2 x2
z2 x2 4 x3
z3 2 x1 3x2 5 x3
Y por lo tanto la matriz A que resuelve Z = XA es,
1 0 2
A 2 1 3
0 4 5
Para mostrar que las columnas de X son combinaciones lineales de las columnas
de Z, necesitamos resolver el sistema anterior para expresar cada xi como
función de zi, es decir, debemos calcular X = ZA-1. A es una matriz cuadrada no
singular y por tanto invertible, de manera que A-1 existe. Tenemos entonces,
17 8 2
X = ZA z1
1
z2 z3 10 5 1
8 4 1
b) Las matrices de proyección P y las matrices productoras de residuos M, son
las mismas en ambos casos, es decir PX=PZ dado que,
PX X(X'X)1 X ' (ZA1 )[(ZA1 )(ZA1 )]1 (ZA1 )' Z(Z'Z)1 Z ' PZ
Por tanto las matrices productoras de residuos MX, MZ han de ser también
iguales, con lo que queda probada la afirmación.
c) Puesto que los residuos de las dos regresiones son iguales, debe cumplirse la
igualdad XÂ Xˆ . Ello implica que ˆ Aˆ y ˆ A 1ˆ de donde se
obtiene,
ˆ1 ˆ1 2ˆ3
ˆ1 17 ˆ1 8ˆ2 2ˆ3
21
21. Un investigador tiene datos de corte transversal sobre salarios agregados, W,
beneficios agregados, P, y renta agregada, Y, de una muestra de n países. Por
definición Y = W+P. Empleando el análisis de regresión se estimar las
ecuaciones,
Wˆ a1 a2Y
Pˆ b b Y
1 2
a) Mostrar que los resultados de la regresión satisfarán las siguientes
igualdades: a2+b2 = 1 y a1+b1 =0
Solución:
a)
a2 b2
Y Y W W Y Y P P
i i i i
Y Y Y Y
2 2
i i
Y Y W P W P Y Y Y Y 1
i i i i i
Y Y Y Y
2 2
i i
a1 b1 (W a2Y ) ( P b2Y )
W P a2Y b2Y
Y Y 0
22. Dadas las expresiones,
T 1u'u
T 1u'u
ˆ ˆ
ˆ ˆ]
E[u'u
ˆ ˆ ']
E[uu
con u (u1 , u2 ,..., uT ) y uˆ (uˆ1 , uˆ2 ,..., uˆT )
Explicar el significado de cada una de ellas y su relación con u2
Solución:
T 1u'u es la media muestral de los cuadrados de los residuos. Tomando
esperanzas,
22
E[T 1u'u] T 1E (u'u) T 1T u2 u2
Análogamente T 1u'u
ˆ ˆ es la media muestral de los cuadrados de los residuos.
Como sabemos,
ˆ ˆ u2 t2k y dado que la esperanza de una distribución 2 con t-k g.l. es
u'u
precisamente t-k, tenemos,
ˆ ˆ ] E[ u2 t2k ] u2 E[ u2 t2k ] u2 (T k )
E[u'u
Finalmente E[uuˆ ˆ '] es la matriz de covarianzas de los residuos. Dadas las
hipótesis básicas del modelo,
ˆ ˆ '] u2ITT
E[uu
23. Sea el modelo,
y Xβ + u, u N (0, 2I)
y supongamos que dicho modelo se puede expresar como,
y X1β1 X2β 2 u
con la condición de que X1 y X2 son ortogonales, es decir X1T X2 = 0 .
Demuestre que el estimador MCO se puede expresar como,
βˆ 1 ( X1T X1 )1 X1T y
βˆ ( XT X )1 XT y
2 2 2 2
Solución:
1
T X1T
ˆβ ( X X) X Y X1 X
T 1 T
X2 T Y
1
X 2 X 2
T
1
XT X X1T X 2 X1T
1T 1 Y
X 2 X1 XT2 X 2 XT2
Pero por las condiciones de ortogonalidad X1T X2 XT2 X1 0 y,
23
1 1
XT X X1T X 2 X1T X1T X1 0 X1T
βˆ 1T 1 Y Y
X 2 X1 XT2 X2 XT2 0 XT2 X 2 XT2
( X1T X1 ) 1 0 X1T ( X1T X1 ) 1 X1T Y βˆ 1
Y T
( XT2 X 2 ) 1 XT2 ( X 2 X 2 ) X 2 Y βˆ 2
1 T
0
24. Sea el modelo yi=1xi+2wi+ui donde por sencillez se ha supuesto que todas las
variables tienen media nula y se ha omitido el término independiente.
Supongamos que Xi se distribuye de forma independiente de (Wi, ui) pero que
estas dos últimas variables pueden estar correlacionadas. Sean ˆ y ̂ , los 1 2
estimadores MCO de este modelo. Demuestre que,
a) Tanto si Wi y ui están correlacionados como si no, ˆ1 converge en
probabilidad a 1
b) Si Wi y ui están correlacionadas ̂2 es inconsistente
Solución:
(a) Escribimos el modelo de regression como, Yi 1Xi 2Wi ui, o en forma
matricial,
Y X W U
Donde,
Y1 X1 W1 u1
Y X W u
Y 2, X 2, W 2, U 2,
Yn Xn Wn un
1 , 2 .
El estimador MCO es,
24
ˆ1 XX XW 1 XY
ˆ WX WW WY
2
1
XX XW XU
1
2 W X W W W U
1
1 XX 1
XW 1n XU
1 1n n
2 n W X WW 1n WU
1
n
1
1 n X 2 1
in1 X iWi 1n in1 X i ui
1 1 n n i 1 i n
1 n
2 n i 1 Wi X i
1
in1 Wi 2 Wu
n n i 1 i i
Por la ley de los grandes números,
1
n
in1 X i2
p
E( X 2 ); 1n in1 Wi 2
p
E(W 2 ); 1
n
in1 X iWi
p
E( XW ) 0
(Porque X y W son independientes y tienen media nula);
1
n
in1 X i ui
p
E( Xu) 0 (porque X y u son independientes con media cero);
1
n
in1 X i ui
p
E( Xu) 0 . Por tanto,
1
ˆ1 p 1 E ( X 2 ) 0 0
ˆ 2 0 E (W 2 ) E (Wu )
2
1
E (Wu ) .
2 E (W 2 )
E (Wu )
(b) De la respuesta a (a) ˆ2
p
2 2 si E(Wu) 0.
E (W 2 )
25. a) Dos variables X e Y están relacionadas según Yi= 2Xi+ui, donde u es una
perturbación que satisface los supuestos del modelo de regresión.
i. Obtener el estimador MCO para esta ecuación
ii. Explicar en términos generales, porqué el procedimiento mínimo
cuadrático es recomendable si se satisfacen los supuestos habituales
b) Considere ahora la relación Y i= 1+2Xi+ui siendo X no estocástica y u la
perturbación sujeta a los supuestos usuales. Para este modelo es conocida la
expresión del estimador MCO que es insesgado, así como la expresión de su
varianza. Dada una muestra de n observaciones un investigador decide estimar
2 según ˆ2
Yi X i
, cuya varianza es
u2
,
X i
2
X i
2
i. Demostrar que este estimador es en general sesgado
ii. Analizar si es posible determinar el signo del sesgo
25
iii. Demostrar que si 1 = 0, el estimador es insesgado ¿Qué puede decirse
en este caso de la eficiencia de ̂2 respecto al estimador MCO,
yx / x 2
iv. Demostrar que ̂2 será insesgado si X 0 ¿Qué puede decirse en este
caso sobre la eficiencia de ̂2 respecto al estimador MCO, yx / x 2
?
v. Sean 1 0 y X 0 y supongamos que X varía poco en la muestra. ¿Es
posible que este estimador sea mejor que el MCO?
Solución:
a) i. Procediendo de la forma habitual, minimizamos
(Y ˆ 2 X )2
2
Obteniendo ˆ2 2
XY
X
ii. Si se cumplen los supuestos habituales proporciona estimadores insesgados,
eficientes y consistentes
b) i. Es fácil ver que,
b2 ˆ2
XY X (1 2 X u) 1 X Xu
X2 X2 X2 X2
2
1 X XE (u) X
E (b2 ) 2 1
X X X
2 2 2 2
Dado que X es no estocástica.
Por tanto el estimador será en general sesgado.
ii. El signo del sesgo depende de 1 y de X y no se dispone de esa información
iii. Si 1 = 0 del desarrollo anterior se deduce que
26
Xi
E ( ˆ2 ) E 1 2 E (0 2 ) 2
X2
i
̂2 es más eficiente que i
( X X )(Yi Y )
a menos que la media de X sea
( X i X )2
u2
nula, dado que la varianza poblacional de ̂2 será , mientras que la del
X i
2
u2 u2
estimador alternativo es que necesariamente es
(X i X)
2
X i
2
nX 2
mayor, al ser menor el denominador.
vi. Si la media de X es distinta de cero el estimador es sesgado!
vi. Si X tiene poca variación muestral (X X ) 2
será pequeña y por tanto
la varianza poblacional de ( X X )(Y Y )
i i
será grande. Por tanto, si
(X X ) i
2
empleamos el criterio del menor error cuadrático medio, ̂2 puede ser
preferible si el sesgo es pequeño.
26. Considere el siguiente modelo para explicar la tasa de mortalidad debida a
enfermedades coronarias en un país hipotético,
Yˆt 14 10.2Ct 4.5Et 1.1M t
(2.5) (1.2) (0.5)
C = consumo per cápita de cigarrillos
E = consumo per cápita de grasas saturadas
M = consumo per cápita de carne
Los datos corresponden a una muestra anual de 31 observaciones, siendo el
coeficiente de determinación, 0.678.
a) Explicite las hipótesis nula y alternativa apropiadas para contrastar la
significatividad estadística de los parámetros individuales.
b) Contraste la significatividad global de la regresión sabiendo que el valor
crítico al 5% es 2.95. ¿Puede decir si es significativa al 10%?
27
c) Construya un intervalo de confianza del 95% para la varianza de las
perturbaciones aleatorias (tome como valores críticos de la distribución
teórica correspondiente 14.57 y 43.19)
d) A su juicio y con los datos proporcionados, ¿es apropiado el modelo?
Justifique su respuesta.
e) Un investigador considera que los efectos de las grasas saturadas y el
consumo de carne son iguales. Escriba la especificación representativa del
modelo restringido.
f) Suponga que estimado el modelo restringido, se obtiene un valor para el
coeficiente de determinación de 0.547. Contraste la validez de la restricción
para un nivel de significatividad del 5% (tome 3 como valor crítico
aproximado).
Solución
a) Para cada caso H0: = 0 y H1: 0 (ó H1: > 0)
b) F3, 27 = 18.95, luego se rechaza H0 y se acepta la significatividad global al
5%. Con mayor razón la regresión será significativa al 10% (par este nivel de
significatividad el valor crítico será menor)
𝑆𝐶𝑅
c) El cociente se distribuye como una 2 con n-k-1 g.l., al ser la suma de n-
𝜎2
k-1 variables aleatorias normales tipificadas elevadas al cuadrado. Por tanto,
SCR 1 2 1 SCR SCR
14.57 43.19 2
2
43.19 SCR 14.57 43.19 14.57
En términos de ˆ quedaría aproximadamente (0.625ˆ ,1.853ˆ 2 )
2 2
d) La variable M, aunque significativa, tiene un signo contrario al esperado. En
este sentido (y a falta de valorar otras cuestiones –heterocedasticidad…) el
modelo no puede considerarse satisfactorio.
e) El modelo sería entonces Yt 0 1Ct 2 ( Et M t ) ut
f) El estadístico F para contrastar esta hipótesis, obtenido a partir de los
coeficientes de determinación de las regresiones restringida e irrestricta, vale
aproximadamente 10.98, siendo muy superior al valor crítico. En
consecuencia se rechazaría la hipótesis nula, es decir que ambos parámetros
sean iguales.
27. Para tratar de explicar la relación entre el peso de los bebés al nacer (en onzas) y
el consumo de tabaco de las madres, se dispone de una muestra de 1388
observaciones. Con los datos de varianzas, covarianzas y medias dados en la
tabla siguiente,
Peso al nacer Cigarrillos
28
consumidos
Peso al nacer 413.9854 18.31459
Cigarrillos 18.31459 35.6473
consumidos
Medias 118.6996 2.087176
a) Estime el modelo apropiado que relaciona ambas variables
b) ¿Cuál es el peso al nacer pronosticado cuando no se fuma?¿Y cuando X =20
(se fuma un paquete de cigarrillos diarios? Comentar la diferencia.
c) ¿Implica necesariamente la regresión estimada que existe una relación causal
entre ambas variables? Justifique su respuesta.
d) ¿Cuánto tendría que valer X para que el peso fuese 125 onzas? Comente este
resultado.
uˆ 561551.3 y (uˆi uˆi 1 ) 1083794.01 . Calcule el
2 2
e) Suponga que i
estadístico de Durbin y Watson y haga una valoración aproximada de la
hipótesis de no autocorrelación.
f) Sea la regresión,
uˆ 2 408.56 3.011X 0.057 X 2 , R 2 0.000119
(26.88) (9.61) (0.34)
donde X son los cigarrillos consumidos y u los residuos de la regresión estimada
en a). Valore aproximadamente el supuesto de homocedasticidad, indicando el
estadístico empleado y su distribución.
Solución
18.31459
a) ˆ 0.5138, ˆ 118.6996 (0.5138)*2.087176 119.77
35.6473
b) Ŷ=119.77-0.5138*0 = 119.77; Ŷ=119.77-0.5138*20 = 109.494
c) No, correlación no implica causalidad. Debe haber razones teóricas que la
justifiquen.
d) El valor de X tendría que ser negativo, lo que no tiene sentido en este
contexto …
e) Se obtiene inmediatamente que DW = 1.93, lo que está suficientemente
próximo a 2 para mantener la no autocorrelación.
f) El estadítico nR2 se distribuye como una 2 con 2 g.l. Su valor
1388*0.000119 = 0.165, es muy bajo y no permite rechazar la hipótesis nula
(la homocedasticidad).
29
28. Considere un modelo que explique los salarios de los directores generales de las
empresas (Y), en función de las ventas anuales (X1), el rendimiento de los pagarés
(X2) y el rendimiento de las acciones de la empresa (X3),
log(Y) = 0+1log(X1)+2X2+3X3+u
a) Especificar la hipótesis nula de que, una vez tomada en cuenta a influencia de
las ventas y el rendimiento de los pagarés, el rendimiento de las acciones no
influye en el salario de los directivos.
b) Si la estimación es,
log(Y) = 4.32+0.28log(X1)+0.017X2+0.00024X3+u, n= 209, R2 = 0.283
(0.32) (0.035) (0.0041) (0.00054)
¿cuál sería el efecto pronosticado sobre el salario de un incremento de 50 puntos
en el rendimiento de las acciones?
c) Contrastar la significatividad individual de X3. Especificar claramente las
hipótesis nula y alternativa.
d) Justifique si incluiría esta variable en el modelo final elegido para explicar la
remuneración de los directores generales.
e) Contraste la significatividad global del modelo. ¿Cuál es la hipótesis nula en este
contraste?
Solución
a) H0: 3 = 0, H1: 3 > 0
b) Se incrementaría en un 0.012% aproximadamente, en log Y (lo cual implica un
incremento de aproximadamente un 1.2%) No obstante no se puede rechazar que
ese parámetro sea nulo (ver c), de manera que dicho incremento no produciría
ningún efecto.
c) Las hipótesis nula y alternativa han sido especificadas en a). El estadístico de
contraste es t205 = N(0, 1) = 0.44, de manera que no se puede rechazar la
hipótesis nula.
d) NO, dado que claramente es no significativa
30
e) H0: 1 = 2 = 3 = 0. El estadístico de contraste es F3, 205 = [0.283:3]/[(1-
0.283):205] = 26.97, de manera que se rechazaría la hipótesis nula.
29. En la tabla siguiente se muestran las varianzas y covarianzas de los logaritmos de las
importaciones, el PIB y el IPC en USA entre 1975 y 2005,
LIMPORT LPIB LIPC
0.27240
LIMPORT 0.562049 0.429960 8
0.21197
LPIB 0.429960 0.332464 4
0.13712
LIPC 0.272408 0.211974 9
Medias 13.08472 8.569723 4.785519
a) La estimación de las importaciones arroja el siguiente resultado (errores estándar
entre paréntesis),
yˆt 1.41 1.85 x1t 0.87 x2t ,
(0.27) (0.18) (0.28)
Valore económicamente los resultados obtenidos.
b) El coeficiente de determinación de la regresión anterior es R2 = 0.992.
¿Sospecha de Multicolinealidad? Justifique su respuesta.
c) Estime las siguientes regresiones,
i. log(import) = 1+ 2log(PIB) +u
ii. log(import) = 1+ 2log(IPC) +u
iii. log(PIB) = 1+ 2log(IPC) +u
Basándose en los resultados de estas regresiones, ¿qué puede decir sobre la
naturaleza de la Multicolinealidad en los datos?
Solución
31
a) Los parámetros son estadísticamente significativos pero el correspondiente a
precios, tiene signo contrario al esperado: si suben los precios lo lógico es que se
compren fuera más bienes y servicios, es decir que se importe más y no menos.
b) Sí, dado que hay un síntoma clásico: elevado coeficiente de determinación junto
con signos no esperados de los coeficientes.
c) Las estimaciones son,
log(import) = 2.002 + 1.293log(PIB), R2 = 0.989321
(0.21) (0.025)
log(import) = 3.578 + 1.986log(IPC), R2 = 0.962795
(0.348) (0.072)
log(PIB) = 1.172 + 1.546log(IPC), R2 = 0.985574
(0.167) (0.035)
La regresión entre PIB e IPC (las variables exógenas en la ecuación de
importaciones original), muestra un elevado coeficiente de determinación lo que
indicaría elevada correlación y por tanto, multicolinealidad.
30. Se dispone de los datos de precios, P y cantidades, Q, de naranjas vendidos en la
frutería de 12 supermercados diferentes. Sabemos además que,
𝑃̅ = 70, 𝑄̅ = 100, ∑ 𝑝𝑞 = −3550, ∑ 𝑝2 = 2250
a) Obtenga la estimación de la función de demanda
b) De acuerdo con los resultados obtenidos, ¿qué sucedería si el precio sube un
1%? ¿Es la estimación anterior una función rígida o elástica?
c) La SCR de la regresión anterior es 699. Obtenga un intervalo de confianza del
95% para el estimador del precio (valor crítico aproximado, 2.1).
d) Usando el intervalo de confianza anterior, diga sin necesidad de hacer más
cálculos, si rechazaría o no las siguientes hipótesis (justifique su respuesta),
i. H0: 2 = 0,
ii. H0: 2 = 1
iii. H0 : 2 = 1
32
Solución
3550
a) ˆ 1.578, ˆ Q ˆ P 100 1.578*70 210.4
2250
Luego la estimación de la ecuación de demanda es 𝑄̂ = 210.4 − 1.578𝑃
b) Para calcular la elasticidad podemos emplear la fórmula,
P
ˆ 1.578*0.7 1.1
Q
Si el precio sube un 1% la cantidad cae un 1.1%: la función es elástica.
𝜎𝑢2
c) Sabemos que 𝑣𝑎𝑟(𝛽̂ ) = ∑ 𝑝2
y que un estimador de la varianza de las
SCR 699
perturbaciones es 𝜎̂𝑢2 = n−k = 12−2 = 69.9. Por tanto, la varianza estimada de
es,
69.9
𝑣𝑎𝑟(𝛽̂ ) = = 0.031 . El intervalo vendrá dado por,
2250
𝛽̂ ± 2.1 ∗ 𝑒𝑒(𝛽̂ ) = −1.578 ± 2.1√0.031 = (−1.208, −1.948)
d) Se rechazarán todas las hipótesis que postulen para valores que no estén dentro
del intervalo. En consecuencia, todas las hipótesis resultan rechazadas.
31. Con objeto de investigar el impacto de las indicaciones médicas contra el consumo
de alcohol, se estima la siguiente ecuación obtenida a partir de una muestra de 500
individuos (errores estándar entre paréntesis),
yˆ 13 11.36 x1 0.2 x2 2.85 x3 14.2 x4 , R 2 0.07
(2.12) (0.31) (2.55) (5.16)
donde y es el número de bebidas alcohólicas consumidas en las últimas dos semanas, x1
es una dummy que toma el valor 1 si el médico de cabecera ha indicado al individuo
que debe dejar el alcohol, x2 los años de estudio del individuo, x3 es una dummy que
toma el valor 1 si el individuo es separado o divorciado y x4 es una dummy que toma el
valor 1 si el sujeto está en paro.
a) Valore los resultados de la regresión anterior, indicando si los signos de los
parámetros son los esperados
b) Contraste si las variables anteriores son significativas al 5%
c) Para los contrastes pedidos en b) ¿utilizaría un test unilateral o bilateral?
Justifique su respuesta
d) Contraste la significatividad global del modelo al 5%
e) En relación con el objeto de la investigación, ¿cuál sería la conclusión?
33
Solución
a) Los signos son efectivamente adecuados, excepto para x1: si el médico ha
aconsejado dejar de beber, el individuo bebe más. El coeficiente de
determinación corregido es bajo pero suficiente …
b) Los valores de los ratios t indican que son significativas x1 y x4
c) Parece más adecuado un test unilateral …
d) El valor del coeficiente de determinación obtenido a partir del coeficiente de
determinación corregido es aproximadamente 𝑅 2 = 0.077. El contraste de
significtividad global será,
𝑅2
𝑘−1 0.077/4
𝐹𝑘−1,𝑛−𝑘 = = = 10.33
(1−𝑅 2 )/(𝑛−𝑘) 0.9225/495
Se rechaza la hipótesis nula.
e) A juzgar por el signo del coeficiente y su contrastada significatividad, no parece
que dichas indicaciones tengan mucho efecto en los bebedores.
32. Considere el siguiente modelo para explicar la tasa de mortalidad debida a
enfermedades coronarias,
Yˆt 14 10.2Ct 4.5Et 1.1M t
(2.5) (1.2) (0.5)
Y = Tasa de mortalidad
C = consumo per cápita de cigarrillos
E = consumo per cápita de grasas saturadas
M = consumo per cápita de carne
Los datos corresponden a una muestra anual de 31 observaciones, siendo el
coeficiente de determinación, 0.678.
g) Explicite las hipótesis nula y alternativa apropiadas para contrastar la
significatividad estadística de los parámetros individuales.
h) Contraste la significatividad global de la regresión sabiendo que el valor
crítico al 5% es 2.95. ¿Puede decir si es significativa al 10%?
i) A su juicio y con los datos proporcionados, ¿es apropiado el modelo?
Justifique su respuesta.
j) Un investigador considera que los efectos de las grasas saturadas y el
consumo de carne son iguales. Escriba la especificación representativa del
modelo restringido.
k) Suponga que estimado el modelo restringido, se obtiene un valor para el
coeficiente de determinación de 0.547. Contraste la validez de la restricción
34
para un nivel de significatividad del 5% (tome 3 como valor crítico
aproximado).
Solución
a) Las hipótesis nula y alternativa serían en este caso H0: i = 0, H1: H1: i > 0
b) El contraste pedido es,
R2 / k 1 0.678 / 3
Fk 1,n k 18.38
(1 R ) / n k (1 0.678) / 27
2
Luego la regresión es globalmente significativa al 5%. Con mayor motivo lo
será al 10% (el valor crítico será menor).
c) El signo del consumo de carne parece contrario al esperado …
d) Yi 1 2Ci 3 Ei 3M i ui 1 2Ci 3 ( Ei M i ) ui
e) En este caso,
2
( RNR RR2 ) / m (0.678 0.547) /1
F1,27 9.1
(1 RNR
2
) / n k (1 0.678) /(31 4)
Se concluye que la restricción no es válida.
33. A partir de una muestra de 25 padres divorciados se ha obtenido la siguiente
estimación (errores estándar entre paréntesis),
Pˆi 2.0 0.50M i 15.0Yi 0.40 Ai 3.0Bi 0.15Ci , R 2 0.09
(0.10) (9.01) (1.00) (3.0) (0.05)
donde P es el número de veces que el padre ha dejado de abonar la pensión mensual
alimenticia en los últimos cuatro años, M el número de meses que el padre ha
permanecido desempleado en los últimos cuatro años, Y la parte de la renta disponible
que debe dedicar a pagar por las ayudas a sus hijos, A la edad en años, B es una variable
que mide la religiosidad del padre en una escala de 1 a 4, siendo 4 la máxima
religiosidad y C el número de hijos.
a) Si el signo esperado de M e Y es positivo, establezca las hipótesis nula y
alternativa apropiadas para contrastar su significatividad al 5%.
b) ¿Puede decirse que las creencias religiosas influyen en el cumplimiento de
los pagos? Justifique su respuesta.
c) De acuerdo con el modelo ¿cuántas veces habrá incumplido sus
obligaciones un padre de 30 años con dos hijos que ha estado siempre
empleado, debe dedicar un 20% de la renta al pago de ayudas y no es
religioso?
d) Sabiendo que la varianza del error de pronóstico es 0.64, construya un
intervalo de confianza del 95% para dicha predicción.
e) Con objeto de contrastar la hipótesis de que la edad y la religiosidad no
influyen, se estima de nuevo la ecuación de regresión excluyendo estas
35
variables, obteniéndose un coeficiente de determinación R2 = 0.078. ¿Puede
rechazarse esa hipótesis? Justifique su respuesta.
Solución
a) Serían H0: i = 0, H1: i > 0
b) No porque no se puede rechazar la hipótesis de que el parámetro
correspondiente sea nulo.
c) P = -2+0.5*0+15*0.2+0.4*30+3*1-0.15*2 =15.7, es decir unas 16 veces
d) 15.7 t0.05/20.64 = 15.72.11*0.8
2
( RNR RR2 ) / m (0.09 0.078) / 2
e) 0.125
(1 RNR
2
) /(n k ) (1 0.09) /19
El estadístico se distribuye como una Fm,n-k de manera que no se puede rechazar
la hipótesis dado que el valor obtenido es menor que el tabulado.
34. La estimación de la demanda de té de Ceilán en USA obtenida a partir de una
muestra de 22 observaciones, con todas las variables expresadas en logaritmos,
proporcionó el siguiente resultado,
qˆt 2.837 1.481 p1t 1.181 p2t 0.186 p3t 0.257 yt , SCR 0.4277
(2.0) (0.79) (0.66) (0.11) (0.11)
Siendo p1t el precio del té de Ceilán, p2t el precio del té de India, p3t el precio
del café en Brasil, yt la renta disponible y qt la cantidad demandada. Entre
paréntesis figuran los errores estándar.
a) Señale si los signos de los coeficientes son acordes con lo que se deriva de la
teoría de la demanda.
b) Contraste la significatividad individual de cada una de las variables (ver
valores críticos en nota final)
c) Sabiendo que 𝑐𝑜𝑣(𝑏2 , 𝑏3 ) = −0.53 contraste la hipótesis 𝛽2 = −𝛽3 es decir
que los parámetros de los precios del té son iguales pero de signo contrario
36
(se entiende que 1 es la constante, 2 el parámetro del precio del té de
Ceilán, etc).
d) Con la misma muestra se estima la ecuación,
qt p1t 0.738 0.199 p3t 0.261yt , SCR 0.6788
Contraste la hipótesis conjunta H0: 2= 1, 3=0 y discuta las implicaciones
económicas de la misma.
Solución
a) Sí, son acordes con la teoría: el precio del bien tiene signo negativo, el de los
bienes sustitutivos positivo y el de la renta también positivo.
b) El cociente entre cada estimador y su error estándar se distribuye como una
t17. Estos valores son respectivamente, -1.87, 1.79, 1.69 y 2.34. Excepto el
cuarto, todos ellos mayores que el valor crítico al 5% para un contraste
unilateral. El café está en el límite (valor p = 0.055 –no se pude calcular con
los datos del ejercicio).
c) En este caso el estadístico,
b2 b3 1.481 1.181
var(b2 ) var(b3 ) 2cov(b2 , b3 ) 0.792 0.662 2*(0.53)
El denominador es negativo por no haber empleado todos los decimales. De
haberlo hecho sería positivo, aunque muy pequeño. El resultado del
estadístico sería un valor elevado con lo que se rechazaría la hipótesis.
d) Emplearemos un contraste F de tipo,
(0.6788 0.4277) / 2
F2,17 4.99
0.4277 /17
Comparando con el valor crítico en tablas la hipótesis sería rechazada al 95%
pero no al 99%. La hipótesis implica que la elasticidad respecto al propio
precio es unitaria y que el precio del té de la India no tiene ninguna
influencia.
37
35. Un fabricante de cable telefónico desea predecir sus ventas a su principal cliente
para lo que estima el siguiente modelo a partir de una muestra anual
correspondiente al periodo 1968-1983 (16 observaciones),
Yˆt 5918.3 4.784 X 1t 2.397 X 2t 815.529 X 3t 18.918 X 4t 842.791X 5t ,
(2536) (2.56) (0.85) (190.2) (148.59) (294.75)
SCR 4024058, R 2 0.819, 1 9.27, 2 5.35
siendo Y: ventas de cable (millones de pies), X1: PIB (miles de millones de dólares),
X2: construcción de vivienda nueva, X3: paro (%), X4: tipo de interés (%) y X5:
ganancia de líneas para el cliente (%). Entre paréntesis se muestran los errores estándar
de los respectivos estimadores; 1 y 2 son respectivamente, el resultado del test de
Breusch Godfrey para la autocorrelación serial (p=2) y el test de Breusch Pagan
Godfrey para heterocedasticidad,
a) Diga, razonándolo, qué coeficientes tienen los signos esperados
b) Emplee un test unilateral del 5% para contrastar la significatividad individual de
cada uno de los coeficientes anteriores
c) En relación con los resultados del apartado anterior, ¿qué habría cambiado (en
caso de que así fuera) si hubiese empleado un contraste bilateral?
d) Lleve a cabo un constraste de significatividad global. Especifique con claridad el
nivel de significancia y la hipótesis nula.
e) La tabla siguiente muestra la matriz de varianzas y covarianzas de los
estimadores (se excluye la constante),
X1 X2 X3 X4 X5
X1 6.565897 -1.491489 -246.9097 -313.0653 -253.6421
X2 -1.491489 0.726658 42.95137 100.7123 50.97218
X3 -246.9097 42.95137 36174.56 9764.317 35506.09
X4 -313.0653 100.7123 9764.317 22081.39 23799.44
X5 -253.6421 50.97218 35506.09 23799.44 86876.90
Contraste la hipótesis de los coeficientes de X3 y X5 son iguales.
f) Los valores esperados de las variables explicativas para el año 1984 son X1=
1550, X2=1100, X3= 9, X4= 16 y X5= 2. Sabiendo que la varianza del error de
predicción es 512968.22, construya para dicho año un intervalo de confianza del
95% para la predicción
Solución
38
a) Esperaríamos signos positivos para PIB, construcción de vivienda y ganancia
de líneas y negativos para la tasa de paro y el tipo de interés
b) Dividiendo cada uno de los parámetros entre su error estándar,
b1 b2 b b4 b5
1.91, 2.82, 3 4.29, 0.127, 2.859
ee(b1 ) ee(b2 ) ee(b3 ) ee(b4 ) ee(b5 )
+ + +
El test unilateral implica que contrastamos la hipótesis nula H1: bi > 0 contra
la alternativa H1: bi > (así es para el PIB, la construcción de vivienda o la
ganancia de líneas) ó H1: bi < 0 (paro y tipo de interés) es decir, la hipótesis
alternativa se construye en función de los signos esperados para cada uno de
los coeficientes. El valor crítico que se da en las tablas, corresponde a un
contraste a dos colas (bilateral). Comparando con este dato, vemos que no
serían significativas las variables X4 (tipo de interés) y X5 (ganancia de
líneas), dado que los valores del ratio quedan claramente en la región de
aceptación. El PIB no sería significativo al 5% en un contraste bilateral,
pero, al estar muy próximo 1.91 a 2, sí lo será en uno unilateral, puesto que
el valor crítico en este caso, será bastante menor que 2 (el valor crítico es de
hecho 1.67 aprox.).
c) Ahora las hipótesis nula y alternativa son respectivamente H0: bi = 0 y H1: bi
0. Como se dijo antes, el PIB no sería ahora significativa pero sí lo sería la
ganancia de líneas.
d) A partir del coeficiente de determinación,
R 2 /(k 1) 0.818 / 5
Fk 1,n k 8.98
(1 R ) /(n k ) (1 0.818) /(16 6)
2
De manera que la regresión es globalmente significativa. Las hipótesis nula y
alternativa son ahora,
H0: 1=2 = … =5 = 0
H1: No se cumple la hipótesis anterior (basta con que uno de los coeficientes
no sea nulo)
e) Emplearíamos el estadístico,
(b3 b5 ) ( 3 5 )
var(b3 b5 )
que se distribuye como una t con n-k g.l. Bajo la hipótesis nula queda,
39
(b3 b5 ) (b3 b5 )
var(b3 b5 ) var(b3 ) var(b5 ) 2 cov(b3 , b5 )
815.529 842.791 27.262
0.119
36174.56 86876.9 2·35506.09 228.12
Por lo que no es posible rechazar la hipótesis.
f) Para esos valores el pronóstico es yˆ 7247.545 . Dado el valor de la varianza
del error de predicción, el intervalo del 95% es,
7247.545 2· 512968.22 7247.545 1432.44
36. Para analizar la influencia del número de alumnos por clase sobre la nota media
de los estudiantes, se ha estimado la siguiente regresión (errores estándar entre
paréntesis),
Yˆi 69.89 2.28 X i , R 2 0.0512
(10.36) (0.49)
donde Y es la nota media del alumno y X la proporción de alumnos por profesor
obtenidas de una muestra de 400 estudiantes de primera enseñanza.
a) Indique si la regresión responde a lo esperado y porqué
b) ¿Cuál es la nota media esperada para un estudiante de una clase de 22 alumnos?
c) Para contrastar la significatividad estadística del tamaño de la clase, ¿cuáles son
las hipótesis nula y alternativa más apropiadas?
d) Lleve a cabo el contraste anterior utilizando los niveles de significación del 5%
y del 1%
e) Calcule si es posible, el contraste de significatividad global. ¿Qué añadiría en
este caso este test al de significatividad individual?
Solución
a) Sí, es de esperar que más alumnos por clase tengan una influencia negativa en el
rendimiento
b) 69.89-2.28*22=19.73
c) H0: 1=0 y H1: 1<0
d) El ratio t arroja un valor de t398=-2.28/0.49 =-4.65. Comparando con los valores
críticos de una normal estándar (n =400), queda claramente en la región de
rechazo tanto al 5% (-1.64) como al 1% (-2.33). Se rechaza por tanto la hipótesis
40
nula: el ratio alumnos por profesor tienen una influencia significativa y negativa,
sobre el rendimiento.
R2 / q 0.0512
e) F1,398 21.477 y la regresión es claramente
(1 R ) /(n k 1) 0.9488 / 398
2
significativa. Este test no añade nada en este caso, dado que solo hay una
variable explicativa con lo que el contraste de significatividad global equivale al
contraste de dicha variable, que ya hemos llevado a cabo con el test t.
37. A partir de una muestra de 20 observaciones correspondientes al periodo 1970-
1989, se estima la siguiente ecuación de salarios (errores estándar entre
paréntesis) para un determinado país,
Wˆt 8.585 0.364 X t 0.004 X t 1 2.56U t , R 2 0.873
(1.130) (0.08) (0.072) (0.658)
siendo W los salarios por empleado, X precios del producto y U la tasa de desempleo
a) Interprete los resultados obtenidos
b) Calcule el valor del coeficiente de determinación ajustado y contraste la
significatividad global del modelo
c) Señale si son previsibles problemas de Multicolinealidad en el modelo anterior
d) ¿Eliminaría alguna de las variables incluidas en el modelo? Justifique la
respuesta
e) ¿Cómo podría calcular la elasticidad salarios/paro?
Solución
a) Los resultados son acordes con lo esperado: los precios del producto influyen
positivamente y la tasa de paro negativamente (más paro implica más oferta de
trabajo)
b) Teniendo en cuenta la relación entre éste y R2, puede obtenerse de,
n 1 19
R 2 1 (1 R2 ) 1 0.127 0.85
1 k 1 16
c) Sí, es bastante probable que haya una elevada correlación entre Xt y Xt-1.
d) En estos modelos la elasticidad no es constante, dependiendo del valor de la X.
Podría ofrecerse una “elasticidad media” ponderando el cambio marginal por el
cociente entre las medias de X e Y en lugar de hacerlo con X/Y.
41
38. Una familia, cuya hija está matriculada en una universidad privada de gran
prestigio, está disgustada con la subida del precio de la matrícula y, para ahorrar
dinero, está considerando la posibilidad de cambiar a otra universidad menos
prestigiosa. Para valorar esta decisión dispone de una muestra aleatoria de 100
universidades con datos correspondientes al año 2010, con los que estima la
siguiente regresión,
̂ = 7311 + 3985𝑅𝑒𝑝𝑢𝑡 − 0.2𝑇𝑎𝑚𝑎ñ𝑜 + 8406𝐷𝑝𝑟𝑖 − 2376𝑅𝑒𝑙𝑖𝑔, 𝑅 2
𝐶𝑜𝑠𝑡𝑒
= 0.72
donde Reput es un índice que mide el prestigio que varía entre 1(menor
reputación) y 5; Tamaño es el número de estudiantes matriculados, y el resto son
variables binarias que indican si la universidad es privada o religiosa y coste es
el precio de la matrícula, cuya media es aproximadamente 49000 dólares.
a) Interprete los resultados. ¿Tienen los coeficientes los signos esperados?
b) ¿Es la regresión estadísticamente significativa? Especifique claramente las
hipótesis nula y alternativa para contrastar esta hipótesis.
c) Para ahorrar dinero la familia decide cambiar a una universidad pública cuya
reputación es 0.5 puntos inferior y tiene 10000 estudiantes más. ¿Cuál es el
efecto económico de este cambio? ¿Le parece importante en términos
relativos?
d) Si se elimina la variable tamaño, la estimación es,
̂ = 5450 + 3539𝑅𝑒𝑝𝑢𝑡 + 10936𝐷𝑝𝑟𝑖 − 2786𝑅𝑒𝑙𝑖𝑔,
𝐶𝑜𝑠𝑡𝑒 𝑅 2 = 0.71
¿Está justificada esa omisión? ¿Por qué cree que el efecto de asistir a una
universidad privada ha aumentado?
Solución
a) La reputación y el ser privada, aumentan el precio de la matrícula. Tamaño y ser
religiosa, lo disminuyen. Es un resultado razonable.
b) Sí, es estadísticamente significativa, dado que,
0.72 / 4
F4,95 61.07
(1 0.72) / 95
Muy superior al valor crítico por lo que se rechaza la hipótesis nula de que los
coeficientes de las variables explicativas son conjuntamente iguales a cero.
c) Supondrá un ahorro de 0.5*3985+0.2*10000=3975. Sí es un ahorro significativo
si tenemos en cuenta el precio medio de las matrículas.
d) El contraste estadístico apropiado es,
42
2
( RNR RR2 ) /1 0.72 0.71
F1,95 3.39
(1 RNR ) /( N K )
2
0.28 / 95
El valor crítico para un 5% es 3.94 (Gretl), de manera que no se podría rechazar la
hipótesis nula.
El coeficiente de universidad privada puede estar recogiendo el efecto de haber
eliminado el tamaño.
39. Para estimar el precio, yi, de la vivienda en un determinado distrito, se estima
una ecuación en la que y se hace depender de un índice de contaminación, x1, y
el número de habitaciones de la vivienda, x2. Las dos primeras variables están
medidas en logaritmos.
a) Señale cuáles son a priori los signos esperados de los coeficientes. ¿Cómo debe
interpretarse el parámetro correspondiente al índice de contaminación?
b) Explique la razón por la que las dos variables explicativas puedan estar
correlacionadas
c) Se han estimado las siguientes ecuaciones a partir de una muestra de 500
observaciones:
i. 𝑦̂𝑖 = 11.71 − 1.043𝑥1 , 𝑅 2 = 0.256
ii. 𝑦̂𝑖 = 9.23 − 0.718𝑥1 + 0.306𝑥2 , 𝑅 2 = 0.514
Calcule el valor del estadístico F para contrastar la hipótesis nula H0: 2 = 0
valorando dicha hipótesis.
d) Considerando el apartado b), ¿es la reducción en el valor de b2 acorde con lo
esperado?
Solución
a) El signo del coeficiente correspondiente a x1 se espera negativo mientras que el
del coeficiente correspondiente a x2 será positivo. El coeficiente correspondiente
a x1 debe interpretarse como una elasticidad, al estar medidas en logs tanto y
como x1.
b) Si se asume que en los barrios pobres la contaminación es mayor y que en los
barrios ricos las casas son más grandes (mayor número de habitaciones), habrá
correlación negativa entre x1 y x2
c) El test sería,
43
2
( RNR RR2 ) / m
F 0.5140.256 263.84
(1 RNR
2
) / (n k ) 0.486/5003
Luego la hipótesis nula debe ser rechazada a cualquier nivel de significatividad
d) Sí. Dado que la correlación entre x1 y x2 es negativa (apartado b) y que el signo
de 2 es positivo, el sesgo que se comete al emplear la regresión simple (mal
especificada), será negativo. Dado que 1 < 0, ello implica que la ecuación
simple sobreestimará (la magnitud de b1 será mayor) el efecto de la
contaminación.
40. La función de producción tipo Cobb Douglas responde a la expresión 𝑌𝑡 =
𝛽 𝛽
𝛽0 𝑊𝑡 1 𝐾𝑡 2 𝑒 𝑢𝑡 , donde Y es el producto, W el trabajo y K el capital. La
estimación con datos anuales de la economía española, correspondientes al
periodo 1980-2009, es (errores estándar entre paréntesis),
yˆt 0.68 0.46w 0.56k , R 2 0.99
(.087) (.128)
donde las minúsculas indican datos en logaritmos.
a) ¿Por qué pueden considerarse 0.46 y 0.56 estimadores de 2 y 2?¿Cómo
interpreta dichos coeficientes?
b) Suponga que quiere contrastar la hipótesis de rendimientos constantes a escala,
es decir H0: 1+2=1. Sabiendo que 𝑐𝑜𝑣(𝛽̂2 , 𝛽̂3 ) = −0.004492, contraste la
hipótesis anterior mediante un estadístico t –Student. ¿Es más apropiado un test
unilateral o bilateral para llevar a cabo este contraste?
c) Escriba la ecuación restringida apropiada para contrastar esta hipótesis mediante
la técnica de las ecuaciones restringida y no restringida.
d) Con los datos del ejercicio ¿es posible obtener el valor del estadístico F para
contrastar la hipótesis por este método? En caso afirmativo ¿cuál sería su valor?
Solución
a) Porque al tomar logaritmos en la ecuación original no lineal, ésta se transforma
en una ecuación lineal. Ambos coeficientes son la elasticidad producto-trabajo y
producto capital respectivamente.
b) El test será,
0.46 0.56 1 0.02
t 0.11
0.0076 0.016 2 * 0.004492 0.18
Y la hipótesis no puede ser rechazada.
44
La hipótesis alternativa en este caso sería bilateral H1: w + k 1
c) La hipótesis postula que 2 =1-3, por lo que la ecuación quedaría,
yt 1 (1 3 ) wt 3kt
( yt wt ) 1 3 (kt wt )
d) Al implicar una única restricción el test t y el F están relacionados según t2=F y
por tanto el test F = 0.012 aproximadamente.
41. Para estudiar las diferencias salariales en un determinado país se obtienen datos
de 7338 trabajadores y se divide el país en cuatro regiones, Noroeste (NO),
Noreste (NE), Suroeste (SO) y Sureste (SE), estimándose la siguiente regresión
(errores estándar entre paréntesis):
Ŷi = 4.78 – 0.038NEi – 0.041SOi – 0.048SEi R2 = 0.52
(0.14) (0.018) (0.010) (0.012)
donde cada una de las variables explicativas es una variable binaria que toma el
valor 1 si el trabajador pertenece a esa región e Y es el salario expresado en
euros/hora.
a) ¿Cuál es el salario medio de correspondiente a la categoría base? ¿Qué
región tiene un salario medio más elevado? ¿En qué región es más reducido
el salario medio?
b) Contraste la hipótesis de significatividad global de la regresión para un nivel
de significancia del 5%.
c) Suponga que excluye la dummy correspondiente a NE e incluye una dummy
para la región NO. Calcule si es posible el signo y la magnitud de todas las
variables del nuevo modelo.
d) Si la covarianza entre los estimadores bNE y bSO es 0.00007, ¿es
estadísticamente significativa la diferencia de salario entre las regiones
Noreste y Suroeste? Explique claramente si emplea un contraste a una o dos
colas y porqué.
Solución
a) El salario medio de la categoría base es 4.78
El salario medio más elevado corresponde a la región NO, 4.78
El más reducido a la región SE: 4.78-0.048 = 4.732
45
R2 / k 1 0.52 / 3
b) F3,7338 F3, 2648.4 , mayor que el valor
(1 R ) / n k 0.48 / 7338 4
2
crítico en tablas para el 5% (2.67, aprox), de manera que se acepta la
significatividad global de la regresión.
c) Obviamente el salario medio resultante ha de ser el mismo para todas las
regiones. Teniendo en cuenta que la nueva categoría base es la región NE cuyo
salario medio es 4.78-0.038=4.742, el resultado será,
Ŷ = 4.742+0.038NO0.003SO0.01SE
d) Tenemos que contrastar la hipótesis nula H0: NE = SO, contra la alternativa H1:
NE SO. El contraste es pues bilateral. Empleamos el estadístico,
ˆNE ˆSO ˆNE ˆSO
tn k
ˆ ˆNE ˆSO
var ˆ ˆ
var ˆ ˆ ˆ ˆ
NE var SO 2cov NE SO
0.003 0.003
0.178
0.0182 0.012 2*0.00007 0.000284
Con lo que no podemos rechazar la hipótesis de igualdad de salarios en estas
regiones.
42. Para estudiar la función de ahorro se emplean datos del año 1985
correspondientes a 100 familias. Se estiman los siguientes modelos (errores
estándar entre paréntesis):
(1) (2) (3) (4)
MCO MCG MCO MCG
Renta 0.147 0.161 0.109 0.105
(.058) (.059) (0.071) (0.077)
Tamaño 67.66 - 6.87
(222.96) (168.43)
Educación 151.82 139.48
(117.25) (100.54)
Edad 0.286 21.75
(50.52) (41.31)
Emigrante (518.39) 137.28
(1303.06) (844.55)
Constante 124.84 -124.95 -1605.42 -1854.42
(655.39) (480.86) (2380.15) (2351.80)
R2 0.06 .085 0.0828 0.142
46
White test 5.27 7.44
En las columnas (1) y (3) se ha estimado por MCO y en las (2) y (4) por MCG
suponiendo que la varianza de las perturbaciones es var(ui)=2Rentai.
a) A la vista del valor del contraste de White, ¿le parece justificada la
estimación de la columna (2)? ¿Por qué?
b) Suponga que ha considerado la estimación de la columna (2) preferible a la
de la columna (1). ¿Podría rechazar la hipótesis de que la propensión
marginal al ahorro es 0.147?
c) En las columnas (3) y (4) se han incluido cuatro variables explicativas
adicionales. Explique razonadamente si pueden considerarse
estadísticamente significativas tanto de forma individual como conjunta.
d) Si tuviera que elegir entre el modelo (3) y el modelo (4), ¿podría hacerlo en
función del valor del coeficiente de determinación? ¿Por qué?
e) Valorando todos los resultados anteriores y cualesquiera otros que puedan
deducirse de los resultados, indique cuál de los cuatro modelos es el que
considera más adecuado.
Solución
a) El contraste de White se emplea para contrastar la hipótesis de
homocedasticidad y se distribuye como una 2 con gl igual al número de
regresores de la ecuación de contraste. En este caso, al ser una regresión simple
la ecuación (1), la ecuación de contraste solo tendrá dos regresores. El valor
crítico al 5% de una 2 con 2 gl, es 5.99, de manera que no podemos rechazar la
hipótesis de homoscedasticidad y por tanto no está justificado el empleo de
Mínimos Cuadrados Generalizados.
b) La hipótesis nula es H0: = 0.147 y la alternativa H0: 0.147. El estadístico
apropiado para este contraste será,
0.161 0.147
0.237
0.059
No permite rechazar la hipótesis nula.
c) Ninguna de ellas es estadísticamente significativa individualmente considerada
(test t). Para contrastar la significatividad global de las mismas,
47
(0.0828 0.06) / 4
0.58, o
(1 0.0828) /(100 6)
(0.142 0.085) / 4
1.56
(1 0.142) /(100 6)
De manera que en ninguno de los dos casos son globalmente significativas.
d) No. La variable endógena no es la misma
e) El 1 dado que hemos descartado el 2 (no hay hteroscedasticidad) y las variables
incluidas en el (3) no son significativas ni individual ni globalmente
consideradas, lo que inhabilita también el modelo (4)
43. Para estudiar el precio de las viviendas en un determinado país, se obtiene la
siguiente estimación a partir de una muestra de 4000 trabajadores (errores
estándar entre paréntesis),
Pˆi 120 0.48 X1i 23.4 X 2i 0.48 X 3i 0.10 X 4i 48.8 X 5i , R 2 .75 SCE 41.5
(24) (2.61) (8.9) (0.033) (0.31) (10.5)
donde P son los precios y las variables explicativas son, X1 =el número de
dormitorios, X2 =el número de cuartos de baño, X3 =el tamaño de la vivienda en
m2, X4 =la antigüedad en años y X5 =una dummy que toma el valor 1 si la
vivienda está en un barrio pobre. SCE es la Suma de los Cuadrados Explicada.
a) Comente el resultado relativo al número de dormitorios y a la antigüedad de
la vivienda
b) El autor del trabajo observa que en el mercado las viviendas de cinco
dormitorios se venden por una cuantía muy superior a las de 2 dormitorios.
Explique si este resultado es compatible con la estimación obtenida.
c) El coeficiente de determinación para la regresión que excluye el número de
dormitorios y la antigüedad, es R2 = 0.73. Exprese la hipótesis nula adecuada
para contrastar si ambas variables con conjuntamente igual a cero. Lleve a
cabo el contraste y diga cuál es la conclusión.
.
d) Obtenga, si es posible, un estimador de la varianza de los errores.
48
Solución
a) El número de dormitorios tiene el signo apropiado ya que más dormitorios
incrementan el precio; no así la antigüedad que tiene un signo contrario al
esperado. No obstante ninguna de las dos variables es estadísticamente
significativa.
b) La magnitud del estimador es pequeña y no significativa, lo que podría
entrar en contradicción con el hecho de que el precio de venta es “muy
superior”. No obstante hay que tener en cuenta que el valor del estimador,
0.48, mide el efecto parcial del incremento en el número de dormitorios
manteniendo constantes el resto de las variables y en concreto el tamaño de
la vivienda, por lo que no se puede decir que el resultado sea incompatible
…
c) La hipótesis nula será H0: 1 = 4 =0. El resultado del contraste a partir de
los valores del coeficiente de determinación es,
(0.75 0.73) / 2
F2,3994 159.84
(1 0.75) / 3996
Con un valor tan elevado, se rechaza la hipótesis nula a cualquiera de los
niveles de significatividad que habitualmente se emplean.
d) El valor de la SCT puede obtenerse de R2=SCE/SCT y resulta ser 55.33, por
tanto tenemos que SCR =SCT-SCE = 13.83 y,
SCR 13.83
ˆ 2 0.00346
n k 1 3996
44. Suponga que desea analizar el impacto del consumo de bebidas alcohólicas en
los accidentes de tráfico con víctimas mortales, para lo que estima la siguiente
regresión transversal empleando datos de los 48 estados USA (N=48),
Yˆi 3.36 0.002 X 1i 0.17 X 2 i 0.31X 3i 0.011X 1i ·X 4 i , R 2 0.499
(0.025) (0.092) ( 0.24) (0.0027)
siendo,
Y= número de muertos en accidente por milla recorrida en el estado i
X1 = consumo per cápita de cerveza en el estado i
49
X2 = velocidad media en autopista en el estado i
X3 = dummy que toma el valor 1 si el estado tiene un programa de revisión de los
elementos de seguridad del vehículo
X4 = Altitud media en las áreas metropolitanas (se supone que a más altitud mayor
probabilidad de accidentes porque la altitud influye en el consumo de oxígeno del
cerebro)
a) Comente los resultados de la estimación y diga si observa algún signo de
problemas.
b) Explique claramente qué es lo que mide la variable de interacción X1i X4i.
Diseñe y lleve a cabo un test adecuado para contrastar su significatividad
estadística
c) Cuando el investigador decide incluir X4i como variable individual (no solo en el
término de interacción), obtiene,
Yˆi 2.36 0.024 X 1i 0.14 X 2 i 0.24 X 3i 0.35 X 4 i 0.023 X 1i ·X 4 i , R 2 0.501
( 0.03) (0.091) ( 0.25) ( 0.33) (0.012)
¿Es preferible esta ecuación o la primera? Justifique su respuesta
d) Cuál sería la conclusión de este trabajo en relación con i) el consumo de cerveza,
b) la altitud a la que se conduce.
Solución
a) Sorprende el hecho de que el consumo de cerveza no sea significativo, lo que
podría deberse a algún problema de omisión de variables, aunque también
pudiera ser que el término de interacción hubiera absorbido completamente este
efecto.
b) Esta variable es una medida de si el impacto del consumo de cerveza hace crecer
el número de víctimas cuando la altitud aumenta. Su significatividad estadística
se contrastaría de la forma habitual. En este caso el ratio t vale aproximadamente
4.07, por lo que es significativa al 1%.
c) La nueva variable no es estadísticamente significativa y el coeficiente de
determinación corregido solo mejora marginalmente y esta inclusión tampoco
corrige el problema del consumo, de manera que, a no ser que haya fuertes
50
razones teóricas para incluir la altura como una variable separada, nos
quedaríamos que la primera especificación.
d) Aunque por separado ninguna de ellas parece ejercer un efecto significativo en
el número de víctimas, el término de interacción es estadísticamente
significativo y tiene el signo apropiado en las dos estimaciones ensayadas.
Concluiríamos que la investigación aporta evidencia de una influencia conjunta
sobre el número de muertos.
45. Con objeto de explicar el salario, que denotamos Y, se estima la siguiente
ecuación, a partir de una muestra de datos longitudinales,
log(𝑌) = 𝛽0 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝛽2 𝑒𝑑𝑢𝑐 ∗ 𝑝𝑎𝑑𝑒𝑑𝑢𝑐 + 𝛽3 𝑒𝑥𝑝𝑒𝑟 + 𝛽4 𝑎𝑛𝑡𝑖𝑔 + 𝜀
Las variables explicativas son, años de educación del trabajador (educ), años de
educación de los padres (padeduc), la experiencia laboral (exper) y la antigüedad en la
empresa (antig).
a) Compruebe si se verifica que, en términos relativos, el rendimiento de un año
∆log(𝑌)
más de educación responde a la expresión ∆𝑒𝑑𝑢𝑐 = 𝛽1 + 𝛽2 𝑝𝑎𝑑𝑒𝑑𝑢𝑐.
b) ¿Qué signo esperaría para 𝛽2? Justifique su respuesta.
c) Empleando una muestra de 722 observaciones, se obtienen los siguientes
resultados (errores estándar entre paréntesis),
log(Yˆ ) 5.65 0.047educ 0.00078educ * padeduc
(0.13) (0.01) (0.00021)
0.019exper 0.010antig ,
(0.004) (.003) R 2 0.168
Interprete detalladamente, el valor del coeficiente del término de interacción.
d) Si se añade como variable adicional la educación de los padres, el resultado de la
estimación es,
log(Yˆ ) 4.94 0.097educ 0.033 padeduc 0.0016educ * padeduc
(0.38) (0.027) ( ? ) (0.0012)
0.02exper 0.010antig ,
(0.004) (.003) R 2 0.173
51
Obtenga un valor para el contraste de significatividad individual de la nueva
variable y diga si ésta es o no significativa.
e) Explique cuál sería el procedimiento para contrastar la hipótesis de que el
rendimiento de la educación no depende de la educación de los padres y si es
posible, lleve a cabo dicho contraste.
Solución
a) Derivando se obtiene inmediatamente la expresión anterior
b) Signo positivo. La elevada formación de los padres se supone que reforzará la
influencia de la educación en el salario
c) El término de interacción indica que el efecto de la educación sobre el salario no
depende exclusivamente de la educación del individuo, sino que resulta
amplificada cuando se combina con un elevado nivel educativo de los
progenitores. En este caso, el efecto de la educación es mayor para aquellos
individuos cuyos padres tienen mayores niveles de educación. Por ejemplo, un
año más de educación implica que el salario aumentará en un 4.7% si el nivel
educativo de los padres es nulo, pero si este es distinto de cero, añadirá un
crecimiento adicional al salario del individuo.
d) Podemos obtener este contraste comparando los valores de los coeficientes de
determinación en ambas regresiones,
2
( RNR RR2 ) / q (0.173 0.168) /1 0.005
Fq , n k 1 4.329
(1 RNR ) / n k 1 (1 0.173) / 722 5 1 0.00155
2
Como este valor es mayor que el crítico en tablas al 5% para una distribución F1,
716,, rechazaríamos la hipótesis nula y concluiríamos que la variable es
estadísticamente significativa.
e) Lo ideal sería emplear el modelo del apartado anterior para contrastar la
hipótesis conjunta de que las variables padeduc y educ*padeduc son
conjuntamente iguales a cero. Como no disponemos de datos suficientes para
llevar a cabo este contraste, debemos conformarnos con contrastar la hipótesis
de significatividad individual en el modelo del aparado c). En este caso, dado
que 0.00078/0.00021 = 3.71, rechazaríamos la hipótesis nula y la variable es
estadísticamente significativa. Ello unido al resultado obtenido en d (la
significatividad individual de padeduc), indicaría que dicha variable es
significativa.
46. La variable Y representa el porcentaje de alumnos que aprueban un examen
estándar de matemáticas en los institutos españoles. Suponga que está interesado en el
52
efecto del gasto por estudiante en los resultados del examen y considera el siguiente
modelo Yi = 0 +1log(X1i)+2log(X2i)+3X3i+i, donde X1, X2 y X3
son respectivamente, el gasto por estudiante, la matrícula (nº alumnos) y el porcentaje
de alumnos en situación de pobreza.
a) Suponga que dispone de la variable X4 indicativa del porcentaje de alumnos
que reúne los requisitos para poder acogerse al programa de comida gratuita
ofrecida por el centro. ¿Sería esta una buena variable proxy para X3?
Justifique su respuesta
La tabla siguiente muestra las estimaciones del modelo con y sin X4 (errores estándar
entre paréntesis),
(1) (2)
log(X1) 11.13 7.75
(gasto) (3.30) (3.04)
log(X2) 0.022 1.26
(nº alumnos) (0.615) (0.58)
X4 0.324
(0.036)
Constante 69.24 23.14
(26.72 (24.99)
N 428 428
2
R 0.0297 0.1893
b) Explique por qué el efecto del gasto sobre Y es menor en la columna (2) que
en la columna (1). ¿Son estos efectos estadísticamente superiores a cero?
Explique por qué o por qué no, indicando en su caso el contraste en el que se
basa.
c) ¿Es el porcentaje de aprobados más bajo en las escuelas con más alumnado
(manteniendo todo lo demás igual)? Justifique su respuesta
d) Interprete claramente el coeficiente de X4 en la columna (2)
e) Teniendo en cuenta que varios coeficientes son negativos en las
estimaciones anteriores, ¿sería posible que hubiese un porcentaje de
aprobados negativo?
Solución
53
a) Sí, desde luego, dado que se supone que para poder acogerse a ese programa
habrá que acreditar unas determinadas condiciones de precariedad
económica.
b) Con toda probabilidad la omisión de la variable X4 en el modelo (1), está
causando un sesgo en ese coeficiente. Sí, dado que en ambos casos podemos
rechazar H0: = 0 en favor de la alternativa H1: > 0.
c) A todos los efectos el modelo (2) es preferible al modelo (1) y en este
modelo el coeficiente correspondiente a la matrícula, es negativo y
estadísticamente significativo, de manera que, en efecto, podemos concluir
que la matrícula influye negativamente en los resultados.
d) Si el porcentaje de alumnos en situación de pobreza aumenta un punto, el
porcentaje de aprobados cae en 0.32 puntos porcentuales.
e) Aunque aparentemente pueda parecer que sí, si tomamos en consideración el
rango de variación de las variables explicativas (no proporcionado),
observaríamos que no es posible tal resultado.
47. Para estudiar los determinantes del peso al nacer de los bebés, se estiman las
siguientes ecuaciones (errores estándar entre paréntesis),
log(btwght) = 4.66 - 0.0044 cigs + 0.0093 log(faminc) + 0.016 parity
(0.22) (0.0009) (0.0059) (0.006)
+ 0.027 male + 0.055 white,
(0.010) (0.013)
N = 1388, R2 = 0.0472
y,
log(bwght) = 4.65 - 0.0052 cigs + 0.0110 log(faminc) + 0.017 parity
(0.38) (0.0010) (0.0085) (0.006)
+ 0.034 male + 0.045 white - 0.0030 motheduc + 0.0032 fatheduc
(0.011) (0.015) (0.0030) (0.0026)
N = 1236, R2 = 0.0493
54
Siendo,
Btwght = peso al nacer el bebé (en onzas)
Cigs = número de cigarrillos al día fumados por la madre durante el embarazo
Faminc = renta familiar
Parity = lugar entre los hermanos
Male = dummy sexo (=1 si varón)
White = dummy color (= 1 si blanco)
Motheduc = años de educación de la madre
Fatheduc = años de educación del padre
a) Interpretar el significado del coeficiente correspondiente a la variable cigs en la
primera ecuación. En particular, ¿cuál es el efecto de fumar 10 cigarrillos más
por día sobre el peso al nacer?
b) Manteniendo los demás factores constantes y según los resultados obtenidos,
¿pesaría más un niño blanco? ¿Cuánto más? ¿Es la diferencia estadísticamente
significativa?
c) Comentar el efecto estimado y la significatividad estadística de motheduc
d) Con la información disponible, ¿por qué es imposible calcular el estadístico F
para contrastar la significatividad conjunta de motheduc y fatheduc? ¿Qué se
necesitaría hacer para obtener el estadístico F?
Solución
a) Mide cómo varía el peso al nacer medido en logaritmos, como consecuencia del
número de cigarrillos fumados por la madre. Al ser una relación log–lin, cada
cigarrillo adicional hace que el peso del bebé disminuya en un100*(0.0044) =
0.44%, aproximadamente. Fumar 10 cigarrillos implica por tanto una pérdida de
peso de un 4.4% (aprox.)
b) La variable male es positiva y estadísticamente significativa, por lo que ser
varón implica un mayor peso. Análogamente la variable white es también
positiva y significativa, por lo que ser blanco supone asimismo mayor peso.
Ser varón blanco implica un incremento de peso de 2.7+5.5 = 8.2% en la
primera ecuación, o 3.4+4.5=7.9% en la segunda
c) El coeficiente presenta un signo contrario al esperado o al menos difícil de
justificar. No obstante, la variable no es estadísticamente significativa, por lo
que no se puede rechazar que su influencia sea nula.
d) Las ecuaciones han sido estimadas a partir de muestras diferentes. Sería
necesario que ambas muestras fuesen iguales para poder llevar a cabo el
estadístico que se pide.
55
48. Para contrastar el efecto, si lo hay, del consumo de estimulantes sobre el
salario de los trabajadores, disponemos de datos de salarios, educación,
experiencia y sexo de una muestra longitudinal. Además disponemos de la
contestación de cada trabajador a la pregunta ¿En cuántas ocasiones tomaste
estimulantes durante el mes pasado?
a) Escribir una ecuación que permita estimar los efectos sobre el salario del
consumo de estos productos
b) Especificar un modelo que permita contrastar si su consumo tiene efectos
distintos en hombres y mujeres. ¿Cómo se contrastaría que no hay
diferencias entre sexos?
c) Supongamos que se considera preferible medir el consumo clasificando a los
individuos en cuatro grupos: no consumidor, consumidor ocasional (1-5
veces al mes), consumo moderado (6-10 veces) y consumidor habitual.
Proponer un modelo que permita estimar los efectos sobre el salario.
d) Usando el método definido en c), explicar cómo contrastar la hipótesis nula
de que el consumo no afecta al salario.
e) ¿Cuáles son los problemas para obtener inferencia causal con este tipo de
datos?
Solución
a) Con el resultado de la pregunta se define una dummy cuyo coeficiente será el
que nos diga si los estimulantes afectan o no a los ingresos salariales. Esta
última (ingresos salariales) sería la variable dependiente (puede estar en
logaritmos). El resto de las variables (educación, experiencia y sexo) serían
incluidas como variables de control en este caso.
b) Basta con definir una dummy de sexo y analizar su significatividad. Si es
significativa, hay diferencias entre sexos y no las habrá en caso contrario.
Puede considerarse la posibilidad de incluir un término de interacción entre
el sexo y la variable explicativa de interés
c) Definiríamos dummies específicas. La categoría base podrían ser los no
consumidores. La primera dummy tomaría el valor 1 si el consumo es
ocasional y 0 en el resto de los casos, etc., etc.
d) Se limitaría a contrastar si son nulas todas las variables relacionadas con el
consumo.
56
e) Puede haber variables omitidas aparte de la educación, experiencia y el sexo
y estar correlacionadas con el “tratamiento” (es decir la variable de interés)?
En este caso el término de error contendrá esos factores (perfil familiar por
ejemplo …) que pueden afectar al salario y están correlacionados con el
empleo de estimulantes.
49. Considere la regresión,
Yˆi 0.2033 0.656 X i , R2 0.397, SCR 0.0544 SCE 0.0358
(0.0976) (0.1961)
donde Y representa la tasa de participación de las mujeres en la fuerza laboral
(TPFL) en 1972 y X la misma tasa en 1968. Los resultados se obtuvieron a partir
de una muestra de 19 ciudades norteamericanas y entre paréntesis figuran los
errores estándar de los estimadores).
a) Interprete los resultados de esta regresión
b) Contraste la hipótesis H0: 1 = 1 contra la alternativa H0: 1 > 1. Especifique
claramente el nivel de significatividad elegido y el valor crítico en tablas
para el mismo.
c) Suponga que en 1968 la TPFL fue de 0.58. Obtenga una predicción para
E(TPFL en 1972) y construya un intervalo de confianza del 95% para la
misma
d) ¿Cómo probaría que los residuos de la regresión están normalmente
distribuidos?
Solución
a) La tasa de participación de la mujer en el mercado laboral en 1972 está
positivamente relacionada con la registrada en el año 1968. Además esta
variable estadísticamente significativa al 1%, tanto si el test es unilateral
como si es bilateral.
b) El estadístico de contraste es,
ˆ 0.656 1
t 1.75
ee( ˆ ) 0.1961
57
Para un nivel de significatividad del 5%, el valor crítico en tablas es, para un
contraste unilateral, t17, 0.05 = 1.74. Por tanto 1.75 queda en la región de
aceptación y no se puede rechazar la hipótesis nula.
c) El pronóstico sería Ŷ = 0.2033+0.58*0.656 = 0.584 y el intervalo,
0.584 ee( 0 )·t17, 0.025 0.584 ee( 0 )·2.11
pero no hay datos suficientes para calcular el error estándar de la predicción
S 2 ( K 3)2
d) Emplearíamos es estadístico de Jarque Bera, JB n
6 24
50. Para estimar la función de exportaciones de una determinada Comunidad
Autónoma española (Y) en función del tipo de cambio peseta/dólar (X) entre
los años 1970 y 2001, se estiman las siguientes ecuaciones,
Yˆt 147.1 14.18 X t , R 2 0.652
Yˆt 122.9 24.3Dt 13.01X t , R 2 0.724
Yˆ 129.3 10.41X 4.72 D X ,
t t t t R 2 0.874
Yˆt 134.6 21.6 Dt 10.89 X t 3.91Dt X t , R 2 0.921
Dt es una dummy que toma el valor 1 para todas las observaciones posteriores a
1985,
a) Interpretar los coeficientes de los cuatro modelos
b) Calcular el coeficiente de determinación ajustado y elegir el mejor modelo
en base a este criterio
c) Contrastar si la incorporación a la CEE en 1986 tuvo algún efecto sobre la
función anterior
d) Si la respuesta anterior es afirmativa, escribir la función de exportaciones
antes y después de la incorporación a la Comunidad Económica Europea
Solución
a) Los modelos expresan la relación entre las exportaciones (variable
dependiente) y el tipo de cambio (variable independiente). El signo del tipo
de cambio es positivo en los cuatro, conforme a lo esperado.
58
El modelo básico es el primero. Los otros tres se limitan a incorporar
distintas combinaciones de la dummy para tratar de analizar si la relación ha
cambiado en el año 1985.
b) Empleando la fórmula (2.3.16), se obtiene respectivamente 0.64, 0.71, 0.86 y
0.91, de manera que en base a este criterio elegiríamos el último modelo
c) Concluiríamos que la función ha cambiado, si la dummy (sola o
interactuando con el tipo de cambio), es significativa. Para contrastarlo,
podemos emplear contrastes tipo F. Por ejemplo, si comparamos el segundo
modelo con el primero, siendo el primero la ecuación restringida,
obtendríamos,
(0.724 0.652) /1
F1, 29 7.56
(1 0.724) / 29
Es decir, rechazaríamos que la dummy fuese nula. Los modelos 3 y 4 también
se pueden comparar con el primero (y entre sí), siguiendo este procedimiento.
d) Por el procedimiento descrito en c), llegaríamos a la conclusión de que el
mejor modelo es el 4. Por tanto la función de exportaciones antes (D=0) y
después de 1985 (D=1) serían,
Ŷ = 134.6+10.89X
Ŷ = 156.2+14.80X
51. En la tabla siguiente se muestran los datos de consumo y renta
correspondientes a diez regiones españolas,
Consumo, Y Renta, X 𝑦 = 𝑌 − 𝑌̅ 𝑥 = 𝑋 − 𝑋̅ x·y x2 y2
4.6 5 -1.9 -2.5 4.75 6.25 3.61
3.6 4 -2.9 -3.5 10.15 12.25 8.41
4.6 6 -1.9 -1.5 2.85 2.25 3.61
6.6 8 0.1 0.5 0.05 0.25 0.01
7.6 8 1.1 0.5 0.55 0.25 1.21
5.6 7 -0.9 -0.5 0.45 0.25 0.81
5.6 6 -0.9 -1.5 1.35 2.25 0.81
8.6 9 2.1 1.5 3.15 2.25 4.41
8.6 10 2.1 2.5 5.25 6.25 4.41
9.6 12 3.1 4.5 13.95 20.25 9.61
Sumas 65 75 0 0 42.5 52.5 36.9
Se pide,
59
a) La estimación de la función de consumo
b) La media de los valores de consumo ajustados, es decir 𝑌̅̂
c) La suma de los cuadrados total, la suma de los cuadrados explicada y la suma de
los cuadrados residual
d) El coeficiente de determinación
e) El intervalo de confianza del 95% para la propensión marginal a consumir
Solución
a) ˆ1
xy 42.5 0.8095, ˆ Y ˆ X 6.5 0.8095*7.5 0.4287
x2 52.5
0 1
b) Dado que E(b0+b1X)=0+1X, ha de coincidir con la media del consumo
observado, es decir 𝑌̅̂ = = 6.5
65
10
c) Estas sumas son,
SCT yt2 36.9
SCE yˆ 2 ( ˆ1 xt ) 2 ˆ12 xt2 0.80952 *52.5 34.4027
SCR SCT SCE 36.9 34.4027 2.4973
SCR 2.4973
d) R2 1 1 0.9324
SCT 36.9
e) El contraste de significatividad global será,
R2 / k 0.9324
F1,8 110.34
(1 R ) /(n k 1) (1 0.9324) / 8
2
Por tanto el contraste de significatividad individual,
ˆ1
t8 110.34 10.504
ee( ˆ ) 1
De donde,
0.8095
ee(ˆ1 ) 0.077
10.504
y el intervalo,
60
0.8095 2.306*0.077 (0.6312, 0.9875)
Otra vía,
ˆ2 2.4973/ 8
ˆ ˆ1 )
var( 0.005946, ee( ˆ1 ) 0.005946 0.077 ,
x 2
t 52.5
etc, etc.
52. Considere la siguiente ecuación de salarios,
ˆ 3.75 5.44educ 2.62Mujer 0.29edad 0.69 NO 0.60 NE 0.27 SO
Sal
(1.06) (0.21) (0.20) (0.04) (0.30) (0.28) (0.26)
N 4000, R 2 0.194, SCE 6.21
La variable dependiente es el salario hora en euros del año 1998 y las
independientes, una dummy que toma el valor 0 si el trabajador tiene solo estudios
primarios y 1 si ha terminado el bachillerato (educ), una dummy sexo (1 si mujer),
los años de edad del trabajador (edad), y dummies que expresan el lugar de
residencia, noroeste (NO), noreste (NE), suroeste (SO) y sureste (SE).
a) Suponiendo que la jornada laboral es de 7 horas, durante 5 días a la semana,
¿Cuál sería la diferencia en el salario mensual (4 semanas) de un trabajador(a)
con el título de bachiller respecto a quienes no lo tienen?
b) Explique si hay evidencias de diferencias salariales significativas en función del
lugar de residencia.
c) El coeficiente de determinación de la regresión restringida para contrastar la
hipótesis de que los efectos regionales son nulos, es 0.190. Diga si es posible
rechazar dicha hipótesis en un contraste del 5%.
El correspondiente estadístico de contraste arroja el siguiente resultado,
d) Elvira y Vega de 28 años de edad, tienen ambas el título de bachiller pero
mientras la primera vive en la región NO, Vega vive en la región NE. ¿Cuál será
la diferencia de salario esperada? ¿Cómo podría construir un intervalo de
confianza del 95% para dicha diferencia?
Solución
a) Sería 7*5*4*5.44=761.6 euros superior
61
b) Sí las hay puesto que las variables NO y NE son estadísticamente significativas.
Quienes vivan en estos lugares, ganarán más que los que residan en las regiones
SO y SE (que tendrán salarios iguales, dado que SO no es estadísticamente
distinta de cero).
c) El correspondiente estadístico de contraste arroja el siguiente resultado,
(0.194 0.19) / 3
F3,3993 6.60
(1 0.194) / 4000 7
De manera que se rechazaría la hipótesis nula y las variables son conjuntamente
significativas (observando las tablas se deduce que el valor crítico al 5% estaría
entre 2.68 y 2.60, por lo que el estadístico empírico es muy superior).
d) La primera tendría un salario 0.09 euros/hora mayor (0.69-0.60).
Haciendo una nueva regresión donde la dummy excluida recogida en el
intercepto fuese NO o NE …
62