Tarea
Tarea
Nicolas Muraro
1 Cápitulo 2
Pregunta 4
La base de datos BWGHT.RAW contiene cifras sobre los hijos nacidos de mu-
jeres en Estados Unidos. Las dos variables de interés son la variable inde-
pendiente, peso en onzas del niño al nacer (bwght) y la variable explicativa,
cantidad promedio diaria de cigarros consumidos por la madre durante el em-
barazo (cigs). La siguiente ecuación de regresión simple se estimó con datos de
n=1,388 nacimientos:
^ = 119.77 − 0.514cigs
bwght
SOL
^ = 109.49
Sı́ cigs = 0 =⇒ bwght
ii) ¿Capta esta ecuación de regresión simple una relación causal entre el peso
del niño al nacer y el hábito de fumar de la madre? Explique.
SOL
Dado que existen muchas otras variables que pueden explicar el peso del niño
al nacer, este módelo no necesariamente explica una relación causal.
1
iii) Para que el peso al nacer predicho sea de 125 onzas, ¿Cuál tiene que ser
el valor del cigs? Explique.
SOL
5.23
125 = 119.77 − 0.514cigs =⇒ cigs = −
0.514
∴ cigs ≈ −10
Dado a la naturaleza de las variables (no negativas), no es posible predecir la
cantidad de cigarros a fumar para que el tamaño del niño sea de 125 onzas. Esto
es debido a que la relación entre la variable explicativa y la variable explicada
es negativa, de manera que, por cada cigarro fumado sólo se verá reducido el
tamaño del niño al nacer. Por lo tanto, como el modelo predice que el máximo
crecimiento que puede tener un niño es de 119.77 onzas, entonces no es posible
que alzance un tamaño de 125 onzas.
SOL
Ya que sólo se está utilizando la variable cigs para explicar el peso del niño
al nacer, sólo se obtiene un valor predicho cuando cigs = 0. Por lo tanto, el
valor predicho es el promedio del peso de los niños al nacer y es por ello que se
obtiene un menor valor de B̃0
Pregunta 8
Considere el modelo estándar regresión simple y = B0 + B1 x + u bajo los
supuestos RLS.1 a RLS.5 de Gauss-Markov. Los estimadores usuales de MCO
B̂0 y B̂1 son insesgados para sus respectivos parámetros poblacionales. Sea B̃1
el estimador de B1 obtenido suponiendo que el intercepto es cero.
SOL
n
X
xi yi
i=1
B̃1 = n /E()
X
x2i
i=1
2
n
X
xi yi
i=1
E(B̃1 ) = E
X n
2
xi
i=1
n
X
E(xi (B0 + B1 xi + ui ))
i=1
E(B̃1 ) = n
X
x2i
i=1
n
X
xi (B0 + B1 xi + E(ui ))
i=1
E(B̃1 ) = n (1)
X
x2i
i=1
1
n
X
x2i
E(B̃1 ) = B1 i=1
n
X 2
xi
i=1
∴ E(B̃1 ) = B1
Donde queda demostrado el insesgamiento de B̃1
Para ver si hay otras posibilidades de que sea insesgado, reescribiremos la ecua-
cion (1)
Xn
xi (B0 + B1 xi + E(ui ))
i=1
E(B̃1 ) = n
X
x2i
i=1
n
X n
X n
X
xi B0 B1 x2i E(ui )
i=1 i=1 i=1
E(B̃1 ) = n + n + n
X X X
x2i x2i x2i
i=1 i=1 i=1
3
1
n
X n
X X n
xi x2i E(ui )
i=1 i=1 i=1
E(B̃1 ) = B0 n + B1 n + n
X X X
2 2
xi i x x2i
i=1 i=1 i=1
Xn Xn
xi E(ui )
0i=1 i=1
E(B̃1 ) = B1 +
B>
0 n + n
X X
2
xi x2i
i=1 i=1
n
X
E(ui )
i=1
E(B̃1 ) = B1 + n
X
x2i
i=1
De manera que, si no se cumple que E(ui ) = 0, otra forma de que pueda ser
insesgado B̃1 es, que la suma de la variable explicativa al cuadradado sea muy
grande.
n
X
E(ui )
i=1
Pn lim2 E(B̃1 ) = Pn lim2 B1 + Pn lim2 n
i=1 xi →∞ i=1 xi →∞ i=1 xi →∞ X
x2i
i=1
n
X
E(ui )
i=1
E(B̃1 ) = B1 + ∞
n
X
x2i
i=1
0
n
X
E(ui )
i=1
E(B̃1 ) = B1 +
∞
E(B̃1 ) = B1
Es por eso la importancia de obtener una gran cantidad de datos.
4
ii) Determine la varianza de B̃1 .
SOL
n
X
xi yi
i=1
B̃1 = n /V ar( )
X
x2i
i=1
n
X
xi yi
i=1
V ar(B̃1 ) = V ar n
X
x2i
i=1
n
!
X
V ar xi yi
i=1
V ar(B̃1 ) = !2
n
X
x2i
i=1
n
X
x2i V ar(yi )
i=1
V ar(B̃1 ) = !2
n
X
x2i
i=1
n 2
X :0 :δ
x2i (
V ar(B
V ar(u
1 xi ) + i ))
i=1
V ar(B̃1 ) = !2
n
X
x2i
i=1
1
n
X
x2i
i=1
V ar(B̃1 ) = δ 2 1
n
!2
X
x2i
i=1
5
δ2
∴ V ar(B̃1 ) = n
X
x2i
i=1
SOL
n
X n
X
Como x2i y (xi − x)2 como son positivos se obtiene que.
i=1 i=1
n n
X X 1 1
x2i ≥ (xi − x)2 =⇒ n ≤ n
X X
i=1 i=1
x2i (xi − x)2
i=1 i=1
ya que δ 2 ≥ 0
1 1
n ≤ n /δ 2
X X
x2i (xi − x) 2
i=1 i=1
δ2 δ2
n ≤ n
X X
x2i (xi − x)2
i=1 i=1
V ar(B̃1 ) ≤ V ar(B̂1 )
iv) Analice el efecto de sustitución que existe entre sesgo y varianza al elegir
entre B̃1 y B̂1 .
SOL
Observando las formulas, podemos percatarnos que la elección entre B̃1 y B̂1
dependerá de la media de la variable explicativa, x, debido a que sı́ aumenta y
mantenemos constante la suma de cuadrados tanto el sesgo como la varianza de
6
B̂1 aumentan, mientras que para el parámetro B̃1 no se ve afectada.
Pregunta C4
Use la base de datos WAGE2.RAW para estimar una regresión simple que ex-
plique el salario mensual (wage) en términos de la puntuación del coeficiente
intelectual (IQ).
SOL
SOL
7
Bajo los datos entregados por Stata, podemos encontrar el modelo de regresión
simple
] = 116.9916 + 8.3031 ∗ IQ
wage
cuando IQ se incrementa en 15 puntos =⇒ wage] = 124.547 dólares. De manera
que al aumentar en 15 puntos de IQ, la variable wage auménta en 124.547 dólares
SOL
8
Donde se obtiene la regresión
] = 5.8869 + .0088 ∗ IQ
ln(wage)
donde
∆%wage
] = .88d(IQ)
de manera que
] = .088 ∗ 15 = 13.2%
IQ = 15 =⇒ ∆%wage
2 Cápitulo 3
Pregunta 2
Los datos en el archivo WAGE2.RAW sobre trabajadores hombres se utilizan
para estimar la ecuación siguiente.
n = 772 R2 = 0.214
donde educ es años de escolaridad, sibs es número de hermanos, meduc es años
de escolaridad de la madre y f educ años de escolaridad del padre.
SOL
entre más hermanos o (equivalente más hijos en una familia), más dificil es
para una familia que puedan estudiar.
1
−1 = −.094sibs =⇒ sibs = =⇒ sibs ≈ 10.6
.094
De modo que al tener una cantidad de 10.6 hermanos produce una disminución
de 1 año de escolaridad.
SOL
nos dice que ante una variación de una unidad de la variable meduc se pro-
duce un cambio de .131 en los años de escolaridad.
9
entre B y A en años predichos de escolaridad?.
SOL
Pregunta 15
Las siguientes ecuaciones estimadas usan los datos en MLB1.RAW, que contiene
información sobre las grandes ligas salarios de beisbol. La variable dependiente,
lsalary, es el logaritmo del salario. Las dos variables explicativas son años en
las ligas mayores (years) y corridas por año (rbisyr):
\ = 12.373 + .1770years
lsalary
(.098) , (.0132)
n = 353 , SSR = 326.196 , SER = .964 , R2 = .337
\ = 11.861 + .0904years + .0302rbisyr
lsalary
n = 353 , SSR = 198.475 , SER = .753 , R2 = .597
i) ¿Cuántos grados de libertad hay en cada regresión? ¿Cómo es que el SER es
más pequeño en la segunda regresión que en la primera?
SOL
10
ii) El coeficiente de correlación de la muestra entre years y rbisyr es de
aproximadamente 0,487. ¿Esto tiene sentido? ¿Cuál es el factor de inflación
de varianza (solo hay uno) para los coeficientes de pendiente en la regresión
múltiple? ¿Dirı́a que hay poca, moderada o fuerte colinealidad entre years y
rbisyr?
SOL
Sı́ debido a que es de esperarse que entre más años tenga en las ligas may-
ores más corridas tendrá en un año en besibol, de modo que es de esperarse que
tengan correlación.
1 1
F IV = 2 = = 1.31
1 − Rj 1 − .2351
De manera que F IV incrementa la varianza del estimador Bj , debido a la cor-
relación. Dado a que la correlación de las variables son de 0.487 y observando
el valor de F IV , se puede decir que presentan una moderada colinealidad.
SOL
δ̂
ee(B̂j ) =
1
[ST Cj (1 − Rj2 )] 2
Dado que al agregarse una nueva variable a la regresión, produce que δ̂ disminuya
y con ello una disminuye ee(B̂j )
↓ δ̂
↓ ee(B̂j ) =
1
[ST Cj (1 − Rj2 )] 2
Pregunta C10
Use los datos en HTV.RAW para responder esta pregunta. La base de datos
incluye información sobre sueldos, educación, educación de los padres y otras
variables para 1,230 hombres que trabajaban en 1991.
SOL
11
El porcentaje que llegó hasta el grado 12 es de 41.63%.
En promedio los padres tienen como media 12.44 años de educación mientras
que los hombres tienen una media de 13.04 años. De modo que si se tiene
en promedio años de educación menores (también debido a que la desviación
estándar es menor, eso indica que los datos están menos dispersos).
SOL
educ
d = 6.964 + .3042motheduc + .1903f atheduc
n = 1230 , R2 = .2493
el 24.93% de la variación de educ, se explica por la variación de los padres.
el coeficiente B̂1 = .3042 explica que ante una variación de la variable motheduc
(manteniendo todo lo demás constante), genera una variación de .3042 en educ.
iii) Añada la variable abil (una medida de habilidad cognitiva) a la regresión del
inciso ii), y reporte los resultados en forma de ecuación. ¿La ”habilidad” ayuda
a explicar las variaciones en la educación, aun después de controlar la educación
12
de los padres? Explique.
SOL
educ
d = 8.4487 + .5025abil + .1891motheduc + .1111f atheduc
n = 1230 , R2 = .4275
Observando R2 podemos concluir que la variable abil si ayuda a explicar parte
de la variabilidad de la variable educ, debido a que ahora con las tres variables
explicativas demuestran el 42.75% de la variabilidad de educ.
iv) Ahora estime una ecuación donde abil aparece en forma cuadrática:
Usando los estimados B̂3 y B̂4 , use el cálculo para encontrar el valor de abil,
llamado abil∗ , donde educ se minimiza. (Los démas coeficientes y valores de las
variables de la educación de los padres no tienen efecto; se está manteniendo
fija la educación de los padres.) Observe que abil se mide de tal manera que se
permiten valores negativos. También podrı́a verificar que la segunda derivada
es positiva, por lo que en realidad tiene un mı́nimo.
SOL
δ
educ = B0 + B1 motheduc + B2 f atheduc + B3 abil + B4 abil2 + u /
δ abil
13
δ educ
= B3 + 2B4 abil
δ abil
δ educ
mı́nimizando ( = 0) se obtiene
δ abil
B3
B3 + 2B4 abil = 0 =⇒ abil∗ = −
2B4
Aplicando el crı́terio de la segunda derivada para demostrar si efectivamente es
un mı́nimo
δ 2 educ
= 2B4
δ abil2
Dado que B4 ≥ 0 debido a que ante más habilidad tenga una persona más años
de educación tendra. De manera que, abil∗ es un mı́nimo.
SOL
SOL
14
3 Cápitulo 4
Pregunta 3
La variable rdintens representa el gasto en investigación y desarrollo (I & D)
dado como porcentaje de las ventas. Las ventas (sales) se miden en millones de
dólares. La variable prof marg representa la ganancia como porcentaje de las
ventas.
n = 32 R2 = 0.99
i) Interprete el coeficiente de log(sales). En particular, si sales aumenta en
10%,¿ cuál es la variación estimada en puntos porcentuales en rdintens?¿ Es
este efecto económicamente grande?
SOL
15
Por lo tanto, ante una variacion de la variable explicativa sales en un porciento,
\ en una maginitud de 0.00321.
afecta a la variable explicada rdintens
\ se
Si la variable sales aumenta en un 10%, implica que la variable rdintens
ve afectada en 0.0321.
SOL
SOL
ante una variación de una unidad de la variable prof marg, genera un cam-
\ al observar el parámetro B̂2 = 0.50 podemos
bio de 0,50 en la variable rdintens
indicar que ante una variación de una unidad de prof marg obtenemos una
variación en rdintens en una magnitud de 0.50. Cómo se puede observar, no es
económicamente grande.
16
Pregunta 10
El análisis de regresión puede emplearse para probar si el mercado emplea de
manera eficiente la información sobre valuación de acciones. En concreto, sea
return el rendimiento total de conservar una acción de una empresa durante
el periodo de cuatro años que va desde fines de 1990 hasta fines de 1994. L
hipótesis de los mercados eficientes dice que estos rendimientos no deben estar
relacionados de manera sistemática con la información conocida en 1990. Si las
caracterı́sticas de una empresa al principio del periodo ayudaran para predecir
los rendimientos de las acciones, entonces esta información podrı́a uusarse para
elegir las acciones.
Para 1990, sea dkr el cociente de deuda sobre capital de una empresa, eps
sean las ganancias por acción, netinc sea el ingreso neto y salary la compen-
sación total del director general.
SOL
17
Como se puede observar por el estadı́stico F=1.41 de manera que, no podemos
rechazar la hipotesis nula (que los parametros en su conjunto no son significa-
tivos estadı́sticamente).
Observando el estadı́stico t , podemos ver que los valores t más grandes pre-
sentes en los datos son los de la variable dkr que es igual al de la variable salary.
Con ese valor t tan pequeño a un nivel de significancia de 5% y gl = 137 no se
rechaza que no sean significativos individualmente.
SOL
Podemos observar ahora que el estadı́stico F ahora es más pequeño que antes
(F=1.17), de modo que no se puede rechazar la hipotesis nula.
iii) En esta muestra, algunas de las empresas tienen deuda cero y otras tienen
ganancias negativas. ¿Debe tratar de emplearse en el modelo log(dkr) o log(eps)
para ver si con esto mejora el ajuste? Explique.
18
SOL
No, debido a que el dominio de una función logaritmica son los numeros posi-
tivos, de manera que no se puede introducir log a la variable dkr no eps dado
que pueden tomar valores negativos e inclusive cero.
SOL
Dado a los esadı́sticos t que hemos utilizado (y F) parece ser muy debil la
evidencia de predictibilidad de los rendimientos de las acciones. Debido a las
pruebas estadı́sticas que indicaron que son insignificantes (tanto el estadı́stico F
como el estadı́stico t), además las variables explicativas sólo explican el 3.95%
de la variabilidad de total de los rendimientos de las acciones.
Pregunta C12
Use los datos del archivo ECONMATH.RAW para responder las siguientes pre-
guntas.
SOL
19
colgpa = .0283 + .0122acteng + .0130actmth + .6590hsgpa
(.1677) (.0050) (.0051) (.0530)
n = 814 , R2 = .2557
De manera que, al observar el estadı́stico F podemos concluir que todas las vari-
ables explicativas en su conjunto son estadı́sticamente significativa. Por lo tanto
la hipotesis nula de hsgpa = actmth = acteng = 0 se rechaza por la hipótesis
alternativa.
SOL
[ = .6590 ∗ d(hsgpa)
d(colpa)
[ = .6590 ∗ .343
d(colpa)
[ = .2261
d(colpa)
por lo tanto, la variable actmth
.2261 = 0.0130d(actmth)
20
d(actmth) = 17.3923
Dado que la desviación estándar de actmth es de 3.7733, la variable actmth
debe incrementarse en 4.6 desviaciones estándar.
iii) Pruebe la hipótesis nula de que actmth y acteng tienen el mismo efecto
(en la población) contra una alternativa de dos colas. Informe el valor-p y de-
scriba sus conclusiones.
SOL
Por lo tanto, el valor del estadı́stico t=4.5889 (que es muy grande) y gl=810.
De manera que el valor-p es
Se puede concluir que, para para un nivel de significancia muy pequeño (prac-
ticamente cero pero mayor a al valor-p encontrado), no se rechaza la hipotesis
nula.
iv)Suponga que el oficial de admisiones universitarias quiere que use los datos
de las variables del inciso (i) para crear una ecuación que explique al menos el
\ ¿Qué le dirı́as al oficial?
50 por ciento de la variación en colgpa.
SOL
21
4 Cápitulo 5
Pregunta 2
Supongo que el modelo
SOL
plim(B̃1 ) = B1 + B2 δ1
Pregunta C6
Use los datos del archivo ECONMATH.RAW para responder esta pregunta
i) Lógicamente, ¿cuáles son los valores más pequeños y más grandes que puede
tomar la variable score?. ¿Cuáles son los valores más pequeños y más grandes
en la muestra?.
SOL
22
Y el valor mı́nimo y máximo que puede tomar en la muestra obtenida es de
19.53 y 98.44, respectivamente.
SOL
SOL
23
score
[ = 16.1740 + .05176acteng + .8834actmth + 12.3662colgpa
(2.8004) (.1111) (.1122) (.7151)
2
n = 814 , R = .3971
De manera que , observando el intervalo de confianza podemos deducir que no se
puede rechazar la hipotesis nula a un nivel de confianza de 5%, donde el valor-p
es de aproximadamente cero como se puede observar en la siguiente imagen
24