FACULTAD DE CIENCIAS SOCIALES,
EDUCACIÓN COMERCIAL Y DERECHO
TEMA:
Aplicar a las ciencias sociales, el modelo de regresión que
le permitirá la explicación, inferencia y predicción de
políticas económicas.
GRUPO 15
AUTORES:
• Nathaly Mileydi Delgado Solis
• David Fernando Fuentes Criollo
• Luz Maria Jimbo Cárdenas
• Byron Santiago Jaramillo Valverde
• Jean Carlos Parraga Cevallos
ASIGNATURA:
Econometría Aplicada
DOCENTE:
Roberto William Cascante Yarleque
FECHA DE ENTREGA:
27 de octubre 2024
PERIODO:
Agosto - Diciembre 2024
MILAGRO-ECUADOR
Ejercicio 1. Suponga que:
𝒀 = 𝜷𝑿 + 𝜺 (𝒔𝒊𝒏 𝒄𝒐𝒏𝒔𝒕𝒂𝒏𝒕𝒆)
Siendo Z un instrumento para X. A partir de esta información:
a) Contraste por endogeneidad usando un test de Hausman
Primeros vamos a ir creando vectores, con los datos del modelo con el mismo
nombre que tienen las variables:
> # Crear los datos en base a los datos del ejercicos
> Y <- c(25, 33, -42, 63, -56)
> X <- c(6, 3, -2, 9, -16)
> Z <- c(3, 1, -4, 6, -3)
Para tener presente cuales son los datos promedio se saco los predios, mismo
que en la variable x tenemos el promedio de 0, no teniendo un valor en el
modelo.
#promedio de las variables
> mean(Y)
[1] 4.6
> mean(X)
[1] 0
> mean(Z)
[1] 0.6
>
Test del modelo
> # Test de Hausman manual
> diff_coef <- coef_mco - coef_mc2e
> hausman_test <- t(diff_coef) %*% solve(var_mc2e - var_mc
o) %*% diff_coef
> p_value <- pchisq(hausman_test, df = 1, [Link] = FAL
SE)
> # Imprimir resultado del test de Hausman
> cat("Estadístico de Hausman:", hausman_test, "\n")
Estadístico de Hausman: 1.376492
> cat("Valor p:", p_value, "\n")
Valor p: 0.2406996
En contraste de la pregunta, recordemos que el El test de Hausman es una
prueba para decidir entre un modelo de efectos fijos y uno de efectos aleatorios,
donde esta evaluara si las diferencias entre ambos estimadores son sistemáticas,
permitiendo así identificar el modelo más adecuado, es así que en datos
obtenidos podemos decir que a posible endogeneidad de la variable X en el
modelo. El coeficiente estimado de X mediante MCO es 4.65285, mientras que
utilizando MC2E (usando Z como instrumento) el coeficiente estimado es
6.274809. Esta diferencia entre los coeficientes sugiere que podría haber cierta
variación entre X y el término de error, lo cual justificaría el uso de MC2E.
Sin embargo, al realizar el test de Hausman, obtenemos un estadístico de
1.376492 y un p-value de 0,2407. Este valor mayor a 0.05, lo que significa que
no tenemos suficiente evidencia para rechazar la hipótesis nula de exogenidad.
En otras palabras, el test de Hausman sugiere que X puede tratarse como
exógena en este modelo, y por lo tanto, la estimación mediante MCO no presenta
un sesgo significativo debido a endogeneidad.
b) Calcule la linea de regresión muestral, 𝑋̂, de una regresión de X sobre
Z. Estime un modelo de regresión múltiple de Y sobre X y 𝑋̂ y contraste
la Ho de que el coeficiente que acompana a 𝑋̂es cero. Muestre que este
contraste es igual al del punto anterior
# Regresión de X sobre Z para obtener ecuacion
> modelo_estimacion <- lm(X ~ Z)
> modelo_estimacion1 <- fitted(modelo_estimacion) # Valore
s ajustados de X (X_hat)
> print(modelo_estimacion1)
1 2 3 4 5
4.5433526 0.7572254 -8.7080925 10.2225434 -6.8150289
𝒀 = ( 𝟒. 𝟓𝟒𝟑 , 𝟎, 𝟕𝟓𝟕 , − 𝟖. 𝟕𝟎𝟖 , 𝟏𝟎. 𝟐𝟐𝟑 , − 𝟔. 𝟖𝟏𝟓 )
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.600 7.248 0.635 0.591
X 1.928 1.380 1.397 0.297
modelo_estimacion1 4.242 1.721 2.465 0.133
Residual standard error: 16.21 on 2 degrees of freedom
Multiple R-squared: 0.9499, Adjusted R-squared: 0.8997
F-statistic: 18.95 on 2 and 2 DF, p-value: 0.05014
Intercepto: 4.600 con p-value=0,591
Coeficiente de X: 1.928 con p-value=0,297
modelo_estimacion1: 4.242 y p-value=0.133
Aquí debemos plantear que la Ho=0, teniendo presente que si p-value es mayor
al nivel de significancia no se puede aceptar ficha hipótesis, para el caso de
modelo_estimacion1, nos arrojó el resultado de 0.133 lo cual es mayor a 0.05.
Esto significa que no tenemos suficiente evidencia para rechazar la hipótesis nula,
indicando que las variables analizadas pueden ser tratado como exógeno, en
otras palabras, se puede decir que no está correlacionada con el término de error
del modelo y, por lo tanto, no causa sesgo en las estimaciones en este modelo.
El valor del p-value de este análisis de 0.133 es consistente con el resultado del
test de Hausman obtenido donde el p-value fue 0,2407, mismo que en ambos
casos podemos concluir que los coeficientes de modelo_estimacion1, ambos
resultados sugieren que no hay evidencia significativa de endogeneidad en las
variables analizadas.
Ejercicio 2.
Use los datos en [Link] para este ejercicio. Para estimar el
rendimiento de la educación para los hombres, se utiliza la variable sibs
(número de hermanos) como instrumento para educ. Estas están
correlacionadas de forma negativa, como se puede constatar a partir
de la regresión simple:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14.13879 0.11314 124.969 < 2e-16 ***
sibs -0.22792 0.03028 -7.528 1.22e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.134 on 933 degrees of freedom
Multiple R-squared: 0.05726, Adjusted R-squared: 0.05625
F-statistic: 56.67 on 1 and 933 DF, p-value: 1.215e-13
Esta ecuación implica que cada hermano se asocia, en promedio, con
aproximadamente 0.23 años menos de educación. Si se supone que sibs no está
correlacionada con el término de error, entonces el estimador de VI es con
sistente. Al estimar nuevamente, pero esta vez con sibs como una VI para
educ se obtiene:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.973062 0.081374 73.40 <2e-16 ***
educ 0.059839 0.005963 10.04 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4003 on 933 degrees of freedom
Multiple R-squared: 0.09742, Adjusted R-squared: 0.09645
F-statistic: 100.7 on 1 and 933 DF, p-value: < 2.2e-16
De esta forma usando sibs como instrumento para educ, la estimación de VI del
rendimiento de la educación es 0.122
A. Para convencerse de que usar sibs como una VI para educ no es lo
mismo que sólo insertar sibs en lugar de educ y estimar la regresión
por MCO, realice la regresión de log(wage) sobre sibs y explique sus
hallazgos.
a)
b) Call:
c) lm(formula = log(wage) ~ sibs, data = wage2)
d)
e) Residuals:
f) Min 1Q Median 3Q Max
g) -1.97662 -0.25857 0.02503 0.28572 1.22677
h)
i) Coefficients:
j) Estimate Std. Error t value Pr(>|t|)
k) (Intercept) 6.861076 0.022078 310.771 < 2e-16 ***
l) sibs -0.027904 0.005908 -4.723 2.68e-06 ***
m) ---
n) Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘
’ 1
o)
p) Residual standard error: 0.4164 on 933 degrees of freedom
q) Multiple R-squared: 0.02335, Adjusted R-squared: 0.0223
r) F-statistic: 22.31 on 1 and 933 DF, p-value: 2.68e-06
Como primer punto podemos observar el intercepto es el promedio de salario,
cuando las personas o el individuo tiene 0 hermanos, representado que por cada
unidad adicional el salario promedio será de 6.8610.
Como siguiente punto podemos ver que tenemos una relación inversa conforme
disminuye el número de hermanos el salario también tiende aumentar, teniendo
una referencia que el número de hermanos disminuirá el salario promedio que
ganará si fuera todo lo contrario.
𝑪𝒂𝒎𝒃𝒊𝒐 𝒆𝒏 𝒆𝒍 𝒔𝒂𝒍𝒂𝒓𝒊𝒐 ≈ 𝟏𝟎𝟎 × (−𝟎. 𝟎𝟐𝟕𝟗) = −𝟐. 𝟕𝟗%.
por cada hermano adicional, el salario disminuye aproximadamente un 2.79%.
La relación es negativa, lo que sugiere que tener más hermanos se asocia
con salarios más bajos.
El p-valor asociado con el coeficiente de sibs es extremadamente bajo (2.68e-
06), lo que indica que el efecto de sibs sobre el salario es estadísticamente
significativo a cualquier nivel convencional de significancia (0.05, 0.01, etc.). Esto
implica que hay suficiente evidencia para afirmar que el número de hermanos
afecta significativamente el salario.
El valor de R cuadrado es 0.02335, lo que indica que solo el 2.34% de la variación
en el logaritmo del salario puede explicarse por el número de hermanos. Esto
sugiere que, aunque el efecto es estadísticamente significativo, sibs no es un
fuerte predictor del salario, ya que otros factores no incluidos en el modelo
explican la mayor parte de la variación en los salarios.
B. La variable brthord es el orden de nacimiento (brthord es (1) uno
para el niño que nació primero, (2) dos para el segundo, y así
sucesivamente). Explique por qué educ y brthord pueden estar
negativamente correlacionadas. Realice la regresión de educ sobre
brthord para determinar si existe una correlación negativa
estadísticamente significativa.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14.14945 0.12868 109.962 < 2e-16 ***
brthord -0.28264 0.04629 -6.106 1.55e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.155 on 850 degrees of freedom
(83 observations deleted due to missingness)
Multiple R-squared: 0.04202, Adjusted R-squared: 0.04089
F-statistic: 37.29 on 1 and 850 DF, p-value: 1.551e-09
Como primer punto vamos a considerar el valor del intercepto siendo este
14.14945 representando el promedio cuando el orden de nacimiento (brthord) es
igual a 1 (primogénito), el nivel educativo promedio es de aproximadamente
14.15 años. Esto podría interpretarse como que, en promedio, el primer hijo de
la familia recibe un nivel educativo cercano a 14 años.
brthord es negativo (-0.28264), lo que significa que, por cada incremento en el
orden de nacimiento el nivel educativo promedio disminuye en aproximadamente
0.28 años.
Esto sugiere que los hijos nacidos en posiciones posteriores tienden a recibir
menos educación formal, en promedio.
El p-valor extremadamente bajo (1.55e-09) indica que el efecto de brthord sobre
educ es altamente significativo. Esto significa que hay evidencia sólida para
concluir que el orden de nacimiento afecta negativamente el nivel educativo de
forma estadísticamente significativa.
El valor de R cuadrado es 0.04202, lo que indica que aproximadamente el 4.2%
de la variación en el nivel educativo puede explicarse por el orden de nacimiento.
Aunque este valor es bajo, lo que sugiere que hay muchos otros factores que
influyen en el nivel educativo, el efecto de brthord sigue siendo significativo.
C. Use brthord como una VI para educ en la siguiente ecuación:
log(wage) = β0 + β1 educ + 𝑢
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.03040 0.43295 11.619 < 2e-16 ***
educ 0.13064 0.03204 4.078 4.97e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4215 on 850 degrees of freedom
Multiple R-Squared: -0.02862, Adjusted R-squared: -0.02983
Wald test: 16.63 on 1 and 850 DF, p-value: 4.975e-05
(brthord), se estima que un año adicional de educación incrementa el logaritmo
del salario en 0.13064. En términos porcentuales:
𝐂𝐚𝐦𝐛𝐢𝐨 𝐩𝐨𝐫𝐜𝐞𝐧𝐭𝐮𝐚𝐥 𝐞𝐧 𝐞𝐥 𝐬𝐚𝐥𝐚𝐫𝐢𝐨 ≈ 𝟏𝟎𝟎 × 𝟎. 𝟏𝟑𝟎𝟔𝟒 = 𝟏𝟑. 𝟎𝟔%
Esto indica que, en promedio, cada año adicional de educación se asocia con un
aumento del salario de aproximadamente el 13.06%.
Un p-valor tan bajo confirma que el coeficiente de educ es altamente significativo.
Existe suficiente evidencia para concluir que la educación tiene un efecto positivo
significativo sobre los salarios cuando se usa brthord como VI
d. Ahora suponga que se incluye el número de hermanos como una
variable explicativa en la ecuación del salario; esto controla los
antecedentes familiares, en cierto grado:
log(wage) = β0 + β1 educ + β2 sibs + 𝑢
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.068773 0.089116 68.099 < 2e-16 ***
educ 0.056038 0.006123 9.152 < 2e-16 ***
sibs -0.015133 0.005832 -2.595 0.00961 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.3991 on 932 degrees of freedom
Multiple R-squared: 0.1039, Adjusted R-squared: 0.102
F-statistic: 54.03 on 2 and 932 DF, p-value: < 2.2e-16
Suponga que se quiere usar brthord como una VI para educ, suponiendo que
sibs sea exógena. La forma reducida para educ es:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.938528 1.055690 4.678 3.37e-06 ***
educ 0.136994 0.074681 1.834 0.0669 .
sibs 0.002111 0.017372 0.122 0.9033
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.427 on 849 degrees of freedom
Multiple R-Squared: -0.05428, Adjusted R-squared: -0.05676
Wald test: 10.9 on 2 and 849 DF, p-value: 2.124e-05
Estime la ecuación (5) usando brthord como una VI para educ, ver ecuación (6)
y comente sobre los parámetros y errores estándares de 𝛽̂ educ y 𝛽̂ sibs .
Este coeficiente significa que, con el uso del instrumento brthord, se estima que
un año adicional de educación incrementa el logaritmo del salario en
aproximadamente 0.137. En términos porcentuales:
𝑪𝒂𝒎𝒃𝒊𝒐 𝒑𝒐𝒓𝒄𝒆𝒏𝒕𝒖𝒂𝒍 𝒆𝒏 𝒆𝒍 𝒔𝒂𝒍𝒂𝒓𝒊𝒐 ≈ 𝟏𝟎𝟎 × 𝟎. 𝟏𝟑𝟔𝟗𝟗𝟒 = 𝟏𝟑. 𝟕%
Esto sugiere que, en promedio, un año adicional de educación se asocia con un
aumento en el salario del 13.7%.
Teniendo el p-valor de 0.0669 indica que este coeficiente es marginalmente
significativo al nivel del 10% (p-valor < 0.1), pero no al nivel más estricto del
5%.
El coeficiente de sibs indica que el número de hermanos prácticamente no tiene
un efecto significativo sobre el logaritmo del salario (p-valor = 0.9033).
El valor muy cercano a 0 y el p-valor extremadamente alto indican que, después
de controlar por la educación, el número de hermanos no parece afectar los
salarios de manera significativa.
El error estándar de los residuos es de 0.427, lo que muestra la dispersión del
logaritmo del salario alrededor de la línea ajustada. Este valor es relativamente
bajo, indicando un ajuste moderado del modelo.
El R cuadrado negativo sugiere que el modelo ajustado con la variable
instrumental y sibs no explica bien la variabilidad en los salarios. En modelos de
variables instrumentales, negativo no es inusual, ya que la preocupación principal
es la corrección de la endogeneidad, no necesariamente maximizar el ajuste.
Ejercicio 3.
Use los datos en [Link] para este ejercicio. Estos datos incluyen para las
mujeres en Bostwana durante 1988, información sobre el número de niños
(children), años de educación (educ), edad (age) y variables del estatus religioso
y económico. Se pide:
a) Estime el siguiente modelo mediante MCO e interprete las
estimaciones
𝑐ℎ𝑖𝑙𝑑𝑟𝑒𝑛 = 𝛽0 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝛽2 𝑎𝑔𝑒 + 𝛽3 𝑎𝑔𝑒2 + 𝑢
En particular, si se mantiene age fija, ¿Cuál es el efecto estimado de un año más
de educación sobre la fertilidad?
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.1383066 0.2405942 -17.200 <2e-16 ***
educ -0.0905755 0.0059207 -15.298 <2e-16 ***
age 0.3324486 0.0165495 20.088 <2e-16 ***
I(age^2) -0.0026308 0.0002726 -9.651 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.46 on 4357 degrees of freedom
Multiple R-squared: 0.5687, Adjusted R-squared: 0.5684
F-statistic: 1915 on 3 and 4357 DF, p-value: < 2.2e-16
En este caso, el valor de -4.138 no tiene una interpretación práctica direct
educ indica que por cada año adicional de educación, el número esperado de
hijos disminuye en aproximadamente 0.091, manteniendo constante la edad.
Este coeficiente es negativo y altamente significativo (p-valor < 2e-16), lo que
sugiere que más educación está asociada con una menor fertilidad.
Si una mujer aumenta su nivel educativo en un año, se espera que tenga 0.091
hijos menos, manteniendo constante la edad. Esto refuerza la idea de que más
educación tiende a reducir el número de hijos, posiblemente porque la educación
ofrece más oportunidades laborales y retrasa la maternidad.
β₂ = 0.3324486 indicando un coeficiente positivo indica que a medida que
aumenta la edad, el número de hijos también aumenta, aunque este efecto no
es constante debido a la presencia de age^2 en el modelo, A medida que una
mujer envejece, su número esperado de hijos aumenta en 0.332 por cada año
adicional,
El coeficiente de age^2 es negativo, lo que sugiere que la relación entre la edad
y el número de hijos es curvilínea. A medida que una mujer envejece, el número
de hijos aumenta a un ritmo decreciente. En otras palabras, hay un punto en la
vida de una mujer en el que la tasa de aumento en el número de hijos comienza
a disminuir, en otras palabras, el efecto de la edad en el número de hijos no es
lineal; aunque la fertilidad aumenta con la edad, el coeficiente negativo de age^2
indica que esta relación se ralentiza a medida que las mujeres envejecen, lo que
es consistente con la realidad biológica.
Al tener un R² = 0.5687 el modelo explica aproximadamente el 56.87% de la
variabilidad en el número de hijos (children). Esto indica que las variables educ,
age y age^2 son factores importantes para entender la variación en la fertilidad,
aunque el modelo no explica toda la variación.
Call:
ivreg(formula = children ~ educ + age + I(age^2) | frsthalf +
age + I(age^2), data = fertil2)
Residuals:
Min 1Q Median 3Q Max
-6.05272 -0.71481 0.06224 0.76236 7.23693
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.3878054 0.5481502 -6.180 6.98e-10 ***
educ -0.1714989 0.0531796 -3.225 0.00127 **
age 0.3236052 0.0178596 18.119 < 2e-16 ***
I(age^2) -0.0026723 0.0002797 -9.555 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.491 on 4357 degrees of freedom
Multiple R-Squared: 0.5502, Adjusted R-squared: 0.5499
Wald test: 1765 on 3 and 4357 DF, p-value: < 2.2e-16
el coeficiente de educ es -0.1715. Esto indica que, usando frsthalf como
instrumento para educ, cada año adicional de educación reduce el número
esperado de hijos en aproximadamente 0.171.
en contraste con el literal anterior podemos interpretar que en el modelo MCO,
el coeficiente de educ fue de -0.0906, indicando que el MCO subestimó el efecto
de la educación sobre la fertilidad.
El R cuadrado en el modelo VI es de 0.5502, un poco menor que en el modelo
MCO (0.5687), lo que indica que el modelo de variables instrumentales explica
un poco menos de la variabilidad en el número de hijos. Sin embargo, no es el
principal criterio en los modelos de VI, ya que su propósito principal es corregir
por endogeneidad.
Wald test: 1765, p-value < 2.2e-16
El test de Wald es significativo, lo que indica que el modelo VI en su conjunto es
significativo.
c) Agregue las variables binarias, electric (electricidad), tv (televisión) y bicycle
(bicicleta) al modelo y suponga que son exógenas. Estime por MCO y MC2E y
compare los coeficientes estimados de educ. Interprete el coeficiente de tv y
explique por qué tener televisor tiene un efecto negativo en la fertilidad.
Call:
lm(formula = children ~ educ + age + I(age^2) + electric + tv +
bicycle, data = fertil2)
Residuals:
Min 1Q Median 3Q Max
-5.7781 -0.7205 -0.0169 0.7168 7.5645
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.3897837 0.2403173 -18.267 < 2e-16 ***
educ -0.0767093 0.0063526 -12.075 < 2e-16 ***
age 0.3402038 0.0164417 20.692 < 2e-16 ***
I(age^2) -0.0027081 0.0002706 -10.010 < 2e-16 ***
electric -0.3027293 0.0761869 -3.974 7.20e-05 ***
tv -0.2531443 0.0914374 -2.768 0.00566 **
bicycle 0.3178950 0.0493661 6.440 1.33e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.448 on 4349 degrees of freedom
(5 observations deleted due to missingness)
Multiple R-squared: 0.5761, Adjusted R-squared: 0.5755
F-statistic: 984.9 on 6 and 4349 DF, p-value: < 2.2e-16
En lo que respecta educ, podemos decir que cada año adicional de educación
reduce el número esperado de hijos en 0.077, manteniendo constantes las demás
variables, presentando un efecto es estadísticamente significativo (p-valor < 2e-
16),
En contrate con el modelo original los coeficientes de educ era de -0.0906. Esto
indica que, al agregar las variables electric, tv y bicycle, el impacto negativo de
la educación en la fertilidad es menor, pero sigue siendo significativo.
Tener electricidad está asociado con una disminución de 0.30 hijos, manteniendo
las demás variables constantes. Esto podría sugerir que las familias con acceso a
electricidad adoptan estilos de vida más modernos, que tienden a estar asociados
con una menor fertilidad.
Tener un televisor reduce el número esperado de hijos en aproximadamente
0.25, manteniendo constantes las demás variables. Este efecto es
estadísticamente significativo (p-valor = 0.00566).
Tener una bicicleta está asociado con un aumento en el número de hijos en 0.32,
manteniendo las demás variables constantes. Este resultado puede estar
relacionado con el acceso a la movilidad, que podría estar vinculado a familias
más grandes en contextos rurales o en economías agrícolas.
Efecto de la educación: La inclusión de las variables binarias (electric, tv, bicycle)
reduce ligeramente el impacto de la educación en la fertilidad, pero la educación
sigue teniendo un efecto negativo y significativo. Cada año adicional de educación
reduce el número de hijos en aproximadamente 0.077
Ejercicio 4.
Se ha propuesto un modelo regional para la determinación simultánea del nivel
salarial y el Empleo.
𝑆𝑖 = 𝑎1 + 𝑎2 𝐸𝑖 + 𝑎3 𝑃𝑖 + 𝑢1𝑖 (8)
𝐸𝑖 = 𝘘1 + 𝘘2 𝑆𝑖 + 𝑢2𝑖
(9) Siendo:
S= Nivel salarial en miles de dolares,
E= empleo en miles de trabajadores
P= Nivel de Precios como media ponderada del precio de bienes y servicios.
A partir de la siguiente información muestral:
Primero, sustituimos SiS_iSi de la ecuación (8) en la ecuación (9):
Si = a1 + a2Ei + a3Pi + u1i
Ei = Q1 + Q2(a1 + a2Ei + a3Pi + u1i) + u2i
Ei = Q1 + Q2a1 + Q2a2Ei + Q2a3Pi + Q2u1i + u2i
Aislamos EiE_iEi en el lado izquierdo:
𝐸𝑖 − 𝑄2𝑎2𝐸𝑖 = 𝑄1 + 𝑄2𝑎1 + 𝑄2𝑎3𝑃𝑖 + 𝑄2𝑢1𝑖 + 𝑢2𝑖
𝐸𝑖(1 − 𝑄2𝑎2) = 𝑄1 + 𝑄2𝑎1 + 𝑄2𝑎3𝑃𝑖 + 𝑄2𝑢1𝑖 + 𝑢2𝑖
Finalmente, despejamos EiE_iEi en función de PiP_iPi:
Q1 + Q2a1 + Q2a3Pi + Q2u1i + u
Ei =
1 − Q2a2
Ecuación (8): Resolver SiS_iSi en términos de PiP_iPi
1. Sustituimos EiE_iEi de la forma reducida en la ecuación (8):
𝐐𝟏 + 𝐐𝟐𝐚𝟏 + 𝐐𝟐𝐚𝟑𝐏𝐢 + 𝐐𝟐𝐮𝟏𝐢 + 𝐮
𝐒𝐢 = 𝐚𝟏 + 𝐚𝟐 = + 𝐚𝟑𝐏𝐢 + 𝐮𝟏𝐢
𝟏 − 𝐐𝟐𝐚𝟐
forma reducida para SiS_iSi, que también expresa el salario en términos del
nivel de precios PiP_iPi y los términos de erro
Para determinar la identificabilidad de cada ecuación, utilizamos la condición
de orden. Esto se refiere al número de variables excluidas en cada ecuación y
ayuda a determinar si una ecuación está identificada, sobre identificada o no
identificada.
Ecuación de salarios 𝑆𝑖 = 𝑎1 + 𝑎2𝐸𝑖 + 𝑎3𝑃𝑖 + 𝑢1𝑖𝑆_𝑖 = 𝑎_1 + 𝑎_2 𝐸_𝑖 +
𝑎_3 𝑃_𝑖 + 𝑢_{1𝑖}𝑆𝑖 = 𝑎1 + 𝑎2𝐸𝑖 + 𝑎3𝑃𝑖 + 𝑢1𝑖:
Tiene 2 variables endógenas (𝑆𝑖𝑆_𝑖𝑆𝑖 𝑦 𝐸𝑖𝐸_𝑖𝐸𝑖).
La variable exógena es 𝑃𝑖𝑃_𝑖𝑃𝑖.
Hay una variable exógena (PiP_iPi) que no aparece en la ecuación de empleo, lo
que sugiere que la ecuación está exactamente identificada.
Ecuación de 𝑒𝑚𝑝𝑙𝑒𝑜 𝐸𝑖 = 𝑄1 + 𝑄2𝑆𝑖 + 𝑢2𝑖𝐸_𝑖 = 𝑄_1 + 𝑄_2 𝑆_𝑖 + 𝑢_{2𝑖}𝐸𝑖 =
𝑄1 + 𝑄2𝑆𝑖 + 𝑢2𝑖:
También tiene 2 variables endógenas (𝐸𝑖𝐸_𝑖𝐸𝑖 𝑦 𝑆𝑖𝑆_𝑖𝑆𝑖).
No tiene variables exógenas diferentes a las que aparecen en la ecuación de
salarios, lo que podría sugerir que esta ecuación no está identificada sin
información adicional.
Ver el dataset
> print(data)
S E P
1 30 20 15
2 15 25 5
3 45 15 5
4 15 40 15
5 20 10 10
> # Estimar la ecuación del salario
> modelo_salario <- lm(S ~ E + P, data = data)
> # Ver los resultados
> summary(modelo_salario)
Call:
lm(formula = S ~ E + P, data = data)
Residuals:
1 2 3 4 5
5.0872 -9.5640 15.2035 0.5523 -11.2791
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 38.7791 19.1132 2.029 0.180
E -0.5233 0.7440 -0.703 0.555
P -0.2267 1.7128 -0.132 0.907
Residual standard error: 15.43 on 2 degrees of freedom
Multiple R-squared: 0.2677, Adjusted R-squared: -0.4647
F-statistic: 0.3655 on 2 and 2 DF, p-value: 0.7323
# Estimación de la forma reducida para E en términos de P
> a1 <- coef(modelo_salario)[1]
> a2 <- coef(modelo_salario)[2]
> a3 <- coef(modelo_salario)[3]
> Q1 <- coef(modelo_empleo)[1]
> Q2 <- coef(modelo_empleo)[2]
> # Calcular los valores de E usando la forma reducida (en términos de P)
> E_forma_reducida <- (Q1 + Q2 * (a1 + a3 * data$P)) / (1 - Q2 * a2)
> # Mostrar los resultados
> print(E_forma_reducida)
[1] 22.68986 21.31014 21.31014 22.68986 22.00000
> # Calcular los valores de E usando la forma reducida (en términos de P)
> E_forma_reducida <- (Q1 + Q2 * (a1 + a3 * data$P)) / (1 - Q2 * a2)
> # Mostrar los resultados
> print(E_forma_reducida)
[1] 22.68986 21.31014 21.31014 22.68986 22.00000
> # Calcular los valores de S en términos de P usando E calculado previamente
> S_forma_reducida <- a1 + a2 * E_forma_reducida + a3 * data$P
> # Mostrar los resultados
> print(S_forma_reducida)
[1] 23.50531 26.49469 26.49469 23.50531 25.00000
>
b) Estimar cada ecuación del modelo razonando el uso del método
seleccionado.
Ecuación de salarios:
Si = a1 + a2Ei + a3Pi + U𝑖
Ecuación de empleo:
Ei = Q1 + Q2Si + u2i
Empleo
Call:
ivreg(formula = E ~ S | P, data = data)
Residuals:
1 2 3 4 5
4.667 -10.333 19.667 4.667 -18.667
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 55.333 57.783 0.958 0.409
S -1.333 2.291 -0.582 0.601
Residual standard error: 17.18 on 3 degrees of freedom
Multiple R-Squared: -0.6709, Adjusted R-squared: -1.228
Wald test: 0.3388 on 1 and 3 DF, p-value: 0.6014
La estimación mediante MC2E para la ecuación de empleo muestra un
coeficiente de SSS de -1.333, lo que sugiere que un aumento en el nivel
salarial está asociado con una reducción en el empleo, aunque este coeficiente
no es estadísticamente significativo (p-valor = 0.601). El estadístico Wald
también indica que el modelo en su conjunto no es significativo (p-valor =
0.6014). Además, el R-cuadrado ajustado negativo (-1.228) sugiere que el
modelo no explica bien la variabilidad del empleo, lo que indica un mal ajuste.
Salario
Call:
ivreg(formula = S ~ E + P | P, data = data)
Residuals:
1 2 3 4 5
3.50 -7.75 14.75 3.50 -14.00
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 41.500 28.928 1.435 0.247
E -0.750 1.289 -0.582 0.601
Residual standard error: 12.89 on 3 degrees of freedom
Multiple R-Squared: 0.2337, Adjusted R-squared: -0.02179
Wald test: 0.3388 on 1 and 3 DF, p-value: 0.6014
La estimación de la ecuación de salarios mediante MC2E muestra que el
coeficiente de EEE (empleo) es -0.750, lo que sugiere que un aumento en el
empleo está asociado con una leve reducción en el salario, aunque este
coeficiente no es estadísticamente significativo (p-valor = 0.601). El
estadístico Wald también muestra que el modelo no es significativo en su
conjunto (p-valor = 0.6014). El R-cuadrado ajustado negativo (-0.02179)
indica que el modelo no explica bien la variabilidad en los salarios, lo que refleja
un mal ajuste.
Ejercicio 5.
Use la base de datos [Link]
para este ejercicio. Un modelo para estimar los efectos del tabaquismo en el
ingreso anual es:
𝐥𝐨𝐠 (𝐢𝐧𝐜𝐨𝐦𝐞) = 𝗤𝟎 + 𝗤𝟏 𝐜𝐢𝐠𝐬 + 𝗤𝟐 𝐞𝐝𝐮𝐜 + 𝗤𝟑 𝐚𝐠𝐞 + 𝗤𝟒 𝐚𝐠𝐞𝟐 + 𝐮𝟏 (𝟏𝟎)
donde:
Cigs, es el número de cigarros que se consumen al día en promedio
Educ, son los años de educación
Age, son los años de edad de la persona Se pide:
A) Como piensa que se interpretaría 𝛽1 en la ecuación (10).
a- Call:
b- lm(formula = log(income) ~ cigs + educ + age + I(age^2), d
ata = smoke)
c-
d- Residuals:
e- Min 1Q Median 3Q Max
f- -3.6237 -0.2978 0.1314 0.4167 1.3542
g-
h- Coefficients:
i- Estimate Std. Error t value Pr(>|t|)
j- (Intercept) 7.795e+00 1.704e-01 45.741 < 2e-16 ***
k- cigs 1.731e-03 1.714e-03 1.010 0.313
l- educ 6.036e-02 7.898e-03 7.642 6.10e-14 ***
m- age 5.769e-02 7.644e-03 7.548 1.21e-13 ***
n- I(age^2) -6.306e-04 8.338e-05 -7.563 1.08e-13 ***
o- ---
p- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘
’ 1
q-
r- Residual standard error: 0.6529 on 802 degrees of freedom
s- Multiple R-squared: 0.165, Adjusted R-squared: 0.1608
t- F-statistic: 39.61 on 4 and 802 DF, p-value: < 2.2e-16
Según la data analizada, es coeficiente de β1, mismo que en los parámetros del
modelos podemos interpretar que corresponde a la variable el cigs, misma que
en los datos obtenidos esta tiene un valor de1.731e-, indicando que, en
promedio, cada cigarrillo adicional consumido por día está asociado con un
incremento de aproximadamente 0.1731% en el ingreso anual (income),
manteniendo constantes los años de educación ( educ) y la edad ( age).
No obstante, el valor este coeficiente es 0.313, lo que significa que no es
estadísticamente significativo a niveles comunes (como el 5%). Esto implica
que no hay suficiente evidencia para afirmar que el consumo de cigarrillos tiene
un efecto real en el ingreso anual en esta muestra. En otras palabras, aunque
el coeficiente sugiere una relación positiva, esto no es concluyente ni
significativa.
b) Para reflejar el heho de que el consumo de cigarros podría estar
determinado conjuntamente por el ingreso, una ecuación de la
demanda de cigarros es:
𝑐𝑖𝑔𝑠 = 𝛾0 + 𝛾1 𝑙𝑜𝑔 (𝑖𝑛𝑐𝑜𝑚𝑒) + 𝛾2𝑒𝑑𝑢𝑐 + 𝛾3 𝑎𝑔𝑒 + 𝛾4 𝑎𝑔𝑒2
+ 𝛾5 𝑙𝑜𝑔 (𝑐𝑖𝑔𝑝𝑟𝑖𝑐) + 𝛾6 𝑟𝑒𝑠𝑡𝑎𝑢𝑟𝑛 + 𝑢1
Call:
lm(formula = cigs ~ log(income) + educ + age + I(age^2) + log(ci
gpric) +
restaurn, data = smoke)
Residuals:
Min 1Q Median 3Q Max
-15.819 -9.381 -5.975 7.922 70.221
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.639826 24.078659 -0.151 0.87988
log(income) 0.880268 0.727783 1.210 0.22682
educ -0.501498 0.167077 -3.002 0.00277 **
age 0.770694 0.160122 4.813 1.78e-06 ***
I(age^2) -0.009023 0.001743 -5.176 2.86e-07 ***
log(cigpric) -0.750862 5.773342 -0.130 0.89655
restaurn -2.825085 1.111794 -2.541 0.01124 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 13.4 on 800 degrees of freedom
Multiple R-squared: 0.05274, Adjusted R-squared: 0.04563
F-statistic: 7.423 on 6 and 800 DF, p-value: 9.499e-08
En primer lugar, vamos a considerar las variable y los coeficiente de cigpric, que
representa el precio de los cigarrillos, mismo que en el modelo corrido nos arrojó
resultados negativos (-0.750862), lo que indica que, teóricamente, un aumento
en el precio estaría asociado con una disminución en el consumo de cigarrillos.
Sin embargo, el valor de cigpric (0.89655) muestra que este coeficiente no es
estadísticamente significativo. Esto sugiere que, en este modelo, el precio de los
cigarrillos no tiene un impacto estadísticamente comprobable sobre la cantidad
de cigarrillos consumidos.
Por otro lado, el coeficiente de restaurn, que representa la presencia de
restricciones para fumar en restaurantes, también es negativo (-2.825085) y
estadísticamente significativo 0,01124. Esto implica que las restricciones en
lugares públicos como restaurantes están asociadas con una reducción en el
consumo de cigarrillos. Este hallazgo es consistente con la teoría, que sugiere
que las regulaciones en espacios públicos pueden desincentivar el consumo de
tabaco al limitar su conveniencia y accesibilidad.
Ahora para ver la prueba de multicolinealidad en el modelo vamos a ejecutar el
VIF, viendo el impacto y las relaciones de las variables.
vif(modelo_regresionLTB)
log(income) educ age I(age^2) log(cigpric)
1.206779 1.170271 33.343393 33.898539 1.027975
restaurn
1.031363
log(ingreso) , educ , log(cigpric) y restaurn :
Estos valores de VIF están entre 1 y 1.2, lo cual es bajo y generalmente
aceptable. Esto indica que estas variables no presentan problemas de
multicolinealidad significativa y, por lo tanto, no están altamente correlacionadas
con las otras variables en el modelo. Un VIF cercano a 1 sugiere independencia.
edad y yo(edad^2) :
Los valores de VIF para age (33.34) y I(age^2)(33.90) son altos, indicando un
fuerte problema de multicolinealidad. Esto es esperado, ya que I(age^2)es una
función cuadrática de age, lo que crea una dependencia matemática entre ambas
variables.
c) Estime la ecuación del ingreso (10) mediante MCO y analice la estimación
𝛽1.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.795e+00 1.704e-01 45.741 < 2e-16 ***
cigs 1.731e-03 1.714e-03 1.010 0.313
educ 6.036e-02 7.898e-03 7.642 6.10e-14 ***
age 5.769e-02 7.644e-03 7.548 1.21e-13 ***
I(age^2) -6.306e-04 8.338e-05 -7.563 1.08e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6529 on 802 degrees of freedom
Multiple R-squared: 0.165, Adjusted R-squared: 0.1608
F-statistic: 39.61 on 4 and 802 DF, p-value: < 2.2e-16
la estimación del coeficiente asociado a cigs nos indica que su valor es 1.731 lo
que sugiere un incremento del 0.1731% en el ingreso anual por cada cigarrillo
adicional consumido diariamente, manteniendo constantes otras variables como
educación y edad. Sin embargo, el p-value es 0.313 muestra que este coeficiente
no es estadísticamente significativo, ya que supera el nivel de significancia común
de 0.05. Esto significa que no hay suficiente evidencia estadística para afirmar
que el consumo de cigarrillos tiene un efecto real sobre el ingreso en esta
muestra, además, R ajustado del modelo es 0.1608, indicando que solo el
16.08% de la variabilidad en el ingreso es explicado por las variables incluidas.
Esto sugiere que factores adicionales, no considerados en este modelo, podrían
influir significativamente en el ingreso anual.
Prueba de multicolinealidad
> vif(modolo_regresionLTC)
cigs educ age I(age^2)
1.045568 1.102496 32.029853 32.701677
La prueba de multicolinealidad muestra VIF elevados para agey I(age^2), lo cual
indica una alta clasificación entre estas variables debido a la relación cuadrática.
Los VIF de cigsy educson bajos, sugiriendo ausencia de multicolinealidad
significativa entre estas variables.
d) Estime la ecuación de la demanda del cigarro (11) mediante MCO.
¿Log(cigpric) y restaurn son significativas
𝐜𝐢𝐠𝐬 = 𝛄𝟎 + 𝛄𝟏 𝐥𝐨𝐠 (𝐢𝐧𝐜𝐨𝐦𝐞) + 𝛄𝟐𝐞𝐝𝐮𝐜 + 𝛄𝟑 𝐚𝐠𝐞 + 𝛄𝟒 𝐚𝐠𝐞𝟐
+ 𝛄𝟓 𝐥𝐨𝐠 (𝐜𝐢𝐠𝐩𝐫𝐢𝐜) + 𝛄𝟔 𝐫𝐞𝐬𝐭𝐚𝐮𝐫𝐧 + 𝐮𝟏
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.639826 24.078659 -0.151 0.87988
log(income) 0.880268 0.727783 1.210 0.22682
educ -0.501498 0.167077 -3.002 0.00277 **
age 0.770694 0.160122 4.813 1.78e-06 ***
I(age^2) -0.009023 0.001743 -5.176 2.86e-07 ***
log(cigpric) -0.750862 5.773342 -0.130 0.89655
restaurn -2.825085 1.111794 -2.541 0.01124 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 13.4 on 800 degrees of freedom
Multiple R-squared: 0.05274, Adjusted R-squared: 0.04563
F-statistic: 7.423 on 6 and 800 DF, p-value: 9.499e-08
La estimación de la ecuación de la demanda de cigarrillos muestra que el
coeficiente de log(cigpric)es -0.750862, pero su p-value es 0.89655, lo cual indica
que no es estadísticamente significativo, indicando que no hay suficiente
evidencia para afirmar que el precio de los cigarrillos afecta la cantidad
consumida en esta muestra.
Por otro lado, el coeficiente de restaurnes -2.825085 y tiene un p-value de
0.01124, que es menor a 0.05, indicando significancia estadística. Esto sugiere
que vivir en un estado donde existen restricciones para fumar en restaurantes se
asocia con una reducción significativa en el consumo de cigarrillos.
Ahora en lo que conlleva las otras variables de income presenta un coeficiente
positivo 0.880268 pero no es significativo (pag=0,22682p =
0.22682pag=0,22682), lo cual indica que el ingreso no tiene un efecto claro sobre
el consumo., y en la variable de educ tiene un coeficiente negativo (-0.501498)
y es significativo (pag=0,00277p = 0.00277pag=0,00277), sugiriendo que mayor
educación está asociada con menor consumo.
e) Ahora, estime la ecuación del ingreso mediante MC2E. Analice cómo
se compara la estimación de 𝛽1 con la estimación MCO.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.7808932 0.2298674 33.849 < 2e-16 ***
cigs -0.0421257 0.0262184 -1.607 0.108509
educ 0.0396746 0.0162811 2.437 0.015032 *
age 0.0938182 0.0238534 3.933 9.11e-05 ***
I(age^2) -0.0010508 0.0002743 -3.831 0.000138 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.88 on 802 degrees of freedom
Multiple R-Squared: -0.5169, Adjusted R-squared: -0.5245
Wald test: 22.31 on 4 and 802 DF, p-value: < 2.2e-16
Al estimar la ecuación del ingreso mediante Mínimos Cuadrados en Dos Etapas
(MC2E), el coeficiente de cigs(β1\beta_1β1) cambió de positivo a negativo,
pasando de 0.001731 en Mínimos Cuadrados Ordinarios (MCO) a -0.0421 en
MC2E. Esto sugiere que, después de corregir por endogeneidad, el consumo de
cigarrillos está asociado con una disminución del 4.21% en el ingreso anual por
cada cigarrillo adicional consumido diariamente, aunque este efecto no es
estadísticamente significativo (valorpag=0,1085p = 0,1085pag=0,1085).
La diferencia en los signos deβ1\beta_1β1entre MCO y MC2E indica que la
endogeneidad de cigsestaba posiblemente sesgando el coeficiente en la
estimación de MCO. En MCO, la relación positiva entre el consumo de cigarrillos
y el ingreso podría haberse debido a una clasificación entre cigsy el término de
error. Al utilizar MC2E, que emplea variables instrumentales (como log(cigpric)y
restaurn) para controlar la endogeneidad, el signo cambió a negativo.
Aunqueβ1\beta_1β1sigue sin ser significativo en MC2E, el cambio de signo
destaca cómo la endogeneidad puede influir en la interpretación de las relaciones
en el modelo. Este ajuste sugiere una posible asociación negativa entre el
consumo de cigarrillos y el ingreso, aunque no es concluyente.