Introducción a la Econometría y Regresión
Temas abordados
Introducción a la Econometría y Regresión
Temas abordados
Hay varios aspectos del enfoque cuantitativo de la economía que podrían considerarse,
pero, ninguno de ellos tomado por sí solo, debe confundirse con la econometría. Por
tanto, la econometría no es en modo alguno lo mismo que las estadísticas económicas.
Tampoco es idéntica a lo que llamamos teoría económica general, aunque una parte
considerable de esta teoría tiene un carácter definitivamente cuantitativo. La
econometría tampoco debería considerarse sinónimo de la aplicación de las
matemáticas a la economía. La experiencia ha demostrado que cada uno de estos tres
puntos de vista, el de la estadística, la teoría económica y las matemáticas, es una
condición necesaria, pero no suficiente para definir econometría, para una
comprensión real de las relaciones cuantitativas en la vida económica moderna, la
unión de los tres eso es lo poderoso; y es esta unificación la que constituye la
econometría (Frisch, 1933, págs. 1-2).
¿Qué es la econometría?
El enfoque cuasi estructural (Hansen, 2022): Los modelos económicos tienen que ser una
abstracción útil o buena aproximación de la realidad. Esta teoría desarrolla los conceptos de
valores seudo reales, funciones de cuasi verosimilitud, estimación de cuasi máxima verosimilitud
e inferencia de cuasi verosimilitud.
El enfoque de calibración (Hansen, 2022): Interpreta los modelos estructurales como una
aproximación de la realidad; por lo tanto, selecciona los parámetros para emparejarse con el
modelo y la información económica utilizando métodos no estadísticos adjuntos.
• Datos de sección cruzada: la información sobre la variable de interés
hace referencia a unidades individuales medidas en un momento en el
tiempo.
• El orden de las unidades no es relevante.
• Las unidades pueden ser personas, empresas, países, activos de
una empresa, activos de una cartera de inversión, etc.
Clasificación • Series temporales: la información de la variable de interés está
ordenada temporalmente.
de los datos • Frecuencia de los datos: anual, semestral, trimestral, mensual,
diaria, cada hora, cada minuto, etc.
económicos • Ejemplos: El PIB, las tasas de interés, las ventas empresariales,
los precios de los activos financieros, etc.
• Datos de panel: la información sobre las unidades individuales se ha
medido a lo largo del tiempo (dos o más veces)
• Combinan la dimensión temporal con el corte transversal.
• Ejemplo: departamentos del Perú entre 1992 y 2020, rentabilidad
de los activos de una cartera en los últimos 10 años, etc.
• Tipología: Sección cruzada de panel y datos longitudinales o
de panel.
• Datos conglomerados: Este tipo de base de datos se ha popularizado
en econometría aplicada y tienen relación con los datos de panel.
• La información está agrupada en conglomerados que son
tratados como mutuamente independientes, aunque exista
dependencia dentro del conglomerado.
• El muestreo por conglomerados no modela de manera explícita
Clasificación los errores de la estructura de componentes, la dependencia entre
conglomerados, más bien se preocupa por que la inferencia sea
de los datos robusta para diferentes formas de correlación al interior del
conglomerado.
económicos • Datos espaciales: es otra manera de modelar la interdependencia,
también relacionada con datos de panel. Las observaciones se
consideran como mutuamente dependientes de acuerdo a una medida
espacial, por ejemplo, proximidad geográfica.
• A diferencia que los conglomerados, los modelos espaciales sí
permiten la interdependencia entre observaciones y se basan en el
modelamiento de dichas relaciones de dependencia.
• La interdependencia espacial puede ser vista como una
generalización de la dependencia de series de tiempo.
Tabla 1.1
Ejemplo de datos de sección transversal sobre salarios y otras características individuales de trabajadores
• Información cuantitativa: conocido como escalar. Los datos establecen un valor numérico para cada
unidad y/o periodo de tiempo.
• Ejemplo: el precio de los activos en euros, las ventas de las empresas en soles, etc.
• Información cualitativa: los datos informan sobre una cualidad o una elección.
• Datos nominales: Hacen referencia a cualidades o atributos donde el orden es irrelevante (hombre-
mujer, sí-no, auto-bus-combi)
• Datos ordinales: Hace referencia a cualidades o atributos donde el orden es relevante (malo-
regular-bueno, ligero-mediano-pesado, etc)
• En ocasiones la información cualitativa se convierte en números (1 = malo, 2 = regular, 3 = bueno)
• Datos binarios: conocidos también como variables instrumentales o dummy (0 = No, 1 = Sí)
Transformación de datos
• En el curso asumiremos que los datos de interés (variable Y) están directamente disponibles.
• En la práctica, el profesional obtiene los datos en bruto de una fuente de información y los transforma para realizar
el análisis empírico.
• Frecuentemente se tiene que calcular ratios
20,00
40,00
60,00
80,00
Ene-97
Jun-97
Nov-97
Abr-98
Set-98
Feb-99
Jul-99
Dic-99
Ago-01
Ene-02
Jun-02
Nov-02
Abr-03
Set-03
Feb-04
Jul-04
Dic-04
May-05
Oct-05
Mar-06
Ago-06
Ene-07
Jun-07
Nov-07
Abr-08
Set-08
Feb-09
Jul-09
Dic-09
May-10
Oct-10
Annualised Social Risk in Basic Points
Mar-11
Ago-11
Ene-12
Jun-12
Nov-12
Abr-13
Set-13
Feb-14
Jul-14
Dic-14
May-15
Gráficos de series temporales
Oct-15
Mar-16
Ago-16
Ene-17
Jun-17
Nov-17
Abr-18
Set-18
La forma más simple de representar la evolución de una serie temporal es un gráfico de líneas, donde los datos se
Feb-19
Jul-19
Dic-19
Histograma de la calificación del nivel de confianza del
empresariado cajamarquino en el gobierno nacional
30,0%
μ
Histogramas 25,0%
20,0%
• Una correlación debida a una causalidad directa siempre puede usarse para predecir.
• El sentido común, los razonamientos y la teoría económica nos debe ayudar a establecer si una
correlación puede interpretarse como una relación de causalidad.
Caricaturizando la correlación y la causalidad
El concepto de ceteris paribus
• El concepto de ceteris paribus, para la econometría, implica que otros factores relevantes
permanecen igual. Por lo tanto, mantener los otros factores constantes es crítico para el
análisis econométrico (Wooldridge, 2020).
• Ejemplos:
• Al analizar la demanda del consumidor por un bien, interesa conocer el efecto de los
cambios en el precio dicho bien en la cantidad demanda, consecuentemente, debemos
mantener como constante los otros factores como los ingresos, el precio de los bienes
relacionados y los gustos y preferencias.
• Al analizar el entrenamiento laboral en una empresa, interesa conocer el efecto de una
semana adicional de entrenamiento en los salarios de los trabajadores; y mantener otros
factores constantes como los años de educación o de experiencia.
• En la práctica, el arte de la econometría implica considerar la cantidad suficiente de otros
factores que se mantienen constantes para demostrar relaciones de causalidad.
Replicabilidad
• La investigación económica necesita estar documentada y ser replicable.
• Para la investigación se requiere utilizar datos observacionales, para ello es conveniente aplicar
métodos de documentación y archivo de dato, detallar las manipulaciones realizadas y la codificación.
• Las buenas prácticas involucran que la publicación de artículos científicos implica que los autores
tengan que acompañar un paquete completo para replicabilidad:
• Un conjunto de archivos con los datos.
• Documentación de los procedimientos.
• Un programa con los códigos o archivo de codificación, llamado sintaxis.
• Este paquete debe contener:
• La fuente de los datos o la información en bruto para analizar.
• Los códigos para realizar el análisis empírico.
• Otros procedimientos matemáticos utilizados en el artículo.
• Estos paquetes se suelen colocar en la página web del autor o en la página web de la revista.
Organización
de Información
para Base de
Datos
Preliminares para la
práctica
Definición de base de
datos
• Programa capaz de almacenar gran cantidad de datos,
relacionados y estructurados, que pueden ser consultados
rápidamente de acuerdo con las características selectivas
que se deseen.
• Conjunto de datos pertenecientes a un mismo contexto y
almacenados sistemáticamente para su posterior uso. En
este sentido; una biblioteca puede considerarse una base de
datos compuesta en su mayoría por documentos y textos
impresos en papel e indexados para su consulta.
• Sistema de almacenamiento de datos y que los conecta en
una unidad lógica junto a los metadatos necesarios para su
procesamiento.
• Las bases de datos son instrumentos de gran utilidad para
gestionar grandes ficheros y facilitar la consulta de
información.
• Llamados también datos de corte transversal de una población de
estudio.
• Tipo de datos recopilados mediante la observación de muchos
sujetos (como individuos, empresas, países o regiones) al mismo
tiempo, o sin tener en cuenta las diferencias en el tiempo.
Transversales • Ejemplo:
• Los niveles actuales de obesidad en una población, se podría
o de Sección tomar al azar una muestra de 1,000 personas de esa población
(también conocida como una sección transversal de esa
población)
Cruzada • Se mide su peso y estatura, y se calcula qué porcentaje de esa
muestra está clasificado como obeso.
• Esta muestra transversal nos proporciona una instantánea de
esa población, en ese momento. Nótese que se desconoce, al
basarse en una muestra transversal, si la obesidad está
aumentando o disminuyendo; solo puede describirse la
proporción actual.
CODOB VAR1 VAR2 VAR3 …
Organización 1 X1,1 X2,1 X3,1
de Datos 2 X1,2 X2,2 X3,2
Transversales 3 X1,3 X2,3 X3,3
4 X1,4 X2,4 X3,4
5 X1,5 X2,5 X3,5
6 X1,6 X2,6 X3,6
7 X1,7 X2,7 X3,7
8 X1,8 X2,8 X3,8
9 X1,9 X2,9 X3,9
• Secuencia de datos u observaciones, medidos en determinados
momentos y ordenados cronológicamente. Visualmente, es una
curva que evoluciona en el tiempo.
• Conjunto de observaciones sobre los valores que toma una
variable (cuantitativa) a través del tiempo.
• Datos estadísticos que se recopilan, observan o registran en
Series de intervalos de tiempo regulares (diario, semanal, semestral,
anual, entre otros).
tiempo • El término serie de tiempo se aplica por ejemplo a datos
registrados en forma periódica.
• Por ejemplo:
• Las ventas anuales totales de almacenes.
• El valor trimestral total de contratos de construcción
otorgados.
• El valor trimestral del PIB.
PERIOD VAR1 VAR2 VAR3 …
Organización 2011 X1,11 X2,11 X3,11
de Series de 2012 X1,12 X2,12 X3,12
Tiempo 2013 X1,13 X2,13 X3,13
2014 X1,14 X2,14 X3,14
2015 X1,15 X2,15 X3,15
2016 X1,16 X2,16 X3,16
2017 X1,17 X2,17 X3,17
2018 X1,18 X2,18 X3,18
2019 X1,19 X2,19 X3,19
• Llamados también datos de panel.
• Tipo de datos recopilados mediante la observación de muchos
sujetos (como individuos, empresas, países o regiones) en dos
momentos de tiempo, o en diferentes momentos del tiempo.
• Las personas o sujetos se miden de manera repetida durante un
período de años, en ocasiones durante décadas o incluso siglos,
en investigaciones científicas que requieren el manejo de datos
Datos estadísticos acerca de varias generaciones consecutivas de
progenitores y descendientes.
Longitudinales • Ejemplo:
• Los niveles actuales de obesidad en una población, se
• Donde:
• ln 𝑣: Es el cambio porcentual en la utilidad del agente económico.
• ln 𝑥𝑖 ∀ 𝑖 ∈ {1,2}: El cambio porcentual en la cantidad consumida del 𝑖-ésimo
bien disponible de una canasta compuesta por 2 bienes.
• ln 𝑀: El cambio porcentual en el ingreso monetario del agente económico.
• ln 𝑝𝑖 ∀ 𝑖 ∈ {1,2}: El cambio porcentual en el recio del 𝑖-ésimo bien.
• 𝑢: El cambio porcentual en otros factores no contemplados que afectan la
utilidad del agente económico.
Especificación econométrica para el modelo de criminalidad de
Becker (1992)
𝑐𝑟𝑖𝑚𝑒
= 𝛽0 + 𝛽1 𝑤𝑎𝑔𝑒 + 𝛽2 𝑜𝑡ℎ𝑖𝑛𝑐 + 𝛽3 𝑓𝑟𝑒𝑞𝑎𝑟𝑟 + 𝛽4 𝑓𝑟𝑒𝑞𝑐𝑜𝑛 (2.5)
+ 𝛽5 𝑎𝑣𝑔𝑠𝑒𝑛 + 𝛽6 𝑎𝑔𝑒 + 𝑢
• Donde:
• 𝑐𝑟𝑖𝑚𝑒: Tasa de criminalidad en un ámbito geográfico.
• 𝑤𝑎𝑔𝑒: Ingreso que puede obtenerse por emplearse en actividades legales.
• 𝑜𝑡ℎ𝑖𝑛𝑐: Ingreso de otras actividades diferentes a la criminalidad y el empleo
legal.
• 𝑓𝑟𝑒𝑞𝑎𝑟𝑟: Frecuencia de arrestos en un ámbito geográfico.
• 𝑓𝑟𝑒𝑞𝑐𝑜𝑛: Frecuencia de condenas por actividades criminales.
• 𝑎𝑣𝑔𝑠𝑒𝑛: Años de sentencia promedio de las actividades criminales.
• 𝑎𝑔𝑒: Edad promedio de los agentes criminales.
• 𝑢: Influencia de otros factores que afectan a la tasa de criminalidad.
Especificación econométrica para el modelo de
productividad laboral de Mincer (1974)
𝑤𝑎𝑔𝑒 = 𝛽0 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝛽2 𝑒𝑥𝑝𝑒𝑟 + 𝛽3 𝑡𝑟𝑎𝑖𝑛 + 𝑢 (2.6)
• Donde:
• 𝑤: Salario por hora del agente económico.
• 𝑒𝑑𝑢𝑐: Años de educación formal del agente económico.
• 𝑒𝑥𝑝𝑒𝑟: Años de experiencia en la actividad del agente económico.
• 𝑡𝑟𝑎𝑖𝑛: Horas de entrenamiento recibidas por el agente económico.
• 𝑢: Influencia de otros factores que afectan la productividad del agente
económico.
Elementos de una especificación econométrica
ln 𝑣 = 𝛼1 ln 𝑥1 + 𝛼2 ln 𝑥2 + 𝛼3 ln 𝑀 − 𝛼4 ln 𝑝1 − 𝛼5 ln 𝑝2 + 𝑢 (2.4)
𝑐𝑟𝑖𝑚𝑒
= 𝛽0 + 𝛽1 𝑤𝑎𝑔𝑒 + 𝛽2 𝑜𝑡ℎ𝑖𝑛𝑐 + 𝛽3 𝑓𝑟𝑒𝑞𝑎𝑟𝑟 + 𝛽4 𝑓𝑟𝑒𝑞𝑐𝑜𝑛 + 𝛽5 𝑎𝑣𝑔𝑠𝑒𝑛 + 𝛽6 𝑎𝑔𝑒 (2.5)
+𝑢
𝑤𝑎𝑔𝑒 = 𝛽0 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝛽2 𝑒𝑥𝑝𝑒𝑟 + 𝛽3 𝑡𝑟𝑎𝑖𝑛 + 𝑢 (2.6)
50,0
45,0
Tasa de Pobreza Monetaria
40,0
35,0
30,0
25,0
3 000,00 4 000,00 5 000,00 6 000,00 7 000,00 8 000,00 9 000,00 10 000,00 11 000,00
PIB por habitante
Fuente: Comisión Económica para América Latina (2023)
Perú: Diagrama de la tasa de variación del PIB y la tasa de variación
de la venta de energía eléctrica
14
Tasa de variación de la venta de energía
12
10
8
eléctrica
0
-2 0 2 4 6 8 10 12 14
-2
Tasa de variación del PIB
Fuente: Banco Central de Reserva del Perú (2023)
El modelo estadístico general: Determinación de los errores estadísticos
𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖
El modelo estadístico general: Distribución de los errores estadísticos
El modelo estadístico general: Distribución de probabilidad de la
variable 𝑋𝑖
Supuestos del modelo de regresión lineal simple
𝑦ത
𝑋𝑖
• La forma de obtener una estimación de los parámetros del modelo es por medio del
método de mínimos cuadrados ordinarios (MCO o OLS por sus siglas en el inglés)
• Cada desviación de la recta (error) se calcula como una distancia elevando al cuadrado
cada término de error y se busca matemáticamente minimizarla.
• De la expresión (3.3) se despeja el término de error de manera tal que:
𝑢𝑖 = 𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 (3.8)
• La distancia está definida como el término de error al cuadrado y la distancia total como
la suma de los errores al cuadrado, SEC, consecuentemente (3.7) en términos de la
distancia total se escribe:
𝑛 𝑛
𝑆(
ถ ො = (𝑌𝑖 − 𝛽መ0 − 𝛽መ1 𝑋𝑖 )2
𝑢) (3.10)
ෝ
min 𝑢 𝑖=1
• La expresión (3.10) se resuelve como un problema de optimización, donde para encontrar
las condiciones de optimización, se forma un sistema de dos ecuaciones con derivadas
parciales respecto a los estimadores. Este sistema tiene dos incógnitas:
𝑛
𝜕𝑆(𝑢)
ො
= 2 (𝑌𝑖 −𝛽መ0 − 𝛽መ1 𝑋𝑖 ) −1 = 0
𝜕𝛽መ0
𝑖=1
𝑛
𝜕𝑆(𝑢)
ො (3.11)
= 2 (𝑌𝑖 −𝛽መ0 − 𝛽መ1 𝑋𝑖 ) −𝑋𝑖 = 0
𝜕𝛽መ1
𝑖=1
− 𝑌𝑖 𝑋𝑖 + 𝑌ത 𝑋𝑖 + 𝛽መ1 𝑋𝑖2 − 𝑋ത 𝑋𝑖 = 0
𝑖=1 𝑖=1 𝑖=1 𝑖=1
• Despejando 𝛽መ1 de la expresión anterior se obtiene lo siguiente:
Variable Variable
Especificación Interpretación
Dependiente Independiente
Nivel-Nivel 𝑌 𝑋 ∆𝑌 = 𝛽1 ∆𝑋
Nivel-Log 𝑌 ln 𝑋 ∆𝑌 = (𝛽1 /100)∆%𝑋
Log-Nivel ln 𝑌 𝑋 ∆%𝑌 = 100𝛽1 ∆𝑋
Log-Log ln 𝑌 ln 𝑋 ∆%𝑌 = 𝛽1 ∆%𝑋
Fuente: Wooldridge (2020, pág. 39)
Verificación del modelo de
regresión simple (SLM): Bondad
de ajuste, prueba de hipótesis e
intervalos de confianza
Capítulo 4
Ve r i f i c a c i ó n d e l o s S u p u e s t o s d e l M R L S
Verificación ex ante
• Métodos gráficos: Histogramas de distribución (i.i.d),
diagramas de dispersión (valores externos).
• Métodos estadísticos: Estadísticos descriptivos comunes.
• Pruebas estadísticas: Jarque-Bera
Pruebas ex post
• Métodos gráficos: Histograma de distribución y diagramas de
dispersión de los residuos.
• Métodos estadísticos: Estadísticas descriptivas de los residuos.
• Pruebas estadísticas: Significancia conjunta e individual,
homocedasticidad, heterocedasticidad, autocorrelación,
multicolinealidad, bondad de ajuste.
Supuestos del MRLS
Verificación Ex ante | Histogramas
Frequency
Frequency
16
20 40
12
8 10 20
4
0 0 0
0 2 4 6 8 10 12 14 16 18 20 20 22 24 26 28 30 32 34 36 2 4 6 8 10 12 14 16 18 20
Supuestos del MRLS
Verificación Ex ante | Diagramas de Dispersión
36 20
28 12
Age
24 8
20 4
16 0
0 4 8 12 16 20 0 4 8 12 16 20
Final Final
Supuestos del MRLS
Verificación Ex ante | Estadísticos Descriptivos Comunes
Supuestos del MRLS
Verificación Ex ante | Prueba de igualdad de medias por Sexo
Supuestos del MRLS
Verificación Ex ante | Prueba de medias por retiro del curso
Supuestos del MRLS
Verificación Ex ante | Prueba de medias por inhabilitación del curso
Supuestos del MRLS
Verificación Ex ante | Prueba de medias por participación en aplazado
Supuestos del MRLS
Verificación Ex ante | Análisis de correlación
Estimación del MRLS
Promedio final vs Edad | Promedio final vs Antigüedad en la UNC
Supuesto 1 | Histograma y Prueba Jarque-Bera
Promedio final vs Edad | Promedio final vs Antigüedad en la UNC
14
Seri es : Res i dua l s
12 Sa mpl e 1 133
Obs erva ti ons 133
10
Mea n 5.34e-17
8 Medi a n 0.747065
Ma xi mum 8.823346
6 Mi ni mum -10.79688
Std. Dev. 3.932035
4 Skewnes s -0.415560
Kurtos i s 2.939245
2
Ja rque-Bera 3.848419
0 Proba bi l i ty 0.145991
-10.0 -7.5 -5.0 -2.5 0.0 2.5 5.0 7.5
24
Series: Residuals
Sample 1 133
20
Observations 133
16 Mean 2.34e-16
Median 0.688470
12 Maximum 9.739692
Minimum -9.941160
8 Std. Dev. 3.768949
Skewness -0.318133
4 Kurtosis 3.308424
Jarque-Bera 2.770610
0 Probability 0.250248
-10.0 -7.5 -5.0 -2.5 0.0 2.5 5.0 7.5 10.0
Supuesto 1 | Gráfico de Residuos
Promedio final vs Edad | Promedio final vs Antigüedad en la UNC
12 12
8 8
4 4
0 0
-4 -4
-8 -8
-12 -12
25 50 75 100 125 25 50 75 100 125
28
Series: FINAL
24 Sample 1 133
Observations 133
20
Mean 8.885888
16 Median 10.00000
Maximum 18.00000
12 Minimum 0.000000
Std. Dev. 4.276605
8 Skewness -0.589806
Kurtosis 2.804618
4
Jarque-Bera 7.922698
0 Probability 0.019037
0 2 4 6 8 10 12 14 16 18
Supuesto 2 | Edad del Estudiante i.i.d.
Histograma | Prueba Empírica de Normalidad
35
Series: AGE
30 Sample 1 133
Observations 133
25
Mean 22.91729
20 Median 23.00000
Maximum 35.00000
15 Minimum 20.00000
Std. Dev. 2.567410
10 Skewness 2.141109
Kurtosis 9.720683
5
Jarque-Bera 351.9234
0 Probability 0.000000
20 22 24 26 28 30 32 34
Supuesto 2 | Antigüedad del Estudiante i.i.d.
Histograma | Prueba Empírica de Normalidad
80
Series: YEARUNC
70 Sample 1 133
Observations 133
60
50 Mean 4.255639
Median 3.000000
40 Maximum 18.00000
Minimum 2.000000
30 Std. Dev. 2.404712
20 Skewness 3.037468
Kurtosis 13.67448
10
Jarque-Bera 835.9572
0 Probability 0.000000
2 4 6 8 10 12 14 16 18
Supuesto 3 | Valores Extremos – Diagramas de Dispersión
Promedio final vs Edad | Promedio final vs Antigüedad en la UNC
36 20
28 12
Age
24 8
20 4
16 0
0 4 8 12 16 20 0 4 8 12 16 20
Final Final
Interpretación
MRLS
Los Resultados de Estimación
Criterios de Selección de
Significancia Conjunta Modelos
Estadístico 𝑭 grande. Coeficiente de determinación
Probabilidad del estadístico 𝐹 Significancia Individual Grado de ajustado 𝐀𝐝𝐣 − 𝑹𝟐 el más
pequeña: de Estimadores Autocorrelación grande.
𝑷𝒓𝒐𝒃 𝑭 < 𝟎, 𝟎𝟓 Para explicar el criterio de
Estadísticos 𝒕 de los Estadístico Durbin-Watson información de Akaike 𝑨𝑰𝑪 el
coeficientes grandes. Bondad de Ajuste aproximadamente en 2: más pequeño.
Probabilidades de los 𝟏, 𝟖𝟓 ≤ 𝑫𝑾 ≤ 𝟐, 𝟏𝟓 Para pronosticar el criterio de
estadísticos 𝑡 pequeñas: Coeficiente de determinación Autocorrelación Positiva:
Schwartz 𝑺𝑪 el más pequeño.
𝑷𝒓𝒐𝒃 𝒕 < 𝟎, 𝟎𝟓 𝑹𝟐 alto. 𝑫𝑾 < 𝟏, 𝟖𝟓
Sospechar de 𝑹𝟐 ≈ 𝟏, 𝟎𝟎 Autocorrelación Negativa:
𝑫𝑾 > 𝟐, 𝟏𝟓
Estimación del MRLS
Promedio final vs Edad | Promedio final vs Antigüedad en la UNC
Modelo de Regresión Lineal
General (MRLG)
Capítulo 5
• Cuando existen variables omitidas • Ejemplo 1: El promedio
se genera un sesgo en los académico de los cursos de
estimadores de MCO. econometría están
El sesgo por • El efecto causal existente entre 𝑋𝑖 e
correlacionados con el sexo del
estudiante y sus elecciones sobre
𝑌𝑖 está sesgado debido a que existe
variables correlación con alguna variable
retirarse o inhabilitarse.
omitida. • Ejemplo 2: En el transporte
omitidas • Esto se produce debido a dos
urbano de Cajamarca el gasto en
transporte además está
condiciones:
correlacionado con la distancia
• 𝑋𝑖 se encuentra correlacionada entre el hogar y el centro de
con una variable omitida. trabajo.
• La variable omitida es un
• Ejemplo 3: La productividad
determinante de 𝑌𝑖 .
empresarial está correlacionada
con el tipo de actividad
productiva que realiza la
empresa.
• Ejemplo 4: El capital humano es
un determinante de la
productividad empresarial.
Una formulación del sesgo por variables omitidas
• Sustituyendo los límites para grandes muestras de (5.2) y (5.3) en (5.1) se obtiene la formulación
que mide el sesgo de las variables omitidas en un MRLS:
𝑝 𝜎𝑢
መ
𝛽1 ՜ 𝛽1 + 𝜌𝑋𝑢 (5.4)
𝜎𝑋
• La expresión (5.4) tiene las siguientes implicancias:
𝜎
• En la medida que el tamaño de la muestra aumenta 𝛽መ1 se aproxima a 𝛽1 + 𝜌𝑋𝑢 𝑢 con una alta
𝜎𝑋
probabilidad.
• El sesgo de variables omitidas es un problema porque sin importar el tamaño de la muestra 𝛽መ1 no
converge al verdadero valor del parámetro 𝛽1 .
𝜎𝑢 𝟏.
• El término 𝜌𝑋𝑢 se conoce como el sesgo de 𝜷
𝜎𝑋
• Cuán grande o pequeño es el sesgo depende del valor que toma |𝜌𝑋𝑢 |
• El signo de 𝜌𝑋𝑢 permite saber el tipo de correlación que podría tener la variable omitida con 𝑋𝑖 .
La línea de regresión poblacional con dos variables
• Suponga que ahora hay dos variables independientes 𝑋1,𝑖 y 𝑋2,𝑖 que están asociadas con la
variable independiente 𝑌𝑖 , de tal manera que la función lineal poblacional es:
𝐸(𝑌𝑖 |𝑋1,𝑖 = 𝑥1 , 𝑋2,𝑖 = 𝑥2 ) = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 (5.5)
• Donde 𝐸(𝑌𝑖 |𝑋1,𝑖 = 𝑥1 , 𝑋2,𝑖 = 𝑥2 ) es la expectativa condicionada de 𝑌𝑖 cuando los regresores
toman los valores (𝑋1,𝑖 = 𝑥1 , 𝑋2,𝑖 = 𝑥2 )
• 𝛽0 es el intercepto.
• 𝛽1 es el coeficiente de pendiente de 𝑋1 o simplemente el coeficiente de 𝑿𝟏 .
• 𝛽2 es el coeficiente de pendiente de 𝑋2 o simplemente el coeficiente de 𝑿𝟐 .
• La expresión (5.5) también se conoce como línea de regresión poblacional.
• (5.5) proporciona una interpretación diferente de 𝛽1 , que se entiende como la diferencia
pronosticada de 𝒀 entre dos observaciones cuando 𝑿𝟏 cambia en una unidad,
manteniendo constante 𝑿𝟐 ; o controlando por 𝑿𝟐 .
• Supongamos que 𝛽1 compara los pronósticos condicionales de dos observaciones que tienen el
mismo valor de 𝑋2 , pero que los valores de 𝑋1 difieren en ∆𝑋1 .
• De (5.5) se infiere que la primera observación está dada por y = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 , mientras
que la segunda observación está dada por:
𝑦 + ∆𝑌 = 𝛽0 + 𝛽1 (𝑥1 + ∆𝑋1 ) + 𝛽2 𝑥2 (5.6)
• Si sustraemos la primera observación de la segunda obtendremos que ∆𝑌 = 𝛽1 ∆𝑋1 , de donde
se deriva:
Δ𝑌
𝛽1 = ; ∀ 𝑥ҧ2 (5.7)
Δ𝑋1
𝑆(
ถ ො = (𝑌𝑖 − 𝛽መ0 − 𝛽መ1 𝑋1,𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘,𝑖 )2
𝑢) (5.14)
ෝ
min 𝑢 𝑖=1
• La expresión (5.14) genera 𝑘 + 1 condiciones de primer orden para la suma del cuadrado de
los residuos sea mínima, de manera tal que, al tomar derivadas parciales se tiene:
𝑛
𝑢ො 𝑖 = 𝑌𝑖 − 𝑌𝑖 ; ∀ 𝑖 ∈ 1, … , 𝑛 (5.18)
• Es conveniente recordar que los estimadores (𝛽መ0 , 𝛽መ1 , … , 𝛽መ𝑘 ) y los residuos 𝑢ො 𝑖 de una muestra
de 𝑛 observaciones para (𝑋1,𝑖 ; … ; 𝑋𝑘,𝑖 ; 𝑌𝑖 ), los cuales son estimadores de unos parámetros
poblacionales (𝛽0 , 𝛽1 , … , 𝛽𝑘 ) y un término de error 𝑢𝑖 desconocidos.
• Otro nombre con el que se conoce a (𝛽መ0 , 𝛽መ1 , … , 𝛽መ𝑘 ) son estimadores del método de
regresión lineal general (MRLG).
Supuestos del método de regresión lineal general (MRLG)
𝑦ത
Donde (β1 , … , βk ) son los efectos causales; siendo (W1 , … , Wr ) las variables de control.
1. 𝑢𝑖 tiene media condicional que no depende de los valores de (X1 , … , Xk ) dado
(W1 , … , Wr ), supuesto conocido como independencia condicional de la media.
𝐸 𝑢𝑖 𝑋1,𝑖 , … , 𝑋𝑘,𝑖 , 𝑊1,𝑖 , … , 𝑊𝑟,𝑖 = 𝐸 𝑢𝑖 𝑊1,𝑖 , … , 𝑊𝑟,𝑖 (5.25)
• En muchas ocasiones la teoría económica sugiere que 𝛽0 debe ser cero, esto involucra que el
intercepto de MCO pasa por el origen.
• Consecuentemente, ahora se tiene una ecuación de la siguiente forma:
𝑦෬ = 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘 𝑥𝑘 (5.26)
• Donde el símbolo " " sobre los estimadores se utilizan para distinguir de los estimadores de
MCO de la expresión (5.17). Lo que se interpreta cuando 𝑥1 = 0, … , 𝑥𝑘 = 0 el valor
pronosticado para 𝑦 es cero, en otras palabras, el origen.
• Es importante comprender que cuando la línea de regresión pasa por el origen, las
propiedades que se derivaron de los estimadores de MCO:
• Los residuos de MCO no tienen valores condicionados medios igual a cero.
• Dado que ahora se tiene σ𝑛𝑖=1(𝑌𝑖 − 𝛽1 𝑋1,𝑖 − ⋯ − 𝛽𝑘 𝑋𝑘,𝑖 )2 entonces 𝑅2 puede ser
negativo, lo cual se ajusta estimando el cuadrado del coeficiente de correlación de los
valores reales con los estimados de 𝒀.
Pruebas Estadísticas para
Verificar los Supuestos del
MRLS
Anexo 1
Prueba de normalidad de Jarque-Bera
𝐿𝑀 = 𝑛𝑅2 (A1.6)
• Paso 4: A1.6 sigue una distribución chi-cuadrado, con grados de libertad iguales a 𝑃 − 1 parámetros
estimados en la regresión auxiliar.
Prueba de empírica de distribución normal
1 1 2
𝑓 𝑥 𝜇, 𝜎 = exp − 2 𝑥𝑖 − 𝜇 (A1.7)
2𝜋𝜎 2𝜎
Pruebas Estadísticas para
Verificar Interpretar los
Resultados del MRLG
Anexo 2
Bondad de Ajustes en el MRLG
Estadísticos de Resumen
Multicollinearity implies that two or more independent variables in a regression model are highly correlated, which can inflate the variance of the coefficient estimates and make them unstable and sensitive to changes in model specification . This complicates the assessment of the impact of independent variables and can lead to misleading conclusions about their significance. It can be addressed by removing some of the correlated variables, using principal component analysis, or ridge regression to regularize the estimates .
Homoscedasticity, the assumption that variance of errors is constant across observations, ensures that OLS estimators remain efficient and the standard errors are correctly estimated, facilitating valid inference . The absence of autocorrelation, meaning that error terms are uncorrelated across different observations, prevents underestimation of standard errors that can inflate type I error rates . Together, these assumptions uphold the reliability of hypothesis tests and confidence intervals in regression analysis .
The assumption of independence and identical distribution (i.i.d.) is crucial in regression analysis because it ensures that observations are statistically uncorrelated and that the statistical properties used to estimate and infer relationships hold consistently across the data set . It is necessary to derive unbiased and efficient estimators in models, as deviations from i.i.d. can lead to biased parameter estimates and unreliable inference .
Transforming data, such as through deflation or indexing, can standardize values over time, allowing for meaningful comparisons and trends analyses by adjusting for inflation or other distortive factors . This can significantly impact econometric findings as it ensures the data accurately reflects underlying economic realities. However, improper transformation can introduce biases or obscure real dynamics, highlighting the importance of method selection aligned with research goals .
Calibration approaches in economic modeling differ from traditional statistical methods in that they do not primarily rely on statistical estimation. Instead, they interpret structural models as approximations of reality and select parameters to align these models with economic data using non-statistical methods . The main objective of calibration is to create models that are well-fitted to actual economic conditions, supporting more realistic simulations and predictions .
The Jarque-Bera test evaluates the normality of residuals in regression models by measuring the skewness and kurtosis of the sample distribution and comparing them to the normal distribution . It uses the test statistic to determine how much the residuals deviate from being normal. The implications of this test are significant as normality of residuals is a key assumption in many regression models; rejecting the null hypothesis implies that the model may not be valid due to non-normality issues, affecting the reliability of statistical inference .
The concept of 'ceteris paribus' is primarily applied in econometric analysis to isolate the effect of one variable on another while keeping other relevant factors constant . It is critical because it helps establish causality by controlling for potential confounding factors, ensuring the results accurately reflect the relationship between the variables of interest . Without holding other variables constant, the analysis could be confounded by external influences, leading to incorrect interpretations of causal relationships.
'Panel Data' provides more comprehensive insights in economic research because it combines cross-sectional and time-series dimensions, allowing for analysis of changes across time and differences across entities simultaneously . This type of data facilitates the study of dynamic behaviors and causal relations that cannot be observed using only cross-sectional or time-series data alone. It enables controlling for unobservable heterogeneity and more variability in measurements, resulting in more accurate and detailed insights .
Robust inference in the presence of clustered data is crucial because it allows for correct inference even when observations within clusters are not independent, addressing potential autocorrelation within groups . Standard errors that account for clustering provide more reliable hypothesis testing and confidence intervals, preventing issues like type I and II errors due to underestimated variability. The main challenge is appropriately specifying and estimating the intra-cluster correlation structure to maintain inference validity .
Spatial data models account for location-based interdependence, which can offer a more realistic representation of economic phenomena where proximity influences behaviors or outcomes, like regional economic performance . They allow for more nuanced understanding of spatial externalities and interactions. However, drawbacks include increased model complexity, computational intensity, and challenges in correctly specifying the spatial dependence structure, which may lead to model misspecification and biased estimates if not properly addressed .