Capítulo 1
El Modelo de Regresión Lineal Clásico con Dos Variables
Estudiar las relaciones entre las variables utilizando datos puede ser una tarea muy
interesante y estimulante. Las teorías económicas nos muestran ciertas relaciones que el
economista aplicado esperaría encontrar en la vida real. No obstante, es frecuente que
tales asociaciones no sean tan claras cuando se presentan datos en forma visual
mediante gráficos de dispersión. La razón para que esto ocurra así es que los modelos
económicos en su gran mayoría presentan relaciones determinísticas que no se cumplen
exactamente con las observaciones de datos reales. A diferencia de la física, la cual
cuenta con “leyes” basadas en fórmulas exactas que deben cumplirse en cualquier
contexto, en economía ni siquiera las llamadas “leyes económicas” se cumplen a la
perfección mostrando siempre relaciones imperfectas y contaminadas por otros
elementos no tomados en cuenta por la teoría.
¿Cómo podemos trabajar con este tipo de relaciones empíricas? Que la relación no sea
exacta no quiere decir que no exista ninguna relación. Existen relaciones estadísticas
que pueden ser estudiadas, y dentro de los márgenes de error admisibles por la
estadística se puede determinar que tan fuertes pueden ser estas asociaciones. En la
Figura 1.1 se muestra dos ejemplos de una relación determinística y una estadística. El
gráfico de la izquierda no presenta perturbaciones mientras que el de la derecha muestra
una relación con perturbaciones que hacen que la relación no se presente como una línea
o curva tal como suelen presentar los modelos económicos. En tal gráfico, cada punto
corresponde a una observación con datos. Es evidente que mientras más datos
tengamos, la relación –si existiera- quedaría configurada con mayor claridad.
1.1 El análisis de regresión
La econometría desde sus inicios se ha apoyado en el análisis de regresión para estos
tipos de estudios. Este análisis consiste en usar técnicas estadísticas para el estudio de
la relación entre una variable Y (llamada variable dependiente) y otra o más variables X
(llamadas variables independientes). El objetivo del análisis de regresión es explicar y
pronosticar el comportamiento de la variable dependiente a través del comportamiento
de la o las variables independientes.
9
Figura 1.1
Relaciones determinísticas y estadísticas
Y Y
X X
Una relación determinística Una relación estadística
El análisis de regresión puede ser una herramienta interesante para analizar relaciones
de causalidad entre las variables económicas y para realizar pronósticos. Si podemos
observar que variaciones de la variable endógena Y son explicados por variaciones en
las variables exógenas X, podríamos suponer que hay ciertos indicios que la asociación
entre X y Y puede ir más allá de una mera asociación estadística, sino que podría estar
representando una relación causal. Al menos podemos pensar que si dos variables están
unidas por una relación de causalidad, al menos debería existir una asociación
estadística entre ellas, aunque lo contrario no necesariamente sería cierto. Es decir,
observar que dos variables están asociadas estadísticamente no necesariamente implica
que exista una relación causal entre ellas.
Por ejemplo, imaginemos que analizamos el efecto de la cantidad de cierto fertilizante
sobre la producción de manzanas en una chacra. Sin necesidad de mirar ningún dato,
podríamos sospechar que existe una relación causal entre las cantidades de estas
variables, en donde esperaríamos que al aumentar la cantidad de fertilizantes esto
debería causar una mayor producción (obviamente sin exceder cierto límite que pueda
ser perjudicial para las plantas). Es obvio que más fertilizantes causan una mayor
producción y no al revés.
Sin embargo, en un análisis de regresión que busque implicaciones causales debe tomar
a la producción de manzanas como la variable dependiente y a la cantidad de
fertilizantes como independiente. Invertir esta relación puede explicar estadísticamente
que mayores cantidades de fertilizantes ocurren cuando se ha observado una mayor
producción. Esto puede ser cierto, de hecho si observo que algunos manzanos presentan
10
mayor producción podría inferir que es muy probable que ellos hayan recibido una
mayor cantidad de fertilizantes. Así hemos logrado explicar a los fertilizantes en
función de la producción de manzanas. No obstante, este último análisis de regresión
“invertido” no tiene ninguna implicación causal, solo podemos decir que ambas
variables están asociadas o correlacionadas. En economía los análisis de regresión que
se lleven a cabo deben tener un trasfondo causal en donde es la teoría económica la que
debe dictar qué variables son las dependientes y qué variables son las explicativas.
En estadística, el análisis de correlación es utilizado para evaluar la fuerza con la que
dos o más variables aleatorias podrían estar asociadas. Los análisis de regresión y
correlación están fuertemente relacionados; sin embargo, conceptualmente son distintos.
En el análisis de correlación, ambas variables son tratadas en forma simétrica, en el
sentido que no se establece ningún tipo de dependencia causal entre ellas. Por el
contrario, en el análisis de regresión se trata de explicar el comportamiento de Y a
través de variaciones en X, con el fin de hacer pronósticos.
1.2 El modelo de regresión lineal clásico con dos variables
El modelo de regresión lineal clásico (MRLC) con dos variables es un ejemplo de
modelo econométrico, en el cual se enfatiza la relación de dependencia entre dos
variables. En este modelo, una de ellas () depende del comportamiento de la otra (X).
Aunque este modelo se construye sobre la base de supuestos muy restrictivos y poco
realistas, es la piedra inicial del análisis econométrico. Se presentará este modelo
econométrico en forma exhaustiva con los siguientes objetivos:
(a) Clarificar el alcance que tienen los supuestos de un modelo econométrico, es
decir cómo estos supuestos pueden afectar las conclusiones e inferencia del
modelo.
(b) Utilizarlo como punto de referencia para modelos más generales que lo superen
tanto en la presentación de supuestos menos restrictivos y por lo tanto de alcance
más general, como en la aplicación de métodos de estimación distintos al
método preferido por el MRLC, que es el de Mínimos Cuadrados Ordinarios.
11
(c) Entrenar al estudiante en el uso de herramientas estadísticas y de análisis
econométrico.
1.2.1 La muestra de observaciones
Antes de presentar los supuestos del modelo, vale la pena comentar algo más sobre las
observaciones que se utilizan en el trabajo econométrico. Se supone que se cuenta con
n observaciones de las variables aleatorias X e Y, es decir, tenemos n pares (Yi , Xi ) ,
donde i = 1, 2, …, n, siendo esta la forma típica de presentar los datos de corte
transversal. Cuando los datos son de series de tiempo, se suele colocar el subíndice t
señalando el correspondiente periodo, (Yt , X t ) , para t 1,, T , mientras que si los
datos son de panel, se requiere indicar a la entidad y el periodo, (Yit , Xit ) .
Presentaremos el modelo en un contexto que sea común para datos de corte transversal
y de series de tiempo, aunque naturalmente surgirán propiedades y características del
modelo que son más aplicables a uno de los dos tipos de datos mencionados.
La manera como se consigue una muestra de datos puede generar problemas
econométricos que más adelante en el libro quedarán aclarados. Por ejemplo, no es lo
mismo que se obtenga una muestra aleatoria simple de estas observaciones sobre un
universo claramente definido en donde cada observación tiene la misma probabilidad de
haber sido escogida, a que se obtengan datos de algún grupo específico que por alguna
razón no represente al universo poblacional bajo estudio. Un ejemplo bastante
esclarecedor sobre los problemas de hacer inferencias sobre muestras que exhiban algún
tipo de condicionamiento o sesgo es aquél de las encuestas por teléfono en los
programas de radio o televisión. En este tipo de muestreo, la información obtenida no se
puede generalizar para toda la población porque está sesgada a las personas que ven o
escuchan esos programas.
En el modelo que vamos a desarrollar, la muestra no tiene estos sesgos en el sentido que
en buena medida representa a la población, y de acuerdo a los supuestos que vamos a
plantear a continuación, esta muestra se comporta de forma muy parecida a una que se
hubiera obtenido de un muestreo aleatorio simple.
Otro aspecto importante de la muestra es cómo entenderla, en términos de la
aleatoriedad de las variables. Como se mencionó, las n observaciones pueden ser un
número igual de realizaciones de las variables aleatorias. Alternativamente se puede dar
12
una mirada distinta a las mismas observaciones diciendo que cada observación X i o Yi
es una variable aleatoria con distribuciones de probabilidad iguales a las de la variable
X e Y (básicamente con la misma media y varianza). En ese caso las observaciones de
X, por ejemplo, serian un conjunto de X1 , X 2 ,, X n variables aleatorias idénticamente
distribuidas, en donde lo observado es una realización de cada una de las variables de
esta secuencia. Aunque por el momento nos basamos en la primera mirada (muestra de
n observaciones de una misma variable), en ocasiones la exposición tiene en mente la
segunda mirada.
1.2.2 Supuestos del modelo clásico
Los supuestos del MRLC son los siguientes:
Supuesto 1: La relación entre X e Y es una relación lineal en parámetros
Yi 1 2 X i u i i 1,, n (1.1)
donde el subíndice i señala la i-ésima observación. Se cuenta con un total de n
observaciones de ambas variables. En este modelo Y toma el nombre de “variable
dependiente” o “endógena” y X es la “variable independiente” o “exógena”. A “X”
también se le conoce como variable “explicativa” o “regresor”.
En la ecuación (1.1), 1 y 2 son dos parámetros poblacionales que deben ser
estimados. 1 es el intercepto el cual multiplica al numero 1 (la constante). 2 es el
“efecto marginal”, “pendiente” o impacto de X sobre Y , Y / X .
Se le llama “regresión” o “función de regresión poblacional (FRP)” a la expresión
FRP: 1 2 X i
la cual resume en una expresión lineal la “verdadera” relación existente entre la variable
X e Y. El término u i también es aditivo y es el “término de perturbación o error”. Esta
variable aleatoria no es observable y muestra todo aquello que queda fuera de la
“verdadera relación”, dejando claro que la relación entre X e Y no es exacta. En sí
mismo, u i captura el efecto de cualquier otra variable sobre Y que no ha sido incluida
en la regresión.
13
Ejemplo 1.1: Considere el efecto que puedan tener los años de educación (X) sobre los
salarios (Y). La teoría indica que deberíamos de esperar una relación positiva entre estas
dos variables. A medida que las personas obtienen más años de educación, el salario de
las personas se irá incrementando. En la Figura 1.2 representamos datos de 791
observaciones de ingresos laborales mensuales y años de estudios de hombres que
trabajan como empleados en Lima Metropolitana, utilizando la Encuesta Nacional de
Hogares 2010. Esta figura es un ejemplo de lo que se puede obtener cuando se analizan
a las variables por separado. Nótese que al menos visualmente se aprecia una leve
asociación positiva entre las variables, aunque es evidente que existen muchos factores
no considerados en esta asociación bivariada que explican la variabilidad notable de los
ingresos laborales, más allá de lo que pueda explicar la variable años de educación.
Figura 1.2
Relación bivariada entre los años de educación y los ingresos laborales
1 2 X i
La línea recta en la Figura 1.2 es la recta de regresión poblacional, la cual según alguna
teoría debería tener a 2 0 indicando que mientras mayores sean los años de
educación, mayor debería ser la remuneración laboral. Esta recta es invisible para el
investigador pues contiene a los parámetros poblacionales 1 y 2 . Cualquier
desviación observada respecto a la recta “teórica” es considerada como una
perturbación. Simplificando lo mostrado en la Figura 1.2, la Figura 1.3 nos muestra que
las perturbaciones se calculan verticalmente, y que para cada observación habrá un
valor realizado de tal perturbación. En la figura, el valor u 1 definido como la diferencia
14
entre el valor observado (el punto) y lo que según la teoría debería ser el ingreso para
una persona con esa educación (la recta) es la perturbación, la cual es positiva. Por otra
parte, el valor u 2 es negativo, mostrando que por alguna razón no explicada el ingreso
es más bajo que lo que teóricamente debería ocurrir para esta persona.
Figura 1.3
La recta de regresión poblacional y el término de perturbación
11
10
Logaritmo del ingreso mensual
8
u1
7 u2
4
6 7 8 9 10 11 12 13 14
Años de educación
Volviendo a la discusión inicial, la propiedad de linealidad del supuesto 1 es una
propiedad de los parámetros 1 y 2 , no de las variables. Por ejemplo, el modelo
Yi 1 2 X i2 u i es un modelo lineal en parámetros aunque es no lineal en la
relación entre X e Y, la cual es cuadrática. No obstante, esta ecuación cumple con el
supuesto 1 mencionado, aunque si quisiéramos graficar esta relación, se mostraría no
como lo que se ve en las Figuras 1.2 y 1.3, sino como un conjunto de puntos que
describen un arco.
Algunos modelos no lineales en parámetros como el modelo Yi e1 Xi 2 eui pueden ser
linealizados tomando logaritmos, quedando en este ejemplo el modelo lineal doble-
logarítmico ln(Yi ) 1 2 ln(Xi ) ui .
Supuesto 2: La esperanza condicional del término de perturbación dados los valores de
X es igual a cero.
15
E[ui | Xi ] 0 i 1,, n
el cual también se puede escribir como E[u | X Xi ] 0 . En términos simples, dados
diferentes valores de X, siempre esperaremos que el valor esperado del término de
perturbación sea cero. Si pensamos en qué significa este supuesto en términos de las
Figuras 1.1 y 1.2, podemos hacer el ejercicio de “fijar” un valor de los años de estudio y
luego estudiar verticalmente cómo se distribuyen todos los términos de perturbación
posibles, alrededor de la recta. Algunos de esos términos serán positivos, otros
negativos, pero el valor esperado de todos esos términos de perturbación condicionados
a que X Xi será igual a cero, lo cual se cumpliría para todos los valores de X i . Como
los términos de perturbación se calculan respecto a la recta de regresión poblacional, es
altamente razonable pensar que las observaciones de una muestra (los “puntos” de las
Figuras 1.1 y 1.2) por lo general se encontrarán “alrededor” de la recta, salpicados
aleatoriamente por encima y por debajo, y a lo largo de la recta poblacional.
Este supuesto equivale a decir que la FRP es igual a E[Y | X Xi ] , también escrito
como E [Yi | Xi ] , la esperanza condicional de la variable endógena dado cada X i . En el
ejemplo que estamos presentando, el sueldo esperado para cada cantidad de años de
educación es igual a lo que la regresión indica que debería ser el salario para esa
cantidad de años de educación. Dada la ecuación del modelo econométrico (1.1),
tomamos el valor esperado condicional tenemos
E[Yi | Xi ] E[1 2 Xi u i | Xi ] 1 2 Xi E[u i | Xi ]
E[Yi | Xi ] 1 2Xi (1.2)
En términos gráficos, el supuesto 2 equivale a decir que la recta de regresión pasa por
las medias condicionales de Y dado X .
Algunas implicaciones que se derivan de este supuesto.
La media incondicional del término de error es cero E[u i ] 0
La demostración es simple. Aplicando la ley de expectativas totales
E[ui ] EX[ E[ui | Xi ]] EX[0] 0
16
E[X i u i ] 0 , es decir X i y u i son “ortogonales” en el sentido estadístico.
La demostración requiere el uso de la ley de expectativas y la linealidad de las
esperanzas condicionales.
E[Xi u i ] Ex [ E[Xi u i | Xi ]] Ex [Xi E[u i | Xi ]] 0
dado que E[u i | X i ] = 0
Cov(Xi , u i ) 0 El regresor no está correlacionado con el término de error.
De la definición de covarianza,
Cov(Xi , u i ) E[Xi u i ] E[Xi ]E[u i ]
donde E[Xi ui ] 0 y E[Xi ]E[ui ] 0
Supuesto 3: Las perturbaciones son “esféricas”. Con este término nos referimos a dos
características de la distribución de u.
Var (u i | Xi ) 2 i 1, , n
Cov(u i , u j | Xi , X j ) 0 i j
La primera ecuación se puede escribir como Var (u | X Xi ) 2 , lo que quiere decir
que la varianza del término de perturbación condicionada a algún valor de X es una
constante 2 para cualquier valor X i . A este supuesto se le suele llamar
“homocedasticidad condicional”. En términos del Ejemplo 1.1, condicionando o fijando
un valor de años de estudio, digamos 10 años, la distribución condicionada de u
muestra una varianza igual a 2 . Esta varianza debería ser igual si condicionamos a
diferentes valores de X, por ejemplo, para personas con 5 ó 10 años de educación.
Nótese que Var (u i | Xi ) es también la varianza de Y dado X i , Var (Yi | Xi ) .
Interpretando con el Ejemplo 1.1, la varianza de las remuneraciones debería ser la
misma si la condicionamos para distintos niveles de educación. En la Figura 1.4 se
muestran este supuesto de Homocedasticidad condicional. Podemos apreciar que la
dispersión de las remuneraciones –la amplitud de las “campanas”– se mantiene
constante a lo largo de la recta, es decir para cada valor de Años de Educación.
17
Figura 1.4
Homocedasticidad
Densidad
Remuneraciones
Y
5
10
15
X
Años de educación
La definición de homocedasticidad condicional puede ser rescrita de la siguiente forma:
Var ( u i | X i ) E[u i2 | Xi ] E[u i | X i ]2 E[u i2 | X i ] 2
pues E[u i | X i ]2 0 .
La otra parte del supuesto que dice que Cov(u i , u j | Xi , X j ) 0 lleva el nombre de “no
autocorrelación” o “no correlación serial”. Simplemente señala que dados dos valores
de X, los correspondientes términos de perturbación no presentan ningún tipo de
covarianza o correlación. Este supuesto indica que cada término de perturbación se
realiza sin que esto influya o sea influido por otros términos de perturbación. Tal como
quedará claro más adelante, en la vida real es muy frecuente que no se cumpla este
supuesto. En los datos de series temporales, las perturbaciones suelen mostrar
comportamientos sistemáticos que genera dependencia entre estas variables. En datos de
corte transversal también puede violarse el supuesto. Por ejemplo, las perturbaciones de
individuos que pertenezcan a una misma región podrían estar relacionadas.
Supuesto 4: la variable aleatoria X se encuentra “fija” en muestras repetidas.
Asumir que los X son fijos quiere decir que en repetidas muestras de X, los valores
obtenidos X1 , X 2 ,, X n van a ser siempre los mismos, es decir, dejan de ser aleatorios.
18
Es decir, si obtenemos muchas muestras de tamaño n de los años de estudio, siempre
obtendríamos los mismos valores.
Este supuesto es poco realista y en realidad no es necesario para poder desarrollar la
econometría del modelo clásico, sin embargo simplifica notablemente los cálculos y la
notación. Dado que el modelo clásico lo asume, así lo haremos en este capítulo, aunque
en capítulos más avanzados podría levantarse el supuesto.
Bajo este supuesto ya no es necesario hablar de esperanzas condicionales. Los supuestos
del modelo clásico se reducen a:
Supuesto 2a: E[u i ] 0
Supuesto 2b: Var (u i ) 2
Cov(u i , u j ) 0
Hay un quinto supuesto que por el momento no vamos a mencionar pues no es
necesario para lo que se desarrolla en las siguientes secciones.
1.3 A manera de conclusión
Con estos supuestos hemos definido al modelo de regresión clásico, que para fines
económicos pretende expresar mediante relaciones estadísticas a las relaciones de
causalidad entre dos variables. Sin embargo, aún es de poca utilidad dado que los
parámetros que lo componen no son observables por el investigador. En el siguiente
capítulo vamos a ver de qué manera podemos tener una aproximación empírica basada
en datos de este modelo, y cómo podríamos obtener estimaciones de los parámetros que
lo componen.
Otro aspecto que vale la pena resaltar es que en el modelo econométrico, estamos
diciendo explícitamente que la variable X afecta o causa a Y. En ese sentido, para fines
económicos no tiene sentido que invirtamos la ecuación (1.1) y digamos que el efecto
de Y sobre X es 1 / 2 . Aunque en términos estadísticos podríamos decir que
efectivamente X y Y están asociadas y que estadísticamente hablando cada vez que Y
varía se observa en promedio una variación de 1 / 2 en X, en términos económicos la
19
expresión 1 / 2 no tienen ningún sentido pues nuestra teoría económica nos dice
claramente qué variable es la exógena y cuál es la endógena, y que las exógenas causan
a las endógenas y no al revés.
Ejercicios
1. Defina media poblacional, varianza poblacional y covarianza poblacional.
Distíngalos de la media muestral, varianza muestral y covarianza muestral.
2. Imagine que usted está interesado en estudiar el efecto de las lluvias (X) sobre las
cosechas (Y). La variable Lluvia solo cuenta con dos valores, 1 si hubo lluvia
abundante en una localidad en el año, y 0 si hubo sequía. Por su parte la variable
cosechas también cuenta con dos valores: 30 toneladas si hubo una mala cosecha y
100 toneladas si hubo buena cosecha. Se cree que las lluvias podrían determinar si
las cosechas son buenas o malas. Aunque en la vida real uno no cuenta con la
siguiente información, imaginemos que contamos con las probabilidades conjuntas
de estas variables resumidas en la siguiente tabla:
Sequía Lluvia abundante
Pr(Y)
(X = 0) (X = 1)
Mala Cosecha
0.35 0.08 0.43
(Y = 30)
Buen Cosecha
0.15 0.42 0.57
(Y = 100)
Pr(X) 0.50 0.50 1
Los valores en el cuadrante central nos indican las probabilidades conjuntas de que
los eventos ocurran simultáneamente, por ejemplo, la probabilidad de que se
observe sequía y buena cosecha es solo 0.15. Los valores en los márgenes son las
probabilidades marginales, indicando por ejemplo que hay un 50% de posibilidades
de tener lluvia o sequía, y que es más probable que uno tenga buenas cosechas que
malas cosechas. Con la información de la tabla, calcule:
a. Las probabilidades condicionales de Y dado X.
b. Calcule la esperanza condicional de la cosecha dadas las lluvias, E[Yi | Xi 1]
y E[Yi | Xi 0] . Recuerde que las esperanzas condicionales se definen como
m
E[Y | X x ] Yi Pr(Y yi | X x )
i 1
20
siendo en este ejemplo x {0,1}.
c. Grafique estas esperanzas condicionales. ¿Podría deducir de su gráfico qué
valores tomará los parámetros poblacionales 1 y 2 , si modelamos esta
relación entre variables como en la ecuación (1.1)?
d. Calcule las varianzas condicionales, definidas como
Var (Y | X x ) Yi E[Y | X x ] Pr(Y yi | X x )
m
2
i 1
siendo en este ejemplo x {0,1}. ¿Es esta varianza homocedástica?
3. Extendiendo el ejemplo anterior, supongamos que tenemos una mejor medición de
la lluvia medida en milímetros. Los valores de la variable X son 200 milímetros,
1000 milímetros y 2000 milímetros. La tabla de probabilidades conjuntas y
marginales es:
Sequía Normal Abundante
Pr(Y)
(X = 200) (X = 1000) (X = 2000)
Mala Cosecha
0.20 0.18 0.15 0.53
(Y = 30)
Buen Cosecha
0.05 0.32 0.10 0.47
(Y = 100)
Pr(X) 0.25 0.50 0.25 1
Obtenga lo mismo que se pide en la pregunta 2. ¿Podría afirmarse que no se está
cumpliendo el supuesto 1?
4. Se suele afirmar que los salarios guardan una relación no lineal con la edad de las
personas, de manera que durante la juventud estos salarios se incrementan
rápidamente, para luego crecer a menor velocidad en la madurez, y finalmente
decaer en la vejez. Si nos proponemos estudiar la relación entre la edad de las
personas y los salarios mediante un modelo bivariado de regresión lineal del tipo
Salario i 1 2Edad i u i , ¿qué supuesto del modelo de regresión lineal clásico
cree usted que se esté violando?
5. Para el modelo bivariado (1.1), muestre que la covarianza Cov(Xi , Yi ) definida
como Cov(Xi , Yi ) E[(Xi E[Xi ])(Yi E[Yi ])] es igual a 2Var (Xi ) . Muestre
Cov(Xi , Yi )
también que a correlación definida como Corr (Xi,Yi ) es
Var (Xi ) Var (Yi )
igual a 2 Var (Xi ) / Var (Yi ) .
21
6. Juzgue si los siguientes modelos son lineales o no lineales en parámetros o variables.
a. Yi 1 2 X i 3 u i
b. Yi 1X i 2 u i
c. Yi 1 2 (1 / X i ) u i
d. Yi 1 2 X i2 u i
e. ln( Yi ) 1 2 X i u i
22