Tema 1 GADE
Tema 1 GADE
Econometría
Profesoras:
Rosa Badillo Amador
Susana Tena Nebot
Las líneas que sigue la metodología econométrica tradicional son las siguientes:
1
Gujarati D.N. (2010) Econometría, Mc Graw Hill
1
4.Obtención de datos.
5.Estimación de los parámetros del modelo econométrico.
6.Prueba de hipótesis.
7.Pronóstico o predicción.
8.Utilización del modelo para fines de control o de política.
Ejemplo:
Vamos a ilustrar las líneas anteriores con un ejemplo basado en la conocida teoría
keynesiana de consumo.
2
En dicha ecuación, la variable situada en el lado izquierdo del signo de igualdad se
denomina variable dependiente o regresando y las que se sitúan en el lado derecho se
llaman variables independientes, explicativas o regresores. Así, en esta función
keynesiana de consumo, el consumo es la variable dependiente y el ingreso es la
variable explicativa. Geométricamente, la ecuación anterior se muestra en la Figura
adjunta:
Figura 1.1. Función Keynesiana de Consumo.
Y (Consumo)
β2>0
β1>0
X (Ingreso)
Fuente: Gujarati D.N. (2004)
2
Aleatorio es un sinónimo de estocástico. Una variable es aleatoria o estocástica si puede tomar cualquier
conjunto de valores positivos o negativos con una probabilidad dada.
3
(estocástica) que tiene propiedades probabilísticas claramente definidas. Este término
puede representar aquellos factores que afectan al consumo pero que no son
considerados en el modelo de forma explícita (es una variable cajón de sastre). En
concreto, la expresión anterior es un ejemplo de modelo econométrico o más
técnicamente, se trata de un modelo de regresión lineal. La función econométrica de
consumo plantea como hipótesis que la variable dependiente o regresando Y (consumo)
está relacionada linealmente con la variable explicativa o regresor X (ingreso), pero la
relación entre las dos no es exacta, está sujeta a variaciones individuales. El modelo
econométrico de la función de consumo puede representarse gráficamente como aparece
en la Figura 1.2.
4. Obtención de información.
Estimar el modelo econométrico significa obtener los valores numéricos de β1 y β2, en
el modelo señalado anteriormente. Para ello, se necesitan datos de la variable
explicativa o regresor y de la variable dependiente o regresando. Estos datos pueden ser
de varios tipos:
• Series temporales: Datos recopilados en un intervalo regular del tiempo.
4
• Sección cruzada o datos de corte transversal: Datos sobre una o más variables
recopilados en un momento del tiempo.
• Datos de Panel: Elementos de series temporales unidos con elementos de sección
cruzada. Son datos referidos a una misma sección cruzada encuestada a lo largo del
tiempo.
Y (Consumo)
β̂ 2 =0,8
β̂1 =25
Xi
Fuente: Elaboración Propia
3
Por convención, un gorro sobre una variable o parámetro indica que es un valor estimado.
5
6. Prueba de hipótesis:
Suponiendo que el modelo ajustado es una aproximación razonablemente buena de la
realidad, se tienen que desarrollar criterios apropiados para encontrar si los valores
estimados concuerdan con las expectativas de la teoría que está siendo probada. De
acuerdo con los economistas "positivos" como Milton Friedman, una teoría o hipótesis
que no es verificable por la evidencia empírica no puede ser admisible como parte de la
investigación científica.
Keynes esperaba que la PMC fuera positiva pero menor que 1. En nuestro ejemplo nos
ha salido que es 0,8, pero antes de aceptar este hallazgo como confirmación de la teoría
keynesiana de consumo, debemos averiguar si este valor estimado está suficientemente
por debajo de la unidad para convencernos de que no se trata de un suceso del azar o de
una peculiaridad de la información particular que se ha utilizado. En otras palabras, lo
que se pretende conocer es si ¿0,8 es estadísticamente menor que 1? si lo es, apoyaría la
teoría de Keynes 5. A través de contrastes de hipótesis podemos dar respuesta a este tipo
de cuestiones.
7. Proyección o predicción.
Si el modelo escogido confirma la hipótesis o teoría en consideración, se puede utilizar
para predecir el valor o valores futuros de la variable dependiente Y con base en el valor
futuro conocido o esperado de la variable explicativa.
Ejemplo:
Si se espera que el PIB sea de 4.000 millones de euros en el periodo siguiente al último
año del periodo muestral, se puede predecir el siguiente gasto en consumo:
Yˆ =
25 + 0,8(4.000) =
3.225 mill €
4
Se dice, en promedio, porque la relación entre el consumo y el ingreso es inexacta, como se muestra en
la línea de regresión que aparece en la Figura 1.2, no todos los puntos que representan datos están
exactamente en la recta de regresión.
5
La confirmación o refutación de las teorías económicas con base en la evidencia muestral está basada en
una rama de la teoría estadística conocida como inferencia estadística (prueba de hipótesis).
6
En ese año el consumo puede ser superior o inferior a lo predicho, en tal caso se habla
de “error de predicción”. Tales errores de predicción son inevitables. Por tanto, cuando
se analiza en profundidad un modelo de regresión lineal es importante averiguar si un
error de esta naturaleza es "pequeño" o "grande".
2.000 = 25+0,8X
X = 2.468,75 mill € (aprox)
7
en los ocho pasos que se acaban de presentar es neutral, en el sentido de que puede
utilizarse para probar cualquier hipótesis rival.
Teoría Económica
Datos
Prueba de hipótesis
Predicción
8
Ejemplo
Se puede estar interesado en estudiar la dependencia del gasto de consumo personal
respecto del ingreso personal neto disponible (después de impuestos). Este análisis
puede ser útil para estimar la propensión marginal a consumir, es decir, el cambio
promedio del gasto en consumo ante un cambio de 1 unidad monetaria en el ingreso
real.
Ejemplo
El director de mercado de una compañía desea saber la forma cómo se relaciona la
demanda del producto de su compañía con el gasto de publicidad. Un estudio de este
tipo será de gran ayuda para encontrar la elasticidad de la demanda con respecto a los
gastos de publicidad. Este conocimiento puede ser útil para determinar el presupuesto
"óptimo" de publicidad.
9
puede ser explicada en su totalidad independientemente de las variables explicativas que
consideremos.
Esta relación es exacta a no ser que exista algún error de medición, por ejemplo en la k.
Si este fuera el caso, la relación determinista se convertiría en estadística.
10
Las diferencias fundamentales entre la regresión y la correlación son las siguientes:
6
Hay manuales como el básico que utilizamos en la asignatura y que aparece en el programa en el que no
se tiene en cuenta la constante como regresor, por lo que k=1 (variables explicativas) en el modelo de
regresión lineal simple y k>1 en el modelo de regresión lineal múltiple.
11
La mayor parte del trabajo empírico basado en datos de serie temporales supone que
éstas son estacionarias. Aunque es pronto para introducir dicho concepto, se puede decir
que por ejemplo, el PIB es estacionario si el valor de su media y varianza no varían
sistemáticamente con el tiempo.
b) Series de corte transversal: son datos de una o más variables recogidos en el mismo
momento del tiempo. Por ejemplo, las encuestas de gastos del consumidor realizadas
cada x años, información sobre el VAB de todas las regiones españolas en el año 2010,
etc. Estas series presentan problemas específicos de heterogeneidad, ya que puede haber
regiones con un VAB muy pequeño y otras con uno muy elevado. En este caso, el
efecto de tamaño o escala debe ser tenido en cuenta.
Además, la información así reunida puede ser: i) cuantitativa (ej. precios, ingresos,
oferta monetaria) y ii) cualitativa (ej. sexo, estado civil, nivel de estudios).
12
8. El éxito del análisis de regresión depende de la disponibilidad de la información
apropiada. Los datos utilizados en el análisis empírico pueden ser recogidos por una
agencia gubernamental o internacional, o una organización privada o individuo.
13
1.2.2. Función de regresión poblacional y muestral.
Para entender mejor qué es una función de regresión poblacional veamos el siguiente
ejemplo:
Ejercicio 1.1:
Supongamos que tenemos un país hipotético con 16 familias. Nuestro objetivo es
analizar la relación entre el gasto de consumo familiar (Y) y el ingreso mensual
después de impuestos (X), de manera que obtengamos la predicción de la media
(poblacional) del gasto de consumo familiar mensual conociendo el ingreso
mensual.
Para ello, dividimos las familias en 3 grupos con niveles de ingresos aproximadamente
iguales y examinamos los gastos de consumo de las familias que conforman cada uno
de estos grupos.
Así, para una renta de 900 € existen 5 familias cuyo gasto en consumo se sitúa entre
550 € y 800 €, de la misma manera para una renta de 2.100 euros existen 6 familias con
un consumo entre 850 euros y 1.900 euros. Así, cada columna presenta la distribución
del gasto de consumo Y correspondiente a un nivel de ingreso (X) fijo, es decir,
proporciona la distribución condicional de Y, condicionada a los valores dados de X.
14
Teniendo en cuenta que las cifras de dicha Tabla representan la población, se pueden
calcular fácilmente las probabilidades condicionales de Y, p(Y X ), o proporción de
veces o frecuencia relativa con que se espera que se presente un suceso. Así, la
probabilidad de Y dado X se puede calcular de la siguiente manera: Para una renta de
900 € hay 5 valores de Y. Por consiguiente, la probabilidad de obtener cualquiera de los
siguientes gastos: 720, 600, 650, 800, 550 es de 1/5. Simbólicamente, p(Y=720
X =900)=1/5. De forma similar p(Y=1600 X =2100)=1/6 y así sucesivamente.
Calculamos el resto:
E[Y X i =1.500]=1.200(1/5)+650(1/5)+1.300(1/5)+1.100(1/5)+900(1/5)=1.030
E[Y X i =2.100]=1.600(1/6)+1.800(1/6)+1.900(1/6)+850(1/6)+1.230(1/6)+996(1/6)=1.396
15
Figura 1.5: Diagrama condicional del gasto para diversos niveles de ingresos.
Y (Consumo)
E[Y/Xi]
900 1500 2100
Fuente: Elaboración propia
1396
1030 =2100
664
16
A partir de lo visto anteriormente es evidente que cada media condicional E(Y X i ) es
E (Y X i ) = f ( X i )
Por ejemplo, si como hipótesis de trabajo consideramos que E(Y X i ) es una función
) β1 + β 2 X i
E (Y X i= (1.1)
17
Especificación estocástica de la Función de Regresión Poblacional (FRP):
Del ejemplo anterior se desprende que a medida que el ingreso familiar aumenta, el
gasto de consumo familiar promedio también lo hace, pero no tiene porqué suceder lo
mismo con el gasto de consumo de una familia concreta. Así, por ejemplo, hay una
familia con una renta de 1500 euros que consume 650, que es menos de lo que consume
por ejemplo una familia con una renta de 900 euros con un consumo de 800.
La expresión (1.2) se puede interpretar como el gasto de una familia individual, dado
su nivel de ingresos. Este gasto puede ser expresado como la suma de dos componentes:
del gasto de consumo de todas las familias con el mismo nivel de ingresos.
Así, los gastos de consumo individual dado Xi=900 € serían los siguientes:
Y1 = β1 + β 2 (900) + u1
720 =
Y2 = β1 + β 2 (900) + u2
600 =
Y3 = β1 + β 2 (900) + u3
650 =
18
Considerando la expresión (1.2) y calculando el valor esperado en ambos lados se
tiene:
E(Y X i )=E[E(Y X i )]+E ( ui X i ) (1.3)
El valor de E(Y X i ) una vez que se fija Xi es una constante, por lo que el valor
de que la línea de regresión pasa a través de las medias condicionales de Y implica que
los valores de la media condicional de ui (condicionadas al valor dado de X) son cero.
Nota: Teniendo en cuenta lo anterior, las expresiones (1.1) y (1.2) son formas
equivalentes, pero la especificación estocástica (1.2) tiene la ventaja que muestra
claramente otras variables, además del ingreso, que afectan al gasto de consumo.
Vamos a comprobarlo:
La primera familia de la Tabla 1.1 con una renta de 900 € realiza un consumo de 720 €.
Para este nivel de renta, el consumo que se espera (o consumo promedio) es de 664 €.
La desviación del consumo de esta familia respecto del nivel de consumo que se
esperaba es de 56. Este es el error o perturbación aleatoria que corresponde a esta
familia. Calculando para el resto de familias de nuestra población obtendríamos la
siguiente Tabla. En ella se puede observar que el valor esperado de las perturbaciones
aleatorias es cero.
19
Tabla 1.3: Perturbaciones aleatorias
X
u 900 1500 2100
56 170 204
-64 -380 404
-14 270 504
136 70 -546
-114 -130 -166
-400
E(u/Xi) 0 0 0
Fuente: Elaboración propia
1. Vaguedad de la teoría.
2. No disponibilidad de información.
3. Coste elevado de introducir un conjunto de variables que afectan a la
endógena pero que aportan una información pequeña.
4. Aleatoriedad intrínseca en el comportamiento humano.
5. Variables aproximadas (proxy) con posibles errores de medición.
6. Principio de parsimonia: modelo de regresión lo más sencillo posible
permitiendo que ui represente todas las demás variables siempre que no
incluya variables relevantes.
7. Forma funcional incorrecta.
1.2.2.2. Función de Regresión Muestral (FRM):
En la práctica sólo se puede trabajar con un subconjunto de la población o muestra,
por lo que la labor ahora será estimar la función de regresión poblacional con base en
información muestral.
Supongamos que no se conoce la Tabla 1.1 con datos de toda la población y que sólo
se tiene información procedente de dos muestras como las siguientes:
20
Tabla 1.4: Muestra 1
Y X
1200 1500
800 900
1600 2100
Fuente: Elaboración propia
FRM2 o Yˆ2 ). Sin embargo, no se sabe cuál de las dos líneas o (curvas) es la que mejor
FRM2= Yˆ2
Y FRM1= Yˆ1
X
Fuente: Elaboración propia
7
En el apartado 1.3 estudiaremos uno de los procedimientos más utilizados para obtener la FRM que
mejor se aproxima a la FRP.
21
Por tanto, la FRM es una estimación del valor esperado de la variable endógena dado un
valor o valores de la variable(s) explicativa(s), donde Yˆ se lee "Y-gorro" o "Y-
y β2 .
La FRM en su forma estocástica se especificaría así:
En resumen:
El objetivo del análisis de regresión es estimar la función de regresión poblacional:
Yi = E (Y X i ) + ui = β1 + β 2 X i + ui
=Yi E (Y X i ) + ui
8
Un estimador (también conocido como estadístico) es simplemente una regla o fórmula o método que
dice cómo estimar el parámetro poblacional a partir de la información suministrada por la muestra
disponible. El valor numérico particular obtenido por el estimador en una aplicación se conoce como
estimado.
22
En la Figura 1.8 se muestra un ejemplo gráfico de FRM y FRP:
] β1 + β 2 X i
FRP= E[Y X i=
X
Fuente: Elaboración propia
Este método se atribuye a Carl Friedrich Gauss, matemático alemán, y es uno de los
más utilizados ya que tiene algunas propiedades atractivas que lo han convertido en uno
de los más eficaces.
23
siendo N el tamaño de la población. Si hacemos extensiva la expresión anterior a la
relación entre observaciones, tenemos el siguiente conjunto de N ecuaciones:
Y1 = β1 + β 2 X 21 + β3 X 31 + + β k X k1 + u1
Y2 = β1 + β 2 X 22 + β3 X 32 + + β k X k 2 + u2
YN = β1 + β 2 X 2 N + β3 X 3 N + + β k X kN + u N
donde, la expresión de los valores del regresando (Y), de la matriz de regresores (X), los
parámetros del modelo (β) y las perturbaciones aleatorias (u) son las siguientes:
Y1 1 X 21 X 31 X k1 β1 u1
Y 1 X X 32 X k 2 β u
Y= 2 , X= 22
, β= 2 y u= 2
YN 1 X 2 N X 3 N X kN βk u N
Es posible representar matricialmente la ecuación del modelo (1.4) de la siguiente
forma:
Y=Xβ+u (1.5)
La columna K-ésima de la matriz X contiene las N observaciones de la variable XK, para
K=1,2,…,k. Por ejemplo, la tercera columna contiene las N observaciones de la variable
X3, es decir, X31, X32,…,X3N. Respecto a la primera columna, para homogeneizar el
tratamiento de los regresores podemos considerar que el término independiente está
multiplicado por el regresor X1i, el cual siempre toma el valor 1, o sea,
X1i=1, i=1,2,…,N
Cabe señalar que el modelo (1.4) y, por tanto, la ecuación (1.5) contienen k-1 variables
explicativas, X2, X3, …,Xk, o k regresores, X1,X2, X3, …,Xk.
24
recta a los puntos (Xi, Yi), con i=1,2,…,N. En la regresión lineal múltiple, es decir,
cuando k>2, se trata de ajustar un hiperplano al conjunto de observaciones sobre el
regresando y los k regresores.
∑ (Y − Yˆ ) .
n
FRM que consiga minimizar la suma de los residuos ∑
= uˆi i i
i =1
más elevados uˆ1 y uˆ4 , pese a que los dos primeros están más cerca de la FRM que los
segundos. Es decir, se les proporciona a todos los residuos la misma importancia sin
importar lo cerca o dispersas que estén las observaciones individuales de la FRM, por lo
que es posible que la suma sea pequeña pese a que existan residuos bastantes dispersos
25
alrededor de la FRM. Además, se pueden cancelar los signos y obtener una suma de
residuos próxima a cero, incluso nula, como se muestra en el ejemplo siguiente:
Figura 1.9. Criterio de mínimos cuadrados
* Ejemplo
Suponga que uˆ1,uˆ2 , uˆ3 y uˆ4 de la Figura anterior tienen los siguientes valores
respectivos: 8, -3, 3, -8. La suma algebraica de estos residuos es cero a pesar de que
uˆ2 y uˆ3 presentan una menor dispersión alrededor de la FRM que uˆ1 y uˆ4 .
puede determinarse en forma tal que la suma al cuadrado de los residuos (SCR) sea la
menor posible:
26
∑ uˆ= ∑ (Y ∑ (Y )
2
=
SCR 2
i i − Yˆi )=
2
i − βˆ1 − βˆ2 X 2i − ... − βˆk X ki
Con este procedimiento se da más peso a los residuos mayores por lo que ahora no
puede darse el fenómeno anterior, puesto que cuanto mayor sea el residuo es mucho
los mismos.
Ventaja: Este procedimiento tiene propiedades estadísticas que lo hacen muy deseable
Ejercicio 1.2:
Supongamos una ecuación de demanda como la siguiente:
β1 β 2 X 2t + ut ,
Yt =+
27
Conjunto B:
Ahora supongamos el mismo conjunto de datos pero para β̂1 =80,54, βˆ2 = −10, 09 ,
Yˆt uˆ=
t Yt − Yˆt uˆt 2
80,54-10,09(7)=9,91 15-9,91=5,09 5,092=25,9081
80,54-10,09(5)=30,09 30-30,09=-0,09 0,0081
80,54-10,09(4)=40,18 -16,18 261,7924
80,54-10,09(2)=60,36 4,64 21,5296
80,54-10,09(3)=50,27 6,73 45,2929
80,54-10,09(2)=60,36 -0,36 0,1296
∑ uˆt = 354,6526
2
La SCR, como da mayor peso a los residuos más elevados y menor a los más bajos,
muestra como la pareja de estimadores β̂1 =80,54 y βˆ2 = −10, 09 consigue aproximar
con mayor precisión la FRM a los verdaderos valores de la FRP al presentar un menor
valor. El método de estimación Mínimos Cuadrados Ordinarios (MCO) permitirá
obtener, bajo ciertos supuestos, aquéllos valores de los estimadores β que minimicen la
SCR. Este procedimiento tiene una serie de ventajas:
1. Se evita la cancelación de los signos, ya que al elevar al cuadrado todos los elementos
de la suma de las observaciones residuales lleva a que sean positivos.
2. Penaliza los residuos más grandes.
3. Los valores estimados de los parámetros van a ser únicos.
28
1.3.2. Derivación de los estimadores MCO:
A través del cálculo matricial vamos a tratar de obtener los valores de los estimadores
de los coeficientes de regresión (véase el Anexo 1.1 para la derivación de los
estimadores MCO de manera no matricial y para k=2). Sabemos que el modelo lineal
de regresión muestral múltiple se puede escribir según la ecuación siguiente:
Yi = βˆ1 + βˆ2 X 2i + ... + βˆk X ki + uˆi , i=1,2,…,n
y en forma matricial, con datos muestrales y, por tanto, con n observaciones muestrales,
se puede escribir así:
Y1 1 X 21 X 31 X k1 βˆ1 uˆ1
Y2 1 X 22 X 32 X k 2 βˆ2 uˆ2
= +
1 X
X kn βˆ uˆn
Y n 2n X 3n
k
donde por ejemplo X32 se corresponde con la segunda observación de la variable X3.
X βˆ .
mín(uˆ ' uˆ ), donde uˆ= Y −
β
Yˆ
29
uˆ1
uˆ n
' uˆ (uˆ1 , uˆ2 ,..., uˆn ) =
= uˆ=
SCR 2
∑ uˆi2 ,
i =1
uˆn
también puede escribirse como:
SCR =(Y − X βˆ )'(Y − X βˆ ) =Y ' Y − Y ' X βˆ − βˆ ' X ' Y + βˆ ' X ' X βˆ =Y ' Y − 2 βˆ ' X ' Y + βˆ ' X ' X βˆ
ya que βˆ ' X 'Y = Y ' X βˆ (se trata del mismo escalar en ambas expresiones), aplicar el
criterio de mínimos cuadrados es equivalente a minimizar el escalar SCR. Para ello, se
calcula la primera derivada de SCR con respecto al vector de coeficientes mínimo
cuadráticos, β̂ , y se tiene:
∂SCR
−2 X ' Y + 2 X ' X βˆ =
= 0
∂βˆ
−1 −1 −1
' X ] X 'Y [ X ' X ] =
[ X= X ' X βˆ ⇒ βˆ [ X ' X ] X 'Y
1 1 1 ... 1 1 X 21 X 31 ... X k 1
X
X 22 X 23 ... X 2 n 1 X 22 X 32 ... X k 2
21
(X ' X ) = X 31 X 32 X 33 ... X 3n 1 X 23 X 33 ... X k 3
( k ×k )
... ... ... ... ... ... ... ... ... ...
X k 1 X k 2 X k 3 ... X kn 1 X 2 n X 3n ... X kn
(k x n) (n x k)
9
Se llamará rango de una matriz A de orden mxn al máximo número de columnas (o filas) linealmente
independientes o al orden de la mayor submatriz cuadrada de la matriz inicial cuyo determinantes no sea
nulo.
30
n
∑X 2i ∑X 3i ... ∑X ki
∑ X 2i ∑X ∑X X ∑X X
2
2i 2i 3i ... ki 2 i
= ∑ X 3i ∑X X 2i 3i ∑X 3i
2
... ∑X X ki 3i
... ... ... ... ...
∑ X ki ∑X ∑X ∑ X ki
ki X 2i ki X 3i ...
2
1 1 1 ... 1 Y1 ∑ Yi βˆ1
X X 22 X 23 ... X 2 n Y2
21 ∑ X 2iYi βˆ2
X 'Y = X 31 X 32 X 33 ... X 3n Y3 ∑ X 3iYi y βˆ = βˆ3
( k ×1)
( k x 1)
...
... ... ... ... ... ... ...
X k 1 X k 2 X k 3 ... X kn Yn ∑ X kiYi βˆ
k
(k x n) (n x 1)
31
1.3.4. Interpretación de los coeficientes:
Yi = β1 + β 2 X 2i + ... + β k X ki +u i , i=1,...,n
se tiene:
E (Yi ) = X β en forma matricial;
E(Yi ) = β1 + β 2 X 2i + ... + β k X ki , para cada observación.
A partir de esta última expresión es fácil ver que el intercepto β1 puede interpretarse
como el pronóstico de Y cuando todas las variables explicativas, X, toman valor cero:
β1= E (Yi X 2=i X 3=i ...= X ki= 0).
Por otro lado, tomando derivadas en la FRP con respecto a uno de los regresores, por
ejemplo Xk:
∂E (Yi X 1 , X 2 ,..., X k ) ∆E (Yi X 1 , X 2 ,..., X k )
=βk = ,
∂X ki ∆X ki
el coeficiente βk puede interpretarse como el cambio (incremento o disminución) en el
valor esperado de Y cuando Xk aumenta en una unidad de medida, manteniéndose
constante todo lo demás (ceteris paribus).
* Ejercicio 1.3:
Supongamos una ecuación de demanda como la del Ejercico 1.2. siguiente:
β1 β 2 X 2t + ut ,
Yt =+
32
donde Yt es la demanda de un bien (medida en miles de unidades) y X2 es el precio
del bien (en euros/unidad). Con los datos adjuntos correspondientes a 6 periodos
anuales (2008-2013):
Tabla 1.7
Y X2
15 7
30 5
24 4
65 2
57 3
60 2
Calcule:
a) El valor estimado de los parámetros de la regresión e interprete su valor.
b) El valor estimado de Y ( Yˆ )
c) El valor de los residuos del modelo ( û )
1 3
1 2
X ' X =(6 ⋅ 107) − (23 ⋅ 23) =642 − 529 =113
33
15
30
1 1 1 1 1 1 24 ∑ Yt 251
=X 'Y = =
7 5 4 2 3 2 65 ∑ Yt X 2t 772
57
60
0,9469 −0, 2035 251
βˆ [ =
X ' X ] X 'Y
−1
= =
−0, 2035 0, 0531 772
0,9469(251) − 0, 2035(772) 80,5699
=
−0, 2035(251) + 0, 0531(772) −10, 0853
34
b) El vector Yˆ vendrá dado por:
1 7 80,5699 − 10, 0853(7) =
9,9728
1 5 80,5699 − 10, 0853(5) =30,1434
1 4 80,5699 40, 2287
= Yˆ X= βˆ =
1 2 −10, 0853 60,3993
1 3 50,3140
1 2 60,3993
c) y û será:
15 9,9728 5, 0272
30 30,1434 −0,1434
24 40, 2287 −16, 2287
uˆ = Y − Yˆ = − =
65
60,3993 4, 6007
57 50,3140 6, 6860
60 60,3993 −0,3993
35
Frecuencia de la serie temporal: anual
Observación Inicial: 2008
Empezar a introducir los valores de los datos
Nombre de la primera variable: Y
Para nombrar a las variables no se puede utilizar la letra ñ, ni acentos ni más de
15 caracteres.
Tras darle a Aceptar, se abre una hoja de cálculo, como la siguiente pantalla:
Introducimos los datos de la Tabla 1.7, para la variable Y. También introducimos los
Una vez introducidos los datos, es siempre conveniente examinar gráficamente las
variables que se van a analizar. Para ello, son especialmente interesantes las opciones
Ver/Gráficos/Gráfico X_Y (Scatter) e introducimos:
variable del eje x:X2
variables del eje Y:Y
36
Figura 1.11. Diagrama de Dispersión de Y frente a X2
60
50
40
Y
30
20
10
0
2 3 4 5 6 7
X2
Podemos guardar el gráfico como icono pulsando el botón derecho del ratón y eligiendo
la opción: Guardar a sesión como icono, así como editarlo y cambiar colores
y tamaños de los puntos, quitar la recta de regresión, añadir otro tipo de ajustes de rectas
o curvas, etc. Tal y como se puede ver en el diagrama anterior, a medida que aumenta
X2 disminuye Y y la recta de regresión aparece con pendiente negativa, que se
corresponde con el valor de β̂ 2 , por lo que es un gráfico que se utiliza mucho para
analizar la relación entre la variable dependiente y sus explicativas.
37
Figura 1.12. Evolución de Y y X2
7 70
Y (derecha)
X2 (izquierda)
60
6
50
40
30
3
20
2 10
2008 2009 2010 2011 2012 2013
Tal y como se observa en la Figura anterior, existen dos escala de medidas diferentes, la
de la derecha (que corresponde a la variable Y) y la de la izquierda (que corresponde a
la variable X).
βˆ 1 = 80,5398, βˆ 2 = -10,0973
38
Tabla 1.8
Se puede guardar también como icono para poder acceder a la regresión cuando se
necesite en Archivo/Guardar a sesión como icono.
Dicho valor se puede calcular con Gretl, seleccionando en la pantalla de nuestro modelo
estimado 1 (ver Tabla 1.8): Análisis/Mostrar variable observada,
estimada, residuos. El resultado lo obtenemos en la siguiente Tabla, donde la
Tabla 1.9
Y estimada residuo
2008 15 9,85841 5,14159
2009 30 30,0531 -0,0530973
2010 24 40,1504 -16,1504
2011 65 60,3451 4,65487
2012 57 50,2478 6,75221
2013 60 60,3451 -0,345133
Para comprobar si el valor estimado de Yˆt se aproxima a la variable Y original, podemos
representar gráficamente ambas series seleccionando en el menú de la pantalla de la
39
ecuación de regresión estimada: Gráficos/ de Variable estimada y
observada/contra tiempo, obteniendo el gráfico de la Figura 1.13.
Y observada y estimada
70
estimada
observada
60
50
40
Y
30
20
10
0
2008 2009 2010 2011 2012 2013
40
Figura 1.14. Evolución de los residuos
0
residuo
-5
-10
-15
-20
2008 2009 2010 2011 2012 2013
41
Figura 1.15. Evolución de Y, Yˆt y uˆt
70 10
Y (izquierda)
yhat1 (izquierda)
uhat1 (derecha)
60
5
50
40
-5
30
-10
20
-15
10
0 -20
2008 2009 2010 2011 2012 2013
42
1. La suma de los residuos es cero (véase primera ecuación normal del Anexo 1.1):
∑ uˆ i = 0.
Yˆ = Y .
Ejercicio a resolver: Con los datos del ejercicio anterior, comprobar que se cumplen
las propiedades de la FRM.
Una vez analizada la FRM, interesa constatar en qué medida queda explicada la
variable endógena media por el modelo estimado. Para ello, utilizaremos un estadístico
que suele utilizarse en gran medida como es el coeficiente de determinación o R2.
43
Si todas las observaciones cayeran en la línea de regresión (si k=2) o sobre el
hiperplano de regresión (si k>2) se produciría un ajuste "perfecto", pero raramente se
presenta este caso. En general, existen algunos residuos ( uˆi ) positivos y otros negativos.
La esperanza que se tiene es que estos residuos alrededor de la recta de regresión (si
k=2) o sobre el hiperplano de regresión (si k>2) sean los más pequeños posibles. Es
interesante, por tanto, saber cómo la función estimada (la FRM) se ajusta a los datos o
nube de puntos original. Cuanto mayor sea esa aproximación, mejor representadas
estarán las observaciones originales por la recta o hiperplano de regresión. La suma de
cuadrados de las desviaciones de Y respecto de su media ( Y ) (suma cuadrados total o
SCT) nos da una medida de la variación total que es preciso explicar, ya que la SCT es
la varianza muestral de la variable endógena 10 (salvo el factor tamaño muestral), y es
por tanto una medida del tamaño de las fluctuaciones experimentadas por dicha
variable alrededor de su valor medio. El objeto fundamental de todo modelo
econométrico es tratar de explicar dichas fluctuaciones. Por tanto, el ajuste realizado por
el modelo de regresión será mejor cuanto mayor sea la proporción que explica el
modelo de esa variación. El estadístico que nos mide esto es el coeficiente de
determinación o R2.
10
Varianza muestral de Y=
∑ (Yi − Y )2 .
n
44
=
SCT ∑ (Y i − Y )2 =
↑
∑ (Yˆ + uˆi i − Y )=
2
∑ ((Yˆ − Y ) + uˆ )=
i i
2
0
ˆ 2 ˆ ( 2
)
∑ (Yi − Y ) + 2 Yi − Y uˆi + uˆi = ∑ (Yi − Y ) + 2
ˆ 2
∑Yiˆ uˆi − 2Y ∑ uˆi + ∑ uˆi2 =
(1.7)
Prop.1FRM:∑ uˆi = 0
= Yu
Prop.3FRM ˆ=ˆ 0
= ∑ (Yˆi − Y ) 2 + ∑ uˆi2 ⇒ ∑
∑ ∑
(Y − Y ) = (Yˆ − Y ) + uˆ
2 2 2
i
i i
SCT SCE SCR
para abreviar denominamos también SCT (Suma al Cuadrado Total) es la variación total
abreviar como SCR (Suma al Cuadrado de los Residuos), es un indicador del nivel de
error del modelo en su intento de explicar la evolución temporal de la variable11 Y.
En resumen se puede decir que la variación total en los valores Y observados alrededor
del valor de su media puede ser dividida en dos partes, una atribuible a la línea de
regresión y la otra a fuerzas aleatorias puesto que no todas las observaciones Y caen
sobre la línea ajustada, es decir, SCT=SCE+SCR (ver Figura 1.16 para el caso de dos
regresores).
11
Bajo la hipótesis de normalidad de los residuos, SCE se distribuye según una Chi-cuadrado con k-1
grados de libertad, SCR según una Chi-cuadrado con n-k grados de libertad, y SCT según una Chi-
cuadrado con n-1 grados de libertad, siendo los grados de libertad de un estadístico calculado sobre n
datos el número de cantidades independientes que se necesitan en su cálculo, menos el número de
restricciones que ligan a las observaciones y el estadístico.
45
Figura 1.16
Partición de la variación de Yi en dos componentes
Obsérvese que, si multiplicamos (1.7) por 1/n en ambos miembros, se obtiene que la
varianza muestral del regresando se descompone en dos sumandos: el primero se
Analíticamente:
46
∑ (Yˆ − Y )
2
SCE i
=
R2 = (1.8)
∑ (Y − Y )
2
SCT
i
Dividiendo por ∑ (Y − Y ) i
2
la expresión (1.7) y operando se obtiene una expresión
alternativa:
A continuación vamos a desarrollar la expresión matricial del R2, para ello, previamente
obtenemos la expresión matricial de sus componentes:
Yˆi
∑( ) ∑Yˆi 2 − 2Y ∑Yˆi + nY 2 = ∑i ∑ n + nY 2 =
2
SCE = Yˆi − Y = Yˆ 2
− 2Yn
__
= ∑Yˆi 2 − 2nY 2 + nY 2 = ∑Yˆi 2 − nY 2 =
matricialmente
Yˆ ' Yˆ − nY 2 =
__ __ __ __
(Xβˆ )'(Xβˆ ) − nY 2 = βˆ ' X ' X βˆ − nY 2 = βˆ ' X ' X ( X ' X ) −1 X ' Y − nY=
2
βˆ ' X ' Y − nY 2
βˆ
Yi
SCT= ∑ (Y i − Y ) 2= ∑Y i
2
− 2Yn ∑
n
+ Y 2= ∑Yi
2
− 2nY 2 + nY 2=
__
=∑Yi 2 − nY 2 =
matricialmente
Y ' Y − nY 2
∑ (Yˆ − Y )
2 __
SCE i Yˆ ' Yˆ − nY 2 βˆ ' X ' Y − nY 2
R2 = = ⇒R =
2
= (1.10)
∑ (Y −Y ) Y ' Y − nY 2 Y ' Y − nY 2
2
SCT
i
R =
2
1−
∑ uˆi 2
⇒ R2 =
1−
uˆ ' uˆ
(1.11)
∑ (Yi − Y ) Y ' Y − nY 2
2 matricialmente
47
Propiedades del R2 :
2. Sus límites son 0≤R²≤1, si la ecuación tiene término constante 12 y se estima por
MCO. Un R²=1 significa un ajuste perfecto, es decir, Yˆi = Yi para cada valor de i.
Por otra parte, un R²=0 significa que no hay relación alguna entre la variable
dependiente y las variables explicativas (es decir βˆ2= βˆ3= ...= βˆk= 0 ). En este
ˆ βˆ= Y (ver ecuaciones normales en Anexo 1.1), es decir, la mejor
caso Y=i 1
Este coeficiente corrige las SCT y SCR respectivamente por sus grados de libertad. Así,
se penaliza la inclusión de nuevas variables explicativas, de modo que su valor puede
disminuir al incluir una variable que esté poco relacionada con la variable dependiente.
De hecho incluso puede ser negativo. Obsérvense las siguientes relaciones:
12
Si no hay término constante en la ecuación, o no se ha estimado por MCO, R2 puede tomar valores
negativos, pero sigue siendo cierto que cuanto más cerca de 1 se sitúe el valor de R2, mejor es el ajuste del
modelo estimado a los datos.
48
∑ uˆi2
R =
1− 2 n − k =
1−
( n − 1) ∑ uˆi2
= 1−
( n − 1) uˆ ' uˆ
(
∑ iY − Y )
2 ( n − k ) (Y − Y ) 2
∑ i matricialmente
(
)
( n − k ) Y ' Y − nY 2
n −1 (1− R 2 )
Se puede comprobar fácilmente que la relación entre R 2 y R2, viene dada por:
(n − 1)
R2 =
1− (1 − R 2 )
(n − k )
R 2 =⇒
1 R2 =
1,
n −1 −k
R 2 =⇒
0 R 2 =−
1 = < 0,
n−k n−k
k
R2 ≤ ⇒ R2 ≤ 0
n −1
Este coeficiente permite seleccionar modelos con el mismo regresando y tamaño
muestral aunque con diferentes regresores y distinto número de ellos. Se seleccionará
como mejor modelo aquél que presente un mayor valor de dicho coeficiente de
determinación corregido. Su valor es máximo cuando toma valor unitario. Por
13
Dos modelos se dicen que no están anidados si ninguno de ellos es un caso particular del otro.
49
* Ejercicio 1.5:
a) R 2
=
( βˆ ' X ' Y − nY )2
(Y 'Y − nY )2
251
βˆ ' X ' Y =[80,5699 −10, 0853] = 20.223, 0449 − 7.785,8516 =12.437,1933
772
15 + 30 + 24 + 65 + 57 + 60
2 2
251
nY 2 =
6⋅ =
6⋅ =
6 ⋅ 41,83332 =
10.500,1666
6 6
15
30
24
Y ' Y = [15 30 24 65 57 60] = 225 + 900 + 576 + 4.225 + 3.249 + 3600 = 12.775
65
57
60
12.437,1933 − 10.500,1666 1.937, 0267
=R2 = = 0,8515
12.775 − 10.500,1666 2.274,8334
El ajuste del modelo de regresión a los datos es bueno ya que la recta de regresión
explica el 85,15% de la variabilidad contenida en los datos y recogida en la varianza de
la variable Y.
R2 =
1−
∑ uˆi2 = 1−
uˆ ' uˆ
∑ (Y − Y )2 ⇓
matricialmente
Y ' Y − nY 2
50
15 9,9728 5,0272
30 30,1434 −0,1434
24 40,2287 − 16,2287
donde: uˆ = Y − Yˆ = − =
65 60,3993 4,6007
57 50,3140 6,6860
60 60,3993 −0,3993
5, 0272
−0,1434
−16, 2287
donde:uˆ ' uˆ = [5, 0272 −0,1434 −16, 2287 4, 6007 6, 6860 −0,3993] = 354, 6925
4, 6007
6, 6860
−0,3993
uˆ ' uˆ 354, 6925 354, 6925
R2 =1− =
1− =
1− =
0,8441
Y ' Y − nY 2 12.775 − 10.500,1666 2.274,8334
b)
∑ uˆi2
n−k (n − 1) ∑ uˆi 2
(n − 1) uˆ ' uˆ
R =
1− =
1− ⇒ R2 =
1−
2
∑ (Y − Y ) 2 (n − k ) ∑ (Y − Y ) 2 matricialmente (
(n − k ) Y ' Y − nY 2 )
n −1
51
5,0272
−0,1434
−16,2287
uˆ ' uˆ = [5,0272 −0,1434 −16,2287 4,6007 6,6860 −0,3993] = 354,6925
4,6007
6,6860
−0,3993
( n − 1) uˆ ' uˆ (6 − 1) 354,6925 5 354,6925
R2 = 1− =
1− =
1− =
( n − k ) Y ' Y − nY 2 (6 − 2) (12.775 − 10.500,1666 ) 4 2.274,8334
1 − (1,25 ⋅ 0,1559 ) =
= 0,8051
=
1
n −1
∑ (Yi − Y ) 2 o matricialmente=
1
n −1
(
Y 'Y − nY 2 .)
52
R-cuadrado corregido ( R 2 ): Este coeficiente penaliza la inclusión de
nuevas variables explicativas en el modelo, ya que si bien al aumentar el número de
regresores aumenta también la Suma de Cuadrados Explicada, pero la inclusión de
nuevas variables explicativas reduce los grados de libertad del modelo, por lo que
no siempre resultará adecuado incorporar nuevas variables al mismo. En nuestro
ejemplo, el valor es de 0,8051.
Así, los supuestos hechos sobre las variables X2i,…,Xki y el término de error son muy
críticos para lograr una interpretación válida de los valores estimados de la regresión.
14
Inferencia estadística en la regresión consiste en inducir, tomando como base un conjunto de
observaciones, las características de la distribución de probabilidad que la ha generado.
53
Los supuestos o hipótesis básicas del modelo clásico 15 de regresión lineal
(MCRL), o modelo de Gauss, son los siguientes:
Notación escalar Notación matricial
1. E(ui)=0 para cada i 1. E(u)=0, donde u y 0 son vectores
columna nx1, siendo 0 un vector nulo
2. E(uiuj)=0 si i ≠ j 2. E(uu’)= σ2I, donde I es una matriz
E(uiuj)=σ2 si i=j identidad nxn.
3. Para la prueba de hipótesis ui N(0, σ ) 3. El vector u tiene una distribución
2
15
Es un modelo clásico en el sentido de que fue desarrollado por primera vez por Gauss en 1821 y desde
entonces ha servido como norma o patrón frente al cual se pueden comparar los modelos de regresión que
no satisfacen los supuestos gaussianos.
54
término constante del modelo de regresión, con lo cual se podría mantener esta hipótesis
sin ningún problema.
u1
u2
u u un ]
[ 1 2
E (uu ') = E
un
Donde u’ es la transpuesta del vector columna u, o vector fila. Efectuando la
multiplicación, se obtiene:
u12 u1u2 u1un
uu u22 u2 un
E (uu ') = E 2 1
unu1 unu2 un2
Aplicando el operador esperanza a cada elemento de la matriz anterior, se obtiene:
( )
E u12
E ( u1u2 ) E ( u1un )
( )
E ( u2u1 ) E u22
E (uu ') =
E ( u2 un )
E ( unu1 ) E ( unu2 ) ( )
E un2
55
elementos fuera de la diagonal principal son las covarianzas 16, por tanto, las
perturbaciones correspondientes a distintos momentos del tiempo o distintas unidades
muestrales que tengan una ordenación no están correlacionadas entre sí. Obsérvese que
la matriz de varianzas-covarianzas es simétrica: los elementos por encima y por debajo
de la diagonal principal son reflejos los unos de los otros.
Este supuesto tiene consecuencias sobre la distribución del regresando (Y) y del vector
de estimadores MCO ( β̂ ) como se observa a continuación:
16
Por definición, la varianza de ui =E[ui-E(ui )]2 y la covarianza entre ui y uj = E[ui-E(ui )] E[uj-E(uj)]. Pero
debido al supuesto E(ui )=0 para cada i, se tiene la matriz de varianzas-covarianzas anterior.
56
Si calculamos su esperanza tenemos:
E (Y ) = E [ X β + u ] = X β + E (u ) = X β
vector β̂ es una combinación lineal del vector Y que tiene una distribución normal
Supuesto 5: Establece que la matriz X tiene rango columna completo igual a k, que es
el número de columnas en la matriz. Puesto que la matriz de regresores tiene k
columnas, correspondientes a los k regresores del modelo y n filas correspondientes al
17
Es importante señalar que, dentro del alcance de esta asignatura, los resultados que se tienen bajo este
supuesto se mantendrían prácticamente idénticos si supusiéramos que los regresores son estocásticos,
siempre que introdujéramos el supuesto adicional de independencia entre los regresores y la perturbación
aleatoria. Ello es debido a que el análisis de regresión es de regresión condicional, es decir, condicional a
los valores fijos de las variables X.
57
número de unidades muestrales sobre las que se realizan las observaciones, esta
hipótesis tiene dos implicaciones:
a) El número de observaciones, n, debe ser igual o mayor que el número de
regresores, k, es decir, n>k.
b) Las columnas de la matriz X son linealmente independientes, es decir, no hay
relación lineal exacta entre las variables explicativas X. En otras palabras, no
hay multicolinealidad. En notación escalar esto es equivalente a decir que no
existe un conjunto de números λ1, λ2 ,..., λk no todos iguales a cero tales que:
λ1 X 1i + λ2 X 2i + ... + λk X ki =,
0 (1.13)
donde X1i=1 para todo i (para dar cabida a la columna de números 1 en la matriz
X). En notación matricial, puede estar representada por:
λ'x = 0,
donde λ’ es un vector fila de 1xk y x es un vector columna de kx1.
Si existe una relación lineal exacta, tal como en (1.13), se dice que las variables
son colineales, pero si sólo se cumple cuando λ1= λ2= ...= λk= 0 , entonces se
en cuenta modelos que son o no lineales en las variables. Así por ejemplo, una función
de regresión del tipo E(Y X i )=β1+β2 X i2 es una función no lineal en las variables
porque la variable X aparece elevada a una potencia o índice de 2, pero sí que tendremos
en cuenta estos casos. Debido a que la linealidad en los parámetros es relevante para el
58
desarrollo de la teoría de la regresión, de ahora en adelante, cuando hablemos de
regresión "lineal" significará regresión lineal en los parámetros.
Se puede pensar que estos supuestos no son muy realistas, pero se suelen hacer
supuestos en cualquier estudio científico porque facilitan el desarrollo de la materia
objeto de estudio en pasos graduales, no porque sean necesariamente realistas en el
sentido de que repliquen la realidad exactamente. Por ello, en otros temas posteriores
examinaremos a fondo qué sucede si uno o más de estos supuestos no se cumplen.
El cumplimiento de estos supuestos o hipótesis básicas del MCRL lleva a que los
estimadores mínimo-cuadráticos tengan buenas propiedades, como se verá en el
apartado siguiente.
entonces: βˆ = ( X ' X ) −1 X ' Y =P’Y. Puesto que X es una matriz de regresores fijos
59
(según el supuesto 4 del MCRL), también será fija la matriz P=X ( X ' X ) −1 o
P’=(X’X)-1X’.
E( β̂ )=β
Teniendo en cuenta:
βˆ = ( X ' X ) −1 X ' Y = ( X ' X ) −1 X ' [ X β + u ] = β + ( X ' X ) −1 X ' u , (1.14)
Y
60
Supongamos además que β̂ 2 y β 2* son estimadores lineales, es decir, son
funciones lineales de Y. ¿Qué estimador escogeríamos?
Figura 1.17
Para responder a esta pregunta sobrepongamos las dos figuras, como se muestra
en la Figura 1.17(c). Es obvio que si bien β̂ 2 y β 2* son insesgados, la distribución
61
Por tanto, dados dos estimadores que son a la vez lineales e insesgados, se debería
escoger el estimador con la menor varianza porque es probable que esté más
cercano a β 2 que el estimador alternativo. Es decir, se debería escoger el
estimador MELI (Mejor Estimador Lineal e Insesgado) o BLUE (Best Linear
Unbiased Estimator), ya que “un estimador con menor varianza es un
estimador más preciso”.
Matriz de varianzas-covarianzas de β̂ :
62
(
Var ( βˆ ) = E βˆ − E ( βˆ ) βˆ − E ( βˆ ) ' = E βˆ − β
)( βˆ − β ) ' = E [ X ' X ] −1
X ' uu ' X [ X ' X ] =
−1
' X ] X ' E[uu '] X [ X ' X ]
[ X= −1 −1
↑
[
= X ' X ] X '[σ 2 I ] X [ X ' X ]
−1 −1
σ 2 [X ' X ]
−1
(1.12)
Expandiendo esta matriz para cada uno de sus elementos, obtendremos todas y cada
una de las varianzas y covarianzas de los estimadores MCO:
,
Var ( βˆ1 ) Cov ( βˆ1 , βˆ2 ) Cov ( βˆ1 , βˆ3 ) Cov ( βˆ1 , βˆk )
Cov ( βˆ2 , βˆ1 ) Var ( βˆ2 ) Cov ( βˆ2 , βˆ3 ) Cov ( βˆ2 , βˆk )
Var ( β= ˆ ) σ=
2
Cov ( β 3 , β1 ) Cov ( βˆ3 , βˆ2 ) Var ( βˆ3 ) Cov ( βˆ3 , βˆk )
βˆ
ˆ ˆ
( k ×k )
Cov ( βˆk , βˆ1 ) Cov ( βˆk , βˆ2 ) Cov ( βˆk , βˆ3 ) Var ( βˆk )
Es decir, la σ β2ˆ =Var( βˆi )= σ 2υii , donde υii es el elemento ii-ésimo de la matriz
i
( )
inversa de X’X y σ βˆ βˆ =Cov βˆi , βˆ j = σ 2υij , donde υ ij representa el elemento
i j
63
Estimador insesgado de la varianza de la matriz de varianzas-covarianzas
de β̂ :
σˆ 2
=
[=
uˆ ' uˆ ] SCR
=
∑ uˆi2
(n − k ) (n − k ) (Escalarmente)
↑ (n − k )
64
De la misma manera, un estimador insesgado de la varianza de un βˆi
particular será:
uˆ ' uˆ
ˆ ( βˆi ) = σˆ β2ˆ = σˆ 2υii =
Var υii ,
i n−k
será:
uˆ ' uˆ
ˆ ( βˆi βˆ j ) = σˆ βˆ βˆ = σˆ 2υij =
Cov υij ,
i j n−k
18
Nunca se deben utilizar estimadores que no cumplan esta propiedad ya que es imprescindible, sino el
estimador no es adecuado.
65
* Ejercicio 1.7:
Con los datos del Ejercicio 1.3 correspondientes a una función de demanda de un
bien:
a) Calcule la matriz de varianzas-covarianzas estimada de β̂ e interprete sus
elementos.
uˆ ' uˆ
σˆ 2 [ X ' X ]= [ X ' X ]=
−1 −1
ˆ ( β=
Var ˆ ) σˆ=
2
βˆ
n−k
5, 0272
−0,1434
uˆ ' ˆ
u 1 −16, 2287
σˆ 2 = = [5, 0272 −0,1434 −16, 2287 4, 6007 6, 6860 −0,3993] =
n−k 6−2 4, 6007
6, 6860
−0,3993
1 1
= (5, 02722 + ( −0,1434 ) + ( −16, 2287 ) + 4, 6007 2 + 6, 68602 + ( −0,3993) ) = ⋅ 354, 6925 = 88, 6731
2 2 2
4 4
0,9469 −0, 2035
[X ' X ] =
−1
−0, 2035 0, 0531
0,9469 −0, 2035 83,9646 −18, 0444
σˆ 2 [ X ' X ]
−1
= =
88, 6731
−0, 2035 0, 0531 −18, 0444 4, 7085
ˆ ( βˆ1 ) =
Var σˆ 2υ11 = σˆ 2βˆ =
22,1751 ⋅ 3,9215 = 83,9646
1
ˆ ( βˆ2 ) =
Var σˆ υ22 =
2
σˆ =
22,1751 ⋅ 0, 0188 = 4, 7085 2
βˆ2
ˆ ( βˆ1 , βˆ2 ) =σˆ 2υ12 =σˆ 2υ21 =σˆ βˆ , βˆ 22,1751 ⋅ (−0,1316) =−18, 0444
Covar
1 2
66
En el menú de la ecuación de regresión se elige la opción: Análisis/Matriz de
Covarianzas de los Coeficientes y se obtiene la siguiente Tabla:
const X2
83,9559 -18,0466 const
4,70781 X2
σˆ =
βˆ
2,16975 ⇒ σˆ = 4, 7078
2
βˆ2
2
=
uˆ ' uˆ ∑=
uˆi2 354, 6549
uˆ ' uˆ
=σˆ = 9, 4161
n−k
67
ANEXO 1.1
n
∂ ∑ uˆi2
i =1 =
n
−2 ∑ (Yi − ( βˆ1 + βˆ2 X 2i + ... + βˆk X ki )) = 0
n n n
∂βˆ1 ∑ Yi = n βˆ + βˆ
1 2 ∑ X 2 i + ... + βˆ
k ∑ X ki
i =1 n
=i 1 =i 1 =i 1
∑ uˆi Y
n n n
∂ ( ∑ uˆi )
2 n
∑ = X
⇒ i 1 =i 1 =i 1
i 2 i βˆ
1 ∑ X 2 i + βˆ
2 ∑ X 2
2 i + ... + βˆ
k ∑ X 2i X ki
=−2∑ X 2i (Yi − ( β1 + β 2 X 2i + ... + β k X ki )) =
ˆ ˆ ˆ =
0 =i 1
∂βˆ2 i =1
n n n n
∂ ( ∑ uˆi )
2 n ∑ =
Y X
i ki
i 1 =i 1 =i 1
β ˆ
1∑ X ki + βˆ
2∑ X X
2 i ki + ... + βˆ
k ∑ X ki
2
68
Nota:
Si k=2, se puede calcular con facilidad el valor de los coeficientes βˆ1 y βˆ2 .
⇒
∑ i 2i
βˆ2 =
yx
↑
(Yi −Y ) = yi
∑ x2i
2
( X 2i − X 2 ) =
x2 i
69
ANEXO 1.2
de nuevo respecto a β̂ ’:
∂ 2 SCR ∂uˆ
=
−2 X ' =
2X ' X > 0
∂β∂β '
ˆ ˆ ∂βˆ '
Se obtiene la matriz de segundas derivadas definida positiva, ya que X’X es una matriz
definida positiva 19.
19
Se dice que una matriz A es definida positiva si Y’AY>0 para todo vector Y≠0.
70
ANEXO 1.3
Demostraciones del cumplimiento de las propiedades de la FRM:
1. La suma de los residuos es cero (véase primera ecuación normal del Anexo 1.1):
∑ uˆ i = 0.
Nota: representamos con una barra encima de las variables para referirnos a la media
muestral de las mismas
71
4. La media muestral de las estimaciones de Y (o FRM) es igual a la media
muestral de Y:
Yˆ = Y .
72
ANEXO 1.4
Distribución del término de perturbación aleatoria:
Y − X βˆ =
Y − X ( X ' X ) −1 X 'Y =
[ I − X ( X ' X ) −1 X ']Y =MY
M
Nota: Es importante resaltar las propiedades de la matriz M (sus demostraciones se
desarrollan en el Anexo 1.5):
Es fija, ya que sólo depende de X,
Es simétrica: M=M’
Es idempotente: M ⋅ M = M
Es ortogonal a X: MX=0
Su rango es: rg(M)=tr(M)=n-k.
û seguirá una distribución normal, por ser una combinación lineal de u, que se
distribuye normalmente ( u N (0, σ 2 I ) ). Además,
= [ Mu ] ME
E [ uˆ ] E= = [u ] 0
=
Var [uˆ ] E=
[uu
ˆ ˆ '] E [ Muu=
' M '] M E [ uu ']=
M ' M σ 2 IM=
↑
σ 2M
M es idempotente
Sup 2: E [uu '] =σ 2 I
Nota: Los elementos de la diagonal principal de M no son todos iguales, y por tanto,
los residuos no tienen varianza constante. Además, como los elementos fuera de la
diagonal principal no son todos iguales a cero, los residuos están correlacionados
entre sí. Es decir, aunque, por hipótesis, las perturbaciones sean homocedásticas e
incorrelacionadas, los residuos no lo son.
73
ANEXO 1.5
Estimador insesgado 20 de la varianza de los residuos:
Notas:
En la deducción anterior se han utilizado las siguientes propiedades del
operador traza, tr, que es la suma de los elementos de la diagonal principal de
una matriz:
a) La traza de un escalar es el mismo escalar.
b) Propiedad conmutativa: Tr(AB)=tr(BA), siendo A y B dos matrices
arbitrarias.
= σˆ 2 [
=
uˆ ' uˆ ] SCR
=
∑ uˆi2
.(A.1.5.1)
(n − k ) (n − k ) ( No matricialmente)
↑ (n − k )
Para demostrar la insesgadez del mismo aplicamos el operador esperanza:
E [ uˆ ' uˆ ] σ 2 (n − k )
=E[σˆ 2 ] = = σ 2 . (A.1.5.2)
( n − k ) (1.12)
↑ (n − k )
Quedando así demostrada la insesgadez del mismo.
20
Como se estudia en el Apartado 1.6, un estimador es insesgado si su valor promedio o su esperanza es
igual al valor verdadero del mismo.
74
ANEXO 1.6
Propiedades de la matriz de ponderaciones M:
La matriz de ponderaciones:
M= I n − X ( X ' X ) −1 X '
es de orden (nxn) y tienen las siguientes propiedades:
Es simétrica: M=M’:
M'= I n − X ( X ' X ) −1 X ' ' =
(
I n' − X ( X ' X ) −1 X ' ' =)
I n' − ( X ')' ( X ' X ) −1 ' X ' =
I n − X ( X ' X ) −1 X ' =
= M,
Es idempotente: M ⋅ M =; M
M ⋅ M = I n − X ( X ' X ) −1 X ' I n − X ( X ' X ) −1 X ' =
I n − X ( X ' X ) −1 X ' − X ( X ' X ) −1 X + X ( X ' X ) −1 X ' X ( X ' X ) −1 X ' =
=
I n − X ( X ' X ) −1 X ' =
= M
Es ortogonal a X: MX=0;
MX = I n − X ( X ' X ) −1 X ' X =
X − X ( X ' X ) −1 X ' X =
0
75