0% encontró este documento útil (0 votos)
106 vistas76 páginas

Tema 1 GADE

Este documento presenta un resumen de los conceptos básicos de la econometría. Explica que la econometría aplica herramientas estadísticas y económicas para dar contenido empírico a la teoría económica. Usa como ejemplo la teoría keynesiana del consumo, especificando el modelo matemático, económico y estadístico, y describiendo los pasos de obtener datos, estimar parámetros, y probar hipótesis. El objetivo final es verificar empíricamente las teorías econó
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
106 vistas76 páginas

Tema 1 GADE

Este documento presenta un resumen de los conceptos básicos de la econometría. Explica que la econometría aplica herramientas estadísticas y económicas para dar contenido empírico a la teoría económica. Usa como ejemplo la teoría keynesiana del consumo, especificando el modelo matemático, económico y estadístico, y describiendo los pasos de obtener datos, estimar parámetros, y probar hipótesis. El objetivo final es verificar empíricamente las teorías econó
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Departamento de Economía

Econometría

Apuntes del Tema 1

Profesoras:
Rosa Badillo Amador
Susana Tena Nebot

Nota: Estos apuntes están basados en la bibliografía que aparece en la Guía


Docente de la asignatura, así como en apuntes propios de las profesoras.

Tercer curso, GADE


TEMA 1. NATURALEZA DEL ANÁLISIS DE REGRESIÓN

1.1. ¿Qué es la Econometría?

Literalmente la palabra Econometría significa "medición económica", aunque, si


bien, la medición es una parte importante de la Econometría el alcance de esta disciplina
es mucho más amplio. Existe una gran variedad de definiciones. Según D. Gujarati1, "es
una ciencia social en la que se aplican las herramientas de la teoría económica,
economía matemática, estadística económica y estadística matemática".

Así, la Econometría da contenido empírico a gran parte de la teoría económica. Por


ejemplo, si la teoría microeconómica establece que, permaneciendo constantes otros
factores, se espera que la cantidad demandada de un bien aumente si se reduce el precio
de ese bien, la magnitud en la que aumentará o se reducirá dicha cantidad como
resultado de una variación en el precio del bien no viene determinada por la teoría. El
trabajo del económetra es proporcionar tales estimaciones numéricas, es decir, dar
contenido empírico a la teoría económica.

La Econometría está interesada principalmente en la verificación empírica de la teoría


económica, es decir, en probar la validez de las teorías económicas o refutarlas.

Antes de abordar el análisis de regresión (apartado 1.2) convendría analizar la


metodología clásica o tradicional que consideramos en la presente asignatura y que aún
predomina en la investigación empírica en economía y en los campos relacionados.

Las líneas que sigue la metodología econométrica tradicional son las siguientes:

1.Planteamiento de la teoría o de la hipótesis.


2.Especificación del modelo matemático de la teoría.
3.Especificación del modelo econométrico o estadístico de la teoría

1
Gujarati D.N. (2010) Econometría, Mc Graw Hill

1
4.Obtención de datos.
5.Estimación de los parámetros del modelo econométrico.
6.Prueba de hipótesis.
7.Pronóstico o predicción.
8.Utilización del modelo para fines de control o de política.

Ejemplo:
Vamos a ilustrar las líneas anteriores con un ejemplo basado en la conocida teoría
keynesiana de consumo.

1.Planteamiento de la teoría o hipótesis:


Keynes postula que la propensión marginal a consumir, es decir, la tasa de cambio del
consumo generado por una unidad de cambio (p.e. un dólar, un euro) en el ingreso, es
mayor que cero pero inferior a uno. Es decir, como regla general y en promedio, los
individuos están dispuestos a incrementar su consumo a medida que aumenta su
ingreso, pero en una cuantía inferior a la del ingreso.

2.Especificación del modelo matemático de consumo:


Keynes no especifica la forma concreta de la relación funcional entre el consumo y la
renta. Un economista matemático podría sugerir la siguiente forma de la función
keynesiana de consumo:
β1 + β 2 X
Y= 0<β 2 < 1
donde Y = gasto de consumo y X =ingreso y donde β1 y β2 son los parámetros del
modelo, siendo β1 el intercepto o constante y β2 la pendiente, que mide la propensión
marginal al consumo o cuánto varía la variable del lado izquierdo de la ecuación ante la
variación en una unidad en el valor de la variable del lado derecho. Esta ecuación es un
ejemplo de un modelo matemático de la relación entre el consumo y el ingreso. Por
consiguiente, un modelo matemático no es más que un conjunto de ecuaciones
matemáticas.

Si el modelo consta de una única ecuación se denomina uniecuacional, mientras que si


tiene más de una ecuación se conoce como modelo multiecuacional.

2
En dicha ecuación, la variable situada en el lado izquierdo del signo de igualdad se
denomina variable dependiente o regresando y las que se sitúan en el lado derecho se
llaman variables independientes, explicativas o regresores. Así, en esta función
keynesiana de consumo, el consumo es la variable dependiente y el ingreso es la
variable explicativa. Geométricamente, la ecuación anterior se muestra en la Figura
adjunta:
Figura 1.1. Función Keynesiana de Consumo.
Y (Consumo)

β2>0
β1>0

X (Ingreso)
Fuente: Gujarati D.N. (2004)

3.Especificación del modelo econométrico de consumo:


Debido a que las relaciones entre las variables económicas son generalmente inexactas
(en un diagrama de dispersión existen muchos puntos fuera de la recta de regresión o de
la ecuación matemática), el modelo puramente matemático como el descrito
anteriormente es de interés limitado para el economista, puesto que supone una relación
exacta o determinista entre el consumo y el ingreso. Así por ejemplo, al analizar
aquéllos factores que inciden en el gasto en consumo existen, además del ingreso, otras
variables que afectan al gasto en consumo como el tamaño de la familia, las edades de
sus miembros, su religión, etc. que ejercerán probablemente alguna influencia sobre el
consumo. Para dar cabida a relaciones inexactas entre las variables económicas, el
económetra modifica la función determinista de consumo elaborando un modelo
econométrico de la siguiente manera:
Y=β1 + β 2 X + u 0<β 2 < 1
donde u es el término de perturbación aleatoria o de error y es una variable aleatoria 2

2
Aleatorio es un sinónimo de estocástico. Una variable es aleatoria o estocástica si puede tomar cualquier
conjunto de valores positivos o negativos con una probabilidad dada.

3
(estocástica) que tiene propiedades probabilísticas claramente definidas. Este término
puede representar aquellos factores que afectan al consumo pero que no son
considerados en el modelo de forma explícita (es una variable cajón de sastre). En
concreto, la expresión anterior es un ejemplo de modelo econométrico o más
técnicamente, se trata de un modelo de regresión lineal. La función econométrica de
consumo plantea como hipótesis que la variable dependiente o regresando Y (consumo)
está relacionada linealmente con la variable explicativa o regresor X (ingreso), pero la
relación entre las dos no es exacta, está sujeta a variaciones individuales. El modelo
econométrico de la función de consumo puede representarse gráficamente como aparece
en la Figura 1.2.

Figura 1.2. Modelo econométrico de la función Keynesiana de Consumo

Fuente: Gujarati D.N. (2010)

4. Obtención de información.
Estimar el modelo econométrico significa obtener los valores numéricos de β1 y β2, en
el modelo señalado anteriormente. Para ello, se necesitan datos de la variable
explicativa o regresor y de la variable dependiente o regresando. Estos datos pueden ser
de varios tipos:
• Series temporales: Datos recopilados en un intervalo regular del tiempo.

4
• Sección cruzada o datos de corte transversal: Datos sobre una o más variables
recopilados en un momento del tiempo.
• Datos de Panel: Elementos de series temporales unidos con elementos de sección
cruzada. Son datos referidos a una misma sección cruzada encuestada a lo largo del
tiempo.

5. Estimación del modelo econométrico.


Como se señala anteriormente, la estimación de un modelo econométrico consiste en
estimar los parámetros de una función con el fin de dar contenido empírico a la misma.
La técnica estadística conocida como análisis de regresión es la herramienta principal
utilizada para obtener los valores estimados. Así, si al utilizar esta técnica se obtienen
los valores estimados de β1 y β2 siguientes: 25 y 0,8 respectivamente, la función de
consumo estimada quedaría así:
Y=
ˆ 25 + 0,8 X

Nota: El “gorro” sobre Y indica que es un valor estimado 3.

Figura 1.3. Modelo econométrico de la función keynesiana de consumo con datos.

Y (Consumo)

β̂ 2 =0,8
β̂1 =25

Xi
Fuente: Elaboración Propia

La interpretación de β̂ 2 sería la siguiente: para el periodo muestral considerado, un


incremento de una unidad monetaria en el ingreso real, lleva, en promedio 4, a un
incremento de cerca de 0,8 unidades monetarias en el gasto de consumo real.

3
Por convención, un gorro sobre una variable o parámetro indica que es un valor estimado.

5
6. Prueba de hipótesis:
Suponiendo que el modelo ajustado es una aproximación razonablemente buena de la
realidad, se tienen que desarrollar criterios apropiados para encontrar si los valores
estimados concuerdan con las expectativas de la teoría que está siendo probada. De
acuerdo con los economistas "positivos" como Milton Friedman, una teoría o hipótesis
que no es verificable por la evidencia empírica no puede ser admisible como parte de la
investigación científica.

Keynes esperaba que la PMC fuera positiva pero menor que 1. En nuestro ejemplo nos
ha salido que es 0,8, pero antes de aceptar este hallazgo como confirmación de la teoría
keynesiana de consumo, debemos averiguar si este valor estimado está suficientemente
por debajo de la unidad para convencernos de que no se trata de un suceso del azar o de
una peculiaridad de la información particular que se ha utilizado. En otras palabras, lo
que se pretende conocer es si ¿0,8 es estadísticamente menor que 1? si lo es, apoyaría la
teoría de Keynes 5. A través de contrastes de hipótesis podemos dar respuesta a este tipo
de cuestiones.

7. Proyección o predicción.
Si el modelo escogido confirma la hipótesis o teoría en consideración, se puede utilizar
para predecir el valor o valores futuros de la variable dependiente Y con base en el valor
futuro conocido o esperado de la variable explicativa.

Ejemplo:
Si se espera que el PIB sea de 4.000 millones de euros en el periodo siguiente al último
año del periodo muestral, se puede predecir el siguiente gasto en consumo:

Yˆ =
25 + 0,8(4.000) =
3.225 mill €

4
Se dice, en promedio, porque la relación entre el consumo y el ingreso es inexacta, como se muestra en
la línea de regresión que aparece en la Figura 1.2, no todos los puntos que representan datos están
exactamente en la recta de regresión.
5
La confirmación o refutación de las teorías económicas con base en la evidencia muestral está basada en
una rama de la teoría estadística conocida como inferencia estadística (prueba de hipótesis).

6
En ese año el consumo puede ser superior o inferior a lo predicho, en tal caso se habla
de “error de predicción”. Tales errores de predicción son inevitables. Por tanto, cuando
se analiza en profundidad un modelo de regresión lineal es importante averiguar si un
error de esta naturaleza es "pequeño" o "grande".

8. Uso del modelo para fines de control o de política.


Supongamos que tenemos la función keynesiana de consumo estimada como la anterior
y que el gobierno considera que un nivel de gasto de 2.000 millones de euros mantiene
la tasa de desempleo en su nivel actual, ¿cuál sería el nivel de ingreso que garantizaría
la cantidad de gasto de consumo fijado como meta?

2.000 = 25+0,8X
X = 2.468,75 mill € (aprox)

Es decir el nivel de ingresos es de 2.468,75 millones de euros. Así pues, un modelo


estimado puede ser utilizado para fines de control o de política. Mediante una mezcla
apropiada de política fiscal y monetaria, el gobierno puede manejar la variable de
control X para producir el nivel deseado de la variable objetivo Y.

La Figura 1.4 resume la anatomía de la elaboración de los modelos econométricos


clásicos.

A veces, el interrogante con que se enfrenta en la práctica un investigador es: ¿cómo


elegir entre modelos o hipótesis que compiten entre sí, dado un fenómeno determinado,
como la relación entre consumo e ingreso? Por ejemplo, ¿como se sabe que en realidad
los datos respaldan la teoría keynesiana del consumo?¿Se debe a que la función
consumo keynesiana estimada, por ejemplo, a través de la recta de regresión de la
Figura 1.2, se asemeja mucho a los puntos reales que representan datos?¿Será posible
que otro modelo (teoría) de consumo pudiera ajustarse igual de bien a los datos? Por
ejemplo, Milton Friedman desarrolló otro modelo de consumo, llamado “la hipótesis del
ingreso permanente”. Robert Hall también desarrolló un modelo de consumo, llamado
“hipótesis del ciclo de vida del ingreso permanente”. ¿Alguno o ambos modelos
podrían también ajustarse a los datos? La metodología econométrica clásica consistente

7
en los ocho pasos que se acaban de presentar es neutral, en el sentido de que puede
utilizarse para probar cualquier hipótesis rival.

Figura 1.4. Anatomía de la elaboración de modelos econométricos.

Teoría Económica

Modelo matemático de la Teoría

Modelo econométrico de la Teoría

Datos

Estimación del modelo Econométrico

Prueba de hipótesis

Predicción

Uso del modelo para fines de control o política

Fuente: Elaboración propia a partir de Gujarati D.N. (2010)

1.2. El análisis de regresión: Función de regresión poblacional y muestral.

1.2.1. Análisis de Regresión.

Definición: El análisis de regresión es el estudio de la dependencia de una variable,


denominada como dependiente, respecto a una o más variables, denominadas
explicativas, con el objeto de estimar y/o predecir la media o valor promedio
poblacional de la variable dependiente en términos de los valores conocidos o fijos (en
muestras repetidas) de las variables explicativas.

8
Ejemplo
Se puede estar interesado en estudiar la dependencia del gasto de consumo personal
respecto del ingreso personal neto disponible (después de impuestos). Este análisis
puede ser útil para estimar la propensión marginal a consumir, es decir, el cambio
promedio del gasto en consumo ante un cambio de 1 unidad monetaria en el ingreso
real.

Ejemplo
El director de mercado de una compañía desea saber la forma cómo se relaciona la
demanda del producto de su compañía con el gasto de publicidad. Un estudio de este
tipo será de gran ayuda para encontrar la elasticidad de la demanda con respecto a los
gastos de publicidad. Este conocimiento puede ser útil para determinar el presupuesto
"óptimo" de publicidad.

Notas sobre el análisis de regresión:

1. El análisis de regresión está interesado en conocer la dependencia estadística entre


variables y no la dependencia funcional o determinista propia de la física clásica. En las
relaciones estadísticas entre variables se trabaja con variables que son aleatorias o
estocásticas, es decir, variables que tienen una distribución de probabilidad. Por el
contrario, en la dependencia funcional o determinista también se manejan variables,
pero éstas son no aleatorias o no estocásticas.

Ejemplo: Relación estadística.


Si se trata de analizar el valor añadido bruto (VAB) del sector industrial, se sabe que
depende del precio de las materias primas, del tipo de cambio, etc. pero la relación entre
el VAB de este sector y las variables explicativas citadas (precio de materias primas,
etc.) no permiten al economista predecir de forma exacta el VAB de este sector debido a
los errores involucrados en la medición de las variables explicativas y debido a otras
serie de factores (variables), que pueden afectar colectivamente al VAB industrial total
de ese país pero que pueden ser difíciles de identificar individualmente. Así pues,
existirá alguna variabilidad "intrínseca" o aleatoria en la variable dependiente, que no

9
puede ser explicada en su totalidad independientemente de las variables explicativas que
consideremos.

Ejemplo: Relación determinista: Ley de gravedad de Newton.


"Toda partícula en el universo atrae a cualquier otra partícula con una fuerza
directamente proporcional al producto de sus masas e inversamente proporcional al
cuadrado de la distancia entre ellas".
 m ⋅m 
F =k 1 2 2 
 r 
donde F=fuerza, m1 y m2 son las masas de las dos partículas, r = distancia entre ellas, y
k= constante de proporcionalidad.

Esta relación es exacta a no ser que exista algún error de medición, por ejemplo en la k.
Si este fuera el caso, la relación determinista se convertiría en estadística.

2. El análisis de regresión no implica causalidad necesariamente, pese a que analiza la


dependencia de una variable respecto de otras variables. Para aducir causalidad se debe
acudir a estadísticas externas y, en último término, a una u otra teoría, como argumentan
Kendall y Stuart (1961), es decir, a consideraciones a priori o teóricas. Así, en el
ejemplo del VAB industrial no hay razón estadística para no pensar que no dependa de
las exportaciones industriales. El que dependa suele ser debido a consideraciones no
estadísticas: por ejemplo el sentido común, a la teoría económica, etc.

3. Aunque el análisis de regresión está estrechamente relacionado con el de correlación,


no es lo mismo. Así, el análisis de regresión trata de estimar o predecir el valor
promedio de una variable sobre la base de valores fijos de otras variables. Por ejemplo,
se puede tratar de analizar el promedio de la calificación de un examen de econometría
conociendo la calificación de los estudiantes de un examen de matemáticas. Por el
contrario, un análisis de correlación pretende analizar el grado de asociación lineal entre
dos variables, es decir, se puede tratar de encontrar la correlación entre las
calificaciones obtenidas en un examen de econometría y las de un examen de
matemáticas.

10
Las diferencias fundamentales entre la regresión y la correlación son las siguientes:

a) En un análisis de regresión hay asimetría en el tratamiento que se da a las variables


dependientes y explicativas, se supone que la variable dependiente es estadística,
aleatoria o estocástica, es decir, que tienen una distribución de probabilidad, mientras
que se supone que las variables explicativas tienen valores fijos (en muestras repetidas).

b) En el análisis de correlación, se tratan variables en forma simétrica no distinguiendo


entre la variable dependiente y las explicativas, suponiendo además que las dos
variables son aleatorias.

4. En la teoría económica, los términos de variable explicativa y dependiente se


pueden describir de varias maneras.
a) Variable explicativa: Variable independiente, predictor, regresor, variable de control,
variable exógena, variable impulso.
b) Variable dependiente: Variable dependiente, variable explicada, variable predicha,
regresando, variable respuesta, variable endógena, variable controlada.

5. Tipos de análisis de regresión:


a) Regresión simple, o con dos regresores (si consideramos la constante como uno de
ellos), cuando se estudia la dependencia de una variable respecto a una única explicativa
diferente a la constante (k=2)6.
b) Regresión múltiple: Si se estudia la dependencia de una variable respecto a más de
una variable explicativa (k>2).

6. Tipos de información: series temporales, de corte transversal e información


combinada.
a) Series temporales: un conjunto de observaciones sobre los valores que toma una
variable en diferentes momentos del tiempo. Esta información debe ser recopilada en
intervalos regulares, es decir, diariamente, mensualmente, trimestralmente,
semestralmente, anualmente, etc.

6
Hay manuales como el básico que utilizamos en la asignatura y que aparece en el programa en el que no
se tiene en cuenta la constante como regresor, por lo que k=1 (variables explicativas) en el modelo de
regresión lineal simple y k>1 en el modelo de regresión lineal múltiple.

11
La mayor parte del trabajo empírico basado en datos de serie temporales supone que
éstas son estacionarias. Aunque es pronto para introducir dicho concepto, se puede decir
que por ejemplo, el PIB es estacionario si el valor de su media y varianza no varían
sistemáticamente con el tiempo.

b) Series de corte transversal: son datos de una o más variables recogidos en el mismo
momento del tiempo. Por ejemplo, las encuestas de gastos del consumidor realizadas
cada x años, información sobre el VAB de todas las regiones españolas en el año 2010,
etc. Estas series presentan problemas específicos de heterogeneidad, ya que puede haber
regiones con un VAB muy pequeño y otras con uno muy elevado. En este caso, el
efecto de tamaño o escala debe ser tenido en cuenta.

c) Información combinada o de panel o longitudinal: Una misma unidad de corte


transversal (por ejemplo, lo que consumen unas familias determinadas) es estudiada a lo
largo del tiempo.

Además, la información así reunida puede ser: i) cuantitativa (ej. precios, ingresos,
oferta monetaria) y ii) cualitativa (ej. sexo, estado civil, nivel de estudios).

7. La letra Y la utilizaremos, en nuestro curso y en general, para representar la variable


dependiente y las X(X1, X2,...,Xk) representarán las variables explicativas, siendo Xk la k-
ésima variable explicativa.

Los subíndices i o t denotan la observación o valor i-ésimo o t-ésimo respectivamente.


Por convención se utiliza el subíndice i para datos de corte transversal (información,
datos y observaciones, recogida en un punto del tiempo) y el subíndice t para datos de
series temporales (información recogida a lo largo de cierto periodo). Por tanto, Xki (o
Xkt) denotan la i-ésima (o t-ésima) observación de la variable Xk.

N (o T) representan el número total de observaciones o valores en la población y n (o t)


el número total de observaciones en una muestra.

12
8. El éxito del análisis de regresión depende de la disponibilidad de la información
apropiada. Los datos utilizados en el análisis empírico pueden ser recogidos por una
agencia gubernamental o internacional, o una organización privada o individuo.

La información reunida por estas agencias puede ser de naturaleza:


a) experimental: donde el investigador controla los datos, es decir, los puede recopilar
manteniendo constantes ciertos factores, con el fin de evaluar el impacto de otros
factores sobre un fenómeno dado. Por ejemplo, se puede estimar el impacto del
colesterol sobre la presión arterial, donde el investigador puede reunir información
manteniendo constantes los hábitos alimenticios, el fumar y el beber de las personas con
el fin de minimizar la influencia de estas variables sobre la presión arterial. Este tipo de
información se reúne principalmente en las ciencias naturales.

b) no experimental: En las ciencias sociales, los datos obtenidos son generalmente de


naturaleza no experimental, es decir, no sujetos al control del investigador. Por ejemplo,
los datos sobre el PIB, desempleo, etc. no están directamente bajo el control del
investigador. Esta falta de control frecuentemente genera problemas especiales para el
investigador para identificar las causas exactas que afectan a una situación particular.
Internet ha revolucionado la labor de recopilación de datos. Es necesario tener en cuenta
que el resultado de la investigación será tan bueno dependiendo de como sea la calidad
de los datos. Por consiguiente, si en situaciones dadas los investigadores encuentran que
los resultados de la investigación son "insatisfactorios", la causa puede ser la mala
calidad de los datos y no la utilización de un modelo equivocado. Desafortunadamente,
debido a la naturaleza no experimental de los datos utilizados en la mayoría de los
estudios de las ciencias sociales, los investigadores con frecuencia no tienen otra
alternativa que depender de la información disponible. En el proceso de investigación se
debe tener en mente que los datos utilizados pueden no ser los mejores y deben tratar de
no ser muy dogmáticos sobre los resultados obtenidos.

13
1.2.2. Función de regresión poblacional y muestral.

1.2.2.1. Función de regresión poblacional.

Para entender mejor qué es una función de regresión poblacional veamos el siguiente
ejemplo:

Ejercicio 1.1:
Supongamos que tenemos un país hipotético con 16 familias. Nuestro objetivo es
analizar la relación entre el gasto de consumo familiar (Y) y el ingreso mensual
después de impuestos (X), de manera que obtengamos la predicción de la media
(poblacional) del gasto de consumo familiar mensual conociendo el ingreso
mensual.

Para ello, dividimos las familias en 3 grupos con niveles de ingresos aproximadamente
iguales y examinamos los gastos de consumo de las familias que conforman cada uno
de estos grupos.

Tabla 1.1: Distribución condicional de Y


X
Y 900€ 1500€ 2100€
720 1200 1600
600 650 1800
650 1300 1900
800 1100 850
550 900 1230
--- --- 996
Total 3320 5150 8376
Fuente: Elaboración propia

Así, para una renta de 900 € existen 5 familias cuyo gasto en consumo se sitúa entre
550 € y 800 €, de la misma manera para una renta de 2.100 euros existen 6 familias con
un consumo entre 850 euros y 1.900 euros. Así, cada columna presenta la distribución
del gasto de consumo Y correspondiente a un nivel de ingreso (X) fijo, es decir,
proporciona la distribución condicional de Y, condicionada a los valores dados de X.

14
Teniendo en cuenta que las cifras de dicha Tabla representan la población, se pueden
calcular fácilmente las probabilidades condicionales de Y, p(Y X ), o proporción de

veces o frecuencia relativa con que se espera que se presente un suceso. Así, la
probabilidad de Y dado X se puede calcular de la siguiente manera: Para una renta de
900 € hay 5 valores de Y. Por consiguiente, la probabilidad de obtener cualquiera de los
siguientes gastos: 720, 600, 650, 800, 550 es de 1/5. Simbólicamente, p(Y=720
X =900)=1/5. De forma similar p(Y=1600 X =2100)=1/6 y así sucesivamente.

Tabla 1.2: Distribución de probabilidades


X
P(Y X ) 900€ 1500€ 2100€
1/5 1/5 1/6
1/5 1/5 1/6
1/5 1/5 1/6
1/5 1/5 1/6
1/5 1/5 1/6
--- --- 1/6
Medias condicionales 3320/5=664 5150/5=1030 8376/6=1396
de Y[E(Y/Xi)]
Fuente: Elaboración propia

Para cada una de las distribuciones de probabilidad condicional de Y podemos


calcular su media o valor promedio, conocido como la media condicional o esperanza
condicional E(Y X =Xi) que se lee "el valor esperado de Y dado que X adquiere el valor

específico de X=Xi". En nuestro ejemplo la esperanza de Y dado X=900 € se calcula así:


720(1/5)+600(1/5)+650(1/5)+800(1/5)+550(1/5)=144+120+130+160+110=664.

Calculamos el resto:
E[Y X i =1.500]=1.200(1/5)+650(1/5)+1.300(1/5)+1.100(1/5)+900(1/5)=1.030

E[Y X i =2.100]=1.600(1/6)+1.800(1/6)+1.900(1/6)+850(1/6)+1.230(1/6)+996(1/6)=1.396

A continuación dibujamos el diagrama de dispersión (ver Figura 1.5).

15
Figura 1.5: Diagrama condicional del gasto para diversos niveles de ingresos.
Y (Consumo)



 E[Y/Xi]

 

 

 

 

900 1500 2100
Fuente: Elaboración propia

Figura 1.6. Recta de regresión poblacional (datos de la Tabla 1.1).


664 1030 1350

1396

1030 =2100

664

900 1500 2100

Fuente: Elaboración propia

La Figura anterior muestra la distribución condicional de Y correspondiente a diversos


valores de X. Aunque existen variaciones de los gastos de consumo de cada familia
individualmente considerada, el valor promedio de consumo aumenta a medida que el
ingreso aumenta. Las medias condicionales caen sobre una línea recta con pendiente
positiva que se conoce como línea de regresión poblacional, o más generalmente, la
curva de regresión poblacional o la regresión de Y sobre X.

Definición de curva de regresión poblacional: es el lugar geométrico de las medias


condicionales o esperanzas de la variable dependiente para valores fijos de la(s)
variable(s) explicativas(s).

16
A partir de lo visto anteriormente es evidente que cada media condicional E(Y X i ) es

función de Xi. Simbólicamente,

E (Y X i ) = f ( X i )

La ecuación anterior es conocida como la función de regresión poblacional en dos


variables o regresión poblacional, para abreviar. Nos dice cómo la media, o respuesta
promedio de Y, varía con X.

Forma de la función f(Xi): Es difícil conocerla porque en una situación real no


tenemos a nuestra disposición la totalidad de la población para efectuar el análisis. Por
consiguiente, la forma de dicha función es una cuestión empírica, no obstante, también
se puede obtener a partir de la teoría que nos puede orientar al respecto.

Por ejemplo, si como hipótesis de trabajo consideramos que E(Y X i ) es una función

lineal de Xi del tipo:

) β1 + β 2 X i
E (Y X i= (1.1)

β1 y β2 son parámetros no conocidos, pero fijos, que se denominan coeficientes de


regresión. El primero de ellos se llama intercepto (constante) y el segundo coeficiente
de la pendiente, respectivamente. La ecuación anterior es en sí misma conocida como la
función de regresión lineal poblacional o simplemente la regresión lineal
poblacional (modelo de regresión lineal poblacional o ecuación de regresión
poblacional).

Objetivo del análisis de regresión: El análisis de regresión pretende estimar la


función de regresión poblacional anterior, es decir, determinar los valores de los
parámetros β1 y β2 no conocidos basándose en las observaciones de Y y X. La pendiente
de nuestra función de regresión poblacional es 0,61 y la constante 115.

17
Especificación estocástica de la Función de Regresión Poblacional (FRP):
Del ejemplo anterior se desprende que a medida que el ingreso familiar aumenta, el
gasto de consumo familiar promedio también lo hace, pero no tiene porqué suceder lo
mismo con el gasto de consumo de una familia concreta. Así, por ejemplo, hay una
familia con una renta de 1500 euros que consume 650, que es menos de lo que consume
por ejemplo una familia con una renta de 900 euros con un consumo de 800.

Por consiguiente, se puede expresar la desviación de un Yi individual alrededor de su


valor esperado de la manera siguiente:
u=
i Yi − E (Y X i )

Despejando Yi tenemos la función de regresión poblacional en su forma estocástica.


Yi = E (Y X i ) + ui = β1 + β 2 X i + ui (1.2)

donde la desviación ui es una variable aleatoria no observable que toma valores


positivos o negativos. Técnicamente es conocida como perturbación aleatoria
(estocástica) o término de error aleatorio (estocástico).

La expresión (1.2) se puede interpretar como el gasto de una familia individual, dado
su nivel de ingresos. Este gasto puede ser expresado como la suma de dos componentes:

1. E(Y X i ) es el componente sistemático o determinístico. Representa la media

del gasto de consumo de todas las familias con el mismo nivel de ingresos.

2. ui el componente aleatorio o no sistemático. De momento vamos a suponer


que es un término que sustituye o representa a todas las variables omitidas o
ignoradas que puedan afectar a Y pero que no están incluidas en el modelo de
regresión.

Así, los gastos de consumo individual dado Xi=900 € serían los siguientes:
Y1 = β1 + β 2 (900) + u1
720 =
Y2 = β1 + β 2 (900) + u2
600 =
Y3 = β1 + β 2 (900) + u3
650 =

18
Considerando la expresión (1.2) y calculando el valor esperado en ambos lados se
tiene:
E(Y X i )=E[E(Y X i )]+E ( ui X i ) (1.3)

El valor de E(Y X i ) una vez que se fija Xi es una constante, por lo que el valor

esperado de una constante es la misma constante, es decir, E[E(Y X i )]=E(Yi X i ). Por

consiguiente, se desprende que en la expresión (1.3) E(ui X i )=0. Es decir, el supuesto

de que la línea de regresión pasa a través de las medias condicionales de Y implica que
los valores de la media condicional de ui (condicionadas al valor dado de X) son cero.

Nota: Teniendo en cuenta lo anterior, las expresiones (1.1) y (1.2) son formas
equivalentes, pero la especificación estocástica (1.2) tiene la ventaja que muestra
claramente otras variables, además del ingreso, que afectan al gasto de consumo.

Vamos a comprobarlo:

La primera familia de la Tabla 1.1 con una renta de 900 € realiza un consumo de 720 €.
Para este nivel de renta, el consumo que se espera (o consumo promedio) es de 664 €.
La desviación del consumo de esta familia respecto del nivel de consumo que se
esperaba es de 56. Este es el error o perturbación aleatoria que corresponde a esta
familia. Calculando para el resto de familias de nuestra población obtendríamos la
siguiente Tabla. En ella se puede observar que el valor esperado de las perturbaciones
aleatorias es cero.

19
Tabla 1.3: Perturbaciones aleatorias
X
u 900 1500 2100
56 170 204
-64 -380 404
-14 270 504
136 70 -546
-114 -130 -166
-400
E(u/Xi) 0 0 0
Fuente: Elaboración propia

Significado del término de perturbación aleatoria: se trata de un sustituto para


todas aquellas variables que son omitidas del modelo pero que, en su conjunto, afectan a
Y.

Se omiten variables debido a:

1. Vaguedad de la teoría.
2. No disponibilidad de información.
3. Coste elevado de introducir un conjunto de variables que afectan a la
endógena pero que aportan una información pequeña.
4. Aleatoriedad intrínseca en el comportamiento humano.
5. Variables aproximadas (proxy) con posibles errores de medición.
6. Principio de parsimonia: modelo de regresión lo más sencillo posible
permitiendo que ui represente todas las demás variables siempre que no
incluya variables relevantes.
7. Forma funcional incorrecta.
1.2.2.2. Función de Regresión Muestral (FRM):
En la práctica sólo se puede trabajar con un subconjunto de la población o muestra,
por lo que la labor ahora será estimar la función de regresión poblacional con base en
información muestral.

Supongamos que no se conoce la Tabla 1.1 con datos de toda la población y que sólo
se tiene información procedente de dos muestras como las siguientes:

20
Tabla 1.4: Muestra 1
Y X
1200 1500
800 900
1600 2100
Fuente: Elaboración propia

Tabla 1.5: Muestra 2


Y X
720 900
1300 1500
1800 2100
Fuente: Elaboración propia

Si trazamos el diagrama de dispersión (ver Figura 1.7) observamos dos líneas de


regresión muestral correspondientes a las dos muestras anteriores (FRM1 o Yˆ1 y

FRM2 o Yˆ2 ). Sin embargo, no se sabe cuál de las dos líneas o (curvas) es la que mejor

se aproxima a la verdadera línea de regresión poblacional E[(Y X i ) ] 7.

Figura 1.7: Rectas de regresión basadas en dos muestras diferentes

FRM2= Yˆ2
Y FRM1= Yˆ1

X
Fuente: Elaboración propia

Así, la expresión muestral de la ecuación (1.1) es la siguiente:


βˆ1 βˆ2 X i → Función de Regresión Lineal Muestral
Yˆi =+

7
En el apartado 1.3 estudiaremos uno de los procedimientos más utilizados para obtener la FRM que
mejor se aproxima a la FRP.

21
Por tanto, la FRM es una estimación del valor esperado de la variable endógena dado un
valor o valores de la variable(s) explicativa(s), donde Yˆ se lee "Y-gorro" o "Y-

sombrero", Yˆi es un estimador8 de E (Y X i ) , β̂1 y β̂ 2 son estimadores respectivos de β1

y β2 .
La FRM en su forma estocástica se especificaría así:

βˆ1 + βˆ2 X i +uˆ i → Función de Regresión Lineal Muestral Estocástica,


Yi =

donde se añade el residuo û i que se introduce en la función de regresión muestral por


las mismas razones que ui fue introducida en la función de regresión poblacional.
Conceptualmente û i se puede considerar como un estimador de ui.

En resumen:
El objetivo del análisis de regresión es estimar la función de regresión poblacional:

Yi = E (Y X i ) + ui = β1 + β 2 X i + ui

basándonos en la función de regresión muestral:


Y=
i βˆ1 + βˆ2 X i +uˆ i
debido a que son más frecuentes los casos en que el análisis está basado en una muestra
tomada de una población, pero el valor estimado de la función de regresión poblacional
basado en la muestral es, en el mejor de los casos, una aproximación, entonces, para
X=Xi y Y=Yi, la Yi observada se puede expresar así:
Y=
i Yˆi + uˆi
Mientras que en términos de la función de regresión poblacional:

=Yi E (Y X i ) + ui

8
Un estimador (también conocido como estadístico) es simplemente una regla o fórmula o método que
dice cómo estimar el parámetro poblacional a partir de la información suministrada por la muestra
disponible. El valor numérico particular obtenido por el estimador en una aplicación se conoce como
estimado.

22
En la Figura 1.8 se muestra un ejemplo gráfico de FRM y FRP:

Figura 1.8 Rectas de regresión muestral y poblacional:


Y
FRM= Y=ˆ βˆ + βˆ X
i 1 2 i

] β1 + β 2 X i
FRP= E[Y X i=

X
Fuente: Elaboración propia

El siguiente apartado centra su atención en cómo desarrollar procedimientos que


construyan la función de regresión muestral tan próxima como sea posible a la
poblacional.

1.3. El método de mínimos cuadrados ordinarios

El método de mínimos cuadrados ordinarios (MCO) es uno de los


procedimientos que existen para calcular, a partir de información muestral, una función
de regresión muestral que permita estimar la función de regresión poblacional.

Este método se atribuye a Carl Friedrich Gauss, matemático alemán, y es uno de los
más utilizados ya que tiene algunas propiedades atractivas que lo han convertido en uno
de los más eficaces.

1.3.1. Principio de los mínimos cuadrados:

En el apartado1.2.2. se vio como era la función de regresión poblacional (FRP)


simple, donde sólo había dos regresores. Ahora lo generalizaremos al caso de un
número mayor de regresores.

Yi=β1+β2X2i+…+ βkXki+ui i=1,2,..., N, (1.4)

23
siendo N el tamaño de la población. Si hacemos extensiva la expresión anterior a la
relación entre observaciones, tenemos el siguiente conjunto de N ecuaciones:
Y1 = β1 + β 2 X 21 + β3 X 31 +  + β k X k1 + u1 

Y2 = β1 + β 2 X 22 + β3 X 32 +  + β k X k 2 + u2 

 
YN = β1 + β 2 X 2 N + β3 X 3 N +  + β k X kN + u N 

Alternativamente, es posible expresar las N ecuaciones en forma matricial:


 Y1  1 X 21 X 31  X k1   β1   u1 
Y  1 X X 32  X k 2   β 2   u2 
= 2  22
+ ,
            
      
YN  1 X 2 N X 3 N  X kN   β k  u N 

donde, la expresión de los valores del regresando (Y), de la matriz de regresores (X), los
parámetros del modelo (β) y las perturbaciones aleatorias (u) son las siguientes:

 Y1  1 X 21 X 31  X k1   β1   u1 
Y  1 X X 32  X k 2  β  u 
Y=  2  , X=  22
, β=  2  y u=  2 
            
       
YN  1 X 2 N X 3 N  X kN   βk  u N 
Es posible representar matricialmente la ecuación del modelo (1.4) de la siguiente
forma:
Y=Xβ+u (1.5)
La columna K-ésima de la matriz X contiene las N observaciones de la variable XK, para
K=1,2,…,k. Por ejemplo, la tercera columna contiene las N observaciones de la variable
X3, es decir, X31, X32,…,X3N. Respecto a la primera columna, para homogeneizar el
tratamiento de los regresores podemos considerar que el término independiente está
multiplicado por el regresor X1i, el cual siempre toma el valor 1, o sea,
X1i=1, i=1,2,…,N

Cabe señalar que el modelo (1.4) y, por tanto, la ecuación (1.5) contienen k-1 variables
explicativas, X2, X3, …,Xk, o k regresores, X1,X2, X3, …,Xk.

En la regresión lineal simple, es decir, cuando k=2 y se dispone de N observaciones


sobre Y y sobre X, la estimación de los coeficientes del modelo consiste en ajustar una

24
recta a los puntos (Xi, Yi), con i=1,2,…,N. En la regresión lineal múltiple, es decir,
cuando k>2, se trata de ajustar un hiperplano al conjunto de observaciones sobre el
regresando y los k regresores.

La FRP (1.4), o en su versión matricial (1.5), en general, no es observable directamente,


por lo que debe ser estimada a partir de la FRM, como la siguiente:
Yi = βˆ1 + βˆ2 X 2i + ... + βˆk X ki + uˆi = Yˆi + uˆi i=1,2,...,n.
  
Yˆi

donde Yˆi es el valor estimado de la media condicional de Yi o el estimador de

E(Y X i ) y n el tamaño muestral o número de observaciones de que consta la muestra.

Dadas n observaciones de Y y de X2,…,Xk , se está interesado en determinar la FRM


de tal manera que esté lo más cerca posible al valor de Y observado. Para obtener la
FRM se podrían adoptar varios criterios:

1. Minimización de la suma de los residuos: debido a que la FRM se puede


expresar así: uˆi = Yi − Yˆi = Yi − βˆ1 − βˆ2 X 2i − ... − βˆk X ki , se puede tratar de seleccionar la

∑ (Y − Yˆ ) .
n
FRM que consiga minimizar la suma de los residuos ∑
= uˆi i i
i =1

Nota: A partir de ahora prescindiremos de los subíndices y superíndices en los


sumatorios con el fin de facilitar la nomenclatura para referirnos a la suma sobre las
observaciones muestrales.

Críticas: Aunque intuitivamente es un criterio atractivo, no es muy bueno, tal y como


se puede ver en la Figura 1.9, para el caso de dos regresores. Ello es debido a que los
residuos uˆ2 y uˆ3 reciben el mismo peso en la suma ( uˆ1 +uˆ2 + uˆ3 + uˆ4 ) que los residuos

más elevados uˆ1 y uˆ4 , pese a que los dos primeros están más cerca de la FRM que los

segundos. Es decir, se les proporciona a todos los residuos la misma importancia sin
importar lo cerca o dispersas que estén las observaciones individuales de la FRM, por lo
que es posible que la suma sea pequeña pese a que existan residuos bastantes dispersos

25
alrededor de la FRM. Además, se pueden cancelar los signos y obtener una suma de
residuos próxima a cero, incluso nula, como se muestra en el ejemplo siguiente:
Figura 1.9. Criterio de mínimos cuadrados

Fuente: D.N. Gujarati (2004)

* Ejemplo

Suponga que uˆ1,uˆ2 , uˆ3 y uˆ4 de la Figura anterior tienen los siguientes valores

respectivos: 8, -3, 3, -8. La suma algebraica de estos residuos es cero a pesar de que

uˆ2 y uˆ3 presentan una menor dispersión alrededor de la FRM que uˆ1 y uˆ4 .

Para evitar este problema se adopta el criterio siguiente:

2. Criterio de mínimos cuadrados ordinarios: este criterio establece que la FRM

puede determinarse en forma tal que la suma al cuadrado de los residuos (SCR) sea la

menor posible:

26
∑ uˆ= ∑ (Y ∑ (Y )
2
=
SCR 2
i i − Yˆi )=
2
i − βˆ1 − βˆ2 X 2i − ... − βˆk X ki

Con este procedimiento se da más peso a los residuos mayores por lo que ahora no

puede darse el fenómeno anterior, puesto que cuanto mayor sea el residuo es mucho

mayor su cuadrado y se evita la cancelación de signos entre residuos o compensación de

los mismos.

Ventaja: Este procedimiento tiene propiedades estadísticas que lo hacen muy deseable

(se verán más adelante).

Ejercicio 1.2:
Supongamos una ecuación de demanda como la siguiente:
β1 β 2 X 2t + ut ,
Yt =+

donde Yt es la demanda de un bien (medida en miles de unidades) y X2 es el precio


del bien (en euros/unidad), para el periodo anual 2008-2013:
Tabla 1.6
Y X2
15 7
30 5
24 4
65 2
57 3
60 2
Dados dos conjuntos de valores posibles de los coeficientes de regresión estimados
siguientes:
Conjunto A: β̂1 =50,20, βˆ2 = −8,3
Conjunto B: β̂ =80,54, βˆ = −10,09
1 2
Determine, utilizando el procedimiento de la minimización de la SCR, cuál de ellos
sería más apropiado.
Conjunto A:
Para β̂1 =50,20 y βˆ2 = −8,3 obtendré los siguientes valores de Yˆt y de uˆt :
Yˆt uˆ= Y − Yˆ
t t
uˆ 2
t t
2
50,20-8,3(7)=-7,9 15+7,9= 22,9 (22,9) =524,41
50,20-8,3(5)= 8,7 30-8,7= 21,3 453,69
50,20-8,3(4)= 17,0 24-17= 7,0 49,00
50,20-8,3(2)= 33,6 65-33,6=31,4 985,96
50,20-8,3(3)= 25,3 57-25,3=31,7 1004,89
50,20-8,3(2)= 33,6 60-33,6=26,4 696,96
∑ uˆt = 3714,91
2

El valor de la SCR o ∑ uˆt2 es 3.714,91 .

27
Conjunto B:
Ahora supongamos el mismo conjunto de datos pero para β̂1 =80,54, βˆ2 = −10, 09 ,

obtendré los siguientes valores de Yˆi y de uˆi :

Yˆt uˆ=
t Yt − Yˆt uˆt 2
80,54-10,09(7)=9,91 15-9,91=5,09 5,092=25,9081
80,54-10,09(5)=30,09 30-30,09=-0,09 0,0081
80,54-10,09(4)=40,18 -16,18 261,7924
80,54-10,09(2)=60,36 4,64 21,5296
80,54-10,09(3)=50,27 6,73 45,2929
80,54-10,09(2)=60,36 -0,36 0,1296
∑ uˆt = 354,6526
2

El valor de la SCR o ∑ uˆt2 es 354,6526 .

La SCR, como da mayor peso a los residuos más elevados y menor a los más bajos,
muestra como la pareja de estimadores β̂1 =80,54 y βˆ2 = −10, 09 consigue aproximar
con mayor precisión la FRM a los verdaderos valores de la FRP al presentar un menor
valor. El método de estimación Mínimos Cuadrados Ordinarios (MCO) permitirá
obtener, bajo ciertos supuestos, aquéllos valores de los estimadores β que minimicen la
SCR. Este procedimiento tiene una serie de ventajas:

Ventajas del procedimiento MCO respecto a minimizar la suma de los residuos:

1. Se evita la cancelación de los signos, ya que al elevar al cuadrado todos los elementos
de la suma de las observaciones residuales lleva a que sean positivos.
2. Penaliza los residuos más grandes.
3. Los valores estimados de los parámetros van a ser únicos.

Además, considerando una serie de supuestos, que se desarrollan en el Apartado 1.5,


permitirá que los estimadores mínimocuadráticos de los coeficientes de regresión tengan
buenas propiedades, explicadas en el Apartado 1.6. A continuación, vamos a ver cómo
se calcula el valor de dichos estimadores basándonos en el procedimiento de la
minimización de la SCR o utilizando el procedimiento de los MCO.

28
1.3.2. Derivación de los estimadores MCO:

A través del cálculo matricial vamos a tratar de obtener los valores de los estimadores
de los coeficientes de regresión (véase el Anexo 1.1 para la derivación de los
estimadores MCO de manera no matricial y para k=2). Sabemos que el modelo lineal
de regresión muestral múltiple se puede escribir según la ecuación siguiente:
Yi = βˆ1 + βˆ2 X 2i + ... + βˆk X ki + uˆi , i=1,2,…,n
y en forma matricial, con datos muestrales y, por tanto, con n observaciones muestrales,
se puede escribir así:

 Y1   1 X 21 X 31  X k1   βˆ1   uˆ1 
      
 Y2   1 X 22 X 32  X k 2   βˆ2   uˆ2 
= +
             
   1 X   
X kn   βˆ   uˆn 
Y n   2n X 3n
 k

donde por ejemplo X32 se corresponde con la segunda observación de la variable X3.

También sabemos que abreviadamente podemos representarlo según la ecuación:


Y=X β̂ + û ,

donde Y es un vector nx1, X es una matriz nxk, β̂ es un vector de estimadores de β de


dimensión kx1 y û un vector de residuos nx1.

En forma compacta (matricial) el problema se resuelve minimizando la función criterio


uˆ ' uˆ , esto es:

X βˆ .
mín(uˆ ' uˆ ), donde uˆ= Y − 
β

Dado que el mínimo se alcanza donde el vector de primeras derivadas es cero, de


acuerdo con las condiciones de primer orden (c.p.o) de la minimización, en primer lugar
calculamos el vector de primeras derivadas de la suma de cuadrados de residuos (SCR)
uˆ ' uˆ respecto de β̂ . Así, teniendo en cuenta que:

29
 uˆ1 
 uˆ  n
' uˆ (uˆ1 , uˆ2 ,..., uˆn )  =
= uˆ=
SCR 2
   ∑ uˆi2 ,
i =1
 
 uˆn 
también puede escribirse como:

SCR =(Y − X βˆ )'(Y − X βˆ ) =Y ' Y − Y ' X βˆ − βˆ ' X ' Y + βˆ ' X ' X βˆ =Y ' Y − 2 βˆ ' X ' Y + βˆ ' X ' X βˆ
ya que βˆ ' X 'Y = Y ' X βˆ (se trata del mismo escalar en ambas expresiones), aplicar el
criterio de mínimos cuadrados es equivalente a minimizar el escalar SCR. Para ello, se
calcula la primera derivada de SCR con respecto al vector de coeficientes mínimo
cuadráticos, β̂ , y se tiene:
∂SCR
−2 X ' Y + 2 X ' X βˆ =
= 0
∂βˆ

al igualar a cero se obtiene el sistema de ecuaciones normales:

X 'Y = X ' X βˆ (1.6).

Para poder resolver el sistema respecto a β̂ unívocamente, se debe cumplir que el


rango 9 de la matriz X’X sea igual a k. Si se cumple esta condición, se puede
premultiplicar ambos miembros del sistema por [X’X]-1:

−1 −1 −1
' X ] X 'Y [ X ' X ] =
[ X= X ' X βˆ ⇒ βˆ [ X ' X ] X 'Y

En el que X’X es una matriz de orden (kxk)que se puede expresar como:

 1 1 1 ... 1   1 X 21 X 31 ... X k 1 
X  
X 22 X 23 ... X 2 n   1 X 22 X 32 ... X k 2 
 21 
(X ' X ) = X 31 X 32 X 33 ... X 3n   1 X 23 X 33 ... X k 3 
( k ×k )   
 ... ... ... ... ...  ... ... ... ... ... 
 X k 1 X k 2 X k 3 ... X kn   1 X 2 n X 3n ... X kn 
(k x n) (n x k)

9
Se llamará rango de una matriz A de orden mxn al máximo número de columnas (o filas) linealmente
independientes o al orden de la mayor submatriz cuadrada de la matriz inicial cuyo determinantes no sea
nulo.

30
 n

∑X 2i ∑X 3i ... ∑X ki 

 ∑ X 2i ∑X ∑X X ∑X X
2
2i 2i 3i ... ki 2 i 
 
=  ∑ X 3i ∑X X 2i 3i ∑X 3i
2
... ∑X X ki 3i 
 ... ... ... ... ... 
 
 ∑ X ki ∑X ∑X ∑ X ki 
 ki X 2i ki X 3i ...
2

X’Y un vector de orden (kx1) y β̂ un vector de orden (kx1), tales que:

 1 1 1 ... 1   Y1   ∑ Yi   βˆ1 
   
X X 22 X 23 ... X 2 n  Y2 
 21    ∑ X 2iYi   βˆ2 
X 'Y = X 31 X 32 X 33 ... X 3n  Y3   ∑ X 3iYi  y βˆ =  βˆ3 
( k ×1)
     ( k x 1)
 ... 
 ... ... ... ... ...   ...   ... 
 
 X k 1 X k 2 X k 3 ... X kn  Yn   ∑ X kiYi   βˆ 
   k
(k x n) (n x 1)

Los estimadores β̂ obtenidos previamente se conocen como estimadores de mínimos


cuadrados o mínimo-cuadráticos o coeficientes de regresión estimados.
Por último, en el Anexo 1.2 se demuestra que el estimador MCO cumple también las
condiciones de segundo orden de mínimo, es decir, βˆ presenta un mínimo, que se

obtiene al derivar el vector de primeras derivadas de nuevo respecto a β̂ ’.

1.3.3. Propiedades numéricas de los estimadores MCO: Son aquéllas que se


mantienen como consecuencia del uso de mínimos cuadrados ordinarios, sin considerar
la manera cómo se generaron los datos.
I. Los estimadores MCO están expresados únicamente en términos de las
cantidades (X e Y) observables (muestras). Por consiguiente, pueden ser
fácilmente calculados.
II. Son estimadores puntuales, esto es, dada la muestra, cada estimador
proporcionará un solo valor (puntual) del parámetro poblacional relevante
(más adelante también veremos los estimadores de intervalos que
proporcionan un intervalo de valores posibles para los parámetros
poblacionales no conocidos).

III. Una vez obtenidos los estimadores de MCO a partir de la información


muestral, la recta de regresión muestral puede obtenerse fácilmente.

31
1.3.4. Interpretación de los coeficientes:

La FRP se define como el valor esperado (o parte sistemática) de la variable


dependiente más un término de perturbación aleatoria (parte aleatoria, no sistemática).
Teniendo en cuenta el supuesto: E(ui)=0 (ver Supuesto 1 del MCRL del Apartado 1.5 y
en apartado 1.2.2.1) y tomando esperanzas matemáticas en el modelo siguiente:

Yi = β1 + β 2 X 2i + ... + β k X ki +u i , i=1,...,n
se tiene:
E (Yi ) = X β en forma matricial;
E(Yi ) = β1 + β 2 X 2i + ... + β k X ki , para cada observación.

A partir de esta última expresión es fácil ver que el intercepto β1 puede interpretarse
como el pronóstico de Y cuando todas las variables explicativas, X, toman valor cero:
β1= E (Yi X 2=i X 3=i ...= X ki= 0).
Por otro lado, tomando derivadas en la FRP con respecto a uno de los regresores, por
ejemplo Xk:
∂E (Yi X 1 , X 2 ,..., X k ) ∆E (Yi X 1 , X 2 ,..., X k )
=βk = ,
∂X ki ∆X ki
el coeficiente βk puede interpretarse como el cambio (incremento o disminución) en el
valor esperado de Y cuando Xk aumenta en una unidad de medida, manteniéndose
constante todo lo demás (ceteris paribus).

Una vez cumplido el objetivo de estimar el vector de parámetros desconocidos


β’=( β1 β 2 ...β k )’ mediante un estimador βˆ ' = ( βˆ1 βˆ2 ...βˆk )' , la FRM queda definida por
los valores ajustados (o estimados) de la variable dependiente.

* Ejercicio 1.3:
Supongamos una ecuación de demanda como la del Ejercico 1.2. siguiente:
β1 β 2 X 2t + ut ,
Yt =+

32
donde Yt es la demanda de un bien (medida en miles de unidades) y X2 es el precio
del bien (en euros/unidad). Con los datos adjuntos correspondientes a 6 periodos
anuales (2008-2013):

Tabla 1.7
Y X2
15 7
30 5
24 4
65 2
57 3
60 2

Calcule:
a) El valor estimado de los parámetros de la regresión e interprete su valor.
b) El valor estimado de Y ( Yˆ )
c) El valor de los residuos del modelo ( û )

a) Teniendo en cuenta la información anterior, se tiene:


1 7 
1 5 
 
=
1 1 1 1 1 1  1 4   n
=
∑ X 2t   6 23 
X 'X     =  
7 5 4 2 3 2  1 2   ∑ X 2t ∑ X 2t   23 107 
2

1 3
 
1 2 
X ' X =(6 ⋅ 107) − (23 ⋅ 23) =642 − 529 =113

 ( −1)(1+1)107 ( −1)(1+ 2) 23   107 −23 


=Adj ( X ' X ) = 
 ( −1)(2 +1) 23 ( −1)(2 + 2) 6   −23 6 
 
Adj ( X ' X ) = Adj ( X ' X ) ' por ser X'X simetrica
Adj ( X ' X ) ' 1  107 −23   (107
= / 113) 0,9469 −0, 2035 
Inv= X ' X ) −1
( X ' X ) (= =  =   
X 'X 113  −23 6   −0, 2035 0,0531 

33
15 
 30 
 
 1 1 1 1 1 1   24   ∑ Yt   251
=X 'Y  =    =   
7 5 4 2 3 2   65  ∑ Yt X 2t  772 
57 
 
 60 
 0,9469 −0, 2035   251
βˆ [ =
X ' X ] X 'Y 
−1
= =  
 −0, 2035 0, 0531  772 
 0,9469(251) − 0, 2035(772)   80,5699 
=   
 −0, 2035(251) + 0, 0531(772)   −10, 0853

Interpretación de los coeficientes:


β̂1 =80,5699. Es la constante del modelo o intercepto. Informa de la demanda del
bien promedio cuando el resto de variables explicativas son nulas. En nuestro caso
sólo consideramos como variable explicativa el precio del bien (k=2), por lo que
sería el valor promedio o esperado de la demanda del bien cuando su precio es cero.
Es decir, la demanda del bien, independientemente de su precio, es de 80,5699 miles
de unidades.
∂E (Yt X 1 , X 2 )
β̂ 2 =-10,0853= βˆ2 = , es la derivada de la variable dependiente
∂X 2t
respecto a la variable X2, ceteris paribus. Mide el efecto medio que provoca sobre la
demanda de un bien (Y) un incremento unitario en la variabl X2, manteniendo
constante el resto de variables explicativas. En nuestro ejemplo sólo tenemos una
variable explicativa (k=2), por lo que no hay que considerar constante ninguna otra
variable. Su interpretación es la siguiente: “si el precio del bien aumenta
(disminuye) en 1€/unidad, el valor promedio de la demanda del bien disminuirá
(aumentará) en 10,0853 miles de unidades o en 10.085,3 unidades.”

34
b) El vector Yˆ vendrá dado por:
1 7   80,5699 − 10, 0853(7) =
9,9728 
1 5  80,5699 − 10, 0853(5) =30,1434 
  
1 4   80,5699   40, 2287 
= Yˆ X= βˆ   =   
1 2   −10, 0853  60,3993 
1 3   50,3140 
   
1 2   60,3993 
c) y û será:
15   9,9728   5, 0272 
30   30,1434   −0,1434 
     
 24   40, 2287   −16, 2287 
uˆ = Y − Yˆ =   −  = 
65
   60,3993   4, 6007 
57   50,3140   6, 6860 
     
 60   60,3993   −0,3993 

* Ejercicio 1.4 (Idem Ejercicio 1.3, pero con Gretl)

Supongamos una ecuación de demanda como la siguiente:


β1 β 2 X 2t + ut ,
Yt =+

donde Yt es la demanda de un bien y X2 es el precio del bien. Con los datos de la


Tabla 1.7, correspondientes a 6 periodos anuales (2008-2013):
SE PIDE:
a) El valor estimado de los parámetros de la regresión.
b) El valor estimado de Y.
c) El valor de los residuos del modelo.
d) Compare las series Y, Yˆ y uˆ y analice la bondad de ajuste del modelo.
En este ejercicio estimaremos la función de demanda del ejercicio 1.3 pero utilizando el
programa econométrico Gretl.

a) En primer lugar creamos un nuevo fichero de trabajo Archivo/Nuevo


Conjunto de Datos (Ctrl+N). Y vamos completando la información que
solicita el programa:
 Número de observaciones: 6
 Estructura del conjunto de datos: De serie temporal.

35
 Frecuencia de la serie temporal: anual
 Observación Inicial: 2008
 Empezar a introducir los valores de los datos 
 Nombre de la primera variable: Y
Para nombrar a las variables no se puede utilizar la letra ñ, ni acentos ni más de
15 caracteres.

Tras darle a Aceptar, se abre una hoja de cálculo, como la siguiente pantalla:

Figura 1.10. Creación de un fichero de trabajo

Introducimos los datos de la Tabla 1.7, para la variable Y. También introducimos los

datos de la variable X2 pulsando el botón + Añadir variable,y si tuviéramos más

variables explicativas seguiríamos pulsando el botón + Añadir variable.

Una vez introducidos los datos, es siempre conveniente examinar gráficamente las
variables que se van a analizar. Para ello, son especialmente interesantes las opciones
Ver/Gráficos/Gráfico X_Y (Scatter) e introducimos:
variable del eje x:X2
variables del eje Y:Y

36
Figura 1.11. Diagrama de Dispersión de Y frente a X2

Y con respecto a X2 (con ajuste mínimo-cuadrático)


70
Y = 80,5 - 10,1X

60

50

40
Y

30

20

10

0
2 3 4 5 6 7
X2

Podemos guardar el gráfico como icono pulsando el botón derecho del ratón y eligiendo
la opción: Guardar a sesión como icono, así como editarlo y cambiar colores
y tamaños de los puntos, quitar la recta de regresión, añadir otro tipo de ajustes de rectas
o curvas, etc. Tal y como se puede ver en el diagrama anterior, a medida que aumenta
X2 disminuye Y y la recta de regresión aparece con pendiente negativa, que se
corresponde con el valor de β̂ 2 , por lo que es un gráfico que se utiliza mucho para
analizar la relación entre la variable dependiente y sus explicativas.

También podríamos hacer otro tipo de gráfico: Ver/Gráficos/De series


Temporales y seleccionamos las dos variables.

37
Figura 1.12. Evolución de Y y X2
7 70
Y (derecha)
X2 (izquierda)

60
6

50

40

30

3
20

2 10
2008 2009 2010 2011 2012 2013

Tal y como se observa en la Figura anterior, existen dos escala de medidas diferentes, la
de la derecha (que corresponde a la variable Y) y la de la izquierda (que corresponde a
la variable X).

Estimamos los parámetros de la función planteada seleccionando Modelo/Mínimos


Cuadrados Ordinarios (MCO). En el cuadro de diálogo que aparece a
continuación introducimos la especificación de nuestra función de regresión:
Variable Dependiente:Y
Variables Independientes: const, X2
Los resultados de la regresión se presentan en la Tabla 1.8. A partir de dicha Tabla
obtenemos los valores estimados de los coeficientes de regresión (Coeficiente):

βˆ 1 = 80,5398, βˆ 2 = -10,0973

38
Tabla 1.8

Modelo 1: MCO, usando las observaciones 2008-2013 (T = 6)


Variable dependiente: Y

Coeficiente Desv. Típica Estadístico t Valor p


const 80,5398 9,16275 8,7899 0,00092 ***
X2 -10,0973 2,16975 -4,6537 0,00963 ***

Media de la vble. dep. 41,83333 D.T. de la vble. dep. 21,32995


Suma de cuad. residuos 354,6549 D.T. de la regresión 9,416141
R-cuadrado 0,844096 R-cuadrado corregido 0,805120
F(1, 4) 21,65687 Valor p (de F) 0,009635
Log-verosimilitud -20,75179 Criterio de Akaike 45,50358
Criterio de Schwarz 45,08710 Crit. de Hannan-Quinn 43,83637
rho -0,128318 Durbin-Watson 2,181674

Se puede guardar también como icono para poder acceder a la regresión cuando se
necesite en Archivo/Guardar a sesión como icono.

b) El valor estimado de la variable Y es el siguiente:

Yˆt = 80,5398 − 10, 0973 ⋅ X 2t

Dicho valor se puede calcular con Gretl, seleccionando en la pantalla de nuestro modelo
estimado 1 (ver Tabla 1.8): Análisis/Mostrar variable observada,
estimada, residuos. El resultado lo obtenemos en la siguiente Tabla, donde la

columna estimada se refiere a Yˆt . También aparecen los residuos en la última


columna:

Tabla 1.9

Rango de estimación del modelo: 2008 - 2013


Desviación típica de los residuos = 9,41614

Y estimada residuo
2008 15 9,85841 5,14159
2009 30 30,0531 -0,0530973
2010 24 40,1504 -16,1504
2011 65 60,3451 4,65487
2012 57 50,2478 6,75221
2013 60 60,3451 -0,345133
Para comprobar si el valor estimado de Yˆt se aproxima a la variable Y original, podemos
representar gráficamente ambas series seleccionando en el menú de la pantalla de la

39
ecuación de regresión estimada: Gráficos/ de Variable estimada y
observada/contra tiempo, obteniendo el gráfico de la Figura 1.13.

Figura 1.13. Evolución Y (observada) e Yˆt (estimada)

Y observada y estimada
70
estimada
observada

60

50

40
Y

30

20

10

0
2008 2009 2010 2011 2012 2013

La diferencia entre ambas variables es el término de error o de residuos de la regresión.

d) También podemos comparar la serie estimada o ajustada con la observada (Y) y


examinar los residuos del modelo. Ello nos informará sobre la bondad del ajuste del
modelo. Si el modelo es bueno, la serie ajustada será muy similar a la observada y los
residuos serán pequeños en relación con los valores observados, por lo que se situarán
próximos a cero. La Tabla con los valores de estas series, es la 1.9 obtenida
anteriormente. Podemos obtener un gráfico de los residuos Gráfico/Gráfico de
residuos/contra tiempo.

40
Figura 1.14. Evolución de los residuos

Residuos de la regresión (= Y observada - estimada)


10

0
residuo

-5

-10

-15

-20
2008 2009 2010 2011 2012 2013

Es deseable que el tamaño de los residuos no sea demasiado elevado respecto al


de la desviación típica de los mismos, porque de otro modo indicaría que los errores
cometidos al ajustar el modelo a los datos son importantes, y por tanto, que el modelo
puede no ser adecuado para explicar la variabilidad de la variable dependiente.

En la barra de herramientas de la pantalla de la ecuación de regresión estimada,


podemos guardar los residuos Guardar/Residuos creando una nueva variable
uhat1, que será la serie de residuos del modelo estimado 1 (Tabla 1.8). Asimismo,
podemos guardar los valores estimados Guardar/Valores estimados, creando
una nueva variable yhat1 que recoge los valores estimados de la variable y del modelo
estimado 1.

Si se quiere observar un gráfico de estas series, en la el menú principal de Gretl


seleccionamos: Ver/Gráficos/Gráficos Series Temporales y elegimos
las variables Y, yhat1, uhat1

41
Figura 1.15. Evolución de Y, Yˆt y uˆt

70 10
Y (izquierda)
yhat1 (izquierda)
uhat1 (derecha)

60
5

50

40

-5

30

-10

20

-15
10

0 -20
2008 2009 2010 2011 2012 2013

Este es un gráfico de doble escala. En la leyenda se especifica para cada serie la


escala de uso, es decir para la serie Y e yhat1 toma la escala izquierda y la serie
uhat1 la escala derecha. En este caso las dos series (Y e yhat1) son muy
similares, lo que nos indica que el modelo ajusta bien. De color verde se representa
la serie de residuos, que fluctúa alrededor de 0 (escala de la derecha), de forma
aleatoria, sin un patrón fijo. Como puede observarse los residuos son, en general,
pequeños en relación al valor de la variable observada, excepto en el periodo 2010,
donde el modelo predice peor y, por consiguiente, empeora la bondad de ajuste del
modelo.

1.3.5. Propiedades de la función de regresión muestral (FRM):

El procedimiento seguido para la obtención de la FRM supone que los valores


obtenidos para los coeficientes satisfacen las ecuaciones normales (1.6). De ellas se
deduce que:

42
1. La suma de los residuos es cero (véase primera ecuación normal del Anexo 1.1):

∑ uˆ i = 0.

2. Los residuos son ortogonales a las variables explicativas (o no están correlacionados


con ellas)
X ' uˆ = 0 .

3. Los residuos son ortogonales a la FRM:


Yˆ ' uˆ = 0
4. La media muestral de las estimaciones de Y (o FRM) es igual a la media muestral
de Y:

Yˆ = Y .

5. La FRM pasa por el vector de medias: El hiperplano de regresión obtenido pasa a


través de las medias muestrales de Y y X2, X3,…,Xk, es decir, pasa por el punto
(1, X 2 , X 3 ,..., X k , Y ) .

Y = βˆ1 + βˆ2 X 2 + ... + βˆk X k


  

Nota: Las demostraciones del cumplimiento de estas propiedades se exponen en el


Anexo 1.3

Ejercicio a resolver: Con los datos del ejercicio anterior, comprobar que se cumplen
las propiedades de la FRM.

1.4. El coeficiente de determinación

Una vez analizada la FRM, interesa constatar en qué medida queda explicada la
variable endógena media por el modelo estimado. Para ello, utilizaremos un estadístico
que suele utilizarse en gran medida como es el coeficiente de determinación o R2.

43
Si todas las observaciones cayeran en la línea de regresión (si k=2) o sobre el
hiperplano de regresión (si k>2) se produciría un ajuste "perfecto", pero raramente se
presenta este caso. En general, existen algunos residuos ( uˆi ) positivos y otros negativos.
La esperanza que se tiene es que estos residuos alrededor de la recta de regresión (si
k=2) o sobre el hiperplano de regresión (si k>2) sean los más pequeños posibles. Es
interesante, por tanto, saber cómo la función estimada (la FRM) se ajusta a los datos o
nube de puntos original. Cuanto mayor sea esa aproximación, mejor representadas
estarán las observaciones originales por la recta o hiperplano de regresión. La suma de
cuadrados de las desviaciones de Y respecto de su media ( Y ) (suma cuadrados total o
SCT) nos da una medida de la variación total que es preciso explicar, ya que la SCT es
la varianza muestral de la variable endógena 10 (salvo el factor tamaño muestral), y es
por tanto una medida del tamaño de las fluctuaciones experimentadas por dicha
variable alrededor de su valor medio. El objeto fundamental de todo modelo
econométrico es tratar de explicar dichas fluctuaciones. Por tanto, el ajuste realizado por
el modelo de regresión será mejor cuanto mayor sea la proporción que explica el
modelo de esa variación. El estadístico que nos mide esto es el coeficiente de
determinación o R2.

Definición: El coeficiente de determinación R² es una medida resumen que nos dice


cómo ajusta la línea de regresión muestral (si k=2) o el hiperplano de regresión (si k>2)
a los datos, es decir, cómo lo hace de bien o de mal, o qué proporción de la variación
que experimenta la variable dependiente (Y) respecto a su media está explicada por el
modelo de regresión o por las variables explicativas.

Cálculo: Debido a que el R2 se basa en la comparación entre la varianza explicada por


la recta de regresión con la varianza total, antes de ver cómo se calcula, tengamos en
cuenta la descomposición de la varianza muestral de la variable endógena Y en función
de los valores ajustados del regresando y de los residuos mínimo cuadráticos. Para ello,
vamos, en primer lugar la siguiente descomposición de la Suma de Cuadrados Total
(SCT):

10
Varianza muestral de Y=
∑ (Yi − Y )2 .
n

44
=
SCT ∑ (Y i − Y )2 =

∑ (Yˆ + uˆi i − Y )=
2
∑ ((Yˆ − Y ) + uˆ )=
i i
2

Yi= Yˆi + uˆi

 
0 
ˆ 2 ˆ ( 2
)
∑ (Yi − Y ) + 2 Yi − Y uˆi + uˆi = ∑ (Yi − Y ) + 2
ˆ 2
∑Yiˆ uˆi − 2Y ∑ uˆi + ∑ uˆi2 =
 
(1.7)
Prop.1FRM:∑ uˆi = 0
= Yu
Prop.3FRM ˆ=ˆ 0

= ∑ (Yˆi − Y ) 2 + ∑ uˆi2 ⇒ ∑
 ∑  ∑
(Y − Y ) = (Yˆ − Y ) + uˆ
2 2 2
i
 i i
SCT SCE SCR

A estos tres términos se les llama Suma de Cuadrados. El término ∑ (Y − Y )


i
2
, al que

para abreviar denominamos también SCT (Suma al Cuadrado Total) es la variación total

de Yi alrededor de su media. El término ∑ (Yˆ − Y )


i
2
, que abreviamos a partir de ahora

como SCE (Suma al Cuadrado Explicada), es el grado de fluctuación de la variable Yˆi


alrededor del promedio de Y. Por tanto, la SCE es el nivel de fluctuación de la variable
Yi que el modelo es capaz de explicar, es decir, es la variación de Yi explicada por los
regresores. El término ∑ uˆ 2
i , como se ha visto anteriormente se denota también para

abreviar como SCR (Suma al Cuadrado de los Residuos), es un indicador del nivel de
error del modelo en su intento de explicar la evolución temporal de la variable11 Y.

En resumen se puede decir que la variación total en los valores Y observados alrededor
del valor de su media puede ser dividida en dos partes, una atribuible a la línea de
regresión y la otra a fuerzas aleatorias puesto que no todas las observaciones Y caen
sobre la línea ajustada, es decir, SCT=SCE+SCR (ver Figura 1.16 para el caso de dos
regresores).

11
Bajo la hipótesis de normalidad de los residuos, SCE se distribuye según una Chi-cuadrado con k-1
grados de libertad, SCR según una Chi-cuadrado con n-k grados de libertad, y SCT según una Chi-
cuadrado con n-1 grados de libertad, siendo los grados de libertad de un estadístico calculado sobre n
datos el número de cantidades independientes que se necesitan en su cálculo, menos el número de
restricciones que ligan a las observaciones y el estadístico.

45
Figura 1.16
Partición de la variación de Yi en dos componentes

Fuente: D.N. Gujarati, 2010

Obsérvese que, si multiplicamos (1.7) por 1/n en ambos miembros, se obtiene que la
varianza muestral del regresando se descompone en dos sumandos: el primero se

corresponde con la varianza explicada por la regresión, puesto que Y = Yˆ (prop. 4 de la


FRM), y el segundo es la suma al cuadrado de los residuos, es decir, la porción de la
varianza del regresando no explicada por la regresión, a la que se denomina varianza
residual.

Así, teniendo en cuenta lo anterior, ya se puede calcular el coeficiente de determinación,


que se puede definir como el cociente entre la varianza explicada por la regresión y la
varianza total.

Analíticamente:

46
∑ (Yˆ − Y )
2
SCE i
=
R2 = (1.8)
∑ (Y − Y )
2
SCT
i

Dividiendo por ∑ (Y − Y ) i
2
la expresión (1.7) y operando se obtiene una expresión

alternativa:

SCT SCE SCR


= +
SCE
⇒ R = =
2
1−
SCR
=
1−
∑ uˆi 2
(1.9)
∑ (Y − Y )
2
SCT SCT SCT SCT SCT
i

A continuación vamos a desarrollar la expresión matricial del R2, para ello, previamente
obtenemos la expresión matricial de sus componentes:

Yˆi
∑( ) ∑Yˆi 2 − 2Y ∑Yˆi + nY 2 = ∑i ∑ n + nY 2 =
2
SCE = Yˆi − Y = Yˆ 2
− 2Yn
__
= ∑Yˆi 2 − 2nY 2 + nY 2 = ∑Yˆi 2 − nY 2 =
matricialmente
Yˆ ' Yˆ − nY 2 =
__ __ __ __
(Xβˆ )'(Xβˆ ) − nY 2 = βˆ ' X ' X βˆ − nY 2 = βˆ ' X ' X ( X ' X ) −1 X ' Y − nY=
2
βˆ ' X ' Y − nY 2
  
βˆ

Yi
SCT= ∑ (Y i − Y ) 2= ∑Y i
2
− 2Yn ∑
n
+ Y 2= ∑Yi
2
− 2nY 2 + nY 2=
__
=∑Yi 2 − nY 2 =
matricialmente
Y ' Y − nY 2

Por tanto, en notación matricial se puede expresar el R2 de la expresión (1.8) así:

∑ (Yˆ − Y )
2 __
SCE i Yˆ ' Yˆ − nY 2 βˆ ' X ' Y − nY 2
R2 = = ⇒R =
2
= (1.10)
∑ (Y −Y ) Y ' Y − nY 2 Y ' Y − nY 2
2
SCT
i

Desarrollando y expresando en notación matricial también la SCR, se obtiene:


SCR = (
∑ ui2 =∑ (Yi − Yˆ )2 = uˆ ' uˆ =Y − X βˆ ' Y − X βˆ =Y 'Y − 2βˆ ' X 'Y + βˆ ' X ' X βˆ =
matricialmente
)( )
Y ' Y − 2 βˆ ' X ' Y + βˆ ' ( X ' X ) (
= X ' ) −1 X 
X Y ' Y − 2 βˆ ' X ' Y + βˆ ' X ' Y =
'Y = Y ' Y − βˆ ' X ' Y
βˆ

por lo que la expresión del R2 (1.9) se puede expresar así:

R =
2
1−
∑ uˆi 2
⇒ R2 =
1−
uˆ ' uˆ
(1.11)
∑ (Yi − Y ) Y ' Y − nY 2
2 matricialmente

47
Propiedades del R2 :

1. Es una cantidad no negativa.

2. Sus límites son 0≤R²≤1, si la ecuación tiene término constante 12 y se estima por
MCO. Un R²=1 significa un ajuste perfecto, es decir, Yˆi = Yi para cada valor de i.

Por otra parte, un R²=0 significa que no hay relación alguna entre la variable
dependiente y las variables explicativas (es decir βˆ2= βˆ3= ...= βˆk= 0 ). En este
ˆ βˆ= Y (ver ecuaciones normales en Anexo 1.1), es decir, la mejor
caso Y=i 1

predicción de cualquier valor de Yi es simplemente el valor de su media. En esta


situación, si k=2, la línea de regresión sería horizontal al eje X.

Limitación: Una limitación importante del R2 es que puede incrementarse


artificialmente introduciendo regresores adicionales, aunque éstos no sean apropiados.
Como caso extremo se tiene que, cuando k=N, se consigue un coeficiente de
determinación igual a la unidad, siempre que no exista una relación lineal exacta entre
los regresores. Por ello, aunque el coeficiente de determinación mide la bondad de
ajuste de una regresión, no permite discriminar entre varias regresiones alternativas que
tienen la misma variable dependiente Y y diferente número de regresores, salvo si las
regresiones tienen el mismo número de regresores y el mismo tamaño muestral. Para

solucionar esta limitación se ha creado el coeficiente de determinación ajustado ( R 2 ).

1.4.1. El coeficiente de determinación ajustado R 2 :

Este coeficiente corrige las SCT y SCR respectivamente por sus grados de libertad. Así,
se penaliza la inclusión de nuevas variables explicativas, de modo que su valor puede
disminuir al incluir una variable que esté poco relacionada con la variable dependiente.
De hecho incluso puede ser negativo. Obsérvense las siguientes relaciones:

12
Si no hay término constante en la ecuación, o no se ha estimado por MCO, R2 puede tomar valores
negativos, pero sigue siendo cierto que cuanto más cerca de 1 se sitúe el valor de R2, mejor es el ajuste del
modelo estimado a los datos.

48
∑ uˆi2  
R =
1− 2 n − k =
1−
( n − 1) ∑ uˆi2
= 1−
( n − 1)  uˆ ' uˆ 
(
∑ iY − Y )
2 ( n − k ) (Y − Y ) 2
∑ i matricialmente
(
 )
( n − k )  Y ' Y − nY 2 
n −1 (1− R 2 )

Se puede comprobar fácilmente que la relación entre R 2 y R2, viene dada por:
(n − 1)
R2 =
1− (1 − R 2 )
(n − k )

R 2 =⇒
1 R2 =
1,
n −1 −k
R 2 =⇒
0 R 2 =−
1 = < 0,
n−k n−k
k
R2 ≤ ⇒ R2 ≤ 0
n −1
Este coeficiente permite seleccionar modelos con el mismo regresando y tamaño
muestral aunque con diferentes regresores y distinto número de ellos. Se seleccionará
como mejor modelo aquél que presente un mayor valor de dicho coeficiente de
determinación corregido. Su valor es máximo cuando toma valor unitario. Por

consiguiente, el R 2 permite seleccionar entre modelos no anidados 13 pero no puede


utilizarse para elegir entre diferentes formas funcionales para la variable dependiente.
Es decir, tienen que tener los modelos la misma variable dependiente. La razón es

sencilla, tanto el R 2 como el R2 miden el porcentaje explicado de la variación total en


cualquier variable dependiente que estemos utilizando en la regresión, y diferentes
funciones de la variable dependiente darán lugar a distintos montantes de variación a

explicar. Por tanto, comparar R 2 de regresiones con estas transformaciones diferentes


de la variable dependiente no nos diría nada acerca de qué modelo proporcionaría un
mejor ajuste, ya que estarían utilizando dos variables dependientes distintas.

13
Dos modelos se dicen que no están anidados si ninguno de ellos es un caso particular del otro.

49
* Ejercicio 1.5:

Teniendo en cuenta la información sobre la función de demanda de un bien del


Ejercicio 1.3:
a) Calcule el coeficiente de determinación e interprete su valor.
b) Obtenga el coeficiente de determinación ajustado.

a) R 2
=
( βˆ ' X ' Y − nY )2

(Y 'Y − nY )2

 251
βˆ ' X ' Y =[80,5699 −10, 0853]   = 20.223, 0449 − 7.785,8516 =12.437,1933
772 
 15 + 30 + 24 + 65 + 57 + 60 
2 2
 251 
nY 2 =
6⋅  =
6⋅  =
6 ⋅ 41,83332 =
10.500,1666
 6   6 

15 
30 
 
 24 
Y ' Y = [15 30 24 65 57 60]   = 225 + 900 + 576 + 4.225 + 3.249 + 3600 = 12.775
 65 
57 
 
 60 
12.437,1933 − 10.500,1666 1.937, 0267
=R2 = = 0,8515
12.775 − 10.500,1666 2.274,8334

El ajuste del modelo de regresión a los datos es bueno ya que la recta de regresión
explica el 85,15% de la variabilidad contenida en los datos y recogida en la varianza de
la variable Y.

También se podría haber calculado así:

R2 =
1−
∑ uˆi2 = 1−
uˆ ' uˆ
∑ (Y − Y )2 ⇓
matricialmente
Y ' Y − nY 2

50
15   9,9728   5,0272 
 30   30,1434   −0,1434 
     
 24   40,2287   − 16,2287 
donde: uˆ = Y − Yˆ =   −  = 
 65  60,3993  4,6007 
57   50,3140   6,6860 
     
 60   60,3993  −0,3993 

 5, 0272 
 −0,1434 
 
 −16, 2287 
donde:uˆ ' uˆ = [5, 0272 −0,1434 −16, 2287 4, 6007 6, 6860 −0,3993]   = 354, 6925
 4, 6007 
 6, 6860 
 
 −0,3993 
uˆ ' uˆ 354, 6925 354, 6925
R2 =1− =
1− =
1− =
0,8441
Y ' Y − nY 2 12.775 − 10.500,1666 2.274,8334

NOTA: La diferencia en los decimales con respecto al procedimiento de cálculo anterior


se debe al ajuste de decimales.

b)

∑ uˆi2
n−k (n − 1) ∑ uˆi 2
(n − 1) uˆ ' uˆ
R =
1− =
1− ⇒ R2 =
1−
2

∑ (Y − Y ) 2 (n − k ) ∑ (Y − Y ) 2 matricialmente (
(n − k ) Y ' Y − nY 2 )
n −1

15   9,9728   5,0272 


 30   30,1434   −0,1434 
     
 24   40,2287   − 16,2287 
uˆ = Y − Yˆ =   −  = 
 65  60,3993  4,6007 
57   50,3140   6,6860 
     
 60   60,3993  −0,3993 

51
 5,0272 
 −0,1434 
 
 −16,2287 
uˆ ' uˆ = [5,0272 −0,1434 −16,2287 4,6007 6,6860 −0,3993]   = 354,6925
 4,6007 
 6,6860 
 
 −0,3993 
( n − 1) uˆ ' uˆ (6 − 1) 354,6925 5 354,6925
R2 = 1− =
1− =
1− =
( n − k ) Y ' Y − nY 2 (6 − 2) (12.775 − 10.500,1666 ) 4 2.274,8334
1 − (1,25 ⋅ 0,1559 ) =
= 0,8051

Si lo calculamos a partir del coeficiente de determinación del apartado a), se obtiene:


(n − 1) (6 − 1)
R2 =
1− (1 − R 2 ) =
1− 1 − (1, 25(0,1485) ) =
(1 − 0,8515) = 1 − 0,1856 =
0,8144
(n − k ) (6 − 2)
NOTA: La diferencia entre ambos coeficientes de determinación ajustados es debida al
ajuste de decimales, así como a la diferencia con respecto a lo que se obtiene con Gretl.

Ejercicio 1.6 (Idem Ejercicio 1.5, pero con Gretl)


Supongamos la ecuación de demanda de un bien como la siguiente:
β1 β 2 X 2t + ut ,
Yt =+
Correspondiente a la información recogida en el Ejercicio 1.3:
a) Calcule el coeficiente de determinación
b) Obtenga el coeficiente de determinación ajustado.

Volviendo a la información recogida en la Tabla 1.7, el programa Gretl calcula


automáticamente ambos estadísticos que aparecen en el output de la estimación por
Mínimos Cuadrados Ordinarios (Modelo 1: MCO) de la Tabla 1.8:

R-cuadrado: es el coeficiente de determinación que permite medir la bondad de


ajuste del modelo. En nuestro ejemplo el valor que nos da es de 0,8441, por lo que
el ajuste es bueno. También se podría calcular a partir del estadístico que aparece
en la Tabla 1.8: Suma de cuad. Residuos o SCR, y la SCT a partir del
estadístico cuasivarianza de la variable dependiente,

=
1
n −1
∑ (Yi − Y ) 2 o matricialmente=
1
n −1
(
Y 'Y − nY 2 .)

52
R-cuadrado corregido ( R 2 ): Este coeficiente penaliza la inclusión de
nuevas variables explicativas en el modelo, ya que si bien al aumentar el número de
regresores aumenta también la Suma de Cuadrados Explicada, pero la inclusión de
nuevas variables explicativas reduce los grados de libertad del modelo, por lo que
no siempre resultará adecuado incorporar nuevas variables al mismo. En nuestro
ejemplo, el valor es de 0,8051.

1.5. El modelo de regresión lineal clásico: supuestos fundamentales

Si nuestro objetivo consiste en estimar β1, β2,…, βk solamente, el método de


MCO presentado hasta ahora será suficiente. Pero si nuestro objetivo no es sólo obtener
el valor estimado de estos parámetros sino también hacer inferencia 14 sobre los
verdaderos valores (poblacionales) de β1, β2,…, βk , no sólo se debe especificar la forma
funcional del modelo, sino que se deben hacer ciertos supuestos sobre la forma como las
Yi son generadas.

Así por ejemplo si la FRP es la siguiente:


Yi=β1+β2X2i+…+ βkXki+ui
Esta expresión muestra que Yi depende de X2i,…,Xki y de ui, pero mientras no se
especifique la forma como se crean o se generan las variables X2i,…,Xki y las u, no hay
manera de hacer alguna inferencia estadística sobre Y ni tampoco sobre β1, β2,…, βk.
También, por ejemplo, se desearía saber lo cerca que están βˆ1 , βˆ2 ,..., βˆk de sus

contrapartes en la población o cómo de cerca está Yˆi de la verdadera E (Yi X 2i ,..., X ki ) .

Así, los supuestos hechos sobre las variables X2i,…,Xki y el término de error son muy
críticos para lograr una interpretación válida de los valores estimados de la regresión.

14
Inferencia estadística en la regresión consiste en inducir, tomando como base un conjunto de
observaciones, las características de la distribución de probabilidad que la ha generado.

53
Los supuestos o hipótesis básicas del modelo clásico 15 de regresión lineal
(MCRL), o modelo de Gauss, son los siguientes:
Notación escalar Notación matricial
1. E(ui)=0 para cada i 1. E(u)=0, donde u y 0 son vectores
columna nx1, siendo 0 un vector nulo
2. E(uiuj)=0 si i ≠ j 2. E(uu’)= σ2I, donde I es una matriz
E(uiuj)=σ2 si i=j identidad nxn.
3. Para la prueba de hipótesis ui  N(0, σ ) 3. El vector u tiene una distribución
2

normal multivariante, es decir,


u  N(0, σ2I)
4. X2i,…,Xki son fijas o no estocásticas. 4. La matriz X, nxk, es no estocástica; es
decir, consiste en un conjunto de números
fijos.
5. No hay relación lineal exacta entre 5. El rango de X es rg(X)=k, donde k es el
variables X, es decir, no hay número de columnas en X, siendo k<n, es
multicolinealidad, siendo k<n. decir, no hay multicolinealidad.
6. Los parámetros β k son fijos. 6. El vector de parámetros β es fijo.
7. La relación entre la variable dependiente y las explicativas es lineal en los
parámetros.
8. No hay errores de especificación.

Siguiendo la notación matricial, explicamos los supuestos anteriores:

Hipotesis relativas a la perturbación aleatoria:

Supuesto 1: Significa que el valor esperado del vector de perturbaciones u, es decir, de


cada uno de sus elementos, es cero. Más explícitamente, E(u)=0, es decir:
 u1   E (u1 )  0 
u   E (u )  0 
E  2
= = 2   
     
     
un   E (un )  0 
Se adopta aquí el supuesto de que los efectos individuales de las variables incluidas en
el término de perturbación tienden a compensarse por término medio. En cualquier caso,
aún suponiendo que los efectos individuales no se compensasen exactamente y, por
tanto, su valor esperado fuese distinto de cero, dicho valor podría ser acumulado en el

15
Es un modelo clásico en el sentido de que fue desarrollado por primera vez por Gauss en 1821 y desde
entonces ha servido como norma o patrón frente al cual se pueden comparar los modelos de regresión que
no satisfacen los supuestos gaussianos.

54
término constante del modelo de regresión, con lo cual se podría mantener esta hipótesis
sin ningún problema.

Supuesto 2: Es una forma compacta de expresar los supuestos de no correlación serial


y de homocedasticidad.

  u1  
  
 u2 
u u  un ] 
   [ 1 2
E (uu ') = E 

   
 un  
Donde u’ es la transpuesta del vector columna u, o vector fila. Efectuando la
multiplicación, se obtiene:
 u12 u1u2  u1un 
 
uu u22  u2 un 
E (uu ') = E  2 1
    
 
unu1 unu2  un2 
Aplicando el operador esperanza a cada elemento de la matriz anterior, se obtiene:

( )
 E u12

E ( u1u2 )  E ( u1un ) 

( )
 E ( u2u1 ) E u22
E (uu ') = 
 E ( u2 un ) 

     
 
 E ( unu1 ) E ( unu2 ) ( )
 E un2 

Debido a los supuestos de homocedasticidad y no correlación serial, la matriz anterior


se reduce a:
σ 2 0  0  1 0  0
  
 0 σ  0  σ=
2
2 0 1  0
=E (uu ') E =  σ 2I
        
 2  
0 0  σ  0 0  1

donde I es una matriz identidad nxn. La matriz anterior se denomina matriz de


varianzas-covarianzas de las perturbaciones u. Los elementos sobre la diagonal
principal de esta matriz son las varianzas, que serán constantes y, por tanto,
independientes del tiempo o de los valores de las variables predeterminadas, y los

55
elementos fuera de la diagonal principal son las covarianzas 16, por tanto, las
perturbaciones correspondientes a distintos momentos del tiempo o distintas unidades
muestrales que tengan una ordenación no están correlacionadas entre sí. Obsérvese que
la matriz de varianzas-covarianzas es simétrica: los elementos por encima y por debajo
de la diagonal principal son reflejos los unos de los otros.

Supuesto 3: El vector de perturbaciones aleatorias u tiene distribución normal


multivariante. Puesto que las perturbaciones aleatorias comprenden un conjunto
amplio de variables omitidas del modelo de regresión, que son independientes entre sí y
también independientes del conjunto de regresores, por el Teorema Central del Límite
se puede suponer que el vector de perturbaciones aleatorias tiene una distribución
normal multivariante.

En forma sintética, el conjunto de hipótesis básicas sobre las perturbaciones


aleatorias del modelo de regresión lineal múltiple se puede expresar así:
u  N (0, σ 2 I ) .
Es decir, el vector de perturbaciones del modelo tiene una distribución normal
multivariante de media cero y matriz de varianzas-covarianzas escalar.

Este supuesto tiene consecuencias sobre la distribución del regresando (Y) y del vector
de estimadores MCO ( β̂ ) como se observa a continuación:

Distribución del regresando (Y):

El que el vector de perturbaciones aleatorias siga una distribución normal multivariante


implica que el regresando, Y, presente una distribución normal multivariante con vector
de medias Xβ y con una matriz de varianzas-covarianzas σ2I, escalar.
Y  N ( X β ,σ 2 I )
En efecto, el regresando es función lineal del vector de perturbaciones aleatorias que,
por hipótesis, sigue una distribución normal. Por lo tanto, Y seguirá también la misma
distribución.

16
Por definición, la varianza de ui =E[ui-E(ui )]2 y la covarianza entre ui y uj = E[ui-E(ui )] E[uj-E(uj)]. Pero
debido al supuesto E(ui )=0 para cada i, se tiene la matriz de varianzas-covarianzas anterior.

56
Si calculamos su esperanza tenemos:
E (Y ) = E [ X β + u ] = X β + E (u ) = X β

ya que por el Supuesto 1 del MCRL E(u)=0.

Análogamente, teniendo en cuenta el Supuesto 2 del MCRL, donde E[uu’]=σ2I, la


matriz de varianzas covarianzas será:
Var (Y ) =E (Y − X β )(Y − X β ) ' =E [uu '] =σ 2 I . (1.12)

Distribución del vector de estimadores MCO ( β̂ ):

El vector de estimadores β̂ tiene una distribución normal multivariante. En efecto el

vector β̂ es una combinación lineal del vector Y que tiene una distribución normal

multivariante, por lo que β̂ también tendrá la misma distribución. Su media y varianza


la veremos más adelante.

Hipótesis relativas a los regresores:


Supuesto 4: Establece que la matriz X nxk es no estocástica, es decir, consta de
números fijos para diversas muestras del regresando. Éste es un supuesto fuerte en el
caso de las ciencias sociales, en el que es poco viable experimentar y los datos se
obtienen por observación y no por experimentación. Para que dicho supuesto se
cumpliera, los regresores deberían ser susceptibles de ser controlados por parte del
investigador 17.

Supuesto 5: Establece que la matriz X tiene rango columna completo igual a k, que es
el número de columnas en la matriz. Puesto que la matriz de regresores tiene k
columnas, correspondientes a los k regresores del modelo y n filas correspondientes al

17
Es importante señalar que, dentro del alcance de esta asignatura, los resultados que se tienen bajo este
supuesto se mantendrían prácticamente idénticos si supusiéramos que los regresores son estocásticos,
siempre que introdujéramos el supuesto adicional de independencia entre los regresores y la perturbación
aleatoria. Ello es debido a que el análisis de regresión es de regresión condicional, es decir, condicional a
los valores fijos de las variables X.

57
número de unidades muestrales sobre las que se realizan las observaciones, esta
hipótesis tiene dos implicaciones:
a) El número de observaciones, n, debe ser igual o mayor que el número de
regresores, k, es decir, n>k.
b) Las columnas de la matriz X son linealmente independientes, es decir, no hay
relación lineal exacta entre las variables explicativas X. En otras palabras, no
hay multicolinealidad. En notación escalar esto es equivalente a decir que no
existe un conjunto de números λ1, λ2 ,..., λk no todos iguales a cero tales que:

λ1 X 1i + λ2 X 2i + ... + λk X ki =,
0 (1.13)

donde X1i=1 para todo i (para dar cabida a la columna de números 1 en la matriz
X). En notación matricial, puede estar representada por:
λ'x = 0,
donde λ’ es un vector fila de 1xk y x es un vector columna de kx1.

Si existe una relación lineal exacta, tal como en (1.13), se dice que las variables
son colineales, pero si sólo se cumple cuando λ1= λ2= ...= λk= 0 , entonces se

dice que las variables X son linealmente independientes.

Hipótesis relativas al vector de parámetros

Supuesto 6: El vector de parámetros b es un vector fijo. Esta hipótesis asegura la

estabilidad de las estimaciones a lo largo de la muestra.

Hipótesis relativas a la forma funcional:

Supuesto 7: La relación entre la variable dependiente y las explicativas es lineal en los


parámetros. Este supuesto significa que, por ejemplo, no tendremos en cuenta el
siguiente modelo no lineal en los parámetros E(Y X i )=β1+ β 2 Xi, pero sí tendremos

en cuenta modelos que son o no lineales en las variables. Así por ejemplo, una función
de regresión del tipo E(Y X i )=β1+β2 X i2 es una función no lineal en las variables

porque la variable X aparece elevada a una potencia o índice de 2, pero sí que tendremos
en cuenta estos casos. Debido a que la linealidad en los parámetros es relevante para el

58
desarrollo de la teoría de la regresión, de ahora en adelante, cuando hablemos de
regresión "lineal" significará regresión lineal en los parámetros.

Supuesto 8: No hay errores de especificación. Todas las variables relevantes para el


análisis han sido incluidas y estas no presentan errores de medición u observación.

Se puede pensar que estos supuestos no son muy realistas, pero se suelen hacer
supuestos en cualquier estudio científico porque facilitan el desarrollo de la materia
objeto de estudio en pasos graduales, no porque sean necesariamente realistas en el
sentido de que repliquen la realidad exactamente. Por ello, en otros temas posteriores
examinaremos a fondo qué sucede si uno o más de estos supuestos no se cumplen.

El cumplimiento de estos supuestos o hipótesis básicas del MCRL lleva a que los
estimadores mínimo-cuadráticos tengan buenas propiedades, como se verá en el
apartado siguiente.

1.6.Propiedades de los estimadores

Estas propiedades ideales u óptimas dependen de que se cumplan los supuestos


anteriores y se hallan contenidas en el muy conocido teorema Gauss-Markov. Para
entender este teorema se necesita considerar la propiedad del vector de mejores
estimadores lineales e insesgados. Un vector de estimadores, por ejemplo, el vector de
estimadores MCO β̂ , es el mejor vector de estimadores lineales insesgados (MELI) de
β si se cumple lo siguiente:

1. Linealidad del vector de estimadores MCO:

El vector de estimadores es lineal en el vector Y:


β̂ =P’Y,

donde P es una matriz fija. En efecto, teniendo en cuenta: βˆ = ( X ' X ) −1 X ' Y ,

entonces: βˆ = ( X ' X ) −1 X ' Y =P’Y. Puesto que X es una matriz de regresores fijos

59
(según el supuesto 4 del MCRL), también será fija la matriz P=X ( X ' X ) −1 o
P’=(X’X)-1X’.

2. El vector de estimadores β̂ es insesgado:


El valor promedio del vector de estimadores o su esperanza es igual al valor
verdadero del mismo:

E( β̂ )=β
Teniendo en cuenta:
βˆ = ( X ' X ) −1 X ' Y = ( X ' X ) −1 X ' [ X β + u ] = β + ( X ' X ) −1 X ' u , (1.14)



Y

Por lo que si aplicamos el operador esperanzas:

E ( βˆ ) = β + ( X ' X ) −1 X ' E (u ) = β (1.15)


↑ ↑
Sup.4 y 6 del MCRL Sup.1 del MCRL

ya que β es un vector fijo, X es una matriz fija y la esperanza de las


perturbaciones aleatorias es nula (Supuesto 1 del MCRL).

3. El vector de estimadores β̂ tiene una varianza mínima dentro de la clase de


todos los vectores de estimadores lineales e insesgados.

Esta propiedad puede ser explicada con la ayuda de la Figura 1.17 En el


apartado (a) de dicha Figura se muestra la distribución muestral del estimador

MCO β̂ 2 , es decir, la distribución de los valores asumidos por β̂ 2 en

experimentos repetidos de muestreo. Por conveniencia se ha supuesto que β̂ 2 está


distribuido simétricamente. Como lo indica la Figura, la media de los valores de
β̂ 2 , E( β̂ 2 ), es igual al verdadero β 2 . En esta situación se dice que β̂ 2 es un
estimador insesgado de β 2 . En la Figura 1.17 (b) se muestra la distribución

muestral de β 2* , un estimador alterno de β 2 obtenido utilizando otro método (es

decir, diferente al de MCO). Por conveniencia suponemos que β 2* , al igual que

β̂ 2 , es insesgado, es decir, su valor promedio o esperado es igual a β 2 .

60
Supongamos además que β̂ 2 y β 2* son estimadores lineales, es decir, son
funciones lineales de Y. ¿Qué estimador escogeríamos?

Figura 1.17

Distribución muestral del estimador MCO βˆ2 y del estimador alterno β 2*

Fuente: D.N. Gujarati, 2010

Para responder a esta pregunta sobrepongamos las dos figuras, como se muestra
en la Figura 1.17(c). Es obvio que si bien β̂ 2 y β 2* son insesgados, la distribución

de β 2* está más difusa o dispersa alrededor del valor de la media que la

distribución de β̂ 2 . En otras palabras, la varianza de β 2* es mayor que la de β̂ 2 .

61
Por tanto, dados dos estimadores que son a la vez lineales e insesgados, se debería
escoger el estimador con la menor varianza porque es probable que esté más
cercano a β 2 que el estimador alternativo. Es decir, se debería escoger el
estimador MELI (Mejor Estimador Lineal e Insesgado) o BLUE (Best Linear
Unbiased Estimator), ya que “un estimador con menor varianza es un
estimador más preciso”.

Un estimador insesgado y con varianza mínima es conocido como estimador


eficiente. En el contexto de regresión puede probarse que los estimadores MCO
son MELI. Esta es la clave del teorema de Gauss-Markov, que se enuncia así
"Dados los supuestos del MCRL, los estimadores obtenidos por MCO, dentro de
la clase de estimadores lineales insesgados, tienen varianza mínima, es decir, son
MELI."

Nota: El teorema de Gauss-Markov no hace ningún supuesto respecto a la


distribución de probabilidad de la variable aleatoria ui, y, por consiguiente,
tampoco respecto a Yi. En la medida que los cuatro primeros supuestos del MCRL
se satisfagan, el teorema será válido. Como resultado, no se necesita buscar otro
estimador insesgado lineal, ya que no habrá otro estimador cuya varianza sea
más pequeña que la del estimador MCO. Por supuesto si uno o más supuestos no
se cumplen, el teorema resulta inválido.

Vamos a calcular la varianza de los estimadores por MCO:

Matriz de varianzas-covarianzas de β̂ :

Teniendo en cuenta otra forma de calcular β̂ :

βˆ = [ X ' X ] X 'Y = [ X ' X ] X '[ X β + u ] = β + [ X ' X ] X ' u ,


−1 −1 −1

y la propiedad 2 de insesgadez de los estimadores MCO y los supuestos 2


(homocedasticidad y no autocorrelación) y 6 (coeficientes de regresión fijos) del
MCRL, se tiene:

62
(
Var ( βˆ ) = E  βˆ − E ( βˆ )   βˆ − E ( βˆ )  ' = E  βˆ − β
 )( βˆ − β ) ' = E [ X ' X ] −1
X ' uu ' X [ X ' X ]  =
−1

' X ] X ' E[uu '] X [ X ' X ]
[ X= −1 −1

[
= X ' X ] X '[σ 2 I ] X [ X ' X ]
−1 −1
σ 2 [X ' X ]
−1

(1.12)

Expandiendo esta matriz para cada uno de sus elementos, obtendremos todas y cada
una de las varianzas y covarianzas de los estimadores MCO:

,
 Var ( βˆ1 ) Cov ( βˆ1 , βˆ2 ) Cov ( βˆ1 , βˆ3 ) Cov ( βˆ1 , βˆk ) 
 
Cov ( βˆ2 , βˆ1 ) Var ( βˆ2 ) Cov ( βˆ2 , βˆ3 ) Cov ( βˆ2 , βˆk ) 
Var ( β= ˆ ) σ=
2  
 Cov ( β 3 , β1 ) Cov ( βˆ3 , βˆ2 ) Var ( βˆ3 ) Cov ( βˆ3 , βˆk ) 
βˆ
ˆ ˆ
( k ×k )
    
 
Cov ( βˆk , βˆ1 ) Cov ( βˆk , βˆ2 ) Cov ( βˆk , βˆ3 ) Var ( βˆk ) 

Para abreviar, podemos escribirla así:


υ11 υ12 υ13 υ1k 
υ υ 22 υ 23 υ 2 k 
 21 
σ 2 ( X ' X ) −1 = σ 2 υ31 υ32 υ33 υ3k 
 
    
υ k 1 υ k 2 υ k 3 υ kk 
 
( X ' X ) −1

Es decir, la σ β2ˆ =Var( βˆi )= σ 2υii , donde υii es el elemento ii-ésimo de la matriz
i

( )
inversa de X’X y σ βˆ βˆ =Cov βˆi , βˆ j = σ 2υij , donde υ ij representa el elemento
i j

correspondiente a la i-ésima fila y j-ésima columna de la matriz ( X ' X ) −1 .

Como la varianza de las perturbaciones, σ2, es un parámetro desconocido, se


puede utilizar un estimador insesgado de la varianza de las perturbaciones, para
obtener también un estimador insesgado de la matriz de varianzas-covarianzas de
β̂ .

63
Estimador insesgado de la varianza de la matriz de varianzas-covarianzas
de β̂ :

La varianza de las perturbaciones, según se ha establecido en las hipótesis


básicas del MCRL, se supone que es constante (Supuesto 2 de
homocedasticidad, explicado en el apartado 1.5), pero se desconoce.

Por tanto, al igual que en la estimación de los coeficientes de regresión se realiza


a partir de las observaciones muestrales sobre el regresando y los regresores,
cuando se desea estimar la varianza de las perturbaciones se pueden utilizar los
residuos mínimo-cuadráticos obtenidos mediante la aplicación del método de
MCO. Puesto que las perturbaciones aleatorias son variables no observables, los
residuos mínimo-cuadráticos constituyen, bajo las hipótesis básicas,
aproximaciones adecuadas de las perturbaciones y, por tanto, pueden utilizarse
para obtener un estimador insesgado de la varianza de las perturbaciones. Para
obtener un estimador insesgado de la varianza de las perturbaciones (véase
Anexo 1.5) repase previamente el Anexo 1.4 donde se especifica la distribución
del término de perturbación aleatoria.

Teniendo en cuenta lo señalado en el Anexo 1.5 y la expresión A.1.5.1:

σˆ 2
=
[=
uˆ ' uˆ ] SCR
=
∑ uˆi2
(n − k ) (n − k ) (Escalarmente)
↑ (n − k )

que no es más que la varianza insesgada del término de perturbación aleatoria o


la varianza de los residuos-mínimo cuadráticos. Ahora se puede obtener un
estimador insesgado de la matriz de varianzas-covarianzas de β̂ , que será el
siguiente:
uˆ ' uˆ
σˆ 2 [ X ' X ]= [X ' X ]
−1 −1
ˆ ( β=
Var ˆ ) σˆ=
2
βˆ
n−k
Para demostrarlo basta tomar esperanzas:

σˆ 2ˆ  E σˆ 2  [ X ' X


E= = ] ↑
−1
σ 2 [ X=
'X]
−1
=
Var ( βˆ ) σ β2ˆ .
 β  
( A.1.3.2)

64
De la misma manera, un estimador insesgado de la varianza de un βˆi
particular será:
uˆ ' uˆ
ˆ ( βˆi ) = σˆ β2ˆ = σˆ 2υii =
Var υii ,
i n−k

donde υii es el elemento ii-ésimo de [ X ' X ] .


−1

Análogamente, un estimador insesgado de la covarianza entre βˆi y βˆ j

será:
uˆ ' uˆ
ˆ ( βˆi βˆ j ) = σˆ βˆ βˆ = σˆ 2υij =
Cov υij ,
i j n−k

donde υij es el elemento ij-ésimo de [ X ' X ] .


−1

Las propiedades estadísticas que se acaban de exponer se conocen como propiedades


de muestra finita, ya que estas propiedades se mantienen sin importar el tamaño de la
muestra sobre la cual estén basados los estimadores.

Si el tamaño de la muestra es grande se considera también la propiedad de


consistencia 18. Se dice que un estimador es consistente si al utilizar toda la población
coincide con el verdadero valor del parámetro, es decir, a medida que el tamaño de la
muestra aumenta indefinidamente, el estimador converge hacia su verdadero valor
poblacional. Es decir:
p lim βˆ j = β j
N →∞

Para que los estimadores mínimo-cuadráticos tengan las propiedades anteriores no es


necesario asumir que el término de perturbación aleatoria siga una función de
distribución normal, sin embargo, bajo este supuesto se cumpliría también que los
estimadores tendrían varianza mínima entre todas las clases de estimadores insesgados,
lineales y no lineales. Este resultado, desarrollado por Rao (1965), es muy poderoso
porque, a diferencia del teorema de Gauss-Markov, no está restringido solamente a la
clase de estimadores lineales. Bajo este supuesto y si se cumplen el resto de hipótesis
básicas del MCRL, se puede decir que los estimadores de mínimos cuadrados son los
mejores estimadores insesgados.

18
Nunca se deben utilizar estimadores que no cumplan esta propiedad ya que es imprescindible, sino el
estimador no es adecuado.

65
* Ejercicio 1.7:
Con los datos del Ejercicio 1.3 correspondientes a una función de demanda de un
bien:
a) Calcule la matriz de varianzas-covarianzas estimada de β̂ e interprete sus
elementos.
uˆ ' uˆ
σˆ 2 [ X ' X ]= [ X ' X ]=
−1 −1
ˆ ( β=
Var ˆ ) σˆ=
2
βˆ
n−k
 5, 0272 
 −0,1434 
 
uˆ ' ˆ
u 1  −16, 2287 
σˆ 2 = = [5, 0272 −0,1434 −16, 2287 4, 6007 6, 6860 −0,3993]  =
n−k 6−2  4, 6007 
 6, 6860 
 
 −0,3993 
1 1
= (5, 02722 + ( −0,1434 ) + ( −16, 2287 ) + 4, 6007 2 + 6, 68602 + ( −0,3993) ) = ⋅ 354, 6925 = 88, 6731
2 2 2

4 4
 0,9469 −0, 2035 
[X ' X ] = 
−1

 −0, 2035 0, 0531 
 0,9469 −0, 2035   83,9646 −18, 0444 
σˆ 2 [ X ' X ]
−1
= =
88, 6731   
 −0, 2035 0, 0531   −18, 0444 4, 7085 

Interpretación de los elementos de la matriz de varianzas-covarianzas estimada de


β̂ :

ˆ ( βˆ1 ) =
Var σˆ 2υ11 = σˆ 2βˆ =
22,1751 ⋅ 3,9215 = 83,9646
1

ˆ ( βˆ2 ) =
Var σˆ υ22 =
2
σˆ =
22,1751 ⋅ 0, 0188 = 4, 7085 2
βˆ2

ˆ ( βˆ1 , βˆ2 ) =σˆ 2υ12 =σˆ 2υ21 =σˆ βˆ , βˆ 22,1751 ⋅ (−0,1316) =−18, 0444
Covar
1 2

* Ejercicio 1.8 (Idem Ejercicio 1.7 pero con Gretl):


Con los datos del Ejercicio 1.3 correspondientes a una función de demanda de un
bien:
a) Calcule la matriz de varianzas-covarianzas estimada de β̂ e interprete sus
elementos.

66
En el menú de la ecuación de regresión se elige la opción: Análisis/Matriz de
Covarianzas de los Coeficientes y se obtiene la siguiente Tabla:

Tabla 1.10. Matriz de covarianzas de los coeficientes

const X2
83,9559 -18,0466 const
4,70781 X2

La interpretación de la matriz de varianzas-covarianzas de β̂ es la misma que en el


Ejercicio 1.7.

Nota: La diferencia entre la matriz de varianzas-covarianzas calculada con Gretl y


manualmente estriba en los ajustes por decimales.

Nota: Se puede calcular la información de la diagonal principal de la matriz de


varianzas-covarianzas de β̂ de la Tabla 1.10 considerando la información que aparece
en el output de la ecuación de regresión (Tabla 1.8) teniendo en cuenta los siguientes
estadísticos:

Desv. Típica: Desviación típica estimada de los coeficientes estimados.


σˆ=
βˆ
9,16275 ⇒ σˆ=
2
βˆ
83,9559
1 1

σˆ =
βˆ
2,16975 ⇒ σˆ = 4, 7078
2
βˆ2
2

Suma de cuad. residuos: Suma al Cuadrado de los Residuos.

=
uˆ ' uˆ ∑=
uˆi2 354, 6549

D.T. de la regresión: Desviación típica estimada de los residuos.

uˆ ' uˆ
=σˆ = 9, 4161
n−k

67
ANEXO 1.1

Derivación de los estimadores MCO (Escalarmente):


Derivando parcialmente la expresión SCR= ∑ uˆi2= ∑ (Yi −Yˆi )2=
∑ (Y − ( βˆ + βˆ X )) con
2
i 1 2 2i + ... + βˆk X ki respecto a βˆ1 , βˆ2 ,..., βˆk , respectivamente, e
igualando a cero, se obtiene:

• Condiciones de primer orden (c.p.o):

 n  
∂  ∑ uˆi2  
 i =1  =
n
−2 ∑ (Yi − ( βˆ1 + βˆ2 X 2i + ... + βˆk X ki )) = 0  
n n n

∂βˆ1   ∑ Yi = n βˆ + βˆ
1 2 ∑ X 2 i + ... + βˆ
k ∑ X ki

i =1     n
=i 1 =i 1 =i 1
∑ uˆi   Y
n n n

∂ ( ∑ uˆi )
2 n 

 ∑ = X
⇒  i 1 =i 1 =i 1
i 2 i βˆ
1 ∑ X 2 i + βˆ
2 ∑ X 2
2 i + ... + βˆ
k ∑ X 2i X ki
=−2∑ X 2i (Yi − ( β1 + β 2 X 2i + ... + β k X ki )) =
ˆ ˆ ˆ =
0 =i 1

∂βˆ2 i =1
  
 
   n n n n

∂ ( ∑ uˆi )
2 n   ∑ =
Y X
i ki
 i 1 =i 1 =i 1
β ˆ
1∑ X ki + βˆ
2∑ X X
2 i ki + ... + βˆ
k ∑ X ki
2

−2∑ X ki (Yi − ( βˆ1 + βˆ2 X 2i + ... + βˆk X ki )) =0


= =i 1
=
∂β k
ˆ i =1 

A partir de las expresiones anteriores se obtiene un sistema de ecuaciones normales


que pueden resolverse para obtener los valores de βˆ1 , βˆ2 ,..., βˆk . Estas ecuaciones
normales también pueden expresarse de la siguiente manera:
∑ uˆi = 0 
∑ X 2iuˆi = 0
 
∑ X kiuˆi = 0 

68
Nota:
Si k=2, se puede calcular con facilidad el valor de los coeficientes βˆ1 y βˆ2 .

∑ uˆi =0 ⇒ ∑ (Yi − Yˆi ) =∑ Yi − βˆ1 − βˆ2 X 2i (dividiendo



por n )
βˆ1 =Y − βˆ2 X 2

∑ X 2iuˆi =0 ⇒ ∑ X 2i (Yi − βˆ1 − βˆ2 X 2i ) =∑ X 2iYi − βˆ1∑ X 2i − βˆ2 ∑ X 22i =


=∑ X 2iYi − (Y − βˆ2 X 2 ) ∑ X 2i − βˆ2 ∑ X 22i =∑ X 2iYi − Y ∑ X 2i + βˆ2 X 2 ∑ X 2i − βˆ2 ∑ X 22i =
= ∑ (Yi − Y )X 2i + βˆ2 ∑ ( X 2 − X 2i )X 2i =0 ⇒ βˆ2 =
∑ (Yi − Y )X 2i =∑ (Yi − Y ) ( X 2i − X 2 )
∑ ( X 2i − X 2 ) X 2i ∑ ( X 2i − X 2 )
2


∑ i 2i
βˆ2 =
yx

(Yi −Y ) = yi
∑ x2i
2

( X 2i − X 2 ) =
x2 i

69
ANEXO 1.2

Condiciones de segundo orden de mínimo de βˆ (matricialmente):


El estimador MCO cumple también las condiciones de segundo orden de
mínimo, es decir, βˆ presenta un mínimo, ya que derivando el vector de primeras
derivadas:
∂SCR
−2 X ' Y + 2 X ' X βˆ =
= −2 X '( X βˆ + uˆ ) + 2 X ' X βˆ =
−2 X ' X βˆ + 2 X ' X βˆ − 2 X ' uˆ =
−2 X ' uˆ
∂β
ˆ

de nuevo respecto a β̂ ’:

∂ 2 SCR ∂uˆ
=
−2 X ' =
2X ' X > 0
∂β∂β '
ˆ ˆ ∂βˆ '
Se obtiene la matriz de segundas derivadas definida positiva, ya que X’X es una matriz
definida positiva 19.

19
Se dice que una matriz A es definida positiva si Y’AY>0 para todo vector Y≠0.

70
ANEXO 1.3
Demostraciones del cumplimiento de las propiedades de la FRM:
1. La suma de los residuos es cero (véase primera ecuación normal del Anexo 1.1):

∑ uˆ i = 0.

Si dividimos la expresión anterior por el tamaño de la muestra:


1
n
∑ uˆi= 0= uˆ= 0
nos lleva a poder decir que la media de los residuos es cero.

Nota: representamos con una barra encima de las variables para referirnos a la media
muestral de las mismas

2. Los residuos son ortogonales a las variables explicativas (o no están


correlacionados con ellas):
Esta propiedad se obtiene a partir de la ecuación de primer orden: -2X’ û =0 o X’ û =0
 ∑ uˆi  0
  0
X ' uˆ= 0=  ∑ X 2i uˆi 
=  .
    
   
 ∑ X ki uˆi  0 
En efecto:
Y X βˆ =−
uˆ =− Y X [ X ' X ]−1 X ' Y

βˆ

Premultiplicando la expresión anterior por X’:

X ' uˆ = X ' Y − X ' X [ ]−1 


X ' X X ' Y = X ' Y − IX ' Y = X ' Y − X ' Y = 0
βˆ

Siendo I la matriz identidad.

3. Los residuos son ortogonales a la FRM:


Yˆ ' uˆ = 0
En efecto,
'
' uˆ  X βˆ =
Yˆ= uˆ β ' X= ' uˆ βˆ=
'0 0
0 (prop.2)

71
4. La media muestral de las estimaciones de Y (o FRM) es igual a la media
muestral de Y:

Yˆ = Y .

Nótese que, por definición, uˆ=


t Yt − Yt , por lo que si calculamos sumatorios de los
ˆ

términos y dividimos por el tamaño muestral, a partir de la propiedad 1 anterior por

la que se tiene que û =0, lleva a que Yˆ = Y .

5. La FRM pasa por el vector de medias: El hiperplano de regresión obtenido pasa a


través de las medias muestrales de Y y X2, X3,…,Xk, es decir, pasa por el punto
(1, X 2 , X 3 ,..., X k , Y ) . Este hecho es obvio a partir de la propiedad anterior.

Y = βˆ1 + βˆ2 X 2 + ... + βˆk X k


  

72
ANEXO 1.4
Distribución del término de perturbación aleatoria:

Desarrollando la expresión: û =Y- Yˆ = Y − X βˆ , es posible obtener el vector de residuos


como una combinación lineal del regresando:

Y − X βˆ =
Y − X ( X ' X ) −1 X 'Y =
[ I − X ( X ' X ) −1 X ']Y =MY
  
M
Nota: Es importante resaltar las propiedades de la matriz M (sus demostraciones se
desarrollan en el Anexo 1.5):
 Es fija, ya que sólo depende de X,
 Es simétrica: M=M’
 Es idempotente: M ⋅ M = M
 Es ortogonal a X: MX=0
 Su rango es: rg(M)=tr(M)=n-k.

Una expresión alternativa en función de u sería la siguiente:


+u − X [ X ' X ] X ' Y= 
X β +u − X [ X ' X ] X ' X β − X [ X ' X ] X ' u=
−1 −1 −1
uˆ= Y − X βˆ= 
Xβ
     
Y βˆ Y I

 I − X [ X ' X ]−1 X '  u =


= Mu,
 

A partir de la relación û = Mu , obtenida anteriormente, en segundo lugar vamos a


obtener la distribución de û :

û seguirá una distribución normal, por ser una combinación lineal de u, que se
distribuye normalmente ( u  N (0, σ 2 I ) ). Además,
= [ Mu ] ME
E [ uˆ ] E= = [u ] 0
=
Var [uˆ ] E=
[uu
ˆ ˆ '] E [ Muu=
' M '] M E [ uu ']=

M ' M σ 2 IM=

σ 2M
M es idempotente
Sup 2: E [uu '] =σ 2 I

con lo que se tiene que:


uˆ  N (0,σ 2 M )

Nota: Los elementos de la diagonal principal de M no son todos iguales, y por tanto,
los residuos no tienen varianza constante. Además, como los elementos fuera de la
diagonal principal no son todos iguales a cero, los residuos están correlacionados
entre sí. Es decir, aunque, por hipótesis, las perturbaciones sean homocedásticas e
incorrelacionadas, los residuos no lo son.

73
ANEXO 1.5
Estimador insesgado 20 de la varianza de los residuos:

Para obtener un estimador insesgado de la varianza de las perturbaciones, podemos


partir de la suma de los cuadrados de los residuos que, teniendo en cuenta la expresión:
û = Mu , se puede obtener en función del término de perturbación aleatoria:
= uˆ=
SCR = u ' Mu
' uˆ u ' M ' Mu
Veamos a continuación cómo se debe construir un estimador de σ2 que sea insesgado.

Aplicando el operador esperanza a la expresión anterior:


= E [uˆ ' uˆ ] E=
[u ' Mu ] trE=
[u ' Mu ] E tr (=
u ' Mu )  E tr =
( Muu ') trME
= [uu ']
E [uˆ ' uˆ ]
= trM σ 2 I= σ 2trM= σ 2 (n − k ) ⇒ σ 2=
(n − k )

Notas:
En la deducción anterior se han utilizado las siguientes propiedades del
operador traza, tr, que es la suma de los elementos de la diagonal principal de
una matriz:
a) La traza de un escalar es el mismo escalar.
b) Propiedad conmutativa: Tr(AB)=tr(BA), siendo A y B dos matrices
arbitrarias.

La aplicación de esta última propiedad ha permitido establecer que:


trM = tr  I n× n − X [ X ' X ] X ' = trI n× n − tr [ X ' X ] X ' X = trI n× n − trI k × k = n − k
−1 −1
 

Por lo que podemos obtener un estimador insesgado de la varianza de las


perturbaciones, mediante la siguiente expresión:

= σˆ 2 [
=
uˆ ' uˆ ] SCR
=
∑ uˆi2
.(A.1.5.1)
(n − k ) (n − k ) ( No matricialmente)
↑ (n − k )
Para demostrar la insesgadez del mismo aplicamos el operador esperanza:
E [ uˆ ' uˆ ] σ 2 (n − k )
=E[σˆ 2 ] = = σ 2 . (A.1.5.2)
( n − k ) (1.12)
↑ (n − k )
Quedando así demostrada la insesgadez del mismo.

20
Como se estudia en el Apartado 1.6, un estimador es insesgado si su valor promedio o su esperanza es
igual al valor verdadero del mismo.

74
ANEXO 1.6
Propiedades de la matriz de ponderaciones M:

La matriz de ponderaciones:

M= I n − X ( X ' X ) −1 X '
es de orden (nxn) y tienen las siguientes propiedades:

 Es fija ya que sólo depende de X.

 Es simétrica: M=M’:
M'=  I n − X ( X ' X ) −1 X '  ' =
  (
I n' − X ( X ' X ) −1 X ' ' =)
I n' − ( X ')' ( X ' X ) −1  ' X ' =
 
I n − X ( X ' X ) −1 X ' =
= M,

 Es idempotente: M ⋅ M =; M
M ⋅ M =  I n − X ( X ' X ) −1 X '   I n − X ( X ' X ) −1 X '  =
  
I n − X ( X ' X ) −1 X ' − X ( X ' X ) −1 X + X ( X ' X ) −1 X ' X ( X ' X ) −1 X ' =
=
I n − X ( X ' X ) −1 X ' =
= M

 Es ortogonal a X: MX=0;
MX =  I n − X ( X ' X ) −1 X '  X =
X − X ( X ' X ) −1 X ' X =
0
 

 Su rango es: rg(M)=tr(M)=n-k. Recordando que el rango de una matriz


idempontente es igual a su traza y que la traza de una matriz producto AB es
igual a la de BA (siempre que ambos productos sean conformables) se obtiene:
rg(M)=tr(M)=n-k.

75

También podría gustarte