•
1 © Asturias Corporación Universitaria
Índice
1 Introducción General .......................................................................................................... 3
2 Introducción .......................................................................................................................... 3
3 Notación Matricial del Modelo Lineal ............................................................................ 3
3.1 Otras Notaciones Matriciales de Interés para el Modelo de Regresión
Lineal ....................................................................................................................................... 5
3.1.1 Suma de Cuadrados de la Variable Y ....................................................... 5
3.1.2 Total de la Variable Y .................................................................................... 5
3.1.3 Media de la Variable Y .................................................................................. 5
3.1.4 Matriz 𝒏 ⋅ 𝒀𝟐.................................................................................................... 5
3.1.5 Matriz X'X.......................................................................................................... 5
3.1.6 Matriz X'Y .......................................................................................................... 5
4 Estimación de Parámetros: Método de Mínimos Cuadrados .................................. 5
4.1 Ejemplo: Regresión Simple Utilizando Notación Matricial ............................6
5 Supuestos del Modelo ........................................................................................................8
5.1 Supuestos sobre la Perturbación Aleatoria .......................................................8
5.2 Supuestos sobre las Variables ...............................................................................8
5.3 Supuestos sobre los Parámetros .......................................................................9
6 Medidas de Bondad de Ajuste: Coeficiente de determinación (R 2 ) ......................9
6.1 Tabla de ANOVA para Regresión Múltiple..........................................................9
6.2 Bondad del Ajuste ................................................................................................... 10
6.2.1 Coeficiente de Determinación Ajustado (𝑹𝟐) ...................................... 10
7 Resumen: La Selección del Modelo ............................................................................... 11
8 Bibliografía........................................................................................................................... 12
ASTURIAS CORPORACIÓN UNIVERSITARIA®
Nota Técnica preparada por Asturias Corporación Universitaria. Su difusión, reproducción o uso
total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.
Objetivos:
• Avanzar en la comprensión del modelo de regresión lineal general con el
caso de la regresión múltiple, utilizando la notación matricial.
• Familiarizarse con los elementos básicos de análisis de la varianza y de la
validez del modelo general de regresión lineal.
1 Introducción General
Presentamos en este tema el modelo lineal general. En el tema anterior tratamos
“El análisis de regresión lineal múltiple el análisis de regresión simple, que trata de relacionar una variable explicativa
es el análisis de regresión lineal con más cuantitativa con una variable respuesta cuantitativa. Ahora continuamos con el
de una variable explicativa” caso más general y de mayor utilidad práctica, que es la regresión lineal
múltiple. Por regresión lineal múltiple entenderemos el análisis de regresión
lineal con más de una variable explicativa.
2 Introducción
Mediante un modelo de regresión lineal múltiple (MRLM) tratamos de explicar
el comportamiento de una determinada variable que denominaremos variable a
explicar o variable respuesta, (Y) en función de un conjunto de p variables
explicativas 𝑋𝑝 , mediante una relación de dependencia lineal.
El resultado será la ecuación de una recta que pasa a través de la nube de
puntos, y que ofrece el mejor ajuste posible para cada observación.
3 Notación Matricial del Modelo Lineal
El modelo de regresión lineal múltiple es:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + … + 𝛽𝑝 𝑥𝑖𝑝 + 𝑢𝑖 (3. 1)
Tenemos ahora p variables explicativas 𝑥1 a 𝑥𝑝 , de forma que las observaciones
de todas las variables forman el sistema de n ecuaciones:
𝑦1 = 𝛽0 + 𝛽1 𝑥11 + 𝛽2 𝑥12 + … + 𝛽𝑝 𝑥1𝑝 + 𝑢1
{ 𝑦2 = 𝛽0 + 𝛽1 𝑥21 + 𝛽2…𝑥22 + … + 𝛽𝑝 𝑥2𝑝 + 𝑢2 (3. 2)
𝑦𝑛 = 𝛽0 + 𝛽1 𝑥𝑛1 + 𝛽2 𝑥𝑛2 + … + 𝛽𝑝 𝑥𝑛𝑝 + 𝑢𝑛
ASTURIAS CORPORACIÓN UNIVERSITARIA®
Nota Técnica preparada por Asturias Corporación Universitaria. Su difusión, reproducción o uso
total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.
Los valores 𝑦𝑖 de la variable explicada se almacenan en un vector columna 𝑌, de
tamaño 𝑛 × 1:
𝑦1
𝑌= [⋮]
𝑦𝑛
Los valores de las variables explicativas (𝑥1a 𝑥𝑝 ) se recogen en una matriz 𝑋 de
tamaño 𝑛 × (𝑝 + 1), en la que aparecen los valores de las p variables obtenidos en
las i observaciones.
Llamaremos 𝑥𝑖𝑗 al valor de la variable j obtenido en la observación i. Además la
primera columna será la variable 𝑥0 que vale siempre 1 que corresponde al
término independiente constante 𝛽0 ,
1 𝑥11 ⋯ 𝑥1𝑝
𝑋= [ ⋮ ⋮ ⋮ ⋮ ]
1 𝑥𝑛1 ⋯ 𝑥𝑛𝑝
El vector columna de parámetros Β, de tamaño (𝑝 + 1) × 1:
𝛽0
Β= [ ⋮ ]
𝛽𝑝
Y el vector columna 𝑈 de las perturbaciones aleatorias 𝑢𝑖 , de tamaño 𝑛 × 1:
𝑢1
𝑈= [ ⋮ ]
𝑢𝑛
De esta manera, el modelo 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + … + 𝛽𝑝 𝑥𝑖𝑝 + 𝑢𝑖 se expresa de
forma matricial:
𝑦1 1 𝑥11 ⋯ 𝑥1𝑝 𝛽0 𝑢1
[⋮] =[ ⋮ ⋮ ⋮ ⋮ ] ⋅ [⋮] +[ ⋮ ] (3. 3)
𝑦𝑛 𝑛 × 1 1 𝑥𝑛1 ⋯ 𝑥𝑛𝑝 𝑛 ×(𝑝+1) 𝛽𝑝 (𝑝+1) 𝑢𝑛 𝑛 ×1
×1
O, sencillamente:
𝑌 = 𝑋∙Β+𝑈 (3. 4)
Es importante recordar que un reordenamiento de los elementos de Β requiere un
reordenamiento de las columnas de 𝑋 para que se correspondan.
ASTURIAS CORPORACIÓN UNIVERSITARIA®
Nota Técnica preparada por Asturias Corporación Universitaria. Su difusión, reproducción o uso
total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.
3.1 Otras Notaciones Matriciales de Interés para el Modelo de Regresión
Lineal
3.1.1 Suma de Cuadrados de la Variable Y
𝑛 𝑛
𝑦1
𝑦
⋯ 𝑦𝑛 ] ⋅ [ 2 ]
∑ 𝑦𝑖2 = 𝑦12 + 𝑦22 + ⋯ + 𝑦𝑛2 ⟹ ∑ 𝑌𝑖2 = 𝑌 ′ ⋅ 𝑌 = [𝑦1 𝑦2 ⋮
𝑖=1 𝑖=1 𝑦𝑛
3.1.2 Total de la Variable Y
𝑛 𝑛
𝑦1
𝑦 2
𝑛𝑌̅ = ∑ 𝑦𝑖 = 𝑦1 + 𝑦2 + ⋯ + 𝑦𝑛 ⟹ ∑ 𝑌𝑖 = 1′ ⋅ 𝑌 = [1 1 ⋯ 1] ⋅ [ ⋮ ]
𝑖=1 𝑖=1 𝑦𝑛
3.1.3 Media de la Variable Y
𝑛
𝑦1
1 1 1 ′ 1 𝑦2
𝑌̅ = ∑ 𝑦𝑖 = (𝑦1 + 𝑦2 + ⋯ + 𝑦𝑛 ) ⟹ 𝑌̅ = 1 ⋅ 𝑌 = [1 1 ⋯ 1] ⋅ [ ⋮ ]
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑦𝑛
3.1.4 ̅𝟐
Matriz 𝒏 ⋅ 𝒀
𝑛
1 1
𝑛𝑌̅ 2 = (∑ 𝑦𝑖 )2 = (𝑦1 + 𝑦2 + ⋯ + 𝑦𝑛 )2 ⟹ 𝑛𝑌̅ 2 = 𝑌′ ⋅ 1 ⋅ 1′ ⋅ 𝑌/𝑛
𝑛 𝑛
𝑖=1
3.1.5 Matriz X'X
1 𝑥1
1 1 𝑛 ∑ 𝑥𝑖
⋯ 1 1 𝑥2
𝑋 ′𝑋 = [ ⋯ 𝑥𝑛 ] ⋅ [ ⋮ ⋮ ] = [ ]
𝑥1 𝑥2
∑ 𝑥𝑖 ∑ 𝑥𝑖2
1 𝑥𝑛
3.1.6 Matriz X'Y
𝑦1
1 1 𝑦2 ∑ 𝑦𝑖
′ ⋯ 1
𝑋 𝑌=[ ⋯ 𝑥𝑛 ] ⋅ [ ⋮ ] = [ ]
𝑥1 𝑥2
𝑦𝑛 ∑ 𝑥𝑖 𝑦𝑖
4 Estimación de Parámetros: Método de Mínimos Cuadrados
En regresión lineal simple usamos el método de mínimos cuadrados para
obtener estimadores de los parámetros 𝛽0 (valor de 𝑦 cuando 𝑥 vale cero) y 𝛽1
(pendiente de la recta, que indica cuánto varía 𝑦 al variar 𝑥).
En regresión lineal múltiple en principio es el mismo, pero necesitamos estimar
“En regresión lineal múltiple se necesitan más parámetros.
estimar más parámetros”
Llamaremos 𝛽̂0 , 𝛽̂1 , … , 𝛽̂𝑝 a los estimadores de los parámetros 𝛽0 , 𝛽1 , … , 𝛽𝑝 . La
respuesta estimada por el modelo para la i-ésima observación es:
𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖1 + 𝛽̂2 𝑥𝑖2 + ⋯ + 𝛽̂𝑝 𝑥𝑖𝑝
El i-ésimo residuo es la diferencia entre la respuesta observada y la predicha o
estimada:
ASTURIAS CORPORACIÓN UNIVERSITARIA®
Nota Técnica preparada por Asturias Corporación Universitaria. Su difusión, reproducción o uso
total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.
𝑢̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 = 𝑦𝑖 − (𝛽̂0 + 𝛽̂1 𝑥𝑖1 + 𝛽̂2 𝑥𝑖2 + ⋯ + 𝛽̂𝑝 𝑥𝑖𝑝 )
Los parámetros del sistema lineal, Β, miden el efecto de cada variable
explicativa sobre la variable a explicar o respuesta. Por otro lado, la varianza, 𝜎 2,
es el parámetro que mide la variabilidad de la respuesta alrededor de línea de
regresión.
Hallaremos unos estimadores Β ̂ de esos parámetros que hagan mínima la suma
de los cuadrados de los residuos (SCRes):
Β = (𝑋 ′ 𝑋)−1 ⋅ 𝑋′𝑌 (3. 5)
Esto significa que debe existir la matriz inversa de la matriz 𝑋′𝑋 que es la matriz
(𝑋 ′ 𝑋)−1 la cual existirá si ninguna columna de la matriz 𝑋 es una combinación
lineal de otras columnas. Si 𝑋′𝑋 no tiene inversa, entonces algunas ecuaciones
son combinaciones lineales de otras y en este caso no es posible obtener
estimadores a menos que se apliquen algunas condiciones o restricciones.
4.1 Ejemplo: Regresión Simple Utilizando Notación Matricial
Deseamos realizar un análisis de regresión con el número de unidades vendidas
como variable respuesta 𝑦, y el gasto en publicidad como variable explicativa 𝑥, a
partir de la siguiente información muestral:
Mes 1 2 3 4 5 6
Uds. Vendidas (miles) 3 6 10 5 10 12
Gasto Publicidad (Miles) 2 2 3 4 5 7
Tabla 3. 1
Con las técnicas explicadas en el tema anterior, obtenemos:
𝑦̂ = 2,44 + 1,36𝑥.
Por tanto, el valor predicho (medio) de ventas para un gasto en publicidad de 8
mil será:
𝑦̂ = 2,44 + 1,36 × 8 = 13,32
Veamos cómo obtener el mismo resultado utilizando álgebra matricial. Primero,
definimos un vector (columna) 𝑌, y una matriz (6 x 2) 𝑋:
3 1 2
6 1 2
10 1 3
𝑌= y 𝑋=
5 1 4
10 1 5
[ 12 ] [1 7]
ASTURIAS CORPORACIÓN UNIVERSITARIA®
Nota Técnica preparada por Asturias Corporación Universitaria. Su difusión, reproducción o uso
total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.
De manera que 𝑌 es un vector columna con los valores de la variable respuesta, y
𝑋 es una matriz con 1 en la primera columna (que corresponden al valor de 𝑦
cuando 𝑥1 vale cero (𝛽0 ), y los valores de la variable 𝑥1 en la segunda columna.
La ecuación en forma matricial para obtener los estimadores es:
̂ = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑌
Β (3. 6)
Vamos paso a paso. Primero, tomamos la matriz traspuesta de 𝑋 (que denotamos
𝑋′), que es:
1 1 1 1 1 1]
𝑋′ = [
2 2 3 4 5 7
A continuación, hacemos la multiplicación de 𝑋′ por 𝑋:
1 2
1 2
′ 1 1 1 1 1 1 1 3 6 23
𝑋𝑋= [ ] = [ ]
2 2 3 4 5 7 1 4 23 107
1 5
[1 7]
Ahora necesitamos la inversa del producto 𝑋′𝑋. Se trata de una matriz cuadrada 2
𝑎 𝑏]
x 2. En general, la inversa de una matriz 2 x 2, 𝑀 = [ es:
𝑐 𝑑
1 𝑑 −𝑏
𝑀−1 = [ ]
𝑎𝑑 − 𝑏𝑐 −𝑏 𝑎
Que aplicado a nuestro caso:
1 107 −23
(𝑋 ′ 𝑋)−1 = [ ]=
6 (107) − 23 (23) −23 6
1 107 −23 0,95 −0,20
= [ ]=[ ]
113 −23 6 −0,20 0,05
Por otro lado, calculamos 𝑋′𝑌:
3
6
′ 1 1 1 1 1 1 10 46
𝑋 𝑌= [ ] = [ ]
2 2 3 4 5 7 5 202
10
[12]
̂ = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑌.
Y ya tenemos todos los términos para el cálculo de Β
̂
̂ = [𝛽0 ] = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑌 = [ 0,95 −0,20] [ 46 ] = [2,44]
Β
𝛽̂1 −0,20 0,05 202 1,36
Con lo que se comprueba que la recta es 𝑦̂ = 2,44 + 1,36𝑥.
ASTURIAS CORPORACIÓN UNIVERSITARIA®
Nota Técnica preparada por Asturias Corporación Universitaria. Su difusión, reproducción o uso
total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.
5 Supuestos del Modelo
Los supuestos del modelo de regresión lineal múltiple se resumen en:
5.1 Supuestos sobre la Perturbación Aleatoria
• El valor esperado de la perturbación aleatoria es cero en todas las
observaciones:
𝐸[𝑢𝑖 ] = 0, ∀i = 1, … , 𝑛
• Homocedasticidad: todos los términos de la perturbación tienen la misma
varianza (varianza constante):
𝑉𝑎𝑟[𝑢𝑖 ] = 𝑉𝑎𝑟[𝑢𝑗 ] = 𝜎 2 , ∀i ≠ j
Por tanto, todos los términos de la diagonal principal de la matriz de
varianzas y covarianzas serán iguales:
𝜎2 ⋯
𝜎 2 ⋮
𝑉𝑎𝑟[𝑈] = [ ⋯ ⋯ ⋮ ⋯]
⋯ 𝜎2
• No Autocorrelación: las perturbaciones son independientes unas de
otras. Es decir, la matriz de varianzas y covarianzas es una matriz diagonal
(fuera de la diagonal principal todo son ceros):
𝜎2 0 ⋯ 0
0 𝜎2 ⋮ 0
𝑉𝑎𝑟[𝑈] = [ ⋯ ⋯ ⋮ ⋯]
0 0 ⋯ 𝜎2
Con los supuestos de homocedasticidad y no autocorrelación, la matriz de
varianzas y covarianzas tiene la forma:
𝜎2 0 ⋯ 0
0 𝜎2 ⋮ 0 2
𝑉𝑎𝑟[𝑈] = [ ⋯ ⋯ ⋮ ⋯ ] = 𝜎 ⋅ 𝐼𝑛
2
0 0 ⋯ 𝜎
Donde 𝐼𝑛 es la matriz identidad de orden 𝑛.
• La perturbación sigue una distribución normal.
5.2 Supuestos sobre las Variables
• Los datos de las variables explicativas son fijos en muestras repetidas.
• La muestra de datos es suficientemente grande. Los grados de libertad
(𝑔𝑙) de un modelo se definen como la diferencia entre el número de
observaciones (𝑛) y el número de variables explicativas (𝑝). Es decir 𝑔𝑙 =
𝑛 − 𝑝 ≥ 0.
ASTURIAS CORPORACIÓN UNIVERSITARIA®
Nota Técnica preparada por Asturias Corporación Universitaria. Su difusión, reproducción o uso
total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.
5.3 Supuestos sobre los Parámetros
• Los parámetros son lineales en la relación entre la variable explicada y las
variables explicativas.
• Los parámetros Β son constantes en el tiempo.
6 Medidas de Bondad de Ajuste: Coeficiente de
determinación (R 2)
6.1 Tabla de ANOVA para Regresión Múltiple
Los elementos básicos de análisis de la regresión suelen presentarse en la Tabla
“Los elementos básicos de análisis de
de Análisis de Varianza, o tabla ANOVA, en la que llamamos:
la regresión se presentan en una tabla • 𝑆𝐶𝑇𝑜𝑡𝑎𝑙 a la suma de los valores de 𝑌 alrededor de su media: ∑(𝑦 − 𝑦̅)2 .
ANOVA”
• 𝑆𝐶𝑀𝑜𝑑 a la suma de cuadrados estimados por el modelo: ∑(𝑦̂ − 𝑦̅)2 .
• 𝑆𝐶𝑅𝑒𝑠 a la suma de los cuadrados de los residuos: ∑(𝑦𝑖 − 𝑦̂𝑖 )2.
La tabla se diferencia en este caso del de la regresión simple, en que los grados
de libertad del modelo son ahora p en vez de 1, lo que refleja que ahora tenemos
p variables explicatorias en vez de sólo una.
Las sumas de cuadrados representan las diferentes componentes de la varianza.
Fuente de 𝑔𝑙 SC CM
variación
Grados de Sumas de Cuadrados Cuadrados
libertad Medios
𝑛
𝑆𝐶𝑀𝑜𝑑
Modelo 𝑝 𝑆𝐶𝑀𝑜𝑑 = ∑ (𝑦̂𝑖 − 𝑦̅)2
𝑖=1 𝑝
𝑛
𝑆𝐶𝑅𝑒𝑠
Residuo 𝑛−𝑝−1 𝑆𝐶𝑅𝑒𝑠 = ∑ (𝑦𝑖 − 𝑦̂𝑖 )2
𝑖=1 𝑛−𝑝−1
𝑛
Total 𝑛−1 𝑆𝐶𝑇𝑜𝑡𝑎𝑙 = ∑ (𝑦𝑖 − 𝑦̅ )2
𝑖=1
Tabla 3. 2
La suma de cuadrados total es igual a la suma de los cuadrados del modelo de
regresión más la suma de los cuadrados de los residuos:
𝑆𝐶𝑇𝑜𝑡𝑎𝑙 = 𝑆𝐶𝑀𝑜𝑑 + 𝑆𝐶𝑅𝑒𝑠
La interpretación de esta igualdad es una descomposición de varianzas. Es decir,
indica que de toda la variabilidad que hay que explicar de la variable explicada
(𝑆𝐶𝑇𝑜𝑡𝑎𝑙), hay una parte captada por el modelo (𝑆𝐶𝑀𝑜𝑑) y otra parte que no puede
ser explicada (𝑆𝐶𝑅𝑒𝑠).
ASTURIAS CORPORACIÓN UNIVERSITARIA®
Nota Técnica preparada por Asturias Corporación Universitaria. Su difusión, reproducción o uso
total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.
Si el modelo ajusta perfectamente la 𝑆𝐶𝑅𝑒𝑠 = 0 y la 𝑆𝐶𝑇𝑜𝑡𝑎𝑙 = 𝑆𝐶𝑀𝑜𝑑. Si el
modelo no explica nada, la 𝑆𝐶𝑀𝑜𝑑 = 0 y la 𝑆𝐶𝑇𝑜𝑡𝑎𝑙 = 𝑆𝐶𝑅𝑒𝑠.
La varianza, 𝜎 2, es el parámetro que mide la variabilidad de la respuesta alrededor
de la línea de regresión. Como en regresión lineal simple, estimamos 𝜎 2 como el
promedio de los residuos al cuadrado:
𝑆𝐶𝑅𝑒𝑠 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ 2 = = (3.7.)
𝑛−𝑝−1 𝑛−𝑝−1
6.2 Bondad del Ajuste
La 𝑆𝐶𝑅𝑒𝑠 no es una buena medida del ajuste del modelo, ya que los residuos
cambian ante un simple cambio de las unidades de medida. Por ejemplo: Al
cambiar de dólares a miles de dólares. Además, la 𝑆𝐶𝑅𝑒𝑠 como mínimo es nula,
pero su valor máximo no está acotado.
2
El coeficiente de determinación R es una medida acotada entre 0 y 1, y que no
“El coeficiente de determinación R2 es
depende de las unidades de las variables.
una medida acotada entre 0 y 1 y que 𝑆𝐶𝑀𝑜𝑑 𝑆𝐶𝑅𝑒𝑠
𝑅2 = = 1− (3. 8)
no depende de las unidades de las 𝑆𝐶𝑇𝑜𝑡𝑎𝑙 𝑆𝐶𝑇𝑜𝑡𝑎𝑙
variables”
• Si el 𝑅2 = 0, el ajuste es nulo, pues la 𝑆𝐶𝑀𝑜𝑑 = 0.
• Si el 𝑅2 = 1, el ajuste es perfecto, ya que 𝑆𝐶𝑀𝑜𝑑 = 𝑆𝐶𝑇𝑜𝑡𝑎𝑙, o lo que es lo
mismo, la 𝑆𝐶𝑅𝑒𝑠 = 0.
2
El valor del R (multiplicado por 100) se interpreta como el porcentaje de la
variación de la variable respuesta que queda explicada por el modelo.
La raíz cuadrada de R2 es el coeficiente de correlación múltiple, y da la
correlación entre las observaciones 𝑦𝑖 y los valores predichos 𝑦̂𝑖 .
6.2.1 ̅ 𝟐)
Coeficiente de Determinación Ajustado (𝑹
El R2 es fácil de calcular y muy utilizado, pero hay que tener en cuenta que
presenta algunas dificultades:
En primer lugar, puede ser engañoso mirar sólo el R 2 sin mirar los datos. Muchas
veces, el R2 es alto en relaciones espúreas. También en relaciones donde tiene
sentido relacionar determinadas variables (Ejemplo: Consumo y Renta), el
coeficiente de determinación puede ser excesivamente alto si en el periodo de
tiempo en que se toman los datos de la muestra, ambas variables evolucionan de
forma muy parecida o presentan una tendencia común.
Por otro lado, cuando evaluamos un modelo de regresión lineal múltiple nos
interesa decidir si una variable dada mejora la capacidad para predecir la
respuesta comparando el R2 de un modelo que contiene la variable, con el R 2 del
modelo sin la variable. El modelo con mejor R 2 debería ser el mejor.
ASTURIAS CORPORACIÓN UNIVERSITARIA®
Nota Técnica preparada por Asturias Corporación Universitaria. Su difusión, reproducción o uso
total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.
Pero debemos ser cuidadosos cuando comparamos los coeficientes de
determinación de dos modelos diferentes. La inclusión de una variable adicional
en el modelo nunca provoca la reducción de R 2 . Es decir, aunque una nueva
variable no sea relevante, su incorporación hace que, como mínimo, en el peor de
los casos, el R2 no cambie.
La solución a este último problema es utilizar el llamado R2 ajustado por los
grados de libertad (𝑅̅2) que se calcula:
𝑛−1
𝑅̅2 = 1 − (1 − 𝑅2 ) (3. 9)
𝑛 − (𝑝 + 1)
Esta fórmula trata adecuadamente los dos efectos que tiene introducir nuevas
variables explicativas en el modelo. Vemos que:
• Si aumenta el número de variables explicativas en el modelo, disminuyen
los grados de libertad y esto hace que 𝑅̅2 sea menor:
𝑛−1
𝑝 ↑ ⇒ 𝑛 − (𝑝 − 1) ↓ ⇒ ↑ ⇒ 𝑅̅2 ↓
𝑛 − (𝑝 + 1)
• Pero estas nuevas variables pueden mejorar el ajuste del modelo:
𝑝 ↑ ⇒ 𝑆𝐶𝑅𝑒𝑠 ↓ ⇒ 𝑅2 ↑ ⇒ 𝑅̅2 ↑
Y el coeficiente de determinación ajustado nos permite decidir sobre el mejor
“El coeficiente de determinación
modelo, pues si el efecto de penalización es menor que el efecto de mejora en el
ajuste, el 𝑅̅2 aumentará e indicará que compensa la introducción de esas nuevas
ajustado nos permite decidir sobre el
variables, y a la inversa.
mejor modelo”
Ejemplo:
Supongamos que se han estimado dos funciones de consumo alternativas:
𝐶𝑡 = 𝛽̂0 + 𝛽̂1 𝑅𝑒𝑛𝑡𝑎𝑡 + 𝑢𝑡 , obteniéndose 𝑅̅2 = 0,80
𝐶𝑡 = 𝛽̂0 + 𝛽̂1 𝑅𝑒𝑛𝑡𝑎𝑡 + 𝛽̂2 𝐼𝑡 + 𝑢𝑡 , obteniéndose 𝑅̅2 = 0,87
donde 𝐼𝑡 es un tipo de Interés.
2
El hecho de que el R sea mayor en el modelo más complicado indica que
compensa introducir la variable Tipo de Interés (en términos de ajuste) aunque
los grados de libertad hayan disminuido.
7 Resumen: La Selección del Modelo
Normalmente es preferible incluir en un modelo de regresión sólo las variables
explicativas que ayudan a predecir o explicar la variabilidad observada en la
respuesta. En consecuencia, si tenemos diversas variables explicativas
potenciales, ¿cómo decidir cuáles se deben retener en el modelo y cuáles dejar
fuera?
ASTURIAS CORPORACIÓN UNIVERSITARIA®
Nota Técnica preparada por Asturias Corporación Universitaria. Su difusión, reproducción o uso
total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.
Por lo general, la decisión se toma en base a una combinación de
consideraciones estadísticas y no estadísticas. Es fundamental identificar o
conocer qué variables podrían ser importantes. Sin embargo, para estudiar
cabalmente el efecto de cada una de estas variables explicativas, sería necesario
llevar a cabo análisis por separado de cada posible combinación de variables.
Los modelos resultantes podrían evaluarse enseguida de acuerdo con algún
criterio estadístico. Este es el método más completo, pero también el que ocupa
más tiempo. Si tenemos una gran cantidad de variables explicativas el
procedimiento podría no ser factible.
Existen otros métodos paso a paso (stepwise en inglés) que son útiles, pero que
hay que usar con cautela porque los resultados pudieran depender de una muestra
particular de los datos más que del conocimiento del problema que estamos
estudiando.
En definitiva, debemos buscar un equilibrio entre la tecnología, nuestro
conocimiento del significado de las variables y los resultados de la muestra
8 Bibliografía
• Barreto, H; Howland, F.: Introductory Econometrics: Using Monte Carlo
Simulation with Microsoft Excel, Nueva York, Cambridge University Press,
2005.
• Wooldridge, F.M: Introducción a la econometría: un enfoque moderno,
Madrid: Thomson, 2006
ASTURIAS CORPORACIÓN UNIVERSITARIA®
Nota Técnica preparada por Asturias Corporación Universitaria. Su difusión, reproducción o uso
total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.