Modelo de regresión lineal múltiple
El modelo de regresión lineal múltiple es idéntico al modelo de regresión lineal
simple, con la única diferencia de que aparecen más variables explicativas:
Modelo de regresión simple:
y b0 b1 x u
Modelo de regresión múltiple:
y b0 b1 x1 b2 x2 b3 x3 ... bk xk u
Siguiendo con nuestro ejemplo, si consideramos el peso como variable
dependiente y como posibles variables explicativas:
estatura
pie
l_brazo
a_espald
d_craneo
El modelo que deseamos construir es:
peso b0 b1 estatura b2 pie b3 l _ brazo b4 a _ espald b5 d _
craneo
Al igual que en regresión lineal simple, los coeficientes b van a indicar el
incremento en el peso por el incremento unitario de la correspondiente variable
explicativa. Por lo tanto, estos coeficientes van a tener las correspondientes unidades de
medida.
II. Hipótesis
Para realizar un análisis de regresión lineal múltiple se hacen las siguientes
consideraciones sobre los datos:
a) Linealidad: los valores de la variable dependiente están generados por el
siguiente modelo lineal:
YX*BU
b) Homocedasticidad: todas las perturbaciones tienen las misma varianza:
2
V (ui )
c) Independencia: las perturbaciones aleatorias son independientes entre sí:
E(ui u j ) 0, i j
d) Normalidad: la distribución de la perturbación aleatoria tiene distribución
normal:
U N (0, 2 )
e) Las variables explicativas Xk se obtienen sin errores de medida.
Si admitimos que los datos presentan estas hipótesis entonces el teorema de
Gauss-Markov establece que el método de estimación de mínimos cuadrados va a
producir estimadores óptimos, en el sentido que los parámetros estimados van a estar
centrados y van a ser de mínima varianza.
III. Estimación de los parámetros por mínimos cuadrados
Vamos a calcular un hiperplano de regresión de forma que se minimice la
varianza residual:
Min( y j yˆ )2
Donde:
yˆ j b0 b1 * x1,1 b2 * x2, j ...bk * xk, j
Por lo tanto la varianza residual se puede expresar de la siguiente forma:
n * 2 u * u ( y X * b) * ( y X * b)
Es decir:
(b) ( yj yˆ )2 u * u
Por tanto, la varianza residual es una función del vector de parámetros b y la
condición para que tenga un mínimo será:
(b)
b 0
Antes de derivar vamos a simplificar la expresión de la varianza residual:
n * 2 u* u ( y x * b)* ( y x * b) y* y y* x * b b* x* y b* x* x * b
Por lo tanto:
(b) ( y j yˆ )2 u * u y * y y * x * b b * x * y b * x * x * b
(b ) ( y X * b ) * ( y X * b )
b b 2 * X *Y 2 * X * X * B
Igualando a cero y despejando:
X *Y X * X * B
y si
X * es matriz no singular y por lo tanto tiene inversa, tenemos:
X
X *Y X * X * B
Multiplicando por ( X * X )1
( X * X ) 1 X *Y ( X * X ) 1 X * X * B
( X * X ) 1 X *Y I * B
B ( X * X ) 1 * X *Y
Ésta es la expresión del estimador de parámetros B .
Además
X *Y X * X * B
X *Y X * X * B 0
X * (Y X * B) 0
X *U 0
Es decir, los residuos obtenidos del modelo estimado por mínimos cuadrados no
van a estar correlacionados con las variables explicativas.
Nota
Es importante observar que si las variables explicativas X están muy
correlacionadas entre si, la matriz
( X * X va a tener el determinante con valor cero o
muy cercano a cero.
)
Si hay al menos una variable que puede ser expresada como combinación lineal
del resto (ingresos mensuales, ingresos anuales) el determinante de esta matriz es cero y
dicha matriz será singular y por lo tanto no tendrá inversa.
Si no hay variables que sean combinación lineal de las demás, pero están
fuertemente correlacionadas, el determinante no será cero pero tendrá un valor muy
próximo a cero; este caso va a producir una inestabilidad en la solución del estimador,
en general, se va a producir un aumento en su varianza.
En estos casos se impone la utilización de un método de selección de variables
explicativas.
A los problemas provocados por la fuerte correlación entre las variables
explicativas se les llama multicolinealidad.
IV. Varianza residual
Al igual que en el caso de regresión lineal simple, vamos a descomponer la
variabilidad de la variable dependiente Y en dos componentes o fuentes de variabilidad:
una componente va a representar la variabilidad explicada por el modelo de regresión y
la otra componente va a representar la variabilidad no explicada por el modelo y, por
tanto, atribuida a factores aleatorios.
Consideramos la variabilidad de la variable dependiente como:
n * 2 ( yi Y )2
Es decir, la variabilidad de Y es la suma cuadrática de los valores que toma la
variable respecto a la media de la variable.
Sumando y restando el valor pronosticado por el modelo de regresión obtenemos
la siguiente expresión:
) )
( y i y ) 2 ( yi y ) 2 (i y y ) 2
i
Es decir, que la suma de cuadrados de la variable Y respecto a su media se puede
descomponer en términos de la varianza residual. De esta expresión se deduce que “la
distancia de Y a su media se descompone como la distancia de Y a su estimación más la
distancia de su estimación a la media”.
Teniendo en cuenta que el último término representa la varianza no explicada,
tenemos:
VT VE VNE
Gráficamente es fácil ver la relación:
Dividiendo la variabilidad total entre sus grados de libertad obtenemos la
varianza de la variable dependiente Y :
S 2 VT
Y
n 1
Dividiendo la variabilidad no explicada entre sus grados de libertad obtenemos
la varianza residual de la variable dependiente Y :
S2 VNE
R
n (k 1)
Tabla resumen
Suma de cuadrados Grados de libertad
VT
VT ( y y) 2 n-1 2
SY n 1
VE ( yˆ y) 2
k-1
) VNE
VNE (yy ) 2
n-k-1 2
SR n k 1
V. Contraste de regresión
Como estamos sacando conclusiones de una muestra de un conjunto mucho más
amplio de datos, a veces este conjunto será infinito, es obvio que distintas muestras van
a dar distintos valores de los parámetros.
Un caso de especial interés es asignar una medida de probabilidad a la siguiente
afirmación o hipótesis:
H 0 b1 b2 ... bk 0
La afirmación contraria sería:
H1 bj 0
Nota
La hipótesis nula es que todos los coeficientes menos b0 son nulos y la hipótesis
alternativa o complementaria es que existe al menos uno que es distinto de 0, puede
haber varios que sean nulos, pero al menos existe uno distinto de cero.
Se denomina contraste de regresión al estudio de la posibilidad de que el modelo
de regresión sea nulo, es decir, los valores de las variables explicativas X no van a
influir en la variable Peso.
Construcción del contraste
Si los residuos siguen una distribución normal y b1 b2 ... bk 0 , tenemos
que:
VT 2
2 n1
VE 2
2 1
VNE 2
n (k 1)
2
Por tanto:
VE VE
1 F1,n (k 1)
R
VNE S2
n (k 1)
Es decir, el cociente entre la varianza explicada y la varianza no explicada será
aproximadamente 1. Además, al seguir una distribución F, podemos asignar una
medida de probabilidad (p-value) a la hipótesis de que la varianza explicada es igual a la
varianza no explicada.
En caso contrario la varianza no explicada será muy inferior a la varianza
explicada y, por lo tanto, este cociente tendrá un valor muy superior a 1.
Nota
En general si el p-value es menor de 0.05 se acepta que el modelo de regresión
es significativo; en caso contrario no podemos hablar de regresión, pues el modelo sería
nulo.
Si aceptamos que el modelo de regresión es significativo, es habitual mostrar el
p-value; por ejemplo:
Encontramos que este modelo de regresión es estadísticamente significativo con un
p-value de 0.0003
VI. Coeficiente de determinación R2
Vamos a construir un coeficiente (estadístico) que mida la bondad del ajuste del
modelo. Si bien la varianza residual ( S 2 ) nos indica cómo están de cerca
las R
estimaciones respecto de los puntos, esta varianza está influida por la varianza de la
variable dependiente, la cual, a su vez, está influida por su unidad de medida. Por lo
tanto, una medida adecuada es la proporción de la varianza explicada (VE) entre la
varianza total (VT); de este modo, definimos el coeficiente de determinación R 2 :
2 VE VT VNE VNE
R VT VT 1 VT
Por ser cociente de sumas de cuadrados, este coeficiente será siempre positivo.
Si todos los puntos están sobre la recta de regresión, la varianza no explicada
será 0, y por lo tanto:
VE 0
R2 1 1
VT VT
Este coeficiente es muy importante pues determina qué porcentaje (en tantos por
uno) de la varianza de la variable dependiente es explicado por el modelo de regresión.
En general, se pueden clasificar los valores de R2 de la siguiente manera:
Menor de 0.3 0.3 a 0.4 0.4 a 0.5 0.5 a 0.85 Mayor de 0.85
Muy malo Malo Regular Bueno Sospechoso
Además, a diferencia de la varianza residual, este coeficiente es adimensional;
esto quiere decir que no está afectado por transformaciones lineales de las variables; por
ello, si cambiamos las unidades de medida, el coeficiente de determinación permanecerá
invariante.