Guía Completa de Regresión Lineal Múltiple
Guía Completa de Regresión Lineal Múltiple
ESTG - ESTADÍSTICA II
/
Table of Contents
Regresión lineal múltiple
/
Introducción
Regresión lineal múltiple
• Todo lo que hemos visto sobre el modelo de regresión lineal simple se extiende, con
modificaciones menores, al modelo de regresión lineal múltiple.
/
Regresión Lineal Múltiple
Regresión lineal múltiple
• Un modelo de regresión lineal múltiple que relaciona una variable de respuesta y con
p − 1 variables x, se escribe como:
en que
— yi es la variable de respuesta (variable dependiente).
— xi = (xi1 , xi2 , . . . , xi,p−1 )⊤ son las variables predictoras (variables independientes) del
i-ésimo individuo.
— β0 es el término de intersección o el intercepto.
— β1 , β2 , . . . , βp−1 son los coeficientes de regresión para cada variable predictora.
— εi es el término de error, que representa la variabilidad o ruido en la relación entre las
variables.
/
Regresión Lineal Múltiple
Regresión lineal múltiple
• Asumimos que los errores εi son independientes y tienen una distribución normal
con media 0 y varianza constante σ 2 (homocedasticidad).
• El modelo incluye p − 1 covariables x, pero p parámetros de regresión (β), debido al
término β0 .
• La palabra “lineal” en regresión lineal múltiple se refiere al hecho de que el modelo
es lineal en los parámetros β0 , β1 , . . . , βp−1 .
• Cada variable x puede ser una variable predictora o una transformación de variables
predictoras (como el cuadrado de una variable predictora o el producto de dos
variables predictoras).
/
Regresión Lineal Múltiple: Interpretación
Regresión lineal múltiple
• Para el modelo:
/
Regresión Lineal Múltiple: Representación
Regresión lineal múltiple
dimensiones n × n.
• X es conocida como la matriz de diseño y se asume que es una matriz de rango
completo (todas las columnas linealmente independientes).
/
Regresión Lineal Múltiple: Estimación
Regresión lineal múltiple
• Los parámetros del modelo son estimados vía Mínimos Cuadrados Ordinarios (MCO).
Es decir, minimizando la suma cuadrática de los errores
Q = (y − Xβ)⊤ (y − Xβ) = y⊤ y − y⊤ Xβ − β ⊤ X⊤ y + β ⊤ X⊤ Xβ.
• Luego, las ecuaciones normales son dadas por:
∂Q
S(β) = = −2X⊤ y + 2X⊤ Xβ.
∂β
• Igualando a cero y resolviendo el sistema de ecuaciones anterior, obtenemos los
siguientes estimadores:
b = (X⊤ X)−1 X⊤ y.
β
• El estimador de la varianza del error está dado por:
SCE b ⊤ (y − Xβ)
(y − Xβ) b
b2 = MCE =
σ = .
n−p n−p
/
Regresión Lineal Múltiple: Inferencia para β
Regresión lineal múltiple
b2 .
Como σ 2 es desconocido debe ser estimado por MCE = σ
• Luego, un intervalo de confianza para el coeficiente βi en regresión lineal múltiple se
calcula e interpreta de la misma manera que en la regresión lineal simple, esto es
q
IC(βi , 1 − α) = βbi ∓ t(n−p,1−α/2) Var(βbi ),
para i = 0, 1, . . . , p − 1.
• La varianza de βbi es el elemento de la posición (i, i) de la matriz σ
b2 (X⊤ X)−1 , o
equivalentemente, Var(βi ) = σb b cii , en que cii es el elemento (i, i) de (X⊤ X)−1 .
2
/
Regresión Lineal Múltiple: Inferencia para β
Regresión lineal múltiple
/
Regresión Lineal Múltiple: Valores ajustados
Regresión lineal múltiple
• El valor ajustado para la i-ésima observación (que coincide con el valor estimado de
µYi |xi = E[Yi |xi ]) es dado por:
µd b b b b ⊤b
Yi |xi = β0 + β1 xi1 + β2 xi2 + . . . + βp−1 xi,p−1 = xi β.
• Note que µd ⊤
Yi |xi es una variable aleatoria con E[µd
Yi |xi ] = xi β y varianza:
⊤b ⊤ b 2 ⊤ ⊤ −1
Var(µd
Yi |xi ) = Var(xi β) = xi Var(β)xi = σ xi (X X) xi .
/
Regresión Lineal Múltiple: Predicción
Regresión lineal múltiple
• Ahora estamos interesados en predecir una nueva respuesta yh cuando los valores
de las variables explicativas son conocidos xh = (1, xh1 , xh2 , . . . , xh,p−1 )⊤ .
• El valor predicho para yh , denotado por b
yh es dado por
/
Regresión Lineal Múltiple: Análisis de Varianza
Regresión lineal múltiple
• Una forma de explicar la variabilidad de los datos es comparar las sumas cuadráticas.
• Suma cuadrática total (SCT):
Xn
⊤ 1 ⊤ ⊤ 1
SCT = (yi − ȳ) = y y − y Jy = y
2
In − J y,
n n
i=1
en que J es una matriz cuadrada n × n con todos los elementos iguales a 1.
• Suma cuadrática de regresión (SCR):
Xn
⊤ 1
SCR = yi − ȳ) = y
(b 2
H − J y,
n
i=1
en que H = X(X⊤ X)−1 X⊤ es conocida como matriz “hat”.
• Suma cuadrática del error (SCE):
Xn
SCE = (yi − b b ⊤ (y − Xβ)
yi )2 = (y − Xβ) b = y⊤ (In − H)y.
/ i=1
Regresión Lineal Múltiple: Análisis de Varianza
Regresión lineal múltiple
/
Regresión Lineal Múltiple: R2
Regresión lineal múltiple
/
Regresión Lineal Múltiple: R2 ajustado
Regresión lineal múltiple
• Como alternativa,
n−1
R̄2 = 1 − (1 − R2 )
n−p
no necesariamente aumenta a medida que se agregan más predictores y puede
ayudarnos a identificar qué predictores deben incluirse en un modelo y cuáles deben
excluirse.
• R̄2 no tiene una interpretación práctica, pero es útil para fines de construcción del
modelo.
/
Regresión Lineal Múltiple: Análisis de residuos
Regresión lineal múltiple
• La diferencia yi − b
yi es una estimativa del error εi , denominada residuo ordinario,
esto es,
yi = yi − x⊤
ri = εbi = yi − b b i = 1, . . . , n.
i β,
• Para validar los supuestos del modelo en regresión lineal múltiple, podemos calcular
los residuos Studentizados (como en regresión lineal simple) y realizar análisis
gráfica.
/
Regresión Lineal Múltiple: Análisis de residuos
Regresión lineal múltiple
• Adicional a los gráficos estudiados para regresión lineal simple, podemos graficar los
residuos Studentizados vs. las covariables consideradas en el modelo.
Ejemplo:
Residuo Studentizado
σ 2 en relación a X.
1
— Detectar no linealidad entre X e Y.
— Detectar valores atípicos.
0
• La presencia de algún patrón
sistemático indica que la variable en
cuestión no ha sido incluida en el −1
/
Regresión Lineal Múltiple: Análisis de residuos
Regresión lineal múltiple
Residuo Studentizado
Residuo Studentizado
1 1
0 0
−1 −1
5 6 7 8 9 10 −3 −2 −1 0 1 2 3
x2 x3
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple
100
Brain
90
80 90 100
75
70Height
65 70 75
175
Weight
150
125 150 175
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple
en que
— yi es el valor del coeficiente intelectual del estudiante i.
— xi1 es el tamaño del cerebro del estudiante i.
— xi2 es la altura en pulgadas del estudiante i.
— xi3 es el peso en libras del estudiante i.
iid
— εi es el error del i-ésimo estudiante, εi ∼ N(0, σ 2 ).
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple
Call:
lm(formula = CI ~ Brain + Height + Weight, data = datos)
Residuals:
Min 1Q Median 3Q Max
-32.74 -12.09 -3.84 14.17 51.69
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 111.40 62.970 1.768 0.085979 .
Brain 2.060 0.563 3.657 0.000856 ***
Height -2.732 1.229 -2.222 0.033034 *
Weight 5.599e-04 0.197 0.003 0.997750
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 19.79 on 34 degrees of freedom
Multiple R-squared: 0.2949, Adjusted R-squared: 0.2327
F-statistic: 4.741 on 3 and 34 DF, p-value: 0.007215
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple
• El valor de R-cuadrado (R2 ) es 0.2949. Esto nos indica que el 29.49% de la variación en el
coeficiente intelectual se explica al tomar en cuenta el tamaño del cerebro, la altura y el peso.
• Los valores-p de las pruebas t sugieren que los coeficientes de regresión asociados al tamaño
del cerebro (valor-p < 0.001) y a la altura (valor-p = 0.033) son significativamente diferentes
de 0, mientras que el coeficiente asociado al peso (valor-p = 0.998) no lo es. Por tal motivo,
podemos pensar en ajustar un modelo que no incluya la covariable peso
yi = β0 + β1 xi1 + β2 xi2 + εi .
• El valor-p para la prueba F de análisis de varianza (0.007) sugiere que el modelo que incluye
tamaño del cerebro, altura y peso es más útil para predecir la inteligencia que no tener en
cuenta los tres predictores. (¡Cabe destacar que esto no nos indica que el modelo con los
tres predictores sea el mejor modelo!)
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple
Residuos Studentizados
0.3
0
0.2
0.1 −2
0.0
−2 −1 0 1 2 3 −2 −1 0 1 2
Residuos Studentizados Percentiles de la N(0,1)
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple
Residuo Studentizado
Residuo Studentizado
Residuo Studentizado
2 2 2
1 1 1
0 0 0
−1 −1 −1
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple
H0 : β1 = β2 = β3 = 0 vs. H1 : al menos un βi ̸= 0, i = 1, 2, 3.
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple
/
Criterios de selección de modelos
Selección de modelos
Cuando tratamos con modelos encajados, podemos considerar los siguientes criterios de
selección de modelos:
b + 2k.
• AIC - Akaike Information Criterion: AIC = −2ℓ(θ)
b + k ln(n).
• BIC - Bayesian Information Criterion: BIC = −2ℓ(θ)
/
Criterios de selección de modelos
Selección de modelos
Podemos calcular las estadísticas de selección de modelos AIC y BIC usando las siguientes
funciones de R:
AIC(modelo) y BIC(modelo)
Ejemplo: Coeficiente Intelectual
• Modelo (M1 ):
• Modelo (M2 ):
• Siguiendo los criterios AIC y BIC, el modelo es preferible al modelo para ajustar los
datos del coeficiente intelectual.
/
Table of Contents
Predictores categóricos
/
Predictores categóricos: Ejemplo
Predictores categóricos
yi = β0 + β1 xi1 + β2 xi2 + εi , ()
en que
— xi1 : duración de la gestación en semanas del i-ésimo bebé.
— xi2 : es binaria, siendo igual a 1 si la mamá del bebé i fumó durante la gestación, 0 caso
contrario.
— β1 : es el incremento (positivo o negativo) en el peso esperado del bebé al nacer, para el
aumento de una semana en la duración de la gestación.
— β0 : es el peso esperado de bebés de madres que no fumaron durante la gestación,
cuando la duración de la gestación es 0.
— β0 + β2 : es el peso esperado de bebés de madres que fumaron durante la gestación,
cuando la duración de la gestación es 0.
/
Predictores categóricos: Ejemplo
Predictores categóricos
/
Predictores categóricos: Ejemplo
Predictores categóricos
• ¿Cómo podrías utilizar estos resultados para determinar si el peso promedio al nacer
de los bebés difiere entre las madres fumadoras y no fumadoras, después de tener
en cuenta la duración de la gestación?
• Responder la pregunta de investigación implica probar H0 : β2 = 0 vs. H1 : β2 ̸= 0.
El valor-p es < 0.001. Existe suficiente evidencia para concluir que hay una diferencia
significativa en el peso promedio al nacer de todos los bebés de madres fumadoras y
el peso promedio al nacer de todos los bebés de madres no fumadoras, después de
tener en cuenta la duración de la gestación.
• En resumen, “agrupar” los datos y ajustar un único modelo de regresión permite
responder de manera fácil preguntas de investigación que involucran una variable
predictora binaria.
/
Predictores categóricos: Ejemplo
Predictores categóricos
20
15
Consumo de oxígeno
10
ID IS
20
15
10
5
0 30 60 90 0 30 60 90
Carga
/
Predictores categóricos: Ejemplo
Predictores categóricos
• Un modelo que permita considerar las diferentes etiologías cardíacas, puede ser
planteado como sigue:
en que
— Etiologías : C: (i = 1), CH (i = 2), ID (i = 3), IS (i = 4).
iid
— εij ∼ N(0, σ 2 ).
— xij : carga a la que el paciente j que presenta la etiología cardíaca i fue sometido.
— β0i : consumo esperado para pacientes de la i-ésima etiología sometidos a una carga
igual a 0 unidades en la caminadora ergométrica.
— β1i : incremento (positivo o negativo) en el consumo esperado, de pacientes de la
i-ésima etiología, para el aumento en una unidad de la carga aplicada en la caminadora
ergométrica.
/
Predictores categóricos: Ejemplo
Predictores categóricos
/
Análisis de Multicolinealidad: Ejemplo
Multicolinealidad
/
Análisis de Multicolinealidad: Ejemplo
Multicolinealidad
125
120
115 BP
110
105110115120125
54
51 Age
48
45 48 51 54
100
95 Weight
90
85 90 95 100
2.2
2.1
2 BSA
1.9
1.81.9 2 2.12.2
100
75
50Stress
25 50 75100
/
Análisis de Multicolinealidad
Multicolinealidad
/
Análisis de Multicolinealidad: Consecuencias
Multicolinealidad
. El coeficiente de regresión estimado de cualquier variable depende de qué otros
predictores se incluyan en el modelo.
β2 β3
Modelo
tobs valor-p tobs valor-p
Modelo . . e- . .
Modelo . . e-
Modelo . . e-
/
Análisis de Multicolinealidad
Multicolinealidad
/
Análisis de Multicolinealidad: FIV
Multicolinealidad
/
Análisis de Multicolinealidad: FIV
Multicolinealidad
/
Análisis de Multicolinealidad: Soluciones
Multicolinealidad
• Regresión “Ridge”.
• Otras alternativas: Regresión Lasso, enfoque Spike and Slab, estimación penalizada.