0% encontró este documento útil (0 votos)
73 vistas55 páginas

Guía Completa de Regresión Lineal Múltiple

El documento aborda la regresión lineal múltiple, que extiende el modelo de regresión lineal simple a múltiples predictores. Se discuten aspectos como la estimación de coeficientes, análisis de varianza, inferencia estadística y predicción, así como la importancia de la multicolinealidad y la selección de modelos. Además, se presentan fórmulas y métodos para calcular intervalos de confianza y predicciones basadas en el modelo.

Cargado por

jeanprami022
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
73 vistas55 páginas

Guía Completa de Regresión Lineal Múltiple

El documento aborda la regresión lineal múltiple, que extiende el modelo de regresión lineal simple a múltiples predictores. Se discuten aspectos como la estimación de coeficientes, análisis de varianza, inferencia estadística y predicción, así como la importancia de la multicolinealidad y la selección de modelos. Además, se presentan fórmulas y métodos para calcular intervalos de confianza y predicciones basadas en el modelo.

Cargado por

jeanprami022
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Regresión Lineal Múltiple

ESTG - ESTADÍSTICA II

/
Table of Contents
Regresión lineal múltiple

▶ Regresión lineal múltiple


Modelo de regresión lineal múltiple
Estimación de los coeficientes de regresión
Valores ajustados
Predicción
Análisis de varianza
Coeficiente de determinación
Análisis de residuos
▶ Selección de modelos
▶ Predictores categóricos
▶ Multicolinealidad

/
Introducción
Regresión lineal múltiple

• Pasamos del modelo de regresión lineal simple con un predictor, al modelo de


regresión lineal múltiple con dos o más predictores.

• Todo lo que hemos visto sobre el modelo de regresión lineal simple se extiende, con
modificaciones menores, al modelo de regresión lineal múltiple.

• Utilizamos pruebas t e intervalos de confianza para los coeficientes de regresión para


evaluar si un predictor está significativamente relacionado con la respuesta, después
de controlar los efectos de todos los demás predictores en el modelo.

• Con una generalización de los grados de libertad, utilizamos intervalos de predicción


para predecir una respuesta individual e intervalos de confianza para estimar la
respuesta media.

/
Regresión Lineal Múltiple
Regresión lineal múltiple

• Un modelo de regresión lineal múltiple que relaciona una variable de respuesta y con
p − 1 variables x, se escribe como:

yi = β0 + β1 xi1 + β2 xi2 + . . . + βp−1 xi,p−1 + εi ,

en que
— yi es la variable de respuesta (variable dependiente).
— xi = (xi1 , xi2 , . . . , xi,p−1 )⊤ son las variables predictoras (variables independientes) del
i-ésimo individuo.
— β0 es el término de intersección o el intercepto.
— β1 , β2 , . . . , βp−1 son los coeficientes de regresión para cada variable predictora.
— εi es el término de error, que representa la variabilidad o ruido en la relación entre las
variables.

/
Regresión Lineal Múltiple
Regresión lineal múltiple

• Asumimos que los errores εi son independientes y tienen una distribución normal
con media 0 y varianza constante σ 2 (homocedasticidad).
• El modelo incluye p − 1 covariables x, pero p parámetros de regresión (β), debido al
término β0 .
• La palabra “lineal” en regresión lineal múltiple se refiere al hecho de que el modelo
es lineal en los parámetros β0 , β1 , . . . , βp−1 .
• Cada variable x puede ser una variable predictora o una transformación de variables
predictoras (como el cuadrado de una variable predictora o el producto de dos
variables predictoras).

yi = β0 + β1 xi1 + β2 xi2 + β3 x2i2 + β4 xi1 xi2 + εi .

En este último modelo debe prestar atención en la interpretación de los parámetros.

/
Regresión Lineal Múltiple: Interpretación
Regresión lineal múltiple

• Para el modelo:

yi = β0 + β1 xi1 + β2 xi2 + . . . + βp−1 xi,p−1 + εi .

• Cada parámetro βj , j ∈ {1, . . . , p − 1}, representa el cambio en la media de la


respuesta (µYi |xi = E[Yi |xi ]) por cada aumento de una unidad en el predictor xij ,
manteniendo constante todos los demás predictores.
• Por ejemplo, β1 representa el cambio estimado en la media de la respuesta, µYi |xi ,
por cada aumento de una unidad en xi1 , manteniendo constante xi2 , . . . , xi,p−1 .
• β0 representa la media estimada de la respuesta, µYi |xi , cuando todas las variables
predictoras xi1 , xi2 , . . . , xi,p−1 son iguales a cero (lo cual puede o no tener un
significado práctico).

/
Regresión Lineal Múltiple: Representación
Regresión lineal múltiple

• El modelo de regresión lineal múltiple puede ser representado matricialmente,


como sigue:
      
y1 1 x11 x12 . . . x1,p−1 β0 ε1
 y2   1 x21 x22 . . . x2,p−1   β1   ε2 
      
 ..  =  .. .. .. .. ..   ..  +  ..  .
 .   . . . . .   .   . 
yn 1 xn1 xn2 . . . xn,p−1 βp−1 εn
| {z } | {z } | {z } | {z }
y X β ε

• Esto es: y = Xβ + ε, en que y ∈ Rn ,


X∈ Rn×p ,
β∈ Rp
yε∈ Rn .
• Con esta representación ε ∼ Nn (0, σ In ), en que In representa la matriz identidad de
2

dimensiones n × n.
• X es conocida como la matriz de diseño y se asume que es una matriz de rango
completo (todas las columnas linealmente independientes).
/
Regresión Lineal Múltiple: Estimación
Regresión lineal múltiple

• Los parámetros del modelo son estimados vía Mínimos Cuadrados Ordinarios (MCO).
Es decir, minimizando la suma cuadrática de los errores
Q = (y − Xβ)⊤ (y − Xβ) = y⊤ y − y⊤ Xβ − β ⊤ X⊤ y + β ⊤ X⊤ Xβ.
• Luego, las ecuaciones normales son dadas por:
∂Q
S(β) = = −2X⊤ y + 2X⊤ Xβ.
∂β
• Igualando a cero y resolviendo el sistema de ecuaciones anterior, obtenemos los
siguientes estimadores:
b = (X⊤ X)−1 X⊤ y.
β
• El estimador de la varianza del error está dado por:
SCE b ⊤ (y − Xβ)
(y − Xβ) b
b2 = MCE =
σ = .
n−p n−p
/
Regresión Lineal Múltiple: Inferencia para β
Regresión lineal múltiple

• Es posible demostrar que


b ∼ Np (β, σ 2 (X⊤ X)−1 ).
β

b2 .
Como σ 2 es desconocido debe ser estimado por MCE = σ
• Luego, un intervalo de confianza para el coeficiente βi en regresión lineal múltiple se
calcula e interpreta de la misma manera que en la regresión lineal simple, esto es
q
IC(βi , 1 − α) = βbi ∓ t(n−p,1−α/2) Var(βbi ),

para i = 0, 1, . . . , p − 1.
• La varianza de βbi es el elemento de la posición (i, i) de la matriz σ
b2 (X⊤ X)−1 , o
equivalentemente, Var(βi ) = σb b cii , en que cii es el elemento (i, i) de (X⊤ X)−1 .
2

/
Regresión Lineal Múltiple: Inferencia para β
Regresión lineal múltiple

• Pruebas de hipótesis para un único parámetro:


H0 : βi = bi vs. H1 : βi ̸= bi ,
para i = 0, 1, . . . , p − 1.
• El estadístico de prueba será
βbi − bi βbi − bi
t= q =p ,
b
Var(βi ) b
σ 2c
ii

en que cii es el elemento (i, i) de la matrix (X⊤ X)−1 .


• Rechazamos H0 si |tobs | ≥ tcrit , en que tcrit = t(n−p,1−α/2) .
• De modo equivalente, rechazamos H0 si el valor-p ≤ α, en que el
valor-p = P(|t(n−p) | ≥ |tobs |).

/
Regresión Lineal Múltiple: Valores ajustados
Regresión lineal múltiple

• El valor ajustado para la i-ésima observación (que coincide con el valor estimado de
µYi |xi = E[Yi |xi ]) es dado por:

µd b b b b ⊤b
Yi |xi = β0 + β1 xi1 + β2 xi2 + . . . + βp−1 xi,p−1 = xi β.

• Note que µd ⊤
Yi |xi es una variable aleatoria con E[µd
Yi |xi ] = xi β y varianza:

⊤b ⊤ b 2 ⊤ ⊤ −1
Var(µd
Yi |xi ) = Var(xi β) = xi Var(β)xi = σ xi (X X) xi .

• Un intervalo de confianza para µYi |xi es dado por:


q
IC(µYi |xi , 1 − α) = µd b 2 x⊤ ⊤ −1
Yi |xi ∓ t(n−p,1−α/2) σ i (X X) xi .

/
Regresión Lineal Múltiple: Predicción
Regresión lineal múltiple

• Ahora estamos interesados en predecir una nueva respuesta yh cuando los valores
de las variables explicativas son conocidos xh = (1, xh1 , xh2 , . . . , xh,p−1 )⊤ .
• El valor predicho para yh , denotado por b
yh es dado por

yh = βb0 + βb1 xh1 + . . . + βbp−1 xh,p−1 = x⊤


b b
h β.

• La varianza del valor predicho está dada por


 
Var(b b 2 1 + x⊤
yh ) = σ ⊤ −1
h (X X) xh .

• Por tanto, el intervalo de predicción de 1 − α es:


q 
IC(Yh , 1 − α) = byh ∓ t(n−p,1−α/2) σ b 2 1 + x⊤ ⊤ −1
h (X X) xh .

/
Regresión Lineal Múltiple: Análisis de Varianza
Regresión lineal múltiple

• Una forma de explicar la variabilidad de los datos es comparar las sumas cuadráticas.
• Suma cuadrática total (SCT):
Xn  
⊤ 1 ⊤ ⊤ 1
SCT = (yi − ȳ) = y y − y Jy = y
2
In − J y,
n n
i=1
en que J es una matriz cuadrada n × n con todos los elementos iguales a 1.
• Suma cuadrática de regresión (SCR):
Xn  
⊤ 1
SCR = yi − ȳ) = y
(b 2
H − J y,
n
i=1
en que H = X(X⊤ X)−1 X⊤ es conocida como matriz “hat”.
• Suma cuadrática del error (SCE):
Xn
SCE = (yi − b b ⊤ (y − Xβ)
yi )2 = (y − Xβ) b = y⊤ (In − H)y.
/ i=1
Regresión Lineal Múltiple: Análisis de Varianza
Regresión lineal múltiple

• La Tabla de Análisis de Varianza (ANOVA) es utilizada en regresión lineal múltiple


para analizar la validez del modelo:
yi = β0 + β1 xi1 + . . . + βp−1 xi,p−1 + εi .
• Prueba de hipótesis:
H0 : β1 = β2 = . . . = βp−1 = 0
vs.
H1 : Al menos uno de los βi ̸= 0, i = 1, . . . , p − 1.
• Podemos decir que el modelo postulado sobre la hipótesis nula es
yi = β0 + εi ,
también conocido como el modelo reducido.
/
Regresión Lineal Múltiple: Análisis de Varianza
Regresión lineal múltiple

• La tabla ANOVA es construida como sigue:


Fuentes de Grados de Sumas Medias Estadístico de
Variación Libertad Cuadráticas Cuadráticas Prueba F
Xn
SCR MCR
Regresión p−1 yi − ȳ)2
(b MCR = F=
i=1
p−1 MCE
X
n
SCE
Error n−p (yi − b
yi ) 2 MCE =
i=1
n−p
X
n
Total n−1 (yi − ȳ)2
i=1
• En que F ∼ F(p−1,n−p) .
• Rechazamos H0 si F0 > F(p−1,n−p,1−α) ; o
si valor-p = P(F(p−1,n−p) ≥ Fobs ) ≤ α.
• Ya que rechazamos para valores grandes del estadístico F. Un valor grande del estadístico
corresponde a una gran parte de la varianza explicada por la regresión.

/
Regresión Lineal Múltiple: R2
Regresión lineal múltiple

• Al igual que en la regresión lineal simple, R2 representa la proporción de variación en


Y (alrededor de su media) explicada por el modelo de regresión lineal múltiple con
los predictores x1 , x2 , . . . , xp−1 .
• Si comenzamos con un modelo de regresión lineal simple con una variable predictora
x1 y luego agregamos una segunda variable predictora x2 , la SCE decrecerá (o se
mantiene), mientras que la SCT se mantedrá. Luego, R2 aumentará (o se mantendrá).
• En otras palabras, R2 siempre crecerá (o se mantendrá) a medida que se agregan
más predictores al modelo de regresión lineal múltiple, incluso si los predictores
agregados no están relacionados con la variable de respuesta.
• Por lo tanto, por sí solo R2 no puede ayudarnos a identificar qué predictores deben
incluirse en un modelo y cuáles deben excluirse.

/
Regresión Lineal Múltiple: R2 ajustado
Regresión lineal múltiple

• Como alternativa,
n−1
R̄2 = 1 − (1 − R2 )
n−p
no necesariamente aumenta a medida que se agregan más predictores y puede
ayudarnos a identificar qué predictores deben incluirse en un modelo y cuáles deben
excluirse.

• R̄2 no tiene una interpretación práctica, pero es útil para fines de construcción del
modelo.

• Al comparar dos modelos utilizados para predecir la misma variable de respuesta,


generalmente preferimos el modelo con el valor más alto de R̄2 .

/
Regresión Lineal Múltiple: Análisis de residuos
Regresión lineal múltiple

• Las principales suposiciones del Modelo normal linear son:


— Homocedasticidad (de los errores).
— Independencia (correlación nula) de los errores.
— Normalidad de los errores.

• La diferencia yi − b
yi es una estimativa del error εi , denominada residuo ordinario,
esto es,

yi = yi − x⊤
ri = εbi = yi − b b i = 1, . . . , n.
i β,

• Para validar los supuestos del modelo en regresión lineal múltiple, podemos calcular
los residuos Studentizados (como en regresión lineal simple) y realizar análisis
gráfica.

/
Regresión Lineal Múltiple: Análisis de residuos
Regresión lineal múltiple

• Adicional a los gráficos estudiados para regresión lineal simple, podemos graficar los
residuos Studentizados vs. las covariables consideradas en el modelo.
Ejemplo:

• Este gráfico permite: 2


— Detectar variación en la magnitud de

Residuo Studentizado
σ 2 en relación a X.
1
— Detectar no linealidad entre X e Y.
— Detectar valores atípicos.
0
• La presencia de algún patrón
sistemático indica que la variable en
cuestión no ha sido incluida en el −1

modelo en una escala correcta. 5 6 7 8 9 10


x2

/
Regresión Lineal Múltiple: Análisis de residuos
Regresión lineal múltiple

• Si conocemos los valores de covariables no consideradas en el modelo.


• En el gráfico de la covariable vs residuo Studentizado, cualquier patrón sistemático
indica la necesidad de incorporar la variable en el modelo.
Incorporar la covariable No es necesario incorporar
2 2

Residuo Studentizado
Residuo Studentizado

1 1

0 0

−1 −1

5 6 7 8 9 10 −3 −2 −1 0 1 2 3
x2 x3

/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple

Ejemplo : Coeficiente intelectual (IQ)


• El conjunto de datos “CI_dataset.txt” contiene información sobre el coeficiente intelectual
(CI) del Wechsler Adult Intelligence Scale, tamaño del cerebro (Brain) basado en el recuento
obtenido de escáneres de resonancia magnética (expresado como recuento/10000), altura
(Height) en pulgadas y peso (Weight) en libras de n = 38 estudiantes universitarios.
• Construya un modelo estadístico que permita predecir el coeficiente intelectual en función
de las variables restantes (tamaño del cerebro, peso y altura).
• Realizar análisis de los residuos y del coeficiente de determinación.
• Construir la tabla de análisis de varianza (ANOVA).
• Además, determinar un intervalo de predicción del 95% para el coeficiente intelectual de un
estudiante universitario seleccionado aleatoriamente cuyo tamaño del cerebro = 90, altura
= 70 y peso = 150.

/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple

• Vamos a comenzar leyendo el conjunto de datos en R.


datos = [Link]("C:/localizacion/CI_dataset.txt", header=TRUE)
• Los 10 primeros registros del conjunto de datos son:
CI Brain Height Weight
1 124 81.69 64.5 118
2 150 103.84 73.3 143
3 128 96.54 68.8 172
4 134 95.15 65.0 147
5 110 92.88 69.0 146
6 131 99.13 64.5 138
7 98 85.43 66.0 175
8 84 90.49 66.3 134
9 147 95.55 68.8 172
10 124 83.39 64.5 118
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple

• Vamos a realizar un breve análisis descriptivo de las variables disponibles en el banco


de datos.
140
120 CI
100
80 100 120 140

100
Brain
90
80 90 100
75
70Height
65 70 75

175
Weight
150
125 150 175

/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple

• Estamos interesados en describir el coeficiente intelectual (CI) en función de las


covariables: tamaño del cerebro (brain), altura (height) y peso (weight).

• Un primer modelo que podemos proponer es:

yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + εi , i = 1, . . . , 38,

en que
— yi es el valor del coeficiente intelectual del estudiante i.
— xi1 es el tamaño del cerebro del estudiante i.
— xi2 es la altura en pulgadas del estudiante i.
— xi3 es el peso en libras del estudiante i.
iid
— εi es el error del i-ésimo estudiante, εi ∼ N(0, σ 2 ).

/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple

Call:
lm(formula = CI ~ Brain + Height + Weight, data = datos)
Residuals:
Min 1Q Median 3Q Max
-32.74 -12.09 -3.84 14.17 51.69

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 111.40 62.970 1.768 0.085979 .
Brain 2.060 0.563 3.657 0.000856 ***
Height -2.732 1.229 -2.222 0.033034 *
Weight 5.599e-04 0.197 0.003 0.997750
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 19.79 on 34 degrees of freedom
Multiple R-squared: 0.2949, Adjusted R-squared: 0.2327
F-statistic: 4.741 on 3 and 34 DF, p-value: 0.007215
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple

Interpretación de los parámetros:


• β0 : La media del coeficiente intelectual de individuos cuyo tamaño del cerebro, peso
y altura son iguales a cero, respectivamente, es 111.40 (No tiene significado práctico).
• β1 : La media del coeficiente intelectual incrementa en 2.060 por aumentar en 1
unidad el tamaño del cerebro, cuando el peso y la altura se mantienen constantes.
• β2 : La media del coeficiente intelectual se reduce en 2.732 por el aumento en una
pulgada en la altura, cuando el tamaño del cerebro y el peso se mantienen
constantes.
• β3 : La media del coeficiente intelectual aumenta en 0.0006 por aumentar una libra
en el peso del individuo, cuando el tamaño del cerebro y la altura se mantienen
constantes.

/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple

• El valor de R-cuadrado (R2 ) es 0.2949. Esto nos indica que el 29.49% de la variación en el
coeficiente intelectual se explica al tomar en cuenta el tamaño del cerebro, la altura y el peso.
• Los valores-p de las pruebas t sugieren que los coeficientes de regresión asociados al tamaño
del cerebro (valor-p < 0.001) y a la altura (valor-p = 0.033) son significativamente diferentes
de 0, mientras que el coeficiente asociado al peso (valor-p = 0.998) no lo es. Por tal motivo,
podemos pensar en ajustar un modelo que no incluya la covariable peso

yi = β0 + β1 xi1 + β2 xi2 + εi .

• El valor-p para la prueba F de análisis de varianza (0.007) sugiere que el modelo que incluye
tamaño del cerebro, altura y peso es más útil para predecir la inteligencia que no tener en
cuenta los tres predictores. (¡Cabe destacar que esto no nos indica que el modelo con los
tres predictores sea el mejor modelo!)

/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple

• Análisis de residuos del modelo propuesto:


yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + εi , i = 1, . . . , 38.

Residuos Studentizados

Residuos Studentizados Residuos Studentizados


3 3
2 2
1 1
0 0
−1 −1
−2 −2
0 10 20 30 90 100 110 120 130 140
Índice Valores ajustados
0.5
0.4 2
Densidad

0.3
0
0.2
0.1 −2

0.0
−2 −1 0 1 2 3 −2 −1 0 1 2
Residuos Studentizados Percentiles de la N(0,1)

/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple

• Graficando los residuos Studentizados versus cada una de las covariables


involucradas en el modelo, obtenemos:
3 3 3

Residuo Studentizado

Residuo Studentizado

Residuo Studentizado
2 2 2

1 1 1

0 0 0

−1 −1 −1

80 90 100 125 150 175 65 70 75


Tamaño del cerebro Peso Altura

• No realizaremos gráficos con covariables adicionales porque no disponemos de otras


covariables dentro del conjunto de datos.

/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple

• En regresión lineal múltiple, la función anova(modelo) NO retorna la tabla ANOVA.


• Tabla de Análisis de Varianza (ANOVA)
Fuentes de Grados de Sumas Medias Estadístico de
Variación Libertad Cuadráticas Cuadráticas Prueba F
Regresión 3 5570.354 1856.785 F0 = 4.741
Error 34 13315.9 391.6441
Total 37 18886.25
• La prueba de hipótesis planteada es:

H0 : β1 = β2 = β3 = 0 vs. H1 : al menos un βi ̸= 0, i = 1, 2, 3.

• El valor-p = P(F(3,34) > 4.741) = 0.007.


• Por lo tanto, existe evidencia estadística para rechazar la hipótesis nula que postula
que todos los coeficientes de regresión son iguales a cero, i.e., β1 = β2 = β3 = 0.

/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple

• Estamos interesados también en encontrar un intervalo de predicción de % para el


coeficiente intelectual de un estudiante universitario seleccionado al azar cuyo
tamaño del cerebro = 90, altura = 70 y peso = 150.
• Para ello, utilizamos el siguiente comando:
predict(modelo, interval="prediction", newdata=
[Link](Brain=90, Height=70, Weight=150))
• Obteniendo el siguiente resultado:
fit lwr upr
1 105.6356 64.633 146.6381

• Con un 95% de credibilidad, el coeficiente intelectual de un estudiante cuyo tamaño


del cerebro es 90, altura 70 pulgadas y 150 libras de peso, varía entre 64.633 y
146.638.
/
Regresión Lineal Múltiple: Ejemplo
Regresión lineal múltiple

• Adicionalmente, podemos ajustar un modelo que no considere la covariable peso,


pues ella resultó no significa en el análisis anterior.
Call:
lm(formula = CI ~ Brain + Height, data = datos)
Residuals:
Min 1Q Median 3Q Max
-32.750 -12.090 -3.841 14.174 51.690
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 111.2757 55.8673 1.992 0.054243 .
Brain 2.0606 0.5466 3.770 0.000604 ***
Height -2.7299 0.9932 -2.749 0.009399 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 19.51 on 35 degrees of freedom
Multiple R-squared: 0.2949, Adjusted R-squared: 0.2546
F-statistic: 7.321 on 2 and 35 DF, p-value: 0.002208
/
Table of Contents
Selección de modelos

▶ Regresión lineal múltiple


Modelo de regresión lineal múltiple
Estimación de los coeficientes de regresión
Valores ajustados
Predicción
Análisis de varianza
Coeficiente de determinación
Análisis de residuos
▶ Selección de modelos
▶ Predictores categóricos
▶ Multicolinealidad

/
Criterios de selección de modelos
Selección de modelos

Al comparar dos modelos, M1 y M2 , utilizados para predecir la misma variable de


respuesta, generalmente preferimos el modelo con el valor más alto de R̄2 .
Ejemplo: Coeficiente Intelectual
• Modelo (M1 ):
yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + εi , i = 1, . . . , 38.
El valor de R̄2 para este modelo fue 0.2327.
• Modelo (M2 ):
yi = β0 + β1 xi1 + β2 xi2 + εi , i = 1, . . . , 38.
El valor de R̄2 para este modelo fue 0.2546.
• Siguiendo el criterio mencionado anteriormente, M2 sería preferible sobre M1 , para
ajustar los datos del coeficiente intelectual.
/
Criterios de selección de modelos
Selección de modelos

Cuando tratamos con modelos encajados, podemos considerar los siguientes criterios de
selección de modelos:
b + 2k.
• AIC - Akaike Information Criterion: AIC = −2ℓ(θ)
b + k ln(n).
• BIC - Bayesian Information Criterion: BIC = −2ℓ(θ)

b es la estimativa de máxima verosimilitud de θ, ℓ(θ)


• En que θ b es el logaritmo de la
b k es el número de parámetros y n es el
función de verosimilitud evaluada en θ,
número de observaciones.
• Modelos encajados: El modelo está encajado en el modelo , si el modelo es un
caso particular del modelo .
• Por tanto, el modelo con menores valores de AIC y BIC, será el mejor modelo
ajustado a los datos.

/
Criterios de selección de modelos
Selección de modelos
Podemos calcular las estadísticas de selección de modelos AIC y BIC usando las siguientes
funciones de R:
AIC(modelo) y BIC(modelo)
Ejemplo: Coeficiente Intelectual
• Modelo (M1 ):

AIC1 = 340.503 y BIC1 = 348.691.

• Modelo (M2 ):

AIC2 = 338.503 y BIC2 = 345.053.

• Siguiendo los criterios AIC y BIC, el modelo es preferible al modelo para ajustar los
datos del coeficiente intelectual.
/
Table of Contents
Predictores categóricos

▶ Regresión lineal múltiple


Modelo de regresión lineal múltiple
Estimación de los coeficientes de regresión
Valores ajustados
Predicción
Análisis de varianza
Coeficiente de determinación
Análisis de residuos
▶ Selección de modelos
▶ Predictores categóricos
▶ Multicolinealidad

/
Predictores categóricos: Ejemplo
Predictores categóricos

• Los investigadores (Daniel, ) están interesados en determinar si existe relación


entre el [Link] de un bebé (Wgt) y la duración de la gestación en semanas
(Gest) cuando la mamá es fumadora o no (Smoke). Por lo tanto se recopiló una
muestra aleatoria de n = 32 nacimientos.

• Note que la variable Smoke, es “binaria”

Peso del bebé al nacer


3300
con dos posibles valores (1: sí, 0: no).
Fuma?
• La pregunta es: después de tomar en 3000 0
cuenta la duración de la gestación, ¿existe 1

una diferencia significativa en el peso 2700


promedio al nacer de los bebés nacidos de
madres fumadoras y no fumadoras? 2400
34 36 38 40 42
/ Duración de la gestación
Predictores categóricos: Ejemplo
Predictores categóricos

• Para responder a la pregunta de interés podemos considerar el modelo:

yi = β0 + β1 xi1 + β2 xi2 + εi , ()

en que
— xi1 : duración de la gestación en semanas del i-ésimo bebé.
— xi2 : es binaria, siendo igual a 1 si la mamá del bebé i fumó durante la gestación, 0 caso
contrario.
— β1 : es el incremento (positivo o negativo) en el peso esperado del bebé al nacer, para el
aumento de una semana en la duración de la gestación.
— β0 : es el peso esperado de bebés de madres que no fumaron durante la gestación,
cuando la duración de la gestación es 0.
— β0 + β2 : es el peso esperado de bebés de madres que fumaron durante la gestación,
cuando la duración de la gestación es 0.

/
Predictores categóricos: Ejemplo
Predictores categóricos

• Los resultados del ajuste del modelo ( ) son los siguientes:


Parámetro Estimativa Error tobs valor-p
β0 - . . - . . e-
β1 . . . . e-
β2 - . . - . . e-
• Modelo para los nacidos de mujeres no fumantes:
Parámetro Estimativa Error tobs valor-p
β0 - . . - . . e-
β1 . . . . e-
• Modelo para los nacidos de mujeres fumantes:
Parámetro Estimativa Error tobs valor-p
β0 - . . - . .
β1 . . . . e-

/
Predictores categóricos: Ejemplo
Predictores categóricos

• ¿Cómo podrías utilizar estos resultados para determinar si el peso promedio al nacer
de los bebés difiere entre las madres fumadoras y no fumadoras, después de tener
en cuenta la duración de la gestación?
• Responder la pregunta de investigación implica probar H0 : β2 = 0 vs. H1 : β2 ̸= 0.
El valor-p es < 0.001. Existe suficiente evidencia para concluir que hay una diferencia
significativa en el peso promedio al nacer de todos los bebés de madres fumadoras y
el peso promedio al nacer de todos los bebés de madres no fumadoras, después de
tener en cuenta la duración de la gestación.
• En resumen, “agrupar” los datos y ajustar un único modelo de regresión permite
responder de manera fácil preguntas de investigación que involucran una variable
predictora binaria.

/
Predictores categóricos: Ejemplo
Predictores categóricos

• Consideremos nuevamente los datos del Esfuerzo cardiopulmonar analizados en la


sección de regresión lineal simple.
• Nuestro principal objetivo era ajustar un modelo que permita predecir el consumo
de oxígeno en función de la carga aplicada .
• ¿Es importante considerar las diferentes etiologías?
C CH

20

15
Consumo de oxígeno

10

ID IS

20

15

10

5
0 30 60 90 0 30 60 90
Carga
/
Predictores categóricos: Ejemplo
Predictores categóricos

• Un modelo que permita considerar las diferentes etiologías cardíacas, puede ser
planteado como sigue:

yij = β0i + β1i x1ij + εij , i = 1, . . . , n, j = 1, . . . , ni ,

en que
— Etiologías : C: (i = 1), CH (i = 2), ID (i = 3), IS (i = 4).
iid
— εij ∼ N(0, σ 2 ).
— xij : carga a la que el paciente j que presenta la etiología cardíaca i fue sometido.
— β0i : consumo esperado para pacientes de la i-ésima etiología sometidos a una carga
igual a 0 unidades en la caminadora ergométrica.
— β1i : incremento (positivo o negativo) en el consumo esperado, de pacientes de la
i-ésima etiología, para el aumento en una unidad de la carga aplicada en la caminadora
ergométrica.

/
Predictores categóricos: Ejemplo
Predictores categóricos

• El modelo definido anteriormente, puede ser ajustado en R:


lm([Link] ∼ -1+etiologia+etiologia:carga, datos)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
etiologiaC 6.56104 0.71441 9.184 1.94e-15 ***
etiologiaCH 6.63213 0.74645 8.885 9.64e-15 ***
etiologiaID 7.34504 0.77709 9.452 4.57e-16 ***
etiologiaIS 6.80127 0.65814 10.334 < 2e-16 ***
etiologiaC:carga 0.08846 0.01161 7.619 7.59e-12 ***
etiologiaCH:carga 0.09835 0.01377 7.143 8.62e-11 ***
etiologiaID:carga 0.04972 0.01763 2.821 0.00564 **
etiologiaIS:carga 0.07704 0.01612 4.778 5.24e-06 ***
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 1.84 on 116 degrees of freedom


Multiple R-squared: 0.9731,^^IAdjusted R-squared: 0.9713
F-statistic: 525.3 on 8 and 116 DF, p-value: < 2.2e-16
/
Table of Contents
Multicolinealidad

▶ Regresión lineal múltiple


Modelo de regresión lineal múltiple
Estimación de los coeficientes de regresión
Valores ajustados
Predicción
Análisis de varianza
Coeficiente de determinación
Análisis de residuos
▶ Selección de modelos
▶ Predictores categóricos
▶ Multicolinealidad

/
Análisis de Multicolinealidad: Ejemplo
Multicolinealidad

• Investigadores observaron los siguientes datos de presió[Link] en 20


individuos con presión arterial alta:
— presión arterial (BP = y, en mm Hg)
— edad (Age = x1 , en años)
— peso (Weight = x2 , en kg)
— superficie corporal (BSA = x3 , en m2 )
— índice de estrés (Stress = x4 )

• Los investigadores estaban interesados en determinar si existe una relación entre la


presión arterial y la edad, el peso, la superficie corporal y/o el nivel de estrés.
• Podríamos considerar el siguiente modelo:

yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + β4 xi4 + εi .

/
Análisis de Multicolinealidad: Ejemplo
Multicolinealidad
125
120
115 BP
110
105110115120125
54
51 Age
48
45 48 51 54
100
95 Weight
90
85 90 95 100
2.2
2.1
2 BSA
1.9
1.81.9 2 2.12.2
100
75
50Stress
25 50 75100

/
Análisis de Multicolinealidad
Multicolinealidad

• Hasta ahora, en nuestro estudio de modelos de regresión múltiple, hemos ignorado


algo que probablemente no debe ser ignorado: la multicolinealidad.

• La multicolinealidad existe cuando dos o más predictores, en un modelo de


regresión, están moderada o altamente correlacionados.

• Desafortunadamente, cuando existe, puede causar estragos en nuestro análisis y


limitar las conclusiones de investigación que podemos obtener.

/
Análisis de Multicolinealidad: Consecuencias
Multicolinealidad
. El coeficiente de regresión estimado de cualquier variable depende de qué otros
predictores se incluyan en el modelo.

. La precisión de los coeficientes de regresión estimados disminuye a medida que se


agregan más predictores al modelo.
• Veamos qué sucede con el ajuste de los siguientes modelos:
— Modelo : yi = β0 + β2 xi2 + β3 xi3 + εi .
— Modelo : yi = β0 + β2 xi2 + εi .
— Modelo : yi = β0 + β3 xi3 + εi .
• Estimativas obtenidas para cada modelo:
Modelo βb2 se(βb2 ) βb3 se(βb3 )
Modelo . . . .
Modelo . .
Modelo . .
/
Análisis de Multicolinealidad: Consecuencias
Multicolinealidad

. Las pruebas de hipótesis para βk = 0, pueden llevar a conclusiones diferentes


dependiendo de los predictores considerados en el modelo.

• Resultados de la prueba de hipótesis H0 : βk = 0 vs. H1 : βk ̸= 0.

β2 β3
Modelo
tobs valor-p tobs valor-p
Modelo . . e- . .
Modelo . . e-
Modelo . . e-

/
Análisis de Multicolinealidad
Multicolinealidad

• Algunos de los métodos comunes utilizados para detectar la multicolinealidad son


los siguientes:
. Si las estimaciones de los coeficientes varían significativamente de un modelo a otro,
puede ser un indicador de multicolinealidad.
. Cuando las pruebas t para cada uno de los coeficientes individuales no son significativas
(valor-p > 0.05), pero la prueba F general es significativa (valor-p < 0.05), puede
indicar multicolinealidad.
. Altas correlaciones entre pares de variables predictoras pueden ser un claro indicio de
multicolinealidad.
. El factor de inflación de la varianza (FIV) es una medida que cuantifica cuánto aumenta
la varianza de un coeficiente de regresión estimado debido a la multicolinealidad.

/
Análisis de Multicolinealidad: FIV
Multicolinealidad

• El factor de inflación de la varianza de βbk , denotado por FIVk , es calculado por:


1
FIVk = = (1 − R2k )−1 ,
1 − R2k

en que R2k es el coeficiente de determinación de la regresión de la covariable xk en


función de las demás covariables.
• Cuanto menor es la correlación entre xk y las demás variables, más próximo de 1 será
FIVk .
• La regla general es que los valores de FIV mayores a 4 merecen una investigación
adicional, mientras que los valores de FIV mayores que 10 son señales de una
multicolinealidad grave que requiere corrección.

/
Análisis de Multicolinealidad: FIV
Multicolinealidad

• Calculando el FIV para el modelo

yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + β4 xi4 + εi .

• Resultados obtenidos para las estimativas y FIV:


Parámetro Estimativa Error tobs valor-p FIV
β0 - . . - . .
Age . . . . e- .
Weight . . . . e- .
BSA . . . . .
Stress . . . . .
• El FIV puede ser calculado en R utilizando la función vif() del paquete car.
vif(modelo).
/
Análisis de Multicolinealidad: Soluciones
Multicolinealidad

. Una solución para lidiar con la multicolinealidad es eliminar algunos de los


predictores que están causando el problema del modelo.
• Si revisamos nuevamente las correlaciones entre pares:
BP Age Weight BSA
Age .
Weight . .
BSA . . .
Stress . . . .
• Vemos que Weight y BSA están altamente correlacionados.
• Podemos optar por eliminar uno de los predictores del modelo.
• La decisión de cuál eliminar a menudo es de naturaleza científica o práctica. ¿Cuál de
las dos medidas sería más fácil de obtener? Si el peso es una medida más fácil de
obtener, entonces sería aconsejable que los investigadores eliminen BSA del modelo.

/
Análisis de Multicolinealidad: Soluciones
Multicolinealidad

• Regresión “Ridge”.

• Regresión por mínimos cuadrados parciales.

• Utilizar funciones de las covariables originales, en lugar de ellas directamente, a


través de:
— Creación de índices, por ejemplo, combinaciones lineales que involucren las covariables
que causan multicolinealidad.
— Reducción del número de covariables utilizando componentes principales.

• Otras alternativas: Regresión Lasso, enfoque Spike and Slab, estimación penalizada.

También podría gustarte