O
R
ST
Regresión Múltiple
A
Introducción
C
J.
Dr. José Juan Castro Alva
SE´UDLAP
JO
Otoño 2022
r.
D
O
R
ST
A
C
Modelo de regresión múltiple
J.
SE´
JO
r.
D
Dr. José Juan Castro alva
O
R
ST
A
C
1. Modelo
J.
SE´
JO
r.
D
Dr. José Juan Castro alva
Introducción
O
R
ST
A
Existe situaciones que requieren el uso de modelos más generales que
C
el modelo de regresión lineal simple. Usualmente esto ocurre cuando
J.
se desea estudiar el comportamiento de una variable de respuesta en
función de dos o más variables predictoras.
SE´
Los modelos probabilı́sticos que incluyen dos o más variables predic-
toras reciben el nombre de modelos de regresión múltiple.
JO
r.
D
Dr. José Juan Castro alva
Modelo general
O
El modelo general de regresión lineal múltiple está dado de la si-
R
guiente forma.
ST
y = β0 + β1 x1 + β2 x2 + · · · + βk xk + ϵ
A
C
donde
• y: Denota la variable dependiente o variable de respuesta
J.
• x1 , x2 , . . . , xk : Variable independiente o variable predictora.
SE´
• ϵ: La componente de error aleatorio
JO
• βi : Son los coeficientes de las variables xi
• E [y ] = β0 + β1 x1 + β2 x2 + · · · + βk xk : La componente
r.
determinista
D
En este modelo cabe la posibilidad de que los sı́mbolos xi represen-
ten términos de orden mayor de las variables predictoras, las cuales
pueden ser cuantitativas o cualitativas.
Dr. José Juan Castro alva
Suposiciones del error
O
R
ST
A
C
• Para un conjunto de valores x1 , x2 , . . . , xn , el error aleatorio se
distribuye normal con media cero y varianza constante σ 2 .
J.
• Los errores aleatorios son independientes.
SE´
Esto implica que para un conjunto dado de valores de
E [y ] = β0 + β1 x1 + β2 x2 + · · · + βk xk
JO
r.
D
Dr. José Juan Castro alva
Ajuste de mı́nimos cuadrados
O
R
ST
A
El método de ajuste para los modelos de regresión lineal múltiple
C
es similar al de regresión simple y está dado de la siguiente forma
J.
ŷ = βˆ0 + βˆ1 x1 + . . . βˆk k
SE´
el cual minimiza la suma de los cuadrados de los errores
SSE = (yi − ŷi )2 . En este caso los parámetros estimados
P
JO
βˆ0 , βˆ1 x1 , . . . , βˆk se obtienen resolviendo un sistema de ecuaciones.
r.
D
Dr. José Juan Castro alva
Ejemplo
O
R
ST
Un coleccionista de relojes antiguos cree que el precio recibido por
los relojes vendidos en una subasta depende tanto de la antigüedad
A
de los relojes como del número de postores en la subasta. Se
C
propone el siguiente modelo.
J.
y = β0 + β1 x1 + β2 x2 + ϵ
donde SE´
JO
• y: precio de subasta
• x1 : años del reloj
r.
• x2 : número de postores
D
Dr. José Juan Castro alva
O
R
ST
A
C
J.
SE´
JO
r.
D
Dr. José Juan Castro alva
Se grafica la variable respuesta contra cada variable predictora.
O
R
ST
A
C
J.
SE´
JO
r.
D
Dr. José Juan Castro alva
O
R
ST
A
C
J.
SE´
JO
r.
D
Dr. José Juan Castro alva
O
R
ST
A
C
J.
SE´
JO
• El valor mı́nimo de la suma de los errores al cuadrado
SSE = 516727
r.
• El estimador de σ 2 es S 2 = 17818 también llamado el
D
cuadrado medio del error (MSE ).
√
• S = S 2 = 133.5
Dr. José Juan Castro alva
Ajuste de modelo
O
R
ST
A
C
J.
SE´
El modelo que minimiza la suma de los errores al cuadrado SSE
está dado por la siguiente ecuación.
JO
ŷ = −1339 + 12.74x1 + 85.95x2
r.
con un SSE = 516727
D
Dr. José Juan Castro alva
Interpretación de los coeficientes
O
R
ST
A
• βˆ1 = 122.74 Estima que el precio medio de subasta de un reloj
C
antiguo aumentar $12.74 por cada aumento de 1 año en la
J.
edad (x1 ) cuando el número de postores (x2 ) se mantiene fijo.
• βˆ2 = 85.95 Estima que el precio medio de subasta de un reloj
SE´
antiguo aumentar $85.95 por cada aumento de 1 postor (x2 )
JO
cuando la edad (x1 ) se mantiene fija.
r.
D
Dr. José Juan Castro alva
Estimación de la varianza de los errores
O
R
ST
A
C
J.
S2 =
SSE
SE´
n − (k + 1)
=
516727
29
= 17818
JO
√
S = 17818 = 133.5
r.
D
Dr. José Juan Castro alva
ANOVA F-tets
O
R
para el modelo de regresión
ST
ŷ = βˆ0 + βˆ1 x1 + . . . βˆk k
A
C
se plantea el siguiente contraste de hipótesis.
J.
H0 :β1 = β2 = · · · = βk = 0
SE´
H1 :al menos una es diferente de cero
JO
El estadı́stico para probar esta hipótesis está dado por
(SSyy − SSE )/k Mean Square (Model)
r.
T − test = =
SSE /[n − (k + 1)] MSE
D
Dr. José Juan Castro alva
O
R
ST
A
C
MSE , representa la variabilidad inexplicable (o error) en el modelo.
J.
El numerador, MS(modelo), representa la variabilidad en y
SE´
explicada por el modelo
JO
r.
D
Dr. José Juan Castro alva
Análisis de varianza de la prueba F .
O
El siguiente análisis se realiza para probar la utilidad del modelo.
R
ST
A
C
J.
SE´
JO
r.
D
Dr. José Juan Castro alva
O
R
ST
A
C
El hecho de que la prueba global F indique que el modelo es útil,
no significa que este sea el mejor modelo de predicción. Es decir,si
J.
se agregan una o más variables al modelo puede resultar incluso
SE´
más útil en términos de proporcionar estimaciones y predicciones
más fiables.
JO
r.
D
Dr. José Juan Castro alva
frame title
O
R
ST
A
C
Las inferencias sobre los parámetros βi individuales en un modelo
J.
se obtienen utilizando un intervalo de confianza o una prueba de
SE´
hipótesis, como se describe a continuación.
JO
r.
D
Dr. José Juan Castro alva
O
R
ST
A
C
J.
SE´
JO
r.
D
Dr. José Juan Castro alva
frame title
O
R
ST
A
C
J.
SE´
JO
r.
D
Dr. José Juan Castro alva
Ejercicio
O
R
Para el modelo anterior del precio de subasta del reloj, el cual está
ST
dado por
y = β0 + β1 x1 + β2 x2 + ϵ
A
prueba la siguiente hipótesis
C
J.
H0 :β1 = β2 = 0
SE´
H1 :Almenos uno es diferente de cero
Calcula
JO
• el estadı́stico F
• Fα considerando α = 0.05
r.
• p − valor
D
• Escribe tu conclusión en términos del estadı́stico F y el p-valor.
Dr. José Juan Castro alva
Ejercicio
O
R
ST
A
1 Pruebe la hipótesis de que el precio medio de subasta de un
C
reloj aumenta a medida que aumenta el número de postores
J.
cuando la edad se mantiene constante, es decir, β2 > 0.
Utilice α = 0.05.
2 SE´
construye un intervalo de confianza para β1 con un nivel de
JO
confianza del 95 % e interpreta el resultado.
r.
D
Dr. José Juan Castro alva
Coeficiente de determinación
O
R
ST
El coeficiente de determinación múltiple R 2 está definido como
A
SSE
R2 = 1 − , 0 ≤ R2 ≤ 1
C
SSy
J.
donde SSE = (yi − ŷi )2 , SSy = (yi − ȳ )2 , y yi es la predicción
P P
SE´
del valor yi .
R 2 representa la fracción de la variación muestral de los valores de
JO
y (medidos por SSy ) que se explica mediante el modelo de
regresión de mı́nimos cuadrados.
R2 indica qué tan bien se ajusta el modelo a los datos y, por lo
r.
tanto, representa una medida de la utilidad de todo el modelo.
D
Dr. José Juan Castro alva
Coeficiente de determinación ajustado
O
R
ST
A
El coeficiente de determinación ajustado Ra2 está dado por
C
n−1
Ra2 =1− (1 − R 2 )
J.
n − (k + 1)
SE´
A diferencia de R 2 , Ra2 toma en cuenta un ajuste considerando el
tamaño de la muestra y el número de parámetros que involucra el
JO
modelo.
r.
D
Dr. José Juan Castro alva
Análisis de residuales
O
R
ST
A
C
Realiza una análisis de los residuales del modelo
• Descriptivo-Gráfico
J.
• aplicando pruebas de hipótesis.
SE´
Finalmente argumenta la utilidad del modelo.
JO
r.
D
Dr. José Juan Castro alva
Modelo con una interacción con
O
predictores cuantitatitos
R
ST
A
C
E [y ] = β0 + β1 x1 + β2 x2 + β3 x1 x2
J.
donde
SE´
• (β1 + β3 x2 ): Representa el cambio de E [Y ] por cada unidad
de crecimiento en x1 , manteniendo a x2 fija.
JO
• (β2 + β3 x1 ): Representa el cambio de E [Y ] por cada unidad
de crecimiento en x2 , manteniendo a x1 fija.
r.
D
Dr. José Juan Castro alva
Ejemplo
O
R
Considerando el ejemplo del precio de subasta de un reloj.
ST
Establece el siguiente modelo lineal con interacción
A
y = β0 + β1 x1 + β2 x2 + β3 x1 x2 + ϵ
C
y responde a lo siguiente.
J.
1 Prueba la utilidad general del modelo usando la prueba global
SE´
F con α0.05
2 Pruebe la hipótesis (con α = 0.05) de que la pendiente del
JO
precio-edad aumenta a medida que aumenta el número de
postores, es decir, que la edad y el número de postores, x2 ,
r.
interactúan positivamente.
D
3 Estime el cambio en el precio de subasta de un reloj de pie de
150 años, y, para cada postor adicional.
Dr. José Juan Castro alva
Modelo cuadrático (segundo orden)
O
R
ST
A
C
El modelo cuadrático para una sola variable predictora tiene la
J.
siguiente forma
y = β0 + β1 x + β2 x 2 + ϵ
SE´
JO
r.
D
Dr. José Juan Castro alva
Modelo cuadrático
O
R
ST
A
C
E [y ] = β0 + β1 x + β2 x 2
J.
donde
• β0 : Representa es la intersección con el eje y de la curva.
SE´
• β1 : Representa un parámetro de cambio
JO
• β2 : Representa la tasa de curvatura
r.
D
Dr. José Juan Castro alva
ejemplo
O
R
ST
Un fisiólogo quiere investigar el impacto del ejercicio en el sistema
inmunológico humano. El fisiólogo teoriza que la cantidad de
A
inmunoglobulina y en sangre (llamada IgG, un indicador de
C
inmunidad a largo plazo) está relacionada con el consumo máximo
J.
de oxı́geno x (una medida del nivel de aptitud aeróbica) de una
persona según el modelo.
SE´
y = β0 + β1 x + β2 x 2 + ϵ
JO
Para ajustar el modelo, se midieron los valores de y y x para cada
uno de los 30 sujetos humanos. Los datos se muestran en la tabla
r.
(ver base de datos de sistema inmune)
D
Dr. José Juan Castro alva
O
R
ST
1 Construya una gráfica de dispersión para los datos. ¿Existe
evidencia que respalde el uso de un modelo cuadrático?
A
2 Utilice el método de mı́nimos cuadrados para estimar los
C
parámetros desconocidos β0 + β1 x + β2 en el modelo
J.
cuadrático
Grafique la ecuación de predicción y evalúe qué tan bien el
SE´
3
modelo se ajusta a los datos, tanto visual como
numéricamente.
JO
4 Interprete las estimaciones de β
r.
5 ¿Es útil el modelo general (en α = .01) para predecir IgG?
D
6 ¿Hay suficiente evidencia de curvatura cóncava hacia abajo?
Dr. José Juan Castro alva
Modelo completo de segundo orden para
O
x1 y x2
R
ST
A
C
Un modelo de segundo orden completo contiene todos los términos
en un modelo de primer orden y, además, los términos de segundo
J.
orden que involucran productos cruzados (términos de interacción)
SE´
y cuadrados de las variables independientes.
JO
y = β0 + β1 x1 + β2 x2 + β3 x1 x2 + β4 x12 + β5 x22 + ϵ
r.
D
Dr. José Juan Castro alva
Ejemplo
O
R
ST
Un servicio regional de entrega urgente basa el cargo por enviar un
paquete en el peso del paquete y la distancia enviada, su beneficio
A
por paquete depende del tamaño del paquete (volumen de espacio
C
que ocupa) y el tamaño y la naturaleza de la carga en el camión de
J.
reparto. La empresa realizó recientemente un estudio para
investigar la relación entre el costo, y , del envı́o (en dólares) y las
SE´
variables que controlan el costo del envı́o: peso del paquete, x1 (en
libras) y distancia de envı́o, x2 (en millas).
JO
Se seleccionaron al azar veinte paquetes de entre el gran número
recibido para envı́o y se realizó un análisis detallado del costo de
r.
envı́o de cada paquete, con los resultados mostrados en la Tabla
D
Dr. José Juan Castro alva
frame title
O
R
ST
1 Proporcione un modelo lineal apropiado para los datos.
A
2 Ajuste el modelo a los datos y proporcione la ecuación de
C
predicción.
Interprete R 2 y Ra2
J.
3
4 ¿Es el modelo estadı́sticamente útil para la predicción del
SE´
costo de envı́o y ? Encuentre el valor del estadı́stico F en la
salida del código y proporcione el nivel de significancia
JO
observado (valor − p) para la prueba.
5 Encuentre un intervalo de predicción del 95 % para el costo de
r.
envı́o de un paquete de 5 libras a una distancia de 100 millas.
D
Dr. José Juan Castro alva
O
R
ST
A
C
J.
SE´
JO
r.
D
Dr. José Juan Castro alva
frame title
O
R
ST
A
C
J.
SE´
JO
r.
D
Dr. José Juan Castro alva
O
R
ST
A
C
J.
SE´
JO
r.
D
Dr. José Juan Castro alva
frame title
O
R
ST
A
C
J.
SE´
JO
r.
D
Dr. José Juan Castro alva