Regresión Lineal Múltiple
La regresión lineal simple es una herramienta útil para predecir una respuesta de un
sólo predictor variable.
Sin embargo, en la práctica usualmente tenemos más de un solo predictor.
Por ejemplo, en un caso de datos de Publicidad: tenemos que examinar las
relaciones entre Ventas y Publicidad por TV, también tenemos la información de
radio y periódico.
Nos interesa saber cómo están relacionados estos elementos con las ventas:
Una opción podría ser calcular tres regresiones lineales por separado usando cada uno
de los predictores. Pero este método no sería del todo satisfactorio debido a que no
sería claro como hace una predicción de ventas dados los 3 presupuestos de publicidad
ya que cada presupuesto está asociado con una ecuación de regresión por separado.
Regresión Lineal Múltiple
En vez de crear un modelo de regresión lineal por cada predictor, una mejor
solución es extender la regresión lineal simple de manera que pueda acomodar
múltiples predictores.
Podemos hacer esto dándole a cada predictor un un coeficiente en separado
Asi es como la regresión lineal toma forma a:
Regresión Lineal Múltiple
Donde:
es el término independiente, Es el valor esperado de Y cuando son 0
son los coeficientes parciales de la regression:
mide el cambio en Y por cada cambio unitario en , manteniendo el resto constante
mide el cambio en Y por cada cambio unitario en , manteniendo el resto constante
mide el cambio en Y por cada cambio unitario en , manteniendo el resto constante
es el error de observación debido a variables no controladas
Regresión Lineal Múltiple
Los parámetros son estimados usando el mismo enfoque que vimos en la
regresión lineal simple. Escogemos para minimizar la suma de los residuos al
cuadrado.
Comparación gráfica de regresión lineal simple vs regresión lineal múltiple
Regresión Lineal Simple
Regresión Lineal múltiple con 2
Predictores
En una regresión lineal múltiple la línea de regresión se convierte en un
plano. Éste plano es escogido para minimizar la suma de las distancias
verticales entre cada observación y el plano
Regresión Lineal: Ejemplo 2
Uno de los problemas que se tratan en disciplinas como la Ecología o la Biología
de la Conservación es el de identificar factores que influyen en variables como la
riqueza de una especie (medida como el número de individuos de la especie en
un área dada).
Los datos obtenidos son los siguientes:
Regresión Lineal: Ejemplo 2
Parece que la humedad y la temperatura son
dos factores que afectan a la riqueza de la
especie. ¿Por qué no utilizamos toda la
información que tenemos e intentamos
explicar el comportamiento de la riqueza de
parásitos a partir de ambas variables?.
Regresión Lineal: Ejemplo 2
En el modelo de regresión lineal
múltiple se supone que la función
de regresión que relaciona la
variable dependiente con las
variables independientes es lineal,
es decir
Relación entre la respuesta y los predictores
Hipótesis nula Identidad de suma de cuadrados
TSS=ReSS+RSS
Hipótesis alternativa Si es cierta, no hay relación entre la respuesta y los
predictores
Estadístico F (Fischer) F1
Si es cierta, hay relación entre la respuesta y almenos un
predictor
Se puede demostrar que F> 1
(Varianza de RS) Fuente Suma de
cuadrados
Grados de
libertad
Media cuadrática F
Si es verdadera Regresión ReSS p MReSS= F=
Error RSS n-(p+1) MRSS=
Donde: Total TSS n-1
¿Por qué se utiliza la distribución F y qué tanto es tantito?
La distribución F se llama de distribución
de razón de varianzas, se puede utilizar
para saber si dos muestras poseen medias
poblacionales equivalentes, lo que depende
de su variabilidad.
Cuando n es grande, un valor de F
ligeramente mayor a 1 puede dar evidencia
contra , pero se n es pequeño es necesario
un valor de F grande para rechazar
Revisar el p-value asociado a F
Si el p-value < se rechaza la hipótesis nula
Si el p-value > se acepta la hipótesis nula
Donde es el nivel de significancia
Relación entre la respuesta y un subconjunto de predictores
Algunas veces se desea probar si un En este caso se ajusta un modelo
subconjunto de predictores son cero, en omitiendo los predictores de p-q+1
este caso, la hipótesis nula será: hasta p
Estadístico F
Donde por conveniencia los predictores a
despreciar se colocan al final de la lista
Se define un para este nuevo modelo
Relación entre Pruebas t y F
La prueba t- student con sus
respectivos p-values es equivalente a la
prueba de Fischer cuando se omite una
variable del modelo dejando las otras
(i.e., q=1), de manera que dicha prueba
representa el efecto de añadir esta
variable al modelo.
Revisar el p-value asociado a t
Si el p-value es pequeño se rechaza la
hipótesis nula
Es falso
Si el p-value es grande se acepta la hipótesis
nula
Es Verdadero
Cómo se selecciona el subconjunto de predictores?
Forward selection. Se arranca con un modelo que solo tiene el intercepto sin
predictores y se van agregando los predictores.
Backward selection. Se inicia con un modelo con todos los predictors y se van
removiendo aquellos con los p-values más grandes (los coeficientes menos
significativos).
Mixed selection
En el ejemplo se realizarán 4 modelos distintos, empleando la estrategia de
Backward selection
Con qué modelo nos quedamos?
Criterio AIC (Akaike information criterion)
Para modelos con bajos errores de testeo, AIC tendrá
valores bajos
Resultados de 4 modelos
Model Intercepto Sensor 1 Sensor 2 Sensor 3 Sensor 4 Sensor 5 F p-Value AIC
1 23.00453525 0.10581505 1.98509362 1.41579902 -3.59230452 3.67879315 2.252 0.0758 174.9
2 23.07598428 1.94875747 1.41229171 -3.56599192 3.65164331 2.910 0.0380 172.9
3 23.58927394 2.00493698 -3.55290243 3.97247664 4.485 0.0192 171.7
4 24.58420762 -3.25634632 3.75310873 3.667 0.0227 171.7
Resultados
Conclusiones
Se obtuvieron los coeficientes de un Existe una dependencia importante
modelo de regresión lineal en el ajuste del tamaño de la
múltiple, que minimizan la función muestra, ya que cuando se intentó
RSS, así como sus respectivos trabajar con una muestra grande,
estadísticos y se compararon con el los p-values de la distribución F
criterio AIC; obteniéndose que el eran cercanos a 1, lo que significa
mejor modelo es el que sólo tiene que no hay una relación entre la
dos predictores, correspondientes variable medida (Temperatura) y los
al sensor 4 y 5, ya que su AIC=171.7 predictores, se optó por trabajar
fue de los más pequeños. con una muestra pequeña para
obtener resultados más
significativos
Referencias
Walpole, R. E., Myers, R. H., Akash Joshi. (2023). <i>TempSense:
Myers, S. L., & Ye, K. (2012). Temperature and Sensor Data</i>
Probabilidad y estadística para [Data set]. Kaggle.
ingeniería y [Link]
ciencias. Norma, 162, 157. DS/3311434
James, G., Witten, D., Hastie, T.,
Tibshirani, R., & Taylor, J.
(2023). An introduction to
statistical learning: With
applications in python.