PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR
CARRERA DE MERCADOTECNIA
ESTADÍSTICA INFERENCIAL
Modelos de Regresión Lineal Múltiple
El Modelo de Regresión Lineal Múltiple (MRLM) es una extensión directa del modelo de
regresión lineal simple de una variable explicatoria a 𝑝 variables explicatorias. La ecuación
del MRLM está dada por
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽0 𝑋2 + ⋯ + 𝛽𝑝 𝑋𝑝 + 𝜀.
El error satisface los supuestos 𝐸(𝜀) = 0 y (ii) 𝑉𝑎𝑟(𝜀) = 𝜎 2 . Ahora la función de regresión
está dada por
𝑔(𝑥1 , 𝑥2 , … , 𝑥𝑝 ) = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑝 𝑥𝑝
Las cantidades (𝛽0 , 𝛽1 , 𝛽2 , … , 𝛽𝑝 ) son los coeficientes de regresión. El otro parámetro del
modelo es la varianza de la variable respuesta 𝑉𝑎𝑟(𝑌) = 𝜎 2
Los datos para un análisis de regresión lineal múltiple son como en la siguiente tabla:
Tabla 1. Datos para un análisis de regresión múltiple con 𝑝 variables explicatorias.
Variable independiente 1 … Variable independiente 𝑝 Variable dependiente
𝑥11 … 𝑥1𝑝 𝑦1
𝑥21 … 𝑥2𝑝 𝑦2
⋮ ⋱ ⋮ ⋮
𝑥𝑛1 … 𝑥𝑛𝑝 𝑦𝑛
El MRLM está dado por la siguiente especificación
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽0 𝑥𝑖2 + ⋯ + 𝛽𝑝 𝑥𝑖𝑝 + 𝜀𝑖 , 𝑖 = 1, … , 𝑛;
donde además se hacen los siguientes supuestos sobre el error
1) 𝐸(𝜀𝑖 ) = 0
2) 𝑉𝑎𝑟(𝜀𝑖 ) = 𝜎 2
3) 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛(𝜀𝑖 , 𝜀𝑗 ) = 0
Docente: ALEXANDRA BELÉN VIÑÁN ANDINO
Correo: abvinan@[Link]
PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR
CARRERA DE MERCADOTECNIA
Ejercicio
Ahora utilizamos los datos de la tesis de Pérez Montoro (2005) sobre la asociación entre el
peso y las variables morfométricas longitud total (LT), longitud patrón (LP), altura máxima
(AM), y altura mínima (Am) de la especie Labrisomus nuchipinnis. Ajustamos el MRLM:
𝑃𝑒𝑠𝑜 = 𝛽0 + 𝛽1 𝐿𝑇 + 𝛽2 𝐿𝑃 + 𝛽3 𝐴𝑀𝑎𝑥 + 𝛽4 𝐴𝑀𝑖𝑛 + 𝜀.
Los comandos de R para ajustar el modelo son:
datos = [Link]("[Link]",header=TRUE)
# Nombres de las variables: Peso LongTotal LongPatron AltMax
AltMin
modelo = lm(Peso~LongTotal+LongPatron+AltMax+AltMin,data=datos)
summary(modelo)
Call:
lm(formula = Peso ~ LongTotal + LongPatron + AltMax + AltMin,
data = datos)
Residuals:
Min 1Q Median 3Q Max
-7.576 -1.397 -0.212 1.186 8.738
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.7590 0.7202 -9.384 1.01e-15 ***
LongTotal 2.6968 0.5082 5.307 5.84e-07 ***
LongPatron -1.1091 0.4971 -2.231 0.02770 *
AltMax 1.4460 0.5323 2.716 0.00767 **
AltMin -0.2069 0.9239 -0.224 0.82324
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.369 on 110 degrees of freedom
Multiple R-squared: 0.8827, Adjusted R-squared: 0.8784
F-statistic: 206.9 on 4 and 110 DF, p-value: < 2.2e-16
Vemos que el modelo ajustado es
𝑃𝑒𝑠𝑜 = −6.759 + 2.6968𝐿𝑇 − 1.1091𝐿𝑃 + 1.4460𝐴𝑀𝑎𝑥 − 0.269𝐴𝑀𝑖𝑛 + 𝜀.
Participación: Reproduce este modelo.
Docente: ALEXANDRA BELÉN VIÑÁN ANDINO
Correo: abvinan@[Link]
PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR
CARRERA DE MERCADOTECNIA
Selección del Modelo
Recordemos que se trata de una investigación en la que se busca un modelo de regresión para
explicar el peso (gr) en función de las variables morfométricas longitud total (cm), longitud
patrón (cm), altura máxima (cm), y altura mínima (cm) de la especie Labrisomus nuchipinnis.
Se te ha solicitado tu asesoría para la selección y justificación de la o las variables
explicatorias que consideres que mejor explican al peso. Para esto, en la tarea 19 ajustaste
todos los modelos de regresión posibles. Los coeficientes de determinación 𝑅 2 de los
modelos ajustados se presentan en la Tabla 1.
Tabla 1. Coeficientes de determinación de los modelos de regresión.
Modelo LongTot LongPat AltMax AltMin 𝑅2
1 X 0.861
2 X 0.805
3 X 0.735
4 X 0.497
5 X X 0.873
6 X X 0.875
7 X X 0.861
8 X X 0.845
9 X X 0.805
10 X X 0.739
11 X X X 0.883
12 X X X 0.875
13 X X X 0.877
14 X X X 0.853
15 X X X X 0.883
Los coeficientes de correlación entre las variables son:
> round(cor(datos),2)
Peso LongTotal LongPatron AltMax AltMin
Peso 1.00 0.93 0.90 0.86 0.70
LongTotal 0.93 1.00 0.99 0.86 0.76
LongPatron 0.90 0.99 1.00 0.83 0.79
AltMax 0.86 0.86 0.83 1.00 0.78
AltMin 0.70 0.76 0.79 0.78 1.00
La Figura 1 muestra los diagramas de dispersión entre todas las variables.
Docente: ALEXANDRA BELÉN VIÑÁN ANDINO
Correo: abvinan@[Link]
PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR
CARRERA DE MERCADOTECNIA
2 6 10 14 1 2 3 4
25
15
Peso
0 5
14
10
LongTotal
6
2
12
LongPatron
2 4 6 8
4
3
AltMax
2
1
2.0
AltMin
1.0
0.0
0 5 15 25 2 4 6 8 12 0.0 1.0 2.0
Figura 1. Diagramas de dispersión entre todas las variables.
Tarea
Hagamos las siguientes consideraciones. Si dos variables explicatorias, digamos 𝑋1 y 𝑋2,
están altamente correlacionadas (de forma lineal), podemos pensar que nos proporcionan
información redundante para explicar a la variable respuesta.
Este hecho se vería reflejado en un aumento pequeño en el coeficiente de determinación del
modelo que contiene tanto a 𝑋1 como a 𝑋2 con respecto al modelo que sólo contiene a 𝑋1.
También podríamos incluir variables en el modelo siempre y cuando al ir agregándolas nos
aumentan “sustancialmente” al coeficiente de determinación.
De acuerdo a lo anterior, has una propuesta de variables morfométricas a incluir en un modelo
de regresión lineal para explicar al peso.
Entrega un breve reporte de resultados que incluya la justificación del modelo de regresión
lineal que recomiendas y el código R que hayas usado.
Referencia
Pérez Montoro, A. (2005), Estudio de las Características Morfométricas y el Peso de la
Especie Labrisomus nuchipinnis. Trabajo Recepcional de la Especialización en Métodos
Estadísticos, Facultad de Estadística e Informática, Universidad Veracruzana.
Docente: ALEXANDRA BELÉN VIÑÁN ANDINO
Correo: abvinan@[Link]