Regresión Lineal Multivariable: Modelos
Regresión Lineal Multivariable: Modelos
MONOGRAFÍA DE INVESTIGACIÓN
“REGRESIÓN LINEAL MULTIVARIABLE EMPLEANDO MODELOS
LINEALES O DE PRIMER ORDEN Y MODELOS DE SEGUNDO ORDEN”
Callao-Perú
2020
INTRODUCCIÓN
La regresión lineal múltiple permite generar un modelo lineal en el que el valor
de la variable dependiente o respuesta (Y) se determina a partir de un conjunto
de variables independientes llamadas predictores (X1, X2, X3…). Es una
extensión de la regresión lineal simple, por lo que es fundamental comprender
esta última. Los modelos de regresión múltiple pueden emplearse para predecir
el valor de la variable dependiente o para evaluar la influencia que tienen los
predictores sobre ella (esto último se debe que analizar con cautela para no
malinterpretar causa-efecto).
Los modelos lineales múltiples siguen la siguiente ecuación:
Yi= (β0+β1X1i+β2X2i+⋯+βniXni)+ei
β0: es la ordenada en el origen, el valor de la variable dependiente Y cuando
todos los predictores son cero.
βi: es el efecto promedio que tiene el incremento en una unidad de la variable
predictora Xi sobre la variable dependiente Y, manteniéndose constantes el resto
de variables. Se conocen como coeficientes parciales de regresión.
ei: es el residuo o error, la diferencia entre el valor observado y el estimado por
el modelo.
Es importante tener en cuenta que la magnitud de cada coeficiente parcial de
regresión depende de las unidades en las que se mida la variable predictora a la
que corresponde, por lo que su magnitud no está asociada con la importancia de
cada predictor. Para poder determinar qué impacto tienen en el modelo cada una
de las variables, se emplean los coeficientes parciales estandarizados, que se
obtienen al estandarizar (sustraer la media y dividir entre la desviación estándar)
las variables predictoras previo ajuste del modelo
2
INDICE
INTRODUCCIÓN ........................................................................................................................ 2
1. REGRESIÓN LINEAL SIMPLE ....................................................................................... 4
1.1. Distribución Normal de los residuos: ................................................................... 4
1.2. Varianza de residuos constante (homocedasticidad): . .................................... 4
1.3. Valores atípicos y de alta influencia:. .................................................................. 4
1.4. Independencia, Auto correlación: ........................................................................ 4
2. REGRESIÓN LINEAL MÚLTIPLE MODELO DE PRIMER ORDEN ......................... 5
2.1. Modelo de regresión lineal múltiple ............................................................................. 5
2.2. TIPOS DE VARIABLES ................................................................................................. 6
2.2.1. Continuas .................................................................................................................. 7
2.2.2. Discretas: .................................................................................................................. 8
2.3. Hipótesis y Estimación ................................................................................................... 9
2.4 Varianza residual ............................................................................................................. 9
2.5 Contraste de regresión.................................................................................................. 11
2.6. Coeficiente de determinación ..................................................................................... 11
2.7. Errores que deben de evitarse ................................................................................... 12
2.8. Modelo lineal de regresión múltiple: herramientas de software ............................ 13
2.8.1 Excel y la regresión múltiple ................................................................................. 13
3. APLICACIONES DE REGRESIÓN MÚLTIPLE .......................................................... 14
4. EJEMPLOS DE CALCULO ............................................................................................ 23
5. REGRESIÓN LINEAL MULTIVARIABLE MODELO DE SEGUNDO ORDEN ...... 30
6. CONCLUSIÓN .................................................................................................................. 32
7. BIBLIOGRAFIA ................................................................................................................ 33
3
1. REGRESIÓN LINEAL SIMPLE
La regresión lineal simple consiste en generar un modelo de regresión (ecuación
de una recta) que permita explicar la relación lineal que existe entre dos
variables. A la variable dependiente o respuesta se le identifica como Y y a la
variable predictora o independiente como X.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Y=β0+β1X1+ϵ
Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este
último representa la diferencia entre el valor ajustado por la recta y el valor real.
Recoge el efecto de todas aquellas variables que influyen en Y pero que no se
incluyen en el modelo como predictores. Al error aleatorio también se le conoce
como residuo.
Linealidad: La relación entre ambas variables debe ser lineal. Para comprobarlo
se puede recurrir a:
Graficar ambas variables a la vez (diagrama de dispersión), superponiendo la
recta del modelo generado por regresión lineal.
Calcular los residuos para cada observación acorde al modelo generado y
graficarlos. Deben distribuirse de forma aleatoria en torno al valor 0.
1.1. Distribución Normal de los residuos:
El residuo se tiene que distribuir de forma normal, con media igual a 0.
Esto se puede comprobar con un test de hipótesis de normalidad. Los
valores extremos suelen ser una causa frecuente por la que se viola la
condición de normalidad.
1.2. Varianza de residuos constante (homocedasticidad): La varianza de
los residuos ha de ser aproximadamente constante a lo largo del eje
X. Se puede comprobar mediante gráficos (scatterplot) de los residuos
de cada observación (formas cónicas son un claro indicio de falta de
homocedasticidad) o mediante contraste de hipótesis mediante el test
de Breusch-Pagan.
1.3. Valores atípicos y de alta influencia: Hay que estudiar con
detenimiento los valores atípicos o extremos ya que pueden generar
una falsa correlación que realmente no existe, u ocultar una existente.
(Ver descripción detallada en la sección de apuntes varios).
1.4. Independencia, Auto correlación: Las observaciones deben ser
independientes unas de otras. Esto es importante tenerlo en cuenta
cuando se trata de mediciones temporales. Puede detectarse
estudiando si los residuos siguen un patrón o tendencia. Otro caso
frecuente es el de tener varias mediciones para un mismo sujeto. En
estos casos, primero se obtiene la media de cada uno y después se
ajusta el modelo empleando las medias.
4
Dado que las condiciones se verifican a partir de los residuos, primero
se suele generar el modelo y después se valida. De hecho, el ajuste
de un modelo debe verse como un proceso iterativo en el que se ajusta
un modelo inicial, se evalúa mediante sus residuos y se mejora. Así
hasta llegar a un modelo óptimo.
5
• Modelo de regresión simple:
y = b0 + b 1 ⋅ x + u
Los coeficientes que dan la suma mínima de los cuadrados de los residuos se
obtienen al igualar a cero las derivadas parciales y expresando el resultado en
forma matricial:
6
la población, cuando se refiere a un parámetro estimado - la media, la tendencia
u otro - se suele denominar error estándar).
Una vez calculados ambos se interpretan conjuntamente (si son altos, bajos, en
términos absolutos o lo que es más usual, en relación a algo como por ejemplo
una distribución normal)
Todos estos cálculos lo hallamos de acuerdo a la función del método de
regresión lineal múltiple:
𝑦𝑗 = 𝑏𝑜 + 𝑏1𝑥1𝑗 + 𝑏2𝑥2𝑗 + ⋯ + 𝑏𝑘𝑥𝑘𝑗 + 𝑢j
De esta forma Y una variable que puede denominarse como endógena o
dependiente. Mientras que X es una variable que puede denominarse: exógena
o independiente.
En regresión lineal múltiple sólo suele haber una variable endógena y puede
haber varias variables exógenas. Es decir, se individualiza el fenómeno
observado.
También puede darse el caso de la existencia de varias variables endógenas,
pero su solución es difícil por lo que no es el caso general.
El tipo de variable es más importante si afecta a la variable endógena (porque
nos obligará a utilizar uno u otro modelo de regresión) pero no es tan importante
si afecta a la variable exógena.
Dichas variables (tanto endógenas como exógenas) pueden adoptar dos formas
generales:
2.2.1. Continuas
Las variables continuas son aquellas que llenan el espacio. Son números reales
(que pueden tener o no decimales) y servirán incluso cuando su rango no sea
desde -∞ hasta +∞. Suelen ser variables cuantitativas (como el peso o la edad)
pero también pueden ser consideradas continuas variables cualitativas cuando
pueden ordenarse y tienen un número no bajo de elementos (se dice que con
más de siet elementos puede considerarse cuantitativa.
Todas las variables de recuento (números enteros) siempre que su rango sea
alto (más de 7 elementos) podrían considerarse como continuas. Dentro de las
variables continuas tienen especial relevancia las conocidas como porcentajes.
Estas ratios pueden considerarse variables continuas normales cuando se
mueven en un rango central relativamente amplio, pero deben considerarse de
forma especial cuando se mueven cerca de sus extremos porque sus tasas de
crecimiento se ven constreñidas al intervalo [0; 1]
7
Ejemplos:
Es el número de escalones de una escalera, habitaciones de una vivienda,
árboles plantado)
2.2.2. Discretas:
Las variables discretas son aquellas que se mueven “a saltos”. Además de las
variables de recuento suelen ser factores cualitativos que indican alguna
característica del individuo (como el género, color, idioma) Si las características
son sólo dos se suelen llamar dicotómicas (género). Si son más de dos se suelen
denominar simplemente factor.
8
2.3. Hipótesis y Estimación
Para que los resultados de la regresión sean “confiables” (confiable es una forma
coloquial de referirse a: insesgados, es decir que sus resultados sean parecidos
a los reales; y óptimos, es decir que su varianza sea mínima) es necesario que:
a) La relación entre las variables sea lineal. Ser lineal no significa que
forzosamente tenga que ser una línea recta sino también que pueda ser lineal
con alguna
transformación.
9
variabilidad: una componente va a representar la variabilidad explicada por el
modelo de regresión y la otra componente va a representar la variabilidad no
explicada por el modelo y, por tanto, atribuida a factores aleatorios.
10
2.5 Contraste de regresión
Uno de los contrastes más usuales en todos los análisis de regresión es lo que
se conoce como el contraste de la regresión, o anova de la regresión, que
plantea
como hipótesis nula la no influencia de las variables explicativas en la respuesta.
11
Por ello y para penalizar el número de variables regresores que se incluyen en
el modelo de regresión, es conveniente utilizar el coeficiente de determinación
corregido por el número de grados de libertad.
Este coeficiente es muy importante pues determina qué porcentaje (en tantos
por uno) de la varianza de la variable dependiente es explicado por el modelo de
regresión.
En general, se pueden clasificar los valores de 2R de la siguiente manera:
Errores que son fáciles pasar por alto al realizar un modelo de regresión lineal
múltiple son los siguientes:
• No controlar el factor tamaño.
• Si hay un factor de ponderación, no tenerlo en cuenta.
• Al calcular los grados de libertad en los contrastes de hipótesis.
• No incluir una variable relevante en el modelo.
• Incluir una variable irrelevante.
12
• Especificar una relación lineal que no lo es.
13
3. APLICACIONES DE REGRESIÓN MÚLTIPLE
La regresión múltiple se utiliza para la predicción de respuestas a partir de
variables explicativas. Pero no es ésta realmente su aplicación más común en
investigación. Sus usos más comunes son los siguientes:
▪ Identificación de variables explicativas: Nos ayuda a crear un modelo
donde se seleccionen las variables que puedan influir en la
respuesta, descartando las que no aporten información.
▪ Detección de interacciones: entre variables independientes que
afectan a la variable respuesta.
▪ Identificación de variables confusoras: Aunque es un problema difícil,
es de interés en investigación no experimental.
14
Aplicación de la regresión lineal múltiple en Economía
Permite trabajar con una variable a nivel de intervalo o razón, así también se
puede comprender la relación de dos o más variables y nos permitirá relacionar
mediante ecuaciones, una variable en relación de la otra variable llamándose
regresión múltiple. Casi constantemente en la práctica de la investigación
estadística, se encuentran variables que de alguna manera están relacionados
entre sí por lo que es posible que una de las variables pueda relacionarse
matemáticamente en función de otra u otras variables, aplicando la regresión
lineal múltiple en economía.
15
Para los negocios y la economía
Por lo que para las áreas de
economía y negocio es una
herramienta de gran utilidad que
permite analizar una gran
cantidad de datos sobre la
realidad económica y establecer
la relación que existe entre las
variables en estudio que permita
tomar decisiones sobre una
situación específica.
16
APLICACIÓN DE LA REGRESIÓN LINEAL A LA INGENIERIA QUÍMICA.
La aplicación del presente tema de estudio en la carrera de Ingeniería Química
es muy basta, por ejemplo, para hallar la concentración de un elemento que es
uno de los parámetros de mayor importancia en los procesos químicos
aplicados en la industria. Esta cuantificación se puede obtener mediante un
espectrofotómetro, dispositivo que requiere se calibrado. Para ello se elabora
una recta de calibración que se obtiene a partir de la correlación entre la
absorbancia de un patrón y la concentración de la sustancia a controlar,
también se puede utilizar en la evaluación de las constantes en un modelo de
promedio de crecimiento de saturación que caracteriza a la cinética microbial,
entre otros muchos ejemplos por eso a continuación se explicarán 2 ejemplos con
Regresión Lineal Simple y Regresión Lineal Múltiple.
𝑁𝑢 = 𝑎𝑅𝑒 𝑏 𝑃𝑟 𝑐
𝐷𝑜𝑛𝑑𝑒 𝑎, 𝑏, 𝑐 𝑠𝑜𝑛 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜𝑠 𝑎𝑗𝑢𝑠𝑡𝑎𝑏𝑙𝑒𝑠
Para los siguientes datos experimentales obtenidos en una tubería de ¾ de
pulgada de diámetro externo a. compruebe la ecuación original de Sieder y Tate.
Utilice una correlación lineal múltiple para hallar los parámetros a, b, c. Y calcule
y represente los errores obtenidos en esta correlación
17
18
Solución por el método de Regresión lineal múltiple:
Primero linealizamos la ecuación tomando logaritmos. Así:
𝑁𝑢 = 𝑎𝑅𝑒 𝑏 𝑃𝑟 𝑐
log(𝑁𝑢) = log(𝑎) + 𝑏𝑙𝑜𝑔(𝑅𝑒) + 𝑐𝑙𝑜𝑔(Pr 𝑖)
𝑦 = 𝐴 + 𝑏𝑋1 + 𝑐𝑋2 + 𝑒
Donde:
“Y” variable respuesta o dependiente.
“x1.x2” variables independientes o regresores.
“e” perturbación aleatoria
Dispondremos de una muestra con dos observaciones” Re y Pr” número de
Reynolds y del número de Prandlt que son valores relacionados con otras
propiedades del objeto.
Colocamos los 16 datos en una tabla de Excel relacionando los términos para
hallar estos valores “X1X2”,”X1.X1”,”X2.X2”; “X1Y”, “X2Y”, lo cual nos permitirá
formar la matriz y hallar las constantes a, b,c de la ecuación lineal.
19
Ajuste de datos en Excel
20
Quedando nuestra ecuación lineal de la forma.
21
Coeficiente de determinación R^2
0.183075
𝑅 2 = 1 − (274195.09) =0.999999332
22
4. EJEMPLOS DE CALCULO
23
Ahora para poder analizar más realizaremos los siguientes pasos:
24
Procederemos a insertar los datos de X1 e Y, una vez hecho esto
aceptamos y por consiguiente nos arroja una hoja de cálculo de
forma automática.
Realizamos los mismos pasos que con la variable anterior para tener
datos más a fondo.
25
Y de la misma manera será el valor del R2 ajustado el que se toma y
cuenta y vemos que es mayor al valor del R2 con respecto a la
primera variable.
26
Reemplazaremos estos datos en el modelo general de regresión
lineal múltiple.
27
INDICE DE INSEGURIDAD VS.
NÚMERO DE HABITACIONES
ALQUILADAS
650
640
y = -1867.1x + 775.7
630 R² = 0.5321
620
610
600
590
580
0.075 0.08 0.085 0.09 0.095 0.1
28
29
5. REGRESIÓN LINEAL MULTIVARIABLE MODELO DE SEGUNDO
ORDEN
---------------------(3.7)
30
Estas gráficas indican que el cambio esperado de y cuando x, cambia (por
ejemplo) una unidad, es una función de 𝑋1 y 𝑋2 a la vez. Los términos cuadráticos
y de interacción en este modelo producen una función en forma de colina.
Dependiendo de los valores de los coeficientes de regresión, el modelo de
segundo orden con interacción es capaz de tomar una gran variedad de formas,
por lo que es un modelo de regresión muy flexible.
En la mayor parte de los problemas del mundo real no se conocen los valores de
los parámetros (los coeficientes 𝛽𝑖 ) de regresión, ni la varianza del error 𝜎 2 , y se
deben estimar a partir de datos muéstrales. La ecuación o modelo de regresión
ajustada se suele usar para pronosticar observaciones futuras de la variable de
respuesta y, o para estimar la respuesta media a determinados valores de las
y's.
31
6. CONCLUSIÓN
• Al analizar los datos nos dimos cuenta que los puntos (datos de los
problemas) si están muy cerca de la lineal de tendencia, esto quiere decir,
que si existe una relación entre estas variables, y más al analizar el
coeficiente de determinación 𝑅 2 nos comprueba que el análisis es
acertado.
• Lo cual en el mundo de los negocios es de vital importancia, para predecir
escenarios futuros reduciendo el grado de incertidumbre en la toma de
decisiones.
32
7. BIBLIOGRAFIA
33