FACULTAD DE INGENIERÍA Y
ARQUITECTURA
ESCUELA PROFESIONAL DE INGENIERÍA INDUSTRIAL
REGRESIÓN LINEAL: SIMPLE Y MÚLTIPLE
AUTORES:
Leon Echevarria Hebert
Padilla Velasquez Dany
Paz Yauri Antonio
CURSO:
ESTADÍSTICA APLICADA
ASESOR:
JUAN CARLOS VÁSQUEZ GUZMÁN
CHIMBOTE – PERÚ
2024
Regresión Lineal: simple y múltiple
Regresión Lineal
La regresión lineal es un método estadístico utilizado para estudiar la relación entre
dos variables (una variable dependiente y una o más variables independientes). Su
objetivo principal es entender cómo varía la variable dependiente cuando una o más
variables independientes cambian.
En términos simples, la regresión lineal busca encontrar la mejor línea recta que
pueda representar la relación entre las variables. Esta línea recta se determina
minimizando la suma de los cuadrados de las diferencias entre los valores
observados y los valores predichos por la línea
Regresión Lineal Simple
La regresión lineal simple es un método estadístico que busca modelar la relación
entre una variable dependiente Y, y una única variable independiente X . Es uno de
los tipos más básicos de modelos de regresión y se caracteriza por asumir que la
relación entre Y y X puede ser representada por una línea recta.
De naturaleza paramétrica porque hace ciertas suposiciones basadas en el conjunto
de datos.
𝐸𝑐𝑢𝑎𝑐𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎: 𝑦 = 𝑎 + 𝑏𝑥
Donde:
y: variable dependiente
a: ordenada en el eje y
b: pendiente de la recta de regresión
x: variable independiente
𝑎 = 𝑦̅ − 𝑏𝑥̅
∑𝑥𝑦 − 𝑛𝑥𝑦
̅̅̅
𝑏=
∑𝑥 − 𝑛𝑥̅ 2
2
𝑥: 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
𝑦: 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
𝑥̅ : 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎𝑠 𝑥
𝑦̅: 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎𝑠 𝑦
𝑛: 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑝𝑢𝑛𝑡𝑖𝑎𝑙𝑒𝑠
Error estándar de la estimación
∑𝑦 2 − 𝑎∑𝑦 − 𝑏∑𝑥𝑦
𝑆𝑥𝑦 = √
𝑛−2
Coeficientes de correlación para rectas de regresión
Los coeficientes de correlación para rectas de regresión son medidas que indican
la fuerza y la dirección de la relación lineal entre dos variables. Hay dos tipos
principales de coeficientes de correlación que se utilizan en el contexto de la
regresión lineal:
𝑛∑𝑥𝑦 − ∑𝑥∑𝑦
𝑟=
√[𝑛∑𝑥 2 − (∑𝑥)2 ][𝑛∑𝑦 2 − (∑𝑦)2 ]
Coeficiente de determinación
El coeficiente de determinación es el porcentaje de variación en la variable
dependiente (y) que explica la ecuación de regresión. Si fuera posible hacer
predicciones perfectas, el coeficiente de determinación sería de 100% que está
relacionada con un coeficiente de correlación de +1 o -1.
Regresión lineal múltiple
Este tipo de regresión es la que estudia la relación entre una variable dependiente
y dos o más variables independientes, lo cual permite tener en cuenta múltiples
factores que podrían influir en la variable dependiente.
La ecuación utilizada es la siguiente:
𝑦̂ = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + ⋯ + 𝑏𝑘 𝑥𝑘
Donde:
𝑦̂: 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
𝑎: 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑐𝑖𝑜𝑛
𝑏1 , 𝑏2 , … , 𝑏𝑘 :
𝑠𝑜𝑛 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟𝑒𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒𝑠 𝑑𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠
𝑥1 , 𝑥2 , … , 𝑥𝑘 : 𝑠𝑜𝑛 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠
A continuación, un ejemplo de como resolver un caso de regresión lineal múltiple
Ejercicio 1
Paso 1: identificar la variable dependiente “y” y las variables independientes
Se realizó un estudio a 7 estudiantes para ver cómo influyen las calificaciones del
examen y el número de clases que los estudiantes pierden, en la calificación de la
materia de matemática. Los datos completos se registran a continuación:
Estime la calificación de matemática para un estudiante que tiene una calificación
en un examen de 55 y pierde 4 clases
estudiantes calificación calificación clases 𝑥12 𝑥22 𝑦2 𝑥1 ∗ 𝑥2 𝑥1 ∗ 𝑦
de matemática del examen perdidas 𝑥22 ∗ 𝑦
1 85 65 1 4225 1 7225 65 5525 85
2 74 50 7 2500 49 5476 350 3700 518
3 76 55 5 3025 25 5776 275 4180 380
4 90 65 2 4225 4 8100 130 5850 180
5 85 55 6 3025 36 7225 330 4675 510
6 87 70 3 4900 9 7569 210 6090 261
7 94 65 2 4225 4 8836 130 6110 188
∑= 591 ∑= 425 ∑= 26 ∑= 26125 ∑= 128 ∑=50207 ∑=1490 ∑= 36130 ∑= 2122
Paso 2: con la ayuda de la matriz inversa se desarrollará el ejercicio
7 425 26 1 0 0
425 26125 1490 0 1 0
26 1490 128 0 0 1
R1/7 → R1 1 425/7 26/7 1/7 0 0
R2 425 26125 1490 0 1 0
R3 26 1490 128 0 0 1
R1/7 → R1 1 425/7 26/7 1/7 0 0
-425 (R1) + R2 R2 0 2250/7 -620/7 -425/7 1 0
-26 (R1) + R3 R3 0 -620/7 220/7 26/7 0 1
R1 1 425/7 26/7 1/7 0 0
2250/7→ R2 0 1 -62/225 -17/90 7/2250 0
R3 0 -620/7 220/7 26/7 0 1
𝑦̂ = 51.7151899 + 0.58101266𝑥1 − 0.68987342𝑥2
Estime la calificación de estadística para un estudiante que tiene una calificación
en un examen de 55 y pierde 4 clases.
𝑦̂ = 51.7151899 + 0.58101266(55) − 0.68987342(4)
𝑦̂ = 80.91 = 81
La calificación estimada de un estudiante que obtiene 55 en el examen y pierde 4
clases es de 81.
Error estándar de la estimación múltiple
Es el error típico cuando se emplea la ecuación de regresión múltiple para predecir
la calificación.
𝑆𝐶𝐸 115.246835
𝑆𝑦1,2,3,…𝑘 = √ → 𝑆𝑦1,2,3,…,𝑘 = √ = 5.36765
𝑛 − (𝑘 + 1) 7 − (2 + 1)
el error estándar es de 5. 36765 de calificación con respecto a los valores reales
donde:
n: es el número de observaciones de la muestra
k: es el número de variables independientes
SCE: es la suma de los cuadrados del error o residuo
Ejercicio 2: regresión lineal simple
En determinado barrio se desea saber si existe alguna relación entre la edad de los
vecinos y la "percepción de inseguridad en el barrio", medida en una escala del 0-
10 donde el 0 representa "totalmente seguro" y el 10 representa "totalmente
inseguro". Se realiza una pequeña prueba con 10 individuos, obteniendo los
siguientes datos:
X= variable independiente (Edad)
Y= variable dependiente(inseguridad)
∑𝑥𝑦 − 𝑛𝑥𝑦
̅̅̅ 2480 − [10(43.7)(5.2)]
𝑃𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 ∶ 𝑏 = → 𝑏 =
∑𝑥 2 − 𝑛𝑥̅ 2 21191 − 10(1909.69)
𝑏 = 0.0991357
𝑂𝑟𝑑𝑒𝑛𝑎𝑑𝑎 = 𝑎 = 𝑦̅ − 𝑏𝑥̅ → 𝑎 = 5.2 − 0.991357(43.7)
a=0.8678
Ecuación de la recta
𝑦 = 0.8678 + 0.991357𝑥
Error estándar de la estimación
∑𝑦 2 − 𝑎∑𝑦 − 𝑏∑𝑥𝑦
𝑆𝑥𝑦 =√
𝑛−2
298 − 0.8678(52) − 0.0991357(2480)
𝑆𝑥𝑦 = √
10 − 2
𝑆𝑥𝑦 = 0.936607
Coeficiente de correlación R
𝑛∑𝑥𝑦 − ∑𝑥∑𝑦
𝑟=
√[𝑛∑𝑥 2 − (∑𝑥)2 ][𝑛∑𝑦 2 − (∑𝑦)2 ]
(10)(2480) − (437)(52)
𝑟=
√[10(21191) − (437)2 ][10(298) − (52)2 ]
𝑟 = 0.863523
Coeficiente de determinación
𝑓𝑜𝑟𝑚𝑢𝑙𝑎: 𝑟 2 → = 0.8635232
𝑟 2 = 0.7456
Ejercicio 3
Supongamos que eres el gerente de una tienda de electrónica y deseas predecir
las ventas de un nuevo producto en función de su precio. Has recopilado datos de
ventas anteriores y los precios correspondientes. Los datos son los siguientes:
Precio (x) Ventas (y)
10 15
20 25
30 35
40 45
50 55
Quieres determinar si existe una relación lineal entre el precio y las ventas, y si es
así, poder predecir las ventas para un precio determinado de 60 dólares.
Datos:
n es el número de observaciones.
Σ representa la suma.
Σ(xy) es la suma de los productos de precio y ventas.
Σ(x^2) es la suma de los cuadrados de los precios.
Σx es la suma de los precios.
Σy es la suma de las ventas.
Para resolver este caso, utilizaremos la regresión lineal simple. La fórmula de la
recta de regresión es:
Ventas = Pendiente * Precio + Término independiente
Para calcular la pendiente y el término independiente, utilizaremos las siguientes
fórmulas:
Pendiente = (n * Σ(xy) - Σx * Σy) / (n * Σ(x^2) - (Σx)^2)
Pendiente = (5 * 750 - 150 * 175) / (5 * 550 - 150^2) = 5
Término independiente = (Σy - Pendiente * Σx) / n
Término independiente = (175 - 5 * 150) / 5 = -25
Por lo tanto, la ecuación de la recta de regresión sería:
Ventas = 5 * Precio - 25
Ventas = 5 * 60 - 25 = 275 unidades
Interpretación: Esto significa que, según el modelo de regresión lineal, se espera
que las ventas sean de 275 unidades para un precio de 60 dólares.