SEMANA 9- 10
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN
Universidad Nacional de
Cajamarca
Docente:
MsC. Cabrera Pinedo Irvin Eduardo
Análisis de Regresión Lineal Simple:
Conceptos básicos.
Análisis de correlación lineal simple.
Diagrama de dispersión.
OBJETIVOS
Formular modelos de regresión lineal simple. Usando variables dentro del
contexto de su especialidad.
Identificar los supuestos del modelo de regresión lineal simple.
Aplicar criterios para seleccionar y validar el mejor modelo de regresión
lineal simple.
Realizar estimaciones adecuadas de la variable de interés del campo de su
especialidad en base a resultados obtenidos del análisis de regresión.
MsC. IRVIN CABRERA PINEDO
Sabías que…
El gerente de ventas de una compañía se está preparando para una reunión
de ventas, y le gustaría mostrar al grupo de vendedores la forma como se
relaciona el número de visitas a clientes con el valor anual de pedidos que
se reciben. De sus registros se recolectó la siguiente información muestral
para el último año; los datos muestrales fueron los siguientes.
a) Estime la línea de regresión lineal simple.
b) Interprete los coeficientes de regresión.
c) Efectúe el análisis de varianza y realice la prueba de hipótesis más adecuada.
d) Calcule e interprete el coeficiente de determinación.
MSc. IRVIN CABRERA PINEDO
Logro de la sesión:
Al final de la sesión el estudiante analiza, resuelve y demuestra problemas de una
variable dependiente y una independiente en situaciones reales aplicadas a su
especialidad, hacienda uso de la regresión lineal simple, prueba de hipótesis
estimación y predicción.
Contenido:
Supuestos de la Análisis de
Regresión lineal
regresión lineal Ejemplo varianza – Prueba
simple
simple de hipótesis
Coeficiente de Estimación y
Ejemplo Ejemplo
determinación predicción
Aplicación Fórmulas
Análisis de Regresión Lineal Simple y
de Correlación
El análisis de regresión lineal y de correlación comprende es estudio de los
datos muestrales para saber si dos o más variables están relacionadas entre
sí en una población.
El análisis de regresión lineal da como resultado una ecuación matemática
que describe cierta relación determinada. La ecuación puede usarse para
estimar o predecir los valores de una variable cuando se conocen o se
suponen conocidos los valores de otra variable.
El análisis de correlación da como resultado un número que resume el
grado de relación lineal existente entre dos variables. Es útil en un trabajo
exploratorio cuando el investigador desea encontrar el grado o la fuerza de
esa relación.
DIAGRAMA DE DISPERSIÓN
EL PRIMER PASO EN EL ANÁLISIS DE EL DIAGRAMA DE DISPERSIÓN INDICA
REGRESIÓN, ES CONSTRUIR UNA GRÁFICA FRECUENTEMENTE EL TIPO DE TENDENCIA DE Y
DE LOS DATOS MUESTRALES EN UN PLANO CON RESPECTO A X. ESTA TENDENCIA PUEDE SER
BIDIMENSIONAL. ESTA GRÁFICA SE LINEAL O NO LINEAL. EN EL PRIMER CASO SE
ESTIMARÁ UNA RECTA Y EN EL SEGUNDO CASO
DENOMINA DIAGRAMA DE DISPERSIÓN. UNA CURVA.
DIAGRAMA DE DISPERSIÓN
LA REGRESIÓN LINEAL SIMPLE
Tiene como propósito predecir o estimar una variable dependiente (Y) a
partir de otra variable llamada independiente (X) a través de un modelo
matemático.
El modelo poblacional de la regresión lineal simple es el siguiente:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
Los parámetros del modelo β0 y β1 son estimados por el método de
mínimos cuadrados ordinarios (MCO), buscando minimizar la siguiente
expresión: n n 2
i =1
2
i = (Yi − 0 − 1 X i )
i =1
El modelo de regresión estimado es:
𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖
MSc. IRVIN CABRERA PINEDO 2021-I
REGRESIÓN LINEAL SIMPLE
La línea recta tiene dos importantes componentes:
• La pendiente de la recta y
• La ordenada de la recta (el valor de y) en
determinado punto (cuando x = 0) La ecuación
lineal MUESTRAL es la siguiente:
LA REGRESIÓN LINEAL SIMPLE
1) Se asume que la variable independiente X es fija
(no aleatoria).
2) La variable dependiente Y es aleatoria.
3) Para cada valor de X existe una distribución normal de la
variable Y:
SUPUESTOS
( )
Yi ~ N Y | X i , 2
4) El error tiene distribución normal con media 0 y varianza
constante el cualse2 puede expresar de la siguiente
forma:
i ~ N ( 0, 2
)
5) Esta expresión indica que no hay dependencia entre las
observaciones y tampoco entre los valores de ɛi con los
valores de Xi
MSc. IRVIN CABRERA PINEDO
CORRELACIÓN
Ejemplo de Aplicación 1
Conforme los quesos maduran, ocurren varios procesos
químicos que determinan el sabor del producto final. En un
estudio en queso cheddar, 10 muestras de queso fueron
analizadas en su composición química. Además, una medida
subjetiva del sabor fue obtenida combinando los puntajes
asignados por varios sujetos que probaron el queso. Los datos
se dan a continuación:
Muestra 1 2 3 4 5 6 7 8 9 10
Sabor (Y) 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA (X) 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328
MSc. IRVIN CABRERA PINEDO
Ejemplo de Aplicación 1
Las variables son:
Sabor: puntaje subjetivo del sabor, obtenido combinando los
puntajes de varios sujetos.
AA : logaritmo natural de la concentración de ácido
acético. ( AA= ln(ConcentÁcido Acético))
El objetivo de este estudio es evaluar el efecto de la variable
AA (variable independiente o predictora) en el sabor del
queso (variable dependiente o respuesta).
Se pide, elaborar el gráfico de dispersión entre las variables
Sabor y AA.
MSc. IRVIN CABRERA PINEDO
Ejemplo de Aplicación 1
En este caso la variable respuesta “Y” sería el sabor y la variable predictora “X” es el
logaritmo de la concentración del ácido acético. El gráfico muestra una aparente
relación de dependencia entre ambas variables en el sentido de que a mayor concentración de
ácido acético, mayor será la calificación del sabor.
MSc. IRVIN CABRERA PINEDO
APLICACIÓN
a) Determine la ecuación de regresión lineal estimada
Muestra Sabor (Y) AA (X) Y2 X2 XY
1 12.3 4.54 151.29 20.64 55.88
2 47.9 5.76 2294.41 33.17 275.86
3 37.3 5.89 1391.29 34.72 219.77
4 21 5.24 441.00 27.48 110.08
5 0.7 4.48 0.49 20.04 3.13
6 40.9 6.37 1672.81 40.51 260.33
7 18 5.25 324.00 27.53 94.45
8 15.2 5.30 231.04 28.07 80.53
9 16.8 5.37 282.24 28.79 90.15
10 0.7 5.33 0.49 28.39 3.73
Total 210.8 53.52 6789.06 289.34 1193.91
MSc. IRVIN CABRERA PINEDO
APLICACIÓN
Donde calculamos:
𝑋𝑖 2 = 289.34
𝑌 = 21.08
𝑌𝑖 2 = 6789.06
𝑋 = 5.3517 𝑋𝑖 𝑌𝑖 = 1193.91
𝑆𝑃(𝑋𝑌ሻ σ𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑛𝑋𝑌 1193.91 − 10 ∗ (21.08ሻ ∗ (5.3517ሻ
𝑏1 = = 2 = 2
= 22.44
𝑆𝐶(𝑋ሻ 𝑛 2
σ 𝑋 − 𝑛𝑋 289.34 − 10 ∗ 5.3517
𝑖=1 𝑖
𝑏0 = 𝑌 − 𝑏1 𝑋 = 21.08 − 22.44 ∗ (5.3517ሻ = −99.03
El modelo de regresión estimado es:
̰ = −99.03 + 22.44𝑋
𝑌
MSc. IRVIN CABRERA PINEDO
APLICACIÓN
b) Analice el siguiente gráfico e interprete.
Gráfica de línea ajustada
Sabor(Y) = - 99.03 + 22.44 AA (X)
50 S 1 0.4246
R-cuad. 62.9%
R-cuad.(ajustado) 58.3%
40
30
Sabor(Y)
20
10
0
4.5 5.0 5.5 6.0 6.5
AA (X)
MSc. IRVIN CABRERA PINEDO
APLICACIÓN
El intercepto
En este caso el intercepto, -99.03, correspondería al puntaje
estimado del sabor de un queso cuando el logaritmo natural
de la concentración de ácido acético es igual a cero. Dado que
en la estimación de este modelo se utilizaron valores AA de
4.477 hasta 6.365, esta interpretación no tiene validez.
El coeficiente de regresión
El coeficiente de regresión, 22.44 es siempre interpretable y en
este caso indica que por cada incremento unitario en el
logaritmo natural de la concentración de ácido acético, se
estima un incremento en el puntaje del sabor de 22.44 puntos.
MSc. IRVIN CABRERA PINEDO
EL ANÁLISIS DE VARIANZA
Cuando se obtiene la ecuación de regresión, todavía no se puede
afirmar estadísticamente que exista una dependencia lineal de la
variable Y respecto a la variable X. Por lo tanto, es necesario proceder
con una prueba hipótesis de la pendiente de la ecuación de
regresióny esto se logra utilizando un procedimiento matemático
conocido como el Análisis de Varianza (ANVA). El ANVA permite
evaluar si existe dependencia lineal o no de la variable dependiente (Y)
respecto a la variable independiente (X).
MSc. IRVIN CABRERA PINEDO
EL ANÁLISIS DE VARIANZA
Fuentes de Gl SC CM Fc
variación
Regresión 1 b1 SP(XY)
Error n–2 SC(Y) – b SP(XY)
Total n-1 SC(Y) =SC(Total)
𝑛
(σ 𝑋𝑖 ሻ( σ𝑌𝑖 ሻ
𝑆𝑃(𝑋𝑌ሻ = 𝑋𝑖 𝑌𝑖 −
𝑛
𝑖=1
SC(Reg) = b1 SP(XY)
𝑛
2
(σ 𝑌𝑖 ሻ
𝑆𝐶(𝑌ሻ = 𝑌 𝑖 −
𝑛
2
SC(Error) = SC(Y) – b1 SP(XY)
𝑖=1
𝑛
2 SC(Total) = SC(Y)
(σ 𝑋𝑖 ሻ
𝑆𝐶(𝑋ሻ = 𝑋 2 𝑖 −
𝑛
𝑖=1
𝑆𝑃 𝑋𝑌
𝑏1 = 𝛽መ1 =
𝑆𝑃 𝑋
MSc. IRVIN CABRERA PINEDO
Análisis de Variancia – Prueba de hipótesis
El procedimento es:
P1) H 0 : 1 = 0 ( No existe dependencia lineal de Y respecto a X )
H1 : 1 0 ( Existe dependencia lineal de Y respecto a X )
P2) Nivel de significancia:
P3) Estadístico de Prueba:
P4) Regla de decisión: Rechazar Ho si: Fc > F (1-α,GLReg,GLError)
Graficar
Decisión: Rechazar H0 o no rechazar H0.
P6) Conclusión.
COEFICIENTE DE DETERMINACIÓN
Mide el porcentaje de la variabilidad de la respuesta que es
explicado por la variable predictora. Su valor va de 0 a 1 y se
calcula mediante la siguiente expresión:
SC ( Reg )
r² =
SC (Total )
MSc. IRVIN CABRERA PINEDO
APLICACIÓN
Valide el modelo de regresión estimado en el ejemplo 3, siendo las
variables Y = sabor y X = AA a un nivel de significación del 5%
Solución:
𝑛
2 2
𝑆𝐶 (Totalሻ = 𝑆𝐶(𝑌ሻ = 𝑌𝑖 − 𝑛𝑌 = 6789.06 − 10 21.08 2 = 2345.40
𝑖=1
𝑆𝐶 (Regresionሻ = 𝑏1 𝑆𝑃(𝑋𝑌ሻ = 22.44 1193.91 − 10 ∗ (21.08ሻ ∗ (5.3517ሻ = 1475.92
𝑆𝐶 (Errorሻ = 𝑆𝐶(𝑇𝑜𝑡𝑎𝑙ሻ − 𝑆𝐶(𝑅𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛ሻ = 2345.40 − 1475.92 = 869.48
MSc. IRVIN CABRERA PINEDO
APLICACIÓN
Fuentes de Variación GL SC CM 𝐹𝑐
Regresión 1 1475.92 1475.92 13.58
Error 8 869.48 108.685
Total 9 2345.40
Prueba de Hipótesis
P1) 𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
P2) 𝛼 = 0.05
P3) 𝐹𝑐 = 13.58 ∼ 𝐹 1,8
P4) 𝐶𝑜𝑚𝑜 𝐹𝑐 = 13.58 > 𝐹tab = 𝐹 0.95,1.8 = 5.318 RH0
P5) Conclusión: A un nivel de significación del 5% se rechaza H0. Luego se
puede afirmar que el sabor del queso depende linealmente del logaritmo
natural de la concentración de ácido acético
MSc. IRVIN CABRERA PINEDO
APLICACIÓN
Para el ejemplo tratado en esta sección el coeficiente de determinación es:
𝑆𝐶(𝑅𝑒𝑔ሻ 1475.92
𝑟 2 = 𝑆𝐶(𝑇𝑜𝑡𝑎𝑙ሻ = 𝑟 2 = = 0.63 ó 63%
2345.40
El 63% de la variabilidad del sabor es explicado por la
concentración de ácido acético.
MSc. IRVIN CABRERA PINEDO
ESTIMACIÓN Y PREDICCIÓN
Estimación puntual:
Interpretación como predicción de
Yˆi = b0 + b1 X i un valor individual o como
estimación de valor medio
Estimación por intervalo:
INTERVALO DE 1 ( x − X ) 2
IP(Y / X = x0 ) = Yˆ t * CME 1 + + 0
PREDICCIÓN (1− , n − 2)
2 n SC ( X )
1 ( x0 − X ) 2 INTERVALO DE
IC (Y / X = x0 ) = Yˆ t * CME +
(1− , n − 2)
2 n SC ( X ) CONFIANZA
MSc. IRVIN CABRERA PINEDO
Ejemplo:
Encontrar un intervalo de predicción de un valor individual y un intervalo
de confianza para el valor medio a un 95% para evaluar el sabor del queso
cuando el logaritmo de ácido acético es 5.2.
𝑥0 = 5.2 ̰ = −99.03 + 22.44𝑋
𝑌 𝐶𝑀𝐸 = 108.685 𝑛 = 10
𝑛
2
𝑆𝐶(𝑋ሻ = 𝑋𝑖 2 − 𝑛𝑋 = 289.34 − 10 ∗ 5.3517 2
= 2.933
𝑖=1
𝑡 𝛼
1− 2 ,𝑛−2
=𝑡 0.05 =𝑡 0.975,8 = 2.306
1− 2 ,10−2
MSc. IRVIN CABRERA PINEDO
PREGUNTA 1 (INTRODUCCIÓN)
a) Estime la línea de regresión lineal simple.
b) Interprete los coeficientes de regresión.
c) Efectúe el análisis de varianza y realice la prueba de
hipótesis más adecuada.
d) Calcule e interprete el coeficiente de determinación.
¡MUCHAS GRACIAS!
32