0% encontró este documento útil (0 votos)
65 vistas32 páginas

Estadistica 3ra Unidad 9-10

Este documento presenta un análisis de regresión lineal simple y correlación. Explica conceptos clave como supuestos, diagrama de dispersión, estimación de parámetros, y aplica un ejemplo para estimar la relación entre el sabor de queso y la concentración de ácido acético. El objetivo es modelar matemáticamente la dependencia entre variables y realizar predicciones.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
65 vistas32 páginas

Estadistica 3ra Unidad 9-10

Este documento presenta un análisis de regresión lineal simple y correlación. Explica conceptos clave como supuestos, diagrama de dispersión, estimación de parámetros, y aplica un ejemplo para estimar la relación entre el sabor de queso y la concentración de ácido acético. El objetivo es modelar matemáticamente la dependencia entre variables y realizar predicciones.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

SEMANA 9- 10

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

Universidad Nacional de
Cajamarca

Docente:
MsC. Cabrera Pinedo Irvin Eduardo
Análisis de Regresión Lineal Simple:
Conceptos básicos.
Análisis de correlación lineal simple.
Diagrama de dispersión.
OBJETIVOS

Formular modelos de regresión lineal simple. Usando variables dentro del


contexto de su especialidad.

Identificar los supuestos del modelo de regresión lineal simple.

Aplicar criterios para seleccionar y validar el mejor modelo de regresión


lineal simple.

Realizar estimaciones adecuadas de la variable de interés del campo de su


especialidad en base a resultados obtenidos del análisis de regresión.

MsC. IRVIN CABRERA PINEDO


Sabías que…

El gerente de ventas de una compañía se está preparando para una reunión


de ventas, y le gustaría mostrar al grupo de vendedores la forma como se
relaciona el número de visitas a clientes con el valor anual de pedidos que
se reciben. De sus registros se recolectó la siguiente información muestral
para el último año; los datos muestrales fueron los siguientes.

a) Estime la línea de regresión lineal simple.


b) Interprete los coeficientes de regresión.
c) Efectúe el análisis de varianza y realice la prueba de hipótesis más adecuada.
d) Calcule e interprete el coeficiente de determinación.

MSc. IRVIN CABRERA PINEDO


Logro de la sesión:

Al final de la sesión el estudiante analiza, resuelve y demuestra problemas de una


variable dependiente y una independiente en situaciones reales aplicadas a su
especialidad, hacienda uso de la regresión lineal simple, prueba de hipótesis
estimación y predicción.
Contenido:

Supuestos de la Análisis de
Regresión lineal
regresión lineal Ejemplo varianza – Prueba
simple
simple de hipótesis

Coeficiente de Estimación y
Ejemplo Ejemplo
determinación predicción

Aplicación Fórmulas
Análisis de Regresión Lineal Simple y
de Correlación
El análisis de regresión lineal y de correlación comprende es estudio de los
datos muestrales para saber si dos o más variables están relacionadas entre
sí en una población.

El análisis de regresión lineal da como resultado una ecuación matemática


que describe cierta relación determinada. La ecuación puede usarse para
estimar o predecir los valores de una variable cuando se conocen o se
suponen conocidos los valores de otra variable.

El análisis de correlación da como resultado un número que resume el


grado de relación lineal existente entre dos variables. Es útil en un trabajo
exploratorio cuando el investigador desea encontrar el grado o la fuerza de
esa relación.
DIAGRAMA DE DISPERSIÓN

EL PRIMER PASO EN EL ANÁLISIS DE EL DIAGRAMA DE DISPERSIÓN INDICA


REGRESIÓN, ES CONSTRUIR UNA GRÁFICA FRECUENTEMENTE EL TIPO DE TENDENCIA DE Y
DE LOS DATOS MUESTRALES EN UN PLANO CON RESPECTO A X. ESTA TENDENCIA PUEDE SER
BIDIMENSIONAL. ESTA GRÁFICA SE LINEAL O NO LINEAL. EN EL PRIMER CASO SE
ESTIMARÁ UNA RECTA Y EN EL SEGUNDO CASO
DENOMINA DIAGRAMA DE DISPERSIÓN. UNA CURVA.
DIAGRAMA DE DISPERSIÓN
LA REGRESIÓN LINEAL SIMPLE
 Tiene como propósito predecir o estimar una variable dependiente (Y) a
partir de otra variable llamada independiente (X) a través de un modelo
matemático.
 El modelo poblacional de la regresión lineal simple es el siguiente:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
 Los parámetros del modelo β0 y β1 son estimados por el método de
mínimos cuadrados ordinarios (MCO), buscando minimizar la siguiente
expresión: n n 2


i =1
2
i =  (Yi −  0 − 1 X i )
i =1

 El modelo de regresión estimado es:


𝑌෠𝑖 = 𝑏0 + 𝑏1 𝑋𝑖

MSc. IRVIN CABRERA PINEDO 2021-I


REGRESIÓN LINEAL SIMPLE
 La línea recta tiene dos importantes componentes:

• La pendiente de la recta y
• La ordenada de la recta (el valor de y) en
determinado punto (cuando x = 0) La ecuación
lineal MUESTRAL es la siguiente:
LA REGRESIÓN LINEAL SIMPLE
1) Se asume que la variable independiente X es fija
(no aleatoria).
2) La variable dependiente Y es aleatoria.
3) Para cada valor de X existe una distribución normal de la
variable Y:
SUPUESTOS
( )
Yi ~ N Y | X i ,  2

4) El error tiene distribución normal con media 0 y varianza


constante el cualse2 puede expresar de la siguiente
forma:
 i ~ N ( 0, 2
)
5) Esta expresión indica que no hay dependencia entre las
observaciones y tampoco entre los valores de ɛi con los
valores de Xi

MSc. IRVIN CABRERA PINEDO


CORRELACIÓN
Ejemplo de Aplicación 1
 Conforme los quesos maduran, ocurren varios procesos
químicos que determinan el sabor del producto final. En un
estudio en queso cheddar, 10 muestras de queso fueron
analizadas en su composición química. Además, una medida
subjetiva del sabor fue obtenida combinando los puntajes
asignados por varios sujetos que probaron el queso. Los datos
se dan a continuación:

Muestra 1 2 3 4 5 6 7 8 9 10
Sabor (Y) 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA (X) 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328

MSc. IRVIN CABRERA PINEDO


Ejemplo de Aplicación 1
 Las variables son:
 Sabor: puntaje subjetivo del sabor, obtenido combinando los
puntajes de varios sujetos.
 AA : logaritmo natural de la concentración de ácido
acético. ( AA= ln(ConcentÁcido Acético))
 El objetivo de este estudio es evaluar el efecto de la variable
AA (variable independiente o predictora) en el sabor del
queso (variable dependiente o respuesta).
 Se pide, elaborar el gráfico de dispersión entre las variables
Sabor y AA.

MSc. IRVIN CABRERA PINEDO


Ejemplo de Aplicación 1

 En este caso la variable respuesta “Y” sería el sabor y la variable predictora “X” es el
logaritmo de la concentración del ácido acético. El gráfico muestra una aparente
relación de dependencia entre ambas variables en el sentido de que a mayor concentración de
ácido acético, mayor será la calificación del sabor.

MSc. IRVIN CABRERA PINEDO


APLICACIÓN
 a) Determine la ecuación de regresión lineal estimada
Muestra Sabor (Y) AA (X) Y2 X2 XY
1 12.3 4.54 151.29 20.64 55.88
2 47.9 5.76 2294.41 33.17 275.86
3 37.3 5.89 1391.29 34.72 219.77
4 21 5.24 441.00 27.48 110.08
5 0.7 4.48 0.49 20.04 3.13
6 40.9 6.37 1672.81 40.51 260.33
7 18 5.25 324.00 27.53 94.45
8 15.2 5.30 231.04 28.07 80.53
9 16.8 5.37 282.24 28.79 90.15
10 0.7 5.33 0.49 28.39 3.73
Total 210.8 53.52 6789.06 289.34 1193.91
MSc. IRVIN CABRERA PINEDO
APLICACIÓN
 Donde calculamos:
෍ 𝑋𝑖 2 = 289.34
𝑌 = 21.08
෍ 𝑌𝑖 2 = 6789.06

𝑋 = 5.3517 ෍ 𝑋𝑖 𝑌𝑖 = 1193.91

𝑆𝑃(𝑋𝑌ሻ σ𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑛𝑋𝑌 1193.91 − 10 ∗ (21.08ሻ ∗ (5.3517ሻ


𝑏1 = = 2 = 2
= 22.44
𝑆𝐶(𝑋ሻ 𝑛 2
σ 𝑋 − 𝑛𝑋 289.34 − 10 ∗ 5.3517
𝑖=1 𝑖

𝑏0 = 𝑌 − 𝑏1 𝑋 = 21.08 − 22.44 ∗ (5.3517ሻ = −99.03

El modelo de regresión estimado es:


̰ = −99.03 + 22.44𝑋
𝑌

MSc. IRVIN CABRERA PINEDO


APLICACIÓN
 b) Analice el siguiente gráfico e interprete.
Gráfica de línea ajustada
Sabor(Y) = - 99.03 + 22.44 AA (X)
50 S 1 0.4246
R-cuad. 62.9%
R-cuad.(ajustado) 58.3%

40

30
Sabor(Y)

20

10

0
4.5 5.0 5.5 6.0 6.5
AA (X)

MSc. IRVIN CABRERA PINEDO


APLICACIÓN
El intercepto
 En este caso el intercepto, -99.03, correspondería al puntaje
estimado del sabor de un queso cuando el logaritmo natural
de la concentración de ácido acético es igual a cero. Dado que
en la estimación de este modelo se utilizaron valores AA de
4.477 hasta 6.365, esta interpretación no tiene validez.

El coeficiente de regresión
 El coeficiente de regresión, 22.44 es siempre interpretable y en
este caso indica que por cada incremento unitario en el
logaritmo natural de la concentración de ácido acético, se
estima un incremento en el puntaje del sabor de 22.44 puntos.
MSc. IRVIN CABRERA PINEDO
EL ANÁLISIS DE VARIANZA

Cuando se obtiene la ecuación de regresión, todavía no se puede


afirmar estadísticamente que exista una dependencia lineal de la
variable Y respecto a la variable X. Por lo tanto, es necesario proceder
con una prueba hipótesis de la pendiente de la ecuación de
regresióny esto se logra utilizando un procedimiento matemático
conocido como el Análisis de Varianza (ANVA). El ANVA permite
evaluar si existe dependencia lineal o no de la variable dependiente (Y)
respecto a la variable independiente (X).

MSc. IRVIN CABRERA PINEDO


EL ANÁLISIS DE VARIANZA
Fuentes de Gl SC CM Fc
variación
Regresión 1 b1 SP(XY)

Error n–2 SC(Y) – b SP(XY)

Total n-1 SC(Y) =SC(Total)


𝑛
(σ 𝑋𝑖 ሻ( σ𝑌𝑖 ሻ
𝑆𝑃(𝑋𝑌ሻ = ෎ 𝑋𝑖 𝑌𝑖 −
𝑛
𝑖=1
SC(Reg) = b1 SP(XY)
𝑛
2
(σ 𝑌𝑖 ሻ
𝑆𝐶(𝑌ሻ = ෎ 𝑌 𝑖 −
𝑛
2
SC(Error) = SC(Y) – b1 SP(XY)
𝑖=1
𝑛
2 SC(Total) = SC(Y)
(σ 𝑋𝑖 ሻ
𝑆𝐶(𝑋ሻ = ෎ 𝑋 2 𝑖 −
𝑛
𝑖=1
𝑆𝑃 𝑋𝑌
𝑏1 = 𝛽መ1 =
𝑆𝑃 𝑋
MSc. IRVIN CABRERA PINEDO
Análisis de Variancia – Prueba de hipótesis
 El procedimento es:
 P1) H 0 : 1 = 0 ( No existe dependencia lineal de Y respecto a X )
H1 : 1  0 ( Existe dependencia lineal de Y respecto a X )

 P2) Nivel de significancia: 


 P3) Estadístico de Prueba:

 P4) Regla de decisión: Rechazar Ho si: Fc > F (1-α,GLReg,GLError)

 Graficar
 Decisión: Rechazar H0 o no rechazar H0.
 P6) Conclusión.
COEFICIENTE DE DETERMINACIÓN
 Mide el porcentaje de la variabilidad de la respuesta que es
explicado por la variable predictora. Su valor va de 0 a 1 y se
calcula mediante la siguiente expresión:

SC ( Reg )
r² =
SC (Total )

MSc. IRVIN CABRERA PINEDO


APLICACIÓN
 Valide el modelo de regresión estimado en el ejemplo 3, siendo las
variables Y = sabor y X = AA a un nivel de significación del 5%
Solución:

𝑛
2 2
𝑆𝐶 (Totalሻ = 𝑆𝐶(𝑌ሻ = ෍ 𝑌𝑖 − 𝑛𝑌 = 6789.06 − 10 21.08 2 = 2345.40
𝑖=1

𝑆𝐶 (Regresionሻ = 𝑏1 𝑆𝑃(𝑋𝑌ሻ = 22.44 1193.91 − 10 ∗ (21.08ሻ ∗ (5.3517ሻ = 1475.92

𝑆𝐶 (Errorሻ = 𝑆𝐶(𝑇𝑜𝑡𝑎𝑙ሻ − 𝑆𝐶(𝑅𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛ሻ = 2345.40 − 1475.92 = 869.48

MSc. IRVIN CABRERA PINEDO


APLICACIÓN
Fuentes de Variación GL SC CM 𝐹𝑐
Regresión 1 1475.92 1475.92 13.58
Error 8 869.48 108.685
Total 9 2345.40

 Prueba de Hipótesis
P1) 𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
P2) 𝛼 = 0.05
P3) 𝐹𝑐 = 13.58 ∼ 𝐹 1,8
P4) 𝐶𝑜𝑚𝑜 𝐹𝑐 = 13.58 > 𝐹tab = 𝐹 0.95,1.8 = 5.318 RH0
P5) Conclusión: A un nivel de significación del 5% se rechaza H0. Luego se
puede afirmar que el sabor del queso depende linealmente del logaritmo
natural de la concentración de ácido acético

MSc. IRVIN CABRERA PINEDO


APLICACIÓN
 Para el ejemplo tratado en esta sección el coeficiente de determinación es:

𝑆𝐶(𝑅𝑒𝑔ሻ 1475.92
𝑟 2 = 𝑆𝐶(𝑇𝑜𝑡𝑎𝑙ሻ = 𝑟 2 = = 0.63 ó 63%
2345.40

El 63% de la variabilidad del sabor es explicado por la


concentración de ácido acético.

MSc. IRVIN CABRERA PINEDO


ESTIMACIÓN Y PREDICCIÓN
 Estimación puntual:
Interpretación como predicción de
Yˆi = b0 + b1 X i un valor individual o como
estimación de valor medio

 Estimación por intervalo:

INTERVALO DE  1 ( x − X ) 2

IP(Y / X = x0 ) = Yˆ  t  * CME 1 + + 0

PREDICCIÓN (1− , n − 2)
2  n SC ( X ) 

 1 ( x0 − X ) 2  INTERVALO DE
IC (Y / X = x0 ) = Yˆ  t  * CME  + 
(1− , n − 2)
2  n SC ( X )  CONFIANZA

MSc. IRVIN CABRERA PINEDO


Ejemplo:
 Encontrar un intervalo de predicción de un valor individual y un intervalo
de confianza para el valor medio a un 95% para evaluar el sabor del queso
cuando el logaritmo de ácido acético es 5.2.

𝑥0 = 5.2 ̰ = −99.03 + 22.44𝑋


𝑌 𝐶𝑀𝐸 = 108.685 𝑛 = 10

𝑛
2
𝑆𝐶(𝑋ሻ = ෍ 𝑋𝑖 2 − 𝑛𝑋 = 289.34 − 10 ∗ 5.3517 2
= 2.933
𝑖=1

𝑡 𝛼
1− 2 ,𝑛−2
=𝑡 0.05 =𝑡 0.975,8 = 2.306
1− 2 ,10−2

MSc. IRVIN CABRERA PINEDO


PREGUNTA 1 (INTRODUCCIÓN)

a) Estime la línea de regresión lineal simple.


b) Interprete los coeficientes de regresión.
c) Efectúe el análisis de varianza y realice la prueba de
hipótesis más adecuada.
d) Calcule e interprete el coeficiente de determinación.
¡MUCHAS GRACIAS!

32

También podría gustarte