Universidad Nacional Intercultural Fabiola Salazar Leguía de
Bagua-UNIFSLB
Carrera Profesional de Negocios Globales
Curso:
Estadística y probabilidades
Mg.Ing.Estad.Villena Zapata, Luigi
Sesión 15
Objetivos De La Sesión
Al finalizar la sesión el estudiante estará en la
capacidad de:
• Identificar correctamente una variable dependiente y
una variable independiente.
• Determinar la ecuación de regresión lineal.
• Conocer y verificar el cumplimiento de los supuestos.
Regresión Lineal
El análisis de regresión es una estimación de la relación entre una
variable dependiente y una o más variables independientes. Se estiman
los coeficientes de la ecuación lineal. Las variables dependientes e
independientes deben ser cuantitativas. Si alguna variable fuera
cualitativa, debería ser recodificada a la variable dummy (este tipo de
variables presenta las categorías 0 y 1, donde el 1 representa presencia
de alguna cualidad y el 0 ausencia de la misma)
Regresión Lineal
Se deben dar los siguientes supuestos; para cada valor de la variable
independiente, la dependiente debe ser normal; la varianza de
distribución de la variable dependiente ha de ser constante para todos
los valores de la variable independiente; la relación entre la variable
dependiente y cada variable independiente debe ser lineal; todas las
observaciones tienen que ser independientes.
Regresión Lineal
Haciendo uso de la base rlineal.xlsx, desarrolla lo siguiente:
• Crea un archivo en spss con el nombre rlineal.sav, y traslada los datos de la
base rlineal.xlsx.
• Identifica la variable dependiente e independiente.
• Ingresa las unidades de medidas de ambas variable: Estatura (cm) y Peso
(kg.)
• Elabora un diagrama de dispersión de ambas variables.
• Verifica la normalidad de ambas variables.
• Calcular el coeficiente de correlación de pearson.
Regresión Lineal
La estimación del modelo de regresión (poblacional) es la ecuación de
regresión muestral (o de estimación o predicción)
Y X e
Ecuación muestral: Y a bX
Donde :
Y : Es una estimación de Y
a y b son las estimaciones de los parámetros αros , respectivamente
Regresión Lineal
Haciendo uso del fichero rlineal.sav, realice un análisis de regresión
lineal que sirva para predecir la estatura de una persona (ESTATURA) a
partir de su peso (PESO).
REGRESIÓN LINEAL
Como para realizar un análisis de regresión debemos tener en cuenta que ha
de haber una relación lineal entre las variables, calculamos el coeficiente de
correlación de Pearson y contrastamos la hipótesis nula para si están
correlacionadas (o correladas) las dos variables linealmente.
El coeficiente de correlación muestral de ambas variables es de 0.842 y, con
significación de p=0.000 (p<0.05), decimos que están correladas
positivamente o directamente; es decir, se rechaza la hipótesis nula.
REGRESIÓN LINEAL
SCT: Es la variabilidad total de Y
SCR: Es la variabilidad explicada por el modelo de regresión lineal
SCE: Es la variabilidad no explicada o aleatoria.
¿Tiene sentido la regresión? ¿Por qué?
El método ANOVA de la regresión lineal simple prueba la hipótesis:
H0 : 0 H 0:No existe regresión
H1 : 0 H1:Si existe regresión
¿Tiene sentido la regresión? ¿Por qué?
Según la tabla ANOVA, el valor de F es 386.626 y una
significancia p=0.000 (p<0.05), la regresión es significativa
para cualquier nivel de significación.
¿Cómo se escribiría el modelo de regresión? ¿Por qué? ¿Cuál
es el intervalo de confianza para alpha y beta?
El modelo de regresión simple, en general, viene dado en población por la ecuación:
, Y X e donde Y es la variable dependiente, X la independiente, alpha es la
ordenada en el origen, beta, es la pendiente de la recta, y «e» es el error, la
diferencia entre los valores reales y los valores predichos por la regresión. e Y Y
¿Cómo se escribiría el modelo de regresión? ¿Por qué? ¿Cuál
es el intervalo de confianza para alpha y beta?
Estimando los parámetros a y b, obtendríamos la recta de regresión
muestral escrita de la siguiente manera:
Y a bX
Y 113.355 0.725 X
¿Cómo se escribiría el modelo de regresión? ¿Por qué? ¿Cuál
es el intervalo de confianza para alpha y beta?
Además de escribir el modelo tenemos que contrastar las hipótesis:
H0 : 0 H0 : 0
H1 : 0 H1 : 0
es decir, si los parámetros de la recta son o no significativos. Con una t de Student
de 40.006 y un p=0.00 (p<0.05), se puede decir que es significativo, la constante
entra en el modelo; con una t de 19.739 y significación p=0.00 (p<0.05), la
pendiente también es significativa, es decir también entra en el modelo. Además se
escribe como:
ESTATURA=113.355+0.725*PESO
¿Es bueno el modelo dado por la recta de regresión anterior?
Para saberlo hemos de estudiar el coeficiente de determinación, que da un
tantos por ciento la proporción de variabilidad de dependiente que está
explicada por la recta de regresión. Cuanto más se aproxime al 100% el ajuste
será mejor, cuanto más se aproxime a 0% será peor.
suma de cuadrados residual
R2 1
suma cuadrados total
4246.969
R2 1 0.725
15427.573
¿Es bueno el modelo dado por la recta de regresión anterior?
Para saberlo hemos de estudiar el coeficiente de determinación, que da un
tantos por ciento la proporción de variabilidad de dependiente que está
explicada por la recta de regresión. Cuanto más se aproxime al 100% el
ajuste será mejor, cuanto más se aproxime a 0% será peor.
Rc2 R 2
1. 1 R2
n 11
11 0.725
Rc 0.725
2
0.723
150 1 1
Haga un estudio de los errores
Haga un estudio de los errores
Si el valor de éste es próximo a 2, los residuos estarán
incorrelacionados; si es próximo a 4, negativamente
autocorrelados, si se aproxima a 0, positivamente
autocorrelados.
Haga un estudio de los errores
Haga un estudio de los errores
Ejercicio N°01
Se indica a menudo que la inversión en publicidad impacta linealmente
en las ventas de un producto. Para corroborar este hecho se han
elegido al azar 19 centros comerciales que venden el mismo producto.
Se llevó a cabo la experiencia usando el mismo medio de propaganda y
se anotó la inversión en publicidad X y las ventas del producto
realizadas Y, en miles de unidades monetarias. Los resultados aparecen
en el archivo rlineal2.xlsx
Ejercicio N°02: Gastos en energía
Los técnicos en energía han reportado que el gasto Y en energía en
unidades monetarias (u.m) para la calefacción de las viviendas en un
poblado, se puede explicar mediante un modelo de regresión lineal
usando las variables independientes: X1: Temperatura ambiental,
medida en grados °F y X2:Grado de aislamiento de la vivienda, medida
en una escala especialmente construida para la experiencia. Para
corroborar la aserción de los técnicos, se usó la muestra que se indica
a continuación:
Ejercicio N°02: Gastos en energía
PREPARACIÓN DE PEDIDOS
PREPARACIÓN DE PEDIDOS
Para determinar el modelo de regresión lineal que explique el tiempo
que se demora en alistar un pedido en función de la cantidad de
productos que solicita el cliente. Se toma una muestra con los
siguientes resultados:
Tiempo
20 38 12 55 80 35 15 40 55 100 10 45
(minutos)
Número de
3 7 2 8 7 4 3 5 5 9 2 6
productos
PREPARACIÓN DE PEDIDOS
Para determinar el modelo de regresión lineal que explique el tiempo
que se demora en alistar un pedido en función de la cantidad de
productos que solicita el cliente. Se toma una muestra con los
siguientes resultados:
Tiempo
20 38 12 55 80 35 15 40 55 100 10 45
(minutos)
Número de
3 7 2 8 7 4 3 5 5 9 2 6
productos
Variable dependiente: Y: Tiempo
Variable independiente: X: Número de productos
PREPARACIÓN DE PEDIDOS
Tiempo
20 38 12 55 80 35 15 40 55 100 10 45
(minutos)
Número de
3 7 2 8 7 4 3 5 5 9 2 6
productos
• Realice un ajuste de regresión del tiempo y el número de productos e
interprete los coeficientes calculados.
• Verifique los supuestos del modelo, asumiendo un 5% de
significancia.
• Determine e interprete el coeficiente de correlación y determinación.
PREPARACIÓN DE PEDIDOS
• Realice un ajuste de regresión del tiempo y el número de productos
e interprete los coeficientes calculados.
La ecuación del modelo es:
y 10.732 10.390 X
PREPARACIÓN DE PEDIDOS
• Realice un ajuste de regresión del tiempo y el número de productos e
interprete los coeficientes calculados.
La ecuación del modelo es:
y 0 1 X y 10.732 10.390 X
Interpretación
de los coeficientes:
0 : El tiempo que se demora en alistar un pedido, cuando la cantidad
de productos solicitados por el cliente es cero, es de -10.732 minutos
(tener en cuenta que la interpretación carece de sentido)
PREPARACIÓN DE PEDIDOS
• Realice un ajuste de regresión del tiempo y el número de productos e
interprete los coeficientes calculados.
La ecuación del modelo es:
y 0 1 X y 10.732 10.390 X
Interpretación
de los coeficientes:
1 : Por cada producto adicional que se registra en el pedido, el tiempo
que se demora en alistar un pedido, aumenta en 10.390 minutos.
PREPARACIÓN DE PEDIDOS
• Verifique los supuestos del modelo, asumiendo un 5% de
significancia.
Primer Supuesto:
Normalidad de Errores
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
PREPARACIÓN DE PEDIDOS
• Verifique los supuestos del modelo, asumiendo un 5% de
significancia.
n 50 ,Shapiro Wilk
Primer Supuesto:
Normalidad de Errores n 50, Kolmogorov Smirnov
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
PREPARACIÓN DE PEDIDOS
Primer Supuesto:
Normalidad de Errores
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
Como el p-valor de significancia de la prueba de normalidad Shapiro-Wilk
para muestras pequeñas (menor que 50), es mayor que 0.05
(p=0.595>0.05), se concluye que los errores presentan distribución normal.
PREPARACIÓN DE PEDIDOS
Segundo Supuesto:
Autocorrelación de los Errores (Durbín-Watson)
Como el valor de Durbín-Watson=2.092, está en el intervalo [1;3], por lo
tanto, se cumple el supuesto. Es decir, los errores no están
autocorrelacionados.
PREPARACIÓN DE PEDIDOS
Tercer Supuesto:
Validez el modelo de regresión lineal simple. Use un alfa=0.05.
H0: β=0 (No existe dependencia lineal del tiempo de demora respecto
al número de productos).
H1: β≠0 (Existe dependencia lineal del tiempo de demora respecto al
número de productos)
PREPARACIÓN DE PEDIDOS
Tercer Supuesto:
Valide el modelo de regresión lineal simple. Use un alfa=0.05.
Decisión: Como Sig.(0.000) < α (0.05) → Se Rechaza H0
Conclusión: Como sig.(p=0.000<0.05), se rechaza la hipótesis nula, por tanto, existe
relación lineal entre el número de productos del pedido y el tiempo que demoran en
alistar el pedido, es así que se concluye que el modelo es válido.
PREPARACIÓN DE PEDIDOS
• Determine e interprete el coeficiente de correlación y determinación.
r = 0.887; existe una correlación alta positiva entre el número de productos del
pedido y el tiempo que demoran en alistar el pedido.
r 2 0.787 ; El 78.7% de la variabilidad del tiempo que demoran en alistar el pedido, se
encuentra explicada por número de productos del pedido.
PREPARACIÓN DE PEDIDOS
SPSS