REGRESIÓN LINEAL SIMPLE
1. INTODUCCION
El objetivo de este tema es estudiar la asociación entre dos variables conocida también como
asociación simple, solo en forma descriptiva. Este tema contiene la aplicación de los métodos
descriptivo a muestra bivariante cuantitativas, es decir muestra donde, en cada unidad estadística
se observa dos características cuantitativa medible.
La primera forma del estudio de la asociación entre las variables X e Y es la regresión, que
consiste en determinar una relación funcional entre ellas, con el fin de que se pueda predecir
el valor de una variable en base a la otra. La variable que se va predecir se denomina
variable dependiente y la variable que es la base de la preedición se denomina variable
independiente
La segunda forma del estudio de la asociación entre las variables X e Y, es denominada
correlación, que consiste en determinar la variación conjunta de las dos variables, su grado de
relación y su sentido. La medida del grado de la relación se denomina coeficiente de
correlación. El cuadrado del índice de correlación se denomina coeficiente de determinación.
Se realizara un estudio descriptivo de la regresión lineal en el sentido que, la ecuación de
regresión que se calcula será valida, solo si hay la seguridad de que existe un alto nivel de
correlación entre las variable medido por el coeficiente de determinación.
2. DIAGRAMA DE DISPERSIÓN
Se denomina diagrama de dispersión o nube de puntos, a la grafica de los valores (x,y) de
las variables X e Y en el sistema cartesiano.
Es frecuente visualizar el tipo de relación existente entre dos variables a partir del diagrama de
dispersión.
3. LA COVARIANZA
La covarianza de los datos observado en una muestra es la estadística que mide el nivel de la
variabilidad conjunta de los datos de las variables en pareja con respecto a sus medias
respectivas.
4. EL COEFICIENTE DE CORRELACION
El coeficiente de correlación lineal de Pearson de los n pares de valores de una variable
bidimensional (x,y) es el numero abstracto o relativo r que se calcula por:
El coeficiente de correlación de la muestra es un número real comprendido entre -1 y 1
El grado o nivel de ajuste de la ecuación a los datos se analiza en forma descriptiva aplicando el
coeficiente de determinación que se define como el cuadrado del coeficiente de correlación.
5. REGRESIÓN LINEAL SIMPLE.
Dados n pares de valores de una variable bidimensional, la regresión lineal simple Y con
respecto a X, consiste en determinar la ecuación de la recta:
Y = a + bx
Que mejor se ajusta a los valores de la muestra, con el fin de poder predecir o estimar Y a
partir de X.
Dr. JOSE HUAMAN 155
El proceso de predecir o estimar Y a partir de la variables X , es la regresión. Hallar la
función lineal, consiste en determinar las constante “a” y “b” a partir de los datos de la
muestra.
Interpretación de coeficiente de regresión b
Si b > 0, entonces la tendencia lineal es creciente, es decir a mayores valores de X
corresponde mayores valores de Y. También a menores valores de X menores valores de
Y.
Si b < 0, entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X
corresponde menores valores de Y. También, a menores valores de X corresponde
mayores valores de Y.
Si b = 0, entonces Y permanece estacionario para cualquier valor de X es decir no hay
regresión.
6. COEFICIENTE DE DETERMINACION.
El coeficiente de determinación es una medida de la proximidad del ajuste de la recta de regresión.
Cuanto mayor sea el valor, mejor será el ajuste y mas útil la recta de regresión como instrumento
de predicción; para calcular el coeficiente de determinación se eleva al cuadrado el coeficiente de
correlación
7. ERROR STADAR DE ESTIMACION (S)
Se denomina error estándar de estimación a la desviación estándar de la regresión muestral. Este
valor es la raíz cuadrada positiva de la varianza de la regresión muestral.
El error estándar de la estimación, es igual que la varianza, es una medida de la dispersión o
concentración de los valores observado alrededor de la estimación del modelo de regresión.
Mientras más pequeños sea el valor del error estándar de estimación, más cercano a la línea de
regresión estarán los valores estimados.
8. INFERENCIA ESTADISTICA DE LOS COEFICIENTE DE REGRESION
Antes de aplicar el modelo de regresión lineal para realizar predicciones de Y en función de X, se debe
analizar el valor de la pendiente es o no significativo si el coeficiente es igual a cero, entonces,
descriptivamente, no hay indicios de regresión poblacional. Además si el coeficiente es diferente de
cero, hay indicio de regresión en la población, pero, debido a variaciones muéstrales, la pendiente
poblacional podría ser cero. Si el coeficiente es igual es cero, entonces, no hay regresión de Y con X
en la población, si esto ocurre, el modelo de regresión estimado no podría ser aplicado para hacer
predicciones validas de los valores de variable dependiente Y.
Para demostrar que el coeficiente es diferente de cero se puede utilizar: intervalo de confianza,
prueba de hipótesis y análisis de varianza para el coeficiente.
9. INTERVALO DE CONFIANZA PARA EL COEFICIENTE
= varianza estimada de regresión
= varianza estimada del coeficiente
= error estándar del coeficiente
Dr. JOSE HUAMAN 156
= error de estimación
LI = b – E LS = b – E IC = < LI; LS >
Si el intervalo de confianza no contiene el valor cero esto significa que el coeficiente es significativo
por lo tanto la variable X debe ser considerado en el modelo.
10. PRUEBA DE HIPOTESIS PARA EL COEFICIENTE
Hipótesis planteada
Valor de la significancia
Valor del estadístico
Punto critico
Si el valor del estadístico se encuentra dentro de la región de rechazo, entonces se rechaza la
hipótesis nula y se concluye que el coeficiente es significativo.
Ejemplo 1
El gerente de la empresa estudia la relación que existe entre las variables gastos (y) y salario
(x) de un personal obrero, a la vez trata de encontrar la ecuación de regresión para hacer
estimaciones.
x y
28 25
25 20
35 32
40 37
45 40
35 30
70 55
80 60
PRACTICA DIRIGIDA
Dr. JOSE HUAMAN 157
1) En un estudio del efecto de un componente de la dieta sobre la composición de los lípidos
del plasma, se obtuvieron los siguientes datos en una muestra de 8 animales experimentales
X = Medida del componente de la dieta
Y = Medida de la concentración de lípidos en el plasma
x y
18 38
21 40
28 47
35 54
47 66
33 52
40 59
19 38
Estimar el modelo y evaluar el coeficiente
2) Los datos siguientes muestran la Densidad óptica de cierta sustancia a diferente Niveles
de concentración.
X = Nivel de concentración
Y = Densidad óptica
x y x y
80 0,08 280 0,38
120 0,12 320 0,41
160 0,18 360 0,42
200 0,21 400 0,51
Estimar el modelo y evaluar el coeficiente
3) El administrador de un hospital reunió los siguientes datos sobre el Costo por comida
estándar a diferente Volúmenes de preparación.
X = Números de comidas servidas
Y = Costo por comidas
x y
30 1,15
35 1,11
40 0,98
45 1,01
50 0,97
Estimar el modelo y evaluar el coeficiente
4) Se llevo a cabo un experimento para estudiar la relación entre una Medición objetiva de la
ansiedad y la Frecuencia cardiaca en adulto. Se obtuvieron los siguientes resultados en los
10 adultos normales.
Dr. JOSE HUAMAN 158
X = Frecuencia cardiaca por minutos
Y = Medición objetiva de la ansiedad
x y x y
50 48 75 36
55 41 80 38
60 45 85 36
65 41 90 30
70 42 95 32
Estimar el modelo y evaluar el coeficiente
5) Se reunieron los siguientes datos en un estudio de la relación entre la Inteligencia y el Tamaño
de la familia.
X = Tamaño de la familia
Y = Puntuación de inteligencia
x y x y
1 105 6 101
2 102 7 95
3 104 8 93
4 100 9 97
5 97 10 88
Estimar el modelo y evaluar el coeficiente
6) Un banco estudia la relación entre las variables, ingreso y ahorros mensuales de sus clientes. Una
muestra aleatoria de sus clientes revelo los siguientes datos en dólares:
X: 350 400 450 500 950 850 700 900 600
Y: 100 105 130 160 350 350 250 320 130
Estimar el modelo y evaluar el coeficiente
7) El gerente de personal de una empresa quiere estudiar la relación entre el ausentismo y la edad
de sus trabajadores. Si una muestra aleatoria de 9 trabajadores de registro de la empresa revelo lo
siguientes datos:
Edad: 25 46 58 37 55 32 41 50 23
Ausentismo: 18 12 8 15 10 13 7 9 16
Estimar el modelo y evaluar el coeficiente
8) Un grupo que vende al menudeo, encargo un estudio para determinar la relación entre los gastos
de publicad semanal por radio y el monto de las ventas de sus productos. En el estudio se
obtuvieron los siguientes resultados:
Gastos: 30 20 40 50 70 60 80 70 80
Ventas: 300 250 400 380 550 750 630 930 700
Estimar el modelo y evaluar el coeficiente
9) Una empresa agroindustrial quiere determinar la relación entre cantidad de fertilizante y
producción de papa por hectárea que produce. Si la muestra del experimento proporciono los
siguientes datos:
Sacos: 3 4 5 6 7 8 9 10 11
Rendimiento: 45 48 52 55 60 65 68 70 74
Dr. JOSE HUAMAN 159
Estimar el modelo y evaluar el coeficiente
10) Para estudiar la relación entre el número de horas de estudio y las calificaciones finales en una
prueba de conocimientos se recopilaron los siguientes datos de una muestra aleatoria de 8
alumnos.
Horas: 14 16 22 20 18 16 18 16
Calificaciones: 12 13 15 15 17 11 14 16
Estimar el modelo y evaluar el coeficiente
.
REGRESION LINEAL MULTIPLE
Dr. JOSE HUAMAN 160
1. MODELO DE REGRESION LINEAL MULTIPLE
El análisis de regresión lineal múltiple es una extensión del análisis de regresión lineal simple
aplicaciones que implican dos o más variables independientes.
Que se relaciona con una variable dependiente Y mediante el modelo estadístico
Donde los B son los parámetros desconocidos
Para visualizar la relación entre las variables dependientes Y con cada una de las variables
independiente X, se puede utilizar diagrama de dispersión. Esta grafica nos mostraran
descriptivamente la tendencia y las relaciones lineales: nulas, débiles o fuerte de Y con X.
Los coeficiente de regresión de indican el cambio promedio de Y correspondiente a un
incremento unitario cuando las demás X permanecen constante.
El objetivo es analizar un modelo de regresión lineal múltiple que pretende explicar el comportamiento
de la variable aleatoria Y aplicando información proporcionada por una muestra aleatoria de tamaño n.
El análisis de regresión lineal múltiple es una técnica útil empleada en diversas disciplinas. Con la
aplicación de paquetes de cómputo se hace menos complicada la solución de problemas en la que
intervienen un gran número de variables independiente.
Los supuesto de análisis de regresión múltiple es que los residuos son variables aleatoria cada una
con media cero y varianza uno.
Para la inferencia acerca de los coeficientes de regresión, se supones además, que residuo tiene
distribución normal. Este supuesto se denomina de normalidad.
Además las variables regresaras son variables independiente, cuando este supuesto no se cumple, se
dice que el modelo presenta multicoleanidad.
2. ESTIMACION DEL MODELO
El método de mínimos cuadrados consiste en determinar los coeficientes de manera que haga mínima
la suma cuadrados de los residuos.
Modelo por estimar:
Ecuaciones normales
La solución es mediante un sistema de ecuaciones
3. EL COEFICIENTE DE DETERMINACION
Dr. JOSE HUAMAN 161
Al igual que el coeficiente de determinación simple, el coeficiente de determinación múltiple R, mide el
porcentaje de la varianza de Y que queda explicada al conocer dos o más variables independiente.
Cuanto mayor es el R menor es la dispersión y mayor es el ajuste del plano de regresión a los datos.
Para la interpretación se multiplica por el 100%
4. EL ERROR ESTANDAR DE ESTIMACION MULTIPLE
Error estándar de estimación múltiple mide la variabilidad de los residuales. Se define, igual que de
regresión simple
Es el segundo criterio para medir descriptamente el ajuste del modelo de regresión estimado a los
datos de la muestra, cuanto más pequeño sea el valor de S, mejor será el ajuste del modelo de
regresión múltiple estimado a los datos de la muestra. El error estándar de estimación múltiple tiene
la misma unidades de medición de la variable dependiente Y
5. PRUEBA DE HIPOTESIS GLOBAL DEL COEFICIENTE DE REGRESION
Para determinar si existe o no regresión lineal real de las variables dependiente Y con todas las
variables independientes en conjunto se aplica el método de análisis de varianza. Este método es
conocido como análisis global de significación de los coeficientes de la estimación del modelo de
regresión lineal múltiple.
El método de análisis de varianza prueba la siguiente hipótesis nula:
El estadístico de prueba se calcula mediante la siguiente formula
Se calcula el punto de comparación
Si el valor del estadístico es mayor al punto de comparación, entonces se rechaza la hipótesis nula y
se concluye que existe regresión global. En consecuencia, por lo menos uno de los coeficientes del
modelo de regresión propuesto es diferente de cero.
6. PRUEBA DE HIPOTESIS INDIVIDUAL DE LOS COEFICIENTE DE REGRESION
Si se rechaza la hipótesis nula de contraste global delos parámetros de regresión, es decir se se
acepta que existe regresión lineal de la variables dependiente Y globalmente con todas las variables
independiente X. en conjunto, se debe continuar con el análisis para determinar que variables
contribuye en forma significativa al modelo de regresión múltiple. Si alguna variable independiente X
no contribuye en forma significativa al modelo, se le debería descartar del modelo propuesto y luego
estimar el modelo con las variables que si contribuyen significativamente a la predicción de la variable
dependiente Y.
Dr. JOSE HUAMAN 162
Error estándar de la estadística b
= es la diagonal de la matriz C
Hipótesis planteada:
Valor de la significancia
Valor del estadístico
Punto critico
Si el valor del estadístico es se encuentra dentro de la región de rechazo entonces la hipótesis nula se
rechaza y se concluye que el coeficiente si es significativo en el modelo y la variable se debe
considerar de todas manera en el modelo.
PRACTICA CALIFICADA
1) Se ha observado los siguientes datos experimentales de una muestra para estimar salarios. Estime el
modelo y luego analice si es el adecuado.
Y = SALARIO X1 = AÑOS DE SERVICIO X2 = EDAD
Y X1 X2
600 5 33
620 4 34
500 2 35
700 7 34
800 7 35
850 9 40
750 4 38
900 6 29
500 3 39
2) El departamento de producción de una fábrica desea explorar la relación entre el número de operario
(1) que hacen pantalones, la edad promedio de ellos (x2) y la cantidad producida por semana (y).
Estime el modelo y luego analice si es el adecuado.
Y X1 X2
30 28 10
45 43 12
52 48 14
55 52 15
70 60 17
75 63 21
Dr. JOSE HUAMAN 163
3) Se ha seleccionado en forma aleatoria a diez fábricas de confecciones textiles para evaluar los efectos
del nivel de producción y del índice de costo de mano de obra y materia prima. Las variables son:
Y = costo promedio de manufactura en dólares
X1 = nivel de producción como porcentaje de la capacidad fijada
X2 = índice en porcentaje de los costos de manos de obras y materia prima.
Estime el modelo y evalué si el adecuado
Y X1 X2
3.62 84 82
4.21 79 95
4.31 80 108
5.45 70 115
6.63 55 135
5.71 60 125
5.05 72 114
4.01 92 96
4.35 96 98
4.24 100 110
4) El propietario de una distribuidora de materiales de construcción quiere saber la relación entre la
siguiente variables: venta total en ciento de dólares (y), peso de los pedidos en decena de kilogramo
(x1) y la distancia de la entrega en kilometro (x2). Estime el modelo y evalué si es el adecuado
Y X1 X2
4 2 5
5 3 6
5 4 6
6 5 7
7 6 8
7 7 9
8 8 10
9 9 11
10 10 13
11 11 15
5) Se obtuvieron los siguientes datos de un país para realizar un estudio estadístico de la maternidad
adolecente (y), familia en extrema pobreza (x1) y familia desintegrada (x2). Estimar el modelo de
regresión y evaluar si es el adecuado.
Y 12 14 16 18 20 16 20
X1 20 25 22 18 15 14 19
X2 15 15 20 24 26 19 17
6) En un estudio sobre la población de un parasito se hizo un recuento de parásitos en 15 localizaciones
con diversas condiciones ambientales. Estimar el modelo de regresión
Temperatura 15 16 24 13 21 16 22 18 20 16
Dr. JOSE HUAMAN 164
Humedad 70 65 71 64 84 86 72 84 71 75
Recuento 156 157 177 145 197 184 172 187 169 200
Dr. JOSE HUAMAN 165