MODULO 3: REGRESION LINEAL DOCENTE: ING. CAMILO MARIN G.
ESTADISTICA Y ANALISIS NUMERICO CARRERA DE INGENIERIA CIVIL
MODULO 3
REGRESION LINEAL
Definición El análisis de regresión trata de determinar la forma como se realizan dos
variables, de tal manera que se pueda predecir el valor de una de ellas en base a la otra.
Si se tiene una función: y fcx) de región
Dónde: x = variable independiente
y variable dependiente
LA REGRESIÓN LINEAL SIMPLE
En el análisis de regresión ayuda a entender como el valor de la variable dependiente varia
al cambiar el valor de la variable independiente.
Si “x” e “y” son de primer grado de función de regresión es lineal simple y se calcula con la
fórmula: y= a + bx donde:
a = es ordenada en el origen
b = pendiente de la recta de regresión
Si se considera el plano de coordenadas y en el conjunto de puntos PP
1 2 P3 ....., Pn la recta
Y* a bx (1)
Representa al conjunto de puntos.
y5 P5
*
y3 P
*y3 y
3 *
y4 *y 4 y*
* P4
y1 P1 yi y* desviaciones
y1 y* *y 2 y*
y2 P2 O errores
*
0 x1 x2 x3 x4 x5 x
P á g i n a 1|8
MODULO 3: REGRESION LINEAL DOCENTE: ING. CAMILO MARIN G.
ESTADISTICA Y ANALISIS NUMERICO CARRERA DE INGENIERIA CIVIL
Usando el método de los mínimos cuadrados, para el conjunto de puntos P1 , P2 ,P3 ,… ,Pn
la suma de los cuadrados de las desviaciones (errores) entre los valores estimados (𝑦∗) y los
n
valores observados ( 𝑦𝑖 ) está dado por s ( y y* ) (2)
2
i 1
La suma de las desviaciones debe ser mínima, es decir que el valor de s debe ser el menor
posible. por consiguiente, si reemplazamos la adecuación (1) en (2) se tiene:
s y (a bx) y 2 2 y (a bx) 2
2
s y 2 2ay 2bxy a 2 2abx b 2 x 2
Aplicando sumatorias:
s y 2 2a y 2b xy na 2 2ab x b 2 x 2 (3)
Para que s sea mínimo debemos derivar e igualar a cero derivando (3) respecto de “a” y luego
respecto a “b” se tiene:
ds
2 y 2na 2b x 0
da
y na b x 0 ; de donde:
a
y b x
(4)
n
ds
2 xy 2a x 2b x 2 0 ; de donde:
db
b
xy a x
x 2 (𝜶)
Reemplazando (4) en (𝜶)
xy ( n ) x n xy y x b( x)
y b x
2
b
x 2
n x 2
bn x 2 b( x) n xy y x ; de donde:
2
P á g i n a 2|8
MODULO 3: REGRESION LINEAL DOCENTE: ING. CAMILO MARIN G.
ESTADISTICA Y ANALISIS NUMERICO CARRERA DE INGENIERIA CIVIL
n xy x y
b
n x 2 ( x ) 2
(5)
Las expresiones (4) y (5) proporcionan los valores de “a” y “b” de la ecuación de regresión
lineal (1) y* a bx (1)
FACTOR DE CORRELACION (r)
También se puede decir una fórmula para el factor de correlación(r) entre las 2 variables cuya
expresión deducida es:
n xy x y cor ( x1 y1 )
r (6) r (7)
n x 2 ( x) 2 n y 2 ( y ) 2 x y
r = factor o coeficiente de correlación que varía entre -1 ≤ r ≤ 1 con (x,y) = covarianza
entre “x” e “y”
ERROR EN LA PREDICCIÓN Y EL ANÁLISIS DE CORRELACIÓN
El error de la predicción del valor de la variable dependiente con relación a la variable
independiente depende del coeficiente de correlación (r).
Si “r” se aproxima a 1, entonces existe una perfecta correlación entre las variables “x” e “y”
y el error es mínimo.
Si “r” se aproxima a cero, entonces no existe correlación entre las variables “x” e “y” y por
consiguiente el error es máximo.
Si el valor de “r” <0.7 se considera que la relación es baja.
Se considera correlación positiva si siempre que el valor de “x” sube, el valor de “y” sube, y
casi con la misma o igual intensidad. (+1)
En el caso opuesto, si siempre que el valor de “x” sube, y el valor de “y” baja y además con
la misma intensidad, entonces se habla de correlación negativa (-1)
Por tanto “r” es una medida estadística que cuantifica la dependencia lineal entre 2 variables
o grado de intensidad de la relación entre 2 variables.
P á g i n a 3|8
MODULO 3: REGRESION LINEAL DOCENTE: ING. CAMILO MARIN G.
ESTADISTICA Y ANALISIS NUMERICO CARRERA DE INGENIERIA CIVIL
Correlación * Correlación
* *
* positíva * negativa
** *
* *
* **
* * *
* *
0 x 0 * x
Ejemplo:
Una empresa varia su cantidad de producción, de acuerdo a la cantidad de empleados de la
siguiente manera.
N° de Empleados 11 15 20 22 24 26 31 36
Cantidad de 205 301 411 450 493 522 612 662
Producción
Determinar: a) La ecuación de regresión lineal de “y” en x
b) Estimar la producción para 50 y 65 empleados
c) El coeficiente de correlación
SOLUCION:
a) llamamos: x= número de empleados
y= cantidad o volumen de producción
La ecuación de regresión lineal tiene la forma: y a bx , donde: por las fórmulas (4)y(5)
deducidas se tiene:
a
y b x (4) b
n xy x y
(5)
n n x 2 ( x ) 2
En el cuadro siguiente se calcula todos los valores que necesitamos:
P á g i n a 4|8
MODULO 3: REGRESION LINEAL DOCENTE: ING. CAMILO MARIN G.
ESTADISTICA Y ANALISIS NUMERICO CARRERA DE INGENIERIA CIVIL
x
x i
185
n 8
x 23,125
y 457
Empleados Producción xi yi xi 2 yi 2
xi yi
11 205 2255 121 42025
15 301 4515 225 9061
20 411 8220 400 168921
22 450 9900 484 202500
24 493 11832 576 243049
26 522 13572 676 272484
31 612 18972 961 374544
36 662 23832 1296 438244
185 3656 93098 4739 1832.368
Reemplazamos en las fórmulas se tiene:
8 93098 185 3656 68424
b b 18,56
8 4739 (185) 2 3687
3656 18,56 185 222, 4
a a 27,84
8 8
Luego la ecuación de regresión lineal es y a bx o y 27,8 18,56 x Ecuación
de “y” en x
b) Estimar la producción para 50 y 65empleados.
Para x=50 empleados reemplazando en la ecuación de regresión
y=27,84+18,56x(50)=955,84
Para x=65⇨ y=27,84+18,56x(65)=1234,24
P á g i n a 5|8
MODULO 3: REGRESION LINEAL DOCENTE: ING. CAMILO MARIN G.
ESTADISTICA Y ANALISIS NUMERICO CARRERA DE INGENIERIA CIVIL
c) el coeficiente de correlación se obtiene reemplazando en la ecuación (6)
n xy x y 8 93098 185 3656
r
n x 2 ( x) 2 n y 2 ( y ) 2 8 4739 (185) 2 8 1.832.368 (3656) 2
68424
r 0,9911 r 0,9911
69035,10
Como r se acerca a 1, se concluye que se tiene un alto grado de relación entre las variables
“x” e “y”.
Otro método para la determinación del coeficiente de correlación “r”
cov( x, y )
Consiste en utilizar la formula (7) es decir r
x y
Donde cov (x, y) = covarianza de x e y = 𝜎𝑥𝑦 de donde
xy
xy xy
r xy
x y n
donde
x x 2
( x) 2
y y 2
( y)2
n ; n
Reemplazando los valores obtenidos en el cuadro se obtiene:
93098
xy 10568,125 xy 1069,125
8
4739
x (23,125) 2 x 7,59
8
1832.368
y (457) 2 y 142,116
8
1069,125 1069,125
r
7,59 142,116 1078, 662
P á g i n a 6|8
MODULO 3: REGRESION LINEAL DOCENTE: ING. CAMILO MARIN G.
ESTADISTICA Y ANALISIS NUMERICO CARRERA DE INGENIERIA CIVIL
r 0,9911
La ecuación de regresión lineal también se calcula con:
xy 1069,125
b b 18,56
x 2 (7,59) 2
a y b x 457 18, 56 23125 a 27,84
De donde: y 27,84 18,56 x
Límites de confianza para la predicción Para un conjunto de puntos o datos representados
en el plano coordenadas, se puede establecer límites de confianza para el conjunto de datos.
* *
Estos límites se
* t
*t
* establecen por el
t
* * * t
t investigador de acuerdo al
t t grado de seguridad que
* * t
exija el problema de
t
* Bandeja de seguridad investigación (5%;10%,
* t t
etc.) estableciendo por
t
encima y debajo de la
recta estos porcentajes.
El coeficiente de determinación ( ) este coeficiente el cuadrado del coeficiente de
correlación. r2
es un numero positivo que varía entre cero y uno
0 1 o 0 r2 1
permite indicar el grado de certeza con que una variable depende de la otra. Si se
considera un rango de 0a 100%se tiene:
Coef. bajo medio alto
50% 70% 100%
P á g i n a 7|8
MODULO 3: REGRESION LINEAL DOCENTE: ING. CAMILO MARIN G.
ESTADISTICA Y ANALISIS NUMERICO CARRERA DE INGENIERIA CIVIL
Regresión Logarítmica Si el conjunto de puntos (datos) no se ajustan a una recta se puede
usar regresión logarítmica; exponencial y/o potencial.
* * y ab x
t*
t
log y log a x log b
* * * t *
t t
* t y a b log x t
*
* t*
t
t * * *
t t
Regresión Logarítmica t
Regresión Exponencial
*
*
* y ax b
*
log y log a b log x
* *
t
* *
t
t Regresión Potencial
P á g i n a 8|8