UNIVERSIDAD NACIONAL DEL CENTRO DEL PERU
FACULTAD DE INGENIERIA DE MINAS
CURSO: ESTADISTICA
CORRELACION Y REGRESION (9)
Ing. Eli Teobaldo Caro Meza
HUANCAYO 2018 I
CORRELACION Y REGRESION
La primera forma de estudio de la asociación entre las variables x e y es
la regresión, que consiste en determinar una relación funcional (recta de
regresión) entre ellas, con el fin de que se pueda predecir el valor de la
variable en base a la otra.
La segunda forma del calculo del estudio de la asociación entre las
variables x e y es denominada correlación , que consiste en determinar
una relación funcional (recta de regresión)
Correlación:
Regresión lineal
1GASTOS = -15,56 + 0,92 * x
500 R-cuadrado = 0,97
Se llama correlación a la
GASTO S
relación entre dos o mas 400
variables estadísticas
referidas a una misma 300
muestra.
200
300 400 500 600
INGRESOS
DIAGRAMAS DE DISPERSIÓN
Si las variables (X e Y) que se relacionan, se llevan a graficarlas en un
plano cartesiano, obtendremos una nube de puntos de diversas
representaciones y correspondiéndoles a cada diagrama de dispersión
su respectivo coeficiente de correlación el mismo que sólo variará entre
-1.00 <= r <= +1.00
COVARIANZA Y CORRELACION LINEAL
COVARIANZA.- Es una estadística, mide el grado de dispersión o variabilidad
conjunta de dos variables, x e y, con respecto a sus medias respectivas
x y i i
x media de x
y media de y
S xy i 1
xy
n
COEFICIENTE O ÍNDICE DE CORRELACION.- El Coeficiente Lineal de
PEARSON es el número abstracto “r”.
S xy Co var ianza de x e y
S xy
r Sx Desviación estándar de x
Sy Desviación estándar de y
SxS y
INDICE DE CORRELACION
S xy n xy x y
r
SxS y n x x . n y y
2 2 2 2
El coeficiente de Correlación de Pearson “r” es un número abstracto
comprendido entre -1 y 1.
1 r 1
INTERPRETACIÓN:
Si: r = 1 , se dice que hay una correlación perfecta positiva.
Si: r = -1, se dice que hay una correlación perfecta negativa.
Si: r = 0, se dice que no hay correlación entre las dos variables.
CLASES DE CORRELACIÓN
Existen varias clases, veamos solo algunos:
a) Correlación simple: Cuando se realiza entre dos variables
b) Correlación múltiple: Cuando intervienen tres o más variables
c) Correlación lineal: Cuando el diagrama de dispersión tiende a
formar una recta
d) Correlación no lineal: Cuando el diagrama de dispersión tiende a
formar una curva
De ± 0,96 a ± 1,00 : Correlación perfecta
De ± 0,85 a ± 0,95 : Correlación fuerte
De ± 0,70 a ± 0,84 : Correlación significativa
De ± 0,50 a ± 0,69 : Correlación moderada
De ± 0,20 a ± 0,49 : Correlación débil
De ± 0,10 a ± 0,19 : Correlación muy débil
METALURGIA UNCP
De ± 0,00 a ± 0,09 : Correlación nula
ING.JOSE YARASCA
CORRELACIÓN “r”
Si: y
r =1 ó r = -1, se dice que x e y, están perfecta y
linealmente correlacionados, o todos los puntos
están contenidos en una recta.
x
Si: y
r = 0, se dice que x e y, no están correlacionados.
Si:
x
0< r < 1 , entonces la correlación es positiva o
directa. y
Si:
-1 < r < 0, entonces la correlación es negativa o
indirecta x
Ejemplo: Hallar el coeficiente de correlación r de Pearson de las
puntuaciones originales de 14 trabajadores que obtuvieron en dos pruebas de
rendimiento laboral
Trabaj. X Y
1 18 28
2 18 30
3 17 30
4 17 26
5 16 28
6 16 24
7 15 22
8 15 20
9 14 26
10 14 22
11 13 24
12 13 28
13 12 20
14 12 18
N=14 ∑ =210 336
• Tenemos:
x
X 210
15 Zx
( X x)
Sx
x 2
56
2
N 14 Sx N 14
• Así mismo:
y y 2
y 336 (Y y ) 224
24 Zy Sy 4
n 14 Sy N 14
• Así por ejemplo podemos calcular:
16 15 20 24
Zx5 0,5; o tambien Zy8 1
2 4
• Calculamos el valor de r:
r
ZxZy 11,50
0,82
N 14
( X x) (Y y )
Trabaj. X x x2 Y y y2 Zx Zy ZxZy
1 18 3 9 28 4 16 1,5 1,0 1,50
2 18 3 9 30 6 36 1,5 1,5 2,25
3 17 2 4 30 6 36 1,0 1,5 1,50
4 17 2 4 26 2 4 1,0 0,5 0,50
5 16 1 1 28 4 16 0,5 1,0 0,50
6 16 1 1 24 0 0 0,5 0,0 0,00
7 15 0 0 22 -2 4 0,0 -0,5 0,00
8 15 0 0 20 -4 16 0,0 -1,0 0,00
9 14 -1 1 26 2 4 -0,5 0,5 -0,25
10 14 -1 1 22 -2 4 -0,5 -0,5 0,25
11 13 -2 4 24 0 0 -1,0 0,0 0,00
12 13 -2 4 28 -6 36 -1,0 -1,5 1,50
13 12 -3 9 20 -4 16 -1,5 -1,0 1,50
14 12 -3 9 18 -6 36 -1,5 -1,5 2,25
N=14 ∑ =210 56 336 224 11,50
• Utilizaremos ahora la fórmula directa para el cálculo de r de
Pearson:
N XY ( X )( Y )
r
[ N X 2 ( X ) 2 ][ N Y 2 ( Y ) 2 ]
Trabaj. X X2 Y Y2 XY
1 18 324 28 784 504
2 18 324 30 900 540
3 17 289 30 900 510
4 17 289 26 676 442
5 16 256 28 784 448
6 16 256 24 576 384
7 15 225 22 484 330
8 15 225 20 400 300
9 14 196 26 676 364
10 14 196 22 484 308
11 13 169 24 576 312
12 13 169 28 784 364
13 12 144 20 400 240
14 12 144 18 324 216
N=14 ∑ =210 3206 336 8288 5132
• Reemplazando valores en la formula:
14(5132) (210)(336) 71848 70560
r
[14(3206) ( 210) 2 ][14(8288) (336) 2 ] (784)(3136)
• Efectuando tenemos:
1288
r 0,82
1568
BUSCA LA LÍNEA DE MEJOR AJUSTE
Relacion entre LxA y el area de las
hojas del arbol A
16
14
Area de la hoja
12
10
8
6
di
4
2
0
4 6 8 10 12 14 16 18 20 22 24 26
Largo x Ancho de la hoja
REGRESION LINEAL
Dado “n” pares de valores (x1,y1),(x2,y2),….(xn,yn), de una variable
bidimensional (x,y), consiste en determinar la ecuación de la recta. y se desea
establecer una relación funcional (ecuación) entre ambas.
Y = a + bX que mejor se ajuste a los valores de la muestra, con el fin de
poder predecir o estimar Y (variable dependiente) a partir de
X (variable independiente), este proceso es la REGRESIÓN,
determinando los valores de “a” y “b” a partir de los datos de
la muestra.
Y
b = pendiente
a
X
y Y= a + bX
yi
di
y 1
i
x
xi
DEFINICIÓN.- Se denomina error o residuo a cada diferencia del valor
observado yi, y el valor pronosticado y1i
d i yi yi1
Un método para determinar la recta que mejor se ajuste a los “n” datos de
la muestra (xi,yi) es el método de MINIMOS CUADRADOS
RECTA DE REGRESIÓN DE MÍNIMOS
CUADRADOS
La recta de Regresión de Mínimos Cuadrados de y en x es aquella que hace
mínima la suma de los cuadrados de errores (SCE) cuya expresión es:
n n n
SCE d ( yi y ) ( yi a bxi ) 2
i
2 1 2
i
i 1 i 1 i 1
Luego, determinar una recta de regresión de n
SCE yi (a bxi )
2
mínimos cuadrados consiste en hallar “a” y
“b” de manera que hagan mínima la suma. i 1
Se cumple de acuerdo al Estas ecuaciones se obtienen de igualar
Teorema de Gass-Markow a cero las derivadas de SCE con
respecto a “a” y “b”.
n n
yi na b xi
n n n
i 1 i 1 i i i i
x y
i 1
a x b x 2
i 1 i 1
Resolviendo el sistema de ecuaciones normales para b, se obtiene:
n xi yi xi yi S xy
b ó b
n x ( xi )
2
i
2
S x2
Dividiendo por “n” la primera ecuación, se
tiene el valor a y bx
INTERPRETACION DEL COEFICIENTE DE REGRESION “b”:
El coeficiente “b” es la pendiente o el coeficiente de la regresión lineal. La
constante “a” es la ordenada en el origen.
Si: b>0, entonces, la tendencia lineal es creciente.
Si: b<0, entonces, la tendencia lineal es decreciente.
Si: b=0, entonces, Y = a, Luego, Y permanece estacionario para cualquier
valor de X. se dice No hay Regresión.
LA LÍNEA RECTA
La curva de aproximación más sencilla, es la línea recta, cuya ecuación es:
y = a + bx
Donde a y b son constantes y pueden ser hallados
Dados los puntos cualesquiera (x1,y1) y (x2,y2) de la recta, la ecuación
puede expresarse también
Y2-Y1
Y – Y1 = ----------- (X-X1) o Y-Y1 = m(X-X1)
X2-X1
Y2-Y1
Donde “m” es la pendiente de la línea recta = m = -----------
X2-X1
RECTA DE MÍNIMOS CUADRADOS
Sean los puntos: (X1,Y1),(X2,Y2)…..;(Xn,Yn), y la recta de aproximación por
mínimos cuadrados, tiene la ecuación:
Y = a + bX
Donde para hallar las constantes: a, b, a partir del sistema de ecuaciones:
Ecuaciones normales para la ∑Y = aN+b∑X
recta de mínimos cuadrados
∑XY = a∑X + b∑X2
Las constantes a y b se obtienen:
(∑Y)(∑X2)-(∑X)(∑XY) N∑XY-(∑X)(∑Y)
a = --------------------------------- b = ---------------------------
N∑X2 – (∑X)2 N∑X 2-(∑X)2
Ejemplo: Ajustar una recta de mínimos cuadrados a los datos de la
tabla adjunta, tomando (a) X como variable independiente y (b) Y como
variable dependiente
X 3 5 6 8 9 11
Y 2 3 4 6 5 8
Solución:
X Y X2 XY Y2 Las ecuaciones de la recta y las
3 2 9 6 4 ecuaciones normales son:
5 3 25 15 9
Y = a + bX
6 4 36 24 16
8 6 64 48 36 ∑Y = a N+b∑X
9 5 81 45 25
∑XY = a∑X + b∑X2
11 8 121 88 64
∑= 42 28 336 226 154
6a + 42b = 28 ….……(1)
42a + 336b = 226 …..(2)
Resolviendo el sistema de ecuaciones se tiene:
-252a – 1764b = -1176
252a + 2016b = 1356
-----------------------------------
0 + 256b = 180
b = 180/252 = 0,71 Para la ecuación de la recta usar X = b0 + b1Y
con las siguientes ecuaciones normales
a = -1/3 = -0,3
∑X = b0N + b1∑Y
Y = -0,3 + 0,71X
∑XY = b0∑Y + b1∑Y2
Se debe llegar a la Ec. X = 1,00 + 1,29Y
COEFICIENTE DE CORRELACIÓN “R”
DE PEARSON
Es el coeficiente ideado por Karl Pearson, estadístico inglés, y es el
índice de correlación más usado. La escala que utiliza es de intervalo o
de razón y se define como la media de los productos de las puntuaciones
–z de ambas variables (X;Y)
Simbólicamente:
r = Coeficiente de correlación de Pearson
∑ZxZy Zx = Puntuación Z de la variación X
r = ----------------- Zy = Puntuación Z de la variación Y
N ∑ZxZy = Sumatoria de los productos de las
puntuaciones
N = Número de las puntuaciones
Fórmula directa para el cálculo del coeficiente r de Pearson a partir de
las calificaciones brutas
N∑XY – (∑X)(∑Y)
r = --------------------------------------------------
√[N∑X2 – (∑X)2] [N∑Y2 – (∑Y)2]
Donde:
∑X : Sumatoria de las calificaciones brutas de la variable X
∑Y : Sumatoria de las calificaciones brutas de la variable Y
∑XY: Sumatoria del producto de las calificaciones: X e Y
∑X2 : Sumatoria de los cuadrados de las calificaciones X
∑Y2 : Sumatoria de los cuadrados de las calificaciones Y
(∑X)2 : Cuadrado de la sumatoria de las calificaciones X
(∑Y )2 : Cuadrado de la sumatoria de las calificaciones Y
N : Número de calificaciones pareadas
r : Coeficiente de correlación de Pearson
REGRESION NO LINEAL
En muchos casos cuando los valores en parejas de las variables X e
Y, no se ajustan a una linea recta, se puede conseguir una relación
lineal mediante una transformación de estos valores.
ECUACION TRANSFORMACION LINEAL
a) Y = ABX (exponencial) log Y = log A + B log X
b) Y = AXB (potencia) log Y = log A + B log X
c) Y = 1/(A + BX) (hiperbólico) Y = A + BX
siendo: Y = 1/Y
ERROR ESTÁNDAR DE ESTIMACIÓN (Sxy)
Si el coeficiente de correlación lineal es 1,00, o sea la relación entre las
dos variables es perfecta, entonces, los valores de Y observados,
corresponderán exactamente igual a la prevista. Pero en investigaciones
sociales, este tipo de correlaciones perfectas no se dan.
Las que si se dan usualmente, son cuando la correlación es nula (r=0)
existirá un error muy grande en toda la predicción, en cambio si el
coeficiente de correlación es alto (r=0,90) por ejemplo, el error de
predicción de las Y observadas con las puntuaciones y previstas será
mínimo. Para hallar o medir este error, se utiliza el Error Estándar de
Estimación.
X Y X2 XY Y2
Ejemplo: Según el caso anterior: 3 2 9 6 4
[∑XY – (∑X) (∑Y)/N ] 5 3 25 15 9
[∑Y2 - (∑Y)2/N] - ------------------------------- 6 4 36 24 16
∑ X2 – (∑X)2/N 8 6 64 48 36
Sxy = √ ---------------------------------------------------------- 9 5 81 45 25
N-2
11 8 121 88 64
∑= 42 28 336 226 154
[226 – (42) (28)/6 ]
[154 - (28)2/6] - -------------------------------
336 – (42)2/6
Sxy = √ ----------------------------------------------------------
6-2
[23,3 – 21,43]
Sxy = √ -------------------- = 0,689
4