Regresión y Correlación
Regresión y Correlación
Si X e Y son una variable aleatoria bidimensional uniformemente distribuida sobre la región triangular R acotada
4x
por y 0,x 3y f(x) XY.
3
Solución:
Dado que X e Y están distribuidos uniformemente.
Por lo tanto, f(x,y) k (una constante)
Si el cambio en una variable afecta un cambio en la otra variable, se dice que las variables son
correlacionado.
La correlación entre variables da el grado de relación entre ellas.
Problemas:
1. Calcule el coeficiente de correlación para las siguientes alturas (en pulgadas) de los padres X
y sus hijos Y.
X 65 66 67 67 68 69 70 72
Y 67 68 65 68 72 72 69 71
Solución:
X Y XY X2 Y2
65 67 4355 4225 4489
66 68 4488 4356 4624
67 65 4355 4489 4225
67 68 4556 4489 4624
68 72 4896 4624 5184
69 72 4968 4761 5184
70 69 4830 4900 4761
72 71 5112 5184 5041
544 quinhentos
37560
e cinquenta
37028e dois 38132
544 552
Ahora,X 68Y
, 69, XY (68)(69) 4692
8 8
1 37028
X X 2X 2
= 4624= 2.121
n 8
1 38132
Y Y2Y 2 = 2.345
n 8
1 1
XY XY 37560 4692
r(X,Y) n = 8 = 0.6030
X. Y 2.121 2.345
X 10 14 18 22 26 30
Y 18 12 24 6 30 36
Solución:
Dado que las tres variables aleatorias tienen media cero.
Por lo tanto, E(X) = E(Y) = E(Z) = 0.
2
Ahora, Var(X) = E(X) [E(X)] 2
E(UV) E(U).E(V)
Ahora, (U,V)
U. V
= 25 + 144 + 0
169
2 225
De manera E(V)
similar,
U 169 13
similar, E(V)2 [E(V)]
De maneraVar(V) 2
225
V 225 15
Solución
1
1 1
2 x3 4a
E(X) xf(x)dx = x4axdx4a
= x dx = 4a =
0 0 3 3
0
1 1 3 1
y 4b
E(Y) yf(y)dy = y dy 2
= y4bydy4b = 4b =
0 0 3 3
0
Dado que X e Y son independientes, la pdf conjunta de X e Y se da por f(x,y) f(x).f(y)
= (4ax)(4by)
= 16abxy, 0 x 1, 0 y 1
11
Ahora, E(XY) xyf(x,y)dxdy = xy(16abxy)dxdy
00
11 1 x3 2
= 16ab x y 2dxdy
2
= 16ab y dy
00 0 3
16ab 1 2 16ab
= y dy =
3 0 9
16ab 4a4b
Por lo tanto, Cov(X,Y) = E(XY)–E(X)E(Y) = - =0
9 3 3
(X,Y) 0
Deja(x y),i
yo yo1,2,...,n son los rangos de 'i' individuos en dos característicasAy
B respectivamente. El coeficiente de correlación de Pearson entre los rangos
yo x e yyo se llama
el coeficiente de correlación por rangos entre las características A y B para ese grupo de
individuos y se da por
2
6d yo
r(X,Y) 1 (x y) yo
dónde yo yo
n(n 21)
Rango 1 2 3 4 5 6 7
en X
Rango 4 3 1 2 6 5 7
en Y
Solución:
Clasificación en X 1 2 3 4 5 6 7
(x)yo
Clasificación en Y 4 3 1 2 6 5 7
( yyo
)
d yo (x y)
yo yo -3 -1 2 2 -1 1 0 0
2
d yo 9 1 4 4 1 1 0 20
Si dos o más individuos son iguales en cualquier clasificación con respecto a la característica a y B o
si hay más de un elemento con el mismo valor en la serie, entonces la fórmula de Spearman para
el cálculo del coeficiente de correlación de rangos falla. En este caso se asignan rangos comunes
a los rangos repetidos. Este rango común es el promedio de los rangos que estos elementos tendrían.
han asumido que si son ligeramente diferentes entre sí, el siguiente artículo recibirá la clasificación
junto a los rangos ya asumidos.
Como resultado de esta corrección se hace en la fórmula de corrección.
m(m21
En la fórmula de corrección, añadimos el factor a d 2 donde m es el número de
12
los artículos se repite un artículo.
X 68 64 75 50 64 80 75 40 55 64
Y 62 58 68 45 81 60 68 48 50 70
Solución:
X 68 64 75 50 64 80 75 40 55 64
Y 62 58 68 45 81 60 68 48 50 70
Rango X(x)yo 4 6 2.5 9 6 1 2.5 10 8 6
Rango Y(y)yo 5 7 3.5 10 1 6 3.5 9 8 2
d yo (x y)
yo yo -1 -1 -1 1 0 4
2
d yo 1 1 1 1 25 25 1 1 0 16
Factores de corrección:
2(2 12) 1
En la serie X, 75 se repite dos veces, C.F.
12 2
3(32 1)
En la serie X, 64 se repite tres veces, C.F. 2
12
2
2(2 1) 1
En la serie Y, 68 se repite dos veces, C.F.
12 2
1 1
6(d 2 2 )
Por lo tanto, la correlación de rango r 1 2 2
10(10 12)
6[72 0.5 2 0.5 450
1 = 1 0.5454
10[99] 990
Correlación parcial:
Solución:
Correlación múltiple:
En la correlación múltiple, estamos tratando de hacer estimaciones del valor de una de las variables.
basado en los valores de todos los demás. La variable cuyo valor estamos tratando de estimar es
llamada la variable dependiente y las otras variables en las que se basan nuestras estimaciones son
conocidas como variables independientes.
El coeficiente de correlación múltiple con tres variables X1 ,X2yX3están
R1.23 R2.13yR3.21como. unR1.23¿Está el coeficiente de correlación múltiple relacionado conX1
variable dependiente y X2 ,X3como dos variables independientes y se puede expresar en términos de
de r12r23y r13 como
2 r 2 2r r r
r12 2 r 2 2r r r
r12
13 12 23 13 23 12 23 13
R1.23 , R2.13 ,
1 r223 1 2
r 13
2 r 2 2r r r
r13 23 12 23 13
R3.12 2
1 r 12
1. r12 0.98
Se dan los siguientes coeficientes de correlación de orden cero:
r13 0.44andr 23= 0.54. Calcular el coeficiente de correlación múltiple tratando la primera variable como
dependiente y segundas y terceras variables como independientes.
Solución:
2 r 2 2r r r
r12 13 12 23 13
R1.23
1 r223
Regresión:
Líneas de regresión:
2. La línea de regresión de enY X está dado por y y r. Y (x x)
X
A partir de los siguientes datos, encuentra (i) dos ecuaciones de regresión (ii) el coeficiente de
correlación entre las calificaciones en Economía y Estadística (iii) las calificaciones más probables en
Estadísticas cuando las calificaciones en Economía son 30.
Calificaciones en Economía 25 28 35 32 31 36 29 38 34 32
Calificaciones en Estadística 43 46 49 41 36 32 31 30 33 39
Solución:
X Y X X Y Y (X X ) 2 (Y Y) 2 ( X X)
= X 32 = Y 38 (Y Y)
25 43 -7 5 49 25 -35
28 46 -4 8 16 64 -32
35 49 3 11 9 121 33
32 41 0 3 0 9 0
31 36 -1 -2 1 4 2
36 32 4 -6 16 36 -24
29 31 -3 -7 9 49 21
38 30 6 -8 36 64 -48
34 33 2 -5 4 veinticinco -10
32 39 0 1 0 1 0
320 380 0 0 140 398 -93
X320 Y380
Aquí, X 32, Y 38
n 10 n 10
2. Las dos líneas de regresión son 8x 10y 66 0 , 40x 18 años 214 0. La varianza
de X es 9. Encuentra los valores medios de X e Y.
Solución:
Dado que ambas líneas de regresión pasan por los valores medios x y y el punto (x,y)
debe satisfacer las dos líneas de regresión dadas.
8x 10 años 6 6…………..(1)
40x 18 años 214…………..(2)
1 47526
X X 2X 2
= 4225= 22.97
n 10
1 45784
Y Y2Y 2
= 14.91
n 10
1 1
XY XY 45456 4290
r(X,Y) n = 10 = 0.746
X. Y 22.97 14.91
1 5276
X (X X) 2 22.97
n 10
1 2224
Y (Y Y) 2 14.91
n 10
Cov(x,Y) 255.6
r(X,Y) 0.746
X. Y (22.97)(14.91)
6. Si X e Y son variables aleatorias independientes con medias 5 y 10 y desviación estándar
desviaciones 2 y 3 respectivamente. Obtenga r(U,V) donde U 3X 4YandV 3X Y .
Ahora, Var(X) 4 2
E[X] [ E(X)] E[X]2 (5) 2 2
Ahora, Var(Y) 9 2
E[Y] [E(Y)] 2 (10) 2
E[Y] 2
2 x y; 0 x 1;0 y 1
f(x,y)
0 ; de lo contrario
1
r(X,Y)
Demuestra que .
11
E(XY) E(X).E(Y)
Solución: Sabemos que, r(X,Y)
X. Y
11
Ahora, E(XY) xyf(x,y)dxdy = xy(2 x y)dxdy
00
1
1 x3 y x y2 2
= x2 y dy
0 3 2
0
1 y y2
= y dy
0 3 2
1
=
6
1
11 11 1 x3 x2 y
E(X) xf(x,y)dxdy = x(2 x y)dxdy = x2 dy
00 00 0 3 2
0
1 1y 5
1 dy
0 3 2 12
11 11 5
E(Y) yf(x,y)dxdy y(2 x y)dxdy
00 00 doce
1
11 11 1 2x3 x4 x3 y
E(X)2 x f 2(x,y)dxdy x(2 x 2
y)dxdy = dy
00 00 0 3 4 3
0
1 2 1y 1
dy
0 3 4 3 4
once 11 1
2
E(Y) y f 2(x,y)dxdy 2
y(2 x y)dxdy
00 00 4
2
1 5 11
Var(X) E(X)2[E(X)] 2
4 12 144
1 5 5
.
E(XY) E(X).E(Y) 1
Por lo tanto, r(X,Y) = 6 12 12
X. Y 11 11 11
.
12 12
Coeficiente de Correlación por Rangos:
En la vida real, hay situaciones en las que obtenemos datos en forma de rangos o de otra manera.
Los datos originales se clasifican con diferentes calificaciones. Por ejemplo, si se le pide a dos inspectores que califiquen
las unidades producidas por una máquina, entonces podemos tener dos conjuntos diferentes de calificaciones (rangos). Si dos
se dan conjuntos de observaciones de una característica de calidad a un inspector para que las clasifique, podemos
obtén un par de rangos para cada par de observaciones basado en su desempeño. Bajo estas
circunstancias, es posible que tengamos que obtener la correlación entre los dos conjuntos de rangos en lugar de
utilizando las observaciones tal como están.
Si 1, 2, ..., n son los rangos dados en base a los resultados de la variable aleatoria X o el
rangos dados a la n valores(x,x,...,x)de
1 2 X y también 1, 2,..., n son los rangos dados en función de
los resultados de la variable aleatoria Y o los rangos dados a los n valores(y,y,...,y)de
1 2 n Y
entonces el coeficiente de correlación entre X e Y, conocido como la correlación de rango de Spearman
el coeficiente, se da por
2n
6d yo
r(X,Y) 1 yo 1
n(n 21)
Es decir, d yo(x y)
yo yo .
Nota: Si uno o más de los rangos se repiten dentro de una variable, entonces la siguiente fórmula es
sugerido:
n
2 1 2 1 2
6d yo m(m
x 1)x m(m
y 1y
yo 1 12 x 12 y
r(X,Y) 1
n(n 21)
A 3 5 8 4 7 10 2 1 6 9
B 6 4 9 8 1 2 3 10 5 7
Solución:
A (x)yo B ( yyo
) d yo (x y)
yo yo 2
dyo
3 6 -3 9
5 4 1 1
8 9 -1 1
4 8 -4 16
7 1 6 36
10 2 8 64
2 3 -1 1
1 10 -9 81
6 5 1 1
9 7 2 4
0 2 214
dyo
n2
6d yo
yo 1 6(214)
El coeficiente de correlación por rangos es r(X,Y) 1 1
n(n 21) 10(10 1)2
0 .297
X yselección
2. Las calificaciones obtenidas por los reclutas en la prueba de en el examen Y
de competencia
se dan a continuación:
Número de serie 1 2 3 4 5 6 7 8 9
X 10 15 12 17 13 16 24 14 22
Y 30 42 45 46 33 34 40 35 39
Solución:
diez 30 9 9 0 0
15 42 5 3 2 4
12 45 8 2 6 36
17 46 3 1 2 4
13 33 7 8 -1 1
16 34 4 7 -3 9
24 40 1 4 -3 9
14 35 6 6 0 0
22 39 2 5 -3 9
2 72
d yo
2n
6d yo
yo 1 6(72)
El coeficiente de correlación por rango es r(X,Y) 1 1 0.4
n(n 21) 9(9 12)
10 competidores en un concurso de belleza son clasificados por tres jueces de la siguiente manera:
Competidores
1 2 3 4 5 6 7 8 9 10
X 6 5 3 10 2 4 9 7 8 1
Jueces Y 5 8 4 7 10 2 1 6 9 3
Z 4 9 8 1 2 3 10 5 7 6
Discuta qué par de jueces tiene el enfoque más cercano a las pruebas comunes de belleza.
Solución:
X Y Z d1 x y d12 d2 x z d22 d2 x z d32
6 5 4 1 1 2 4 1 1
5 8 9 -3 9 -4 16 -1 1
3 4 8 -1 1 -5 25 -4 16
10 7 1 3 9 9 81 6 36
2 10 2 -8 64 0 0 8 64
4 2 3 2 4 1 1 -1 1
9 1 10 8 64 -1 1 -9 81
7 6 5 1 1 2 4 1 1
8 9 7 -1 1 1 1 2 4
1 3 6 -2 4 -5 25 -3 9
158 158 214
6d 12 6(158)
r(X,Y) 1 1 0.042
n(n 21) 9(9 12)
6d 22 6(158)
r(X,Z) 1 1 0.042
n(n 21) 9(9 12
6d 32 6(214)
r(Y,Z) 1 1 0 .296
n(n 21) 9(9 12)
Por lo tanto, (X,Y) y (X,Z) tienen la aproximación más cercana a los gustos comunes de belleza.
el producto.
Solución:
X Y Rangos en X (x)Rangos
yo en Y ( yyo
) dyo (x yo
y yo 2
dyo
15 40 2 6 -4 16
20 30 3.5 4 -0.5 0.25
28 50 5 7 -2 4
12 30 1 4 -3 9
40 20 6 2 4 16
60 10 7 1 6 36
20 30 3.5 4 -0.5 0.25
80 60 8 8 0 0
2 81.5
dyo
m(m21) 2(2 1) 12
InXseries 20 repetido dos veces, factor de corrección
12 12 2
m(m21) 3(3 1) 2
EnYseries 30 repetido tres veces, factor de corrección 2
12 12
1
6 81.5 2
2
Por lo tanto,r(X,Y) 1 0
8(8 12)
Ejercicio
X 10 14 18 22 26 30
Y 18 12 24 6 30 36
Solución: r = 0.6
X 21 25 26 24 22 30 19 24 28 32 31 29 21 18
Y 19 20 24 21 21 24 18 22 19 30 27 26 19 18
Conocer la relación entre la edad de los esposos (X) y las esposas (Y) ,
1
Solución:r(X,Y)
2
4. Sean las variables aleatorias X e Y con la función de densidad de probabilidad conjunta
x y; 0 x 1;0 y 1
f(x,y)
0 ; de lo contrario
Calcule el coeficiente de correlación entre X e Y.
1
Solución: r(X,Y)
11
5. En una encuesta de marketing, el precio del té y el café en una ciudad basado en la calidad fue
encontrado como se muestra a continuación. ¿Podrías encontrar alguna relación entre el precio del té y el café?
Precio del té 88 90 95 70 60 75 50
Precio del café 120 134 150 115 110 140 100
Solución: r = 0.8929. La relación entre el precio del té y el café es positiva.
6. Encuentra la correlación de rangos para observaciones atadas. A continuación se muestran las calificaciones obtenidas por
10 estudiantes en una clase en dos pruebas.
Estudiantes A B C D E F G H Yo J
Prueba 1 70 68 67 55 60 60 75 63 60 72
Prueba 2 65 65 80 60 68 58 75 63 60 70
Solución: r = 0.68.
Regresión
La regresión es una medida matemática de la relación promedio entre dos o más variables.
en términos de las unidades originales de datos.
Ecuaciones de regresión
Una línea de regresión puede ser representada por una expresión algebraica que da la relación
entre las dos variables. Hay dos ecuaciones de regresión:
1. La ecuación que da los mejores valores medios de X correspondiente a los valores dados de
y
X es decir, la ecuación de regresión deY X esY Y r. (X X)
x
donde X e Y son las medias de X y Y; xy son ylas desviaciones estándar de
X y r
Y ; es el coeficiente de correlación.
Coeficientes de regresión
y
5. Coeficiente de regresión de
Y en X : r. byx
x
(X X)(Y Y)
dónde yx
(X X) 2
Y : r. x
6. Coeficiente de regresión deX encima bxy
y
(X X)(Y Y)
dondeb xy
(Y Y) 2
y
Si las ecuaciones de las líneas de regresión
Y de X y X en Y areY Y r. (X X)
x
yX X r. x(Y Y) .
y
1 r 2 y x
Entonces el ángulo entre las dos líneas de regresión se da por tan
r 2 2
x y
1. Una tienda departamental ofrece capacitación en el trabajo a los vendedores seguida de una prueba. Es
experimentado que el rendimiento en ventas de cualquier vendedor está relacionado linealmente con
las puntuaciones obtenidas por él. Los siguientes datos dan las puntuaciones de las pruebas y las ventas realizadas por nueve
X
Puntuaciones de Pruebas 16 22 28 24 29 25 16 23 24
Ventas (’00 Rs)Y 35 42 57 40 54 51 34 47 45
Las ventasY cualquier vendedor se considera que depende de su capacidad, que se juzga por su
calificaciones de X
pruebas
.
16 35 -7 -10 49 100 70
22 42 -1 -3 1 9 3
28 57 5 12 25 144 60
24 40 1 -5 1 25 -5
29 54 6 9 36 81 54
25 51 2 6 4 36 12
16 34 -7 -11 49 121 77
23 47 0 2 0 4 0
24 45 1 0 1 0 0
207 405 0 0 166 520 271
y
Por lo tanto, la ecuación de regresión deYen X isY Y r. (X X)
x
X 1 2 3 4 5 6 7 8 9
Y 9 8 10 12 11 13 14 16 15
(i) Obtenga las ecuaciones de regresión y el coeficiente de correlación.
(ii) Determine una estimación deYlo que debería corresponder en promedio a X 6.2 .
1 9 -4 -3 16 9 12
2 8 -3 -4 9 16 12
3 10 -2 -2 4 4 4
4 12 -1 0 1 0 0
5 11 0 -1 0 1 0
6 13 1 1 1 1 1
7 14 2 2 4 4 4
8 16 3 4 9 16 12
9 15 4 3 16 9 12
45 108 0 0 60 60 57
x (X X)(Y Y) 57
(i) Coeficiente de regresión de X estáY r. bxy 0.95
y (Y Y) 2 60
y (X X)(Y Y) 57
Coeficiente de regresión de Y X isr. byx 0.95
x (X X) 2 60
y
Por lo tanto, la ecuación de regresión de Y en X isY Y r. (X X)
x
0.95 0.95
0.95
Solución: Dado que ambas líneas de regresión pasan por (X,Y), obtenemos
X Y 6 0 --------------------- (1)
0.64X 4.08 0-------------------- (2)
4.08
De (2), X 6.375
0.64
De (1), X Y 6
6.375 Y 6
Y 0.375
X2
donde Y representa la tasa de crecimiento económico de un país,X1 representa el período de tiempo,
representa el tamaño de las poblaciones del país, X3 representa el nivel de empleo
X4
en porcentaje, representa el porcentaje de alfabetización, b0 es la intersección yb,b,b,yb
1 2 3 4
son las pendientes de las variables X,1X, X
2 y 3X respectivamente.
4 En este modelo de regresión,
X,X,XyXson
1 2 3 las 4variables independientes y Y es la variable dependiente.
Y nb0b 1Xb 1 X 2 2
YX1 b 0 X 1b X 2
1 b 1 X 2 X 1 2
YX2 b 0 X b2 X1 X1 b 2 X2 2
2
Ejemplo 1: Los ingresos anuales por ventas (en crores de rupias) de un producto como una función de las ventas
fuerza (número de vendedores) y gasto publicitario anual (en lakhs de rupias) de los últimos
10 años se resumen en la siguiente tabla.
Publicidad anual 28 23 38 16 20 28 23 30 26 32
gastos X2
Solución: Sea el modelo de regresión Y b0 b X1 b 1X 2 2
X2 es la publicidad anual
dónde Y es los ingresos anuales por ventas;X1 es la fuerza de ventas;
gastos.
Y X1 X2 X12 X22 X1 X2 YX1 YX2
ecuaciones simultáneas
Ejercicio:
1. La tabla siguiente proporciona los datos sobre la lluvia y el caudal en un cierto río. Obtén la línea
de la regresión deYen X .
Precipitación (pulgadas)
X 1.53 1.78 2.60 2.95 3.42
Descarga (1000 c.c) Y 33.5 36.3 40.0 45.8 53.5
Calificaciones en Economía 25 28 35 32 31 36 29 38 34 32
Notas en Estadística 43 46 49 41 36 32 31 30 33 39
3. En un registro parcialmente destruido de un análisis de datos de correlación, los siguientes resultados son
legible. Las dos líneas de regresión son 8X 10A 66 0y40X18A 214 0. Encuentra el
valores medios deX y Y .
Solución:X 13 , Y 17 .
1 3 2
4. Si r12 ; r23 ; r31 R1.23 .
entonces encuentra el valor de
2 4 3
Solución: 0.5
6. Los siguientes son datos sobre el número de giros necesarios para romper un cierto tipo de forjado.
barra de aleación y el porcentaje de dos elementos aleantes presentes en el metal.
No. de 41 49 69 65 40 50 58 57 31 36 44 57 19 31 33 43
torcer(Y)
1
Porcentaje de 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
elemento A
( X1)
5
Porcentaje de 5 5 5 10 10 10 10 15 15 15 15 20 20 20 20
elemento B
( X2)
Significado
La regresión significa volver o retroceder al valor promedio. En estadística, el término
La regresión significa simplemente la relación promedio. Podemos predecir o estimar el valor de la variable dependiente.
a partir de los valores relacionados del variable independiente con la ayuda de una técnica de regresión.
La medida de la regresión estudia la naturaleza de la correlación para estimar los valores más probables. Ella
Establece una relación funcional entre las variables independientes y dependientes.
Definición
Según Blair, "La regresión es la medida de la relación promedio entre dos o más variables"
en términos de las unidades originales de los datos
Según TaroYamame, "una de las técnicas más utilizadas en economía y negocios"
La investigación para encontrar una relación entre dos o más variables que están relacionadas causalmente es el análisis de regresión.
Según Wallis y Robert, "a menudo es más importante descubrir cuál es la relación en realidad, en
El orden para estimar o predecir una variable y la técnica estadística apropiada en tal caso se llama regresión.
análisis.
CORRELACIÓN Y REGRESIÓN
Estas dos técnicas están dirigidas hacia un propósito común de establecer el grado y la dirección
de la relación entre dos o más variables, pero los métodos para hacerlo son diferentes. La elección de uno o el
otro dependerá del propósito. A pesar de ciertas similitudes entre estos dos, hay algunas basicas.
diferencias en los dos enfoques, que se han resumido a continuación:
138
CORRELACIÓN REGRESIÓN
1. Correlación, literalmente significa relacionado o 1. La regresión significa literalmente volver a lo normal,
movimientos simpáticos entre variables lo cual es cierto en virtud del promedio de
2. Hay una especie de interdependencia, que es relación.
mutuo. 2. Establece una relación funcional, que es
3. No hay una relación de causa y efecto. Eso demostración matemática de la dependencia de uno
solo muestra la existencia de alguna asociación en variable del otro.
el movimiento de variables. 3. Puede tener una relación de causa y efecto.
4. Puede ser una correlación espuria si el 4. Es una relación matemática, que debería
el movimiento simpático se debe a la ser interpretado adecuadamente.
influencia de una variable externa que no tiene 5. Es una medida absoluta de relación.
relevancia. 6. Además de la verificación, también se puede utilizar para
5. Es una medida relativa que muestra asociación estimación y predicción. Ofrece más
entre variables. información completa.
6. Se utiliza solo para pruebas y verificación de [Link] Es muy útil para matemáticas posteriores.
relación. Solo ofrece un limitado tratamiento.
información.
7. No es muy útil para matemáticas adicionales.
tratamiento.
MÉTODOS DE ANÁLISIS DE REGRESIÓN
Hay dos métodos:
1. Métodos gráficos (No incluidos en el programa)
2. Método algebraico.
Los métodos algebraicos para la regresión lineal simple se pueden dividir en las siguientes categorías,
A. Líneas de regresión.
B. Ecuaciones de regresión.
C. Coeficiente de regresión.
A. LÍNEAS DE REGRESIÓN:
En la jerga gráfica, una línea de regresión es una línea recta ajustada a los datos mediante el método de los mínimos cuadrados.
Indica el mejor valor medio probable de una variable correspondiente al valor medio de la otra. Dado que un
La línea de regresión es la línea de mejor ajuste, no se puede usar de manera inversa, por lo tanto, siempre hay dos regresiones.
líneas construidas para la relación entre dos variables x e y. Así, una línea de regresión muestra regresión
de x sobre y y el otro muestra la regresión de y sobre x.
Cuando dos variables tienen relación, entonces podemos trazar una línea de regresión. La línea de regresión de x sobre y
da los valores más probables de x para cualquier valor dado de y. De la misma manera, la línea de regresión de y sobre x
da los valores más probables de y para cualquier valor dado de x. Así, habrá dos líneas de regresión en el caso
de dos variables.
ECUACIONES DE REGRESIÓN
La ecuación de regresión es un método algebraico. Es una expresión algebraica de la línea de regresión. Puede ser
clasificado en la ecuación de regresión, coeficientes de regresión.
Dado que hay dos líneas de regresión, hay dos ecuaciones de regresión. Para las dos variables x e y, hay
son dos ecuaciones de regresión. Son la ecuación de regresión de x en y y la ecuación de regresión de y en x.
Ecuación de regresión de x sobre y
(X-X)=r (Y-Y)
Y
Ecuación de regresión de Y sobre X
Y
(Y-Y)=r (X-X)
139
Aplicación de ecuaciones de regresión cuando se proporcionan todos los valores necesarios
ILUSTRACIÓN = 01
A partir de los siguientes resultados, obtenga la ecuación de regresión doble y estime el rendimiento de los cultivos cuando el
la lluvia es de 29 cm y la lluvia cuando el rendimiento es de 600 kg.
Y X
Rendimiento Precipitación
En Kg En cm
26.7
Medio 508.4
4.6
S.D 36.8
El coeficiente de correlación entre el rendimiento y la lluvia = 0.52
Solución:
Para estimar el rendimiento de los cultivos, debemos utilizar la ecuación de regresión Y sobre X.
Y
(Y-Y)= r (X-X)
36.8
Y-508.4=0.52 (X-26.7)
4.6
De manera similar, para estimar la lluvia, tenemos que usar la ecuación de regresión x en y.
Y
(X-X)=r (Y-Y)
4.6
X-26.7=0.52 (Y-508.4)
36.8
X-26.7=0.065 (Y-508.4)
X-26.7=0.065Y-33.046
X=0.065Y-33.046+26.7
X=0.065Y-6.346 R, Línea
Cuando Y=600 Kgs
X=0.065X600-6.346
=39-6.346
X=32.654
140
ILUSTRACIÓN =02
Encuentra la ecuación de regresión, mostrando la regresión de la utilización de capacidad sobre la producción de
siguientes datos.
Producción en lakh Promedio Desviación estándar
Unidades 35.6 10.5
Uso de la Capacidad
84.8 8.5
(en porcentaje)
Coeficiente de correlación}=0.62
Estimule la producción cuando la utilización de la capacidad es del 70%
SOLUCIÓN; Sea la producción y la utilización de la capacidad denotadas por X e Y respectivamente. Entonces se nos da;
(X-X)=r (Y-Y)
Y
10.5
(X-35.6)=0.62 (Y-84.8)
8.5
X=35.6=0.7658(Y-84.8)
X - 35.6 = 0.7658Y - 64.94
X=0.7658y—64.94+35.6
X=0.7658y-29.34 [Link]
Cuando Y=70%
=0.7658X70-29.34
=53.606-29.34
X=24.266 lakh unidades
03
El coeficiente de correlación de Karl Pearson entre las edades de los hermanos y las hermanas en una comunidad fue
se encontró que es 0.8.
El promedio de las edades de los hermanos era de 25 años y el de las hermanas de 22 años. Sus desviaciones estándar eran de 4.
y 5 respectivamente.
Encuentra a. La edad esperada del hermano cuando la edad de la hermana es de 12 años.
b. La edad esperada de la hermana cuando la edad del hermano es de 33 años.
Solución:
Hermano Hermana
X Y
Edad media 25 años 22 años
Estándar
Desviación 4 5
(X-X)= r (Y-Y)
Y
141
4
X-25=0.8 (Y-22)
5
X-25=0.64(Y-22)
X-25=0.64Y-14.08
X=0.64Y-14.08+25
X=0.64Y+10.92 [Link]
Cuando Y=12
=0.64X12+10.92
X=18.6 años, edad del hermano
Para estimar la edad de la hermana, tenemos que usar la ecuación de regresión Y sobre X Y=? Cuando X=33 años
Y
(Y-Y)=r (X-X)
5
(Y-22)=0.8 (X-25)
4 Y=X-3 [Link]
Y-22=1.0 (X-25) Cuando X=33
Y-22=1X-25 Y=33-3
Y=30 años, edad de la hermana
Y=X-22+22
04
Dada la siguiente información, estime
El valor de Y cuando X=70
2. El valor de X cuando Y=90
Serie X Serie Y
Promedio 18 100
Desviación estándar 14 20
Coeficiente de correlación 0.8
SOLUCIÓN
II. X=? Cuando Y=90
Yo. ¿Y=? Cuando X = 70 usa Y en la ecuación R. Utiliza X en Y R. Ecuación
Y
(Y-Y)= r (X-X) (X-X)= r (Y-Y)
X Y
20
Y-100=0.8 (X-18) 14
14 X-18=0.8 (Y-100)
Y-100=1.143 (X-18) 20
Y-100=1.143X-20.574 X-18=0.56 (Y-100)
Y=1.143X-20.574+100 X-18=0.56Y-56
Y=1.143X+79.426 R.Línea X=0.56Y-56+18
Cuando X=70 X=0.56Y-38 R.Línea
Y=1.143 X 79 + 79.426 Cuando Y=90
Y=80.01+79.426 X=0.56 X 90-38
Y=159.436 =50.4-38
12.4
142
05
Para estudiar la relación entre el gasto en alojamiento (X) y el gasto en comida (Y), un
la investigación en 50 familias dio el siguiente resultado;
SOLUCIÓN
Para estimar el gasto en alimentos, debemos utilizar la ecuación de regresión Y en X.
∑X 8500 ∑y 9600
Y
X = =170, Y= =192
(Y-Y)=r (X-X)
n 50 50
20
(Y-192)=0.6 (X-170) cuando X=200
60 Y=0.1999 X 200 + 158
Y-192=0.1999(X-170) =39.98+158
Y-192=0.1999X-33.9999 Y=Rs.197.98
Y=0.1999X+158 R.L Se requieren Rs.197.98 para gastar en comida.
06
Serie X Serie Y
Promedio 20 25
Varianza 4 9
Coeficiente de correlación = 0.75
SOLUCIÓN
Obtención de dos líneas de regresión
X en Y R. Ecuación Y en X R. Ecuación
Varianza Varianza
= =
=2 =3
bxy = Coeficiente de regresión de x sobre y bxy=Coeficiente de regresión de Y sobre X
b = Coeficiente de regresión b=Coeficiente de regresión
X Y
bxy= r bxy= r
Y X
(X-X)=bxy (Y-Y) (Y-Y)=bxy (X-X)
2 3
X-20=0.75 (Y-25) Y-25=0.75 (X-20)
3 2
X-20=0.5 (Y-25) Y-25=1.125 (X-20)
X-20=0.5-12.5 Y-25=1.125-22.5
X=0.5-12.5+20 Y=1.125X-22.5+25
X=0.5+7.5 [Link] Y=1.125+2.5 R.Línea
143
07
Se te da los siguientes datos.
X-Sries Serie Y
Media 47 96
Varianza 64 81
SOLUCIÓN
X en Y [Link]ón Y en X [Link]ón
Varianza = 64 = 8 Varianza = 81 = 9
Y
bxy= r bxy= r
Y
X-X =bxy (Y-Y) (Y-Y) =bxy (X-X)
8 9
X-47=0.36 (Y-96) Y-96=0.36 (X-47)
9 8
X-45=0.3199 (Y-96) Y-96=0.405 (X-47)
X-47=0.3199Y-30.7199 Y-96=0.405X-19.035
X=0.3199Y-30.7199+47 Y=0.405X-19.035+96
X=0.3199Y+16.28 R.Línea Y=0.405X+76.965 Línea R.
Cuando Y=88 Cuando X=50
X=0.3199 X 88 + 16.28 Y=0.405 X 50 + 76.965
X=28.1512 + 16.28 =20.25 + 76.965
X= 44.4312 Y= 97.215
08
Los siguientes resultados para las alturas y pesos de 100 hombres fueron calculados.
Coeficiente de
Promedio Desviación Estándar
Correlación
Pesos 150 libras 20 libras
0.60
Alturas 68 2.5
Encuentra una estimación
1. El peso de un hombre cuya altura es de 5' (5' = 60")
2. Altura de un hombre que pesa 200 libras
SOLUCIÓN
Peso
144
X en Y R Ecuación X sobre Y R Ecuación
(X-X)=bxy (Y-Y)
(Y-Y)=byx (X-X)
20
20
(X-150)= X 0.6 (Y-68)
(Y-68)= (X-150)
2.5
2.5
X-150=4.8 (Y-68)
Y-68=0.075 (X-150)
X-150= 4.8Y-326.4
Y-68= 0.075X-11.25
X= 4.8Y-326.4+150
Y= 0.075X-11.25+68
X=4.8Y-176.4 RL cuando Y=60 5
Y=0.075X+176.4 RL cuando X=200 lbs
X=4.8 X 600-176.4
Y=0.075 X 200 + 56.75
X=111.6”
Y = 71.75 lbs
O X =9'-3.6”
COEFICIENTES DE REGRESIÓN
El coeficiente de regresión se denota por 'b'. Hay dos ecuaciones de regresión y, por lo tanto,
también hay dos coeficientes de regresión. Los coeficientes de regresión miden los cambios en la serie correspondiente
a un cambio de unidad en la otra serie.
El coeficiente de regresión de X sobre Y
X
es decir, bxy = r
Y
Danos el valor por el cual la variable X cambia por un cambio unitario en el valor de la variable Y.
Y
i.e. byx =r
X
Se refiere al valor por el cual la variable Y cambia por un cambio unitario en la variable X.
X Y
Bxy X caja =ς Xr
Y X
r = bxy X byx
145
CÁLCULO DE COEFICIENTES DE REGRESIÓN Y REALIZACIÓN DE ESTIMACIONES DE UN-
VALORCONOCIDO
SERIES INDIVIDUAL
Cuando se proporcionan datos reales y las desviaciones son
tomado de la media asumida
ILUSTRACIÓN
A partir de los datos dados a continuación, encuentre;
a. Coeficientes de regresión
b. Ecuaciones de regresión
c. Estime la edad cuando B.P. es 130
d. Estime la P.A. cuando la edad es de 50 años
e. Encuentra el coeficiente de correlación a través de los coeficientes de regresión.
Edad 56 42 72 36 63 47 55 49 38 42 68 60
B.P 147 125 160 118 ciento cuarenta
128 y nueve
150 145 115 140 152 155
SOLUCIÓN
Edad X-47 B.P Y-128
D2x D2Y dxdy ∑dx
X dx Y dy
56 9 81 147 19 361 171 X=A+ X C
42 -5 25 125 -3 9 15 N
72 25 625 160 32 1024 800 64
36 -11 121 118 -10 100 110 =47+ X1
63 16 256 149 veintiuno 441 336 12
47 0 0 128 0 0 0 X=52.33
55 8 64 150 22 484 176 ∑dy
49 2 4 145 17 289 34 Y=A + XC
38 -9 81 115 -13 169 117 n
42 -5 25 140 12 144 -60 148
68 21 441 152 24 576 504 =128+ X1
60 13 169 155 veintisiete729 351 12
N= 64 1892 N= 148 4326 2554 =128+12.33
12 ∑dx ∑d2x 12 ∑dy ∑d2y ∑dxdy Y= 140.33
X Y
bxy=ςY ς x
∑dxdy X n – (∑dx X ∑dy) ∑dxdy X n - (∑dx X ∑dy)
byx ∑d2Y X n - (∑dY) 2 byx = ∑d2x X n - (∑dX)2
= 2554 X 12 – 64X148 = 2554 X 12 - 64X148
4326X12 – (148)2 1892 X12 – (64)2
= 30648 - 9472 = 21176
51912 - 21904 22704 - 4096
= 21176 =0.7057 = 21176
30008 0.7057 18608 =1.138
X en Y = R. Ecuación X sobre Y =R. Ecuación
(x-0)=bxy (Y-Y) (Y-Y)=byx (x-0)
(X-52.33)=0.7057 (Y-140.33) Y-140.33=1.138 (X-52.33)
146
X-52.33=0.7057Y-99.031 Y-140.33=1.138X-59.55
X=0.7057Y-99.031+52.33 Y=1.138X-59.55+140.33
X=0.7057Y-46.701 Y=1.138X-80.78
Estimación de la edad (X) cuando Estimación de B.P (Y) cuando
B.P(Y) es 130 La edad(X) es de 50 años
X=0.7057 X 130-46.701 Y=1.138 X 50-80.78
=91.741-46.701 =56.9-80.78
45.04 años Y=137.68
ILUSTRACIÓN=10
A partir de los siguientes datos, obtenga las dos ecuaciones de regresión. También calcule el coeficiente de
correlación basada en el coeficiente de regresión.
Ventas: X 91 97 108 121 67 124 51 73 111 57
Compras: Y 71 75 69 97 70 91 39 61 80 47
SOLUCIÓN
X-67 Y-70
X dx2 Y Dx2 dxdy
dx dy
91 24 576 71 1 1 24 X=A +∑dx X C
97 30 900 75 5 25 150
W
108 41 1681 69 -1 1 -41
121 54 2416 97 27 729 1458 =67+230 X 1
67 0 0 70 0 0 0 10
124 57 3249 91 21 441 1197 =90
51 -16 256 39 -31 961 496
73 6 36 61 -9 81 -54 Y= A + ∑dy X C
111 44 1936 80 10 100 440 N
57 -10 100 47 -23 529 230 =70 + 0 X 1
230 11150 0 2868 3900 10
∑dx ∑d2x ∑dy ∑d2x ∑dxdy Y = 70
Regresión X sobre y en coeficientes Regresión Y sobre X en coeficientes
X Y
Bxy =ς Bxy =ς
Y X
147
Ecuación de regresión Ecuación de regresión
ILLUSTRATION = 11
Los siguientes datos están relacionados con las edades de maridos y esposas. Obtenga las dos regresiones.
ecuaciones y estimar la edad más probable del esposo para la edad de la esposa de 25 años.
Edades de los esposos 25 28 30 32 35 36 38 39 42 55
Edades de las esposas 20 26 29 30 25 18 26 35 35 46
SOLUCIÓN
X = A + ∑dx X C
x-36 Y-29 N
X Dx2
Y D 2y dxdy
dx dy = 36 + 0 X 1
25 -4 121 20 -9 81 99 10
28 -8 64 26 -3 9 24
X = 36
30 -6 36 29 0 0 0
32 -4 16 30 1 1 -4
Y = A + ∑dy X C
35 -1 1 25 -4 16 4 N
36 0 0 18 -11 121 0 =29 + 0 X 1
38 2 4 26 -3 9 -6 10
39 3 9 35 6 36 18 Y = 29
42 6 36 35 6 36 36 X
55 19 361 46 diecisiete289 323 Bxy = r Coeficiente R.
0 648 0 598 494 Y
N=10
∑dx ∑d2x ∑dy ∑d2y ∑dxdy Y
Caja = r Coeficiente R
X
148
Ecuación de regresión Ecuación de regresión
ILUSTRACIÓN = 12
Un panel de dos jueces P y Q calificó la actuación dramática otorgando puntos de manera independiente.
sigue.
Rendimiento 1 2 3 4 5 6 7
Marcas por 'P' cuarenta y42seis 44 40 43 41 45
Marcas por 'Q' 40 38 36 35 39 37 41
La actuación ocho a la que el juez Q no pudo asistir, fue premiada con 37 puntos por el juez P. Si
El juez Q también había estado presente, ¿cuántos puntos se podrían esperar que él hubiera otorgado a los ocho?
actuaciones.
SOLUCIÓN
Deje que las puntuaciones otorgadas por el juez P se representen por X y las otorgadas por el juez Q sean Y. Nosotros
tengo que encontrar el valor de Y cuando X=37. Esto se puede hacer encontrando la ecuación de regresión Y sobre X.
Cálculo de la Ecuación de Regresión Y sobre X
X-43 Y-38 ∑dx
X D2X Y D 2Y dxdy X=A+ X C
Dx dy
46 3 9 40 2 4 6 N
42 -1 1 38 0 0 0
44 1 1 36 -2 4 -2 =43+ 0 X 1
40 -3 9 35 -3 9 9 7
43 0 0 39 1 1 0 X=43
41 -2 4 37 -1 1 2
45 2 4 41 3 9 6 Y=A + ∑dy X C
0 28 0 28 21 N
∑dx ∑d2X ∑dy ∑d2y ∑dxdy
=38 + 0 X 1
Ecuación de regresión de Y sobre X
7
Y=38
Y - Y = bxy (X - X)
Y - 38 = bxy (X-43) X
∑dxdy X n – (∑dx X dy) 21 X 7 - 0 147 Bxy= r
bxy = ∑d2x X n - (∑dx)2 28 X 7 – 0 = 196 = 0.75 Y
Y - 38 = 0.75 (X - 43)
Y-38=0.75X–32.25
Y=0.75x +38 – 32.25
Y=0.75x + 5.75 R.Línea
Cuando X = 37
=0.75 X 37 + 5.75 Y=33.5
149
Si el juez Q hubiera estado presente, habría otorgado 33.5 puntos.
Y
es decir, caja = r
X
∑fdxdy X N - (∑fdx X ∑fdy) c de y
caja X
∑fd2x X N – (∑fdx)2 c de x
ILUSTRACIÓN
La siguiente tabla muestra las edades de los esposos y esposas de 50 parejas recién casadas. Encuentra las dos regresiones.
líneas. También estima. A) La edad del esposo cuando la esposa tiene 20 años y B) La edad de la esposa cuando el esposo tiene 30 años.
Edad de los esposos
Edad de las esposas
20-25 25-30 30-35 Total
16-20 9 14 - 23
20-24 6 11 3 20
24-28 - - 7 7
Total quince 25 10 50
SOLUCIÓN
El intervalo de clase para la edad del esposo x es = 5
El intervalo de clase para la edad de la esposa (Y) es =4
X - 27.5
Dx = 5
Y - 22
dy = 4
150
A=27.5
X 20-25 25-30 30-35 Total
C=5
A=22
22.5 27.5 32.5
C=4
dx
Y MV -1 0 1 f fdy fd2y fdxdy
dy
9
16-20 18 -1 9 14 - 23 -23 23 9
20-24 22 0 6 11 3 20 0 0 0
7
24-28 26 1 - - 7 7 7 7 7
50 -16 30
Total F 15 25 10 16
N ∑fsy ∑fd2y
-5
fdx -15 0 10
∑fdx
25
Fd2x 15 0 10
∑fd2x
fdxdy 9 0 7 16
X en Y R.E Y en X R.E
151
ILUSTRACIÓN –14
Los siguientes son las calificaciones obtenidas por 132 estudiantes en la Prueba X y la Prueba Y. calcular a) La Regresión
Coeficiente
b) Dos Ecuaciones de Regresión
c) Coeficiente de correlación
X
30-40 40-50 50-60 60-70 70-80 Total
Y
20-30 2 5 3 - - 10
30-40 1 8 12 6 - 27
40-50 - 5 22 14 1 42
50-60 - 2 16 9 2 29
60-70 - 1 8 6 1 16
70-80 - 2 4 2 8
Total 3 21 63 39 6 132
SOLUCIÓN
A=55 X 30-40 40-50 50-60 60-70 70-80 Total
c=10
A=45 35 45 55 65 75
C=10
dx
Y MV -2 -1 0 1 2 f fdy Fd2y fdxdy
dy
8 diez
20-30 25 -2 2 5 3 - - 10 -20 40 18
2 8 -6
30-40 35 -1 1 8 12 6 - 27 -27 27 4
0 0 0
40-50 45 0 - 5 22 14 1 42 0 0 0
-2 9 4
50-60 55 1 - 2 16 9 2 29 29 29 11
2 12 4
60-70 65 2 - 1 8 6 1 16 32 64 14
12 1
70-80 75 3 - - 2 4 2 2 8 24 72 24
132 38 232
Total F 3 21 63 39 6 71
n ∑fdy ∑fd2y
24
Fdx -6 -21 0 39 12
∑fdx
96
Fd2x 12 21 0 39 24
∑fd2x
fdxdy 10 14 0 27 20 71
∑fdx ∑fdy
X =A+ XC Y=A+ XC
N N
=55 + 24 X 10 =45 + 38 X 10
132 132
=55 + 240 =45 + 380
132 132
=55 + 1.82 X = 56.82 =45 + 2.878 = 47.878
152
Regresión sobre el coeficiente de X en Y Regresión sobre el coeficiente de Y en X
∑fdxdy X N - (∑fdx X ∑fdy) C de X ∑fdxdy X N – (∑fdx X ∑fdy) C de Y
bxy X byx X
∑fd2y X N – (∑fdy)2 C de Y ∑fd2x X N – (∑fdx)2 C de X
= 71 X 132 – (24 X 38) 10 = 71 X 132 - (24 X 38) 10
232 X 132 - (38)2 10 96 X 132 – (24)2 10
= 9372 - 912 = 8460 = 8460 = 8460
30624 – 1444 29180 =0.289 12672 - 576 12096 =0.699
R. Ecuación R. Ecuación
X-X=bxy (Y-Y) Y-Y=bxy (X-X)
X-56.82 = 0.289 (Y-47.88) Y-47.88 = 0.699 (X-56.82)
X - 56.82 = 0.29Y - 13.8852 Y-47.88=0.7x– 39.774
X=0.29Y - 13.8852 + 56.82 Y=47.88=0.7x-39.774
X=0.29Y + 42.93 R.Línea Y=0.7x + 8.11 R.Línea
ILUSTRACIÓN
De lo anterior,
a) Estime el peso cuando la altura es de 63 pulgadas
b) Estimar la altura cuando el peso es de 115 libras
c) Calcular el coeficiente de correlación
∑fdx ∑fdy
X =A XC Y=A XC
N N
- 43 59
=62.5 + X 5 =115 + X 10
100 100
= 62.5 – 215 = 115 - 590
100 100
= 60.35 Y = 109.1
153
Tot
Y 90-100 100-110 110-120 120-130
al
95 105 115 125
dy
X MV -2 -1 0 1 f fdx fd2x fdxdy
dx
16 14 -4
50-55 52.5 -2 4 7 5 2 18 -36 72 26
12 10 -4 1
55-60 57.5 -1 6 10 7 4 27 -27 27
8
0 0 0
60-65 62.5 0 6 12 10 7 35 0 0 0
-6 -8 3
65-70 67.5 1 3 8 6 3 20 20 20 -11
100 -43 119
Total f 19 37 28 16 33
N ∑fdx ∑fd2x
fdxy -38 -37 0 16 -59 ∑fdy
12 ∑fd2
fd2y 76 37 0 dieciséis ∑fdxdy
9 y
fdxdy 22 16 0 -5 33
X Y
bxy = r byx = r
Y X
∑fdxdy X N – (∑fdx X ∑fdy) Cof x ∑fdxdy X N – (∑fdx X ∑fdy) Cof y
bxy = X byx X
∑fd y X N – (∑fdy)
2 2
Cof y ∑fd x X N – (∑fdx)
2 2
Cof x
=33 X 100 –(-43 X 59) 5 =33 X 100 –(-43 X 59) 10
129 X 100 - (59)2 10 119 X 100 – (-43)2 5
3300 - 2537 3300 + 2537 2
= X 0.5 = X
12900 – 3481 11900 – 1849 1
= 763 X 0.5 = 381.5 = 763 X 2 =0.15
9419 1 9419 = 0.0405 10051 byx =01518
R. Ecuación R. Ecuación
(X - X) = bxy (Y - Y) (Y - Y) = bxy (X - X)
X - 60.35 = 0.0405 (Y - 109.1) Y - 109.1 = 0.1518 (X - 60.35)
X - 60.35 = 0.0405y - 4.41855 Y - 109.1 = 0.1518x - 9.16113
X=0.0405y – 4.41855 + 60.35 Y=0.1518x - 9.16113 + 109.1
X=0.0405y + 55.93145 R.L Y=0.1518x + 99.93897 R.L
Estimación de la altura (x) cuando el peso (y) es 115 Estimación del peso (y) cuando la altura (x) es 63
libras. pulgadas.
X=0.0405 X 115 + 55.93145 Y=0.1518 X 63 + 99.93897
X=4.6575 + 55.93145 =9.5634 + 99.93897
X=60.6 pulgadas de altura 109.5 lbs
r=√bxy X caja =√0.0405 X 04518 = 0.0784
154
ILUSTRACIÓN
A partir de los siguientes datos, encuentra:
PROBLEMAS PRÁCTICOS
6. Dado los siguientes datos, calcula,
a. El valor esperado de Y cuando X=60
b. El valor esperado de X cuando Y=120
X Y
Promedio 65 120
SD 5 10
Coeficiente de correlación
07
Dado los siguientes datos, estima las calificaciones en Matemáticas para un estudiante que ha obtenido 60 puntos en Inglés.
Promedio Aritmético de Calificaciones en Matemáticas = 80
Promedio Aritmético de Calificaciones en Inglés = 50
SD de Calificaciones en Matemáticas _ _ _ _ _ _ _ 15
SD de calificaciones en inglés _ _ _ _ _ _ _ _ _ _ 10
Coeficiente de Correlación 0.4
[Answer : 86]
155
08
Encuentra el precio más probable en Bangalore correspondiente al precio de Rs.70 en Mysore de los siguientes
datos
Precio promedio en Mysore = Rs.65
Precio promedio en Bangalore = Rs.67
SD del Precio en Mysore = Rs.2.5
SD del Precio en Bangalore = Rs.3.5
El coeficiente de correlación entre los dos precios de la mercancía en las dos ciudades es 0.8.
También estima el precio en Mysore correspondiente al precio de Rs.50 en Bangalore.
72.6 y 55.3
09
Se te da la siguiente información.
X Y
Significado 36 85
S. D. 11 8
PROBLEMA NÚMERO: 12
Forme los datos dados a continuación, encuentre
a. Las dos ecuaciones de regresión
b. El Coeficiente de Correlación entre las calificaciones en Economía y Estadística.
c. Las calificaciones más probables en Estadística cuando las calificaciones en Economía son 30.
Calificaciones en Economía X 25 28 35 32 31 36 39 38 34 32
Calificaciones en Estadística Y 43 46 49 41 36 32 31 30 33 39
PROBLEM = 14
La siguiente tabla muestra la distribución de frecuencia de parejas clasificadas según las edades.
Calcular,
a) Obtén dos coeficientes de regresión.
b) Estime la edad del esposo cuando la edad de la esposa es de 28 años.
156
c) Calcular el coeficiente de correlación.
Edad de la esposa Edad del esposo en años X
En años Y 20-25 25-30 30-35 35-40 TOTAL
15-20 20 10 3 2 35
20-25 4 18 6 4 32
25-30 - 5 11 - 16
30-35 - - 2 - 2
35-40 - - - 5 5
TOTAL 24 33 22 11 90
[ Answers, r = 0.612, X = 22.5, Y = 28.6, b = 31.7 , box = 0.558 ]
PROBLEM = 15
A partir de los siguientes datos,
a) Estimar X cuando Y = 30 y también b) Estimar Y cuando X = 20
X
5-15 15-25 25-35 35-45 TOTAL
Y
0-10 1 1 - - 2
10-20 3 6 5 1 15
20-30 1 8 9 2 20
30-40 - 3 9 3 15
40-50 - - 4 4 8
TOTAL 5 18 27 10 60
a) 28.7 b)22.31]
16
A partir de los siguientes datos, calcula
a) Coeficientes de regresión b) Coeficiente de correlación basado en bxy y box.
Y
30-35 35-40 40-45 45-50 TOTAL
X
25-30 20 10 3 2 35
30-35 4 28 6 4 42
35-40 - 5 11 - 16
40-45 - - 2 - 2
45-50 - - - 5 5
TOTAL 24 43 22 11 100
[Answer: X = 32.5, Y = 38.5 bxy = 0.6744 box = 0.5576, ς= 0.6132]
PROBLEM = 17
Calcula dos coeficientes de regresión. Estima el valor de X cuando Y = 49 también calcula
coeficiente de correlación basado en bxy y box.
X 43 44 46 40 44 42 45 42 38 40 42 57
Y 29 31 19 18 19 27 27 29 41 30 26 10
[Answer X = 64.8, Y = ? , bxy = -0.44, byx = -1.2198, ς= -0.732]
PROBLEM = 18
A partir de la siguiente tabla bivariada, calcule lo siguiente
a) Dos coeficientes de regresión
b) Coeficiente de correlación basado en bxy y box
X
59.9 79.5 99.5 119.5 139,5 159.5 179.5 TOTAL
Y
2.25 3 4 3 6 2 1 1 20
7.25 2 3 5 10 3 1 1 25
12.25 5 4 6 11 5 3 3 37
17.25 10 11 12 15 12 15 10 85
22.25 4 2 3 10 7 5 6 37
27.25 1 1 2 8 8 5 4 29
32.25 1 1 1 10 5 4 5 27
TOTAL 26 26 32 70 42 34 30 260
157
[Answer: X = 17.80, Y = 122.42, bxy = 0.05, box = 1.06, r = 0.230]
158
Escuela de Educación a Distancia
y
101.3 (1.196)x
2.4. Líneas de regresión:
Para obtener la línea de regresión Y sobre X de la forma y eje bantes de los datos dados(x1 ,y1 ),
(x 2,y2) ,…, (x n,yn) las siguientes ecuaciones normales para ajustar y eje a resolver.
n n n
xYoyyo un xyo
2
b xyo (1) y
yo 1 yo 1 yo 1
n n
yyo a xyon b (2)
yo 1 yo 1
n n n n
Pero aquí, Xyo (x x ) yo
0 y Yyo ( y y) yo
0
yo 1 yo 1 yo 1 yo 1
Por lo tanto,
n n
(3) XyoYyo a Xyo2b 0
yo 1 yo 1
n n n
1
XyoYyo xyox y yyo n
xyox y yyo
yo 1 yo 1 yo 1
un(a)
n n n
1
Xyo2 xyox 2
n
xyox 2
yo 1 yo 1 yo 1
Cov(x,y)
Eso es a
var(x)
(4) 0 a 0 n b b 0 .
Cov(x,y)
Entonces, la línea recta es,Y X 0 .
var(x)
Cov(x,y)
Por lo tanto, la línea de regresión y sobre x es,y y x x .
var(x)
Cov(x,y)
x x y y
var(y)
Cov(x,y) Pxy
En la línea de regresión y sobre x, el coeficiente de x, 2
se conoce como el
var(x) x
bxy .
La línea de regresión y sobre x nos ayuda a predecir el valor de y para un valor dado de x.
y la línea de regresión en y ayuda a predecir el valor de x para un valor dado de y.
Problema: Obtenga la línea de regresión de 'y sobre x' para los siguientes datos.
Edad x: 66 38 56 42 72 36 63 47 55 45
145 124 147 125 160 118 149 128 150 124
Solución:
Px
y y 2
x x, donde Px = cov(X,Y), =x2V(X).
x
Usando los datos proporcionados para encontrar la media de x, la media de y, cov(X,Y) y V(X).
x y x2 xy
520 1370
La media de X = 52Media de Y = 137
10 10
1 72765
Cov (X,Y) xy x y 52 137 152.5
n 10
1 28408 2
V(X) x 2 x 2 52 136.8
n 10
Por lo tanto, la línea de regresión de y sobre x es,
152.5
y 137 136.8
x 52 y
1.1148x
79,03
y
1.1148 55 79.03 140.34 .
Solución:
Px,y
La línea de regresión y sobre x es,y y 2
x x, donde Px,y = cov(X,Y), =x2V(X)
x
1
Cov(X,Y) xy x y
n
1 130 200
10
3467 = 86.7
10 10
2
1 1 130
V(X)
n
x 2 x 2
10
2288 = 59.8
10
y 1.4498x 1.1526 .
manera en que el incremento en una variable resulta en el incremento de la otra también, entonces
existe una correlación directa (o positiva) entre las variables. Por otro lado
mano, si la relación lineal ajustada para las variables es tal que el incremento en
una variable resulta en la disminución de la otra, y luego hay una relación inversa (o negativa)
correlación existente entre las variables. Si no hay una relación lineal existente entre
las variables, la correlación es cero.
n n
1 1
(xyox ) ( y y) xyoyyoxy
Pxy n yo
n
rxy yo 1 yo 1
n n n n
x y 1 1 1 1
(xyox ) 2 ( yyo y) 2 xyo2 (x) 2 yyo
2
(y)2
n yo 1
n yo 1
n yo 1
n yo 1
Teorema: Para dos variables x e y,1 rxy 1, dóndexyes el coeficiente de Pearson de
correlación.
Prueba:
(x yo x )
Deja(x1 ,y1 ),(x2,y2) ,…, (x n,yn) son las observaciones sobre x e y. Considera y
x
( y yo y)
, donde x y y son los medios y x y y ¿son las desviaciones estándar de x?
y
y respectivamente.
2
(x yo x ) ( y yo y)
Tenemos, 0, porque es el cuadrado de un número real.
x y
2
1 (x yo x ) ( y yo y)
0
n yo x y
1 1 1 1 1 1
(x yo x ) 2 ( y yo y) 2 2 (xyox ) ( y y) 0
x
n2 yo y
2 n
yo x y
n yo
yo
1 rxy 1
Pxy
Observación: Tenemos los coeficientes de regresión y sobre x,byx 2
y la regresión
x
Pxy
coeficientes x en y,bxy 2
La media geométrica de estos coeficientes de regresión da
y
Prueba:
n
1
(xyox ) ( y y)
n yo
Entonces, rxy yo 1
n n
1 1
(xyox ) 2 ( yyo y) 2
n yo 1
n yo 1
x A y B
Deja, u y v ;
c d
n
1
(uyou)(v v )yo
n
ruv yo 1
n n
1 1
(uyou ) 2 (vyov ) 2
n yo 1
n yo 1
1
n
xA x A y Byo y B
yo
n yo 1 c c d d
r uv
2 2
1
n
xA x A 1 n
yoy B
y B
yo
n yo 1 c c n yo 1 d d
1 n
xyox y yyo
n yo 1 c d
r uv 2 2
1 n
xyox 1 n
yyoy
n yo 1 c n yo 1 d
n
1 1
xyo x y yyo
cd n
r uv
yo 1
n n
1 1 2 1 2
xyo x y
yyo
cd n yo 1
n yo 1
1
Pxy Pxy
r cd
uv
1 x y
x y
cd
r uvrxy .
X: 65 66 67 67 68 69 70 72
Y: 67 68 65 68 72 72 69 71
Solución:
Pxy
Coeficiente de correlación,rxy
x y
Para encontrar 2
x, y , Pxy , 2
x y y
n n n
1 2 1 2 1
P xy xy ; = xyo2 (x) 2 y = ( y)
2
y yo
2
xy
n yo 1
yo yo x
n yo 1
y
n yo 1
x y x2 y2 xy
1 1 1 1
x x yo 544 = 68 ; y y yo 552 = 69
n 8 n 8
1 n
1
Pxy xyoyyo xy = 37560 68 69 3
n yo 1 8
1 n
1
2
x =
n
xyo2 (x) 2 = 4.5
37028 68 2
yo 1 8
1 n
1
2
y = y ( y) 2
2
yo = 5.5
38132 69 2
n yo 1 8
Pxy 3
Coeficiente de correlaciónrxy 0.603.
x y 4.5 5.5
Problema: Calcule el coeficiente de correlación de Karl Pearson para los siguientes datos;
x: 10 12 13 16 17 20 25
y 19 22 26 27 29 33 37
Solución:
Cov(X,Y)
Coeficiente de correlación r
S.D.(X) S.D.(Y)
El problema se puede resolver simplemente siguiendo los pasos mostrados en el ejemplo anterior.
Pero por cierta facilidad computacional, el problema también se puede resolver de la siguiente manera
ilustración.
Cov(U,V)
Correlación entre U y V, r
S.D.(U) S.D.(V)
x y U = X - 16 U2 V2 UV
10 19 -6 -8 36 64 48
12 22 -4 -5 16 25 20
13 26 -3 -1 9 1 3
16 27 0 0 0 0 0
17 29 1 2 1 4 2
20 33 4 6 16 36 24
25 37 9 10 81 100 90
1 1 1 4
Cov(U , V)
n
uv u v 187
7
26.71 .082 26.628
7 7
2
1 1 1
V(U) u 2 u2 159 22.71 0.02 22.69
n 7 7
2
1 1 4
V(V)
n
v 2 v2
7
230 32.86 0.327 32.533
7
26.628
Ahora, correlación entre U y V,r = 0.98
22.69 32.533
Pxy
y y 2
x xy
x
Pxy
x x 2
y y
y
Pxy Pxy y
Desderxy , el coeficiente de regresión y sobre x, 2
rxy y
x y x x
Pxy
El coeficiente de regresión x sobre y, 2
rxy x
.
y y
x x r xy
x
y y ---- (2)
y
Ahora la ecuación de regresión y sobre x [ecuación (1)] y la de x sobre y [ecuación (3)] pueden ser
escrito en la forma y = m x + c de la siguiente manera:
y y
y r xy x r x y---- (1) y
xy
x x
y y
y x x y---- (3)
rxy yx rxy yx
y y
Desde aquí, obtenemos las pendientes de estas dos líneas de regresión como, m1 r xy
ym2
x rxy x
y y
rxy
m1 m2 x rxy x
tan
1 m1m2 y y
1 r xy
x rxy x
rxy2 y y
rxy x
rxy2 y y x
2
2 rxy 2 2
y x x y
1 2
x
rxy 12 σ y
2
tan(θ) x
rxy x x
2 y
2
rxy 12 x y
tan(θ) 2 2
rxy
x y
Observaciones:
(i) Para dos variables x e y, si rxy 1, conseguimostanθ 0Esto implica el ángulo entre
las líneas de regresión tan1 0 0. Es decir, si existe una relación lineal perfecta.
entre x e y (ya sea directo o inverso), el ángulo entre la línea de regresión es
cero. O en otras palabras, las dos líneas de regresión coinciden o son las mismas.
(ii) Ifrxy 0, obtenemos tan Esto implica el ángulo entre las líneas de regresión
tan1 900Es decir, si no existe una relación lineal entre x e y, los dos
las líneas de regresión son perpendiculares.
ecuación x sobre y; x x r xy
x
y y ---- (2)
y
y y r xy
2
y y
1 r xy
2
y 1 r xy
2
y y y
a1 c1
expresa la línea en términos de y como,y x Entonces, el coeficiente de regresión y sobre x es
b1 b1
a
byx Si 1 se asume que la primera línea es la línea de regresión y sobre x, la segunda es la línea de regresión.
b1
b c2
x sobre y. Se escribe en términos de x como,x y . 2Si es así, el coeficiente de regresión x sobre y,
a2a2
b
bxy 2 .
a2
a b2
Por lo tanto, si byxbxy 1
1 , podemos confirmar que nuestra suposición respecto a la
b1 a2
las líneas de regresión son iguales. De lo contrario, la primera línea es la línea de regresión x sobre y y la
b1
la segunda es la línea de regresión y sobre x. Entonces, los coeficientes de regresión son bxy y
a1
a2 a b
byx Entonces el coeficiente de correlación, rxy 2 1
que es el recíproco de rxy ,
b2 b2a1
obtenido por suposición previa.
Encuentra (i)
x, y (ii) coeficiente de regresión de y sobre x y de x sobre y (iii) coeficiente de correlación.
Solución:
Resolviendo las dos líneas de regresión dadas,
5 x 6 y 90 0----- (1) y15x 8 y 130 0----- (2), obtenemos x, y.
(2) 3 (1) 10 y 400 y 40.
y 40en(1) 5 x 6 40 90 0 x 30.
x, y 30, 40 .
Asuma que la primera línea es la línea de regresión Y sobre X, entonces, la línea puede expresarse
5 90 5 a1
como,y x Esto implica el coeficiente de regresión Y sobre X El segundo
6 6 6 b1
8 130
la línea, X ion Y, se puede expresar como,x y Por lo tanto, el coeficiente de regresión X sobre
15 15
8 b2
Y .
15 a2
a1b2 a1 b2 5 8
Entonces, = 0.444 1
a2b1 b1 a2 6 15
Por lo tanto, nuestra suposición es cierta. Es decir5 x 6 y 90 0es la recta de regresión Y sobre X
y15x 8 y 130 0es la línea de regresión X sobre Y. Entonces, el coeficiente de regresión de Y
5 8
en X = = 0.833. Coeficiente de regresión de X sobre Y = = 0.533 y correlación
6 15
coeficiente = 0.444. (aquí los coeficientes de regresión son positivos)
Problema: Dado que14 x 12 y 3 0y12x 21y 10 0¿Son las líneas de regresión para X?
y Y. Identifica las líneas de regresión y encuentra el coeficiente de correlación.
Solución:
14 3
Supón que el14 x 12 y 3 0si la línea de regresión Y sobre X, entonces, y x .
12 2
14 a1
Esto implica el coeficiente de regresión Y sobre X . La línea
12 b1
21 10 . Entonces
12x 21 años 10 0se asume como la línea de regresión X sobre Y, entonces, x y
12 12
21 b2
el coeficiente de regresión X sobre Y .
12 a2
a1b2 a1 b2
Entonces,
a2b1 b1 a2
catorce21
= = 2.04 > 1. Por lo tanto, nuestras suposiciones sobre el
12 12
las líneas de regresión NO son verdaderas.
12 10 12 a1
Entonces,y x , y coeficiente de regresión Y sobre X .
21 21 21 b1
12 3 12 b2
Y,x x el coeficiente de regresión X sobre Y .
14 14 14 a2
a1b2 12 12
Entonces,, = = 0.4898.
a2b1 21 14
Dado que los coeficientes de regresión son negativos, el coeficiente de correlación es (- 0.4898).
Problema: Las líneas de regresión son y eje banda x cy d. Si las dos variables tienen el
mismo significa, muestra qued (1 a) b(1 c) .
Solución:
1 d
Aquí la primera línea es y eje b--(1) y el segundo esx cy d--(2) eso es y x --(3)
c c
1 d
(3)y(1) eje b x
c c
d 1 a.C.
d
x b / a
c c 1 ac
aC d anuncio b
(1) y a b
1 ac 1 ac
ac d anuncio b
Esto implica, x y .
1 ac 1 ac
a.C. d anuncio b
Si las medias de las variables son iguales, podemos escribir,
1 ac 1 ac
Esto da,AC d anuncio b d anuncio b a.C.
1 a d b1 c .
Problema: Si las variables x e y satisfacen la relacióneje por c 0 Muestra que el
La correlación entre x e y es -1 o +1, según si a y b son del mismo signo o no.
Solución:
Dado que las variables satisfacen la relacióneje por c 0 , podemos escribir esto
a c
relación en la línea de la forma y sobre x como,y x ; y en la línea de la forma x en y como,
b b
b c a
x y . Entonces se identifican los coeficientes de regresión y sobre x y x sobre y como ,y
a a b
b
respectivamente. Luego, la magnitud del coeficiente de correlación se obtiene mediante la
a
a b
media geométrica de los coeficientes de regresión como, 1. Luego la correlación
b a
el coeficiente puede ser +1 o -1 según si los coeficientes de regresión son positivos o negativos.
a b
Los coeficientes de regresión y se vuelve positivo, cuandoa y b estás con
b a
diferentes signos. Y se volverán negativos, cuandoa y b son del mismo signo. Por lo tanto,
el coeficiente de correlación es -1 o +1, segúna y b son del mismo signo o no.
Cuando estamos considerando dos características que son cualitativas en naturaleza, son
no es posible medir numéricamente. Por ejemplo, considere las características de la
habilidad en el dibujo (que sea X) y la habilidad en la música (que sea Y). No es posible
mida numéricamente los valores de X e Y, para un individuo. Pero si no hay
individuos, es posible clasificar a estos individuos según la habilidad en el dibujo
(X) y de acuerdo a su habilidad en la música (Y). Si estas dos características son altas
correlación positiva, entonces los rangos obtenidos para los individuos basados en X e Y estarán en
mismo orden. Si estas dos características tienen una alta correlación negativa, entonces los rangos
obtenidos para los individuos basados en X e Y estarán en orden inverso. Usando los rangos
obtenido para los individuos en función de las características X e Y, un método para encontrar
el coeficiente de correlación se deriva de C. Spearman en 1904. El coeficiente de
la correlación de dos características que se calculan en función de los rangos se conoce como
Coeficiente de Correlación por Rangos de Spearman.
2 n 2 1
De manera similar,y .
12
yo 1 yo 1
n
1
n
xyo y yo
2
yo 1
n
1
d2yo
n yo 1
n
1 1 n 1 n
d2yo como, d2yo yo
2
Desde y, podemos reescribir xyo x y y
n yo 1 n yo 1 n yo 1
n n 2
1 1
d 2
yo xyox y y yo
n yo 1 n yo 1
n n 2 n 2 n
1 1 1 1
d
2
yo
x x
yo
y y 2
yo
x x y y
yo
yo
n yo 1 n yo 1
n
yo 1
n
yo 1
n
1
d
2
yo
x2 2 cov(x,
y
2
y)
n
yo 1
2 2 n 2 1
Desde, x y ,
12
1 n
n 2 1n 2 1 n 2 1n 2 1
obtenemos, d2yo 2r
n yo 1 12 12 12 12
1 n
n 2 1 n 2 1
d2yo 2 2 r
n yo 1 12 12
1 n
n 2 1
d2 yo
1 r
n yo 1 6
Solución:
Aquí para encontrar el coeficiente de correlación por rangos de los rangos en Estadísticas y
Matemáticas. El coeficiente de correlación por rangos se define como,
6 d2yo
r 1 yo
,dyoes la diferencia en rangos.
n(n 2 1)
Los cálculos son:
1 1 0 0
2 4 -2 4
3 2 1 1
4 5 1 1
5 3 2 4
6 9 3 9
7 7 0 0
8 10 -2 4
9 6 3 9
10 8 2 4
36
6 d2yo
6 36
Por lo tanto,r 1 yo
= 1 1 0.2189 0.7819
2
n(n 1) 10(102 1)
Problema: 10 competidores en una prueba de música fueron clasificados por tres jueces A, B y C de la siguiente manera
pedido.
Estadística Aplicada Page 45
Escuela de Educación a Distancia
Rangos por A: 1 6 5 10 3 2 4 9 7 8
Clasificaciones por B: 3 5 8 4 7 10 2 1 6 9
Rangos por C: 6 4 9 8 1 2 3 10 5 7
Discute qué pareja de jueces tiene los enfoques más cercanos a los gustos comunes en la música.
Solución:
Aquí para encontrar el coeficiente de correlación de rango entre cada par de jueces
teniendo en cuenta los rangos que han dado. Identificar el par de jueces con alta correlación
coeficiente. Se considera que tienen los enfoques más cercanos a los gustos comunes en la música.
Rangos Rangos Rangos xyo-yyo xyo- zyo yyoz- yo xyo y yo xyoz yo z yo
2 2 2
yyo
por A por B por C
xyo yyo zyo
1 3 6 -2 -5 -3 4 25 9
6 5 4 1 2 1 1 4 1
5 8 nueve -3 -4 -1 9 16 1
10 4 8 6 2 -4 36 4 16
3 7 1 -4 2 6 16 4 36
2 10 2 -8 0 8 64 0 64
4 2 3 2 1 -1 4 1 1
9 1 10 8 -1 -9 64 1 81
7 6 5 1 2 1 1 4 1
8 9 7 -1 1 2 1 1 4
200 60 214
6 d2yo
6 200
Correlación de rangos entre A y B,r 1 yo
= 1 0.212
n(n 2 1) 10(102 1)
6 d2yo
6 60
Correlación de rangos entre A y C,r 1 yo
= 1 0.6364
n(n 2 1) 10(102 1)
6 d2yo
6 214
Correlación de rangos entre B y C,r 1 yo
= 1 0.297
n(n 2 1) 10(102 1)
Se puede observar que los jueces A y C están teniendo los enfoques más cercanos a
gustos comunes en la música.
Estadísticas Aplicadas Page 46
Escuela de Educación a Distancia
Problema: Encuentra el coeficiente de correlación por rangos para los siguientes datos:
X: 92 89 87 86 84 77 71 63 53 50
Y: 86 83 91 77 68 85 52 82 37 57
Solución
Primero, los valores dados de X e Y deben ser clasificados. Si una observación se repite, entonces
la suma de los rangos se divide equitativamente entre las observaciones. (Por ej., cuando estamos
clasificando las observaciones en orden, y dejando un número, saya, llegando en el 6thy 7th
la posición entonces los primeros y segundos valores se asignan con el rango 6.5).
Aquí las observaciones están clasificadas en orden descendente. Luego encuentra la clasificación.
coeficiente de correlación.
x y xyo y yo
2
Rango de X, xyo Rango de Y, yyo xyo-yyo
92 86 1 2 -1 1
89 83 2 4 -2 4
87 91 3 1 2 4
86 77 4 6 -2 4
84 68 5 7 -2 4
77 85 6 3 3 9
71 52 7 9 -2 4
63 82 8 5 3 9
53 37 9 10 -1 1
50 57 diez 8 2 4
44
6 d2yo
coeficiente de correlación por rangosr 1 yo
n(n 2 1)
6 44
1 0.733
10(102 1)
n
1 1
6 d2yo myo myo2 1 m j mj12
12 12
yo 1 yo j
r 1 , donde,myorepresenta el número de
n n2 1
veces elyo thrango de repeticiones en la serie x de rangos ym jes el número de veces que elj thrango
se repiten en la serie y de rangos cuando se asignan los rangos [Link] método es
ilustrado a continuación:
X: quince 20 28 12 40 60 20 80
Y: 40 30 50 30 20 10 30 60
Ilustración:
Al principio asignamos rangos para los valores de X e Y. Aquí tenemos 8 conjuntos de datos. Eso es
n=8.
X: 7 5.5 4 8 3 2 5.5 1
Y: 3 5 2 5 7 8 5 1
Aquí en X valores, 20 se repite dos veces, con los posibles rangos, 5 y 6. Por lo tanto, su
se proporciona un promedio de 5.5 para el valor 20. De manera similar, en los valores Y, 30 se repite tres veces, con
rango posibles 4, 5 y 6. Por lo tanto, su promedio 5 se asigna como los rangos de los valores 30.
Ahora la diferencia en rangos,dyo X yo Ylosyovalores son:
myo 2 (Porque en los valores de X, solo el valor 20 se repite dos veces) ym j 3 ( porque en Y
valores, solo el valor 30 se repite tres veces.
n
1 1
6 d2yo myo myo2 1 m j mj12
12 12
yo 1 yo j
Por lo tanto,r 1
n n2 1
1 1
6 81.50 2 22 1 3 3 2 1
12 12
1
8 8 1
2
6 81.50 0.5 2
1 = 0.
8 63
En un estudio estadístico, si hay muchas variables incluidas, y cada vez que estamos
interesado en estudiar el efecto conjunto de un grupo de variables sobre una variable no incluida
en ese grupo, nuestro estudio trata sobre correlaciones múltiples y regresiones múltiples.
Por ejemplo, en el estudio sobre el rendimiento de un cultivo por acre (supongamos que seaX 1), el valor de la
variableX 1es un efecto conjunto de las variables, calidad de la semilla X2 fertilidad del suelo X3
fertilizante utilizado X4 instalaciones de riego X5 , condiciones climáticas X6 y así sucesivamente.
(i) Solo consideramos esos dos miembros de los datos observados en los que el
otros miembros han especificado valores. O,
(ii) Podemos eliminar matemáticamente el efecto de otras variables sobre los dos
variables bajo consideración.
El primer método tiene la desventaja de que limita el tamaño de los datos y también
aplicable solo a los datos en los que se han asignado valores a las otras variables
En el segundo método, puede que no sea posible eliminar toda la influencia de las variables, pero
el efecto lineal se puede eliminar fácilmente. La correlación y la regresión entre solo dos
Las variables que eliminan los efectos lineales de otras variables consideradas se llaman parciales.
correlación y regresión parcial.
X1 a bX12.3
2 b X3 13.2
(1)
Deja que las observaciones sobreX 1X 2,yX 3se miden desde sus respectivas medias, es decir,
X1 x x1yo 1 , X2 x xyX
2yo 2x x 3 3i 3 .
Los coeficientes b12.3 yb13.2son los coeficientes de regresión parcial deX 1enX 2y
eso deX 1enX 3respectivamente.
e12.3 bX 212.3
bX 3se llama
13.2
la estimación deX 1como se da por la ecuación del plano
de regresión (2).
La cantidadX b
X1.23 X 1 b X12.3 2 13.2 3 se llama la estimación del error o residual.
En el subíndice del residuoX 1.23el subíndice antes del ‘.’ es conocido como el
el subíndice primario y el otro después del subíndice, es decir, 2 y 3 se llaman el secundario
subíndices.
A partir de la ecuación del plano de regresión dada en (2), las constantes b son
determinado por el principio de mínimos cuadrados.
S X1.23
2
X1b X12.3
b 2X 13.2 3 2
S
b12.3
0 2X X b X 2b X
1 12.3 2 13.2 3 0
S
b13.2
0 2X
X b
X 3b X
1 12.3 2 13.2 3 0
2 1
DesdeXyo' s se miden desde sus respectivas medias, tenemos, 1 X12 ,
N
cov(XyoXj)
1
XyoXjandr
yo
covX,X j XyoXj
ij .
N N
yo j yo j
2
r 121
b2 b 12.3r 2 13.2 23 2 3
(4)
rσ
13 1
b3 r12.3 23 2
3b 13.2 3
2
r13 1 b 12.3r 23 2
b 13.2 3
r 12 1r 23 3 r12 r23
r 13 1 3 r13 1
Resolviendo estas ecuaciones, obtenemos,b 12.3
1
y,
2 r23 3 2
1r 23
r23 2 3 r23 1
1r 12
1 r23 r13
3
1r 23
r23 1
1r 12 r13
Si escribimos, r21 1r ,y
veintitrés
yo j es el cofactor del(yo, j)thelemento de , entonces,
r31 r32 1
b 12.3
1 12
y b 13.2 1 13
Ahora obtenemos,
2 11 3 11
X1 1 12
X 2 1 13
X3
2 11 3 11
X1 X3 X
2
11
12
0 13 .
1 2 3
(i) Suma del producto de cualquier residual de orden cero con cualquier otro residual de
el orden superior es cero, siempre que el subíndice del anterior ocurra entre los
subíndices secundarios de la letra.
(iii) La suma del producto de dos residuos es cero, si todos los subíndices (primarios
así como secundarios) de uno ocurren entre los subíndices secundarios del
otro. Ej., X X 0 , X X 0
1.2 3.12 2.3 1.23
2.11. Coeficiente de correlaciones múltiples
cov(X 1 , e)1.23
Es decir,R 1.23 , que se deriva como,
V( X 1 )V(e1.23)
r122 r 2 132r r r
R 2
1.23 12 13 23
1 r 2 23
SiR1.231 , entonces la asociación es perfecta y todos los valores predichos de X 1coincide con
los valores observados deX 1 .
SiR1.23 0 , entoncesX 1es completamente no correlacionado con los valores predichos deX 1 .
Esa es la ecuación de regresión que no arroja ninguna luz sobre el valor deX 1, cuandoX 2y
X 3son conocidos.
El coeficiente de correlación entreX 1yX 2después del efecto lineal deX 3en cada
de ellos ha sido eliminado se llama coeficiente de correlación parcial deX 1yX 2 .
DejaX 1.3 X 1 bX133puede considerarse como parte de la variableX 1lo que queda
después del efecto lineal deX 3ha sido eliminado.
De manera similar,X 2.3 X 2 b23X 3es la parte deX 2obtenido después de eliminar lo lineal
efecto deX 3 .
cov(X1.3 ,X2.3)
r12.3 .
V(X1.3)V(X2.3)
r12r r
Esto se deriva como, r12.3 13 23 .
1 r 21 r
13
2
23
Solución:
r r
r23
(i) Tenemos, r23.1 21 31
1 r 21 r
21
2
31
= 0.2425.
r122 r 2 132r r r
(ii) R 21.23 12 13 23
1 r 2 23
= 0.52 R 1.230.721 .
1r 12
r23 1