0% encontró este documento útil (0 votos)
35 vistas74 páginas

Regresión y Correlación

El documento aborda el módulo 3 sobre correlación y regresión, explicando conceptos como la distribución uniforme de variables aleatorias, el coeficiente de correlación de Karl-Pearson y su cálculo a partir de datos. Se presentan ejemplos prácticos para calcular correlaciones entre variables, así como el tratamiento de variables no correlacionadas y la fórmula de Spearman para rangos. Además, se discuten problemas relacionados con la correlación y la varianza de variables aleatorias.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
35 vistas74 páginas

Regresión y Correlación

El documento aborda el módulo 3 sobre correlación y regresión, explicando conceptos como la distribución uniforme de variables aleatorias, el coeficiente de correlación de Karl-Pearson y su cálculo a partir de datos. Se presentan ejemplos prácticos para calcular correlaciones entre variables, así como el tratamiento de variables no correlacionadas y la fórmula de Spearman para rangos. Además, se discuten problemas relacionados con la correlación y la varianza de variables aleatorias.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Módulo 3 - Correlación y Regresión

Si X e Y son una variable aleatoria bidimensional uniformemente distribuida sobre la región triangular R acotada
4x
por y 0,x 3y f(x) XY.
3
Solución:
Dado que X e Y están distribuidos uniformemente.
Por lo tanto, f(x,y) k (una constante)

Sabemos que, f(x,y)dxdy 1


4 3
Es decir, kdxdy 1
0 3y
4
4
k[x]dy 33y
1
0
4
4 3y
k3 dy 1
0 4
1
6k 1 k
6
3 3 1 1
f(y) f(x,y)dx = dx = (4 y),0 y 4
3y 3y 6 8
4 4
4x
3 1 2
f(x) dy = x,0 x 3
0 6 9
32
E(X) xf(x)dx = x 2dx = 2
 09
4 y 4
E(Y) yf(y)dy = (4 y)dy
 0 8 3
9
E(X)2 x f 2(x)dx
 2
8
E(Y)2 y f 2 (y)dy
 3
1
Var(X) E(X)2[E(X)] 2
=
2
8
Var(Y)E(Y)2 [E(Y)] 2 =
9
1 4 3
E(XY) xydxdy= 3
6 0 3y
4
E(XY) E(X)E(Y) 1
Ahora, XY =
. Y
X 2
Correlación:

Si el cambio en una variable afecta un cambio en la otra variable, se dice que las variables son
correlacionado.
La correlación entre variables da el grado de relación entre ellas.

1. La correlación entre las alturas y pesos de un grupo de personas.


2. ingresos y gastos y así sucesivamente

Coeficiente de correlación de Karl-Pearson:

El coeficiente de correlación entre dos variables aleatorias X e Y se denota por r(X,Y), es un


medida numérica de la relación lineal entre ellos.
Cov(x,Y)
r(X,Y) (X,Y)
X. Y
1
Dónde Cov(X,Y) XY XY
n
1 1
X X 2X 2 y
Y Y2Y 2
n n
n - número de elementos en los datos dados

Nota: Dos variables independientes no están correlacionadas cuando Cov(X,Y) = 0

Problemas:

1. Calcule el coeficiente de correlación para las siguientes alturas (en pulgadas) de los padres X
y sus hijos Y.

X 65 66 67 67 68 69 70 72
Y 67 68 65 68 72 72 69 71

Solución:

X Y XY X2 Y2
65 67 4355 4225 4489
66 68 4488 4356 4624
67 65 4355 4489 4225
67 68 4556 4489 4624
68 72 4896 4624 5184
69 72 4968 4761 5184
70 69 4830 4900 4761
72 71 5112 5184 5041
544 quinhentos
37560
e cinquenta
37028e dois 38132
544 552
Ahora,X 68Y
, 69, XY (68)(69) 4692
8 8
1 37028
X X 2X 2
=  4624= 2.121
n 8
1 38132
Y Y2Y 2 =  2.345
n 8
1 1
XY XY 37560 4692
r(X,Y) n = 8 = 0.6030
X. Y 2.121 2.345

2. Encuentra el coeficiente de correlación para los siguientes datos

X 10 14 18 22 26 30
Y 18 12 24 6 30 36

Solución: r(X,Y) = 0.6

3. Sea X, Y y Z variables aleatorias no correlacionadas con medias cero y estándar


desviaciones 5, 12 y 9 respectivamente. Si U = X + Y y V = Y + Z, encuentra la correlación
coeficiente entre U y V.

Solución:
Dado que las tres variables aleatorias tienen media cero.
Por lo tanto, E(X) = E(Y) = E(Z) = 0.
2
Ahora, Var(X) = E(X) [E(X)] 2

E(X)2= Var(X) { ya que, E(X) = 0 }


= 52 = 25
2
De manera similar, E(Y) = 12 2= 144 yE(Z) 2
= 9 2 = 81

Dado que X e Y son no correlacionados, tenemos Cov(X,Y) = 0


E(XY) = E(X).E(Y) = 0

De manera similar, E(YZ) = 0 y E(ZX) = 0.

Para encontrar (U,V):

E(UV) E(U).E(V)
Ahora, (U,V)
U. V

E(U) = E [X + Y] = E[X] + E[Y] = 0


E(V) = E [Y + Z] = E[Y] + E[Z] = 0

E(U)2 E[(X Y ) ] 2 = E[X] 2E[Y] 2E[XY]


2

= 25 + 144 + 0
169
2 225
De manera E(V)
similar,

Ahora,Var(U) E(U)2[E(U)] 169


2

U 169 13
similar, E(V)2 [E(V)]
De maneraVar(V) 2
225
V 225 15

E(UV) = E[(X+Y) (Y+Z)]


= E(XY) + E(Y)2 + E(XZ) + E(YZ)
= 144

E(UV) E(U).E(V) 144 0 144 48


Por lo tanto, (U,V) = =
U. V 13.15 195 65

4. Si la pdf conjunta de (X,Y) está dada por f(x,y) x y, 0 x Encontrar .


XY
Solución:
E(XY) E(X).E(Y)
Sabemos que, (X,Y)
X. Y

Ahora, E(XY) xyf(x,y)dxdy


 
11
= xy(x y)dxdy
00
1
1 x3 y x 2y 2
=  dy
0 3 2
0
1 2
y y
=  dy
0 3 2
1
y 2 y3
= 
6 6
0
1
=
3
La pdf de X y Y está dada por
1
1 1 y2 1
f(x) f(x,y)dy = (x y)dy = xy = x
0 0 2 2
0
1
1 1 x2 1
f(y) f(x,y)dx = (x y)dx =  xy = y
0 0 2 2
0
1
1 1 1 x3 x 2 1 1 7
E(X) xf(x)dx = x x dx =  = 
0 0 2 3 4 3 4 12
0
2 1
1 1 1 y3 y 1 1 7
E(Y) yf(y)dy = y y dy =  = 
0 0 2 3 4 3 4 12
0
1
1 1 1 x 4 x3 1 1 5
E(X)2 x f 2 (x)dx = x2 x dx =  = 
0 0 2 4 6 4 6 12
0
3 1
1 1 1 y4 y 1 1 5
E(Y)2 y f2 (y)dy = y 2 y dy =  = 
0 0 2 4 6 4 6 12
0
2
5 7 11
Var(X) E(X) 2[E(X)] 2 
12 12 144
once
X
12
2
5 7 11
Var(Y) E(Y)2 [E(Y)] 2 
12 12 144
11
Y
12
1 7 7
.
E(XY) E(X).E(Y) 3 12 12 1
Por lo tanto, (X,Y) =
. Y
X 11 11 11
.
12 12

5. Las variables aleatorias independientes X e Y tienen la pdf dada por


4ax,0 x 1 4por,0 y 1
f(x)
X , f(y)
Y
0 de lo contrario 0, de lo contrario

Encuentra el coeficiente de correlación.

Solución
1
1 1
2 x3 4a
E(X) xf(x)dx = x4axdx4a
= x dx = 4a =
 0 0 3 3
0
1 1 3 1
y 4b
E(Y) yf(y)dy = y dy 2
= y4bydy4b = 4b =
 0 0 3 3
0
Dado que X e Y son independientes, la pdf conjunta de X e Y se da por f(x,y) f(x).f(y)
= (4ax)(4by)
= 16abxy, 0 x 1, 0 y 1
11
Ahora, E(XY) xyf(x,y)dxdy = xy(16abxy)dxdy
  00
11 1 x3 2
= 16ab x y 2dxdy
2
= 16ab y dy
00 0 3
16ab 1 2 16ab
= y dy =
3 0 9
16ab 4a4b
Por lo tanto, Cov(X,Y) = E(XY)–E(X)E(Y) = - =0
9 3 3
(X,Y) 0

Correlación por Rangos:

Deja(x y),i
yo yo1,2,...,n son los rangos de 'i' individuos en dos característicasAy
B respectivamente. El coeficiente de correlación de Pearson entre los rangos
yo x e yyo se llama
el coeficiente de correlación por rangos entre las características A y B para ese grupo de
individuos y se da por
2
6d yo
r(X,Y) 1  (x y) yo
dónde yo yo
n(n 21)

1. Encuentra el coeficiente de correlación por rangos a partir de los siguientes datos:

Rango 1 2 3 4 5 6 7
en X
Rango 4 3 1 2 6 5 7
en Y

Solución:

Clasificación en X 1 2 3 4 5 6 7
(x)yo
Clasificación en Y 4 3 1 2 6 5 7
( yyo
)
d yo (x y)
yo yo -3 -1 2 2 -1 1 0 0
2
d yo 9 1 4 4 1 1 0 20

Ahora, coeficiente de correlación por rangos,


2
6d yo
r(X,Y) 1 
n(n 21)
6 20 120
= 1 = 1 0.6429
7(49 1) 336
Rangos Repetidos:

Si dos o más individuos son iguales en cualquier clasificación con respecto a la característica a y B o
si hay más de un elemento con el mismo valor en la serie, entonces la fórmula de Spearman para
el cálculo del coeficiente de correlación de rangos falla. En este caso se asignan rangos comunes
a los rangos repetidos. Este rango común es el promedio de los rangos que estos elementos tendrían.
han asumido que si son ligeramente diferentes entre sí, el siguiente artículo recibirá la clasificación
junto a los rangos ya asumidos.
Como resultado de esta corrección se hace en la fórmula de corrección.
m(m21
En la fórmula de corrección, añadimos el factor a d 2 donde m es el número de
12
los artículos se repite un artículo.

1. Obtén el coeficiente de correlación por rangos para los siguientes datos:

X 68 64 75 50 64 80 75 40 55 64
Y 62 58 68 45 81 60 68 48 50 70

Solución:

X 68 64 75 50 64 80 75 40 55 64
Y 62 58 68 45 81 60 68 48 50 70
Rango X(x)yo 4 6 2.5 9 6 1 2.5 10 8 6
Rango Y(y)yo 5 7 3.5 10 1 6 3.5 9 8 2
d yo (x y)
yo yo -1 -1 -1 1 0 4
2
d yo 1 1 1 1 25 25 1 1 0 16

Factores de corrección:

2(2 12) 1
En la serie X, 75 se repite dos veces, C.F.
12 2
3(32 1)
En la serie X, 64 se repite tres veces, C.F. 2
12
2
2(2 1) 1
En la serie Y, 68 se repite dos veces, C.F.
12 2
1 1
6(d 2 2 )
Por lo tanto, la correlación de rango r 1  2 2
10(10 12)
6[72 0.5 2 0.5 450
1 = 1 0.5454
10[99] 990

Correlación Parcial y Múltiple:


Consideremos el ejemplo del rendimiento del arroz en una empresa. Puede verse afectado por el tipo de
suelo, temperatura, cantidad de lluvia, uso de fertilizantes, etc. Será útil para determinar
cómo el rendimiento del arroz se ve influenciado por un factor o cómo el rendimiento del arroz se ve afectado por varios otros
factores. Esto se hace con la ayuda de análisis de correlación parcial y múltiple.

La distinción básica entre el análisis de correlación múltiple y parcial es que en el


anterior, el grado de relación entre la variable Y y todas las demás variables
X 1 ,X2 ...,Xnjuntos se mide, mientras que, en este último, el grado de relación
entre Y y una de las variables X1 ,X2 ,...,Xnse mide eliminando el efecto de todos
las otras variables.

Correlación parcial:

El coeficiente de correlación parcial proporciona una medida de la relación entre el


variable dependiente y otra variable, con el efecto del resto de las variables eliminado.

Si hay tres variables X1 ,X2yX3, habrá tres coeficientes parciales


correlación, cada uno estudiando la relación entre dos variables cuando se mantiene la tercera
constante. Si denotamos por r12.3 es decir, el coeficiente de correlación parcialX1yX2
X3constante, se calcula como
manteniendo
r12r r 13 23 r13r r 12 23 r23 r r12 13
r12.3 , r13.2 , r23.1
1 r 213
1 r223 1 r 212
1 r223 1 r 212
1 r 2 13

1. En una distribución trivariante, se encuentrar12


que0.7 , r13 0.61andr23 0.4 .
Encuentra los coeficientes de correlación parcial.

Solución:

r12r r 13 23 0.7 (0.61 0.4)


r12.3 = 0.628
1 21 r223
r 13 1 (0.61)21 (0.4)2
r13r r 12 23 0.61 (0.7 0.4)
r13.2 = 0.504
1 r 212
1 r223 1 (0.7)21 (0.4)2
r23 r r12 13 0.4 (0.7 0.61
r23.1 = 0 .048
1 r 212
1 r 2 13 1 (0.7)21 (0.61)2

Correlación múltiple:

En la correlación múltiple, estamos tratando de hacer estimaciones del valor de una de las variables.
basado en los valores de todos los demás. La variable cuyo valor estamos tratando de estimar es
llamada la variable dependiente y las otras variables en las que se basan nuestras estimaciones son
conocidas como variables independientes.
El coeficiente de correlación múltiple con tres variables X1 ,X2yX3están
R1.23 R2.13yR3.21como. unR1.23¿Está el coeficiente de correlación múltiple relacionado conX1
variable dependiente y X2 ,X3como dos variables independientes y se puede expresar en términos de
de r12r23y r13 como
2 r 2 2r r r
r12 2 r 2  2r r r
r12
13 12 23 13 23 12 23 13
R1.23 , R2.13 ,
1 r223 1 2
r 13
2 r 2  2r r r
r13 23 12 23 13
R3.12 2
1 r 12

1. r12 0.98
Se dan los siguientes coeficientes de correlación de orden cero:
r13 0.44andr 23= 0.54. Calcular el coeficiente de correlación múltiple tratando la primera variable como
dependiente y segundas y terceras variables como independientes.

Solución:
2 r 2 2r r r
r12 13 12 23 13
R1.23
1 r223

(0.98)2 (0.44)2 2(0.98)(0.54)(0.44)


= 0.986
1 (0.54)2

Regresión:

La regresión es una medida matemática de la relación promedio entre dos o más


variables en términos de los límites originales de los datos.

Líneas de regresión:
2. La línea de regresión de enY X está dado por y y r. Y (x x)
X

3. La línea de regresión de enX Y es dado por x x r. X ( y  y)


Y
Coeficientes de regresión:
2. Coeficiente de regresión de
Y X : r. Y bYX
X
(x x)(y y)
Dónde bYX
(x x) 2

3. Coeficiente de regresión deX en Y : r. X bXY


Y
(x x)(y y)
Dónde b XY
( y  y) 2
4. Coeficiente de correlación r b XY
b YX

A partir de los siguientes datos, encuentra (i) dos ecuaciones de regresión (ii) el coeficiente de
correlación entre las calificaciones en Economía y Estadística (iii) las calificaciones más probables en
Estadísticas cuando las calificaciones en Economía son 30.

Calificaciones en Economía 25 28 35 32 31 36 29 38 34 32
Calificaciones en Estadística 43 46 49 41 36 32 31 30 33 39

Solución:

X Y X X Y Y (X X ) 2 (Y Y) 2 ( X  X)
= X 32 = Y 38 (Y Y)
25 43 -7 5 49 25 -35
28 46 -4 8 16 64 -32
35 49 3 11 9 121 33
32 41 0 3 0 9 0
31 36 -1 -2 1 4 2
36 32 4 -6 16 36 -24
29 31 -3 -7 9 49 21
38 30 6 -8 36 64 -48
34 33 2 -5 4 veinticinco -10
32 39 0 1 0 1 0
320 380 0 0 140 398 -93

X320 Y380
Aquí, X 32, Y 38
n 10 n 10

La línea de regresión de X en Y se da por x x b(yXY y)


(x x)(y y)  93
b XY = 0 .2337
( y  y) 2 trescientos noventa y ocho
(x 32)  0.23337(y 38)
=  0.2337y 0.2337 38
x 0 .2337y 40.8806

La línea de regresión de enY X es dado por y y b(xYX


x)
(x x)(y y)  93
bYX = 0 .6643
(x x) 2 140
( y  38)  0.6643 (x 32)
=  0.6643x 0.6643 32
y 0 .6643x 59.2576

Coeficiente de correlación r2 b YXb XY


= (-0.6643) (-0.2337) = 0.1552
r 0.1552 0.394
Ahora, tenemos que encontrar las calificaciones más probables en estadística (Y) cuando las calificaciones en economía
(X) son 30. Usamos la línea de regresión de Y sobre X.
ie)y 0 .6643x 59.2576

Putx 30, obtenemos y 0 .6643(30) 59.2576 39

2. Las dos líneas de regresión son 8x 10y 66 0 , 40x 18 años 214 0. La varianza
de X es 9. Encuentra los valores medios de X e Y.

Solución:

Dado que ambas líneas de regresión pasan por los valores medios x y y el punto (x,y)
debe satisfacer las dos líneas de regresión dadas.
8x 10 años 6 6…………..(1)
40x 18 años 214…………..(2)

Resolviendo estos (1) y (2) obtenemos, x 13, y 17


Diez estudiantes obtuvieron los siguientes porcentajes de calificaciones en estadísticas en un grado

examen y en un examen competitivo.


Estudiante 1 2 3 4 5 6 7 8 9 10
Marcas en Grados. Examen 78 40 94 22 76 84 90 62 65 39
Calificaciones en el examen de comp. 84 51 91 60 68 62 86 58 53 47
Calcular el coeficiente de correlación
Solución: Método 1:
X Y XY X2 Y2
78 84 6552 6084 7056
40 51 2040 1600 2601
94 91 8554 8836 8281
22 60 1320 484 3600
76 68 5168 5776 4624
84 62 5208 7056 3844
90 86 7740 ocho mil cien
7396
62 58 3596 3844 3364
65 53 3445 4225 2809
39 47 1833 1521 2209
650 660 45456 47526 45784
650 seiscientos sesenta
Ahora,X 65A
, 66, XY (65)(66) 4290
10 10

1 47526
X X 2X 2
=  4225= 22.97
n 10

1 45784
Y Y2Y 2
=  14.91
n 10
1 1
XY XY 45456 4290
r(X,Y) n = 10 = 0.746
X. Y 22.97 14.91

Hay una correlación positiva entre X e Y.


Método 2:
X Y (X X) (Y Y) (X X ) 2 (Y Y) 2 ( X  X)(Y Y)

(X 65) (Y 66)

78 84 13 18 169 324 234


40 51 -25 -15 625 225 375
94 91 29 25 841 seiscientos veinticinco
725
22 60 -43 -6 1849 36 258
76 68 11 2 121 4 22
84 62 19 -4 361 16 -76
90 86 25 20 625 400 500
62 58 -3 -8 9 64 24
65 53 0 -13 0 169 0
39 47 -26 -19 676 361 494
650 660 5276 2224 2556

(X X)(Y Y) 2556


Cov(X,Y) Cov(U,V) 255.6
n 10

1 5276
X (X X) 2 22.97
n 10

1 2224
Y (Y Y) 2 14.91
n 10
Cov(x,Y) 255.6
r(X,Y) 0.746
X. Y (22.97)(14.91)
6. Si X e Y son variables aleatorias independientes con medias 5 y 10 y desviación estándar
desviaciones 2 y 3 respectivamente. Obtenga r(U,V) donde U 3X 4YandV 3X Y .

Solución: Dado que E(X) 5,E(Y) 10,S.D(X) 2 , S.D(Y) 3.

Esto implica que, Var(X) 4 , Var(Y) 9

Dado que X e Y son independientes, E(XY) E(X).E(Y) .


Esto implica que, E(XY) (5)(10) 50------------------------------ (1)
También, dado que U 3X 4YandV 3X Y
Por lo tanto, E[U] E[3X 4Y] 3E(X) 4E(Y) 3(5) 4(10) 55------------(2)
De manera similar, E[V] E[3X Y ] 3E(X) E(Y) 3(5) 10 5---------------------- (3)

Ahora, Var(X) 4 2
E[X] [ E(X)] E[X]2 (5) 2 2

Esto implica que, E[X]2 29 ---------------------------------------------------------- (4)

Ahora, Var(Y) 9 2
E[Y] [E(Y)] 2 (10) 2
E[Y] 2

Esto implica que, E[Y]2 109-----------------------------------------------------------(5)

Considera, Cov(U,V) E(UV) E(U)E(V)


E[(3X 4Y)(3X Y)] (55)(5)

E[9X29XY 4Y] (55)(5)


2

2 9E[XY] 4E[Y] (55)(5)


9E[X] 2

9(29) 9(50) 4(109) (55)(5) sustituyendo (1), (2), (3),


0 (4) y (5)}
Esto implica que, r(U,V) 0 .

Por lo tanto,U y V son no correlacionados.


7. Dos componentes de un minicomputador tienen la siguiente densidad de probabilidad conjunta
función para sus vidas útiles X e Y:

2 x y; 0 x 1;0 y 1
f(x,y)
0 ; de lo contrario

1
r(X,Y)
Demuestra que  .
11
E(XY) E(X).E(Y)
Solución: Sabemos que, r(X,Y)
X. Y

11
Ahora, E(XY) xyf(x,y)dxdy = xy(2 x y)dxdy
  00

1
1 x3 y x y2 2
= x2 y  dy
0 3 2
0

1 y y2
= y  dy
0 3 2

1
=
6
1
11 11 1 x3 x2 y
E(X) xf(x,y)dxdy = x(2 x y)dxdy = x2  dy
00 00 0 3 2
0

1 1y 5
1  dy
0 3 2 12
11 11 5
E(Y) yf(x,y)dxdy y(2 x y)dxdy
00 00 doce
1
11 11 1 2x3 x4 x3 y
E(X)2 x f 2(x,y)dxdy x(2 x 2
y)dxdy =   dy
00 00 0 3 4 3
0

1 2 1y 1
  dy
0 3 4 3 4

once 11 1
2
E(Y) y f 2(x,y)dxdy 2
y(2 x y)dxdy
00 00 4

2
1 5  11
Var(X) E(X)2[E(X)] 2
4 12 144

1 5 5
.
E(XY) E(X).E(Y) 1
Por lo tanto, r(X,Y) = 6 12 12
X. Y 11 11 11
.
12 12
Coeficiente de Correlación por Rangos:
En la vida real, hay situaciones en las que obtenemos datos en forma de rangos o de otra manera.
Los datos originales se clasifican con diferentes calificaciones. Por ejemplo, si se le pide a dos inspectores que califiquen
las unidades producidas por una máquina, entonces podemos tener dos conjuntos diferentes de calificaciones (rangos). Si dos
se dan conjuntos de observaciones de una característica de calidad a un inspector para que las clasifique, podemos
obtén un par de rangos para cada par de observaciones basado en su desempeño. Bajo estas
circunstancias, es posible que tengamos que obtener la correlación entre los dos conjuntos de rangos en lugar de
utilizando las observaciones tal como están.

Si 1, 2, ..., n son los rangos dados en base a los resultados de la variable aleatoria X o el
rangos dados a la n valores(x,x,...,x)de
1 2 X y también 1, 2,..., n son los rangos dados en función de
los resultados de la variable aleatoria Y o los rangos dados a los n valores(y,y,...,y)de
1 2 n Y
entonces el coeficiente de correlación entre X e Y, conocido como la correlación de rango de Spearman
el coeficiente, se da por

2n
6d yo
r(X,Y) 1  yo 1
n(n 21)

¿Dónde? yoRango del ithvalor de xyo)–Rango del ithvalor de


X (es decir yyo)
Y (es decir

Es decir, d yo(x y)
yo yo .

Nota: Si uno o más de los rangos se repiten dentro de una variable, entonces la siguiente fórmula es
sugerido:

n
2 1 2 1 2
6d yo m(m
x 1)x m(m
y 1y
yo 1 12 x 12 y
r(X,Y) 1 
n(n 21)

dónde mx es el número de veces que un valor se repite en la variableX y my es el número de


veces un valor repetido en la variableY .

1. Las clasificaciones de diez estudiantes en dos materias A y B son las siguientes:

A 3 5 8 4 7 10 2 1 6 9
B 6 4 9 8 1 2 3 10 5 7

Encuentra el coeficiente de correlación por rangos.

Solución:
A (x)yo B ( yyo
) d yo (x y)
yo yo 2
dyo

3 6 -3 9
5 4 1 1
8 9 -1 1
4 8 -4 16
7 1 6 36
10 2 8 64
2 3 -1 1
1 10 -9 81
6 5 1 1
9 7 2 4
0 2 214
dyo

n2
6d yo
yo 1 6(214)
El coeficiente de correlación por rangos es r(X,Y) 1 1
n(n 21) 10(10 1)2
0 .297
X yselección
2. Las calificaciones obtenidas por los reclutas en la prueba de en el examen Y
de competencia
se dan a continuación:

Número de serie 1 2 3 4 5 6 7 8 9
X 10 15 12 17 13 16 24 14 22
Y 30 42 45 46 33 34 40 35 39

Calcula el coeficiente de correlación por rangos.

Solución:

X Y Rangos en Rangos en dyo (x yo


y) yo 2
dyo
X (x)
yo Y ( yyo
)

diez 30 9 9 0 0
15 42 5 3 2 4
12 45 8 2 6 36
17 46 3 1 2 4
13 33 7 8 -1 1
16 34 4 7 -3 9
24 40 1 4 -3 9
14 35 6 6 0 0
22 39 2 5 -3 9
2 72
d yo

2n
6d yo
yo 1 6(72)
El coeficiente de correlación por rango es r(X,Y) 1 1 0.4
n(n 21) 9(9 12)

10 competidores en un concurso de belleza son clasificados por tres jueces de la siguiente manera:

Competidores
1 2 3 4 5 6 7 8 9 10
X 6 5 3 10 2 4 9 7 8 1
Jueces Y 5 8 4 7 10 2 1 6 9 3
Z 4 9 8 1 2 3 10 5 7 6

Discuta qué par de jueces tiene el enfoque más cercano a las pruebas comunes de belleza.

Solución:
X Y Z d1 x y d12 d2 x  z d22 d2 x  z d32

6 5 4 1 1 2 4 1 1
5 8 9 -3 9 -4 16 -1 1
3 4 8 -1 1 -5 25 -4 16
10 7 1 3 9 9 81 6 36
2 10 2 -8 64 0 0 8 64
4 2 3 2 4 1 1 -1 1
9 1 10 8 64 -1 1 -9 81
7 6 5 1 1 2 4 1 1
8 9 7 -1 1 1 1 2 4
1 3 6 -2 4 -5 25 -3 9
158 158 214

6d 12 6(158)
r(X,Y) 1  1 0.042
n(n 21) 9(9 12)

6d 22 6(158)
r(X,Z) 1 1 0.042
n(n 21) 9(9 12

6d 32 6(214)
r(Y,Z) 1 1 0 .296
n(n 21) 9(9 12)
Por lo tanto, (X,Y) y (X,Z) tienen la aproximación más cercana a los gustos comunes de belleza.

4. La siguiente tabla muestra el número de unidades rechazadas por dos operadores X e Y en 8


inspecciones
X 15 20 28 12 40 60 20 80
Y 40 30 50 30 20 10 30 60
Obtener el coeficiente de correlación de rango entre X e Y con respecto a la calidad de

el producto.
Solución:
X Y Rangos en X (x)Rangos
yo en Y ( yyo
) dyo (x yo
y yo 2
dyo

15 40 2 6 -4 16
20 30 3.5 4 -0.5 0.25
28 50 5 7 -2 4
12 30 1 4 -3 9
40 20 6 2 4 16
60 10 7 1 6 36
20 30 3.5 4 -0.5 0.25
80 60 8 8 0 0
2 81.5
dyo
m(m21) 2(2 1) 12
InXseries 20 repetido dos veces, factor de corrección
12 12 2

m(m21) 3(3 1) 2
EnYseries 30 repetido tres veces, factor de corrección 2
12 12
1
6 81.5 2
2
Por lo tanto,r(X,Y) 1  0
8(8 12)

Aquí, dado que el coeficiente de correlación es 0, concluimos que no hay relación.


entre la calidad de productoX y la de Y.

Ejercicio

1. Encuentra el coeficiente de correlación para los siguientes datos:

X 10 14 18 22 26 30
Y 18 12 24 6 30 36
Solución: r = 0.6

2. La edad en años de 14 jóvenes parejas se muestra a continuación:

X 21 25 26 24 22 30 19 24 28 32 31 29 21 18
Y 19 20 24 21 21 24 18 22 19 30 27 26 19 18

Conocer la relación entre la edad de los esposos (X) y las esposas (Y) ,

Calcule el coeficiente de correlación.


Solución: r = 0.85
x
e; 0 y x
3. Sea la función de densidad conjunta de X e Y dada por f(x,y)
0 ; de lo contrario
Encuentra el coeficiente de correlación entre X e Y.

1
Solución:r(X,Y)
2
4. Sean las variables aleatorias X e Y con la función de densidad de probabilidad conjunta
x y; 0 x 1;0 y 1
f(x,y)
0 ; de lo contrario
Calcule el coeficiente de correlación entre X e Y.
1
Solución: r(X,Y) 
11

5. En una encuesta de marketing, el precio del té y el café en una ciudad basado en la calidad fue
encontrado como se muestra a continuación. ¿Podrías encontrar alguna relación entre el precio del té y el café?

Precio del té 88 90 95 70 60 75 50
Precio del café 120 134 150 115 110 140 100
Solución: r = 0.8929. La relación entre el precio del té y el café es positiva.

6. Encuentra la correlación de rangos para observaciones atadas. A continuación se muestran las calificaciones obtenidas por
10 estudiantes en una clase en dos pruebas.

Estudiantes A B C D E F G H Yo J
Prueba 1 70 68 67 55 60 60 75 63 60 72
Prueba 2 65 65 80 60 68 58 75 63 60 70
Solución: r = 0.68.

Regresión
La regresión es una medida matemática de la relación promedio entre dos o más variables.
en términos de las unidades originales de datos.

Ecuaciones de regresión
Una línea de regresión puede ser representada por una expresión algebraica que da la relación
entre las dos variables. Hay dos ecuaciones de regresión:
1. La ecuación que da los mejores valores medios de X correspondiente a los valores dados de

Y es decir, la ecuación de regresión deXen Yes X X r. x(Y Y) .


y
2. La ecuación que da los mejores valores promedio de Y
correspondiente a los valores dados de

y
X es decir, la ecuación de regresión deY X esY Y r. (X X)
x
donde X e Y son las medias de X y Y; xy son ylas desviaciones estándar de

X y r
Y ; es el coeficiente de correlación.

Coeficientes de regresión

y
5. Coeficiente de regresión de
Y en X : r. byx
x
(X X)(Y Y)
dónde yx
(X X) 2

Y : r. x
6. Coeficiente de regresión deX encima bxy
y
(X X)(Y Y)
dondeb xy
(Y Y) 2

7. Relación entre el coeficiente de correlación y los coeficientes de regresión


r b xyb yx

Ángulo entre dos líneas de regresión

y
Si las ecuaciones de las líneas de regresión
Y de X y X en Y areY Y r. (X X)
x

yX X r. x(Y Y) .
y

1 r 2 y x
Entonces el ángulo entre las dos líneas de regresión se da por tan
r 2 2
x y

1. Una tienda departamental ofrece capacitación en el trabajo a los vendedores seguida de una prueba. Es
experimentado que el rendimiento en ventas de cualquier vendedor está relacionado linealmente con
las puntuaciones obtenidas por él. Los siguientes datos dan las puntuaciones de las pruebas y las ventas realizadas por nueve

vendedores durante un período fijo.

X
Puntuaciones de Pruebas 16 22 28 24 29 25 16 23 24
Ventas (’00 Rs)Y 35 42 57 40 54 51 34 47 45
Las ventasY cualquier vendedor se considera que depende de su capacidad, que se juzga por su
calificaciones de X
pruebas
.

Solución: La línea de regresión de


Y encima
X se puede ajustar a los datos en lo siguiente
manera.
x207 y405
X 23Y
, 45
n 9 n 9

X Y X XY Y (X X) 2 (Y Y) 2 ( X  X)(Y Y)

16 35 -7 -10 49 100 70
22 42 -1 -3 1 9 3
28 57 5 12 25 144 60
24 40 1 -5 1 25 -5
29 54 6 9 36 81 54
25 51 2 6 4 36 12
16 34 -7 -11 49 121 77
23 47 0 2 0 4 0
24 45 1 0 1 0 0
207 405 0 0 166 520 271

(X X)(Y Y) 271


Coeficiente de regresión de en
Y X isb yx 1.63
(X X) 2 166

y
Por lo tanto, la ecuación de regresión deYen X isY Y r. (X X)
x

(Y 45) 1.63(X 23)


Y 7.51 1.63X

2. Calcule el coeficiente de correlación a partir de los siguientes datos:

X 1 2 3 4 5 6 7 8 9
Y 9 8 10 12 11 13 14 16 15
(i) Obtenga las ecuaciones de regresión y el coeficiente de correlación.
(ii) Determine una estimación deYlo que debería corresponder en promedio a X 6.2 .

Solución: La línea de regresión deY en X puede ajustarse a los datos en lo siguiente


manera.
x45 y108
X 5A
, 12
n 9 n 9

X Y X XY Y (X X) 2 (Y Y) 2 ( X  X)(Y Y)

1 9 -4 -3 16 9 12
2 8 -3 -4 9 16 12
3 10 -2 -2 4 4 4
4 12 -1 0 1 0 0
5 11 0 -1 0 1 0
6 13 1 1 1 1 1
7 14 2 2 4 4 4
8 16 3 4 9 16 12
9 15 4 3 16 9 12
45 108 0 0 60 60 57

x (X X)(Y Y) 57
(i) Coeficiente de regresión de X estáY r. bxy 0.95
y (Y Y) 2 60

Por lo tanto, la ecuación de regresión deX en Y es X X r. x (Y Y)


y
(X 5) 0.95(Y 12)
X 0.95Y 6.4

y (X X)(Y Y) 57
Coeficiente de regresión de Y X isr. byx 0.95
x (X X) 2 60
y
Por lo tanto, la ecuación de regresión de Y en X isY Y r. (X X)
x

(Y 12) 0.95(X 5)


Y 0.95X 7.25

Coeficiente de correlación r b xyb yx

0.95 0.95
0.95

(ii) La estimación deY correspondiente a X 6.2isY 0.95(0.62) 7.25


13.14 13

3. Un investigador estadístico obtiene las siguientes ecuaciones de regresión en una encuesta


X Y 6 0y0.64X 4.08 Aquí X edad del esposo y edad de la esposa.
Encuentra la media de yX Y.

Solución: Dado que ambas líneas de regresión pasan por (X,Y), obtenemos

X Y 6 0 --------------------- (1)
0.64X 4.08 0-------------------- (2)
4.08
De (2), X 6.375
0.64
De (1), X Y 6
6.375 Y 6

Y 0.375

Por lo tanto, la media X 6.375 ,Y 0.375 .


Regresión múltiple

Si el número de variables independientes en un modelo de regresión es más de uno, entonces el


el modelo se llama regresión múltiple. De hecho, muchas de las aplicaciones del mundo real exigen el
uso de modelos de regresión múltiple.
Una aplicación de muestra es la siguiente:

Y b0b X1b 1X b 2X b2 X 3 3 4 4

X2
donde Y representa la tasa de crecimiento económico de un país,X1 representa el período de tiempo,
representa el tamaño de las poblaciones del país, X3 representa el nivel de empleo
X4
en porcentaje, representa el porcentaje de alfabetización, b0 es la intersección yb,b,b,yb
1 2 3 4
son las pendientes de las variables X,1X, X
2 y 3X respectivamente.
4 En este modelo de regresión,
X,X,XyXson
1 2 3 las 4variables independientes y Y es la variable dependiente.

Modelo de regresión con dos variables independientes utilizando ecuaciones normales:

Supongamos que el número de variables independientes es dos, entonces Y b0b X1b 1X 2 2 .


Las ecuaciones normales son

Y nb0b 1Xb 1 X 2 2

YX1 b 0 X 1b X 2
1 b 1 X 2 X 1 2

YX2 b 0 X b2 X1 X1 b 2 X2 2
2

dónde n es el número total de combinaciones de observaciones. La solución al conjunto anterior de


Las ecuaciones simultáneas formarán los resultados para los coeficientes
0 b,1 b y b de
2 la regresión.
modelo.

Ejemplo 1: Los ingresos anuales por ventas (en crores de rupias) de un producto como una función de las ventas
fuerza (número de vendedores) y gasto publicitario anual (en lakhs de rupias) de los últimos
10 años se resumen en la siguiente tabla.

Ingresos anuales por ventasY 20 23 25 27 21 29 22 24 27 35


X1
Fuerza de ventas 8 13 8 18 23 16 10 12 14 20

Publicidad anual 28 23 38 16 20 28 23 30 26 32
gastos X2
Solución: Sea el modelo de regresión Y b0 b X1 b 1X 2 2

X2 es la publicidad anual
dónde Y es los ingresos anuales por ventas;X1 es la fuerza de ventas;
gastos.
Y X1 X2 X12 X22 X1 X2 YX1 YX2

20 8 28 64 784 224 160 560


23 13 veintitrés
169 quinhientos
229 veintinueve
299 529
25 8 38 64 1444 304 200 950
27 18 16 324 256 288 486 432
21 23 20 529 400 460 483 420
29 16 28 256 784 448 464 812
22 10 23 100 529 230 220 506
24 12 30 144 900 360 288 720
27 14 26 196 676 364 378 702
35 20 32 400 1024 640 700 mil ciento veinte
253 142 264 2246 7326 3617 3678 6751
Sustituyendo los valores requeridos en la norma
las ecuaciones, obtenemos lo siguiente

ecuaciones simultáneas

10b 10 42b 264b


1 253 2

142b 02246b 3617b


1 36782

264b 03617b 7326b


1 67512

La solución al conjunto anterior de ecuaciones simultáneas es 05.1483,b 0.6190y


1
b2 0.4304 .

Por lo tanto, el modelo de regresión es Y 5.1483 0.6190X 0.4304X


1 2.

Ejercicio:

1. La tabla siguiente proporciona los datos sobre la lluvia y el caudal en un cierto río. Obtén la línea
de la regresión deYen X .
Precipitación (pulgadas)
X 1.53 1.78 2.60 2.95 3.42
Descarga (1000 c.c) Y 33.5 36.3 40.0 45.8 53.5

Solución:Y 9.7992X 17.714


2. A partir de los siguientes datos encuentra (i) dos ecuaciones de regresión (ii) el coeficiente de correlación
entre las calificaciones en Economía y Estadística (iii) las calificaciones más probables en Estadística cuando
Las calificaciones en Economía son 30.

Calificaciones en Economía 25 28 35 32 31 36 29 38 34 32
Notas en Estadística 43 46 49 41 36 32 31 30 33 39

Solución:(i)x 0 .2337y 40.8806 , y 0 .6643x 59.2576


(ii)r 0.394(iii) 39

3. En un registro parcialmente destruido de un análisis de datos de correlación, los siguientes resultados son
legible. Las dos líneas de regresión son 8X 10A 66 0y40X18A 214 0. Encuentra el
valores medios deX y Y .

Solución:X 13 , Y 17 .

1 3 2
4. Si r12 ; r23 ; r31 R1.23 .
entonces encuentra el valor de
2 4 3
Solución: 0.5

5. Para una distribución trivariante, se obtuvieron los siguientes coeficientes de correlación


12 r 0.77
r13 0.72andr 0.52.
23 Encuentra el coeficiente de correlación parcial
r12.3 y correlación múltiple
coeficiente R1.23
Solución: r12.3 0.6673, R1.23 0.8561

6. Los siguientes son datos sobre el número de giros necesarios para romper un cierto tipo de forjado.
barra de aleación y el porcentaje de dos elementos aleantes presentes en el metal.

No. de 41 49 69 65 40 50 58 57 31 36 44 57 19 31 33 43
torcer(Y)
1
Porcentaje de 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
elemento A
( X1)

5
Porcentaje de 5 5 5 10 10 10 10 15 15 15 15 20 20 20 20
elemento B
( X2)

Ajuste un modelo de regresión de mínimos cuadrados.

Solución:Y 46.4 7.78X 1.65X


1 2
Unidad-8
ANÁLISIS DE REGRESIÓN
INTRODUCCIÓN
Hasta ahora hemos estudiado el análisis de correlación, que mide la dirección y la fuerza de la relación.
entre dos variables. Después de establecer la correlación existente entre las dos variables, uno puede estar interesado
en la estimación del valor de una variable con la ayuda del valor de otra variable. El método estadístico con el
ayuda de la cual estamos en una posible estimación o predicción del valor desconocido de una variable a partir del valor conocido
de otras variables se llama regresión.
La regresión sucede a la correlación una vez que la relación de correlación entre las dos variaciones es
establecida, el análisis de regresión procede con la estimación de valores probables.
Sir. Francis Galton, un biométrico británico, introdujo el concepto de regresión por primera vez en
1877: mientras estudiaba la correlación entre las alturas de los hijos y sus padres. Concluyó en sus estudios,
Los padres altos tienden a tener hijos altos y los padres bajos hijos bajos. La altura promedio de los hijos de un grupo de altos
la altura media de los hijos de un grupo de padres bajos es mayor
que la de los padres.
Significa que las generaciones venideras de padres altos o bajos tienden a retroceder a la altura promedio de la población.
Hoy en día, un estadístico moderno prefiere usar el término regresión en el sentido de estimación, que es una
herramienta estadística importante en un negocio de economía.

Significado
La regresión significa volver o retroceder al valor promedio. En estadística, el término
La regresión significa simplemente la relación promedio. Podemos predecir o estimar el valor de la variable dependiente.
a partir de los valores relacionados del variable independiente con la ayuda de una técnica de regresión.
La medida de la regresión estudia la naturaleza de la correlación para estimar los valores más probables. Ella
Establece una relación funcional entre las variables independientes y dependientes.

Definición
Según Blair, "La regresión es la medida de la relación promedio entre dos o más variables"
en términos de las unidades originales de los datos
Según TaroYamame, "una de las técnicas más utilizadas en economía y negocios"
La investigación para encontrar una relación entre dos o más variables que están relacionadas causalmente es el análisis de regresión.
Según Wallis y Robert, "a menudo es más importante descubrir cuál es la relación en realidad, en
El orden para estimar o predecir una variable y la técnica estadística apropiada en tal caso se llama regresión.
análisis.

USOS DEL ANÁLISIS DE REGRESIÓN


El análisis de regresión es de gran utilidad práctica incluso más que el análisis de correlación; lo siguiente es
algunos usos,
1. El análisis de regresión ayuda a establecer una relación funcional entre dos o más
una vez que esto esté establecido, se puede utilizar para varios propósitos de análisis avanzados.
2. Con el uso de máquinas electrónicas y computadoras, la tediosidad de la recopilación de ecuaciones de regresión.
Particularmente, la expresión de múltiples y una relación no lineal se ha reducido en gran medida.
3. Dado que la mayoría de los problemas del análisis económico se basan en la relación de causa y efecto.
El análisis de regresión es una herramienta altamente valiosa en la investigación económica y empresarial.
4. El análisis de regresión es muy útil para fines de predicción. Una vez que se establece una relación funcional
conocido, el valor de la variable dependiente puede ser predicho a partir del valor dado de la
variable independiente.

CORRELACIÓN Y REGRESIÓN

Estas dos técnicas están dirigidas hacia un propósito común de establecer el grado y la dirección
de la relación entre dos o más variables, pero los métodos para hacerlo son diferentes. La elección de uno o el
otro dependerá del propósito. A pesar de ciertas similitudes entre estos dos, hay algunas basicas.
diferencias en los dos enfoques, que se han resumido a continuación:

138
CORRELACIÓN REGRESIÓN
1. Correlación, literalmente significa relacionado o 1. La regresión significa literalmente volver a lo normal,
movimientos simpáticos entre variables lo cual es cierto en virtud del promedio de
2. Hay una especie de interdependencia, que es relación.
mutuo. 2. Establece una relación funcional, que es
3. No hay una relación de causa y efecto. Eso demostración matemática de la dependencia de uno
solo muestra la existencia de alguna asociación en variable del otro.
el movimiento de variables. 3. Puede tener una relación de causa y efecto.
4. Puede ser una correlación espuria si el 4. Es una relación matemática, que debería
el movimiento simpático se debe a la ser interpretado adecuadamente.
influencia de una variable externa que no tiene 5. Es una medida absoluta de relación.
relevancia. 6. Además de la verificación, también se puede utilizar para
5. Es una medida relativa que muestra asociación estimación y predicción. Ofrece más
entre variables. información completa.
6. Se utiliza solo para pruebas y verificación de [Link] Es muy útil para matemáticas posteriores.
relación. Solo ofrece un limitado tratamiento.
información.
7. No es muy útil para matemáticas adicionales.
tratamiento.
MÉTODOS DE ANÁLISIS DE REGRESIÓN
Hay dos métodos:
1. Métodos gráficos (No incluidos en el programa)
2. Método algebraico.
Los métodos algebraicos para la regresión lineal simple se pueden dividir en las siguientes categorías,
A. Líneas de regresión.
B. Ecuaciones de regresión.
C. Coeficiente de regresión.

A. LÍNEAS DE REGRESIÓN:
En la jerga gráfica, una línea de regresión es una línea recta ajustada a los datos mediante el método de los mínimos cuadrados.
Indica el mejor valor medio probable de una variable correspondiente al valor medio de la otra. Dado que un
La línea de regresión es la línea de mejor ajuste, no se puede usar de manera inversa, por lo tanto, siempre hay dos regresiones.
líneas construidas para la relación entre dos variables x e y. Así, una línea de regresión muestra regresión
de x sobre y y el otro muestra la regresión de y sobre x.
Cuando dos variables tienen relación, entonces podemos trazar una línea de regresión. La línea de regresión de x sobre y
da los valores más probables de x para cualquier valor dado de y. De la misma manera, la línea de regresión de y sobre x
da los valores más probables de y para cualquier valor dado de x. Así, habrá dos líneas de regresión en el caso
de dos variables.
ECUACIONES DE REGRESIÓN
La ecuación de regresión es un método algebraico. Es una expresión algebraica de la línea de regresión. Puede ser
clasificado en la ecuación de regresión, coeficientes de regresión.
Dado que hay dos líneas de regresión, hay dos ecuaciones de regresión. Para las dos variables x e y, hay
son dos ecuaciones de regresión. Son la ecuación de regresión de x en y y la ecuación de regresión de y en x.
Ecuación de regresión de x sobre y

(X-X)=r (Y-Y)
Y
Ecuación de regresión de Y sobre X

Y
(Y-Y)=r (X-X)

139
Aplicación de ecuaciones de regresión cuando se proporcionan todos los valores necesarios

ILUSTRACIÓN = 01
A partir de los siguientes resultados, obtenga la ecuación de regresión doble y estime el rendimiento de los cultivos cuando el
la lluvia es de 29 cm y la lluvia cuando el rendimiento es de 600 kg.
Y X
Rendimiento Precipitación
En Kg En cm
26.7
Medio 508.4
4.6
S.D 36.8
El coeficiente de correlación entre el rendimiento y la lluvia = 0.52
Solución:
Para estimar el rendimiento de los cultivos, debemos utilizar la ecuación de regresión Y sobre X.

Y
(Y-Y)= r (X-X)

36.8
Y-508.4=0.52 (X-26.7)
4.6

Y-508.4 = 4.16 (x-26.7)


Y-508.4 = 4.16x - 111.072
Y = 4.16x - 111.072 + 508.4
Y=4.16x +397.328 R.línea
Cuando x = 29
=4.16 x 29 + 397.328
= 120.64 + 397.328
= 517.968 kgs

De manera similar, para estimar la lluvia, tenemos que usar la ecuación de regresión x en y.

Y
(X-X)=r (Y-Y)

4.6
X-26.7=0.52 (Y-508.4)
36.8
X-26.7=0.065 (Y-508.4)

X-26.7=0.065Y-33.046

X=0.065Y-33.046+26.7

X=0.065Y-6.346 R, Línea
Cuando Y=600 Kgs
X=0.065X600-6.346
=39-6.346
X=32.654

140
ILUSTRACIÓN =02
Encuentra la ecuación de regresión, mostrando la regresión de la utilización de capacidad sobre la producción de
siguientes datos.
Producción en lakh Promedio Desviación estándar
Unidades 35.6 10.5
Uso de la Capacidad
84.8 8.5
(en porcentaje)
Coeficiente de correlación}=0.62
Estimule la producción cuando la utilización de la capacidad es del 70%
SOLUCIÓN; Sea la producción y la utilización de la capacidad denotadas por X e Y respectivamente. Entonces se nos da;

X=35.6 Y=84.8 X=10.5 Y=8.5 P=0.62

Para estimar la producción, tenemos que usar la ecuación de regresión X sobre Y.

(X-X)=r (Y-Y)
Y
10.5
(X-35.6)=0.62 (Y-84.8)
8.5
X=35.6=0.7658(Y-84.8)
X - 35.6 = 0.7658Y - 64.94
X=0.7658y—64.94+35.6
X=0.7658y-29.34 [Link]
Cuando Y=70%
=0.7658X70-29.34
=53.606-29.34
X=24.266 lakh unidades

03

El coeficiente de correlación de Karl Pearson entre las edades de los hermanos y las hermanas en una comunidad fue
se encontró que es 0.8.
El promedio de las edades de los hermanos era de 25 años y el de las hermanas de 22 años. Sus desviaciones estándar eran de 4.
y 5 respectivamente.
Encuentra a. La edad esperada del hermano cuando la edad de la hermana es de 12 años.
b. La edad esperada de la hermana cuando la edad del hermano es de 33 años.
Solución:
Hermano Hermana
X Y
Edad media 25 años 22 años
Estándar
Desviación 4 5

Coeficiente de correlación 0.8


Para estimar la edad del hermano, tenemos que usar la ecuación de regresión X sobre Y. X=? Cuando Y = 12

(X-X)= r (Y-Y)
Y

141
4
X-25=0.8 (Y-22)
5
X-25=0.64(Y-22)
X-25=0.64Y-14.08
X=0.64Y-14.08+25
X=0.64Y+10.92 [Link]
Cuando Y=12
=0.64X12+10.92
X=18.6 años, edad del hermano

Para estimar la edad de la hermana, tenemos que usar la ecuación de regresión Y sobre X Y=? Cuando X=33 años

Y
(Y-Y)=r (X-X)

5
(Y-22)=0.8 (X-25)
4 Y=X-3 [Link]
Y-22=1.0 (X-25) Cuando X=33
Y-22=1X-25 Y=33-3
Y=30 años, edad de la hermana
Y=X-22+22

04
Dada la siguiente información, estime
El valor de Y cuando X=70
2. El valor de X cuando Y=90
Serie X Serie Y
Promedio 18 100
Desviación estándar 14 20
Coeficiente de correlación 0.8
SOLUCIÓN
II. X=? Cuando Y=90
Yo. ¿Y=? Cuando X = 70 usa Y en la ecuación R. Utiliza X en Y R. Ecuación

Y
(Y-Y)= r (X-X) (X-X)= r (Y-Y)
X Y
20
Y-100=0.8 (X-18) 14
14 X-18=0.8 (Y-100)
Y-100=1.143 (X-18) 20
Y-100=1.143X-20.574 X-18=0.56 (Y-100)
Y=1.143X-20.574+100 X-18=0.56Y-56
Y=1.143X+79.426 R.Línea X=0.56Y-56+18
Cuando X=70 X=0.56Y-38 R.Línea
Y=1.143 X 79 + 79.426 Cuando Y=90
Y=80.01+79.426 X=0.56 X 90-38
Y=159.436 =50.4-38
12.4
142
05
Para estudiar la relación entre el gasto en alojamiento (X) y el gasto en comida (Y), un
la investigación en 50 familias dio el siguiente resultado;

∑X=8500, ∑Y=9600, X=60 Y=20, r=0.60


Estime el gasto en comida cuando el gasto en alojamiento es de Rs200.

SOLUCIÓN
Para estimar el gasto en alimentos, debemos utilizar la ecuación de regresión Y en X.

∑X 8500 ∑y 9600
Y
X = =170, Y= =192
(Y-Y)=r (X-X)
n 50 50

20
(Y-192)=0.6 (X-170) cuando X=200
60 Y=0.1999 X 200 + 158
Y-192=0.1999(X-170) =39.98+158
Y-192=0.1999X-33.9999 Y=Rs.197.98
Y=0.1999X+158 R.L Se requieren Rs.197.98 para gastar en comida.

06

Obtén las dos ecuaciones de regresión de lo siguiente;

Serie X Serie Y
Promedio 20 25
Varianza 4 9
Coeficiente de correlación = 0.75
SOLUCIÓN
Obtención de dos líneas de regresión

X en Y R. Ecuación Y en X R. Ecuación
Varianza Varianza
= =
=2 =3
bxy = Coeficiente de regresión de x sobre y bxy=Coeficiente de regresión de Y sobre X
b = Coeficiente de regresión b=Coeficiente de regresión

X Y
bxy= r bxy= r
Y X
(X-X)=bxy (Y-Y) (Y-Y)=bxy (X-X)
2 3
X-20=0.75 (Y-25) Y-25=0.75 (X-20)
3 2
X-20=0.5 (Y-25) Y-25=1.125 (X-20)
X-20=0.5-12.5 Y-25=1.125-22.5
X=0.5-12.5+20 Y=1.125X-22.5+25
X=0.5+7.5 [Link] Y=1.125+2.5 R.Línea

143
07
Se te da los siguientes datos.

X-Sries Serie Y
Media 47 96
Varianza 64 81

Coeficiente de correlación = 0.36

Calcula Y cuando X es 50, y X cuando Y es 88.

SOLUCIÓN

X en Y [Link]ón Y en X [Link]ón

Varianza = 64 = 8 Varianza = 81 = 9

Y
bxy= r bxy= r
Y
X-X =bxy (Y-Y) (Y-Y) =bxy (X-X)
8 9
X-47=0.36 (Y-96) Y-96=0.36 (X-47)
9 8
X-45=0.3199 (Y-96) Y-96=0.405 (X-47)
X-47=0.3199Y-30.7199 Y-96=0.405X-19.035
X=0.3199Y-30.7199+47 Y=0.405X-19.035+96
X=0.3199Y+16.28 R.Línea Y=0.405X+76.965 Línea R.
Cuando Y=88 Cuando X=50
X=0.3199 X 88 + 16.28 Y=0.405 X 50 + 76.965
X=28.1512 + 16.28 =20.25 + 76.965
X= 44.4312 Y= 97.215

08
Los siguientes resultados para las alturas y pesos de 100 hombres fueron calculados.
Coeficiente de
Promedio Desviación Estándar
Correlación
Pesos 150 libras 20 libras
0.60
Alturas 68 2.5
Encuentra una estimación
1. El peso de un hombre cuya altura es de 5' (5' = 60")
2. Altura de un hombre que pesa 200 libras

SOLUCIÓN
Peso

144
X en Y R Ecuación X sobre Y R Ecuación
(X-X)=bxy (Y-Y)
(Y-Y)=byx (X-X)
20
20
(X-150)= X 0.6 (Y-68)
(Y-68)= (X-150)
2.5
2.5
X-150=4.8 (Y-68)
Y-68=0.075 (X-150)
X-150= 4.8Y-326.4
Y-68= 0.075X-11.25
X= 4.8Y-326.4+150
Y= 0.075X-11.25+68
X=4.8Y-176.4 RL cuando Y=60 5
Y=0.075X+176.4 RL cuando X=200 lbs
X=4.8 X 600-176.4
Y=0.075 X 200 + 56.75
X=111.6”
Y = 71.75 lbs
O X =9'-3.6”

COEFICIENTES DE REGRESIÓN
El coeficiente de regresión se denota por 'b'. Hay dos ecuaciones de regresión y, por lo tanto,
también hay dos coeficientes de regresión. Los coeficientes de regresión miden los cambios en la serie correspondiente
a un cambio de unidad en la otra serie.
El coeficiente de regresión de X sobre Y

X
es decir, bxy = r

Y
Danos el valor por el cual la variable X cambia por un cambio unitario en el valor de la variable Y.

∑dxdy X n – (∑dx X ∑dy)


bxy =
∑d2Yxn - (∑dy)2
De manera similar, la regresión de Y sobre X

Y
i.e. byx =r
X
Se refiere al valor por el cual la variable Y cambia por un cambio unitario en la variable X.

∑dxdy X n – (∑dx X ∑dy)


byx =
∑d2xX n-(∑dx)2

Estos dos coeficientes miden el cambio en la variable dependiente correspondiente a la unidad


cambio en la variable independiente. También ayudan en el cálculo directo del coeficiente de correlación.
La raíz cuadrada del producto de dos coeficientes de regresión nos da el valor de correlación.
como se indica a continuación;

X Y
Bxy X caja =ς Xr
Y X

Bxy X byx =ς2

r = bxy X byx

145
CÁLCULO DE COEFICIENTES DE REGRESIÓN Y REALIZACIÓN DE ESTIMACIONES DE UN-
VALORCONOCIDO

SERIES INDIVIDUAL
Cuando se proporcionan datos reales y las desviaciones son
tomado de la media asumida

ILUSTRACIÓN
A partir de los datos dados a continuación, encuentre;

a. Coeficientes de regresión
b. Ecuaciones de regresión
c. Estime la edad cuando B.P. es 130
d. Estime la P.A. cuando la edad es de 50 años
e. Encuentra el coeficiente de correlación a través de los coeficientes de regresión.

Edad 56 42 72 36 63 47 55 49 38 42 68 60
B.P 147 125 160 118 ciento cuarenta
128 y nueve
150 145 115 140 152 155

SOLUCIÓN
Edad X-47 B.P Y-128
D2x D2Y dxdy ∑dx
X dx Y dy
56 9 81 147 19 361 171 X=A+ X C
42 -5 25 125 -3 9 15 N
72 25 625 160 32 1024 800 64
36 -11 121 118 -10 100 110 =47+ X1
63 16 256 149 veintiuno 441 336 12
47 0 0 128 0 0 0 X=52.33
55 8 64 150 22 484 176 ∑dy
49 2 4 145 17 289 34 Y=A + XC
38 -9 81 115 -13 169 117 n
42 -5 25 140 12 144 -60 148
68 21 441 152 24 576 504 =128+ X1
60 13 169 155 veintisiete729 351 12
N= 64 1892 N= 148 4326 2554 =128+12.33
12 ∑dx ∑d2x 12 ∑dy ∑d2y ∑dxdy Y= 140.33

Coeficiente de regresión X sobre Y Coeficiente de regresión X sobre Y

X Y
bxy=ςY ς x
∑dxdy X n – (∑dx X ∑dy) ∑dxdy X n - (∑dx X ∑dy)
byx ∑d2Y X n - (∑dY) 2 byx = ∑d2x X n - (∑dX)2
= 2554 X 12 – 64X148 = 2554 X 12 - 64X148
4326X12 – (148)2 1892 X12 – (64)2
= 30648 - 9472 = 21176
51912 - 21904 22704 - 4096
= 21176 =0.7057 = 21176
30008 0.7057 18608 =1.138
X en Y = R. Ecuación X sobre Y =R. Ecuación
(x-0)=bxy (Y-Y) (Y-Y)=byx (x-0)
(X-52.33)=0.7057 (Y-140.33) Y-140.33=1.138 (X-52.33)

146
X-52.33=0.7057Y-99.031 Y-140.33=1.138X-59.55
X=0.7057Y-99.031+52.33 Y=1.138X-59.55+140.33
X=0.7057Y-46.701 Y=1.138X-80.78
Estimación de la edad (X) cuando Estimación de B.P (Y) cuando
B.P(Y) es 130 La edad(X) es de 50 años
X=0.7057 X 130-46.701 Y=1.138 X 50-80.78
=91.741-46.701 =56.9-80.78
45.04 años Y=137.68

Coeficiente de correlación =√bxy X bys = √0.7057 X 1.138


ς=0.896

ILUSTRACIÓN=10
A partir de los siguientes datos, obtenga las dos ecuaciones de regresión. También calcule el coeficiente de
correlación basada en el coeficiente de regresión.
Ventas: X 91 97 108 121 67 124 51 73 111 57
Compras: Y 71 75 69 97 70 91 39 61 80 47
SOLUCIÓN

X-67 Y-70
X dx2 Y Dx2 dxdy
dx dy
91 24 576 71 1 1 24 X=A +∑dx X C
97 30 900 75 5 25 150
W
108 41 1681 69 -1 1 -41
121 54 2416 97 27 729 1458 =67+230 X 1
67 0 0 70 0 0 0 10
124 57 3249 91 21 441 1197 =90
51 -16 256 39 -31 961 496
73 6 36 61 -9 81 -54 Y= A + ∑dy X C
111 44 1936 80 10 100 440 N
57 -10 100 47 -23 529 230 =70 + 0 X 1
230 11150 0 2868 3900 10
∑dx ∑d2x ∑dy ∑d2x ∑dxdy Y = 70
Regresión X sobre y en coeficientes Regresión Y sobre X en coeficientes
X Y
Bxy =ς Bxy =ς
Y X

∑dxdy X n – (∑dx X ∑dy) ∑dxdy X n – (∑dx X ∑dy)


Bxy= Bxy=
∑dy2X n – (∑dy)2 ∑d2x X n – (∑dX)2

= 3900 X 10 - (230 X 0) = 3900 X 10 - (230 X 0)


2868 X 10 - (0)2 11150 X 10 - (230)2

=39000 – 0 = 39000 39000 = 39000


28680 – 0 28680 = 1.359 11150 - 52900 = 1.359 = 0.665

147
Ecuación de regresión Ecuación de regresión

(X-X) = bxy (Y-Y) (Y-Y) = byx (X-X)


X-90 = 1.359 (Y-70) (Y-70)= 0.665 (X-90)
X-90 = 1.359Y - 95.B Y-70 = 0.665X - 59.85
X = 1.359Y - 95.B + 90 Y = 0.665X - 59.85 + 70
X = 1.359Y - 5.13 R.Línea Y = 0.665X + 10.15 R.Línea
Coeficiente de Correlación = √bxy X byx
=√1.359 X 0.665 = 0.9506

ILLUSTRATION = 11
Los siguientes datos están relacionados con las edades de maridos y esposas. Obtenga las dos regresiones.
ecuaciones y estimar la edad más probable del esposo para la edad de la esposa de 25 años.
Edades de los esposos 25 28 30 32 35 36 38 39 42 55
Edades de las esposas 20 26 29 30 25 18 26 35 35 46

SOLUCIÓN
X = A + ∑dx X C
x-36 Y-29 N
X Dx2
Y D 2y dxdy
dx dy = 36 + 0 X 1
25 -4 121 20 -9 81 99 10
28 -8 64 26 -3 9 24
X = 36
30 -6 36 29 0 0 0
32 -4 16 30 1 1 -4
Y = A + ∑dy X C
35 -1 1 25 -4 16 4 N
36 0 0 18 -11 121 0 =29 + 0 X 1
38 2 4 26 -3 9 -6 10
39 3 9 35 6 36 18 Y = 29
42 6 36 35 6 36 36 X
55 19 361 46 diecisiete289 323 Bxy = r Coeficiente R.
0 648 0 598 494 Y
N=10
∑dx ∑d2x ∑dy ∑d2y ∑dxdy Y
Caja = r Coeficiente R
X

∑dxdy X n – (∑dx X ∑dy) ∑dxdy X n – (∑dx X ∑dy)


byx byx
∑d2y X n-(∑dx)2 ∑d2xX n-(∑dx)2
= 494 X 10 – 0 X 0 = 494 X 10 - (0 X 0)
598X 10 – (0)2 648X 10 – (0)2
= 4940 = 4940
=0.8261 0.7623

148
Ecuación de regresión Ecuación de regresión

X – X = bxy (Y-Y) Y - Y = byx (X - X)


X - 36 = 0.8261Y - (Y - 29) Y - 29 = 0.7623 - (X - 36)
X –36 = 0.8261Y – 23.9569 Y - 29 = 0.7623X - 27.4428
X=0.8261Y – 23.9569 + 36 Y=0.7623X - 27.4428 + 29
X = 0.8261Y + 12.0431 R.L
Si la edad de la esposa es 25 (y)
Y = 0.7623X + 1.5572 R.Línea
X = 0.8261 X 25 + 12.0431 Coeficiente de correlación
20.6525 + 12.0431 r=√bxy X byx
X = 32.6956 =√0.8261 X 0.7623
La edad del esposo es de 32.6956 años. r = 0.7935

ILUSTRACIÓN = 12
Un panel de dos jueces P y Q calificó la actuación dramática otorgando puntos de manera independiente.
sigue.
Rendimiento 1 2 3 4 5 6 7
Marcas por 'P' cuarenta y42seis 44 40 43 41 45
Marcas por 'Q' 40 38 36 35 39 37 41
La actuación ocho a la que el juez Q no pudo asistir, fue premiada con 37 puntos por el juez P. Si
El juez Q también había estado presente, ¿cuántos puntos se podrían esperar que él hubiera otorgado a los ocho?
actuaciones.
SOLUCIÓN
Deje que las puntuaciones otorgadas por el juez P se representen por X y las otorgadas por el juez Q sean Y. Nosotros
tengo que encontrar el valor de Y cuando X=37. Esto se puede hacer encontrando la ecuación de regresión Y sobre X.
Cálculo de la Ecuación de Regresión Y sobre X
X-43 Y-38 ∑dx
X D2X Y D 2Y dxdy X=A+ X C
Dx dy
46 3 9 40 2 4 6 N
42 -1 1 38 0 0 0
44 1 1 36 -2 4 -2 =43+ 0 X 1
40 -3 9 35 -3 9 9 7
43 0 0 39 1 1 0 X=43
41 -2 4 37 -1 1 2
45 2 4 41 3 9 6 Y=A + ∑dy X C
0 28 0 28 21 N
∑dx ∑d2X ∑dy ∑d2y ∑dxdy
=38 + 0 X 1
Ecuación de regresión de Y sobre X
7
Y=38

Y - Y = bxy (X - X)
Y - 38 = bxy (X-43) X
∑dxdy X n – (∑dx X dy) 21 X 7 - 0 147 Bxy= r
bxy = ∑d2x X n - (∑dx)2 28 X 7 – 0 = 196 = 0.75 Y
Y - 38 = 0.75 (X - 43)
Y-38=0.75X–32.25
Y=0.75x +38 – 32.25
Y=0.75x + 5.75 R.Línea
Cuando X = 37
=0.75 X 37 + 5.75 Y=33.5

149
Si el juez Q hubiera estado presente, habría otorgado 33.5 puntos.

ECUACIÓN DE REGRESIÓN EN UNA DISTRIBUCIÓN DE FRECUENCIA AGRUPADA BIVARIADA


El procedimiento es el mismo que hemos seguido en el caso de series individuales.
La fórmula modificada es la siguiente;
Coeficiente de regresión de X sobre Y
X
es decir, bxy=ς
Y
∑fdxdy X N - (∑fdx X ∑fdy) c de x
bxy = X
∑fd2y X N - (∑fdy)2 c de y
Coeficiente de regresión de Y sobre X

Y
es decir, caja = r
X
∑fdxdy X N - (∑fdx X ∑fdy) c de y
caja X
∑fd2x X N – (∑fdx)2 c de x

Coeficiente de correlación = √bxy X byx

ILUSTRACIÓN

La siguiente tabla muestra las edades de los esposos y esposas de 50 parejas recién casadas. Encuentra las dos regresiones.
líneas. También estima. A) La edad del esposo cuando la esposa tiene 20 años y B) La edad de la esposa cuando el esposo tiene 30 años.
Edad de los esposos
Edad de las esposas
20-25 25-30 30-35 Total
16-20 9 14 - 23
20-24 6 11 3 20
24-28 - - 7 7
Total quince 25 10 50
SOLUCIÓN
El intervalo de clase para la edad del esposo x es = 5
El intervalo de clase para la edad de la esposa (Y) es =4

X - 27.5
Dx = 5

Y - 22
dy = 4

150
A=27.5
X 20-25 25-30 30-35 Total
C=5
A=22
22.5 27.5 32.5
C=4
dx
Y MV -1 0 1 f fdy fd2y fdxdy
dy
9
16-20 18 -1 9 14 - 23 -23 23 9
20-24 22 0 6 11 3 20 0 0 0
7
24-28 26 1 - - 7 7 7 7 7
50 -16 30
Total F 15 25 10 16
N ∑fsy ∑fd2y
-5
fdx -15 0 10
∑fdx
25
Fd2x 15 0 10
∑fd2x
fdxdy 9 0 7 16

X en Y R.E Y en X R.E

∑fdx -5 ∑fdx -16


X =A+ X C = 27.5 + X5 Y=A+ X C = 22 + X4
N 50 N 50
= 27 64
= 27 –
Coeficiente de regresión de X sobre Y 50
∑fdxdy X N – (∑fdx X ∑fdy) c de x = 22 - 1.28 = 20.72
bxy X ∑fdxdy X N – (∑fdx X ∑fdy) c de y
∑fd2y X n – (∑dy)2 c de y bxy X
=16 X 50 – (-5 X –16) 5 X 5 ∑fd y X n – (∑fdy)
2 2
c de x
30 X 50 - (-16)24 4 =16 X 50 – (-5 X –16) 4 X 4
800 - 80 5 720 5 25 X 50 - (-5)24 5
= X = X 800 - 80 4 720 4
1500 –256 4 1244 4 = X = X
= 3600 1500 –256 5 1225 5
4976 = 0.723 = 2880
6125 = 0.47
(X-X) = bxy (Y-Y)
X - 27 = 0.723 (Y - 20.72) (Y-Y) = byx (X-X)
X - 27 = 0.723Y - 14.98 (Y - 20.72) = 0.47 (X - 27)
X = 0.723Y - 14.98 + 27 Y - 20.72 = 0.47X - 12.69
X = 0.723Y + 12.02 R. Línea Y = 0.47X - 12.69 + 20.72
Estimación de la edad del esposo cuando Y = 20 Y = 0.47X + 12.03 R. Línea
X = 0.723 X 20 + 12.02 Estimación de la edad de la esposa cuando X = 30
X = 26.48 años Y = 0.47 X 30 + 8.03
= 1410 + 8.03
22.13 años
r = √bxy X caja
=√0.723 X 0.47 = 0.5829

151
ILUSTRACIÓN –14
Los siguientes son las calificaciones obtenidas por 132 estudiantes en la Prueba X y la Prueba Y. calcular a) La Regresión
Coeficiente
b) Dos Ecuaciones de Regresión
c) Coeficiente de correlación
X
30-40 40-50 50-60 60-70 70-80 Total
Y
20-30 2 5 3 - - 10
30-40 1 8 12 6 - 27
40-50 - 5 22 14 1 42
50-60 - 2 16 9 2 29
60-70 - 1 8 6 1 16
70-80 - 2 4 2 8
Total 3 21 63 39 6 132
SOLUCIÓN
A=55 X 30-40 40-50 50-60 60-70 70-80 Total
c=10
A=45 35 45 55 65 75
C=10
dx
Y MV -2 -1 0 1 2 f fdy Fd2y fdxdy
dy
8 diez
20-30 25 -2 2 5 3 - - 10 -20 40 18
2 8 -6
30-40 35 -1 1 8 12 6 - 27 -27 27 4
0 0 0
40-50 45 0 - 5 22 14 1 42 0 0 0
-2 9 4
50-60 55 1 - 2 16 9 2 29 29 29 11
2 12 4
60-70 65 2 - 1 8 6 1 16 32 64 14
12 1
70-80 75 3 - - 2 4 2 2 8 24 72 24

132 38 232
Total F 3 21 63 39 6 71
n ∑fdy ∑fd2y
24
Fdx -6 -21 0 39 12
∑fdx
96
Fd2x 12 21 0 39 24
∑fd2x
fdxdy 10 14 0 27 20 71

∑fdx ∑fdy
X =A+ XC Y=A+ XC
N N
=55 + 24 X 10 =45 + 38 X 10
132 132
=55 + 240 =45 + 380
132 132
=55 + 1.82 X = 56.82 =45 + 2.878 = 47.878

152
Regresión sobre el coeficiente de X en Y Regresión sobre el coeficiente de Y en X
∑fdxdy X N - (∑fdx X ∑fdy) C de X ∑fdxdy X N – (∑fdx X ∑fdy) C de Y
bxy X byx X
∑fd2y X N – (∑fdy)2 C de Y ∑fd2x X N – (∑fdx)2 C de X
= 71 X 132 – (24 X 38) 10 = 71 X 132 - (24 X 38) 10
232 X 132 - (38)2 10 96 X 132 – (24)2 10
= 9372 - 912 = 8460 = 8460 = 8460
30624 – 1444 29180 =0.289 12672 - 576 12096 =0.699
R. Ecuación R. Ecuación
X-X=bxy (Y-Y) Y-Y=bxy (X-X)
X-56.82 = 0.289 (Y-47.88) Y-47.88 = 0.699 (X-56.82)
X - 56.82 = 0.29Y - 13.8852 Y-47.88=0.7x– 39.774
X=0.29Y - 13.8852 + 56.82 Y=47.88=0.7x-39.774
X=0.29Y + 42.93 R.Línea Y=0.7x + 8.11 R.Línea

Coeficiente de Correlación = √bxy X byx


=√0.29 X 0.7 = 0.450

ILUSTRACIÓN

A continuación se presenta la distribución de estudiantes según su altura y peso.

Altura Peso en lbsY


En pulgadas X 90-100 100-110 110-120 120-130 TOTAL
50-55 4 7 5 2 18
55-60 6 10 7 4 27
60-65 6 12 10 7 35
65-70 3 8 6 3 20
TOTAL 19 37 28 16 100

De lo anterior,
a) Estime el peso cuando la altura es de 63 pulgadas
b) Estimar la altura cuando el peso es de 115 libras
c) Calcular el coeficiente de correlación

SOLUCIÓN: Sea X la altura en pulgadas, Sea Y el peso en libras

∑fdx ∑fdy
X =A XC Y=A XC
N N
- 43 59
=62.5 + X 5 =115 + X 10
100 100
= 62.5 – 215 = 115 - 590
100 100
= 60.35 Y = 109.1

153
Tot
Y 90-100 100-110 110-120 120-130
al
95 105 115 125
dy
X MV -2 -1 0 1 f fdx fd2x fdxdy
dx
16 14 -4
50-55 52.5 -2 4 7 5 2 18 -36 72 26

12 10 -4 1
55-60 57.5 -1 6 10 7 4 27 -27 27
8
0 0 0
60-65 62.5 0 6 12 10 7 35 0 0 0
-6 -8 3
65-70 67.5 1 3 8 6 3 20 20 20 -11
100 -43 119
Total f 19 37 28 16 33
N ∑fdx ∑fd2x
fdxy -38 -37 0 16 -59 ∑fdy
12 ∑fd2
fd2y 76 37 0 dieciséis ∑fdxdy
9 y
fdxdy 22 16 0 -5 33

Ecuación de regresión X en Y Ecuación de regresión Y sobre X

X Y
bxy = r byx = r
Y X
∑fdxdy X N – (∑fdx X ∑fdy) Cof x ∑fdxdy X N – (∑fdx X ∑fdy) Cof y
bxy = X byx X
∑fd y X N – (∑fdy)
2 2
Cof y ∑fd x X N – (∑fdx)
2 2
Cof x
=33 X 100 –(-43 X 59) 5 =33 X 100 –(-43 X 59) 10
129 X 100 - (59)2 10 119 X 100 – (-43)2 5
3300 - 2537 3300 + 2537 2
= X 0.5 = X
12900 – 3481 11900 – 1849 1
= 763 X 0.5 = 381.5 = 763 X 2 =0.15
9419 1 9419 = 0.0405 10051 byx =01518
R. Ecuación R. Ecuación

(X - X) = bxy (Y - Y) (Y - Y) = bxy (X - X)
X - 60.35 = 0.0405 (Y - 109.1) Y - 109.1 = 0.1518 (X - 60.35)
X - 60.35 = 0.0405y - 4.41855 Y - 109.1 = 0.1518x - 9.16113
X=0.0405y – 4.41855 + 60.35 Y=0.1518x - 9.16113 + 109.1
X=0.0405y + 55.93145 R.L Y=0.1518x + 99.93897 R.L
Estimación de la altura (x) cuando el peso (y) es 115 Estimación del peso (y) cuando la altura (x) es 63
libras. pulgadas.
X=0.0405 X 115 + 55.93145 Y=0.1518 X 63 + 99.93897
X=4.6575 + 55.93145 =9.5634 + 99.93897
X=60.6 pulgadas de altura 109.5 lbs
r=√bxy X caja =√0.0405 X 04518 = 0.0784

154
ILUSTRACIÓN
A partir de los siguientes datos, encuentra:

a) El valor más probable de Y, cuando X es 60 y


b) El valor más probable de X, cuando Y es 40 y
c) El coeficiente de correlación
X =53.2, Y=27.9 byx -1.5 y -0.2
SOLUCIÓN
X en Y [Link]ón Y en X [Link]ón

X (Y-Y) = caja (X-X)


(X-X)=r (Y-Y) Y-27.9 = -1.5 (X-53.2)
Y Y-27.9 = - 1.5x + 79.8
(X-53.2)=-0.2 (Y-27.9) Y = - 1.5x + 79.8 + 27.9
X-53.2 = -0.2Y + 5.58 Y=1.5x + 107.7 R.L
X = -0.2Y + 5.58 + 53.2 Si x es 60
X = -0.2Y + 58.78 R.Línea Y = -1.5 X 60 + 107.7
Si Y es 40 = - 90 + 107.7
X = - 0.2 X 40 + 58.78 17.2
X = 50.78

El coeficiente de correlación será r = √bxy X caja = √-1.5 X -0.2


- 0.5477

CUESTIONES TEÓRICAS (5, 10 Y 15 Puntos)


1. ¿Qué se entiende por regresión? ¿Cómo es útil este concepto para la previsión empresarial?
2. Destino claramente entre análisis de correlación y regresión.
¿Qué es el análisis de regresión? Indique sus usos.
4. Define regresión y explica su importancia
5. Explica brevemente:
a. Línea de regresión
b. Ecuación de regresión
c. Coeficiente de regresión

PROBLEMAS PRÁCTICOS
6. Dado los siguientes datos, calcula,
a. El valor esperado de Y cuando X=60
b. El valor esperado de X cuando Y=120
X Y
Promedio 65 120
SD 5 10

Coeficiente de correlación

07
Dado los siguientes datos, estima las calificaciones en Matemáticas para un estudiante que ha obtenido 60 puntos en Inglés.
Promedio Aritmético de Calificaciones en Matemáticas = 80
Promedio Aritmético de Calificaciones en Inglés = 50
SD de Calificaciones en Matemáticas _ _ _ _ _ _ _ 15
SD de calificaciones en inglés _ _ _ _ _ _ _ _ _ _ 10
Coeficiente de Correlación 0.4
[Answer : 86]

155
08
Encuentra el precio más probable en Bangalore correspondiente al precio de Rs.70 en Mysore de los siguientes
datos
Precio promedio en Mysore = Rs.65
Precio promedio en Bangalore = Rs.67
SD del Precio en Mysore = Rs.2.5
SD del Precio en Bangalore = Rs.3.5
El coeficiente de correlación entre los dos precios de la mercancía en las dos ciudades es 0.8.
También estima el precio en Mysore correspondiente al precio de Rs.50 en Bangalore.
72.6 y 55.3
09
Se te da la siguiente información.
X Y
Significado 36 85
S. D. 11 8

Coeficiente de correlación = 0.66


1. Encuentra las dos ecuaciones de regresión
2. Estimar el valor de X cuando Y = 75
[Respuesta X75= 26.92]
PROBLEM = 10
A continuación se presentan las calificaciones en Estadística (X) y Matemáticas (Y) de diez estudiantes
X 56 55 58 58 57 56 60 64 69 57
Y 68 67 67 70 65 68 70 66 68 66
Calcule el coeficiente de correlación basado en bxy y byx, también estime las calificaciones en Matemáticas de a.
estudiante que obtiene 62 puntos en Estadística.
[Answer: r = 0.78,bxy= 0.0294, Y = 67.59]
PROBLEMA NO: 11
A partir de los siguientes datos, obtenga ambas ecuaciones de regresión y estime la demanda (Y) si el precio (X) es
75.
Precio (X) 60 63 66 69 72 78 81 90 96 99
Demand(Y) 85 87 84 80 82 79 78 73 70 72

PROBLEMA NÚMERO: 12
Forme los datos dados a continuación, encuentre
a. Las dos ecuaciones de regresión
b. El Coeficiente de Correlación entre las calificaciones en Economía y Estadística.
c. Las calificaciones más probables en Estadística cuando las calificaciones en Economía son 30.
Calificaciones en Economía X 25 28 35 32 31 36 39 38 34 32
Calificaciones en Estadística Y 43 46 49 41 36 32 31 30 33 39

[Respuesta: X = 40.892 –1.234Y, Y = 59.248 –0.664X, r = 0.394, Y = 39]


PROBLEM =13
Los siguientes datos se refieren al precio y la demanda de una mercancía
a) Estimar la demanda cuando el precio es Rs.30
b) Estimar el precio cuando la demanda es de 65 unidades
c) Coeficiente de correlación.
Demanda en unidades 20 22 25 veintitrés18 16 14 17 21 19
Precio en Rs 50 45 38 42 55 58 59 54 49 57
29.6

PROBLEM = 14
La siguiente tabla muestra la distribución de frecuencia de parejas clasificadas según las edades.
Calcular,
a) Obtén dos coeficientes de regresión.
b) Estime la edad del esposo cuando la edad de la esposa es de 28 años.

156
c) Calcular el coeficiente de correlación.
Edad de la esposa Edad del esposo en años X
En años Y 20-25 25-30 30-35 35-40 TOTAL
15-20 20 10 3 2 35
20-25 4 18 6 4 32
25-30 - 5 11 - 16
30-35 - - 2 - 2
35-40 - - - 5 5
TOTAL 24 33 22 11 90
[ Answers, r = 0.612, X = 22.5, Y = 28.6, b = 31.7 , box = 0.558 ]
PROBLEM = 15
A partir de los siguientes datos,
a) Estimar X cuando Y = 30 y también b) Estimar Y cuando X = 20
X
5-15 15-25 25-35 35-45 TOTAL
Y
0-10 1 1 - - 2
10-20 3 6 5 1 15
20-30 1 8 9 2 20
30-40 - 3 9 3 15
40-50 - - 4 4 8
TOTAL 5 18 27 10 60
a) 28.7 b)22.31]
16
A partir de los siguientes datos, calcula
a) Coeficientes de regresión b) Coeficiente de correlación basado en bxy y box.
Y
30-35 35-40 40-45 45-50 TOTAL
X
25-30 20 10 3 2 35
30-35 4 28 6 4 42
35-40 - 5 11 - 16
40-45 - - 2 - 2
45-50 - - - 5 5
TOTAL 24 43 22 11 100
[Answer: X = 32.5, Y = 38.5 bxy = 0.6744 box = 0.5576, ς= 0.6132]
PROBLEM = 17
Calcula dos coeficientes de regresión. Estima el valor de X cuando Y = 49 también calcula
coeficiente de correlación basado en bxy y box.
X 43 44 46 40 44 42 45 42 38 40 42 57
Y 29 31 19 18 19 27 27 29 41 30 26 10
[Answer X = 64.8, Y = ? , bxy = -0.44, byx = -1.2198, ς= -0.732]
PROBLEM = 18
A partir de la siguiente tabla bivariada, calcule lo siguiente
a) Dos coeficientes de regresión
b) Coeficiente de correlación basado en bxy y box
X
59.9 79.5 99.5 119.5 139,5 159.5 179.5 TOTAL
Y
2.25 3 4 3 6 2 1 1 20
7.25 2 3 5 10 3 1 1 25
12.25 5 4 6 11 5 3 3 37
17.25 10 11 12 15 12 15 10 85
22.25 4 2 3 10 7 5 6 37
27.25 1 1 2 8 8 5 4 29
32.25 1 1 1 10 5 4 5 27
TOTAL 26 26 32 70 42 34 30 260

157
[Answer: X = 17.80, Y = 122.42, bxy = 0.05, box = 1.06, r = 0.230]

158
Escuela de Educación a Distancia

Aquí están las ecuaciones normales, 47.14 = 90 B + 20 A --- (1)

11.59 = 20 B + 5 A --- (2)

(1)4 (2) 10B 0.78 B 0.078 .

Resolviendo (2) usandoB 0.078, obtener A = 2.006.

Entonces,un Antilog(2.006) 101.3, y b Antilog(0.078) 1.196

Por lo tanto, la curva requerida es,

y 
101.3 (1.196)x
2.4. Líneas de regresión:

Deja(x1 ,y1 ),(x2,y2)


,…, (x n,yn) sea el conjunto dado de observaciones sobre dos variables X y
Un gráfico de dispersión de estos puntos revela una idea sobre la relación lineal entre X e Y. Si
existe una relación lineal entre X e Y, la línea sobre la cual los puntos en la dispersión
el diagrama de clúster se llama la línea de regresión y la ecuación que representa esta línea es
llamada la ecuación de regresión. Hay dos enfoques para encontrar la línea de regresión.
Uno está ajustando una línea recta de la forma y eje bto los datos dados(x1 ,y1 ),(x2,y2) ,…,
(x n,yn) , minimizando la suma de los cuadrados de posibles errores en los valores. El otro es
ajustando una línea recta de la forma x cy dto los datos, minimizando la suma de cuadrados
de posibles errores en los valores. Si todos los dados(x yo,yyo) los valores obedecen perfectamente a una línea
relación, entonces la línea recta ajustada por los dos enfoques anteriores será la misma. Pero en
general(x yoyyo) los valores pueden no obedecer perfectamente a una relación lineal, y por lo tanto lo anterior
los enfoques pueden dar dos líneas rectas diferentes para los datos dados. La línea recta
ajustado a los datos en la forma y eje al minimizar la suma de cuadrados de posibles
Los errores en los valores se conocen como la línea de regresión y sobre x y la línea recta ajustada a la.
datos en forma de x cy minimizando la suma de los cuadrados de los posibles errores en los valores x
se conoce como la línea de regresión x sobre y.

Para obtener la línea de regresión Y sobre X de la forma y eje bantes de los datos dados(x1 ,y1 ),
(x 2,y2) ,…, (x n,yn) las siguientes ecuaciones normales para ajustar y eje a resolver.

n n n
xYoyyo un xyo
2
b xyo   (1) y
yo 1 yo 1 yo 1

n n
yyo a xyon b    (2)
yo 1 yo 1

Transformemos x e y en X e Y como,X x xy y y; donde x e y son los


significa ofxandy respectivamente. Ahora las ecuaciones normales para ajustar una línea recta
conectando X e Y en la formaY aX bson:

Estadística Aplicada Page 29


Escuela de Educación a Distancia
n n n
XyoYyo una Xyo2b Xyo     (3)y
yo 1 yo 1 yo 1
n n
Yyo a Xyon b    (4)
yo 1 yo 1

n n n n
Pero aquí, Xyo (x x ) yo
0 y Yyo ( y  y) yo
0
yo 1 yo 1 yo 1 yo 1

Por lo tanto,
n n
(3) XyoYyo a Xyo2b 0
yo 1 yo 1

n n n
1
XyoYyo  xyox  y yyo  n
 xyox  y yyo 
yo 1 yo 1 yo 1
un(a)
n n n
1
Xyo2  xyox  2

n
 xyox  2

yo 1 yo 1 yo 1

Cov(x,y)
Eso es a
var(x)

(4) 0 a 0 n b b 0 .

Cov(x,y)
Entonces, la línea recta es,Y X 0 .
var(x)

Cov(x,y)
Por lo tanto, la línea de regresión y sobre x es,y y    x x  .
var(x)

De manera similar, la línea de regresión de x sobre y se deriva como,

Cov(x,y)
 x x   y y 
var(y)

Cov(x,y) Pxy
En la línea de regresión y sobre x, el coeficiente de x, 2
se conoce como el
var(x) x

coeficiente de regresión de y sobre x, denotado porbyxy en la regresión lineal sobre y, el


Cov(x,y) Pxy
coeficiente de y, 2
se conoce como el coeficiente de regresión de x sobre y, denotado por
var(y) y

bxy .

La línea de regresión y sobre x nos ayuda a predecir el valor de y para un valor dado de x.
y la línea de regresión en y ayuda a predecir el valor de x para un valor dado de y.

Estadísticas Aplicadas Page 30


Escuela de Educación a Distancia

Problema: Obtenga la línea de regresión de 'y sobre x' para los siguientes datos.

Edad x: 66 38 56 42 72 36 63 47 55 45

145 124 147 125 160 118 149 128 150 124

Estime la presión arterial de un hombre de 55 años.

Solución:

La línea de regresión y sobre x se define como,

Px
 y y  2
 x x,  donde Px = cov(X,Y), =x2V(X).
x

Usando los datos proporcionados para encontrar la media de x, la media de y, cov(X,Y) y V(X).

Los cálculos son los siguientes:

x y x2 xy

66 145 4356 9570


38 124 1444 4712
56 147 3136 8232
42 125 1764 5250
72 ciento sesenta 5184 11520
36 118 1296 4248
63 149 3969 9387
cuarenta y siete128 2209 6016
55 150 3025 8250
45 124 2025 5580

520 1370 28408 72765

520 1370
La media de X = 52Media de Y = 137
10 10

1 72765
Cov (X,Y) xy x y  52 137 152.5
n 10

Estadísticas Aplicadas Page 31


Escuela de Educación a Distancia

1 28408 2
V(X) x 2 x 2  52 136.8
n 10
Por lo tanto, la línea de regresión de y sobre x es,

152.5
 y 137  136.8
 x 52  y 
1.1148x 
79,03

Entonces, la presión arterial de un hombre cuya edad x = 55 se puede obtener sustituyendo x =


55 en la ecuación de regresión derivada y sobre x, esto implica, la presión arterial,

y 
1.1148  55 79.03 140.34 .

Problema: Para 10 observaciones en X e Y, se observaron los siguientes datos.

x 130 y 200 x 2 2288 y 2 5506 xy 3467

Obtén la línea de regresión de Y sobre X. Encuentra y cuando x = 16.

Solución:
Px,y
La línea de regresión y sobre x es,y y  2
 x x,  donde Px,y = cov(X,Y), =x2V(X)
x

1
Cov(X,Y) xy x y
n
1 130 200
10
 3467 = 86.7
10 10

2
1 1 130
V(X)
n
x 2 x 2
10
 2288 = 59.8
10

200 86.7 130


La línea de regresión Y sobre X es, y x
10 59.8 10

y 1.4498x 1.1526 .

Cuando x = 16, obtenemos,

y 1.4498 16 1.1526 24.3494 .

2.5. Coeficiente de correlación de Pearson:

Si hay una relación lineal entre las variables x e y, el grado de linealidad


la relación se mide por el coeficiente de correlación. Si todo lo que se da(x yo,yyo) puntos son
casi satisfaciendo una relación lineal, entonces estamos diciendo que hay un alto grado de linealidad
relación entre las variables. Si la relación lineal ajustada para las variables es de tal manera que
Estadísticas Aplicadas Page 32
Escuela de Educación a Distancia

manera en que el incremento en una variable resulta en el incremento de la otra también, entonces
existe una correlación directa (o positiva) entre las variables. Por otro lado
mano, si la relación lineal ajustada para las variables es tal que el incremento en
una variable resulta en la disminución de la otra, y luego hay una relación inversa (o negativa)
correlación existente entre las variables. Si no hay una relación lineal existente entre
las variables, la correlación es cero.

Un famoso estadístico británico, Karl Pearson, sugirió una medida de coeficiente de la


grado de correlación entre dos variables x e y, conocido como el coeficiente de Pearson
la correlación se denota por rxy, dónde,

n n
1 1
(xyox ) ( y  y) xyoyyoxy
Pxy n yo
n
rxy yo 1 yo 1
n n n n
x y 1 1 1 1
(xyox ) 2 ( yyo y) 2 xyo2 (x) 2 yyo
2
 (y)2
n yo 1
n yo 1
n yo 1
n yo 1

Teorema: Para dos variables x e y,1 rxy 1, dóndexyes el coeficiente de Pearson de
correlación.

Prueba:

(x yo x )
Deja(x1 ,y1 ),(x2,y2) ,…, (x n,yn) son las observaciones sobre x e y. Considera y
x
( y yo y)
, donde x y y son los medios y x y y ¿son las desviaciones estándar de x?
y

y respectivamente.
2
(x yo x ) ( y yo y)
Tenemos, 0, porque es el cuadrado de un número real.
x y

Sumando todos esos términos para i=1,2,…,n y dividiendo por n,

2
1 (x yo x ) ( y yo y)
0
n yo x y

1 (x yo x ) 2 1 ( y yo y) 2 1 (x yox ) ( y y)yo


En expansión,  2 0
n yo x
2 n yo y
2 n yo x y

1 1 1 1 1 1
(x yo x )  2 ( y yo y) 2 2 (xyox ) ( y  y) 0
x
n2 yo y
2 n
yo x y
n yo
yo

Estadística Aplicada Page 33


Escuela de Educación a Distancia
2
x
2
y Cov(x,y) Pxy
2
 2
2 0Es decir,1 1 2 0
x y x y x y

2 2rxy 0. Es decir, 1 rxy 0

Esto da, 1 rxy 0o1 rxy 0

Es decir, rxy  1o rxy 1

1 rxy 1

Pxy
Observación: Tenemos los coeficientes de regresión y sobre x,byx 2
y la regresión
x

Pxy
coeficientes x en y,bxy 2
La media geométrica de estos coeficientes de regresión da
y

la magnitud del coeficiente de correlación rxyEl signo de la correlación se determina por


el signo de la covarianza entre x e y,xySi es positivo
P rPxyxyes positivo en signo y si
Pxy es negativoxyes negativo en signo.

Teorema: (Invarianza del coeficiente de correlación bajo transformación lineal): A


x A y B
transformación de las variables x e y a u y v en la forma u y v es
c d
sin hacer ningún cambio en el coeficiente de correlación entre las variables. Es decir,rxy r uv

Prueba:

Deja(x1 ,y1 ),(x2,y2) ,…, (x n,yn) son las observaciones en x e y.

n
1
(xyox ) ( y  y)
n yo
Entonces, rxy yo 1
n n
1 1
(xyox ) 2 ( yyo y) 2
n yo 1
n yo 1

x A y B
Deja, u y v ;
c d

Entonces, el coeficiente de correlación de Pearson entre u y v,

n
1
(uyou)(v v )yo
n
ruv yo 1
n n
1 1
(uyou ) 2 (vyov ) 2
n yo 1
n yo 1

Estadística Aplicada Page 34


Escuela de Educación a Distancia

1
n
xA x A y Byo y B
yo
 
n yo 1 c c d d
r uv
2 2
1
n
xA  x A 1 n

yoy B
y B
yo
 
n yo 1 c c n yo 1 d d

1 n
xyox y yyo
n yo 1 c d
r uv 2 2
1 n
xyox 1 n
yyoy
n yo 1 c n yo 1 d

n
1 1
xyo x y yyo
cd n
r uv
yo 1
n n
1 1 2 1 2
xyo x y
yyo
cd n yo 1
n yo 1

1
Pxy Pxy
r cd
uv
1 x y
x y
cd

r uvrxy .

Problema: Encuentra el coeficiente de correlación para los siguientes datos sobre X y Y.

X: 65 66 67 67 68 69 70 72

Y: 67 68 65 68 72 72 69 71

Solución:

Pxy
Coeficiente de correlación,rxy
x y

Para encontrar 2
x, y , Pxy , 2
x y y

n n n
1 2 1 2 1
P xy  xy ; = xyo2 (x) 2 y =  ( y)
2
y yo
2
xy
n yo 1
yo yo x
n yo 1
y
n yo 1

Los cálculos son los siguientes:

x y x2 y2 xy

Estadística Aplicada Page 35


Escuela de Educación a Distancia

65 67 4225 4489 4355

66 68 4356 4624 4488

67 65 4489 4225 4355

67 68 4489 4624 4556

68 72 4624 5184 4896

69 72 4761 5184 4968

70 69 4900 4761 4830

72 71 5184 5041 5112

544 552 37028 38132 37560

1 1 1 1
x x yo 544 = 68 ; y y yo 552 = 69
n 8 n 8

1 n
1
Pxy xyoyyo xy = 37560 68 69 3
n yo 1 8

1 n
1
2
x =
n
xyo2 (x) 2 =   4.5
37028 68 2

yo 1 8

1 n
1
2
y = y  ( y) 2
2
yo =   5.5
38132 69 2
n yo 1 8

Pxy 3
Coeficiente de correlaciónrxy 0.603.
x y 4.5 5.5

Problema: Calcule el coeficiente de correlación de Karl Pearson para los siguientes datos;
x: 10 12 13 16 17 20 25
y 19 22 26 27 29 33 37
Solución:

Cov(X,Y)
Coeficiente de correlación r
S.D.(X) S.D.(Y)

El problema se puede resolver simplemente siguiendo los pasos mostrados en el ejemplo anterior.
Pero por cierta facilidad computacional, el problema también se puede resolver de la siguiente manera
ilustración.

Estadísticas Aplicadas Page 36


Escuela de Educación a Distancia

Tenemos el resultado de que el coeficiente de correlación es independiente del cambio de origen


y escala. Por lo tanto, podemos calcular la correlación entre X e Y al alterar

X y Y por alguna transformación lineal. Aquí, considera U = X - 16 y V = Y - 27.

La correlación entre U y V es la misma que la correlación entre X y Y.

Cov(U,V)
Correlación entre U y V, r
S.D.(U) S.D.(V)

Los cálculos son:

x y U = X - 16 U2 V2 UV

10 19 -6 -8 36 64 48

12 22 -4 -5 16 25 20

13 26 -3 -1 9 1 3

16 27 0 0 0 0 0

17 29 1 2 1 4 2

20 33 4 6 16 36 24

25 37 9 10 81 100 90

1 4 159 230 187

1 1 1 4
Cov(U , V)
n
uv u v 187
7
  26.71 .082 26.628
7 7

2
1 1 1
V(U) u 2 u2 159  22.71 0.02 22.69
n 7 7

2
1 1 4
V(V)
n
v 2  v2
7
 
230 32.86 0.327 32.533
7

26.628
Ahora, correlación entre U y V,r = 0.98
22.69 32.533

Ese es el coeficiente de correlación de X e Y = 0.98

2.6. Ángulo entre las líneas de regresión:

Las ecuaciones de regresión son

Estadística Aplicada Page 37


Escuela de Educación a Distancia

Pxy
 y y  2
 x xy 
x

Pxy
 x x  2
 y y 
y

Pxy Pxy y
Desderxy , el coeficiente de regresión y sobre x, 2
rxy y
x y x x

Pxy
El coeficiente de regresión x sobre y, 2
rxy x
.
y y

Por lo tanto, las ecuaciones de regresión son,y y r  xy


y
  (1) y
x x----
x

 x x  r xy
x
 y y  ---- (2)
y

La ecuación de regresión x sobre y se puede reescribir como y y   y


 x x----  (3)
rxy x

Ahora la ecuación de regresión y sobre x [ecuación (1)] y la de x sobre y [ecuación (3)] pueden ser
escrito en la forma y = m x + c de la siguiente manera:

y y
y r xy x r x y---- (1) y
xy
x x

y y
y x x y---- (3)
rxy yx rxy yx

y y
Desde aquí, obtenemos las pendientes de estas dos líneas de regresión como, m1 r xy
ym2
x rxy x

Consideremos como el ángulo entre las líneas de regresión. Entonces,

y y
rxy 
m1 m2 x rxy x
tan
1 m1m2 y y
1 r xy
x rxy x

rxy2 y y

rxy x
rxy2 y y x
2

2 rxy 2 2
y x x y
1 2
x

Estadísticas Aplicadas Page 38


Escuela de Educación a Distancia

rxy 12 σ y
2
tan(θ) x

rxy x x
2 y
2

rxy 12 x y
tan(θ) 2 2
rxy 
x y

Observaciones:

(i) Para dos variables x e y, si rxy 1, conseguimostanθ 0Esto implica el ángulo entre
las líneas de regresión tan1 0 0. Es decir, si existe una relación lineal perfecta.
entre x e y (ya sea directo o inverso), el ángulo entre la línea de regresión es
cero. O en otras palabras, las dos líneas de regresión coinciden o son las mismas.

(ii) Ifrxy 0, obtenemos tan Esto implica el ángulo entre las líneas de regresión
tan1 900Es decir, si no existe una relación lineal entre x e y, los dos
las líneas de regresión son perpendiculares.

Si hay dos líneas de regresión, es obvio que se intersectan en un punto. El


el punto de intersección de las líneas de regresión se puede obtener resolviendo la regresión
ecuaciones para x e y. Se puede hacer de la siguiente manera:

Tenemos la ecuación de regresión y sobre x;  y y  r xy


y
  (1) y la regresión
x x---
x

ecuación x sobre y;  x x  r xy
x
 y y  ---- (2)
y

Poner (2) en (1) da,y y r  xy


y
xyr
x
 y y 
x y

y  y r  xy
2
 y y 

1  r xy 
2
y 1 r xy
2
y y y

Ponery yen (2) x x  0 x x

Por lo tanto, el punto de intersección de las líneas de regresión es x,y  


2.7. Identificación de líneas de regresión y determinación del coeficiente de correlación

Si se nos da un1 x b y c1 1 0ya2x b2y c2 0como las dos líneas de regresión, es


identificar cuál de ellos representa la línea de regresión en y y cuál es la línea de regresión en x
y. Para esto primero asumimos la primera línea a1 x1b y c1 0 ¿es la línea de regresión y sobre x o
línea de regresión x sobre y. Supongamos que la primera línea es la línea de regresión y sobre x. Entonces nosotros

Estadísticas Aplicadas Page 39


Escuela de Educación a Distancia

a1 c1
expresa la línea en términos de y como,y  x Entonces, el coeficiente de regresión y sobre x es
b1 b1
a
byx  Si 1 se asume que la primera línea es la línea de regresión y sobre x, la segunda es la línea de regresión.
b1
b c2
x sobre y. Se escribe en términos de x como,x  y . 2Si es así, el coeficiente de regresión x sobre y,
a2a2
b
bxy  2 .
a2

Sabemos que la media geométrica de los coeficientes de regresión es la magnitud de


coeficiente de correlación rxyy1 rxy 1 .

a b2
Por lo tanto, si byxbxy 1
1 , podemos confirmar que nuestra suposición respecto a la
b1 a2
las líneas de regresión son iguales. De lo contrario, la primera línea es la línea de regresión x sobre y y la
b1
la segunda es la línea de regresión y sobre x. Entonces, los coeficientes de regresión son bxy  y
a1
a2 a b
byx  Entonces el coeficiente de correlación, rxy 2 1
que es el recíproco de rxy ,
b2 b2a1
obtenido por suposición previa.

Problema: Las dos rectas de regresión son


5 x 6 y 90 0
15x 8 y 130 0

Encuentra (i)
x, y (ii) coeficiente de regresión de y sobre x y de x sobre y (iii) coeficiente de correlación.

Solución:
Resolviendo las dos líneas de regresión dadas,
5 x 6 y 90 0----- (1) y15x 8 y 130 0----- (2), obtenemos x, y.
(2) 3 (1) 10 y 400 y 40.
y 40en(1) 5 x 6 40 90 0 x 30.

x, y   30, 40 . 
Asuma que la primera línea es la línea de regresión Y sobre X, entonces, la línea puede expresarse
5 90 5 a1
como,y x Esto implica el coeficiente de regresión Y sobre X  El segundo
6 6 6 b1

Estadísticas Aplicadas Page 40


Escuela de Educación a Distancia

8 130
la línea, X ion Y, se puede expresar como,x y Por lo tanto, el coeficiente de regresión X sobre
15 15
8 b2
Y  .
15 a2

a1b2 a1 b2 5 8
Entonces, =   0.444 1
a2b1 b1 a2 6 15

Por lo tanto, nuestra suposición es cierta. Es decir5 x 6 y 90 0es la recta de regresión Y sobre X
y15x 8 y 130 0es la línea de regresión X sobre Y. Entonces, el coeficiente de regresión de Y
5 8
en X = = 0.833. Coeficiente de regresión de X sobre Y = = 0.533 y correlación
6 15
coeficiente = 0.444. (aquí los coeficientes de regresión son positivos)

Problema: Dado que14 x 12 y 3 0y12x 21y 10 0¿Son las líneas de regresión para X?
y Y. Identifica las líneas de regresión y encuentra el coeficiente de correlación.

Solución:

14 3
Supón que el14 x 12 y 3 0si la línea de regresión Y sobre X, entonces, y  x .
12 2
14 a1
Esto implica el coeficiente de regresión Y sobre X   . La línea
12 b1
21 10 . Entonces
12x 21 años 10 0se asume como la línea de regresión X sobre Y, entonces, x  y
12 12
21 b2
el coeficiente de regresión X sobre Y   .
12 a2

a1b2 a1 b2
Entonces,  
a2b1 b1 a2

catorce21
=   = 2.04 > 1. Por lo tanto, nuestras suposiciones sobre el
12 12
las líneas de regresión NO son verdaderas.

Ahora,12x 21 años 10 0¿es la línea de regresión Y sobre X y la línea


14 x 12 y 3 0¿es la línea de regresión X sobre Y?

12 10 12 a1
Entonces,y  x , y coeficiente de regresión Y sobre X   .
21 21 21 b1

12 3 12 b2
Y,x  x el coeficiente de regresión X sobre Y   .
14 14 14 a2

Estadística Aplicada Page 41


Escuela de Educación a Distancia

a1b2 12 12
Entonces,, =   = 0.4898.
a2b1 21 14

Dado que los coeficientes de regresión son negativos, el coeficiente de correlación es (- 0.4898).

Problema: Las líneas de regresión son y eje banda x cy d. Si las dos variables tienen el
mismo significa, muestra qued (1 a) b(1 c) .

Solución:

Las medias de x e y se obtienen resolviendo las líneas de regresión para x e y.

1 d
Aquí la primera línea es y eje b--(1) y el segundo esx cy d--(2) eso es y x --(3)
c c
1 d
(3)y(1) eje b x
c c
d 1 a.C.
d
x b / a
c c 1 ac

aC d anuncio b
(1) y a b
1 ac 1 ac
ac d anuncio b
Esto implica, x y .
1 ac 1 ac
a.C. d anuncio b
Si las medias de las variables son iguales, podemos escribir,
1 ac 1 ac
Esto da,AC d anuncio b d anuncio b a.C.

1 a d  b1 c   .
Problema: Si las variables x e y satisfacen la relacióneje por c 0 Muestra que el
La correlación entre x e y es -1 o +1, según si a y b son del mismo signo o no.

Solución:
Dado que las variables satisfacen la relacióneje por c 0 , podemos escribir esto
a c
relación en la línea de la forma y sobre x como,y  x ; y en la línea de la forma x en y como,
b b
b c a
x  y . Entonces se identifican los coeficientes de regresión y sobre x y x sobre y como  ,y
a a b
b
 respectivamente. Luego, la magnitud del coeficiente de correlación se obtiene mediante la
a
a b
media geométrica de los coeficientes de regresión como,   1. Luego la correlación
b a
el coeficiente puede ser +1 o -1 según si los coeficientes de regresión son positivos o negativos.

Estadísticas Aplicadas Page 42


Escuela de Educación a Distancia

a b
Los coeficientes de regresión  y  se vuelve positivo, cuandoa y b estás con
b a
diferentes signos. Y se volverán negativos, cuandoa y b son del mismo signo. Por lo tanto,
el coeficiente de correlación es -1 o +1, segúna y b son del mismo signo o no.

2.8. Coeficiente de correlación de rango

Cuando estamos considerando dos características que son cualitativas en naturaleza, son
no es posible medir numéricamente. Por ejemplo, considere las características de la
habilidad en el dibujo (que sea X) y la habilidad en la música (que sea Y). No es posible
mida numéricamente los valores de X e Y, para un individuo. Pero si no hay
individuos, es posible clasificar a estos individuos según la habilidad en el dibujo
(X) y de acuerdo a su habilidad en la música (Y). Si estas dos características son altas
correlación positiva, entonces los rangos obtenidos para los individuos basados en X e Y estarán en
mismo orden. Si estas dos características tienen una alta correlación negativa, entonces los rangos
obtenidos para los individuos basados en X e Y estarán en orden inverso. Usando los rangos
obtenido para los individuos en función de las características X e Y, un método para encontrar
el coeficiente de correlación se deriva de C. Spearman en 1904. El coeficiente de
la correlación de dos características que se calculan en función de los rangos se conoce como
Coeficiente de Correlación por Rangos de Spearman.

Supongamos que hay n individuos clasificados según dos características cualitativas.


considerado. Deja(x yo,yyo) denotar el rango de layo thindividual cuando se clasifica según el
características. Así que elxyo, yyolos valores son los números del 1 al n.

Desdeyolos valores son los números del 1 al n, la media de los valores x,


suma de los primeros n números naturales 1n(n 1)(n  1)
x
n n 2 2
De manera similar,
suma de los primeros n números naturales 1n(n 1)(n  1)
y
n n 2 2
Varianza de xyovalores
2
2 tum of cuadrados oprimeron nnúmeros naturales (n 1)
x

n 2
2
2 1n(n 1)(2n 1)(n 1)
x

n 6 2
;
n 2 1
12

2 n 2 1
De manera similar,y .
12

Dejadyo x yyo. Esto


yo da,d x y 0

Estadística Aplicada Page 43


Escuela de Educación a Distancia

Varianza de valores 'd',


n n
1 21
2
d
n
dyo2d
n
 xyo y 0 yo
2 2

yo 1 yo 1
n
1
n
 xyo y yo
2

yo 1
n
1
d2yo
n yo 1

n
1 1 n 1 n
d2yo como, d2yo  yo
2
Desde y, podemos reescribir xyo x y y
n yo 1 n yo 1 n yo 1

n n 2
1 1
d 2
yo  xyox y  y yo 
n yo 1 n yo 1

n n 2 n 2 n
1 1 1 1
d
2
yo   
x x
yo    
y y 2
yo   
x x y y
yo
  yo 
n yo 1 n yo 1
n
yo 1
n
yo 1

n
1
d
2
yo
 x2  2 cov(x,
y
2
y)
n
yo 1

Pero, tenemos, cov(x,y) rσ σy,xdónde está el coeficiente de correlación. Por lo tanto,


n
1
d2yo x2  2r y 2 x y
n yo 1

2 2 n 2 1
Desde, x y ,
12

1 n
n 2 1n 2 1 n 2 1n 2 1
obtenemos, d2yo   2r
n yo 1 12 12 12 12

1 n
n 2 1 n 2 1
d2yo 2 2 r
n yo 1 12 12

1 n
n 2 1
d2 yo
1 r 
n yo 1 6

Estadística Aplicada Page 44


Escuela de Educación a Distancia
n
6d2
yo
1 r yo 1
o

n n2 1 
n
6d2
yo
el coeficiente decorrelación r 1 yo 1
.

n n2 1 
Problema: Los siguientes son los rangos obtenidos por 10 estudiantes en Estadística y Matemáticas
Estadísticas: 1 2 3 4 5 6 7 8 9 10
Matemáticas: 1 4 2 5 3 9 7 10 6 8
¿Hasta qué punto está relacionada el conocimiento de los estudiantes en las dos materias?

Solución:
Aquí para encontrar el coeficiente de correlación por rangos de los rangos en Estadísticas y
Matemáticas. El coeficiente de correlación por rangos se define como,

6 d2yo
r 1 yo
,dyoes la diferencia en rangos.
n(n 2 1)
Los cálculos son:

Rango enStat. xyoRango en Matemáticas yyo dyo=xyo-yyo dy o 2

1 1 0 0
2 4 -2 4
3 2 1 1
4 5 1 1
5 3 2 4
6 9 3 9
7 7 0 0
8 10 -2 4
9 6 3 9
10 8 2 4

36

6 d2yo
6 36
Por lo tanto,r 1 yo
= 1 1 0.2189 0.7819
2
n(n  1) 10(102 1)

Problema: 10 competidores en una prueba de música fueron clasificados por tres jueces A, B y C de la siguiente manera
pedido.
Estadística Aplicada Page 45
Escuela de Educación a Distancia

Rangos por A: 1 6 5 10 3 2 4 9 7 8
Clasificaciones por B: 3 5 8 4 7 10 2 1 6 9
Rangos por C: 6 4 9 8 1 2 3 10 5 7
Discute qué pareja de jueces tiene los enfoques más cercanos a los gustos comunes en la música.

Solución:

Aquí para encontrar el coeficiente de correlación de rango entre cada par de jueces
teniendo en cuenta los rangos que han dado. Identificar el par de jueces con alta correlación
coeficiente. Se considera que tienen los enfoques más cercanos a los gustos comunes en la música.

Los cálculos son los siguientes:

Rangos Rangos Rangos xyo-yyo xyo- zyo yyoz- yo  xyo y yo  xyoz yo   z yo
2 2 2
yyo
por A por B por C
xyo yyo zyo

1 3 6 -2 -5 -3 4 25 9
6 5 4 1 2 1 1 4 1
5 8 nueve -3 -4 -1 9 16 1
10 4 8 6 2 -4 36 4 16
3 7 1 -4 2 6 16 4 36
2 10 2 -8 0 8 64 0 64
4 2 3 2 1 -1 4 1 1
9 1 10 8 -1 -9 64 1 81
7 6 5 1 2 1 1 4 1
8 9 7 -1 1 2 1 1 4
200 60 214

6 d2yo
6 200
Correlación de rangos entre A y B,r 1 yo
= 1 0.212
n(n 2 1) 10(102 1)

6 d2yo
6 60
Correlación de rangos entre A y C,r 1 yo
= 1 0.6364
n(n 2 1) 10(102 1)

6 d2yo
6 214
Correlación de rangos entre B y C,r 1 yo
= 1 0.297
n(n 2 1) 10(102 1)

Se puede observar que los jueces A y C están teniendo los enfoques más cercanos a
gustos comunes en la música.
Estadísticas Aplicadas Page 46
Escuela de Educación a Distancia
Problema: Encuentra el coeficiente de correlación por rangos para los siguientes datos:

X: 92 89 87 86 84 77 71 63 53 50
Y: 86 83 91 77 68 85 52 82 37 57
Solución

Primero, los valores dados de X e Y deben ser clasificados. Si una observación se repite, entonces
la suma de los rangos se divide equitativamente entre las observaciones. (Por ej., cuando estamos
clasificando las observaciones en orden, y dejando un número, saya, llegando en el 6thy 7th
la posición entonces los primeros y segundos valores se asignan con el rango 6.5).

Aquí las observaciones están clasificadas en orden descendente. Luego encuentra la clasificación.
coeficiente de correlación.

x y  xyo y yo
2
Rango de X, xyo Rango de Y, yyo xyo-yyo

92 86 1 2 -1 1

89 83 2 4 -2 4

87 91 3 1 2 4

86 77 4 6 -2 4

84 68 5 7 -2 4

77 85 6 3 3 9

71 52 7 9 -2 4

63 82 8 5 3 9

53 37 9 10 -1 1

50 57 diez 8 2 4

44

6 d2yo
coeficiente de correlación por rangosr 1 yo
n(n 2 1)

6 44
1 0.733
10(102 1)

Estadística Aplicada Page 47


Escuela de Educación a Distancia
Coeficiente de correlación por rangos cuando hay rangos iguales (rangos empatados):

Cabe señalar que la fórmula de correlación por rangos de Spearman se deriva de la


asunción de que todos los rangos son diferentes. Pero en la práctica, hay muchas situaciones,
donde más de un individuo está obteniendo el mismo rango. En una competencia considera,
tres individuos recibieron 3rdclasificación. Ellos habrían dado el 3rd,4th, y 5thrango, si
hubo ligeras diferencias en la evaluación. Luego sumamos 3, 4 y 5, que son 12. Luego
12 se divide igualmente entre estas tres personas. Por lo tanto, asignamos el rango 4 a cada uno de ellos.
estos tres individuos. En tales situaciones es más preciso calcular el coeficiente de Pearson.
coeficiente de correlación entre las posiciones directamente después de asignar el rango promedio a
los que tienen el mismo rango. Pero también hay una fórmula modificada del rango de Spearman
coeficiente de correlación, que es el siguiente:

n
1 1
6 d2yo myo myo2 1  m j  mj12 
12 12
yo 1 yo j
r 1 , donde,myorepresenta el número de
n  n2 1 
veces elyo thrango de repeticiones en la serie x de rangos ym jes el número de veces que elj thrango
se repiten en la serie y de rangos cuando se asignan los rangos [Link] método es
ilustrado a continuación:

Obtenga el coeficiente de correlación por rango para los siguientes datos:

X: quince 20 28 12 40 60 20 80

Y: 40 30 50 30 20 10 30 60

Ilustración:

Al principio asignamos rangos para los valores de X e Y. Aquí tenemos 8 conjuntos de datos. Eso es
n=8.

Los rangos son:

X: 7 5.5 4 8 3 2 5.5 1

Y: 3 5 2 5 7 8 5 1

Aquí en X valores, 20 se repite dos veces, con los posibles rangos, 5 y 6. Por lo tanto, su
se proporciona un promedio de 5.5 para el valor 20. De manera similar, en los valores Y, 30 se repite tres veces, con
rango posibles 4, 5 y 6. Por lo tanto, su promedio 5 se asigna como los rangos de los valores 30.
Ahora la diferencia en rangos,dyo X yo Ylosyovalores son:

dyo: 4 0.5 2 3 -4 -6 0.5 0

dy o:2 16 0.25 4 9 16 36 0.25 0

Estadísticas Aplicadas Page 48


Escuela de Educación a Distancia

Esto da, d2yo 81.50 .


yo

myo 2 (Porque en los valores de X, solo el valor 20 se repite dos veces) ym j 3 ( porque en Y
valores, solo el valor 30 se repite tres veces.

n
1 1
6 d2yo myo myo2 1  m j  mj12 
12 12
yo 1 yo j
Por lo tanto,r 1
n  n2 1 
1 1
6 81.50 2 22 1  3  3 2 1 
12 12
1
8  8 1 
2

6 81.50 0.5  2
1 = 0.
8  63

2.9. Correlaciones parciales y múltiples:

En un estudio estadístico, si hay muchas variables incluidas, y cada vez que estamos
interesado en estudiar el efecto conjunto de un grupo de variables sobre una variable no incluida
en ese grupo, nuestro estudio trata sobre correlaciones múltiples y regresiones múltiples.

Por ejemplo, en el estudio sobre el rendimiento de un cultivo por acre (supongamos que seaX 1), el valor de la
variableX 1es un efecto conjunto de las variables, calidad de la semilla  X2 fertilidad del suelo X3
fertilizante utilizado  X4 instalaciones de riego  X5 , condiciones climáticas  X6 y así sucesivamente.

Si estamos considerando la relación entre solo dos variables, hay dos


alternativas;

(i) Solo consideramos esos dos miembros de los datos observados en los que el
otros miembros han especificado valores. O,

(ii) Podemos eliminar matemáticamente el efecto de otras variables sobre los dos
variables bajo consideración.

El primer método tiene la desventaja de que limita el tamaño de los datos y también
aplicable solo a los datos en los que se han asignado valores a las otras variables

En el segundo método, puede que no sea posible eliminar toda la influencia de las variables, pero
el efecto lineal se puede eliminar fácilmente. La correlación y la regresión entre solo dos
Las variables que eliminan los efectos lineales de otras variables consideradas se llaman parciales.
correlación y regresión parcial.

Limitemos nuestra discusión a tres variablesX 1 , X 2yX 3 .

Estadística Aplicada Page 49


Escuela de Educación a Distancia

La ecuación del plano de regresión deX 1encimaX 2yX 3es,

X1 a bX12.3
2 b X3   13.2
(1)

Deja que las observaciones sobreX 1X 2,yX 3se miden desde sus respectivas medias, es decir,
X1 x  x1yo 1 , X2 x  xyX
2yo 2x x 3  3i 3  .

Entonces,  x1ix 1   x2ix 2   3


x3ix Eso es X1 X2 X3 0

Al tomar la suma en (1), obtenemos a = 0.

Entonces (1) implica, X1 bX12.3


2 bX3   (2)
13.2

Los coeficientes b12.3 yb13.2son los coeficientes de regresión parcial deX 1enX 2y
eso deX 1enX 3respectivamente.

e12.3 bX 212.3
 bX 3se llama
13.2
la estimación deX 1como se da por la ecuación del plano
de regresión (2).

La cantidadX b
X1.23 X 1 b X12.3 2 13.2 3 se llama la estimación del error o residual.

En el subíndice del residuoX 1.23el subíndice antes del ‘.’ es conocido como el
el subíndice primario y el otro después del subíndice, es decir, 2 y 3 se llaman el secundario
subíndices.

El orden de los coeficientes de regresión está determinado por el número de secundarios.


subíndices. Por ejemplo.,b12.3 es el coeficiente de regresión de orden 1. En b12.3 , X 2es independiente
yX 1es dependiente. Enb21.3, X 1es independiente yX 2es dependiente.

A partir de la ecuación del plano de regresión dada en (2), las constantes b son
determinado por el principio de mínimos cuadrados.

Suma de los cuadrados de los residuos,

S  X1.23
2
 X1b X12.3
b 2X 13.2 3  2

S
b12.3
0  2X X b  X 2b   X
1 12.3 2 13.2 3  0

S
b13.2
0  2X 
X b 
X 3b  X
1 12.3 2 13.2 3  0

X2 X1.23 0y X3 X1.23 0

Estadística Aplicada Page 50


Escuela de Educación a Distancia
2
X 1X b2 12.3 X 1b 13.2 X 2X 3
0
2
   (3)
X 1X b3 12.3 X 2X b3 13.2 X3 0

2 1
DesdeXyo' s se miden desde sus respectivas medias, tenemos, 1 X12 ,
N

cov(XyoXj)
1
XyoXjandr
 yo
covX,X  j XyoXj
ij .
N N
yo j yo j

Por lo tanto, las ecuaciones dadas en (3) dan,

2
r 121
 b2  b 12.3r 2 13.2 23 2 3
   (4)

13 1
 b3 r12.3 23 2
 3b 13.2 3
2

(4) rσ112 b  b12.3 r 2 13.2 23 3

r13 1 b 12.3r 23 2
b 13.2 3

r 12 1r 23 3 r12 r23
r 13 1 3 r13 1
Resolviendo estas ecuaciones, obtenemos,b 12.3
1
y,
2 r23 3 2
1r 23

r23 2 3 r23 1

r23 2 r13 1 r23 r13


2 r12 1 1 1r 12
b13.2
r23 2 3 3
r23 1
2 r23 3 1r 23

1r 12
1 r23 r13
3
1r 23
r23 1

1r 12 r13
Si escribimos, r21 1r ,y
veintitrés
yo j es el cofactor del(yo, j)thelemento de , entonces,
r31 r32 1

b 12.3 
1 12
y b 13.2 1 13
Ahora obtenemos,
2 11 3 11

X1  1 12
X 2  1 13
X3
2 11 3 11

Estadística Aplicada Page 51


Escuela de Educación a Distancia

X1 X3 X
2
11
 12
0 13 .
1 2 3

2.10. Propiedades de los residuales

(i) Suma del producto de cualquier residual de orden cero con cualquier otro residual de
el orden superior es cero, siempre que el subíndice del anterior ocurra entre los
subíndices secundarios de la letra.

(ii) X1.2 X1.23 X1 X1.23 X1.232

(iii) La suma del producto de dos residuos es cero, si todos los subíndices (primarios
así como secundarios) de uno ocurren entre los subíndices secundarios del
otro. Ej., X X 0 , X X 0
1.2 3.12 2.3 1.23
2.11. Coeficiente de correlaciones múltiples

Considera las variablesX 1 , X 2yX 3tiene N observaciones. La correlación múltiple


deX 1enX 2yX 3, generalmente denotado por R1.23 es el coeficiente de correlación simple entre
X 1y el efecto conjunto deX 2yX 3enX 1En otras palabras, R1.23 es la correlación
coeficiente entreX 1y su valor estimado según el plano de regresión deX 1en
X 2yX 3 .

cov(X 1 , e)1.23
Es decir,R 1.23 , que se deriva como,
V( X 1 )V(e1.23)

r122 r 2 132r r r
R 2
1.23 12 13 23
1 r 2 23

El coeficiente de correlación múltiple mide la cercanía de la asociación entre


los valores observados y los valores esperados de una variable obtenidos de la regresión lineal múltiple
regresión de esa variable sobre las otras variables. Se prueba que0 R 1 1.23

SiR1.231 , entonces la asociación es perfecta y todos los valores predichos de X 1coincide con
los valores observados deX 1 .

SiR1.23 0 , entoncesX 1es completamente no correlacionado con los valores predichos deX 1 .
Esa es la ecuación de regresión que no arroja ninguna luz sobre el valor deX 1, cuandoX 2y
X 3son conocidos.

2.12. Coeficiente de correlación parcial

El coeficiente de correlación entreX 1yX 2después del efecto lineal deX 3en cada
de ellos ha sido eliminado se llama coeficiente de correlación parcial deX 1yX 2 .

Estadística Aplicada Page 52


Escuela de Educación a Distancia

DejaX 1.3 X 1 bX133puede considerarse como parte de la variableX 1lo que queda
después del efecto lineal deX 3ha sido eliminado.

De manera similar,X 2.3 X 2 b23X 3es la parte deX 2obtenido después de eliminar lo lineal
efecto deX 3 .

La correlación parcial entreX 1yX 2, denotado por12. 3 se da por r

cov(X1.3 ,X2.3)
r12.3 .
V(X1.3)V(X2.3)

r12r r
Esto se deriva como, r12.3 13 23 .
 1 r 21  r
13
2
 23

De manera similar, las expresiones parar y rse puede


13.2 23.1 obtener.

Problema: Para el variablesX 1 , X 2yX 3 , lo es dado eso


2 2 2
1 2, 2 3
3,r 120.7,r r 230.5. Encuentra
31
(i) r23.1 (ii) R1.23 y (iii) b13.2 .

Solución:

r r
r23
(i) Tenemos, r23.1 21 31
 1 r 21  r
21
2
 31

0.5 0.7 0.5


r23.1
Por lo tanto,
 1 0.72  1 0.5  2

= 0.2425.

r122 r 2 132r r r
(ii) R 21.23 12 13 23
1 r 2 23

0.72 0.52 2 0.7 0.5 0.5


Por lo tanto,R 1.23
2
1 0.52

= 0.52 R 1.230.721 .

1r 12

b13.2 1 r23 r13


(iii)
3
1r 23

r23 1

Estadísticas Aplicadas Page 53

También podría gustarte