DIAGRAMA DE DISPERSIN
Utilcelo cuando necesite mostrar lo que sucede a una variable cuando
otra cambia, con la finalidad de probar la teora de que las dos
variables se relacionan.
Este tipo de diagramas se usa para probar posibles relaciones entre
causa y efecto; no puede probar que una variable causa la otra, pero
s aclara si existe alguna relacin y la intensidad que pudiera tener la
misma.
La direccin y la unin de la agrupacin le da idea sobre la fuerza de la
relacin entre la variable 1 y la variable 2. Cuanto ms se asemeje a una
lnea recta, ms fuerte ser la relacin entre las variables.
Tipos de Diagramas de Dispersin
Clculo de Covarianza y Coeficiente de Correlacin
6
Cuando se trata de una distribucin bidimensional...
Covarianza: Es una medida de lo que se dispersan los valores de una muestra bidimensional tanto del
valor medio de la x como del valor medio de la y. Se determina mediante la expresin:
Covxy S xy
x xy y
i
o bien mediante Cov xy S xy
x y
i i
xy
La covarianza entre dos variables, Sxy, nos indica si la posible relacin entre dos variables es directa o
inversa.
Directa: Sxy >0
Inversa: Sxy <0
Sin Relacin Lineal : Sxy =0
Relacin
positiva
Relacin
negativa
Ninguna
relacin
El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice
nada sobre el grado de relacin entre las variables
Coeficiente de Correlacin de Pearson R
Bondad de los ajustes
El coeficiente de correlacin de Pearson, r, nos permite saber si el
ajuste de la nube de puntos a la recta de regresin obtenida es
satisfactorio.
Se define como el cociente entre la covarianza y el producto de
las desviaciones tpicas (raz cuadrada de las varianzas)
r
Vxy
VxVy
S xy
2
x
S S
2
y
S xy
SxS y
Teniendo en cuenta el valor de la covarianza y las varianzas, se
puede evaluar mediante cualquiera de las dos expresiones siguientes:
x y
i
x y
2
xi2
2 yi
2
n x n y
n xi yi xi yi
n x x n y
2
i
2
i
yi
Grado de Correlacin
El coeficiente de correlacin, r, presenta valores entre 1 y +1.
Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La
nube de puntos est muy dispersa o bien no forma una lnea recta. No se
puede trazar una recta de regresin.
Cuando r es cercano a +1, hay una buena correlacin positiva entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente positiva, ser creciente.
Cuando r es cercano a -1, hay una buena correlacin negativa entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente negativa: es decreciente.
No
hay
correlacin
r 0
Hay correlacin Correlacin
lineal positiva
no lineal
r 0
r 1
Correlacin
lineal negativa
r 1
Coeficiente de Determinacin, R2
Para estimar la bondad de un ajuste frecuentemente se prefiere
utilizar el Coeficiente de Determinacin, R2, que es el Coeficiente de
Correlacin elevado al cuadrado.
Se determina mediante cualquiera de las dos expresiones
2
siguientes:
xy
i i x y
n
2
R
2
xi2
2 yi
2
y
n
n
n x y x y
n x x n y y
2
R2
2
i
2
i
Su valor oscila entre 0 y +1.
Cuando hay una buena correlacin lineal, R2 es muy cercano a +1.
Normalmente se acepta para valores de R2 >= 099.
Cuando no hay correlacin o bien sta no es lineal, R2 es bajo e
incluso cercano a cero
10
La Recta de Regresin Lineal
Ejemplo 1
Una agencia de coches estudia la
relacin entre el cuenta kilmetros y
el precio de venta de coches
usados.
Se selecciona una muestra y se
registran los datos.
Hallar la lnea de regresin
Auto
1
2
3
4
5
6
Cuenta Km
37388
44758
45833
30862
31705
34010
Precio
14636
14122
14016
15590
15568
14718
Variable
Variable
Independiente "x" Dependiente "y"
Solucin
Solucin manual: Calcular varios estadsticos
Suma
Promedio
Kilmetros
Precio USS
Xi
Yi
Xi*Yi
Xi
Yi
37388
14636
547210768
1397862544
214212496
44758
14122
632072476
2003278564
199430884
45833
14016
642395328
2100663889
196448256
30862
15590
481138580
952463044
243048100
31705
15568
493583440
1005207025
242362624
34010
14718
500559180
1156680100
216619524
224556
88650
3296959772
8616155166
1312121884
37426,00
14775,00
549493295,33
x 37426
y 14775;
sx2
(x
x )2
1436025861,00 218686980,67
35.320.385
(x
cov( X , Y )
x )( yi y )
n
3.475.854,67
La Recta de Regresin Lineal
Parmetros del modelo lineal
cov( X , Y ) 3.475.854,67
0,09840
2
sx
35.320.385
A y Bx 14.775 (0,09840)(37.426) 18.458,06
Modelo Lineal
y A B x 18.458,06 0,09840 x
Es confiable el modelo ya que R : -0,9409
La Recta de Regresin Lineal
Grafico de Dispersin
La Recta de Regresin Lineal
Ejercicio: 2
En el ejemplo 2, supongamos que el nmero medio de horas-hombre
depende linealmente del tamao del lote:
De los datos tenemos:
y
i 1
x
i 1
2
i
1100
x
i 1
28400
y
i 1
2
i
500
x y
i 1
134660
n 10
61800
La Recta de Regresin Lineal
61800 10 110 50
B
2,0
2
28400 10 50
A 110 2 50 10
y i 10 2 xi
La Recta de Regresin Lineal
Si la cantidad de aditivo x 55 , estimamos que la distribucin de probabilidades de Y
tiene una media de Y 10 2 55 120HH
Horas - Hombre
170
120
70
20
20
30
40
50
Tamao del Lote
60
70
80
La Recta de Regresin Lineal
En el caso del ejemplo de horas hombre el coeficiente de determinacin es:
R2
13600
0,9956
60
Esto significa que el 99,56% de la variabilidad en la variable de las horas hombre, es
explicada por el tamao del lote, el modelo lineal parece satisfactorio en este caso.
El Coeficiente de Correlacin creado por Karl Pearson alrededor de
1900, describe la fuerza de la relacin entre dos conjuntos de variables en
escala de intervalo o de razn. Se designa con la letra r, y con frecuencia se
le conoce como r de Pearson y coeficiente de correlacin productomomento. Puede adoptar cualquier valor de 1.00 a +1.00, inclusive. Un
coeficiente de correlacin de 1.00 o bien de +1.00 indica una correlacin
perfecta.
COEFICIENTE DE CORRELACIN Medida de la fuerza de la relacin
lineal entre dos variables.
CARACTERSTICAS DEL COEFICIENTE DE CORRELACIN
1. El coeficiente de correlacin de la muestra se identifica por la letra
minscula r.
2. Muestra la direccin y fuerza de la relacin lineal (recta) entre dos
variables en escala de intervalo o en escala de razn.
3. Vara de 1 hasta +1, inclusive.
4. Un valor cercano a 0 indica que hay poca asociacin entre las variables.
5. Un valor cercano a 1 indica una asociacin directa o positiva entre las
variables.
6. Un valor cercano a 1 indica una asociacin inversa o negativa entre
las variables.
COEFICIENTE DE DE DETERMINACIN
Una medida cuyo significado se interpreta con ms facilidad es
Coeficiente de Determinacin. ste se calcula elevando al cuadrado
coeficiente de correlacin.
COEFICIENTE DE DETERMINACIN Proporcin de la variacin total en
variable dependiente Y que se explica, o contabiliza, por la variacin en
variable dependiente X.
el
el
la
la
PRINCIPIO DE LOS MNIMOS CUADRADOS
Al emplear la recta de regresin con un mtodo matemtico denominado
Principio de los Mnimos Cuadrados este mtodo elimina el juicio subjetivo.
Este mtodo proporciona lo que comnmente se conoce como recta del
mejor ajuste.
Con este mtodo se determina una ecuacin de regresin al minimizar la
suma de los cuadrados de las distancias verticales entre los valores reales
de Y y los valores pronosticados de Y.
Forma general de la ecuacin de regresin lineal Y = A + BX
PRINCIPIO DE LOS MNIMOS CUADRADOS
Como resultado, el procedimiento de los mnimos cuadrados genera una
recta que minimiza la suma de los cuadrados de las desviaciones verticales
entre los puntos y la recta.
PRINCIPIO DE LOS MNIMOS CUADRADOS
Dada la siguiente tabla de datos:
Y
58
42
51
54
X
12
8
10
11
40
7
39
7
Determine:
Modelo de Regresin Lineal
Coeficiente de Correlacin Lineal
Coeficiente de Determinacin
Si un nio tiene 9 aos Cul seria su peso?
49
10
56
14
PRINCIPIO DE LOS MNIMOS CUADRADOS
Y
58
42
51
54
40
39
49
56
Promedios
48,625
X
12
8
10
11
7
7
10
14
XY
696
336
510
594
280
273
490
784
144
64
100
121
49
49
100
196
3364
1764
2601
2916
1600
1521
2401
3136
9,875
495,375
102,875
2412,875
PRINCIPIO DE LOS MNIMOS CUADRADOS
Diagrama de Dispersin.-
SCE
n2
y
i i
i 1
n2
X
12
8
10
11
7
7
10
14
Y
58
42
51
54
40
39
49
56
54,57
43,25
48,91
51,74
40,42
40,42
48,91
60,23
3,43
-1,25
2,09
2,26
-0,42
-1,42
0,09
-4,23
11,76
1,56
4,37
5,11
0,18
2,02
0,01
17,89
SCE
Varianza
Residual
42,90
7,15
Estimacin del modelo de regresin lineal simple.
El mtodo de mnimos cuadrados.
ERROR ESTNDAR DE ESTIMACIN Medida de la dispersin de los
valores observados respecto de la recta de regresin.
Si Syx es pequeo, significa que los datos estn relativamente cercanos a
la recta de regresin, y la ecuacin de regresin sirve para predecir Y con
poco error. Si Syx es grande, significa que los datos estn muy dispersos
respecto de la recta de regresin, y la ecuacin de regresin no
proporcionar una estimacin precisa de Y.
S yx
SCE
n2
SCT yi y
i 1
Estimacin del modelo de regresin lineal simple.
El mtodo de mnimos cuadrados.
En esta particin de las sumas, la primera suma se denomina suma de
cuadrados total (SCT), refleja la variacin de los valores de Y con respecto
a la media y .
La segunda suma se denomina, suma de cuadrados de los errores (SCE), y
la tercera suma se denomina suma de cuadrados debido a la regresin
(SCR), refleja la cantidad de variacin de los valores de Y explicada por la
recta de regresin. Si se divide por n, (el tamao de la muestra), entonces,
se dice que la varianza de los y es igual a la varianza no explicada o
residual ms la varianza explicada por la recta de regresin
SCT = SCE + SCR
Estimacin del modelo de regresin lineal simple.
El mtodo de mnimos cuadrados.
SCT = SCE + SCR
y y y y y y
n
i 1
i 1
i 1
Estimacin del modelo de regresin lineal simple.
El mtodo de mnimos cuadrados.
X
12
8
10
11
7
7
10
14
58
42
51
54
40
39
49
56
54,57
43,25
48,91
51,74
40,42
40,42
48,91
60,23
9,38
-6,62
2,38
5,38
-8,62
-9,62
0,38
7,38
3,43
-1,25
2,09
2,26
-0,42
-1,42
0,09
-4,23
5,95
-5,37
0,29
3,12
-8,2
-8,2
0,29
11,61
387,88 =42,90 +343,41
87,98
43,82
5,66
28,94
74,30
92,54
0,14
54,46
11,76
1,56
4,37
5,11
0,18
2,02
0,01
17,89
35,40
28,84
0,08
9,73
67,24
67,24
0,08
134,79
387,88 =42,90 +343,41
Estimacin del modelo de regresin lineal simple.
El mtodo de mnimos cuadrados.
Ejemplo: En una muestra de 5 obreros de una fbrica se han observado sus
aos de experiencia (X) y el tiempo que tardan en realizar una determinada
tarea (y). Los datos se muestran en la tabla que sigue:
Y
X
8
9
4
3
3
1
2
3
4
5
Determine el Modelo de Regresin Lineal
Determine la covarianza y coeficiente de correlacin
Verificar que la variacin total es igual a la variacin no explicada ms la
variacin explicada por la regresin de Y en X.
Estimacin del modelo de regresin lineal simple.
El mtodo de mnimos cuadrados.
Y
XY
X2
Y2
64
18
81
12
16
12
16
15
25
13,00
11,00
35,80
Promedios
5,40
3,00
Estimacin del modelo de regresin lineal simple.
El mtodo de mnimos cuadrados.
SXY
RXY
-3,2
-0,87811408
Rxy2
Y=
BX
-1,6
A
10,2
0,77108434
SX
SY
1,41421356
2,57681975
Estimacin del modelo de regresin lineal simple.
El mtodo de mnimos cuadrados.
X
1
2
3
4
5
Y
8
9
4
3
3
8,6
7
5,4
3,8
2,2
2,6
3,6
-1,4
-2,4
-2,4
-0,6
2
-1,4
-0,8
0,8
3,2
1,6
0
-1,6
-3,2
6,76
12,96
1,96
5,76
5,76
0,36
4,00
1,96
0,64
0,64
10,24
2,56
0,00
2,56
10,24
33,20
7,60
25,60