Distribuciones Bidimensionales y Correlación
Distribuciones Bidimensionales y Correlación
TEMA 9 – DISTRIBUCIONES
BIDIMENSIONALES
NUBES DE PUNTOS Y COEFICIENTES DE CORRELACIÓN
EJERCICIO 1 : Las notas de 10 alumnos y alumnas de una clase en Matemáticas y en Física han sido
las siguientes:
Representa los datos mediante una nube de puntos y di cuál de estos valores te parece más
apropiado para el coeficiente de correlación: 0,23; 0,94; −0,37; −0,94.
Solución:
Representa los datos mediante una nube de puntos e indica cuál de estos valores te parece más
apropiado para el coeficiente de correlación: 0,92; −0,44; −0,92; 0,44.
Solución:
Representa los datos mediante una nube de puntos e indica cuál de estos números te parece más
apropiado para el coeficiente de correlación: 0,87; 0,2; −0,87; −0,2.
Solución:
Vemos que la relación entre las variables es ligeramente positiva, pero muy
baja. Por tanto, r 0,2.
Tema 9 – Distribuciones bidimensional – Matemáticas CCSSI – 1º Bachillerato 2
EJERCICIO 4 : Considera la siguiente distribución:
Representa los datos mediante una nube de puntos y di cuál de estos valores te parece más
apropiado para el coeficiente de correlación: 0,99; −0,4; −0,83; 0,4.
Solución:
Vemos que hay una relación positiva entre las variables, pero es baja.
Por tanto, r 0,4.
Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables?
Solución: 2 2
x y
x y x iy i 740
i i
x
i i
Coeficiente de xy 22,72 r
0,43
correlación: x y 9,90 0,43
La rrelación
5,35 pero débil.
entre las variables es positiva,
Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables?
Solución:
3800
x 6 633,33
Medias:
y 370
6
61,67típicas:
Desviaciones
Tema 9 – Distribuciones bidimensional – Matemáticas CCSSI – 1º Bachillerato 3
2408.050 234,78
x 6 633,332
15,32
26000
y 6 61,672 530,14 23,02
EJERCICIO 7 : Se ha medido la potencia (en kW) y el consumo (litros/100 km) de 6 modelos distintos
de coches, obteniéndose los siguientes resultados:
Halla la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables?
Solución:
504
x 6 84
Medias:
y 54,9
9,15
6
x 43072 2 122,67
6 84 11,08
D.T:
y 510,67 2 1,39
6 9,15 1,18
Covarianza: xy 4666,6 6 84 9,15 9,17 xy 9,17
9,1
Coeficiente de 0,70 r
7
11,08
correlación: 0,70
Hay 1,18 alta entre las variables.
r una relación positiva y relativamente
EJERCICIO 8 : Se ha realizado una encuesta preguntando por el número de personas que habitan el
hogar familiar y el número de habitaciones que tiene la casa. La tabla siguiente recoge la
información obtenida:
Halla la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables?
Solución:
27
x 6 4,5
Medias:
y 19
3,17
6
x 127 4,52 0,92 0,96
6
D.T:
63
y 3,172 0,45 0,67
6
Solución:
23
x 6 3,83
Medias:
y 20
3,33
695
x 3,83 2 1,16
1,08
D.T: 670
y 3,33 2 0,58
0,76
6
Covarianza: xy 776 3,83 3,33 0,079 σ xy 0,079
0,079
Coeficiente de 0,096 r 0,096
correlación: r 1,08
0,76
La relación entre las variables es prácticamente nula.
Solución:
a)
14,2
x 6 2,37
Medias:
y 373
6
62,17
Varianza de X: 2x 35,06 2,37 2 0,23
6
Covarianza: xy 904,9
6 2,37 62,17 3,47
590
x 6 98,33
Medias:
y 40
6,67
6 xy 1,89
Coeficiente de regresión: m yx 0,07
25,54
x2
Ecuación de la recta de regresión de Y sobre x: y 6,67 0,07x 98,33 y 0,07x 0,21 b)
yˆ120 0,07 120 0,21 8,19
Como x 120 está alejado del intervalo que estamos considerando, la estimación no es fiable.
Solución:
a)
37,7
x 6 6,28
Medias:
y 15,5
6
2,58
Varianza de X: 238,97
x2 6 6,28 2 0,39
Covarianza: xy 100,35
6 6,28 2,58 0,52
xy 0,52
Coeficiente de regresión: m yx
1,33 0,39
x2
Ecuación de la recta de regresión de Y sobre X: y 2,58 1,33x 6,28 y 1,33x 5,77 b)
yˆ6 1,33 6 5,77 2,21
Sí es fiable, puesto que la correlación es fuerte, r 0,85, y x 6 está dentro del intervalo de datos que estamos
considerando. Para un peso de 6 kg la capacidad de la bolsa será, aproximadamente, de 2,21 litros.
EJERCICIO 13 : En seis institutos de la misma zona se ha estudiado la nota media de los estudiantes
de 1º de bachillerato en Matemáticas y en Inglés, obteniéndose la información que se recoge en la
siguiente tabla:
EJERCICIO 14 : Un grupo de seis atletas ha realizado pruebas de salto de longitud y de altura. Las
dos se han puntuado en una escala de 0 a 5. Los resultados obtenidos han sido los siguientes:
b) La correlación entre las dos variables no es demasiado fuerte, pues las dos rectas no están muy
0,36
pró[Link] que el coeficiente de correlación es: r 0,76
0,67
0,71
Tema 9 – Distribuciones bidimensional – Matemáticas CCSSI – 1º Bachillerato 7
EJERCICIO 15 : La estatura, en centímetros, de seis chicos de la misma edad y la de sus padres
viene recogida en la siguiente tabla:
b) La correlación entre las variables no es demasiado fuerte, pues las dos rectas no están muy
29,1
pró[Link] que el coeficiente de correlación es: r 0,636
7
9,57
4,79
EJERCICIO 16 : Se ha preguntado en seis familias por el número de hijos y el número medio de días
que suelen ir al cine cada mes. Las respuestas han sido las siguientes:
Solución:
a)
15
x 6 2,5
Medias:
y 18 3
6
43
x 2,52 0,92 0,96
6
Desviaciones típicas:
62
y 3 2 1,33
1,15
6
Tema 9 – Distribuciones bidimensional – Matemáticas CCSSI – 1º Bachillerato 8
b) La correlación es muy alta, puesto que las dos rectas están muy próximas, casi coinciden.
4,97
Comprobamos que el coeficiente de correlación es: r 0,9
1,61
3,43
Tema 9 – Distribuciones bidimensional – Matemáticas CCSSI – 1º Bachillerato 9
OTROS
EJERCICIO 18 : Los gastos que una empresa tuvo en la publicidad de un determinado artículo en
miles de euros y las ventas, también en miles de euros, de dicho artículo se recogen en la siguiente
tabla:
Gastos en publicidad (millones) 1 2 3 4 5 6 7 8
Ventas (millones) 15 16 14 17 20 18 18 19
Halla las medias, varianzas y desviaciones típicas de las dos variables, así como la covarianza de la
distribución.
Solución:
xi yi i i xi yi
1 15 1 225 15 Media de x: x = 36/8 = 4,5 miles de euros Media
2 16 4 256 32 de y: y = 137/8 = 17,13 miles de euros
3 14 9 196 42
4 17 16 289 68
5 20 25 400 100
6 18 36 324 108
7 18 49 324 126
8 19 64 361 152
36 137 204 2375 643
Varianza de x: 2x
204 2 Desviación típica de x: x 5,25 2,29 miles de euros
8 4,5 5,25
2375
Varianza de y: 2y 2
8 17,13 3,61 Desviación típica de y: y 3,61 1,9 miles de euros
643
Covarianza: xy 8 4,5.17,3 3,29
EJERCICIO 19 : La siguiente tabla recoge las medidas de los pesos en kg y las alturas en m de 20
alumnos:
Nº de alumnos 4 3 2 5 4 2
Peso (X) en kg 73 76 73 78 80 82
Altura (Y) en m. 1,65 1,68 1,70 1,72 1,76 1,80
Estima las medias, varianzas y desviaciones típicas de las variables estudiadas, así como la
covarianza de ambas.
Solución:
xi yi ni xi n i yi ni xi yi ni x i 2 ni
y i2 n i
73 1,65 4 292 6,60 481,80 21316 10,8900
76 1,68 3 228 5,04 383,04 17328 8,4672
73 1,7 2 146 3,40 248,20 10658 5,7800
78 1,72 5 390 8,60 670,80 30420 14,7920
80 1,76 4 320 7,04 563,20 25600 12,3904
82 1,8 2 164 3,60 295,20 13448 6,4800
20 1540 34,28 2642,24 118770 58,7996
Media de x: x = 1540/20 = 77 Kg
Media de y: y = 34,28/20 = 1,714 m
Varianza de x: 2x
118770 2 Desviación típica de x: x 9,5 3,082
20 77 9,5 Kg
50,7996
Varianza de y: 2y 2
20 1,714 0,002 Desviación típica de y: y 0,002 0,045
2642,24
Covarianza: xy 20 77.1,714 0,134
Tema 9 – Distribuciones bidimensional – Matemáticas CCSSI – 1º Bachillerato 10
EJERCICIO 20 : Halla los parámetros que caracterizan la distribución estadística de dos variables X e
Y reflejadas en la tabla:
Y
0 2 4
1 2 1 2
X 2 1 4 5
3 3 2 0
Es decir: Medias, desviaciones y covarianza.
Solución:
xi yi ni xi n i yi ni xi yi ni xi ni yi ni
2 2
Media de x: x = 40/20 = 2
1 0 2 2 0 0 2 0 Media de y: y = 42/20 = 2,1
2 0 1 2 0 0 4 0
90
3 0 3 9 0 0 27 0 Varianza de x: 2x 20 2 2 0,5
1 2 1 1 2 2 1 4
Desviación típica de x: x 0,5 0,707
2 2 4 8 8 16 16 16
3 2 2 6 4 12 18 8 140
Varianza de y: 2y 20 2,12 2,59
1 4 2 2 8 8 2 32
2 4 5 10 20 40 20 80 Desviación típica de y: y 2,59 1,609
3 4 0 0 0 0 0 0
78
20 40 42 78 90 140 Covarianza: xy 20 2.2,1 0,3
EJERCICIO 21 : Los números 0,1; 0,99; 0,6 y 0,89 son los valores absolutos del coeficiente de
correlación de las distribuciones bidimensionales cuyas nubes de puntos adjuntamos. Asigna a
cada diagrama su coeficiente de correlación cambiando el signo cuando sea necesario.
Solución:
a) r = 0,89 b) r = 0,1 c) r = -0,6 d) r = -0,99
Solución:
a) r = 1, significa que existe dependencia funcional positiva.
b) r = -1, significa que existe dependencia funcional negativa.
c) r = 0,75; significa que existe dependencia aleatoria positiva fuerte.
d) r = 0; significa que existe independencia aleatoria.
e) r = 0,1; significa que existe independencia aleatoria.
f) r = 0,9; significa que existe dependencia aleatoria positiva y muy fuerte.
Solución:
- Si la recta de regresión de Y sobre X es y = y ⇒ myx = 0 yx 0 mxy = 0 y por tanto la recta de
regresión de X sobre Y es x - x = 0 x = x
-r= m yx .m xy 0 No hay correlación, por tanto no hay dependencia funcional entre Y y X.
Tema 9 – Distribuciones bidimensional – Matemáticas CCSSI – 1º Bachillerato 11
.EJERCICIO 24 : Dada esta distribución bidimensional:
x 5 6,5 8 4 3
Y 4,5 7 7,5 5 3,5
a) Calcula el coeficiente de correlación lineal, interpretando el resultado.
b) Determina la recta de regresión de Y sobre X.
c) Halla el punto donde se cortan las dos rectas de regresión.
Solución:
x2 y2 Media de x: x = 26,5/5 = 5,3
xi yi i i xi yi
Media de y: y = 27,5/5 = 5,5
5,0 4,5 25,00 20,25 22,5
6,5 7,0 42,25 49,00 45,5 Desviación típica de x: x 156,25 2
5 5,3 1,78
8,0 7,5 64,00 56,25 60,0
162,75
4,0 5,0 16,00 25,00 20,0 Desviación típica de y: y 5,52
5 1,52
3,0 3,5 9,00 12,25 10,5
158,5
26,5 27,5 156,25 162,75 158,5 Covarianza: xy 5 5,3.3,5 2,55
S
m x xy2 0,81 y 5,5 0,81(x 5,3) y 0,81x
Sx
1,21
El punto donde se cortan las dos rectas de regresión es:
_ _
c)
x, y 5,3;5,5
EJERCICIO 25 : Cinco niñas de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44
kilos.
a) Halla la ecuación de la recta de regresión de la edad sobre el peso.
b) ¿Cuál sería el peso aproximado de una niña de 6 años?
Solución:
xi2 y i2 Media de x: x = 25/5 = 5 años
xi yi xi yi
2 14 4 196 28 Media de y: y = 152/5 = 30,4 Kg
3 20 9 400 60 151
5 2 2,28 años
5 32 25 1024 160 Desviación típica de x: x 5
7 42 49 1764 294
5320 2
8 44 64 1936 352 Desviación típica de y: y 5 30,4 11,83 Kg
25 152 151 5320 894
894
Covarianza: xy 5 5.30,4 26,8
a) Sy x y
Recta de regresión de X sobre Y: m 20,192 x 5 0,192(y 30,4) x 0,192y 0,84
Sy
S xy
b) Recta de regresión de Y sobre X: mx 5,15 y 30,4 5,15(x 5) y 5,15x 4,65
S 2x
Para una niña cuya edad sea x = 6 años, se obtiene un peso de y = 35,55 kilos
Tema 9 – Distribuciones bidimensional – Matemáticas CCSSI – 1º Bachillerato 12
EJERCICIO 26 : Las rectas de regresión de cuatro distribuciones bidimensionales son las siguientes:
5
a) y x 2 x4 4 x y2
b) y x 6
2 5
4
c) y 3 x2 x y
d) y x 1
Di en qué casos es significativa la correlación lineal. 5
Solución: Basta con representar en un mismo diagrama los pares de rectas de cada apartado.
Será más significativa la correlación lineal, cuanto menor sea el ángulo formado por las dos rectas de regresión.
Luego la correlación más significativa es la del apartado d), en segundo lugar b), seguida de a)
Las rectas de regresión del apartado c) son perpendiculares, y por tanto, las variables están incorreladas.
Para estimar el peso de un individuo que mide y = 180 cm, basta con substituir dicho valor en la recta anterior,
se tiene: x 0,4 180 3 69 kg
Teniendo en cuenta que x = 195 cm; y = 92 ,1 kg; S x = 6,07; S y = 6,56 y la covarianza S xy = 37 ,6 se pide:
a) Recta de regresión de Y sobre X.
b) Halla el coeficiente de correlación.
c) Si el equipo ficha a un jugador que mide 208 cm, ¿se puede predecir su peso? En caso
afirmativo, obtenlo.
Solución
a) Con los datos suministrados, se tiene la siguiente recta de regresión de Y sobre X:
Tema 9 – Distribuciones bidimensional – Matemáticas CCSSI – 1º Bachillerato 13
S
m x xy 1,02 y 92,1 1,02(x 195) y 1,02x
106,8S 2x
b) El coeficiente de correlación es: r S xy 0,94 Correlación positiva y muy fuerte.
Sx Sy
c)Substituyendo en la ecuación obtenida en el apartado a) el valor x = 208 cm, se tiene un peso y = 105,36 kg.
Se pide:
X a) Calcula la covarianza.
100 50 25 b) Obtén e interpreta el coeficiente de correlación lineal.
c) Ecuación de la recta de regresión de Y sobre X.
14 1 1
Y 18 2 3
22 1 2
Solución:
xi yi ni nixi x 2i ni niyi y 2i ni ni
Media de x: x = 600/10 = 60
xiyi Media de y: y = 184/10 = 18,4
100 14 1 100 10000 14 196 1400 Desv. típica de x:
100 18 2 200 20000 36 648 3600
43750
50 14 1 50 2500 14 196 700 x 10 602 27,84
50 18 3 150 7500 54 972 2700 Desviación típica de y:
Sxy 0,56
b) Coeficiente de correlación: r Sx S y
Se trata de una correlación negativa (al aumentar una variable, disminuye la otra) y débil
ya que su valor absoluto está muy alejado de la unidad.
c) Recta de regresión de Y sobre X:
S xy
mx 0,06 y 18,4 0,06(x 60) y 0,06x 22
S 2x
EJERCICIO 30 : Un examen de cierta asignatura consta de dos partes, una teórica (x) y otra práctica
(y). El profesor de la misma quiere ver si existe algún tipo de correlación entre las notas de teoría y
práctica. Obtiene que la recta de regresión de y sobre x es 4x – 3y = 0 y la de x sobre y es 3x – 2y = 1.
a) Calcular el coeficiente de correlación y decir si las variables están o no correlacionadas.
b) Calcular la media de las notas de teoría y práctica.
4x yx
La recta de regresión de y sobre x : 4x – 3y = 0 y = 3m = 4/3
2y 1 xy
La recta de regresión de x sobre y : 3x – 2y = 1 x =
3 m = 2/3
Tema 9 – Distribuciones bidimensional – Matemáticas CCSSI – 1º Bachillerato 14
4x 3y 0 x 3, y
regresión:
3x 2y 1 4
Por tanto la nota media en teoría es de 3 y la nota media en práctica es de un 4.
EJERCICIO 31 : Un jugador de baloncesto juega una media de 22,5 minutos por partido, con una
desviación típica de 5 minutos, obteniendo una media de 17,5 puntos, con una desviación típica de
6,5 puntos. El coeficiente de correlación entre minutos jugados y puntos conseguidos es 0,7.
Estimar el número de puntos conseguidos si jugara en un partido 18 minutos.
EJERCICIO 32 : Se ha hecho un test a 100 atletas sobre sus marcas en 100 metros y 400 metros. Se
ha obtenido que la marca media en 100 metros es de 12,2 segundos con una desviación típica de 0,5
segundos, mientras que la marca media en 400 metros es de 61,3 segundos con una desviación
típica de 1 segundo. Si el coeficiente de correlación lineal entre ambas pruebas es de 0,9,
a) ¿Podemos asegurar que los corredores que son mejores en 100 metros lo son también en 400
metros? (Justifica tu respuesta)
b) ¿Qué marca en 400 metros puede esperarse de un atleta que corre los 100 metros en 11
segundos?
Solución:
a) Si porque como r = 0,9 > 0, la correlación es positiva, aunque no sea demasiado buena.
b) Sea x = Marca en 100 m (en segundos), y = Marca en 400 m (en segundos)
Los datos: x = 12,2´´x = 0,5´´ y = 61,3´´ y = 1´´, r = 0,9
Como queremos hallar la marca en 400 m, calcularemos la recta de regresión de Y sobre X:
y y xy (x x)
x2
xy
Conocemos todo menos xy : r = xy r. x . y 0,9.0,5.1
x . y
0,45
0,45
Sustituyendo en la recta de regresión de Y sobre X: y 61,3 (11 12,2) y 59,14´´
0,52
Su marca aproximada en 400 metros será de 59,14´´.