PROBLEMAS DE INTRODUCCIÓN A LA ESTADÍSTICA. HOJA 3.
1º) Conocemos varias agencias de transporte dedicadas al reparto de mercancías y del correo. Éstas trabajan
con dos tipos diferentes de vehículos: camiones y furgonetas. Sean las variables:
X = “Número de camiones”
Y = “Número de furgonetas de cada agencia”
El número de empresas (nij), con xi camiones e yj furgonetas, representa las frecuencias de la distribución
conjunta (X, Y). Disponemos los números procedentes de 20 de ellas:
xi yj nij
1 2 3
2 2 2
1 3 9
2 3 6
Estudiar si el número de camiones es independiente del número de furgonetas. Hallar su covarianza.
IO
2º) Buscar un ejemplo en el que dos variables incorreladas no sean necesariamente independientes.
C
ER
3º) Los siguientes gráficos corresponden a las dos rectas de regresión que se pueden construir con una
M
muestra de datos bidimensionales. Indicar qué casos son realmente posibles y explicar su significado
O
C
a) Y b) Y
E
D
AD
LT
X X
U
C
FA
c) Y d) Y
X X
4º) El coeficiente de correlación entre dos variables X e Y es 0,6. Sabiendo además que:
Medias D. típica
X 10 1,5
Y 20 2
a) Calcular las rectas de regresión Y/X y X/Y.
b) Calcular la varianza residual para las dos regresiones anteriores.
1
5º) En una distribución bidimensional (X,Y) se ha ajustado la regresión lineal Y/X cuya expresión es : Y = 4X.
Se conocen los datos: rXY = 0,8 Sx = 4 Y 2
a) Calcular los valores de la media de X, varianza de Y y covarianza.
b) Calcular la varianza residual en la regresión de X sobre Y.
6º) Sean las variables X = “Índice de eficiencia laboral” e Y = “Número de horas-extra trabajadas al año”. De
ambas variables conocemos los siguientes valores de los distintos trabajadores:
Y
0 – 20 20 – 60 60 – 100
X
0 0 5 10
1 15 25 10
2 25 10 0
a) Calcular el número medio de horas-extra trabajadas. Indicar si es representativo.
IO
b) Obtener el índice de eficiencia laboral que tienen como máximo el 30% de los trabajadores menos
eficientes.
C
c) ¿Son independientes las dos variables?
ER
d) Indicar cuál sería el índice de eficiencia que obtendría un mayor número de empleados entre aquéllos
que realizan como máximo 20 horas extra.
M
e) ¿Podemos suponer que cuantas más horas-extras trabajadas, un empleado tendrá un mayor índice de
O
eficiencia?
C
E
7º) Se desea estudiar la relación entre las variables número de multas superiores a 300 € (X) y kilómetros
D
recorridos por el conductor en su desplazamiento hasta cometer la infracción (Y).
AD
Y
10 – 50 50 – 150 150 – 250
X
LT
5 4 2 0
U
10 2 4 2
C
15 1 2 3
FA
a) Indicar si las dos variables son independientes.
b) Comprobar si los valores medios son representativos.
c) ¿Cuántas multas corresponderán al 10% de los conductores más infractores y que han recorrido más de
50 kilómetros?
d) ¿Existen suficientes evidencias para decir que los conductores más infractores son aquéllos que han
recorrido mayores distancias en el trayecto?
8º) De una encuesta a 200 familias se han extraído datos relativos a X = “Salarios mensuales percibidos”, en
miles de euros, e Y = “Número de días de vacaciones pasados fuera de casa”, y aparecen reflejados en la
tabla:
Y
2–8 8 – 12 12 – 18
X
0,8 – 1,4 50 10 5
1,4 – 1,8 12 40 8
1,8 – 2,8 6 6 63
2
a) Calcular el número medio de días de vacaciones fuera de casa para las familias con ingresos
comprendidos entre 1.400 y 1.800 euros. Estudiar su representatividad.
b) Obtener el coeficiente de correlación lineal entre ambas variables e interpretarlo, sabiendo que la
varianza de Y toma el valor 17,96.
c) Si a todas las familias de la encuesta les aumenta el salario un 3%, ¿cuál será el nuevo salario medio?
¿Varía su representatividad? ¿Cómo?
d) Calcula la recta de regresión que explique el número de días de vacaciones en función del salario
mensual y estudia la bondad del ajuste. Interpreta todos los coeficientes.
9º) Una empresa ha estudiado los datos de “Compras semanales a proveedores (miles de unidades)” (X) y
“Precio unitario (en cientos de euros)” (Y), presentando la siguiente distribución conjunta:
Y
1 2 3
X
2 0 3 4
4 1 7 0
6 5 0 0
IO
a) Obtener el número medio de unidades compradas semanalmente. Si se comprara mil unidades más en
todos los pedidos, ¿cuál sería la nueva media?
C
b) Calcular la covarianza entre las dos variables. Comentar el resultado.
ER
c) Calcular la recta de regresión que explique el precio en función del número de pedidos semanales.
Calcular la recta de regresión que explique el número de pedidos semanales en función del precio.
M
Estudiar la bondad del ajuste e interpretar todos los coeficientes.
O
C
10º) Dada la siguiente distribución de frecuencias conjuntas de dos variables,
E
D
Y
-1 1
AD
X
-1 4 1
LT
0 0 6
1 3 6
U
indica si son verdaderas o falsas las siguientes afirmaciones:
C
a) X e Y son independientes.
FA
b) La covarianza es 0,24 y la media de Y condicionada por X=-1 vale -0,6.
c) La covarianza es 0,3 y la media de Y condicionada por X = -1 vale -3.
d) Son dependientes, pero incorreladas.
11º) Se desea estudiar la repercusión que tienen los días de lluvia en el número de visitas a un zoo. Para ello,
se observaron las siguientes variables, durante los últimos diez años:
Y = “Número de visitas anuales”, en miles.
X = “Número de días de lluvia al año”.
Y 107 105,5 105 104,4 104,3 104 103,7 103,4 103,1 103
X 18 26 30 33 38 39 42 44 46 49
a) Calcular el coeficiente de correlación. Interpretar el resultado.
b) Obtener la recta de regresión que explique el número de visitas anuales en función del número de días de
lluvia.
c) Estudiar la bondad del ajuste.
d) La entrada el siguiente año costará 10 euros. Estimar los ingresos del zoo si se prevén 43 días de lluvia.
3
12º) De diez pueblos de la provincia de Valladolid, conocemos los datos relativos a las variables:
Y= “Porcentaje de ocupados en el sector servicios”
X = “Número de sucursales bancarias”
10 10 10 10 10
y
i 1
i 700 x
i 1
i 24 y
i 1
2
i 50000 x
i 1
2
i 200 yx i 1
i i 2000
a) Calcular la recta de regresión que explique el porcentaje de ocupados en el sector servicios
en función del número de sucursales. Estudiar si el ajuste es bueno.
b) Predecir el porcentaje de ocupados en el sector servicios para otro pueblo
de la provincia de Valladolid que tenga 4 sucursales bancarias.
13º) Se dispone de la siguiente información relativa a 6 empresas del sector textil:
Demanda (Y) Precio (X1) Gasto en publicidad (X2)
(miles de unidades) (decenas de euros) (miles de euros)
445 10 25
465 10 30
425 12 25
450 12 30
IO
415 12 20
C
430 10 20
ER
Obtener por separado las rectas de regresión que expliquen la demanda en función primero del precio y
después del gasto. Indicar si en ambos casos es bueno el ajuste.
M
O
14º) Cinco empresas que realizan operaciones de importación-exportación arrojan los datos siguientes
C
relativos a las variables:
E
Y = Beneficios (millones de euros)
D
X = Número de importaciones o exportaciones realizadas (en cientos)
AD
Y X
LT
37 70
38 115
U
41 100
C
42 85
FA
42 130
a) Calcular un ajuste lineal mínimo-cuadrático que explique el beneficio en función del número de
importaciones o exportaciones realizadas.
b) Estudiar la bondad del ajuste.
c) Otra empresa dedicada a la importación-exportación realiza trece mil setecientas cincuenta
operaciones. ¿Cuál será el beneficio que podemos esperar? ¿Es fiable?
15º) En un supermercado, se estudian las variables X e Y siguientes:
Y = tiempo medio de espera en la cola única de los clientes (en minutos)
X = nº de clientes diarios que acuden a ese supermercado (en miles)
Y X
9 8
5 10
4 7
7 6
5 9
4
a) Calcular el tiempo medio de espera en la cola y el número medio de clientes diarios que acuden a
ese supermercado.
b) Calcular las varianzas de ambas variables.
c) Calcular la covarianza entre X e Y.
d) Calcular el coeficiente de correlación entre X e Y.
e) Calcular la recta de regresión Y/X.
f) Estudiar la bondad del ajuste, calculando el coeficiente de determinación R2, la varianza residual, Sr2,
y la varianza debida a la regresión, SR2.
g) Calcular la predicción para 13.000 clientes e indicar si es fiable.
16º) Sean X e Y dos variables con los siguientes valores:
Y X
0 2
-1 -1
3 8
2 6
1 -5
IO
a) Calcular las medias y las varianzas de X e Y.
C
b) Calcular la covarianza entre X e Y.
c)
d)
Calcular el coeficiente de correlación entre X e Y.
Calcular la recta de regresión Y/X. ER
M
e) Estudiar la bondad del ajuste, calculando el coeficiente de determinación R2, la varianza residual, Sr2,
O
y la varianza debida a la regresión, SR2.
C
f) Calcular la predicción X = 7 e indicar si es fiable.
E
D
17º) Sean los siguientes datos correspondientes a 80 familias encuestadas:
AD
X = Salario mensual (en cientos de euros)
Y = Número de días que cenan fuera de casa al mes
LT
X\Y
U
1 2 4 7
C
11 9 5 1 0
FA
15 7 5 6 1
20 5 7 8 3
30 2 5 9 7
Calcular:
a) El número medio de días que cenaron fuera de casa ̅ Y y el salario medio ̅ X.
b) Las varianzas de X e Y; también la covarianza entre X e Y.
c) El número medio de días que cenaron fuera, para las familias con 1.100 euros de ingresos.
d) El coeficiente de correlación lineal total entre ambas variables e interpretarlo.
e) La recta de regresión Y/X.
f) Estudiar la bondad del ajuste, calculando el coeficiente de determinación R2, la varianza residual Sr2
y la varianza debida a la regresión SR2.
g) Calcular la predicción para un salario de 2.800 euros e indicar si es fiable.
18º) Sean los siguientes datos correspondientes a 50 granjas:
X = Número de huevos incubados
Y = Número de pollitos que nacen a la hora en la granja
5
X\Y 2 3 8
3 9 1 0
4 0 21 0
9 1 0 18
Calcular:
a) El número medio de pollitos que nacen a la hora, ̅ Y y el número medio de huevos incubados, ̅ X.
b) Las varianzas de X e Y, también la covarianza entre X e Y.
c) El número medio de pollitos que nacen solo de los 3 huevos incubados.
d) El coeficiente de correlación lineal total entre ambas variables e interpretarlo.
e) Calcular la recta de regresión Y/X.
f) Estudiar la bondad del ajuste, calculando el coeficiente de determinación R2, la varianza residual Sr2
y la varianza debida a la regresión SR2.
g) Calcular la predicción para 16 huevos incubados e indicar si es fiable.
19º) Para las nueve provincias de Castilla y León, estudiar la dependencia de estas variables:
X = Lugar que ocupa cada provincia respecto del número de horas de sol
Y = Lugar que ocupa cada provincia respecto del número de días de helada
IO
Orden
C
X Y
(menor a mayor)
1
2
Burgos
Ávila ER Zamora
Segovia
M
3 Soria León
O
4 Palencia Salamanca
C
5 Salamanca Palencia
6 Segovia Burgos
E
7 León Valladolid
D
8 Zamora Soria
AD
9 Valladolid Ávila
LT
20º) Se realiza una prueba de sabor entre dos conocidas marcas de cola, Coca-Cola y Pepsi-Cola, a 500
personas. De las personas a las que se les entregó la Coca-Cola para degustar en primer lugar, 190 prefirieron
U
Coca-Cola y 110 Pepsi-Cola, y de las personas a las que se les entregó primero Pepsi-Cola, 120 prefirieron
C
Coca-Cola y 80 Pepsi-Cola.
FA
A la vista de los resultados, ¿se puede decir que hay independencia entre la preferencia por la marca y el
orden en el que se realizó la degustación?
21º) De acuerdo con los resultados obtenidos en 2020 y en 2021, se estableció el “ranking” de las 350
primeras empresas españolas, clasificadas según el volumen de ingresos. Las posiciones de 7 compañías
aseguradoras en esos dos figuran en la tabla siguiente. De un año a otro, ¿ha habido grandes cambios en la
clasificación en este grupo de siete empresas?
“Ranking”
2020 2021 Compañía
304 245 Adeslas
221 227 Aegón
245 247 AGF Seguros
234 226 Intercaser
285 240 La Fraternidad
222 206 Ocaso
229 229 Sanitas
6
22º) El número de alumnos matriculados en universidades públicas y privadas de España, en cierto año,
clasificados según el sexo, han sido:
Sexo \ Universidad Pública Privada
Mujer 693 524 31 240
Hombre 594 328 53 171
Estudiar la asociación entre el sexo y el tipo de universidad.
23º) Se desea saber si las preferencias por los diferentes tipos de vino varían con la edad. Para ello se toma
una muestra que proporciona la siguiente información
Tipo\Edad Jóvenes Adultos Mayores
Blanco 75 220 105
Rosado 25 45 30
Tinto 100 235 165
A la vista de estos valores, ¿realmente se produce dicha variación?
IO
24º) Sea X la variable “años de preparación” de los individuos que solicitaron determinado puesto de trabajo
C
e Y el “grado de especialización que demostraron en la prueba realizada”. Se han observado los siguientes
ER
datos: M
X Y
O
1 Bajo
C
2 Medio
3 Medio
E
4 Medio
D
5 Alto
AD
Estudiar el grado de asociación entre ambas variables, utilizando diferentes coeficientes.
LT
U
C
FA