Facultad de Cs. Exactas Fco, Qcas y Naturales - Dpto.
de Matemática - ESTADISTICA (3809) – 1er Cuatrimestre 2023
PRÁCTICO 2: ANÁLISIS EXPLORATORIO DE DATOS
1) Transductores de temperatura1 de cierto tipo se envían en lotes de 50. Se seleccionaron 60 lotes y se determinó el número
de transductores en cada lote que no cumplen con las especificaciones de diseño y se obtuvieron los datos siguientes:
a) Indica la unidad experimental, la población y la muestra. ¿Cuál es el tamaño de la muestra?
b) ¿Cuál es la variable y de qué tipo es?
c) Resume los datos mediante una tabla de distribución de frecuencias y representando gráficamente.
d) ¿Cuánto valen y qué significan f3, F3, fr3 y Fr3?
e) ¿Qué porcentaje de los lotes muestreados
i) tienen a lo sumo 5 transductores que no cumplen con las especificaciones?
ii) tiene menos de 5 que no cumplen con las especificaciones?
iii) tienen por lo menos 5 transductores que no cumplen con las especificaciones?
f) Calcula e interpreta los estadísticos que considere más apropiados.
g) ¿Qué puedes decir de la forma de la distribución de la variable? Justifica.
1Un transductor es un dispositivo que convierte una señal de un tipo de energía en otra. En particular, los transductores de temperatura detectan la
temperatura ambiental o de una superficie mediante un termoelemento o una resistencia y la convierten en una señal eléctrica.
2) En un ensayo de sanidad vegetal se estudia el efecto de una nueva formulación química para el control de una plaga en ajos
blancos. Los datos se resumen en los siguientes gráficos.
CONTROLES TRATADOS
a) Describe el experimento realizado, indicando la o las muestras y la variable en estudio.
b) Completar los datos faltantes y colocar el nombre que corresponde en el eje y.
c) ¿Cuál fue el mínimo valor de variable para los controles y para los tratados? ¿Entre qué valores se encuentra el máximo
de cada grupo? ¿En qué rango de valores se concentran los datos para ambos casos?
d) Interpreta la segunda barra del grupo control.
e) ¿Cómo describirías la forma de la distribución de frecuencias en ambos grupos?
f) Con los datos que se tienen, ¿se pueden calcular los estadísticos de manera exacta?
g) ¿En qué intervalo se encontrará la mediana en ambos grupos?
h) ¿Cómo crees que será en cada caso la media con respecto a la mediana? ¿por qué?
i) Observando los gráficos, ¿podrías hacer alguna conjetura sobre el efecto de la nueva formulación química?
j) Plantea las hipótesis que permitan comprobar si el químico es efectivo.
3) Dos grupos de estudiantes (A y B) realizan determinaciones repetidas de concentración de ion nitrato (en µg/l). En base a las
salidas que se obtuvieron en la clase teórica responde:
n media mediana moda s cv% mínimo máximo rango skewness curtosis
A 50 0.5000 0.50 0.51 0.01641304 3.282607 0.46 0.53 0.07 -0.2797534 -0.3484848
B 50 0.6136 0.61 0.61 0.06754469 11.007936 0.48 0.77 0.29 0.2168389 -0.3336199
Facultad de Cs. Exactas Fco, Qcas y Naturales - Dpto. de Matemática - ESTADISTICA (3809) – 1er Cuatrimestre 2023
a) ¿Cuántas determinaciones realizó cada grupo?
b) ¿Las repeticiones dentro de cada grupo arrojo el mismo valor de concentración? Explica.
c) Para el Grupo A escribe el significado de media, mediana, moda, desvío estándar y rango.
d) ¿En qué grupo las determinaciones fueron más homogéneas? ¿A qué podría deberse la diferencia en la
homogeneidad de las determinaciones entre los grupos?
e) ¿Cómo describirías la forma de las distribuciones de frecuencia? Explica sobre la base de los estadísticos de posición
y a los indicadores de normalidad.
f) En el Box-Plot coloca los nombres a los ejes. Identifica el grupo de estudiantes al que corresponde cada caja y explica.
g) ¿Aproximadamente cuál es el valor del Q1 para cada grupo? Escribe su significado en este contexto.
h) ¿Aproximadamente cuántas mediciones tuvieron una concentración de 0,51 μg/l cómo mínimo en el Grupo A?
i) ¿Parecería que ambos grupos están midiendo lo mismo? Explica.
4) En un experimento se registró la temperatura de sublimación de los metales iridio y rodio, obteniéndose los siguientes
datos.
IRIDIO
136.6 145.2 151.5 162.7 159.1 159.8 160.8 173.9 160.1
160.4 161.1 160.6 160.2 159.5 160.3 159.2 159.3 159.6
160.0 160.2 160.1 160.0 159.7 159.5 159.5 159.6 159.5
RODIO
126.4 135.7 132.9 131.5 131.1 131.1 131.9 132.7
133.3 132.5 133.0 133.0 132.4 131.6 132.6 132.2
131.3 131.2 132.1 131.1 131.4 131.2 131.1 131.1
NOTA: En los incisos que debas usar RStudio las instrucciones están en el archivo ej4p2.R
a) ¿Cuál piensas que es el objetivo de esta investigación?
b) Para cada conjunto de datos utiliza RStudio para construir la tabla de frecuencias adecuada y los gráficos
correspondientes.
c) En base al inciso anterior, indica cuánto valen y qué significan f4, F4 y fr4 para Iridio.
d) Con RStudio realiza un diagrama de tallo-hoja adecuado para cada conjunto de datos.
i. ¿Qué puedes decir de la simetría de estos datos? Justifica.
ii. ¿Algún dato parece ser atípico? Justifica.
e) Resume los datos numéricamente con RStudio y comparando los valores trata de obtener alguna conclusión.
f) Realiza con RStudio el diagrama de caja en paralelo de ambos conjuntos de datos y comenta lo que se observa.
5) En un estudio se compararon tres dietas respecto al control de azúcar en la sangre en pacientes diabéticos.
Se registró la cantidad de glucosa en sangre de los pacientes para tres dietas diferentes (A, B, C). Es deseable
que el paciente tenga valores entre 80 y 110 mg/dl.
a) Observa la siguiente salida y responde:
Dieta n media mediana moda s cv mínimo máximo rango skewness curtosis
A 100 98.68 99.0 86 10.18404 10.32027 68 121 53 -0.038054517 -3.1774022
B 100 94.46 94.5 80 16.74552 17.72763 68 122 54 0.005387305 -4.6762136
C 100 77.29 73.0 68 10.58329 13.69296 68 121 53 1.853714381 0.6829328
i) ¿Cómo crees que se llevó a cabo la toma de datos?
Facultad de Cs. Exactas Fco, Qcas y Naturales - Dpto. de Matemática - ESTADISTICA (3809) – 1er Cuatrimestre 2023
ii) ¿Cuál es el significado de cada número con el que se describe a la dieta A?
iii) Escribe alguna información preliminar respecto al objetivo del estudio.
b) Observa los diagramas de tallo-hoja para cada dieta:
DIETA A DIETA B DIETA C
The decimal point is 1 digit(s) The decimal point is 1 digit(s) The decimal point is 1 digit(s)
to the right of the | to the right of the | to the right of the |
i) ¿Dirías que existen grupos en algún gráfico? En caso afirmativo explica a qué atribuirías la formación de grupos.
ii) ¿Parece que alguna dieta es mejor? ¿por qué?
c) En base a las salidas anteriores, identifica a qué tipo de dieta corresponde cada histograma y escribe el nombre de los
ejes. Compara la distribución de glucosa. ¿Alguna de ellas parece bimodal? ¿En alguna de ellas parece haber
valores alejados? ¿Las dietas mantienen a los pacientes en los valores deseados? ¿La distribución de glucosa
es asimétrica en alguno de los grupos?
d) En los boxplots paralelos identifica a qué tipo de dieta corresponde cada caja y luego responde los siguientes incisos:
i) ¿Cuál es el significado de los cuartiles para el boxplot correspondiente la dieta C?
ii) ¿En cuántos pacientes con la dieta A se registró una concentración de glucosa de 90 mg/dl como mínimo?
iii) ¿Se observa la misma cantidad de grupos que antes? ¿A qué conclusión llegas?
iv) Discute simetría, presencia de outliers y compara dispersiones.
v)
Facultad de Cs. Exactas Fco, Qcas y Naturales - Dpto. de Matemática - ESTADISTICA (3809) – 1er Cuatrimestre 2023
6) En la situación del Ej. 7) del Práctico 1, suponga que 4 laboratorios realizaron cada uno 6 determinaciones (en el mismo
día) de la concentración de albúmina, con los siguientes resultados (en g/l):
Lab. Concentración de albúmina
A 42.5 41.6 42.1 41.9 41.1 42.2
B 39.8 43.6 42.1 40.1 43.9 41.9
C 43.5 42.8 43.8 43.1 42.7 43.3
D 42.2 41.6 42.0 41.8 42.6 39.0
a) Grafique en cada caso los datos en un diagrama de punto, todos con la misma escala (puedes graficar con RStudio
usando las instrucciones en el archivo ej6p2.R).
b) Comentar sobre el sesgo, precisión y exactitud de cada uno de estos conjuntos de resultados.
c) Indicar, de ser posible el error (sistemático o aleatorio) asociado a cada laboratorio.
d) Resumir numéricamente los datos del Laboratorio A e indicar sus significados en este caso particular.
e) Para determinar la precisión de cada laboratorio,
i) ¿qué estadístico debe usar? Justifique.
ii) Calcular esos valores con RStudio e interpretarlos.
f) Para comparar la exactitud de las mediciones de cada laboratorio,
i) ¿qué debería calcular? Justifique.
ii) ¿Con qué se compara? ¿Es este valor un estadístico? Justifique.
g) Para comparar las precisiones de los laboratorios,
i) ¿qué estadístico debe usar? Justifique.
ii) ¿Cuál de los laboratorios es el más preciso?
7) Se han realizado determinaciones del porcentaje de níquel en barras de una aleación de acero, obteniéndose los siguientes
resultados (en %): 2.95 2.97 2.94 2.96 2.96
a) ¿Puede decir algo acerca del sesgo, precisión y exactitud de los datos?
b) Indicar, de ser posible, el error sistemático o aleatorio.
8) En el estudio mencionado en el ejercicio 6 del práctico 1, los datos se han resumido usando un programa estadístico,
obteniéndose las siguientes salidas:
a) Escribe en el gráfico los nombres de los ejes.
b) Escribe el significado de la segunda barra.
c) Comparando con los gráficos del ejercicio 2 ¿a qué se debe la diferencia del tipo de gráfico?
d) ¿La primera tabla contiene todos valores correctos?
e) ¿Qué estadístico es posible calcular para estos datos? ¿Cuál es su valor? Interprétalo.
f) Con el gráfico presentado, ¿qué puedes informar sobre el efecto de los residuos de pesticida en el microorganismo?
Explica.
g) Observa la segunda tabla y escribe el significado de los 4 números que figuran para Ausencia del microorganismo y
Nivel aceptable de pesticida.
h) Escribe una conclusión preliminar sobre el efecto de los residuos de pesticida en el microorganismo de acuerdo a lo
Facultad de Cs. Exactas Fco, Qcas y Naturales - Dpto. de Matemática - ESTADISTICA (3809) – 1er Cuatrimestre 2023
resumido en la segunda tabla.
i) Selecciona lo que consideres relevante de la segunda tabla para confeccionar un gráfico donde se pueda observar
claramente lo concluido en el inciso anterior.
9) Un gran número de personas que viven en una determinada zona han estado expuestas durante los últimos 10 años a la
radioactividad procedente de un vertedero en el que se almacenan desechos atómicos. Se realiza una investigación para
descubrir si hay alguna asociación aparente entre la exposición y el desarrollo de cierta enfermedad de la sangre. Para llevar
a cabo el experimento se eligen muestras aleatorias de 150 personas de la comunidad que han estado expuestas al peligro
y 326 no expuestas y se estudia a cada sujeto para comprobar si tiene la enfermedad. Entre las 150 personas expuestas se
observaron 52 con la enfermedad y en total resultaron 372 personas sanas.
a) Indica el objetivo del estudio.
b) Indica la unidad experimental, las variables que se observan y el tipo de las mismas.
c) Formula las hipótesis que se plantearían.
d) Vuelca los datos en una tabla.
e) Indica si la siguiente afirmación es correcta: “Dado que se observaron 52 personas con la enfermedad entre las
expuestas y 52 entre las no expuestas, podemos concluir que la exposición a la radioactividad no es un factor que
favorezca el desarrollo de la enfermedad”. Explica si es correcta o no, justificando.
f) Representa gráficamente.
g) Comenta la información que obtienes del gráfico, de acuerdo al objetivo del estudio.
h) Determina las proporciones de la persona enferma según haya estado expuesta o no a la radioactividad. Compara
ambas proporciones e indica la conclusión a la que llegas (contrasta con la conclusión obtenida en inciso anterior).
i) Las conclusiones del inciso anterior ¿son suficientes para cumplir con el objetivo de estudio? Justifica tu respuesta.
10) Se realizó un estudio sobre una especie de planta, analizando varias medidas biométricas en ejemplares hallados en una
localidad de Misiones. Como parte del análisis estadístico se realizó el siguiente gráfico:
a) Indica la unidad experimental, las variables que se miden y el tipo de variable.
b) ¿Cómo se denomina este gráfico? ¿Cuál es el propósito del mismo?
c) Escribe un título para el gráfico
d) Observando el gráfico ¿qué información se puede extraer? La información es a nivel poblacional o muestral.
e) ¿Mediante qué número se puede cuantificar la intensidad de la asociación? ¿es un estadístico o un parámetro?
f) Para estos datos se obtuvo r = 0.699. A partir de este valor, ¿Qué podrías concluir?
g) Se conocen los siguientes datos para cada una de las variables:
i. Para determinar cuál de las dos variables presenta
MEDIA DESV. EST. un comportamiento más uniforme, ¿basta con comparar
los desvíos estándar? ¿por qué?
LONG (mm) 6,75 1,7
PESO (grs) 26,9 0,4
11) Se desea predecir el contenido de sales en un tipo de suelo a diferentes profundidades y se sabe que las variables están
relacionadas linealmente. Para ello se seleccionaron muestras (en un área de 100 m 2 en una zona al Noroeste de la Pcia. de
Córdoba) a diferentes profundidades (m) y se les midió el contenido de sales(%). Los datos obtenidos fueron presentados de
la siguiente manera:
Facultad de Cs. Exactas Fco, Qcas y Naturales - Dpto. de Matemática - ESTADISTICA (3809) – 1er Cuatrimestre 2023
a) Indica el objetivo del estudio y las variables que se
miden.
b) A partir del gráfico, ¿crees que sería razonable pensar
que la relación entre las variables es de tipo lineal?
c) Interpreta el significado de la pendiente de la recta
estimada.
d) ¿Puedes en este caso interpretar la ordenada al
origen de la recta estimada? Justifica.
e) En esta muestra ¿aproximadamente qué contenido
de sales posee este tipo de suelo a una profundidad
de 80 cm? ¿y de 3 metros?
Regression Analysis - Linear model: Yˆ= 92,8 -37,35*X f) ¿Puedes determinar el contenido de sales de este
Dependent variable: CONT sales
Independent variable: PROF
tipo de suelo con esta recta? Justifica.
Correlation Coefficient = -0,987797
R-squared = 97,5743 percent
Standard Error of Est. = 4,19458