E D
UN
z.
Bioestadı́stica
ére
Curso 2011-2012
aP
rcı́
Ga
so
Alfonso Garcı́a Pérez
on
Universidad Nacional de Educación a Distancia
Al f
D
2 Bioestadı́stica
E
Los siguientes Problemas corresponden a la Evaluación de la asignatura
Bioestadı́stica.
UN
Las soluciones debe enviarlas a
[email protected]
antes del 15 de Mayo si quiere ser evaluado en la convocatoria de Junio, o antes
del 1 de Septiembre si quiere ser evaluado en la convocatoria de Septiembre.
z.
Para resolverlos, el alumno debe analizar estadı́sticamente el problema,
resolverlo con la ayuda, si lo desea, de algún Paquete estadı́stico y obtener
finalmente las conclusiones adecuadas.
ére
aP
rcı́
Ga
so
on
Al f
D
Alfonso Garcı́a Pérez 3
E
Problema 1
Gooding y otros (1997) estudiaron el contenido de proteı́na en
UN
grano crudo de trigo (CP) y el número de Hagberg (HFN), un
indicador de la actividad de la enzima alfa-amilasa de la harina,
en unas cosechas del Reino Unido. En el estudio tomaron muestras
de la temperatura en el mes de Junio del trigo cultivado. Los datos
obtenidos en grados Celsius fueron los siguientes:
z.
15′ 2 , 14′ 2 , 14′ 0 , 12′ 2 , 14′ 4 , 12′ 5 , 14′ 3 , 14′ 2 , 13′ 5 , 11′ 8 , 15′ 2
ére
Suponiendo que puede admitirse que estos datos proceden de una
distribución normal,
a) Determinar un intervalo de confianza de coeficiente de con-
aP
fianza de 0′99 para la temperatura media.
b) Si suponemos, además de la normalidad de los datos, que
la desviación tı́pica poblacional es σ = 1, determinar el tamaño
muestral mı́nimo necesario para que el error en la estimación de la
temperatura media sea menor que 1 grado Celsius con, al menos,
probabilidad 0′ 95.
rcı́
Ga
Problema 2
Jaffe y otros (1982) estudiaron si puede admitirse que los plagui-
cidas orgánicos clorados se distribuyen de igual forma tanto en la
so
superficie como en el fondo de un rı́o contaminado. Para ello toma-
ron 10 muestras en la superficie y el fondo de un mismo lugar del
rı́o Wolf de Tennessee obteniendo los siguiente valores de hexaclo-
on
robenzeno (HCB) en nanogramos por litro:
Superficie 3′74 4′ 61 4′ 00 4′ 67 4′ 87 5′12 4′52 5′29 5′ 48 5′ 74
Fondo 5′44 6′ 88 5′ 37 5′ 44 5′ 03 6′48 3′89 5′85 7′ 16 6′ 85
Al f
Suponiendo que puede admitirse que estos datos proceden de dis-
tribuciones normales, ¿puede concluirse que no existen diferencias
significativas en los niveles de HCB en la superficie y en el fondo
del rı́o?
D
4 Bioestadı́stica
E
Problema 3
Se quiere analizar si se respeta el porcentaje esperado de feno-
UN
tipos 9:3:3:1 en el experimento que realizó MacArthur (1931) y en
el que se observaron las siguientes frecuencias de Fenotipos en los
tomates con lo que experimentó
Fenotipo Frecuencia Observada
Hoja de Corte Alta 926
z.
Hoja de Patata Alta 288
Hoja de Corte Baja 293
Hoja de Patata Baja 104
ére
¿Puede admitirse que los datos no contradicen el porcentaje espe-
rado de fenotipos 9:3:3:1?
aP
rcı́
Ga
so
on
Al f
D
Alfonso Garcı́a Pérez 5
E
Problema 1
a) Nos piden determinar un intervalo de confianza para la media de una
UN
distribución normal de varianza desconocida y tamaños muestrales pequeños
(CB-sección 6.2) cuya expresión es
S S
x − tn−1;α/2 √ , x + tn−1;α/2 √ .
n n
De los datos se deduce que es x = 13′ 77, S = 1′ 15 y tn−1;α/2 = t10;0′ 005 =
z.
3′ 169, por lo que el intervalo de confianza buscado será
ére
S S 1′ 15 1′ 15
x − tn−1;α/2 √ , x + tn−1;α/2 √ = 13 77 − 3 169 √ , 13′ 77 + 3′ 169 √
′ ′
n n 11 11
aP = [12′ 67 , 14′ 87].
Si quisiéramos determinar el intervalo con R incluirı́amos los datos en (1)
y ejecutarı́amos (2), obteniendo en (3) el mismo intervalo que antes.
> tempe<-c(15.2,14.2,14.0,12.2,14.4,12.5,14.3,14.2,13.5,11.8,15.2) (1)
rcı́
> t.test(tempe,conf.level=0.99) (2)
One Sample t-test
data: tempe
Ga
t = 39.7256, df = 10, p-value = 2.442e-12
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval:
12.67395 14.87150 (3)
sample estimates:
mean of x
so
13.77273
b) Nos piden determinar el tamaño de muestra mı́nimo necesario para
alcanzar una precisión determinada medida en términos de probabilidad. La
on
ecuación expresada en el enunciado es
P {|x − µ| < 1} ≥ 0′ 95.
Al f
En este caso de suponer que los datos proceden de una normal de varianza
conocida, N (µ, 1), CB-sección 5.4, será
x−µ
√ ; N (0, 1)
1/ n
con lo que la ecuación de probabilidad anterior se transforma en
D
6 Bioestadı́stica
E
√
P {|Z| < n} ≥ 0′ 95
UN
siendo Z ; N (0, 1). Es decir, se trata de determinar el n tal que
√
P {Z > n} ≤ 0′ 025.
√
De las tablas de la normal vemos que debe ser n ≥ 1′ 96, es decir, n ≥
3′ 8416 por lo que el tamaño muestral mı́nimo buscado es n = 4.
z.
Problema 2
Como las mediciones se realizan en un mismo lugar, existe dependencia
ére
entre los datos del Fondo y la Superficie por lo que se trata de un caso de
datos apareados. Lo primero en estos casos es determinar la variable diferencia
Dif =Fondo−Superficie. Con R serı́a:
> Super<-c(3.74,4.61,4.00,4.67,4.87,5.12,4.52,5.29,5.48,5.74)
aP
> Fondo<-c(5.44,6.88,5.37,5.44,5.03,6.48,3.89,5.85,7.16,6.85)
> Dif<-Fondo-Super
> Dif
[1] 1.70 2.27 1.37 0.77 0.16 1.36 -0.63 0.56 1.68 1.11
Si representamos por µ la media de la variable Diferencia, Dif , nos piden
rcı́
que contrastemos la hipótesis nula H0 : µ = 0 frente a la alternativa H0 : µ 6= 0.
Como se admite para las variables Superficie y Fondo una distribución normal,
también será normal la variable diferencia por lo que estamos ante un caso de
un contraste para la media de una normal, muestras pequeñas y con varianza
Ga
desconocida (CB-sección 7.2) en donde
|x − µ0 |
• Se acepta H0 si √ ≤ tn−1;α/2
so
S/ n
|x − µ0 |
• Se rechaza H0 si √ > tn−1;α/2
on
S/ n
Como es xDif = 1′ 035 y SDif = 0′ 846, será
Al f
|x − µ0 | |1′ 035 − 0|
√ = = 3′ 87
S/ n 0′ 2675
y el p-valor del test
2 · P {t9 > 3′ 87} < 2 · P {t9 > 3′ 69} = 2 · 0′ 0025 = 0′ 005
D
Alfonso Garcı́a Pérez 7
E
suficientemente pequeño como para rechazar la hipótesis nula de igualdad con
bastante seguridad.
UN
Si queremos realizar este test con R ejecutarı́amos
> t.test(Super,Fondo,paired=T)
Paired t-test
data: Super and Fondo
z.
t = -3.869, df = 9, p-value = 0.003795
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.6401546 -0.4298454
ére
sample estimates:
mean of the differences
-1.035
o, equivalentemente aP
> t.test(Dif)
One Sample t-test
data: Dif
t = 3.869, df = 9, p-value = 0.003795
rcı́
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
0.4298454 1.6401546
sample estimates:
Ga
mean of x
1.035
El p-valor, lógicamente es el mismo para ambos tests y lo suficientemente
pequeño para concluir con el rechazo de la hipótesis nula.
Problema 3
so
El problema que se nos plantea es de bondad del ajuste de los datos ob-
servados a los esperados por la proporción 9:3:3:1. Como se observaron 1611
tomates, las frecuencias esperadas, si fuera cierta la hipótesis nula de que los
on
datos observados siguen la distribución anterior, serán (1611 · 9)/16 = 906′ 19,
(1611 · 3)/16 = 302′ 06, (1611 · 3)/16 = 302′ 06, (1611 · 1)/16 = 100′ 69, es decir,
las de la siguiente tabla
Al f
Fenotipo Frecuencia Observada Frecuencia Esperada
Hoja de Corte Alta 926 906′ 19
Hoja de Patata Alta 288 302′ 06
Hoja de Corte Baja 293 302′ 06
Hoja de Patata Baja 104 100′ 69
1611 1611
D
8 Bioestadı́stica
E
Para aplicar ahora el test χ2 de bondad del ajuste (CB-sección 12.2) sólo
habrá que analizar si hay o no diferencias significativas entre las frecuencias
UN
observadas ni y las esperadas, mediante el estadı́stico de Pearson
X (ni − npi )2 X n2
i
λ= = − n = 1612′ 468 − 1611 = 1′ 468.
npi npi
i i
z.
La distribución de λ es una χ2 , con grados de libertad el número de clases,
4, menos 1, ya que, en esta ocasión, no hemos utilizado la muestra en la
estimación de ningún parámetro.
ére
A partir de la tabla 4 de la distribución χ2 obtenemos que el p-valor,
P {χ23 > 1′ 468}, está acotado por
P {χ23 > 3′ 665} < P {χ23 > 1′ 468} < P {χ23 > 1′ 424}
es decir, por
aP
0′ 3 < P {χ23 > 1′ 468} < 0′ 7.
El que sea p-valor> 0′ 3 lleva a la conclusión clara que se acepta la hipótesis
nula; es decir, a afirmar que los tomates analizados respetan la proporción de
rcı́
fenotipos 9:3:3:1.
Si queremos resolver este test con R ejecutarı́amos la siguiente secuencia
Ga
x<-c(926,288,293,104)
p1<-c(9/16,3/16,3/16,1/16)
chisq.test(x,p=p1)
Chi-squared test for given probabilities
data: x
so
X-squared = 1.4687, df = 3, p-value = 0.6895
Obteniéndose los mismos resultados, lógicamente, que más arriba. Ahora
obtenemos un valor concreto del p-valor, igual a 0′ 6895 que confirma la decisión
on
tomada.
Al f
D
Alfonso Garcı́a Pérez 9
E
Referencias
UN
Gooding, M.J., Smith, G., Davies, W.P. y Kettlewell, P.S. (1997). The use of residual
maximum likelihood to model grain quality characters of wheat with variety, climatic
and nitrogen fertilizer effects. The Journal of Agricultural Science, 128, 135-142.
Jaffe, P.R., Parker F.L. y Wilson, D.J. (1982). Distribution of toxic substances in rivers.
Journal of the Environmental Engineering Division, 108, 639-649.
MacArthur, J.W. (1931). Linkage studies with the tomato. III. Fifteen factors in six groups.
Transactions of the Royal Canadian Institute, 18, 1-19.
z.
CB: Estadı́stica Aplicada: Conceptos Básicos, segunda edición, 2008. Alfonso Garcı́a
Pérez. Editorial UNED, Colección Educación Permanente (código: 0184011EP01A02).
ére
PREB: Problemas Resueltos de Estadı́stica Básica, 1998. Alfonso Garcı́a Pérez. Edi-
torial UNED, Colección Educación Permanente (código: 84011EP31A01).
EEA: Ejercicios de Estadı́stica Aplicada, 2008. Alfonso Garcı́a Pérez. Editorial UNED,
Colección Cuadernos de la UNED (código: 0135284CU01A01).
EAR: Estadı́stica Aplicada con R, 2008. Alfonso Garcı́a Pérez. Editorial UNED, Co-
aP
lección Varia (código: 0137352PB01A01).
ADD: Fórmulas y tablas estadı́sticas, 1998. Alfonso Garcı́a Pérez. Editorial UNED,
Colección Addendas (código: 0141206AD01A01).
rcı́
Ga
so
on
Al f